[
  {
    "path": ".github/CODEOWNERS",
    "content": "# Setting up CODEOWNERS for UST related codebase\n# Documentation for open sourced models relevant to UST\nexamples/speech_to_text     @kahne @sravyapopuri388 @jmp84\nexamples/speech_to_speech   @an918tw @sravyapopuri388 @jmp84\nexamples/speech_synthesis   @kahne @jmp84\nexamples/simultaneous_translation   @kahne @jmp84\nexamples/speech_text_joint_to_text  @yuntang @jmp84\n\n# Speech related models relevant to UST\nfairseq/models/speech_to_speech @sravyapopuri388 @jmp84\nfairseq/models/speech_to_text   @kahne @sravyapopuri388 @jmp84\nfairseq/models/text_to_speech   @kahne @jmp84\n\n# CONFORMER IMPLEMENTATION\nfairseq/modules/conformer_layer.py @sravyapopuri388 @jmp84\nfairseq/modules/espnet_multihead_attention.py @sravyapopuri388 @jmp84\nfairseq/modules/rotary_positional_embedding.py @sravyapopuri388 @jmp84\nfairseq/modules/positional_encoding.py @sravyapopuri388 @jmp84\n\n# Machine Translation/NLLB\nfairseq/tasks/translation.py @gwenzek\n"
  },
  {
    "path": ".github/ISSUE_TEMPLATE/bug_report.md",
    "content": "---\nname: 🐛 Bug Report\nabout: Submit a bug report to help us improve\nlabels: 'bug, needs triage'\n---\n\n## 🐛 Bug\n\n<!-- A clear and concise description of what the bug is. -->\n\n### To Reproduce\n\nSteps to reproduce the behavior (**always include the command you ran**):\n\n1. Run cmd '....'\n2. See error\n\n<!-- If you have a code sample, error messages, stack traces, please provide it here as well -->\n\n\n#### Code sample\n<!-- Ideally attach a minimal code sample to reproduce the decried issue.\nMinimal means having the shortest code but still preserving the bug. -->\n\n### Expected behavior\n\n<!-- A clear and concise description of what you expected to happen. -->\n\n### Environment\n\n - fairseq Version (e.g., 1.0 or main):\n - PyTorch Version (e.g., 1.0)\n - OS (e.g., Linux):\n - How you installed fairseq (`pip`, source):\n - Build command you used (if compiling from source):\n - Python version:\n - CUDA/cuDNN version:\n - GPU models and configuration:\n - Any other relevant information:\n\n### Additional context\n\n<!-- Add any other context about the problem here. -->\n"
  },
  {
    "path": ".github/ISSUE_TEMPLATE/documentation.md",
    "content": "---\nname: 📚 Documentation/Typos\nabout: Report an issue related to documentation or a typo\nlabels: 'documentation, needs triage'\n---\n\n## 📚 Documentation\n\nFor typos and doc fixes, please go ahead and:\n\n1. Create an issue.\n2. Fix the typo.\n3. Submit a PR.\n\nThanks!\n"
  },
  {
    "path": ".github/ISSUE_TEMPLATE/feature_request.md",
    "content": "---\nname: 🚀 Feature Request\nabout: Submit a proposal/request for a new feature\nlabels: 'enhancement, help wanted, needs triage'\n---\n\n## 🚀 Feature Request\n<!-- A clear and concise description of the feature proposal -->\n\n### Motivation\n\n<!-- Please outline the motivation for the proposal. Is your feature request related to a problem? e.g., I'm always frustrated when [...]. If this is related to another GitHub issue, please link here too -->\n\n### Pitch\n\n<!-- A clear and concise description of what you want to happen. -->\n\n### Alternatives\n\n<!-- A clear and concise description of any alternative solutions or features you've considered, if any. -->\n\n### Additional context\n\n<!-- Add any other context or screenshots about the feature request here. -->\n"
  },
  {
    "path": ".github/ISSUE_TEMPLATE/how-to-question.md",
    "content": "---\nname: ❓ Questions/Help\nabout: If you have questions, please first search existing issues and docs\nlabels: 'question, needs triage'\n---\n\n## ❓ Questions and Help\n\n### Before asking:\n1. search the issues.\n2. search the docs.\n\n<!-- If you still can't find what you need: -->\n\n#### What is your question?\n\n#### Code\n\n<!-- Please paste a code snippet if your question requires it! -->\n\n#### What have you tried?\n\n#### What's your environment?\n\n - fairseq Version (e.g., 1.0 or main):\n - PyTorch Version (e.g., 1.0)\n - OS (e.g., Linux):\n - How you installed fairseq (`pip`, source):\n - Build command you used (if compiling from source):\n - Python version:\n - CUDA/cuDNN version:\n - GPU models and configuration:\n - Any other relevant information:\n"
  },
  {
    "path": ".github/ISSUE_TEMPLATE.md",
    "content": "## 👉 [Please follow one of these issue templates](https://github.com/pytorch/fairseq/issues/new/choose) 👈\n\nNote: to keep the backlog clean and actionable, issues may be immediately closed if they do not follow one of the above issue templates.\n"
  },
  {
    "path": ".github/PULL_REQUEST_TEMPLATE.md",
    "content": "# Before submitting\n\n- [ ] Was this discussed/approved via a Github issue? (no need for typos, doc improvements)\n- [ ] Did you read the [contributor guideline](https://github.com/pytorch/fairseq/blob/main/CONTRIBUTING.md)?\n- [ ] Did you make sure to update the docs?\n- [ ] Did you write any new necessary tests?\n\n## What does this PR do?\nFixes # (issue).\n\n## PR review\nAnyone in the community is free to review the PR once the tests have passed.\nIf we didn't discuss your PR in Github issues there's a high chance it will not be merged.\n\n## Did you have fun?\nMake sure you had fun coding 🙃\n"
  },
  {
    "path": ".github/stale.yml",
    "content": "# Configuration for probot-stale - https://github.com/probot/stale\n# Mostly copied from github.com/facebook/react/blob/master/.github/stale.yml\n# Number of days of inactivity before an issue becomes stale\ndaysUntilStale: 90\n# Number of days of inactivity before a stale issue is closed\ndaysUntilClose: 7\n# Issues with these labels will never be considered stale\nexemptLabels:\n  - bug\n# Label to use when marking an issue as stale\nstaleLabel: stale\nissues:\n  # Comment to post when marking an issue as stale.\n  markComment: >\n    This issue has been automatically marked as stale.\n    **If this issue is still affecting you, please leave any comment** (for example, \"bump\"), and we'll keep it open.\n    We are sorry that we haven't been able to prioritize it yet. If you have any new additional information, please include it with your comment!\n  # Comment to post when closing a stale issue.\n  closeComment: >\n    Closing this issue after a prolonged period of inactivity. If this issue is still present in the latest release, please create a new issue with up-to-date information. Thank you!\npulls:\n  # Comment to post when marking a pull request as stale.\n  markComment: >\n    This pull request has been automatically marked as stale.\n    **If this pull request is still relevant, please leave any comment** (for example, \"bump\"), and we'll keep it open.\n    We are sorry that we haven't been able to prioritize reviewing it yet. Your contribution is very much appreciated.\n  # Comment to post when closing a stale pull request.\n  closeComment: >\n    Closing this pull request after a prolonged period of inactivity. If this issue is still present in the latest release, please ask for this pull request to be reopened. Thank you!\n\n"
  },
  {
    "path": ".github/workflows/build.yml",
    "content": "name: build\n\non:\n  # Trigger the workflow on push to main or any pull request\n  push:\n    branches:\n      - main\n  pull_request:\n\njobs:\n  build:\n\n    strategy:\n      max-parallel: 4\n      matrix:\n        platform: [ubuntu-latest, macos-latest]\n        python-version: [3.8, 3.9]\n\n    runs-on: ${{ matrix.platform }}\n\n    steps:\n    - uses: actions/checkout@v2\n\n    - name: Set up Python ${{ matrix.python-version }}\n      uses: actions/setup-python@v2\n      with:\n        python-version: ${{ matrix.python-version }}\n\n    - name: Conditionally install pytorch\n      if: matrix.platform == 'windows-latest'\n      run: pip3 install torch -f https://download.pytorch.org/whl/torch_stable.html\n\n    - name: Install locally\n      run: |\n        python -m pip install --upgrade pip\n        git submodule update --init --recursive\n        python -m pip install .\n\n    - name: Check installation\n      working-directory: /tmp\n      run: python $GITHUB_WORKSPACE/scripts/check_installation.py\n\n    - name: Install optional test requirements\n      run: |\n        python -m pip install '.[dev,docs]'\n        python -m pip install iopath transformers pyarrow\n        python -m pip install git+https://github.com/facebookresearch/fairscale.git@main\n        python -m pip install pygit2 pgzip\n        \n    - name: Install xformers for Macos\n      if: matrix.platform == 'macos-latest'\n      run: |\n        brew install llvm libomp\n        CC=/usr/local/opt/llvm/bin/clang CXX=clang++ pip install git+https://github.com/facebookresearch/xformers.git@main\n\n    - name: Install xformers for non-MacOS\n      if: matrix.platform != 'macos-latest'\n      run: |\n        python -m pip install --progress-bar off git+https://github.com/facebookresearch/xformers.git@main\n\n    - name: Lint with black\n      run: black --check --diff .\n\n    - name: Lint with flake8\n      run: |\n        # stop the build if there are Python syntax errors or undefined names\n        flake8 . --count --select=E9,F63,F7,F82 --show-source --statistics\n        # exit-zero treats all errors as warnings. The GitHub editor is 127 chars wide\n        flake8 . --count --exit-zero --max-complexity=10 --max-line-length=127 --statistics\n\n    - name: Build doc\n      run: make singlehtml\n      working-directory: docs/\n\n    - name: Run tests\n      # When installing in non-editable mode, the .so files will be generated in 'site-packages/fairseq'.\n      # But by default, pytest import machinery will load local fairseq, and won't see the .so.\n      # Use --import-mode=append to favorize the 'site-packages/fairseq'.\n      # https://docs.pytest.org/en/7.1.x/explanation/pythonpath.html\n      run: pytest --import-mode=append -vvv tests/\n\n"
  },
  {
    "path": ".github/workflows/depreview.yml",
    "content": "name: 'Dependency Review'\non: [pull_request]\n\npermissions:\n  contents: read\n\njobs:\n  dependency-review:\n    runs-on: ubuntu-latest\n    steps:\n     - name: 'Checkout Repository'\n       uses: actions/checkout@v4\n     - name: Dependency Review\n       uses: actions/dependency-review-action@v4\n"
  },
  {
    "path": ".github/workflows/release.yml",
    "content": "name: Fairseq Release\n\non:\n  workflow_dispatch:\n    inputs:\n      name:\n        description: 'Release Type'\n        default: 'patch'\n        required: true\n\njobs:\n\n  get_next_version:\n    runs-on: ubuntu-latest\n    steps:\n      - name: checkout-repo-content\n        uses: actions/checkout@v2\n\n      - name: setup-python\n        uses: actions/setup-python@v2\n        with:\n          python-version: 3.8\n\n      - name: get next version and tag\n        id: get-next-version-and-tag\n        run: |\n          output=$(python3 release_utils.py --release-type ${{ github.event.inputs.name }}) \n          echo $output\n          new_version=$(echo $output | awk '{print $1}')\n          new_tag=$(echo $output | awk '{print $2}')\n          echo \"new version is $new_version\"\n          echo \"new tag is $new_tag\"\n          echo ::set-output name=version::$new_version\n          echo ::set-output name=tag::$new_tag\n          echo ::set-output name=branch_name::$new_version-release\n          echo \"NEW_TAG=$new_tag\" >> $GITHUB_ENV\n          echo \"NEW_BRANCH=$new_version-release\" >> $GITHUB_ENV\n\n\n      # update the version number in version.txt\n      - name: update version\n        id: update-version\n        run : |\n          echo \"current folder = $PWD\"\n          echo \"current branch = $(git branch --show-current)\"\n          output=$(python3 release_utils.py --release-type ${{ github.event.inputs.name }} --update-version)\n\n      - name: add and commit\n        uses: EndBug/add-and-commit@v9\n        with:\n          author_name: ${{ secrets.AUTHOR_NAME }}\n          author_email: ${{ secrets.AUTHOR_EMAIL }}\n\n          # TODO: change this to main once shipit is disabled.\n          new_branch: '${{ env.NEW_BRANCH }}'\n          default_author: github_actor\n          message: '${{ env.NEW_TAG }} release'\n          pathspec_error_handling: exitAtEnd\n\n          # Arguments for the git pull command. Use NO-PULL to avoid the action pulling at all.\n          # pull: 'NO-PULL'\n          tag: '${{ env.NEW_TAG }}'\n\n    outputs:\n      new_version: ${{ steps.get-next-version-and-tag.outputs.version }}\n      new_tag: ${{ steps.get-next-version-and-tag.outputs.tag }}\n      branch_name: ${{ steps.get-next-version-and-tag.outputs.branch_name }}\n\n  create_sdist:\n    runs-on: ubuntu-latest\n    name: Create Source Distribution\n    needs: get_next_version\n    steps:\n      - uses: actions/checkout@v3\n        with:\n          ref: ${{ needs.get_next_version.outputs.branch_name }}\n\n      - name: Install Python\n        uses: actions/setup-python@v2\n        with:\n          python-version: '3.8'\n\n      - name: Upgrade pip\n        run: |\n          python3 -m pip install --upgrade pip\n\n      - name: Create Source Distribution\n        run: |\n          python3 -m pip install setuptools wheel twine torch\n          python3 setup.py sdist\n \n      - uses: actions/upload-artifact@v2\n        with:\n          path: dist/*.tar.gz\n\n  build_wheels:\n    name: Build wheels on ${{ matrix.os }}\n    runs-on: ${{ matrix.os }}\n    needs: get_next_version\n    strategy:\n      matrix:\n        os: [ubuntu-latest, macos-latest]\n\n    steps:\n      - uses: actions/checkout@v3\n        with:\n          ref: ${{ needs.get_next_version.outputs.branch_name }}\n\n      - name: Install Python\n        uses: actions/setup-python@v2\n        with:\n          python-version: '3.8'\n\n      - name: Upgrade pip\n        run: |\n          python3 -m pip install --upgrade pip\n\n      - name: Install cibuildwheel\n        run: |\n          python3 -m pip install cibuildwheel\n\n      - name: Build wheels for CPython\n        run: |\n          python3 -m cibuildwheel --output-dir dist\n        env:\n          CIBW_BUILD: \"cp38-*64\"\n          CIBW_MANYLINUX_X86_64_IMAGE: manylinux1\n          CIBW_BEFORE_BUILD: git submodule update --init --recursive && pip install .\n          # Install system library\n          CIBW_BEFORE_BUILD_LINUX: (yum install -y libffi-devel || apt-get install -y libffi-devel || apk add --update --no-cache libffi-devel || true) && (yum install -y libc6 || apt-get install -y libc6 || apk add --update --no-cache libc6 || true)\n          CIBW_ENVIRONMENT: \"PIP_ONLY_BINARY=numpy\"\n          CIBW_SKIP: \"*musllinux*\"\n\n      - uses: actions/upload-artifact@v2\n        with:\n          path: dist\n\n  upload:\n    name: Upload to PyPi and create release\n    runs-on: ubuntu-latest\n    needs: [build_wheels, create_sdist, get_next_version]\n    steps:\n      - uses: actions/download-artifact@v2\n        with:\n          name: artifact\n          path: dist\n\n      # build the PyPI package and upload it\n      - name: upload\n        env:\n          TWINE_USERNAME: ${{ secrets.PYPI_USERNAME }}\n          TWINE_PASSWORD: ${{ secrets.PYPI_PASSWORD }}\n        run: |\n          pip install setuptools wheel twine\n          python3 -m twine upload --repository pypi dist/*\n\n      # create the release on github\n      - name: create release on github\n        uses: ncipollo/release-action@v1\n        with:\n          tag: '${{ needs.get_next_version.outputs.new_tag }}'\n"
  },
  {
    "path": ".gitignore",
    "content": "# JetBrains PyCharm IDE\n.idea/\n\n# Byte-compiled / optimized / DLL files\n__pycache__/\n*.py[cod]\n*$py.class\n\n# C extensions\n*.so\n\n# macOS dir files\n.DS_Store\n\n# Distribution / packaging\n.Python\nenv/\nbuild/\ndevelop-eggs/\ndist/\ndownloads/\neggs/\n.eggs/\nlib/\nlib64/\nparts/\nsdist/\nvar/\nwheels/\n*.egg-info/\n.installed.cfg\n*.egg\n\n# Checkpoints\ncheckpoints\n\n# PyInstaller\n#  Usually these files are written by a python script from a template\n#  before PyInstaller builds the exe, so as to inject date/other infos into it.\n*.manifest\n*.spec\n\n# Installer logs\npip-log.txt\npip-delete-this-directory.txt\n\n# Unit test / coverage reports\nhtmlcov/\n.tox/\n.coverage\n.coverage.*\n.cache\nnosetests.xml\ncoverage.xml\n*.cover\n.hypothesis/\n\n# Translations\n*.mo\n*.pot\n\n# Django stuff:\n*.log\nlocal_settings.py\n\n# Flask stuff:\ninstance/\n.webassets-cache\n\n# Scrapy stuff:\n.scrapy\n\n# Sphinx documentation\ndocs/_build/\n\n# PyBuilder\ntarget/\n\n# Jupyter Notebook\n.ipynb_checkpoints\n\n# pyenv\n.python-version\n\n# celery beat schedule file\ncelerybeat-schedule\n\n# SageMath parsed files\n*.sage.py\n\n# dotenv\n.env\n\n# virtualenv\n.venv\nvenv/\nENV/\n\n# Spyder project settings\n.spyderproject\n.spyproject\n\n# Rope project settings\n.ropeproject\n\n# mkdocs documentation\n/site\n\n# mypy\n.mypy_cache/\n\n# Generated files\n/fairseq/temporal_convolution_tbc\n/fairseq/modules/*_layer/*_forward.cu\n/fairseq/modules/*_layer/*_backward.cu\n/fairseq/version.py\n\n# data\ndata-bin/\n\n# reranking\n/examples/reranking/rerank_data\n\n# Cython-generated C++ source files\n/fairseq/data/data_utils_fast.cpp\n/fairseq/data/token_block_utils_fast.cpp\n\n# VSCODE\n.vscode/ftp-sync.json\n.vscode/settings.json\n\n# Experimental Folder\nexperimental/*\n\n# Weights and Biases logs\nwandb/\n\n# Hydra artifacts\nnohup.out\nmultirun\noutputs\n"
  },
  {
    "path": ".gitmodules",
    "content": "[submodule \"fairseq/model_parallel/megatron\"]\n    path = fairseq/model_parallel/megatron\n    url = https://github.com/ngoyal2707/Megatron-LM\n    branch = fairseq\n"
  },
  {
    "path": ".pre-commit-config.yaml",
    "content": "exclude: 'build|stubs'\n\ndefault_language_version:\n    python: python3\n\nrepos:\n-   repo: https://github.com/pre-commit/pre-commit-hooks\n    rev: v4.1.0\n    hooks:\n    -   id: trailing-whitespace\n    -   id: check-ast\n    -   id: check-merge-conflict\n    -   id: no-commit-to-branch\n        args: ['--branch=master']\n    -   id: check-added-large-files\n        args: ['--maxkb=500']\n    -   id: end-of-file-fixer\n\n-   repo: https://github.com/ambv/black\n    rev: 22.3.0\n    hooks:\n    - id: black\n      language_version: python3.8\n\n-   repo: https://gitlab.com/pycqa/flake8\n    rev: 3.9.2\n    hooks:\n    -   id: flake8\n        args: [\n            # only error for syntax errors and undefined names\n            \"--select=E9,F63,F7,F82\",\n        ]\n\n-   repo: https://github.com/pycqa/isort\n    rev: 5.10.1\n    hooks:\n    -   id: isort\n        exclude: README.md\n        additional_dependencies: [toml]\n        args: [\"--profile\", \"black\"]\n"
  },
  {
    "path": "CODE_OF_CONDUCT.md",
    "content": "# Code of Conduct\n\n## Our Pledge\n\nIn the interest of fostering an open and welcoming environment, we as\ncontributors and maintainers pledge to make participation in our project and\nour community a harassment-free experience for everyone, regardless of age, body\nsize, disability, ethnicity, sex characteristics, gender identity and expression,\nlevel of experience, education, socio-economic status, nationality, personal\nappearance, race, religion, or sexual identity and orientation.\n\n## Our Standards\n\nExamples of behavior that contributes to creating a positive environment\ninclude:\n\n* Using welcoming and inclusive language\n* Being respectful of differing viewpoints and experiences\n* Gracefully accepting constructive criticism\n* Focusing on what is best for the community\n* Showing empathy towards other community members\n\nExamples of unacceptable behavior by participants include:\n\n* The use of sexualized language or imagery and unwelcome sexual attention or\n  advances\n* Trolling, insulting/derogatory comments, and personal or political attacks\n* Public or private harassment\n* Publishing others' private information, such as a physical or electronic\n  address, without explicit permission\n* Other conduct which could reasonably be considered inappropriate in a\n  professional setting\n\n## Our Responsibilities\n\nProject maintainers are responsible for clarifying the standards of acceptable\nbehavior and are expected to take appropriate and fair corrective action in\nresponse to any instances of unacceptable behavior.\n\nProject maintainers have the right and responsibility to remove, edit, or\nreject comments, commits, code, wiki edits, issues, and other contributions\nthat are not aligned to this Code of Conduct, or to ban temporarily or\npermanently any contributor for other behaviors that they deem inappropriate,\nthreatening, offensive, or harmful.\n\n## Scope\n\nThis Code of Conduct applies within all project spaces, and it also applies when\nan individual is representing the project or its community in public spaces.\nExamples of representing a project or community include using an official\nproject e-mail address, posting via an official social media account, or acting\nas an appointed representative at an online or offline event. Representation of\na project may be further defined and clarified by project maintainers.\n\n## Enforcement\n\nInstances of abusive, harassing, or otherwise unacceptable behavior may be\nreported by contacting the project team at <conduct@pytorch.org>. All\ncomplaints will be reviewed and investigated and will result in a response that\nis deemed necessary and appropriate to the circumstances. The project team is\nobligated to maintain confidentiality with regard to the reporter of an incident.\nFurther details of specific enforcement policies may be posted separately.\n\nProject maintainers who do not follow or enforce the Code of Conduct in good\nfaith may face temporary or permanent repercussions as determined by other\nmembers of the project's leadership.\n\n## Attribution\n\nThis Code of Conduct is adapted from the [Contributor Covenant][homepage], version 1.4,\navailable at https://www.contributor-covenant.org/version/1/4/code-of-conduct.html\n\n[homepage]: https://www.contributor-covenant.org\n\nFor answers to common questions about this code of conduct, see\nhttps://www.contributor-covenant.org/faq\n\n"
  },
  {
    "path": "CONTRIBUTING.md",
    "content": "# Contributing to Facebook AI Research Sequence-to-Sequence Toolkit (fairseq)\nWe want to make contributing to this project as easy and transparent as\npossible.\n\n## Pull Requests\nWe actively welcome your pull requests.\n\n1. Fork the repo and create your branch from `main`.\n2. If you've added code that should be tested, add tests.\n3. If you've changed APIs, update the documentation.\n4. Ensure the test suite passes.\n5. Make sure your code lints.\n6. If you haven't already, complete the Contributor License Agreement (\"CLA\").\n\n## Contributor License Agreement (\"CLA\")\nIn order to accept your pull request, we need you to submit a CLA. You only need\nto do this once to work on any of Facebook's open source projects.\n\nComplete your CLA here: <https://code.facebook.com/cla>\n\n## Issues\nWe use GitHub issues to track public bugs. Please ensure your description is\nclear and has sufficient instructions to be able to reproduce the issue.\n\n## License\nBy contributing to Facebook AI Research Sequence-to-Sequence Toolkit (fairseq),\nyou agree that your contributions will be licensed under the LICENSE file in\nthe root directory of this source tree.\n\n## Pre-commit hooks\nIn order to ensure your code lints, there are pre-commit hooks configured in the repository which you can install.\nAfter installation, they will automatically run each time you commit.\nAn abbreviated guide is given below; for more information, refer to [the offical pre-commit documentation](https://pre-commit.com/).\n\n### Installation\n```\npip install pre-commit\npre-commit install\n```\n\n### Usage\nJust commit your changes:\n```\ngit commit -m \"My informative commit message\"\n```\n\nIf there was a failure, you will get feedback\n```\n[INFO] Initializing environment for https://github.com/PyCQA/flake8.\n[INFO] Installing environment for https://github.com/pre-commit/pre-commit-hooks.\n[INFO] Once installed this environment will be reused.\n[INFO] This may take a few minutes...\n[INFO] Installing environment for https://github.com/PyCQA/flake8.\n[INFO] Once installed this environment will be reused.\n[INFO] This may take a few minutes...\nTrim Trailing Whitespace.................................................Failed\n- hook id: trailing-whitespace\n- exit code: 1\n- files were modified by this hook\nFixing examples/nllb/modeling/wmt15_benchmark/eval_langs2.sh\nFix End of Files.........................................................Failed\n- hook id: end-of-file-fixer\n- exit code: 1\n- files were modified by this hook\nFixing examples/few_shot/scripts/schedule_jobs_few_shot.py\nflake8...................................................................Passed\n```\n\nCertain hooks modify your files to comply.\nTo include these modifications, you will need to add them (i.e. `git add ...`) and commit again.\n\nIf all is well, you should see something like:\n```\nTrim Trailing Whitespace.................................................Passed\nFix End of Files.........................................................Passed\nflake8...................................................................Passed\n[gshard-fix-ci 8698644e1] Fix lint, add pre-commit hooks\n 10 files changed, 148 insertions(+), 110 deletions(-)\n create mode 100644 .flake8\n create mode 100644 .pre-commit-config.yaml\n rename examples/nllb/modeling/wmt15_benchmark/{eval_langs2.py => eval_langs2.sh} (99%)\n ```\n"
  },
  {
    "path": "LICENSE",
    "content": "MIT License\n\nCopyright (c) Facebook, Inc. and its affiliates.\n\nPermission is hereby granted, free of charge, to any person obtaining a copy\nof this software and associated documentation files (the \"Software\"), to deal\nin the Software without restriction, including without limitation the rights\nto use, copy, modify, merge, publish, distribute, sublicense, and/or sell\ncopies of the Software, and to permit persons to whom the Software is\nfurnished to do so, subject to the following conditions:\n\nThe above copyright notice and this permission notice shall be included in all\ncopies or substantial portions of the Software.\n\nTHE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\nIMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\nFITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE\nAUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\nLIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,\nOUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE\nSOFTWARE.\n"
  },
  {
    "path": "MANIFEST.in",
    "content": "include fairseq/version.txt\n"
  },
  {
    "path": "README.md",
    "content": "<p align=\"center\">\n  <img src=\"docs/fairseq_logo.png\" width=\"150\">\n  <br />\n  <br />\n  <a href=\"https://opensource.fb.com/support-ukraine\"><img alt=\"Support Ukraine\" src=\"https://img.shields.io/badge/Support-Ukraine-FFD500?style=flat&labelColor=005BBB\" /></a>\n  <a href=\"https://github.com/pytorch/fairseq/blob/main/LICENSE\"><img alt=\"MIT License\" src=\"https://img.shields.io/badge/license-MIT-blue.svg\" /></a>\n  <a href=\"https://github.com/pytorch/fairseq/releases\"><img alt=\"Latest Release\" src=\"https://img.shields.io/github/release/pytorch/fairseq.svg\" /></a>\n  <a href=\"https://github.com/pytorch/fairseq/actions?query=workflow:build\"><img alt=\"Build Status\" src=\"https://github.com/pytorch/fairseq/workflows/build/badge.svg\" /></a>\n  <a href=\"https://fairseq.readthedocs.io/en/latest/?badge=latest\"><img alt=\"Documentation Status\" src=\"https://readthedocs.org/projects/fairseq/badge/?version=latest\" /></a>\n  <a href=\"https://app.circleci.com/pipelines/github/facebookresearch/fairseq/\"><img alt=\"CicleCI Status\" src=\"https://circleci.com/gh/facebookresearch/fairseq.svg?style=shield\" /></a>\n</p>\n\n--------------------------------------------------------------------------------\n\nFairseq(-py) is a sequence modeling toolkit that allows researchers and\ndevelopers to train custom models for translation, summarization, language\nmodeling and other text generation tasks.\n\nWe provide reference implementations of various sequence modeling papers:\n\n<details><summary>List of implemented papers</summary><p>\n\n* **Convolutional Neural Networks (CNN)**\n  + [Language Modeling with Gated Convolutional Networks (Dauphin et al., 2017)](examples/language_model/conv_lm/README.md)\n  + [Convolutional Sequence to Sequence Learning (Gehring et al., 2017)](examples/conv_seq2seq/README.md)\n  + [Classical Structured Prediction Losses for Sequence to Sequence Learning (Edunov et al., 2018)](https://github.com/pytorch/fairseq/tree/classic_seqlevel)\n  + [Hierarchical Neural Story Generation (Fan et al., 2018)](examples/stories/README.md)\n  + [wav2vec: Unsupervised Pre-training for Speech Recognition (Schneider et al., 2019)](examples/wav2vec/README.md)\n* **LightConv and DynamicConv models**\n  + [Pay Less Attention with Lightweight and Dynamic Convolutions (Wu et al., 2019)](examples/pay_less_attention_paper/README.md)\n* **Long Short-Term Memory (LSTM) networks**\n  + Effective Approaches to Attention-based Neural Machine Translation (Luong et al., 2015)\n* **Transformer (self-attention) networks**\n  + Attention Is All You Need (Vaswani et al., 2017)\n  + [Scaling Neural Machine Translation (Ott et al., 2018)](examples/scaling_nmt/README.md)\n  + [Understanding Back-Translation at Scale (Edunov et al., 2018)](examples/backtranslation/README.md)\n  + [Adaptive Input Representations for Neural Language Modeling (Baevski and Auli, 2018)](examples/language_model/README.adaptive_inputs.md)\n  + [Lexically constrained decoding with dynamic beam allocation (Post & Vilar, 2018)](examples/constrained_decoding/README.md)\n  + [Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context (Dai et al., 2019)](examples/truncated_bptt/README.md)\n  + [Adaptive Attention Span in Transformers (Sukhbaatar et al., 2019)](examples/adaptive_span/README.md)\n  + [Mixture Models for Diverse Machine Translation: Tricks of the Trade (Shen et al., 2019)](examples/translation_moe/README.md)\n  + [RoBERTa: A Robustly Optimized BERT Pretraining Approach (Liu et al., 2019)](examples/roberta/README.md)\n  + [Facebook FAIR's WMT19 News Translation Task Submission (Ng et al., 2019)](examples/wmt19/README.md)\n  + [Jointly Learning to Align and Translate with Transformer Models (Garg et al., 2019)](examples/joint_alignment_translation/README.md )\n  + [Multilingual Denoising Pre-training for Neural Machine Translation (Liu et at., 2020)](examples/mbart/README.md)\n  + [Neural Machine Translation with Byte-Level Subwords (Wang et al., 2020)](examples/byte_level_bpe/README.md)\n  + [Unsupervised Quality Estimation for Neural Machine Translation (Fomicheva et al., 2020)](examples/unsupervised_quality_estimation/README.md)\n  + [wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations (Baevski et al., 2020)](examples/wav2vec/README.md)\n  + [Generating Medical Reports from Patient-Doctor Conversations Using Sequence-to-Sequence Models (Enarvi et al., 2020)](examples/pointer_generator/README.md)\n  + [Linformer: Self-Attention with Linear Complexity (Wang et al., 2020)](examples/linformer/README.md)\n  + [Cross-lingual Retrieval for Iterative Self-Supervised Training (Tran et al., 2020)](examples/criss/README.md)\n  + [Deep Transformers with Latent Depth (Li et al., 2020)](examples/latent_depth/README.md)\n  + [Unsupervised Cross-lingual Representation Learning for Speech Recognition (Conneau et al., 2020)](https://arxiv.org/abs/2006.13979)\n  + [Self-training and Pre-training are Complementary for Speech Recognition (Xu et al., 2020)](https://arxiv.org/abs/2010.11430)\n  + [Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised Pre-Training (Hsu, et al., 2021)](https://arxiv.org/abs/2104.01027)\n  + [Unsupervised Speech Recognition (Baevski, et al., 2021)](https://arxiv.org/abs/2105.11084)\n  + [Simple and Effective Zero-shot Cross-lingual Phoneme Recognition (Xu et al., 2021)](https://arxiv.org/abs/2109.11680)\n  + [VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding (Xu et. al., 2021)](https://arxiv.org/pdf/2109.14084.pdf)\n  + [VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding (Xu et. al., 2021)](https://aclanthology.org/2021.findings-acl.370.pdf)\n  + [NormFormer: Improved Transformer Pretraining with Extra Normalization (Shleifer et. al, 2021)](examples/normformer/README.md)\n* **Non-autoregressive Transformers**\n  + Non-Autoregressive Neural Machine Translation (Gu et al., 2017)\n  + Deterministic Non-Autoregressive Neural Sequence Modeling by Iterative Refinement (Lee et al. 2018)\n  + Insertion Transformer: Flexible Sequence Generation via Insertion Operations (Stern et al. 2019)\n  + Mask-Predict: Parallel Decoding of Conditional Masked Language Models (Ghazvininejad et al., 2019)\n  + [Levenshtein Transformer (Gu et al., 2019)](examples/nonautoregressive_translation/README.md)\n* **Finetuning**\n  + [Better Fine-Tuning by Reducing Representational Collapse (Aghajanyan et al. 2020)](examples/rxf/README.md)\n\n</p></details>\n\n### What's New:\n* May 2023 [Released models for Scaling Speech Technology to 1,000+ Languages  (Pratap, et al., 2023)](examples/mms/README.md)\n* June 2022 [Released code for wav2vec-U 2.0 from Towards End-to-end Unsupervised Speech Recognition (Liu, et al., 2022)](examples/wav2vec/unsupervised/README.md)\n* May 2022 [Integration with xFormers](https://github.com/facebookresearch/xformers)\n* December 2021 [Released Direct speech-to-speech translation code](examples/speech_to_speech/README.md)\n* October 2021 [Released VideoCLIP and VLM models](examples/MMPT/README.md)\n* October 2021 [Released multilingual finetuned XLSR-53 model](examples/wav2vec/README.md)\n* September 2021 [`master` branch renamed to `main`](https://github.com/github/renaming).\n* July 2021 [Released DrNMT code](examples/discriminative_reranking_nmt/README.md)\n* July 2021 [Released Robust wav2vec 2.0 model](examples/wav2vec/README.md)\n* June 2021 [Released XLMR-XL and XLMR-XXL models](examples/xlmr/README.md)\n* May 2021 [Released Unsupervised Speech Recognition code](examples/wav2vec/unsupervised/README.md)\n* March 2021 [Added full parameter and optimizer state sharding + CPU offloading](examples/fully_sharded_data_parallel/README.md)\n* February 2021 [Added LASER training code](examples/laser/README.md)\n* December 2020: [Added Adaptive Attention Span code](examples/adaptive_span/README.md)\n* December 2020: [GottBERT model and code released](examples/gottbert/README.md)\n* November 2020: Adopted the [Hydra](https://github.com/facebookresearch/hydra) configuration framework\n  * [see documentation explaining how to use it for new and existing projects](docs/hydra_integration.md)\n* November 2020: [fairseq 0.10.0 released](https://github.com/pytorch/fairseq/releases/tag/v0.10.0)\n* October 2020: [Added R3F/R4F (Better Fine-Tuning) code](examples/rxf/README.md)\n* October 2020: [Deep Transformer with Latent Depth code released](examples/latent_depth/README.md)\n* October 2020: [Added CRISS models and code](examples/criss/README.md)\n\n<details><summary>Previous updates</summary><p>\n\n* September 2020: [Added Linformer code](examples/linformer/README.md)\n* September 2020: [Added pointer-generator networks](examples/pointer_generator/README.md)\n* August 2020: [Added lexically constrained decoding](examples/constrained_decoding/README.md)\n* August 2020: [wav2vec2 models and code released](examples/wav2vec/README.md)\n* July 2020: [Unsupervised Quality Estimation code released](examples/unsupervised_quality_estimation/README.md)\n* May 2020: [Follow fairseq on Twitter](https://twitter.com/fairseq)\n* April 2020: [Monotonic Multihead Attention code released](examples/simultaneous_translation/README.md)\n* April 2020: [Quant-Noise code released](examples/quant_noise/README.md)\n* April 2020: [Initial model parallel support and 11B parameters unidirectional LM released](examples/megatron_11b/README.md)\n* March 2020: [Byte-level BPE code released](examples/byte_level_bpe/README.md)\n* February 2020: [mBART model and code released](examples/mbart/README.md)\n* February 2020: [Added tutorial for back-translation](https://github.com/pytorch/fairseq/tree/main/examples/backtranslation#training-your-own-model-wmt18-english-german)\n* December 2019: [fairseq 0.9.0 released](https://github.com/pytorch/fairseq/releases/tag/v0.9.0)\n* November 2019: [VizSeq released (a visual analysis toolkit for evaluating fairseq models)](https://facebookresearch.github.io/vizseq/docs/getting_started/fairseq_example)\n* November 2019: [CamemBERT model and code released](examples/camembert/README.md)\n* November 2019: [BART model and code released](examples/bart/README.md)\n* November 2019: [XLM-R models and code released](examples/xlmr/README.md)\n* September 2019: [Nonautoregressive translation code released](examples/nonautoregressive_translation/README.md)\n* August 2019: [WMT'19 models released](examples/wmt19/README.md)\n* July 2019: fairseq relicensed under MIT license\n* July 2019: [RoBERTa models and code released](examples/roberta/README.md)\n* June 2019: [wav2vec models and code released](examples/wav2vec/README.md)\n\n</p></details>\n\n### Features:\n\n* multi-GPU training on one machine or across multiple machines (data and model parallel)\n* fast generation on both CPU and GPU with multiple search algorithms implemented:\n  + beam search\n  + Diverse Beam Search ([Vijayakumar et al., 2016](https://arxiv.org/abs/1610.02424))\n  + sampling (unconstrained, top-k and top-p/nucleus)\n  + [lexically constrained decoding](examples/constrained_decoding/README.md) (Post & Vilar, 2018)\n* [gradient accumulation](https://fairseq.readthedocs.io/en/latest/getting_started.html#large-mini-batch-training-with-delayed-updates) enables training with large mini-batches even on a single GPU\n* [mixed precision training](https://fairseq.readthedocs.io/en/latest/getting_started.html#training-with-half-precision-floating-point-fp16) (trains faster with less GPU memory on [NVIDIA tensor cores](https://developer.nvidia.com/tensor-cores))\n* [extensible](https://fairseq.readthedocs.io/en/latest/overview.html): easily register new models, criterions, tasks, optimizers and learning rate schedulers\n* [flexible configuration](docs/hydra_integration.md) based on [Hydra](https://github.com/facebookresearch/hydra) allowing a combination of code, command-line and file based configuration\n* [full parameter and optimizer state sharding](examples/fully_sharded_data_parallel/README.md)\n* [offloading parameters to CPU](examples/fully_sharded_data_parallel/README.md)\n\nWe also provide [pre-trained models for translation and language modeling](#pre-trained-models-and-examples)\nwith a convenient `torch.hub` interface:\n\n``` python\nen2de = torch.hub.load('pytorch/fairseq', 'transformer.wmt19.en-de.single_model')\nen2de.translate('Hello world', beam=5)\n# 'Hallo Welt'\n```\n\nSee the PyTorch Hub tutorials for [translation](https://pytorch.org/hub/pytorch_fairseq_translation/)\nand [RoBERTa](https://pytorch.org/hub/pytorch_fairseq_roberta/) for more examples.\n\n# Requirements and Installation\n\n* [PyTorch](http://pytorch.org/) version >= 1.10.0\n* Python version >= 3.8\n* For training new models, you'll also need an NVIDIA GPU and [NCCL](https://github.com/NVIDIA/nccl)\n* **To install fairseq** and develop locally:\n\n``` bash\ngit clone https://github.com/pytorch/fairseq\ncd fairseq\npip install --editable ./\n\n# on MacOS:\n# CFLAGS=\"-stdlib=libc++\" pip install --editable ./\n\n# to install the latest stable release (0.10.x)\n# pip install fairseq\n```\n\n* **For faster training** install NVIDIA's [apex](https://github.com/NVIDIA/apex) library:\n\n``` bash\ngit clone https://github.com/NVIDIA/apex\ncd apex\npip install -v --no-cache-dir --global-option=\"--cpp_ext\" --global-option=\"--cuda_ext\" \\\n  --global-option=\"--deprecated_fused_adam\" --global-option=\"--xentropy\" \\\n  --global-option=\"--fast_multihead_attn\" ./\n```\n\n* **For large datasets** install [PyArrow](https://arrow.apache.org/docs/python/install.html#using-pip): `pip install pyarrow`\n* If you use Docker make sure to increase the shared memory size either with `--ipc=host` or `--shm-size`\n as command line options to `nvidia-docker run` .\n\n# Getting Started\n\nThe [full documentation](https://fairseq.readthedocs.io/) contains instructions\nfor getting started, training new models and extending fairseq with new model\ntypes and tasks.\n\n# Pre-trained models and examples\n\nWe provide pre-trained models and pre-processed, binarized test sets for several tasks listed below,\nas well as example training and evaluation commands.\n\n* [Translation](examples/translation/README.md): convolutional and transformer models are available\n* [Language Modeling](examples/language_model/README.md): convolutional and transformer models are available\n\nWe also have more detailed READMEs to reproduce results from specific papers:\n\n* [XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale (Babu et al., 2021)](examples/wav2vec/xlsr/README.md)\n* [Cross-lingual Retrieval for Iterative Self-Supervised Training (Tran et al., 2020)](examples/criss/README.md)\n* [wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations (Baevski et al., 2020)](examples/wav2vec/README.md)\n* [Unsupervised Quality Estimation for Neural Machine Translation (Fomicheva et al., 2020)](examples/unsupervised_quality_estimation/README.md)\n* [Training with Quantization Noise for Extreme Model Compression ({Fan*, Stock*} et al., 2020)](examples/quant_noise/README.md)\n* [Neural Machine Translation with Byte-Level Subwords (Wang et al., 2020)](examples/byte_level_bpe/README.md)\n* [Multilingual Denoising Pre-training for Neural Machine Translation (Liu et at., 2020)](examples/mbart/README.md)\n* [Reducing Transformer Depth on Demand with Structured Dropout (Fan et al., 2019)](examples/layerdrop/README.md)\n* [Jointly Learning to Align and Translate with Transformer Models (Garg et al., 2019)](examples/joint_alignment_translation/README.md)\n* [Levenshtein Transformer (Gu et al., 2019)](examples/nonautoregressive_translation/README.md)\n* [Facebook FAIR's WMT19 News Translation Task Submission (Ng et al., 2019)](examples/wmt19/README.md)\n* [RoBERTa: A Robustly Optimized BERT Pretraining Approach (Liu et al., 2019)](examples/roberta/README.md)\n* [wav2vec: Unsupervised Pre-training for Speech Recognition (Schneider et al., 2019)](examples/wav2vec/README.md)\n* [Mixture Models for Diverse Machine Translation: Tricks of the Trade (Shen et al., 2019)](examples/translation_moe/README.md)\n* [Pay Less Attention with Lightweight and Dynamic Convolutions (Wu et al., 2019)](examples/pay_less_attention_paper/README.md)\n* [Understanding Back-Translation at Scale (Edunov et al., 2018)](examples/backtranslation/README.md)\n* [Classical Structured Prediction Losses for Sequence to Sequence Learning (Edunov et al., 2018)](https://github.com/pytorch/fairseq/tree/classic_seqlevel)\n* [Hierarchical Neural Story Generation (Fan et al., 2018)](examples/stories/README.md)\n* [Scaling Neural Machine Translation (Ott et al., 2018)](examples/scaling_nmt/README.md)\n* [Convolutional Sequence to Sequence Learning (Gehring et al., 2017)](examples/conv_seq2seq/README.md)\n* [Language Modeling with Gated Convolutional Networks (Dauphin et al., 2017)](examples/language_model/README.conv.md)\n\n# Join the fairseq community\n\n* Twitter: https://twitter.com/fairseq\n* Facebook page: https://www.facebook.com/groups/fairseq.users\n* Google group: https://groups.google.com/forum/#!forum/fairseq-users\n\n# License\n\nfairseq(-py) is MIT-licensed.\nThe license applies to the pre-trained models as well.\n\n# Citation\n\nPlease cite as:\n\n``` bibtex\n@inproceedings{ott2019fairseq,\n  title = {fairseq: A Fast, Extensible Toolkit for Sequence Modeling},\n  author = {Myle Ott and Sergey Edunov and Alexei Baevski and Angela Fan and Sam Gross and Nathan Ng and David Grangier and Michael Auli},\n  booktitle = {Proceedings of NAACL-HLT 2019: Demonstrations},\n  year = {2019},\n}\n```\n"
  },
  {
    "path": "RELEASE.md",
    "content": "# Creating a New Release\n\nIn order to create a new release:\n\n1. Navigate to the [Fairseq Workflows](https://github.com/facebookresearch/fairseq/actions) and find the one named _Fairseq Release_. \n\n2. Under _Run Workflow_ choose the branch `main` and for _Release Type_ enter either `major`, `minor`, or `patch`.  \n\n3. A branch named `$new_version-release` will be created where the `version.txt` file is updated. Merge those changes into `main`.\n\n4. Make sure that a [new PYPI package](https://pypi.org/project/fairseq/) has been uploaded.\n\n5. Make sure that a [new github release](https://github.com/facebookresearch/fairseq/releases) has been created.\n"
  },
  {
    "path": "docs/Makefile",
    "content": "# Minimal makefile for Sphinx documentation\n#\n\n# You can set these variables from the command line.\nSPHINXOPTS    =\nSPHINXBUILD   = python -msphinx\nSPHINXPROJ    = fairseq\nSOURCEDIR     = .\nBUILDDIR      = _build\n\n# Put it first so that \"make\" without argument is like \"make help\".\nhelp:\n\t@$(SPHINXBUILD) -M help \"$(SOURCEDIR)\" \"$(BUILDDIR)\" $(SPHINXOPTS) $(O)\n\n.PHONY: help Makefile\n\n# Catch-all target: route all unknown targets to Sphinx using the new\n# \"make mode\" option.  $(O) is meant as a shortcut for $(SPHINXOPTS).\n%: Makefile\n\t@$(SPHINXBUILD) -M $@ \"$(SOURCEDIR)\" \"$(BUILDDIR)\" $(SPHINXOPTS) $(O)"
  },
  {
    "path": "docs/command_line_tools.rst",
    "content": ".. _Command-line Tools:\n\nCommand-line Tools\n==================\n\nFairseq provides several command-line tools for training and evaluating models:\n\n- :ref:`fairseq-preprocess`: Data pre-processing: build vocabularies and binarize training data\n- :ref:`fairseq-train`: Train a new model on one or multiple GPUs\n- :ref:`fairseq-generate`: Translate pre-processed data with a trained model\n- :ref:`fairseq-interactive`: Translate raw text with a trained model\n- :ref:`fairseq-score`: BLEU scoring of generated translations against reference translations\n- :ref:`fairseq-eval-lm`: Language model evaluation\n\n\n.. _fairseq-preprocess:\n\nfairseq-preprocess\n~~~~~~~~~~~~~~~~~~\n.. automodule:: fairseq_cli.preprocess\n\n    .. argparse::\n        :module: fairseq.options\n        :func: get_preprocessing_parser\n        :prog: fairseq-preprocess\n\n\n.. _fairseq-train:\n\nfairseq-train\n~~~~~~~~~~~~~\n.. automodule:: fairseq_cli.train\n\n    .. argparse::\n        :module: fairseq.options\n        :func: get_training_parser\n        :prog: fairseq-train\n\n\n.. _fairseq-generate:\n\nfairseq-generate\n~~~~~~~~~~~~~~~~\n.. automodule:: fairseq_cli.generate\n\n    .. argparse::\n        :module: fairseq.options\n        :func: get_generation_parser\n        :prog: fairseq-generate\n\n\n.. _fairseq-interactive:\n\nfairseq-interactive\n~~~~~~~~~~~~~~~~~~~\n.. automodule:: fairseq_cli.interactive\n\n    .. argparse::\n        :module: fairseq.options\n        :func: get_interactive_generation_parser\n        :prog: fairseq-interactive\n\n\n.. _fairseq-score:\n\nfairseq-score\n~~~~~~~~~~~~~\n.. automodule:: fairseq_cli.score\n\n    .. argparse::\n        :module: fairseq_cli.score\n        :func: get_parser\n        :prog: fairseq-score\n\n\n.. _fairseq-eval-lm:\n\nfairseq-eval-lm\n~~~~~~~~~~~~~~~\n.. automodule:: fairseq_cli.eval_lm\n\n    .. argparse::\n        :module: fairseq.options\n        :func: get_eval_lm_parser\n        :prog: fairseq-eval-lm\n"
  },
  {
    "path": "docs/conf.py",
    "content": "#!/usr/bin/env python3\n# -*- coding: utf-8 -*-\n#\n# fairseq documentation build configuration file, created by\n# sphinx-quickstart on Fri Aug 17 21:45:30 2018.\n#\n# This file is execfile()d with the current directory set to its\n# containing dir.\n#\n# Note that not all possible configuration values are present in this\n# autogenerated file.\n#\n# All configuration values have a default; values that are commented out\n# serve to show the default.\n\n# If extensions (or modules to document with autodoc) are in another directory,\n# add these directories to sys.path here. If the directory is relative to the\n# documentation root, use os.path.abspath to make it absolute, like shown here.\n\nimport os\nimport sys\nfrom fairseq import __version__\n\n\n# source code directory, relative to this file, for sphinx-autobuild\nsys.path.insert(0, os.path.abspath(\"..\"))\n\nsource_suffix = [\".rst\"]\n\n# -- General configuration ------------------------------------------------\n\n# If your documentation needs a minimal Sphinx version, state it here.\n#\n# needs_sphinx = '1.0'\n\n# Add any Sphinx extension module names here, as strings. They can be\n# extensions coming with Sphinx (named 'sphinx.ext.*') or your custom\n# ones.\nextensions = [\n    \"sphinx.ext.autodoc\",\n    \"sphinx.ext.intersphinx\",\n    \"sphinx.ext.viewcode\",\n    \"sphinx.ext.napoleon\",\n    \"sphinxarg.ext\",\n]\n\n# Add any paths that contain templates here, relative to this directory.\ntemplates_path = [\"_templates\"]\n\n# The master toctree document.\nmaster_doc = \"index\"\n\n# General information about the project.\nproject = \"fairseq\"\ncopyright = \"Facebook AI Research (FAIR)\"\nauthor = \"Facebook AI Research (FAIR)\"\n\ngithub_doc_root = \"https://github.com/pytorch/fairseq/tree/main/docs/\"\n\n# The version info for the project you're documenting, acts as replacement for\n# |version| and |release|, also used in various other places throughout the\n# built documents.\n#\n# The short X.Y version.\nversion = __version__\n# The full version, including alpha/beta/rc tags.\nrelease = __version__\n\n# The language for content autogenerated by Sphinx. Refer to documentation\n# for a list of supported languages.\n#\n# This is also used if you do content translation via gettext catalogs.\n# Usually you set \"language\" from the command line for these cases.\nlanguage = None\n\n# List of patterns, relative to source directory, that match files and\n# directories to ignore when looking for source files.\n# This patterns also effect to html_static_path and html_extra_path\nexclude_patterns = [\"_build\", \"Thumbs.db\", \".DS_Store\"]\n\n# The name of the Pygments (syntax highlighting) style to use.\npygments_style = \"sphinx\"\nhighlight_language = \"python\"\n\n# If true, `todo` and `todoList` produce output, else they produce nothing.\ntodo_include_todos = False\n\n\n# -- Options for HTML output ----------------------------------------------\n\nhtml_theme = \"classic\"\n\n# Example configuration for intersphinx: refer to the Python standard library.\nintersphinx_mapping = {\n    \"numpy\": (\"http://docs.scipy.org/doc/numpy/\", None),\n    \"python\": (\"https://docs.python.org/\", None),\n    \"torch\": (\"https://pytorch.org/docs/master/\", None),\n}\n"
  },
  {
    "path": "docs/criterions.rst",
    "content": ".. role:: hidden\n    :class: hidden-section\n\n.. _Criterions:\n\nCriterions\n==========\n\nCriterions compute the loss function given the model and batch, roughly::\n\n  loss = criterion(model, batch)\n\n.. automodule:: fairseq.criterions\n    :members:\n\n.. autoclass:: fairseq.criterions.FairseqCriterion\n    :members:\n    :undoc-members:\n\n.. autoclass:: fairseq.criterions.adaptive_loss.AdaptiveLoss\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.criterions.composite_loss.CompositeLoss\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.criterions.cross_entropy.CrossEntropyCriterion\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.criterions.label_smoothed_cross_entropy.LabelSmoothedCrossEntropyCriterion\n    :members:\n    :undoc-members:\n"
  },
  {
    "path": "docs/data.rst",
    "content": ".. role:: hidden\n    :class: hidden-section\n\n.. module:: fairseq.data\n\nData Loading and Utilities\n==========================\n\n.. _datasets:\n\nDatasets\n--------\n\n**Datasets** define the data format and provide helpers for creating\nmini-batches.\n\n.. autoclass:: fairseq.data.FairseqDataset\n    :members:\n.. autoclass:: fairseq.data.LanguagePairDataset\n    :members:\n.. autoclass:: fairseq.data.MonolingualDataset\n    :members:\n\n**Helper Datasets**\n\nThese datasets wrap other :class:`fairseq.data.FairseqDataset` instances and\nprovide additional functionality:\n\n.. autoclass:: fairseq.data.BacktranslationDataset\n    :members:\n.. autoclass:: fairseq.data.ConcatDataset\n    :members:\n.. autoclass:: fairseq.data.ResamplingDataset\n    :members:\n.. autoclass:: fairseq.data.RoundRobinZipDatasets\n    :members:\n.. autoclass:: fairseq.data.TransformEosDataset\n    :members:\n\n\nDictionary\n----------\n\n.. autoclass:: fairseq.data.Dictionary\n    :members:\n\n\nIterators\n---------\n\n.. autoclass:: fairseq.data.CountingIterator\n    :members:\n.. autoclass:: fairseq.data.EpochBatchIterator\n    :members:\n.. autoclass:: fairseq.data.GroupedIterator\n    :members:\n.. autoclass:: fairseq.data.ShardedIterator\n    :members:\n"
  },
  {
    "path": "docs/docutils.conf",
    "content": "[writers]\noption-limit=0\n"
  },
  {
    "path": "docs/getting_started.rst",
    "content": "Evaluating Pre-trained Models\n=============================\n\nFirst, download a pre-trained model along with its vocabularies:\n\n.. code-block:: console\n\n    > curl https://dl.fbaipublicfiles.com/fairseq/models/wmt14.v2.en-fr.fconv-py.tar.bz2 | tar xvjf -\n\nThis model uses a `Byte Pair Encoding (BPE)\nvocabulary <https://arxiv.org/abs/1508.07909>`__, so we'll have to apply\nthe encoding to the source text before it can be translated. This can be\ndone with the\n`apply\\_bpe.py <https://github.com/rsennrich/subword-nmt/blob/master/subword_nmt/apply_bpe.py>`__\nscript using the ``wmt14.en-fr.fconv-cuda/bpecodes`` file. ``@@`` is\nused as a continuation marker and the original text can be easily\nrecovered with e.g. ``sed s/@@ //g`` or by passing the ``--remove-bpe``\nflag to :ref:`fairseq-generate`. Prior to BPE, input text needs to be tokenized\nusing ``tokenizer.perl`` from\n`mosesdecoder <https://github.com/moses-smt/mosesdecoder>`__.\n\nLet's use :ref:`fairseq-interactive` to generate translations interactively.\nHere, we use a beam size of 5 and preprocess the input with the Moses\ntokenizer and the given Byte-Pair Encoding vocabulary. It will automatically\nremove the BPE continuation markers and detokenize the output.\n\n.. code-block:: console\n\n    > MODEL_DIR=wmt14.en-fr.fconv-py\n    > fairseq-interactive \\\n        --path $MODEL_DIR/model.pt $MODEL_DIR \\\n        --beam 5 --source-lang en --target-lang fr \\\n        --tokenizer moses \\\n        --bpe subword_nmt --bpe-codes $MODEL_DIR/bpecodes\n    | loading model(s) from wmt14.en-fr.fconv-py/model.pt\n    | [en] dictionary: 44206 types\n    | [fr] dictionary: 44463 types\n    | Type the input sentence and press return:\n    Why is it rare to discover new marine mammal species?\n    S-0     Why is it rare to discover new marine mam@@ mal species ?\n    H-0     -0.0643349438905716     Pourquoi est-il rare de découvrir de nouvelles espèces de mammifères marins?\n    P-0     -0.0763 -0.1849 -0.0956 -0.0946 -0.0735 -0.1150 -0.1301 -0.0042 -0.0321 -0.0171 -0.0052 -0.0062 -0.0015\n\nThis generation script produces three types of outputs: a line prefixed\nwith *O* is a copy of the original source sentence; *H* is the\nhypothesis along with an average log-likelihood; and *P* is the\npositional score per token position, including the\nend-of-sentence marker which is omitted from the text.\n\nOther types of output lines you might see are *D*, the detokenized hypothesis,\n*T*, the reference target, *A*, alignment info, *E* the history of generation steps.\n\nSee the `README <https://github.com/pytorch/fairseq#pre-trained-models>`__ for a\nfull list of pre-trained models available.\n\nTraining a New Model\n====================\n\nThe following tutorial is for machine translation. For an example of how\nto use Fairseq for other tasks, such as :ref:`language modeling`, please see the\n``examples/`` directory.\n\nData Pre-processing\n-------------------\n\nFairseq contains example pre-processing scripts for several translation\ndatasets: IWSLT 2014 (German-English), WMT 2014 (English-French) and WMT\n2014 (English-German). To pre-process and binarize the IWSLT dataset:\n\n.. code-block:: console\n\n    > cd examples/translation/\n    > bash prepare-iwslt14.sh\n    > cd ../..\n    > TEXT=examples/translation/iwslt14.tokenized.de-en\n    > fairseq-preprocess --source-lang de --target-lang en \\\n        --trainpref $TEXT/train --validpref $TEXT/valid --testpref $TEXT/test \\\n        --destdir data-bin/iwslt14.tokenized.de-en\n\nThis will write binarized data that can be used for model training to\n``data-bin/iwslt14.tokenized.de-en``.\n\nTraining\n--------\n\nUse :ref:`fairseq-train` to train a new model. Here a few example settings that work\nwell for the IWSLT 2014 dataset:\n\n.. code-block:: console\n\n    > mkdir -p checkpoints/fconv\n    > CUDA_VISIBLE_DEVICES=0 fairseq-train data-bin/iwslt14.tokenized.de-en \\\n        --optimizer nag --lr 0.25 --clip-norm 0.1 --dropout 0.2 --max-tokens 4000 \\\n        --arch fconv_iwslt_de_en --save-dir checkpoints/fconv\n\nBy default, :ref:`fairseq-train` will use all available GPUs on your machine. Use the\n``CUDA_VISIBLE_DEVICES`` environment variable to select specific GPUs and/or to\nchange the number of GPU devices that will be used.\n\nAlso note that the batch size is specified in terms of the maximum\nnumber of tokens per batch (``--max-tokens``). You may need to use a\nsmaller value depending on the available GPU memory on your system.\n\nGeneration\n----------\n\nOnce your model is trained, you can generate translations using\n:ref:`fairseq-generate` **(for binarized data)** or\n:ref:`fairseq-interactive` **(for raw text)**:\n\n.. code-block:: console\n\n    > fairseq-generate data-bin/iwslt14.tokenized.de-en \\\n        --path checkpoints/fconv/checkpoint_best.pt \\\n        --batch-size 128 --beam 5\n    | [de] dictionary: 35475 types\n    | [en] dictionary: 24739 types\n    | data-bin/iwslt14.tokenized.de-en test 6750 examples\n    | model fconv\n    | loaded checkpoint trainings/fconv/checkpoint_best.pt\n    S-721   danke .\n    T-721   thank you .\n    ...\n\nTo generate translations with only a CPU, use the ``--cpu`` flag. BPE\ncontinuation markers can be removed with the ``--remove-bpe`` flag.\n\nAdvanced Training Options\n=========================\n\nLarge mini-batch training with delayed updates\n----------------------------------------------\n\nThe ``--update-freq`` option can be used to accumulate gradients from\nmultiple mini-batches and delay updating, creating a larger effective\nbatch size. Delayed updates can also improve training speed by reducing\ninter-GPU communication costs and by saving idle time caused by variance\nin workload across GPUs. See `Ott et al.\n(2018) <https://arxiv.org/abs/1806.00187>`__ for more details.\n\nTo train on a single GPU with an effective batch size that is equivalent\nto training on 8 GPUs:\n\n.. code-block:: console\n\n    > CUDA_VISIBLE_DEVICES=0 fairseq-train --update-freq 8 (...)\n\nTraining with half precision floating point (FP16)\n--------------------------------------------------\n\n.. note::\n\n    FP16 training requires a Volta GPU and CUDA 9.1 or greater\n\nRecent GPUs enable efficient half precision floating point computation,\ne.g., using `Nvidia Tensor Cores\n<https://docs.nvidia.com/deeplearning/sdk/mixed-precision-training/index.html>`__.\nFairseq supports FP16 training with the ``--fp16`` flag:\n\n.. code-block:: console\n\n    > fairseq-train --fp16 (...)\n\nDistributed training\n--------------------\n\nDistributed training in fairseq is implemented on top of ``torch.distributed``.\nThe easiest way to launch jobs is with the `torch.distributed.launch\n<https://pytorch.org/docs/stable/distributed.html#launch-utility>`__ tool.\n\nFor example, to train a large English-German Transformer model on 2 nodes each\nwith 8 GPUs (in total 16 GPUs), run the following command on each node,\nreplacing ``node_rank=0`` with ``node_rank=1`` on the second node and making\nsure to update ``--master_addr`` to the IP address of the first node:\n\n.. code-block:: console\n\n    > python -m torch.distributed.launch --nproc_per_node=8 \\\n        --nnodes=2 --node_rank=0 --master_addr=\"192.168.1.1\" \\\n        --master_port=12345 \\\n        $(which fairseq-train) data-bin/wmt16_en_de_bpe32k \\\n        --arch transformer_vaswani_wmt_en_de_big --share-all-embeddings \\\n        --optimizer adam --adam-betas '(0.9, 0.98)' --clip-norm 0.0 \\\n        --lr-scheduler inverse_sqrt --warmup-init-lr 1e-07 --warmup-updates 4000 \\\n        --lr 0.0005 \\\n        --dropout 0.3 --weight-decay 0.0 --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n        --max-tokens 3584 \\\n        --max-epoch 70 \\\n        --fp16\n\nOn SLURM clusters, fairseq will automatically detect the number of nodes and\nGPUs, but a port number must be provided:\n\n.. code-block:: console\n\n    > salloc --gpus=16 --nodes 2 (...)\n    > srun fairseq-train --distributed-port 12345 (...).\n\n\n.. warning::\n\n    PyTorch Distributed features used in fairseq are intended for internal\n    communication only. They are not built for use in untrusted environments or\n    networks.\n\n    For performance reasons, none of the PyTorch Distributed primitives include\n    any authorization protocol and will send messages unencrypted. They accept\n    connections from anywhere, and execute the workload sent without performing\n    any checks. Therefore, if you run a distributed fairseq job on your network,\n    anybody with access to the network can execute arbitrary code with the\n    privileges of the user running the job.\n\nSharding very large datasets\n----------------------------\n\nIt can be challenging to train over very large datasets, particularly if your\nmachine does not have much system RAM. Most tasks in fairseq support training\nover \"sharded\" datasets, in which the original dataset has been preprocessed\ninto non-overlapping chunks (or \"shards\").\n\nFor example, instead of preprocessing all your data into a single \"data-bin\"\ndirectory, you can split the data and create \"data-bin1\", \"data-bin2\", etc.\nThen you can adapt your training command like so:\n\n.. code-block:: console\n\n    > fairseq-train data-bin1:data-bin2:data-bin3 (...)\n\nTraining will now iterate over each shard, one by one, with each shard\ncorresponding to an \"epoch\", thus reducing system memory usage.\n"
  },
  {
    "path": "docs/hydra_integration.md",
    "content": "## Hydra\n\n[Hydra](https://github.com/facebookresearch/hydra) is an open-source Python\nframework that simplifies the development of research and other complex\napplications. The key feature is the ability to dynamically create a\nhierarchical configuration by composition and override it through config files\nand the command line. The name Hydra comes from its ability to run multiple\nsimilar jobs - much like a Hydra with multiple heads.\n\n## Motivation\n\nUntil recently, all components in fairseq were configured through a shared\n`args` namespace that was created at application startup. Components declared\ntheir own `add_args` method to update the argparse parser, hoping that the names\nwould not clash with arguments from other components. While this model works for\nsmaller applications, as fairseq grew and became integrated into other\napplications, this became problematic. In order to determine how to configure\neach component, one needed to a) examine what args were added by this component,\nand b) read the code to figure out what shared arguments it is using that were\nadded in other places. Reproducing models involved sharing commands that often\ncontained dozens of command line switches.\n\nThe model described above is still supported by fairseq for backward\ncompatibility, but will be deprecated some time in the future.\n\nNew components in fairseq should now create a dataclass that encapsulates all\nparameters required to configure this component. The dataclass is registered\nalong with the component, and fairseq takes care of constructing and providing\nthis configuration object to the component's constructor. Note that sharing\nparameters can optionally still work, but one has to explicitly point to the\n\"source of truth\" (see inheritance example below). These changes make components\nin fairseq more independent and re-usable by other applications: all that is\nneeded to create a component is to initialize its dataclass and overwrite some\nof the defaults.\n\nWhile configuring fairseq through command line (using either the legacy argparse\nbased or the new Hydra based entry points) is still fully supported, you can now\ntake advantage of configuring fairseq completely or piece-by-piece through\nhierarchical YAML configuration files. These files can also be shipped as\nexamples that others can use to run an identically configured job.\n\nAdditionally, Hydra has a rich and growing [library of\nplugins](https://github.com/facebookresearch/hydra/tree/master/plugins) that\nprovide functionality such as hyperparameter sweeping (including using bayesian\noptimization through the [Ax](https://github.com/facebook/Ax) library), job\nlaunching across various platforms, and more.\n\n## Creating or migrating components\n\nIn general, each new (or updated) component should provide a companion\n[dataclass](https://www.python.org/dev/peps/pep-0557/). These dataclass are\ntypically located in the same file as the component and are passed as arguments\nto the `register_*()` functions. Top-level configs that should be present in\nevery fairseq application are placed in the\n[global](fairseq/dataclass/configs.py) config file and added to the\n`FairseqConfig` object.\n\nEach dataclass is a plain-old-data object, similar to a `NamedTuple`. These\nclasses are decorated with a `@dataclass` decorator, and typically inherit from\n`FairseqDataclass` (which adds some functionality for backward compatibility).\nEach field must have a type, and generally has metadata (such as a help string)\nand a default value. Only primitive types or other config objects are allowed as\ndata types for each field.\n\n#### Example:\n\n```python\nfrom dataclasses import dataclass, field\nfrom fairseq.dataclass import FairseqDataclass\n\n@dataclass\nclass InteractiveConfig(FairseqDataclass):\n    buffer_size: int = field(\n        default=0,\n        metadata={\n            \"help\": \"read this many sentences into a buffer before processing them\"\n        },\n    )\n    input: str = field(\n        default=\"-\",\n        metadata={\"help\": \"file to read from; use - for stdin\"},\n    )\n```\n\n### Inherting values\n\nSome components require sharing a value. For example, a learning rate scheduler\nand an optimizer may both need to know the initial learning rate value. One can\ndeclare a field that, by default, will inherit its value from another config\nnode in the same hierarchy:\n\n```python\n@dataclass\nFairseqAdamConfig(FairseqDataclass):\n    ...\n    lr: List[float] = II(\"optimization.lr\")\n    ...\n```\n\n`II(\"optimization.lr\")` is syntactic sugar for `\"${optimization.lr}\"`, which is\nthe value one can use in a YAML config file or through command line to achieve\nthe same effect. Note that this assumes that there is an \"optimization\" config\nobject in the root config and it has a field called \"lr\".\n\n### Tasks and Models\n\nCreating Tasks and Models works same as before, except that legacy\nimplementations now inherit from `LegacyFairseq*` base classes, while new\ncomponents inherit from `FairseqTask` and `FairseqModel` and provide a dataclass\nto the `register_*()` functions.\n\n#### Task example:\n\n```python\n@dataclass\nclass LanguageModelingConfig(FairseqDataclass):\n    data: Optional[str] = field(\n        default=None, metadata={\"help\": \"path to data directory\"}\n    )\n    ...\n\n@register_task(\"language_modeling\", dataclass=LanguageModelingConfig)\nclass LanguageModelingTask(FairseqTask):\n    ...\n    @classmethod\n    def setup_task(cls, cfg: LanguageModelingConfig):\n        ...\n```\n\n#### Model example:\n\n```python\n@dataclass\nclass TransformerLanguageModelConfig(FairseqDataclass):\n    activation_fn: ChoiceEnum(utils.get_available_activation_fns()) = field(\n        default=\"relu\", metadata={\"help\": \"activation function to use\"}\n    )\n    dropout: float = field(default=0.1, metadata={\"help\": \"dropout probability\"})\n    ...\n\n@register_model(\"transformer_lm\", dataclass=TransformerLanguageModelConfig)\nclass TransformerLanguageModel(FairseqLanguageModel):\n    ...\n    @classmethod\n    def build_model(cls, cfg: TransformerLanguageModelConfig, task: FairseqTask):\n        ...\n```\n\n### Other components\n\nOther components work as before, but they now take their configuration dataclass\nas the only constructor argument:\n\n```python\n@dataclass\nclass MosesTokenizerConfig(FairseqDataclass):\n    source_lang: str = field(default=\"en\", metadata={\"help\": \"source language\"})\n    ...\n\n@register_tokenizer(\"moses\", dataclass=MosesTokenizerConfig)\nclass MosesTokenizer(object):\n    def __init__(self, cfg: MosesTokenizerConfig):\n        ...\n```\n\nNote that if you are adding a new registry for a new set of components, you need\nto add it to the `FairseqConfig` object in `fairseq/dataclass/configs.py`:\n\n```python\n@dataclass\nclass FairseqConfig(object):\n    ...\n    my_new_registry: Any = None\n```\n\n## Training with `fairseq-hydra-train`\n\nTo fully take advantage of configuration flexibility offered by Hydra, you may\nwant to train new models using the `fairseq-hydra-train` entry point. Legacy CLI\ntools such as `fairseq-train` will remain supported for the foreseeable future\nbut will be deprecated eventually.\n\nOn startup, Hydra will create a configuration object that contains a hierarchy\nof all the necessary dataclasses populated with their default values in the\ncode. The default values are overwritten by values found in YAML files in\n`fairseq/config` directory (which currently sets minimal defaults) and then\nfurther overwritten by values provided through command line arguments.\n\nSome of the most common use cases are shown below:\n\n### 1. Override default values through command line:\n\n```shell script\n$ fairseq-hydra-train \\\n    distributed_training.distributed_world_size=1 \\\n    dataset.batch_size=2 \\\n    task.data=data-bin \\\n    model=transformer_lm/transformer_lm_gpt \\\n    task=language_modeling \\\n    optimization.max_update=5000\n```\n\nNote that along with explicitly providing values for parameters such as\n`dataset.batch_size`, this also tells Hydra to overlay configuration found in\n`fairseq/config/model/transformer_lm/transformer_lm_gpt.yaml` over the default\nvalues in the dataclass. If you want to train a model without specifying a\nparticular architecture you can simply specify `model=transformer_lm`. This only\nworks for migrated tasks and models.\n\n### 2. Replace bundled configs with an external config:\n\n```shell script\n$ fairseq-hydra-train \\\n    --config-dir /path/to/external/configs \\\n    --config-name wiki103\n```\n\nwhere `/path/to/external/configs/wiki103.yaml` contains:\n\n```yaml\n# @package _group_\n\nmodel:\n  _name: transformer_lm\ndistributed_training:\n  distributed_world_size: 1\ndataset:\n  batch_size: 2\ntask:\n  _name: language_modeling\n  data: /path/to/data\n  add_bos_token: false\n  max_target_positions: 1024\noptimization:\n  max_update: 50000\n  lr: [ 0.25 ]\ncriterion: cross_entropy\noptimizer: adam\nlr_scheduler:\n  _name: cosine\n```\n\nNote that here bundled configs from `fairseq/config` directory are not used,\nhowever the defaults from each dataclass will still be used (unless overwritten\nby your external config).\n\nAdditionally you can choose to break up your configs by creating a directory\nstructure in the same location as your main config file, with the names of the\ntop-level fields (such as \"model\", \"dataset\", etc), and placing config files\nwith meaningful names that would populate that specific section of your\ntop-level config file (for example, you might have\n`model/small_transformer_lm.yaml`, `model/big_transformer_lm.yaml`, etc). You\ncan then specify the correct configuration via command line, defaults in the\nmain config, or even launch all of them as a sweep (see Hydra documentation on\nhow to do this).\n\n### 3. Add an external config directory to Hydra search path:\n\nThis allows combining default configuration (including using any bundled config\nfiles), while specifying your own config files for some parts of the\nconfiguration.\n\n```shell script\n$ fairseq-hydra-train \\\n    distributed_training.distributed_world_size=1 \\\n    dataset.batch_size=2 \\\n    task.data=/path/to/data/ \\\n    model=transformer_lm/2_layers \\\n    task=language_modeling \\\n    optimization.max_update=5000 \\\n    --config-dir /path/to/external/configs\n```\n\nwhere `/path/to/external/configs` has the following structure:\n```\n.\n+-- model\n|   +-- transformer_lm\n|   |   +-- 2_layers.yaml\n```\n\nand `2_layers.yaml` contains a copy of `transformer_lm_gpt.yaml` but with\n`decoder_layers` set to 2. You can add other configs to configure other\ncomponents as well.\n"
  },
  {
    "path": "docs/index.rst",
    "content": ".. fairseq documentation master file, created by\n   sphinx-quickstart on Fri Aug 17 21:45:30 2018.\n   You can adapt this file completely to your liking, but it should at least\n   contain the root `toctree` directive.\n\n:github_url: https://github.com/pytorch/fairseq\n\n\nfairseq documentation\n=====================\n\nFairseq is a sequence modeling toolkit written in `PyTorch\n<http://pytorch.org/>`_ that allows researchers and developers to\ntrain custom models for translation, summarization, language modeling and other\ntext generation tasks.\n\n.. toctree::\n    :maxdepth: 1\n    :caption: Getting Started\n\n    getting_started\n    command_line_tools\n\n.. toctree::\n    :maxdepth: 1\n    :caption: Extending Fairseq\n\n    overview\n    tutorial_simple_lstm\n    tutorial_classifying_names\n\n.. toctree::\n    :maxdepth: 2\n    :caption: Library Reference\n\n    tasks\n    models\n    criterions\n    optim\n    lr_scheduler\n    data\n    modules\n\n\nIndices and tables\n==================\n\n* :ref:`genindex`\n* :ref:`search`\n"
  },
  {
    "path": "docs/lr_scheduler.rst",
    "content": ".. role:: hidden\n    :class: hidden-section\n\n.. _Learning Rate Schedulers:\n\nLearning Rate Schedulers\n========================\n\nLearning Rate Schedulers update the learning rate over the course of training.\nLearning rates can be updated after each update via :func:`step_update` or at\nepoch boundaries via :func:`step`.\n\n.. automodule:: fairseq.optim.lr_scheduler\n    :members:\n\n.. autoclass:: fairseq.optim.lr_scheduler.FairseqLRScheduler\n    :members:\n    :undoc-members:\n\n.. autoclass:: fairseq.optim.lr_scheduler.cosine_lr_scheduler.CosineSchedule\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.optim.lr_scheduler.fixed_schedule.FixedSchedule\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.optim.lr_scheduler.inverse_square_root_schedule.InverseSquareRootSchedule\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.optim.lr_scheduler.reduce_lr_on_plateau.ReduceLROnPlateau\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.optim.lr_scheduler.triangular_lr_scheduler.TriangularSchedule\n    :members:\n    :undoc-members:\n"
  },
  {
    "path": "docs/make.bat",
    "content": "@ECHO OFF\r\n\r\npushd %~dp0\r\n\r\nREM Command file for Sphinx documentation\r\n\r\nif \"%SPHINXBUILD%\" == \"\" (\r\n\tset SPHINXBUILD=python -msphinx\r\n)\r\nset SOURCEDIR=.\r\nset BUILDDIR=_build\r\nset SPHINXPROJ=fairseq\r\n\r\nif \"%1\" == \"\" goto help\r\n\r\n%SPHINXBUILD% >NUL 2>NUL\r\nif errorlevel 9009 (\r\n\techo.\r\n\techo.The Sphinx module was not found. Make sure you have Sphinx installed,\r\n\techo.then set the SPHINXBUILD environment variable to point to the full\r\n\techo.path of the 'sphinx-build' executable. Alternatively you may add the\r\n\techo.Sphinx directory to PATH.\r\n\techo.\r\n\techo.If you don't have Sphinx installed, grab it from\r\n\techo.http://sphinx-doc.org/\r\n\texit /b 1\r\n)\r\n\r\n%SPHINXBUILD% -M %1 %SOURCEDIR% %BUILDDIR% %SPHINXOPTS%\r\ngoto end\r\n\r\n:help\r\n%SPHINXBUILD% -M help %SOURCEDIR% %BUILDDIR% %SPHINXOPTS%\r\n\r\n:end\r\npopd\r\n"
  },
  {
    "path": "docs/models.rst",
    "content": ".. role:: hidden\n    :class: hidden-section\n\n.. module:: fairseq.models\n\n.. _Models:\n\nModels\n======\n\nA Model defines the neural network's ``forward()`` method and encapsulates all\nof the learnable parameters in the network. Each model also provides a set of\nnamed *architectures* that define the precise network configuration (e.g.,\nembedding dimension, number of layers, etc.).\n\nBoth the model type and architecture are selected via the ``--arch``\ncommand-line argument. Once selected, a model may expose additional command-line\narguments for further configuration.\n\n.. note::\n\n    All fairseq Models extend :class:`BaseFairseqModel`, which in turn extends\n    :class:`torch.nn.Module`. Thus any fairseq Model can be used as a\n    stand-alone Module in other PyTorch code.\n\n\nConvolutional Neural Networks (CNN)\n-----------------------------------\n\n.. module:: fairseq.models.fconv\n.. autoclass:: fairseq.models.fconv.FConvModel\n    :members:\n.. autoclass:: fairseq.models.fconv.FConvEncoder\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.models.fconv.FConvDecoder\n    :members:\n\n\nLong Short-Term Memory (LSTM) networks\n--------------------------------------\n\n.. module:: fairseq.models.lstm\n.. autoclass:: fairseq.models.lstm.LSTMModel\n    :members:\n.. autoclass:: fairseq.models.lstm.LSTMEncoder\n    :members:\n.. autoclass:: fairseq.models.lstm.LSTMDecoder\n    :members:\n\n\nTransformer (self-attention) networks\n-------------------------------------\n\n.. module:: fairseq.models.transformer\n.. autoclass:: fairseq.models.transformer.TransformerModel\n    :members:\n.. autoclass:: fairseq.models.transformer.TransformerEncoder\n    :members:\n.. autoclass:: fairseq.models.transformer.TransformerEncoderLayer\n    :members:\n.. autoclass:: fairseq.models.transformer.TransformerDecoder\n    :members:\n.. autoclass:: fairseq.models.transformer.TransformerDecoderLayer\n    :members:\n\n\nAdding new models\n-----------------\n\n.. currentmodule:: fairseq.models\n.. autofunction:: fairseq.models.register_model\n.. autofunction:: fairseq.models.register_model_architecture\n.. autoclass:: fairseq.models.BaseFairseqModel\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.models.FairseqEncoderDecoderModel\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.models.FairseqEncoderModel\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.models.FairseqLanguageModel\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.models.FairseqMultiModel\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.models.FairseqEncoder\n    :members:\n.. autoclass:: fairseq.models.CompositeEncoder\n    :members:\n.. autoclass:: fairseq.models.FairseqDecoder\n    :members:\n\n\n.. _Incremental decoding:\n\nIncremental decoding\n--------------------\n\n.. autoclass:: fairseq.models.FairseqIncrementalDecoder\n    :members:\n    :undoc-members:\n"
  },
  {
    "path": "docs/modules.rst",
    "content": "Modules\n=======\n\nFairseq provides several stand-alone :class:`torch.nn.Module` classes that may\nbe helpful when implementing a new :class:`~fairseq.models.BaseFairseqModel`.\n\n.. automodule:: fairseq.modules\n    :members:\n    :undoc-members:\n"
  },
  {
    "path": "docs/optim.rst",
    "content": ".. role:: hidden\n    :class: hidden-section\n\n.. _optimizers:\n\nOptimizers\n==========\n\nOptimizers update the Model parameters based on the gradients.\n\n.. automodule:: fairseq.optim\n    :members:\n\n.. autoclass:: fairseq.optim.FairseqOptimizer\n    :members:\n    :undoc-members:\n\n.. autoclass:: fairseq.optim.adadelta.Adadelta\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.optim.adagrad.Adagrad\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.optim.adafactor.FairseqAdafactor\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.optim.adam.FairseqAdam\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.optim.fp16_optimizer.FP16Optimizer\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.optim.nag.FairseqNAG\n    :members:\n    :undoc-members:\n.. autoclass:: fairseq.optim.sgd.SGD\n    :members:\n    :undoc-members:\n"
  },
  {
    "path": "docs/overview.rst",
    "content": "Overview\n========\n\nFairseq can be extended through user-supplied `plug-ins\n<https://en.wikipedia.org/wiki/Plug-in_(computing)>`_. We support five kinds of\nplug-ins:\n\n- :ref:`Models` define the neural network architecture and encapsulate all of the\n  learnable parameters.\n- :ref:`Criterions` compute the loss function given the model outputs and targets.\n- :ref:`Tasks` store dictionaries and provide helpers for loading/iterating over\n  Datasets, initializing the Model/Criterion and calculating the loss.\n- :ref:`Optimizers` update the Model parameters based on the gradients.\n- :ref:`Learning Rate Schedulers` update the learning rate over the course of\n  training.\n\n**Training Flow**\n\nGiven a ``model``, ``criterion``, ``task``, ``optimizer`` and ``lr_scheduler``,\nfairseq implements the following high-level training flow::\n\n  for epoch in range(num_epochs):\n      itr = task.get_batch_iterator(task.dataset('train'))\n      for num_updates, batch in enumerate(itr):\n          task.train_step(batch, model, criterion, optimizer)\n          average_and_clip_gradients()\n          optimizer.step()\n          lr_scheduler.step_update(num_updates)\n      lr_scheduler.step(epoch)\n\nwhere the default implementation for ``task.train_step`` is roughly::\n\n  def train_step(self, batch, model, criterion, optimizer, **unused):\n      loss = criterion(model, batch)\n      optimizer.backward(loss)\n      return loss\n\n**Registering new plug-ins**\n\nNew plug-ins are *registered* through a set of ``@register`` function\ndecorators, for example::\n\n  @register_model('my_lstm')\n  class MyLSTM(FairseqEncoderDecoderModel):\n      (...)\n\nOnce registered, new plug-ins can be used with the existing :ref:`Command-line\nTools`. See the Tutorial sections for more detailed walkthroughs of how to add\nnew plug-ins.\n\n**Loading plug-ins from another directory**\n\nNew plug-ins can be defined in a custom module stored in the user system. In\norder to import the module, and make the plugin available to *fairseq*, the\ncommand line supports the ``--user-dir`` flag that can be used to specify a\ncustom location for additional modules to load into *fairseq*.\n\nFor example, assuming this directory tree::\n\n  /home/user/my-module/\n  └── __init__.py\n  \nwith ``__init__.py``::\n\n  from fairseq.models import register_model_architecture\n  from fairseq.models.transformer import transformer_vaswani_wmt_en_de_big\n\n  @register_model_architecture('transformer', 'my_transformer')\n  def transformer_mmt_big(args):\n      transformer_vaswani_wmt_en_de_big(args)\n\nit is possible to invoke the :ref:`fairseq-train` script with the new architecture with::\n\n  fairseq-train ... --user-dir /home/user/my-module -a my_transformer --task translation\n"
  },
  {
    "path": "docs/tasks.rst",
    "content": ".. role:: hidden\n    :class: hidden-section\n\n.. module:: fairseq.tasks\n\n.. _Tasks:\n\nTasks\n=====\n\nTasks store dictionaries and provide helpers for loading/iterating over\nDatasets, initializing the Model/Criterion and calculating the loss.\n\nTasks can be selected via the ``--task`` command-line argument. Once selected, a\ntask may expose additional command-line arguments for further configuration.\n\nExample usage::\n\n    # setup the task (e.g., load dictionaries)\n    task = fairseq.tasks.setup_task(args)\n\n    # build model and criterion\n    model = task.build_model(args)\n    criterion = task.build_criterion(args)\n\n    # load datasets\n    task.load_dataset('train')\n    task.load_dataset('valid')\n\n    # iterate over mini-batches of data\n    batch_itr = task.get_batch_iterator(\n        task.dataset('train'), max_tokens=4096,\n    )\n    for batch in batch_itr:\n        # compute the loss\n        loss, sample_size, logging_output = task.get_loss(\n            model, criterion, batch,\n        )\n        loss.backward()\n\n\nTranslation\n-----------\n\n.. autoclass:: fairseq.tasks.translation.TranslationTask\n\n.. _language modeling:\n\nLanguage Modeling\n-----------------\n\n.. autoclass:: fairseq.tasks.language_modeling.LanguageModelingTask\n\n\nAdding new tasks\n----------------\n\n.. autofunction:: fairseq.tasks.register_task\n.. autoclass:: fairseq.tasks.FairseqTask\n    :members:\n    :undoc-members:\n"
  },
  {
    "path": "docs/tutorial_classifying_names.rst",
    "content": "Tutorial: Classifying Names with a Character-Level RNN\n======================================================\n\nIn this tutorial we will extend fairseq to support *classification* tasks. In\nparticular we will re-implement the PyTorch tutorial for `Classifying Names with\na Character-Level RNN <https://pytorch.org/tutorials/intermediate/char_rnn_classification_tutorial.html>`_\nin fairseq. It is recommended to quickly skim that tutorial before beginning\nthis one.\n\nThis tutorial covers:\n\n1. **Preprocessing the data** to create dictionaries.\n2. **Registering a new Model** that encodes an input sentence with a simple RNN\n   and predicts the output label.\n3. **Registering a new Task** that loads our dictionaries and dataset.\n4. **Training the Model** using the existing command-line tools.\n5. **Writing an evaluation script** that imports fairseq and allows us to\n   interactively evaluate our model on new inputs.\n\n\n1. Preprocessing the data\n-------------------------\n\nThe original tutorial provides raw data, but we'll work with a modified version\nof the data that is already tokenized into characters and split into separate\ntrain, valid and test sets.\n\nDownload and extract the data from here:\n`tutorial_names.tar.gz <https://dl.fbaipublicfiles.com/fairseq/data/tutorial_names.tar.gz>`_\n\nOnce extracted, let's preprocess the data using the :ref:`fairseq-preprocess`\ncommand-line tool to create the dictionaries. While this tool is primarily\nintended for sequence-to-sequence problems, we're able to reuse it here by\ntreating the label as a \"target\" sequence of length 1. We'll also output the\npreprocessed files in \"raw\" format using the ``--dataset-impl`` option to\nenhance readability:\n\n.. code-block:: console\n\n  > fairseq-preprocess \\\n    --trainpref names/train --validpref names/valid --testpref names/test \\\n    --source-lang input --target-lang label \\\n    --destdir names-bin --dataset-impl raw\n\nAfter running the above command you should see a new directory,\n:file:`names-bin/`, containing the dictionaries for *inputs* and *labels*.\n\n\n2. Registering a new Model\n--------------------------\n\nNext we'll register a new model in fairseq that will encode an input sentence\nwith a simple RNN and predict the output label. Compared to the original PyTorch\ntutorial, our version will also work with batches of data and GPU Tensors.\n\nFirst let's copy the simple RNN module implemented in the `PyTorch tutorial\n<https://pytorch.org/tutorials/intermediate/char_rnn_classification_tutorial.html#creating-the-network>`_.\nCreate a new file named :file:`fairseq/models/rnn_classifier.py` with the\nfollowing contents::\n\n    import torch\n    import torch.nn as nn\n\n    class RNN(nn.Module):\n\n        def __init__(self, input_size, hidden_size, output_size):\n            super(RNN, self).__init__()\n\n            self.hidden_size = hidden_size\n\n            self.i2h = nn.Linear(input_size + hidden_size, hidden_size)\n            self.i2o = nn.Linear(input_size + hidden_size, output_size)\n            self.softmax = nn.LogSoftmax(dim=1)\n\n        def forward(self, input, hidden):\n            combined = torch.cat((input, hidden), 1)\n            hidden = self.i2h(combined)\n            output = self.i2o(combined)\n            output = self.softmax(output)\n            return output, hidden\n\n        def initHidden(self):\n            return torch.zeros(1, self.hidden_size)\n\nWe must also *register* this model with fairseq using the\n:func:`~fairseq.models.register_model` function decorator. Once the model is\nregistered we'll be able to use it with the existing :ref:`Command-line Tools`.\n\nAll registered models must implement the :class:`~fairseq.models.BaseFairseqModel`\ninterface, so we'll create a small wrapper class in the same file and register\nit in fairseq with the name ``'rnn_classifier'``::\n\n    from fairseq.models import BaseFairseqModel, register_model\n\n    # Note: the register_model \"decorator\" should immediately precede the\n    # definition of the Model class.\n\n    @register_model('rnn_classifier')\n    class FairseqRNNClassifier(BaseFairseqModel):\n\n        @staticmethod\n        def add_args(parser):\n            # Models can override this method to add new command-line arguments.\n            # Here we'll add a new command-line argument to configure the\n            # dimensionality of the hidden state.\n            parser.add_argument(\n                '--hidden-dim', type=int, metavar='N',\n                help='dimensionality of the hidden state',\n            )\n\n        @classmethod\n        def build_model(cls, args, task):\n            # Fairseq initializes models by calling the ``build_model()``\n            # function. This provides more flexibility, since the returned model\n            # instance can be of a different type than the one that was called.\n            # In this case we'll just return a FairseqRNNClassifier instance.\n\n            # Initialize our RNN module\n            rnn = RNN(\n                # We'll define the Task in the next section, but for now just\n                # notice that the task holds the dictionaries for the \"source\"\n                # (i.e., the input sentence) and \"target\" (i.e., the label).\n                input_size=len(task.source_dictionary),\n                hidden_size=args.hidden_dim,\n                output_size=len(task.target_dictionary),\n            )\n\n            # Return the wrapped version of the module\n            return FairseqRNNClassifier(\n                rnn=rnn,\n                input_vocab=task.source_dictionary,\n            )\n\n        def __init__(self, rnn, input_vocab):\n            super(FairseqRNNClassifier, self).__init__()\n\n            self.rnn = rnn\n            self.input_vocab = input_vocab\n\n            # The RNN module in the tutorial expects one-hot inputs, so we can\n            # precompute the identity matrix to help convert from indices to\n            # one-hot vectors. We register it as a buffer so that it is moved to\n            # the GPU when ``cuda()`` is called.\n            self.register_buffer('one_hot_inputs', torch.eye(len(input_vocab)))\n\n        def forward(self, src_tokens, src_lengths):\n            # The inputs to the ``forward()`` function are determined by the\n            # Task, and in particular the ``'net_input'`` key in each\n            # mini-batch. We'll define the Task in the next section, but for\n            # now just know that *src_tokens* has shape `(batch, src_len)` and\n            # *src_lengths* has shape `(batch)`.\n            bsz, max_src_len = src_tokens.size()\n\n            # Initialize the RNN hidden state. Compared to the original PyTorch\n            # tutorial we'll also handle batched inputs and work on the GPU.\n            hidden = self.rnn.initHidden()\n            hidden = hidden.repeat(bsz, 1)  # expand for batched inputs\n            hidden = hidden.to(src_tokens.device)  # move to GPU\n\n            for i in range(max_src_len):\n                # WARNING: The inputs have padding, so we should mask those\n                # elements here so that padding doesn't affect the results.\n                # This is left as an exercise for the reader. The padding symbol\n                # is given by ``self.input_vocab.pad()`` and the unpadded length\n                # of each input is given by *src_lengths*.\n\n                # One-hot encode a batch of input characters.\n                input = self.one_hot_inputs[src_tokens[:, i].long()]\n\n                # Feed the input to our RNN.\n                output, hidden = self.rnn(input, hidden)\n\n            # Return the final output state for making a prediction\n            return output\n\nFinally let's define a *named architecture* with the configuration for our\nmodel. This is done with the :func:`~fairseq.models.register_model_architecture`\nfunction decorator. Thereafter this named architecture can be used with the\n``--arch`` command-line argument, e.g., ``--arch pytorch_tutorial_rnn``::\n\n    from fairseq.models import register_model_architecture\n\n    # The first argument to ``register_model_architecture()`` should be the name\n    # of the model we registered above (i.e., 'rnn_classifier'). The function we\n    # register here should take a single argument *args* and modify it in-place\n    # to match the desired architecture.\n\n    @register_model_architecture('rnn_classifier', 'pytorch_tutorial_rnn')\n    def pytorch_tutorial_rnn(args):\n        # We use ``getattr()`` to prioritize arguments that are explicitly given\n        # on the command-line, so that the defaults defined below are only used\n        # when no other value has been specified.\n        args.hidden_dim = getattr(args, 'hidden_dim', 128)\n\n\n3. Registering a new Task\n-------------------------\n\nNow we'll register a new :class:`~fairseq.tasks.FairseqTask` that will load our\ndictionaries and dataset. Tasks can also control how the data is batched into\nmini-batches, but in this tutorial we'll reuse the batching provided by\n:class:`fairseq.data.LanguagePairDataset`.\n\nCreate a new file named :file:`fairseq/tasks/simple_classification.py` with the\nfollowing contents::\n\n  import os\n  import torch\n\n  from fairseq.data import Dictionary, LanguagePairDataset\n  from fairseq.tasks import LegacyFairseqTask, register_task\n\n\n  @register_task('simple_classification')\n  class SimpleClassificationTask(LegacyFairseqTask):\n\n      @staticmethod\n      def add_args(parser):\n          # Add some command-line arguments for specifying where the data is\n          # located and the maximum supported input length.\n          parser.add_argument('data', metavar='FILE',\n                              help='file prefix for data')\n          parser.add_argument('--max-positions', default=1024, type=int,\n                              help='max input length')\n\n      @classmethod\n      def setup_task(cls, args, **kwargs):\n          # Here we can perform any setup required for the task. This may include\n          # loading Dictionaries, initializing shared Embedding layers, etc.\n          # In this case we'll just load the Dictionaries.\n          input_vocab = Dictionary.load(os.path.join(args.data, 'dict.input.txt'))\n          label_vocab = Dictionary.load(os.path.join(args.data, 'dict.label.txt'))\n          print('| [input] dictionary: {} types'.format(len(input_vocab)))\n          print('| [label] dictionary: {} types'.format(len(label_vocab)))\n\n          return SimpleClassificationTask(args, input_vocab, label_vocab)\n\n      def __init__(self, args, input_vocab, label_vocab):\n          super().__init__(args)\n          self.input_vocab = input_vocab\n          self.label_vocab = label_vocab\n\n      def load_dataset(self, split, **kwargs):\n          \"\"\"Load a given dataset split (e.g., train, valid, test).\"\"\"\n\n          prefix = os.path.join(self.args.data, '{}.input-label'.format(split))\n\n          # Read input sentences.\n          sentences, lengths = [], []\n          with open(prefix + '.input', encoding='utf-8') as file:\n              for line in file:\n                  sentence = line.strip()\n\n                  # Tokenize the sentence, splitting on spaces\n                  tokens = self.input_vocab.encode_line(\n                      sentence, add_if_not_exist=False,\n                  )\n\n                  sentences.append(tokens)\n                  lengths.append(tokens.numel())\n\n          # Read labels.\n          labels = []\n          with open(prefix + '.label', encoding='utf-8') as file:\n              for line in file:\n                  label = line.strip()\n                  labels.append(\n                      # Convert label to a numeric ID.\n                      torch.LongTensor([self.label_vocab.add_symbol(label)])\n                  )\n\n          assert len(sentences) == len(labels)\n          print('| {} {} {} examples'.format(self.args.data, split, len(sentences)))\n\n          # We reuse LanguagePairDataset since classification can be modeled as a\n          # sequence-to-sequence task where the target sequence has length 1.\n          self.datasets[split] = LanguagePairDataset(\n              src=sentences,\n              src_sizes=lengths,\n              src_dict=self.input_vocab,\n              tgt=labels,\n              tgt_sizes=torch.ones(len(labels)),  # targets have length 1\n              tgt_dict=self.label_vocab,\n              left_pad_source=False,\n              # Since our target is a single class label, there's no need for\n              # teacher forcing. If we set this to ``True`` then our Model's\n              # ``forward()`` method would receive an additional argument called\n              # *prev_output_tokens* that would contain a shifted version of the\n              # target sequence.\n              input_feeding=False,\n          )\n\n      def max_positions(self):\n          \"\"\"Return the max input length allowed by the task.\"\"\"\n          # The source should be less than *args.max_positions* and the \"target\"\n          # has max length 1.\n          return (self.args.max_positions, 1)\n\n      @property\n      def source_dictionary(self):\n          \"\"\"Return the source :class:`~fairseq.data.Dictionary`.\"\"\"\n          return self.input_vocab\n\n      @property\n      def target_dictionary(self):\n          \"\"\"Return the target :class:`~fairseq.data.Dictionary`.\"\"\"\n          return self.label_vocab\n\n      # We could override this method if we wanted more control over how batches\n      # are constructed, but it's not necessary for this tutorial since we can\n      # reuse the batching provided by LanguagePairDataset.\n      #\n      # def get_batch_iterator(\n      #     self, dataset, max_tokens=None, max_sentences=None, max_positions=None,\n      #     ignore_invalid_inputs=False, required_batch_size_multiple=1,\n      #     seed=1, num_shards=1, shard_id=0, num_workers=0, epoch=1,\n      #     data_buffer_size=0, disable_iterator_cache=False,\n      # ):\n      #     (...)\n\n\n4. Training the Model\n---------------------\n\nNow we're ready to train the model. We can use the existing :ref:`fairseq-train`\ncommand-line tool for this, making sure to specify our new Task (``--task\nsimple_classification``) and Model architecture (``--arch\npytorch_tutorial_rnn``):\n\n.. note::\n\n  You can also configure the dimensionality of the hidden state by passing the\n  ``--hidden-dim`` argument to :ref:`fairseq-train`.\n\n.. code-block:: console\n\n  > fairseq-train names-bin \\\n    --task simple_classification \\\n    --arch pytorch_tutorial_rnn \\\n    --optimizer adam --lr 0.001 --lr-shrink 0.5 \\\n    --max-tokens 1000\n  (...)\n  | epoch 027 | loss 1.200 | ppl 2.30 | wps 15728 | ups 119.4 | wpb 116 | bsz 116 | num_updates 3726 | lr 1.5625e-05 | gnorm 1.290 | clip 0% | oom 0 | wall 32 | train_wall 21\n  | epoch 027 | valid on 'valid' subset | valid_loss 1.41304 | valid_ppl 2.66 | num_updates 3726 | best 1.41208\n  | done training in 31.6 seconds\n\nThe model files should appear in the :file:`checkpoints/` directory.\n\n\n5. Writing an evaluation script\n-------------------------------\n\nFinally we can write a short script to evaluate our model on new inputs. Create\na new file named :file:`eval_classifier.py` with the following contents::\n\n  from fairseq import checkpoint_utils, data, options, tasks\n\n  # Parse command-line arguments for generation\n  parser = options.get_generation_parser(default_task='simple_classification')\n  args = options.parse_args_and_arch(parser)\n\n  # Setup task\n  task = tasks.setup_task(args)\n\n  # Load model\n  print('| loading model from {}'.format(args.path))\n  models, _model_args = checkpoint_utils.load_model_ensemble([args.path], task=task)\n  model = models[0]\n\n  while True:\n      sentence = input('\\nInput: ')\n\n      # Tokenize into characters\n      chars = ' '.join(list(sentence.strip()))\n      tokens = task.source_dictionary.encode_line(\n          chars, add_if_not_exist=False,\n      )\n\n      # Build mini-batch to feed to the model\n      batch = data.language_pair_dataset.collate(\n          samples=[{'id': -1, 'source': tokens}],  # bsz = 1\n          pad_idx=task.source_dictionary.pad(),\n          eos_idx=task.source_dictionary.eos(),\n          left_pad_source=False,\n          input_feeding=False,\n      )\n\n      # Feed batch to the model and get predictions\n      preds = model(**batch['net_input'])\n\n      # Print top 3 predictions and their log-probabilities\n      top_scores, top_labels = preds[0].topk(k=3)\n      for score, label_idx in zip(top_scores, top_labels):\n          label_name = task.target_dictionary.string([label_idx])\n          print('({:.2f})\\t{}'.format(score, label_name))\n\nNow we can evaluate our model interactively. Note that we have included the\noriginal data path (:file:`names-bin/`) so that the dictionaries can be loaded:\n\n.. code-block:: console\n\n  > python eval_classifier.py names-bin --path checkpoints/checkpoint_best.pt\n  | [input] dictionary: 64 types\n  | [label] dictionary: 24 types\n  | loading model from checkpoints/checkpoint_best.pt\n\n  Input: Satoshi\n  (-0.61) Japanese\n  (-1.20) Arabic\n  (-2.86) Italian\n\n  Input: Sinbad\n  (-0.30) Arabic\n  (-1.76) English\n  (-4.08) Russian\n"
  },
  {
    "path": "docs/tutorial_simple_lstm.rst",
    "content": "Tutorial: Simple LSTM\n=====================\n\nIn this tutorial we will extend fairseq by adding a new\n:class:`~fairseq.models.FairseqEncoderDecoderModel` that encodes a source\nsentence with an LSTM and then passes the final hidden state to a second LSTM\nthat decodes the target sentence (without attention).\n\nThis tutorial covers:\n\n1. **Writing an Encoder and Decoder** to encode/decode the source/target\n   sentence, respectively.\n2. **Registering a new Model** so that it can be used with the existing\n   :ref:`Command-line tools`.\n3. **Training the Model** using the existing command-line tools.\n4. **Making generation faster** by modifying the Decoder to use\n   :ref:`Incremental decoding`.\n\n\n1. Building an Encoder and Decoder\n----------------------------------\n\nIn this section we'll define a simple LSTM Encoder and Decoder. All Encoders\nshould implement the :class:`~fairseq.models.FairseqEncoder` interface and\nDecoders should implement the :class:`~fairseq.models.FairseqDecoder` interface.\nThese interfaces themselves extend :class:`torch.nn.Module`, so FairseqEncoders\nand FairseqDecoders can be written and used in the same ways as ordinary PyTorch\nModules.\n\n\nEncoder\n~~~~~~~\n\nOur Encoder will embed the tokens in the source sentence, feed them to a\n:class:`torch.nn.LSTM` and return the final hidden state. To create our encoder\nsave the following in a new file named :file:`fairseq/models/simple_lstm.py`::\n\n  import torch.nn as nn\n  from fairseq import utils\n  from fairseq.models import FairseqEncoder\n\n  class SimpleLSTMEncoder(FairseqEncoder):\n\n      def __init__(\n          self, args, dictionary, embed_dim=128, hidden_dim=128, dropout=0.1,\n      ):\n          super().__init__(dictionary)\n          self.args = args\n\n          # Our encoder will embed the inputs before feeding them to the LSTM.\n          self.embed_tokens = nn.Embedding(\n              num_embeddings=len(dictionary),\n              embedding_dim=embed_dim,\n              padding_idx=dictionary.pad(),\n          )\n          self.dropout = nn.Dropout(p=dropout)\n\n          # We'll use a single-layer, unidirectional LSTM for simplicity.\n          self.lstm = nn.LSTM(\n              input_size=embed_dim,\n              hidden_size=hidden_dim,\n              num_layers=1,\n              bidirectional=False,\n              batch_first=True,\n          )\n\n      def forward(self, src_tokens, src_lengths):\n          # The inputs to the ``forward()`` function are determined by the\n          # Task, and in particular the ``'net_input'`` key in each\n          # mini-batch. We discuss Tasks in the next tutorial, but for now just\n          # know that *src_tokens* has shape `(batch, src_len)` and *src_lengths*\n          # has shape `(batch)`.\n\n          # Note that the source is typically padded on the left. This can be\n          # configured by adding the `--left-pad-source \"False\"` command-line\n          # argument, but here we'll make the Encoder handle either kind of\n          # padding by converting everything to be right-padded.\n          if self.args.left_pad_source:\n              # Convert left-padding to right-padding.\n              src_tokens = utils.convert_padding_direction(\n                  src_tokens,\n                  padding_idx=self.dictionary.pad(),\n                  left_to_right=True\n              )\n\n          # Embed the source.\n          x = self.embed_tokens(src_tokens)\n\n          # Apply dropout.\n          x = self.dropout(x)\n\n          # Pack the sequence into a PackedSequence object to feed to the LSTM.\n          x = nn.utils.rnn.pack_padded_sequence(x, src_lengths, batch_first=True)\n\n          # Get the output from the LSTM.\n          _outputs, (final_hidden, _final_cell) = self.lstm(x)\n\n          # Return the Encoder's output. This can be any object and will be\n          # passed directly to the Decoder.\n          return {\n              # this will have shape `(bsz, hidden_dim)`\n              'final_hidden': final_hidden.squeeze(0),\n          }\n\n      # Encoders are required to implement this method so that we can rearrange\n      # the order of the batch elements during inference (e.g., beam search).\n      def reorder_encoder_out(self, encoder_out, new_order):\n          \"\"\"\n          Reorder encoder output according to `new_order`.\n\n          Args:\n              encoder_out: output from the ``forward()`` method\n              new_order (LongTensor): desired order\n\n          Returns:\n              `encoder_out` rearranged according to `new_order`\n          \"\"\"\n          final_hidden = encoder_out['final_hidden']\n          return {\n              'final_hidden': final_hidden.index_select(0, new_order),\n          }\n\n\nDecoder\n~~~~~~~\n\nOur Decoder will predict the next word, conditioned on the Encoder's final\nhidden state and an embedded representation of the previous target word -- which\nis sometimes called *teacher forcing*. More specifically, we'll use a\n:class:`torch.nn.LSTM` to produce a sequence of hidden states that we'll project\nto the size of the output vocabulary to predict each target word.\n\n::\n\n  import torch\n  from fairseq.models import FairseqDecoder\n\n  class SimpleLSTMDecoder(FairseqDecoder):\n\n      def __init__(\n          self, dictionary, encoder_hidden_dim=128, embed_dim=128, hidden_dim=128,\n          dropout=0.1,\n      ):\n          super().__init__(dictionary)\n\n          # Our decoder will embed the inputs before feeding them to the LSTM.\n          self.embed_tokens = nn.Embedding(\n              num_embeddings=len(dictionary),\n              embedding_dim=embed_dim,\n              padding_idx=dictionary.pad(),\n          )\n          self.dropout = nn.Dropout(p=dropout)\n\n          # We'll use a single-layer, unidirectional LSTM for simplicity.\n          self.lstm = nn.LSTM(\n              # For the first layer we'll concatenate the Encoder's final hidden\n              # state with the embedded target tokens.\n              input_size=encoder_hidden_dim + embed_dim,\n              hidden_size=hidden_dim,\n              num_layers=1,\n              bidirectional=False,\n          )\n\n          # Define the output projection.\n          self.output_projection = nn.Linear(hidden_dim, len(dictionary))\n\n      # During training Decoders are expected to take the entire target sequence\n      # (shifted right by one position) and produce logits over the vocabulary.\n      # The *prev_output_tokens* tensor begins with the end-of-sentence symbol,\n      # ``dictionary.eos()``, followed by the target sequence.\n      def forward(self, prev_output_tokens, encoder_out):\n          \"\"\"\n          Args:\n              prev_output_tokens (LongTensor): previous decoder outputs of shape\n                  `(batch, tgt_len)`, for teacher forcing\n              encoder_out (Tensor, optional): output from the encoder, used for\n                  encoder-side attention\n\n          Returns:\n              tuple:\n                  - the last decoder layer's output of shape\n                    `(batch, tgt_len, vocab)`\n                  - the last decoder layer's attention weights of shape\n                    `(batch, tgt_len, src_len)`\n          \"\"\"\n          bsz, tgt_len = prev_output_tokens.size()\n\n          # Extract the final hidden state from the Encoder.\n          final_encoder_hidden = encoder_out['final_hidden']\n\n          # Embed the target sequence, which has been shifted right by one\n          # position and now starts with the end-of-sentence symbol.\n          x = self.embed_tokens(prev_output_tokens)\n\n          # Apply dropout.\n          x = self.dropout(x)\n\n          # Concatenate the Encoder's final hidden state to *every* embedded\n          # target token.\n          x = torch.cat(\n              [x, final_encoder_hidden.unsqueeze(1).expand(bsz, tgt_len, -1)],\n              dim=2,\n          )\n\n          # Using PackedSequence objects in the Decoder is harder than in the\n          # Encoder, since the targets are not sorted in descending length order,\n          # which is a requirement of ``pack_padded_sequence()``. Instead we'll\n          # feed nn.LSTM directly.\n          initial_state = (\n              final_encoder_hidden.unsqueeze(0),  # hidden\n              torch.zeros_like(final_encoder_hidden).unsqueeze(0),  # cell\n          )\n          output, _ = self.lstm(\n              x.transpose(0, 1),  # convert to shape `(tgt_len, bsz, dim)`\n              initial_state,\n          )\n          x = output.transpose(0, 1)  # convert to shape `(bsz, tgt_len, hidden)`\n\n          # Project the outputs to the size of the vocabulary.\n          x = self.output_projection(x)\n\n          # Return the logits and ``None`` for the attention weights\n          return x, None\n\n\n2. Registering the Model\n------------------------\n\nNow that we've defined our Encoder and Decoder we must *register* our model with\nfairseq using the :func:`~fairseq.models.register_model` function decorator.\nOnce the model is registered we'll be able to use it with the existing\n:ref:`Command-line Tools`.\n\nAll registered models must implement the\n:class:`~fairseq.models.BaseFairseqModel` interface. For sequence-to-sequence\nmodels (i.e., any model with a single Encoder and Decoder), we can instead\nimplement the :class:`~fairseq.models.FairseqEncoderDecoderModel` interface.\n\nCreate a small wrapper class in the same file and register it in fairseq with\nthe name ``'simple_lstm'``::\n\n  from fairseq.models import FairseqEncoderDecoderModel, register_model\n\n  # Note: the register_model \"decorator\" should immediately precede the\n  # definition of the Model class.\n\n  @register_model('simple_lstm')\n  class SimpleLSTMModel(FairseqEncoderDecoderModel):\n\n      @staticmethod\n      def add_args(parser):\n          # Models can override this method to add new command-line arguments.\n          # Here we'll add some new command-line arguments to configure dropout\n          # and the dimensionality of the embeddings and hidden states.\n          parser.add_argument(\n              '--encoder-embed-dim', type=int, metavar='N',\n              help='dimensionality of the encoder embeddings',\n          )\n          parser.add_argument(\n              '--encoder-hidden-dim', type=int, metavar='N',\n              help='dimensionality of the encoder hidden state',\n          )\n          parser.add_argument(\n              '--encoder-dropout', type=float, default=0.1,\n              help='encoder dropout probability',\n          )\n          parser.add_argument(\n              '--decoder-embed-dim', type=int, metavar='N',\n              help='dimensionality of the decoder embeddings',\n          )\n          parser.add_argument(\n              '--decoder-hidden-dim', type=int, metavar='N',\n              help='dimensionality of the decoder hidden state',\n          )\n          parser.add_argument(\n              '--decoder-dropout', type=float, default=0.1,\n              help='decoder dropout probability',\n          )\n\n      @classmethod\n      def build_model(cls, args, task):\n          # Fairseq initializes models by calling the ``build_model()``\n          # function. This provides more flexibility, since the returned model\n          # instance can be of a different type than the one that was called.\n          # In this case we'll just return a SimpleLSTMModel instance.\n\n          # Initialize our Encoder and Decoder.\n          encoder = SimpleLSTMEncoder(\n              args=args,\n              dictionary=task.source_dictionary,\n              embed_dim=args.encoder_embed_dim,\n              hidden_dim=args.encoder_hidden_dim,\n              dropout=args.encoder_dropout,\n          )\n          decoder = SimpleLSTMDecoder(\n              dictionary=task.target_dictionary,\n              encoder_hidden_dim=args.encoder_hidden_dim,\n              embed_dim=args.decoder_embed_dim,\n              hidden_dim=args.decoder_hidden_dim,\n              dropout=args.decoder_dropout,\n          )\n          model = SimpleLSTMModel(encoder, decoder)\n\n          # Print the model architecture.\n          print(model)\n\n          return model\n\n      # We could override the ``forward()`` if we wanted more control over how\n      # the encoder and decoder interact, but it's not necessary for this\n      # tutorial since we can inherit the default implementation provided by\n      # the FairseqEncoderDecoderModel base class, which looks like:\n      #\n      # def forward(self, src_tokens, src_lengths, prev_output_tokens):\n      #     encoder_out = self.encoder(src_tokens, src_lengths)\n      #     decoder_out = self.decoder(prev_output_tokens, encoder_out)\n      #     return decoder_out\n\nFinally let's define a *named architecture* with the configuration for our\nmodel. This is done with the :func:`~fairseq.models.register_model_architecture`\nfunction decorator. Thereafter this named architecture can be used with the\n``--arch`` command-line argument, e.g., ``--arch tutorial_simple_lstm``::\n\n  from fairseq.models import register_model_architecture\n\n  # The first argument to ``register_model_architecture()`` should be the name\n  # of the model we registered above (i.e., 'simple_lstm'). The function we\n  # register here should take a single argument *args* and modify it in-place\n  # to match the desired architecture.\n\n  @register_model_architecture('simple_lstm', 'tutorial_simple_lstm')\n  def tutorial_simple_lstm(args):\n      # We use ``getattr()`` to prioritize arguments that are explicitly given\n      # on the command-line, so that the defaults defined below are only used\n      # when no other value has been specified.\n      args.encoder_embed_dim = getattr(args, 'encoder_embed_dim', 256)\n      args.encoder_hidden_dim = getattr(args, 'encoder_hidden_dim', 256)\n      args.decoder_embed_dim = getattr(args, 'decoder_embed_dim', 256)\n      args.decoder_hidden_dim = getattr(args, 'decoder_hidden_dim', 256)\n\n\n3. Training the Model\n---------------------\n\nNow we're ready to train the model. We can use the existing :ref:`fairseq-train`\ncommand-line tool for this, making sure to specify our new Model architecture\n(``--arch tutorial_simple_lstm``).\n\n.. note::\n\n  Make sure you've already preprocessed the data from the IWSLT example in the\n  :file:`examples/translation/` directory.\n\n.. code-block:: console\n\n  > fairseq-train data-bin/iwslt14.tokenized.de-en \\\n    --arch tutorial_simple_lstm \\\n    --encoder-dropout 0.2 --decoder-dropout 0.2 \\\n    --optimizer adam --lr 0.005 --lr-shrink 0.5 \\\n    --max-tokens 12000\n  (...)\n  | epoch 052 | loss 4.027 | ppl 16.30 | wps 420805 | ups 39.7 | wpb 9841 | bsz 400 | num_updates 20852 | lr 1.95313e-05 | gnorm 0.218 | clip 0% | oom 0 | wall 529 | train_wall 396\n  | epoch 052 | valid on 'valid' subset | valid_loss 4.74989 | valid_ppl 26.91 | num_updates 20852 | best 4.74954\n\nThe model files should appear in the :file:`checkpoints/` directory. While this\nmodel architecture is not very good, we can use the :ref:`fairseq-generate` script to\ngenerate translations and compute our BLEU score over the test set:\n\n.. code-block:: console\n\n  > fairseq-generate data-bin/iwslt14.tokenized.de-en \\\n    --path checkpoints/checkpoint_best.pt \\\n    --beam 5 \\\n    --remove-bpe\n  (...)\n  | Translated 6750 sentences (153132 tokens) in 17.3s (389.12 sentences/s, 8827.68 tokens/s)\n  | Generate test with beam=5: BLEU4 = 8.18, 38.8/12.1/4.7/2.0 (BP=1.000, ratio=1.066, syslen=139865, reflen=131146)\n\n\n4. Making generation faster\n---------------------------\n\nWhile autoregressive generation from sequence-to-sequence models is inherently\nslow, our implementation above is especially slow because it recomputes the\nentire sequence of Decoder hidden states for every output token (i.e., it is\n``O(n^2)``). We can make this significantly faster by instead caching the\nprevious hidden states.\n\nIn fairseq this is called :ref:`Incremental decoding`. Incremental decoding is a\nspecial mode at inference time where the Model only receives a single timestep\nof input corresponding to the immediately previous output token (for teacher\nforcing) and must produce the next output incrementally. Thus the model must\ncache any long-term state that is needed about the sequence, e.g., hidden\nstates, convolutional states, etc.\n\nTo implement incremental decoding we will modify our model to implement the\n:class:`~fairseq.models.FairseqIncrementalDecoder` interface. Compared to the\nstandard :class:`~fairseq.models.FairseqDecoder` interface, the incremental\ndecoder interface allows ``forward()`` methods to take an extra keyword argument\n(*incremental_state*) that can be used to cache state across time-steps.\n\nLet's replace our ``SimpleLSTMDecoder`` with an incremental one::\n\n  import torch\n  from fairseq.models import FairseqIncrementalDecoder\n\n  class SimpleLSTMDecoder(FairseqIncrementalDecoder):\n\n      def __init__(\n          self, dictionary, encoder_hidden_dim=128, embed_dim=128, hidden_dim=128,\n          dropout=0.1,\n      ):\n          # This remains the same as before.\n          super().__init__(dictionary)\n          self.embed_tokens = nn.Embedding(\n              num_embeddings=len(dictionary),\n              embedding_dim=embed_dim,\n              padding_idx=dictionary.pad(),\n          )\n          self.dropout = nn.Dropout(p=dropout)\n          self.lstm = nn.LSTM(\n              input_size=encoder_hidden_dim + embed_dim,\n              hidden_size=hidden_dim,\n              num_layers=1,\n              bidirectional=False,\n          )\n          self.output_projection = nn.Linear(hidden_dim, len(dictionary))\n\n      # We now take an additional kwarg (*incremental_state*) for caching the\n      # previous hidden and cell states.\n      def forward(self, prev_output_tokens, encoder_out, incremental_state=None):\n          if incremental_state is not None:\n              # If the *incremental_state* argument is not ``None`` then we are\n              # in incremental inference mode. While *prev_output_tokens* will\n              # still contain the entire decoded prefix, we will only use the\n              # last step and assume that the rest of the state is cached.\n              prev_output_tokens = prev_output_tokens[:, -1:]\n\n          # This remains the same as before.\n          bsz, tgt_len = prev_output_tokens.size()\n          final_encoder_hidden = encoder_out['final_hidden']\n          x = self.embed_tokens(prev_output_tokens)\n          x = self.dropout(x)\n          x = torch.cat(\n              [x, final_encoder_hidden.unsqueeze(1).expand(bsz, tgt_len, -1)],\n              dim=2,\n          )\n\n          # We will now check the cache and load the cached previous hidden and\n          # cell states, if they exist, otherwise we will initialize them to\n          # zeros (as before). We will use the ``utils.get_incremental_state()``\n          # and ``utils.set_incremental_state()`` helpers.\n          initial_state = utils.get_incremental_state(\n              self, incremental_state, 'prev_state',\n          )\n          if initial_state is None:\n              # first time initialization, same as the original version\n              initial_state = (\n                  final_encoder_hidden.unsqueeze(0),  # hidden\n                  torch.zeros_like(final_encoder_hidden).unsqueeze(0),  # cell\n              )\n\n          # Run one step of our LSTM.\n          output, latest_state = self.lstm(x.transpose(0, 1), initial_state)\n\n          # Update the cache with the latest hidden and cell states.\n          utils.set_incremental_state(\n              self, incremental_state, 'prev_state', latest_state,\n          )\n\n          # This remains the same as before\n          x = output.transpose(0, 1)\n          x = self.output_projection(x)\n          return x, None\n\n      # The ``FairseqIncrementalDecoder`` interface also requires implementing a\n      # ``reorder_incremental_state()`` method, which is used during beam search\n      # to select and reorder the incremental state.\n      def reorder_incremental_state(self, incremental_state, new_order):\n          # Load the cached state.\n          prev_state = utils.get_incremental_state(\n              self, incremental_state, 'prev_state',\n          )\n\n          # Reorder batches according to *new_order*.\n          reordered_state = (\n              prev_state[0].index_select(1, new_order),  # hidden\n              prev_state[1].index_select(1, new_order),  # cell\n          )\n\n          # Update the cached state.\n          utils.set_incremental_state(\n              self, incremental_state, 'prev_state', reordered_state,\n          )\n\nFinally, we can rerun generation and observe the speedup:\n\n.. code-block:: console\n\n  # Before\n\n  > fairseq-generate data-bin/iwslt14.tokenized.de-en \\\n    --path checkpoints/checkpoint_best.pt \\\n    --beam 5 \\\n    --remove-bpe\n  (...)\n  | Translated 6750 sentences (153132 tokens) in 17.3s (389.12 sentences/s, 8827.68 tokens/s)\n  | Generate test with beam=5: BLEU4 = 8.18, 38.8/12.1/4.7/2.0 (BP=1.000, ratio=1.066, syslen=139865, reflen=131146)\n\n  # After\n\n  > fairseq-generate data-bin/iwslt14.tokenized.de-en \\\n    --path checkpoints/checkpoint_best.pt \\\n    --beam 5 \\\n    --remove-bpe\n  (...)\n  | Translated 6750 sentences (153132 tokens) in 5.5s (1225.54 sentences/s, 27802.94 tokens/s)\n  | Generate test with beam=5: BLEU4 = 8.18, 38.8/12.1/4.7/2.0 (BP=1.000, ratio=1.066, syslen=139865, reflen=131146)\n"
  },
  {
    "path": "examples/.gitignore",
    "content": "!*/*.sh\n!*/*.md\n"
  },
  {
    "path": "examples/MMPT/.gitignore",
    "content": "# Byte-compiled / optimized / DLL files\n__pycache__/\n*.py[cod]\n*$py.class\n\n# C extensions\n*.so\n\n# Distribution / packaging\n.Python\nbuild/\ndevelop-eggs/\ndist/\ndownloads/\neggs/\n.eggs/\nlib/\nlib64/\nparts/\nsdist/\nvar/\nwheels/\npip-wheel-metadata/\nshare/python-wheels/\n*.egg-info/\n.installed.cfg\n*.egg\nMANIFEST\n\n# PyInstaller\n#  Usually these files are written by a python script from a template\n#  before PyInstaller builds the exe, so as to inject date/other infos into it.\n*.manifest\n*.spec\n\n# Installer logs\npip-log.txt\npip-delete-this-directory.txt\n\n# Unit test / coverage reports\nhtmlcov/\n.tox/\n.nox/\n.coverage\n.coverage.*\n.cache\nnosetests.xml\ncoverage.xml\n*.cover\n*.py,cover\n.hypothesis/\n.pytest_cache/\n\n# Translations\n*.mo\n*.pot\n\n# Django stuff:\n*.log\nlocal_settings.py\ndb.sqlite3\ndb.sqlite3-journal\n\n# Flask stuff:\ninstance/\n.webassets-cache\n\n# Scrapy stuff:\n.scrapy\n\n# Sphinx documentation\ndocs/_build/\n\n# PyBuilder\ntarget/\n\n# Jupyter Notebook\n.ipynb_checkpoints\n\n# IPython\nprofile_default/\nipython_config.py\n\n# pyenv\n.python-version\n\n# pipenv\n#   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.\n#   However, in case of collaboration, if having platform-specific dependencies or dependencies\n#   having no cross-platform support, pipenv may install dependencies that don't work, or not\n#   install all needed dependencies.\n#Pipfile.lock\n\n# PEP 582; used by e.g. github.com/David-OConnor/pyflow\n__pypackages__/\n\n# Celery stuff\ncelerybeat-schedule\ncelerybeat.pid\n\n# SageMath parsed files\n*.sage.py\n\n# Environments\n.env\n.venv\nenv/\nvenv/\nENV/\nenv.bak/\nvenv.bak/\n\n# Spyder project settings\n.spyderproject\n.spyproject\n\n# Rope project settings\n.ropeproject\n\n# mkdocs documentation\n/site\n\n# mypy\n.mypy_cache/\n.dmypy.json\ndmypy.json\n\n# Pyre type checker\n.pyre/\nruns\ndata\npretrained_models\nprojects/mmfusion_*\nlog_test\nthird-party\npython_log\nslurm_snapshot_code\nlightning_logs\ndemos\n"
  },
  {
    "path": "examples/MMPT/CONFIG.md",
    "content": "### Config Files Explained\n\nTaking `projects/mfmmlm.yaml` for example, which run pretraining using masked frame model (MFM) and masked language model (MLM) on a single BERT:  \n\n```yaml\nproject_dir: mfmmlm # specify the project dir for this baseline.\nrun_task:\n  - how2.yaml # run pretraining on how2 when launching `projects/taskmfmmlm.yaml`\n  - [vtt.yaml, vttcap.yaml, vttqa.yaml, youcook.yaml, youcookcap.yaml, crosstask.yaml, coin.yaml] # run fine-tuning tasks.\nbase_dir: task # a global template folder to specify each training task. \ntask_group:\n  pretrain: # section for pretraining. Most baselines differs in this section.\n    task_list:\n      - how2.yaml # reconfig `projects/task/how2.yaml`\n    dataset:\n      aligner: MFMMLMAligner # overwrite the aligner for MFMMLM training task.\n    model:\n      model_cls: MMFusionMFMMLM # overwrite the model, which constructs negative examples for MFM on-the-fly.\n    loss:\n      loss_cls: MFMMLM # overwrite the loss as MFMMLM, which combines MFM and MLM together.\n    fairseq: # all fairseq args can be expecified under this name.\n      dataset:\n        batch_size: 128\n  finetune: # section for fine-tuning tasks, we don't need to change anything here mostly since we want to see how pretraining can contribute to finetuning.\n    task_list: # specify the list of downstream tasks, e.g., copy `projects/task/vtt.yaml` to `projects/mfmmlm`.\n      - vtt.yaml\n      - vttqa.yaml\n      - youcook.yaml\n      - youcookcap.yaml\n      - crosstask.yaml\n      - coin.yaml\n  test: # section for testing.\n    task_list:\n      - test_vtt.yaml\n      - test_vttqa.yaml\n      - test_youcook.yaml\n      - test_youcookcap.yaml\n      - test_crosstask.yaml\n      - test_crosstask_zs.yaml\n      - test_coin.yaml\n```\n"
  },
  {
    "path": "examples/MMPT/DATASET.md",
    "content": "# Dataset\n\nWe understand video data are challenging to download and process. For videos, we provide our preprocessing scripts under `scripts/video_feature_extractor` (deeply adapted from `https://github.com/antoine77340/video_feature_extractor`); for text, we pre-tokenizing scripts under `scripts/text_token_extractor`.\n\n### S3D Feature Extraction\nWe use pre-trained [S3D](https://github.com/antoine77340/S3D_HowTo100M) for video feature extraction. Please place the models as `pretrained_models/s3d_dict.npy` and `pretrained_models/s3d_howto100m.pth`.\n\nWe implement a `PathBuilder` to automatically track video ids, source video paths to their feature locations (you may need `conda install -c anaconda pandas`). Decoding may need `pip install ffmpeg-python`.\n\n### Howto100M\n[Howto100M](https://www.di.ens.fr/willow/research/howto100m/) is a large-scale video pre-training datasets. You may download videos by yourself and run preprocessing of our scripts. \n\nSeveral key differences of our preprocessing from existing papers: (1) we use `raw_caption.json` instead of `caption.json` to have pure self-supervision on text (`caption.json` has manual removal of stop words); (2) we remove partially duplicated texts that are originally designed for real-time readability (see `mmpt/processors/dedupprocessor.py`); (3) then we shard video/text features using `SharedTensor` in `mmpt/utils/shardedtensor.py` for fast loading during training (faster than `h5py`).\n\n#### Steps\n##### video\nTo extract video features: edit and run `bash scripts/video_feature_extractor/how2/s3d.sh`. (consider to run this on multiple machines; by default, we store features in fp16 to save space and also for faster training).\n\nSplit available video ids as `data/how2/how2_s3d_train.lst` and `data/how2/how2_s3d_val.lst`.\n\nLastly, pack video features into `ShardedTensor` using `python scripts/video_feature_extractor/shard_feature.py`.\n\n##### text\nClean captions using `python -m mmpt.processors.dedupprocessor`.\n\nTokenize dedupped captions `data/how2/raw_caption_dedup.pkl` into sharded numpy arrays:  \n```\npython scripts/text_token_extractor/pretokenization.py scripts/text_token_extractor/configs/bert-base-uncased.yaml\n```\n\n### Youcook, MSRVTT etc.\nWe use the version of Youcook and MSRVTT come with Howto100M and MILNCE. Please download the data to `data/youcook` and `data/msrvtt` accordingly, you can also check `projects/task/youcook.yaml` and `projects/task/vtt.yaml` etc. in details. \nWe extract features for Youcook, MSRVTT similar to the first step of Howto100M but we read text from meta data directly and perform on-the-fly tokenization.\n\n"
  },
  {
    "path": "examples/MMPT/README.md",
    "content": "# VideoCLIP and VLM\n\nYou just find this toolkit for multimodal video understanding! It contains implementation of two recent multi-modal video understanding papers [VideoCLIP](https://arxiv.org/pdf/2109.14084.pdf) (EMNLP, 2021) and [VLM](https://aclanthology.org/2021.findings-acl.370.pdf) (ACL Findings, 2021), along with high-performance toolkits that are typically lacking in existing codebase. The toolkit is desigend to contain generic performance-tuned components that can be potentially adapted to other frameworks (we initially use fairseq). \n\nVideoCLIP is a contrastive learning model for zero-shot transfer to retrieval/classification/sequence labeling style tasks.\n\n<img src=\"videoclip.png\" width=\"350\" class=\"center\">\n\nVLM is a masked language model style pre-training using only one encoder with masked modality model (MMM) for retrieval/generation/sequence labeling style tasks.\n\n<img src=\"vlm.png\" width=\"350\" class=\"center\">\n\n### News\n[Oct. 2021] Initial release of implementation for the following papers:  \n[VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding](https://arxiv.org/pdf/2109.14084.pdf) (Xu et. al., EMNLP 2021)  \n[VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding](https://aclanthology.org/2021.findings-acl.370.pdf) (Xu et. al., ACL Findings 2021)  \n\n\n### Installation\nWe aim to minimize the dependency of this repo on other packages.  \nWe use fairseq as the main trainer (no models/datasets dependency on fairseq. We will support other trainer in future):  \n```\ngit clone https://github.com/pytorch/fairseq\ncd fairseq\npip install -e .  # also optionally follow fairseq README for apex installation for fp16 training.\nexport MKL_THREADING_LAYER=GNU  # fairseq may need this for numpy.\n```\n\nThen install this toolkit:\n```\ncd examples/MMPT  # MMPT can be in any folder, not necessarily under fairseq/examples.\npip install -e .\n```\n\nThe code is developed under Python=3.8.8, Pytorch=1.8, cuda=11.0 with fairseq=1.0.0a0+af0389f and tested under Python=3.8.8 pytorch=1.9 cuda=11.0 fairseq=1.0.0a0+8e7bc73 during code release.\nMost models require `transformers==3.4` for API compatibility `pip install transformers==3.4`. \nIn addition, some downstream tasks may need `conda install pandas`.  \n\n\n### Usage\n#### Download Checkpoints\nWe use pre-trained [S3D](https://github.com/antoine77340/S3D_HowTo100M) for video feature extraction. Please place the models as `pretrained_models/s3d_dict.npy` and `pretrained_models/s3d_howto100m.pth`.\n\nDownload VideoCLIP checkpoint `https://dl.fbaipublicfiles.com/MMPT/retri/videoclip/checkpoint_best.pt` to `runs/retri/videoclip` or VLM checkpoint `https://dl.fbaipublicfiles.com/MMPT/mtm/vlm/checkpoint_best.pt` to `runs/mtm/vlm`.\n\n#### Demo of Inference\nrun `python locallaunch.py projects/retri/videoclip.yaml --dryrun` to get all `.yaml`s for VideoCLIP.\n\n```python\nimport torch\n\nfrom mmpt.models import MMPTModel\n\n\nmodel, tokenizer, aligner = MMPTModel.from_pretrained(\n    \"projects/retri/videoclip/how2.yaml\")\n\nmodel.eval()\n\n\n# B, T, FPS, H, W, C (VideoCLIP is trained on 30 fps of s3d)\nvideo_frames = torch.randn(1, 2, 30, 224, 224, 3)\ncaps, cmasks = aligner._build_text_seq(\n    tokenizer(\"some text\", add_special_tokens=False)[\"input_ids\"]\n)\n\ncaps, cmasks = caps[None, :], cmasks[None, :]  # bsz=1\n\nwith torch.no_grad():\n    output = model(video_frames, caps, cmasks, return_score=True)\nprint(output[\"score\"])  # dot-product\n```\n\n#### Data Preparation\nSee [dataset](DATASET.md) for each dataset.\n\n#### Global Config for Training Pipeline\nWe organize a global config file for a training/testing pipeline under projects (see a detailed [explanation](CONFIG.md)). For example, VideoCLIP in `projects/retri/videoclip.yaml` and VLM is in `projects/mtm/vlm.yaml`.\n\nWe wrap all cmds into `locallaunch.py` and `mmpt_cli/localjob.py`. You can check concrete cmds by `--dryrun` and then drop it for actual run.  \n\nFirst, run `python locallaunch.py projects/retri/videoclip.yaml --dryrun` will generate configs for all configs of pre-training, zero-shot evaluation, fine-tuning and testing, for VideoCLIP under `projects/retri/videoclip`.  \n\nThen each (either training or evaluation) process will be configed by a concrete config file (we save all complex arguments into the concrete config file for reproducibility, including fairseq args). For example, run zero-shot evaluation on youcook,\n```\npython locallaunch.py projects/retri/videoclip/test_youcook_zs.yaml --jobtype local_predict  # zero-shot evaluation.\npython locallaunch.py projects/retri/videoclip/youcook_videoclip.yaml --jobtype local_single --dryrun  # fine-tuning: use --dryrun to check cmds and drop it to make an actual run; local_small will run on two gpus (as in paper).\npython locallaunch.py projects/retri/videoclip/test_youcook_videoclip.yaml --jobtype local_predict  # testing on fine-tuned model.\n```\n\nPretraining can be run as:  \n```\npython locallaunch.py projects/retri/videoclip/how2.yaml --jobtype local_single --dryrun # check then drop dryrun; paper is ran on local_big as 8 gpus.\n```\nYou may need to change `--jobtype`, check/extend `LocalJob` in `mmpt_cli/localjob.py` for multi-gpu/multi-node pre-training.\n\nThe detailed instructions of pretraining and fine-tuning can be found at [pretraining instruction](pretraining.md) and [finetuning instruction](endtask.md).\n\n\n### Development\nSeveral components of this toolkit can be re-used for future research (and also our ongoing research).\n\n#### Framework Wrapper\nWe currently only support fairseq, but most components can be easily fit into other frameworks like huggingface. This repo is a `--user-dir` of fairseq with fairseq wrapper. For example, `mmpt/tasks` includes a `FairseqMMTTask`, which manages `mmpt/datasets` with `FairseqDataset`, `mmpt/models` with `FairseqModel`, `mmpt/losses` with `FairseqCriterion`.  \n\n#### Processors\n**Multi**modal research introduces the complexity on modality alignment from different input sources to losses. Inspired by [MMF](https://github.com/facebookresearch/mmf), this toolkit leverages `mmpt/processors` to handle various needs of data preprocessing and loading, **alleviating** the needs of multiple `torch.data.utils.Dataset` (that can be tricky for ablation study).  \nProcessors can also be decoupled from `torch.data.utils.Dataset` for offline preprocessing instead of on-the-fly data preprocessing.\n\nWe decouple a `mmpt.MMDataset` as 3 types of processors: `MetaProcessor`, `VideoProcessor`, `TextProcessor` and `Aligner`. They can be configed in `dataset` field of a config file (e.g., see `projects/task/how2.yaml`).  \n`MetaProcessor` is used to load the meta data about a dataset, aka, all video_ids of how2 dataset.  \n`VideoProcessor` is used to load the video features about a dataset. For example, S3D features for each second of a video.  \n`TextProcessor` is used to load the text (feature). For example, BERT pre-tokenized text clips for how2 dataset (with `start`s, `end`s of timestamps and `cap` for `token_ids`).  \n`Aligner` is the core class for different baselines that prepares the training data. For example, sampling a clip, masking tokens for MLM, etc.\n\n#### Performance-tuned Components\nTo speed up pre-training, this toolkit uses sharded features stored in mmaped numpy, backed by `ShardedTensor` in `mmpt/utils/shardedtensor.py` (adopted from MARGE paper). This reduces the loads of IO for multi-GPU training without loading all features for a video into the memory each time and `ShardedTensor` ensure features are stored in continuous disk space for near random access. This is used for both How2 video features and texts in `mmpt/processors/how2processor.py`.\n\n\n### Citation\nIf this codebase is useful for your work, please cite the following papers:\n\n```BibTeX\n@inproceedings{xu-etal-2021-videoclip,\n    title = \"{VideoCLIP}: Contrastive Pre-training for\\\\Zero-shot Video-Text Understanding\",\n    author = \"Xu, Hu  and\n      Ghosh, Gargi  and\n      Huang, Po-Yao  and\n      Okhonko, Dmytro  and\n      Aghajanyan, Armen  and\n      Metze, Florian  and\n      Zettlemoyer, Luke  and\n      Feichtenhofer, Christoph\",\n    booktitle = \"Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP)\",\n    month = nov,\n    year = \"2021\",\n    address = \"Online\",\n    publisher = \"Association for Computational Linguistics\",\n}\n\n@inproceedings{xu-etal-2021-vlm,\n    title = \"{VLM}: Task-agnostic Video-Language Model Pre-training for Video Understanding\",\n    author = \"Xu, Hu  and\n      Ghosh, Gargi  and\n      Huang, Po-Yao  and\n      Arora, Prahal  and\n      Aminzadeh, Masoumeh  and\n      Feichtenhofer, Christoph  and\n      Metze, Florian  and\n      Zettlemoyer, Luke\",\n    booktitle = \"Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021\",\n    month = aug,\n    year = \"2021\",\n    address = \"Online\",\n    publisher = \"Association for Computational Linguistics\",\n    url = \"https://aclanthology.org/2021.findings-acl.370\",\n    doi = \"10.18653/v1/2021.findings-acl.370\",\n    pages = \"4227--4239\",\n}\n```\n\n### Bug Reports\nThis repo is in its initial stage, welcome bug reports to huxu@fb.com\n\n### Copyright\nThe majority of Multimodal Pre-training (MMPT) is licensed under CC-BY-NC, however portions of the project are available under separate license terms: Evaluation Codes/Models: Howto100M and HuggingFace Transformers are licensed under the Apache2.0 license; COIN and NLG-eval are licensed under the MIT license; CrossTask is licensed under the BSD-3; DiDeMo is licensed under the BSD-2 license.\n"
  },
  {
    "path": "examples/MMPT/endtask.md",
    "content": "# Zero-shot Transfer and Finetuning\n\n(If you are new to the ideas of `mmpt.processors`, see [README](README.md) first.)\nAll finetuning datasets (specifically `processors`) are defined in `mmpt.processors.dsprocessor`.\nGiven the complexity of different types of finetuning tasks, each task may have their own meta/video/text/aligner processors and `mmpt/evaluators/{Predictor,Metric}`.\n\n### Tasks\n\nCurrently, we support 5 end datasets: `MSRVTT`, `Youcook`, `COIN`, `Crosstask` and `DiDeMo` with the following tasks:  \ntext-video retrieval: `MSRVTT`, `Youcook`, `DiDeMo`;   \nvideo captioning: `Youcook`;  \nVideo Question and Answering: `MSRVTT-QA`.  \n\nTo add your own dataset, you can specify the corresponding processors and config them in the `dataset` field of a config file, such as `projects/task/vtt.yaml`.\n\n### Zero-shot Transfer (no Training)\nZero-shot transfer will run the pre-trained model (e.g., VideoCLIP) directly on testing data. Configs with pattern: `projects/task/*_zs_*.yaml` are dedicated for zero-shot transfer.\n\n### Fine-tuning\n\nThe training of a downstream task is similar to pretraining, execept you may need to specify the `restore_file` in `fairseq.checkpoint` and reset optimizers, see `projects/task/ft.yaml` that is included by `projects/task/vtt.yaml`.\n\nWe typically do finetuning on 2 gpus (`local_small`).\n\n### Testing\nFor each finetuning dataset, you may need to specify a testing config, similar to `projects/task/test_vtt.yaml`.  \n\nWe define `mmpt.evaluators.Predictor` for different types of prediction. For example, `MSRVTT` and `Youcook` are video-retrieval tasks and expecting to use `RetrievalPredictor`. You may need to define your new type of predictors and specify that in `predictor` field of a testing config.\n\nEach task may also have their own metric for evaluation. This can be created in `mmpt.evaluators.Metric` and specified in the `metric` field of a testing config.\n\nLaunching a testing is as simple as training by specifying the path of a testing config:\n```python locallaunch.py projects/mfmmlm/test_vtt.yaml```\nTesting will be launched locally by default since prediction is computationally less expensive.\n\n### Third-party Libraries\nWe list the following finetuning tasks that require third-party libraries.\n\nYoucook captioning: `https://github.com/Maluuba/nlg-eval`  \n\nCrossTask: `https://github.com/DmZhukov/CrossTask`'s `dp` under `third-party/CrossTask` (`python setup.py build_ext --inplace`)\n"
  },
  {
    "path": "examples/MMPT/locallaunch.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport argparse\nimport os\n\nfrom omegaconf import OmegaConf\n\nfrom mmpt.utils import recursive_config, overwrite_dir\nfrom mmpt_cli.localjob import LocalJob\n\n\nclass JobLauncher(object):\n    JOB_CONFIG = {\n        \"local\": LocalJob,\n    }\n\n    def __init__(self, yaml_file):\n        self.yaml_file = yaml_file\n        job_key = \"local\"\n\n        if yaml_file.endswith(\".yaml\"):\n            config = recursive_config(yaml_file)\n            if config.task_type is not None:\n                job_key = config.task_type.split(\"_\")[0]\n        else:\n            raise ValueError(\"unknown extension of job file:\", yaml_file)\n        self.job_key = job_key\n\n    def __call__(self, job_type=None, dryrun=False):\n        if job_type is not None:\n            self.job_key = job_type.split(\"_\")[0]\n        print(\"[JobLauncher] job_key\", self.job_key)\n        job = JobLauncher.JOB_CONFIG[self.job_key](\n            self.yaml_file, job_type=job_type, dryrun=dryrun)\n        return job.submit()\n\n\nclass Pipeline(object):\n    \"\"\"a job that loads yaml config.\"\"\"\n\n    def __init__(self, fn):\n        \"\"\"\n        load a yaml config of a job and save generated configs as yaml for each task.\n        return: a list of files to run as specified by `run_task`.\n        \"\"\"\n        if fn.endswith(\".py\"):\n            # a python command.\n            self.backend = \"python\"\n            self.run_yamls = [fn]\n            return\n\n        job_config = recursive_config(fn)\n        if job_config.base_dir is None:  # single file job config.\n            self.run_yamls = [fn]\n            return\n\n        self.project_dir = os.path.join(\"projects\", job_config.project_dir)\n        self.run_dir = os.path.join(\"runs\", job_config.project_dir)\n\n        if job_config.run_task is not None:\n            run_yamls = []\n            for stage in job_config.run_task:\n                # each stage can have multiple tasks running in parallel.\n                if OmegaConf.is_list(stage):\n                    stage_yamls = []\n                    for task_file in stage:\n                        stage_yamls.append(\n                            os.path.join(self.project_dir, task_file))\n                    run_yamls.append(stage_yamls)\n                else:\n                    run_yamls.append(os.path.join(self.project_dir, stage))\n            self.run_yamls = run_yamls\n        configs_to_save = self._overwrite_task(job_config)\n        self._save_configs(configs_to_save)\n\n    def __getitem__(self, idx):\n        yaml_files = self.run_yamls[idx]\n        if isinstance(yaml_files, list):\n            return [JobLauncher(yaml_file) for yaml_file in yaml_files]\n        return [JobLauncher(yaml_files)]\n\n    def __len__(self):\n        return len(self.run_yamls)\n\n    def _save_configs(self, configs_to_save: dict):\n        # save\n        os.makedirs(self.project_dir, exist_ok=True)\n        for config_file in configs_to_save:\n            config = configs_to_save[config_file]\n            print(\"saving\", config_file)\n            OmegaConf.save(config=config, f=config_file)\n\n    def _overwrite_task(self, job_config):\n        configs_to_save = {}\n        self.base_project_dir = os.path.join(\"projects\", job_config.base_dir)\n        self.base_run_dir = os.path.join(\"runs\", job_config.base_dir)\n\n        for config_sets in job_config.task_group:\n            overwrite_config = job_config.task_group[config_sets]\n            if (\n                overwrite_config.task_list is None\n                or len(overwrite_config.task_list) == 0\n            ):\n                print(\n                    \"[warning]\",\n                    job_config.task_group,\n                    \"has no task_list specified.\")\n            # we don't want this added to a final config.\n            task_list = overwrite_config.pop(\"task_list\", None)\n            for config_file in task_list:\n                config_file_path = os.path.join(\n                    self.base_project_dir, config_file)\n                config = recursive_config(config_file_path)\n                # overwrite it.\n                if overwrite_config:\n                    config = OmegaConf.merge(config, overwrite_config)\n                overwrite_dir(config, self.run_dir, basedir=self.base_run_dir)\n                save_file_path = os.path.join(self.project_dir, config_file)\n                configs_to_save[save_file_path] = config\n        return configs_to_save\n\n\ndef main(args):\n    job_type = args.jobtype if args.jobtype else None\n    # parse multiple pipelines.\n    pipelines = [Pipeline(fn) for fn in args.yamls.split(\",\")]\n\n    for pipe_id, pipeline in enumerate(pipelines):\n        if not hasattr(pipeline, \"project_dir\"):\n            for job in pipeline[0]:\n                job(job_type=job_type, dryrun=args.dryrun)\n\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"yamls\", type=str)\n    parser.add_argument(\n        \"--dryrun\",\n        action=\"store_true\",\n        help=\"run config and prepare to submit without launch the job.\",\n    )\n    parser.add_argument(\n        \"--jobtype\", type=str, default=\"\",\n        help=\"force to run jobs as specified.\")\n    args = parser.parse_args()\n    main(args)\n"
  },
  {
    "path": "examples/MMPT/mmpt/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\ntry:\n    # fairseq user dir\n    from .datasets import FairseqMMDataset\n    from .losses import FairseqCriterion\n    from .models import FairseqMMModel\n    from .tasks import FairseqMMTask\nexcept ImportError:\n    pass\n"
  },
  {
    "path": "examples/MMPT/mmpt/datasets/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nfrom .mmdataset import *\n\ntry:\n    from .fairseqmmdataset import *\nexcept ImportError:\n    pass\n"
  },
  {
    "path": "examples/MMPT/mmpt/datasets/fairseqmmdataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nTODO (huxu): fairseq wrapper class for all dataset you defined: mostly MMDataset.\n\"\"\"\n\nfrom collections import OrderedDict\n\nfrom torch.utils.data import Dataset\nfrom torch.utils.data.dataloader import default_collate\nfrom fairseq.data import FairseqDataset, data_utils\n\n\nclass FairseqMMDataset(FairseqDataset):\n    \"\"\"\n    A wrapper class for MMDataset for fairseq.\n    \"\"\"\n\n    def __init__(self, mmdataset):\n        if not isinstance(mmdataset, Dataset):\n            raise TypeError(\"mmdataset must be of type `torch.utils.data.dataset`.\")\n        self.mmdataset = mmdataset\n\n    def set_epoch(self, epoch, **unused):\n        super().set_epoch(epoch)\n        self.epoch = epoch\n\n    def __getitem__(self, idx):\n        with data_utils.numpy_seed(43211, self.epoch, idx):\n            return self.mmdataset[idx]\n\n    def __len__(self):\n        return len(self.mmdataset)\n\n    def collater(self, samples):\n        if hasattr(self.mmdataset, \"collator\"):\n            return self.mmdataset.collator(samples)\n        if len(samples) == 0:\n            return {}\n        if isinstance(samples[0], dict):\n            batch = OrderedDict()\n            for key in samples[0]:\n                if samples[0][key] is not None:\n                    batch[key] = default_collate([sample[key] for sample in samples])\n            return batch\n        else:\n            return default_collate(samples)\n\n    def size(self, index):\n        \"\"\"dummy implementation: we don't use --max-tokens\"\"\"\n        return 1\n\n    def num_tokens(self, index):\n        \"\"\"dummy implementation: we don't use --max-tokens\"\"\"\n        return 1\n"
  },
  {
    "path": "examples/MMPT/mmpt/datasets/mmdataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\nfrom collections import OrderedDict\n\nfrom torch.utils.data import Dataset\nfrom torch.utils.data.dataloader import default_collate\n\nfrom ..utils import set_seed\n\n\nclass MMDataset(Dataset):\n    \"\"\"\n    A generic multi-modal dataset.\n        Args:\n            `meta_processor`: a meta processor,\n                handling loading meta data and return video_id and text_id.\n            `video_processor`: a video processor,\n                handling e.g., decoding, loading .np files.\n            `text_processor`: a text processor,\n                handling e.g., tokenization.\n            `aligner`: combine the video and text feature\n                as one training example.\n    \"\"\"\n\n    def __init__(\n        self,\n        meta_processor,\n        video_processor,\n        text_processor,\n        align_processor,\n    ):\n        self.split = meta_processor.split\n        self.meta_processor = meta_processor\n        self.video_processor = video_processor\n        self.text_processor = text_processor\n        self.align_processor = align_processor\n\n    def __len__(self):\n        return len(self.meta_processor)\n\n    def __getitem__(self, idx):\n        if self.split == \"test\":\n            set_seed(idx)\n        video_id, text_id = self.meta_processor[idx]\n        video_feature = self.video_processor(video_id)\n        text_feature = self.text_processor(text_id)\n        output = self.align_processor(video_id, video_feature, text_feature)\n        # TODO (huxu): the following is for debug purpose.\n        output.update({\"idx\": idx})\n        return output\n\n    def collater(self, samples):\n        \"\"\"This collator is deprecated.\n        set self.collator = MMDataset.collater.\n        see collator in FairseqMMDataset.\n        \"\"\"\n\n        if len(samples) == 0:\n            return {}\n        if isinstance(samples[0], dict):\n            batch = OrderedDict()\n            for key in samples[0]:\n                if samples[0][key] is not None:\n                    batch[key] = default_collate(\n                        [sample[key] for sample in samples])\n                # if torch.is_tensor(batch[key]):\n                #    print(key, batch[key].size())\n                # else:\n                #    print(key, len(batch[key]))\n            return batch\n        else:\n            return default_collate(samples)\n\n    def print_example(self, output):\n        print(\"[one example]\", output[\"video_id\"])\n        if (\n            hasattr(self.align_processor, \"subsampling\")\n            and self.align_processor.subsampling is not None\n            and self.align_processor.subsampling > 1\n        ):\n            for key in output:\n                if torch.is_tensor(output[key]):\n                    output[key] = output[key][0]\n\n        # search tokenizer to translate ids back.\n        tokenizer = None\n        if hasattr(self.text_processor, \"tokenizer\"):\n            tokenizer = self.text_processor.tokenizer\n        elif hasattr(self.align_processor, \"tokenizer\"):\n            tokenizer = self.align_processor.tokenizer\n        if tokenizer is not None:\n            caps = output[\"caps\"].tolist()\n            if isinstance(caps[0], list):\n                caps = caps[0]\n            print(\"caps\", tokenizer.decode(caps))\n            print(\"caps\", tokenizer.convert_ids_to_tokens(caps))\n\n        for key, value in output.items():\n            if torch.is_tensor(value):\n                if len(value.size()) >= 3:  # attention_mask.\n                    print(key, value.size())\n                    print(key, \"first\", value[0, :, :])\n                    print(key, \"last\", value[-1, :, :])\n                else:\n                    print(key, value)\n        print(\"[end of one example]\")\n"
  },
  {
    "path": "examples/MMPT/mmpt/evaluators/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nfrom .metric import *\nfrom .evaluator import *\n\n\n# experimental.\ntry:\n    from .expmetric import *\nexcept ImportError:\n    pass\n"
  },
  {
    "path": "examples/MMPT/mmpt/evaluators/evaluator.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport os\nimport glob\nimport numpy as np\n\nfrom . import metric as metric_path\nfrom . import predictor as predictor_path\n\n\nclass Evaluator(object):\n    \"\"\"\n    perform evaluation on a single (downstream) task.\n    make this both offline and online.\n    TODO(huxu) saving evaluation results.\n    \"\"\"\n\n    def __init__(self, config, eval_dataloader=None):\n        if config.metric is None:\n            raise ValueError(\"config.metric is\", config.metric)\n        metric_cls = getattr(metric_path, config.metric)\n        self.metric = metric_cls(config)\n        if config.predictor is None:\n            raise ValueError(\"config.predictor is\", config.predictor)\n        predictor_cls = getattr(predictor_path, config.predictor)\n        self.predictor = predictor_cls(config)\n        self.eval_dataloader = eval_dataloader\n\n    def __call__(self):\n        try:\n            print(self.predictor.pred_dir)\n            for pred_file in glob.glob(\n                    self.predictor.pred_dir + \"/*_merged.npy\"):\n                outputs = np.load(pred_file)\n                results = self.metric.compute_metrics(outputs)\n                self.metric.print_computed_metrics(results)\n\n            outputs = np.load(os.path.join(\n                    self.predictor.pred_dir, \"merged.npy\"))\n            results = self.metric.compute_metrics(outputs)\n            return {\"results\": results, \"metric\": self.metric}\n        except FileNotFoundError:\n            print(\"\\n[missing]\", self.predictor.pred_dir)\n            return {}\n\n    def evaluate(self, model, eval_dataloader=None, output_file=\"merged\"):\n        if eval_dataloader is None:\n            eval_dataloader = self.eval_dataloader\n        outputs = self.predictor.predict_loop(\n            model, eval_dataloader, output_file)\n        results = self.metric.compute_metrics(**outputs)\n        return results\n"
  },
  {
    "path": "examples/MMPT/mmpt/evaluators/metric.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport json\n\n\nclass Metric(object):\n    def __init__(self, config, metric_names):\n        self.metric_names = metric_names\n\n    def best_metric(self, metric):\n        return metric[self.metric_names[0]]\n\n    def save_metrics(self, fn, metrics):\n        with open(fn, \"w\") as fw:\n            json.dump(fw, metrics)\n\n    def print_computed_metrics(self, metrics):\n        raise NotImplementedError\n\n\nclass RetrievalMetric(Metric):\n    \"\"\"\n    this is modified from `howto100m/metrics.py`.\n    History of changes:\n    refactor as a class.\n    add metric_key in __init__\n    \"\"\"\n\n    def __init__(self, config, metric_names=[\"R1\", \"R5\", \"R10\", \"MR\"]):\n        super().__init__(config, metric_names)\n        self.error = False  # TODO(huxu): add to config to print error.\n\n    def compute_metrics(self, outputs, texts, **kwargs):\n        x = outputs\n        sx = np.sort(-x, axis=1)\n        d = np.diag(-x)\n        d = d[:, np.newaxis]\n        ind = sx - d\n        ind = np.where(ind == 0)\n        ind = ind[1]\n        metrics = {}\n        metrics[\"R1\"] = float(np.sum(ind == 0)) / len(ind)\n        metrics[\"R5\"] = float(np.sum(ind < 5)) / len(ind)\n        metrics[\"R10\"] = float(np.sum(ind < 10)) / len(ind)\n        metrics[\"MR\"] = np.median(ind) + 1\n\n        max_idx = np.argmax(outputs, axis=1)\n        if self.error:\n            # print top-20 errors.\n            error = []\n            for ex_idx in range(20):\n                error.append((texts[ex_idx], texts[max_idx[ex_idx]]))\n            metrics[\"error\"] = error\n        return metrics\n\n    def print_computed_metrics(self, metrics):\n        r1 = metrics[\"R1\"]\n        r5 = metrics[\"R5\"]\n        r10 = metrics[\"R10\"]\n        mr = metrics[\"MR\"]\n        print(\n            \"R@1: {:.4f} - R@5: {:.4f} - R@10: {:.4f} - Median R: {}\".format(\n                r1, r5, r10, mr\n            )\n        )\n        if \"error\" in metrics:\n            print(metrics[\"error\"])\n\n\nclass DiDeMoMetric(Metric):\n    \"\"\"\n    History of changes:\n    python 2.x to python 3.x.\n    merge utils.py into eval to save one file.\n    reference: https://github.com/LisaAnne/LocalizingMoments/blob/master/utils/eval.py\n    Code to evaluate your results on the DiDeMo dataset.\n    \"\"\"\n    def __init__(self, config, metric_names=[\"rank1\", \"rank5\", \"miou\"]):\n        super().__init__(config, metric_names)\n\n    def compute_metrics(self, outputs, targets, **kwargs):\n        assert len(outputs) == len(targets)\n        rank1, rank5, miou = self._eval_predictions(outputs, targets)\n        metrics = {\n            \"rank1\": rank1,\n            \"rank5\": rank5,\n            \"miou\": miou\n        }\n        return metrics\n\n    def print_computed_metrics(self, metrics):\n        rank1 = metrics[\"rank1\"]\n        rank5 = metrics[\"rank5\"]\n        miou = metrics[\"miou\"]\n        # print(\"Average rank@1: %f\" % rank1)\n        # print(\"Average rank@5: %f\" % rank5)\n        # print(\"Average iou: %f\" % miou)\n\n        print(\n            \"Average rank@1: {:.4f} Average rank@5: {:.4f} Average iou: {:.4f}\".format(\n                rank1, rank5, miou\n            )\n        )\n\n    def _iou(self, pred, gt):\n        intersection = max(0, min(pred[1], gt[1]) + 1 - max(pred[0], gt[0]))\n        union = max(pred[1], gt[1]) + 1 - min(pred[0], gt[0])\n        return float(intersection)/union\n\n    def _rank(self, pred, gt):\n        return pred.index(tuple(gt)) + 1\n\n    def _eval_predictions(self, segments, data):\n        '''\n        Inputs:\n        segments: For each item in the ground truth data, rank possible video segments given the description and video.\n            In DiDeMo, there are 21 posible moments extracted for each video so the list of video segments will be of length 21.\n            The first video segment should be the video segment that best corresponds to the text query.\n            There are 4180 sentence in the validation data, so when evaluating a model on the val dataset,\n            segments should be a list of lenght 4180, and each item in segments should be a list of length 21.\n        data: ground truth data\n        '''\n        average_ranks = []\n        average_iou = []\n        for s, d in zip(segments, data):\n            pred = s[0]\n            ious = [self._iou(pred, t) for t in d['times']]\n            average_iou.append(np.mean(np.sort(ious)[-3:]))\n            ranks = [self._rank(s, t) for t in d['times'] if tuple(t) in s]  # if t in s] is added for s, e not in prediction.\n            average_ranks.append(np.mean(np.sort(ranks)[:3]))\n        rank1 = np.sum(np.array(average_ranks) <= 1)/float(len(average_ranks))\n        rank5 = np.sum(np.array(average_ranks) <= 5)/float(len(average_ranks))\n        miou = np.mean(average_iou)\n\n        # print(\"Average rank@1: %f\" % rank1)\n        # print(\"Average rank@5: %f\" % rank5)\n        # print(\"Average iou: %f\" % miou)\n        return rank1, rank5, miou\n\n\nclass NLGMetric(Metric):\n    def __init__(\n        self,\n        config,\n        metric_names=[\n            \"Bleu_1\", \"Bleu_2\", \"Bleu_3\", \"Bleu_4\",\n            \"METEOR\", \"ROUGE_L\", \"CIDEr\"\n        ]\n    ):\n        super().__init__(config, metric_names)\n        # please install NLGEval from `https://github.com/Maluuba/nlg-eval`\n        from nlgeval import NLGEval\n        self.nlg = NLGEval()\n\n    def compute_metrics(self, outputs, targets, **kwargs):\n        return self.nlg.compute_metrics(\n            hyp_list=outputs, ref_list=targets)\n\n    def print_computed_metrics(self, metrics):\n        Bleu_1 = metrics[\"Bleu_1\"]\n        Bleu_2 = metrics[\"Bleu_2\"]\n        Bleu_3 = metrics[\"Bleu_3\"]\n        Bleu_4 = metrics[\"Bleu_4\"]\n        METEOR = metrics[\"METEOR\"]\n        ROUGE_L = metrics[\"ROUGE_L\"]\n        CIDEr = metrics[\"CIDEr\"]\n\n        print(\n            \"Bleu_1: {:.4f} - Bleu_2: {:.4f} - Bleu_3: {:.4f} - Bleu_4: {:.4f} - METEOR: {:.4f} - ROUGE_L: {:.4f} - CIDEr: {:.4f}\".format(\n                Bleu_1, Bleu_2, Bleu_3, Bleu_4, METEOR, ROUGE_L, CIDEr\n            )\n        )\n\n\nclass QAMetric(Metric):\n    def __init__(\n        self,\n        config,\n        metric_names=[\"acc\"]\n    ):\n        super().__init__(config, metric_names)\n\n    def compute_metrics(self, outputs, targets, **kwargs):\n        from sklearn.metrics import accuracy_score\n        return {\"acc\": accuracy_score(targets, outputs)}\n\n    def print_computed_metrics(self, metrics):\n        print(\"acc: {:.4f}\".format(metrics[\"acc\"]))\n\n\nclass COINActionSegmentationMetric(Metric):\n    \"\"\"\n    COIN dataset listed 3 repos for Action Segmentation.\n    Action Sets, NeuralNetwork-Viterbi, TCFPN-ISBA.\n    The first and second are the same.\n    https://github.com/alexanderrichard/action-sets/blob/master/eval.py\n\n    Future reference for the third:\n    `https://github.com/Zephyr-D/TCFPN-ISBA/blob/master/utils/metrics.py`\n    \"\"\"\n    def __init__(self, config, metric_name=[\"frame_acc\"]):\n        super().__init__(config, metric_name)\n\n    def compute_metrics(self, outputs, targets):\n        n_frames = 0\n        n_errors = 0\n        n_errors = sum(outputs != targets)\n        n_frames = len(targets)\n        return {\"frame_acc\": 1.0 - float(n_errors) / n_frames}\n\n    def print_computed_metrics(self, metrics):\n        fa = metrics[\"frame_acc\"]\n        print(\"frame accuracy:\", fa)\n\n\nclass CrossTaskMetric(Metric):\n    def __init__(self, config, metric_names=[\"recall\"]):\n        super().__init__(config, metric_names)\n\n    def compute_metrics(self, outputs, targets, **kwargs):\n        \"\"\"refactored from line 166:\n        https://github.com/DmZhukov/CrossTask/blob/master/train.py\"\"\"\n\n        recalls = self._get_recalls(Y_true=targets, Y_pred=outputs)\n        results = {}\n        for task, rec in recalls.items():\n            results[str(task)] = rec\n\n        avg_recall = np.mean(list(recalls.values()))\n        results[\"recall\"] = avg_recall\n        return results\n\n    def print_computed_metrics(self, metrics):\n        print('Recall: {0:0.3f}'.format(metrics[\"recall\"]))\n        for task in metrics:\n            if task != \"recall\":\n                print('Task {0}. Recall = {1:0.3f}'.format(\n                    task, metrics[task]))\n\n    def _get_recalls(self, Y_true, Y_pred):\n        \"\"\"refactored from\n        https://github.com/DmZhukov/CrossTask/blob/master/train.py\"\"\"\n\n        step_match = {task: 0 for task in Y_true.keys()}\n        step_total = {task: 0 for task in Y_true.keys()}\n        for task, ys_true in Y_true.items():\n            ys_pred = Y_pred[task]\n            for vid in set(ys_pred.keys()).intersection(set(ys_true.keys())):\n                y_true = ys_true[vid]\n                y_pred = ys_pred[vid]\n                step_total[task] += (y_true.sum(axis=0) > 0).sum()\n                step_match[task] += (y_true*y_pred).sum()\n        recalls = {\n            task: step_match[task] / n for task, n in step_total.items()}\n        return recalls\n\n\nclass ActionRecognitionMetric(Metric):\n    def __init__(\n        self,\n        config,\n        metric_names=[\"acc\", \"acc_splits\", \"r1_splits\", \"r5_splits\", \"r10_splits\"]\n    ):\n        super().__init__(config, metric_names)\n\n    def compute_metrics(self, outputs, targets, splits, **kwargs):\n        all_video_embd = outputs\n        labels = targets\n        split1, split2, split3 = splits\n        accs = []\n        r1s = []\n        r5s = []\n        r10s = []\n        for split in range(3):\n            if split == 0:\n                s = split1\n            elif split == 1:\n                s = split2\n            else:\n                s = split3\n\n            X_pred = all_video_embd[np.where(s == 2)[0]]\n            label_test = labels[np.where(s == 2)[0]]\n            logits = X_pred\n            X_pred = np.argmax(X_pred, axis=1)\n            acc = np.sum(X_pred == label_test) / float(len(X_pred))\n            accs.append(acc)\n            # compute recall.\n            sorted_pred = (-logits).argsort(axis=-1)\n            label_test_sp = label_test.reshape(-1, 1)\n\n            r1 = np.mean((sorted_pred[:, :1] == label_test_sp).sum(axis=1), axis=0)\n            r5 = np.mean((sorted_pred[:, :5] == label_test_sp).sum(axis=1), axis=0)\n            r10 = np.mean((sorted_pred[:, :10] == label_test_sp).sum(axis=1), axis=0)\n            r1s.append(r1)\n            r5s.append(r5)\n            r10s.append(r10)\n\n        return {\"acc\": accs[0], \"acc_splits\": accs, \"r1_splits\": r1s, \"r5_splits\": r5s, \"r10_splits\": r10s}\n\n    def print_computed_metrics(self, metrics):\n        for split, acc in enumerate(metrics[\"acc_splits\"]):\n            print(\"Top 1 accuracy on split {}: {}; r1 {}; r5 {}; r10 {}\".format(\n                split + 1, acc,\n                metrics[\"r1_splits\"][split],\n                metrics[\"r5_splits\"][split],\n                metrics[\"r10_splits\"][split],\n                )\n            )\n"
  },
  {
    "path": "examples/MMPT/mmpt/evaluators/predictor.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport os\nimport random\nimport json\nimport numpy as np\nimport torch\nimport pickle\nimport math\n\nfrom tqdm import tqdm\n\n\nclass Predictor(object):\n    \"\"\"this base class is used to save predictions to disk\n        (and being called by a evaluator later).\n        Predictor has minimum support of single gpu prediction.\n    \"\"\"\n    def __init__(self, config):\n        self.pred_dir = None  # on-the-fly eval does not save the results.\n        if hasattr(config, \"eval\") and config.eval is not None:\n            self.pred_dir = config.eval.save_path\n            os.makedirs(self.pred_dir, exist_ok=True)\n\n    def __call__(self, outputs):\n        \"\"\"extract the prediction and save it.\"\"\"\n        raise NotImplementedError\n\n    def predict_loop(self, model, eval_dataloader, output_file=None):\n        \"\"\"on-the-fly prediction on a single gpu.\"\"\"\n        self.full_scores = []\n        model.eval()\n        model = model.to(0)\n        with torch.no_grad():\n            for data in eval_dataloader:\n                data = self.to_ctx(data)\n                outputs = model(**data)\n                outputs.update(data)\n                self(outputs)\n        return self.finalize(output_file)\n\n    def finalize(self, output_file):\n        pass\n\n    def to_ctx(self, data, ctx=0, dtype=None):\n        if isinstance(data, dict):\n            for key in data:\n                if torch.is_tensor(data[key]):\n                    if dtype is not None and data[key].dtype == torch.float32:\n                        data[key] = data[key].to(dtype)\n                    data[key] = data[key].to(ctx)\n            return data\n        else:\n            raise ValueError(\"non-dict type of batch is not supported yet.\")\n\n\nclass NLGPredictor(Predictor):\n    \"\"\"Predicting Text from MMFusion models.\"\"\"\n    \"\"\"TODO: make a context.\"\"\"\n    def __init__(self, config):\n        super().__init__(config)\n        from transformers import AutoTokenizer\n\n        self.tokenizer = AutoTokenizer.from_pretrained(\n            config.dataset.bert_name,\n            bos_token=\"[CLS]\", eos_token=\"[SEP]\")\n        self.bos_token_id = self.tokenizer.bos_token_id\n        self.eos_token_id = self.tokenizer.eos_token_id\n\n    def predict_loop(self, model, eval_dataloader, output_file=None):\n        \"\"\"TODO: refactor base classes.\"\"\"\n        ctx = 0\n        outputs = {\"outputs\": [], \"targets\": [[]]}\n        model.eval()\n        model = model.to(ctx)\n        with torch.no_grad():\n            for data in tqdm(eval_dataloader):\n                data = self.to_ctx(data, ctx)\n                self(data, model, outputs)\n        return self.finalize(outputs, output_file)\n\n    def __call__(self, data, model, outputs):\n        data.update({\n            \"bos_token_id\": self.bos_token_id,\n            \"eos_token_id\": self.eos_token_id\n        })\n\n        output = model.generate(**data)\n        assert len(output) == len(data[\"ref\"])\n        for idx, _output in enumerate(output):\n            generated_text = self.tokenizer.decode(\n                _output, skip_special_tokens=True)\n            if generated_text == \"\":\n                generated_text = \"none\"\n            outputs[\"outputs\"].append(generated_text)\n            outputs[\"targets\"][0].append(data[\"ref\"][idx])\n            if random.random() < 0.001:\n                print(\"_output\", _output)\n                print(\"generated_text\", generated_text)\n                print(\"ref\", data[\"ref\"][idx])\n\n    def finalize(self, outputs, output_file=None):\n        if output_file is not None:\n            with open(os.path.join(\n                    self.pred_dir, output_file + \".json\"), \"w\") as fw:\n                json.dump(outputs, fw, indent=4)\n        return outputs\n\n\nclass RetrievalPredictor(Predictor):\n    \"\"\"generated `pooled_video` and `pooled_text`.\"\"\"\n    def __init__(self, config):\n        super().__init__(config)\n        from transformers import AutoTokenizer\n        self.tokenizer = AutoTokenizer.from_pretrained(\n            config.dataset.bert_name)\n\n    def predict_loop(\n        self,\n        model,\n        eval_dataloader,\n        output_file=\"retrieval.npy\"\n    ):\n        \"\"\"on-the-fly prediction on a single gpu.\"\"\"\n        full_scores = []\n        texts = []\n        model.eval()\n        model = model.cuda()\n        with torch.no_grad():\n            for data in eval_dataloader:\n                # convert to dict.\n                if not isinstance(data, dict):\n                    data = {\n                        \"caps\": data[0],\n                        \"cmasks\": data[1],\n                        \"vfeats\": data[2],\n                        \"vmasks\": data[3],\n                        \"video_id\": data[4]\n                    }\n                data = self.to_ctx(data)\n                outputs = model(**data)\n                outputs.update(data)\n                self(outputs, full_scores)\n                for _cap in data[\"caps\"]:\n                    texts.append(\n                        self.tokenizer.decode(_cap, skip_special_tokens=True)\n                    )\n\n        return self.finalize(full_scores, texts, output_file)\n\n    def __call__(self, sample, full_scores):\n        scores = self._get_pooled_outputs(sample)\n        self._append_scores(scores, full_scores)\n\n    def finalize(self, full_scores, texts, output_file=None):\n        outputs = self._aggregate_scores(full_scores)\n        if output_file is not None:\n            np.save(os.path.join(self.pred_dir, output_file + \".npy\"), outputs)\n        return {\"outputs\": outputs, \"texts\": texts}\n\n    def _get_pooled_outputs(self, outputs):\n        if \"pooled_video\" in outputs:\n            return outputs[\"pooled_video\"], outputs[\"pooled_text\"]\n        else:\n            raise ValueError(\"unknown format of outputs.\")\n\n    def _append_scores(self, scores, full_scores):\n        assert len(scores) == 2\n        if len(full_scores) == 0:\n            full_scores.append([])\n            full_scores.append([])\n        full_scores[0].append(scores[0].cpu().detach().numpy())\n        full_scores[1].append(scores[1].cpu().detach().numpy())\n\n    def _aggregate_scores(self, scores):\n        assert len(scores) == 2\n        video_hidden = np.concatenate(scores[0], axis=0)\n        text_hidden = np.concatenate(scores[1], axis=0)\n        # clear up.\n        self.full_scores = []\n        return np.matmul(text_hidden, video_hidden.T)\n\n\nclass QAPredictor(Predictor):\n    \"\"\"generated `pooled_video` and `pooled_text`.\"\"\"\n    def __init__(self, config):\n        super().__init__(config)\n        \"\"\"predictor maintains scores and aggregate them.\"\"\"\n\n    def predict_loop(self, model, eval_dataloader, output_file=\"qa.npy\"):\n        \"\"\"on-the-fly prediction on a single gpu.\"\"\"\n        self.full_scores = []\n        model.eval()\n        model = model.cuda()\n        with torch.no_grad():\n            for data in eval_dataloader:\n                # reshape ans and dup video 5 times.\n                v_len = data[\"vfeats\"].size(1)\n                hidden_size = data[\"vfeats\"].size(2)\n                data[\"vfeats\"] = data[\"vfeats\"].unsqueeze(1).repeat(1, 5, 1, 1).view(-1, v_len, hidden_size)\n                data[\"vmasks\"] = data[\"vmasks\"].unsqueeze(1).repeat(1, 5, 1).view(-1, v_len)\n\n                t_len = data[\"caps\"].size(-1)\n                data[\"caps\"] = data[\"caps\"].view(-1, t_len)\n                data[\"cmasks\"] = data[\"cmasks\"].view(-1, t_len)\n\n                data = self.to_ctx(data)\n                outputs = model(**data)\n                outputs.update(data)\n                self(outputs)\n        return self.finalize(output_file)\n\n    def __call__(self, sample):\n        hidden_size = sample[\"pooled_video\"].size(-1)\n        pooled_video = sample[\"pooled_video\"].view(-1, 5, hidden_size)\n        pooled_text = sample[\"pooled_text\"].view(-1, 5, hidden_size)\n        scores = torch.bmm(pooled_video, pooled_text.transpose(2, 1))\n        scores = scores.argmax(-1)\n        self._append_scores(scores[:, 0], sample[\"answers\"], self.full_scores)\n\n    def finalize(self, output_file=None):\n        outputs, targets = self._aggregate_scores(self.full_scores)\n        if output_file is not None:\n            np.save(os.path.join(self.pred_dir, output_file + \".npy\"), outputs)\n        return {\"outputs\": outputs, \"targets\": targets}\n\n    def _append_scores(self, scores, answers, full_scores):\n        if len(full_scores) == 0:\n            full_scores.append([])\n            full_scores.append([])\n        full_scores[0].append(scores.cpu().detach().numpy())\n        full_scores[1].append(answers.cpu().detach().numpy())\n\n    def _aggregate_scores(self, scores):\n        assert len(scores) == 2\n        outputs = np.concatenate(scores[0], axis=0)\n        targets = np.concatenate(scores[1], axis=0)\n        # clear up.\n        self.full_scores = []\n        return outputs, targets\n\n\nclass CrossTaskPredictor(Predictor):\n    \"\"\"\n    CrossTaskPredictor needs to compute the average of logits\n    for overlapped sliding-window.\n    \"\"\"\n    def __init__(self, config):\n        super().__init__(config)\n        self.lsm = torch.nn.LogSoftmax(dim=1)\n        self.max_video_len = config.dataset.max_video_len\n        self.sliding_window = config.dataset.sliding_window\n        self.sliding_window_size = config.dataset.sliding_window_size\n        self.annotation_path = config.dataset.annotation_path\n\n    def predict_loop(self, model, eval_dataloader, output_file=\"result.pkl\"):\n        \"\"\"refactored from line 144:\n        https://github.com/DmZhukov/CrossTask/blob/master/train.py\n        \"\"\"\n        ctx = 0\n        model.eval()\n        model = model.to(ctx)\n        # this is not a loss but just compute neg_log_prob.\n        Y_pred = {}\n        Y_true = {}\n        with torch.no_grad():\n            for batch in eval_dataloader:\n                self(batch, model, Y_pred, Y_true)\n        return self.finalize(Y_pred, Y_true, output_file)\n\n    def __call__(self, sample, model, Y_pred, Y_true):\n        # please install dp from `https://github.com/DmZhukov/CrossTask`\n        from dp import dp\n        vid, task = sample['video_id'][0], sample['task'][0]\n        sample = self.to_ctx(sample)\n        # compute the average logits over sliding windows.\n        output = model(**sample)\n        batch_logits = output[\"logits\"].cpu()\n\n        video_len = sample[\"video_len\"][0]\n\n        # the following version is slow.\n        logits = torch.zeros((video_len, batch_logits.size(1)))\n        logits_counts = torch.zeros((video_len, 1), dtype=torch.long)\n        # use the same loop as aligner to recover.\n        batch_logit_idx = 0\n        for window_start in range(0, video_len, self.sliding_window):\n            video_end = min(video_len - window_start, self.sliding_window_size)\n            logits[window_start: window_start + video_end] += batch_logits[\n                batch_logit_idx: batch_logit_idx + video_end]\n            batch_logit_idx += video_end\n            logits_counts[window_start: window_start + video_end] += torch.ones((video_end, 1), dtype=torch.long)\n\n            if (video_len - window_start) <= self.sliding_window_size:\n                break\n\n        logits /= logits_counts\n        assert logits.size() == (video_len, batch_logits.size(1)), \"{}, {}\".format(logits.size(), video_len)\n\n        O = self.lsm(logits)\n        y = np.zeros(O.size(), dtype=np.float32)\n        dp(y, -O.detach().cpu().numpy())\n        if task not in Y_pred:\n            Y_pred[task] = {}\n        Y_pred[task][vid] = y\n        annot_path = os.path.join(\n            self.annotation_path, task+'_'+vid+'.csv')\n        if os.path.exists(annot_path):\n            if task not in Y_true:\n                Y_true[task] = {}\n            Y_true[task][vid] = self._read_assignment(\n                *y.shape, annot_path)\n\n    def finalize(self, Y_pred, Y_true, output_file=None):\n        if output_file is not None:\n            with open(\n                    os.path.join(self.pred_dir, output_file + \".pkl\"),\n                    \"wb\") as fw:\n                pickle.dump(\n                    {\"Y_pred\": Y_pred, \"Y_true\": Y_true}, fw,\n                    protocol=pickle.HIGHEST_PROTOCOL)\n        return {\"outputs\": Y_pred, \"targets\": Y_true}\n\n    def _read_assignment(self, T, K, path):\n        \"\"\"\n        refactored from https://github.com/DmZhukov/CrossTask/blob/master/data.py\n        Howto interpret contraints on loss that is going to be minimized:\n        lambd is a big number;\n        self.lambd * C is a big number for all valid position (csv stores invalids)\n\n        def forward(self, O, Y, C):\n            return (Y*(self.lambd * C - self.lsm(O))).mean(dim=0).sum()\n\n        This will load the csv file and fill-in the step col from start to end rows.\n        \"\"\"\n\n        Y = np.zeros([T, K], dtype=np.uint8)\n        with open(path, 'r') as f:\n            for line in f:\n                step, start, end = line.strip().split(',')\n                start = int(math.floor(float(start)))\n                end = int(math.ceil(float(end)))\n                step = int(step) - 1\n                Y[start:end, step] = 1\n        return Y\n\n\nclass COINPredictor(Predictor):\n    \"\"\"\n    COINPredictor is similar to CrossTask on sliding windows.\n    \"\"\"\n    def __init__(self, config):\n        super().__init__(config)\n        self.max_video_len = config.dataset.max_video_len\n        self.sliding_window = config.dataset.sliding_window\n        self.sliding_window_size = config.dataset.sliding_window_size\n\n    def predict_loop(self, model, eval_dataloader, output_file=\"result.pkl\"):\n        \"\"\"refactored from line 144:\n        https://github.com/DmZhukov/CrossTask/blob/master/train.py\n        \"\"\"\n        ctx = 0\n        model.eval()\n        model = model.to(ctx)\n        # this is not a loss but just compute neg_log_prob.\n        Y_pred = []\n        Y_true = []\n        with torch.no_grad():\n            for batch in eval_dataloader:\n                self(batch, model, Y_pred, Y_true)\n        return self.finalize(Y_pred, Y_true, output_file)\n\n    def __call__(self, sample, model, Y_pred, Y_true):\n        sample = self.to_ctx(sample)\n        # compute the average logits over sliding windows.\n        output = model(**sample)\n        logits = self._merge_windows(sample, output)\n        Y_pred.append(logits.argmax(dim=1))\n        Y_true.append(sample[\"video_targets\"].squeeze(0).cpu())\n\n    def _merge_windows(self, sample, output):\n        targets = sample[\"targets\"].reshape(-1).cpu()\n        valid_mask = targets != -100\n        targets = targets[valid_mask]\n        batch_logits = output[\"logits\"].cpu()\n        batch_logits = batch_logits.reshape(-1, batch_logits.size(-1))\n        batch_logits = batch_logits[valid_mask]\n\n        video_len = sample[\"video_len\"][0]\n\n        # the following version is slow.\n        logits = torch.zeros((video_len, batch_logits.size(1)))\n        logits_counts = torch.zeros((video_len, 1), dtype=torch.long)\n        # use the same loop as aligner to recover.\n        batch_logit_idx = 0\n        for window_start in range(0, video_len, self.sliding_window):\n            video_end = min(video_len - window_start, self.sliding_window_size)\n            logits[window_start: window_start + video_end] += batch_logits[\n                batch_logit_idx: batch_logit_idx + video_end]\n            batch_logit_idx += video_end\n            logits_counts[window_start: window_start + video_end] += torch.ones((video_end, 1), dtype=torch.long)\n            if (video_len - window_start) <= self.sliding_window_size:\n                break\n        logits /= logits_counts\n        assert logits.size() == (video_len, batch_logits.size(1)), \"{}, {}\".format(logits.size(), video_len)\n        return logits\n\n    def finalize(self, Y_pred, Y_true, output_file=None):\n        Y_pred = torch.cat(Y_pred, dim=0).numpy()\n        Y_true = torch.cat(Y_true, dim=0).numpy()\n        assert len(Y_pred) == len(Y_true)\n\n        error_mask = Y_pred != Y_true\n        print(\"sample error\", Y_pred[error_mask][:10], Y_true[error_mask][:10])\n        print(\"sample error\", Y_pred[error_mask][10:20], Y_true[error_mask][10:20])\n\n        if output_file is not None:\n            with open(\n                    os.path.join(self.pred_dir, output_file + \".pkl\"),\n                    \"wb\") as fw:\n                pickle.dump(\n                    {\"Y_pred\": Y_pred, \"Y_true\": Y_true}, fw,\n                    protocol=pickle.HIGHEST_PROTOCOL)\n        return {\"outputs\": Y_pred, \"targets\": Y_true}\n\n\nclass COINZSPredictor(COINPredictor):\n    \"\"\"\n    COINZSPredictor for COIN zero-shot prediction.\n    \"\"\"\n\n    def __init__(self, config):\n        super().__init__(config)\n        self.dataset_config = config.dataset\n\n    def predict_loop(self, model, eval_dataloader, output_file=\"result.pkl\"):\n        \"\"\"refactored from line 144:\n        https://github.com/DmZhukov/CrossTask/blob/master/train.py\n        \"\"\"\n        ctx = 0\n        model.eval()\n        model = model.to(ctx)\n\n        with torch.no_grad():\n            outputs = eval_dataloader.dataset.meta_processor.meta_text_labels(\n                self.dataset_config)\n            outputs = self.to_ctx(outputs, ctx)\n            label_hidden_states = model.forward_text(**outputs).cpu()\n            label_sim = label_hidden_states @ label_hidden_states.t()\n            num_labels = label_sim.size(0)\n            eye_mask = ~torch.eye(num_labels, dtype=torch.bool)\n            label_sim = label_sim.masked_select(eye_mask).view(num_labels, num_labels - 1)\n            lbd = label_sim.max()\n\n        # this is not a loss but just compute neg_log_prob.\n        Y_pred = []\n        Y_true = []\n        with torch.no_grad():\n            for batch in eval_dataloader:\n                self(batch, label_hidden_states, model, lbd, Y_pred, Y_true)\n        return self.finalize(Y_pred, Y_true, output_file)\n\n    def reshape_subsample(self, sample):\n        for key in sample:\n            if torch.is_tensor(sample[key]):\n                sample[key] = self.flat_subsample(sample[key])\n        return sample\n\n    def flat_subsample(self, tensor):\n        if len(tensor.size()) > 1 and tensor.size(0) == 1:\n            tensor = tensor.squeeze(0)\n        return tensor\n\n    def __call__(self, sample, label_hidden_states, model, lbd, Y_pred, Y_true):\n        sample = self.reshape_subsample(sample)\n        sample = self.to_ctx(sample)\n        # compute the average logits over sliding windows.\n        sample[\"output_hidden_states\"] = True\n        video_outputs = model.forward_video(**sample).cpu()\n        output = {\"logits\": video_outputs[:, 1:sample[\"vmasks\"].size(1)+1] @ label_hidden_states.t()}\n        logits = self._merge_windows(sample, output)\n        # logic of zero-shot for sequence labeling.\n        logits_argmax = logits.argmax(dim=1) + 1  # 0 is \"O\" label.\n        logits_max = logits.max(dim=1)[0]\n\n        pred = torch.zeros_like(logits_argmax)\n        label_select = logits_max > lbd  # 73 or 74\n        pred[label_select] = logits_argmax[label_select]\n\n        Y_pred.append(pred)\n        Y_true.append(sample[\"video_targets\"].squeeze(0).cpu())\n\n    def finalize(self, Y_pred, Y_true, output_file=None):\n        Y_pred = torch.cat(Y_pred, dim=0).numpy()\n        Y_true = torch.cat(Y_true, dim=0).numpy()\n        assert len(Y_pred) == len(Y_true)\n\n        error_mask = Y_pred != Y_true\n        print(\"sample error\", Y_pred[error_mask][:10], Y_true[error_mask][:10])\n        print(\"sample error\", Y_pred[error_mask][10:20], Y_true[error_mask][10:20])\n\n        if output_file is not None:\n            with open(\n                    os.path.join(self.pred_dir, output_file + \".pkl\"),\n                    \"wb\") as fw:\n                pickle.dump(\n                    {\"Y_pred\": Y_pred, \"Y_true\": Y_true}, fw,\n                    protocol=pickle.HIGHEST_PROTOCOL)\n        return {\"outputs\": Y_pred, \"targets\": Y_true}\n\n\nclass DiDeMoPredictor(Predictor):\n    \"\"\"reference: https://github.com/LisaAnne/LocalizingMoments/blob/master/utils/eval.py\n    https://github.com/LisaAnne/LocalizingMoments/blob/master/utils/data_processing.py\n    \"\"\"\n    def __init__(self, config):\n        super().__init__(config)\n        # load targets.\n        with open(config.dataset.test_path) as data_file:\n            self.test_data = json.load(data_file)\n\n    def predict_loop(self, model, eval_dataloader, output_file=\"didemo.npy\"):\n        \"\"\"\n        TODO: two solutions here.\n        \"\"\"\n        import itertools\n        # 21 chunks.\n        self.possible_segments = [(0,0), (1,1), (2,2), (3,3), (4,4), (5,5)]\n        for i in itertools.combinations(range(6), 2):\n            self.possible_segments.append(i)\n        # pick segments from a video.\n\n        \"\"\"on-the-fly prediction on a single gpu.\"\"\"\n        self.full_scores = []\n        model.eval()\n        model = model.cuda()\n        with torch.no_grad():\n            for data in eval_dataloader:\n                # TODO special forwarding logic here.\n                data = self.to_ctx(data)\n                data[\"output_hidden_states\"] = True\n                hidden_video = model.forward_video(**data)\n                data[\"output_hidden_states\"] = False\n                pooled_text = model.forward_text(**data)\n                outputs = {\n                    \"hidden_video\": hidden_video,\n                    \"pooled_text\": pooled_text\n                }\n                outputs.update(data)\n                self(outputs)\n        return self.finalize(output_file)\n\n    def __call__(self, sample):\n        # TODO: make an index select from self.possible_segments.\n        hidden_video = sample[\"hidden_video\"]\n        pooled_text = sample[\"pooled_text\"]\n        vmasks = sample[\"vmasks\"]\n        # probably maintain valid results here.\n\n        hidden_video = hidden_video[:, 1:-1, :]\n        # probably maintain valid results here.\n        pooled_video = []\n        for s, e in self.possible_segments:\n            pooled_video.append(\n                torch.mean(\n                    hidden_video[:, int(s*5):int((e+1)*5), :],\n                    dim=1, keepdim=True)\n            )\n        pooled_video = torch.cat(pooled_video, dim=1)\n        scores = torch.bmm(\n            pooled_video, pooled_text.unsqueeze(-1)).squeeze(-1).cpu()\n\n        ranks = scores.argsort(dim=-1, descending=True)\n\n        for batch_idx, rank in enumerate(ranks):\n            rank_of_moment = []\n            for m_idx, moment in enumerate(rank):\n                s, e = self.possible_segments[moment.item()]\n                if torch.any(\n                    vmasks[batch_idx, int(s*5):int((e+1)*5)]\n                ):\n                    rank_of_moment.append((s, e))\n            self.full_scores.append(rank_of_moment)\n\n    def finalize(self, output_file=None):\n        outputs = self._aggregate_scores(self.full_scores)\n        if output_file is not None:\n            np.save(os.path.join(self.pred_dir, output_file + \".npy\"), outputs)\n        return {\"outputs\": outputs, \"targets\": self.test_data}\n\n    def _aggregate_scores(self, scores):\n        self.full_scores = []\n        return scores\n"
  },
  {
    "path": "examples/MMPT/mmpt/losses/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nfrom .loss import *\nfrom .nce import *\n\ntry:\n    from .fairseqmmloss import *\nexcept ImportError:\n    pass\n\ntry:\n    from .expnce import *\nexcept ImportError:\n    pass\n"
  },
  {
    "path": "examples/MMPT/mmpt/losses/fairseqmmloss.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nTODO (huxu): a general fairseq criterion for all your pre-defined losses.\n\"\"\"\n\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.logging import metrics\n\n\n@register_criterion(\"mmloss\")\nclass MMCriterion(FairseqCriterion):\n    def __init__(self, task):\n        super().__init__(task)\n        # TODO (huxu): wrap forward call of loss_fn and eval_fn into task.\n        self.mmtask = task.mmtask\n\n    def forward(self, model, sample):\n        \"\"\"Compute the loss for the given sample.\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        outputs = self.mmtask(model, sample)\n\n        loss, loss_scalar, max_len, batch_size, sample_size = (\n            outputs[\"loss\"],\n            outputs[\"loss_scalar\"],\n            outputs[\"max_len\"],\n            outputs[\"batch_size\"],\n            outputs[\"sample_size\"],\n        )\n\n        logging_output = {\n            \"loss\": loss_scalar,\n            \"ntokens\": max_len * batch_size,  # dummy report.\n            \"nsentences\": batch_size,  # dummy report.\n            \"sample_size\": sample_size,\n        }\n\n        return loss, 1, logging_output\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        \"\"\"since we use NCE, our actual batch_size is 1 per GPU.\n        Then we take the mean of each worker.\"\"\"\n        loss_sum = sum(log.get(\"loss\", 0.0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        metrics.log_scalar(\"loss\", loss_sum / sample_size, round=3)\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "examples/MMPT/mmpt/losses/loss.py",
    "content": "# Copyright (c) Facebook, Inc. All Rights Reserved\n\nimport torch\n\nfrom torch import nn\n\n\nclass Loss(object):\n    def __call__(self, *args, **kwargs):\n        raise NotImplementedError\n\n\n# Dummy Loss for testing.\nclass DummyLoss(Loss):\n    def __init__(self):\n        self.loss = nn.CrossEntropyLoss()\n\n    def __call__(self, logits, targets, **kwargs):\n        return self.loss(logits, targets)\n\n\nclass DummyK400Loss(Loss):\n    \"\"\"dummy k400 loss for MViT.\"\"\"\n    def __init__(self):\n        self.loss = nn.CrossEntropyLoss()\n\n    def __call__(self, logits, targets, **kwargs):\n        return self.loss(\n            logits, torch.randint(0, 400, (logits.size(0),), device=logits.device))\n\n\nclass CrossEntropy(Loss):\n    def __init__(self):\n        self.loss = nn.CrossEntropyLoss()\n\n    def __call__(self, logits, targets, **kwargs):\n        return self.loss(logits.reshape(-1, logits.size(-1)), targets.reshape(-1))\n\n\nclass ArgmaxCrossEntropy(Loss):\n    def __init__(self):\n        self.loss = nn.CrossEntropyLoss()\n\n    def __call__(self, logits, targets, **kwargs):\n        return self.loss(logits, targets.argmax(dim=1))\n\n\nclass BCE(Loss):\n    def __init__(self):\n        self.loss = nn.BCEWithLogitsLoss()\n\n    def __call__(self, logits, targets, **kwargs):\n        targets = targets.squeeze(0)\n        return self.loss(logits, targets)\n\n\nclass NLGLoss(Loss):\n    def __init__(self):\n        self.loss = nn.CrossEntropyLoss()\n\n    def __call__(self, logits, text_label, **kwargs):\n        targets = text_label[text_label != -100]\n        return self.loss(logits, targets)\n\n\nclass MSE(Loss):\n    def __init__(self):\n        self.loss = nn.MSELoss()\n\n    def __call__(self, logits, targets, **kwargs):\n        return self.loss(logits, targets)\n\n\nclass L1(Loss):\n    def __init__(self):\n        self.loss = nn.L1Loss()\n\n    def __call__(self, logits, targets, **kwargs):\n        return self.loss(logits, targets)\n\n\nclass SmoothL1(Loss):\n    def __init__(self):\n        self.loss = nn.SmoothL1Loss()\n\n    def __call__(self, logits, targets, **kwargs):\n        return self.loss(logits, targets)\n"
  },
  {
    "path": "examples/MMPT/mmpt/losses/nce.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nsoftmax-based NCE loss, used by this project.\n\"\"\"\n\nimport torch\n\nfrom torch import nn\n\nfrom .loss import Loss\n\n\nclass NCE(Loss):\n    def __init__(self):\n        # TODO (huxu): define temperature.\n        self.loss = nn.CrossEntropyLoss()\n\n    def __call__(self, align_scores, **kargs):\n        # note: we reuse the same shape as cls head in BERT (batch_size, 2)\n        # but NCE only needs one logits.\n        # (so we drop all weights in the second neg logits.)\n        align_scores = align_scores[:, :1]\n        # duplicate negative examples\n        batch_size = align_scores.size(0) // 2\n        pos_scores = align_scores[:batch_size]\n        neg_scores = align_scores[batch_size:].view(1, batch_size).repeat(\n            batch_size, 1)\n        scores = torch.cat([pos_scores, neg_scores], dim=1)\n        return self.loss(\n            scores,\n            torch.zeros(\n                (batch_size,),\n                dtype=torch.long,\n                device=align_scores.device),\n        )\n\n\nclass T2VContraLoss(Loss):\n    \"\"\"NCE for MM joint space, on softmax text2video matrix.\n    \"\"\"\n    def __init__(self):\n        # TODO (huxu): define temperature.\n        self.loss = nn.CrossEntropyLoss()\n\n    def __call__(self, pooled_video, pooled_text, **kargs):\n        batch_size = pooled_video.size(0)\n        logits = torch.mm(pooled_text, pooled_video.transpose(1, 0))\n        targets = torch.arange(\n            batch_size,\n            dtype=torch.long,\n            device=pooled_video.device)\n        return self.loss(logits, targets)\n\n\nclass V2TContraLoss(Loss):\n    \"\"\"NCE for MM joint space, with softmax on video2text matrix.\"\"\"\n\n    def __init__(self):\n        # TODO (huxu): define temperature.\n        self.loss = nn.CrossEntropyLoss()\n\n    def __call__(self, pooled_video, pooled_text, **kargs):\n        batch_size = pooled_video.size(0)\n        logits = torch.mm(pooled_video, pooled_text.transpose(1, 0))\n        targets = torch.arange(\n            batch_size,\n            dtype=torch.long,\n            device=pooled_video.device)\n        return self.loss(logits, targets)\n\n\nclass MMContraLoss(Loss):\n    def __init__(self):\n        self.loss = nn.CrossEntropyLoss()\n\n    def __call__(self, pooled_video, pooled_text, **kwargs):\n        logits_per_video = pooled_video @ pooled_text.t()\n        logits_per_text = pooled_text @ pooled_video.t()\n\n        targets = torch.arange(\n            pooled_video.size(0),\n            dtype=torch.long,\n            device=pooled_video.device)\n        loss_video = self.loss(logits_per_video, targets)\n        loss_text = self.loss(logits_per_text, targets)\n        return loss_video + loss_text\n\n\nclass MTM(Loss):\n    \"\"\"Combination of MFM and MLM.\"\"\"\n\n    def __init__(self):\n        self.loss = nn.CrossEntropyLoss()\n\n    def __call__(\n        self,\n        video_logits,\n        text_logits,\n        video_label,\n        text_label,\n        **kwargs\n    ):\n        text_logits = torch.cat([\n            text_logits,\n            torch.zeros(\n                (text_logits.size(0), 1), device=text_logits.device)\n        ], dim=1)\n        vt_logits = torch.cat([video_logits, text_logits], dim=0)\n        # loss for video.\n        video_label = torch.zeros(\n            (video_logits.size(0),),\n            dtype=torch.long,\n            device=video_logits.device\n        )\n\n        # loss for text.\n        text_label = text_label.reshape(-1)\n        labels_mask = text_label != -100\n        selected_text_label = text_label[labels_mask]\n\n        vt_label = torch.cat([video_label, selected_text_label], dim=0)\n        return self.loss(vt_logits, vt_label)\n\n\nclass MFMMLM(Loss):\n    \"\"\"Combination of MFM and MLM.\"\"\"\n\n    def __init__(self):\n        self.loss = nn.CrossEntropyLoss()\n\n    def __call__(\n        self,\n        video_logits,\n        text_logits,\n        video_label,\n        text_label,\n        **kwargs\n    ):\n        # loss for video.\n        video_label = torch.zeros(\n            (video_logits.size(0),),\n            dtype=torch.long,\n            device=video_logits.device\n        )\n        masked_frame_loss = self.loss(video_logits, video_label)\n\n        # loss for text.\n        text_label = text_label.reshape(-1)\n        labels_mask = text_label != -100\n        selected_text_label = text_label[labels_mask]\n        masked_lm_loss = self.loss(text_logits, selected_text_label)\n        return masked_frame_loss + masked_lm_loss\n"
  },
  {
    "path": "examples/MMPT/mmpt/models/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nfrom .mmfusion import *\nfrom .transformermodel import *\nfrom .mmfusionnlg import *\n\ntry:\n    from .fairseqmmmodel import *\nexcept ImportError:\n    pass\n\ntry:\n    from .expmmfusion import *\nexcept ImportError:\n    pass\n"
  },
  {
    "path": "examples/MMPT/mmpt/models/fairseqmmmodel.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.models import (\n    BaseFairseqModel,\n    register_model,\n    register_model_architecture\n)\n\n\n@register_model(\"mmmodel\")\nclass FairseqMMModel(BaseFairseqModel):\n    \"\"\"a fairseq wrapper of model built by `task`.\"\"\"\n\n    @classmethod\n    def build_model(cls, args, task):\n        return FairseqMMModel(task.mmtask.model)\n\n    def __init__(self, mmmodel):\n        super().__init__()\n        self.mmmodel = mmmodel\n\n    def forward(self, *args, **kwargs):\n        return self.mmmodel(*args, **kwargs)\n\n    def upgrade_state_dict_named(self, state_dict, name):\n\n        super().upgrade_state_dict_named(state_dict, name)\n\n        keys_to_delete = []\n\n        for key in state_dict:\n            if key not in self.state_dict():\n                keys_to_delete.append(key)\n        for key in keys_to_delete:\n            print(\"[INFO]\", key, \"not used anymore.\")\n            del state_dict[key]\n\n        # copy any newly defined parameters.\n        for key in self.state_dict():\n            if key not in state_dict:\n                print(\"[INFO] adding\", key)\n                state_dict[key] = self.state_dict()[key]\n\n\n# a dummy arch, we config the model.\n@register_model_architecture(\"mmmodel\", \"mmarch\")\ndef mmarch(args):\n    pass\n"
  },
  {
    "path": "examples/MMPT/mmpt/models/mmfusion.py",
    "content": "# coding=utf-8\n# Copyright 2018 The Google AI Language Team Authors and The HuggingFace Inc. team.\n# Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.\n#\n# Licensed under the Apache License, Version 2.0 (the \"License\");\n# you may not use this file except in compliance with the License.\n# You may obtain a copy of the License at\n#\n#     http://www.apache.org/licenses/LICENSE-2.0\n#\n# Unless required by applicable law or agreed to in writing, software\n# distributed under the License is distributed on an \"AS IS\" BASIS,\n# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\n# See the License for the specific language governing permissions and\n# limitations under the License.\n# Copyright (c) Facebook, Inc. All Rights Reserved\n\n\nimport torch\n\nfrom torch import nn\n\ntry:\n    from transformers import AutoConfig, AutoTokenizer\nexcept ImportError:\n    pass\n\nfrom . import transformermodel\n\n\nclass MMPTModel(nn.Module):\n    \"\"\"An e2e wrapper of inference model.\n    \"\"\"\n    @classmethod\n    def from_pretrained(cls, config, checkpoint=\"checkpoint_best.pt\"):\n        import os\n        from ..utils import recursive_config\n        from ..tasks import Task\n        config = recursive_config(config)\n        mmtask = Task.config_task(config)\n        checkpoint_path = os.path.join(config.eval.save_path, checkpoint)\n        mmtask.build_model(checkpoint=checkpoint_path)\n        # TODO(huxu): make the video encoder configurable.\n        from ..processors.models.s3dg import S3D\n        video_encoder = S3D('pretrained_models/s3d_dict.npy', 512)\n        video_encoder.load_state_dict(\n            torch.load('pretrained_models/s3d_howto100m.pth'))\n        from transformers import AutoTokenizer\n        tokenizer = AutoTokenizer.from_pretrained(\n            config.dataset.bert_name, use_fast=config.dataset.use_fast\n        )\n        from ..processors import Aligner\n        aligner = Aligner(config.dataset)\n        return (\n            MMPTModel(config, mmtask.model, video_encoder),\n            tokenizer,\n            aligner\n        )\n\n    def __init__(self, config, model, video_encoder, **kwargs):\n        super().__init__()\n        self.max_video_len = config.dataset.max_video_len\n        self.video_encoder = video_encoder\n        self.model = model\n\n    def forward(self, video_frames, caps, cmasks, return_score=False):\n        bsz = video_frames.size(0)\n        assert bsz == 1, \"only bsz=1 is supported now.\"\n        seq_len = video_frames.size(1)\n        video_frames = video_frames.view(-1, *video_frames.size()[2:])\n        vfeats = self.video_encoder(video_frames.permute(0, 4, 1, 2, 3))\n        vfeats = vfeats['video_embedding']\n        vfeats = vfeats.view(bsz, seq_len, vfeats.size(-1))\n        padding = torch.zeros(\n            bsz, self.max_video_len - seq_len, vfeats.size(-1))\n        vfeats = torch.cat([vfeats, padding], dim=1)\n        vmasks = torch.cat([\n            torch.ones((bsz, seq_len), dtype=torch.bool),\n            torch.zeros((bsz, self.max_video_len - seq_len), dtype=torch.bool)\n            ],\n            dim=1\n        )\n        output = self.model(caps, cmasks, vfeats, vmasks)\n        if return_score:\n            output = {\"score\": torch.bmm(\n                output[\"pooled_video\"][:, None, :],\n                output[\"pooled_text\"][:, :, None]\n            ).squeeze(-1).squeeze(-1)}\n        return output\n\n\nclass MMFusion(nn.Module):\n    \"\"\"a MMPT wrapper class for MMBert style models.\n    TODO: move isolated mask to a subclass.\n    \"\"\"\n    def __init__(self, config, **kwargs):\n        super().__init__()\n        transformer_config = AutoConfig.from_pretrained(\n            config.dataset.bert_name)\n        self.hidden_size = transformer_config.hidden_size\n        self.is_train = False\n        if config.dataset.train_path is not None:\n            self.is_train = True\n        # 0 means no iso; 1-12 means iso up to that layer.\n        self.num_hidden_layers = transformer_config.num_hidden_layers\n        self.last_iso_layer = 0\n        if config.dataset.num_iso_layer is not None:\n            self.last_iso_layer = config.dataset.num_iso_layer - 1 + 1\n\n        if config.model.mm_encoder_cls is not None:\n            mm_encoder_cls = getattr(transformermodel, config.model.mm_encoder_cls)\n            model_config = AutoConfig.from_pretrained(config.dataset.bert_name)\n            model_config.max_video_len = config.dataset.max_video_len\n            # TODO: a general way to add parameter for a model.\n            model_config.use_seg_emb = config.model.use_seg_emb\n            self.mm_encoder = mm_encoder_cls.from_pretrained(\n                config.dataset.bert_name, config=model_config)\n        elif config.model.video_encoder_cls is not None\\\n                and config.model.text_encoder_cls is not None:\n            video_encoder_cls = getattr(transformermodel, config.model.video_encoder_cls)\n            model_config = AutoConfig.from_pretrained(config.dataset.bert_name)\n            model_config.max_video_len = config.dataset.max_video_len\n            # TODO: make each model a set of config class.\n            if hasattr(model_config, \"num_layers\"):\n                model_config.num_layers = config.model.num_hidden_video_layers\n            else:\n                model_config.num_hidden_layers = config.model.num_hidden_video_layers\n            self.video_encoder = video_encoder_cls.from_pretrained(\n                config.dataset.bert_name, config=model_config)\n            # exact same NLP model from Huggingface.\n            text_encoder_cls = getattr(transformermodel, config.model.text_encoder_cls)\n            self.text_encoder = text_encoder_cls.from_pretrained(\n                config.dataset.bert_name)\n        else:\n            raise ValueError(\"the encoder must be either MM or two backbones.\")\n\n    def forward(\n        self,\n        caps,\n        cmasks,\n        vfeats,\n        vmasks,\n        **kwargs\n    ):\n        raise NotImplementedError(\n            \"Please derive MMFusion module.\"\n        )\n\n    def _mm_on_the_fly(\n        self,\n        cmasks,\n        vmasks,\n        attention_mask\n    ):\n        \"\"\"helper function for mask, seg_ids and token_type_ids.\"\"\"\n        if attention_mask is None:\n            attention_mask = self._mm_attention_mask(cmasks, vmasks)\n\n        \"\"\"\n        0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1\n        | first sequence    | second sequence |\n        \"\"\"\n        token_type_ids = torch.cat(\n            [\n                torch.zeros(\n                    (vmasks.size(0), vmasks.size(1) + 2),\n                    dtype=torch.long,\n                    device=vmasks.device,\n                ),\n                torch.ones(\n                    (cmasks.size(0), cmasks.size(1) - 2),\n                    dtype=torch.long,\n                    device=cmasks.device,\n                ),\n            ],\n            dim=1,\n        )\n        return attention_mask, token_type_ids\n\n    def _mm_attention_mask(self, cmasks, vmasks):\n        assert cmasks.size(0) == vmasks.size(0), \"{}, {}, {}, {}\".format(\n            str(cmasks.size()),\n            str(vmasks.size()),\n            str(cmasks.size(0)),\n            str(vmasks.size(0)),\n        )\n\n        mm_mask = torch.cat([cmasks[:, :1], vmasks, cmasks[:, 1:]], dim=1)\n        if self.last_iso_layer == 0:\n            # hard attention mask.\n            return mm_mask\n        else:\n            # a gpu iso mask; 0 : num_iso_layer is isolated;\n            # num_iso_layer: are MM-fused.\n            # make an iso layer\n            batch_size = cmasks.size(0)\n            iso_mask = self._make_iso_mask(batch_size, cmasks, vmasks)\n            mm_mask = mm_mask[:, None, :].repeat(1, mm_mask.size(-1), 1)\n            iso_mm_masks = []\n            # hard attention mask.\n            iso_mask = iso_mask[:, None, :, :].repeat(\n                1, self.last_iso_layer, 1, 1)\n            iso_mm_masks.append(iso_mask)\n            if self.last_iso_layer < self.num_hidden_layers:\n                mm_mask = mm_mask[:, None, :, :].repeat(\n                    1, self.num_hidden_layers - self.last_iso_layer, 1, 1\n                )\n                iso_mm_masks.append(mm_mask)\n            iso_mm_masks = torch.cat(iso_mm_masks, dim=1)\n            return iso_mm_masks\n\n    def _make_iso_mask(self, batch_size, cmasks, vmasks):\n        cls_self_mask = torch.cat(\n            [\n                torch.ones(\n                    (batch_size, 1), dtype=torch.bool, device=cmasks.device),\n                torch.zeros(\n                    (batch_size, cmasks.size(1) + vmasks.size(1) - 1),\n                    dtype=torch.bool, device=cmasks.device)\n            ], dim=1)\n\n        iso_video_mask = torch.cat(\n            [\n                # [CLS] is not used.\n                torch.zeros(\n                    (batch_size, 1), dtype=torch.bool, device=cmasks.device\n                ),\n                vmasks,\n                # assume to be 1.\n                cmasks[:, 1:2],\n                # 2 means [CLS] + [SEP]\n                torch.zeros(\n                    (batch_size, cmasks.size(1) - 2),\n                    dtype=torch.bool,\n                    device=cmasks.device,\n                ),\n            ],\n            dim=1,\n        )\n        iso_text_mask = torch.cat(\n            [\n                torch.zeros(\n                    (batch_size, 2 + vmasks.size(1)),\n                    dtype=torch.bool,\n                    device=cmasks.device,\n                ),  # [CLS] is not used.\n                cmasks[:, 2:],  # assume to be 1.\n            ],\n            dim=1,\n        )\n        cls_self_mask = cls_self_mask[:, None, :]\n        iso_video_mask = iso_video_mask[:, None, :].repeat(\n            1, vmasks.size(1) + 1, 1)\n        iso_text_mask = iso_text_mask[:, None, :].repeat(\n            1, cmasks.size(1) - 2, 1)\n        return torch.cat([cls_self_mask, iso_video_mask, iso_text_mask], dim=1)\n\n    def _pooling_vt_layer(\n        self,\n        layered_sequence_output,\n        cmasks,\n        vmasks\n    ):\n        layer_idx = self.last_iso_layer \\\n                if self.last_iso_layer > 0 else self.num_hidden_layers\n        hidden_state = layered_sequence_output[layer_idx]\n        # also output pooled_video and pooled_text.\n        batch_size = cmasks.size(0)\n        # pool the modality.\n        text_offset = vmasks.size(1) + 2  # [CLS] + [SEP]\n        # video tokens + [SEP]\n        video_outputs = hidden_state[:, 1:text_offset]\n        video_attention_mask = torch.cat(\n            [\n                vmasks,\n                torch.ones(\n                    (batch_size, 1), dtype=torch.bool, device=vmasks.device),\n            ],\n            dim=1,\n        )\n        assert video_outputs.size(1) == video_attention_mask.size(1)\n        pooled_video = torch.sum(\n            video_outputs * video_attention_mask.unsqueeze(-1), dim=1\n        ) / video_attention_mask.sum(1, keepdim=True)\n        # pooled_video = torch.mean(video_outputs[0], dim=1)\n\n        # text tokens + [SEP]\n        text_attention_mask = cmasks[:, 2:]\n        text_outputs = hidden_state[:, text_offset:]\n        assert text_outputs.size(1) == text_attention_mask.size(1)\n        pooled_text = torch.sum(\n            text_outputs * text_attention_mask.unsqueeze(-1), dim=1\n        ) / text_attention_mask.sum(1, keepdim=True)\n        return pooled_video, pooled_text\n\n\nclass MMFusionMFMMLM(MMFusion):\n    \"\"\"forward function for MFM and MLM.\"\"\"\n    def forward(\n        self,\n        caps,\n        cmasks,\n        vfeats,\n        vmasks,\n        attention_mask=None,\n        video_label=None,\n        text_label=None,\n        **kwargs\n    ):\n        output_hidden_states = False if self.is_train else True\n\n        target_vfeats, non_masked_frame_mask = None, None\n        if video_label is not None:\n            target_vfeats = vfeats.masked_select(\n                video_label.unsqueeze(-1)).view(\n                -1, vfeats.size(-1)\n            )\n            # mask video token.\n            vfeats[video_label] = 0.0\n            non_masked_frame_mask = vmasks.clone()\n            non_masked_frame_mask[video_label] = False\n\n        attention_mask, token_type_ids = self._mm_on_the_fly(\n            cmasks, vmasks, attention_mask)\n\n        outputs = self.mm_encoder(\n            input_ids=caps,\n            input_video_embeds=vfeats,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            masked_frame_labels=video_label,\n            target_video_hidden_states=target_vfeats,\n            non_masked_frame_mask=non_masked_frame_mask,\n            masked_lm_labels=text_label,\n            output_hidden_states=output_hidden_states,\n        )\n\n        video_logits, text_logits = outputs[0], outputs[1]\n\n        if self.is_train:  # return earlier for training.\n            return {\n                \"video_logits\": video_logits,\n                \"text_logits\": text_logits,\n            }\n\n        pooled_video, pooled_text = self._pooling_vt_layer(\n            outputs[2], cmasks, vmasks)\n        return {\"pooled_video\": pooled_video, \"pooled_text\": pooled_text}\n\n\nclass MMFusionMTM(MMFusionMFMMLM):\n    def __init__(self, config, **kwargs):\n        super().__init__(config)\n        \"\"\"\n        For reproducibility:\n        self.mm_encoder will be initialized then discarded.\n        \"\"\"\n        from .transformermodel import MMBertForMTM\n        model_config = AutoConfig.from_pretrained(config.dataset.bert_name)\n        model_config.max_video_len = config.dataset.max_video_len\n        model_config.use_seg_emb = config.model.use_seg_emb\n        self.mm_encoder = MMBertForMTM.from_pretrained(\n            config.dataset.bert_name, config=model_config)\n\n\nclass MMFusionShare(MMFusion):\n    \"\"\"A retrival wrapper using mm_encoder as both video/text backbone.\n    TODO: move formally.\n    \"\"\"\n    def forward(\n        self,\n        caps,\n        cmasks,\n        vfeats,\n        vmasks,\n        attention_mask=None,\n        video_label=None,\n        text_label=None,\n        output_hidden_states=False,\n        **kwargs\n    ):\n        pooled_video = self.forward_video(\n            vfeats,\n            vmasks,\n            caps,\n            cmasks,\n            output_hidden_states\n        )\n\n        pooled_text = self.forward_text(\n            caps,\n            cmasks,\n            output_hidden_states\n        )\n\n        return {\"pooled_video\": pooled_video, \"pooled_text\": pooled_text}\n\n    def forward_video(\n        self,\n        vfeats,\n        vmasks,\n        caps,\n        cmasks,\n        output_hidden_states=False,\n        **kwargs\n    ):\n        input_ids = caps[:, :2]\n\n        attention_mask = torch.cat([\n            cmasks[:, :1],\n            vmasks,\n            cmasks[:, 1:2]\n        ], dim=1)\n\n        token_type_ids = torch.zeros(\n            (vmasks.size(0), vmasks.size(1) + 2),\n            dtype=torch.long,\n            device=vmasks.device)\n\n        outputs = self.mm_encoder(\n            input_ids=input_ids,\n            input_video_embeds=vfeats,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            output_hidden_states=True\n        )\n        video_outputs = outputs[0]\n\n        if output_hidden_states:\n            return video_outputs\n\n        batch_size = cmasks.size(0)\n\n        video_attention_mask = torch.cat(\n            [\n                torch.zeros(\n                    (batch_size, 1), dtype=torch.bool, device=vmasks.device),\n                vmasks,\n                torch.ones(\n                    (batch_size, 1), dtype=torch.bool, device=vmasks.device),\n            ],\n            dim=1,\n        )\n        assert video_outputs.size(1) == video_attention_mask.size(1)\n\n        video_attention_mask = video_attention_mask.type(video_outputs.dtype) \\\n            / video_attention_mask.sum(1, keepdim=True)\n\n        pooled_video = torch.bmm(\n            video_outputs.transpose(2, 1),\n            video_attention_mask.unsqueeze(2)\n        ).squeeze(-1)\n        return pooled_video  # video_outputs\n\n    def forward_text(\n        self,\n        caps,\n        cmasks,\n        output_hidden_states=False,\n        **kwargs\n    ):\n        input_ids = torch.cat([\n            caps[:, :1], caps[:, 2:],\n            ], dim=1)\n\n        attention_mask = torch.cat([\n            cmasks[:, :1],\n            cmasks[:, 2:]\n        ], dim=1)\n\n        token_type_ids = torch.cat([\n            torch.zeros(\n                (cmasks.size(0), 1),\n                dtype=torch.long,\n                device=cmasks.device),\n            torch.ones(\n                (cmasks.size(0), cmasks.size(1) - 2),\n                dtype=torch.long,\n                device=cmasks.device)\n            ], dim=1)\n\n        outputs = self.mm_encoder(\n            input_ids=input_ids,\n            input_video_embeds=None,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            output_hidden_states=True\n        )\n        text_outputs = outputs[0]\n\n        if output_hidden_states:\n            return text_outputs\n\n        batch_size = caps.size(0)\n        # text tokens + [SEP]\n        text_attention_mask = torch.cat([\n            torch.zeros(\n                (batch_size, 1), dtype=torch.bool, device=cmasks.device),\n            cmasks[:, 2:]\n        ], dim=1)\n\n        assert text_outputs.size(1) == text_attention_mask.size(1)\n\n        text_attention_mask = text_attention_mask.type(text_outputs.dtype) \\\n            / text_attention_mask.sum(1, keepdim=True)\n\n        pooled_text = torch.bmm(\n            text_outputs.transpose(2, 1),\n            text_attention_mask.unsqueeze(2)\n        ).squeeze(-1)\n        return pooled_text  # text_outputs\n\n\nclass MMFusionSeparate(MMFusionShare):\n    def forward_video(\n        self,\n        vfeats,\n        vmasks,\n        caps,\n        cmasks,\n        output_hidden_states=False,\n        **kwargs\n    ):\n        input_ids = caps[:, :2]\n\n        attention_mask = torch.cat([\n            cmasks[:, :1],\n            vmasks,\n            cmasks[:, 1:2]\n        ], dim=1)\n\n        token_type_ids = torch.zeros(\n            (vmasks.size(0), vmasks.size(1) + 2),\n            dtype=torch.long,\n            device=vmasks.device)\n\n        outputs = self.video_encoder(\n            input_ids=input_ids,\n            input_video_embeds=vfeats,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            output_hidden_states=True\n        )\n        video_outputs = outputs[0]\n\n        if output_hidden_states:\n            return video_outputs\n\n        batch_size = cmasks.size(0)\n\n        video_attention_mask = torch.cat(\n            [\n                torch.zeros(\n                    (batch_size, 1), dtype=torch.bool, device=vmasks.device),\n                vmasks,\n                torch.ones(\n                    (batch_size, 1), dtype=torch.bool, device=vmasks.device),\n            ],\n            dim=1,\n        )\n        assert video_outputs.size(1) == video_attention_mask.size(1)\n\n        video_attention_mask = video_attention_mask.type(video_outputs.dtype) \\\n            / video_attention_mask.sum(1, keepdim=True)\n\n        pooled_video = torch.bmm(\n            video_outputs.transpose(2, 1),\n            video_attention_mask.unsqueeze(2)\n        ).squeeze(-1)\n        return pooled_video  # video_outputs\n\n    def forward_text(\n        self,\n        caps,\n        cmasks,\n        output_hidden_states=False,\n        **kwargs\n    ):\n        input_ids = torch.cat([\n            caps[:, :1], caps[:, 2:],\n            ], dim=1)\n\n        attention_mask = torch.cat([\n            cmasks[:, :1],\n            cmasks[:, 2:]\n        ], dim=1)\n        # different from sharing, we use all-0 type.\n        token_type_ids = torch.zeros(\n            (cmasks.size(0), cmasks.size(1) - 1),\n            dtype=torch.long,\n            device=cmasks.device)\n\n        outputs = self.text_encoder(\n            input_ids=input_ids,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            output_hidden_states=True\n        )\n        text_outputs = outputs[0]\n\n        if output_hidden_states:\n            return text_outputs\n\n        batch_size = caps.size(0)\n        # text tokens + [SEP]\n        text_attention_mask = torch.cat([\n            torch.zeros(\n                (batch_size, 1), dtype=torch.bool, device=cmasks.device),\n            cmasks[:, 2:]\n        ], dim=1)\n\n        assert text_outputs.size(1) == text_attention_mask.size(1)\n\n        text_attention_mask = text_attention_mask.type(text_outputs.dtype) \\\n            / text_attention_mask.sum(1, keepdim=True)\n\n        pooled_text = torch.bmm(\n            text_outputs.transpose(2, 1),\n            text_attention_mask.unsqueeze(2)\n        ).squeeze(-1)\n        return pooled_text  # text_outputs\n\n\nclass MMFusionJoint(MMFusion):\n    \"\"\"fine-tuning wrapper for retrival task.\"\"\"\n\n    def forward(\n        self,\n        caps,\n        cmasks,\n        vfeats,\n        vmasks,\n        attention_mask=None,\n        video_label=None,\n        text_label=None,\n        **kwargs\n    ):\n        # TODO (huxu): other ways to do negative examples; move the following\n        # into your criterion forward.\n        output_hidden_states = True\n\n        attention_mask, token_type_ids = self._mm_on_the_fly(\n            cmasks, vmasks, attention_mask)\n\n        separate_forward_split = (\n            None if self.is_train else vmasks.size(1) + 2\n        )  # [CLS] + [SEP]\n\n        outputs = self.mm_encoder(\n            input_ids=caps,\n            input_video_embeds=vfeats,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            output_hidden_states=output_hidden_states,\n            separate_forward_split=separate_forward_split,\n        )\n\n        pooled_video, pooled_text = self._pooling_vt_layer(\n            outputs[2], cmasks, vmasks)\n        return {\"pooled_video\": pooled_video, \"pooled_text\": pooled_text}\n\n\nclass MMFusionActionSegmentation(MMFusion):\n    \"\"\"Fine-tuning wrapper for action segmentation.\n    TODO: rename this for VLM.\n    \"\"\"\n    def forward(\n        self,\n        caps,\n        cmasks,\n        vfeats,\n        vmasks,\n        attention_mask=None,\n        **kwargs\n    ):\n        # ActionLocalization assume of batch_size=1, squeeze it.\n        caps = caps.view(-1, caps.size(-1))\n        cmasks = cmasks.view(-1, cmasks.size(-1))\n        vfeats = vfeats.view(-1, vfeats.size(2), vfeats.size(3))\n        vmasks = vmasks.view(-1, vmasks.size(-1))\n\n        # this may not cover all shapes of attention_mask.\n        attention_mask = attention_mask.view(\n            -1, attention_mask.size(2), attention_mask.size(3)) \\\n            if attention_mask is not None else None\n\n        # TODO (huxu): other ways to do negative examples; move the following\n        # into your criterion forward.\n        output_hidden_states = True\n\n        #  video forwarding, text is dummy; never use attention_mask.\n        attention_mask, token_type_ids = self._mm_on_the_fly(\n            cmasks, vmasks, attention_mask)\n\n        logits = self.mm_encoder(\n            input_ids=caps,\n            input_video_embeds=vfeats,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            output_hidden_states=output_hidden_states,\n        )\n        return {\"logits\": logits[0][:, 1:vmasks.size(1)+1]}\n\n\nclass MMFusionActionLocalization(MMFusion):\n    \"\"\"fine-tuning model for retrival task.\"\"\"\n\n    def __init__(self, config, **kwargs):\n        super().__init__(config)\n        tokenizer = AutoTokenizer.from_pretrained(\n            config.dataset.bert_name)\n        self.cls_token_id = tokenizer.cls_token_id\n        self.sep_token_id = tokenizer.sep_token_id\n        self.pad_token_id = tokenizer.pad_token_id\n\n    def forward(\n        self,\n        caps,\n        cmasks,\n        vfeats,\n        vmasks,\n        attention_mask=None,\n        **kwargs\n    ):\n        # ActionLocalization assume of batch_size=1, squeeze it.\n        caps = caps.squeeze(0)\n        cmasks = cmasks.squeeze(0)\n        vfeats = vfeats.squeeze(0)\n        vmasks = vmasks.squeeze(0)\n        attention_mask = attention_mask.squeeze(0) if attention_mask is not None else None\n\n        # TODO (huxu): other ways to do negative examples; move the following\n        # into your criterion forward.\n        output_hidden_states = True\n\n        # a len1 dummy video token.\n        dummy_vfeats = torch.zeros(\n            (caps.size(0), 1, vfeats.size(-1)), device=vfeats.device, dtype=vfeats.dtype)\n        dummy_vmasks = torch.ones(\n            (caps.size(0), 1), dtype=torch.bool,\n            device=vfeats.device)\n\n        dummy_caps = torch.LongTensor(\n            [[self.cls_token_id, self.sep_token_id,\n              self.pad_token_id, self.sep_token_id]],\n            ).to(caps.device).repeat(vfeats.size(0), 1)\n        dummy_cmasks = torch.BoolTensor(\n            [[0, 1, 0, 1]]  # pad are valid for attention.\n            ).to(caps.device).repeat(vfeats.size(0), 1)\n\n        #  video forwarding, text is dummy; never use attention_mask.\n        attention_mask, token_type_ids = self._mm_on_the_fly(\n            dummy_cmasks, vmasks, None)\n\n        outputs = self.mm_encoder(\n            input_ids=dummy_caps,\n            input_video_embeds=vfeats,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            output_hidden_states=output_hidden_states,\n        )\n\n        layer_idx = self.last_iso_layer \\\n                if self.last_iso_layer > 0 else self.num_hidden_layers\n\n        video_seq = outputs[2][layer_idx][:, 1:vmasks.size(1)+1].masked_select(\n                vmasks.unsqueeze(-1)\n            ).view(-1, self.hidden_size)\n\n        # text forwarding, video is dummy\n        attention_mask, token_type_ids = self._mm_on_the_fly(\n            cmasks, dummy_vmasks, None)\n\n        outputs = self.mm_encoder(\n            input_ids=caps,\n            input_video_embeds=dummy_vfeats,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            output_hidden_states=output_hidden_states,\n        )\n\n        _, pooled_text = self._pooling_vt_layer(\n            outputs[2], cmasks, dummy_vmasks)\n        # this line is not right.\n        logits = torch.mm(video_seq, pooled_text.transpose(1, 0))\n        return {\"logits\": logits}\n\n\n# --------------- MMFusionSeparate for end tasks ---------------\n\nclass MMFusionSeparateActionSegmentation(MMFusionSeparate):\n    \"\"\"Fine-tuning wrapper for action segmentation.\"\"\"\n    def forward(\n        self,\n        caps,\n        cmasks,\n        vfeats,\n        vmasks,\n        attention_mask=None,\n        **kwargs\n    ):\n        # ActionLocalization assume of batch_size=1, squeeze it.\n        caps = caps.view(-1, caps.size(-1))\n        cmasks = cmasks.view(-1, cmasks.size(-1))\n        vfeats = vfeats.view(-1, vfeats.size(2), vfeats.size(3))\n        vmasks = vmasks.view(-1, vmasks.size(-1))\n        logits = self.forward_video(\n            vfeats,\n            vmasks,\n            caps,\n            cmasks,\n            output_hidden_states=True\n        )\n        return {\"logits\": logits[:, 1:vmasks.size(1)+1]}\n\n\nclass MMFusionSeparateActionLocalization(MMFusionSeparate):\n    def __init__(self, config, **kwargs):\n        super().__init__(config)\n        tokenizer = AutoTokenizer.from_pretrained(\n            config.dataset.bert_name)\n        self.cls_token_id = tokenizer.cls_token_id\n        self.sep_token_id = tokenizer.sep_token_id\n        self.pad_token_id = tokenizer.pad_token_id\n\n    def forward(\n        self,\n        caps,\n        cmasks,\n        vfeats,\n        vmasks,\n        **kwargs\n    ):\n        # ActionLocalization assume of batch_size=1, squeeze it.\n        caps = caps.squeeze(0)\n        cmasks = cmasks.squeeze(0)\n        vfeats = vfeats.squeeze(0)\n        vmasks = vmasks.squeeze(0)\n\n        # TODO (huxu): other ways to do negative examples; move the following\n        # into your criterion forward.\n        dummy_caps = torch.LongTensor(\n            [[self.cls_token_id, self.sep_token_id,\n              self.pad_token_id, self.sep_token_id]],\n            ).to(caps.device).repeat(vfeats.size(0), 1)\n        dummy_cmasks = torch.BoolTensor(\n            [[0, 1, 0, 1]]  # pad are valid for attention.\n            ).to(caps.device).repeat(vfeats.size(0), 1)\n\n        outputs = self.forward_video(\n            vfeats,\n            vmasks,\n            dummy_caps,\n            dummy_cmasks,\n            output_hidden_states=True\n        )\n\n        video_seq = outputs[:, 1:vmasks.size(1)+1].masked_select(\n                vmasks.unsqueeze(-1)\n            ).view(-1, self.hidden_size)\n\n        pooled_text = self.forward_text(\n            caps,\n            cmasks,\n            output_hidden_states=False\n        )\n\n        # this line is not right.\n        logits = torch.mm(video_seq, pooled_text.transpose(1, 0))\n        return {\"logits\": logits}\n\n\nclass MMFusionShareActionLocalization(MMFusionShare):\n    def __init__(self, config, **kwargs):\n        super().__init__(config)\n        tokenizer = AutoTokenizer.from_pretrained(\n            config.dataset.bert_name)\n        self.cls_token_id = tokenizer.cls_token_id\n        self.sep_token_id = tokenizer.sep_token_id\n        self.pad_token_id = tokenizer.pad_token_id\n\n    def forward(\n        self,\n        caps,\n        cmasks,\n        vfeats,\n        vmasks,\n        **kwargs\n    ):\n        # ActionLocalization assume of batch_size=1, squeeze it.\n        caps = caps.squeeze(0)\n        cmasks = cmasks.squeeze(0)\n        vfeats = vfeats.squeeze(0)\n        vmasks = vmasks.squeeze(0)\n\n        # TODO (huxu): other ways to do negative examples; move the following\n        # into your criterion forward.\n        dummy_caps = torch.LongTensor(\n            [[self.cls_token_id, self.sep_token_id,\n              self.pad_token_id, self.sep_token_id]],\n            ).to(caps.device).repeat(vfeats.size(0), 1)\n        dummy_cmasks = torch.BoolTensor(\n            [[0, 1, 0, 1]]  # pad are valid for attention.\n            ).to(caps.device).repeat(vfeats.size(0), 1)\n\n        outputs = self.forward_video(\n            vfeats,\n            vmasks,\n            dummy_caps,\n            dummy_cmasks,\n            output_hidden_states=True\n        )\n\n        video_seq = outputs[:, 1:vmasks.size(1)+1].masked_select(\n                vmasks.unsqueeze(-1)\n            ).view(-1, self.hidden_size)\n\n        pooled_text = self.forward_text(\n            caps,\n            cmasks,\n            output_hidden_states=False\n        )\n\n        # this line is not right.\n        logits = torch.mm(video_seq, pooled_text.transpose(1, 0))\n        return {\"logits\": logits}\n"
  },
  {
    "path": "examples/MMPT/mmpt/models/mmfusionnlg.py",
    "content": "# coding=utf-8\n# Copyright 2018 The Google AI Language Team Authors, Facebook AI Research authors and The HuggingFace Inc. team.\n# Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.\n#\n# Licensed under the Apache License, Version 2.0 (the \"License\");\n# you may not use this file except in compliance with the License.\n# You may obtain a copy of the License at\n#\n#     http://www.apache.org/licenses/LICENSE-2.0\n#\n# Unless required by applicable law or agreed to in writing, software\n# distributed under the License is distributed on an \"AS IS\" BASIS,\n# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\n# See the License for the specific language governing permissions and\n# limitations under the License.\n# Copyright (c) Facebook, Inc. All Rights Reserved\n\n\nimport torch\n\nfrom torch.nn import functional as F\n\nfrom typing import Optional, Iterable\n\ntry:\n    from transformers import BertPreTrainedModel\n    from transformers.modeling_bert import BertOnlyMLMHead\n\n    from transformers.file_utils import ModelOutput\n    from transformers.modeling_outputs import CausalLMOutput\n    from transformers.generation_utils import (\n        BeamHypotheses,\n        top_k_top_p_filtering\n    )\nexcept ImportError:\n    pass\n\nfrom .mmfusion import MMFusion\nfrom .transformermodel import MMBertModel\nfrom ..modules import VideoTokenMLP\n\n\nclass MMFusionNLG(MMFusion):\n    def __init__(self, config, **kwargs):\n        super().__init__(config)\n        if config.model.max_decode_length is not None:\n            self.max_length = min(\n                config.model.max_decode_length,\n                config.dataset.max_len - config.dataset.max_video_len - 3\n            )\n        else:\n            self.max_length = \\\n                config.dataset.max_len - config.dataset.max_video_len - 3\n        self.gen_param = config.gen_param if config.gen_param is not None \\\n            else {}\n\n    def forward(\n        self,\n        caps,\n        cmasks,\n        vfeats,\n        vmasks,\n        attention_mask,\n        video_label=None,\n        text_label=None,\n        **kwargs\n    ):\n        \"\"\"use pre-trained LM header for generation.\"\"\"\n        attention_mask, token_type_ids = self._mm_on_the_fly(\n            cmasks, vmasks, attention_mask)\n\n        outputs = self.mm_encoder(\n            input_ids=caps,\n            input_video_embeds=vfeats,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            masked_lm_labels=text_label,\n        )\n        return {\"logits\": outputs[0]}\n\n    @torch.no_grad()\n    def generate(\n        self,\n        caps, cmasks, vfeats, vmasks,\n        attention_mask=None,\n        bos_token_id=None,\n        eos_token_id=None,\n        **kwargs\n    ):\n        # a simplified interface from\n        # https://huggingface.co/transformers/v3.4.0/_modules/transformers/generation_utils.html#GenerationMixin.generate\n\n        # caps now only have\n        # [CLS], [SEP] (for video) and [CLS] (as bos_token)\n        assert caps.size(1) == 3\n\n        attention_mask, token_type_ids = self._mm_on_the_fly(\n            cmasks, vmasks, attention_mask)\n\n        output = self.mm_encoder.generate(\n            input_ids=caps,\n            input_video_embeds=vfeats,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            bos_token_id=bos_token_id,\n            eos_token_id=eos_token_id,\n            max_length=self.max_length,\n            **self.gen_param\n        )\n        return output\n\n\nclass MMBertForNLG(BertPreTrainedModel):\n    def __init__(self, config):\n        super().__init__(config)\n        self.bert = MMBertModel(config)\n        self.videomlp = VideoTokenMLP(config)\n        # we do not use `BertGenerationOnlyLMHead`\n        # because we can reuse pretraining.\n        self.cls = BertOnlyMLMHead(config)\n        self.hidden_size = config.hidden_size\n        self.init_weights()\n\n    def get_output_embeddings(self):\n        return self.cls.predictions.decoder\n\n    def forward(\n        self,\n        input_ids=None,\n        input_video_embeds=None,\n        attention_mask=None,\n        token_type_ids=None,\n        position_ids=None,\n        head_mask=None,\n        inputs_embeds=None,\n        masked_lm_labels=None,\n        output_attentions=None,\n        output_hidden_states=None,\n        return_dict=None,\n    ):\n        # similar to MMBertForMFMMLM without MFM.\n        video_tokens = self.videomlp(input_video_embeds)\n        outputs = self.bert(\n            input_ids,\n            video_tokens,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            position_ids=position_ids,\n            head_mask=head_mask,\n            inputs_embeds=inputs_embeds,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n        )\n\n        sequence_output = outputs[0]\n\n        prediction_scores = None\n        if masked_lm_labels is not None:\n            text_offset = input_video_embeds.size(1) + 1  # [CLS]\n            # recover caps format: [CLS] [SEP] text [SEP]\n            text_sequence_output = torch.cat(\n                [sequence_output[:, :1], sequence_output[:, text_offset:]],\n                dim=1\n            )\n\n            # only compute select tokens to training to speed up.\n            hidden_size = text_sequence_output.size(-1)\n            # masked_lm_labels = masked_lm_labels.reshape(-1)\n            labels_mask = masked_lm_labels != -100\n\n            selected_text_output = text_sequence_output.masked_select(\n                labels_mask.unsqueeze(-1)\n            ).view(-1, hidden_size)\n            prediction_scores = self.cls(selected_text_output)\n\n        if not return_dict:\n            output = (\n                prediction_scores,\n            ) + outputs[2:]\n            return output\n\n        # for generation.\n        text_offset = input_video_embeds.size(1) + 2  # [CLS]\n        text_sequence_output = sequence_output[:, text_offset:]\n        prediction_scores = self.cls(text_sequence_output)\n        return CausalLMOutput(\n            loss=None,\n            logits=prediction_scores,\n        )\n\n    def prepare_inputs_for_generation(\n        self,\n        input_ids,\n        input_video_embeds,\n        attention_mask=None,\n        token_type_ids=None,\n        **model_kwargs\n    ):\n        # must return a dictionary.\n        seq_len = input_ids.size(1) + input_video_embeds.size(1)\n        if attention_mask is not None:\n            if len(attention_mask.size()) == 4:\n                attention_mask = attention_mask[:, :, :seq_len, :seq_len]\n            elif len(attention_mask.size()) == 3:\n                attention_mask = attention_mask[:, :seq_len, :seq_len]\n            else:\n                attention_mask = attention_mask[:, :seq_len]\n        if token_type_ids is not None:\n            token_type_ids = token_type_ids[:, :seq_len]\n\n        return {\n            \"input_ids\": input_ids,\n            \"input_video_embeds\": input_video_embeds,\n            \"attention_mask\": attention_mask,\n            \"token_type_ids\": token_type_ids,\n        }\n\n    @torch.no_grad()\n    def generate(\n        self,\n        input_ids: Optional[torch.LongTensor] = None,\n        decoder_input_ids: Optional[torch.LongTensor] = None,\n        max_length: Optional[int] = None,\n        min_length: Optional[int] = None,\n        do_sample: Optional[bool] = None,\n        early_stopping: Optional[bool] = None,\n        num_beams: Optional[int] = None,\n        temperature: Optional[float] = None,\n        top_k: Optional[int] = None,\n        top_p: Optional[float] = None,\n        repetition_penalty: Optional[float] = None,\n        bad_words_ids: Optional[Iterable[int]] = None,\n        bos_token_id: Optional[int] = None,\n        pad_token_id: Optional[int] = None,\n        eos_token_id: Optional[int] = None,\n        length_penalty: Optional[float] = None,\n        no_repeat_ngram_size: Optional[int] = None,\n        num_return_sequences: Optional[int] = None,\n        attention_mask: Optional[torch.LongTensor] = None,\n        decoder_start_token_id: Optional[int] = None,\n        use_cache: Optional[bool] = None,\n        **model_kwargs\n    ) -> torch.LongTensor:\n        r\"\"\"\n        Generates sequences for models with a language modeling head. The method currently supports greedy decoding,\n        beam-search decoding, sampling with temperature, sampling with top-k or nucleus sampling.\n        Adapted in part from `Facebook's XLM beam search code\n        <https://github.com/facebookresearch/XLM/blob/9e6f6814d17be4fe5b15f2e6c43eb2b2d76daeb4/src/model/transformer.py#L529>`__.\n        Apart from :obj:`input_ids` and :obj:`attention_mask`, all the arguments below will default to the value of the\n        attribute of the same name inside the :class:`~transformers.PretrainedConfig` of the model. The default values\n        indicated are the default values of those config.\n        Most of these parameters are explained in more detail in `this blog post\n        <https://huggingface.co/blog/how-to-generate>`__.\n        Parameters:\n            input_ids (:obj:`torch.LongTensor` of shape :obj:`(batch_size, sequence_length)`, `optional`):\n                The sequence used as a prompt for the generation. If :obj:`None` the method initializes\n                it as an empty :obj:`torch.LongTensor` of shape :obj:`(1,)`.\n            decoder_input_ids (:obj:`torch.LongTensor` of shape :obj:`(batch_size, sequence_length)`, `optional`):\n                initial input_ids for the decoder of encoder-decoder type models. If :obj:`None` then only\n                decoder_start_token_id is passed as the first token to the decoder.\n            max_length (:obj:`int`, `optional`, defaults to 20):\n                The maximum length of the sequence to be generated.\n            min_length (:obj:`int`, `optional`, defaults to 10):\n                The minimum length of the sequence to be generated.\n            do_sample (:obj:`bool`, `optional`, defaults to :obj:`False`):\n                Whether or not to use sampling ; use greedy decoding otherwise.\n            early_stopping (:obj:`bool`, `optional`, defaults to :obj:`False`):\n                Whether to stop the beam search when at least ``num_beams`` sentences are finished per batch or not.\n            num_beams (:obj:`int`, `optional`, defaults to 1):\n                Number of beams for beam search. 1 means no beam search.\n            temperature (:obj:`float`, `optional`, defaults tp 1.0):\n                The value used to module the next token probabilities.\n            top_k (:obj:`int`, `optional`, defaults to 50):\n                The number of highest probability vocabulary tokens to keep for top-k-filtering.\n            top_p (:obj:`float`, `optional`, defaults to 1.0):\n                If set to float < 1, only the most probable tokens with probabilities that add up to ``top_p`` or\n                higher are kept for generation.\n            repetition_penalty (:obj:`float`, `optional`, defaults to 1.0):\n                The parameter for repetition penalty. 1.0 means no penalty. See `this paper\n                <https://arxiv.org/pdf/1909.05858.pdf>`__ for more details.\n            pad_token_id (:obj:`int`, `optional`):\n                The id of the `padding` token.\n            bos_token_id (:obj:`int`, `optional`):\n                The id of the `beginning-of-sequence` token.\n            eos_token_id (:obj:`int`, `optional`):\n                The id of the `end-of-sequence` token.\n            length_penalty (:obj:`float`, `optional`, defaults to 1.0):\n                Exponential penalty to the length. 1.0 means no penalty.\n                Set to values < 1.0 in order to encourage the model to generate shorter sequences, to a value > 1.0 in\n                order to encourage the model to produce longer sequences.\n            no_repeat_ngram_size (:obj:`int`, `optional`, defaults to 0):\n                If set to int > 0, all ngrams of that size can only occur once.\n            bad_words_ids(:obj:`List[int]`, `optional`):\n                List of token ids that are not allowed to be generated. In order to get the tokens of the words that\n                should not appear in the generated text, use :obj:`tokenizer.encode(bad_word, add_prefix_space=True)`.\n            num_return_sequences(:obj:`int`, `optional`, defaults to 1):\n                The number of independently computed returned sequences for each element in the batch.\n            attention_mask (:obj:`torch.LongTensor` of shape :obj:`(batch_size, sequence_length)`, `optional`):\n                Mask to avoid performing attention on padding token indices. Mask values are in ``[0, 1]``, 1 for\n                tokens that are not masked, and 0 for masked tokens.\n                If not provided, will default to a tensor the same shape as :obj:`input_ids` that masks the pad token.\n                `What are attention masks? <../glossary.html#attention-mask>`__\n            decoder_start_token_id (:obj:`int`, `optional`):\n                If an encoder-decoder model starts decoding with a different token than `bos`, the id of that token.\n            use_cache: (:obj:`bool`, `optional`, defaults to :obj:`True`):\n                Whether or not the model should use the past last key/values attentions (if applicable to the model) to\n                speed up decoding.\n            model_kwargs:\n                Additional model specific kwargs will be forwarded to the :obj:`forward` function of the model.\n        Return:\n            :obj:`torch.LongTensor` of shape :obj:`(batch_size * num_return_sequences, sequence_length)`:\n            The generated sequences. The second dimension (sequence_length) is either equal to :obj:`max_length` or\n            shorter if all batches finished early due to the :obj:`eos_token_id`.\n        Examples::\n            tokenizer = AutoTokenizer.from_pretrained('distilgpt2')   # Initialize tokenizer\n            model = AutoModelWithLMHead.from_pretrained('distilgpt2')    # Download model and configuration from S3 and cache.\n            outputs = model.generate(max_length=40)  # do greedy decoding\n            print('Generated: {}'.format(tokenizer.decode(outputs[0], skip_special_tokens=True)))\n            tokenizer = AutoTokenizer.from_pretrained('openai-gpt')   # Initialize tokenizer\n            model = AutoModelWithLMHead.from_pretrained('openai-gpt')    # Download model and configuration from S3 and cache.\n            input_context = 'The dog'\n            input_ids = tokenizer.encode(input_context, return_tensors='pt')  # encode input context\n            outputs = model.generate(input_ids=input_ids, num_beams=5, num_return_sequences=3, temperature=1.5)  # generate 3 independent sequences using beam search decoding (5 beams) with sampling from initial context 'The dog'\n            for i in range(3): #  3 output sequences were generated\n                print('Generated {}: {}'.format(i, tokenizer.decode(outputs[i], skip_special_tokens=True)))\n            tokenizer = AutoTokenizer.from_pretrained('distilgpt2')   # Initialize tokenizer\n            model = AutoModelWithLMHead.from_pretrained('distilgpt2')    # Download model and configuration from S3 and cache.\n            input_context = 'The dog'\n            input_ids = tokenizer.encode(input_context, return_tensors='pt')  # encode input context\n            outputs = model.generate(input_ids=input_ids, max_length=40, temperature=0.7, num_return_sequences=3, do_sample=True)  # generate 3 candidates using sampling\n            for i in range(3): #  3 output sequences were generated\n                print('Generated {}: {}'.format(i, tokenizer.decode(outputs[i], skip_special_tokens=True)))\n            tokenizer = AutoTokenizer.from_pretrained('ctrl')   # Initialize tokenizer\n            model = AutoModelWithLMHead.from_pretrained('ctrl')    # Download model and configuration from S3 and cache.\n            input_context = 'Legal My neighbor is'  # \"Legal\" is one of the control codes for ctrl\n            input_ids = tokenizer.encode(input_context, return_tensors='pt')  # encode input context\n            outputs = model.generate(input_ids=input_ids, max_length=50, temperature=0.7, repetition_penalty=1.2)  # generate sequences\n            print('Generated: {}'.format(tokenizer.decode(outputs[0], skip_special_tokens=True)))\n            tokenizer = AutoTokenizer.from_pretrained('gpt2')   # Initialize tokenizer\n            model = AutoModelWithLMHead.from_pretrained('gpt2')    # Download model and configuration from S3 and cache.\n            input_context = 'My cute dog'  # \"Legal\" is one of the control codes for ctrl\n            bad_words_ids = [tokenizer.encode(bad_word, add_prefix_space=True) for bad_word in ['idiot', 'stupid', 'shut up']]\n            input_ids = tokenizer.encode(input_context, return_tensors='pt')  # encode input context\n            outputs = model.generate(input_ids=input_ids, max_length=100, do_sample=True, bad_words_ids=bad_words_ids)  # generate sequences without allowing bad_words to be generated\n        \"\"\"\n\n        # We cannot generate if the model does not have a LM head\n        if self.get_output_embeddings() is None:\n            raise AttributeError(\n                \"You tried to generate sequences with a model that does not have a LM Head.\"\n                \"Please use another model class (e.g. `OpenAIGPTLMHeadModel`, `XLNetLMHeadModel`, `GPT2LMHeadModel`, `CTRLLMHeadModel`, `T5WithLMHeadModel`, `TransfoXLLMHeadModel`, `XLMWithLMHeadModel`, `BartForConditionalGeneration` )\"\n            )\n\n        max_length = max_length if max_length is not None else self.config.max_length\n        min_length = min_length if min_length is not None else self.config.min_length\n        do_sample = do_sample if do_sample is not None else self.config.do_sample\n        early_stopping = early_stopping if early_stopping is not None else self.config.early_stopping\n        use_cache = use_cache if use_cache is not None else self.config.use_cache\n        num_beams = num_beams if num_beams is not None else self.config.num_beams\n        temperature = temperature if temperature is not None else self.config.temperature\n        top_k = top_k if top_k is not None else self.config.top_k\n        top_p = top_p if top_p is not None else self.config.top_p\n        repetition_penalty = repetition_penalty if repetition_penalty is not None else self.config.repetition_penalty\n        bos_token_id = bos_token_id if bos_token_id is not None else self.config.bos_token_id\n        pad_token_id = pad_token_id if pad_token_id is not None else self.config.pad_token_id\n        eos_token_id = eos_token_id if eos_token_id is not None else self.config.eos_token_id\n        length_penalty = length_penalty if length_penalty is not None else self.config.length_penalty\n        no_repeat_ngram_size = (\n            no_repeat_ngram_size if no_repeat_ngram_size is not None else self.config.no_repeat_ngram_size\n        )\n        bad_words_ids = bad_words_ids if bad_words_ids is not None else self.config.bad_words_ids\n        num_return_sequences = (\n            num_return_sequences if num_return_sequences is not None else self.config.num_return_sequences\n        )\n        decoder_start_token_id = (\n            decoder_start_token_id if decoder_start_token_id is not None else self.config.decoder_start_token_id\n        )\n\n        if input_ids is not None:\n            batch_size = input_ids.shape[0]  # overriden by the input batch_size\n        else:\n            batch_size = 1\n\n        assert isinstance(max_length, int) and max_length > 0, \"`max_length` should be a strictly positive integer.\"\n        assert isinstance(min_length, int) and min_length >= 0, \"`min_length` should be a positive integer.\"\n        assert isinstance(do_sample, bool), \"`do_sample` should be a boolean.\"\n        assert isinstance(early_stopping, bool), \"`early_stopping` should be a boolean.\"\n        assert isinstance(use_cache, bool), \"`use_cache` should be a boolean.\"\n        assert isinstance(num_beams, int) and num_beams > 0, \"`num_beams` should be a strictly positive integer.\"\n        assert temperature > 0, \"`temperature` should be strictly positive.\"\n        assert isinstance(top_k, int) and top_k >= 0, \"`top_k` should be a positive integer.\"\n        assert 0 <= top_p <= 1, \"`top_p` should be between 0 and 1.\"\n        assert repetition_penalty >= 1.0, \"`repetition_penalty` should be >= 1.\"\n        assert input_ids is not None or (\n            isinstance(bos_token_id, int) and bos_token_id >= 0\n        ), \"If input_ids is not defined, `bos_token_id` should be a positive integer.\"\n        assert pad_token_id is None or (\n            isinstance(pad_token_id, int) and (pad_token_id >= 0)\n        ), \"`pad_token_id` should be a positive integer.\"\n        assert (eos_token_id is None) or (\n            isinstance(eos_token_id, int) and (eos_token_id >= 0)\n        ), \"`eos_token_id` should be a positive integer.\"\n        assert length_penalty > 0, \"`length_penalty` should be strictly positive.\"\n        assert (\n            isinstance(no_repeat_ngram_size, int) and no_repeat_ngram_size >= 0\n        ), \"`no_repeat_ngram_size` should be a positive integer.\"\n        assert (\n            isinstance(num_return_sequences, int) and num_return_sequences > 0\n        ), \"`num_return_sequences` should be a strictly positive integer.\"\n        assert (\n            bad_words_ids is None or isinstance(bad_words_ids, list) and isinstance(bad_words_ids[0], list)\n        ), \"`bad_words_ids` is either `None` or a list of lists of tokens that should not be generated\"\n\n        if input_ids is None:\n            assert isinstance(bos_token_id, int) and bos_token_id >= 0, (\n                \"you should either supply a context to complete as `input_ids` input \"\n                \"or a `bos_token_id` (integer >= 0) as a first token to start the generation.\"\n            )\n            input_ids = torch.full(\n                (batch_size, 1),\n                bos_token_id,\n                dtype=torch.long,\n                device=next(self.parameters()).device,\n            )\n        else:\n            assert input_ids.dim() == 2, \"Input prompt should be of shape (batch_size, sequence length).\"\n\n        # not allow to duplicate outputs when greedy decoding\n        if do_sample is False:\n            if num_beams == 1:\n                # no_beam_search greedy generation conditions\n                assert (\n                    num_return_sequences == 1\n                ), \"Greedy decoding will always produce the same output for num_beams == 1 and num_return_sequences > 1. Please set num_return_sequences = 1\"\n\n            else:\n                # beam_search greedy generation conditions\n                assert (\n                    num_beams >= num_return_sequences\n                ), \"Greedy beam search decoding cannot return more sequences than it has beams. Please set num_beams >= num_return_sequences\"\n\n        # create attention mask if necessary\n        # TODO (PVP): this should later be handled by the forward fn() in each model in the future see PR 3140\n        if (attention_mask is None) and (pad_token_id is not None) and (pad_token_id in input_ids):\n            attention_mask = input_ids.ne(pad_token_id).long()\n        elif attention_mask is None:\n            attention_mask = input_ids.new_ones(input_ids.shape)\n\n        # set pad_token_id to eos_token_id if not set. Important that this is done after\n        # attention_mask is created\n        if pad_token_id is None and eos_token_id is not None:\n            print(\n                \"Setting `pad_token_id` to {} (first `eos_token_id`) to generate sequence\".format(eos_token_id)\n            )\n            pad_token_id = eos_token_id\n\n        # vocab size\n        if hasattr(self.config, \"vocab_size\"):\n            vocab_size = self.config.vocab_size\n        elif (\n            self.config.is_encoder_decoder\n            and hasattr(self.config, \"decoder\")\n            and hasattr(self.config.decoder, \"vocab_size\")\n        ):\n            vocab_size = self.config.decoder.vocab_size\n        else:\n            raise ValueError(\"either self.config.vocab_size or self.config.decoder.vocab_size needs to be defined\")\n\n        # set effective batch size and effective batch multiplier according to do_sample\n        if do_sample:\n            effective_batch_size = batch_size * num_return_sequences\n            effective_batch_mult = num_return_sequences\n        else:\n            effective_batch_size = batch_size\n            effective_batch_mult = 1\n\n        if self.config.is_encoder_decoder:\n            if decoder_start_token_id is None:\n                # see if BOS token can be used for decoder_start_token_id\n                if bos_token_id is not None:\n                    decoder_start_token_id = bos_token_id\n                elif (\n                    hasattr(self.config, \"decoder\")\n                    and hasattr(self.config.decoder, \"bos_token_id\")\n                    and self.config.decoder.bos_token_id is not None\n                ):\n                    decoder_start_token_id = self.config.decoder.bos_token_id\n                else:\n                    raise ValueError(\n                        \"decoder_start_token_id or bos_token_id has to be defined for encoder-decoder generation\"\n                    )\n\n            assert hasattr(self, \"get_encoder\"), \"{} should have a 'get_encoder' function defined\".format(self)\n            assert callable(self.get_encoder), \"{} should be a method\".format(self.get_encoder)\n\n            # get encoder and store encoder outputs\n            encoder = self.get_encoder()\n            encoder_outputs: ModelOutput = encoder(input_ids, attention_mask=attention_mask, return_dict=True)\n\n        # Expand input ids if num_beams > 1 or num_return_sequences > 1\n        if num_return_sequences > 1 or num_beams > 1:\n            # TODO: make this a call-back function.\n            # input_ids=caps,\n            # input_video_embeds=vfeats,\n            # attention_mask=attention_mask,\n            # token_type_ids=token_type_ids,\n            input_video_embeds = model_kwargs.pop(\"input_video_embeds\", None)\n            token_type_ids = model_kwargs.pop(\"token_type_ids\", None)\n\n            input_ids_len = input_ids.shape[-1]\n            input_ids = input_ids.unsqueeze(1).expand(\n                 batch_size, effective_batch_mult * num_beams, input_ids_len)\n\n            input_video_embeds_len, input_video_embeds_hidden = input_video_embeds.size(1), input_video_embeds.size(2)\n            input_video_embeds = input_video_embeds.unsqueeze(1).expand(\n                batch_size, effective_batch_mult * num_beams, input_video_embeds_len, input_video_embeds_hidden)\n\n            attention_mask_from_len, attention_mask_to_len = attention_mask.size(1), attention_mask.size(2)\n            attention_mask = attention_mask.unsqueeze(1).expand(\n                batch_size, effective_batch_mult * num_beams, attention_mask_from_len, attention_mask_to_len\n            )\n\n            token_type_ids_len = token_type_ids.size(1)\n            token_type_ids = token_type_ids.unsqueeze(1).expand(\n                batch_size, effective_batch_mult * num_beams, token_type_ids_len\n            )\n\n            # contiguous ...\n            input_ids = input_ids.contiguous().view(\n                effective_batch_size * num_beams, input_ids_len\n            )  # shape: (batch_size * num_return_sequences * num_beams, cur_len)\n\n            input_video_embeds = input_video_embeds.contiguous().view(\n                effective_batch_size * num_beams, input_video_embeds_len, input_video_embeds_hidden)\n\n            attention_mask = attention_mask.contiguous().view(\n                effective_batch_size * num_beams, attention_mask_from_len, attention_mask_to_len\n            )  # shape: (batch_size * num_return_sequences * num_beams, cur_len)\n\n            token_type_ids = token_type_ids.contiguous().view(\n                effective_batch_size * num_beams, token_type_ids_len\n            )\n\n            model_kwargs[\"input_video_embeds\"] = input_video_embeds\n            model_kwargs[\"token_type_ids\"] = token_type_ids\n\n        if self.config.is_encoder_decoder:\n            device = next(self.parameters()).device\n            if decoder_input_ids is not None:\n                # give initial decoder input ids\n                input_ids = decoder_input_ids.repeat(effective_batch_size * num_beams, 1).to(device)\n            else:\n                # create empty decoder input_ids\n                input_ids = torch.full(\n                    (effective_batch_size * num_beams, 1),\n                    decoder_start_token_id,\n                    dtype=torch.long,\n                    device=device,\n                )\n            cur_len = input_ids.shape[-1]\n\n            assert (\n                batch_size == encoder_outputs.last_hidden_state.shape[0]\n            ), f\"expected encoder_outputs.last_hidden_state to have 1st dimension bs={batch_size}, got {encoder_outputs.last_hidden_state.shape[0]} \"\n\n            # expand batch_idx to assign correct encoder output for expanded input_ids (due to num_beams > 1 and num_return_sequences > 1)\n            expanded_batch_idxs = (\n                torch.arange(batch_size)\n                .view(-1, 1)\n                .repeat(1, num_beams * effective_batch_mult)\n                .view(-1)\n                .to(input_ids.device)\n            )\n\n            # expand encoder_outputs\n            encoder_outputs[\"last_hidden_state\"] = encoder_outputs.last_hidden_state.index_select(\n                0, expanded_batch_idxs\n            )\n\n            # save encoder_outputs in `model_kwargs`\n            model_kwargs[\"encoder_outputs\"] = encoder_outputs\n\n        else:\n            cur_len = input_ids.shape[-1]\n\n        assert (\n            cur_len < max_length\n        ), f\"The context has {cur_len} number of tokens, but `max_length` is only {max_length}. Please make sure that `max_length` is bigger than the number of tokens, by setting either `generate(max_length=...,...)` or `config.max_length = ...`\"\n\n        if num_beams > 1:\n            output = self._generate_beam_search(\n                input_ids,\n                cur_len=cur_len,\n                max_length=max_length,\n                min_length=min_length,\n                do_sample=do_sample,\n                early_stopping=early_stopping,\n                temperature=temperature,\n                top_k=top_k,\n                top_p=top_p,\n                repetition_penalty=repetition_penalty,\n                no_repeat_ngram_size=no_repeat_ngram_size,\n                bad_words_ids=bad_words_ids,\n                pad_token_id=pad_token_id,\n                eos_token_id=eos_token_id,\n                batch_size=effective_batch_size,\n                num_return_sequences=num_return_sequences,\n                length_penalty=length_penalty,\n                num_beams=num_beams,\n                vocab_size=vocab_size,\n                attention_mask=attention_mask,\n                use_cache=use_cache,\n                model_kwargs=model_kwargs,\n            )\n        else:\n            output = self._generate_no_beam_search(\n                input_ids,\n                cur_len=cur_len,\n                max_length=max_length,\n                min_length=min_length,\n                do_sample=do_sample,\n                temperature=temperature,\n                top_k=top_k,\n                top_p=top_p,\n                repetition_penalty=repetition_penalty,\n                no_repeat_ngram_size=no_repeat_ngram_size,\n                bad_words_ids=bad_words_ids,\n                pad_token_id=pad_token_id,\n                eos_token_id=eos_token_id,\n                batch_size=effective_batch_size,\n                attention_mask=attention_mask,\n                use_cache=use_cache,\n                model_kwargs=model_kwargs,\n            )\n\n        return output\n\n    def _generate_beam_search(\n        self,\n        input_ids,\n        cur_len,\n        max_length,\n        min_length,\n        do_sample,\n        early_stopping,\n        temperature,\n        top_k,\n        top_p,\n        repetition_penalty,\n        no_repeat_ngram_size,\n        bad_words_ids,\n        pad_token_id,\n        eos_token_id,\n        batch_size,\n        num_return_sequences,\n        length_penalty,\n        num_beams,\n        vocab_size,\n        attention_mask,\n        use_cache,\n        model_kwargs,\n    ):\n        \"\"\"Generate sequences for each example with beam search.\"\"\"\n\n        # generated hypotheses\n        generated_hyps = [\n            BeamHypotheses(num_beams, max_length, length_penalty, early_stopping=early_stopping)\n            for _ in range(batch_size)\n        ]\n\n        # scores for each sentence in the beam\n        beam_scores = torch.zeros((batch_size, num_beams), dtype=torch.float, device=input_ids.device)\n\n        # for greedy decoding it is made sure that only tokens of the first beam are considered to avoid sampling the exact same tokens three times\n        if do_sample is False:\n            beam_scores[:, 1:] = -1e9\n        beam_scores = beam_scores.view(-1)  # shape (batch_size * num_beams,)\n\n        # cache compute states\n        past = None\n\n        # done sentences\n        done = [False for _ in range(batch_size)]\n\n        while cur_len < max_length:\n            model_inputs = self.prepare_inputs_for_generation(\n                input_ids, past=past, attention_mask=attention_mask, use_cache=use_cache, **model_kwargs\n            )\n            outputs = self(**model_inputs, return_dict=True)  # (batch_size * num_beams, cur_len, vocab_size)\n            next_token_logits = outputs.logits[:, -1, :]  # (batch_size * num_beams, vocab_size)\n\n            # if model has past, then set the past variable to speed up decoding\n            if \"past_key_values\" in outputs:\n                past = outputs.past_key_values\n            elif \"mems\" in outputs:\n                past = outputs.mems\n\n            if self.config.is_encoder_decoder and do_sample is False:\n                # TODO (PVP) still a bit hacky here - there might be a better solution\n                next_token_logits = self.adjust_logits_during_generation(\n                    next_token_logits, cur_len=cur_len, max_length=max_length\n                )\n\n            scores = F.log_softmax(next_token_logits, dim=-1)  # (batch_size * num_beams, vocab_size)\n\n            scores = self.postprocess_next_token_scores(\n                scores=scores,\n                input_ids=input_ids,\n                no_repeat_ngram_size=no_repeat_ngram_size,\n                bad_words_ids=bad_words_ids,\n                cur_len=cur_len,\n                min_length=min_length,\n                max_length=max_length,\n                eos_token_id=eos_token_id,\n                repetition_penalty=repetition_penalty,\n                batch_size=batch_size,\n                num_beams=num_beams,\n            )\n\n            assert scores.shape == (batch_size * num_beams, vocab_size), \"Shapes of scores: {} != {}\".format(\n                scores.shape, (batch_size * num_beams, vocab_size)\n            )\n\n            if do_sample:\n                _scores = scores + beam_scores[:, None].expand_as(scores)  # (batch_size * num_beams, vocab_size)\n                # Temperature\n                if temperature != 1.0:\n                    _scores = _scores / temperature\n                # Top-p/top-k filtering\n                _scores = top_k_top_p_filtering(\n                    _scores, top_k=top_k, top_p=top_p, min_tokens_to_keep=2\n                )  # (batch_size * num_beams, vocab_size)\n                # re-organize to group the beam together to sample from all beam_idxs\n                _scores = _scores.contiguous().view(\n                    batch_size, num_beams * vocab_size\n                )  # (batch_size, num_beams * vocab_size)\n\n                # Sample 2 next tokens for each beam (so we have some spare tokens and match output of greedy beam search)\n                probs = F.softmax(_scores, dim=-1)\n                next_tokens = torch.multinomial(probs, num_samples=2 * num_beams)  # (batch_size, num_beams * 2)\n                # Compute next scores\n                next_scores = torch.gather(_scores, -1, next_tokens)  # (batch_size, num_beams * 2)\n                # sort the sampled vector to make sure that the first num_beams samples are the best\n                next_scores, next_scores_indices = torch.sort(next_scores, descending=True, dim=1)\n                next_tokens = torch.gather(next_tokens, -1, next_scores_indices)  # (batch_size, num_beams * 2)\n\n            else:\n                next_scores = scores + beam_scores[:, None].expand_as(scores)  # (batch_size * num_beams, vocab_size)\n\n                # re-organize to group the beam together (we are keeping top hypothesis accross beams)\n                next_scores = next_scores.view(\n                    batch_size, num_beams * vocab_size\n                )  # (batch_size, num_beams * vocab_size)\n\n                next_scores, next_tokens = torch.topk(next_scores, 2 * num_beams, dim=1, largest=True, sorted=True)\n\n            assert next_scores.size() == next_tokens.size() == (batch_size, 2 * num_beams)\n\n            # next batch beam content\n            next_batch_beam = []\n\n            # for each sentence\n            for batch_idx in range(batch_size):\n\n                # if we are done with this sentence, add a pad token\n                if done[batch_idx]:\n                    assert (\n                        len(generated_hyps[batch_idx]) >= num_beams\n                    ), \"Batch can only be done if at least {} beams have been generated\".format(num_beams)\n                    assert (\n                        eos_token_id is not None and pad_token_id is not None\n                    ), \"generated beams >= num_beams -> eos_token_id and pad_token have to be defined\"\n                    next_batch_beam.extend([(0, pad_token_id, 0)] * num_beams)  # pad the batch\n                    continue\n\n                # next sentence beam content, this will get added to next_batch_beam\n                next_sent_beam = []\n\n                # next tokens for this sentence\n                for beam_token_rank, (beam_token_id, beam_token_score) in enumerate(\n                    zip(next_tokens[batch_idx], next_scores[batch_idx])\n                ):\n                    # get beam and token IDs\n                    beam_id = beam_token_id // vocab_size\n                    token_id = beam_token_id % vocab_size\n\n                    effective_beam_id = batch_idx * num_beams + beam_id\n                    # add to generated hypotheses if end of sentence\n                    if (eos_token_id is not None) and (token_id.item() == eos_token_id):\n                        # if beam_token does not belong to top num_beams tokens, it should not be added\n                        is_beam_token_worse_than_top_num_beams = beam_token_rank >= num_beams\n                        if is_beam_token_worse_than_top_num_beams:\n                            continue\n                        generated_hyps[batch_idx].add(\n                            input_ids[effective_beam_id].clone(),\n                            beam_token_score.item(),\n                        )\n                    else:\n                        # add next predicted token since it is not eos_token\n                        next_sent_beam.append((beam_token_score, token_id, effective_beam_id))\n\n                    # once the beam for next step is full, don't add more tokens to it.\n                    if len(next_sent_beam) == num_beams:\n                        break\n\n                # Check if we are done so that we can save a pad step if all(done)\n                done[batch_idx] = done[batch_idx] or generated_hyps[batch_idx].is_done(\n                    next_scores[batch_idx].max().item(), cur_len\n                )\n\n                # update next beam content\n                assert len(next_sent_beam) == num_beams, \"Beam should always be full\"\n                next_batch_beam.extend(next_sent_beam)\n                assert len(next_batch_beam) == num_beams * (batch_idx + 1), \"We should have added num_beams each step\"\n\n            # stop when we are done with each sentence\n            if all(done):\n                break\n\n            # sanity check / prepare next batch\n            assert len(next_batch_beam) == batch_size * num_beams\n            beam_scores = beam_scores.new([x[0] for x in next_batch_beam])\n            beam_tokens = input_ids.new([x[1] for x in next_batch_beam])\n            beam_idx = input_ids.new([x[2] for x in next_batch_beam])\n\n            # re-order batch and update current length\n            input_ids = input_ids[beam_idx, :]\n            input_ids = torch.cat([input_ids, beam_tokens.unsqueeze(1)], dim=-1)\n            cur_len = cur_len + 1\n\n            # re-order internal states\n            if past is not None:\n                past = self._reorder_cache(past, beam_idx)\n\n            # extend attention_mask for new generated input if only decoder\n            # (huxu): move out since we trim attention_mask by ourselves.\n            # if self.config.is_encoder_decoder is False:\n            #    attention_mask = torch.cat(\n            #        [attention_mask, attention_mask.new_ones((attention_mask.shape[0], 1))], dim=-1\n            #    )\n\n        # finalize all open beam hypotheses and add to generated hypotheses\n        for batch_idx in range(batch_size):\n            if done[batch_idx]:\n                continue\n\n            # test that beam scores match previously calculated scores if not eos and batch_idx not done\n            if eos_token_id is not None and all(\n                (token_id % vocab_size).item() != eos_token_id for token_id in next_tokens[batch_idx]\n            ):\n                assert torch.all(\n                    next_scores[batch_idx, :num_beams] == beam_scores.view(batch_size, num_beams)[batch_idx]\n                ), \"If batch_idx is not done, final next scores: {} have to equal to accumulated beam_scores: {}\".format(\n                    next_scores[:, :num_beams][batch_idx],\n                    beam_scores.view(batch_size, num_beams)[batch_idx],\n                )\n\n            # need to add best num_beams hypotheses to generated hyps\n            for beam_id in range(num_beams):\n                effective_beam_id = batch_idx * num_beams + beam_id\n                final_score = beam_scores[effective_beam_id].item()\n                final_tokens = input_ids[effective_beam_id]\n                generated_hyps[batch_idx].add(final_tokens, final_score)\n\n        # depending on whether greedy generation is wanted or not define different output_batch_size and output_num_return_sequences_per_batch\n        output_batch_size = batch_size if do_sample else batch_size * num_return_sequences\n        output_num_return_sequences_per_batch = 1 if do_sample else num_return_sequences\n\n        # select the best hypotheses\n        sent_lengths = input_ids.new(output_batch_size)\n        best = []\n\n        # retrieve best hypotheses\n        for i, hypotheses in enumerate(generated_hyps):\n            sorted_hyps = sorted(hypotheses.beams, key=lambda x: x[0])\n            for j in range(output_num_return_sequences_per_batch):\n                effective_batch_idx = output_num_return_sequences_per_batch * i + j\n                best_hyp = sorted_hyps.pop()[1]\n                sent_lengths[effective_batch_idx] = len(best_hyp)\n                best.append(best_hyp)\n\n        # prepare for adding eos\n        sent_max_len = min(sent_lengths.max().item() + 1, max_length)\n        decoded = input_ids.new(output_batch_size, sent_max_len)\n        # shorter batches are padded if needed\n        if sent_lengths.min().item() != sent_lengths.max().item():\n            assert pad_token_id is not None, \"`pad_token_id` has to be defined\"\n            decoded.fill_(pad_token_id)\n\n        # fill with hypotheses and eos_token_id if the latter fits in\n        for i, hypo in enumerate(best):\n            decoded[i, : sent_lengths[i]] = hypo\n            if sent_lengths[i] < max_length:\n                decoded[i, sent_lengths[i]] = eos_token_id\n\n        return decoded\n\n    def _generate_no_beam_search(\n        self,\n        input_ids,\n        cur_len,\n        max_length,\n        min_length,\n        do_sample,\n        temperature,\n        top_k,\n        top_p,\n        repetition_penalty,\n        no_repeat_ngram_size,\n        bad_words_ids,\n        pad_token_id,\n        eos_token_id,\n        batch_size,\n        attention_mask,\n        use_cache,\n        model_kwargs,\n    ):\n        \"\"\"Generate sequences for each example without beam search (num_beams == 1).\n        All returned sequence are generated independantly.\n        \"\"\"\n        # length of generated sentences / unfinished sentences\n        unfinished_sents = input_ids.new(batch_size).fill_(1)\n        sent_lengths = input_ids.new(batch_size).fill_(max_length)\n\n        past = None\n        while cur_len < max_length:\n            model_inputs = self.prepare_inputs_for_generation(\n                input_ids, past=past, attention_mask=attention_mask, use_cache=use_cache, **model_kwargs\n            )\n\n            outputs = self(**model_inputs, return_dict=True)\n            next_token_logits = outputs.logits[:, -1, :]\n            scores = self.postprocess_next_token_scores(\n                scores=next_token_logits,\n                input_ids=input_ids,\n                no_repeat_ngram_size=no_repeat_ngram_size,\n                bad_words_ids=bad_words_ids,\n                cur_len=cur_len,\n                min_length=min_length,\n                max_length=max_length,\n                eos_token_id=eos_token_id,\n                repetition_penalty=repetition_penalty,\n                batch_size=batch_size,\n                num_beams=1,\n            )\n\n            # if model has past, then set the past variable to speed up decoding\n            if \"past_key_values\" in outputs:\n                past = outputs.past_key_values\n            elif \"mems\" in outputs:\n                past = outputs.mems\n\n            if do_sample:\n                # Temperature (higher temperature => more likely to sample low probability tokens)\n                if temperature != 1.0:\n                    scores = scores / temperature\n                # Top-p/top-k filtering\n                next_token_logscores = top_k_top_p_filtering(scores, top_k=top_k, top_p=top_p)\n                # Sample\n                probs = F.softmax(next_token_logscores, dim=-1)\n                next_token = torch.multinomial(probs, num_samples=1).squeeze(1)\n            else:\n                # Greedy decoding\n                next_token = torch.argmax(next_token_logits, dim=-1)\n            \n                # print(next_token_logits[0,next_token[0]], next_token_logits[0,eos_token_id])\n\n            # update generations and finished sentences\n            if eos_token_id is not None:\n                # pad finished sentences if eos_token_id exist\n                tokens_to_add = next_token * unfinished_sents + (pad_token_id) * (1 - unfinished_sents)\n            else:\n                tokens_to_add = next_token\n\n            # add token and increase length by one\n            input_ids = torch.cat([input_ids, tokens_to_add.unsqueeze(-1)], dim=-1)\n            cur_len = cur_len + 1\n\n            if eos_token_id is not None:\n                eos_in_sents = tokens_to_add == eos_token_id\n                # if sentence is unfinished and the token to add is eos, sent_lengths is filled with current length\n                is_sents_unfinished_and_token_to_add_is_eos = unfinished_sents.mul(eos_in_sents.long()).bool()\n                sent_lengths.masked_fill_(is_sents_unfinished_and_token_to_add_is_eos, cur_len)\n                # unfinished_sents is set to zero if eos in sentence\n                unfinished_sents.mul_((~eos_in_sents).long())\n\n            # stop when there is a </s> in each sentence, or if we exceed the maximul length\n            if unfinished_sents.max() == 0:\n                break\n            \n            \n            # extend attention_mask for new generated input if only decoder\n            # if self.config.is_encoder_decoder is False:\n            #     attention_mask = torch.cat(\n            #         [attention_mask, attention_mask.new_ones((attention_mask.shape[0], 1))], dim=-1\n            #     )\n\n        return input_ids\n"
  },
  {
    "path": "examples/MMPT/mmpt/models/transformermodel.py",
    "content": "# coding=utf-8\n# Copyright 2018 The Google AI Language Team Authors and The HuggingFace Inc. team.\n# Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.\n#\n# Licensed under the Apache License, Version 2.0 (the \"License\");\n# you may not use this file except in compliance with the License.\n# You may obtain a copy of the License at\n#\n#     http://www.apache.org/licenses/LICENSE-2.0\n#\n# Unless required by applicable law or agreed to in writing, software\n# distributed under the License is distributed on an \"AS IS\" BASIS,\n# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\n# See the License for the specific language governing permissions and\n# limitations under the License.\n# Copyright (c) Facebook, Inc. All Rights Reserved\n\nimport torch\n\nfrom torch import nn\n\ntry:\n    from transformers.modeling_bert import (\n        BertPreTrainedModel,\n        BertModel,\n        BertEncoder,\n        BertPredictionHeadTransform,\n    )\nexcept ImportError:\n    pass\n\nfrom ..modules import VideoTokenMLP, MMBertEmbeddings\n\n\n# --------------- fine-tuning models ---------------\nclass MMBertForJoint(BertPreTrainedModel):\n    \"\"\"A BertModel with isolated attention mask to separate modality.\"\"\"\n\n    def __init__(self, config):\n        super().__init__(config)\n        self.videomlp = VideoTokenMLP(config)\n        self.bert = MMBertModel(config)\n        self.init_weights()\n\n    def forward(\n        self,\n        input_ids=None,\n        input_video_embeds=None,\n        attention_mask=None,\n        token_type_ids=None,\n        position_ids=None,\n        head_mask=None,\n        inputs_embeds=None,\n        next_sentence_label=None,\n        output_attentions=None,\n        output_hidden_states=None,\n        return_dict=None,\n        separate_forward_split=None,\n    ):\n        return_dict = (\n            return_dict if return_dict is not None\n            else self.config.use_return_dict\n        )\n        video_tokens = self.videomlp(input_video_embeds)\n\n        outputs = self.bert(\n            input_ids,\n            video_tokens,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            position_ids=position_ids,\n            head_mask=head_mask,\n            inputs_embeds=inputs_embeds,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n            separate_forward_split=separate_forward_split,\n        )\n\n        return outputs\n\n\nclass MMBertForTokenClassification(BertPreTrainedModel):\n    \"\"\"A BertModel similar to MMJointUni, with extra wrapper layer\n    to be fine-tuned from other pretrained MMFusion model.\"\"\"\n\n    def __init__(self, config):\n        super().__init__(config)\n        self.videomlp = VideoTokenMLP(config)\n        self.bert = MMBertModel(config)\n        self.dropout = nn.Dropout(config.hidden_dropout_prob)\n        # TODO(huxu): 779 is the number of classes for COIN: move to config?\n        self.classifier = nn.Linear(config.hidden_size, 779)\n        self.init_weights()\n\n    def forward(\n        self,\n        input_ids=None,\n        input_video_embeds=None,\n        attention_mask=None,\n        token_type_ids=None,\n        position_ids=None,\n        head_mask=None,\n        inputs_embeds=None,\n        next_sentence_label=None,\n        output_attentions=None,\n        output_hidden_states=None,\n        return_dict=None,\n        separate_forward_split=None,\n    ):\n        return_dict = (\n            return_dict if return_dict is not None\n            else self.config.use_return_dict\n        )\n\n        video_tokens = self.videomlp(input_video_embeds)\n        outputs = self.bert(\n            input_ids,\n            video_tokens,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            position_ids=position_ids,\n            head_mask=head_mask,\n            inputs_embeds=inputs_embeds,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n            separate_forward_split=separate_forward_split,\n        )\n\n        return (self.classifier(outputs[0]),)\n\n\n# ------------ pre-training models ----------------\n\nclass MMBertForEncoder(BertPreTrainedModel):\n    \"\"\"A BertModel for Contrastive Learning.\"\"\"\n    def __init__(self, config):\n        super().__init__(config)\n        self.videomlp = VideoTokenMLP(config)\n        self.bert = MMBertModel(config)\n        self.init_weights()\n\n    def forward(\n        self,\n        input_ids=None,\n        input_video_embeds=None,\n        attention_mask=None,\n        token_type_ids=None,\n        position_ids=None,\n        head_mask=None,\n        inputs_embeds=None,\n        output_attentions=None,\n        output_hidden_states=None,\n        return_dict=None,\n    ):\n        return_dict = (\n            return_dict if return_dict is not None\n            else self.config.use_return_dict\n        )\n        if input_video_embeds is not None:\n            video_tokens = self.videomlp(input_video_embeds)\n        else:\n            video_tokens = None\n\n        outputs = self.bert(\n            input_ids,\n            video_tokens,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            position_ids=position_ids,\n            head_mask=head_mask,\n            inputs_embeds=inputs_embeds,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n        )\n        return outputs\n\n\nclass MMBertForMFMMLM(BertPreTrainedModel):\n    \"\"\"A BertModel with shared prediction head on MFM-MLM.\"\"\"\n    def __init__(self, config):\n        super().__init__(config)\n        self.videomlp = VideoTokenMLP(config)\n        self.bert = MMBertModel(config)\n        self.cls = MFMMLMHead(config)\n        self.hidden_size = config.hidden_size\n        self.init_weights()\n\n    def get_output_embeddings(self):\n        return self.cls.predictions.decoder\n\n    def forward(\n        self,\n        input_ids=None,\n        input_video_embeds=None,\n        attention_mask=None,\n        token_type_ids=None,\n        position_ids=None,\n        head_mask=None,\n        inputs_embeds=None,\n        masked_frame_labels=None,\n        target_video_hidden_states=None,\n        non_masked_frame_mask=None,\n        masked_lm_labels=None,\n        output_attentions=None,\n        output_hidden_states=None,\n        return_dict=None,\n    ):\n        return_dict = (\n            return_dict if return_dict is not None\n            else self.config.use_return_dict\n        )\n        if input_video_embeds is not None:\n            video_tokens = self.videomlp(input_video_embeds)\n        else:\n            video_tokens = None\n\n        if target_video_hidden_states is not None:\n            target_video_hidden_states = self.videomlp(\n                target_video_hidden_states)\n\n            non_masked_frame_hidden_states = video_tokens.masked_select(\n                non_masked_frame_mask.unsqueeze(-1)\n            ).view(-1, self.hidden_size)\n\n        outputs = self.bert(\n            input_ids,\n            video_tokens,\n            attention_mask=attention_mask,\n            token_type_ids=token_type_ids,\n            position_ids=position_ids,\n            head_mask=head_mask,\n            inputs_embeds=inputs_embeds,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n        )\n\n        sequence_output = outputs[0]\n\n        mfm_scores, prediction_scores = None, None\n        if masked_frame_labels is not None and masked_lm_labels is not None:\n            # split the sequence.\n            text_offset = masked_frame_labels.size(1) + 1  # [CLS]\n            video_sequence_output = sequence_output[\n                :, 1:text_offset\n            ]  # remove [SEP] as not in video_label.\n            text_sequence_output = torch.cat(\n                [sequence_output[:, :1], sequence_output[:, text_offset:]],\n                dim=1\n            )\n\n            hidden_size = video_sequence_output.size(-1)\n            selected_video_output = video_sequence_output.masked_select(\n                masked_frame_labels.unsqueeze(-1)\n            ).view(-1, hidden_size)\n\n            # only compute select tokens to training to speed up.\n            hidden_size = text_sequence_output.size(-1)\n            # masked_lm_labels = masked_lm_labels.reshape(-1)\n            labels_mask = masked_lm_labels != -100\n\n            selected_text_output = text_sequence_output.masked_select(\n                labels_mask.unsqueeze(-1)\n            ).view(-1, hidden_size)\n            mfm_scores, prediction_scores = self.cls(\n                selected_video_output,\n                target_video_hidden_states,\n                non_masked_frame_hidden_states,\n                selected_text_output,\n            )\n\n        output = (\n            mfm_scores,\n            prediction_scores,\n        ) + outputs\n        return output\n\n\nclass BertMFMMLMPredictionHead(nn.Module):\n    def __init__(self, config):\n        super().__init__()\n        self.transform = BertPredictionHeadTransform(config)\n        # The output weights are the same as the input embeddings, but there is\n        # an output-only bias for each token.\n        self.decoder = nn.Linear(\n            config.hidden_size, config.vocab_size, bias=False)\n\n        self.bias = nn.Parameter(torch.zeros(config.vocab_size))\n\n        # Need a link between the two variables so that the bias is correctly\n        # resized with `resize_token_embeddings`\n        self.decoder.bias = self.bias\n\n    def forward(\n        self,\n        video_hidden_states=None,\n        target_video_hidden_states=None,\n        non_masked_frame_hidden_states=None,\n        text_hidden_states=None,\n    ):\n        video_logits, text_logits = None, None\n        if video_hidden_states is not None:\n            video_hidden_states = self.transform(video_hidden_states)\n            non_masked_frame_logits = torch.mm(\n                video_hidden_states,\n                non_masked_frame_hidden_states.transpose(1, 0)\n            )\n            masked_frame_logits = torch.bmm(\n                video_hidden_states.unsqueeze(1),\n                target_video_hidden_states.unsqueeze(-1),\n            ).squeeze(-1)\n            video_logits = torch.cat(\n                [masked_frame_logits, non_masked_frame_logits], dim=1\n            )\n\n        if text_hidden_states is not None:\n            text_hidden_states = self.transform(text_hidden_states)\n            text_logits = self.decoder(text_hidden_states)\n        return video_logits, text_logits\n\n\nclass MFMMLMHead(nn.Module):\n    def __init__(self, config):\n        super().__init__()\n        self.predictions = BertMFMMLMPredictionHead(config)\n\n    def forward(\n        self,\n        video_hidden_states=None,\n        target_video_hidden_states=None,\n        non_masked_frame_hidden_states=None,\n        text_hidden_states=None,\n    ):\n        video_logits, text_logits = self.predictions(\n            video_hidden_states,\n            target_video_hidden_states,\n            non_masked_frame_hidden_states,\n            text_hidden_states,\n        )\n        return video_logits, text_logits\n\n\nclass MMBertForMTM(MMBertForMFMMLM):\n    def __init__(self, config):\n        BertPreTrainedModel.__init__(self, config)\n        self.videomlp = VideoTokenMLP(config)\n        self.bert = MMBertModel(config)\n        self.cls = MTMHead(config)\n        self.hidden_size = config.hidden_size\n        self.init_weights()\n\n\nclass BertMTMPredictionHead(nn.Module):\n    def __init__(self, config):\n        super().__init__()\n        self.transform = BertPredictionHeadTransform(config)\n        self.decoder = nn.Linear(\n            config.hidden_size, config.vocab_size, bias=False)\n\n    def forward(\n        self,\n        video_hidden_states=None,\n        target_video_hidden_states=None,\n        non_masked_frame_hidden_states=None,\n        text_hidden_states=None,\n    ):\n        non_masked_frame_hidden_states = non_masked_frame_hidden_states.transpose(1, 0)\n        video_logits, text_logits = None, None\n        if video_hidden_states is not None:\n            video_hidden_states = self.transform(video_hidden_states)\n\n            masked_frame_logits = torch.bmm(\n                video_hidden_states.unsqueeze(1),\n                target_video_hidden_states.unsqueeze(-1),\n            ).squeeze(-1)\n\n            non_masked_frame_logits = torch.mm(\n                video_hidden_states,\n                non_masked_frame_hidden_states\n            )\n            video_on_vocab_logits = self.decoder(video_hidden_states)\n            video_logits = torch.cat([\n                masked_frame_logits,\n                non_masked_frame_logits,\n                video_on_vocab_logits], dim=1)\n\n        if text_hidden_states is not None:\n            text_hidden_states = self.transform(text_hidden_states)\n            # text first so label does not need to be shifted.\n            text_on_vocab_logits = self.decoder(text_hidden_states)\n            text_on_video_logits = torch.mm(\n                text_hidden_states,\n                non_masked_frame_hidden_states\n            )\n            text_logits = torch.cat([\n                text_on_vocab_logits,\n                text_on_video_logits\n            ], dim=1)\n\n        return video_logits, text_logits\n\n\nclass MTMHead(nn.Module):\n    def __init__(self, config):\n        super().__init__()\n        self.predictions = BertMTMPredictionHead(config)\n\n    def forward(\n        self,\n        video_hidden_states=None,\n        target_video_hidden_states=None,\n        non_masked_frame_hidden_states=None,\n        text_hidden_states=None,\n    ):\n        video_logits, text_logits = self.predictions(\n            video_hidden_states,\n            target_video_hidden_states,\n            non_masked_frame_hidden_states,\n            text_hidden_states,\n        )\n        return video_logits, text_logits\n\n\nclass MMBertModel(BertModel):\n    \"\"\"MMBertModel has MMBertEmbedding to support video tokens.\"\"\"\n\n    def __init__(self, config, add_pooling_layer=True):\n        super().__init__(config)\n        # overwrite embedding\n        self.embeddings = MMBertEmbeddings(config)\n        self.encoder = MultiLayerAttentionMaskBertEncoder(config)\n        self.init_weights()\n\n    def forward(\n        self,\n        input_ids=None,\n        input_video_embeds=None,\n        attention_mask=None,\n        token_type_ids=None,\n        position_ids=None,\n        head_mask=None,\n        inputs_embeds=None,\n        encoder_hidden_states=None,\n        encoder_attention_mask=None,\n        output_attentions=None,\n        output_hidden_states=None,\n        return_dict=None,\n        separate_forward_split=None,\n    ):\n        output_attentions = (\n            output_attentions\n            if output_attentions is not None\n            else self.config.output_attentions\n        )\n        output_hidden_states = (\n            output_hidden_states\n            if output_hidden_states is not None\n            else self.config.output_hidden_states\n        )\n        return_dict = (\n            return_dict if return_dict is not None\n            else self.config.use_return_dict\n        )\n\n        if input_ids is not None and inputs_embeds is not None:\n            raise ValueError(\n                \"You cannot specify both input_ids \"\n                \"and inputs_embeds at the same time\"\n            )\n        elif input_ids is not None:\n            if input_video_embeds is not None:\n                input_shape = (\n                    input_ids.size(0),\n                    input_ids.size(1) + input_video_embeds.size(1),\n                )\n            else:\n                input_shape = (\n                    input_ids.size(0),\n                    input_ids.size(1),\n                )\n        elif inputs_embeds is not None:\n            if input_video_embeds is not None:\n                input_shape = (\n                    inputs_embeds.size(0),\n                    inputs_embeds.size(1) + input_video_embeds.size(1),\n                )\n            else:\n                input_shape = (\n                    input_ids.size(0),\n                    input_ids.size(1),\n                )\n        else:\n            raise ValueError(\n                \"You have to specify either input_ids or inputs_embeds\")\n\n        device = input_ids.device if input_ids is not None \\\n            else inputs_embeds.device\n\n        if attention_mask is None:\n            attention_mask = torch.ones(input_shape, device=device)\n        if token_type_ids is None:\n            token_type_ids = torch.zeros(\n                input_shape, dtype=torch.long, device=device)\n\n        # We can provide a self-attention mask of dimensions\n        # [batch_size, from_seq_length, to_seq_length]\n        # ourselves in which case\n        # we just need to make it broadcastable to all heads.\n        extended_attention_mask: torch.Tensor = \\\n            self.get_extended_attention_mask(\n                attention_mask, input_shape, device)\n\n        # If a 2D or 3D attention mask is provided for the cross-attention\n        # we need to make broadcastable to\n        # [batch_size, num_heads, seq_length, seq_length]\n        if self.config.is_decoder and encoder_hidden_states is not None:\n            (\n                encoder_batch_size,\n                encoder_sequence_length,\n                _,\n            ) = encoder_hidden_states.size()\n            encoder_hidden_shape = (\n                encoder_batch_size, encoder_sequence_length)\n            if encoder_attention_mask is None:\n                encoder_attention_mask = torch.ones(\n                    encoder_hidden_shape, device=device)\n            encoder_extended_attention_mask = self.invert_attention_mask(\n                encoder_attention_mask\n            )\n        else:\n            encoder_extended_attention_mask = None\n\n        # Prepare head mask if needed\n        # 1.0 in head_mask indicate we keep the head\n        # attention_probs has shape bsz x n_heads x N x N\n        # input head_mask has shape [num_heads] or\n        # [num_hidden_layers x num_heads]\n        # and head_mask is converted to shape\n        # [num_hidden_layers x batch x num_heads x seq_length x seq_length]\n\n        head_mask = self.get_head_mask(\n            head_mask, self.config.num_hidden_layers)\n\n        embedding_output = self.embeddings(\n            input_ids,\n            input_video_embeds,\n            position_ids=position_ids,\n            token_type_ids=token_type_ids,\n            inputs_embeds=inputs_embeds,\n        )\n\n        if separate_forward_split is not None:\n            split_embedding_output = \\\n                embedding_output[:, :separate_forward_split]\n            split_extended_attention_mask = extended_attention_mask[\n                :, :, :, :separate_forward_split, :separate_forward_split\n            ]\n            split_encoder_outputs = self.encoder(\n                split_embedding_output,\n                attention_mask=split_extended_attention_mask,\n                head_mask=head_mask,\n                encoder_hidden_states=encoder_hidden_states,\n                encoder_attention_mask=encoder_extended_attention_mask,\n                output_attentions=output_attentions,\n                output_hidden_states=output_hidden_states,\n                return_dict=return_dict,\n            )\n            assert (\n                len(split_encoder_outputs) <= 2\n            ), \"we do not support merge on attention for now.\"\n            encoder_outputs = []\n            encoder_outputs.append([split_encoder_outputs[0]])\n            if len(split_encoder_outputs) == 2:\n                encoder_outputs.append([])\n                for _all_hidden_states in split_encoder_outputs[1]:\n                    encoder_outputs[-1].append([_all_hidden_states])\n\n            split_embedding_output = \\\n                embedding_output[:, separate_forward_split:]\n            split_extended_attention_mask = extended_attention_mask[\n                :, :, :, separate_forward_split:, separate_forward_split:\n            ]\n\n            split_encoder_outputs = self.encoder(\n                split_embedding_output,\n                attention_mask=split_extended_attention_mask,\n                head_mask=head_mask,\n                encoder_hidden_states=encoder_hidden_states,\n                encoder_attention_mask=encoder_extended_attention_mask,\n                output_attentions=output_attentions,\n                output_hidden_states=output_hidden_states,\n                return_dict=return_dict,\n            )\n\n            assert (\n                len(split_encoder_outputs) <= 2\n            ), \"we do not support merge on attention for now.\"\n            encoder_outputs[0].append(split_encoder_outputs[0])\n            encoder_outputs[0] = torch.cat(encoder_outputs[0], dim=1)\n            if len(split_encoder_outputs) == 2:\n                for layer_idx, _all_hidden_states in enumerate(\n                    split_encoder_outputs[1]\n                ):\n                    encoder_outputs[1][layer_idx].append(_all_hidden_states)\n                    encoder_outputs[1][layer_idx] = torch.cat(\n                        encoder_outputs[1][layer_idx], dim=1\n                    )\n            encoder_outputs = tuple(encoder_outputs)\n        else:\n            encoder_outputs = self.encoder(\n                embedding_output,\n                attention_mask=extended_attention_mask,\n                head_mask=head_mask,\n                encoder_hidden_states=encoder_hidden_states,\n                encoder_attention_mask=encoder_extended_attention_mask,\n                output_attentions=output_attentions,\n                output_hidden_states=output_hidden_states,\n                return_dict=return_dict,\n            )\n\n        sequence_output = encoder_outputs[0]\n        pooled_output = (\n            self.pooler(sequence_output) if self.pooler is not None else None\n        )\n\n        return (sequence_output, pooled_output) + encoder_outputs[1:]\n\n    def get_extended_attention_mask(self, attention_mask, input_shape, device):\n        \"\"\"This is borrowed from `modeling_utils.py` with the support of\n        multi-layer attention masks.\n        The second dim is expected to be number of layers.\n        See `MMAttentionMaskProcessor`.\n        Makes broadcastable attention and causal masks so that future\n        and masked tokens are ignored.\n\n        Arguments:\n            attention_mask (:obj:`torch.Tensor`):\n                Mask with ones indicating tokens to attend to,\n                zeros for tokens to ignore.\n            input_shape (:obj:`Tuple[int]`):\n                The shape of the input to the model.\n            device: (:obj:`torch.device`):\n                The device of the input to the model.\n\n        Returns:\n            :obj:`torch.Tensor` The extended attention mask, \\\n                with a the same dtype as :obj:`attention_mask.dtype`.\n        \"\"\"\n        # We can provide a self-attention mask of dimensions\n        # [batch_size, from_seq_length, to_seq_length]\n        # ourselves in which case we just need to make it broadcastable\n        # to all heads.\n        if attention_mask.dim() == 4:\n            extended_attention_mask = attention_mask[:, :, None, :, :]\n            extended_attention_mask = extended_attention_mask.to(\n                dtype=self.dtype\n            )  # fp16 compatibility\n            extended_attention_mask = (1.0 - extended_attention_mask) \\\n                * -10000.0\n            return extended_attention_mask\n        else:\n            return super().get_extended_attention_mask(\n                attention_mask, input_shape, device\n            )\n\n\nclass MultiLayerAttentionMaskBertEncoder(BertEncoder):\n    \"\"\"extend BertEncoder with the capability of\n    multiple layers of attention mask.\"\"\"\n\n    def forward(\n        self,\n        hidden_states,\n        attention_mask=None,\n        head_mask=None,\n        encoder_hidden_states=None,\n        encoder_attention_mask=None,\n        output_attentions=False,\n        output_hidden_states=False,\n        return_dict=False,\n    ):\n        all_hidden_states = () if output_hidden_states else None\n        all_attentions = () if output_attentions else None\n        for i, layer_module in enumerate(self.layer):\n            if output_hidden_states:\n                all_hidden_states = all_hidden_states + (hidden_states,)\n            layer_head_mask = head_mask[i] if head_mask is not None else None\n\n            layer_attention_mask = (\n                attention_mask[:, i, :, :, :]\n                if attention_mask.dim() == 5\n                else attention_mask\n            )\n\n            if getattr(self.config, \"gradient_checkpointing\", False):\n\n                def create_custom_forward(module):\n                    def custom_forward(*inputs):\n                        return module(*inputs, output_attentions)\n\n                    return custom_forward\n\n                layer_outputs = torch.utils.checkpoint.checkpoint(\n                    create_custom_forward(layer_module),\n                    hidden_states,\n                    layer_attention_mask,\n                    layer_head_mask,\n                    encoder_hidden_states,\n                    encoder_attention_mask,\n                )\n            else:\n                layer_outputs = layer_module(\n                    hidden_states,\n                    layer_attention_mask,\n                    layer_head_mask,\n                    encoder_hidden_states,\n                    encoder_attention_mask,\n                    output_attentions,\n                )\n            hidden_states = layer_outputs[0]\n            if output_attentions:\n                all_attentions = all_attentions + (layer_outputs[1],)\n\n        if output_hidden_states:\n            all_hidden_states = all_hidden_states + (hidden_states,)\n\n        return tuple(\n            v\n            for v in [hidden_states, all_hidden_states, all_attentions]\n            if v is not None\n        )\n"
  },
  {
    "path": "examples/MMPT/mmpt/modules/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nfrom .mm import *\n\ntry:\n    from .expmm import *\nexcept ImportError:\n    pass\n"
  },
  {
    "path": "examples/MMPT/mmpt/modules/mm.py",
    "content": "# coding=utf-8\n# Copyright 2018 The Google AI Language Team Authors and The HuggingFace Inc. team.\n# Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.\n#\n# Licensed under the Apache License, Version 2.0 (the \"License\");\n# you may not use this file except in compliance with the License.\n# You may obtain a copy of the License at\n#\n#     http://www.apache.org/licenses/LICENSE-2.0\n#\n# Unless required by applicable law or agreed to in writing, software\n# distributed under the License is distributed on an \"AS IS\" BASIS,\n# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\n# See the License for the specific language governing permissions and\n# limitations under the License.\n# Copyright (c) Facebook, Inc. All Rights Reserved\n\n\nimport torch\n\nfrom torch import nn\n\ntry:\n    from transformers.modeling_bert import (\n        BertEmbeddings,\n        ACT2FN,\n    )\nexcept ImportError:\n    pass\n\n\nclass VideoTokenMLP(nn.Module):\n    def __init__(self, config):\n        super().__init__()\n        input_dim = config.input_dim if hasattr(config, \"input_dim\") else 512\n        self.linear1 = nn.Linear(input_dim, config.hidden_size)\n        self.LayerNorm = nn.LayerNorm(config.hidden_size)\n        self.activation = ACT2FN[config.hidden_act]\n        self.linear2 = nn.Linear(config.hidden_size, config.hidden_size)\n\n    def forward(self, hidden_states):\n        hidden_states = self.linear1(hidden_states)\n        hidden_states = self.activation(hidden_states)\n        hidden_states = self.LayerNorm(hidden_states)\n        hidden_states = self.linear2(hidden_states)\n        return hidden_states\n\n\nclass MMBertEmbeddings(BertEmbeddings):\n    def __init__(self, config):\n        super().__init__(config)\n        self.max_video_len = config.max_video_len\n        if hasattr(config, \"use_seg_emb\") and config.use_seg_emb:\n            \"\"\"the original VLM paper uses seg_embeddings for temporal space.\n            although not used it changed the randomness of initialization.\n            we keep it for reproducibility.\n            \"\"\"\n            self.seg_embeddings = nn.Embedding(256, config.hidden_size)\n\n    def forward(\n        self,\n        input_ids,\n        input_video_embeds,\n        token_type_ids=None,\n        position_ids=None,\n        inputs_embeds=None,\n    ):\n        input_tensor = input_ids if input_ids is not None else inputs_embeds\n        if input_video_embeds is not None:\n            input_shape = (\n                input_tensor.size(0),\n                input_tensor.size(1) + input_video_embeds.size(1),\n            )\n        else:\n            input_shape = (input_tensor.size(0), input_tensor.size(1))\n\n        if position_ids is None:\n            \"\"\"\n            Auto skip position embeddings for text only case.\n            use cases:\n            (1) action localization and segmentation:\n                feed in len-1 dummy video token needs text part to\n                skip input_video_embeds.size(1) for the right\n                position_ids for video [SEP] and rest text tokens.\n            (2) MMFusionShare for two forward passings:\n                in `forward_text`: input_video_embeds is None.\n                    need to skip video [SEP] token.\n\n            # video_len + 1: [CLS] + video_embed\n            # self.max_video_len + 1: [SEP] for video.\n            # self.max_video_len + 2: [SEP] for video.\n            # self.max_video_len + input_ids.size(1): rest for text.\n            \"\"\"\n            if input_video_embeds is not None:\n                video_len = input_video_embeds.size(1)\n                starting_offset = self.max_video_len + 1  # video [SEP]\n                ending_offset = self.max_video_len + input_ids.size(1)\n            else:\n                video_len = 0\n                starting_offset = self.max_video_len + 2  # first text token.\n                ending_offset = self.max_video_len + input_ids.size(1) + 1\n            position_ids = torch.cat([\n                self.position_ids[:, :video_len + 1],\n                self.position_ids[:, starting_offset:ending_offset]\n                ], dim=1)\n\n        if token_type_ids is None:\n            token_type_ids = torch.zeros(\n                input_shape, dtype=torch.long, device=self.position_ids.device\n            )\n\n        \"\"\"\n        the format of input_ids is [CLS] [SEP] caption [SEP] padding.\n        the goal is to build [CLS] video tokens [SEP] caption [SEP] .\n        \"\"\"\n        if inputs_embeds is None:\n            inputs_embeds = self.word_embeddings(input_ids)\n        if input_video_embeds is not None:\n            inputs_mm_embeds = torch.cat([\n                inputs_embeds[:, :1], input_video_embeds, inputs_embeds[:, 1:]\n            ], dim=1)\n        else:\n            # text only for `MMFusionShare`.\n            inputs_mm_embeds = inputs_embeds\n\n        position_embeddings = self.position_embeddings(position_ids)\n        token_type_embeddings = self.token_type_embeddings(token_type_ids)\n        embeddings = inputs_mm_embeds + position_embeddings\n        embeddings += token_type_embeddings\n\n        embeddings = self.LayerNorm(embeddings)\n        embeddings = self.dropout(embeddings)\n        return embeddings\n\n\nclass AlignHead(nn.Module):\n    \"\"\"this will load pre-trained weights for NSP, which is desirable.\"\"\"\n\n    def __init__(self, config):\n        super().__init__()\n        self.seq_relationship = nn.Linear(config.hidden_size, 2)\n\n    def forward(self, dropout_pooled_output):\n        logits = self.seq_relationship(dropout_pooled_output)\n        return logits\n"
  },
  {
    "path": "examples/MMPT/mmpt/modules/retri.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport os\nimport numpy as np\nimport pickle\nimport time\n\ntry:\n    import faiss\nexcept ImportError:\n    pass\n\nfrom collections import defaultdict\n\nfrom ..utils import get_local_rank, print_on_rank0\n\n\nclass VectorRetriever(object):\n    \"\"\"\n    How2 Video Retriver.\n    Reference usage of FAISS:\n    https://github.com/fairinternal/fairseq-py/blob/paraphrase_pretraining/fairseq/data/multilingual_faiss_dataset.py\n    \"\"\"\n\n    def __init__(self, hidden_size, cent, db_type, examples_per_cent_to_train):\n        if db_type == \"flatl2\":\n            quantizer = faiss.IndexFlatL2(hidden_size)  # the other index\n            self.db = faiss.IndexIVFFlat(\n                quantizer, hidden_size, cent, faiss.METRIC_L2)\n        elif db_type == \"pq\":\n            self.db = faiss.index_factory(\n                    hidden_size, f\"IVF{cent}_HNSW32,PQ32\"\n            )\n        else:\n            raise ValueError(\"unknown type of db\", db_type)\n        self.train_thres = cent * examples_per_cent_to_train\n        self.train_cache = []\n        self.train_len = 0\n        self.videoid_to_vectoridx = {}\n        self.vectoridx_to_videoid = None\n        self.make_direct_maps_done = False\n\n    def make_direct_maps(self):\n        faiss.downcast_index(self.db).make_direct_map()\n\n    def __len__(self):\n        return self.db.ntotal\n\n    def save(self, out_dir):\n        faiss.write_index(\n            self.db,\n            os.path.join(out_dir, \"faiss_idx\")\n        )\n        with open(\n                os.path.join(\n                    out_dir, \"videoid_to_vectoridx.pkl\"),\n                \"wb\") as fw:\n            pickle.dump(\n                self.videoid_to_vectoridx, fw,\n                protocol=pickle.HIGHEST_PROTOCOL\n            )\n\n    def load(self, out_dir):\n        fn = os.path.join(out_dir, \"faiss_idx\")\n        self.db = faiss.read_index(fn)\n        with open(\n                os.path.join(out_dir, \"videoid_to_vectoridx.pkl\"), \"rb\") as fr:\n            self.videoid_to_vectoridx = pickle.load(fr)\n\n    def add(self, hidden_states, video_ids, last=False):\n        assert len(hidden_states) == len(video_ids), \"{}, {}\".format(\n            str(len(hidden_states)), str(len(video_ids)))\n        assert len(hidden_states.shape) == 2\n        assert hidden_states.dtype == np.float32\n\n        valid_idx = []\n        for idx, video_id in enumerate(video_ids):\n            if video_id not in self.videoid_to_vectoridx:\n                valid_idx.append(idx)\n                self.videoid_to_vectoridx[video_id] = \\\n                    len(self.videoid_to_vectoridx)\n\n        hidden_states = hidden_states[valid_idx]\n        if not self.db.is_trained:\n            self.train_cache.append(hidden_states)\n            self.train_len += hidden_states.shape[0]\n            if self.train_len < self.train_thres:\n                return\n            self.finalize_training()\n        else:\n            self.db.add(hidden_states)\n\n    def finalize_training(self):\n        hidden_states = np.concatenate(self.train_cache, axis=0)\n        del self.train_cache\n        local_rank = get_local_rank()\n        if local_rank == 0:\n            start = time.time()\n            print(\"training db on\", self.train_thres, \"/\", self.train_len)\n        self.db.train(hidden_states[:self.train_thres])\n        if local_rank == 0:\n            print(\"training db for\", time.time() - start)\n        self.db.add(hidden_states)\n\n    def search(\n        self,\n        query_hidden_states,\n        orig_dist,\n    ):\n        if len(self.videoid_to_vectoridx) != self.db.ntotal:\n            raise ValueError(\n                \"cannot search: size mismatch in-between index and db\",\n                len(self.videoid_to_vectoridx),\n                self.db.ntotal\n            )\n\n        if self.vectoridx_to_videoid is None:\n            self.vectoridx_to_videoid = {\n                self.videoid_to_vectoridx[videoid]: videoid\n                for videoid in self.videoid_to_vectoridx\n            }\n            assert len(self.vectoridx_to_videoid) \\\n                == len(self.videoid_to_vectoridx)\n\n        # MultilingualFaissDataset uses the following; not sure the purpose.\n        # faiss.ParameterSpace().set_index_parameter(self.db, \"nprobe\", 10)\n        queried_dist, index = self.db.search(query_hidden_states, 1)\n        queried_dist, index = queried_dist[:, 0], index[:, 0]\n\n        outputs = np.array(\n            [self.vectoridx_to_videoid[_index]\n                if _index != -1 else (-1, -1, -1) for _index in index],\n            dtype=np.int32)\n        outputs[queried_dist <= orig_dist] = -1\n        return outputs\n\n    def search_by_video_ids(\n        self,\n        video_ids,\n        retri_factor\n    ):\n        if len(self.videoid_to_vectoridx) != self.db.ntotal:\n            raise ValueError(\n                len(self.videoid_to_vectoridx),\n                self.db.ntotal\n            )\n\n        if not self.make_direct_maps_done:\n            self.make_direct_maps()\n\n        if self.vectoridx_to_videoid is None:\n            self.vectoridx_to_videoid = {\n                self.videoid_to_vectoridx[videoid]: videoid\n                for videoid in self.videoid_to_vectoridx\n            }\n            assert len(self.vectoridx_to_videoid) \\\n                == len(self.videoid_to_vectoridx)\n\n        query_hidden_states = []\n        vector_ids = []\n        for video_id in video_ids:\n            vector_id = self.videoid_to_vectoridx[video_id]\n            vector_ids.append(vector_id)\n            query_hidden_state = self.db.reconstruct(vector_id)\n            query_hidden_states.append(query_hidden_state)\n        query_hidden_states = np.stack(query_hidden_states)\n\n        # MultilingualFaissDataset uses the following; not sure the reason.\n        # faiss.ParameterSpace().set_index_parameter(self.db, \"nprobe\", 10)\n        _, index = self.db.search(query_hidden_states, retri_factor)\n        outputs = []\n        for sample_idx, sample in enumerate(index):\n            # the first video_id is always the video itself.\n            cands = [video_ids[sample_idx]]\n            for vector_idx in sample:\n                if vector_idx >= 0 \\\n                        and vector_ids[sample_idx] != vector_idx:\n                    cands.append(\n                        self.vectoridx_to_videoid[vector_idx]\n                    )\n            outputs.append(cands)\n        return outputs\n\n\nclass VectorRetrieverDM(VectorRetriever):\n    \"\"\"\n    with direct map.\n    How2 Video Retriver.\n    Reference usage of FAISS:\n    https://github.com/fairinternal/fairseq-py/blob/paraphrase_pretraining/fairseq/data/multilingual_faiss_dataset.py\n    \"\"\"\n\n    def __init__(\n        self,\n        hidden_size,\n        cent,\n        db_type,\n        examples_per_cent_to_train\n    ):\n        super().__init__(\n            hidden_size, cent, db_type, examples_per_cent_to_train)\n        self.make_direct_maps_done = False\n\n    def make_direct_maps(self):\n        faiss.downcast_index(self.db).make_direct_map()\n        self.make_direct_maps_done = True\n\n    def search(\n        self,\n        query_hidden_states,\n        orig_dist,\n    ):\n        if len(self.videoid_to_vectoridx) != self.db.ntotal:\n            raise ValueError(\n                len(self.videoid_to_vectoridx),\n                self.db.ntotal\n            )\n\n        if not self.make_direct_maps_done:\n            self.make_direct_maps()\n        if self.vectoridx_to_videoid is None:\n            self.vectoridx_to_videoid = {\n                self.videoid_to_vectoridx[videoid]: videoid\n                for videoid in self.videoid_to_vectoridx\n            }\n            assert len(self.vectoridx_to_videoid) \\\n                == len(self.videoid_to_vectoridx)\n\n        # MultilingualFaissDataset uses the following; not sure the reason.\n        # faiss.ParameterSpace().set_index_parameter(self.db, \"nprobe\", 10)\n        queried_dist, index = self.db.search(query_hidden_states, 1)\n        outputs = []\n        for sample_idx, sample in enumerate(index):\n            # and queried_dist[sample_idx] < thres \\\n            if sample >= 0 \\\n                    and queried_dist[sample_idx] < orig_dist[sample_idx]:\n                outputs.append(self.vectoridx_to_videoid[sample])\n            else:\n                outputs.append(None)\n        return outputs\n\n    def search_by_video_ids(\n        self,\n        video_ids,\n        retri_factor=8\n    ):\n        if len(self.videoid_to_vectoridx) != self.db.ntotal:\n            raise ValueError(\n                len(self.videoid_to_vectoridx),\n                self.db.ntotal\n            )\n\n        if not self.make_direct_maps_done:\n            self.make_direct_maps()\n        if self.vectoridx_to_videoid is None:\n            self.vectoridx_to_videoid = {\n                self.videoid_to_vectoridx[videoid]: videoid\n                for videoid in self.videoid_to_vectoridx\n            }\n            assert len(self.vectoridx_to_videoid) \\\n                == len(self.videoid_to_vectoridx)\n\n        query_hidden_states = []\n        vector_ids = []\n        for video_id in video_ids:\n            vector_id = self.videoid_to_vectoridx[video_id]\n            vector_ids.append(vector_id)\n            query_hidden_state = self.db.reconstruct(vector_id)\n            query_hidden_states.append(query_hidden_state)\n        query_hidden_states = np.stack(query_hidden_states)\n\n        # MultilingualFaissDataset uses the following; not sure the reason.\n        # faiss.ParameterSpace().set_index_parameter(self.db, \"nprobe\", 10)\n        _, index = self.db.search(query_hidden_states, retri_factor)\n        outputs = []\n        for sample_idx, sample in enumerate(index):\n            # the first video_id is always the video itself.\n            cands = [video_ids[sample_idx]]\n            for vector_idx in sample:\n                if vector_idx >= 0 \\\n                        and vector_ids[sample_idx] != vector_idx:\n                    cands.append(\n                        self.vectoridx_to_videoid[vector_idx]\n                    )\n            outputs.append(cands)\n        return outputs\n\n\nclass MMVectorRetriever(VectorRetrieverDM):\n    \"\"\"\n    multimodal vector retriver:\n    text retrieve video or video retrieve text.\n    \"\"\"\n\n    def __init__(self, hidden_size, cent, db_type, examples_per_cent_to_train):\n        super().__init__(\n            hidden_size, cent, db_type, examples_per_cent_to_train)\n        video_db = self.db\n        super().__init__(\n            hidden_size, cent, db_type, examples_per_cent_to_train)\n        text_db = self.db\n        self.db = {\"video\": video_db, \"text\": text_db}\n        self.video_to_videoid = defaultdict(list)\n\n    def __len__(self):\n        assert self.db[\"video\"].ntotal == self.db[\"text\"].ntotal\n        return self.db[\"video\"].ntotal\n\n    def make_direct_maps(self):\n        faiss.downcast_index(self.db[\"video\"]).make_direct_map()\n        faiss.downcast_index(self.db[\"text\"]).make_direct_map()\n\n    def save(self, out_dir):\n        faiss.write_index(\n            self.db[\"video\"],\n            os.path.join(out_dir, \"video_faiss_idx\")\n        )\n        faiss.write_index(\n            self.db[\"text\"],\n            os.path.join(out_dir, \"text_faiss_idx\")\n        )\n\n        with open(\n                os.path.join(\n                    out_dir, \"videoid_to_vectoridx.pkl\"),\n                \"wb\") as fw:\n            pickle.dump(\n                self.videoid_to_vectoridx, fw,\n                protocol=pickle.HIGHEST_PROTOCOL\n            )\n\n    def load(self, out_dir):\n        fn = os.path.join(out_dir, \"video_faiss_idx\")\n        video_db = faiss.read_index(fn)\n        fn = os.path.join(out_dir, \"text_faiss_idx\")\n        text_db = faiss.read_index(fn)\n        self.db = {\"video\": video_db, \"text\": text_db}\n        with open(\n                os.path.join(out_dir, \"videoid_to_vectoridx.pkl\"), \"rb\") as fr:\n            self.videoid_to_vectoridx = pickle.load(fr)\n        self.video_to_videoid = defaultdict(list)\n\n    def add(self, hidden_states, video_ids):\n        \"\"\"hidden_states is a pair `(video, text)`\"\"\"\n        assert len(hidden_states) == len(video_ids), \"{}, {}\".format(\n            str(len(hidden_states)), str(len(video_ids)))\n        assert len(hidden_states.shape) == 3\n        assert len(self.video_to_videoid) == 0\n\n        valid_idx = []\n        for idx, video_id in enumerate(video_ids):\n            if video_id not in self.videoid_to_vectoridx:\n                valid_idx.append(idx)\n                self.videoid_to_vectoridx[video_id] = \\\n                    len(self.videoid_to_vectoridx)\n\n        batch_size = hidden_states.shape[0]\n        hidden_states = hidden_states[valid_idx]\n\n        hidden_states = np.transpose(hidden_states, (1, 0, 2)).copy()\n        if not self.db[\"video\"].is_trained:\n            self.train_cache.append(hidden_states)\n            train_len = batch_size * len(self.train_cache)\n            if train_len < self.train_thres:\n                return\n\n            hidden_states = np.concatenate(self.train_cache, axis=1)\n            del self.train_cache\n            self.db[\"video\"].train(hidden_states[0, :self.train_thres])\n            self.db[\"text\"].train(hidden_states[1, :self.train_thres])\n        self.db[\"video\"].add(hidden_states[0])\n        self.db[\"text\"].add(hidden_states[1])\n\n    def get_clips_by_video_id(self, video_id):\n        if not self.video_to_videoid:\n            for video_id, video_clip, text_clip in self.videoid_to_vectoridx:\n                self.video_to_videoid[video_id].append(\n                    (video_id, video_clip, text_clip))\n        return self.video_to_videoid[video_id]\n\n    def search(\n        self,\n        video_ids,\n        target_modality,\n        retri_factor=8\n    ):\n        if len(self.videoid_to_vectoridx) != len(self):\n            raise ValueError(\n                len(self.videoid_to_vectoridx),\n                len(self)\n            )\n\n        if not self.make_direct_maps_done:\n            self.make_direct_maps()\n        if self.vectoridx_to_videoid is None:\n            self.vectoridx_to_videoid = {\n                self.videoid_to_vectoridx[videoid]: videoid\n                for videoid in self.videoid_to_vectoridx\n            }\n            assert len(self.vectoridx_to_videoid) \\\n                == len(self.videoid_to_vectoridx)\n\n        src_modality = \"text\" if target_modality == \"video\" else \"video\"\n\n        query_hidden_states = []\n        vector_ids = []\n        for video_id in video_ids:\n            vector_id = self.videoid_to_vectoridx[video_id]\n            vector_ids.append(vector_id)\n            query_hidden_state = self.db[src_modality].reconstruct(vector_id)\n            query_hidden_states.append(query_hidden_state)\n        query_hidden_states = np.stack(query_hidden_states)\n\n        # MultilingualFaissDataset uses the following; not sure the reason.\n        # faiss.ParameterSpace().set_index_parameter(self.db, \"nprobe\", 10)\n        _, index = self.db[target_modality].search(\n            query_hidden_states, retri_factor)\n        outputs = []\n        for sample_idx, sample in enumerate(index):\n            cands = []\n            for vector_idx in sample:\n                if vector_idx >= 0:\n                    cands.append(\n                        self.vectoridx_to_videoid[vector_idx]\n                    )\n            outputs.append(cands)\n        return outputs\n"
  },
  {
    "path": "examples/MMPT/mmpt/modules/vectorpool.py",
    "content": "# Copyright (c) Facebook, Inc. All Rights Reserved\n\nimport torch\nimport os\nimport numpy as np\nimport pickle\n\nfrom . import retri\nfrom ..utils import get_local_rank\n\n\nclass VectorPool(object):\n    \"\"\"\n    Base class of retrieval space.\n    \"\"\"\n\n    def __init__(self, config):\n        from transformers import AutoConfig\n        self.hidden_size = AutoConfig.from_pretrained(\n            config.dataset.bert_name).hidden_size\n        self.retriever_cls = getattr(retri, config.retriever_cls)\n\n    def __call__(self, sample, **kwargs):\n        raise NotImplementedError\n\n    def build_retriver(\n        self,\n        retriever_cls=None,\n        hidden_size=None,\n        centroids=512,\n        db_type=\"flatl2\",\n        examples_per_cent_to_train=48\n    ):\n\n        \"\"\"merge results from multiple gpus and return a retriver..\"\"\"\n        self.retriver = retriever_cls(\n            hidden_size, centroids, db_type, examples_per_cent_to_train)\n        return self.retriver\n\n    def __repr__(self):\n        if hasattr(self, \"retriver\"):\n            retriver_name = str(len(self.retriver))\n        else:\n            retriver_name = \"no retriver field yet\"\n        return self.__class__.__name__ \\\n            + \"(\" + retriver_name + \")\"\n\n\nclass VideoVectorPool(VectorPool):\n    \"\"\"\n    average clips of a video as video representation.\n    \"\"\"\n    def __init__(self, config):\n        super().__init__(config)\n        self.build_retriver(self.retriever_cls, self.hidden_size)\n\n    def __call__(self, sample, subsampling, **kwargs):\n        hidden_states = (\n            sample[\"pooled_video\"] + sample[\"pooled_text\"]) / 2.\n        hidden_states = hidden_states.view(\n            -1, subsampling,\n            hidden_states.size(-1))\n        hidden_states = torch.mean(hidden_states, dim=1)\n        hidden_states = hidden_states.cpu().detach().numpy()\n        video_ids = []\n        for offset_idx, video_id in enumerate(sample[\"video_id\"]):\n            if isinstance(video_id, tuple) and len(video_id) == 3:\n                # a sharded video_id.\n                video_id = video_id[0]\n            video_ids.append(video_id)\n        assert len(video_ids) == len(hidden_states)\n        self.retriver.add(\n            hidden_states.astype(\"float32\"),\n            video_ids\n        )\n\n\nclass DistributedVectorPool(VectorPool):\n    \"\"\"\n    support sync of multiple gpus/nodes.\n    \"\"\"\n    def __init__(self, config):\n        super().__init__(config)\n        self.out_dir = os.path.join(\n            config.fairseq.checkpoint.save_dir,\n            \"retri\")\n        os.makedirs(self.out_dir, exist_ok=True)\n        self.hidden_states = []\n        self.video_ids = []\n\n    def build_retriver(\n        self,\n        retriever_cls=None,\n        hidden_size=None,\n        centroids=4096,\n        db_type=\"flatl2\",\n        examples_per_cent_to_train=48\n    ):\n        if retriever_cls is None:\n            retriever_cls = self.retriever_cls\n        if hidden_size is None:\n            hidden_size = self.hidden_size\n        \"\"\"merge results from multiple gpus and return a retriver..\"\"\"\n        if torch.distributed.is_initialized():\n            self.save()\n            # sync saving.\n            torch.distributed.barrier()\n            world_size = torch.distributed.get_world_size()\n        else:\n            world_size = 1\n        self.retriver = retriever_cls(\n            hidden_size, centroids, db_type, examples_per_cent_to_train)\n        # each gpu process has its own retriever.\n        for local_rank in range(world_size):\n            if get_local_rank() == 0:\n                print(\"load local_rank\", local_rank)\n            hidden_states, video_ids = self.load(local_rank)\n            hidden_states = hidden_states.astype(\"float32\")\n            self.retriver.add(hidden_states, video_ids)\n        return self.retriver\n\n    def load(self, local_rank):\n        hidden_states = np.load(\n            os.path.join(\n                self.out_dir,\n                \"hidden_state\" + str(local_rank) + \".npy\"\n            )\n        )\n\n        with open(\n            os.path.join(\n                self.out_dir, \"video_id\" + str(local_rank) + \".pkl\"),\n                \"rb\") as fr:\n            video_ids = pickle.load(fr)\n        return hidden_states, video_ids\n\n    def save(self):\n        hidden_states = np.vstack(self.hidden_states)\n        assert len(hidden_states) == len(self.video_ids), \"{}, {}\".format(\n            len(hidden_states),\n            len(self.video_ids)\n        )\n        local_rank = torch.distributed.get_rank() \\\n            if torch.distributed.is_initialized() else 0\n\n        np.save(\n            os.path.join(\n                self.out_dir,\n                \"hidden_state\" + str(local_rank) + \".npy\"),\n            hidden_states)\n\n        with open(\n            os.path.join(\n                self.out_dir,\n                \"video_id\" + str(local_rank) + \".pkl\"),\n                \"wb\") as fw:\n            pickle.dump(\n                self.video_ids,\n                fw,\n                protocol=pickle.HIGHEST_PROTOCOL\n            )\n\n\nclass DistributedVideoVectorPool(DistributedVectorPool):\n    \"\"\"\n    average clips of a video as video representation.\n    \"\"\"\n    def __call__(self, sample, subsampling, **kwargs):\n        hidden_states = (\n            sample[\"pooled_video\"] + sample[\"pooled_text\"]) / 2.\n        hidden_states = hidden_states.view(\n            -1, subsampling,\n            hidden_states.size(-1))\n        hidden_states = torch.mean(hidden_states, dim=1)\n        hidden_states = hidden_states.cpu().detach().numpy()\n        video_ids = []\n        for offset_idx, video_id in enumerate(sample[\"video_id\"]):\n            if isinstance(video_id, tuple) and len(video_id) == 3:\n                # a sharded video_id.\n                video_id = video_id[0]\n            video_ids.append(video_id)\n        assert len(video_ids) == len(hidden_states)\n        self.hidden_states.append(hidden_states)\n        self.video_ids.extend(video_ids)\n\n\n# ------------ the following are deprecated --------------\n\nclass TextClipVectorPool(VectorPool):\n    def __init__(self, config):\n        from transformers import AutoConfig\n        hidden_size = AutoConfig.from_pretrained(\n            config.dataset.bert_name).hidden_size\n        retriever_cls = getattr(retri, config.retriever_cls)\n        self.build_retriver(retriever_cls, hidden_size)\n\n    def __call__(self, sample, **kwargs):\n        clip_meta = sample[\"clip_meta\"].cpu()\n        assert torch.all(torch.le(clip_meta[:, 4], clip_meta[:, 5]))\n        text_meta = [tuple(item.tolist()) for item in clip_meta[:, 3:]]\n\n        if hasattr(self, \"retriver\"):\n            # build_retriver is called.\n            self.retriver.add(\n                sample[\"pooled_text\"].cpu().numpy().astype(\"float32\"),\n                text_meta\n            )\n        else:\n            raise NotImplementedError\n\n\nclass MMClipVectorPool(VectorPool):\n    \"\"\"\n    Multimodal Clip-level vector pool.\n    \"\"\"\n    def __init__(self, out_dir):\n        \"\"\"use hidden_states to store `(video, text)`.\"\"\"\n        \"\"\"use video_ids to store `(video_id, start, end)`.\"\"\"\n        super().__init__(out_dir)\n\n    def __call__(self, sample, **kwargs):\n        pooled_video = sample[\"pooled_video\"].cpu().unsqueeze(1).numpy()\n        pooled_text = sample[\"pooled_text\"].cpu().unsqueeze(1).numpy()\n\n        self.hidden_states.append(\n            np.concatenate([pooled_video, pooled_text], axis=1)\n        )\n\n        video_starts = sample[\"video_start\"].cpu()\n        video_ends = sample[\"video_end\"].cpu()\n        assert torch.all(torch.le(video_starts, video_ends))\n\n        text_starts = sample[\"text_start\"].cpu()\n        text_ends = sample[\"text_end\"].cpu()\n        assert torch.all(torch.le(text_starts, text_ends))\n        subsample_size = sample[\"pooled_video\"].size(0) // len(sample[\"video_id\"])\n        video_ids = [video_id for video_id in sample[\"video_id\"]\n                    for _ in range(subsample_size)\n        ]\n        for video_id, video_start, video_end, text_start, text_end in zip(\n                video_ids, video_starts, video_ends, text_starts, text_ends):\n            self.video_ids.append((\n                video_id,\n                (int(video_start), int(video_end)),\n                (int(text_start), int(text_end))\n            ))\n"
  },
  {
    "path": "examples/MMPT/mmpt/processors/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nfrom .processor import *\n\nfrom .how2processor import *\nfrom .how2retriprocessor import *\n\nfrom .dsprocessor import *\n\ntry:\n    from .rawvideoprocessor import *\n    from .codecprocessor import *\n    from .webvidprocessor import *\n    from .expprocessor import *\n    from .exphow2processor import *\n    from .exphow2retriprocessor import *\n    from .expcodecprocessor import *\n    from .expfeatureencoder import *\n    from .expdsprocessor import *\nexcept ImportError:\n    pass\n"
  },
  {
    "path": "examples/MMPT/mmpt/processors/dedupprocessor.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport random\nimport json\nimport pickle\nfrom tqdm import tqdm\nimport os\nimport numpy as np\n\n\nclass CaptionDedupProcessor(object):\n    \"\"\"remove overlapping of caption sentences(clip).\n    Some statistics:\n    caption:\n    {'t_clip_len': 246.6448431320854,\n    'video_len': 281.09174795676245,\n    'clip_tps': 0.8841283727427481,\n    'video_tps': 0.7821156477732097,\n    'min_clip_len': 0.0,\n    'max_clip_len': 398.3,\n    'mean_clip_len': 3.196580003006861,\n    'num_clip': 77.15897706301081}\n\n    raw_caption:\n    {'t_clip_len': 238.95908778424115,\n    'video_len': 267.5914859862507,\n    'clip_tps': 2.4941363624267963,\n    'video_tps': 2.258989769647173,\n    'min_clip_len': 0.0,\n    'max_clip_len': 398.3,\n    'mean_clip_len': 3.0537954186814265,\n    'num_clip': 78.24986779481756}\n    \"\"\"\n\n    def __init__(self, pkl_file):\n        with open(pkl_file, \"rb\") as fd:\n            self.data = pickle.load(fd)\n        self.stat = {\n            \"t_clip_len\": [],\n            \"video_len\": [],\n            \"clip_tps\": [],\n            \"video_tps\": [],\n            \"clip_len\": [],\n        }\n\n    def __call__(self):\n        for idx, video_id in enumerate(tqdm(self.data)):\n            caption = json.loads(self.data[video_id])\n            caption = self._dedup(caption)\n            if idx < 4096:  # for the first 4096 examples, compute the statistics.\n                self.save_stat(video_id, caption)\n            self.data[video_id] = json.dumps(caption)\n        self.print_stat()\n\n    def single(self, video_id):\n        caption = json.loads(self.data[video_id])\n        for clip_idx, (start, end, text) in enumerate(\n            zip(caption[\"start\"], caption[\"end\"], caption[\"text\"])\n        ):\n            print(start, end, text)\n        print(\"@\" * 100)\n        caption = self._dedup(caption)\n        for clip_idx, (start, end, text) in enumerate(\n            zip(caption[\"start\"], caption[\"end\"], caption[\"text\"])\n        ):\n            print(start, end, text)\n        print(\"#\" * 100)\n        self.save_stat(video_id, caption)\n        self.print_stat()\n\n    def finalize(self, tgt_fn):\n        with open(tgt_fn, \"wb\") as fw:\n            pickle.dump(self.data, fw, pickle.HIGHEST_PROTOCOL)\n\n    def save_stat(self, video_id, caption):\n        video_fn = os.path.join(\n            \"data/feat/feat_how2_s3d\", video_id + \".npy\"\n        )\n        if os.path.isfile(video_fn):\n            with open(video_fn, \"rb\", 1) as fr:  # 24 is the buffer size. buffered\n                version = np.lib.format.read_magic(fr)\n                shape, fortran, dtype = np.lib.format._read_array_header(fr, version)\n                video_len = shape[0]\n\n            t_clip_len = 0.0\n            t_tokens = 0\n            for idx, (start, end, text) in enumerate(\n                zip(caption[\"start\"], caption[\"end\"], caption[\"text\"])\n            ):\n                clip_len = (\n                    (end - max(caption[\"end\"][idx - 1], start))\n                    if idx > 0\n                    else end - start\n                )\n                t_clip_len += clip_len\n                t_tokens += len(text.split(\" \"))\n                self.stat[\"clip_len\"].append(clip_len)\n            self.stat[\"t_clip_len\"].append(t_clip_len)\n            self.stat[\"video_len\"].append(video_len)\n            self.stat[\"clip_tps\"].append(t_tokens / t_clip_len)\n            self.stat[\"video_tps\"].append(t_tokens / video_len)\n\n    def print_stat(self):\n        result = {\n            \"t_clip_len\": np.mean(self.stat[\"t_clip_len\"]),\n            \"video_len\": np.mean(self.stat[\"video_len\"]),\n            \"clip_tps\": np.mean(self.stat[\"clip_tps\"]),\n            \"video_tps\": np.mean(self.stat[\"video_tps\"]),\n            \"min_clip_len\": min(self.stat[\"clip_len\"]),\n            \"max_clip_len\": max(self.stat[\"clip_len\"]),\n            \"mean_clip_len\": np.mean(self.stat[\"clip_len\"]),\n            \"num_clip\": len(self.stat[\"clip_len\"]) / len(self.stat[\"video_tps\"]),\n        }\n        print(result)\n\n    def _dedup(self, caption):\n        def random_merge(end_idx, start, end, text, starts, ends, texts):\n            if random.random() > 0.5:\n                # print(clip_idx, \"[PARTIAL INTO PREV]\", end_idx)\n                # overlapped part goes to the end of previous.\n                ends[-1] = max(ends[-1], start)  # ?\n                rest_text = text[end_idx:].strip()\n                if rest_text:\n                    starts.append(max(ends[-1], start))\n                    ends.append(max(end, starts[-1]))\n                    texts.append(rest_text)\n            else:  # goes to the beginning of the current.\n                # strip the previous.\n                left_text = texts[-1][:-end_idx].strip()\n                if left_text:\n                    # print(clip_idx, \"[PREV PARTIAL INTO CUR]\", end_idx)\n                    ends[-1] = min(ends[-1], start)\n                    texts[-1] = left_text\n                else:\n                    # print(clip_idx, \"[PREV LEFT NOTHING ALL INTO CUR]\", end_idx)\n                    starts.pop(-1)\n                    ends.pop(-1)\n                    texts.pop(-1)\n                starts.append(start)\n                ends.append(end)\n                texts.append(text)\n\n        starts, ends, texts = [], [], []\n        for clip_idx, (start, end, text) in enumerate(\n            zip(caption[\"start\"], caption[\"end\"], caption[\"text\"])\n        ):\n            if not isinstance(text, str):\n                continue\n            text = text.replace(\"\\n\", \" \").strip()\n            if len(text) == 0:\n                continue\n            starts.append(start)\n            ends.append(end)\n            texts.append(text)\n            break\n\n        for clip_idx, (start, end, text) in enumerate(\n            zip(\n                caption[\"start\"][clip_idx + 1:],\n                caption[\"end\"][clip_idx + 1:],\n                caption[\"text\"][clip_idx + 1:],\n            )\n        ):\n            if not isinstance(text, str):\n                continue\n            text = text.replace(\"\\n\", \" \").strip()\n            if len(text) == 0:\n                continue\n\n            # print(clip_idx, texts[-5:])\n            # print(clip_idx, start, end, text)\n            if texts[-1].endswith(text):  # subset of prev caption -> merge\n                # print(clip_idx, \"[MERGE INTO PREV]\")\n                ends[-1] = max(ends[-1], end)\n            elif text.startswith(texts[-1]):  # superset of prev caption -> merge\n                # print(clip_idx, \"[PREV MERGE INTO CUR]\")\n                texts[-1] = text\n                starts[-1] = min(starts[-1], start)\n                ends[-1] = max(ends[-1], end)\n            else:  # overlapping or non-overlapping.\n                for end_idx in range(1, len(text) + 1):\n                    if texts[-1].endswith(text[:end_idx]):\n                        random_merge(end_idx, start, end, text, starts, ends, texts)\n                        break\n                else:\n                    starts.append(start)\n                    ends.append(end)\n                    texts.append(text)\n\n            assert (ends[-1] + 0.001) >= starts[-1] and len(\n                texts[-1]\n            ) > 0, \"{} {} {} <- {} {} {}, {} {} {}\".format(\n                str(starts[-1]),\n                str(ends[-1]),\n                texts[-1],\n                caption[\"start\"][clip_idx - 1],\n                caption[\"end\"][clip_idx - 1],\n                caption[\"text\"][clip_idx - 1],\n                str(start),\n                str(end),\n                text,\n            )\n\n        return {\"start\": starts, \"end\": ends, \"text\": texts}\n\n\nif __name__ == \"__main__\":\n    import argparse\n\n    parser = argparse.ArgumentParser(description=\"dedup how2 caption\")\n    parser.add_argument('--how2dir', default=\"data/how2\")\n    args = parser.parse_args()\n\n    raw_caption_json = os.path.join(args.how2dir, \"raw_caption.json\")\n    raw_caption_pickle = os.path.join(args.how2dir, \"raw_caption.pkl\")\n    raw_caption_dedup_pickle = os.path.join(args.how2dir, \"raw_caption_dedup.pkl\")\n\n    def convert_to_pickle(src_fn, tgt_fn):\n        with open(src_fn) as fd:\n            captions = json.load(fd)\n\n        for video_id in captions:\n            captions[video_id] = json.dumps(captions[video_id])\n\n        with open(tgt_fn, \"wb\") as fw:\n            pickle.dump(captions, fw, pickle.HIGHEST_PROTOCOL)\n\n    if not os.path.isfile(raw_caption_pickle):\n        convert_to_pickle(raw_caption_json, raw_caption_pickle)\n\n    deduper = CaptionDedupProcessor(raw_caption_pickle)\n    deduper()\n    deduper.finalize(raw_caption_dedup_pickle)\n\n    \"\"\"\n    # demo\n    deduper = CaptionDedupProcessor(\"data/how2/raw_caption.pkl\")\n    deduper.single(\"HfIeQ9pzL5U\")\n    \"\"\"\n"
  },
  {
    "path": "examples/MMPT/mmpt/processors/dsprocessor.py",
    "content": "# Copyright (c) Facebook, Inc. All Rights Reserved\n\n\"\"\"\nProcessors for all downstream (ds) tasks.\n\"\"\"\n\nimport json\nimport os\nimport pickle\nimport random\nimport math\nimport numpy as np\nimport torch\n\nfrom collections import defaultdict\n\nfrom .processor import (\n    MetaProcessor,\n    VideoProcessor,\n    TextProcessor,\n    Aligner,\n    MMAttentionMask2DProcessor,\n)\n\nfrom .how2processor import TextGenerationProcessor\n\n\n# ------------- A General Aligner for all downstream tasks-----------------\n\n\nclass DSAligner(Aligner):\n    \"\"\"\n    Downstream (DS) aligner shared by all datasets.\n    \"\"\"\n\n    def __call__(self, video_id, video_feature, text_feature, wps=0.7):\n        # random sample a starting sec for video.\n        video_start = 0\n        video_end = min(len(video_feature), self.max_video_len)\n        # the whole sequence is a single clip.\n        video_clips = {\"start\": [video_start], \"end\": [video_end]}\n\n        text_feature = {\n            \"cap\": [text_feature],\n            \"start\": [video_start],\n            \"end\": [len(text_feature) / wps],\n        }\n        text_clip_indexs = [0]\n\n        vfeats, vmasks = self._build_video_seq(\n            video_feature, video_clips\n        )\n        caps, cmasks = self._build_text_seq(\n            text_feature, text_clip_indexs\n        )\n\n        return {\n            \"caps\": caps,\n            \"cmasks\": cmasks,\n            \"vfeats\": vfeats,\n            \"vmasks\": vmasks,\n            \"video_id\": video_id,\n        }\n\n\nclass NLGTextProcessor(TextProcessor):\n    \"\"\"\n    Also return the original text as ref.\n    \"\"\"\n    def __call__(self, text_id):\n        return super().__call__(text_id), text_id\n\n\nclass DSNLGAligner(DSAligner):\n    \"\"\"extend with the capability of 2d mask for generation.\"\"\"\n    def __init__(self, config):\n        super().__init__(config)\n        self.attnmasker = MMAttentionMask2DProcessor()\n        from transformers import AutoTokenizer\n        tokenizer = AutoTokenizer.from_pretrained(\n            self.bert_name, use_fast=self.use_fast,\n            bos_token=\"[CLS]\", eos_token=\"[SEP]\"\n        )\n        self.tokenizer = tokenizer\n        self.bos_token_id = tokenizer.bos_token_id\n        self.eos_token_id = tokenizer.eos_token_id\n        self.textgen = TextGenerationProcessor(tokenizer)\n\n    def __call__(self, video_id, video_feature, text_feature):\n        output = super().__call__(video_id, video_feature, text_feature[0])\n        if self.split == \"test\":\n            # output.update({\"ref\": text_feature[1]})\n            output.update({\"ref\": self.tokenizer.decode(\n                output[\"caps\"], skip_special_tokens=True)})\n            text_label = output[\"caps\"]\n            cmasks = torch.BoolTensor([1] * text_label.size(0))\n            caps = torch.LongTensor([\n                self.cls_token_id,\n                self.sep_token_id,\n                self.bos_token_id])\n        else:\n            caps, text_label = self.textgen(output[\"caps\"])\n            cmasks = output[\"cmasks\"]\n\n        attention_mask = self.attnmasker(\n            output[\"vmasks\"], cmasks, \"textgen\")\n\n        output.update({\n            \"caps\": caps,\n            \"cmasks\": cmasks,\n            \"text_label\": text_label,\n            \"attention_mask\": attention_mask,\n        })\n        return output\n\n\n# -------------------- MSRVTT ------------------------\n\n\nclass MSRVTTMetaProcessor(MetaProcessor):\n    \"\"\"MSRVTT dataset.\n    reference: `howto100m/msrvtt_dataloader.py`\n    \"\"\"\n\n    def __init__(self, config):\n        super().__init__(config)\n        import pandas as pd\n        data = pd.read_csv(self._get_split_path(config))\n        # TODO: add a text1ka flag.\n        if config.split == \"train\" \\\n                and config.full_test_path is not None \\\n                and config.jsfusion_path is not None:\n            # add testing videos from full_test_path not used by jfusion.\n            additional_data = pd.read_csv(config.full_test_path)\n            jsfusion_data = pd.read_csv(config.jsfusion_path)\n\n            for video_id in additional_data[\"video_id\"]:\n                if video_id not in jsfusion_data[\"video_id\"].values:\n                    data = data.append(\n                        {\"video_id\": video_id}, ignore_index=True)\n\n        if config.dup is not None and config.split == \"train\":\n            data = data.append([data] * (config.dup - 1), ignore_index=True)\n        self.data = data\n\n    def __len__(self):\n        return len(self.data)\n\n    def __getitem__(self, idx):\n        \"\"\"slightly modify with if condition to combine train/test.\"\"\"\n        vid, sentence = None, None\n        vid = self.data[\"video_id\"].values[idx]\n        if \"sentence\" in self.data:  # for testing.\n            sentence = self.data[\"sentence\"].values[idx]\n        else:  # for training.\n            sentence = vid\n        return vid, sentence\n\n\nclass MSRVTTTextProcessor(TextProcessor):\n    \"\"\"MSRVTT dataset.\n    reference: `msrvtt_dataloader.py` `MSRVTT_TrainDataLoader`.\n    TODO (huxu): add max_words.\n    \"\"\"\n\n    def __init__(self, config):\n        super().__init__(config)\n        self.sentences = None\n        if config.json_path is not None and config.split == \"train\":\n            with open(config.json_path) as fd:\n                self.data = json.load(fd)\n            self.sentences = defaultdict(list)\n            for s in self.data[\"sentences\"]:\n                self.sentences[s[\"video_id\"]].append(s[\"caption\"])\n\n    def __call__(self, text_id):\n        if self.sentences is not None:\n            rind = random.randint(0, len(self.sentences[text_id]) - 1)\n            sentence = self.sentences[text_id][rind]\n        else:\n            sentence = text_id\n        caption = self.tokenizer(sentence, add_special_tokens=False)\n        return caption[\"input_ids\"]\n\n\nclass MSRVTTNLGTextProcessor(MSRVTTTextProcessor):\n    \"\"\"TODO: change dsaligner and merge to avoid any NLG text processor.\"\"\"\n    def __call__(self, text_id):\n        if self.sentences is not None:\n            rind = random.randint(0, len(self.sentences[text_id]) - 1)\n            sentence = self.sentences[text_id][rind]\n        else:\n            sentence = text_id\n        caption = self.tokenizer(sentence, add_special_tokens=False)\n        return caption[\"input_ids\"], sentence\n\n\nclass MSRVTTQAMetaProcessor(MetaProcessor):\n    \"\"\"MSRVTT-QA: retrieval-based multi-choice QA from JSFusion dataset.\n    For simplicity, we use the train retrieval model.\n    reference: `https://github.com/yj-yu/lsmdc`\n    \"\"\"\n\n    def __init__(self, config):\n        super().__init__(config)\n        import pandas as pd\n        csv_data = pd.read_csv(self._get_split_path(config), sep=\"\\t\")\n        data = []\n        for video_id, a1, a2, a3, a4, a5, answer in zip(\n                csv_data[\"vid_key\"].values,\n                csv_data[\"a1\"].values,\n                csv_data[\"a2\"].values,\n                csv_data[\"a3\"].values,\n                csv_data[\"a4\"].values,\n                csv_data[\"a5\"].values,\n                csv_data[\"answer\"].values):\n            video_id = video_id.replace(\"msr\", \"video\")\n            data.append((video_id, (answer, [a1, a2, a3, a4, a5])))\n        self.data = data\n\n    def __len__(self):\n        return len(self.data)\n\n    def __getitem__(self, idx):\n        return self.data[idx]\n\n\nclass MSRVTTQATextProcessor(TextProcessor):\n    \"\"\"MSRVTT-QA dataset.\n    text_ans is of format `(answer, [a1, a2, a3, a4, a5])`.\n    \"\"\"\n\n    def __call__(self, text_ans):\n        for ans_idx, ans in enumerate(text_ans[1]):\n            if isinstance(ans, str):\n                text_ans[1][ans_idx] = self.tokenizer(ans, add_special_tokens=False)[\"input_ids\"]\n        return text_ans\n\n\nclass MSRVTTQAAligner(DSAligner):\n    \"\"\"MSRVTT dataset.\n    similar to sample in how2.\n    we call __call__ multiple times.\n    \"\"\"\n\n    def __call__(self, video_id, video_feature, text_feature, wps=0.7):\n        caps = []\n        cmasks = []\n        answer = text_feature[0]\n        for ans_idx, _text_feature in enumerate(text_feature[1]):\n            output = super().__call__(\n                video_id, video_feature, _text_feature, wps)\n            caps.append(output[\"caps\"])\n            cmasks.append(output[\"cmasks\"])\n        output.update({\n            \"caps\": torch.stack(caps),\n            \"cmasks\": torch.stack(cmasks),\n            \"answers\": torch.LongTensor([answer]),\n        })\n        return output\n\n\n# -------------------- Youcook -----------------------\n\n\nclass YoucookMetaProcessor(MetaProcessor):\n    \"\"\"Youcook dataset.\n    reference: `howto100m/youcook_dataloader.py`\n    note that the data can be different as the\n    (1) some videos already in Howto100m are removed.\n    (2) stop words are removed from caption\n    TODO (huxu): make a flag to load the original caption.\n    (see youcookii_annotations_trainval.json).\n\n    The max_video_len can be 264 and text can be 64 tokens.\n    In reality we may not need that long. see projects/task/youcook.yaml\n    \"\"\"\n\n    def __init__(self, config):\n        super().__init__(config)\n        vfeat_dir = config.vfeat_dir\n        print(self._get_split_path(config))\n        with open(self._get_split_path(config), \"rb\") as fd:\n            data = pickle.load(fd)\n            all_valid_video_ids = set(\n                [os.path.splitext(fn)[0] for fn in os.listdir(vfeat_dir)]\n            )\n            recs = []\n            video_ids = set()\n            valid_video_ids = set()\n            for rec in data:  # filter videos not available.\n                udl_idx = rec[\"id\"].rindex(\"_\")\n                video_id = rec[\"id\"][:udl_idx]\n                video_ids.add(video_id)\n                if video_id in all_valid_video_ids:\n                    valid_video_ids.add(video_id)\n                    recs.append(rec)\n            print(\"total video_ids in .pkl\", len(video_ids))\n            print(\"valid video_ids in .pkl\", len(valid_video_ids))\n            print(\"please verify {train,val}_list.txt\")\n            data = recs\n            self.data = data\n\n        with open(config.trainval_annotation) as fd:\n            self.youcook_annotation = json.load(fd)[\"database\"]\n        if config.use_annotation_text is True:\n            print(\"using text in annotation.\")\n            self.use_annotation_caption = True\n        else:\n            self.use_annotation_caption = False\n\n    def __getitem__(self, idx):\n        def _get_video_and_caption(rec):\n            vid = rec[\"id\"]\n            udl_idx = vid.rindex(\"_\")\n            video_id, clip_id = vid[:udl_idx], int(vid[udl_idx + 1:])\n            clip = self.youcook_annotation[video_id][\"annotations\"][clip_id]\n            start, end = clip[\"segment\"]\n            if self.use_annotation_caption:\n                caption = clip[\"sentence\"]\n            else:\n                caption = rec[\"caption\"]\n            return (video_id, start, end), caption\n\n        rec = self.data[idx]\n        video_info, text_info = _get_video_and_caption(rec)\n        return video_info, text_info\n\n\nclass YoucookVideoProcessor(VideoProcessor):\n    \"\"\"video_fn is a tuple of (video_id, start, end) now.\"\"\"\n\n    def __call__(self, video_fn):\n        video_id, start, end = video_fn\n        feat = np.load(os.path.join(self.vfeat_dir, video_id + \".npy\"))\n        return feat[start:end]\n\n\nclass YoucookNLGMetaProcessor(MetaProcessor):\n    \"\"\"NLG uses the original split:\n    `train_list.txt` and `val_list.txt`\n    \"\"\"\n\n    def __init__(self, config):\n        super().__init__(config)\n        vfeat_dir = config.vfeat_dir\n        print(self._get_split_path(config))\n        with open(self._get_split_path(config)) as fd:\n            video_ids = [\n                line.strip().split(\"/\")[1] for line in fd.readlines()]\n            print(\"total video_ids in train/val_list.txt\", len(video_ids))\n\n            all_valid_video_ids = set(\n                [os.path.splitext(fn)[0] for fn in os.listdir(vfeat_dir)]\n            )\n            video_ids = [\n                video_id for video_id in video_ids\n                if video_id in all_valid_video_ids]\n\n            print(\"valid video_ids in train/val_list.txt\", len(video_ids))\n        with open(config.trainval_annotation) as fd:\n            self.youcook_annotation = json.load(fd)[\"database\"]\n\n        data = []\n        for video_id in video_ids:\n            for clip in self.youcook_annotation[video_id][\"annotations\"]:\n                start, end = clip[\"segment\"]\n                caption = clip[\"sentence\"]\n                data.append(((video_id, start, end), caption))\n        self.data = data\n\n    def __getitem__(self, idx):\n        return self.data[idx]\n\n\n# --------------------- CrossTask -------------------------\n\nclass CrossTaskMetaProcessor(MetaProcessor):\n    def __init__(self, config):\n        super().__init__(config)\n        np.random.seed(0)  # deterministic random split.\n        task_vids = self._get_vids(\n            config.train_csv_path,\n            config.vfeat_dir,\n            config.annotation_path)\n\n        val_vids = self._get_vids(\n            config.val_csv_path,\n            config.vfeat_dir,\n            config.annotation_path)\n\n        # filter out those task and vids appear in val_vids.\n        task_vids = {\n            task: [\n                vid for vid in vids\n                if task not in val_vids or vid not in val_vids[task]]\n            for task, vids in task_vids.items()}\n\n        primary_info = self._read_task_info(config.primary_path)\n        test_tasks = set(primary_info['steps'].keys())\n\n        # if args.use_related:\n        related_info = self._read_task_info(config.related_path)\n        task_steps = {**primary_info['steps'], **related_info['steps']}\n        n_steps = {**primary_info['n_steps'], **related_info['n_steps']}\n        # else:\n        #     task_steps = primary_info['steps']\n        #     n_steps = primary_info['n_steps']\n        all_tasks = set(n_steps.keys())\n        # filter and keep task in primary or related.\n        task_vids = {\n            task: vids for task, vids in task_vids.items()\n            if task in all_tasks}\n        # vocab-by-step matrix (A) and vocab (M)\n        # (huxu): we do not use BoW.\n        # A, M = self._get_A(task_steps, share=\"words\")\n\n        train_vids, test_vids = self._random_split(\n            task_vids, test_tasks, config.n_train)\n        print(\"train_num_videos\", sum(len(vids) for vids in train_vids.values()))\n        print(\"test_num_videos\", sum(len(vids) for vids in test_vids.values()))\n        # added by huxu to automatically determine the split.\n        split_map = {\n            \"train\": train_vids,\n            \"valid\": test_vids,\n            \"test\": test_vids\n        }\n        task_vids = split_map[config.split]\n\n        self.vids = []\n        for task, vids in task_vids.items():\n            self.vids.extend([(task, vid) for vid in vids])\n        self.task_steps = task_steps\n        self.n_steps = n_steps\n\n    def __getitem__(self, idx):\n        task, vid = self.vids[idx]\n        n_steps = self.n_steps[task]\n        steps = self.task_steps[task]\n        assert len(steps) == n_steps\n        return (task, vid, steps, n_steps), (task, vid, steps, n_steps)\n\n    def __len__(self):\n        return len(self.vids)\n\n    def _random_split(self, task_vids, test_tasks, n_train):\n        train_vids = {}\n        test_vids = {}\n        for task, vids in task_vids.items():\n            if task in test_tasks and len(vids) > n_train:\n                train_vids[task] = np.random.choice(\n                    vids, n_train, replace=False).tolist()\n                test_vids[task] = [\n                    vid for vid in vids if vid not in train_vids[task]]\n            else:\n                train_vids[task] = vids\n        return train_vids, test_vids\n\n    def _get_vids(self, path, vfeat_dir, annotation_path):\n        \"\"\"refactored from\n        https://github.com/DmZhukov/CrossTask/blob/master/data.py\n        changes: add `vfeat_dir` to check if the video is available.\n        add `annotation_path` to check if the video is available.\n        \"\"\"\n\n        task_vids = {}\n        with open(path, 'r') as f:\n            for line in f:\n                task, vid, url = line.strip().split(',')\n                # double check the video is available.\n                if not os.path.exists(\n                        os.path.join(vfeat_dir, vid + \".npy\")):\n                    continue\n                # double check the annotation is available.\n                if not os.path.exists(os.path.join(\n                        annotation_path,\n                        task + \"_\" + vid + \".csv\")):\n                    continue\n                if task not in task_vids:\n                    task_vids[task] = []\n                task_vids[task].append(vid)\n        return task_vids\n\n    def _read_task_info(self, path):\n        titles = {}\n        urls = {}\n        n_steps = {}\n        steps = {}\n        with open(path, 'r') as f:\n            idx = f.readline()\n            while idx != '':\n                idx = idx.strip()\n                titles[idx] = f.readline().strip()\n                urls[idx] = f.readline().strip()\n                n_steps[idx] = int(f.readline().strip())\n                steps[idx] = f.readline().strip().split(',')\n                next(f)\n                idx = f.readline()\n        return {\n            'title': titles,\n            'url': urls,\n            'n_steps': n_steps,\n            'steps': steps\n        }\n\n    def _get_A(self, task_steps, share=\"words\"):\n        raise ValueError(\"running get_A is not allowed for BERT.\")\n        \"\"\"Step-to-component matrices.\"\"\"\n        if share == 'words':\n            # share words\n            task_step_comps = {\n                task: [step.split(' ') for step in steps]\n                for task, steps in task_steps.items()}\n        elif share == 'task_words':\n            # share words within same task\n            task_step_comps = {\n                task: [[task+'_'+tok for tok in step.split(' ')] for step in steps]\n                for task, steps in task_steps.items()}\n        elif share == 'steps':\n            # share whole step descriptions\n            task_step_comps = {\n                task: [[step] for step in steps] for task, steps in task_steps.items()}\n        else:\n            # no sharing\n            task_step_comps = {\n                task: [[task+'_'+step] for step in steps]\n                for task, steps in task_steps.items()}\n        # BERT tokenizer here?\n        vocab = []\n        for task, steps in task_step_comps.items():\n            for step in steps:\n                vocab.extend(step)\n        vocab = {comp: m for m, comp in enumerate(set(vocab))}\n        M = len(vocab)\n        A = {}\n        for task, steps in task_step_comps.items():\n            K = len(steps)\n            a = torch.zeros(M, K)\n            for k, step in enumerate(steps):\n                a[[vocab[comp] for comp in step], k] = 1\n            a /= a.sum(dim=0)\n            A[task] = a\n        return A, M\n\n\nclass CrossTaskVideoProcessor(VideoProcessor):\n    def __call__(self, video_fn):\n        task, vid, steps, n_steps = video_fn\n        video_fn = os.path.join(self.vfeat_dir, vid + \".npy\")\n        feat = np.load(video_fn)\n        return feat\n\n\nclass CrossTaskTextProcessor(TextProcessor):\n    def __call__(self, text_id):\n        task, vid, steps, n_steps = text_id\n        step_ids = []\n        for step_str in steps:\n            step_ids.append(\n                self.tokenizer(step_str, add_special_tokens=False)[\"input_ids\"]\n            )\n        return step_ids\n\n\nclass CrossTaskAligner(Aligner):\n    \"\"\"\n    TODO: it's not clear yet the formulation of the task; finish this later.\n    \"\"\"\n    def __init__(self, config):\n        super().__init__(config)\n        self.annotation_path = config.annotation_path\n        self.sliding_window = config.sliding_window\n        self.sliding_window_size = config.sliding_window_size\n\n    def __call__(self, video_id, video_feature, text_feature):\n        task, vid, steps, n_steps = video_id\n        annot_path = os.path.join(\n            self.annotation_path, task + '_' + vid + '.csv')\n        video_len = len(video_feature)\n\n        labels = torch.from_numpy(self._read_assignment(\n            video_len, n_steps, annot_path)).float()\n\n        vfeats, vmasks, targets = [], [], []\n        # sliding window on video features and targets.\n        for window_start in range(0, video_len, self.sliding_window):\n            video_start = 0\n            video_end = min(video_len - window_start, self.sliding_window_size)\n            video_clip = {\"start\": [video_start], \"end\": [video_end]}\n\n            vfeat, vmask = self._build_video_seq(\n                video_feature[window_start: window_start + video_end],\n                video_clip\n            )\n\n            target = labels[window_start: window_start + video_end]\n            assert len(vfeat) >= len(target), \"{},{}\".format(len(vfeat), len(target))\n            # TODO: randomly drop all zero targets for training ?\n            # if self.split == \"train\" and target.sum() == 0:\n            #     continue\n            vfeats.append(vfeat)\n            vmasks.append(vmask)\n            targets.append(target)\n\n            if (video_len - window_start) <= self.sliding_window_size:\n                break\n\n        vfeats = torch.stack(vfeats)\n        vmasks = torch.stack(vmasks)\n        targets = torch.cat(targets, dim=0)\n\n        caps, cmasks = [], []\n        for step in text_feature:\n            step_text_feature = {\"start\": [0], \"end\": [1], \"cap\": [step]}\n            step_text_clip_index = [0]\n            cap, cmask = self._build_text_seq(\n                step_text_feature, step_text_clip_index\n            )\n            caps.append(cap)\n            cmasks.append(cmask)\n        caps = torch.stack(caps)\n        cmasks = torch.stack(cmasks)\n\n        return {\n            \"caps\": caps,\n            \"cmasks\": cmasks,\n            \"vfeats\": vfeats,  # X for original code.\n            \"vmasks\": vmasks,\n            \"targets\": targets,\n            \"video_id\": vid,\n            \"task\": task,\n            \"video_len\": video_len  # for later checking.\n        }\n\n    def _read_assignment(self, T, K, path):\n        \"\"\"\n        refactored from https://github.com/DmZhukov/CrossTask/blob/master/data.py\n        Howto interpret contraints on loss that is going to be minimized:\n        lambd is a big number;\n        self.lambd * C is a big number for all valid position (csv stores invalids)\n\n        def forward(self, O, Y, C):\n            return (Y*(self.lambd * C - self.lsm(O))).mean(dim=0).sum()\n\n        This will load the csv file and fill-in the step col from start to end rows.\n        \"\"\"\n\n        Y = np.zeros([T, K], dtype=np.uint8)\n        with open(path, 'r') as f:\n            for line in f:\n                step, start, end = line.strip().split(',')\n                start = int(math.floor(float(start)))\n                end = int(math.ceil(float(end)))\n                step = int(step) - 1\n                Y[start:end, step] = 1\n        return Y\n\n\n# --------------------- COIN -------------------------\n\nclass MetaTextBinarizer(Aligner):\n    def __call__(self, text_feature):\n        text_feature = {\n            \"cap\": [text_feature],\n            \"start\": [0.],\n            \"end\": [100.],\n        }\n        text_clip_indexs = [0]\n\n        caps, cmasks = self._build_text_seq(\n            text_feature, text_clip_indexs\n        )\n        return {\"caps\": caps, \"cmasks\": cmasks}\n\n\nclass COINActionSegmentationMetaProcessor(MetaProcessor):\n    split_map = {\n        \"train\": \"training\",\n        \"valid\": \"testing\",\n        \"test\": \"testing\",\n    }\n\n    def __init__(self, config):\n        super().__init__(config)\n        with open(self._get_split_path(config)) as fr:\n            database = json.load(fr)[\"database\"]\n        id2label = {}\n        data = []\n        # filter the data by split.\n        for video_id, rec in database.items():\n            # always use testing to determine label_set\n            if rec[\"subset\"] == \"testing\":\n                for segment in rec[\"annotation\"]:\n                    id2label[int(segment[\"id\"])] = segment[\"label\"]\n        # text_labels is used for ZS setting\n        self.text_labels = [\"none\"] * len(id2label)\n        for label_id in id2label:\n            self.text_labels[label_id-1] = id2label[label_id]\n\n        id2label[0] = \"O\"\n        print(\"num of labels\", len(id2label))\n\n        for video_id, rec in database.items():\n            if not os.path.isfile(os.path.join(config.vfeat_dir, video_id + \".npy\")):\n                continue\n            if rec[\"subset\"] == COINActionSegmentationMetaProcessor.split_map[self.split]:\n                starts, ends, labels = [], [], []\n                for segment in rec[\"annotation\"]:\n                    start, end = segment[\"segment\"]\n                    label = int(segment[\"id\"])\n                    starts.append(start)\n                    ends.append(end)\n                    labels.append(label)\n                data.append(\n                    (video_id, {\"start\": starts, \"end\": ends, \"label\": labels}))\n        self.data = data\n\n    def meta_text_labels(self, config):\n        from transformers import default_data_collator\n        from ..utils import get_local_rank\n\n        text_processor = TextProcessor(config)\n        binarizer = MetaTextBinarizer(config)\n        # TODO: add prompts to .yaml.\n        text_labels = [label for label in self.text_labels]\n\n        if get_local_rank() == 0:\n            print(text_labels)\n\n        outputs = []\n        for text_label in text_labels:\n            text_feature = text_processor(text_label)\n            outputs.append(binarizer(text_feature))\n        return default_data_collator(outputs)\n\n    def __getitem__(self, idx):\n        return self.data[idx]\n\n\nclass COINActionSegmentationTextProcessor(TextProcessor):\n    def __call__(self, text_label):\n        return text_label\n\n\nclass COINActionSegmentationAligner(Aligner):\n    def __init__(self, config):\n        super().__init__(config)\n        self.sliding_window = config.sliding_window\n        self.sliding_window_size = config.sliding_window_size\n\n    def __call__(self, video_id, video_feature, text_feature):\n        starts, ends, label_ids = text_feature[\"start\"], text_feature[\"end\"], text_feature[\"label\"]\n        # sliding window.\n        video_len = len(video_feature)\n\n        vfeats, vmasks, targets = [], [], []\n        # sliding window on video features and targets.\n        for window_start in range(0, video_len, self.sliding_window):\n            video_start = 0\n            video_end = min(video_len - window_start, self.sliding_window_size)\n            video_clip = {\"start\": [video_start], \"end\": [video_end]}\n            vfeat, vmask = self._build_video_seq(\n                video_feature[window_start: window_start + video_end],\n                video_clip\n            )\n            # covers video length only.\n            target = torch.full_like(vmask, -100, dtype=torch.long)\n            target[vmask] = 0\n            for start, end, label_id in zip(starts, ends, label_ids):\n                if (window_start < end) and (start < (window_start + video_end)):\n                    start_offset = max(0, math.floor(start) - window_start)\n                    end_offset = min(video_end, math.ceil(end) - window_start)\n                    target[start_offset:end_offset] = label_id\n            vfeats.append(vfeat)\n            vmasks.append(vmask)\n            targets.append(target)\n            if (video_len - window_start) <= self.sliding_window_size:\n                break\n\n        vfeats = torch.stack(vfeats)\n        vmasks = torch.stack(vmasks)\n        targets = torch.stack(targets)\n        video_targets = torch.full((video_len,), 0)\n        for start, end, label_id in zip(starts, ends, label_ids):\n            start_offset = max(0, math.floor(start))\n            end_offset = min(video_len, math.ceil(end))\n            video_targets[start_offset:end_offset] = label_id\n\n        caps = torch.LongTensor(\n            [[self.cls_token_id, self.sep_token_id,\n              self.pad_token_id, self.sep_token_id]],\n            ).repeat(vfeats.size(0), 1)\n        cmasks = torch.BoolTensor(\n            [[0, 1, 0, 1]]  # pad are valid for attention.\n            ).repeat(vfeats.size(0), 1)\n        return {\n            \"caps\": caps,\n            \"cmasks\": cmasks,\n            \"vfeats\": vfeats,  # X for original code.\n            \"vmasks\": vmasks,\n            \"targets\": targets,\n            \"video_id\": video_id,\n            \"video_len\": video_len,  # for later checking.\n            \"video_targets\": video_targets\n        }\n\n\nclass DiDeMoMetaProcessor(MetaProcessor):\n    \"\"\"reference: https://github.com/LisaAnne/LocalizingMoments/blob/master/utils/eval.py\n    https://github.com/LisaAnne/LocalizingMoments/blob/master/utils/data_processing.py\n    \"\"\"\n    def __init__(self, config):\n        super().__init__(config)\n\n        assert \"test\" in self._get_split_path(config), \"DiDeMo only supports zero-shot testing for now.\"\n\n        with open(self._get_split_path(config)) as data_file:\n            json_data = json.load(data_file)\n\n        data = []\n        for record in json_data:\n            data.append((record[\"video\"], record[\"description\"]))\n        self.data = data\n\n    def __len__(self):\n        return len(self.data)\n\n    def __getitem__(self, idx):\n        return self.data[idx]\n\n\nclass DiDeMoTextProcessor(TextProcessor):\n    \"\"\"reference: https://github.com/LisaAnne/LocalizingMoments/blob/master/utils/eval.py\n    https://github.com/LisaAnne/LocalizingMoments/blob/master/utils/data_processing.py\n    \"\"\"\n\n    def __call__(self, text):\n        return self.tokenizer(text, add_special_tokens=False)[\"input_ids\"]\n\n\nclass DiDeMoAligner(DSAligner):\n    \"\"\"\n    check video length.\n    \"\"\"\n\n    def __call__(self, video_id, video_feature, text_feature):\n        # print(video_feature.shape[0])\n        return super().__call__(video_id, video_feature, text_feature)\n"
  },
  {
    "path": "examples/MMPT/mmpt/processors/how2processor.py",
    "content": "# coding=utf-8\n# Copyright 2018 The Google AI Language Team Authors and The HuggingFace Inc. team.\n# Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.\n#\n# Licensed under the Apache License, Version 2.0 (the \"License\");\n# you may not use this file except in compliance with the License.\n# You may obtain a copy of the License at\n#\n#     http://www.apache.org/licenses/LICENSE-2.0\n#\n# Unless required by applicable law or agreed to in writing, software\n# distributed under the License is distributed on an \"AS IS\" BASIS,\n# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\n# See the License for the specific language governing permissions and\n# limitations under the License.\n# Copyright (c) Facebook, Inc. All Rights Reserved\n\n\nimport torch\nimport math\nimport pickle\nimport random\nimport os\nimport numpy as np\n\nfrom collections import deque\nfrom typing import Optional, Tuple, List\nfrom .processor import (\n    Processor,\n    MetaProcessor,\n    TextProcessor,\n    Aligner,\n    MMAttentionMask2DProcessor\n)\n\nfrom ..utils import ShardedTensor\n\n\nclass How2MetaProcessor(MetaProcessor):\n    def __init__(self, config):\n        super().__init__(config)\n        path = self._get_split_path(config)\n        with open(path) as fd:\n            self.data = [line.strip() for line in fd]\n\n    def __getitem__(self, idx):\n        video_id = self.data[idx]\n        return video_id, video_id\n\n\nclass ShardedHow2MetaProcessor(How2MetaProcessor):\n    def __init__(self, config):\n        super().__init__(config)\n        self.split = str(config.split)\n        self.vfeat_dir = config.vfeat_dir\n        self._init_shard()\n\n    def _init_shard(self):\n        if self.split == \"train\":\n            meta_fn = os.path.join(self.vfeat_dir, \"train\" + \"_meta.pkl\")\n            with open(meta_fn, \"rb\") as fr:\n                meta = pickle.load(fr)\n        elif self.split == \"valid\":\n            meta_fn = os.path.join(self.vfeat_dir, \"val\" + \"_meta.pkl\")\n            with open(meta_fn, \"rb\") as fr:\n                meta = pickle.load(fr)\n        elif self.split == \"test\":\n            print(\"use how2 val as test.\")\n            meta_fn = os.path.join(self.vfeat_dir, \"val\" + \"_meta.pkl\")\n            with open(meta_fn, \"rb\") as fr:\n                meta = pickle.load(fr)\n        else:\n            raise ValueError(\"unsupported for MetaProcessor:\", self.split)\n        video_id_to_shard = {}\n        for shard_id in meta:\n            for video_idx, video_id in enumerate(meta[shard_id]):\n                video_id_to_shard[video_id] = (shard_id, video_idx)\n        self.video_id_to_shard = video_id_to_shard\n\n    def __getitem__(self, idx):\n        video_id, video_id = super().__getitem__(idx)\n        shard_id, shard_idx = self.video_id_to_shard[video_id]\n        meta = (video_id, idx, shard_id, shard_idx)\n        return meta, meta\n\n\nclass ShardedVideoProcessor(Processor):\n    \"\"\"\n    mmaped shards of numpy video features.\n    \"\"\"\n\n    def __init__(self, config):\n        self.split = str(config.split)\n        self.vfeat_dir = config.vfeat_dir\n\n    def __call__(self, video_id):\n        _, _, shard_id, video_idx = video_id\n        if self.split == \"train\":\n            shard = ShardedTensor.load(\n                os.path.join(self.vfeat_dir, \"train\" + \"_\" + str(shard_id)),\n                \"r\"\n            )\n        elif self.split == \"valid\":\n            shard = ShardedTensor.load(\n                os.path.join(self.vfeat_dir, \"val\" + \"_\" + str(shard_id)),\n                \"r\"\n            )\n        elif self.split == \"test\":\n            shard = ShardedTensor.load(\n                os.path.join(self.vfeat_dir, \"val\" + \"_\" + str(shard_id)),\n                \"r\"\n            )\n        else:\n            raise ValueError(\"unknown split\", self.split)\n        feat = shard[video_idx]\n        return feat\n\n\nclass ShardedTextProcessor(Processor):\n    def __init__(self, config):\n        self.tfeat_dir = str(config.tfeat_dir)\n        self.split = str(config.split)\n\n    def __call__(self, video_id):\n        _, _, shard_id, shard_idx = video_id\n        if self.split == \"train\":\n            target_path = self.tfeat_dir + \"train\" + \"_\" + str(shard_id)\n        elif self.split == \"valid\":\n            target_path = self.tfeat_dir + \"val\" + \"_\" + str(shard_id)\n        elif self.split == \"test\":\n            target_path = self.tfeat_dir + \"val\" + \"_\" + str(shard_id)\n        else:\n            raise ValueError(\"unknown split\", self.split)\n\n        startend = ShardedTensor.load(\n            target_path + \".startends\", \"r\")[shard_idx]\n        cap_ids = ShardedTensor.load(\n            target_path + \".caps_ids\", \"r\")[shard_idx]\n        cap = []\n        for clip_idx in range(len(cap_ids)):\n            clip = cap_ids[clip_idx]\n            cap.append(clip[clip != -1].tolist())\n        start, end = startend[:, 0].tolist(), startend[:, 1].tolist()\n        return {\"start\": start, \"end\": end, \"cap\": cap}\n\n\nclass FixedLenAligner(Aligner):\n    \"\"\"\n    In the model we assume text is on the left (closer to BERT formulation)\n    and video is on the right.\n    We fix the total length of text + video.\n    max_video_len is in number of secs.\n    max_text_len is in number of tokens.\n\n    special tokens formats:\n    we use the format [CLS] [SEP] text tokens [SEP] [PAD] ...\n    [CLS] will be splitted out into:\n    [CLS] video tokens [SEP] text tokens [SEP] [PAD] ...\n    token_type_ids will be generated by the model (for now).\n    0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1\n    | first sequence    | second sequence |\n    so each sequence owns a [SEP] token for no-ops.\n    \"\"\"\n\n    def __init__(self, config):\n        super().__init__(config)\n        self.text_clip_sampler = TextClipSamplingProcessor(\n            self.max_len - self.max_video_len - 3\n        )\n        \"\"\"\n        decide subsampling:\n        `config.subsampling` will change batch_size in trainer.\n        `config.clip_per_video` (used by RetriTask) doesn't\n            change batch_size in trainer.\n        \"\"\"\n        subsampling = config.subsampling \\\n            if config.subsampling is not None else None\n        if config.clip_per_video is not None:\n            subsampling = config.clip_per_video\n        self.subsampling = subsampling\n\n    def _get_text_maxlen(self):\n        # use max text len\n        return self.text_clip_sampler.max_text_len\n\n    def __call__(self, video_id, video_feature, text_feature):\n        from transformers import default_data_collator\n        video_idx = video_id[1]\n        if self.subsampling is not None and self.subsampling >= 1:\n            batch = []\n            for _ in range(self.subsampling):\n                centerclip_idx = random.randint(\n                                    0, len(text_feature[\"start\"]) - 1)\n                batch.append(\n                    self.sampling(\n                        video_idx,\n                        video_feature,\n                        text_feature,\n                        centerclip_idx,\n                        self._get_text_maxlen()\n                    ))\n            batch = self.batch_post_processing(batch, video_feature)\n            batch = default_data_collator(batch)\n        else:\n            raise ValueError(\n                \"dataset.subsampling must be >= 1 for efficient video loading.\")\n            batch = self.sampling(video_idx, video_feature, text_feature)\n            batch = self.batch_post_processing(batch, video_feature)\n\n        batch[\"video_id\"] = video_id if isinstance(video_id, str) \\\n            else video_id[0]\n        # e2e: make sure frame ids is into tensor.\n        assert torch.is_tensor(batch[\"vfeats\"])\n        return batch\n\n    def sampling(\n        self,\n        video_idx,\n        video_feature,\n        text_feature,\n        centerclip_idx=None,\n        sampled_max_text_len=None,\n    ):\n        text_clip_indexs = self.text_clip_sampler(\n            text_feature, centerclip_idx,\n            sampled_max_text_len\n        )\n        if isinstance(video_feature, np.ndarray):\n            video_len = len(video_feature)\n        else:\n            video_len = math.ceil(text_feature[\"end\"][-1])\n\n        video_end = min(\n            math.ceil(text_feature[\"end\"][text_clip_indexs[-1]]),\n            video_len\n        )\n        video_start = max(\n            min(\n                math.floor(text_feature[\"start\"][text_clip_indexs[0]]),\n                video_end),\n            0\n        )\n\n        video_clips = {\"start\": [video_start], \"end\": [video_end]}\n\n        # tensorize.\n        vfeats, vmasks = self._build_video_seq(\n            video_feature, video_clips\n        )\n        caps, cmasks = self._build_text_seq(\n            text_feature, text_clip_indexs\n        )\n\n        text_start = text_clip_indexs[0]\n        text_end = text_clip_indexs[-1] + 1\n\n        return {\n            \"caps\": caps,\n            \"cmasks\": cmasks,\n            \"vfeats\": vfeats,\n            \"vmasks\": vmasks,\n            \"video_start\": video_start,\n            \"video_end\": video_end,\n            \"text_start\": text_start,\n            \"text_end\": text_end,\n        }\n\n\nclass VariedLenAligner(FixedLenAligner):\n    def __init__(self, config):\n        super().__init__(config)\n        self.sampled_min_len = config.sampled_min_len\n        self.sampled_max_len = config.sampled_max_len\n\n    def _get_text_maxlen(self):\n        return random.randint(self.sampled_min_len, self.sampled_max_len)\n\n\nclass StartClipAligner(VariedLenAligner):\n    def sampling(\n        self,\n        video_idx,\n        video_feature,\n        text_feature,\n        centerclip_idx=None,\n        sampled_max_text_len=None,\n    ):\n        return super().sampling(\n            video_idx, video_feature, text_feature, 0)\n\n\nclass OverlappedAligner(VariedLenAligner):\n    \"\"\"video clip and text clip has overlappings\n    but may not be the same start/end.\"\"\"\n    def __init__(self, config):\n        super().__init__(config)\n        self.sampled_video_min_len = config.sampled_video_min_len\n        self.sampled_video_max_len = config.sampled_video_max_len\n\n        self.video_clip_sampler = VideoClipSamplingProcessor()\n\n    def _get_video_maxlen(self):\n        return random.randint(\n            self.sampled_video_min_len, self.sampled_video_max_len)\n\n    def sampling(\n        self,\n        video_idx,\n        video_feature,\n        text_feature,\n        centerclip_idx=None,\n        sampled_max_text_len=None,\n    ):\n        text_clip_indexs = self.text_clip_sampler(\n            text_feature, centerclip_idx,\n            sampled_max_text_len\n        )\n        if isinstance(video_feature, np.ndarray):\n            video_len = len(video_feature)\n        else:\n            video_len = math.ceil(text_feature[\"end\"][-1])\n        low = math.floor(text_feature[\"start\"][text_clip_indexs[0]])\n        high = math.ceil(text_feature[\"end\"][text_clip_indexs[-1]])\n        if low < high:\n            center = random.randint(low, high)\n        else:\n            center = int((low + high) // 2)\n        center = max(0, min(video_feature.shape[0] - 1, center))\n\n        assert 0 <= center < video_feature.shape[0]\n\n        video_clips = self.video_clip_sampler(\n            video_len, self._get_video_maxlen(), center\n        )\n        video_start = video_clips[\"start\"][0]\n        video_end = video_clips[\"end\"][0]\n\n        # tensorize.\n        vfeats, vmasks = self._build_video_seq(\n            video_feature, video_clips\n        )\n        caps, cmasks = self._build_text_seq(\n            text_feature, text_clip_indexs\n        )\n\n        text_start = text_clip_indexs[0]\n        text_end = text_clip_indexs[-1] + 1\n\n        return {\n            \"caps\": caps,\n            \"cmasks\": cmasks,\n            \"vfeats\": vfeats,\n            \"vmasks\": vmasks,\n            \"video_start\": video_start,\n            \"video_end\": video_end,\n            \"text_start\": text_start,\n            \"text_end\": text_end,\n        }\n\n\nclass MFMMLMAligner(FixedLenAligner):\n    \"\"\"\n    `FixedLenAligner` with Masked Language Model and Masked Frame Model.\n    \"\"\"\n\n    def __init__(self, config):\n        super().__init__(config)\n        keep_prob = config.keep_prob if config.keep_prob is not None else 1.0\n        self.text_clip_sampler = TextClipSamplingProcessor(\n            self.max_len - self.max_video_len - 3, keep_prob\n        )\n        self.sampled_min_len = config.sampled_min_len\n        self.sampled_max_len = config.sampled_max_len\n        self.masked_token_sampler = TextMaskingProcessor(config)\n        self.mm_type = config.mm_type \\\n            if config.mm_type is not None else \"full\"\n        self.attnmasker = MMAttentionMask2DProcessor() \\\n            if self.mm_type == \"textgen\" else None\n        self.masked_frame_sampler = FrameMaskingProcessor(config)\n        self.lazy_vfeat_mask = (\n            False if config.lazy_vfeat_mask is None else config.lazy_vfeat_mask\n        )\n        self.mm_prob = config.mm_prob if config.mm_prob is not None else 0.\n\n    def __call__(self, video_id, video_feature, text_feature):\n        from transformers import default_data_collator\n        if self.subsampling is not None and self.subsampling > 1:\n            batch = []\n            for _ in range(self.subsampling):\n                centerclip_idx = random.randint(\n                                    0, len(text_feature[\"start\"]) - 1)\n                sampled_max_text_len = random.randint(\n                    self.sampled_min_len, self.sampled_max_len\n                )\n                batch.append(\n                    self.sampling(\n                        video_id,\n                        video_feature,\n                        text_feature,\n                        centerclip_idx,\n                        sampled_max_text_len,\n                    )\n                )\n            batch = self.batch_post_processing(batch, video_feature)\n            batch = default_data_collator(batch)\n        else:\n            batch = self.sampling(video_id, video_feature, text_feature)\n            batch = self.batch_post_processing(batch, video_feature)\n        batch[\"video_id\"] = video_id if isinstance(video_id, str) \\\n            else video_id[0]\n        return batch\n\n    def sampling(\n        self,\n        video_id,\n        video_feature,\n        text_feature,\n        centerclip_idx=None,\n        sampled_max_text_len=None,\n    ):\n        output = FixedLenAligner.sampling(self,\n            video_id, video_feature, text_feature,\n            centerclip_idx, sampled_max_text_len)\n\n        masking_text, masking_video = None, None\n        if random.random() < self.mm_prob:\n            if random.random() > 0.5:\n                masking_text, masking_video = self.mm_type, \"no\"\n            else:\n                masking_text, masking_video = \"no\", \"full\"\n        video_feats = output[\"vfeats\"] if not self.lazy_vfeat_mask else None\n        video_label = self.masked_frame_sampler(\n            output[\"vmasks\"], masking_video, vfeats=video_feats)\n        caps, text_label = self.masked_token_sampler(\n            output[\"caps\"], masking_text)\n\n        output.update({\n            \"caps\": caps,\n            \"video_label\": video_label,\n            \"text_label\": text_label,\n        })\n\n        if self.attnmasker is not None:\n            attention_mask = self.attnmasker(\n                output[\"vmasks\"], output[\"cmasks\"], masking_text)\n            output.update({\n                \"attention_mask\": attention_mask\n            })\n        return output\n\n\nclass FrameMaskingProcessor(Processor):\n    def __init__(self, config):\n        self.mfm_probability = 0.15\n        if config.mfm_probability is not None:\n            self.mfm_probability = config.mfm_probability\n\n    def __call__(self, vmasks, modality_masking=None, vfeats=None):\n        \"\"\"\n        We perform lazy masking to save data transfer time.\n        It only generates video_labels by default and MFM model\n        will do actualy masking.\n        Return: `video_label` is a binary mask.\n        \"\"\"\n        video_label = vmasks.clone()\n        if modality_masking is not None:\n            if modality_masking == \"full\":\n                probability_matrix = torch.full(video_label.shape, 1.)\n            elif modality_masking == \"no\":\n                probability_matrix = torch.full(video_label.shape, 0.)\n            elif modality_masking == \"inverse\":\n                probability_matrix = torch.full(\n                    video_label.shape, 1. - self.mfm_probability)\n            else:\n                raise ValueError(\"unknown modality masking.\", modality_masking)\n        else:\n            probability_matrix = torch.full(\n                video_label.shape, self.mfm_probability)\n        masked_indices = torch.bernoulli(probability_matrix).bool()\n        # We only compute loss on masked tokens\n        video_label[~masked_indices] = 0\n        if vfeats is not None:\n            vfeats[video_label, :] = 0.0\n        return video_label\n\n\nclass TextGenerationProcessor(Processor):\n    def __init__(self, tokenizer):\n        self.bos_token_id = tokenizer.bos_token_id\n        self.pad_token_id = tokenizer.pad_token_id\n\n    def __call__(self, inputs):\n        labels = inputs.clone()\n        # [CLS] [SEP] for video\n        labels[:2] = -100\n        # keep [SEP] for text.\n        pad_mask = labels == self.pad_token_id\n        labels[pad_mask] = -100\n        inputs[2:] = torch.cat([\n            torch.LongTensor([self.bos_token_id]),\n            inputs[2:-1]])\n        inputs[pad_mask] = self.pad_token_id\n        assert len(inputs) == len(labels)\n        return inputs, labels\n\n\nclass TextMaskingProcessor(Processor):\n    def __init__(self, config):\n        \"\"\"this function is borrowed from\n        `transformers/data/data_collator.DataCollatorForLanguageModeling`\"\"\"\n        self.mlm_probability = 0.15\n        if config.mlm_probability is not None:\n            self.mlm_probability = config.mlm_probability\n        self.bert_name = config.bert_name\n        # [CLS] is used as bos_token and [SEP] is used as eos_token.\n        # https://huggingface.co/transformers/master/model_doc/bertgeneration.html\n        from transformers import AutoTokenizer\n        self.tokenizer = AutoTokenizer.from_pretrained(\n            self.bert_name, bos_token=\"[CLS]\", eos_token=\"[SEP]\")\n        self.textgen = TextGenerationProcessor(self.tokenizer)\n\n    def __call__(\n        self, inputs: torch.Tensor,\n        modality_masking=None,\n        special_tokens_mask: Optional[torch.Tensor] = None\n    ) -> Tuple[torch.Tensor, torch.Tensor]:\n        \"\"\"\n        expand modality_masking into\n            None: traditional bert masking.\n            \"no\": no masking.\n            \"full\": all [MASK] token for generation.\n            \"gen\": autoregressive generation.\n        \"\"\"\n        \"\"\"\n        Prepare masked tokens inputs/labels for masked language modeling:\n        80% MASK, 10% random, 10% original.\n        \"\"\"\n        labels = inputs.clone()\n        # We sample a few tokens in each sequence for MLM training\n        # (with probability `self.mlm_probability`)\n        if modality_masking is not None:\n            if modality_masking == \"full\":\n                probability_matrix = torch.full(labels.shape, 1.)\n            elif modality_masking == \"no\":\n                probability_matrix = torch.full(labels.shape, 0.)\n            elif modality_masking.startswith(\"textgen\"):\n                # [CLS] [SEP] <s> ...\n                inputs, labels = self.textgen(inputs)\n                if \"mask\" not in modality_masking:\n                    return inputs, labels\n                inputs = self.mask_input(inputs, special_tokens_mask)\n                return inputs, labels\n            elif modality_masking == \"mask\":\n                inputs = self.mask_input(inputs, special_tokens_mask)\n                labels = torch.full(inputs.shape, -100)\n                return inputs, labels\n            elif modality_masking == \"inverse\":\n                probability_matrix = torch.full(labels.shape, 1. - self.mlm_probability)\n            else:\n                raise ValueError(\"unknown modality masking.\", modality_masking)\n        else:\n            probability_matrix = torch.full(labels.shape, self.mlm_probability)\n\n        if special_tokens_mask is None:\n            special_tokens_mask = self.get_special_tokens_mask(\n                labels.tolist(), already_has_special_tokens=True\n            )\n            special_tokens_mask = torch.tensor(\n                special_tokens_mask, dtype=torch.bool)\n        else:\n            special_tokens_mask = special_tokens_mask.bool()\n\n        probability_matrix.masked_fill_(special_tokens_mask, value=0.0)\n        masked_indices = torch.bernoulli(probability_matrix).bool()\n        labels[~masked_indices] = -100  # We only compute loss on masked tokens\n\n        # 80% of the time,\n        # we replace masked input tokens with tokenizer.mask_token ([MASK])\n        indices_replaced = (\n            torch.bernoulli(\n                torch.full(labels.shape, 0.8)).bool() & masked_indices\n        )\n        inputs[indices_replaced] = self.tokenizer.convert_tokens_to_ids(\n            self.tokenizer.mask_token\n        )\n\n        # 10% of the time, we replace masked input tokens with random word\n        indices_random = (\n            torch.bernoulli(torch.full(labels.shape, 0.5)).bool()\n            & masked_indices\n            & ~indices_replaced\n        )\n        random_words = torch.randint(\n            len(self.tokenizer), labels.shape, dtype=torch.long\n        )\n        inputs[indices_random] = random_words[indices_random]\n\n        # The rest of the time (10% of the time) we keep the masked input\n        # tokens unchanged\n        return inputs, labels\n\n    def mask_input(self, inputs, special_tokens_mask=None):\n        # the following is new with masked autoregressive.\n        probability_matrix = torch.full(\n            inputs.shape, self.mlm_probability)\n        if special_tokens_mask is None:\n            special_tokens_mask = self.get_special_tokens_mask(\n                inputs.tolist(), already_has_special_tokens=True\n            )\n            special_tokens_mask = torch.tensor(\n                special_tokens_mask, dtype=torch.bool)\n        else:\n            special_tokens_mask = special_tokens_mask.bool()\n        probability_matrix.masked_fill_(special_tokens_mask, value=0.0)\n        masked_indices = torch.bernoulli(probability_matrix).bool()\n        indices_replaced = (\n            torch.bernoulli(\n                torch.full(inputs.shape, 0.8)).bool() & masked_indices\n        )\n        inputs[indices_replaced] = self.tokenizer.convert_tokens_to_ids(\n            self.tokenizer.mask_token\n        )\n\n        # 10% of the time, we replace masked input tokens with random word\n        indices_random = (\n            torch.bernoulli(torch.full(inputs.shape, 0.5)).bool()\n            & masked_indices\n            & ~indices_replaced\n        )\n        random_words = torch.randint(\n            len(self.tokenizer), inputs.shape, dtype=torch.long\n        )\n        inputs[indices_random] = random_words[indices_random]\n        return inputs\n\n    def get_special_tokens_mask(\n        self, token_ids_0: List[int],\n        token_ids_1: Optional[List[int]] = None,\n        already_has_special_tokens: bool = False\n    ) -> List[int]:\n        \"\"\"\n        Note: the version from transformers do not consider pad\n        as special tokens.\n        \"\"\"\n\n        if already_has_special_tokens:\n            if token_ids_1 is not None:\n                raise ValueError(\n                    \"You should not supply a second sequence if\"\n                    \"the provided sequence of \"\n                    \"ids is already formated with special tokens \"\n                    \"for the model.\"\n                )\n            return list(map(lambda x: 1 if x in [\n                self.tokenizer.sep_token_id,\n                self.tokenizer.cls_token_id,\n                self.tokenizer.pad_token_id] else 0, token_ids_0))\n\n        if token_ids_1 is not None:\n            return [1] + ([0] * len(token_ids_0)) + [1] + ([0] * len(token_ids_1)) + [1]\n        return [1] + ([0] * len(token_ids_0)) + [1]\n\n\nclass TextClipSamplingProcessor(Processor):\n    def __init__(self, max_text_len, keep_prob=1.0):\n        self.max_text_len = max_text_len\n        self.max_video_len = 256  # always hold.\n        self.keep_prob = keep_prob\n\n    def __call__(\n        self,\n        text_feature,\n        centerclip_idx=None,\n        sampled_max_text_len=None,\n        sampled_max_video_len=None,\n    ):\n        # Let's use all caps for now and see if 256 can cover all of them.\n        if sampled_max_text_len is not None:\n            max_text_len = sampled_max_text_len\n        else:\n            max_text_len = self.max_text_len\n        if sampled_max_video_len is not None:\n            max_video_len = sampled_max_video_len\n        else:\n            max_video_len = self.max_video_len\n\n        t_num_clips = len(text_feature[\"start\"])\n\n        if centerclip_idx is None:\n            centerclip_idx = random.randint(0, t_num_clips - 1)\n\n        start_idx, end_idx = centerclip_idx, centerclip_idx + 1\n        text_clip_indexs = deque()\n        text_clip_indexs.append(start_idx)\n        text_len = len(text_feature[\"cap\"][start_idx])\n\n        video_len = max(\n            0,\n            text_feature[\"end\"][start_idx]\n            - text_feature[\"start\"][start_idx],\n        )\n\n        while (\n            (start_idx > 0 or end_idx < t_num_clips)\n            and text_len < max_text_len\n            and video_len < max_video_len\n        ):\n            if random.random() > 0.5 and end_idx < t_num_clips:\n                # skip the next one?\n                if random.random() > self.keep_prob and (end_idx + 1) < t_num_clips:\n                    end_idx = end_idx + 1\n                text_clip_indexs.append(end_idx)\n                text_len += len(text_feature[\"cap\"][end_idx])\n                end_idx += 1\n            elif start_idx > 0:\n                if random.random() > self.keep_prob and (start_idx - 1) > 0:\n                    start_idx = start_idx - 1\n                start_idx -= 1\n                text_clip_indexs.insert(0, start_idx)\n                text_len += len(text_feature[\"cap\"][start_idx])\n            else:\n                if end_idx < t_num_clips:\n                    if random.random() > self.keep_prob and (end_idx + 1) < t_num_clips:\n                        end_idx = end_idx + 1\n                    text_clip_indexs.append(end_idx)\n                    text_len += len(text_feature[\"cap\"][end_idx])\n                    end_idx += 1\n                else:\n                    return text_clip_indexs\n            video_len = max(\n                0,\n                text_feature[\"end\"][text_clip_indexs[-1]]\n                - text_feature[\"start\"][text_clip_indexs[0]],\n            )\n        return text_clip_indexs\n\n\nclass VideoClipSamplingProcessor(Processor):\n    def __call__(self, video_len, max_video_len, center):\n        \"\"\"\n        `video_len`: length of the video.\n        `max_video_len`: maximum video tokens allowd in a sequence.\n        `center`: initial starting index.\n        \"\"\"\n        assert center >= 0 and center < video_len\n        t_clip_len = 0\n        start, end = center, center\n        while (start > 0 or end < video_len) and t_clip_len < max_video_len:\n            # decide the direction to grow.\n            if start <= 0:\n                end += 1\n            elif end >= video_len:\n                start -= 1\n            elif random.random() > 0.5:\n                end += 1\n            else:\n                start -= 1\n            t_clip_len += 1\n        return {\"start\": [start], \"end\": [end]}\n\n\nclass How2MILNCEAligner(FixedLenAligner):\n    \"\"\"reference: `antoine77340/MIL-NCE_HowTo100M/video_loader.py`\"\"\"\n\n    def __init__(self, config):\n        super().__init__(config)\n        self.num_candidates = 4\n        self.min_time = 5.0\n        self.num_sec = 3.2\n        # self.num_sec = self.num_frames / float(self.fps)  num_frames=16 / fps = 5\n        # self.num_frames = 16\n\n    def sampling(\n        self,\n        video_id,\n        video_feature,\n        text_feature,\n        centerclip_idx=None,  # will be ignored.\n        sampled_max_text_len=None  # will be ignored.\n    ):\n        text, start, end = self._get_text(text_feature)\n        video = self._get_video(video_feature, start, end)\n\n        vfeats = torch.zeros((self.max_video_len, video_feature.shape[1]))\n        vmasks = torch.zeros((self.max_video_len,), dtype=torch.bool)\n        vfeats[: video.shape[0]] = torch.from_numpy(np.array(video))\n        vmasks[: video.shape[0]] = 1\n\n        caps, cmasks = [], []\n        for words in text:\n            cap, cmask = self._build_text_seq(text_feature, words)\n            caps.append(cap)\n            cmasks.append(cmask)\n        caps = torch.stack(caps)\n        cmasks = torch.stack(cmasks)\n        # video of shape: (video_len)\n        # text of shape (num_candidates, max_text_len)\n\n        return {\n            \"caps\": caps,\n            \"cmasks\": cmasks,\n            \"vfeats\": vfeats,\n            \"vmasks\": vmasks,\n            # \"video_id\": video_id,\n        }\n\n    def _get_video(self, video_feature, start, end):\n        start_seek = random.randint(start, int(max(start, end - self.num_sec)))\n        # duration = self.num_sec + 0.1\n        return video_feature[start_seek : int(start_seek + self.num_sec)]\n\n    def _get_text(self, cap):\n        ind = random.randint(0, len(cap[\"start\"]) - 1)\n        if self.num_candidates == 1:\n            words = [ind]\n        else:\n            words = []\n            cap_start = self._find_nearest_candidates(cap, ind)\n            for i in range(self.num_candidates):\n                words.append([max(0, min(len(cap[\"cap\"]) - 1, cap_start + i))])\n\n        start, end = cap[\"start\"][ind], cap[\"end\"][ind]\n        # TODO: May need to be improved for edge cases.\n        # expand the min time.\n        if end - start < self.min_time:\n            diff = self.min_time - end + start\n            start = max(0, start - diff / 2)\n            end = start + self.min_time\n        return words, int(start), int(end)\n\n    def _find_nearest_candidates(self, caption, ind):\n        \"\"\"find the range of the clips.\"\"\"\n        start, end = ind, ind\n        #diff = caption[\"end\"][end] - caption[\"start\"][start]\n        n_candidate = 1\n        while n_candidate < self.num_candidates:\n            # the first clip\n            if start == 0:\n                return 0\n            # we add () in the following condition to fix the bug.\n            elif end == (len(caption[\"start\"]) - 1):\n                return start - (self.num_candidates - n_candidate)\n            elif (caption[\"end\"][end] - caption[\"start\"][start - 1]) < (\n                caption[\"end\"][end + 1] - caption[\"start\"][start]\n            ):\n                start -= 1\n            else:\n                end += 1\n            n_candidate += 1\n        return start\n\n\nclass PKLJSONStrTextProcessor(TextProcessor):\n    \"\"\"`caption.json` from howto100m are preprocessed as a\n    dict `[video_id, json_str]`.\n    Json parsing tokenization are conducted on-the-fly and cached into dict.\n    \"\"\"\n\n    def __init__(self, config, max_clip_text_len=96):\n        print(\"[Warning] PKLJSONStrTextProcessor is slow for num_workers > 0.\")\n        self.caption_pkl_path = str(config.caption_pkl_path)\n        with open(self.caption_pkl_path, \"rb\") as fd:\n            self.data = pickle.load(fd)\n        self.max_clip_text_len = max_clip_text_len\n        from transformers import AutoTokenizer\n        self.tokenizer = AutoTokenizer.from_pretrained(\n            str(config.bert_name), use_fast=config.use_fast\n        )\n\n    def __call__(self, video_id):\n        caption = self.data[video_id]\n        if isinstance(caption, str):\n            import json\n            caption = json.loads(caption)\n            cap = []\n            for clip_idx, text_clip in enumerate(caption[\"text\"]):\n                clip_ids = []\n                if isinstance(text_clip, str):\n                    clip_ids = self.tokenizer(\n                        text_clip[: self.max_clip_text_len],\n                        add_special_tokens=False\n                    )[\"input_ids\"]\n                cap.append(clip_ids)\n            caption[\"cap\"] = cap\n            caption.pop(\"text\")  # save space.\n            self.data[video_id] = caption\n        return caption\n"
  },
  {
    "path": "examples/MMPT/mmpt/processors/how2retriprocessor.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .how2processor import (\n    ShardedHow2MetaProcessor,\n    ShardedVideoProcessor,\n    ShardedTextProcessor,\n    VariedLenAligner,\n    OverlappedAligner\n)\n\n\nclass ShardedHow2VideoRetriMetaProcessor(ShardedHow2MetaProcessor):\n    def __init__(self, config):\n        super().__init__(config)\n        self.num_video_per_batch = config.num_video_per_batch\n        self.cands = [\n            self.data[batch_offset:batch_offset + self.num_video_per_batch]\n            for batch_offset in\n            range(0, (len(self.data) // (8 * self.num_video_per_batch)) * 8 * self.num_video_per_batch, self.num_video_per_batch)]\n\n    def __len__(self):\n        return len(self.cands)\n\n    def set_candidates(self, cands):\n        # no changes on num of batches.\n        print(len(self.cands), \"->\", len(cands))\n        # assert len(self.cands) == len(cands)\n        self.cands = cands\n\n    def __getitem__(self, idx):\n        video_ids = self.cands[idx]\n        assert isinstance(video_ids, list)\n        sharded_video_idxs = []\n        for video_id in video_ids:\n            shard_id, video_idx = self.video_id_to_shard[video_id]\n            sharded_video_idxs.append((video_id, -1, shard_id, video_idx))\n        return sharded_video_idxs, sharded_video_idxs\n\n\nclass ShardedVideoRetriVideoProcessor(ShardedVideoProcessor):\n    \"\"\"In retrival case the video_id\n    is a list of tuples: `(shard_id, video_idx)` .\"\"\"\n\n    def __call__(self, sharded_video_idxs):\n        assert isinstance(sharded_video_idxs, list)\n        cand_feats = []\n        for shared_video_idx in sharded_video_idxs:\n            feat = super().__call__(shared_video_idx)\n            cand_feats.append(feat)\n        return cand_feats\n\n\nclass ShardedVideoRetriTextProcessor(ShardedTextProcessor):\n    \"\"\"In retrival case the video_id\n    is a list of tuples: `(shard_id, video_idx)` .\"\"\"\n\n    def __call__(self, sharded_video_idxs):\n        assert isinstance(sharded_video_idxs, list)\n        cand_caps = []\n        for shared_video_idx in sharded_video_idxs:\n            caps = super().__call__(shared_video_idx)\n            cand_caps.append(caps)\n        return cand_caps\n\n\nclass VideoRetriAligner(VariedLenAligner):\n    # Retritask will trim dim-0.\n    def __call__(self, sharded_video_idxs, video_features, text_features):\n        from transformers import default_data_collator\n        batch, video_ids = [], []\n        for video_id, video_feature, text_feature in \\\n                zip(sharded_video_idxs, video_features, text_features):\n            sub_batch = super().__call__(video_id, video_feature, text_feature)\n            batch.append(sub_batch)\n            if isinstance(video_id, tuple):\n                video_id = video_id[0]\n            video_ids.append(video_id)\n        batch = default_data_collator(batch)\n        batch[\"video_id\"] = video_ids\n        return batch\n\n\nclass VideoRetriOverlappedAligner(OverlappedAligner):\n    # Retritask will trim dim-0.\n    def __call__(self, sharded_video_idxs, video_features, text_features):\n        from transformers import default_data_collator\n        batch, video_ids = [], []\n        for video_id, video_feature, text_feature in \\\n                zip(sharded_video_idxs, video_features, text_features):\n            sub_batch = super().__call__(video_id, video_feature, text_feature)\n            batch.append(sub_batch)\n            if isinstance(video_id, tuple):\n                video_id = video_id[0]\n            video_ids.append(video_id)\n        batch = default_data_collator(batch)\n        batch[\"video_id\"] = video_ids\n        return batch\n"
  },
  {
    "path": "examples/MMPT/mmpt/processors/models/s3dg.py",
    "content": "# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"Contains a PyTorch definition for Gated Separable 3D network (S3D-G)\nwith a text module for computing joint text-video embedding from raw text\nand video input. The following code will enable you to load the HowTo100M\npretrained S3D Text-Video model from:\n  A. Miech, J.-B. Alayrac, L. Smaira, I. Laptev, J. Sivic and A. Zisserman,\n  End-to-End Learning of Visual Representations from Uncurated Instructional Videos.\n  https://arxiv.org/abs/1912.06430.\n\nS3D-G was proposed by:\n  S. Xie, C. Sun, J. Huang, Z. Tu and K. Murphy,\n  Rethinking Spatiotemporal Feature Learning For Video Understanding.\n  https://arxiv.org/abs/1712.04851.\n  Tensorflow code: https://github.com/tensorflow/models/blob/master/research/slim/nets/s3dg.py\n\nThe S3D architecture was slightly modified with a space to depth trick for TPU\noptimization.\n\"\"\"\n\nimport torch as th\nimport torch.nn.functional as F\nimport torch.nn as nn\nimport os\nimport numpy as np\nimport re\n\n\nclass InceptionBlock(nn.Module):\n    def __init__(\n        self,\n        input_dim,\n        num_outputs_0_0a,\n        num_outputs_1_0a,\n        num_outputs_1_0b,\n        num_outputs_2_0a,\n        num_outputs_2_0b,\n        num_outputs_3_0b,\n        gating=True,\n    ):\n        super(InceptionBlock, self).__init__()\n        self.conv_b0 = STConv3D(input_dim, num_outputs_0_0a, [1, 1, 1])\n        self.conv_b1_a = STConv3D(input_dim, num_outputs_1_0a, [1, 1, 1])\n        self.conv_b1_b = STConv3D(\n            num_outputs_1_0a, num_outputs_1_0b, [3, 3, 3], padding=1, separable=True\n        )\n        self.conv_b2_a = STConv3D(input_dim, num_outputs_2_0a, [1, 1, 1])\n        self.conv_b2_b = STConv3D(\n            num_outputs_2_0a, num_outputs_2_0b, [3, 3, 3], padding=1, separable=True\n        )\n        self.maxpool_b3 = th.nn.MaxPool3d((3, 3, 3), stride=1, padding=1)\n        self.conv_b3_b = STConv3D(input_dim, num_outputs_3_0b, [1, 1, 1])\n        self.gating = gating\n        self.output_dim = (\n            num_outputs_0_0a + num_outputs_1_0b + num_outputs_2_0b + num_outputs_3_0b\n        )\n        if gating:\n            self.gating_b0 = SelfGating(num_outputs_0_0a)\n            self.gating_b1 = SelfGating(num_outputs_1_0b)\n            self.gating_b2 = SelfGating(num_outputs_2_0b)\n            self.gating_b3 = SelfGating(num_outputs_3_0b)\n\n    def forward(self, input):\n        \"\"\"Inception block\n      \"\"\"\n        b0 = self.conv_b0(input)\n        b1 = self.conv_b1_a(input)\n        b1 = self.conv_b1_b(b1)\n        b2 = self.conv_b2_a(input)\n        b2 = self.conv_b2_b(b2)\n        b3 = self.maxpool_b3(input)\n        b3 = self.conv_b3_b(b3)\n        if self.gating:\n            b0 = self.gating_b0(b0)\n            b1 = self.gating_b1(b1)\n            b2 = self.gating_b2(b2)\n            b3 = self.gating_b3(b3)\n        return th.cat((b0, b1, b2, b3), dim=1)\n\n\nclass SelfGating(nn.Module):\n    def __init__(self, input_dim):\n        super(SelfGating, self).__init__()\n        self.fc = nn.Linear(input_dim, input_dim)\n\n    def forward(self, input_tensor):\n        \"\"\"Feature gating as used in S3D-G.\n      \"\"\"\n        spatiotemporal_average = th.mean(input_tensor, dim=[2, 3, 4])\n        weights = self.fc(spatiotemporal_average)\n        weights = th.sigmoid(weights)\n        return weights[:, :, None, None, None] * input_tensor\n\n\nclass STConv3D(nn.Module):\n    def __init__(\n        self, input_dim, output_dim, kernel_size, stride=1, padding=0, separable=False\n    ):\n        super(STConv3D, self).__init__()\n        self.separable = separable\n        self.relu = nn.ReLU(inplace=True)\n        assert len(kernel_size) == 3\n        if separable and kernel_size[0] != 1:\n            spatial_kernel_size = [1, kernel_size[1], kernel_size[2]]\n            temporal_kernel_size = [kernel_size[0], 1, 1]\n            if isinstance(stride, list) and len(stride) == 3:\n                spatial_stride = [1, stride[1], stride[2]]\n                temporal_stride = [stride[0], 1, 1]\n            else:\n                spatial_stride = [1, stride, stride]\n                temporal_stride = [stride, 1, 1]\n            if isinstance(padding, list) and len(padding) == 3:\n                spatial_padding = [0, padding[1], padding[2]]\n                temporal_padding = [padding[0], 0, 0]\n            else:\n                spatial_padding = [0, padding, padding]\n                temporal_padding = [padding, 0, 0]\n        if separable:\n            self.conv1 = nn.Conv3d(\n                input_dim,\n                output_dim,\n                kernel_size=spatial_kernel_size,\n                stride=spatial_stride,\n                padding=spatial_padding,\n                bias=False,\n            )\n            self.bn1 = nn.BatchNorm3d(output_dim)\n            self.conv2 = nn.Conv3d(\n                output_dim,\n                output_dim,\n                kernel_size=temporal_kernel_size,\n                stride=temporal_stride,\n                padding=temporal_padding,\n                bias=False,\n            )\n            self.bn2 = nn.BatchNorm3d(output_dim)\n        else:\n            self.conv1 = nn.Conv3d(\n                input_dim,\n                output_dim,\n                kernel_size=kernel_size,\n                stride=stride,\n                padding=padding,\n                bias=False,\n            )\n            self.bn1 = nn.BatchNorm3d(output_dim)\n\n    def forward(self, input):\n        out = self.relu(self.bn1(self.conv1(input)))\n        if self.separable:\n            out = self.relu(self.bn2(self.conv2(out)))\n        return out\n\n\nclass MaxPool3dTFPadding(th.nn.Module):\n    def __init__(self, kernel_size, stride=None, padding=\"SAME\"):\n        super(MaxPool3dTFPadding, self).__init__()\n        if padding == \"SAME\":\n            padding_shape = self._get_padding_shape(kernel_size, stride)\n            self.padding_shape = padding_shape\n            self.pad = th.nn.ConstantPad3d(padding_shape, 0)\n        self.pool = th.nn.MaxPool3d(kernel_size, stride, ceil_mode=True)\n\n    def _get_padding_shape(self, filter_shape, stride):\n        def _pad_top_bottom(filter_dim, stride_val):\n            pad_along = max(filter_dim - stride_val, 0)\n            pad_top = pad_along // 2\n            pad_bottom = pad_along - pad_top\n            return pad_top, pad_bottom\n\n        padding_shape = []\n        for filter_dim, stride_val in zip(filter_shape, stride):\n            pad_top, pad_bottom = _pad_top_bottom(filter_dim, stride_val)\n            padding_shape.append(pad_top)\n            padding_shape.append(pad_bottom)\n        depth_top = padding_shape.pop(0)\n        depth_bottom = padding_shape.pop(0)\n        padding_shape.append(depth_top)\n        padding_shape.append(depth_bottom)\n        return tuple(padding_shape)\n\n    def forward(self, inp):\n        inp = self.pad(inp)\n        out = self.pool(inp)\n        return out\n\n\nclass Sentence_Embedding(nn.Module):\n    def __init__(\n        self,\n        embd_dim,\n        num_embeddings=66250,\n        word_embedding_dim=300,\n        token_to_word_path=\"dict.npy\",\n        max_words=16,\n        output_dim=2048,\n    ):\n        super(Sentence_Embedding, self).__init__()\n        self.word_embd = nn.Embedding(num_embeddings, word_embedding_dim)\n        self.fc1 = nn.Linear(word_embedding_dim, output_dim)\n        self.fc2 = nn.Linear(output_dim, embd_dim)\n        self.word_to_token = {}\n        self.max_words = max_words\n        token_to_word = np.load(token_to_word_path)\n        for i, t in enumerate(token_to_word):\n            self.word_to_token[t] = i + 1\n\n    def _zero_pad_tensor_token(self, tensor, size):\n        if len(tensor) >= size:\n            return tensor[:size]\n        else:\n            zero = th.zeros(size - len(tensor)).long()\n            return th.cat((tensor, zero), dim=0)\n\n    def _split_text(self, sentence):\n        w = re.findall(r\"[\\w']+\", str(sentence))\n        return w\n\n    def _words_to_token(self, words):\n        words = [\n            self.word_to_token[word] for word in words if word in self.word_to_token\n        ]\n        if words:\n            we = self._zero_pad_tensor_token(th.LongTensor(words), self.max_words)\n            return we\n        else:\n            return th.zeros(self.max_words).long()\n\n    def _words_to_ids(self, x):\n        split_x = [self._words_to_token(self._split_text(sent.lower())) for sent in x]\n        return th.stack(split_x, dim=0)\n\n    def forward(self, x):\n        x = self._words_to_ids(x)\n        x = self.word_embd(x)\n        x = F.relu(self.fc1(x))\n        x = th.max(x, dim=1)[0]\n        x = self.fc2(x)\n        return {'text_embedding': x}\n\n\nclass S3D(nn.Module):\n    def __init__(self, dict_path, num_classes=512, gating=True, space_to_depth=True):\n        super(S3D, self).__init__()\n        self.num_classes = num_classes\n        self.gating = gating\n        self.space_to_depth = space_to_depth\n        if space_to_depth:\n            self.conv1 = STConv3D(\n                24, 64, [2, 4, 4], stride=1, padding=(1, 2, 2), separable=False\n            )\n        else:\n            self.conv1 = STConv3D(\n                3, 64, [3, 7, 7], stride=2, padding=(1, 3, 3), separable=False\n            )\n        self.conv_2b = STConv3D(64, 64, [1, 1, 1], separable=False)\n        self.conv_2c = STConv3D(64, 192, [3, 3, 3], padding=1, separable=True)\n        self.gating = SelfGating(192)\n        self.maxpool_2a = MaxPool3dTFPadding(\n            kernel_size=(1, 3, 3), stride=(1, 2, 2), padding=\"SAME\"\n        )\n        self.maxpool_3a = MaxPool3dTFPadding(\n            kernel_size=(1, 3, 3), stride=(1, 2, 2), padding=\"SAME\"\n        )\n        self.mixed_3b = InceptionBlock(192, 64, 96, 128, 16, 32, 32)\n        self.mixed_3c = InceptionBlock(\n            self.mixed_3b.output_dim, 128, 128, 192, 32, 96, 64\n        )\n        self.maxpool_4a = MaxPool3dTFPadding(\n            kernel_size=(3, 3, 3), stride=(2, 2, 2), padding=\"SAME\"\n        )\n        self.mixed_4b = InceptionBlock(\n            self.mixed_3c.output_dim, 192, 96, 208, 16, 48, 64\n        )\n        self.mixed_4c = InceptionBlock(\n            self.mixed_4b.output_dim, 160, 112, 224, 24, 64, 64\n        )\n        self.mixed_4d = InceptionBlock(\n            self.mixed_4c.output_dim, 128, 128, 256, 24, 64, 64\n        )\n        self.mixed_4e = InceptionBlock(\n            self.mixed_4d.output_dim, 112, 144, 288, 32, 64, 64\n        )\n        self.mixed_4f = InceptionBlock(\n            self.mixed_4e.output_dim, 256, 160, 320, 32, 128, 128\n        )\n        self.maxpool_5a = self.maxPool3d_5a_2x2 = MaxPool3dTFPadding(\n            kernel_size=(2, 2, 2), stride=(2, 2, 2), padding=\"SAME\"\n        )\n        self.mixed_5b = InceptionBlock(\n            self.mixed_4f.output_dim, 256, 160, 320, 32, 128, 128\n        )\n        self.mixed_5c = InceptionBlock(\n            self.mixed_5b.output_dim, 384, 192, 384, 48, 128, 128\n        )\n        self.fc = nn.Linear(self.mixed_5c.output_dim, num_classes)\n        self.text_module = Sentence_Embedding(num_classes,\n            token_to_word_path=dict_path)\n\n    def _space_to_depth(self, input):\n        \"\"\"3D space to depth trick for TPU optimization.\n      \"\"\"\n        B, C, T, H, W = input.shape\n        input = input.view(B, C, T // 2, 2, H // 2, 2, W // 2, 2)\n        input = input.permute(0, 3, 5, 7, 1, 2, 4, 6)\n        input = input.contiguous().view(B, 8 * C, T // 2, H // 2, W // 2)\n        return input\n\n    def forward(self, inputs):\n        \"\"\"Defines the S3DG base architecture.\"\"\"\n        if self.space_to_depth:\n            inputs = self._space_to_depth(inputs)\n        net = self.conv1(inputs)\n        if self.space_to_depth:\n            # we need to replicate 'SAME' tensorflow padding\n            net = net[:, :, 1:, 1:, 1:]\n        net = self.maxpool_2a(net)\n        net = self.conv_2b(net)\n        net = self.conv_2c(net)\n        if self.gating:\n            net = self.gating(net)\n        net = self.maxpool_3a(net)\n        net = self.mixed_3b(net)\n        net = self.mixed_3c(net)\n        net = self.maxpool_4a(net)\n        net = self.mixed_4b(net)\n        net = self.mixed_4c(net)\n        net = self.mixed_4d(net)\n        net = self.mixed_4e(net)\n        net = self.mixed_4f(net)\n        net = self.maxpool_5a(net)\n        net = self.mixed_5b(net)\n        net = self.mixed_5c(net)\n        net = th.mean(net, dim=[2, 3, 4])\n        return {'video_embedding': self.fc(net), 'mixed_5c': net}\n"
  },
  {
    "path": "examples/MMPT/mmpt/processors/processor.py",
    "content": "# Copyright (c) Facebook, Inc. All Rights Reserved\n\nimport numpy as np\nimport os\nimport torch\n\n\nclass Processor(object):\n    \"\"\"\n    A generic processor for video (codec, feature etc.) and text.\n    \"\"\"\n\n    def __call__(self, **kwargs):\n        raise NotImplementedError\n\n\nclass MetaProcessor(Processor):\n    \"\"\"\n    A meta processor is expected to load the metadata of a dataset:\n        (e.g., video_ids, or captions).\n    You must implement the `__getitem__` (meta datasets are rather diverse.).\n    \"\"\"\n\n    def __init__(self, config):\n        self.split = config.split\n\n    def __len__(self):\n        return len(self.data)\n\n    def __getitem__(self, idx):\n        raise NotImplementedError\n\n    def _get_split_path(self, config):\n        splits = {\n            \"train\": config.train_path,\n            \"valid\": config.val_path,\n            \"test\": config.test_path,\n        }\n        if config.split is not None:\n            return splits[config.split]\n        return config.train_path\n\n\nclass TextProcessor(Processor):\n    \"\"\"\n    A generic Text processor: rename this as `withTokenizer`.\n    tokenize a string of text on-the-fly.\n    Warning: mostly used for end tasks.\n        (on-the-fly tokenization is slow for how2.)\n    TODO(huxu): move this class as a subclass.\n    \"\"\"\n\n    def __init__(self, config):\n        self.bert_name = str(config.bert_name)\n        self.use_fast = config.use_fast\n        from transformers import AutoTokenizer\n        self.tokenizer = AutoTokenizer.from_pretrained(\n            self.bert_name, use_fast=self.use_fast\n        )\n\n    def __call__(self, text_id):\n        caption = self.tokenizer(text_id, add_special_tokens=False)\n        return caption[\"input_ids\"]\n\n\nclass VideoProcessor(Processor):\n    \"\"\"\n    A generic video processor: load a numpy video tokens by default.\n    \"\"\"\n\n    def __init__(self, config):\n        self.vfeat_dir = config.vfeat_dir\n\n    def __call__(self, video_fn):\n        if isinstance(video_fn, tuple):\n            video_fn = video_fn[0]\n        assert isinstance(video_fn, str)\n        video_fn = os.path.join(self.vfeat_dir, video_fn + \".npy\")\n        feat = np.load(video_fn)\n        return feat\n\n\nclass Aligner(object):\n    \"\"\"\n    An alignprocessor align video and text and output a dict of tensors (for a model).\n    \"\"\"\n    def __init__(self, config):\n        \"\"\"__init__ needs to be light weight for more workers/threads.\"\"\"\n        self.split = config.split\n        self.max_video_len = config.max_video_len\n        self.max_len = config.max_len\n        from transformers import AutoTokenizer\n        tokenizer = AutoTokenizer.from_pretrained(\n            str(config.bert_name), use_fast=config.use_fast\n        )\n        self.cls_token_id = tokenizer.cls_token_id\n        self.sep_token_id = tokenizer.sep_token_id\n        self.pad_token_id = tokenizer.pad_token_id\n        self.mask_token_id = tokenizer.mask_token_id\n\n    def __call__(self, video_id, video_feature, text_feature):\n        raise NotImplementedError\n\n    def _build_video_seq(self, video_feature, video_clips=None):\n        \"\"\"\n        `video_feature`: available video tokens.\n        `video_clips`: video clip sequence to build.\n        \"\"\"\n        if not isinstance(video_feature, np.ndarray):\n            raise ValueError(\n                \"unsupported type of video_feature\", type(video_feature)\n            )\n\n        if video_clips is None:\n            # this is borrowed from DSAligner\n            video_start = 0\n            video_end = min(len(video_feature), self.max_video_len)\n            # the whole sequence is a single clip.\n            video_clips = {\"start\": [video_start], \"end\": [video_end]}\n\n        vfeats = np.zeros(\n            (self.max_video_len, video_feature.shape[1]), dtype=np.float32\n        )\n        vmasks = torch.zeros((self.max_video_len,), dtype=torch.bool)\n        video_len = 0\n        for start, end in zip(video_clips[\"start\"], video_clips[\"end\"]):\n            clip_len = min(self.max_video_len - video_len, (end - start))\n            if clip_len > 0:\n                vfeats[video_len: video_len + clip_len] = video_feature[\n                    start: start + clip_len\n                ]\n                vmasks[video_len: video_len + clip_len] = 1\n                video_len += clip_len\n        vfeats = torch.from_numpy(vfeats)\n\n        return vfeats, vmasks\n\n    def _build_text_seq(self, text_feature, text_clip_indexs=None):\n        \"\"\"\n        `text_feature`: all available clips.\n        `text_clip_indexes`: clip sequence to build.\n        \"\"\"\n        if text_clip_indexs is None:\n            text_clip_indexs = [0]\n\n        full_caps = []\n        if isinstance(text_feature, dict):\n            for clip_idx in text_clip_indexs:\n                full_caps.extend(text_feature[\"cap\"][clip_idx])\n        else:\n            full_caps = text_feature\n        max_text_len = self.max_len - self.max_video_len - 3\n        full_caps = full_caps[:max_text_len]\n        full_caps = (\n            [self.cls_token_id, self.sep_token_id] + full_caps + [self.sep_token_id]\n        )\n        text_pad_len = self.max_len - len(full_caps) - self.max_video_len\n        padded_full_caps = full_caps + [self.pad_token_id] * text_pad_len\n        caps = torch.LongTensor(padded_full_caps)\n        cmasks = torch.zeros((len(padded_full_caps),), dtype=torch.bool)\n        cmasks[: len(full_caps)] = 1\n\n        return caps, cmasks\n\n    def batch_post_processing(self, batch, video_feature):\n        return batch\n\n\nclass MMAttentionMask2DProcessor(Processor):\n    \"\"\"text generation requires 2d mask\n    that is harder to generate by GPU at this stage.\"\"\"\n\n    def __call__(self, vmask, cmask, mtype):\n        if mtype == \"textgen\":\n            return self._build_textgeneration_mask(vmask, cmask)\n        elif mtype == \"videogen\":\n            return self._build_videogeneration_mask(vmask, cmask)\n        else:\n            return self._build_mm_mask(vmask, cmask)\n\n    def _build_mm_mask(self, vmask, cmask):\n        mask_1d = torch.cat([cmask[:1], vmask, cmask[1:]], dim=0)\n        return mask_1d[None, :].repeat(mask_1d.size(0), 1)\n\n    def _build_videogeneration_mask(self, vmask, cmask):\n        # cls_mask is only about text otherwise it will leak generation.\n        cls_text_mask = torch.cat([\n            # [CLS]\n            torch.ones(\n                (1,), dtype=torch.bool, device=cmask.device),\n            # video tokens and [SEP] for video.\n            torch.zeros(\n                (vmask.size(0) + 1,), dtype=torch.bool, device=cmask.device),\n            cmask[2:]\n            ], dim=0)\n\n        # concat horizontially.\n        video_len = int(vmask.sum())\n        video_masks = torch.cat([\n            # [CLS]\n            torch.ones(\n                (video_len, 1), dtype=torch.bool, device=cmask.device\n            ),\n            torch.tril(\n                torch.ones(\n                    (video_len, video_len),\n                    dtype=torch.bool, device=cmask.device)),\n            # video_padding\n            torch.zeros(\n                (video_len, vmask.size(0) - video_len),\n                dtype=torch.bool, device=cmask.device\n            ),\n            # [SEP] for video (unused).\n            torch.zeros(\n                (video_len, 1), dtype=torch.bool, device=cmask.device\n            ),\n            cmask[2:].unsqueeze(0).repeat(video_len, 1)\n            ], dim=1)\n\n        text_masks = cls_text_mask[None, :].repeat(\n            cmask.size(0) - 2, 1)\n        video_padding_masks = cls_text_mask[None, :].repeat(\n            vmask.size(0) - video_len, 1)\n\n        return torch.cat([\n            cls_text_mask[None, :],\n            video_masks,\n            video_padding_masks,\n            torch.cat([cmask[:1], vmask, cmask[1:]], dim=0)[None,:],\n            text_masks\n            ], dim=0)\n\n    def _build_textgeneration_mask(self, vmask, cmask):\n        # cls_mask is only about video otherwise it will leak generation.\n        cls_video_mask = torch.cat([\n            # [CLS]\n            torch.ones(\n                (1,), dtype=torch.bool, device=cmask.device),\n            vmask,\n            # [SEP]\n            torch.ones((1,), dtype=torch.bool, device=cmask.device),\n            torch.zeros(\n                (cmask.size(0)-2,), dtype=torch.bool, device=cmask.device)\n        ], dim=0)\n\n        # concat horizontially.\n        text_len = int(cmask[2:].sum())\n        text_masks = torch.cat([\n            # [CLS]\n            torch.ones(\n                (text_len, 1), dtype=torch.bool, device=cmask.device\n            ),\n            vmask.unsqueeze(0).repeat(text_len, 1),\n            # [SEP] for video.\n            torch.ones(\n                (text_len, 1), dtype=torch.bool, device=cmask.device\n            ),\n            torch.tril(\n                torch.ones(\n                    (text_len, text_len),\n                    dtype=torch.bool, device=cmask.device)),\n            # padding.\n            torch.zeros(\n                (text_len, cmask.size(0) - text_len - 2),\n                dtype=torch.bool, device=cmask.device\n            )\n        ], dim=1)\n\n        cls_video_masks = cls_video_mask[None, :].repeat(\n            vmask.size(0) + 2, 1)\n        text_padding_masks = cls_video_mask[None, :].repeat(\n            cmask.size(0) - text_len - 2, 1)\n        return torch.cat([\n            cls_video_masks, text_masks, text_padding_masks], dim=0)\n"
  },
  {
    "path": "examples/MMPT/mmpt/tasks/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nfrom .task import *\nfrom .vlmtask import *\nfrom .retritask import *\n\ntry:\n    from .fairseqmmtask import *\nexcept ImportError:\n    pass\n\ntry:\n    from .milncetask import *\nexcept ImportError:\n    pass\n\ntry:\n    from .expretritask import *\nexcept ImportError:\n    pass\n"
  },
  {
    "path": "examples/MMPT/mmpt/tasks/fairseqmmtask.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nmake a general fairseq task for MM pretraining.\n\"\"\"\n\nimport random\n\nfrom fairseq.tasks import LegacyFairseqTask, register_task\n\nfrom .task import Task\nfrom .retritask import RetriTask\nfrom ..datasets import FairseqMMDataset\nfrom .. import utils\n\n\n@register_task(\"mmtask\")\nclass FairseqMMTask(LegacyFairseqTask):\n    @staticmethod\n    def add_args(parser):\n        # Add some command-line arguments for specifying where the data is\n        # located and the maximum supported input length.\n        parser.add_argument(\n            \"taskconfig\",\n            metavar=\"FILE\",\n            help=(\"taskconfig to load all configurations\" \"outside fairseq parser.\"),\n        )\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        return FairseqMMTask(args)\n\n    def __init__(self, args):\n        super().__init__(args)\n        config = utils.load_config(args)\n        self.mmtask = Task.config_task(config)\n        self.mmtask.build_dataset()\n        self.mmtask.build_model()\n        self.mmtask.build_loss()\n\n    def load_dataset(self, split, **kwargs):\n        split_map = {\n            \"train\": self.mmtask.train_data,\n            \"valid\": self.mmtask.val_data,\n            \"test\": self.mmtask.test_data,\n        }\n        if split not in split_map:\n            raise ValueError(\"unknown split type.\")\n        if split_map[split] is not None:\n            self.datasets[split] = FairseqMMDataset(split_map[split])\n\n    def get_batch_iterator(\n        self,\n        dataset,\n        max_tokens=None,\n        max_sentences=None,\n        max_positions=None,\n        ignore_invalid_inputs=False,\n        required_batch_size_multiple=1,\n        seed=1,\n        num_shards=1,\n        shard_id=0,\n        num_workers=0,\n        epoch=1,\n        data_buffer_size=0,\n        disable_iterator_cache=False,\n        skip_remainder_batch=False,\n        grouped_shuffling=False,\n        update_epoch_batch_itr=False,\n    ):\n        random.seed(epoch)\n        if dataset.mmdataset.split == \"train\" and isinstance(self.mmtask, RetriTask):\n            if epoch >= self.mmtask.config.retri_epoch:\n                if not hasattr(self.mmtask, \"retri_dataloader\"):\n                    self.mmtask.build_dataloader()\n                self.mmtask.retrive_candidates(epoch)\n\n        return super().get_batch_iterator(\n            dataset,\n            max_tokens,\n            max_sentences,\n            max_positions,\n            ignore_invalid_inputs,\n            required_batch_size_multiple,\n            seed,\n            num_shards,\n            shard_id,\n            num_workers,\n            epoch,\n            data_buffer_size,\n            disable_iterator_cache,\n            grouped_shuffling,\n            update_epoch_batch_itr,\n        )\n\n    @property\n    def source_dictionary(self):\n        return None\n\n    @property\n    def target_dictionary(self):\n        return None\n"
  },
  {
    "path": "examples/MMPT/mmpt/tasks/milncetask.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\nfrom .task import Task\n\n\nclass MILNCETask(Task):\n    def reshape_subsample(self, sample):\n        if (\n            hasattr(self.config.dataset, \"subsampling\")\n            and self.config.dataset.subsampling is not None\n            and self.config.dataset.subsampling > 1\n        ):\n            for key in sample:\n                if torch.is_tensor(sample[key]):\n                    tensor = self.flat_subsample(sample[key])\n                    if key in [\"caps\", \"cmasks\"]:\n                        size = tensor.size()\n                        batch_size = size[0] * size[1]\n                        expanded_size = (batch_size,) + size[2:]\n                        tensor = tensor.view(expanded_size)\n                    sample[key] = tensor\n        return sample\n"
  },
  {
    "path": "examples/MMPT/mmpt/tasks/retritask.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport os\nimport torch\nimport pickle\nimport random\n\nfrom tqdm import tqdm\nfrom torch.utils.data import DataLoader\nfrom torch.utils.data.distributed import DistributedSampler\n\nfrom ..processors import (\n    ShardedHow2MetaProcessor,\n    ShardedVideoProcessor,\n    ShardedTextProcessor,\n    VariedLenAligner,\n)\n\nfrom ..datasets import MMDataset\nfrom .task import Task\nfrom ..modules import vectorpool\nfrom ..evaluators.predictor import Predictor\nfrom ..utils import set_seed, get_local_rank, get_world_size\n\n\nclass RetriTask(Task):\n    \"\"\"abstract class for task with retrival.\"\"\"\n\n    def reshape_subsample(self, sample):\n        for key in sample:\n            if torch.is_tensor(sample[key]):\n                sample[key] = self.flat_subsample(sample[key])\n        return sample\n\n    def flat_subsample(self, tensor):\n        if tensor.size(0) == 1:\n            tensor = tensor.squeeze(0)\n        return tensor\n\n    def build_dataloader(self):\n        \"\"\"called by `get_batch_iterator` in fairseqmmtask. \"\"\"\n        # TODO: hard-code dataloader for retri for now and configurable in .yaml.\n        # reuse the `train.lst`.\n        self.config.dataset.split = \"train\"\n        meta_processor = ShardedHow2MetaProcessor(self.config.dataset)\n        video_processor = ShardedVideoProcessor(self.config.dataset)\n        text_processor = ShardedTextProcessor(self.config.dataset)\n\n        aligner = VariedLenAligner(self.config.dataset)\n        aligner.subsampling = self.config.dataset.clip_per_video\n\n        self.retri_data = MMDataset(\n            meta_processor, video_processor, text_processor, aligner\n        )\n\n        retri_sampler = DistributedSampler(self.retri_data)\n        infer_scale = 16\n        batch_size = self.config.dataset.num_video_per_batch \\\n            * infer_scale\n\n        self.retri_dataloader = DataLoader(\n            self.retri_data,\n            collate_fn=self.retri_data.collater,\n            batch_size=batch_size,\n            shuffle=False,\n            sampler=retri_sampler,\n            num_workers=self.config.fairseq.dataset.num_workers\n        )\n        return self.retri_dataloader\n\n    def retrive_candidates(self, epoch, dataloader=None):\n        if get_local_rank() == 0:\n            print(\"running retrieval model.\")\n        out_dir = os.path.join(\n            self.config.fairseq.checkpoint.save_dir, \"retri\")\n        os.makedirs(out_dir, exist_ok=True)\n\n        if not os.path.isfile(\n                os.path.join(\n                    out_dir, \"batched_e\" + str(epoch) + \"_videos0.pkl\")\n        ):\n            if dataloader is None:\n                dataloader = self.retri_dataloader\n\n            self.model.eval()\n            self.model.is_train = False\n\n            assert self.retri_data.meta_processor.data == \\\n                self.train_data.meta_processor.data  # video_ids not mutated.\n\n            self._retri_predict(epoch, dataloader)\n\n            self.model.train()\n            self.model.is_train = True\n\n        torch.distributed.barrier()\n        output = self._retri_sync(epoch, out_dir)\n        torch.distributed.barrier()\n        self.train_data.meta_processor.set_candidates(output)\n        return output\n\n\nclass VideoRetriTask(RetriTask):\n    \"\"\"RetriTask on video level.\"\"\"\n\n    def reshape_subsample(self, sample):\n        if (\n            hasattr(self.config.dataset, \"clip_per_video\")\n            and self.config.dataset.clip_per_video is not None\n            and self.config.dataset.clip_per_video > 1\n        ):\n            for key in sample:\n                if torch.is_tensor(sample[key]):\n                    sample[key] = self.flat_subsample(sample[key])\n        return sample\n\n    def flat_subsample(self, tensor):\n        if tensor.size(0) == 1:\n            tensor = tensor.squeeze(0)\n        return Task.flat_subsample(self, tensor)\n\n    def _retri_predict(self, epoch, dataloader):\n        set_seed(epoch)\n        # save for retrival.\n        predictor = VideoPredictor(self.config)\n        predictor.predict_loop(\n            self.model, dataloader)\n        set_seed(epoch)  # get the same text clips.\n        # retrival.\n        retri_predictor = VideoRetriPredictor(\n            self.config)\n        retri_predictor.predict_loop(\n            self.model, predictor.vecpool.retriver, epoch)\n        del predictor\n        del retri_predictor\n\n    def _retri_sync(self, epoch, out_dir):\n        # gpu do the same merge.\n        batched_videos = []\n        for local_rank in range(get_world_size()):\n            fn = os.path.join(\n                out_dir,\n                \"batched_e\" + str(epoch) + \"_videos\" + str(local_rank) + \".pkl\")\n            with open(fn, \"rb\") as fr:\n                batched_videos.extend(pickle.load(fr))\n        print(\n            \"[INFO] batched_videos\",\n            len(batched_videos), len(batched_videos[0]))\n        return batched_videos\n\n\nclass VideoPredictor(Predictor):\n    def __init__(self, config):\n        vectorpool_cls = getattr(vectorpool, config.vectorpool_cls)\n        self.vecpool = vectorpool_cls(config)\n\n    def predict_loop(\n        self,\n        model,\n        dataloader,\n        early_stop=-1,\n    ):\n        with torch.no_grad():\n            if get_local_rank() == 0:\n                dataloader = tqdm(dataloader)\n            for batch_idx, batch in enumerate(dataloader):\n                if batch_idx == early_stop:\n                    break\n                self(batch, model)\n        return self.finalize()\n\n    def __call__(self, sample, model, **kwargs):\n        param = next(model.parameters())\n        dtype = param.dtype\n        device = param.device\n        subsample = sample[\"vfeats\"].size(1)\n        sample = self.to_ctx(sample, device, dtype)\n        for key in sample:\n            if torch.is_tensor(sample[key]):\n                size = sample[key].size()\n                if len(size) >= 2:\n                    batch_size = size[0] * size[1]\n                    expanded_size = (\n                        (batch_size,) + size[2:] if len(size) > 2\n                        else (batch_size,)\n                    )\n                    sample[key] = sample[key].view(expanded_size)\n\n        outputs = model(**sample)\n        sample.update(outputs)\n        self.vecpool(sample, subsample)\n\n    def finalize(self):\n        print(\"[INFO]\", self.vecpool)\n        if not self.vecpool.retriver.db.is_trained:\n            self.vecpool.retriver.finalize_training()\n        return self.vecpool.retriver\n\n\nclass VideoRetriPredictor(Predictor):\n    \"\"\"\n    Online Retrieval Predictor for Clips (used by RetriTask).\n    TODO: merge this with VisPredictor?\n    \"\"\"\n\n    def __init__(self, config):\n        self.pred_dir = os.path.join(\n            config.fairseq.checkpoint.save_dir,\n            \"retri\")\n        self.num_cands = config.num_cands\n        self.num_video_per_batch = config.dataset.num_video_per_batch\n\n    def predict_loop(\n        self,\n        model,\n        retriver,\n        epoch,\n        early_stop=-1\n    ):\n        # a fake loop that only try to recover video vector\n        # from video_id.\n        batched_videos = []\n        # obtain available video_ids.\n        video_ids = list(retriver.videoid_to_vectoridx.keys())\n\n        dataloader = random.sample(\n            video_ids,\n            len(video_ids) // self.num_video_per_batch\n        )\n\n        if get_local_rank() == 0:\n            dataloader = tqdm(dataloader)\n        for batch_idx, batch in enumerate(dataloader):\n            # batch is one video id.\n            if batch_idx == early_stop:\n                break\n            video_ids = retriver.search_by_video_ids(\n                [batch], self.num_cands)[0]\n            if len(video_ids) > self.num_video_per_batch:\n                # we moved the center to make cluster robust.\n                video_ids = random.sample(video_ids, self.num_video_per_batch)\n            batched_videos.append(video_ids)\n        return self.finalize(batched_videos, epoch)\n\n    def finalize(self, batched_videos, epoch):\n        fn = os.path.join(\n            self.pred_dir,\n            \"batched_e\" + str(epoch) + \"_videos\" + str(get_local_rank()) + \".pkl\")\n        with open(fn, \"wb\") as fw:\n            pickle.dump(batched_videos, fw, pickle.HIGHEST_PROTOCOL)\n        return batched_videos\n"
  },
  {
    "path": "examples/MMPT/mmpt/tasks/task.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport torch\n\nfrom .. import tasks\nfrom .. import models\nfrom .. import losses\nfrom ..datasets import MMDataset\nfrom .. import processors\n\n\nclass Task(object):\n    \"\"\"\n    A task refers to one generic training task (e.g., training one model).\n    \"\"\"\n\n    @classmethod\n    def config_task(cls, config):\n        \"\"\"\n        determine whether to load a hard-coded task or config from a generic one.\n        via if a task string is available in config.\n        \"\"\"\n        if config.task is not None:\n            # TODO (huxu): expand the search scope.\n            task_cls = getattr(tasks, config.task)\n            return task_cls(config)\n        else:\n            return Task(config)\n\n    def __init__(self, config):\n        self.config = config\n        self.train_data = None\n        self.val_data = None\n        self.test_data = None\n\n        self.model = None\n        self.loss_fn = None\n        self.eval_fn = None\n\n    def build_dataset(self):\n        \"\"\"TODO (huxu): move processor breakdown to MMDataset.\"\"\"\n        \"\"\"fill-in `self.train_data`, `self.val_data` and `self.test_data`.\"\"\"\n\n        meta_processor_cls = getattr(\n            processors, self.config.dataset.meta_processor)\n        video_processor_cls = getattr(\n            processors, self.config.dataset.video_processor)\n        text_processor_cls = getattr(\n            processors, self.config.dataset.text_processor)\n        aligner_cls = getattr(\n            processors, self.config.dataset.aligner)\n\n        if self.config.dataset.train_path is not None:\n            self.config.dataset.split = \"train\"\n            # may be used by meta processor.\n            # meta_processor controls different dataset.\n            meta_processor = meta_processor_cls(self.config.dataset)\n            video_processor = video_processor_cls(self.config.dataset)\n            text_processor = text_processor_cls(self.config.dataset)\n            aligner = aligner_cls(self.config.dataset)\n            self.train_data = MMDataset(\n                meta_processor, video_processor, text_processor, aligner\n            )\n            print(\"train_len\", len(self.train_data))\n            output = self.train_data[0]\n            self.train_data.print_example(output)\n        if self.config.dataset.val_path is not None:\n            self.config.dataset.split = \"valid\"\n            # may be used by meta processor.\n            meta_processor = meta_processor_cls(self.config.dataset)\n            video_processor = video_processor_cls(self.config.dataset)\n            text_processor = text_processor_cls(self.config.dataset)\n            aligner = aligner_cls(self.config.dataset)\n            self.val_data = MMDataset(\n                meta_processor, video_processor, text_processor, aligner\n            )\n            print(\"val_len\", len(self.val_data))\n            output = self.val_data[0]\n            self.val_data.print_example(output)\n\n        if self.config.dataset.split == \"test\":\n            # the following is run via lauching fairseq-validate.\n            meta_processor = meta_processor_cls(self.config.dataset)\n            video_processor = video_processor_cls(self.config.dataset)\n            text_processor = text_processor_cls(self.config.dataset)\n\n            self.test_data = MMDataset(\n                meta_processor, video_processor, text_processor, aligner\n            )\n            print(\"test_len\", len(self.test_data))\n            output = self.test_data[0]\n            self.test_data.print_example(output)\n\n    def build_model(self, checkpoint=None):\n        if self.model is None:\n            model_cls = getattr(models, self.config.model.model_cls)\n            self.model = model_cls(self.config)\n        if checkpoint is not None:\n            self.load_checkpoint(checkpoint)\n        return self.model\n\n    def load_checkpoint(self, checkpoint):\n        if self.model is None:\n            raise ValueError(\"model is not initialized.\")\n        state_dict = torch.load(checkpoint)\n        state_dict = self._trim_state_dict(state_dict)\n        self.model.load_state_dict(state_dict, strict=False)\n        # if it's a fp16 model, turn it back.\n        if next(self.model.parameters()).dtype == torch.float16:\n            self.model = self.model.float()\n        return self.model\n\n    def _trim_state_dict(self, state_dict):\n        from collections import OrderedDict\n\n        if \"state_dict\" in state_dict:\n            state_dict = state_dict[\"state_dict\"]\n        if \"model\" in state_dict:  # fairseq checkpoint format.\n            state_dict = state_dict[\"model\"]\n        ret_state_dict = OrderedDict()\n        for (\n            key,\n            value,\n        ) in state_dict.items():\n            # remove fairseq wrapper since this is a task.\n            if key.startswith(\"mmmodel\"):\n                key = key[len(\"mmmodel.\"):]\n            ret_state_dict[key] = value\n        return ret_state_dict\n\n    def build_loss(self):\n        if self.loss_fn is None and self.config.loss is not None:\n            loss_cls = getattr(losses, self.config.loss.loss_cls)\n            self.loss_fn = loss_cls()\n        return self.loss_fn\n\n    def flat_subsample(self, tensor):\n        size = tensor.size()\n        if len(size) >= 2:\n            batch_size = size[0] * size[1]\n            expanded_size = (\n                (batch_size,) + size[2:] if len(size) > 2\n                else (batch_size,)\n            )\n            tensor = tensor.view(expanded_size)\n        return tensor\n\n    def reshape_subsample(self, sample):\n        if (\n            hasattr(self.config.dataset, \"subsampling\")\n            and self.config.dataset.subsampling is not None\n            and self.config.dataset.subsampling > 1\n        ):\n            for key in sample:\n                if torch.is_tensor(sample[key]):\n                    sample[key] = self.flat_subsample(sample[key])\n        return sample\n\n    def __call__(self, model, sample):\n        loss = None\n        loss_scalar = float(\"inf\")\n\n        sample = self.reshape_subsample(sample)\n        outputs = self.model(**sample)\n        sample.update(outputs)\n        if self.loss_fn is not None:\n            loss = self.loss_fn(**sample)\n            loss_scalar = loss.item()\n\n        batch_size = sample[\"caps\"].size(0)\n        sample_size = 1\n        return {\n            \"loss\": loss,\n            \"loss_scalar\": loss_scalar,\n            \"max_len\": self.config.dataset.max_len,\n            \"batch_size\": batch_size,\n            \"sample_size\": sample_size,\n        }\n\n    def build_dataloader(self):\n        \"\"\"only used for trainer that lacks building loaders.\"\"\"\n        raise NotImplementedError\n"
  },
  {
    "path": "examples/MMPT/mmpt/tasks/vlmtask.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport torch\n\nfrom .task import Task\n\n\nclass VLMTask(Task):\n    \"\"\"A VLM task for reproducibility.\n    the collator split subsamples into two sub-batches.\n    This has should have no logic changes.\n    but changed the randomness in frame masking.\n    \"\"\"\n\n    def flat_subsample(self, tensor):\n        size = tensor.size()\n        if len(size) >= 2:\n            batch_size = size[0] * (size[1] // 2)\n            expanded_size = (\n                (batch_size, 2) + size[2:] if len(size) > 2\n                else (batch_size, 2)\n            )\n            tensor = tensor.view(expanded_size)\n            tensor = torch.cat([tensor[:, 0], tensor[:, 1]], dim=0)\n        return tensor\n"
  },
  {
    "path": "examples/MMPT/mmpt/utils/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport random\nimport numpy as np\nimport torch\n\nfrom .shardedtensor import *\nfrom .load_config import *\n\n\ndef set_seed(seed=43211):\n    random.seed(seed)\n    np.random.seed(seed)\n    torch.manual_seed(seed)\n    torch.cuda.manual_seed_all(seed)\n    if torch.backends.cudnn.enabled:\n        torch.backends.cudnn.benchmark = False\n        torch.backends.cudnn.deterministic = True\n\n\ndef get_world_size():\n    if torch.distributed.is_initialized():\n        world_size = torch.distributed.get_world_size()\n    else:\n        world_size = 1\n    return world_size\n\n\ndef get_local_rank():\n    return torch.distributed.get_rank() \\\n        if torch.distributed.is_initialized() else 0\n\n\ndef print_on_rank0(func):\n    local_rank = get_local_rank()\n    if local_rank == 0:\n        print(\"[INFO]\", func)\n\n\nclass RetriMeter(object):\n    \"\"\"\n    Statistics on whether retrieval yields a better pair.\n    \"\"\"\n    def __init__(self, freq=1024):\n        self.freq = freq\n        self.total = 0\n        self.replace = 0\n        self.updates = 0\n\n    def __call__(self, data):\n        if isinstance(data, np.ndarray):\n            self.replace += data.shape[0] - int((data[:, 0] == -1).sum())\n            self.total += data.shape[0]\n        elif torch.is_tensor(data):\n            self.replace += int(data.sum())\n            self.total += data.size(0)\n        else:\n            raise ValueError(\"unsupported RetriMeter data type.\", type(data))\n\n        self.updates += 1\n        if get_local_rank() == 0 and self.updates % self.freq == 0:\n            print(\"[INFO]\", self)\n\n    def __repr__(self):\n        return \"RetriMeter (\" + str(self.replace / self.total) \\\n            + \"/\" + str(self.replace) + \"/\" + str(self.total) + \")\"\n"
  },
  {
    "path": "examples/MMPT/mmpt/utils/load_config.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport os\nimport omegaconf\nfrom omegaconf import OmegaConf\n\n\ndef load_config(args=None, config_file=None, overwrite_fairseq=False):\n    \"\"\"TODO (huxu): move fairseq overwrite to another function.\"\"\"\n    if args is not None:\n        config_file = args.taskconfig\n    config = recursive_config(config_file)\n\n    if config.dataset.subsampling is not None:\n        batch_size = config.fairseq.dataset.batch_size // config.dataset.subsampling\n        print(\n            \"adjusting batch_size to {} due to subsampling {}.\".format(\n                batch_size, config.dataset.subsampling\n            )\n        )\n        config.fairseq.dataset.batch_size = batch_size\n\n    is_test = config.dataset.split is not None and config.dataset.split == \"test\"\n    if not is_test:\n        if (\n            config.fairseq.checkpoint is None\n            or config.fairseq.checkpoint.save_dir is None\n        ):\n            raise ValueError(\"fairseq save_dir or save_path must be specified.\")\n\n        save_dir = config.fairseq.checkpoint.save_dir\n        os.makedirs(save_dir, exist_ok=True)\n        if config.fairseq.common.tensorboard_logdir is not None:\n            tb_run_dir = suffix_rundir(\n                save_dir, config.fairseq.common.tensorboard_logdir\n            )\n            config.fairseq.common.tensorboard_logdir = tb_run_dir\n            print(\n                \"update tensorboard_logdir as\", config.fairseq.common.tensorboard_logdir\n            )\n        os.makedirs(save_dir, exist_ok=True)\n        OmegaConf.save(config=config, f=os.path.join(save_dir, \"config.yaml\"))\n\n    if overwrite_fairseq and config.fairseq is not None and args is not None:\n        # flatten fields.\n        for group in config.fairseq:\n            for field in config.fairseq[group]:\n                print(\"overwrite args.\" + field, \"as\", config.fairseq[group][field])\n                setattr(args, field, config.fairseq[group][field])\n    return config\n\n\ndef recursive_config(config_path):\n    \"\"\"allows for stacking of configs in any depth.\"\"\"\n    config = OmegaConf.load(config_path)\n    if config.includes is not None:\n        includes = config.includes\n        config.pop(\"includes\")\n        base_config = recursive_config(includes)\n        config = OmegaConf.merge(base_config, config)\n    return config\n\n\ndef suffix_rundir(save_dir, run_dir):\n    max_id = -1\n    for search_dir in os.listdir(save_dir):\n        if search_dir.startswith(run_dir):\n            splits = search_dir.split(\"_\")\n            cur_id = int(splits[1]) if len(splits) > 1 else 0\n            max_id = max(max_id, cur_id)\n    return os.path.join(save_dir, run_dir + \"_\" + str(max_id + 1))\n\n\ndef overwrite_dir(config, replace, basedir):\n    for key in config:\n        if isinstance(config[key], str) and config[key].startswith(basedir):\n            config[key] = config[key].replace(basedir, replace)\n        if isinstance(config[key], omegaconf.dictconfig.DictConfig):\n            overwrite_dir(config[key], replace, basedir)\n"
  },
  {
    "path": "examples/MMPT/mmpt/utils/shardedtensor.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport os\nimport pickle\nimport numpy as np\n\n\nclass ShardedTensor(object):\n    def __init__(self, data, starts):\n        self.data = data\n        self.starts = starts\n        assert self.starts[0] == 0\n        assert self.starts[-1] == len(self.data)\n        assert (self.starts[1:] >= self.starts[:-1]).all()\n        assert (self.starts > -1).all()\n\n    @staticmethod\n    def from_list(xs):\n        starts = np.full((len(xs) + 1,), -1, dtype=np.long)\n        data = np.concatenate(xs, axis=0)\n        starts[0] = 0\n        for i, x in enumerate(xs):\n            starts[i + 1] = starts[i] + x.shape[0]\n        assert (starts > -1).all()\n        return ShardedTensor(data, starts)\n\n    def __getitem__(self, i):\n        return self.data[self.starts[i] : self.starts[i + 1]]\n\n    def __len__(self):\n        return len(self.starts) - 1\n\n    def lengths(self):\n        return self.starts[1:] - self.starts[:-1]\n\n    def save(self, path):\n        np.save(path + \"_starts\", self.starts)\n        np.save(path + \"_data\", self.data)\n\n    @staticmethod\n    def load(path, mmap_mode=None):\n        starts = np.load(path + \"_starts.npy\", mmap_mode)\n        data = np.load(path + \"_data.npy\", mmap_mode)\n        return ShardedTensor(data, starts)\n"
  },
  {
    "path": "examples/MMPT/mmpt_cli/localjob.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport os\n\nfrom mmpt.utils import recursive_config\n\n\nclass BaseJob(object):\n    def __init__(self, yaml_file, dryrun=False):\n        self.yaml_file = yaml_file\n        self.config = recursive_config(yaml_file)\n        self.dryrun = dryrun\n\n    def submit(self, **kwargs):\n        raise NotImplementedError\n\n    def _normalize_cmd(self, cmd_list):\n        cmd_list = list(cmd_list)\n        yaml_index = cmd_list.index(\"[yaml]\")\n        cmd_list[yaml_index] = self.yaml_file\n        return cmd_list\n\n\nclass LocalJob(BaseJob):\n\n    CMD_CONFIG = {\n        \"local_single\": [\n            \"fairseq-train\", \"[yaml]\", \"--user-dir\", \"mmpt\",\n            \"--task\", \"mmtask\", \"--arch\", \"mmarch\",\n            \"--criterion\", \"mmloss\",\n        ],\n        \"local_small\": [\n            \"fairseq-train\", \"[yaml]\", \"--user-dir\", \"mmpt\",\n            \"--task\", \"mmtask\", \"--arch\", \"mmarch\",\n            \"--criterion\", \"mmloss\",\n            \"--distributed-world-size\", \"2\"\n        ],\n        \"local_big\": [\n            \"fairseq-train\", \"[yaml]\", \"--user-dir\", \"mmpt\",\n            \"--task\", \"mmtask\", \"--arch\", \"mmarch\",\n            \"--criterion\", \"mmloss\",\n            \"--distributed-world-size\", \"8\"\n        ],\n        \"local_predict\": [\"python\", \"mmpt_cli/predict.py\", \"[yaml]\"],\n    }\n\n    def __init__(self, yaml_file, job_type=None, dryrun=False):\n        super().__init__(yaml_file, dryrun)\n        if job_type is None:\n            self.job_type = \"local_single\"\n            if self.config.task_type is not None:\n                self.job_type = self.config.task_type\n        else:\n            self.job_type = job_type\n        if self.job_type in [\"local_single\", \"local_small\"]:\n            if self.config.fairseq.dataset.batch_size > 32:\n                print(\"decreasing batch_size to 32 for local testing?\")\n\n    def submit(self):\n        cmd_list = self._normalize_cmd(LocalJob.CMD_CONFIG[self.job_type])\n        if \"predict\" not in self.job_type:\n            # append fairseq args.\n            from mmpt.utils import load_config\n\n            config = load_config(config_file=self.yaml_file)\n            for field in config.fairseq:\n                for key in config.fairseq[field]:\n                    if key in [\"fp16\", \"reset_optimizer\", \"reset_dataloader\", \"reset_meters\"]:  # a list of binary flag.\n                        param = [\"--\" + key.replace(\"_\", \"-\")]\n                    else:\n                        if key == \"lr\":\n                            value = str(config.fairseq[field][key][0])\n                        elif key == \"adam_betas\":\n                            value = \"'\"+str(config.fairseq[field][key])+\"'\"\n                        else:\n                            value = str(config.fairseq[field][key])\n                        param = [\n                            \"--\" + key.replace(\"_\", \"-\"),\n                            value\n                        ]\n                    cmd_list.extend(param)\n\n        print(\"launching\", \" \".join(cmd_list))\n        if not self.dryrun:\n            os.system(\" \".join(cmd_list))\n        return JobStatus(\"12345678\")\n\n\nclass JobStatus(object):\n    def __init__(self, job_id):\n        self.job_id = job_id\n\n    def __repr__(self):\n        return self.job_id\n\n    def __str__(self):\n        return self.job_id\n\n    def done(self):\n        return False\n\n    def running(self):\n        return False\n\n    def result(self):\n        if self.done():\n            return \"{} is done.\".format(self.job_id)\n        else:\n            return \"{} is running.\".format(self.job_id)\n\n    def stderr(self):\n        return self.result()\n\n    def stdout(self):\n        return self.result()\n"
  },
  {
    "path": "examples/MMPT/mmpt_cli/predict.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport os\nimport glob\nimport argparse\nimport pprint\nimport omegaconf\n\nfrom omegaconf import OmegaConf\nfrom torch.utils.data import DataLoader\n\nfrom mmpt.utils import load_config, set_seed\nfrom mmpt.evaluators import Evaluator\nfrom mmpt.evaluators import predictor as predictor_path\nfrom mmpt.tasks import Task\nfrom mmpt import processors\nfrom mmpt.datasets import MMDataset\n\n\ndef get_dataloader(config):\n    meta_processor_cls = getattr(processors, config.dataset.meta_processor)\n    video_processor_cls = getattr(processors, config.dataset.video_processor)\n    text_processor_cls = getattr(processors, config.dataset.text_processor)\n    aligner_cls = getattr(processors, config.dataset.aligner)\n\n    meta_processor = meta_processor_cls(config.dataset)\n    video_processor = video_processor_cls(config.dataset)\n    text_processor = text_processor_cls(config.dataset)\n    aligner = aligner_cls(config.dataset)\n\n    test_data = MMDataset(\n        meta_processor,\n        video_processor,\n        text_processor,\n        aligner,\n    )\n    print(\"test_len\", len(test_data))\n    output = test_data[0]\n    test_data.print_example(output)\n\n    test_dataloader = DataLoader(\n        test_data,\n        batch_size=config.fairseq.dataset.batch_size,\n        shuffle=False,\n        num_workers=6,\n        collate_fn=test_data.collater,\n    )\n    return test_dataloader\n\n\ndef main(args):\n    config = load_config(args)\n\n    if isinstance(config, omegaconf.dictconfig.DictConfig):\n        print(OmegaConf.to_yaml(config))\n    else:\n        pp = pprint.PrettyPrinter(indent=4)\n        pp.print(config)\n\n    mmtask = Task.config_task(config)\n    mmtask.build_model()\n\n    test_dataloader = get_dataloader(config)\n    checkpoint_search_path = os.path.dirname(config.eval.save_path)\n    results = []\n\n    prefix = os.path.basename(args.taskconfig)\n    if prefix.startswith(\"test\"):\n        # loop all checkpoint for datasets without validation set.\n        if \"best\" not in config.fairseq.common_eval.path:\n            print(\"eval each epoch.\")\n            for checkpoint in glob.glob(checkpoint_search_path + \"/checkpoint*\"):\n                model = mmtask.load_checkpoint(checkpoint)\n                ckpt = os.path.basename(checkpoint)\n                evaluator = Evaluator(config)\n                output = evaluator.evaluate(\n                    model, test_dataloader, ckpt + \"_merged\")\n                results.append((checkpoint, output))\n        # use the one specified by the config lastly.\n        model = mmtask.load_checkpoint(config.fairseq.common_eval.path)\n        evaluator = Evaluator(config)\n        output = evaluator.evaluate(model, test_dataloader)\n        results.append((config.fairseq.common_eval.path, output))\n\n        best_result = None\n        best_metric = 0.\n        for checkpoint, result in results:\n            print(checkpoint)\n            evaluator.metric.print_computed_metrics(result)\n            best_score = evaluator.metric.best_metric(result)\n            if best_score > best_metric:\n                best_result = (checkpoint, result)\n                best_metric = best_score\n        print(\"best results:\")\n        print(best_result[0])\n        evaluator.metric.print_computed_metrics(best_result[1])\n\n    elif prefix.startswith(\"vis\"):\n        model = mmtask.load_checkpoint(config.fairseq.common_eval.path)\n        predictor_cls = getattr(predictor_path, config.predictor)\n        predictor = predictor_cls(config)\n        predictor.predict_loop(model, test_dataloader, mmtask, None)\n    else:\n        raise ValueError(\"unknown prefix of the config file\", args.taskconfig)\n\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"taskconfig\", type=str)\n    args = parser.parse_args()\n    main(args)\n"
  },
  {
    "path": "examples/MMPT/pretraining.md",
    "content": "# Pretraining\n\n(If you are new to the ideas of `mmpt.processors`, see [README](README.md) first.)\nWe mostly use [howto100M](https://github.com/antoine77340/howto100m) dataset for pretraining (other datasets are coming). So you are less likely to write a new `MetaProcessor`, `VideoProcessor` or `TextProcessor` but only working on a new `Aligner`, a new model and loss.\n\n### Data Sharding\nPretraining on Howto100M is heavy on IO since we have millions of videos or captions on the hard disk that cannot be fit into the memory. \nIt is desirable to have an optimized preprocessing step before the actual dataloading.  \n\nWe support data sharding to pack multiple videos into a shards of training data for both videos and captions. (see [dataset](DATASET.md) for preprocessing).\nThese shards will be mapped into memory to reduce the frequency of IO access on millions of files. See (processors starting with `Sharded*`).\nThis will be the default config for a how2 dataset `projects/task/how2.yaml`.\n\nGreat thanks to Dmytro Okhonko for sharing the code from MARGE project.\n\n### Training\nPretraining on Howto100m is expected on one or multiple nodes, where each node has 8 GPUS with 32 GB mem.\nlaunching a pretraing on MFM+MLM can be done, via:  \n```python locallaunch.py projects/mfmmlm/how2.yaml```\n\n### Pre-training with a Retrieval Model (VideoCLIP)\nThis projects now support alternatively run a retrieval model and pre-training.\nWe implement a basic retrieval model that is built on the hidden states of a video and faiss.\n\nYou may need to install faiss via `conda install faiss-cpu -c pytorch`.  \n\nRight now, the hidden states of a video is computed as the average of 8 clips of their pooled visual/text hidden states.\nSee `mmpt/tasks/retritask.py` for more details.\nThe `.yaml` config for running pre-training with a retrieval model can be found at `projects/retri/videoretri.yaml`.\n"
  },
  {
    "path": "examples/MMPT/projects/mfmmlm.yaml",
    "content": "project_dir: mfmmlm\nrun_task:\n  - how2.yaml\n  - [vtt.yaml, vttcap.yaml, vttqa.yaml, youcook.yaml, youcookcap.yaml, crosstask.yaml, coin.yaml]\nbase_dir: task\ntask_group:\n  pretrain:\n    task_list:\n      - how2.yaml\n    dataset:\n      subsampling: 32\n      sampled_min_len: 10\n      sampled_max_len: 64\n      max_video_len: 32\n      max_len: 96\n      aligner: MFMMLMAligner\n      lazy_vfeat_mask: True\n      mfm_probability: 0.15\n      mlm_probability: 0.15\n      mm_prob: 0.5\n    model:\n      model_cls: MMFusionMFMMLM\n      mm_encoder_cls: MMFusionForMFMMLM\n    loss:\n      loss_cls: MFMMLM\n    fairseq:\n      common:\n        fp16: true\n      dataset:\n        batch_size: 256\n      optimization:\n        max_epoch: 15     \n  finetune:\n    task_list:\n      - vtt.yaml\n      - vttqa.yaml\n      - youcook.yaml\n      - youcookcap.yaml\n      - crosstask.yaml\n      - coin.yaml\n    dataset:\n      max_video_len: 32\n      max_len: 96\n    fairseq:\n      common:\n        fp16: true\n    # do not write any model or loss here (they are expected to be fixed in mmfusion).\n  test:\n    task_list:\n      - test_vtt.yaml\n      - test_vttqa.yaml\n      - test_youcook.yaml\n      - test_youcookcap.yaml\n      - test_crosstask.yaml\n      - test_crosstask_zs.yaml\n      - test_coin.yaml\n    dataset:\n      max_video_len: 32\n      max_len: 96\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/mmfusionmtm.yaml",
    "content": "includes: projects/mfmmlm.yaml\nproject_dir: mtm/mmfusionmtm\ntask_group:\n  pretrain:\n    task: VLMTask  # reproducible\n    dataset:\n      aligner: MFMMLMAligner\n    model:\n      use_seg_emb: True  # reproducible\n      model_cls: MMFusionMTM\n      mm_encoder_cls: MMBertForMFMMLM\n    loss:\n      loss_cls: MTM\n  finetune:\n    model:\n      use_seg_emb: True  # reproducible\n  test:\n    model:\n      use_seg_emb: True  # reproducible\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/vlm/coin.yaml",
    "content": "dataset:\n  video_processor: VideoProcessor\n  bert_name: bert-base-uncased\n  meta_processor: COINActionSegmentationMetaProcessor\n  train_path: data/coin/COIN.json\n  val_path: data/coin/COIN.json\n  vfeat_dir: data/feat/feat_coin_s3d\n  text_processor: COINActionSegmentationTextProcessor\n  aligner: COINActionSegmentationAligner\n  num_iso_layer: 12\n  sliding_window: 8\n  sliding_window_size: 32\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  common:\n    tensorboard_logdir: run\n    log_interval: 1000\n    fp16: true\n  dataset:\n    num_workers: 4\n    batch_size: 1\n  optimization:\n    lr:\n    - 5.0e-05\n    clip_norm: 2.0\n    optimizer: adam\n    adam_betas: (0.9, 0.98)\n    lr_scheduler: polynomial_decay\n    total_num_update: 1000000\n    warmup_updates: 122\n    weight_decay: 0.0\n    ddp_backend: no_c10d\n    max_epoch: 8\n  checkpoint:\n    restore_file: runs/mtm/vlm/checkpoint_best.pt\n    reset_optimizer: true\n    reset_dataloader: true\n    reset_meters: true\n    save_dir: runs/mtm/vlm/coin\ntask_type: sweep_big\nmodel:\n  model_cls: MMFusionActionSegmentation\n  mm_encoder_cls: MMBertForTokenClassification\n  use_seg_emb: true\nloss:\n  loss_cls: CrossEntropy\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/vlm/crosstask.yaml",
    "content": "dataset:\n  video_processor: CrossTaskVideoProcessor\n  bert_name: bert-base-uncased\n  meta_processor: CrossTaskMetaProcessor\n  train_path: data/crosstask/crosstask_release/videos.csv\n  train_csv_path: data/crosstask/crosstask_release/videos.csv\n  val_path: data/crosstask/crosstask_release/videos_val.csv\n  val_csv_path: data/crosstask/crosstask_release/videos_val.csv\n  primary_path: data/crosstask/crosstask_release/tasks_primary.txt\n  related_path: data/crosstask/crosstask_release/tasks_related.txt\n  vfeat_dir: data/feat/feat_crosstask_s3d\n  annotation_path: data/crosstask/crosstask_release/annotations\n  n_train: 30\n  text_processor: CrossTaskTextProcessor\n  aligner: CrossTaskAligner\n  num_iso_layer: 12\n  sliding_window: 16\n  sliding_window_size: 32\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  common:\n    tensorboard_logdir: run\n    log_interval: 1000\n    fp16: true\n  dataset:\n    num_workers: 4\n    batch_size: 1\n  optimization:\n    lr:\n    - 5.0e-05\n    clip_norm: 2.0\n    optimizer: adam\n    adam_betas: (0.9, 0.98)\n    lr_scheduler: polynomial_decay\n    total_num_update: 1000000\n    warmup_updates: 122\n    weight_decay: 0.0\n    ddp_backend: no_c10d\n    max_epoch: 5\n  checkpoint:\n    restore_file: runs/mtm/vlm/checkpoint11.pt\n    reset_optimizer: true\n    reset_dataloader: true\n    reset_meters: true\n    save_dir: runs/mtm/vlm/crosstask\ntask_type: sweep_small\nmodel:\n  model_cls: MMFusionActionLocalization\n  mm_encoder_cls: MMBertForJoint\n  use_seg_emb: true\nloss:\n  loss_cls: BCE\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/vlm/how2.yaml",
    "content": "dataset:\n  video_processor: ShardedVideoProcessor\n  bert_name: bert-base-uncased\n  meta_processor: ShardedHow2MetaProcessor\n  train_path: data/how2/how2_s3d_train.lst\n  val_path: data/how2/how2_s3d_val.lst\n  vfeat_dir: data/feat/feat_how2_s3d_shard_small\n  text_processor: ShardedTextProcessor\n  tfeat_dir: data/feat/feat_how2_s3d_shard_small/raw_caption_dedup.bert-base-uncased.\n  aligner: MFMMLMAligner\n  subsampling: 32\n  sampled_min_len: 8\n  sampled_max_len: 64\n  max_video_len: 32\n  max_len: 96\n  lazy_vfeat_mask: true\n  mfm_probability: 0.15\n  mlm_probability: 0.15\n  mm_prob: 0.5\nfairseq:\n  common:\n    tensorboard_logdir: run\n    log_interval: 1000\n    fp16: true\n  dataset:\n    num_workers: 4\n    batch_size: 256\n  optimization:\n    lr:\n    - 5.0e-05\n    clip_norm: 2.0\n    optimizer: adam\n    adam_betas: (0.9, 0.98)\n    lr_scheduler: polynomial_decay\n    total_num_update: 1000000\n    warmup_updates: 1000\n    weight_decay: 0.0\n    ddp_backend: no_c10d\n    max_epoch: 15\n  checkpoint:\n    save_dir: runs/mtm/vlm\n    save_interval_updates: 1024\n    keep_interval_updates: 2\n    keep_last_epochs: 30\ntask_type: sweep_big\nslurm_config: big\neval:\n  save_path: runs/mtm/vlm\nmodel:\n  model_cls: MMFusionMTM\n  mm_encoder_cls: MMBertForMFMMLM\n  use_seg_emb: true\nloss:\n  loss_cls: MTM\ntask: VLMTask\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/vlm/test_coin.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: VideoProcessor\n  aligner: COINActionSegmentationAligner\n  bert_name: bert-base-uncased\n  test_path: data/coin/COIN.json\n  meta_processor: COINActionSegmentationMetaProcessor\n  vfeat_dir: data/feat/feat_coin_s3d\n  text_processor: COINActionSegmentationTextProcessor\n  num_iso_layer: 12\n  sliding_window: 16\n  sliding_window_size: 32\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 1\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/mtm/vlm/coin/checkpoint_best.pt\nmodel:\n  model_cls: MMFusionActionSegmentation\n  mm_encoder_cls: MMBertForTokenClassification\n  use_seg_emb: true\neval:\n  save_path: runs/mtm/vlm/coin/eval\nmetric: COINActionSegmentationMetric\npredictor: COINPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/vlm/test_crosstask.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: CrossTaskVideoProcessor\n  aligner: CrossTaskAligner\n  bert_name: bert-base-uncased\n  meta_processor: CrossTaskMetaProcessor\n  test_path: data/crosstask/crosstask_release/videos_val.csv\n  train_csv_path: data/crosstask/crosstask_release/videos.csv\n  val_path: data/crosstask/crosstask_release/videos_val.csv\n  val_csv_path: data/crosstask/crosstask_release/videos_val.csv\n  primary_path: data/crosstask/crosstask_release/tasks_primary.txt\n  related_path: data/crosstask/crosstask_release/tasks_related.txt\n  vfeat_dir: data/feat/feat_crosstask_s3d\n  annotation_path: data/crosstask/crosstask_release/annotations\n  n_train: 30\n  text_processor: CrossTaskTextProcessor\n  num_iso_layer: 12\n  sliding_window: 16\n  sliding_window_size: 32\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 1\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/mtm/vlm/crosstask/checkpoint_best.pt\nmodel:\n  model_cls: MMFusionActionLocalization\n  mm_encoder_cls: MMBertForJoint\n  use_seg_emb: true\neval:\n  save_path: runs/mtm/vlm/crosstask/eval\nmetric: CrossTaskMetric\npredictor: CrossTaskPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/vlm/test_crosstask_zs.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: CrossTaskVideoProcessor\n  aligner: CrossTaskAligner\n  bert_name: bert-base-uncased\n  meta_processor: CrossTaskMetaProcessor\n  test_path: data/crosstask/crosstask_release/videos_val.csv\n  train_csv_path: data/crosstask/crosstask_release/videos.csv\n  val_path: data/crosstask/crosstask_release/videos_val.csv\n  val_csv_path: data/crosstask/crosstask_release/videos_val.csv\n  primary_path: data/crosstask/crosstask_release/tasks_primary.txt\n  related_path: data/crosstask/crosstask_release/tasks_related.txt\n  vfeat_dir: data/feat/feat_crosstask_s3d\n  annotation_path: data/crosstask/crosstask_release/annotations\n  n_train: 30\n  text_processor: CrossTaskTextProcessor\n  num_iso_layer: 12\n  sliding_window: 16\n  sliding_window_size: 32\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 1\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/mtm/vlm/checkpoint_best.pt\nmodel:\n  model_cls: MMFusionActionLocalization\n  mm_encoder_cls: MMBertForJoint\n  use_seg_emb: true\neval:\n  save_path: runs/mtm/vlm/crosstask_zs/eval\nmetric: CrossTaskMetric\npredictor: CrossTaskPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/vlm/test_vtt.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: VideoProcessor\n  aligner: DSAligner\n  bert_name: bert-base-uncased\n  meta_processor: MSRVTTMetaProcessor\n  test_path: data/msrvtt/MSRVTT_JSFUSION_test.csv\n  vfeat_dir: data/feat/feat_vtt_s3d\n  text_processor: MSRVTTTextProcessor\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 256\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/mtm/vlm/vtt/checkpoint_last.pt\nmodel:\n  model_cls: MMFusionJoint\n  mm_encoder_cls: MMBertForJoint\n  use_seg_emb: true\neval:\n  save_path: runs/mtm/vlm/vtt/eval\nmetric: RetrievalMetric\npredictor: RetrievalPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/vlm/test_vttqa.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: VideoProcessor\n  aligner: MSRVTTQAAligner\n  bert_name: bert-base-uncased\n  meta_processor: MSRVTTQAMetaProcessor\n  test_path: data/msrvtt-qa/MSR_MC_test.csv\n  vfeat_dir: data/feat/feat_vtt_s3d\n  text_processor: MSRVTTQATextProcessor\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 256\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/mtm/vlm/vttqa/checkpoint_last.pt\nmodel:\n  model_cls: MMFusionJoint\n  mm_encoder_cls: MMBertForJoint\n  use_seg_emb: true\neval:\n  save_path: runs/mtm/vlm/vttqa/eval\nmetric: QAMetric\npredictor: QAPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/vlm/test_youcook.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: YoucookVideoProcessor\n  aligner: DSAligner\n  bert_name: bert-base-uncased\n  meta_processor: YoucookMetaProcessor\n  test_path: data/youcook/youcook_val.pkl\n  trainval_annotation: data/youcook/youcookii_annotations_trainval.json\n  use_annotation_text: true\n  vfeat_dir: data/feat/feat_youcook_s3d\n  text_processor: TextProcessor\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 256\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/mtm/vlm/youcook/checkpoint_last.pt\nmodel:\n  model_cls: MMFusionJoint\n  mm_encoder_cls: MMBertForJoint\n  use_seg_emb: true\neval:\n  save_path: runs/mtm/vlm/youcook/eval\nmetric: RetrievalMetric\npredictor: RetrievalPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/vlm/test_youcookcap.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: YoucookVideoProcessor\n  aligner: DSNLGAligner\n  bert_name: bert-base-uncased\n  meta_processor: YoucookNLGMetaProcessor\n  test_path: data/youcook/val_list.txt\n  trainval_annotation: data/youcook/youcookii_annotations_trainval.json\n  vfeat_dir: data/feat/feat_youcook_s3d\n  text_processor: NLGTextProcessor\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 256\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/mtm/vlm/youcookcap/checkpoint_best.pt\nmodel:\n  model_cls: MMFusionNLG\n  mm_encoder_cls: MMBertForNLG\n  max_decode_length: 24\n  use_seg_emb: true\neval:\n  save_path: runs/mtm/vlm/youcookcap/eval\nmetric: NLGMetric\npredictor: NLGPredictor\ngen_param:\n  num_beams: 5\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/vlm/vtt.yaml",
    "content": "dataset:\n  video_processor: VideoProcessor\n  bert_name: bert-base-uncased\n  meta_processor: MSRVTTMetaProcessor\n  train_path: data/msrvtt/MSRVTT_train.csv\n  jsfusion_path: data/msrvtt/MSRVTT_JSFUSION_test.csv\n  full_test_path: data/msrvtt/MSRVTT_FULL_test.csv\n  dup: 20\n  val_path: data/msrvtt/MSRVTT_JSFUSION_test.csv\n  vfeat_dir: data/feat/feat_vtt_s3d\n  text_processor: MSRVTTTextProcessor\n  json_path: data/msrvtt/MSRVTT_data.json\n  aligner: DSAligner\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  common:\n    tensorboard_logdir: run\n    log_interval: 1000\n    fp16: true\n  dataset:\n    num_workers: 4\n    batch_size: 256\n  optimization:\n    lr:\n    - 5.0e-05\n    clip_norm: 2.0\n    optimizer: adam\n    adam_betas: (0.9, 0.98)\n    lr_scheduler: polynomial_decay\n    total_num_update: 1000000\n    warmup_updates: 122\n    weight_decay: 0.0\n    ddp_backend: no_c10d\n    max_epoch: 10\n  checkpoint:\n    restore_file: runs/mtm/vlm/checkpoint_best.pt\n    reset_optimizer: true\n    reset_dataloader: true\n    reset_meters: true\n    save_dir: runs/mtm/vlm/vtt\ntask_type: sweep_small\nmodel:\n  model_cls: MMFusionJoint\n  mm_encoder_cls: MMBertForJoint\n  use_seg_emb: true\nloss:\n  loss_cls: T2VContraLoss\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/vlm/vttqa.yaml",
    "content": "dataset:\n  video_processor: VideoProcessor\n  bert_name: bert-base-uncased\n  meta_processor: MSRVTTMetaProcessor\n  train_path: data/msrvtt/MSRVTT_train.csv\n  dup: 20\n  val_path: data/msrvtt/MSRVTT_JSFUSION_test.csv\n  vfeat_dir: data/feat/feat_vtt_s3d\n  text_processor: MSRVTTTextProcessor\n  json_path: data/msrvtt/MSRVTT_data.json\n  aligner: DSAligner\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  common:\n    tensorboard_logdir: run\n    log_interval: 1000\n    fp16: true\n  dataset:\n    num_workers: 4\n    batch_size: 128\n  optimization:\n    lr:\n    - 5.0e-05\n    clip_norm: 2.0\n    optimizer: adam\n    adam_betas: (0.9, 0.98)\n    lr_scheduler: polynomial_decay\n    total_num_update: 1000000\n    warmup_updates: 122\n    weight_decay: 0.0\n    ddp_backend: no_c10d\n    max_epoch: 5\n  checkpoint:\n    restore_file: runs/mtm/vlm/checkpoint_best.pt\n    reset_optimizer: true\n    reset_dataloader: true\n    reset_meters: true\n    save_dir: runs/mtm/vlm/vttqa\ntask_type: sweep_small\nmodel:\n  model_cls: MMFusionJoint\n  mm_encoder_cls: MMBertForJoint\n  use_seg_emb: true\nloss:\n  loss_cls: V2TContraLoss\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/vlm/youcook.yaml",
    "content": "dataset:\n  video_processor: YoucookVideoProcessor\n  bert_name: bert-base-uncased\n  meta_processor: YoucookMetaProcessor\n  train_path: data/youcook/youcook_train.pkl\n  val_path: data/youcook/youcook_val.pkl\n  trainval_annotation: data/youcook/youcookii_annotations_trainval.json\n  use_annotation_text: true\n  vfeat_dir: data/feat/feat_youcook_s3d\n  text_processor: TextProcessor\n  aligner: DSAligner\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  common:\n    tensorboard_logdir: run\n    log_interval: 1000\n    fp16: true\n  dataset:\n    num_workers: 4\n    batch_size: 128\n  optimization:\n    lr:\n    - 5.0e-05\n    clip_norm: 2.0\n    optimizer: adam\n    adam_betas: (0.9, 0.98)\n    lr_scheduler: polynomial_decay\n    total_num_update: 1000000\n    warmup_updates: 122\n    weight_decay: 0.0\n    ddp_backend: no_c10d\n    max_epoch: 10\n  checkpoint:\n    restore_file: runs/mtm/vlm/checkpoint_best.pt\n    reset_optimizer: true\n    reset_dataloader: true\n    reset_meters: true\n    save_dir: runs/mtm/vlm/youcook\ntask_type: sweep_small\nmodel:\n  model_cls: MMFusionJoint\n  mm_encoder_cls: MMBertForJoint\n  use_seg_emb: true\nloss:\n  loss_cls: T2VContraLoss\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/vlm/youcookcap.yaml",
    "content": "dataset:\n  video_processor: YoucookVideoProcessor\n  bert_name: bert-base-uncased\n  meta_processor: YoucookNLGMetaProcessor\n  train_path: data/youcook/train_list.txt\n  val_path: data/youcook/val_list.txt\n  trainval_annotation: data/youcook/youcookii_annotations_trainval.json\n  vfeat_dir: data/feat/feat_youcook_s3d\n  text_processor: NLGTextProcessor\n  aligner: DSNLGAligner\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  common:\n    tensorboard_logdir: run\n    log_interval: 1000\n    fp16: true\n  dataset:\n    num_workers: 4\n    batch_size: 128\n  optimization:\n    lr:\n    - 5.0e-05\n    clip_norm: 2.0\n    optimizer: adam\n    adam_betas: (0.9, 0.98)\n    lr_scheduler: polynomial_decay\n    total_num_update: 1000000\n    warmup_updates: 122\n    weight_decay: 0.0\n    ddp_backend: no_c10d\n    max_epoch: 10\n  checkpoint:\n    restore_file: runs/mtm/vlm/checkpoint_best.pt\n    reset_optimizer: true\n    reset_dataloader: true\n    reset_meters: true\n    save_dir: runs/mtm/vlm/youcookcap\ntask_type: sweep_small\nmodel:\n  model_cls: MMFusionNLG\n  mm_encoder_cls: MMBertForNLG\n  use_seg_emb: true\nloss:\n  loss_cls: NLGLoss\n"
  },
  {
    "path": "examples/MMPT/projects/mtm/vlm.yaml",
    "content": "includes: projects/mtm/mmfusionmtm.yaml\nproject_dir: mtm/vlm\ntask_group:\n  pretrain:\n    dataset:\n      sampled_min_len: 8\n    loss:\n      loss_cls: MTM\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/coin_videoclip.yaml",
    "content": "dataset:\n  video_processor: VideoProcessor\n  bert_name: bert-base-uncased\n  meta_processor: COINActionSegmentationMetaProcessor\n  train_path: data/coin/COIN.json\n  val_path: data/coin/COIN.json\n  vfeat_dir: data/feat/feat_coin_s3d\n  text_processor: COINActionSegmentationTextProcessor\n  aligner: COINActionSegmentationAligner\n  num_iso_layer: 12\n  sliding_window: 8\n  sliding_window_size: 32\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  common:\n    tensorboard_logdir: run\n    log_interval: 1000\n    fp16: true\n  dataset:\n    num_workers: 4\n    batch_size: 1\n  optimization:\n    lr:\n    - 5.0e-05\n    clip_norm: 2.0\n    optimizer: adam\n    adam_betas: (0.9, 0.98)\n    lr_scheduler: polynomial_decay\n    total_num_update: 1000000\n    warmup_updates: 122\n    weight_decay: 0.0\n    ddp_backend: no_c10d\n    max_epoch: 8\n  checkpoint:\n    restore_file: runs/retri/videoclip/checkpoint_best.pt\n    reset_optimizer: true\n    reset_dataloader: true\n    reset_meters: true\n    save_dir: runs/retri/videoclip/coin\ntask_type: sweep_big\nmodel:\n  model_cls: MMFusionSeparateActionSegmentation\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForTokenClassification\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\nloss:\n  loss_cls: CrossEntropy\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/crosstask_videoclip.yaml",
    "content": "dataset:\n  video_processor: CrossTaskVideoProcessor\n  bert_name: bert-base-uncased\n  meta_processor: CrossTaskMetaProcessor\n  train_path: data/crosstask/crosstask_release/videos.csv\n  train_csv_path: data/crosstask/crosstask_release/videos.csv\n  val_path: data/crosstask/crosstask_release/videos_val.csv\n  val_csv_path: data/crosstask/crosstask_release/videos_val.csv\n  primary_path: data/crosstask/crosstask_release/tasks_primary.txt\n  related_path: data/crosstask/crosstask_release/tasks_related.txt\n  vfeat_dir: data/feat/feat_crosstask_s3d\n  annotation_path: data/crosstask/crosstask_release/annotations\n  n_train: 30\n  text_processor: CrossTaskTextProcessor\n  aligner: CrossTaskAligner\n  num_iso_layer: 12\n  sliding_window: 16\n  sliding_window_size: 32\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  common:\n    tensorboard_logdir: run\n    log_interval: 1000\n    fp16: true\n  dataset:\n    num_workers: 4\n    batch_size: 1\n  optimization:\n    lr:\n    - 5.0e-05\n    clip_norm: 2.0\n    optimizer: adam\n    adam_betas: (0.9, 0.98)\n    lr_scheduler: polynomial_decay\n    total_num_update: 1000000\n    warmup_updates: 122\n    weight_decay: 0.0\n    ddp_backend: no_c10d\n    max_epoch: 5\n  checkpoint:\n    restore_file: runs/retri/videoclip/checkpoint_best.pt\n    reset_optimizer: true\n    reset_dataloader: true\n    reset_meters: true\n    save_dir: runs/retri/videoclip/crosstask\ntask_type: sweep_small\nmodel:\n  model_cls: MMFusionSeparateActionLocalization\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\nloss:\n  loss_cls: BCE\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/how2.yaml",
    "content": "dataset:\n  video_processor: ShardedVideoRetriVideoProcessor\n  bert_name: bert-base-uncased\n  meta_processor: ShardedHow2VideoRetriMetaProcessor\n  train_path: data/how2/how2_s3d_train.lst\n  val_path: data/how2/how2_s3d_val.lst\n  vfeat_dir: data/feat/feat_how2_s3d_shard_small\n  text_processor: ShardedVideoRetriTextProcessor\n  tfeat_dir: data/feat/feat_how2_s3d_shard_small/raw_caption_dedup.bert-base-uncased.\n  aligner: VideoRetriOverlappedAligner\n  subsampling: 1\n  sampled_min_len: 8\n  sampled_max_len: 64\n  max_video_len: 32\n  max_len: 96\n  lazy_vfeat_mask: true\n  mfm_probability: 0.15\n  mlm_probability: 0.15\n  mm_prob: 0.5\n  sampled_video_min_len: 3\n  sampled_video_max_len: 32\n  num_video_per_batch: 32\n  clip_per_video: 16\nfairseq:\n  common:\n    tensorboard_logdir: run\n    log_interval: 1000\n    fp16: true\n  dataset:\n    num_workers: 4\n    batch_size: 1\n  optimization:\n    lr:\n    - 5.0e-05\n    clip_norm: 2.0\n    optimizer: adam\n    adam_betas: (0.9, 0.98)\n    lr_scheduler: polynomial_decay\n    total_num_update: 1000000\n    warmup_updates: 1000\n    weight_decay: 0.0\n    ddp_backend: no_c10d\n    max_epoch: 25\n  checkpoint:\n    save_dir: runs/retri/videoclip\n    save_interval_updates: 1024\n    keep_interval_updates: 2\n    keep_last_epochs: 30\ntask_type: sweep_big\nslurm_config: big\neval:\n  save_path: runs/retri/videoclip\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\nloss:\n  loss_cls: MMContraLoss\ntask: VideoRetriTask\nretri_epoch: 1\nvectorpool_cls: VideoVectorPool\nretriever_cls: VectorRetriever\nnum_cands: 64\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/test_coin_videoclip.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: VideoProcessor\n  aligner: COINActionSegmentationAligner\n  bert_name: bert-base-uncased\n  test_path: data/coin/COIN.json\n  meta_processor: COINActionSegmentationMetaProcessor\n  vfeat_dir: data/feat/feat_coin_s3d\n  text_processor: COINActionSegmentationTextProcessor\n  num_iso_layer: 12\n  sliding_window: 16\n  sliding_window_size: 32\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 1\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/retri/videoclip/coin/checkpoint_best.pt\nmodel:\n  model_cls: MMFusionSeparateActionSegmentation\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForTokenClassification\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/retri/videoclip/coin/eval\nmetric: COINActionSegmentationMetric\npredictor: COINPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/test_coin_zs.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: VideoProcessor\n  aligner: COINActionSegmentationAligner\n  bert_name: bert-base-uncased\n  test_path: data/coin/COIN.json\n  meta_processor: COINActionSegmentationMetaProcessor\n  vfeat_dir: data/feat/feat_coin_s3d\n  text_processor: COINActionSegmentationTextProcessor\n  num_iso_layer: 12\n  sliding_window: 16\n  sliding_window_size: 32\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 1\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/retri/videoclip/checkpoint_best.pt\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/retri/videoclip/coin_zs/eval\nmetric: COINActionSegmentationMetric\npredictor: COINZSPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/test_crosstask_videoclip.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: CrossTaskVideoProcessor\n  aligner: CrossTaskAligner\n  bert_name: bert-base-uncased\n  meta_processor: CrossTaskMetaProcessor\n  test_path: data/crosstask/crosstask_release/videos_val.csv\n  train_csv_path: data/crosstask/crosstask_release/videos.csv\n  val_path: data/crosstask/crosstask_release/videos_val.csv\n  val_csv_path: data/crosstask/crosstask_release/videos_val.csv\n  primary_path: data/crosstask/crosstask_release/tasks_primary.txt\n  related_path: data/crosstask/crosstask_release/tasks_related.txt\n  vfeat_dir: data/feat/feat_crosstask_s3d\n  annotation_path: data/crosstask/crosstask_release/annotations\n  n_train: 30\n  text_processor: CrossTaskTextProcessor\n  num_iso_layer: 12\n  sliding_window: 16\n  sliding_window_size: 32\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 1\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/retri/videoclip/crosstask/checkpoint_best.pt\nmodel:\n  model_cls: MMFusionSeparateActionLocalization\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/retri/videoclip/crosstask/eval\nmetric: CrossTaskMetric\npredictor: CrossTaskPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/test_crosstask_zs_videoclip.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: CrossTaskVideoProcessor\n  aligner: CrossTaskAligner\n  bert_name: bert-base-uncased\n  meta_processor: CrossTaskMetaProcessor\n  test_path: data/crosstask/crosstask_release/videos_val.csv\n  train_csv_path: data/crosstask/crosstask_release/videos.csv\n  val_path: data/crosstask/crosstask_release/videos_val.csv\n  val_csv_path: data/crosstask/crosstask_release/videos_val.csv\n  primary_path: data/crosstask/crosstask_release/tasks_primary.txt\n  related_path: data/crosstask/crosstask_release/tasks_related.txt\n  vfeat_dir: data/feat/feat_crosstask_s3d\n  annotation_path: data/crosstask/crosstask_release/annotations\n  n_train: 30\n  text_processor: CrossTaskTextProcessor\n  num_iso_layer: 12\n  sliding_window: 16\n  sliding_window_size: 32\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 1\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/retri/videoclip/checkpoint_best.pt\nmodel:\n  model_cls: MMFusionSeparateActionLocalization\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/retri/videoclip/crosstask_zs/eval\nmetric: CrossTaskMetric\npredictor: CrossTaskPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/test_didemo_zs.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: VideoProcessor\n  aligner: DiDeMoAligner\n  bert_name: bert-base-uncased\n  meta_processor: DiDeMoMetaProcessor\n  test_path: data/didemo/test_data.json\n  vfeat_dir: data/feat/feat_didemo_s3d\n  text_processor: DiDeMoTextProcessor\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 256\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/retri/videoclip/checkpoint_best.pt\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/retri/videoclip/didemo_zs/eval\nmetric: DiDeMoMetric\npredictor: DiDeMoPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/test_vtt_videoclip.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: VideoProcessor\n  aligner: DSAligner\n  bert_name: bert-base-uncased\n  meta_processor: MSRVTTMetaProcessor\n  test_path: data/msrvtt/MSRVTT_JSFUSION_test.csv\n  vfeat_dir: data/feat/feat_vtt_s3d\n  text_processor: MSRVTTTextProcessor\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 256\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/retri/videoclip/vtt/checkpoint_last.pt\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/retri/videoclip/vtt/eval\nmetric: RetrievalMetric\npredictor: RetrievalPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/test_vtt_zs.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: VideoProcessor\n  aligner: DSAligner\n  bert_name: bert-base-uncased\n  meta_processor: MSRVTTMetaProcessor\n  test_path: data/msrvtt/MSRVTT_JSFUSION_test.csv\n  vfeat_dir: data/feat/feat_vtt_s3d\n  text_processor: MSRVTTTextProcessor\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 256\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/retri/videoclip/checkpoint_best.pt\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/retri/videoclip/vtt_zs/eval\nmetric: RetrievalMetric\npredictor: RetrievalPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/test_vttqa_videoclip.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: VideoProcessor\n  aligner: MSRVTTQAAligner\n  bert_name: bert-base-uncased\n  meta_processor: MSRVTTQAMetaProcessor\n  test_path: data/msrvtt-qa/MSR_MC_test.csv\n  vfeat_dir: data/feat/feat_vtt_s3d\n  text_processor: MSRVTTQATextProcessor\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 256\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/retri/videoclip/vttqa/checkpoint_last.pt\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/retri/videoclip/vttqa/eval\nmetric: QAMetric\npredictor: QAPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/test_vttqa_zs.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: VideoProcessor\n  aligner: MSRVTTQAAligner\n  bert_name: bert-base-uncased\n  meta_processor: MSRVTTQAMetaProcessor\n  test_path: data/msrvtt-qa/MSR_MC_test.csv\n  vfeat_dir: data/feat/feat_vtt_s3d\n  text_processor: MSRVTTQATextProcessor\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 256\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/retri/videoclip/checkpoint_best.pt\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/retri/videoclip/vttqa_zs/eval\nmetric: QAMetric\npredictor: QAPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/test_youcook_videoclip.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: YoucookVideoProcessor\n  aligner: DSAligner\n  bert_name: bert-base-uncased\n  meta_processor: YoucookMetaProcessor\n  test_path: data/youcook/youcook_val.pkl\n  trainval_annotation: data/youcook/youcookii_annotations_trainval.json\n  use_annotation_text: true\n  vfeat_dir: data/feat/feat_youcook_s3d\n  text_processor: TextProcessor\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 256\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/retri/videoclip/youcook/checkpoint_last.pt\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/retri/videoclip/youcook/eval\nmetric: RetrievalMetric\npredictor: RetrievalPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/test_youcook_zs.yaml",
    "content": "slurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: YoucookVideoProcessor\n  aligner: DSAligner\n  bert_name: bert-base-uncased\n  meta_processor: YoucookMetaProcessor\n  test_path: data/youcook/youcook_val.pkl\n  trainval_annotation: data/youcook/youcookii_annotations_trainval.json\n  use_annotation_text: true\n  vfeat_dir: data/feat/feat_youcook_s3d\n  text_processor: TextProcessor\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  dataset:\n    batch_size: 256\n    valid_subset: test\n    num_workers: 2\n  common_eval:\n    path: runs/retri/videoclip/checkpoint_best.pt\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/retri/videoclip/youcook_zs/eval\nmetric: RetrievalMetric\npredictor: RetrievalPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/vtt_videoclip.yaml",
    "content": "dataset:\n  video_processor: VideoProcessor\n  bert_name: bert-base-uncased\n  meta_processor: MSRVTTMetaProcessor\n  train_path: data/msrvtt/MSRVTT_train.csv\n  jsfusion_path: data/msrvtt/MSRVTT_JSFUSION_test.csv\n  full_test_path: data/msrvtt/MSRVTT_FULL_test.csv\n  dup: 20\n  val_path: data/msrvtt/MSRVTT_JSFUSION_test.csv\n  vfeat_dir: data/feat/feat_vtt_s3d\n  text_processor: MSRVTTTextProcessor\n  json_path: data/msrvtt/MSRVTT_data.json\n  aligner: DSAligner\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  common:\n    tensorboard_logdir: run\n    log_interval: 1000\n    fp16: true\n  dataset:\n    num_workers: 4\n    batch_size: 224\n  optimization:\n    lr:\n    - 5.0e-05\n    clip_norm: 2.0\n    optimizer: adam\n    adam_betas: (0.9, 0.98)\n    lr_scheduler: polynomial_decay\n    total_num_update: 1000000\n    warmup_updates: 122\n    weight_decay: 0.0\n    ddp_backend: no_c10d\n    max_epoch: 10\n  checkpoint:\n    restore_file: runs/retri/videoclip/checkpoint_best.pt\n    reset_optimizer: true\n    reset_dataloader: true\n    reset_meters: true\n    save_dir: runs/retri/videoclip/vtt\ntask_type: sweep_small\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\nloss:\n  loss_cls: T2VContraLoss\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/vttqa_videoclip.yaml",
    "content": "dataset:\n  video_processor: VideoProcessor\n  bert_name: bert-base-uncased\n  meta_processor: MSRVTTMetaProcessor\n  train_path: data/msrvtt/MSRVTT_train.csv\n  dup: 20\n  val_path: data/msrvtt/MSRVTT_JSFUSION_test.csv\n  vfeat_dir: data/feat/feat_vtt_s3d\n  text_processor: MSRVTTTextProcessor\n  json_path: data/msrvtt/MSRVTT_data.json\n  aligner: DSAligner\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  common:\n    tensorboard_logdir: run\n    log_interval: 1000\n    fp16: true\n  dataset:\n    num_workers: 4\n    batch_size: 128\n  optimization:\n    lr:\n    - 5.0e-05\n    clip_norm: 2.0\n    optimizer: adam\n    adam_betas: (0.9, 0.98)\n    lr_scheduler: polynomial_decay\n    total_num_update: 1000000\n    warmup_updates: 122\n    weight_decay: 0.0\n    ddp_backend: no_c10d\n    max_epoch: 5\n  checkpoint:\n    restore_file: runs/retri/videoclip/checkpoint_best.pt\n    reset_optimizer: true\n    reset_dataloader: true\n    reset_meters: true\n    save_dir: runs/retri/videoclip/vttqa\ntask_type: sweep_small\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\nloss:\n  loss_cls: V2TContraLoss\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip/youcook_videoclip.yaml",
    "content": "dataset:\n  video_processor: YoucookVideoProcessor\n  bert_name: bert-base-uncased\n  meta_processor: YoucookMetaProcessor\n  train_path: data/youcook/youcook_train.pkl\n  val_path: data/youcook/youcook_val.pkl\n  trainval_annotation: data/youcook/youcookii_annotations_trainval.json\n  use_annotation_text: true\n  vfeat_dir: data/feat/feat_youcook_s3d\n  text_processor: TextProcessor\n  aligner: DSAligner\n  num_iso_layer: 12\n  max_video_len: 32\n  max_len: 96\nfairseq:\n  common:\n    tensorboard_logdir: run\n    log_interval: 1000\n    fp16: true\n  dataset:\n    num_workers: 4\n    batch_size: 128\n  optimization:\n    lr:\n    - 5.0e-05\n    clip_norm: 2.0\n    optimizer: adam\n    adam_betas: (0.9, 0.98)\n    lr_scheduler: polynomial_decay\n    total_num_update: 1000000\n    warmup_updates: 122\n    weight_decay: 0.0\n    ddp_backend: no_c10d\n    max_epoch: 10\n  checkpoint:\n    restore_file: runs/retri/videoclip/checkpoint_best.pt\n    reset_optimizer: true\n    reset_dataloader: true\n    reset_meters: true\n    save_dir: runs/retri/videoclip/youcook\ntask_type: sweep_small\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: null\n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\nloss:\n  loss_cls: T2VContraLoss\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoclip.yaml",
    "content": "includes: projects/retri/videoretri.yaml\nproject_dir: retri/videoclip\ntask_group:\n  pretrain:\n    model:\n      model_cls: MMFusionSeparate\n      mm_encoder_cls: \n      video_encoder_cls: MMBertForEncoder\n      text_encoder_cls: BertModel\n      num_hidden_video_layers: 6\n"
  },
  {
    "path": "examples/MMPT/projects/retri/videoretri.yaml",
    "content": "includes: projects/mfmmlm.yaml\nproject_dir: retri/videoretri\nrun_task:\n  - how2.yaml\ntask_group:\n  pretrain:\n    task: VideoRetriTask\n    retri_epoch: 1\n    vectorpool_cls: VideoVectorPool\n    retriever_cls: VectorRetriever\n    num_cands: 64\n    dataset:\n      train_path: data/how2/how2_s3d_train.lst\n      meta_processor: ShardedHow2VideoRetriMetaProcessor\n      video_processor: ShardedVideoRetriVideoProcessor\n      text_processor: ShardedVideoRetriTextProcessor\n      aligner: VideoRetriOverlappedAligner\n      sampled_video_min_len: 3\n      sampled_video_max_len: 32\n      sampled_min_len: 8\n      sampled_max_len: 64\n      num_video_per_batch: 32\n      # do not use subsampling as it changes fairseq batch_size.\n      subsampling: 1 # disable subsampling\n      clip_per_video: 16\n    fairseq:\n      dataset:\n        batch_size: 1\n      optimization:\n        max_epoch: 25\n    model:\n      model_cls: MMFusionShare\n      mm_encoder_cls: MMBertForEncoder\n    loss:\n      loss_cls: MMContraLoss\n  finetune:\n    task_list: [vtt_videoclip.yaml, youcook_videoclip.yaml, vttqa_videoclip.yaml, crosstask_videoclip.yaml, coin_videoclip.yaml]\n  test:\n    task_list:\n      - test_youcook_zs.yaml\n      - test_vtt_zs.yaml\n      - test_vttqa_zs.yaml\n      - test_crosstask_zs_videoclip.yaml\n      - test_coin_zs.yaml\n      - test_didemo_zs.yaml\n      - test_youcook_videoclip.yaml\n      - test_vtt_videoclip.yaml\n      - test_vttqa_videoclip.yaml\n      - test_crosstask_videoclip.yaml\n      - test_coin_videoclip.yaml\n \n"
  },
  {
    "path": "examples/MMPT/projects/task/coin.yaml",
    "content": "includes: projects/task/ft.yaml\ntask_type: sweep_big\ndataset:\n  meta_processor: COINActionSegmentationMetaProcessor\n  train_path: data/coin/COIN.json\n  val_path: data/coin/COIN.json\n  vfeat_dir: data/feat/feat_coin_s3d\n  video_processor: VideoProcessor\n  text_processor: COINActionSegmentationTextProcessor\n  aligner: COINActionSegmentationAligner\n  num_iso_layer: 12\n  sliding_window: 8\n  sliding_window_size: 32\nmodel:\n  model_cls: MMFusionActionSegmentation\n  mm_encoder_cls: MMBertForTokenClassification\nloss:\n  loss_cls: CrossEntropy\nfairseq:\n  dataset:\n    batch_size: 1\n  optimization:\n    max_epoch: 8\n  checkpoint:\n    save_dir: runs/task/coin\n"
  },
  {
    "path": "examples/MMPT/projects/task/coin_videoclip.yaml",
    "content": "includes: projects/task/coin.yaml\nmodel:\n  model_cls: MMFusionSeparateActionSegmentation\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForTokenClassification\n  text_encoder_cls: BertModel  # dummy, not used.\n  num_hidden_video_layers: 6\n"
  },
  {
    "path": "examples/MMPT/projects/task/crosstask.yaml",
    "content": "includes: projects/task/ft.yaml\ndataset:\n  meta_processor: CrossTaskMetaProcessor\n  train_path: data/crosstask/crosstask_release/videos.csv  # dummy\n  train_csv_path: data/crosstask/crosstask_release/videos.csv\n  val_path: data/crosstask/crosstask_release/videos_val.csv  # dummy\n  val_csv_path: data/crosstask/crosstask_release/videos_val.csv    \n  primary_path: data/crosstask/crosstask_release/tasks_primary.txt\n  related_path: data/crosstask/crosstask_release/tasks_related.txt\n  vfeat_dir: data/feat/feat_crosstask_s3d\n  annotation_path: data/crosstask/crosstask_release/annotations\n  n_train: 30\n  video_processor: CrossTaskVideoProcessor\n  text_processor: CrossTaskTextProcessor\n  aligner: CrossTaskAligner\n  num_iso_layer: 12\n  sliding_window: 16\n  sliding_window_size: 32\nmodel:\n  model_cls: MMFusionActionLocalization\n  mm_encoder_cls: MMBertForJoint\nloss:\n  loss_cls: BCE\nfairseq:\n  dataset:\n    batch_size: 1\n  optimization:\n    max_epoch: 5\n  checkpoint:\n    save_dir: runs/task/crosstask\n    restore_file: runs/task/checkpoint11.pt  # for VLM\n"
  },
  {
    "path": "examples/MMPT/projects/task/crosstask_videoclip.yaml",
    "content": "includes: projects/task/crosstask.yaml\nmodel:\n  model_cls: MMFusionSeparateActionLocalization\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel  # dummy, not used.\n  num_hidden_video_layers: 6\nfairseq:\n  checkpoint:\n    restore_file: runs/task/checkpoint_best.pt  # overwrite the default of VLM.\n"
  },
  {
    "path": "examples/MMPT/projects/task/default.yaml",
    "content": "# this yaml cannot be run alone. you must use `how2.yaml`, `vtt.yaml` etc for training.\ndataset:\n  video_processor: VideoProcessor\n  bert_name: bert-base-uncased\nfairseq:\n  common:\n    tensorboard_logdir: run\n    log_interval: 1000\n  dataset:\n    num_workers: 4\n  optimization:\n    lr: [ 0.00005 ]\n    clip_norm: 2.0\n    optimizer: adam\n    adam_betas: (0.9, 0.98)\n    lr_scheduler: polynomial_decay\n    total_num_update: 1000000  # backward compatible on fairseq 1.0.0a0+af0389f for reproducibility.\n    warmup_updates: 1000\n    weight_decay: 0.0\n    ddp_backend: no_c10d\n"
  },
  {
    "path": "examples/MMPT/projects/task/ft.yaml",
    "content": "includes: projects/task/default.yaml\n# all derived config will be run by fairseq-train.\ntask_type: sweep_small\nfairseq:\n  optimization:\n    warmup_updates: 122 # copied from roberta glue: https://github.com/pytorch/fairseq/blob/master/examples/roberta/README.glue.md\n  checkpoint:\n    # save_interval_updates: 512\n    # borrowed from Roberta script.\n    restore_file: runs/task/checkpoint_best.pt\n    reset_optimizer: True\n    reset_dataloader: True\n    reset_meters: True\n"
  },
  {
    "path": "examples/MMPT/projects/task/how2.yaml",
    "content": "includes: projects/task/default.yaml\ntask_type: sweep_big\nslurm_config: big\ndataset:\n  meta_processor: ShardedHow2MetaProcessor\n  train_path: data/how2/how2_s3d_train.lst\n  val_path: data/how2/how2_s3d_val.lst\n  video_processor: ShardedVideoProcessor\n  vfeat_dir: data/feat/feat_how2_s3d_shard_small\n  text_processor: ShardedTextProcessor\n  tfeat_dir: data/feat/feat_how2_s3d_shard_small/raw_caption_dedup.bert-base-uncased.\n  aligner: FixedLenAligner\n# disable direct running of this yaml\neval:\n  save_path: runs/task\nfairseq:\n  checkpoint:\n    save_dir: runs/task\n    save_interval_updates: 1024\n    keep_interval_updates: 2\n    keep_last_epochs: 30\n\n"
  },
  {
    "path": "examples/MMPT/projects/task/test.yaml",
    "content": "# this yaml cannot be run alone: implement a test_${dataset}.yaml\nslurm_config: big\ntask_type: local_predict\ndataset:\n  split: test\n  video_processor: VideoProcessor\n  aligner: DSAligner\n  bert_name: bert-base-uncased\nfairseq:\n  dataset:\n    batch_size: 256\n    valid_subset: test\n    num_workers: 2\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_coin.yaml",
    "content": "includes: projects/task/test.yaml\ndataset:\n  split: test\n  test_path: data/coin/COIN.json\n  meta_processor: COINActionSegmentationMetaProcessor\n  vfeat_dir: data/feat/feat_coin_s3d\n  video_processor: VideoProcessor\n  text_processor: COINActionSegmentationTextProcessor\n  aligner: COINActionSegmentationAligner\n  num_iso_layer: 12\n  sliding_window: 16\n  sliding_window_size: 32\nmodel:\n  model_cls: MMFusionActionSegmentation\n  mm_encoder_cls: MMBertForTokenClassification\neval:\n  save_path: runs/task/coin/eval\nfairseq:\n  dataset:\n    batch_size: 1\n  common_eval:\n    path: runs/task/coin/checkpoint_best.pt\nmetric: COINActionSegmentationMetric\npredictor: COINPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_coin_videoclip.yaml",
    "content": "includes: projects/task/test_coin.yaml\nmodel:\n  model_cls: MMFusionSeparateActionSegmentation\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForTokenClassification\n  text_encoder_cls: BertModel  # dummy, not used.\n  num_hidden_video_layers: 6\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_coin_zs.yaml",
    "content": "includes: projects/task/test_coin.yaml\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/task/coin_zs/eval\nfairseq:\n  common_eval:\n    path: runs/task/checkpoint_best.pt\npredictor: COINZSPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_crosstask.yaml",
    "content": "includes: projects/task/test.yaml\ndataset:\n  split: test\n  meta_processor: CrossTaskMetaProcessor\n  test_path: data/crosstask/crosstask_release/videos_val.csv\n  train_csv_path: data/crosstask/crosstask_release/videos.csv\n  val_path: data/crosstask/crosstask_release/videos_val.csv  # dummy\n  val_csv_path: data/crosstask/crosstask_release/videos_val.csv    \n  primary_path: data/crosstask/crosstask_release/tasks_primary.txt\n  related_path: data/crosstask/crosstask_release/tasks_related.txt\n  vfeat_dir: data/feat/feat_crosstask_s3d\n  annotation_path: data/crosstask/crosstask_release/annotations\n  n_train: 30\n  video_processor: CrossTaskVideoProcessor\n  text_processor: CrossTaskTextProcessor\n  aligner: CrossTaskAligner\n  num_iso_layer: 12\n  sliding_window: 16\n  sliding_window_size: 32\nmodel:\n  model_cls: MMFusionActionLocalization\n  mm_encoder_cls: MMBertForJoint\neval:\n  save_path: runs/task/crosstask/eval\nfairseq:\n  # read code and find what is the checkpoint arg.\n  dataset:\n    batch_size: 1\n  common_eval:\n    path: runs/task/crosstask/checkpoint_best.pt\nmetric: CrossTaskMetric\npredictor: CrossTaskPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_crosstask_videoclip.yaml",
    "content": "includes: projects/task/test_crosstask.yaml\nmodel:\n  model_cls: MMFusionSeparateActionLocalization\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel  # dummy, not used.\n  num_hidden_video_layers: 6\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_crosstask_zs.yaml",
    "content": "includes: projects/task/test.yaml\ndataset:\n  split: test\n  meta_processor: CrossTaskMetaProcessor\n  test_path: data/crosstask/crosstask_release/videos_val.csv\n  train_csv_path: data/crosstask/crosstask_release/videos.csv\n  val_path: data/crosstask/crosstask_release/videos_val.csv  # dummy\n  val_csv_path: data/crosstask/crosstask_release/videos_val.csv    \n  primary_path: data/crosstask/crosstask_release/tasks_primary.txt\n  related_path: data/crosstask/crosstask_release/tasks_related.txt\n  vfeat_dir: data/feat/feat_crosstask_s3d\n  annotation_path: data/crosstask/crosstask_release/annotations\n  n_train: 30\n  video_processor: CrossTaskVideoProcessor\n  text_processor: CrossTaskTextProcessor\n  aligner: CrossTaskAligner\n  num_iso_layer: 12\n  sliding_window: 16\n  sliding_window_size: 32\nmodel:\n  model_cls: MMFusionActionLocalization\n  mm_encoder_cls: MMBertForJoint\neval:\n  save_path: runs/task/crosstask_zs/eval\nfairseq:\n  # read code and find what is the checkpoint arg.\n  dataset:\n    batch_size: 1\n  common_eval:\n    path: runs/task/checkpoint_best.pt  # load the best from how2 on ACL submission:  runs/task/checkpoint11.pt\nmetric: CrossTaskMetric\npredictor: CrossTaskPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_crosstask_zs_videoclip.yaml",
    "content": "includes: projects/task/test_crosstask_zs.yaml\nmodel:\n  model_cls: MMFusionSeparateActionLocalization\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel  # dummy, not used.\n  num_hidden_video_layers: 6\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_didemo_zs.yaml",
    "content": "includes: projects/task/test.yaml\ndataset:\n  meta_processor: DiDeMoMetaProcessor\n  test_path: data/didemo/test_data.json\n  video_processor: VideoProcessor\n  vfeat_dir: data/feat/feat_didemo_s3d\n  text_processor: DiDeMoTextProcessor\n  aligner: DiDeMoAligner\n  num_iso_layer: 12\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/task/didemo_zs/eval\nfairseq:\n  # read code and find what is the checkpoint arg.\n  common_eval:\n    path: runs/task/checkpoint_best.pt\nmetric: DiDeMoMetric\npredictor: DiDeMoPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_vtt.yaml",
    "content": "includes: projects/task/test.yaml\ndataset:\n  meta_processor: MSRVTTMetaProcessor\n  test_path: data/msrvtt/MSRVTT_JSFUSION_test.csv\n  video_processor: VideoProcessor\n  vfeat_dir: data/feat/feat_vtt_s3d\n  text_processor: MSRVTTTextProcessor\n  num_iso_layer: 12\nmodel:\n  model_cls: MMFusionJoint\n  mm_encoder_cls: MMBertForJoint\neval:\n  save_path: runs/task/vtt/eval\nfairseq:\n  # read code and find what is the checkpoint arg.\n  common_eval:\n    path: runs/task/vtt/checkpoint_last.pt\nmetric: RetrievalMetric\npredictor: RetrievalPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_vtt_videoclip.yaml",
    "content": "includes: projects/task/test_vtt.yaml\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\n\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_vtt_zs.yaml",
    "content": "includes: projects/task/test_vtt.yaml\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/task/vtt_zs/eval\nfairseq:\n  # read code and find what is the checkpoint arg.\n  common_eval:\n    path: runs/task/checkpoint_best.pt\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_vttqa.yaml",
    "content": "includes: projects/task/test.yaml\ndataset:\n  meta_processor: MSRVTTQAMetaProcessor\n  test_path: data/msrvtt-qa/MSR_MC_test.csv\n  video_processor: VideoProcessor\n  vfeat_dir: data/feat/feat_vtt_s3d\n  text_processor: MSRVTTQATextProcessor\n  aligner: MSRVTTQAAligner\n  num_iso_layer: 12\nmodel:\n  model_cls: MMFusionJoint\n  mm_encoder_cls: MMBertForJoint\neval:\n  save_path: runs/task/vttqa/eval\nfairseq:\n  # read code and find what is the checkpoint arg.\n  common_eval:\n    path: runs/task/vttqa/checkpoint_last.pt\nmetric: QAMetric\npredictor: QAPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_vttqa_videoclip.yaml",
    "content": "includes: projects/task/test_vttqa.yaml\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\n\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_vttqa_zs.yaml",
    "content": "includes: projects/task/test_vttqa.yaml\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/task/vttqa_zs/eval\nfairseq:\n  # read code and find what is the checkpoint arg.\n  common_eval:\n    path: runs/task/checkpoint_best.pt\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_youcook.yaml",
    "content": "includes: projects/task/test.yaml\ndataset:\n  meta_processor: YoucookMetaProcessor\n  test_path: data/youcook/youcook_val.pkl\n  trainval_annotation: data/youcook/youcookii_annotations_trainval.json\n  use_annotation_text: True\n  video_processor: YoucookVideoProcessor\n  vfeat_dir: data/feat/feat_youcook_s3d # /checkpoint/huxu/feat/youcook_vmz # /checkpoint/prarora/berniehuang/feat_youcook_vmz\n  text_processor: TextProcessor\n  aligner: DSAligner\n  num_iso_layer: 12\nmodel:\n  model_cls: MMFusionJoint\n  mm_encoder_cls: MMBertForJoint\neval:\n  save_path: runs/task/youcook/eval\nfairseq:\n  # read code and find what is the checkpoint arg.\n  common_eval:\n    path: runs/task/youcook/checkpoint_last.pt\nmetric: RetrievalMetric\npredictor: RetrievalPredictor\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_youcook_videoclip.yaml",
    "content": "includes: projects/task/test_youcook.yaml\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\n\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_youcook_zs.yaml",
    "content": "includes: projects/task/test_youcook.yaml\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\neval:\n  save_path: runs/task/youcook_zs/eval\nfairseq:\n  # read code and find what is the checkpoint arg.\n  common_eval:\n    path: runs/task/checkpoint_best.pt\n"
  },
  {
    "path": "examples/MMPT/projects/task/test_youcookcap.yaml",
    "content": "includes: projects/task/test.yaml\ndataset:\n  meta_processor: YoucookNLGMetaProcessor\n  test_path: data/youcook/val_list.txt\n  trainval_annotation: data/youcook/youcookii_annotations_trainval.json\n  video_processor: YoucookVideoProcessor\n  vfeat_dir: data/feat/feat_youcook_s3d\n  text_processor: NLGTextProcessor\n  aligner: DSNLGAligner\nmodel:\n  model_cls: MMFusionNLG\n  mm_encoder_cls: MMBertForNLG\n  max_decode_length: 24\neval:\n  save_path: runs/task/youcookcap/eval\nfairseq:\n  # read code and find what is the checkpoint arg.\n  common_eval:\n    path: runs/task/youcookcap/checkpoint_best.pt\nmetric: NLGMetric\npredictor: NLGPredictor\ngen_param:\n  num_beams: 5\n"
  },
  {
    "path": "examples/MMPT/projects/task/vtt.yaml",
    "content": "includes: projects/task/ft.yaml\ndataset:\n  meta_processor: MSRVTTMetaProcessor\n  train_path: data/msrvtt/MSRVTT_train.csv\n  jsfusion_path: data/msrvtt/MSRVTT_JSFUSION_test.csv\n  full_test_path: data/msrvtt/MSRVTT_FULL_test.csv\n  dup: 20\n  val_path: data/msrvtt/MSRVTT_JSFUSION_test.csv\n  vfeat_dir: data/feat/feat_vtt_s3d\n  text_processor: MSRVTTTextProcessor\n  json_path: data/msrvtt/MSRVTT_data.json\n  aligner: DSAligner\n  num_iso_layer: 12\nmodel:\n  model_cls: MMFusionJoint\n  mm_encoder_cls: MMBertForJoint\nloss:\n  loss_cls: T2VContraLoss\nfairseq:\n  dataset:\n    batch_size: 256\n  optimization:\n    max_epoch: 10\n  checkpoint:\n    save_dir: runs/task/vtt\n"
  },
  {
    "path": "examples/MMPT/projects/task/vtt_videoclip.yaml",
    "content": "includes: projects/task/vtt.yaml\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\nfairseq:\n  dataset:\n    batch_size: 224\n#   model_cls: MMFusionShare\n#   mm_encoder_cls: MMBertForEncoder\n"
  },
  {
    "path": "examples/MMPT/projects/task/vttqa.yaml",
    "content": "includes: projects/task/ft.yaml\ndataset:\n  meta_processor: MSRVTTMetaProcessor\n  train_path: data/msrvtt/MSRVTT_train.csv\n  dup: 20\n  val_path: data/msrvtt/MSRVTT_JSFUSION_test.csv\n  vfeat_dir: data/feat/feat_vtt_s3d\n  text_processor: MSRVTTTextProcessor\n  json_path: data/msrvtt/MSRVTT_data.json\n  aligner: DSAligner\n  num_iso_layer: 12\nmodel:\n  model_cls: MMFusionJoint\n  mm_encoder_cls: MMBertForJoint\nloss:\n  loss_cls: V2TContraLoss\nfairseq:\n  dataset:\n    batch_size: 128\n  optimization:\n    max_epoch: 5\n  checkpoint:\n    save_dir: runs/task/vttqa\n"
  },
  {
    "path": "examples/MMPT/projects/task/vttqa_videoclip.yaml",
    "content": "includes: projects/task/vttqa.yaml\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\n\n#   model_cls: MMFusionShare\n#   mm_encoder_cls: MMBertForEncoder\n"
  },
  {
    "path": "examples/MMPT/projects/task/youcook.yaml",
    "content": "includes: projects/task/ft.yaml\ndataset:\n  meta_processor: YoucookMetaProcessor\n  train_path: data/youcook/youcook_train.pkl\n  val_path: data/youcook/youcook_val.pkl\n  trainval_annotation: data/youcook/youcookii_annotations_trainval.json\n  use_annotation_text: True\n  video_processor: YoucookVideoProcessor\n  vfeat_dir: data/feat/feat_youcook_s3d # /checkpoint/huxu/feat/youcook_vmz # /checkpoint/prarora/berniehuang/feat_youcook_vmz\n  text_processor: TextProcessor\n  aligner: DSAligner\n  num_iso_layer: 12\nmodel:\n  model_cls: MMFusionJoint\n  mm_encoder_cls: MMBertForJoint\nloss:\n  loss_cls: T2VContraLoss\nfairseq:\n  dataset:\n    batch_size: 128\n  optimization:\n    max_epoch: 10\n  checkpoint:\n    save_dir: runs/task/youcook\n \n"
  },
  {
    "path": "examples/MMPT/projects/task/youcook_videoclip.yaml",
    "content": "includes: projects/task/youcook.yaml\nmodel:\n  model_cls: MMFusionSeparate\n  mm_encoder_cls: \n  video_encoder_cls: MMBertForEncoder\n  text_encoder_cls: BertModel\n  num_hidden_video_layers: 6\n  # model_cls: MMFusionShare\n  # mm_encoder_cls: MMBertForEncoder\n"
  },
  {
    "path": "examples/MMPT/projects/task/youcookcap.yaml",
    "content": "# finetuning for youcook captioning.\nincludes: projects/task/ft.yaml\ndataset:\n  meta_processor: YoucookNLGMetaProcessor\n  train_path: data/youcook/train_list.txt\n  val_path: data/youcook/val_list.txt\n  trainval_annotation: data/youcook/youcookii_annotations_trainval.json\n  video_processor: YoucookVideoProcessor\n  vfeat_dir: data/feat/feat_youcook_s3d\n  text_processor: NLGTextProcessor\n  aligner: DSNLGAligner\nmodel:\n  model_cls: MMFusionNLG\n  mm_encoder_cls: MMBertForNLG\nloss:\n  loss_cls: NLGLoss\nfairseq:\n  dataset:\n    batch_size: 128\n  optimization:\n    max_epoch: 10\n  checkpoint:\n    save_dir: runs/task/youcookcap\n"
  },
  {
    "path": "examples/MMPT/scripts/text_token_extractor/configs/bert-base-uncased.yaml",
    "content": "dataset:\n  bert_name: bert-base-uncased\n  caption_pkl_path: data/how2/raw_caption_dedup.pkl\n  use_fast: true\n  target_dir: data/feat/feat_how2_s3d_shard_small\n"
  },
  {
    "path": "examples/MMPT/scripts/text_token_extractor/pretokenization.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport pickle\nimport os\nimport argparse\nimport numpy as np\n\nfrom torch.utils.data import Dataset, DataLoader\nfrom mmpt.processors import PKLJSONStrTextProcessor\nfrom mmpt.utils import ShardedTensor, recursive_config\n\n\nclass TokenizerDataset(Dataset):\n    def __init__(self, config):\n        self.text_processor = PKLJSONStrTextProcessor(config)\n        self.video_ids = list(self.text_processor.data.keys())\n\n    def __getitem__(self, idx):\n        video_id = self.video_ids[idx]\n        return video_id, self.text_processor(video_id)\n\n    def __len__(self):\n        return len(self.video_ids)\n\n\ndef numpify(shard_idx, video_ids, captions, target_dir, split, prefix, max_cap_len=32):\n    startends = []\n    caps_ids = []\n    for video_id in video_ids:\n        caption = captions[video_id]\n        startend = []\n        cap_ids = []\n        for start, end, cap in zip(\n                caption[\"start\"], caption[\"end\"], caption[\"cap\"]):\n            startend.append(np.array([start, end]).astype(\"float32\"))\n            cap_id = np.full((max_cap_len,), -1, dtype=np.int32)\n            cap = cap[:max_cap_len]\n            cap_id[:len(cap)] = cap\n            cap_ids.append(cap_id)\n        startends.append(np.stack(startend))\n        caps_ids.append(np.stack(cap_ids))\n\n    startends = ShardedTensor.from_list(startends)\n    target_path = os.path.join(\n        target_dir,\n        prefix + split + \"_\" + str(shard_idx)\n    )\n    print(\"save to\", target_path)\n    startends.save(target_path + \".startends\")\n    caps_ids = ShardedTensor.from_list(caps_ids)\n    caps_ids.save(target_path + \".caps_ids\")\n\n\ndef sharding(config, out_file):\n    with open(out_file, \"rb\") as fr:\n        captions = pickle.load(fr)\n    target_dir = config.target_dir\n    prefix = os.path.basename(\n                os.path.splitext(config.caption_pkl_path)[0]\n            ) + \".\" + config.bert_name + \".\"\n    for split in [\"train\", \"val\"]:\n        target_path = os.path.join(target_dir, split + \"_meta\")\n        with open(target_path + \".pkl\", \"rb\") as fr:\n            meta = pickle.load(fr)\n        print(\"load meta\", target_path, len(meta))\n        for shard_id in meta:\n            numpify(\n                shard_id, meta[shard_id], captions,\n                target_dir, split, prefix\n            )\n\n\ndef tokenize(config, out_file):\n    def collator(samples):\n        return samples\n    dataset = TokenizerDataset(config)\n    data = {}\n    for idx, batch in enumerate(\n            DataLoader(dataset, collate_fn=collator, num_workers=16)):\n        for video_id, caption in batch:\n            data[video_id] = caption\n        if idx % 5000 == 0:\n            print(idx)\n    with open(out_file, \"wb\") as fw:\n        pickle.dump(data, fw, pickle.HIGHEST_PROTOCOL)\n\n\ndef main(args):\n    config = recursive_config(args.config).dataset\n\n    out_file = os.path.splitext(config.caption_pkl_path)[0] \\\n        + \".\" + config.bert_name + \".pkl\"\n    if not os.path.isfile(out_file):\n        tokenize(config, out_file)\n    sharding(config, out_file)\n\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser(\n        description=\"pretokenize (raw_)caption.json into pkl.\")\n    parser.add_argument('config', type=str)\n    args = parser.parse_args()\n    main(args)\n"
  },
  {
    "path": "examples/MMPT/scripts/video_feature_extractor/extract.py",
    "content": "# Copyright Howto100M authors.\n# Copyright (c) Facebook, Inc. All Rights Reserved\n\nimport torch as th\nimport torch.nn.functional as F\nimport math\nimport numpy as np\nimport argparse\n\nfrom torch.utils.data import DataLoader\nfrom model import get_model\nfrom preprocessing import Preprocessing\nfrom random_sequence_shuffler import RandomSequenceSampler\n\nfrom tqdm import tqdm\nfrom pathbuilder import PathBuilder\nfrom videoreader import VideoLoader\n\n\nparser = argparse.ArgumentParser(description='Easy video feature extractor')\n\nparser.add_argument('--vdir', type=str)\nparser.add_argument('--fdir', type=str)\nparser.add_argument('--hflip', type=int, default=0)\n\nparser.add_argument('--batch_size', type=int, default=64,\n                            help='batch size')\nparser.add_argument('--type', type=str, default='2d',\n                            help='CNN type')\nparser.add_argument('--half_precision', type=int, default=0,\n                            help='output half precision float')\nparser.add_argument('--num_decoding_thread', type=int, default=4,\n                            help='Num parallel thread for video decoding')\nparser.add_argument('--l2_normalize', type=int, default=1,\n                            help='l2 normalize feature')\nparser.add_argument('--resnext101_model_path', type=str, default='model/resnext101.pth',\n                            help='Resnext model path')\nparser.add_argument('--vmz_model_path', type=str, default='model/r2plus1d_34_clip8_ig65m_from_scratch-9bae36ae.pth',\n                            help='vmz model path')\n\nargs = parser.parse_args()\n\n\n# TODO: refactor all args into config. (current code is from different people.)\nCONFIGS = {\n    \"2d\": {\n        \"fps\": 1,\n        \"size\": 224,\n        \"centercrop\": False,\n        \"shards\": 0,\n    },\n    \"3d\": {\n        \"fps\": 24,\n        \"size\": 112,\n        \"centercrop\": True,\n        \"shards\": 0,\n    },\n    \"s3d\": {\n        \"fps\": 30,\n        \"size\": 224,\n        \"centercrop\": True,\n        \"shards\": 0,\n    },\n    \"vmz\": {\n        \"fps\": 24,\n        \"size\": 112,\n        \"centercrop\": True,\n        \"shards\": 0,\n    },\n    \"vae\": {\n        \"fps\": 2,\n        \"size\": 256,\n        \"centercrop\": True,\n        \"shards\": 100,\n    }\n}\n\nconfig = CONFIGS[args.type]\n\n\nvideo_dirs = args.vdir\nfeature_dir = args.fdir\n\nvideo_dict = PathBuilder.build(video_dirs, feature_dir, \".npy\", config[\"shards\"])\n\ndataset = VideoLoader(\n    video_dict=video_dict,\n    framerate=config[\"fps\"],\n    size=config[\"size\"],\n    centercrop=config[\"centercrop\"],\n    hflip=args.hflip\n)\nn_dataset = len(dataset)\nsampler = RandomSequenceSampler(n_dataset, 10)\nloader = DataLoader(\n    dataset,\n    batch_size=1,\n    shuffle=False,\n    num_workers=args.num_decoding_thread,\n    sampler=sampler if n_dataset > 10 else None,\n)\npreprocess = Preprocessing(args.type)\nmodel = get_model(args)\n\nwith th.no_grad():\n    for k, data in tqdm(enumerate(loader), total=loader.__len__(), ascii=True):\n        input_file = data['input'][0]\n        output_file = data['output'][0]\n        if len(data['video'].shape) > 3:\n            video = data['video'].squeeze()\n            if len(video.shape) == 4:\n                video = preprocess(video)\n                n_chunk = len(video)\n                if args.type == 'vmz':\n                    n_chunk = math.ceil(n_chunk/float(3))\n                    features = th.cuda.FloatTensor(n_chunk, 512).fill_(0)\n                elif args.type == 's3d':\n                    features = th.cuda.FloatTensor(n_chunk, 512).fill_(0)\n                elif args.type == \"vae\":\n                    features = th.cuda.LongTensor(n_chunk, 1024).fill_(0)\n                else:\n                    features = th.cuda.FloatTensor(n_chunk, 2048).fill_(0)\n                n_iter = int(math.ceil(n_chunk / float(args.batch_size)))\n                for i in range(n_iter):\n                    factor = 1\n                    if args.type == 'vmz':\n                        factor = 3\n                    min_ind = factor * i * args.batch_size\n                    max_ind = factor * (i + 1) * args.batch_size\n                    video_batch = video[min_ind:max_ind:factor].cuda()\n                    if args.type == '2d':\n                        batch_features = model(video_batch) # (51, 487), (51, 512)\n                    elif args.type == 's3d':\n                        batch_features = model(video_batch)\n                        batch_features = batch_features['video_embedding']\n                    elif args.type == \"vae\":\n                        # image_code.\n                        batch_features = model(video_batch)\n                    else:\n                        batch_pred, batch_features = model(video_batch) # (51, 487), (51, 512)\n                    if args.l2_normalize:\n                        batch_features = F.normalize(batch_features, dim=1)\n                    features[i*args.batch_size:(i+1)*args.batch_size] = batch_features\n                features = features.cpu().numpy()\n                if args.half_precision:\n                    if args.type == \"vae\":\n                        features = features.astype(np.int16)\n                    else:\n                        features = features.astype('float16')\n                else:\n                    if args.type == \"vae\":\n                        features = features.astype(np.int32)\n                    else:\n                        features = features.astype('float32')\n                np.save(output_file, features)\n        else:\n            print('Video {} error.'.format(input_file))\n"
  },
  {
    "path": "examples/MMPT/scripts/video_feature_extractor/how2/s3d.sh",
    "content": "#!/bin/bash\n\n\npython scripts/video_feature_extractor/extract.py \\\n    --vdir <path_to_video_folder> \\\n    --fdir data/feat/feat_how2_s3d \\\n    --type=s3d --num_decoding_thread=4 \\\n    --batch_size 32 --half_precision 1\n"
  },
  {
    "path": "examples/MMPT/scripts/video_feature_extractor/model.py",
    "content": "# Copyright (c) Howto100M authors and Facebook, Inc. All Rights Reserved\n\nimport torch as th\n\nfrom torch import nn\n\n\nclass GlobalAvgPool(nn.Module):\n    def __init__(self):\n        super(GlobalAvgPool, self).__init__()\n\n    def forward(self, x):\n        return th.mean(x, dim=[-2, -1])\n\n\ndef get_model(args):\n    assert args.type in ['2d', '3d', 'vmz', 's3d', 'vae']\n    if args.type == '2d':\n        print('Loading 2D-ResNet-152 ...')\n        import torchvision.models as models\n        model = models.resnet152(pretrained=True)\n        model = nn.Sequential(*list(model.children())[:-2], GlobalAvgPool())\n        model = model.cuda()\n    elif args.type == 'vmz':\n        print('Loading VMZ ...')\n        from vmz34 import r2plus1d_34\n        model = r2plus1d_34(pretrained_path=args.vmz_model_path, pretrained_num_classes=487)\n        model = model.cuda()\n    elif args.type == 's3d':\n        # we use one copy of s3d instead of dup another one for feature extraction.\n        from mmpt.processors.models.s3dg import S3D\n        model = S3D('pretrained_models/s3d_dict.npy', 512)\n        model.load_state_dict(th.load('pretrained_models/s3d_howto100m.pth'))\n        model = model.cuda()\n\n    elif args.type == '3d':\n        print('Loading 3D-ResneXt-101 ...')\n        from videocnn.models import resnext\n        model = resnext.resnet101(\n            num_classes=400,\n            shortcut_type='B',\n            cardinality=32,\n            sample_size=112,\n            sample_duration=16,\n            last_fc=False)\n        model = model.cuda()\n        model_data = th.load(args.resnext101_model_path)\n        model.load_state_dict(model_data)\n    elif args.type == 'vae':\n        from openaivae import OpenAIParallelDiscreteVAE\n        model = OpenAIParallelDiscreteVAE()\n        model = model.cuda()\n    else:\n        raise ValueError(\"model not supported yet.\")\n\n    model.eval()\n    print('loaded')\n    return model\n"
  },
  {
    "path": "examples/MMPT/scripts/video_feature_extractor/pathbuilder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport os\nimport urllib.parse\nimport json\nimport pandas as pd\n\nfrom tqdm import tqdm\n\n\n# TODO: extending to other datasets.\nsupported_formats = {}\n\n\nclass PathBuilder(object):\n    @classmethod\n    def build(cls, video_dirs, feature_dir, ext, shards=0, split=None):\n        meta_fn = os.path.join(feature_dir, \"meta_plan.json\")\n        os.makedirs(feature_dir, exist_ok=True)\n        if os.path.isfile(meta_fn):\n            with open(meta_fn) as fr:\n                meta = json.load(fr)\n                return meta\n        print(\"searching videos...\")\n\n        video_id_to_path = {}\n        for video_dir in video_dirs.split(\",\"):\n            # TODO: add supports of recursive listdir.\n            if video_dir in supported_formats:\n                supported_formats[video_dir].load(video_dir, video_id_to_path)\n            else:\n                for idx, fn in enumerate(tqdm(os.listdir(video_dir))):\n                    video_fn = os.path.join(video_dir, fn)\n                    if os.path.isfile(video_fn):\n                        video_id = os.path.splitext(fn)[0]\n                        video_id_to_path[video_id] = video_fn\n                    elif os.path.isdir(video_fn):\n                        # shards of folders.\n                        shard_dir = video_fn\n                        for idx, fn in enumerate(os.listdir(shard_dir)):\n                            video_fn = os.path.join(shard_dir, fn)\n                            if os.path.isfile(video_fn):\n                                video_id = os.path.splitext(fn)[0]\n                                video_id_to_path[video_id] = video_fn\n\n        video_path, feature_path = [], []\n        valid_ext = set()\n        for idx, video_id in enumerate(video_id_to_path):\n            video_path.append(video_id_to_path[video_id])\n            if ext is None:\n                # use original file ext for format compatibility.\n                video_id_to_path[video_id]\n                path = urllib.parse.urlparse(video_id_to_path[video_id]).path\n                ext = os.path.splitext(path)[1]\n            if ext not in valid_ext:\n                valid_ext.add(ext)\n                print(\"adding\", ext)\n            if shards:\n                shard_id = str(idx % shards)\n                feature_fn = os.path.join(\n                    feature_dir, shard_id, video_id + ext)\n            else:\n                feature_fn = os.path.join(\n                    feature_dir, video_id + ext)\n            feature_path.append(feature_fn)\n\n        print(\"targeting\", len(feature_path), \"videos\")\n        meta = {\n            \"video_path\": video_path, \"feature_path\": feature_path}\n        with open(meta_fn, \"w\") as fw:\n            json.dump(meta, fw)\n\n        if split is not None:\n            splits = split.split(\"/\")\n            assert len(splits) == 2\n            cur, total = int(splits[0]), int(splits[1])\n            assert cur < total\n            import math\n            chunk = math.ceil(len(meta[\"video_path\"]) / total)\n            start = cur * chunk\n            end = (cur + 1) * chunk\n            meta = {\n                    \"video_path\": meta[\"video_path\"][start:end],\n                    \"feature_path\": meta[\"feature_path\"][start:end]\n            }\n\n        return meta\n"
  },
  {
    "path": "examples/MMPT/scripts/video_feature_extractor/preprocessing.py",
    "content": "# Copyright Howto100m authors.\n# Copyright (c) Facebook, Inc. All Rights Reserved\n\nimport torch as th\n\nclass Normalize(object):\n\n    def __init__(self, mean, std):\n        self.mean = th.FloatTensor(mean).view(1, 3, 1, 1)\n        self.std = th.FloatTensor(std).view(1, 3, 1, 1)\n\n    def __call__(self, tensor):\n        tensor = (tensor - self.mean) / (self.std + 1e-8)\n        return tensor\n\nclass Preprocessing(object):\n\n    def __init__(self, type):\n        self.type = type\n        if type == '2d':\n            self.norm = Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])\n        elif type == '3d':\n            self.norm = Normalize(mean=[110.6, 103.2, 96.3], std=[1.0, 1.0, 1.0])\n        elif type == 'vmz':\n            self.norm = Normalize(mean=[110.201, 100.64, 95.997], std=[58.1489, 56.4701, 55.3324])\n\n    def _zero_pad(self, tensor, size):\n        n = size - len(tensor) % size\n        if n == size:\n            return tensor\n        else:\n            z = th.zeros(n, tensor.shape[1], tensor.shape[2], tensor.shape[3])\n            return th.cat((tensor, z), 0)\n\n    def __call__(self, tensor):\n        if self.type == '2d':\n            tensor = tensor / 255.0\n            tensor = self.norm(tensor)\n        elif self.type == 'vmz':\n            #tensor = self._zero_pad(tensor, 8)\n            tensor = self._zero_pad(tensor, 10)\n            tensor = self.norm(tensor)\n            #tensor = tensor.view(-1, 8, 3, 112, 112)\n            tensor = tensor.view(-1, 10, 3, 112, 112)\n            tensor = tensor.transpose(1, 2)\n        elif self.type == '3d':\n            tensor = self._zero_pad(tensor, 16)\n            tensor = self.norm(tensor)\n            tensor = tensor.view(-1, 16, 3, 112, 112)\n            tensor = tensor.transpose(1, 2)\n        elif self.type == 's3d':\n            tensor = tensor / 255.0\n            tensor = self._zero_pad(tensor, 30)\n            tensor = tensor.view(-1, 30, 3, 224, 224) # N x 30 x 3 x H x W\n            tensor = tensor.transpose(1, 2) # N x 3 x 30 x H x W\n        # for vae do nothing\n        return tensor\n"
  },
  {
    "path": "examples/MMPT/scripts/video_feature_extractor/random_sequence_shuffler.py",
    "content": "# Copyright (c) Facebook, Inc. All Rights Reserved\n\nimport numpy as np\n\nfrom torch.utils.data.sampler import Sampler\n\n\nclass RandomSequenceSampler(Sampler):\n\n    def __init__(self, n_sample, seq_len):\n        self.n_sample = n_sample\n        self.seq_len = seq_len\n\n    def _pad_ind(self, ind):\n        zeros = np.zeros(self.seq_len - self.n_sample % self.seq_len)\n        ind = np.concatenate((ind, zeros))\n        return ind\n\n    def __iter__(self):\n        idx = np.arange(self.n_sample)\n        if self.n_sample % self.seq_len != 0:\n            idx = self._pad_ind(idx)\n        idx = np.reshape(idx, (-1, self.seq_len))\n        np.random.shuffle(idx)\n        idx = np.reshape(idx, (-1))\n        return iter(idx.astype(int))\n\n    def __len__(self):\n        return self.n_sample + (self.seq_len - self.n_sample % self.seq_len)\n"
  },
  {
    "path": "examples/MMPT/scripts/video_feature_extractor/shard_feature.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport numpy as np\nimport os\nimport pickle\n\nfrom mmpt.utils import ShardedTensor\n\n\nclass Shard(object):\n    def __init__(\n        self,\n        vfeat_dir,\n        tfeat_dir,\n        target_dir,\n        file_paths,\n        shard_size=4096\n    ):\n        self.vfeat_dir = vfeat_dir\n        self.tfeat_dir = tfeat_dir\n        self.target_dir = target_dir\n        self.video_ids = {}\n        for split, file_path in zip([\"train\", \"val\"], file_paths):\n            with open(file_path) as fr:\n                self.video_ids[split] = [\n                    line.strip() for line in fr.readlines()]\n        self.shard_size = shard_size\n\n    def __call__(self, split=\"train\"):\n        for split in [\"train\", \"val\"]:\n            meta = {}\n            for shard_idx, shard_offset in enumerate(\n                range(0, len(self.video_ids[split]), self.shard_size)\n            ):\n                print(shard_idx)\n                meta_shard = []\n                video_shard = []\n                for video_id in self.video_ids[split][shard_offset:shard_offset+self.shard_size]:\n                    meta_shard.append(video_id)\n                    npy_file = os.path.join(self.vfeat_dir, video_id + \".npy\")\n                    video_shard.append(np.load(npy_file))\n\n                meta[shard_idx] = meta_shard\n                video_shard = ShardedTensor.from_list(video_shard)\n                target_path = os.path.join(\n                    self.target_dir, split + \"_\" + str(shard_idx))\n                video_shard.save(target_path)\n\n            target_path = os.path.join(self.target_dir, split + \"_meta\")\n            with open(target_path + \".pkl\", \"wb\") as fw:\n                pickle.dump(meta, fw, pickle.HIGHEST_PROTOCOL)\n\n\nif __name__ == \"__main__\":\n    shard = Shard(\n        \"data/feat/feat_how2_s3d\",\n        \"data/how2/raw_caption_dedup.bert-base-uncased\",\n        \"data/feat/feat_how2_s3d_shard_small\",\n        [\"data/how2/how2_s3d_train.lst\", \"data/how2/how2_s3d_val.lst\"]\n    )\n\n    shard()\n"
  },
  {
    "path": "examples/MMPT/scripts/video_feature_extractor/videoreader.py",
    "content": "# Copyright Howto100M authors.\n# Copyright (c) Facebook, Inc. All Rights Reserved\n\nimport torch as th\nimport pandas as pd\nimport os\nimport numpy as np\nimport ffmpeg\nimport random\n\nfrom torch.utils.data import Dataset\n\n\nclass VideoLoader(Dataset):\n    \"\"\"modified from how2's video_feature_extractor.\"\"\"\n    def __init__(\n        self,\n        csv=None,\n        video_dict=None,\n        framerate=1,\n        size=112,\n        centercrop=False,\n        hflip=False,\n        **kwargs\n    ):\n        if csv is None and video_dict is None:\n            raise ValueError(\"csv and video_dict cannot be both None.\")\n        if csv is not None:\n            self.csv = pd.read_csv(csv)\n        if video_dict is not None:\n            self.csv = pd.DataFrame.from_dict(video_dict)\n\n        self.centercrop = centercrop\n        self.size = size\n        self.framerate = framerate\n        self.hflip = hflip\n\n    def __len__(self):\n        return len(self.csv)\n\n    def _get_video_dim(self, video_path):\n        probe = ffmpeg.probe(video_path)\n        video_stream = next((stream for stream in probe['streams']\n                             if stream['codec_type'] == 'video'), None)\n        width = int(video_stream['width'])\n        height = int(video_stream['height'])\n        return height, width\n\n    def _get_video_info(self, video_path):\n        probe = ffmpeg.probe(video_path)\n        video_stream = next((stream for stream in probe['streams']\n                             if stream['codec_type'] == 'video'), None)\n        return video_stream\n\n    def _get_output_dim(self, h, w):\n        if isinstance(self.size, tuple) and len(self.size) == 2:\n            return self.size\n        elif h >= w:\n            return int(h * self.size / w), self.size\n        else:\n            return self.size, int(w * self.size / h)\n\n    def __getitem__(self, idx):\n        video_path = self.csv['video_path'].values[idx]\n        output_file = self.csv['feature_path'].values[idx]\n        return self._decode(output_file, video_path)\n\n    def _decode(self, output_file, video_path):\n        if not(os.path.isfile(output_file)) and os.path.isfile(video_path):\n            try:\n                h, w = self._get_video_dim(video_path)\n            except Exception:\n                print('ffprobe failed at: {}'.format(video_path))\n                return {'video': th.zeros(1), 'input': video_path,\n                        'output': output_file}\n            try:\n                os.makedirs(os.path.dirname(output_file), exist_ok=True)\n                height, width = self._get_output_dim(h, w)\n\n                cmd = (\n                    ffmpeg\n                    .input(video_path)\n                    .filter('fps', fps=self.framerate)\n                    .filter('scale', width, height)\n                )\n                if self.hflip:\n                    cmd = cmd.filter('hflip')\n\n                if self.centercrop:\n                    x = int((width - self.size) / 2.0)\n                    y = int((height - self.size) / 2.0)\n                    cmd = cmd.crop(x, y, self.size, self.size)\n                video = self._run(cmd, output_file)\n            except Exception:\n                video = th.zeros(1)\n        else:\n            video = th.zeros(1)\n\n        return {'video': video, 'input': video_path, 'output': output_file}\n\n    def _run(self, cmd, output_file):\n        out, _ = (\n            cmd.output('pipe:', format='rawvideo', pix_fmt='rgb24')\n            .run(capture_stdout=True, quiet=True)\n        )\n        if self.centercrop and isinstance(self.size, int):\n            height, width = self.size, self.size\n        video = np.frombuffer(out, np.uint8).reshape([-1, height, width, 3])\n        video = th.from_numpy(video.astype('float32'))\n        return video.permute(0, 3, 1, 2)\n\n\nclass VideoVerifier(VideoLoader):\n    def __getitem__(self, idx):\n        video_path = self.csv['video_path'].values[idx]\n        try:\n            return self._get_video_info(video_path)\n        except Exception:\n            # print('ffprobe failed at: {}'.format(video_path))\n            return None\n\n\nclass VideoCompressor(VideoLoader):\n    def __init__(\n        self,\n        csv=None,\n        video_dict=None,\n        framerate=1,\n        size=112,\n        centercrop=False,\n        hflip=False,\n        crf=32,\n        **kwargs\n    ):\n        super().__init__(\n            csv,\n            video_dict,\n            framerate,\n            size,\n            centercrop,\n            hflip\n        )\n        self.crf = crf\n\n    def _run(self, cmd, output_file):\n        out, _ = (\n            cmd.output(filename=output_file, crf=self.crf)\n            .run(quiet=True)\n        )\n        video = None\n        return video\n\n\nclass VideoDownloader(VideoCompressor):\n    \"\"\"download\"\"\"\n    def __getitem__(self, idx):\n        video_path = self.csv['video_path'].values[idx]\n        output_file = self.csv['feature_path'].values[idx]\n        if not(os.path.isfile(output_file)):\n            os.makedirs(os.path.dirname(output_file), exist_ok=True)\n            cmd = \"wget -O\" + output_file + \" \" + video_path\n            # import subprocess\n            # subprocess.check_output(\n            #    cmd,\n            #    stderr=subprocess.STDOUT, shell=True)\n            os.system(cmd)\n        return {'video': None, 'input': video_path, 'output': output_file}\n\n\nclass AvKeyframeVideoCompressor(VideoLoader):\n    \"\"\"extract keyframes from a video and save it as jpg.\n    TODO: consider to merge with `CodecProcessor`.\n    \"\"\"\n    def __init__(\n        self,\n        csv=None,\n        video_dict=None,\n        framerate=1,\n        size=112,\n        centercrop=False,\n        max_num_frames=5,\n        **kwargs\n    ):\n        super().__init__(csv, video_dict, framerate, size, centercrop)\n        self.max_num_frames = max_num_frames\n\n    def _get_video_dim(self, video_fn):\n        \"\"\"decord cannot probe the size of a video, we use pyav instead.\"\"\"\n        import av\n        with av.open(video_fn) as container:\n            height = container.streams.video[0].codec_context.height\n            width = container.streams.video[0].codec_context.width\n        return height, width\n\n    def _get_output_dim(self, height, width):\n        \"\"\"\n        keep the shorter side be `self.size`, strech the other.\n        \"\"\"\n        if height >= width:\n            return int(height * self.size / width), self.size\n        else:\n            return self.size, int(width * self.size / height)\n\n    def __getitem__(self, idx):\n        import av\n        video_path = self.csv['video_path'].values[idx]\n        output_file = self.csv['feature_path'].values[idx]\n        if not(os.path.isdir(output_file)) and os.path.isfile(video_path):\n            try:\n                h, w = self._get_video_dim(video_path)\n            except Exception:\n                print('probe failed at: {}'.format(video_path))\n                return {'video': th.zeros(1), 'input': video_path,\n                        'output': output_file}\n\n            try:\n                height, width = self._get_output_dim(h, w)\n\n                # new for av.\n                with av.open(video_path) as container:\n                    container.streams.video[0].thread_type = \"AUTO\"\n                    container.streams.video[0].codec_context.height = height\n                    container.streams.video[0].codec_context.width = width\n                    if self.framerate == 0:     # keyframe.\n                        container.streams.video[0].codec_context.skip_frame = 'NONKEY'\n                    frames = []\n                    for frame in container.decode(video=0):\n                        frames.append(frame)\n                    frames = random.sample(frames, self.max_num_frames)\n\n                    os.makedirs(output_file, exist_ok=True)\n                    for frame in frames:\n                        frame.to_image().save(\n                            os.path.join(\n                                output_file,\n                                \"%04d.jpg\" % frame.index))\n            except Exception:\n                print('extract failed at: {}'.format(video_path))\n                return {'video': th.zeros(1), 'input': video_path,\n                        'output': output_file}\n        video = th.zeros(1)\n        return {'video': video, 'input': video_path, 'output': output_file}\n"
  },
  {
    "path": "examples/MMPT/setup.py",
    "content": "import setuptools\n\nwith open(\"README.md\", \"r\") as fh:\n    long_description = fh.read()\n\nsetuptools.setup(\n    name=\"mmpt\",\n    version=\"0.0.1\",\n    author=\"Hu Xu, Po-yao Huang\",\n    author_email=\"huxu@fb.com\",\n    description=\"A package for multimodal pretraining.\",\n    long_description=long_description,\n    long_description_content_type=\"text/markdown\",\n    url=\"https://github.com/pytorch/fairseq/examples/MMPT\",\n    packages=setuptools.find_packages(),\n    install_requires=[\n    ],\n    classifiers=[\n        \"Programming Language :: Python :: 3\",\n        \"License :: CC-BY-NC\",\n        \"Operating System :: OS Independent\",\n    ],\n    python_requires='>=3.6',\n)\n"
  },
  {
    "path": "examples/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\ntry:\n    from fairseq.version import __version__  # noqa\nexcept ImportError:\n    pass\n"
  },
  {
    "path": "examples/adaptive_span/README.md",
    "content": "# Adaptive Span\n\nAdaptive Span is a novel self-attention mechanism that can learn its optimal\nattention span. This allows us to extend significantly the maximum context size\nused in Transformer, while maintaining control over their memory footprint\nand computational time. It uses the Truncated BPTT technique for training,\nas in [transformerXL](https://github.com/pytorch/fairseq/blob/main/examples/truncated_bptt/README.md).\n\nAdaptive Span was introduced by paper:\n[Adaptive Attention Span in Transformers](https://arxiv.org/abs/1905.07799),\nwhich achieved state-of-the-art language modeling results at the time of publication.\n\nWe manage to reproduce their result in fairseq and keep most of the\n[original implementation](https://github.com/facebookresearch/adaptive-span) untouched.\nYou can refer to the their sweep file as well if any combination of hyperparameter is not clear.\n\n##### 0. Setup\n\nFirst you need to process the Enwik8 dataset, we use the pre-tokenized dataset\nfrom [adaptive span paper](https://github.com/facebookresearch/adaptive-span/blob/master/get_data.sh).\nYou can download the dataset, and then run:\n```bash\nfairseq-preprocess --only-source --trainpref ~/data/enwik8/train.txt \\\n    --validpref ~/data/enwik8/valid.txt --testpref ~/data/enwik8/test.txt \\\n    --destdir ~/data/enwik8/data-bin/ --joined-dictionary --workers 20\n```\n\n##### 1. Train a Adaptive Span model on Enwik8\n\nWe will train a 12-layer Adaptive Span model following the [hyperparameters\nused in the original\npaper](https://github.com/facebookresearch/adaptive-span/blob/master/experiments/enwik8.sh).\n\nThe following command assumes 4 GPUs, so that the total batch size is 64\nsequences (4 x 16). Training should take 2-3 days on 4 V100 GPUs:\n```bash\nCUDA_VISIBLE_DEVICES=0,1,2,3 fairseq-train \\\n    --user-dir examples/adaptive_span \\\n    --data  ~/data/enwik8/data-bin/ \\\n    --fp16 --fp16-no-flatten-grads --max-update 600000 \\\n    --task truncated_bptt_lm --tokens-per-sample 512 --arch adaptive_span \\\n    --n-layer 12 --d-model 512 --n-head 8 --d-inner 2048 --dropout 0.3 \\\n    --attn-span 8192 --optimizer adagrad_with_grad_clip --adagrad-clip 0.03 \\\n    --validate-interval-updates 1000 \\\n    --lr-scheduler fixed --warmup-updates 32000 --batch-size-valid 32 \\\n    --lr 0.07 --criterion adaptive_span_loss --batch-size 16 --update-freq 1 \\\n    --seed 2 --log-format json --log-interval 25 --aux-loss-scaler 5e-07\n```\nThis should land around 1.05 on validation, 1.03 on test. You can lower the\n--aux-loss-scaler for better performance (longer span). It gives ~0.03 bpc\nimprovement to the transformerXL baseline here.\nIf training on a single GPU, set `--update-freq=4` to accumulate 4x gradients\nand simulate training on 4 GPUs.\nYou can also reproduce the transformerXL result on enwik8 using this code base.\nIt should land around 1.06 on test,matching the [original paper](https://github.com/kimiyoung/transformer-xl/blob/master/pytorch/run_enwik8_base.sh).\nYou can try by\n```bash\nCUDA_VISIBLE_DEVICES=0,1,2,3 fairseq-train \\\n    --user-dir examples/truncated_bptt \\\n    ~/data/enwik8/data-bin/ \\\n    --task truncated_bptt_lm  --fp16 --max-update 400000 \\\n    --tokens-per-sample 512 --arch transformer_xl --n-layer 12 \\\n    --d-model 512 --n-head 8 --d-head 64 --d-inner 2048 --dropout 0.1 \\\n    --dropatt 0.0 --mem-len 512 --optimizer adam --clip-norm 0.25 \\\n    --lr-scheduler cosine --warmup-updates 0 \\\n    --lr 0.0 --lr 0.00025 --batch-size 15 \\\n    --update-freq 1 --seed 2 --log-format json --log-interval 25 \\\n    --fp16\n```\n\n##### 2. Evaluate\nFor Adaptive Span:\n```bash\nfairseq-eval-lm ~/data/enwik8/data-bin/ --path model/checkpoint_best.pt \\\n --user-dir examples/adaptive_span \\\n --task truncated_bptt_lm --batch-size 8 --tokens-per-sample 512 --gen-subset test\n```\nFor Transformer-XL evaluation:\n```bash\nfairseq-eval-lm ~/data/enwik8/data-bin/ --path model/checkpoint_best.pt \\\n    --user-dir examples/truncated_bptt/ --task truncated_bptt_lm --batch-size 8 \\\n    --tokens-per-sample 80 \\\n    --model-overrides '{\"mem_len\":2100,\"clamp_len\":820,\"same_length\":True}' \\\n    --gen-subset valid\n```\n\n*Note:* During training the model saw 512 tokens of context\n(``--tokens-per-sample=512``), with batch size 8. These settings match the evaluation\nsettings from [the original\npaper](https://github.com/facebookresearch/adaptive-span/blob/master/experiments/enwik8.sh).\n"
  },
  {
    "path": "examples/adaptive_span/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport importlib\nimport os\n\n# automatically import any Python files in the current directory\ncur_dir = os.path.dirname(__file__)\nfor file in os.listdir(cur_dir):\n    path = os.path.join(cur_dir, file)\n    if (\n        not file.startswith(\"_\")\n        and not file.startswith(\".\")\n        and (file.endswith(\".py\") or os.path.isdir(path))\n    ):\n        mod_name = file[: file.find(\".py\")] if file.endswith(\".py\") else file\n        module = importlib.import_module(__name__ + \".\" + mod_name)\n"
  },
  {
    "path": "examples/adaptive_span/adagrad_with_grad_clip.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom torch.optim import Adagrad\n\nfrom fairseq.optim import LegacyFairseqOptimizer, register_optimizer\n\n\n@register_optimizer(\"adagrad_with_grad_clip\")\nclass FairseqAdagradWithGradClip(LegacyFairseqOptimizer):\n    def __init__(self, args, params):\n        super().__init__(args)\n        self._optimizer = AdagradWithGradClip(params, **self.optimizer_config)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add optimizer-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--weight-decay', '--wd', default=0.0, type=float, metavar='WD',\n                            help='weight decay')\n        parser.add_argument('--adagrad-clip', default=0.0, type=float, metavar='D',\n                            help='internal grad clip')\n        # fmt: on\n\n    @property\n    def optimizer_config(self):\n        \"\"\"\n        Return a kwarg dictionary that will be used to override optimizer\n        args stored in checkpoints. This allows us to load a checkpoint and\n        resume training using a different set of optimizer args, e.g., with a\n        different learning rate.\n        \"\"\"\n        return {\n            \"lr\": self.args.lr[0],\n            \"weight_decay\": self.args.weight_decay,\n            \"grad_clip\": self.args.adagrad_clip,\n        }\n\n    @property\n    def supports_flat_params(self):\n        return False\n\n\ndef _clip_grad(clr, grad, group_grad_clip):\n    if group_grad_clip > 0:\n        norm = grad.norm(2).item()\n        if norm > group_grad_clip:\n            clr *= group_grad_clip / (norm + 1e-10)\n    return clr\n\n\nclass AdagradWithGradClip(Adagrad):\n    \"\"\"Adagrad algorithm with custom gradient clipping\"\"\"\n\n    def __init__(\n        self,\n        params,\n        lr=1e-2,\n        lr_decay=0,\n        weight_decay=0,\n        initial_accumulator_value=0,\n        grad_clip=0,\n    ):\n        Adagrad.__init__(\n            self,\n            params,\n            lr=lr,\n            lr_decay=lr_decay,\n            weight_decay=weight_decay,\n            initial_accumulator_value=initial_accumulator_value,\n        )\n        self.defaults[\"grad_clip\"] = grad_clip\n        self.param_groups[0].setdefault(\"grad_clip\", grad_clip)\n\n    def step(self, closure=None):\n        loss = None\n        if closure is not None:\n            loss = closure()\n\n        for group in self.param_groups:\n            for p in group[\"params\"]:\n                if p.grad is None:\n                    continue\n\n                grad = p.grad.data\n                state = self.state[p]\n\n                state[\"step\"] += 1\n\n                if group[\"weight_decay\"] != 0:\n                    if p.grad.data.is_sparse:\n                        raise RuntimeError(\n                            \"weight_decay option is \"\n                            \"not compatible with sparse \"\n                            \"gradients\"\n                        )\n                    grad = grad.add(group[\"weight_decay\"], p.data)\n\n                clr = group[\"lr\"] / (1 + (state[\"step\"] - 1) * group[\"lr_decay\"])\n\n                # clip\n                clr = _clip_grad(clr=clr, grad=grad, group_grad_clip=group[\"grad_clip\"])\n\n                if grad.is_sparse:\n                    # the update is non-linear so indices must be unique\n                    grad = grad.coalesce()\n                    grad_indices = grad._indices()\n                    grad_values = grad._values()\n                    size = grad.size()\n\n                    def make_sparse(values):\n                        constructor = grad.new\n                        if grad_indices.dim() == 0 or values.dim() == 0:\n                            return constructor().resize_as_(grad)\n                        return constructor(grad_indices, values, size)\n\n                    state[\"sum\"].add_(make_sparse(grad_values.pow(2)))\n                    std = state[\"sum\"]._sparse_mask(grad)\n                    std_values = std._values().sqrt_().add_(1e-10)\n                    p.data.add_(-clr, make_sparse(grad_values / std_values))\n                else:\n                    state[\"sum\"].addcmul_(1, grad, grad)\n                    std = state[\"sum\"].sqrt().add_(1e-10)\n                    p.data.addcdiv_(-clr, grad, std)\n\n        return loss\n"
  },
  {
    "path": "examples/adaptive_span/adaptive_span_attention.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport math\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\n\nclass AdaptiveMask(nn.Module):\n    \"\"\"Soft masking function for adaptive size.\n    It masks out the last K values of an input. The masking value\n    goes from 1 to 0 gradually, so K can be learned with\n    back-propagation.\n    Args:\n        max_size: maximum size (i.e. input dimension)\n        ramp_size: size of the ramp going from 0 to 1\n        init_val: initial size proportion not to be masked out\n        shape: learn multiple sizes independent of each other\n    \"\"\"\n\n    def __init__(self, max_size, ramp_size, init_val=0, shape=(1,)):\n        nn.Module.__init__(self)\n        self._max_size = max_size\n        self._ramp_size = ramp_size\n        self.current_val = nn.Parameter(torch.zeros(*shape) + init_val)\n        mask_template = torch.linspace(1 - max_size, 0, steps=max_size)\n        self.register_buffer(\"mask_template\", mask_template)\n\n    def forward(self, x):\n        mask = self.mask_template.float() + self.current_val.float() * self._max_size\n        mask = mask / self._ramp_size + 1\n        mask = mask.clamp(0, 1)\n        if x.size(-1) < self._max_size:\n            # the input could have been trimmed beforehand to save computation\n            mask = mask.narrow(-1, self._max_size - x.size(-1), x.size(-1))\n        x = (x * mask).type_as(x)\n        return x\n\n    def get_current_max_size(self, include_ramp=True):\n        current_size = math.ceil(self.current_val.max().item() * self._max_size)\n        if include_ramp:\n            current_size += self._ramp_size\n        current_size = max(0, min(self._max_size, current_size))\n        return current_size\n\n    def get_current_avg_size(self, include_ramp=True):\n        current_size = math.ceil(\n            self.current_val.float().mean().item() * self._max_size\n        )\n        if include_ramp:\n            current_size += self._ramp_size\n        current_size = max(0, min(self._max_size, current_size))\n        return current_size\n\n    def clamp_param(self):\n        \"\"\"this need to be called after each update\"\"\"\n        self.current_val.data.clamp_(0, 1)\n\n\nclass AdaptiveSpan(nn.Module):\n    \"\"\"Adaptive attention span for Transformerself.\n    This module learns an attention span length from data for each\n    self-attention head.\n    Args:\n        attn_span: maximum attention span\n        adapt_span_loss: loss coefficient for the span length\n        adapt_span_ramp: length of the masking ramp\n        adapt_span_init: initial size ratio\n        adapt_span_cache: adapt cache size to reduce memory usage\n    \"\"\"\n\n    def __init__(\n        self,\n        attn_span,\n        adapt_span_ramp,\n        adapt_span_init,\n        n_head,\n        adapt_span_layer,\n        **kargs\n    ):\n        nn.Module.__init__(self)\n        self._max_span = attn_span\n        self._n_head = n_head\n        self._adapt_span_layer = adapt_span_layer\n        if self._adapt_span_layer:\n            self._mask = AdaptiveMask(\n                max_size=self._max_span,\n                ramp_size=adapt_span_ramp,\n                init_val=adapt_span_init,\n            )\n        else:\n            self._mask = AdaptiveMask(\n                max_size=self._max_span,\n                ramp_size=adapt_span_ramp,\n                init_val=adapt_span_init,\n                shape=(n_head, 1, 1),\n            )\n\n    def forward(self, attn, normalize=True):\n        \"\"\"mask attention with the right span\"\"\"\n        # batch and head dimensions are merged together, so separate them first\n        self.clamp_param()\n        if self._adapt_span_layer:\n            attn = self._mask(attn)\n        else:\n            B = attn.size(0)  # batch size\n            M = attn.size(1)  # block size\n            attn = attn.reshape(B // self._n_head, self._n_head, M, -1)\n            attn = self._mask(attn)\n            attn = attn.view(B, M, -1)\n        return attn\n\n    def get_trim_len(self):\n        \"\"\"how much of memory can be trimmed to reduce computation\"\"\"\n        L = self._max_span\n        trim_len = min(L - 1, L - self._mask.get_current_max_size())\n        # too fine granularity might be bad for the memory management\n        trim_len = math.floor(trim_len / 64) * 64\n        return trim_len\n\n    def trim_memory(self, query, key, value, key_pe):\n        \"\"\"trim out unnecessary memory beforehand to reduce computation\"\"\"\n        trim_len = self.get_trim_len()\n        cache_size = key.size(1) - query.size(1)\n        trim_len_cache = trim_len - (self._max_span - cache_size)\n        if trim_len_cache > 0:\n            key = key[:, trim_len_cache:, :]\n            value = value[:, trim_len_cache:, :]\n        elif trim_len_cache < 0:\n            # cache is too short! this happens when validation resumes\n            # after a lot of updates.\n            key = F.pad(key, [0, 0, -trim_len_cache, 0])\n            value = F.pad(value, [0, 0, -trim_len_cache, 0])\n        if trim_len > 0:\n            if key_pe is not None:\n                key_pe = key_pe[:, :, trim_len:]\n        return key, value, key_pe\n\n    def get_cache_size(self):\n        \"\"\"determine how long the cache should be\"\"\"\n        trim_len = self.get_trim_len()\n        # give a buffer of 64 steps since a span might increase\n        # in future updates\n        return min(self._max_span, self._max_span - trim_len + 64)\n\n    def get_loss(self):\n        \"\"\"a loss term for regularizing the span length\"\"\"\n        return self._max_span * self._mask.current_val.float().mean()\n\n    def get_current_max_span(self):\n        return self._mask.get_current_max_size()\n\n    def get_current_avg_span(self):\n        return self._mask.get_current_avg_size()\n\n    def clamp_param(self):\n        self._mask.clamp_param()\n"
  },
  {
    "path": "examples/adaptive_span/adaptive_span_loss.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom dataclasses import dataclass\n\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import register_criterion\nfrom fairseq.criterions.cross_entropy import CrossEntropyCriterion\nfrom fairseq.dataclass import FairseqDataclass\nfrom omegaconf import II\n\n\n@dataclass\nclass AdaptiveSpanCriterionConfig(FairseqDataclass):\n    sentence_avg: bool = II(\"optimization.sentence_avg\")\n\n\n@register_criterion(\"adaptive_span_loss\", dataclass=AdaptiveSpanCriterionConfig)\nclass AdaptiveSpanCriterion(CrossEntropyCriterion):\n    def __init__(self, task, sentence_avg):\n        super().__init__(task, sentence_avg)\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss here is summed, different from the adaptive span code\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        net_output = model(**sample[\"net_input\"])\n        loss, aux_loss, avg_span, max_span = self.compute_loss(\n            model, net_output, sample, reduce=reduce\n        )\n        sample_size = (\n            sample[\"target\"].size(0) if self.sentence_avg else sample[\"ntokens\"]\n        )\n        loss /= sample_size\n        total_loss = loss + aux_loss\n        sample_size = 1\n\n        logging_output = {\n            \"loss\": loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"target\"].size(0),\n            \"sample_size\": sample_size,\n            \"total_loss\": total_loss.data,\n            \"avg_span\": avg_span * sample_size,\n            \"max_span\": max_span * sample_size,\n        }\n        return total_loss, sample_size, logging_output\n\n    def compute_loss(self, model, net_output, sample, reduce=True):\n        loss, _ = super().compute_loss(model, net_output, sample, reduce)\n        aux_loss = model.get_aux_loss()\n        avg_span = model.get_current_avg_span()\n        max_span = model.get_current_max_span()\n        return loss, aux_loss, avg_span, max_span\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n        ntokens = sum(log.get(\"ntokens\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        total_loss_sum = sum(log.get(\"total_loss\", 0) for log in logging_outputs)\n        avg_span_sum = sum(log.get(\"avg_span\", 0) for log in logging_outputs)\n        max_span_sum = sum(log.get(\"max_span\", 0) for log in logging_outputs)\n\n        # we divide by log(2) to convert the loss from base e to base 2\n        metrics.log_scalar(\n            \"loss\", loss_sum / sample_size / math.log(2), sample_size, round=3\n        )\n        metrics.log_scalar(\"avg_span\", avg_span_sum / sample_size, sample_size, round=3)\n        metrics.log_scalar(\"max_span\", max_span_sum / sample_size, sample_size, round=3)\n        # total loss contains the L1 norm on adaptive-span\n        metrics.log_scalar(\n            \"total_loss\",\n            total_loss_sum / sample_size / math.log(2),\n            sample_size,\n            round=3,\n        )\n        if sample_size != ntokens:\n            metrics.log_scalar(\n                \"nll_loss\", loss_sum / ntokens / math.log(2), ntokens, round=3\n            )\n            metrics.log_derived(\n                \"ppl\", lambda meters: utils.get_perplexity(meters[\"nll_loss\"].avg)\n            )\n        else:\n            metrics.log_derived(\n                \"ppl\", lambda meters: utils.get_perplexity(meters[\"loss\"].avg)\n            )\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "examples/adaptive_span/adaptive_span_model.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nfrom fairseq.modules.layer_norm import LayerNorm\n\nfrom .adaptive_span_attention import AdaptiveSpan\n\n# Size notations:\n# B = batch_size, H = d_model, M = block_size, L = attn_span\n\n\ndef _skew(X, pad_value):\n    \"\"\"shift every row 1 step to right\"\"\"\n    # X = B x M x L\n    B, M, L = X.size()\n    X = F.pad(X, (0, M + 1), value=pad_value)  # B x M x (L+M+1)\n    X = X.view(B, -1)  # B x ML+MM+M\n    X = X[:, :-M]  # B x ML+MM\n    X = X.view(B, M, M + L)  # B x M x L+M\n    return X\n\n\ndef _unskew(X):\n    \"\"\"reverse _skew operation\"\"\"\n    # X = B x M x L+M\n    B, M, L = X.size()\n    L -= M\n    X = X.view(B, -1)  # B x ML+MM\n    X = F.pad(X, (0, M))  # B x ML+MM+M\n    X = X.view(B, M, M + L + 1)  # B x M x L+M+1\n    X = X[:, :, :L]  # B x M x L\n    return X\n\n\nclass SeqAttention(nn.Module):\n    \"\"\"Sequential self-attention layer.\n    Each token will attend to its previous fixed number of steps.\n    Note that attention doesn't include the current step itself.\n    \"\"\"\n\n    def __init__(self, d_model, n_head, attn_span, dropout, adapt_span_layer, **kargs):\n        nn.Module.__init__(self)\n        self.dropout = nn.Dropout(dropout)\n        self.d_model = d_model  # size of a single head\n        self.attn_span = attn_span\n        self.adaptive_span = AdaptiveSpan(\n            attn_span=attn_span,\n            n_head=n_head,\n            adapt_span_layer=adapt_span_layer,\n            **kargs\n        )\n\n    def forward(self, query, key, value, key_pe):\n        # query size = B x M x H\n        # key, value sizes = B x (M+L) x H\n\n        key, value, key_pe = self.adaptive_span.trim_memory(query, key, value, key_pe)\n\n        # compute attention from context\n        # B x M (dest) x (M+L) (src)\n        attn_cont = torch.matmul(query, key.transpose(-1, -2))\n        attn_cont = _unskew(attn_cont)  # B x M x L\n\n        # compute the effect of position embedding\n        attn_pos = torch.matmul(query, key_pe)  # B x M x L_pos\n        attn = attn_cont + attn_pos\n\n        attn = attn / math.sqrt(self.d_model)  # B x M X L_pos\n\n        attn = F.softmax(attn.float(), dim=-1).type_as(attn)\n\n        # trim attention lengths according to the learned span\n        attn = self.adaptive_span(attn)\n\n        attn = self.dropout(attn)  # B x M X L_pos\n\n        attn_cont = _skew(attn, 0)  # B x M X (L+M)\n        out = torch.matmul(attn_cont, value)  # B x M x H\n        return out\n\n    def get_cache_size(self):\n        return self.adaptive_span.get_cache_size()\n\n\nclass MultiHeadSeqAttention(nn.Module):\n    def __init__(self, d_model, n_head, **kargs):\n        nn.Module.__init__(self)\n        assert d_model % n_head == 0\n        self.n_head = n_head\n        self.head_dim = d_model // n_head\n        self.attn = SeqAttention(d_model=self.head_dim, n_head=n_head, **kargs)\n        self.proj_query = nn.Linear(d_model, d_model, bias=False)\n        nn.init.xavier_normal_(self.proj_query.weight)\n        self.proj_out = nn.Linear(d_model, d_model, bias=False)\n        nn.init.xavier_normal_(self.proj_out.weight)\n        self.proj_val = nn.Linear(d_model, d_model, bias=False)\n        nn.init.xavier_normal_(self.proj_val.weight)\n        self.proj_key = nn.Linear(d_model, d_model, bias=False)\n        nn.init.xavier_normal_(self.proj_key.weight)\n\n    def head_reshape(self, x):\n        K = self.n_head\n        D = self.head_dim\n        x = x.view(x.size()[:-1] + (K, D))  # B x (M+L) x K x D\n        x = x.transpose(1, 2).contiguous()  # B x K x (M+L) x D\n        x = x.view(-1, x.size(-2), x.size(-1))  # B_K x (M+L) x D\n        return x\n\n    def forward(self, query, key, value, key_pe):\n        B = query.size(0)\n        K = self.n_head\n        D = self.head_dim\n        M = query.size(1)\n\n        query = self.proj_query(query)\n        query = self.head_reshape(query)\n        value = self.proj_val(value)\n        value = self.head_reshape(value)\n        key = self.proj_key(key)\n        key = self.head_reshape(key)\n\n        out = self.attn(query, key, value, key_pe)  # B_K x M x D\n        out = out.view(B, K, M, D)  # B x K x M x D\n        out = out.transpose(1, 2).contiguous()  # B x M x K x D\n        out = out.view(B, M, -1)  # B x M x K_D\n        out = self.proj_out(out)\n        return out\n\n\nclass FeedForwardLayer(nn.Module):\n    def __init__(self, d_model, d_inner, dropout, **kargs):\n        nn.Module.__init__(self)\n        self.fc1 = nn.Linear(d_model, d_inner)\n        self.fc2 = nn.Linear(d_inner, d_model)\n        nn.init.xavier_uniform_(self.fc1.weight)\n        nn.init.xavier_uniform_(self.fc2.weight)\n        self.dropout = nn.Dropout(dropout)\n\n    def forward(self, h):\n        h1 = F.relu(self.fc1(h))\n        h1 = self.dropout(h1)\n        h2 = self.fc2(h1)\n        return h2\n\n\nclass TransformerSeqLayer(nn.Module):\n    def __init__(self, d_model, **kargs):\n        nn.Module.__init__(self)\n        self.attn = MultiHeadSeqAttention(d_model=d_model, **kargs)\n        self.norm1 = LayerNorm(d_model)\n        self.ff = FeedForwardLayer(d_model=d_model, **kargs)\n        self.norm2 = LayerNorm(d_model)\n\n    def forward(self, h, h_cache, key_pe):\n        # h = B x M x H\n        # h_cache = B x L x H\n        h_all = torch.cat([h_cache, h], dim=1)  # B x (M+L) x H\n        attn_out = self.attn(h, h_all, h_all, key_pe)\n        h = self.norm1(h + attn_out)  # B x M x H\n        if self.ff is not None:\n            ff_out = self.ff(h)\n            out = self.norm2(h + ff_out)  # B x M x H\n        else:\n            out = h\n        return out\n\n    def get_cache_size(self):\n        return self.attn.attn.get_cache_size()\n\n\nclass TransformerSeq(nn.Module):\n    def __init__(\n        self,\n        vocab_size,\n        d_model,\n        n_head,\n        n_layer,\n        attn_span,\n        emb_dropout,\n        aux_loss_scaler,\n        adapt_span_layer,\n        **kargs\n    ):\n        nn.Module.__init__(self)\n        # token embeddings\n        self.in_emb = nn.Embedding(vocab_size, d_model)\n        nn.init.normal_(self.in_emb.weight, mean=0, std=d_model ** -0.5)\n        self.out_emb = nn.Linear(d_model, vocab_size)\n        self.aux_loss_scaler = aux_loss_scaler\n        if emb_dropout > 0:\n            self.emb_dropout = nn.Dropout(emb_dropout)\n        else:\n            self.emb_dropout = None\n        # position embeddings\n        self.key_pe = nn.Parameter(torch.randn(1, d_model // n_head, attn_span))\n\n        self.layers = nn.ModuleList()\n        self.layers.extend(\n            TransformerSeqLayer(\n                d_model=d_model,\n                n_head=n_head,\n                attn_span=attn_span,\n                adapt_span_layer=adapt_span_layer,\n                **kargs\n            )\n            for _ in range(n_layer)\n        )\n\n    def forward(self, x, h_cache, target=None):\n        # x size = B x M\n        block_size = x.size(1)\n        h = self.in_emb(x)  # B x M x H\n        if self.emb_dropout is not None:\n            h = self.emb_dropout(h)\n\n        h_cache_next = []\n        for l, layer in enumerate(self.layers):\n            cache_size = layer.attn.attn.get_cache_size()\n            if cache_size > block_size:\n                h_cache_next_l = torch.cat(\n                    [h_cache[l][:, -cache_size + block_size :, :], h], dim=1\n                ).detach()\n            else:\n                h_cache_next_l = h[:, -cache_size:, :].detach()\n            h_cache_next.append(h_cache_next_l)\n            h = layer(h, h_cache[l], self.key_pe)  # B x M x H\n\n        if self.emb_dropout is not None:\n            h = self.emb_dropout(h)\n\n        out = F.log_softmax(self.out_emb(h).float(), dim=-1).type_as(h)\n        dummy_loss = None\n\n        return out, h_cache_next, dummy_loss\n\n    def get_aux_loss(self):\n        loss = 0.0\n        for layer in self.layers:\n            loss += layer.attn.attn.adaptive_span.get_loss()\n        return self.aux_loss_scaler * loss\n\n    def get_current_max_span(self):\n        max_span = 0.0\n        for layer in self.layers:\n            max_span = max(\n                max_span, layer.attn.attn.adaptive_span.get_current_max_span()\n            )\n        return max_span\n\n    def get_current_avg_span(self):\n        avg_span = 0.0\n        for layer in self.layers:\n            avg_span += layer.attn.attn.adaptive_span.get_current_avg_span()\n        return avg_span / len(self.layers)\n"
  },
  {
    "path": "examples/adaptive_span/adaptive_span_model_wrapper.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom dataclasses import dataclass\nfrom typing import Dict, List, Optional\n\nimport torch\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.models import (\n    FairseqIncrementalDecoder,\n    FairseqLanguageModel,\n    register_model,\n)\nfrom .adaptive_span_model import TransformerSeq as AdaptiveSpanTransformerModel\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass AdaptiveSpanSmallConfig(FairseqDataclass):\n    # defaults come from https://github.com/facebookresearch/adaptive-span/blob/master/experiments/enwik8_small.sh\n    vocab_size: int = 50\n    d_model: int = 256\n    n_head: int = 4\n    d_inner: int = 1024\n    n_layer: int = 8\n    attn_span: int = 1024\n    dropout: float = 0.0\n    emb_dropout: float = 0.0\n    adapt_span_ramp: int = 32\n    adapt_span_init: float = 0.0\n    aux_loss_scaler: float = 0.000002\n    adapt_span_layer: bool = False\n\n\n@register_model(\"adaptive_span\", dataclass=AdaptiveSpanSmallConfig)\nclass AdaptiveSpanTransformer(FairseqLanguageModel):\n    @classmethod\n    def build_model(cls, cfg: AdaptiveSpanSmallConfig, task):\n        return cls(AdaptiveSpanDecoder(cfg, task))\n\n    def get_aux_loss(self):\n        return self.decoder.get_aux_loss()\n\n    def get_current_max_span(self):\n        return self.decoder.get_current_max_span()\n\n    def get_current_avg_span(self):\n        return self.decoder.get_current_avg_span()\n\n\nclass AdaptiveSpanDecoder(FairseqIncrementalDecoder):\n    def __init__(self, cfg, task):\n\n        super().__init__(task.target_dictionary)\n\n        self.config = cfg\n        config = AdaptiveSpanSmallConfig(\n            vocab_size=len(task.target_dictionary),\n            d_model=cfg.d_model,\n            n_head=cfg.n_head,\n            d_inner=cfg.d_inner,\n            n_layer=cfg.n_layer,\n            attn_span=cfg.attn_span,\n            dropout=cfg.dropout,\n            emb_dropout=cfg.emb_dropout,\n            adapt_span_ramp=cfg.adapt_span_ramp,\n            adapt_span_init=cfg.adapt_span_init,\n            aux_loss_scaler=cfg.aux_loss_scaler,\n            adapt_span_layer=cfg.adapt_span_layer,\n        )\n        logger.info(config)\n        self.model = AdaptiveSpanTransformerModel(**config.__dict__)\n\n        self._mems = None\n\n    def forward(\n        self,\n        src_tokens,\n        incremental_state: Optional[Dict[str, List[torch.Tensor]]] = None,\n        encoder_out=None,\n    ):\n        bsz = src_tokens.size(0)\n        if incremental_state is not None:  # used during inference\n            mems = self.get_incremental_state(\"mems\")\n            src_tokens = src_tokens[:, -1:]  # only keep the most recent token\n        else:\n            mems = self._mems\n\n        if mems is None:\n            # first time init\n            mems = self.init_hid_cache(bsz)\n        output = self.model(x=src_tokens, h_cache=mems,)\n        if incremental_state is not None:\n            self.set_incremental_state(incremental_state, \"mems\", output[1])\n        else:\n            self._mems = output[1]\n        return (output[0],)\n\n    def max_positions(self):\n        return self.config.attn_span\n\n    def init_hid_cache(self, batch_sz):\n        hid = []\n        for layer in self.model.layers:\n            param = next(self.model.parameters())\n            h = torch.zeros(\n                batch_sz,\n                layer.get_cache_size(),\n                self.config.d_model,\n                dtype=param.dtype,\n                device=param.device,\n            )\n            hid.append(h)\n        return hid\n\n    def get_aux_loss(self):\n        return self.model.get_aux_loss()\n\n    def get_current_max_span(self):\n        return self.model.get_current_max_span()\n\n    def get_current_avg_span(self):\n        return self.model.get_current_avg_span()\n\n    def reorder_incremental_state(\n        self,\n        incremental_state: Dict[str, Dict[str, Optional[torch.Tensor]]],\n        new_order: torch.Tensor,\n    ):\n        \"\"\"Reorder incremental state.\n\n        This will be called when the order of the input has changed from the\n        previous time step. A typical use case is beam search, where the input\n        order changes between time steps based on the selection of beams.\n        \"\"\"\n        raise NotImplementedError(\"This is required for generation/beam search\")\n        # mems = self.get_incremental_state(incremental_state, \"mems\")\n        # if mems is not None:\n        #     new_mems = [mems_i.index_select(1, new_order) for mems_i in mems]\n        #     self.set_incremental_state(incremental_state, \"mems\", new_mems)\n"
  },
  {
    "path": "examples/attention_head_selection/README.md",
    "content": "# Pay Better Attention to Attention: Head Selection in Multilingual and Multi-Domain Sequence Modeling (Gong et al., 2021)\n\n[https://arxiv.org/pdf/2106.10840.pdf](https://arxiv.org/pdf/2106.10840.pdf)\n\n## Introduction\n\nWe present attention head selection strategies in multilingual and multi-domain sequence modeling including text translation, speech recognition and speech translation tasks.\n\nBelow is an example of training multilingual/multi-domain speech recognition models.\n\n## Data Preparation\nPrepare mTEDx data as in [mTEDx example](https://github.com/fairinternal/fairseq-py/blob/0d9c5851e6fac40f9e366b3633ccd615c2901788/examples/speech_to_text/docs/mtedx_example.md) and CoVoST data as in [CoVoST example](https://github.com/fairinternal/fairseq-py/blob/0d9c5851e6fac40f9e366b3633ccd615c2901788/examples/speech_to_text/docs/covost_example.md). Similarly prepare EuroParl data.\n\n\n## Training a multilingual ASR model with attention head selection\n\n```bash\ndata_dir=<path to mtedx data>\ntrain_subset=\"train_ar_ar_tedx,train_de_de_tedx,train_el_el_tedx,train_es_es_tedx,train_fr_fr_tedx,train_it_it_tedx,train_pt_pt_tedx,train_ru_ru_tedx\"\nvalid_subset=\"valid_ar_ar_tedx,valid_de_de_tedx,valid_el_el_tedx,valid_es_es_tedx,valid_fr_fr_tedx,valid_it_it_tedx,valid_pt_pt_tedx,valid_ru_ru_tedx\"\nstrateg=<subset or group>\n\nfairseq-train ${data_dir} \\\n    --user-dir examples/attention_head_selection/src \\\n    --train-subset \"${train_subset}\" \\\n    --valid-subset \"${valid_subset}\" \\\n    --config-yaml 'config_asr.yaml' \\\n    --arch 'head_selection_s2t_transformer_s' \\\n    --task 'speech_to_text_head_selection' \\\n    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n    --lr-scheduler 'inverse_sqrt' --stop-min-lr -1.0 --warmup-updates 10000 \\\n    --lr 5e-4 \\\n    --clip-norm 10.0 \\\n    --seed 1 \\\n    --max-epoch 400 \\\n    --max-tokens 32000 \\\n    --ignore-prefix-size 1 \\\n    --dropout 0.3 \\\n    --optimizer adam --adam-eps 1e-06 --adam-betas '(0.9, 0.98)' \\\n    --skip-invalid-size-inputs-valid-test \\\n    --encoder-attn-head-select \\\n    --total-encoder-attention-heads 8 \\\n    --decoder-self-attn-head-select \\\n    --total-decoder-attention-heads 8 \\\n    --attn-head-select-strategy ${strategy} \\\n    --task-type lang \\\n```\n\n## Training a multi-domain ASR model with attention head selection\n\n```bash\ndata_dir=<path to multi-domain data>\ntrain_subset=\"train_es_es_tedx,train_fr_fr_tedx,train_pt_pt_tedx,train_it_it_tedx,train_ru_ru_tedx,train_el_el_tedx,train_ar_ar_tedx,train_de_de_tedx,train_ar_ar_cv,train_de_de_cv,train_es_es_cv,train_fr_fr_cv,train_it_it_cv,train_pt_pt_cv,train_ru_ru_cv,train_de_de_ep,train_es_es_ep,train_fr_fr_ep,train_it_it_ep,train_pt_pt_ep\"\nvalid_subset=\"dev_es_es_tedx,dev_fr_fr_tedx,dev_pt_pt_tedx,dev_it_it_tedx,dev_ru_ru_tedx,dev_el_el_tedx,dev_ar_ar_tedx,dev_de_de_tedx,dev_ar_ar_cv,dev_de_de_cv,dev_es_es_cv,dev_fr_fr_cv,dev_it_it_cv,dev_pt_pt_cv,dev_ru_ru_cv,dev_de_de_ep,dev_es_es_ep,dev_fr_fr_ep,dev_it_it_ep,dev_pt_pt_ep\"\nstrateg=<subset or group>\n\nfairseq-train ${data_dir} \\\n    --user-dir examples/attention_head_selection/src \\\n    --train-subset \"${train_subset}\" \\\n    --valid-subset \"${valid_subset}\" \\\n    --config-yaml 'config_asr.yaml' \\\n    --arch head_selection_s2t_transformer_s \\\n    --task speech_to_text_head_selection \\\n    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n    --lr-scheduler 'inverse_sqrt' --stop-min-lr -1.0 --warmup-updates 10000 \\\n    --lr 5e-4 \\\n    --clip-norm 10.0 \\\n    --seed 1 \\\n    --max-epoch 400 \\\n    --max-tokens 32000 \\\n    --ignore-prefix-size 1 \\\n    --dropout 0.3 \\\n    --optimizer adam --adam-eps 1e-06 --adam-betas '(0.9, 0.98)' \\\n    --skip-invalid-size-inputs-valid-test \\\n    --encoder-attn-head-select \\\n    --total-encoder-attention-heads 8 \\\n    --decoder-self-attn-head-select \\\n    --total-decoder-attention-heads 8 \\\n    --attn-head-select-strategy ${strategy} \\\n    --task-type domain\n```\n\n## Inference in multilingual setting\n\n```bash\nMODEL_DIR=<checkpoint directory>\ndata_dir=<path to mtedx data>\ngen_subset=<data to test, e.g., test_ar_ar_tedx>\ntrain_subset=\"train_ar_ar_tedx,train_de_de_tedx,train_el_el_tedx,train_es_es_tedx,train_fr_fr_tedx,train_it_it_tedx,train_pt_pt_tedx,train_ru_ru_tedx\"\nlast_n=10\nCHECKPOINT_FILENAME=\"avg_last_${last_n}_checkpoint.pt\"\nCHECKPOINT=\"_avg\"\nRESULTS=\"${MODEL_DIR}/ckpt${CHECKPOINT}\"\nif [ ! -d $RESULTS ]; then\n    mkdir -p $RESULTS\nfi;\n\npython scripts/average_checkpoints.py \\\n  --inputs ${MODEL_DIR} --num-epoch-checkpoints ${last_n} \\\n  --output \"${MODEL_DIR}/${CHECKPOINT_FILENAME}\"\n\nfairseq-generate ${data_dir} \\\n    --user-dir examples/attention_head_selection/src \\\n    --arch 'head_selection_s2t_transformer_s' \\\n    --task 'speech_to_text_head_selection' \\\n    --train-subset ${train_subset} \\\n    --gen-subset ${gen_subset} \\\n    --path \"${MODEL_DIR}/${CHECKPOINT_FILENAME}\" \\\n    --config-yaml 'config_asr.yaml' \\\n    --prefix-size 1 \\\n    --max-tokens 40000 --beam 5 \\\n    --skip-invalid-size-inputs-valid-test \\\n    --results-path ${RESULTS} \\\n    --scoring wer --wer-tokenizer 13a \\\n    --wer-lowercase --wer-remove-punct --remove-bpe\n```\n\n## Inference in multi-domain setting\n\n```bash\nMODEL_DIR=<checkpoint directory>\ndata_dir=<path to multi-domain data>\ngen_subset=<data to test, e.g., test_pt_pt_cv>\ntrain_subset=\"train_es_es_tedx,train_fr_fr_tedx,train_pt_pt_tedx,train_it_it_tedx,train_ru_ru_tedx,train_el_el_tedx,train_ar_ar_tedx,train_de_de_tedx,train_ar_ar_cv,train_de_de_cv,train_es_es_cv,train_fr_fr_cv,train_it_it_cv,train_pt_pt_cv,train_ru_ru_cv,train_de_de_ep,train_es_es_ep,train_fr_fr_ep,train_it_it_ep,train_pt_pt_ep\"\nlast_n=10\nCHECKPOINT_FILENAME=\"avg_last_${last_n}_checkpoint.pt\"\nCHECKPOINT=\"_avg\"\nRESULTS=\"${MODEL_DIR}/ckpt${CHECKPOINT}\"\nif [ ! -d $RESULTS ]; then\n    mkdir -p $RESULTS\nfi;\n\npython scripts/average_checkpoints.py \\\n  --inputs ${MODEL_DIR} --num-epoch-checkpoints ${last_n} \\\n  --output \"${MODEL_DIR}/${CHECKPOINT_FILENAME}\"\n\nfairseq-generate ${data_dir} \\\n    --user-dir examples/attention_head_selection/src \\\n    --arch 'head_selection_s2t_transformer_s' \\\n    --task 'speech_to_text_head_selection' \\\n    --train-subset ${train_subset} \\\n    --gen-subset ${gen_subset} \\\n    --path \"${MODEL_DIR}/${CHECKPOINT_FILENAME}\" \\\n    --config-yaml 'config_asr.yaml' \\\n    --prefix-size 1 \\\n    --max-tokens 40000 --beam 5 \\\n    --skip-invalid-size-inputs-valid-test \\\n    --results-path ${RESULTS} \\\n    --scoring wer --wer-tokenizer 13a \\\n    --wer-lowercase --wer-remove-punct --remove-bpe\n```\n\n## Citation\n```bibtex\n@article{gong2021pay,\n  title={Pay Better Attention to Attention: Head Selection in Multilingual and Multi-Domain Sequence Modeling},\n  author={Gong, Hongyu and Tang, Yun and Pino, Juan and Li, Xian},\n  journal={arXiv preprint arXiv:2106.10840},\n  year={2021}\n}\n'''\n"
  },
  {
    "path": "examples/attention_head_selection/src/__init__.py",
    "content": ""
  },
  {
    "path": "examples/attention_head_selection/src/data/__init__.py",
    "content": ""
  },
  {
    "path": "examples/attention_head_selection/src/data/speech_to_text_dataset_with_domain.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom pathlib import Path\nfrom typing import Dict, List, Optional\nfrom dataclasses import dataclass\n\nimport torch\nfrom fairseq.data import (\n    ConcatDataset,\n    Dictionary,\n    FairseqDataset,\n    ResamplingDataset\n)\nfrom fairseq.data.audio.data_cfg import S2TDataConfig\nfrom fairseq.data.audio.speech_to_text_dataset import (\n    SpeechToTextDatasetItem,\n    SpeechToTextDataset,\n    SpeechToTextDatasetCreator\n)\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass SpeechToTextDatasetItemWithDomain(SpeechToTextDatasetItem):\n    src_lang_id: Optional[torch.Tensor] = None\n    tgt_lang_id: Optional[torch.Tensor] = None\n    domain_id: Optional[torch.Tensor] = None\n\n\nclass SpeechToTextDatasetWithDomain(SpeechToTextDataset):\n\n    def __init__(\n        self,\n        split: str,\n        is_train_split: bool,\n        cfg: S2TDataConfig,\n        audio_paths: List[str],\n        n_frames: List[int],\n        src_texts: Optional[List[str]] = None,\n        tgt_texts: Optional[List[str]] = None,\n        speakers: Optional[List[str]] = None,\n        src_langs: Optional[List[str]] = None,\n        tgt_langs: Optional[List[str]] = None,\n        ids: Optional[List[str]] = None,\n        tgt_dict: Optional[Dictionary] = None,\n        pre_tokenizer=None,\n        bpe_tokenizer=None,\n        n_frames_per_step=1,\n        speaker_to_id=None,\n        src_lang_ids: Optional[List[int]] = None,\n        tgt_lang_ids: Optional[List[int]] = None,\n        domain_ids: Optional[List[int]] = None\n    ):\n        super().__init__(\n            split, is_train_split, cfg, audio_paths, n_frames,\n            src_texts, tgt_texts, speakers, src_langs, tgt_langs,\n            ids, tgt_dict, pre_tokenizer, bpe_tokenizer,\n            n_frames_per_step, speaker_to_id\n        )\n        assert src_lang_ids is None or len(src_lang_ids) == self.n_samples\n        assert tgt_lang_ids is None or len(tgt_lang_ids) == self.n_samples\n        assert domain_ids is None or len(domain_ids) == self.n_samples\n\n        self.src_lang_ids = src_lang_ids\n        self.tgt_lang_ids = tgt_lang_ids\n        self.domain_ids = domain_ids\n\n    def __getitem__(self, index: int) -> SpeechToTextDatasetItemWithDomain:\n        item = super().__getitem__(index)\n        src_lang_id = self.src_lang_ids[index]\n        tgt_lang_id = self.tgt_lang_ids[index]\n        domain_id = self.domain_ids[index]\n        return SpeechToTextDatasetItemWithDomain(\n            index=item.index, source=item.source,\n            target=item.target, speaker_id=item.speaker_id,\n            src_lang_id=src_lang_id,\n            tgt_lang_id=tgt_lang_id,\n            domain_id=domain_id\n        )\n\n    def collater(\n        self, samples: List[SpeechToTextDatasetItem], return_order: bool = False\n    ) -> Dict:\n        if len(samples) == 0:\n            return {}\n        out = super().collater(samples, return_order=True)\n        order = out[\"order\"]\n        src_lang_ids = torch.tensor([x.src_lang_id for x in samples], dtype=torch.long).index_select(0, order)\n        tgt_lang_ids = torch.tensor([x.tgt_lang_id for x in samples], dtype=torch.long).index_select(0, order)\n        domain_ids = torch.tensor([x.domain_id for x in samples], dtype=torch.long).index_select(0, order)\n\n        out[\"src_lang_ids\"] = src_lang_ids\n        out[\"tgt_lang_ids\"] = tgt_lang_ids\n        out[\"domain_ids\"] = domain_ids\n        if not return_order:\n            del out[\"order\"]\n        return out\n\n\nclass SpeechToTextDatasetCreatorWithDomain(SpeechToTextDatasetCreator):\n    KEY_SRC_LANG_ID, KEY_TGT_LANG_ID = \"src_lang_id\", \"tgt_lang_id\"\n    KEY_DOMAIN_ID = \"domain_id\"\n    # default values\n    DEFAULT_SRC_LANG_ID, DEFAULT_TGT_LANG_ID, DEFAULT_DOMAIN_ID = 0, 0, 0\n\n    @classmethod\n    def _from_list(\n        cls,\n        split_name: str,\n        is_train_split,\n        samples: List[Dict],\n        cfg: S2TDataConfig,\n        tgt_dict,\n        pre_tokenizer,\n        bpe_tokenizer,\n        n_frames_per_step,\n        speaker_to_id\n    ) -> SpeechToTextDatasetWithDomain:\n        audio_root = Path(cfg.audio_root)\n        ids = [s[cls.KEY_ID] for s in samples]\n        audio_paths = [(audio_root / s[cls.KEY_AUDIO]).as_posix() for s in samples]\n        n_frames = [int(s[cls.KEY_N_FRAMES]) for s in samples]\n        tgt_texts = [s[cls.KEY_TGT_TEXT] for s in samples]\n        src_texts = [s.get(cls.KEY_SRC_TEXT, cls.DEFAULT_SRC_TEXT) for s in samples]\n        speakers = [s.get(cls.KEY_SPEAKER, cls.DEFAULT_SPEAKER) for s in samples]\n        src_langs = [s.get(cls.KEY_SRC_LANG, cls.DEFAULT_LANG) for s in samples]\n        tgt_langs = [s.get(cls.KEY_TGT_LANG, cls.DEFAULT_LANG) for s in samples]\n        src_lang_ids = [s.get(cls.KEY_SRC_LANG_ID, cls.DEFAULT_SRC_LANG_ID) for s in samples]\n        tgt_lang_ids = [s.get(cls.KEY_TGT_LANG_ID, cls.DEFAULT_TGT_LANG_ID) for s in samples]\n        domain_ids = [s.get(cls.KEY_DOMAIN_ID, cls.DEFAULT_DOMAIN_ID) for s in samples]\n        return SpeechToTextDatasetWithDomain(\n            split_name,\n            is_train_split,\n            cfg,\n            audio_paths,\n            n_frames,\n            src_texts=src_texts,\n            tgt_texts=tgt_texts,\n            speakers=speakers,\n            src_langs=src_langs,\n            tgt_langs=tgt_langs,\n            ids=ids,\n            tgt_dict=tgt_dict,\n            pre_tokenizer=pre_tokenizer,\n            bpe_tokenizer=bpe_tokenizer,\n            n_frames_per_step=n_frames_per_step,\n            speaker_to_id=speaker_to_id,\n            src_lang_ids=src_lang_ids,\n            tgt_lang_ids=tgt_lang_ids,\n            domain_ids=domain_ids\n        )\n\n    @classmethod\n    def _load_samples_from_tsv(\n        cls,\n        root: str,\n        split: str,\n        src_lang_map,\n        tgt_lang_map,\n        domain_map\n    ):\n        # metadata from split\n        _, src_lang, tgt_lang, domain = split.split(\"_\")\n        src_lang_id = src_lang_map[src_lang]\n        tgt_lang_id = tgt_lang_map[tgt_lang]\n        domain_id = domain_map[domain]\n\n        samples = SpeechToTextDatasetCreator._load_samples_from_tsv(root, split)\n        for s in samples:\n            s.update({\n                cls.KEY_SRC_LANG_ID: src_lang_id,\n                cls.KEY_TGT_LANG_ID: tgt_lang_id,\n                cls.KEY_DOMAIN_ID: domain_id\n            })\n        return samples\n\n    @classmethod\n    def _from_tsv(\n        cls,\n        root: str,\n        cfg: S2TDataConfig,\n        split: str,\n        tgt_dict,\n        is_train_split: bool,\n        pre_tokenizer,\n        bpe_tokenizer,\n        n_frames_per_step,\n        speaker_to_id,\n        src_lang_map: Dict[str, int],\n        tgt_lang_map: Dict[str, int],\n        domain_map: Dict[str, int]\n    ) -> SpeechToTextDatasetItemWithDomain:\n        samples = cls._load_samples_from_tsv(\n            root, split, src_lang_map,\n            tgt_lang_map, domain_map\n        )\n        return cls._from_list(\n            split, is_train_split, samples, cfg, tgt_dict, pre_tokenizer,\n            bpe_tokenizer, n_frames_per_step, speaker_to_id\n        )\n\n    @classmethod\n    def from_tsv(\n        cls,\n        root: str,\n        cfg: S2TDataConfig,\n        splits: str,\n        tgt_dict,\n        pre_tokenizer,\n        bpe_tokenizer,\n        is_train_split: bool,\n        epoch: int,\n        seed: int,\n        src_lang_map: Dict[str, int],\n        tgt_lang_map: Dict[str, int],\n        domain_map: Dict[str, int],\n        n_frames_per_step: int = 1,\n        speaker_to_id=None\n    ) -> SpeechToTextDatasetWithDomain:\n        datasets = [\n            cls._from_tsv(\n                root, cfg, split, tgt_dict, is_train_split, pre_tokenizer, bpe_tokenizer, n_frames_per_step, speaker_to_id, src_lang_map, tgt_lang_map, domain_map\n            )\n            for split in splits.split(\",\")\n        ]\n\n        if is_train_split and len(datasets) > 1 and cfg.sampling_alpha != 1.0:\n            # temperature-based sampling\n            size_ratios = cls.get_size_ratios(datasets, alpha=cfg.sampling_alpha)\n            datasets = [\n                ResamplingDataset(\n                    d, size_ratio=r, seed=seed, epoch=epoch, replace=(r >= 1.0)\n                )\n                for r, d in zip(size_ratios, datasets)\n            ]\n\n        return ConcatDataset(datasets) if len(datasets) > 1 else datasets[0]\n"
  },
  {
    "path": "examples/attention_head_selection/src/loss/__init__.py",
    "content": ""
  },
  {
    "path": "examples/attention_head_selection/src/loss/attention_head_selection.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\nfrom torch.nn.modules.loss import _Loss\n\n\nclass HeadSelectionLoss(_Loss):\n\n    def __init__(self, args):\n        super().__init__()\n        self.args = args\n        self.kl_weight = getattr(args, \"kl_weight\", 0.0)\n\n    def forward(self, head_samples, sample_sizes, prior=0.5, eps=1e-7):\n        \"\"\"\n        head_scores: (num_tasks, num_layers, num_heads)\n        sample_sizes: (num_tasks, )\n        \"\"\"\n        kl_loss = (head_samples * (torch.log(head_samples + eps) - math.log(prior))).sum(-1).sum(-1)\n        kl_loss /= (torch.numel(head_samples) / head_samples.size(0))\n        kl_loss = self.kl_weight * torch.matmul(kl_loss, sample_sizes)\n        return kl_loss\n"
  },
  {
    "path": "examples/attention_head_selection/src/models/__init__.py",
    "content": ""
  },
  {
    "path": "examples/attention_head_selection/src/models/head_selection_s2t_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom typing import Dict, List, Optional\nfrom pathlib import Path\nimport torch.nn as nn\nfrom torch import Tensor\nfrom fairseq import checkpoint_utils\n\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.utils import safe_hasattr\nfrom fairseq.models.speech_to_text.s2t_transformer import (\n    S2TTransformerModel,\n    S2TTransformerEncoder,\n    TransformerDecoderScriptable\n)\nfrom fairseq.models.speech_to_text.s2t_transformer import base_architecture as s2t_base_architecture\n\nfrom ..modules.attn_head_selector import AttnHeadSelector\nfrom ..modules.head_selection_transformer_layer import HeadSelectionTransformerEncoderLayer\nfrom .head_selection_transformer import HeadSelectionTransformerDecoder\n\n\nlogger = logging.getLogger(__name__)\n\n\n@register_model(\"head_selection_s2t_transformer\")\nclass HeadSelectionS2TTransformerModel(S2TTransformerModel):\n    \"\"\"\n    Head selection implemented in S2TTransformer\n    \"\"\"\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @staticmethod\n    def add_args(parser):\n        S2TTransformerModel.add_args(parser)\n        # encoder head selection\n        parser.add_argument(\n            \"--encoder-attn-head-select\",\n            action=\"store_true\",\n            default=False,\n            help=\"encoder head selection\"\n        )\n        parser.add_argument(\n            \"--total-encoder-attention-heads\",\n            type=int,\n            help=\"total number of encoder attention heads\"\n        )\n        # decoder self attention selection\n        parser.add_argument(\n            \"--decoder-self-attn-head-select\",\n            action=\"store_true\",\n            default=False,\n            help=\"decoder self-attention head selection\"\n        )\n        # decoder-encoder attention selection\n        parser.add_argument(\n            \"--dec-enc-attn-head-select\",\n            action=\"store_true\",\n            default=False,\n            help=\"decoder-encoder attention head selection\"\n        )\n        parser.add_argument(\n            \"--total-decoder-attention-heads\",\n            type=int,\n            help=\"total number of decoder attention heads\"\n        )\n        # selection strategy\n        parser.add_argument(\n            \"--attn-head-select-strategy\",\n            type=str,\n            help=\"attention head selection strategy, subset or group\"\n        )\n\n    @classmethod\n    def build_encoder(cls, args):\n        if safe_hasattr(args, \"encoder_attn_head_select\") and args.encoder_attn_head_select:\n            encoder = HeadSelectionS2TTransformerEncoder(args)\n        else:\n            encoder = S2TTransformerEncoder(args)\n        pretraining_path = getattr(args, \"load_pretrained_encoder_from\", None)\n        if pretraining_path is not None:\n            if not Path(pretraining_path).exists():\n                logger.warning(\n                    f\"skipped pretraining because {pretraining_path} does not exist\"\n                )\n            else:\n                encoder = checkpoint_utils.load_pretrained_component_from_model(\n                    component=encoder, checkpoint=pretraining_path\n                )\n                logger.info(f\"loaded pretrained encoder from: {pretraining_path}\")\n        return encoder\n\n    @classmethod\n    def build_decoder(cls, args, task, embed_tokens):\n        if (safe_hasattr(args, \"decoder_self_attn_head_select\") and args.decoder_self_attn_head_select) or (safe_hasattr(args, \"dec_enc_attn_head_select\") and args.dec_enc_attn_head_select):\n            return HeadSelectionTransformerDecoderScriptable(args, task.target_dictionary, embed_tokens)\n        else:\n            return TransformerDecoderScriptable(args, task.target_dictionary, embed_tokens)\n\n\nclass HeadSelectionS2TTransformerEncoder(S2TTransformerEncoder):\n\n    def __init__(self, args):\n        super().__init__(args)\n        self.attn_head_selector = AttnHeadSelector(\n            args.encoder_tasks,\n            args.encoder_layers,\n            args.total_encoder_attention_heads,\n            args.encoder_attention_heads,\n            args.attn_head_select_strategy,\n        )\n        self.task_ids = None\n        self.transformer_layers = nn.ModuleList([\n            HeadSelectionTransformerEncoderLayer(args, layer_idx, attn_head_selector=self.attn_head_selector) for layer_idx in range(args.encoder_layers)\n        ])\n\n    def set_task_ids(self, task_ids):\n        self.task_ids = task_ids\n\n    def _forward(self, src_tokens, src_lengths, return_all_hiddens=False):\n        self.attn_head_selector.head_select(self.task_ids)\n        return super()._forward(src_tokens, src_lengths, return_all_hiddens)\n\n\nclass HeadSelectionTransformerDecoderScriptable(HeadSelectionTransformerDecoder):\n    def extract_features(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n    ):\n        # call scriptable method from parent class\n        x, _ = self.extract_features_scriptable(\n            prev_output_tokens,\n            encoder_out,\n            incremental_state,\n            full_context_alignment,\n            alignment_layer,\n            alignment_heads,\n        )\n        return x, None\n\n\n@register_model_architecture(model_name=\"head_selection_s2t_transformer\", arch_name=\"head_selection_s2t_transformer\")\ndef base_architecture(args):\n    s2t_base_architecture(args)\n    args.encoder_attn_head_select = getattr(args, \"encoder_attn_head_select\", False)\n    args.decoder_self_attn_head_select = getattr(args, \"decoder_self_attn_head_select\", False)\n    args.dec_enc_attn_head_select = getattr(args, \"dec_enc_attn_head_select\", False)\n    args.total_encoder_attention_heads = getattr(args, \"total_encoder_attention_heads\", 8)\n    args.total_decoder_attention_heads = getattr(args, \"total_decoder_attention_heads\", 8)\n    args.attn_head_select_strategy = getattr(args, \"attn_head_select_strategy\", \"group\")\n\n\n@register_model_architecture(\"head_selection_s2t_transformer\", \"head_selection_s2t_transformer_s\")\ndef head_selection_s2t_transformer_s(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 256 * 8)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 4)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    base_architecture(args)\n"
  },
  {
    "path": "examples/attention_head_selection/src/models/head_selection_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Any, List, Dict, Optional\nimport torch\nimport torch.nn as nn\nfrom torch import Tensor\n\nfrom fairseq.utils import safe_hasattr\nfrom fairseq.models.transformer import (\n    TransformerModel,\n    TransformerEncoder,\n    TransformerDecoder\n)\n\nfrom ..modules.attn_head_selector import AttnHeadSelector\nfrom ..modules.head_selection_transformer_layer import (\n    HeadSelectionTransformerEncoderLayer,\n    HeadSelectionTransformerDecoderLayer\n)\n\n\nclass HeadSelectionTransformerModel(TransformerModel):\n    def __init__(self, args, encoder, decoder):\n        super().__init__(args, encoder, decoder)\n\n    @staticmethod\n    def add_args(parser):\n        TransformerModel.add_args(parser)\n        # encoder head selection\n        parser.add_argument(\n            \"--encoder-attn-head-select\",\n            action=\"store_true\",\n            default=False,\n            help=\"encoder head selection\"\n        )\n        parser.add_argument(\n            \"--total-encoder-attention-heads\",\n            type=int,\n            help=\"total number of encoder attention heads\"\n        )\n        # decoder self attention\n        parser.add_argument(\n            \"--decoder-self-attn-head-select\",\n            action=\"store_true\",\n            default=False,\n            help=\"decoder self-attention head selection\"\n        )\n        # decoder-encoder attention\n        parser.add_argument(\n            \"--dec-enc-attn-head-select\",\n            action=\"store_true\",\n            default=False,\n            help=\"decoder-encoder attention head selection\"\n        )\n        parser.add_argument(\n            \"--total-decoder-attention-heads\",\n            type=int,\n            help=\"total number of decoder attention heads\"\n        )\n        # selection strategy\n        parser.add_argument(\n            \"--attn-head-select-strategy\",\n            type=str,\n            help=\"attention head selection strategy, subset or group\"\n        )\n\n    @classmethod\n    def build_encoder(cls, args, src_dict, embed_tokens):\n        if safe_hasattr(args, \"encoder_attn_head_select\") and args.encoder_attn_head_select:\n            return HeadSelectionTransformerEncoder(\n                args, src_dict, embed_tokens\n            )\n        else:\n            return TransformerEncoder(args, src_dict, embed_tokens)\n\n    @classmethod\n    def build_decoder(cls, args, tgt_dict, embed_tokens):\n        if (safe_hasattr(args, \"decoder_self_attn_head_select\") and args.decoder_self_attn_head_select) or (safe_hasattr(args, \"dec_enc_attn_head_select\") and args.dec_enc_attn_head_select):\n            return HeadSelectionTransformerDecoder(\n                args, tgt_dict, embed_tokens\n            )\n        else:\n            return TransformerDecoder(args, tgt_dict, embed_tokens)\n\n\nclass HeadSelectionTransformerEncoder(TransformerEncoder):\n\n    def __init__(self, args, dictionary, embed_tokens):\n        self.num_tasks = args.encoder_tasks\n        self.num_layers = args.encoder_layers\n        self.total_num_heads = args.total_encoder_attention_heads\n        self.num_heads = args.encoder_attention_heads\n        self.select_strategy = args.attn_head_select_strategy\n\n        super().__init__(args, dictionary, embed_tokens)\n        self.attn_head_selector = AttnHeadSelector(\n            self.num_tasks,\n            self.num_layers,\n            self.total_num_heads,\n            self.num_heads,\n            self.select_strategy\n        )\n        self.task_ids = None\n        self.layers = nn.ModuleList(\n            [self.build_encoder_layer(args, i) for i in range(args.encoder_layers)]\n        )\n\n    def set_task_ids(self, task_ids):\n        self.task_ids = task_ids\n\n    def build_encoder_layer(self, args, layer_idx=None):\n        return HeadSelectionTransformerEncoderLayer(\n            args,\n            layer_idx,\n            attn_head_selector=self.attn_head_selector\n        )\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths: Optional[torch.Tensor] = None,\n        return_all_hiddens: bool = False,\n        token_embeddings: Optional[torch.Tensor] = None,\n    ):\n        self.attn_head_selector.head_select(self.task_ids)\n        return super().forward(src_tokens, src_lengths, return_all_hiddens, token_embeddings)\n\n\nclass HeadSelectionTransformerDecoder(TransformerDecoder):\n\n    def __init__(\n        self,\n        args,\n        dictionary,\n        embed_tokens,\n        no_encoder_attn=False,\n        output_projection=None,\n    ):\n        self.num_tasks = args.decoder_tasks\n        self.num_layers = args.decoder_layers\n        self.total_num_heads = args.total_decoder_attention_heads\n        self.num_heads = args.decoder_attention_heads\n        self.select_strategy = args.attn_head_select_strategy\n        super().__init__(\n            args, dictionary, embed_tokens,\n            no_encoder_attn=no_encoder_attn,\n            output_projection=output_projection\n        )\n        self.self_attn_head_selector = None\n        self.enc_attn_head_selector = None\n        if safe_hasattr(args, \"decoder_self_attn_head_select\") and args.decoder_self_attn_head_select:\n            self.self_attn_head_selector = AttnHeadSelector(\n                self.num_tasks,\n                self.num_layers,\n                self.total_num_heads,\n                self.num_heads,\n                self.select_strategy\n            )\n        if safe_hasattr(args, \"dec_enc_attn_head_select\") and args.dec_enc_attn_head_select:\n            self.enc_attn_head_selector = AttnHeadSelector(\n                self.num_tasks,\n                self.num_layers,\n                self.total_num_heads,\n                self.num_heads,\n                self.select_strategy\n            )\n        self.task_ids = None\n        self.layers = nn.ModuleList(\n            [\n                self.build_head_selection_decoder_layer(args, no_encoder_attn, idx) for idx in range(args.decoder_layers)\n            ]\n        )\n\n    def set_task_ids(self, task_ids):\n        self.task_ids = task_ids\n\n    def build_head_selection_decoder_layer(self, args, no_encoder_attn=False, layer_idx=None):\n        return HeadSelectionTransformerDecoderLayer(\n            args,\n            layer_idx,\n            self.self_attn_head_selector,\n            self.enc_attn_head_selector,\n            no_encoder_attn=no_encoder_attn\n        )\n\n    def forward(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        features_only: bool = False,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n        src_lengths: Optional[Any] = None,\n        return_all_hiddens: bool = False,\n    ):\n        if self.self_attn_head_selector is not None:\n            self.self_attn_head_selector.head_select(self.task_ids)\n        if self.enc_attn_head_selector is not None:\n            self.enc_attn_head_selector.head_select(self.task_ids)\n        return super().forward(\n            prev_output_tokens=prev_output_tokens,\n            encoder_out=encoder_out,\n            incremental_state=incremental_state,\n            features_only=features_only,\n            full_context_alignment=full_context_alignment,\n            alignment_layer=alignment_layer,\n            alignment_heads=alignment_heads,\n            src_lengths=src_lengths,\n            return_all_hiddens=return_all_hiddens\n        )\n"
  },
  {
    "path": "examples/attention_head_selection/src/modules/__init__.py",
    "content": ""
  },
  {
    "path": "examples/attention_head_selection/src/modules/attn_head_selector.py",
    "content": "# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\nimport math\n\n\nclass AttnHeadSelector(nn.Module):\n    \"\"\"\n    Latent variable modeling of attention head selection\n    \"\"\"\n    def __init__(\n        self, num_tasks, num_layers,\n        total_num_heads, num_heads,\n        select_strategy=\"group\",\n        head_select_temp=5.0\n    ):\n        super(AttnHeadSelector, self).__init__()\n        self.num_tasks = num_tasks\n        self.num_layers = num_layers\n        self.total_num_heads = total_num_heads\n        self.num_heads = num_heads\n        self.select_strategy = select_strategy\n        self.temp = head_select_temp\n\n        self.head_logits = torch.nn.Parameter(\n            torch.Tensor(self.num_tasks, self.num_layers, total_num_heads),\n            requires_grad=True\n        )\n        nn.init.uniform_(\n            self.head_logits, a=math.log(0.01),\n            b=math.log(1.0)\n        )\n\n    def gumbel_sample(self, logits, tau=1.0):\n        gumbels1 = -torch.empty_like(logits, memory_format=torch.legacy_contiguous_format).exponential_().log()\n        gumbels2 = -torch.empty_like(logits, memory_format=torch.legacy_contiguous_format).exponential_().log()\n        gumbels1 = (logits + gumbels1 - gumbels2) / tau\n        y_soft = gumbels1.sigmoid()\n        return y_soft\n\n    def subset_select(self, y_soft, topk, dim=-1):\n        top_values, top_inds = torch.topk(y_soft, k=topk, dim=dim)\n        top_ret = 1.0 - top_values.detach() + top_values\n        return top_inds.detach(), top_ret\n\n    def group_selet(self, y_soft, topk, dim=-1):\n        # top_values: (num_tasks, num_layers, topk)\n        top_values, top_inds = torch.max(\n            y_soft.view(self.num_tasks, self.num_layers, -1, topk), dim=2\n        )\n        top_inds = top_inds * topk + torch.arange(topk, device=top_inds.device).unsqueeze(0).unsqueeze(1)\n        top_ret = 1.0 - top_values.detach() + top_values\n        return top_inds.detach(), top_ret\n\n    def head_select(self, task_ids=None):\n        # gumbel_sample\n        self.head_samples = self.gumbel_sample(self.head_logits, tau=self.temp)\n        # head select\n        if self.select_strategy == \"subset\":\n            self.subset_heads, self.subset_weights = self.subset_select(\n                self.head_samples,\n                topk=self.num_heads,\n            )\n        elif self.select_strategy == \"group\":\n            self.subset_heads, self.subset_weights = self.group_selet(\n                self.head_samples,\n                topk=self.num_heads,\n            )\n        else:\n            raise ValueError(\"{} is not supported\".format(self.select_strategy))\n\n        self.batch_subset = self.subset_heads[task_ids, :, :]\n        self.batch_weights = self.subset_weights[task_ids, :, :]\n\n    def forward(self, layer_idx):\n        assert layer_idx is not None\n        batch_subset = self.batch_subset[:, layer_idx, :]\n        batch_weights = self.batch_weights[:, layer_idx, :]\n        return batch_subset, batch_weights\n"
  },
  {
    "path": "examples/attention_head_selection/src/modules/head_selection_transformer_layer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.utils import safe_getattr\nfrom fairseq.modules import TransformerEncoderLayer, TransformerDecoderLayer\nfrom ..modules.multihead_attention_selection import MultiheadAttentionSelection\n\n\nclass HeadSelectionTransformerEncoderLayer(TransformerEncoderLayer):\n\n    def __init__(self, args, layer_idx, attn_head_selector=None):\n        super().__init__(args)\n        self.layer_idx = layer_idx\n        self.self_attn = self.build_self_attention_selection(\n            self.embed_dim, args, attn_head_selector\n        )\n\n    def build_self_attention_selection(self, embed_dim, args, attn_head_selector=None):\n        return MultiheadAttentionSelection(\n            embed_dim,\n            args.total_encoder_attention_heads,\n            args.encoder_attention_heads,\n            dropout=args.attention_dropout,\n            self_attention=True,\n            q_noise=self.quant_noise,\n            qn_block_size=self.quant_noise_block_size,\n            layer_idx=self.layer_idx,\n            attn_head_selector=attn_head_selector\n        )\n\n\nclass HeadSelectionTransformerDecoderLayer(TransformerDecoderLayer):\n\n    def __init__(\n        self,\n        args,\n        layer_idx,\n        self_attn_head_selector=None,\n        enc_attn_head_selector=None,\n        no_encoder_attn=False,\n        add_bias_kv=False,\n        add_zero_attn=False,\n    ):\n        self.layer_idx = layer_idx\n        super().__init__(args, no_encoder_attn, add_bias_kv, add_zero_attn)\n        if self_attn_head_selector is not None:\n            self.self_attn = self.build_self_attention_selection(\n                self.embed_dim, args,\n                self_attn_head_selector=self_attn_head_selector,\n                add_bias_kv=add_bias_kv,\n                add_zero_attn=add_zero_attn\n            )\n        if enc_attn_head_selector is not None:\n            self.encoder_attn = self.build_encoder_attention_selection(\n                self.embed_dim, args,\n                enc_attn_head_selector=enc_attn_head_selector\n            )\n\n    def build_self_attention_selection(\n        self, embed_dim, args, self_attn_head_selector=None,\n        add_bias_kv=False, add_zero_attn=False\n    ):\n        return MultiheadAttentionSelection(\n            embed_dim,\n            args.total_decoder_attention_heads,\n            args.decoder_attention_heads,\n            dropout=args.attention_dropout,\n            add_bias_kv=add_bias_kv,\n            add_zero_attn=add_zero_attn,\n            self_attention=not safe_getattr(args, \"cross_self_attention\"),\n            q_noise=self.quant_noise,\n            qn_block_size=self.quant_noise_block_size,\n            layer_idx=self.layer_idx,\n            attn_head_selector=self_attn_head_selector,\n        )\n\n    def build_encoder_attention_selection(self, embed_dim, args, enc_attn_head_selector=None):\n        return MultiheadAttentionSelection(\n            embed_dim,\n            args.total_decoder_attention_heads,\n            args.decoder_attention_heads,\n            kdim=args.encoder_embed_dim,\n            vdim=args.encoder_embed_dim,\n            dropout=args.attention_dropout,\n            encoder_decoder_attention=True,\n            q_noise=self.quant_noise,\n            qn_block_size=self.quant_noise_block_size,\n            layer_idx=self.layer_idx,\n            attn_head_selector=enc_attn_head_selector,\n        )\n"
  },
  {
    "path": "examples/attention_head_selection/src/modules/multihead_attention_selection.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Dict, Optional, Tuple\nimport torch\nfrom fairseq import utils\nfrom fairseq.modules.quant_noise import quant_noise\nfrom torch import Tensor, nn\nfrom torch.nn import Parameter\n\nfrom fairseq.modules.multihead_attention import MultiheadAttention\nfrom ..modules.multihead_functional import multi_head_attention_forward\n\n\nclass MultiheadAttentionSelection(MultiheadAttention):\n\n    def __init__(\n        self,\n        embed_dim,\n        total_num_heads,\n        num_heads,\n        kdim=None,\n        vdim=None,\n        dropout=0.0,\n        bias=True,\n        add_bias_kv=False,\n        add_zero_attn=False,\n        self_attention=False,\n        encoder_decoder_attention=False,\n        q_noise=0.0,\n        qn_block_size=8,\n        layer_idx=0,\n        attn_head_selector=None\n    ):\n        super().__init__(\n            embed_dim,\n            num_heads,\n            kdim=kdim,\n            vdim=vdim,\n            dropout=dropout,\n            bias=bias,\n            add_bias_kv=add_bias_kv,\n            add_zero_attn=add_zero_attn,\n            self_attention=self_attention,\n            encoder_decoder_attention=encoder_decoder_attention,\n            q_noise=q_noise,\n            qn_block_size=qn_block_size,\n        )\n        self.layer_idx = layer_idx\n        self.attn_head_selector = attn_head_selector\n        self.total_num_heads = total_num_heads\n        self.total_embed_dim = self.head_dim * total_num_heads\n        self.k_proj = quant_noise(\n            nn.Linear(self.kdim, self.total_embed_dim, bias=bias), q_noise, qn_block_size\n        )\n        self.v_proj = quant_noise(\n            nn.Linear(self.vdim, self.total_embed_dim, bias=bias), q_noise, qn_block_size\n        )\n        self.q_proj = quant_noise(\n            nn.Linear(embed_dim, self.total_embed_dim, bias=bias), q_noise, qn_block_size\n        )\n        if add_bias_kv:\n            self.bias_k = Parameter(torch.Tensor(1, 1, self.total_embed_dim))\n            self.bias_v = Parameter(torch.Tensor(1, 1, self.total_embed_dim))\n        else:\n            self.bias_k = self.bias_v = None\n        self.reset_parameters()\n\n    def forward(\n        self,\n        query,\n        key: Optional[Tensor],\n        value: Optional[Tensor],\n        key_padding_mask: Optional[Tensor] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        need_weights: bool = True,\n        static_kv: bool = False,\n        attn_mask: Optional[Tensor] = None,\n        before_softmax: bool = False,\n        need_head_weights: bool = False,\n        # subset_heads: Optional[Tensor] = None,\n        # subset_weights: Optional[Tensor] = None\n    ) -> Tuple[Tensor, Optional[Tensor]]:\n        if need_head_weights:\n            need_weights = True\n\n        is_tpu = query.device.type == \"xla\"\n\n        subset_heads, subset_weights = self.attn_head_selector(self.layer_idx)\n\n        tgt_len, bsz, embed_dim = query.size()\n        src_len = tgt_len\n        assert list(query.size()) == [tgt_len, bsz, self.embed_dim]\n        if key is not None:\n            src_len, key_bsz, _ = key.size()\n            if not torch.jit.is_scripting():\n                assert key_bsz == bsz\n                assert value is not None\n                assert src_len, bsz == value.shape[:2]\n\n        if (\n            not self.onnx_trace\n            and not is_tpu  # don't use PyTorch version on TPUs\n            and incremental_state is None\n            and not static_kv\n            # A workaround for quantization to work. Otherwise JIT compilation\n            # treats bias in linear module as method.\n            and not torch.jit.is_scripting()\n        ):\n            assert key is not None and value is not None\n            return multi_head_attention_forward(\n                query,\n                key,\n                value,\n                self.embed_dim,\n                self.total_num_heads,\n                self.num_heads,\n                torch.empty([0]),\n                torch.cat((self.q_proj.bias, self.k_proj.bias, self.v_proj.bias)),\n                self.bias_k,\n                self.bias_v,\n                self.add_zero_attn,\n                self.dropout_module.p,\n                self.out_proj.weight,\n                self.out_proj.bias,\n                self.training or self.dropout_module.apply_during_inference,\n                key_padding_mask,\n                need_weights,\n                attn_mask,\n                use_separate_proj_weight=True,\n                q_proj_weight=self.q_proj.weight,\n                k_proj_weight=self.k_proj.weight,\n                v_proj_weight=self.v_proj.weight,\n                subset_heads=subset_heads,\n                subset_weights=subset_weights\n            )\n\n        if incremental_state is not None:\n            saved_state = self._get_input_buffer(incremental_state)\n            if saved_state is not None and \"prev_key\" in saved_state:\n                # previous time steps are cached - no need to recompute\n                # key and value if they are static\n                if static_kv:\n                    assert self.encoder_decoder_attention and not self.self_attention\n                    key = value = None\n        else:\n            saved_state = None\n\n        if self.self_attention:\n            q = self.q_proj(query)\n            k = self.k_proj(query)\n            v = self.v_proj(query)\n        elif self.encoder_decoder_attention:\n            # encoder-decoder attention\n            q = self.q_proj(query)\n            if key is None:\n                assert value is None\n                k = v = None\n            else:\n                k = self.k_proj(key)\n                v = self.v_proj(key)\n\n        else:\n            assert key is not None and value is not None\n            q = self.q_proj(query)\n            k = self.k_proj(key)\n            v = self.v_proj(value)\n        q *= self.scaling\n\n        if self.bias_k is not None:\n            assert self.bias_v is not None\n            k = torch.cat([k, self.bias_k.repeat(1, bsz, 1)])\n            v = torch.cat([v, self.bias_v.repeat(1, bsz, 1)])\n            if attn_mask is not None:\n                attn_mask = torch.cat(\n                    [attn_mask, attn_mask.new_zeros(attn_mask.size(0), 1)], dim=1\n                )\n            if key_padding_mask is not None:\n                key_padding_mask = torch.cat(\n                    [\n                        key_padding_mask,\n                        key_padding_mask.new_zeros(key_padding_mask.size(0), 1),\n                    ],\n                    dim=1,\n                )\n\n        q = (\n            q.contiguous()\n            .view(tgt_len, bsz * self.total_num_heads, self.head_dim)\n            .transpose(0, 1)\n        )\n        if k is not None:\n            k = (\n                k.contiguous()\n                .view(-1, bsz * self.total_num_heads, self.head_dim)\n                .transpose(0, 1)\n            )\n        if v is not None:\n            v = (\n                v.contiguous()\n                .view(-1, bsz * self.total_num_heads, self.head_dim)\n                .transpose(0, 1)\n            )\n\n        if saved_state is not None:\n            # saved states are stored with shape (bsz, num_heads, seq_len, head_dim)\n            if \"prev_key\" in saved_state:\n                _prev_key = saved_state[\"prev_key\"]\n                assert _prev_key is not None\n                prev_key = _prev_key.view(bsz * self.total_num_heads, -1, self.head_dim)\n                if static_kv:\n                    k = prev_key\n                else:\n                    assert k is not None\n                    k = torch.cat([prev_key, k], dim=1)\n                src_len = k.size(1)\n            if \"prev_value\" in saved_state:\n                _prev_value = saved_state[\"prev_value\"]\n                assert _prev_value is not None\n                prev_value = _prev_value.view(bsz * self.total_num_heads, -1, self.head_dim)\n                if static_kv:\n                    v = prev_value\n                else:\n                    assert v is not None\n                    v = torch.cat([prev_value, v], dim=1)\n            prev_key_padding_mask: Optional[Tensor] = None\n            if \"prev_key_padding_mask\" in saved_state:\n                prev_key_padding_mask = saved_state[\"prev_key_padding_mask\"]\n            assert k is not None and v is not None\n            key_padding_mask = MultiheadAttention._append_prev_key_padding_mask(\n                key_padding_mask=key_padding_mask,\n                prev_key_padding_mask=prev_key_padding_mask,\n                batch_size=bsz,\n                src_len=k.size(1),\n                static_kv=static_kv,\n            )\n\n            saved_state[\"prev_key\"] = k.view(bsz, self.total_num_heads, -1, self.head_dim)\n            saved_state[\"prev_value\"] = v.view(bsz, self.total_num_heads, -1, self.head_dim)\n            saved_state[\"prev_key_padding_mask\"] = key_padding_mask\n            # In this branch incremental_state is never None\n            assert incremental_state is not None\n            incremental_state = self._set_input_buffer(incremental_state, saved_state)\n        assert k is not None\n        assert k.size(1) == src_len\n\n        # This is part of a workaround to get around fork/join parallelism\n        # not supporting Optional types.\n        if key_padding_mask is not None and key_padding_mask.dim() == 0:\n            key_padding_mask = None\n\n        if key_padding_mask is not None:\n            assert key_padding_mask.size(0) == bsz\n            assert key_padding_mask.size(1) == src_len\n\n        if self.add_zero_attn:\n            assert v is not None\n            src_len += 1\n            k = torch.cat([k, k.new_zeros((k.size(0), 1) + k.size()[2:])], dim=1)\n            v = torch.cat([v, v.new_zeros((v.size(0), 1) + v.size()[2:])], dim=1)\n            if attn_mask is not None:\n                attn_mask = torch.cat(\n                    [attn_mask, attn_mask.new_zeros(attn_mask.size(0), 1)], dim=1\n                )\n            if key_padding_mask is not None:\n                key_padding_mask = torch.cat(\n                    [\n                        key_padding_mask,\n                        torch.zeros(key_padding_mask.size(0), 1).type_as(\n                            key_padding_mask\n                        ),\n                    ],\n                    dim=1,\n                )\n\n        attn_weights = torch.bmm(q, k.transpose(1, 2))\n        attn_weights = self.apply_sparse_mask(attn_weights, tgt_len, src_len, bsz)\n\n        assert list(attn_weights.size()) == [bsz * self.total_num_heads, tgt_len, src_len]\n\n        if attn_mask is not None:\n            attn_mask = attn_mask.unsqueeze(0)\n            if self.onnx_trace:\n                attn_mask = attn_mask.repeat(attn_weights.size(0), 1, 1)\n            attn_weights += attn_mask\n\n        if key_padding_mask is not None:\n            # don't attend to padding symbols\n            attn_weights = attn_weights.view(bsz, self.total_num_heads, tgt_len, src_len)\n            if not is_tpu:\n                attn_weights = attn_weights.masked_fill(\n                    key_padding_mask.unsqueeze(1).unsqueeze(2).to(torch.bool),\n                    float(\"-inf\"),\n                )\n            else:\n                attn_weights = attn_weights.transpose(0, 2)\n                attn_weights = attn_weights.masked_fill(key_padding_mask, float(\"-inf\"))\n                attn_weights = attn_weights.transpose(0, 2)\n            attn_weights = attn_weights.view(bsz * self.num_heads, tgt_len, src_len)\n\n        if before_softmax:\n            return attn_weights, v\n\n        attn_weights_float = utils.softmax(\n            attn_weights, dim=-1, onnx_trace=self.onnx_trace\n        )\n        attn_weights = attn_weights_float.type_as(attn_weights)\n        attn_probs = self.dropout_module(attn_weights)\n\n        assert v is not None\n\n        # evaluation\n        if subset_heads is not None and subset_heads.numel() == 1:\n            subset_heads = subset_heads.repeat(bsz)\n            subset_weights = subset_weights.repeat(bsz)\n\n        if subset_heads is None:\n            attn = torch.bmm(attn_probs, v)\n        else:\n            # training with head selection\n            mixed_attn = torch.bmm(attn_probs, v).contiguous().view(bsz, self.total_num_heads, tgt_len, self.head_dim)\n            attn = torch.stack(\n                [mixed_attn[torch.arange(bsz), subset_heads[:, col], :, :] for col in range(subset_heads.size(1))], dim=1\n            )\n            attn = attn * subset_weights.unsqueeze(2).unsqueeze(3)\n            attn = attn.contiguous().view(bsz * self.num_heads, tgt_len, self.head_dim)\n\n        assert list(attn.size()) == [bsz * self.num_heads, tgt_len, self.head_dim]\n        if self.onnx_trace and attn.size(1) == 1:\n            # when ONNX tracing a single decoder step (sequence length == 1)\n            # the transpose is a no-op copy before view, thus unnecessary\n            attn = attn.contiguous().view(tgt_len, bsz, embed_dim)\n        else:\n            attn = attn.transpose(0, 1).contiguous().view(tgt_len, bsz, embed_dim)\n        attn = self.out_proj(attn)\n        attn_weights: Optional[Tensor] = None\n        if need_weights:\n            if subset_heads is None:\n                attn_weights = attn_weights_float.view(\n                    bsz, self.num_heads, tgt_len, src_len\n                ).transpose(1, 0)\n            else:\n                mixed_attn_weights = attn_weights_float.view(\n                    bsz, self.total_num_heads, tgt_len, src_len\n                )\n                attn_weights = torch.stack(\n                    [mixed_attn_weights[torch.arange(bsz), subset_heads[:, col], :, :] for col in range(subset_heads.size(1))], dim=1\n                ).transpose(1, 0)\n            if not need_head_weights:\n                # average attention weights over heads\n                attn_weights = attn_weights.mean(dim=0)\n\n        return attn, attn_weights\n"
  },
  {
    "path": "examples/attention_head_selection/src/modules/multihead_functional.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Optional, Tuple\nimport torch\nfrom torch import Tensor\nfrom torch.nn.functional import (\n    linear, softmax, dropout, pad,\n    has_torch_function,\n    handle_torch_function,\n    _in_projection_packed,\n)\nimport math\nimport warnings\n\n\ndef _scaled_dot_product_attention(\n    q: Tensor,\n    k: Tensor,\n    v: Tensor,\n    attn_mask: Optional[Tensor] = None,\n    dropout_p: float = 0.0,\n    bsz: int = 1,\n    subset_heads: Optional[Tensor] = None,\n    subset_weights: Optional[Tensor] = None,\n) -> Tuple[Tensor, Tensor]:\n    B, Nt, E = q.shape\n    q = q / math.sqrt(E)\n    # B: bsz * total_num_heads\n    # (B, Nt, E) x (B, E, Ns) -> (B, Nt, Ns)\n    attn = torch.bmm(q, k.transpose(-2, -1))\n    if attn_mask is not None:\n        attn += attn_mask\n    attn = softmax(attn, dim=-1)\n    if dropout_p > 0.0:\n        attn = dropout(attn, p=dropout_p)\n    if subset_heads is None:\n        # (B, Nt, Ns) x (B, Ns, E) -> (B, Nt, E)\n        output = torch.bmm(attn, v)\n    else:\n        mixed_output = torch.bmm(attn, v).contiguous().view(bsz, -1, Nt, E)\n        output = torch.stack(\n            [mixed_output[torch.arange(bsz), subset_heads[:, col], :, :] for col in range(subset_heads.size(1))],\n            dim=1\n        )\n        output = output * subset_weights.unsqueeze(2).unsqueeze(3)\n        output = output.contiguous().view(-1, Nt, E)\n    if subset_heads is not None:\n        _, Nt, Ns = attn.size()\n        mixed_attn = attn.view(bsz, -1, Nt, Ns)\n        attn = torch.stack(\n            [mixed_attn[torch.arange(bsz), subset_heads[:, col], :, :] for col in range(subset_heads.size(1))], dim=1\n        )\n    return output, attn\n\n\ndef _in_projection(\n    q: Tensor,\n    k: Tensor,\n    v: Tensor,\n    w_q: Tensor,\n    w_k: Tensor,\n    w_v: Tensor,\n    b_q: Optional[Tensor] = None,\n    b_k: Optional[Tensor] = None,\n    b_v: Optional[Tensor] = None,\n) -> Tuple[Tensor, Tensor, Tensor]:\n    return linear(q, w_q, b_q), linear(k, w_k, b_k), linear(v, w_v, b_v)\n\n\ndef multi_head_attention_forward(\n    query: Tensor,\n    key: Tensor,\n    value: Tensor,\n    embed_dim_to_check: int,\n    total_num_heads: int,\n    num_heads: int,\n    in_proj_weight: Tensor,\n    in_proj_bias: Optional[Tensor],\n    bias_k: Optional[Tensor],\n    bias_v: Optional[Tensor],\n    add_zero_attn: bool,\n    dropout_p: float,\n    out_proj_weight: Tensor,\n    out_proj_bias: Optional[Tensor],\n    training: bool = True,\n    key_padding_mask: Optional[Tensor] = None,\n    need_weights: bool = True,\n    attn_mask: Optional[Tensor] = None,\n    use_separate_proj_weight: bool = False,\n    q_proj_weight: Optional[Tensor] = None,\n    k_proj_weight: Optional[Tensor] = None,\n    v_proj_weight: Optional[Tensor] = None,\n    static_k: Optional[Tensor] = None,\n    static_v: Optional[Tensor] = None,\n    subset_heads: Optional[Tensor] = None,\n    subset_weights: Optional[Tensor] = None,\n):\n    tens_ops = (query, key, value, in_proj_weight, in_proj_bias, bias_k, bias_v, out_proj_weight, out_proj_bias)\n    if has_torch_function(tens_ops):\n        return handle_torch_function(\n            multi_head_attention_forward,\n            tens_ops,\n            query,\n            key,\n            value,\n            embed_dim_to_check,\n            total_num_heads,\n            num_heads,\n            in_proj_weight,\n            in_proj_bias,\n            bias_k,\n            bias_v,\n            add_zero_attn,\n            dropout_p,\n            out_proj_weight,\n            out_proj_bias,\n            training=training,\n            key_padding_mask=key_padding_mask,\n            need_weights=need_weights,\n            attn_mask=attn_mask,\n            use_separate_proj_weight=use_separate_proj_weight,\n            q_proj_weight=q_proj_weight,\n            k_proj_weight=k_proj_weight,\n            v_proj_weight=v_proj_weight,\n            static_k=static_k,\n            static_v=static_v,\n            subset_heads=subset_heads,\n            subset_weights=subset_weights\n        )\n\n    # set up shape vars\n    tgt_len, bsz, embed_dim = query.shape\n    src_len, _, _ = key.shape\n    assert embed_dim == embed_dim_to_check, \\\n        f\"was expecting embedding dimension of {embed_dim_to_check}, but got {embed_dim}\"\n    if isinstance(embed_dim, torch.Tensor):\n        # embed_dim can be a tensor when JIT tracing\n        head_dim = embed_dim.div(num_heads, rounding_mode='trunc')\n    else:\n        head_dim = embed_dim // num_heads\n    assert head_dim * num_heads == embed_dim, f\"embed_dim {embed_dim} not divisible by num_heads {num_heads}\"\n    if use_separate_proj_weight:\n        # allow MHA to have different embedding dimensions when separate projection weights are used\n        assert key.shape[:2] == value.shape[:2], \\\n            f\"key's sequence and batch dims {key.shape[:2]} do not match value's {value.shape[:2]}\"\n    else:\n        assert key.shape == value.shape, f\"key shape {key.shape} does not match value shape {value.shape}\"\n\n    #\n    # compute in-projection\n    #\n    if not use_separate_proj_weight:\n        q, k, v = _in_projection_packed(query, key, value, in_proj_weight, in_proj_bias)\n    else:\n        assert q_proj_weight is not None, \"use_separate_proj_weight is True but q_proj_weight is None\"\n        assert k_proj_weight is not None, \"use_separate_proj_weight is True but k_proj_weight is None\"\n        assert v_proj_weight is not None, \"use_separate_proj_weight is True but v_proj_weight is None\"\n        if in_proj_bias is None:\n            b_q = b_k = b_v = None\n        else:\n            b_q, b_k, b_v = in_proj_bias.chunk(3)\n        q, k, v = _in_projection(query, key, value, q_proj_weight, k_proj_weight, v_proj_weight, b_q, b_k, b_v)\n\n    # prep attention mask\n    if attn_mask is not None:\n        if attn_mask.dtype == torch.uint8:\n            warnings.warn(\"Byte tensor for attn_mask in nn.MultiheadAttention is deprecated. Use bool tensor instead.\")\n            attn_mask = attn_mask.to(torch.bool)\n        else:\n            assert attn_mask.is_floating_point() or attn_mask.dtype == torch.bool, \\\n                f\"Only float, byte, and bool types are supported for attn_mask, not {attn_mask.dtype}\"\n        # ensure attn_mask's dim is 3\n        if attn_mask.dim() == 2:\n            correct_2d_size = (tgt_len, src_len)\n            if attn_mask.shape != correct_2d_size:\n                raise RuntimeError(f\"The shape of the 2D attn_mask is {attn_mask.shape}, but should be {correct_2d_size}.\")\n            attn_mask = attn_mask.unsqueeze(0)\n        elif attn_mask.dim() == 3:\n            correct_3d_size = (bsz * total_num_heads, tgt_len, src_len)\n            if attn_mask.shape != correct_3d_size:\n                raise RuntimeError(f\"The shape of the 3D attn_mask is {attn_mask.shape}, but should be {correct_3d_size}.\")\n        else:\n            raise RuntimeError(f\"attn_mask's dimension {attn_mask.dim()} is not supported\")\n\n    # prep key padding mask\n    if key_padding_mask is not None and key_padding_mask.dtype == torch.uint8:\n        warnings.warn(\"Byte tensor for key_padding_mask in nn.MultiheadAttention is deprecated. Use bool tensor instead.\")\n        key_padding_mask = key_padding_mask.to(torch.bool)\n\n    # add bias along batch dimension (currently second)\n    if bias_k is not None and bias_v is not None:\n        assert static_k is None, \"bias cannot be added to static key.\"\n        assert static_v is None, \"bias cannot be added to static value.\"\n        k = torch.cat([k, bias_k.repeat(1, bsz, 1)])\n        v = torch.cat([v, bias_v.repeat(1, bsz, 1)])\n        if attn_mask is not None:\n            attn_mask = pad(attn_mask, (0, 1))\n        if key_padding_mask is not None:\n            key_padding_mask = pad(key_padding_mask, (0, 1))\n    else:\n        assert bias_k is None\n        assert bias_v is None\n\n    #\n    # reshape q, k, v for multihead attention and make em batch first\n    #\n    q = q.contiguous().view(tgt_len, bsz * total_num_heads, head_dim).transpose(0, 1)\n    if static_k is None:\n        k = k.contiguous().view(k.shape[0], bsz * total_num_heads, head_dim).transpose(0, 1)\n    else:\n        # TODO finish disentangling control flow so we don't do in-projections when statics are passed\n        assert static_k.size(0) == bsz * total_num_heads, \\\n            f\"expecting static_k.size(0) of {bsz * total_num_heads}, but got {static_k.size(0)}\"\n        assert static_k.size(2) == head_dim, \\\n            f\"expecting static_k.size(2) of {head_dim}, but got {static_k.size(2)}\"\n        k = static_k\n    if static_v is None:\n        v = v.contiguous().view(v.shape[0], bsz * total_num_heads, head_dim).transpose(0, 1)\n    else:\n        # TODO finish disentangling control flow so we don't do in-projections when statics are passed\n        assert static_v.size(0) == bsz * total_num_heads, \\\n            f\"expecting static_v.size(0) of {bsz * total_num_heads}, but got {static_v.size(0)}\"\n        assert static_v.size(2) == head_dim, \\\n            f\"expecting static_v.size(2) of {head_dim}, but got {static_v.size(2)}\"\n        v = static_v\n\n    # add zero attention along batch dimension (now first)\n    if add_zero_attn:\n        zero_attn_shape = (bsz * total_num_heads, 1, head_dim)\n        k = torch.cat([k, torch.zeros(zero_attn_shape, dtype=k.dtype, device=k.device)], dim=1)\n        v = torch.cat([v, torch.zeros(zero_attn_shape, dtype=v.dtype, device=v.device)], dim=1)\n        if attn_mask is not None:\n            attn_mask = pad(attn_mask, (0, 1))\n        if key_padding_mask is not None:\n            key_padding_mask = pad(key_padding_mask, (0, 1))\n\n    # update source sequence length after adjustments\n    src_len = k.size(1)\n\n    # merge key padding and attention masks\n    if key_padding_mask is not None:\n        assert key_padding_mask.shape == (bsz, src_len), \\\n            f\"expecting key_padding_mask shape of {(bsz, src_len)}, but got {key_padding_mask.shape}\"\n        key_padding_mask = key_padding_mask.view(bsz, 1, 1, src_len).   \\\n            expand(-1, total_num_heads, -1, -1).reshape(bsz * total_num_heads, 1, src_len)\n        if attn_mask is None:\n            attn_mask = key_padding_mask\n        elif attn_mask.dtype == torch.bool:\n            attn_mask = attn_mask.logical_or(key_padding_mask)\n        else:\n            attn_mask = attn_mask.masked_fill(key_padding_mask, float(\"-inf\"))\n\n    # convert mask to float\n    if attn_mask is not None and attn_mask.dtype == torch.bool:\n        new_attn_mask = torch.zeros_like(attn_mask, dtype=torch.float)\n        new_attn_mask.masked_fill_(attn_mask, float(\"-inf\"))\n        attn_mask = new_attn_mask\n\n    # adjust dropout probability\n    if not training:\n        dropout_p = 0.0\n\n    #\n    # (deep breath) calculate attention and out projection\n    #\n    attn_output, attn_output_weights = _scaled_dot_product_attention(q, k, v, attn_mask, dropout_p, bsz, subset_heads, subset_weights)\n    attn_output = attn_output.transpose(0, 1).contiguous().view(tgt_len, bsz, embed_dim)\n    attn_output = linear(attn_output, out_proj_weight, out_proj_bias)\n\n    if need_weights:\n        # average attention weights over heads\n        attn_output_weights = attn_output_weights.view(bsz, num_heads, tgt_len, src_len)\n        return attn_output, attn_output_weights.sum(dim=1) / num_heads\n    else:\n        return attn_output, None\n"
  },
  {
    "path": "examples/attention_head_selection/src/speech_to_text_head_selection.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nfrom fairseq.optim.amp_optimizer import AMPOptimizer\nfrom fairseq.tasks import register_task\nfrom fairseq.tasks.speech_to_text import SpeechToTextTask\n\nfrom .data.speech_to_text_dataset_with_domain import SpeechToTextDatasetCreatorWithDomain\nfrom .loss.attention_head_selection import HeadSelectionLoss\n\n\n@register_task(\"speech_to_text_head_selection\")\nclass SpeechToTextHeadSelectionTask(SpeechToTextTask):\n\n    @classmethod\n    def add_args(cls, parser):\n        SpeechToTextTask.add_args(parser)\n        parser.add_argument(\n            \"--task-type\",\n            type=str,\n            default=\"lang\",\n            help=\"task type for head selection, lang or domain\"\n        )\n        parser.add_argument(\n            \"--kl-weight\",\n            type=float,\n            default=0.0,\n            help=\"the weight of KL loss\"\n        )\n\n    def __init__(self, args, tgt_dict):\n        super().__init__(args, tgt_dict)\n        self.task_type = args.task_type\n        assert self.task_type in [\"lang\", \"domain\"], \"invalid task_type: {}, should be either lang or domain\".format(self.task_type)\n        self.map_task_to_id(args.train_subset)\n        self.encoder_head_prior = float(args.decoder_attention_heads) / args.total_decoder_attention_heads\n        self.decoder_head_prior = float(args.encoder_attention_heads) / args.total_encoder_attention_heads\n        self.kl_loss = HeadSelectionLoss(args)\n\n    def map_task_to_id(self, train_subset):\n        src_lang_set, tgt_lang_set, domain_set = set(), set(), set()\n        for split in train_subset.split(\",\"):\n            seq = split.split(\"_\")\n            assert len(seq) == 4, \"subset {} should be in the format of train_src_tgt_domain\".format(split)\n            _, src_lang, tgt_lang, domain = seq\n            src_lang_set.add(src_lang)\n            tgt_lang_set.add(tgt_lang)\n            domain_set.add(domain)\n        src_langs = sorted(src_lang_set)\n        tgt_langs = sorted(tgt_lang_set)\n        domains = sorted(domain_set)\n        self.src_lang_map = {src_lang: i for (i, src_lang) in enumerate(src_langs)}\n        self.tgt_lang_map = {tgt_lang: i for (i, tgt_lang) in enumerate(tgt_langs)}\n        self.domain_map = {domain: i for (i, domain) in enumerate(domains)}\n        if self.task_type == \"lang\":\n            self.encoder_tasks = len(self.src_lang_map)\n            self.decoder_tasks = len(self.tgt_lang_map)\n        elif self.task_type == \"domain\":\n            self.encoder_tasks = len(self.domain_map)\n            self.decoder_tasks = len(self.domain_map)\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        is_train_split = split.startswith(\"train\")\n        pre_tokenizer = self.build_tokenizer(self.args)\n        bpe_tokenizer = self.build_bpe(self.args)\n        self.datasets[split] = SpeechToTextDatasetCreatorWithDomain.from_tsv(\n            self.args.data,\n            self.data_cfg,\n            split,\n            self.tgt_dict,\n            pre_tokenizer,\n            bpe_tokenizer,\n            is_train_split=is_train_split,\n            epoch=epoch,\n            seed=self.args.seed,\n            src_lang_map=self.src_lang_map,\n            tgt_lang_map=self.tgt_lang_map,\n            domain_map=self.domain_map,\n            speaker_to_id=self.speaker_to_id\n        )\n\n    def build_model(self, args):\n        args.encoder_tasks = self.encoder_tasks\n        args.decoder_tasks = self.decoder_tasks\n        return super(SpeechToTextHeadSelectionTask, self).build_model(args)\n\n    def get_sample_sizes(self, sample, task_ids, num_tasks):\n        \"\"\"\n        task_ids: (bsz,)\n        get sample sizes for each task\n        \"\"\"\n        bsz = task_ids.size(0)\n        mat = torch.zeros((num_tasks, bsz), device=task_ids.device)\n        mat[task_ids, torch.arange(bsz)] = 1.0\n        ntokens = torch.sum(sample['target'] != 1, dim=-1)\n        sample_sizes = torch.matmul(mat, ntokens.float())\n        return sample_sizes\n\n    def train_step(\n        self, sample, model, criterion, optimizer, update_num, ignore_grad=False\n    ):\n        model.train()\n        model.set_num_updates(update_num)\n        # task ids\n        if self.task_type == \"lang\":\n            encoder_task_ids = sample[\"src_lang_ids\"]\n            decoder_task_ids = sample[\"tgt_lang_ids\"]\n        elif self.task_type == \"domain\":\n            encoder_task_ids = sample[\"domain_ids\"]\n            decoder_task_ids = sample[\"domain_ids\"]\n        model.encoder.set_task_ids(encoder_task_ids)\n        model.decoder.set_task_ids(decoder_task_ids)\n\n        with torch.autograd.profiler.record_function(\"forward\"):\n            with torch.cuda.amp.autocast(enabled=(isinstance(optimizer, AMPOptimizer))):\n                loss, sample_size, logging_output = criterion(model, sample)\n                # KL loss\n                if self.args.encoder_attn_head_select:\n                    sample_sizes = self.get_sample_sizes(sample, encoder_task_ids, self.encoder_tasks)\n                    loss += self.kl_loss(\n                        model.encoder.attn_head_selector.head_samples,\n                        sample_sizes,\n                        self.encoder_head_prior\n                    )\n                if self.args.decoder_self_attn_head_select:\n                    sample_sizes = self.get_sample_sizes(sample, decoder_task_ids, self.decoder_tasks)\n                    loss += self.kl_loss(\n                        model.decoder.self_attn_head_selector.head_samples,\n                        sample_sizes,\n                        self.decoder_head_prior\n                    )\n                if self.args.dec_enc_attn_head_select:\n                    sample_sizes = self.get_sample_sizes(sample, decoder_task_ids, self.decoder_tasks)\n                    loss += self.kl_loss(\n                        model.decoder.enc_attn_head_selector.head_sampes,\n                        sample_sizes,\n                        self.decoder_head_prior\n                    )\n\n        if ignore_grad:\n            loss *= 0\n        with torch.autograd.profiler.record_function(\"backward\"):\n            optimizer.backward(loss)\n        return loss, sample_size, logging_output\n\n    def valid_step(self, sample, model, criterion):\n        model.eval()\n        # task ids\n        if self.task_type == \"lang\":\n            encoder_task_ids = sample[\"src_lang_ids\"]\n            decoder_task_ids = sample[\"tgt_lang_ids\"]\n        elif self.task_type == \"domain\":\n            encoder_task_ids = sample[\"domain_ids\"]\n            decoder_task_ids = sample[\"domain_ids\"]\n        model.encoder.set_task_ids(encoder_task_ids)\n        model.decoder.set_task_ids(decoder_task_ids)\n        with torch.no_grad():\n            loss, sample_size, logging_output = criterion(model, sample)\n        return loss, sample_size, logging_output\n\n    def inference_step(\n        self, generator, models, sample, prefix_tokens=None, constraints=None\n    ):\n        with torch.no_grad():\n            # task ids\n            if self.task_type == \"lang\":\n                encoder_task_ids = sample[\"src_lang_ids\"][:1]\n                decoder_task_ids = sample[\"tgt_lang_ids\"][:1]\n            elif self.task_type == \"domain\":\n                encoder_task_ids = sample[\"domain_ids\"][:1]\n                decoder_task_ids = sample[\"domain_ids\"][:1]\n            for model in models:\n                model.encoder.set_task_ids(encoder_task_ids)\n                model.decoder.set_task_ids(decoder_task_ids)\n            return generator.generate(\n                models, sample, prefix_tokens=prefix_tokens, constraints=constraints\n            )\n"
  },
  {
    "path": "examples/audio_nlp/nlu/README.md",
    "content": "# End-to-end NLU\n\nEnd-to-end spoken language understanding (SLU) predicts intent directly from audio using a single model. It promises to improve the performance of assistant systems by leveraging acoustic information lost in the intermediate textual representation and preventing cascading errors from Automatic Speech Recognition (ASR). Further, having one unified model has efficiency advantages when deploying assistant systems on-device.\n\nThis page releases the code for reproducing the results in [STOP: A dataset for Spoken Task Oriented Semantic Parsing](https://arxiv.org/abs/2207.10643)\n\nThe dataset can be downloaded here: [download link](https://dl.fbaipublicfiles.com/stop/stop.tar.gz)\n\nThe low-resource splits can be downloaded here: [download link](http://dl.fbaipublicfiles.com/stop/low_resource_splits.tar.gz)\n\n## Pretrained models end-to-end NLU Models\n\n| Speech Pretraining | ASR Pretraining | Test EM Accuracy | Tesst EM-Tree Accuracy | Link |\n| ----------- | ----------- |----------|----------|----------|\n| None   | None | 36.54 | 57.01 | [link](https://dl.fbaipublicfiles.com/stop/end-to-end-nlu-none-none.pt) |\n| Wav2Vec   | None | 68.05 | 82.53 | [link](https://dl.fbaipublicfiles.com/stop/end-to-end-nlu-wav2vec-none.pt) |\n| HuBERT   | None | 68.40 | 82.85 | [link](https://dl.fbaipublicfiles.com/stop/end-to-end-nlu-hubert-none.pt) |\n| Wav2Vec   | STOP | 68.70 | 82.78 | [link](https://dl.fbaipublicfiles.com/stop/end-to-end-nlu-wav2vec-stop.pt) |\n| HuBERT   | STOP | 69.23 | 82.87 | [link](https://dl.fbaipublicfiles.com/stop/end-to-end-nlu-hubert-stop.pt) |\n| Wav2Vec   | Librispeech | 68.47 | 82.49 | [link](https://dl.fbaipublicfiles.com/stop/end-to-end-nlu-wav2vec-ls.pt) |\n| HuBERT   | Librispeech | 68.70 | 82.78 | [link](https://dl.fbaipublicfiles.com/stop/end-to-end-nlu-hubert-ls.pt) |\n\n## Pretrained models ASR Models\n| Speech Pre-training  | ASR Dataset | STOP Eval WER | STOP Test WER | dev\\_other WER | dev\\_clean WER | test\\_clean WER | test\\_other WER | Link |\n| ----------- |  ----------- |  ----------- |  ----------- |  ----------- |  ----------- |  ----------- |  ----------- |  ----------- |\n| HuBERT  | Librispeech | 8.47 | 2.99 | 3.25 | 8.06 | 25.68 | 26.19 | [link](https://dl.fbaipublicfiles.com/stop/ctc-asr-hubert-ls.pt) |\n| Wav2Vec  | Librispeech | 9.215 | 3.204 | 3.334 | 9.006 | 27.257 | 27.588 | [link](https://dl.fbaipublicfiles.com/stop/ctc-asr-wav2vec-ls.pt) |\n| HuBERT  | STOP | 46.31 | 31.30 | 31.52 | 47.16 | 4.29 | 4.26 | [link](https://dl.fbaipublicfiles.com/stop/ctc-asr-hubert-stop.pt) |\n| Wav2Vec  | STOP | 43.103 | 27.833 | 28.479 | 28.479 | 4.679 | 4.667 | [link](https://dl.fbaipublicfiles.com/stop/ctc-asr-wav2vec-stop.pt) |\n| HuBERT  | Librispeech + STOP | 9.015 | 3.211 | 3.372 | 8.635 | 5.133 | 5.056 | [link](https://dl.fbaipublicfiles.com/stop/ctc-asr-hubert-ls-stop.pt) |\n| Wav2Vec  | Librispeech + STOP | 9.549 | 3.537 | 3.625 | 9.514 | 5.59 | 5.562 | [link](https://dl.fbaipublicfiles.com/stop/ctc-asr-wav2vec-ls-stop.pt) |\n\n## Creating the fairseq datasets from STOP\n\nFirst, create the audio file manifests and label files:\n\n```\npython examples/audio_nlp/nlu/generate_manifests.py --stop_root $STOP_DOWNLOAD_DIR/stop --output $FAIRSEQ_DATASET_OUTPUT/\n```\n\n\nRun `./examples/audio_nlp/nlu/create_dict_stop.sh $FAIRSEQ_DATASET_OUTPUT` to generate the fairseq dictionaries.\n\n\n## Training an End-to-end NLU Model\n\n\nDownload a wav2vec or hubert model from [link](https://github.com/facebookresearch/fairseq/tree/main/examples/hubert) or [link](https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec)\n\n\n```\npython fairseq_cli/hydra-train  --config-dir examples/audio_nlp/nlu/configs/  --config-name nlu_finetuning task.data=$FAIRSEQ_DATA_OUTPUT model.w2v_path=$PRETRAINED_MODEL_PATH\n```\n"
  },
  {
    "path": "examples/audio_nlp/nlu/configs/nlu_finetuning.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 10\n  tensorboard_logdir: tb\n\ncheckpoint:\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: em_error\n  save_interval: 10\n\ntask:\n  _name: nlu_finetuning\n  data: ???\n  labels: parse\n  eval_wer_parse: true\n  autoregressive: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1600000\n  skip_invalid_size_inputs_valid_test: true\n  valid_subset: eval,test\n  train_subset: train\n  validate_interval: 10\n\ncriterion:\n  _name: label_smoothed_cross_entropy\n\noptimization:\n  max_update: 320000\n  lr: [0.0001]\n  sentence_avg: true\n  update_freq: [1]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_seq2seq\n  w2v_path: ???\n  autoregressive: true\n  apply_mask: true\n  mask_prob: 0.5\n  mask_channel_prob: 0.5\n  mask_channel_length: 64\n  layerdrop: 0.1\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 0\n"
  },
  {
    "path": "examples/audio_nlp/nlu/create_dict_stop.sh",
    "content": "#!/bin/bash\n\n### Script handling creation of data binaries\n### for model training within fairseq\n\n\nfairseq_root=\".\"\n\ndata_root=$1\ntrain_prefix=\"${data_root}/train\"\nvalid_prefix=\"${data_root}/eval\"\ntest_prefix=\"${data_root}/test\"\n\ndest_dir=\"$data_root/\"\n\n#echo \"src dict: $src_dict\" > \"$dest_dir/src_dict.txt\"\n#echo \"trg dict: $tgt_dict\" > \"$dest_dir/tgt_dict.txt\"\n\n    #--tgtdict $tgt_dict \\\nPYTHONPATH=$fairseq_root \\\n  python $fairseq_root/fairseq_cli/preprocess.py \\\n    --source-lang \"parse\" \\\n    --trainpref \"$train_prefix\" \\\n    --validpref \"$valid_prefix\" \\\n    --destdir \"$dest_dir\" \\\n    --only-source \\\n    --dict-only \\\n    --workers 60;\n\nPYTHONPATH=$fairseq_root \\\n  python $fairseq_root/fairseq_cli/preprocess.py \\\n    --source-lang \"ltr\" \\\n    --trainpref \"$train_prefix\" \\\n    --validpref \"$valid_prefix\" \\\n    --destdir \"$dest_dir\" \\\n    --only-source \\\n    --dict-only \\\n    --workers 60;\n"
  },
  {
    "path": "examples/audio_nlp/nlu/generate_manifests.py",
    "content": "import argparse\nfrom pathlib import Path\nimport soundfile\n\ndef get_insl_frame(parse):\n    out = []\n    def is_ont_token(tok):\n        return tok[0] in [\"[\", \"]\"];\n\n    res = []\n    x = []\n    for tok in parse.split():\n        if is_ont_token(tok):\n            res.extend('_'.join(x))\n            x = []\n            res.append(tok.upper())\n        else:\n            x.append(tok.upper())\n\n    return \" \".join(res) + ' | '\n\ndef sequencify_utterance(utterance):\n    utterance = utterance.upper()\n    utterance = utterance.replace(' ', '|') + '|'\n    utterance = list(utterance)\n    utterance = ' '.join(utterance)\n    return utterance\n\n\ndef generate_fairseq_manifests(manifest, output_path, audio_root=None):\n\n    with open(manifest, 'r') as i:\n        parses = []\n        utterances = []\n        filepaths = []\n        keys = None\n        for (idx, line) in enumerate(i):\n            if idx == 0: keys = line.strip().split('\\t')\n            else:\n                data = { k: v for (k, v) in zip(keys, line.split('\\t'))}\n                parses.append(get_insl_frame(data['decoupled_normalized_seqlogical']))\n                utterances.append(sequencify_utterance(data['normalized_utterance']))\n                filepaths.append(data['file_id'])\n\n    parses_fp = output_path.with_suffix('.parse')\n    with open(str(parses_fp), 'w') as o:\n        for p in parses:\n            o.write(p + '\\n')\n\n    utterances_fp = output_path.with_suffix('.ltr')\n    with open(str(utterances_fp), 'w') as o:\n        for u in utterances:\n            o.write(u + '\\n')\n\n    filepaths_fp = output_path.with_suffix('.tsv')\n    with open(str(filepaths_fp), 'w') as o:\n        o.write(str(audio_root) + '\\n')\n        for f in filepaths:\n            fullpath = audio_root / f\n            assert fullpath.exists(), f'{fullpath}'\n            frames = soundfile.info(fullpath).frames\n            o.write(f'{f}\\t{frames}\\n')\n\ndef main(args):\n\n    splits = ['train', 'eval', 'test']\n    root = Path(args.stop_root)\n    output_root = Path(args.output)\n\n    for split in splits:\n        stop_manifest_path = root / 'manifests' / (split + '.tsv')\n        output_path = output_root / (split)\n\n        generate_fairseq_manifests(stop_manifest_path, output_path, root)\n\nif __name__ == '__main__':\n    parser = argparse.ArgumentParser(description='Process some integers.')\n    parser.add_argument('--stop_root', type=str,\n                    help='path to stop root directory')\n    parser.add_argument('--output', type=str,\n                    help='output directory')\n    args = parser.parse_args()\n    main(args)\n"
  },
  {
    "path": "examples/backtranslation/README.md",
    "content": "# Understanding Back-Translation at Scale (Edunov et al., 2018)\n\nThis page includes pre-trained models from the paper [Understanding Back-Translation at Scale (Edunov et al., 2018)](https://arxiv.org/abs/1808.09381).\n\n## Pre-trained models\n\nModel | Description | Dataset | Download\n---|---|---|---\n`transformer.wmt18.en-de` | Transformer <br> ([Edunov et al., 2018](https://arxiv.org/abs/1808.09381)) <br> WMT'18 winner | [WMT'18 English-German](http://www.statmt.org/wmt18/translation-task.html) | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt18.en-de.ensemble.tar.gz) <br> See NOTE in the archive\n\n## Example usage (torch.hub)\n\nWe require a few additional Python dependencies for preprocessing:\n```bash\npip install subword_nmt sacremoses\n```\n\nThen to generate translations from the full model ensemble:\n```python\nimport torch\n\n# List available models\ntorch.hub.list('pytorch/fairseq')  # [..., 'transformer.wmt18.en-de', ... ]\n\n# Load the WMT'18 En-De ensemble\nen2de_ensemble = torch.hub.load(\n    'pytorch/fairseq', 'transformer.wmt18.en-de',\n    checkpoint_file='wmt18.model1.pt:wmt18.model2.pt:wmt18.model3.pt:wmt18.model4.pt:wmt18.model5.pt',\n    tokenizer='moses', bpe='subword_nmt')\n\n# The ensemble contains 5 models\nlen(en2de_ensemble.models)\n# 5\n\n# Translate\nen2de_ensemble.translate('Hello world!')\n# 'Hallo Welt!'\n```\n\n## Training your own model (WMT'18 English-German)\n\nThe following instructions can be adapted to reproduce the models from the paper.\n\n\n#### Step 1. Prepare parallel data and optionally train a baseline (English-German) model\n\nFirst download and preprocess the data:\n```bash\n# Download and prepare the data\ncd examples/backtranslation/\nbash prepare-wmt18en2de.sh\ncd ../..\n\n# Binarize the data\nTEXT=examples/backtranslation/wmt18_en_de\nfairseq-preprocess \\\n    --joined-dictionary \\\n    --source-lang en --target-lang de \\\n    --trainpref $TEXT/train --validpref $TEXT/valid --testpref $TEXT/test \\\n    --destdir data-bin/wmt18_en_de --thresholdtgt 0 --thresholdsrc 0 \\\n    --workers 20\n\n# Copy the BPE code into the data-bin directory for future use\ncp examples/backtranslation/wmt18_en_de/code data-bin/wmt18_en_de/code\n```\n\n(Optionally) Train a baseline model (English-German) using just the parallel data:\n```bash\nCHECKPOINT_DIR=checkpoints_en_de_parallel\nfairseq-train --fp16 \\\n    data-bin/wmt18_en_de \\\n    --source-lang en --target-lang de \\\n    --arch transformer_wmt_en_de_big --share-all-embeddings \\\n    --dropout 0.3 --weight-decay 0.0 \\\n    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' --clip-norm 0.0 \\\n    --lr 0.001 --lr-scheduler inverse_sqrt --warmup-updates 4000 \\\n    --max-tokens 3584 --update-freq 16 \\\n    --max-update 30000 \\\n    --save-dir $CHECKPOINT_DIR\n# Note: the above command assumes 8 GPUs. Adjust `--update-freq` if you have a\n# different number of GPUs.\n```\n\nAverage the last 10 checkpoints:\n```bash\npython scripts/average_checkpoints.py \\\n    --inputs $CHECKPOINT_DIR \\\n    --num-epoch-checkpoints 10 \\\n    --output $CHECKPOINT_DIR/checkpoint.avg10.pt\n```\n\nEvaluate BLEU:\n```bash\n# tokenized BLEU on newstest2017:\nbash examples/backtranslation/tokenized_bleu.sh \\\n    wmt17 \\\n    en-de \\\n    data-bin/wmt18_en_de \\\n    data-bin/wmt18_en_de/code \\\n    $CHECKPOINT_DIR/checkpoint.avg10.pt\n# BLEU4 = 29.57, 60.9/35.4/22.9/15.5 (BP=1.000, ratio=1.014, syslen=63049, reflen=62152)\n# compare to 29.46 in Table 1, which is also for tokenized BLEU\n\n# generally it's better to report (detokenized) sacrebleu though:\nbash examples/backtranslation/sacrebleu.sh \\\n    wmt17 \\\n    en-de \\\n    data-bin/wmt18_en_de \\\n    data-bin/wmt18_en_de/code \\\n    $CHECKPOINT_DIR/checkpoint.avg10.pt\n# BLEU+case.mixed+lang.en-de+numrefs.1+smooth.exp+test.wmt17+tok.13a+version.1.4.3 = 29.0 60.6/34.7/22.4/14.9 (BP = 1.000 ratio = 1.013 hyp_len = 62099 ref_len = 61287)\n```\n\n\n#### Step 2. Back-translate monolingual German data\n\nTrain a reverse model (German-English) to do the back-translation:\n```bash\nCHECKPOINT_DIR=checkpoints_de_en_parallel\nfairseq-train --fp16 \\\n    data-bin/wmt18_en_de \\\n    --source-lang de --target-lang en \\\n    --arch transformer_wmt_en_de_big --share-all-embeddings \\\n    --dropout 0.3 --weight-decay 0.0 \\\n    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' --clip-norm 0.0 \\\n    --lr 0.001 --lr-scheduler inverse_sqrt --warmup-updates 4000 \\\n    --max-tokens 3584 --update-freq 16 \\\n    --max-update 30000 \\\n    --save-dir $CHECKPOINT_DIR\n# Note: the above command assumes 8 GPUs. Adjust `--update-freq` if you have a\n# different number of GPUs.\n```\n\nLet's evaluate the back-translation (BT) model to make sure it is well trained:\n```bash\nbash examples/backtranslation/sacrebleu.sh \\\n    wmt17 \\\n    de-en \\\n    data-bin/wmt18_en_de \\\n    data-bin/wmt18_en_de/code \\\n    $CHECKPOINT_DIR/checkpoint_best.py\n# BLEU+case.mixed+lang.de-en+numrefs.1+smooth.exp+test.wmt17+tok.13a+version.1.4.3 = 34.9 66.9/41.8/28.5/19.9 (BP = 0.983 ratio = 0.984 hyp_len = 63342 ref_len = 64399)\n# compare to the best system from WMT'17 which scored 35.1: http://matrix.statmt.org/matrix/systems_list/1868\n```\n\nNext prepare the monolingual data:\n```bash\n# Download and prepare the monolingual data\n# By default the script samples 25M monolingual sentences, which after\n# deduplication should be just over 24M sentences. These are split into 25\n# shards, each with 1M sentences (except for the last shard).\ncd examples/backtranslation/\nbash prepare-de-monolingual.sh\ncd ../..\n\n# Binarize each shard of the monolingual data\nTEXT=examples/backtranslation/wmt18_de_mono\nfor SHARD in $(seq -f \"%02g\" 0 24); do \\\n    fairseq-preprocess \\\n        --only-source \\\n        --source-lang de --target-lang en \\\n        --joined-dictionary \\\n        --srcdict data-bin/wmt18_en_de/dict.de.txt \\\n        --testpref $TEXT/bpe.monolingual.dedup.${SHARD} \\\n        --destdir data-bin/wmt18_de_mono/shard${SHARD} \\\n        --workers 20; \\\n    cp data-bin/wmt18_en_de/dict.en.txt data-bin/wmt18_de_mono/shard${SHARD}/; \\\ndone\n```\n\nNow we're ready to perform back-translation over the monolingual data. The\nfollowing command generates via sampling, but it's possible to use greedy\ndecoding (`--beam 1`), beam search (`--beam 5`),\ntop-k sampling (`--sampling --beam 1 --sampling-topk 10`), etc.:\n```bash\nmkdir backtranslation_output\nfor SHARD in $(seq -f \"%02g\" 0 24); do \\\n    fairseq-generate --fp16 \\\n        data-bin/wmt18_de_mono/shard${SHARD} \\\n        --path $CHECKPOINT_DIR/checkpoint_best.pt \\\n        --skip-invalid-size-inputs-valid-test \\\n        --max-tokens 4096 \\\n        --sampling --beam 1 \\\n    > backtranslation_output/sampling.shard${SHARD}.out; \\\ndone\n```\n\nAfter BT, use the `extract_bt_data.py` script to re-combine the shards, extract\nthe back-translations and apply length ratio filters:\n```bash\npython examples/backtranslation/extract_bt_data.py \\\n    --minlen 1 --maxlen 250 --ratio 1.5 \\\n    --output backtranslation_output/bt_data --srclang en --tgtlang de \\\n    backtranslation_output/sampling.shard*.out\n\n# Ensure lengths are the same:\n# wc -l backtranslation_output/bt_data.{en,de}\n#   21795614 backtranslation_output/bt_data.en\n#   21795614 backtranslation_output/bt_data.de\n#   43591228 total\n```\n\nBinarize the filtered BT data and combine it with the parallel data:\n```bash\nTEXT=backtranslation_output\nfairseq-preprocess \\\n    --source-lang en --target-lang de \\\n    --joined-dictionary \\\n    --srcdict data-bin/wmt18_en_de/dict.en.txt \\\n    --trainpref $TEXT/bt_data \\\n    --destdir data-bin/wmt18_en_de_bt \\\n    --workers 20\n\n# We want to train on the combined data, so we'll symlink the parallel + BT data\n# in the wmt18_en_de_para_plus_bt directory. We link the parallel data as \"train\"\n# and the BT data as \"train1\", so that fairseq will combine them automatically\n# and so that we can use the `--upsample-primary` option to upsample the\n# parallel data (if desired).\nPARA_DATA=$(readlink -f data-bin/wmt18_en_de)\nBT_DATA=$(readlink -f data-bin/wmt18_en_de_bt)\nCOMB_DATA=data-bin/wmt18_en_de_para_plus_bt\nmkdir -p $COMB_DATA\nfor LANG in en de; do \\\n    ln -s ${PARA_DATA}/dict.$LANG.txt ${COMB_DATA}/dict.$LANG.txt; \\\n    for EXT in bin idx; do \\\n        ln -s ${PARA_DATA}/train.en-de.$LANG.$EXT ${COMB_DATA}/train.en-de.$LANG.$EXT; \\\n        ln -s ${BT_DATA}/train.en-de.$LANG.$EXT ${COMB_DATA}/train1.en-de.$LANG.$EXT; \\\n        ln -s ${PARA_DATA}/valid.en-de.$LANG.$EXT ${COMB_DATA}/valid.en-de.$LANG.$EXT; \\\n        ln -s ${PARA_DATA}/test.en-de.$LANG.$EXT ${COMB_DATA}/test.en-de.$LANG.$EXT; \\\n    done; \\\ndone\n```\n\n\n#### 3. Train an English-German model over the combined parallel + BT data\n\nFinally we can train a model over the parallel + BT data:\n```bash\nCHECKPOINT_DIR=checkpoints_en_de_parallel_plus_bt\nfairseq-train --fp16 \\\n    data-bin/wmt18_en_de_para_plus_bt \\\n    --upsample-primary 16 \\\n    --source-lang en --target-lang de \\\n    --arch transformer_wmt_en_de_big --share-all-embeddings \\\n    --dropout 0.3 --weight-decay 0.0 \\\n    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' --clip-norm 0.0 \\\n    --lr 0.0007 --lr-scheduler inverse_sqrt --warmup-updates 4000 \\\n    --max-tokens 3584 --update-freq 16 \\\n    --max-update 100000 \\\n    --save-dir $CHECKPOINT_DIR\n# Note: the above command assumes 8 GPUs. Adjust `--update-freq` if you have a\n# different number of GPUs.\n```\n\nAverage the last 10 checkpoints:\n```bash\npython scripts/average_checkpoints.py \\\n    --inputs $CHECKPOINT_DIR \\\n    --num-epoch-checkpoints 10 \\\n    --output $CHECKPOINT_DIR/checkpoint.avg10.pt\n```\n\nEvaluate BLEU:\n```bash\n# tokenized BLEU on newstest2017:\nbash examples/backtranslation/tokenized_bleu.sh \\\n    wmt17 \\\n    en-de \\\n    data-bin/wmt18_en_de \\\n    data-bin/wmt18_en_de/code \\\n    $CHECKPOINT_DIR/checkpoint.avg10.pt\n# BLEU4 = 32.35, 64.4/38.9/26.2/18.3 (BP=0.977, ratio=0.977, syslen=60729, reflen=62152)\n# compare to 32.35 in Table 1, which is also for tokenized BLEU\n\n# generally it's better to report (detokenized) sacrebleu:\nbash examples/backtranslation/sacrebleu.sh \\\n    wmt17 \\\n    en-de \\\n    data-bin/wmt18_en_de \\\n    data-bin/wmt18_en_de/code \\\n    $CHECKPOINT_DIR/checkpoint.avg10.pt\n# BLEU+case.mixed+lang.en-de+numrefs.1+smooth.exp+test.wmt17+tok.13a+version.1.4.3 = 31.5 64.3/38.2/25.6/17.6 (BP = 0.971 ratio = 0.971 hyp_len = 59515 ref_len = 61287)\n```\n\n\n## Citation\n```bibtex\n@inproceedings{edunov2018backtranslation,\n  title = {Understanding Back-Translation at Scale},\n  author = {Edunov, Sergey and Ott, Myle and Auli, Michael and Grangier, David},\n  booktitle = {Conference of the Association for Computational Linguistics (ACL)},\n  year = 2018,\n}\n```\n"
  },
  {
    "path": "examples/backtranslation/deduplicate_lines.py",
    "content": "#!/usr/bin/python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport fileinput\nimport hashlib\nimport sys\nfrom multiprocessing import Pool\n\n\ndef get_hashes_and_lines(raw_line):\n    hash = hashlib.md5(raw_line).hexdigest()\n    return hash, raw_line\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--workers\", type=int, default=10)\n    parser.add_argument(\"files\", nargs=\"*\", help=\"input files\")\n    args = parser.parse_args()\n\n    seen = set()\n    with fileinput.input(args.files, mode=\"rb\") as h:\n        pool = Pool(args.workers)\n        results = pool.imap_unordered(get_hashes_and_lines, h, 1000)\n        for i, (hash, raw_line) in enumerate(results):\n            if hash not in seen:\n                seen.add(hash)\n                sys.stdout.buffer.write(raw_line)\n            if i % 1000000 == 0:\n                print(i, file=sys.stderr, end=\"\", flush=True)\n            elif i % 100000 == 0:\n                print(\".\", file=sys.stderr, end=\"\", flush=True)\n    print(file=sys.stderr, flush=True)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/backtranslation/extract_bt_data.py",
    "content": "#!/usr/bin/env python\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport fileinput\n\nfrom tqdm import tqdm\n\n\ndef main():\n    parser = argparse.ArgumentParser(\n        description=(\n            \"Extract back-translations from the stdout of fairseq-generate. \"\n            \"If there are multiply hypotheses for a source, we only keep the first one. \"\n        )\n    )\n    parser.add_argument(\"--output\", required=True, help=\"output prefix\")\n    parser.add_argument(\n        \"--srclang\", required=True, help=\"source language (extracted from H-* lines)\"\n    )\n    parser.add_argument(\n        \"--tgtlang\", required=True, help=\"target language (extracted from S-* lines)\"\n    )\n    parser.add_argument(\"--minlen\", type=int, help=\"min length filter\")\n    parser.add_argument(\"--maxlen\", type=int, help=\"max length filter\")\n    parser.add_argument(\"--ratio\", type=float, help=\"ratio filter\")\n    parser.add_argument(\"files\", nargs=\"*\", help=\"input files\")\n    args = parser.parse_args()\n\n    def validate(src, tgt):\n        srclen = len(src.split(\" \")) if src != \"\" else 0\n        tgtlen = len(tgt.split(\" \")) if tgt != \"\" else 0\n        if (\n            (args.minlen is not None and (srclen < args.minlen or tgtlen < args.minlen))\n            or (\n                args.maxlen is not None\n                and (srclen > args.maxlen or tgtlen > args.maxlen)\n            )\n            or (\n                args.ratio is not None\n                and (max(srclen, tgtlen) / float(min(srclen, tgtlen)) > args.ratio)\n            )\n        ):\n            return False\n        return True\n\n    def safe_index(toks, index, default):\n        try:\n            return toks[index]\n        except IndexError:\n            return default\n\n    with open(args.output + \".\" + args.srclang, \"w\") as src_h, open(\n        args.output + \".\" + args.tgtlang, \"w\"\n    ) as tgt_h:\n        for line in tqdm(fileinput.input(args.files)):\n            if line.startswith(\"S-\"):\n                tgt = safe_index(line.rstrip().split(\"\\t\"), 1, \"\")\n            elif line.startswith(\"H-\"):\n                if tgt is not None:\n                    src = safe_index(line.rstrip().split(\"\\t\"), 2, \"\")\n                    if validate(src, tgt):\n                        print(src, file=src_h)\n                        print(tgt, file=tgt_h)\n                    tgt = None\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/backtranslation/prepare-de-monolingual.sh",
    "content": "#!/bin/bash\n\nSCRIPTS=mosesdecoder/scripts\nTOKENIZER=$SCRIPTS/tokenizer/tokenizer.perl\nNORM_PUNC=$SCRIPTS/tokenizer/normalize-punctuation.perl\nREM_NON_PRINT_CHAR=$SCRIPTS/tokenizer/remove-non-printing-char.perl\nBPEROOT=subword-nmt/subword_nmt\n\n\nBPE_CODE=wmt18_en_de/code\nSUBSAMPLE_SIZE=25000000\nLANG=de\n\n\nOUTDIR=wmt18_${LANG}_mono\norig=orig\ntmp=$OUTDIR/tmp\nmkdir -p $OUTDIR $tmp\n\n\nURLS=(\n    \"http://www.statmt.org/wmt14/training-monolingual-news-crawl/news.2007.de.shuffled.gz\"\n    \"http://www.statmt.org/wmt14/training-monolingual-news-crawl/news.2008.de.shuffled.gz\"\n    \"http://www.statmt.org/wmt14/training-monolingual-news-crawl/news.2009.de.shuffled.gz\"\n    \"http://www.statmt.org/wmt14/training-monolingual-news-crawl/news.2010.de.shuffled.gz\"\n    \"http://www.statmt.org/wmt14/training-monolingual-news-crawl/news.2011.de.shuffled.gz\"\n    \"http://www.statmt.org/wmt14/training-monolingual-news-crawl/news.2012.de.shuffled.gz\"\n    \"http://www.statmt.org/wmt14/training-monolingual-news-crawl/news.2013.de.shuffled.gz\"\n    \"http://www.statmt.org/wmt15/training-monolingual-news-crawl-v2/news.2014.de.shuffled.v2.gz\"\n    \"http://data.statmt.org/wmt16/translation-task/news.2015.de.shuffled.gz\"\n    \"http://data.statmt.org/wmt17/translation-task/news.2016.de.shuffled.gz\"\n    \"http://data.statmt.org/wmt18/translation-task/news.2017.de.shuffled.deduped.gz\"\n)\nFILES=(\n    \"news.2007.de.shuffled.gz\"\n    \"news.2008.de.shuffled.gz\"\n    \"news.2009.de.shuffled.gz\"\n    \"news.2010.de.shuffled.gz\"\n    \"news.2011.de.shuffled.gz\"\n    \"news.2012.de.shuffled.gz\"\n    \"news.2013.de.shuffled.gz\"\n    \"news.2014.de.shuffled.v2.gz\"\n    \"news.2015.de.shuffled.gz\"\n    \"news.2016.de.shuffled.gz\"\n    \"news.2017.de.shuffled.deduped.gz\"\n)\n\n\ncd $orig\nfor ((i=0;i<${#URLS[@]};++i)); do\n    file=${FILES[i]}\n    if [ -f $file ]; then\n        echo \"$file already exists, skipping download\"\n    else\n        url=${URLS[i]}\n        wget \"$url\"\n    fi\ndone\ncd ..\n\n\nif [ -f $tmp/monolingual.${SUBSAMPLE_SIZE}.${LANG} ]; then\n    echo \"found monolingual sample, skipping shuffle/sample/tokenize\"\nelse\n    gzip -c -d -k $(for FILE in \"${FILES[@]}\"; do echo $orig/$FILE; done) \\\n    | shuf -n $SUBSAMPLE_SIZE \\\n    | perl $NORM_PUNC $LANG \\\n    | perl $REM_NON_PRINT_CHAR \\\n    | perl $TOKENIZER -threads 8 -a -l $LANG \\\n    > $tmp/monolingual.${SUBSAMPLE_SIZE}.${LANG}\nfi\n\n\nif [ -f $tmp/bpe.monolingual.${SUBSAMPLE_SIZE}.${LANG} ]; then\n    echo \"found BPE monolingual sample, skipping BPE step\"\nelse\n    python $BPEROOT/apply_bpe.py -c $BPE_CODE \\\n        < $tmp/monolingual.${SUBSAMPLE_SIZE}.${LANG} \\\n        > $tmp/bpe.monolingual.${SUBSAMPLE_SIZE}.${LANG}\nfi\n\n\nif [ -f $tmp/bpe.monolingual.dedup.${SUBSAMPLE_SIZE}.${LANG} ]; then\n    echo \"found deduplicated monolingual sample, skipping deduplication step\"\nelse\n    python deduplicate_lines.py $tmp/bpe.monolingual.${SUBSAMPLE_SIZE}.${LANG} \\\n    > $tmp/bpe.monolingual.dedup.${SUBSAMPLE_SIZE}.${LANG}\nfi\n\n\nif [ -f $OUTDIR/bpe.monolingual.dedup.00.de ]; then\n    echo \"found sharded data, skipping sharding step\"\nelse\n    split --lines 1000000 --numeric-suffixes \\\n        --additional-suffix .${LANG} \\\n        $tmp/bpe.monolingual.dedup.${SUBSAMPLE_SIZE}.${LANG} \\\n        $OUTDIR/bpe.monolingual.dedup.\nfi\n"
  },
  {
    "path": "examples/backtranslation/prepare-wmt18en2de.sh",
    "content": "#!/bin/bash\n# Adapted from https://github.com/facebookresearch/MIXER/blob/master/prepareData.sh\n\necho 'Cloning Moses github repository (for tokenization scripts)...'\ngit clone https://github.com/moses-smt/mosesdecoder.git\n\necho 'Cloning Subword NMT repository (for BPE pre-processing)...'\ngit clone https://github.com/rsennrich/subword-nmt.git\n\nSCRIPTS=mosesdecoder/scripts\nTOKENIZER=$SCRIPTS/tokenizer/tokenizer.perl\nCLEAN=$SCRIPTS/training/clean-corpus-n.perl\nNORM_PUNC=$SCRIPTS/tokenizer/normalize-punctuation.perl\nREM_NON_PRINT_CHAR=$SCRIPTS/tokenizer/remove-non-printing-char.perl\nBPEROOT=subword-nmt/subword_nmt\nBPE_TOKENS=32000\n\nURLS=(\n    \"http://statmt.org/wmt13/training-parallel-europarl-v7.tgz\"\n    \"http://statmt.org/wmt13/training-parallel-commoncrawl.tgz\"\n    \"http://data.statmt.org/wmt18/translation-task/training-parallel-nc-v13.tgz\"\n    \"http://data.statmt.org/wmt18/translation-task/rapid2016.tgz\"\n    \"http://data.statmt.org/wmt17/translation-task/dev.tgz\"\n    \"http://statmt.org/wmt14/test-full.tgz\"\n)\nFILES=(\n    \"training-parallel-europarl-v7.tgz\"\n    \"training-parallel-commoncrawl.tgz\"\n    \"training-parallel-nc-v13.tgz\"\n    \"rapid2016.tgz\"\n    \"dev.tgz\"\n    \"test-full.tgz\"\n)\nCORPORA=(\n    \"training/europarl-v7.de-en\"\n    \"commoncrawl.de-en\"\n    \"training-parallel-nc-v13/news-commentary-v13.de-en\"\n    \"rapid2016.de-en\"\n)\n\nif [ ! -d \"$SCRIPTS\" ]; then\n    echo \"Please set SCRIPTS variable correctly to point to Moses scripts.\"\n    exit 1\nfi\n\nOUTDIR=wmt18_en_de\n\nsrc=en\ntgt=de\nlang=en-de\nprep=$OUTDIR\ntmp=$prep/tmp\norig=orig\n\nmkdir -p $orig $tmp $prep\n\ncd $orig\n\nfor ((i=0;i<${#URLS[@]};++i)); do\n    file=${FILES[i]}\n    if [ -f $file ]; then\n        echo \"$file already exists, skipping download\"\n    else\n        url=${URLS[i]}\n        wget \"$url\"\n        if [ -f $file ]; then\n            echo \"$url successfully downloaded.\"\n        else\n            echo \"$url not successfully downloaded.\"\n            exit 1\n        fi\n        if [ ${file: -4} == \".tgz\" ]; then\n            tar zxvf $file\n        elif [ ${file: -4} == \".tar\" ]; then\n            tar xvf $file\n        fi\n    fi\ndone\ncd ..\n\necho \"pre-processing train data...\"\nfor l in $src $tgt; do\n    rm $tmp/train.tags.$lang.tok.$l\n    for f in \"${CORPORA[@]}\"; do\n        cat $orig/$f.$l | \\\n            perl $NORM_PUNC $l | \\\n            perl $REM_NON_PRINT_CHAR | \\\n            perl $TOKENIZER -threads 8 -a -l $l >> $tmp/train.tags.$lang.tok.$l\n    done\ndone\n\necho \"pre-processing test data...\"\nfor l in $src $tgt; do\n    if [ \"$l\" == \"$src\" ]; then\n        t=\"src\"\n    else\n        t=\"ref\"\n    fi\n    grep '<seg id' $orig/test-full/newstest2014-deen-$t.$l.sgm | \\\n        sed -e 's/<seg id=\"[0-9]*\">\\s*//g' | \\\n        sed -e 's/\\s*<\\/seg>\\s*//g' | \\\n        sed -e \"s/\\’/\\'/g\" | \\\n    perl $TOKENIZER -threads 8 -a -l $l > $tmp/test.$l\n    echo \"\"\ndone\n\necho \"splitting train and valid...\"\nfor l in $src $tgt; do\n    awk '{if (NR%100 == 0)  print $0; }' $tmp/train.tags.$lang.tok.$l > $tmp/valid.$l\n    awk '{if (NR%100 != 0)  print $0; }' $tmp/train.tags.$lang.tok.$l > $tmp/train.$l\ndone\n\nTRAIN=$tmp/train.de-en\nBPE_CODE=$prep/code\nrm -f $TRAIN\nfor l in $src $tgt; do\n    cat $tmp/train.$l >> $TRAIN\ndone\n\necho \"learn_bpe.py on ${TRAIN}...\"\npython $BPEROOT/learn_bpe.py -s $BPE_TOKENS < $TRAIN > $BPE_CODE\n\nfor L in $src $tgt; do\n    for f in train.$L valid.$L test.$L; do\n        echo \"apply_bpe.py to ${f}...\"\n        python $BPEROOT/apply_bpe.py -c $BPE_CODE < $tmp/$f > $tmp/bpe.$f\n    done\ndone\n\nperl $CLEAN -ratio 1.5 $tmp/bpe.train $src $tgt $prep/train 1 250\nperl $CLEAN -ratio 1.5 $tmp/bpe.valid $src $tgt $prep/valid 1 250\n\nfor L in $src $tgt; do\n    cp $tmp/bpe.test.$L $prep/test.$L\ndone\n"
  },
  {
    "path": "examples/backtranslation/sacrebleu.sh",
    "content": "#!/bin/bash\n\nif [ $# -ne 5 ]; then\n    echo \"usage: $0 [dataset=wmt14/full] [langpair=en-de] [databin] [bpecode] [model]\"\n    exit\nfi\n\n\nDATASET=$1\nLANGPAIR=$2\nDATABIN=$3\nBPECODE=$4\nMODEL=$5\n\nSRCLANG=$(echo $LANGPAIR | cut -d '-' -f 1)\nTGTLANG=$(echo $LANGPAIR | cut -d '-' -f 2)\n\n\nBPEROOT=examples/backtranslation/subword-nmt/subword_nmt\nif [ ! -e $BPEROOT ]; then\n    BPEROOT=subword-nmt/subword_nmt\n    if [ ! -e $BPEROOT ]; then\n        echo 'Cloning Subword NMT repository (for BPE pre-processing)...'\n        git clone https://github.com/rsennrich/subword-nmt.git\n    fi\nfi\n\n\nsacrebleu -t $DATASET -l $LANGPAIR --echo src \\\n| sacremoses tokenize -a -l $SRCLANG -q \\\n| python $BPEROOT/apply_bpe.py -c $BPECODE \\\n| fairseq-interactive $DATABIN --path $MODEL \\\n    -s $SRCLANG -t $TGTLANG \\\n    --beam 5 --remove-bpe --buffer-size 1024 --max-tokens 8000 \\\n| grep ^H- | cut -f 3- \\\n| sacremoses detokenize -l $TGTLANG -q \\\n| sacrebleu -t $DATASET -l $LANGPAIR\n"
  },
  {
    "path": "examples/backtranslation/tokenized_bleu.sh",
    "content": "#!/bin/bash\n\nif [ $# -ne 5 ]; then\n    echo \"usage: $0 [dataset=wmt14/full] [langpair=en-de] [databin] [bpecode] [model]\"\n    exit\nfi\n\n\nDATASET=$1\nLANGPAIR=$2\nDATABIN=$3\nBPECODE=$4\nMODEL=$5\n\nSRCLANG=$(echo $LANGPAIR | cut -d '-' -f 1)\nTGTLANG=$(echo $LANGPAIR | cut -d '-' -f 2)\n\n\nBPEROOT=examples/backtranslation/subword-nmt/subword_nmt\nif [ ! -e $BPEROOT ]; then\n    BPEROOT=subword-nmt/subword_nmt\n    if [ ! -e $BPEROOT ]; then\n        echo 'Cloning Subword NMT repository (for BPE pre-processing)...'\n        git clone https://github.com/rsennrich/subword-nmt.git\n    fi\nfi\n\n\nTMP_REF=$(mktemp)\n\nsacrebleu -t $DATASET -l $LANGPAIR --echo ref -q \\\n| sacremoses normalize -l $TGTLANG -q \\\n| sacremoses tokenize -a -l $TGTLANG -q \\\n> $TMP_REF\n\nsacrebleu -t $DATASET -l $LANGPAIR --echo src -q \\\n| sacremoses normalize -l $SRCLANG -q \\\n| sacremoses tokenize -a -l $SRCLANG -q \\\n| python $BPEROOT/apply_bpe.py -c $BPECODE \\\n| fairseq-interactive $DATABIN --path $MODEL \\\n    -s $SRCLANG -t $TGTLANG \\\n    --beam 5 --remove-bpe --buffer-size 1024 --max-tokens 8000 \\\n| grep ^H- | cut -f 3- \\\n| fairseq-score --ref $TMP_REF\n\nrm -f $TMP_REF\n"
  },
  {
    "path": "examples/bart/README.glue.md",
    "content": "# Fine-tuning BART on GLUE tasks\n\n### 1) Download the data from GLUE website (https://gluebenchmark.com/tasks) using following commands:\n```bash\nwget https://gist.githubusercontent.com/W4ngatang/60c2bdb54d156a41194446737ce03e2e/raw/17b8dd0d724281ed7c3b2aeeda662b92809aadd5/download_glue_data.py\npython download_glue_data.py --data_dir glue_data --tasks all\n```\n\n### 2) Preprocess GLUE task data (same as RoBERTa):\n```bash\n./examples/roberta/preprocess_GLUE_tasks.sh glue_data <glue_task_name>\n```\n`glue_task_name` is one of the following:\n`{ALL, QQP, MNLI, QNLI, MRPC, RTE, STS-B, SST-2, CoLA}`\nUse `ALL` for preprocessing all the glue tasks.\n\n### 3) Fine-tuning on GLUE task:\nExample fine-tuning cmd for `RTE` task\n```bash\nTOTAL_NUM_UPDATES=2036  # 10 epochs through RTE for bsz 16\nWARMUP_UPDATES=61      # 6 percent of the number of updates\nLR=1e-05                # Peak LR for polynomial LR scheduler.\nNUM_CLASSES=2\nMAX_SENTENCES=16        # Batch size.\nBART_PATH=/path/to/bart/model.pt\n\nCUDA_VISIBLE_DEVICES=0,1 fairseq-train RTE-bin/ \\\n    --restore-file $BART_PATH \\\n    --batch-size $MAX_SENTENCES \\\n    --max-tokens 4400 \\\n    --task sentence_prediction \\\n    --add-prev-output-tokens \\\n    --layernorm-embedding \\\n    --share-all-embeddings \\\n    --share-decoder-input-output-embed \\\n    --reset-optimizer --reset-dataloader --reset-meters \\\n    --required-batch-size-multiple 1 \\\n    --init-token 0 \\\n    --arch bart_large \\\n    --criterion sentence_prediction \\\n    --num-classes $NUM_CLASSES \\\n    --dropout 0.1 --attention-dropout 0.1 \\\n    --weight-decay 0.01 --optimizer adam --adam-betas \"(0.9, 0.98)\" --adam-eps 1e-08 \\\n    --clip-norm 0.0 \\\n    --lr-scheduler polynomial_decay --lr $LR --total-num-update $TOTAL_NUM_UPDATES --warmup-updates $WARMUP_UPDATES \\\n    --fp16 --fp16-init-scale 4 --threshold-loss-scale 1 --fp16-scale-window 128 \\\n    --max-epoch 10 \\\n    --find-unused-parameters \\\n    --best-checkpoint-metric accuracy --maximize-best-checkpoint-metric;\n```\n\nFor each of the GLUE task, you will need to use following cmd-line arguments:\n\nModel | MNLI | QNLI | QQP | RTE | SST-2 | MRPC | CoLA | STS-B\n---|---|---|---|---|---|---|---|---\n`--num-classes` | 3 | 2 | 2 | 2 | 2 | 2 | 2 | 1\n`--lr` | 5e-6 | 1e-5 | 1e-5 | 1e-5 | 5e-6 | 2e-5 | 2e-5 | 2e-5\n`bsz` | 128 | 32 | 32 | 32 | 128 | 64 | 64 | 32\n`--total-num-update` | 30968 | 33112 | 113272 | 1018 | 5233 | 1148 | 1334 | 1799\n`--warmup-updates` | 1858 | 1986 | 6796 | 61 | 314 | 68 | 80 | 107\n\nFor `STS-B` additionally add `--regression-target --best-checkpoint-metric loss` and remove `--maximize-best-checkpoint-metric`.\n\n**Note:**\n\na) `--total-num-updates` is used by `--polynomial_decay` scheduler and is calculated for `--max-epoch=10` and `--batch-size=32/64/128` depending on the task.\n\nb) Above cmd-args and hyperparams are tested on Nvidia `V100` GPU with `32gb` of memory for each task. Depending on the GPU memory resources available to you, you can use increase `--update-freq` and reduce `--batch-size`.\n\n### Inference on GLUE task\nAfter training the model as mentioned in previous step, you can perform inference with checkpoints in `checkpoints/` directory using following python code snippet:\n\n```python\nfrom fairseq.models.bart import BARTModel\n\nbart = BARTModel.from_pretrained(\n    'checkpoints/',\n    checkpoint_file='checkpoint_best.pt',\n    data_name_or_path='RTE-bin'\n)\n\nlabel_fn = lambda label: bart.task.label_dictionary.string(\n    [label + bart.task.label_dictionary.nspecial]\n)   \nncorrect, nsamples = 0, 0\nbart.cuda()\nbart.eval()\nwith open('glue_data/RTE/dev.tsv') as fin:\n    fin.readline()\n    for index, line in enumerate(fin):\n        tokens = line.strip().split('\\t')\n        sent1, sent2, target = tokens[1], tokens[2], tokens[3]\n        tokens = bart.encode(sent1, sent2)\n        prediction = bart.predict('sentence_classification_head', tokens).argmax().item()\n        prediction_label = label_fn(prediction)\n        ncorrect += int(prediction_label == target)\n        nsamples += 1\nprint('| Accuracy: ', float(ncorrect)/float(nsamples))\n```\n"
  },
  {
    "path": "examples/bart/README.md",
    "content": "# BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension\n\n[https://arxiv.org/abs/1910.13461](https://arxiv.org/abs/1910.13461)\n\n## Introduction\n\nBART is sequence-to-sequence model trained with denoising as pretraining objective. We show that this pretraining objective is more generic and show that we can match [RoBERTa](../roberta) results on SQuAD and GLUE and gain state-of-the-art results on summarization (XSum, CNN dataset), long form generative question answering (ELI5) and dialog response genration (ConvAI2). See the associated paper for more details.\n\n## Pre-trained models\n\nModel | Description | # params | Download\n---|---|---|---\n`bart.base` | BART model with 6 encoder and decoder layers | 140M | [bart.base.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/bart.base.tar.gz)\n`bart.large` | BART model with 12 encoder and decoder layers | 400M | [bart.large.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/bart.large.tar.gz)\n`bart.large.mnli` | `bart.large` finetuned on `MNLI` | 400M | [bart.large.mnli.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/bart.large.mnli.tar.gz)\n`bart.large.cnn` | `bart.large` finetuned on `CNN-DM` | 400M | [bart.large.cnn.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/bart.large.cnn.tar.gz)\n`bart.large.xsum` | `bart.large` finetuned on `Xsum` | 400M | [bart.large.xsum.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/bart.large.xsum.tar.gz)\n\n## Results\n\n**[GLUE (Wang et al., 2019)](https://gluebenchmark.com/)**\n_(dev set, single model, single-task finetuning)_\n\nModel | MNLI | QNLI | QQP | RTE | SST-2 | MRPC | CoLA | STS-B\n---|---|---|---|---|---|---|---|---\n`roberta.large` | 90.2 | 94.7 | 92.2 | 86.6 | 96.4 | 90.9 | 68.0 | 92.4\n`bart.large` | 89.9 | 94.9 | 92.5 | 87.0 | 96.6 | 90.4 | 62.8 | 91.2\n\n**[SQuAD (Rajpurkar et al., 2018)](https://rajpurkar.github.io/SQuAD-explorer/)**\n_(dev set, no additional data used)_\n\nModel | SQuAD 1.1 EM/F1 | SQuAD 2.0 EM/F1\n---|---|---\n`roberta.large` | 88.9/94.6 | 86.5/89.4\n`bart.large` | 88.8/94.6 | 86.1/89.2\n\n**[CNN/Daily Mail](http://nlpprogress.com/english/summarization.html)**\n_(test set, no additional data used)_\n\nModel | R1 | R2 | RL\n---|---|---|---\n`BERTSUMEXTABS` | 42.13 | 19.60 | 39.18\n`bart.large` | 44.16 | 21.28 | 40.90\n\n## Example usage\n\n##### Load BART from torch.hub (PyTorch >= 1.1):\n```python\nimport torch\nbart = torch.hub.load('pytorch/fairseq', 'bart.large')\nbart.eval()  # disable dropout (or leave in train mode to finetune)\n```\n\n##### Load BART (for PyTorch 1.0 or custom models):\n```python\n# Download bart.large model\nwget https://dl.fbaipublicfiles.com/fairseq/models/bart.large.tar.gz\ntar -xzvf bart.large.tar.gz\n\n# Load the model in fairseq\nfrom fairseq.models.bart import BARTModel\nbart = BARTModel.from_pretrained('/path/to/bart.large', checkpoint_file='model.pt')\nbart.eval()  # disable dropout (or leave in train mode to finetune)\n```\n\n##### Apply Byte-Pair Encoding (BPE) to input text:\n```python\ntokens = bart.encode('Hello world!')\nassert tokens.tolist() == [0, 31414, 232, 328, 2]\nbart.decode(tokens)  # 'Hello world!'\n```\n\n##### Extract features from BART:\n```python\n# Extract the last layer's features\nlast_layer_features = bart.extract_features(tokens)\nassert last_layer_features.size() == torch.Size([1, 5, 1024])\n\n# Extract all layer's features from decoder (layer 0 is the embedding layer)\nall_layers = bart.extract_features(tokens, return_all_hiddens=True)\nassert len(all_layers) == 13\nassert torch.all(all_layers[-1] == last_layer_features)\n```\n\n##### Use BART for sentence-pair classification tasks:\n```python\n# Download BART already finetuned for MNLI\nbart = torch.hub.load('pytorch/fairseq', 'bart.large.mnli')\nbart.eval()  # disable dropout for evaluation\n\n# Encode a pair of sentences and make a prediction\ntokens = bart.encode('BART is a seq2seq model.', 'BART is not sequence to sequence.')\nbart.predict('mnli', tokens).argmax()  # 0: contradiction\n\n# Encode another pair of sentences\ntokens = bart.encode('BART is denoising autoencoder.', 'BART is version of autoencoder.')\nbart.predict('mnli', tokens).argmax()  # 2: entailment\n```\n\n##### Register a new (randomly initialized) classification head:\n```python\nbart.register_classification_head('new_task', num_classes=3)\nlogprobs = bart.predict('new_task', tokens)\n```\n\n##### Batched prediction:\n```python\nimport torch\nfrom fairseq.data.data_utils import collate_tokens\n\nbart = torch.hub.load('pytorch/fairseq', 'bart.large.mnli')\nbart.eval()\n\nbatch_of_pairs = [\n    ['BART is a seq2seq model.', 'BART is not sequence to sequence.'],\n    ['BART is denoising autoencoder.', 'BART is version of autoencoder.'],\n]\n\nbatch = collate_tokens(\n    [bart.encode(pair[0], pair[1]) for pair in batch_of_pairs], pad_idx=1\n)\n\nlogprobs = bart.predict('mnli', batch)\nprint(logprobs.argmax(dim=1))\n# tensor([0, 2])\n```\n\n##### Using the GPU:\n```python\nbart.cuda()\nbart.predict('new_task', tokens)\n```\n\n#### Filling masks:\n\nBART can be used to fill multiple `<mask>` tokens in the input.\n```python\nbart = torch.hub.load('pytorch/fairseq', 'bart.base')\nbart.eval()\nbart.fill_mask(['The cat <mask> on the <mask>.'], topk=3, beam=10)\n# [[('The cat was on the ground.', tensor(-0.6183)), ('The cat was on the floor.', tensor(-0.6798)), ('The cat sleeps on the couch.', tensor(-0.6830))]]\n```\n\nNote that by default we enforce the output length to match the input length.\nThis can be disabled by setting ``match_source_len=False``:\n```\nbart.fill_mask(['The cat <mask> on the <mask>.'], topk=3, beam=10, match_source_len=False)\n# [[('The cat was on the ground.', tensor(-0.6185)), ('The cat was asleep on the couch.', tensor(-0.6276)), ('The cat was on the floor.', tensor(-0.6800))]]\n```\n\nExample code to fill masks for a batch of sentences using GPU\n```\nbart.cuda()\nbart.fill_mask(['The cat <mask> on the <mask>.', 'The dog <mask> on the <mask>.'], topk=3, beam=10)\n# [[('The cat was on the ground.', tensor(-0.6183)), ('The cat was on the floor.', tensor(-0.6798)), ('The cat sleeps on the couch.', tensor(-0.6830))], [('The dog was on the ground.', tensor(-0.6190)), ('The dog lay on the ground.', tensor(-0.6711)),\n('The dog was asleep on the couch', tensor(-0.6796))]]\n```\n\n#### Evaluating the `bart.large.mnli` model:\n\nExample python code snippet to evaluate accuracy on the MNLI `dev_matched` set.\n```python\nlabel_map = {0: 'contradiction', 1: 'neutral', 2: 'entailment'}\nncorrect, nsamples = 0, 0\nbart.cuda()\nbart.eval()\nwith open('glue_data/MNLI/dev_matched.tsv') as fin:\n    fin.readline()\n    for index, line in enumerate(fin):\n        tokens = line.strip().split('\\t')\n        sent1, sent2, target = tokens[8], tokens[9], tokens[-1]\n        tokens = bart.encode(sent1, sent2)\n        prediction = bart.predict('mnli', tokens).argmax().item()\n        prediction_label = label_map[prediction]\n        ncorrect += int(prediction_label == target)\n        nsamples += 1\n        print('| Accuracy: ', float(ncorrect)/float(nsamples))\n# Expected output: 0.9010\n```\n\n#### Evaluating the `bart.large.cnn` model:\n- Follow instructions [here](https://github.com/abisee/cnn-dailymail) to download and process into data-files such that `test.source` and `test.target` has one line for each non-tokenized sample.\n- For simpler preprocessing, you can also `wget https://cdn-datasets.huggingface.co/summarization/cnn_dm_v2.tgz`, although there is no guarantee of identical scores\n- `huggingface/transformers` has a simpler interface that supports [single-gpu](https://github.com/huggingface/transformers/blob/master/examples/legacy/seq2seq/run_eval.py) and [multi-gpu](https://github.com/huggingface/transformers/blob/master/examples/legacy/seq2seq/run_distributed_eval.py) beam search.\n    In `huggingface/transformers`, the BART models' paths are `facebook/bart-large-cnn` and `facebook/bart-large-xsum`.\n\nIn `fairseq`, summaries can be generated using:\n\n```bash\ncp data-bin/cnn_dm/dict.source.txt  checkpoints/\npython examples/bart/summarize.py \\\n  --model-dir pytorch/fairseq \\\n  --model-file bart.large.cnn \\\n  --src cnn_dm/test.source \\\n  --out cnn_dm/test.hypo\n```\n\nFor calculating rouge, install `files2rouge` from [here](https://github.com/pltrdy/files2rouge).\n\n```bash\nexport CLASSPATH=/path/to/stanford-corenlp-full-2016-10-31/stanford-corenlp-3.7.0.jar\n\n# Tokenize hypothesis and target files.\ncat test.hypo | java edu.stanford.nlp.process.PTBTokenizer -ioFileList -preserveLines > test.hypo.tokenized\ncat test.target | java edu.stanford.nlp.process.PTBTokenizer -ioFileList -preserveLines > test.hypo.target\nfiles2rouge test.hypo.tokenized test.hypo.target\n# Expected output: (ROUGE-2 Average_F: 0.21238)\n```\n\n\n## Finetuning\n\n- [Finetuning on GLUE](README.glue.md)\n- [Finetuning on CNN-DM](README.summarization.md)\n\n## Citation\n\n```bibtex\n@article{lewis2019bart,\n    title = {BART: Denoising Sequence-to-Sequence Pre-training for Natural\nLanguage Generation, Translation, and Comprehension},\n    author = {Mike Lewis and Yinhan Liu and Naman Goyal and Marjan Ghazvininejad and\n              Abdelrahman Mohamed and Omer Levy and Veselin Stoyanov\n              and Luke Zettlemoyer },\n    journal={arXiv preprint arXiv:1910.13461},\n    year = {2019},\n}\n```\n"
  },
  {
    "path": "examples/bart/README.summarization.md",
    "content": "# Fine-tuning BART on CNN-Dailymail summarization task\n\n### 1) Download the CNN and Daily Mail data and preprocess it into data files with non-tokenized cased samples.\n\nFollow the instructions [here](https://github.com/abisee/cnn-dailymail) to download the original CNN and Daily Mail datasets. To preprocess the data, refer to the pointers in [this issue](https://github.com/pytorch/fairseq/issues/1391) or check out the code [here](https://github.com/artmatsak/cnn-dailymail).\n\nFollow the instructions [here](https://github.com/EdinburghNLP/XSum) to download the original Extreme Summarization datasets, or check out the code [here](https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset), Please keep the raw dataset and make sure no tokenization nor BPE on the dataset.\n\n### 2) BPE preprocess:\n\n```bash\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/encoder.json'\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/vocab.bpe'\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/dict.txt'\n\nTASK=cnn_dm\nfor SPLIT in train val\ndo\n  for LANG in source target\n  do\n    python -m examples.roberta.multiprocessing_bpe_encoder \\\n    --encoder-json encoder.json \\\n    --vocab-bpe vocab.bpe \\\n    --inputs \"$TASK/$SPLIT.$LANG\" \\\n    --outputs \"$TASK/$SPLIT.bpe.$LANG\" \\\n    --workers 60 \\\n    --keep-empty;\n  done\ndone\n```\n\n### 3) Binarize dataset:\n```bash\nfairseq-preprocess \\\n  --source-lang \"source\" \\\n  --target-lang \"target\" \\\n  --trainpref \"${TASK}/train.bpe\" \\\n  --validpref \"${TASK}/val.bpe\" \\\n  --destdir \"${TASK}-bin/\" \\\n  --workers 60 \\\n  --srcdict dict.txt \\\n  --tgtdict dict.txt;\n```\n\n### 4) Fine-tuning on CNN-DM summarization task:\nExample fine-tuning CNN-DM\n```bash\nTOTAL_NUM_UPDATES=20000  \nWARMUP_UPDATES=500      \nLR=3e-05\nMAX_TOKENS=2048\nUPDATE_FREQ=4\nBART_PATH=/path/to/bart/model.pt\n\nCUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 fairseq-train cnn_dm-bin \\\n    --restore-file $BART_PATH \\\n    --max-tokens $MAX_TOKENS \\\n    --task translation \\\n    --source-lang source --target-lang target \\\n    --truncate-source \\\n    --layernorm-embedding \\\n    --share-all-embeddings \\\n    --share-decoder-input-output-embed \\\n    --reset-optimizer --reset-dataloader --reset-meters \\\n    --required-batch-size-multiple 1 \\\n    --arch bart_large \\\n    --criterion label_smoothed_cross_entropy \\\n    --label-smoothing 0.1 \\\n    --dropout 0.1 --attention-dropout 0.1 \\\n    --weight-decay 0.01 --optimizer adam --adam-betas \"(0.9, 0.999)\" --adam-eps 1e-08 \\\n    --clip-norm 0.1 \\\n    --lr-scheduler polynomial_decay --lr $LR --total-num-update $TOTAL_NUM_UPDATES --warmup-updates $WARMUP_UPDATES \\\n    --fp16 --update-freq $UPDATE_FREQ \\\n    --skip-invalid-size-inputs-valid-test \\\n    --find-unused-parameters;\n```\nAbove is expected to run on `1` node with `8 32gb-V100`.\nExpected training time is about `5 hours`. Training time can be reduced with distributed training on `4` nodes and `--update-freq 1`.\n\nUse TOTAL_NUM_UPDATES=15000 UPDATE_FREQ=2 for Xsum task\n\n### Inference for CNN-DM test data using above trained checkpoint.\nAfter training the model as mentioned in previous step, you can perform inference with checkpoints in `checkpoints/` directory using `eval_cnn.py`, for example\n\n```bash\ncp data-bin/cnn_dm/dict.source.txt  checkpoints/\npython examples/bart/summarize.py \\\n  --model-dir checkpoints \\\n  --model-file checkpoint_best.pt \\\n  --src cnn_dm/test.source \\\n  --out cnn_dm/test.hypo\n```\nFor XSUM, which uses beam=6, lenpen=1.0, max_len_b=60, min_len=10:\n```bash\ncp data-bin/cnn_dm/dict.source.txt  checkpoints/\npython examples/bart/summarize.py \\\n  --model-dir checkpoints \\\n  --model-file checkpoint_best.pt \\\n  --src cnn_dm/test.source \\\n  --out cnn_dm/test.hypo \\\n  --xsum-kwargs\n```\n"
  },
  {
    "path": "examples/bart/summarize.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nfrom fairseq.models.bart import BARTModel\nimport argparse\n\nXSUM_KWARGS = dict(beam=6, lenpen=1.0, max_len_b=60, min_len=10, no_repeat_ngram_size=3)\nCNN_KWARGS = dict(beam=4, lenpen=2.0, max_len_b=140, min_len=55, no_repeat_ngram_size=3)\n\n\n@torch.no_grad()\ndef generate(bart, infile, outfile=\"bart_hypo.txt\", bsz=32, n_obs=None, **eval_kwargs):\n    count = 1\n\n    # if n_obs is not None: bsz = min(bsz, n_obs)\n\n    with open(infile) as source, open(outfile, \"w\") as fout:\n        sline = source.readline().strip()\n        slines = [sline]\n        for sline in source:\n            if n_obs is not None and count > n_obs:\n                break\n            if count % bsz == 0:\n                hypotheses_batch = bart.sample(slines, **eval_kwargs)\n                for hypothesis in hypotheses_batch:\n                    fout.write(hypothesis + \"\\n\")\n                    fout.flush()\n                slines = []\n\n            slines.append(sline.strip())\n            count += 1\n\n        if slines != []:\n            hypotheses_batch = bart.sample(slines, **eval_kwargs)\n            for hypothesis in hypotheses_batch:\n                fout.write(hypothesis + \"\\n\")\n                fout.flush()\n\n\ndef main():\n    \"\"\"\n    Usage::\n\n         python examples/bart/summarize.py \\\n            --model-dir $HOME/bart.large.cnn \\\n            --model-file model.pt \\\n            --src $HOME/data-bin/cnn_dm/test.source\n    \"\"\"\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--model-dir\",\n        required=True,\n        type=str,\n        default=\"bart.large.cnn/\",\n        help=\"path containing model file and src_dict.txt\",\n    )\n    parser.add_argument(\n        \"--model-file\",\n        default=\"checkpoint_best.pt\",\n        help=\"where in model_dir are weights saved\",\n    )\n    parser.add_argument(\n        \"--src\", default=\"test.source\", help=\"text to summarize\", type=str\n    )\n    parser.add_argument(\n        \"--out\", default=\"test.hypo\", help=\"where to save summaries\", type=str\n    )\n    parser.add_argument(\"--bsz\", default=32, help=\"where to save summaries\", type=int)\n    parser.add_argument(\n        \"--n\", default=None, help=\"how many examples to summarize\", type=int\n    )\n    parser.add_argument(\n        \"--xsum-kwargs\",\n        action=\"store_true\",\n        default=False,\n        help=\"if true use XSUM_KWARGS else CNN_KWARGS\",\n    )\n    args = parser.parse_args()\n    eval_kwargs = XSUM_KWARGS if args.xsum_kwargs else CNN_KWARGS\n    if args.model_dir == \"pytorch/fairseq\":\n        bart = torch.hub.load(\"pytorch/fairseq\", args.model_file)\n    else:\n        bart = BARTModel.from_pretrained(\n            args.model_dir,\n            checkpoint_file=args.model_file,\n            data_name_or_path=args.model_dir,\n        )\n    bart = bart.eval()\n    if torch.cuda.is_available():\n        bart = bart.cuda().half()\n    generate(\n        bart, args.src, bsz=args.bsz, n_obs=args.n, outfile=args.out, **eval_kwargs\n    )\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/byte_level_bpe/README.md",
    "content": "# Neural Machine Translation with Byte-Level Subwords\n\nhttps://arxiv.org/abs/1909.03341\n\nWe provide an implementation of byte-level byte-pair encoding (BBPE), taking IWSLT 2017 Fr-En translation as\nexample.\n\n## Data\nGet data and generate fairseq binary dataset:\n```bash\nbash ./get_data.sh\n```\n\n## Model Training\nTrain Transformer model with Bi-GRU embedding contextualization (implemented in `gru_transformer.py`):\n```bash\n# VOCAB=bytes\n# VOCAB=chars\nVOCAB=bbpe2048\n# VOCAB=bpe2048\n# VOCAB=bbpe4096\n# VOCAB=bpe4096\n# VOCAB=bpe16384\n```\n```bash\nfairseq-train \"data/bin_${VOCAB}\" --task translation --user-dir examples/byte_level_bpe/gru_transformer \\\n    --arch gru_transformer --encoder-layers 2 --decoder-layers 2 --dropout 0.3 --share-all-embeddings \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' \\\n    --lr 5e-4 --lr-scheduler inverse_sqrt --warmup-updates 4000 \\\n    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n    --log-format 'simple' --log-interval 100 --save-dir \"checkpoints/${VOCAB}\" \\\n    --batch-size 100 --max-update 100000 --update-freq 2\n```\n\n## Generation\n`fairseq-generate` requires bytes (BBPE) decoder to convert byte-level representation back to characters:\n```bash\n# BPE=--bpe bytes\n# BPE=--bpe characters\nBPE=--bpe byte_bpe --sentencepiece-model-path data/spm_bbpe2048.model\n# BPE=--bpe sentencepiece --sentencepiece-model data/spm_bpe2048.model\n# BPE=--bpe byte_bpe --sentencepiece-model-path data/spm_bbpe4096.model\n# BPE=--bpe sentencepiece --sentencepiece-model data/spm_bpe4096.model\n# BPE=--bpe sentencepiece --sentencepiece-model data/spm_bpe16384.model\n```\n\n```bash\nfairseq-generate \"data/bin_${VOCAB}\" --task translation --user-dir examples/byte_level_bpe/gru_transformer \\\n    --source-lang fr --gen-subset test --sacrebleu --path \"checkpoints/${VOCAB}/checkpoint_last.pt\" \\\n    --tokenizer moses --moses-target-lang en ${BPE}\n```\nWhen using `fairseq-interactive`, bytes (BBPE) encoder/decoder is required to tokenize input data and detokenize model predictions:\n```bash\nfairseq-interactive \"data/bin_${VOCAB}\" --task translation --user-dir examples/byte_level_bpe/gru_transformer \\\n    --path \"checkpoints/${VOCAB}/checkpoint_last.pt\" --input data/test.fr --tokenizer moses --moses-source-lang fr \\\n    --moses-target-lang en ${BPE} --buffer-size 1000 --max-tokens 10000\n```\n\n## Results\n| Vocabulary    | Model  | BLEU |\n|:-------------:|:-------------:|:-------------:|\n| Joint BPE 16k ([Kudo, 2018](https://arxiv.org/abs/1804.10959)) | 512d LSTM 2+2 | 33.81 |\n| Joint BPE 16k | Transformer base 2+2 (w/ GRU) | 36.64 (36.72) |\n| Joint BPE 4k | Transformer base 2+2 (w/ GRU) | 35.49 (36.10) |\n| Joint BBPE 4k | Transformer base 2+2 (w/ GRU) | 35.61 (35.82) |\n| Joint BPE 2k | Transformer base 2+2 (w/ GRU) | 34.87 (36.13) |\n| Joint BBPE 2k | Transformer base 2+2 (w/ GRU) | 34.98 (35.43) |\n| Characters | Transformer base 2+2 (w/ GRU) | 31.78 (33.30) |\n| Bytes | Transformer base 2+2 (w/ GRU) | 31.57 (33.62) |\n\n\n## Citation\n```\n@misc{wang2019neural,\n    title={Neural Machine Translation with Byte-Level Subwords},\n    author={Changhan Wang and Kyunghyun Cho and Jiatao Gu},\n    year={2019},\n    eprint={1909.03341},\n    archivePrefix={arXiv},\n    primaryClass={cs.CL}\n}\n```\n\n\n## Contact\nChanghan Wang ([changhan@fb.com](mailto:changhan@fb.com)),\nKyunghyun Cho ([kyunghyuncho@fb.com](mailto:kyunghyuncho@fb.com)),\nJiatao Gu ([jgu@fb.com](mailto:jgu@fb.com))\n"
  },
  {
    "path": "examples/byte_level_bpe/get_bitext.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport argparse\nimport os\nimport os.path as op\nfrom collections import namedtuple\nfrom multiprocessing import cpu_count\nfrom typing import List, Optional\n\nimport sentencepiece as sp\nfrom fairseq.data.encoders.byte_bpe import ByteBPE\nfrom fairseq.data.encoders.byte_utils import byte_encode\nfrom fairseq.data.encoders.bytes import Bytes\nfrom fairseq.data.encoders.characters import Characters\nfrom fairseq.data.encoders.moses_tokenizer import MosesTokenizer\nfrom fairseq.data.encoders.sentencepiece_bpe import SentencepieceBPE\n\n\nSPLITS = [\"train\", \"valid\", \"test\"]\n\n\ndef _convert_xml(in_path: str, out_path: str):\n    with open(in_path) as f, open(out_path, \"w\") as f_o:\n        for s in f:\n            ss = s.strip()\n            if not ss.startswith(\"<seg\"):\n                continue\n            ss = ss.replace(\"</seg>\", \"\").split('\">')\n            assert len(ss) == 2\n            f_o.write(ss[1].strip() + \"\\n\")\n\n\ndef _convert_train(in_path: str, out_path: str):\n    with open(in_path) as f, open(out_path, \"w\") as f_o:\n        for s in f:\n            ss = s.strip()\n            if ss.startswith(\"<\"):\n                continue\n            f_o.write(ss.strip() + \"\\n\")\n\n\ndef _get_bytes(in_path: str, out_path: str):\n    with open(in_path) as f, open(out_path, \"w\") as f_o:\n        for s in f:\n            f_o.write(Bytes.encode(s.strip()) + \"\\n\")\n\n\ndef _get_chars(in_path: str, out_path: str):\n    with open(in_path) as f, open(out_path, \"w\") as f_o:\n        for s in f:\n            f_o.write(Characters.encode(s.strip()) + \"\\n\")\n\n\ndef pretokenize(in_path: str, out_path: str, src: str, tgt: str):\n    Args = namedtuple(\n        \"Args\",\n        [\n            \"moses_source_lang\",\n            \"moses_target_lang\",\n            \"moses_no_dash_splits\",\n            \"moses_no_escape\",\n        ],\n    )\n    args = Args(\n        moses_source_lang=src,\n        moses_target_lang=tgt,\n        moses_no_dash_splits=False,\n        moses_no_escape=False,\n    )\n    pretokenizer = MosesTokenizer(args)\n    with open(in_path) as f, open(out_path, \"w\") as f_o:\n        for s in f:\n            f_o.write(pretokenizer.encode(s.strip()) + \"\\n\")\n\n\ndef _convert_to_bchar(in_path_prefix: str, src: str, tgt: str, out_path: str):\n    with open(out_path, \"w\") as f_o:\n        for lang in [src, tgt]:\n            with open(f\"{in_path_prefix}.{lang}\") as f:\n                for s in f:\n                    f_o.write(byte_encode(s.strip()) + \"\\n\")\n\n\ndef _get_bpe(in_path: str, model_prefix: str, vocab_size: int):\n    arguments = [\n        f\"--input={in_path}\",\n        f\"--model_prefix={model_prefix}\",\n        f\"--model_type=bpe\",\n        f\"--vocab_size={vocab_size}\",\n        \"--character_coverage=1.0\",\n        \"--normalization_rule_name=identity\",\n        f\"--num_threads={cpu_count()}\",\n    ]\n    sp.SentencePieceTrainer.Train(\" \".join(arguments))\n\n\ndef _apply_bbpe(model_path: str, in_path: str, out_path: str):\n    Args = namedtuple(\"Args\", [\"sentencepiece_model_path\"])\n    args = Args(sentencepiece_model_path=model_path)\n    tokenizer = ByteBPE(args)\n    with open(in_path) as f, open(out_path, \"w\") as f_o:\n        for s in f:\n            f_o.write(tokenizer.encode(s.strip()) + \"\\n\")\n\n\ndef _apply_bpe(model_path: str, in_path: str, out_path: str):\n    Args = namedtuple(\"Args\", [\"sentencepiece_model\"])\n    args = Args(sentencepiece_model=model_path)\n    tokenizer = SentencepieceBPE(args)\n    with open(in_path) as f, open(out_path, \"w\") as f_o:\n        for s in f:\n            f_o.write(tokenizer.encode(s.strip()) + \"\\n\")\n\n\ndef _concat_files(in_paths: List[str], out_path: str):\n    with open(out_path, \"w\") as f_o:\n        for p in in_paths:\n            with open(p) as f:\n                for r in f:\n                    f_o.write(r)\n\n\ndef preprocess_iwslt17(\n    root: str,\n    src: str,\n    tgt: str,\n    bpe_size: Optional[int],\n    need_chars: bool,\n    bbpe_size: Optional[int],\n    need_bytes: bool,\n):\n    # extract bitext\n    in_root = op.join(root, f\"{src}-{tgt}\")\n    for lang in [src, tgt]:\n        _convert_train(\n            op.join(in_root, f\"train.tags.{src}-{tgt}.{lang}\"),\n            op.join(root, f\"train.{lang}\"),\n        )\n        _convert_xml(\n            op.join(in_root, f\"IWSLT17.TED.dev2010.{src}-{tgt}.{lang}.xml\"),\n            op.join(root, f\"valid.{lang}\"),\n        )\n        _convert_xml(\n            op.join(in_root, f\"IWSLT17.TED.tst2015.{src}-{tgt}.{lang}.xml\"),\n            op.join(root, f\"test.{lang}\"),\n        )\n    # pre-tokenize\n    for lang in [src, tgt]:\n        for split in SPLITS:\n            pretokenize(\n                op.join(root, f\"{split}.{lang}\"),\n                op.join(root, f\"{split}.moses.{lang}\"),\n                src,\n                tgt,\n            )\n    # tokenize with BPE vocabulary\n    if bpe_size is not None:\n        # learn vocabulary\n        concated_train_path = op.join(root, \"train.all\")\n        _concat_files(\n            [op.join(root, \"train.moses.fr\"), op.join(root, \"train.moses.en\")],\n            concated_train_path,\n        )\n        bpe_model_prefix = op.join(root, f\"spm_bpe{bpe_size}\")\n        _get_bpe(concated_train_path, bpe_model_prefix, bpe_size)\n        os.remove(concated_train_path)\n        # apply\n        for lang in [src, tgt]:\n            for split in SPLITS:\n                _apply_bpe(\n                    bpe_model_prefix + \".model\",\n                    op.join(root, f\"{split}.moses.{lang}\"),\n                    op.join(root, f\"{split}.moses.bpe{bpe_size}.{lang}\"),\n                )\n    # tokenize with bytes vocabulary\n    if need_bytes:\n        for lang in [src, tgt]:\n            for split in SPLITS:\n                _get_bytes(\n                    op.join(root, f\"{split}.moses.{lang}\"),\n                    op.join(root, f\"{split}.moses.bytes.{lang}\"),\n                )\n    # tokenize with characters vocabulary\n    if need_chars:\n        for lang in [src, tgt]:\n            for split in SPLITS:\n                _get_chars(\n                    op.join(root, f\"{split}.moses.{lang}\"),\n                    op.join(root, f\"{split}.moses.chars.{lang}\"),\n                )\n    # tokenize with byte-level BPE vocabulary\n    if bbpe_size is not None:\n        # learn vocabulary\n        bchar_path = op.join(root, \"train.bchar\")\n        _convert_to_bchar(op.join(root, \"train.moses\"), src, tgt, bchar_path)\n        bbpe_model_prefix = op.join(root, f\"spm_bbpe{bbpe_size}\")\n        _get_bpe(bchar_path, bbpe_model_prefix, bbpe_size)\n        os.remove(bchar_path)\n        # apply\n        for lang in [src, tgt]:\n            for split in SPLITS:\n                _apply_bbpe(\n                    bbpe_model_prefix + \".model\",\n                    op.join(root, f\"{split}.moses.{lang}\"),\n                    op.join(root, f\"{split}.moses.bbpe{bbpe_size}.{lang}\"),\n                )\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--root\", type=str, default=\"data\")\n    parser.add_argument(\n        \"--bpe-vocab\",\n        default=None,\n        type=int,\n        help=\"Generate tokenized bitext with BPE of size K.\"\n        \"Default to None (disabled).\",\n    )\n    parser.add_argument(\n        \"--bbpe-vocab\",\n        default=None,\n        type=int,\n        help=\"Generate tokenized bitext with BBPE of size K.\"\n        \"Default to None (disabled).\",\n    )\n    parser.add_argument(\n        \"--byte-vocab\",\n        action=\"store_true\",\n        help=\"Generate tokenized bitext with bytes vocabulary\",\n    )\n    parser.add_argument(\n        \"--char-vocab\",\n        action=\"store_true\",\n        help=\"Generate tokenized bitext with chars vocabulary\",\n    )\n    args = parser.parse_args()\n\n    preprocess_iwslt17(\n        args.root,\n        \"fr\",\n        \"en\",\n        args.bpe_vocab,\n        args.char_vocab,\n        args.bbpe_vocab,\n        args.byte_vocab,\n    )\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/byte_level_bpe/get_data.sh",
    "content": "#!/bin/bash\n\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nPY_BIN_ROOT=\n\n# PyPI dependency\n${PY_BIN_ROOT}pip install sentencepiece sacremoses\n\n# Get data\nif [ ! -d \"data\" ]; then\n  mkdir data\nfi\n\nif [ ! -f \"data/fr-en.tgz\" ]; then\n  wget https://wit3.fbk.eu/archive/2017-01-trnted/texts/fr/en/fr-en.tgz -P data\n  tar xvf data/fr-en.tgz -C data\nfi\n${PY_BIN_ROOT}python get_bitext.py --bpe-vocab 16384 --byte-vocab --char-vocab\nfor VOCAB_SIZE in 2048 4096; do\n  ${PY_BIN_ROOT}python get_bitext.py --bpe-vocab ${VOCAB_SIZE} --bbpe-vocab ${VOCAB_SIZE}\ndone\nrm -r data/fr-en data/fr-en.tgz\n\n# Generate binary dataset\n${PY_BIN_ROOT}/fairseq-preprocess --source-lang fr --target-lang en --destdir data/bin_bpe16384 --joined-dictionary \\\n  --workers \"$(nproc)\" --trainpref data/train.moses.bpe16384 --validpref data/valid.moses.bpe16384 \\\n  --testpref data/test.moses.bpe16384\n\n${PY_BIN_ROOT}/fairseq-preprocess --source-lang fr --target-lang en --destdir data/bin_bytes --joined-dictionary \\\n  --workers \"$(nproc)\" --trainpref data/train.moses.bytes --validpref data/valid.moses.bytes \\\n  --testpref data/test.moses.bytes\n\n${PY_BIN_ROOT}/fairseq-preprocess --source-lang fr --target-lang en --destdir data/bin_chars --joined-dictionary \\\n  --workers \"$(nproc)\" --trainpref data/train.moses.chars --validpref data/valid.moses.chars \\\n  --testpref data/test.moses.chars\n\nfor VOCAB_SIZE in 2048 4096; do\n  for TYPE in bbpe bpe; do\n    ${PY_BIN_ROOT}/fairseq-preprocess --source-lang fr --target-lang en --destdir \"data/bin_${TYPE}${VOCAB_SIZE}\" \\\n      --joined-dictionary --workers \"$(nproc)\" --trainpref \"data/train.moses.${TYPE}${VOCAB_SIZE}\" \\\n      --validpref \"data/valid.moses.${TYPE}${VOCAB_SIZE}\" --testpref \"data/test.moses.${TYPE}${VOCAB_SIZE}\"\n  done\ndone\n"
  },
  {
    "path": "examples/byte_level_bpe/gru_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.transformer import TransformerEncoder, TransformerModel\n\n\n@register_model(\"gru_transformer\")\nclass GRUTransformerModel(TransformerModel):\n    @classmethod\n    def build_encoder(cls, args, src_dict, embed_tokens):\n        return GRUTransformerEncoder(args, src_dict, embed_tokens)\n\n\nclass GRUTransformerEncoder(TransformerEncoder):\n    def __init__(self, args, dictionary, embed_tokens):\n        super().__init__(args, dictionary, embed_tokens)\n        self.emb_ctx = nn.GRU(\n            input_size=embed_tokens.embedding_dim,\n            hidden_size=embed_tokens.embedding_dim // 2,\n            num_layers=1,\n            bidirectional=True,\n        )\n\n    def forward_embedding(self, src_tokens):\n        # embed tokens and positions\n        x = embed = self.embed_scale * self.embed_tokens(src_tokens)\n        if self.embed_positions is not None:\n            x = embed + self.embed_positions(src_tokens)\n\n        # contextualize embeddings\n        x = x.transpose(0, 1)\n        x = self.dropout_module(x)\n        x, _ = self.emb_ctx.forward(x)\n        x = x.transpose(0, 1)\n\n        if self.layernorm_embedding is not None:\n            x = self.layernorm_embedding(x)\n        x = self.dropout_module(x)\n        return x, embed\n\n\n@register_model_architecture(\"gru_transformer\", \"gru_transformer\")\ndef gru_transformer_base_architecture(args):\n    args.encoder_embed_path = getattr(args, \"encoder_embed_path\", None)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 6)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", False)\n    args.decoder_embed_path = getattr(args, \"decoder_embed_path\", None)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", args.encoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", args.encoder_ffn_embed_dim\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", False)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.0)\n    args.activation_dropout = getattr(args, \"activation_dropout\", 0.0)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.share_all_embeddings = getattr(args, \"share_all_embeddings\", False)\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.no_cross_attention = getattr(args, \"no_cross_attention\", False)\n    args.cross_self_attention = getattr(args, \"cross_self_attention\", False)\n    args.layer_wise_attention = getattr(args, \"layer_wise_attention\", False)\n\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", False)\n    args.layernorm_embedding = getattr(args, \"layernorm_embedding\", False)\n\n\n@register_model_architecture(\"gru_transformer\", \"gru_transformer_big\")\ndef gru_transformer_big(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 4096)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 16)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 1024)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 4096)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 16)\n    args.dropout = getattr(args, \"dropout\", 0.3)\n    gru_transformer_base_architecture(args)\n"
  },
  {
    "path": "examples/camembert/README.md",
    "content": "# CamemBERT: a Tasty French Language Model\n\n## Introduction\n\n[CamemBERT](https://arxiv.org/abs/1911.03894) is a pretrained language model trained on 138GB of French text based on RoBERTa.\n\nAlso available in [github.com/huggingface/transformers](https://github.com/huggingface/transformers/).\n\n## Pre-trained models\n\n| Model                          | #params | Download                                                                                                                 | Arch. | Training data                     |\n|--------------------------------|---------|--------------------------------------------------------------------------------------------------------------------------|-------|-----------------------------------|\n| `camembert` / `camembert-base` | 110M    | [camembert-base.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/camembert-base.tar.gz)                             | Base  | OSCAR (138 GB of text)            |\n| `camembert-large`              | 335M    | [camembert-large.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/camembert-large.tar.gz)                           | Large | CCNet (135 GB of text)            |\n| `camembert-base-ccnet`         | 110M    | [camembert-base-ccnet.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/camembert-base-ccnet.tar.gz)                 | Base  | CCNet (135 GB of text)            |\n| `camembert-base-wikipedia-4gb` | 110M    | [camembert-base-wikipedia-4gb.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/camembert-base-wikipedia-4gb.tar.gz) | Base  | Wikipedia (4 GB of text)          |\n| `camembert-base-oscar-4gb`     | 110M    | [camembert-base-oscar-4gb.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/camembert-base-oscar-4gb.tar.gz)         | Base  | Subsample of OSCAR (4 GB of text) |\n| `camembert-base-ccnet-4gb`     | 110M    | [camembert-base-ccnet-4gb.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/camembert-base-ccnet-4gb.tar.gz)         | Base  | Subsample of CCNet (4 GB of text) |\n\n## Example usage\n\n### fairseq\n##### Load CamemBERT from torch.hub (PyTorch >= 1.1):\n```python\nimport torch\ncamembert = torch.hub.load('pytorch/fairseq', 'camembert')\ncamembert.eval()  # disable dropout (or leave in train mode to finetune)\n```\n\n##### Load CamemBERT (for PyTorch 1.0 or custom models):\n```python\n# Download camembert model\nwget https://dl.fbaipublicfiles.com/fairseq/models/camembert-base.tar.gz\ntar -xzvf camembert.tar.gz\n\n# Load the model in fairseq\nfrom fairseq.models.roberta import CamembertModel\ncamembert = CamembertModel.from_pretrained('/path/to/camembert')\ncamembert.eval()  # disable dropout (or leave in train mode to finetune)\n```\n\n##### Filling masks:\n```python\nmasked_line = 'Le camembert est <mask> :)'\ncamembert.fill_mask(masked_line, topk=3)\n# [('Le camembert est délicieux :)', 0.4909118115901947, ' délicieux'),\n#  ('Le camembert est excellent :)', 0.10556942224502563, ' excellent'),\n#  ('Le camembert est succulent :)', 0.03453322499990463, ' succulent')]\n```\n\n##### Extract features from Camembert:\n```python\n# Extract the last layer's features\nline = \"J'aime le camembert !\"\ntokens = camembert.encode(line)\nlast_layer_features = camembert.extract_features(tokens)\nassert last_layer_features.size() == torch.Size([1, 10, 768])\n\n# Extract all layer's features (layer 0 is the embedding layer)\nall_layers = camembert.extract_features(tokens, return_all_hiddens=True)\nassert len(all_layers) == 13\nassert torch.all(all_layers[-1] == last_layer_features)\n```\n\n## Citation\nIf you use our work, please cite:\n\n```bibtex\n@inproceedings{martin2020camembert,\n  title={CamemBERT: a Tasty French Language Model},\n  author={Martin, Louis and Muller, Benjamin and Su{\\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\\'E}ric Villemonte and Seddah, Djam{\\'e} and Sagot, Beno{\\^\\i}t},\n  booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},\n  year={2020}\n}\n```\n"
  },
  {
    "path": "examples/constrained_decoding/README.md",
    "content": "# (Vectorized) Lexically constrained decoding with dynamic beam allocation\n\nThis page provides instructions for how to use lexically constrained decoding in Fairseq.\nFairseq implements the code described in the following papers:\n\n* [Fast Lexically Constrained Decoding With Dynamic Beam Allocation](https://www.aclweb.org/anthology/N18-1119/) (Post & Vilar, 2018)\n* [Improved Lexically Constrained Decoding for Translation and Monolingual Rewriting](https://www.aclweb.org/anthology/N19-1090/) (Hu et al., 2019)\n\n## Quick start\n\nConstrained search is enabled by adding the command-line argument `--constraints` to `fairseq-interactive`.\nConstraints are appended to each line of input, separated by tabs. Each constraint (one or more tokens)\nis a separate field.\n\nThe following command, using [Fairseq's WMT19 German--English model](https://github.com/pytorch/fairseq/blob/main/examples/wmt19/README.md),\ntranslates the sentence *Die maschinelle Übersetzung ist schwer zu kontrollieren.* with the constraints\n\"hard\" and \"to influence\".\n\n    echo -e \"Die maschinelle Übersetzung ist schwer zu kontrollieren.\\thard\\ttoinfluence\" \\\n    | normalize.py | tok.py \\\n    | fairseq-interactive /path/to/model \\\n      --path /path/to/model/model1.pt \\\n      --bpe fastbpe \\\n      --bpe-codes /path/to/model/bpecodes \\\n      --constraints \\\n      -s de -t en \\\n      --beam 10\n\n(tok.py and normalize.py can be found in the same directory as this README; they are just shortcuts around Fairseq's WMT19 preprocessing).\nThis will generate the following output:\n\n    [snip]\n    S-0     Die masch@@ in@@ elle Über@@ setzung ist schwer zu kontrollieren .\n    W-0     1.844   seconds\n    C-0     hard\n    C-0     influence\n    H-0     -1.5333266258239746     Mach@@ ine trans@@ lation is hard to influence .\n    D-0     -1.5333266258239746     Machine translation is hard to influence .\n    P-0     -0.5434 -0.1423 -0.1930 -0.1415 -0.2346 -1.8031 -0.1701 -11.7727 -0.1815 -0.1511\n\nBy default, constraints are generated in the order supplied, with any number (zero or more) of tokens generated\nbetween constraints. If you wish for the decoder to order the constraints, then use `--constraints unordered`.\nNote that you may want to use a larger beam.\n\n## Implementation details\n\nThe heart of the implementation is in `fairseq/search.py`, which adds a `LexicallyConstrainedBeamSearch` instance.\nThis instance of beam search tracks the progress of each hypothesis in the beam through the set of constraints\nprovided for each input sentence. It does this using one of two classes, both found in `fairseq/token_generation_contstraints.py`:\n\n* OrderedConstraintState: assumes the `C` input constraints will be generated in the provided order\n* UnorderedConstraintState: tries to apply `C` (phrasal) constraints in all `C!` orders\n\n## Differences from Sockeye\n\nThere are a number of [differences from Sockeye's implementation](https://awslabs.github.io/sockeye/inference.html#lexical-constraints).\n\n* Generating constraints in the order supplied (the default option here) is not available in Sockeye.\n* Due to an improved beam allocation method, there is no need to prune the beam.\n* Again due to better allocation, beam sizes as low as 10 or even 5 are often sufficient.\n* [The vector extensions described in Hu et al.](https://github.com/edwardjhu/sockeye/tree/trie_constraints) (NAACL 2019) were never merged\n  into the main Sockeye branch.\n\n## Citation\n\nThe paper first describing lexical constraints for seq2seq decoding is:\n\n```bibtex\n@inproceedings{hokamp-liu-2017-lexically,\n  title = \"Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search\",\n  author = \"Hokamp, Chris  and\n    Liu, Qun\",\n  booktitle = \"Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)\",\n  month = jul,\n  year = \"2017\",\n  address = \"Vancouver, Canada\",\n  publisher = \"Association for Computational Linguistics\",\n  url = \"https://www.aclweb.org/anthology/P17-1141\",\n  doi = \"10.18653/v1/P17-1141\",\n  pages = \"1535--1546\",\n}\n```\n\nThe fairseq implementation uses the extensions described in\n\n```bibtex\n@inproceedings{post-vilar-2018-fast,\n    title = \"Fast Lexically Constrained Decoding with Dynamic Beam Allocation for Neural Machine Translation\",\n    author = \"Post, Matt  and\n      Vilar, David\",\n    booktitle = \"Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)\",\n    month = jun,\n    year = \"2018\",\n    address = \"New Orleans, Louisiana\",\n    publisher = \"Association for Computational Linguistics\",\n    url = \"https://www.aclweb.org/anthology/N18-1119\",\n    doi = \"10.18653/v1/N18-1119\",\n    pages = \"1314--1324\",\n}\n```\n\nand\n\n```bibtex\n@inproceedings{hu-etal-2019-improved,\n  title = \"Improved Lexically Constrained Decoding for Translation and Monolingual Rewriting\",\n  author = \"Hu, J. Edward  and\n    Khayrallah, Huda  and\n    Culkin, Ryan  and\n    Xia, Patrick  and\n    Chen, Tongfei  and\n    Post, Matt  and\n    Van Durme, Benjamin\",\n  booktitle = \"Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)\",\n  month = jun,\n  year = \"2019\",\n  address = \"Minneapolis, Minnesota\",\n  publisher = \"Association for Computational Linguistics\",\n  url = \"https://www.aclweb.org/anthology/N19-1090\",\n  doi = \"10.18653/v1/N19-1090\",\n  pages = \"839--850\",\n}\n```\n"
  },
  {
    "path": "examples/constrained_decoding/normalize.py",
    "content": "#!/usr/bin/env python3\n#\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport sys\n\nfrom sacremoses.normalize import MosesPunctNormalizer\n\n\ndef main(args):\n    normalizer = MosesPunctNormalizer(lang=args.lang, penn=args.penn)\n    for line in sys.stdin:\n        print(normalizer.normalize(line.rstrip()), flush=True)\n\n\nif __name__ == \"__main__\":\n    import argparse\n\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--lang\", \"-l\", default=\"en\")\n    parser.add_argument(\"--penn\", \"-p\", action=\"store_true\")\n    args = parser.parse_args()\n\n    main(args)\n"
  },
  {
    "path": "examples/constrained_decoding/tok.py",
    "content": "#!/usr/bin/env python3\n#\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport sys\n\nimport sacremoses\n\n\ndef main(args):\n    \"\"\"Tokenizes, preserving tabs\"\"\"\n    mt = sacremoses.MosesTokenizer(lang=args.lang)\n\n    def tok(s):\n        return mt.tokenize(s, return_str=True)\n\n    for line in sys.stdin:\n        parts = list(map(tok, line.split(\"\\t\")))\n        print(*parts, sep=\"\\t\", flush=True)\n\n\nif __name__ == \"__main__\":\n    import argparse\n\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--lang\", \"-l\", default=\"en\")\n    parser.add_argument(\"--penn\", \"-p\", action=\"store_true\")\n    parser.add_argument(\"--fields\", \"-f\", help=\"fields to tokenize\")\n    args = parser.parse_args()\n\n    main(args)\n"
  },
  {
    "path": "examples/conv_seq2seq/README.md",
    "content": "# Convolutional Sequence to Sequence Learning (Gehring et al., 2017)\n\n## Pre-trained models\n\nDescription | Dataset | Model | Test set(s)\n---|---|---|---\nConvolutional <br> ([Gehring et al., 2017](https://arxiv.org/abs/1705.03122)) | [WMT14 English-French](http://statmt.org/wmt14/translation-task.html#Download) | [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/models/wmt14.v2.en-fr.fconv-py.tar.bz2) | newstest2014: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt14.v2.en-fr.newstest2014.tar.bz2) <br> newstest2012/2013: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt14.v2.en-fr.ntst1213.tar.bz2)\nConvolutional <br> ([Gehring et al., 2017](https://arxiv.org/abs/1705.03122)) | [WMT14 English-German](http://statmt.org/wmt14/translation-task.html#Download) | [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/models/wmt14.en-de.fconv-py.tar.bz2) | newstest2014: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt14.en-de.newstest2014.tar.bz2)\nConvolutional <br> ([Gehring et al., 2017](https://arxiv.org/abs/1705.03122)) | [WMT17 English-German](http://statmt.org/wmt17/translation-task.html#Download) | [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/models/wmt17.v2.en-de.fconv-py.tar.bz2) | newstest2014: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt17.v2.en-de.newstest2014.tar.bz2)\n\n## Example usage\n\nSee the [translation README](../translation/README.md) for instructions on reproducing results for WMT'14 En-De and\nWMT'14 En-Fr using the `fconv_wmt_en_de` and `fconv_wmt_en_fr` model architectures.\n\n## Citation\n\n```bibtex\n@inproceedings{gehring2017convs2s,\n  title = {Convolutional Sequence to Sequence Learning},\n  author = {Gehring, Jonas, and Auli, Michael and Grangier, David and Yarats, Denis and Dauphin, Yann N},\n  booktitle = {Proc. of ICML},\n  year = 2017,\n}\n```\n"
  },
  {
    "path": "examples/criss/README.md",
    "content": "# Cross-lingual Retrieval for Iterative Self-Supervised Training\n\nhttps://arxiv.org/pdf/2006.09526.pdf\n\n## Introduction\n\nCRISS is a multilingual sequence-to-sequnce pretraining method where mining and training processes are applied iteratively, improving cross-lingual alignment and translation ability at the same time.\n\n## Requirements:\n\n* faiss: https://github.com/facebookresearch/faiss\n* mosesdecoder: https://github.com/moses-smt/mosesdecoder\n* flores: https://github.com/facebookresearch/flores\n* LASER: https://github.com/facebookresearch/LASER\n\n## Unsupervised Machine Translation\n##### 1. Download and decompress CRISS checkpoints\n```\ncd examples/criss\nwget https://dl.fbaipublicfiles.com/criss/criss_3rd_checkpoints.tar.gz\ntar -xf criss_checkpoints.tar.gz\n```\n##### 2. Download and preprocess Flores test dataset\nMake sure to run all scripts from examples/criss directory\n```\nbash download_and_preprocess_flores_test.sh\n```\n\n##### 3. Run Evaluation on Sinhala-English\n```\nbash unsupervised_mt/eval.sh\n```\n\n## Sentence Retrieval\n##### 1. Download and preprocess Tatoeba dataset\n```\nbash download_and_preprocess_tatoeba.sh\n```\n\n##### 2. Run Sentence Retrieval on Tatoeba Kazakh-English\n```\nbash sentence_retrieval/sentence_retrieval_tatoeba.sh\n```\n\n## Mining\n##### 1. Install faiss\nFollow instructions on https://github.com/facebookresearch/faiss/blob/master/INSTALL.md\n##### 2. Mine pseudo-parallel data between Kazakh and English\n```\nbash mining/mine_example.sh\n```\n\n## Citation\n```bibtex\n@article{tran2020cross,\n  title={Cross-lingual retrieval for iterative self-supervised training},\n  author={Tran, Chau and Tang, Yuqing and Li, Xian and Gu, Jiatao},\n  journal={arXiv preprint arXiv:2006.09526},\n  year={2020}\n}\n```\n"
  },
  {
    "path": "examples/criss/download_and_preprocess_flores_test.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\nSPM_ENCODE=flores/scripts/spm_encode.py\nDATA=data_tmp\nSPM_MODEL=criss_checkpoints/sentence.bpe.model\nDICT=criss_checkpoints/dict.txt\n\ndownload_data() {\n  CORPORA=$1\n  URL=$2\n\n  if [ -f $CORPORA ]; then\n    echo \"$CORPORA already exists, skipping download\"\n  else\n    echo \"Downloading $URL\"\n    wget $URL -O $CORPORA --no-check-certificate || rm -f $CORPORA\n    if [ -f $CORPORA ]; then\n      echo \"$URL successfully downloaded.\"\n    else\n      echo \"$URL not successfully downloaded.\"\n      rm -f $CORPORA\n    fi\n  fi\n}\n\nif [[ -f flores ]]; then\n  echo \"flores already cloned\"\nelse\n  git clone https://github.com/facebookresearch/flores\nfi\n\nmkdir -p $DATA\ndownload_data $DATA/wikipedia_en_ne_si_test_sets.tgz \"https://github.com/facebookresearch/flores/raw/master/data/wikipedia_en_ne_si_test_sets.tgz\"\npushd $DATA\npwd\ntar -vxf wikipedia_en_ne_si_test_sets.tgz\npopd\n\n\nfor lang in ne_NP si_LK; do\n  datadir=$DATA/${lang}-en_XX-flores\n  rm -rf $datadir\n  mkdir -p $datadir\n  TEST_PREFIX=$DATA/wikipedia_en_ne_si_test_sets/wikipedia.test\n  python $SPM_ENCODE \\\n    --model ${SPM_MODEL} \\\n    --output_format=piece \\\n    --inputs ${TEST_PREFIX}.${lang:0:2}-en.${lang:0:2} ${TEST_PREFIX}.${lang:0:2}-en.en \\\n    --outputs $datadir/test.bpe.${lang}-en_XX.${lang} $datadir/test.bpe.${lang}-en_XX.en_XX\n\n  # binarize data\n  fairseq-preprocess \\\n    --source-lang ${lang} --target-lang en_XX \\\n    --testpref $datadir/test.bpe.${lang}-en_XX \\\n    --destdir $datadir \\\n    --srcdict ${DICT} \\\n    --joined-dictionary \\\n    --workers 4\ndone\n"
  },
  {
    "path": "examples/criss/download_and_preprocess_tatoeba.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\nSPM_ENCODE=flores/scripts/spm_encode.py\nDATA=data_tmp\nSPM_MODEL=criss_checkpoints/sentence.bpe.model\nDICT=criss_checkpoints/dict.txt\n\nif [[ -f flores ]]; then\n  echo \"flores already cloned\"\nelse\n  git clone https://github.com/facebookresearch/flores\nfi\nif [[ -f LASER ]]; then\n  echo \"LASER already cloned\"\nelse\n  git clone https://github.com/facebookresearch/LASER\nfi\nmkdir -p data_tmp\ndeclare -A lang_tatoeba_map=( [\"ar_AR\"]=\"ara\" [\"de_DE\"]=\"deu\"  [\"es_XX\"]=\"spa\" [\"et_EE\"]=\"est\" [\"fi_FI\"]=\"fin\" [\"fr_XX\"]=\"fra\" [\"hi_IN\"]=\"hin\" [\"it_IT\"]=\"ita\" [\"ja_XX\"]=\"jpn\" [\"ko_KR\"]=\"kor\" [\"kk_KZ\"]=\"kaz\" [\"nl_XX\"]=\"nld\" [\"ru_RU\"]=\"rus\" [\"tr_TR\"]=\"tur\" [\"vi_VN\"]=\"vie\" [\"zh_CN\"]=\"cmn\")\nfor lang in ar_AR de_DE es_XX et_EE fi_FI fr_XX hi_IN it_IT ja_XX kk_KZ ko_KR nl_XX ru_RU tr_TR vi_VN zh_CN; do\n  lang_tatoeba=${lang_tatoeba_map[$lang]}\n  echo $lang_tatoeba\n  datadir=$DATA/${lang}-en_XX-tatoeba\n  rm -rf $datadir\n  mkdir -p $datadir\n  TEST_PREFIX=LASER/data/tatoeba/v1/tatoeba\n  python $SPM_ENCODE \\\n    --model ${SPM_MODEL} \\\n    --output_format=piece \\\n    --inputs ${TEST_PREFIX}.${lang_tatoeba}-eng.${lang_tatoeba} ${TEST_PREFIX}.${lang_tatoeba}-eng.eng \\\n    --outputs $datadir/test.bpe.${lang}-en_XX.${lang} $datadir/test.bpe.${lang}-en_XX.en_XX\n\n  # binarize data\n  fairseq-preprocess \\\n    --source-lang ${lang} --target-lang en_XX \\\n    --testpref $datadir/test.bpe.${lang}-en_XX \\\n    --destdir $datadir \\\n    --srcdict ${DICT} \\\n    --joined-dictionary \\\n    --workers 4\ndone\n"
  },
  {
    "path": "examples/criss/mining/mine.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport argparse\nimport glob\nfrom subprocess import check_call\n\ntry:\n    import faiss\n\n    has_faiss = True\nexcept ImportError:\n    has_faiss = False\nimport numpy as np\n\n\nGB = 1024 * 1024 * 1024\n\n\ndef call(cmd):\n    print(cmd)\n    check_call(cmd, shell=True)\n\n\ndef get_batches(directory, lang, prefix=\"all_avg_pool\"):\n    print(f\"Finding in {directory}/{prefix}.{lang}*\")\n    files = glob.glob(f\"{directory}/{prefix}.{lang}*\")\n    emb_files = []\n    txt_files = []\n    for emb_fi in files:\n        emb_files.append(emb_fi)\n        txt_fi = emb_fi.replace(prefix, \"sentences\")\n        txt_files.append(txt_fi)\n    return emb_files, txt_files\n\n\ndef load_batch(emb_file, dim):\n    embeddings = np.fromfile(emb_file, dtype=np.float32)\n    num_rows = int(embeddings.shape[0] / dim)\n    embeddings = embeddings.reshape((num_rows, dim))\n    faiss.normalize_L2(embeddings)\n    return embeddings\n\n\ndef knnGPU_sharded(x_batches_f, y_batches_f, dim, k, direction=\"x2y\"):\n    if not has_faiss:\n        raise ImportError(\"Please install Faiss\")\n    sims = []\n    inds = []\n    xfrom = 0\n    xto = 0\n    for x_batch_f in x_batches_f:\n        yfrom = 0\n        yto = 0\n        x_batch = load_batch(x_batch_f, dim)\n        xto = xfrom + x_batch.shape[0]\n        bsims, binds = [], []\n        for y_batch_f in y_batches_f:\n            y_batch = load_batch(y_batch_f, dim)\n            neighbor_size = min(k, y_batch.shape[0])\n            yto = yfrom + y_batch.shape[0]\n            print(\"{}-{}  ->  {}-{}\".format(xfrom, xto, yfrom, yto))\n            idx = faiss.IndexFlatIP(dim)\n            idx = faiss.index_cpu_to_all_gpus(idx)\n            idx.add(y_batch)\n            bsim, bind = idx.search(x_batch, neighbor_size)\n\n            bsims.append(bsim)\n            binds.append(bind + yfrom)\n            yfrom += y_batch.shape[0]\n            del idx\n            del y_batch\n        bsims = np.concatenate(bsims, axis=1)\n        binds = np.concatenate(binds, axis=1)\n        aux = np.argsort(-bsims, axis=1)\n        sim_batch = np.zeros((x_batch.shape[0], k), dtype=np.float32)\n        ind_batch = np.zeros((x_batch.shape[0], k), dtype=np.int64)\n        for i in range(x_batch.shape[0]):\n            for j in range(k):\n                sim_batch[i, j] = bsims[i, aux[i, j]]\n                ind_batch[i, j] = binds[i, aux[i, j]]\n        sims.append(sim_batch)\n        inds.append(ind_batch)\n        xfrom += x_batch.shape[0]\n        del x_batch\n    sim = np.concatenate(sims, axis=0)\n    ind = np.concatenate(inds, axis=0)\n    return sim, ind\n\n\ndef score(sim, fwd_mean, bwd_mean, margin):\n    return margin(sim, (fwd_mean + bwd_mean) / 2)\n\n\ndef score_candidates(\n    sim_mat, candidate_inds, fwd_mean, bwd_mean, margin, verbose=False\n):\n    print(\" - scoring {:d} candidates\".format(sim_mat.shape[0]))\n    scores = np.zeros(candidate_inds.shape)\n    for i in range(scores.shape[0]):\n        for j in range(scores.shape[1]):\n            k = int(candidate_inds[i, j])\n            scores[i, j] = score(sim_mat[i, j], fwd_mean[i], bwd_mean[k], margin)\n    return scores\n\n\ndef load_text(files):\n    all_sentences = []\n    for fi in files:\n        with open(fi) as sentence_fi:\n            for line in sentence_fi:\n                all_sentences.append(line.strip())\n    print(f\"Read {len(all_sentences)} sentences\")\n    return all_sentences\n\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser(description=\"Mine bitext\")\n    parser.add_argument(\"--src-lang\", help=\"Source language\")\n    parser.add_argument(\"--tgt-lang\", help=\"Target language\")\n    parser.add_argument(\n        \"--dict-path\", help=\"Path to dictionary file\", default=\"dict.txt\"\n    )\n    parser.add_argument(\n        \"--spm-path\", help=\"Path to SPM model file\", default=\"sentence.bpe.model\"\n    )\n    parser.add_argument(\"--dim\", type=int, default=1024, help=\"Embedding dimension\")\n    parser.add_argument(\"--mem\", type=int, default=5, help=\"Memory in GB\")\n    parser.add_argument(\"--src-dir\", help=\"Source directory\")\n    parser.add_argument(\"--tgt-dir\", help=\"Target directory\")\n    parser.add_argument(\"--output\", help=\"Output path\")\n    parser.add_argument(\n        \"--neighborhood\", type=int, default=4, help=\"Embedding dimension\"\n    )\n    parser.add_argument(\n        \"--threshold\", type=float, default=1.06, help=\"Threshold on mined bitext\"\n    )\n    parser.add_argument(\n        \"--valid-size\",\n        type=int,\n        default=2000,\n        help=\"Number of sentences used for validation set\",\n    )\n    parser.add_argument(\n        \"--min-count\",\n        type=int,\n        default=50000,\n        help=\"Min num sentences used for each language\",\n    )\n    args = parser.parse_args()\n\n    x_batches_f, x_sents_f = get_batches(args.src_dir, args.src_lang)\n    y_batches_f, y_sents_f = get_batches(args.tgt_dir, args.tgt_lang)\n    margin = lambda a, b: a / b\n    y2x_sim, y2x_ind = knnGPU_sharded(\n        y_batches_f, x_batches_f, args.dim, args.neighborhood, direction=\"y2x\"\n    )\n    x2y_sim, x2y_ind = knnGPU_sharded(\n        x_batches_f, y_batches_f, args.dim, args.neighborhood, direction=\"x2y\"\n    )\n\n    x2y_mean = x2y_sim.mean(axis=1)\n    y2x_mean = y2x_sim.mean(axis=1)\n    fwd_scores = score_candidates(x2y_sim, x2y_ind, x2y_mean, y2x_mean, margin)\n    bwd_scores = score_candidates(y2x_sim, y2x_ind, y2x_mean, x2y_mean, margin)\n    fwd_best = x2y_ind[np.arange(x2y_sim.shape[0]), fwd_scores.argmax(axis=1)]\n    bwd_best = y2x_ind[np.arange(y2x_sim.shape[0]), bwd_scores.argmax(axis=1)]\n    indices = np.stack(\n        (\n            np.concatenate((np.arange(x2y_ind.shape[0]), bwd_best)),\n            np.concatenate((fwd_best, np.arange(y2x_ind.shape[0]))),\n        ),\n        axis=1,\n    )\n    scores = np.concatenate((fwd_scores.max(axis=1), bwd_scores.max(axis=1)))\n\n    x_sentences = load_text(x_sents_f)\n    y_sentences = load_text(y_sents_f)\n\n    threshold = args.threshold\n    min_count = args.min_count\n    seen_src, seen_trg = set(), set()\n    directory = args.output\n    call(f\"mkdir -p {directory}\")\n    src_out = open(\n        f\"{directory}/all.{args.src_lang}\",\n        mode=\"w\",\n        encoding=\"utf-8\",\n        errors=\"surrogateescape\",\n    )\n    tgt_out = open(\n        f\"{directory}/all.{args.tgt_lang}\",\n        mode=\"w\",\n        encoding=\"utf-8\",\n        errors=\"surrogateescape\",\n    )\n    scores_out = open(\n        f\"{directory}/all.scores\", mode=\"w\", encoding=\"utf-8\", errors=\"surrogateescape\"\n    )\n    count = 0\n    for i in np.argsort(-scores):\n        src_ind, trg_ind = indices[i]\n        if src_ind not in seen_src and trg_ind not in seen_trg:\n            seen_src.add(src_ind)\n            seen_trg.add(trg_ind)\n            if scores[i] > threshold or count < min_count:\n                if x_sentences[src_ind]:\n                    print(scores[i], file=scores_out)\n                    print(x_sentences[src_ind], file=src_out)\n                    print(y_sentences[trg_ind], file=tgt_out)\n                    count += 1\n                else:\n                    print(f\"Ignoring sentence: {x_sentences[src_ind]}\")\n    src_out.close()\n    tgt_out.close()\n    scores_out.close()\n\n    print(f\"Found {count} pairs for threshold={threshold}\")\n    with open(f\"{directory}/all.{args.src_lang}\") as all_s, open(\n        f\"{directory}/all.{args.tgt_lang}\"\n    ) as all_t, open(f\"{directory}/valid.{args.src_lang}\", \"w\") as valid_s, open(\n        f\"{directory}/valid.{args.tgt_lang}\", \"w\"\n    ) as valid_t, open(\n        f\"{directory}/train.{args.src_lang}\", \"w\"\n    ) as train_s, open(\n        f\"{directory}/train.{args.tgt_lang}\", \"w\"\n    ) as train_t:\n        count = 0\n        for s_line, t_line in zip(all_s, all_t):\n            s_line = s_line.split(\"\\t\")[1]\n            t_line = t_line.split(\"\\t\")[1]\n            if count >= args.valid_size:\n                train_s.write(s_line)\n                train_t.write(t_line)\n            else:\n                valid_s.write(s_line)\n                valid_t.write(t_line)\n                count += 1\n"
  },
  {
    "path": "examples/criss/mining/mine_example.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n#\nsource_lang=kk_KZ\ntarget_lang=en_XX\nMODEL=criss_checkpoints/criss.3rd.pt\nSPM=criss_checkpoints/sentence.bpe.model\nSPLIT=test\nLANG_DICT=criss_checkpoints/lang_dict.txt\nSPM_ENCODE=flores/scripts/spm_encode.py\nSAVE_ENCODER=save_encoder.py\nENCODER_SAVE_ROOT=sentence_embeddings/$MODEL\nDICT=criss_checkpoints/dict.txt\nTHRESHOLD=1.02\nMIN_COUNT=500\n\nDATA_DIR=data_tmp\nSAVE_DIR=mining/${source_lang}_${target_lang}_mined\nENCODER_SAVE_DIR=${ENCODER_SAVE_ROOT}/${source_lang}-${target_lang}\nINPUT_DIR=$DATA_DIR/${source_lang}-${target_lang}-tatoeba\n\nmkdir -p $ENCODER_SAVE_DIR/${target_lang}\nmkdir -p $ENCODER_SAVE_DIR/${source_lang}\nmkdir -p $SAVE_DIR\n\n## Save encoder outputs\n\n# Save encoder outputs for source sentences\npython $SAVE_ENCODER \\\n  ${INPUT_DIR} \\\n  --path ${MODEL} \\\n  --task translation_multi_simple_epoch \\\n  --lang-pairs ${source_lang}-${target_lang} \\\n  --lang-dict ${LANG_DICT} \\\n  --gen-subset ${SPLIT} \\\n  --bpe 'sentencepiece' \\\n  -s ${source_lang} -t ${target_lang} \\\n  --sentencepiece-model ${SPM} \\\n  --remove-bpe 'sentencepiece' \\\n  --beam 1 \\\n  --lang-tok-style mbart \\\n  --encoder-save-dir ${ENCODER_SAVE_DIR}/${source_lang}\n\n## Save encoder outputs for target sentences\npython $SAVE_ENCODER \\\n  ${INPUT_DIR} \\\n  --path ${MODEL} \\\n  --lang-pairs ${source_lang}-${target_lang} \\\n  --lang-dict ${LANG_DICT} \\\n  --task translation_multi_simple_epoch \\\n  --gen-subset ${SPLIT} \\\n  --bpe 'sentencepiece' \\\n  -t ${source_lang} -s ${target_lang} \\\n  --sentencepiece-model ${SPM} \\\n  --remove-bpe 'sentencepiece' \\\n  --beam 1 \\\n  --lang-tok-style mbart \\\n  --encoder-save-dir ${ENCODER_SAVE_DIR}/${target_lang}\n\n## Mining\npython mining/mine.py \\\n  --src-lang ${source_lang} \\\n  --tgt-lang ${target_lang} \\\n  --dim 1024 \\\n  --mem 10 \\\n  --neighborhood 4 \\\n  --src-dir ${ENCODER_SAVE_DIR}/${source_lang} \\\n  --tgt-dir ${ENCODER_SAVE_DIR}/${target_lang} \\\n  --output $SAVE_DIR \\\n  --threshold ${THRESHOLD} \\\n  --min-count ${MIN_COUNT} \\\n  --valid-size 100 \\\n  --dict-path ${DICT} \\\n  --spm-path ${SPM} \\\n\n\n## Process and binarize mined data\npython $SPM_ENCODE \\\n  --model ${SPM} \\\n  --output_format=piece \\\n  --inputs mining/${source_lang}_${target_lang}_mined/train.${source_lang} mining/${source_lang}_${target_lang}_mined/train.${target_lang} \\\n  --outputs mining/${source_lang}_${target_lang}_mined/train.bpe.${source_lang} mining/${source_lang}_${target_lang}_mined/train.bpe.${target_lang}\n\npython $SPM_ENCODE \\\n  --model ${SPM} \\\n  --output_format=piece \\\n  --inputs mining/${source_lang}_${target_lang}_mined/valid.${source_lang} mining/${source_lang}_${target_lang}_mined/valid.${target_lang} \\\n  --outputs mining/${source_lang}_${target_lang}_mined/valid.bpe.${source_lang} mining/${source_lang}_${target_lang}_mined/valid.bpe.${target_lang}\n\n\nfairseq-preprocess \\\n  --source-lang ${source_lang} \\\n  --target-lang ${target_lang} \\\n  --trainpref mining/${source_lang}_${target_lang}_mined/train.bpe \\\n  --validpref mining/${source_lang}_${target_lang}_mined/valid.bpe \\\n  --destdir mining/${source_lang}_${target_lang}_mined \\\n  --srcdict ${DICT} \\\n  --joined-dictionary \\\n  --workers 8\n"
  },
  {
    "path": "examples/criss/save_encoder.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nTranslate pre-processed data with a trained model.\n\"\"\"\n\nimport numpy as np\nimport torch\nfrom fairseq import checkpoint_utils, options, progress_bar, tasks, utils\nfrom fairseq.sequence_generator import EnsembleModel\nfrom fairseq.utils import safe_hasattr\n\n\ndef get_avg_pool(\n    models, sample, prefix_tokens, src_dict, remove_bpe, has_langtok=False\n):\n    model = EnsembleModel(models)\n\n    # model.forward normally channels prev_output_tokens into the decoder\n    # separately, but SequenceGenerator directly calls model.encoder\n    encoder_input = {\n        k: v for k, v in sample[\"net_input\"].items() if k != \"prev_output_tokens\"\n    }\n\n    # compute the encoder output for each beam\n    encoder_outs = model.forward_encoder(encoder_input)\n    np_encoder_outs = encoder_outs[0].encoder_out.cpu().numpy().astype(np.float32)\n    encoder_mask = 1 - encoder_outs[0].encoder_padding_mask.cpu().numpy().astype(\n        np.float32\n    )\n    encoder_mask = np.expand_dims(encoder_mask.T, axis=2)\n    if has_langtok:\n        encoder_mask = encoder_mask[1:, :, :]\n        np_encoder_outs = np_encoder_outs[1, :, :]\n    masked_encoder_outs = encoder_mask * np_encoder_outs\n    avg_pool = (masked_encoder_outs / encoder_mask.sum(axis=0)).sum(axis=0)\n    return avg_pool\n\n\ndef main(args):\n    assert args.path is not None, \"--path required for generation!\"\n    assert (\n        not args.sampling or args.nbest == args.beam\n    ), \"--sampling requires --nbest to be equal to --beam\"\n    assert (\n        args.replace_unk is None or args.raw_text\n    ), \"--replace-unk requires a raw text dataset (--raw-text)\"\n\n    args.beam = 1\n    utils.import_user_module(args)\n\n    if args.max_tokens is None:\n        args.max_tokens = 12000\n    print(args)\n    use_cuda = torch.cuda.is_available() and not args.cpu\n\n    # Load dataset splits\n    task = tasks.setup_task(args)\n    task.load_dataset(args.gen_subset)\n\n    # Set dictionaries\n    try:\n        src_dict = getattr(task, \"source_dictionary\", None)\n    except NotImplementedError:\n        src_dict = None\n    tgt_dict = task.target_dictionary\n\n    # Load ensemble\n    print(\"| loading model(s) from {}\".format(args.path))\n    models, _model_args = checkpoint_utils.load_model_ensemble(\n        args.path.split(\":\"),\n        arg_overrides=eval(args.model_overrides),\n        task=task,\n    )\n\n    # Optimize ensemble for generation\n    for model in models:\n        model.make_generation_fast_(\n            beamable_mm_beam_size=None if args.no_beamable_mm else args.beam,\n            need_attn=args.print_alignment,\n        )\n        if args.fp16:\n            model.half()\n        if use_cuda:\n            model.cuda()\n\n    # Load alignment dictionary for unknown word replacement\n    # (None if no unknown word replacement, empty if no path to align dictionary)\n    align_dict = utils.load_align_dict(args.replace_unk)\n\n    # Load dataset (possibly sharded)\n    itr = task.get_batch_iterator(\n        dataset=task.dataset(args.gen_subset),\n        max_tokens=args.max_tokens,\n        max_positions=utils.resolve_max_positions(\n            task.max_positions(),\n        ),\n        ignore_invalid_inputs=args.skip_invalid_size_inputs_valid_test,\n        required_batch_size_multiple=args.required_batch_size_multiple,\n        num_shards=args.num_shards,\n        shard_id=args.shard_id,\n        num_workers=args.num_workers,\n    ).next_epoch_itr(shuffle=False)\n\n    num_sentences = 0\n    source_sentences = []\n    shard_id = 0\n    all_avg_pool = None\n    encoder_has_langtok = (\n        safe_hasattr(task.args, \"encoder_langtok\")\n        and task.args.encoder_langtok is not None\n        and safe_hasattr(task.args, \"lang_tok_replacing_bos_eos\")\n        and not task.args.lang_tok_replacing_bos_eos\n    )\n    with progress_bar.build_progress_bar(args, itr) as t:\n        for sample in t:\n            if sample is None:\n                print(\"Skipping None\")\n                continue\n            sample = utils.move_to_cuda(sample) if use_cuda else sample\n            if \"net_input\" not in sample:\n                continue\n\n            prefix_tokens = None\n            if args.prefix_size > 0:\n                prefix_tokens = sample[\"target\"][:, : args.prefix_size]\n\n            with torch.no_grad():\n                avg_pool = get_avg_pool(\n                    models,\n                    sample,\n                    prefix_tokens,\n                    src_dict,\n                    args.post_process,\n                    has_langtok=encoder_has_langtok,\n                )\n                if all_avg_pool is not None:\n                    all_avg_pool = np.concatenate((all_avg_pool, avg_pool))\n                else:\n                    all_avg_pool = avg_pool\n\n            if not isinstance(sample[\"id\"], list):\n                sample_ids = sample[\"id\"].tolist()\n            else:\n                sample_ids = sample[\"id\"]\n            for i, sample_id in enumerate(sample_ids):\n                # Remove padding\n                src_tokens = utils.strip_pad(\n                    sample[\"net_input\"][\"src_tokens\"][i, :], tgt_dict.pad()\n                )\n\n                # Either retrieve the original sentences or regenerate them from tokens.\n                if align_dict is not None:\n                    src_str = task.dataset(args.gen_subset).src.get_original_text(\n                        sample_id\n                    )\n                else:\n                    if src_dict is not None:\n                        src_str = src_dict.string(src_tokens, args.post_process)\n                    else:\n                        src_str = \"\"\n\n                if not args.quiet:\n                    if src_dict is not None:\n                        print(\"S-{}\\t{}\".format(sample_id, src_str))\n\n                source_sentences.append(f\"{sample_id}\\t{src_str}\")\n\n            num_sentences += sample[\"nsentences\"]\n            if all_avg_pool.shape[0] >= 1000000:\n                with open(\n                    f\"{args.encoder_save_dir}/all_avg_pool.{args.source_lang}.{shard_id}\",\n                    \"w\",\n                ) as avg_pool_file:\n                    all_avg_pool.tofile(avg_pool_file)\n                with open(\n                    f\"{args.encoder_save_dir}/sentences.{args.source_lang}.{shard_id}\",\n                    \"w\",\n                ) as sentence_file:\n                    sentence_file.writelines(f\"{line}\\n\" for line in source_sentences)\n                all_avg_pool = None\n                source_sentences = []\n                shard_id += 1\n\n    if all_avg_pool is not None:\n        with open(\n            f\"{args.encoder_save_dir}/all_avg_pool.{args.source_lang}.{shard_id}\", \"w\"\n        ) as avg_pool_file:\n            all_avg_pool.tofile(avg_pool_file)\n        with open(\n            f\"{args.encoder_save_dir}/sentences.{args.source_lang}.{shard_id}\", \"w\"\n        ) as sentence_file:\n            sentence_file.writelines(f\"{line}\\n\" for line in source_sentences)\n    return None\n\n\ndef cli_main():\n    parser = options.get_generation_parser()\n    parser.add_argument(\n        \"--encoder-save-dir\",\n        default=\"\",\n        type=str,\n        metavar=\"N\",\n        help=\"directory to save encoder outputs\",\n    )\n    args = options.parse_args_and_arch(parser)\n    main(args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/criss/sentence_retrieval/encoder_analysis.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport argparse\nimport glob\n\nimport numpy as np\n\n\nDIM = 1024\n\n\ndef compute_dist(source_embs, target_embs, k=5, return_sim_mat=False):\n    target_ids = [tid for tid in target_embs]\n    source_mat = np.stack(source_embs.values(), axis=0)\n    normalized_source_mat = source_mat / np.linalg.norm(\n        source_mat, axis=1, keepdims=True\n    )\n    target_mat = np.stack(target_embs.values(), axis=0)\n    normalized_target_mat = target_mat / np.linalg.norm(\n        target_mat, axis=1, keepdims=True\n    )\n    sim_mat = normalized_source_mat.dot(normalized_target_mat.T)\n    if return_sim_mat:\n        return sim_mat\n    neighbors_map = {}\n    for i, sentence_id in enumerate(source_embs):\n        idx = np.argsort(sim_mat[i, :])[::-1][:k]\n        neighbors_map[sentence_id] = [target_ids[tid] for tid in idx]\n    return neighbors_map\n\n\ndef load_embeddings(directory, LANGS):\n    sentence_embeddings = {}\n    sentence_texts = {}\n    for lang in LANGS:\n        sentence_embeddings[lang] = {}\n        sentence_texts[lang] = {}\n        lang_dir = f\"{directory}/{lang}\"\n        embedding_files = glob.glob(f\"{lang_dir}/all_avg_pool.{lang}.*\")\n        for embed_file in embedding_files:\n            shard_id = embed_file.split(\".\")[-1]\n            embeddings = np.fromfile(embed_file, dtype=np.float32)\n            num_rows = embeddings.shape[0] // DIM\n            embeddings = embeddings.reshape((num_rows, DIM))\n\n            with open(f\"{lang_dir}/sentences.{lang}.{shard_id}\") as sentence_file:\n                for idx, line in enumerate(sentence_file):\n                    sentence_id, sentence = line.strip().split(\"\\t\")\n                    sentence_texts[lang][sentence_id] = sentence\n                    sentence_embeddings[lang][sentence_id] = embeddings[idx, :]\n\n    return sentence_embeddings, sentence_texts\n\n\ndef compute_accuracy(directory, LANGS):\n    sentence_embeddings, sentence_texts = load_embeddings(directory, LANGS)\n\n    top_1_accuracy = {}\n\n    top1_str = \" \".join(LANGS) + \"\\n\"\n    for source_lang in LANGS:\n        top_1_accuracy[source_lang] = {}\n        top1_str += f\"{source_lang} \"\n        for target_lang in LANGS:\n            top1 = 0\n            top5 = 0\n            neighbors_map = compute_dist(\n                sentence_embeddings[source_lang], sentence_embeddings[target_lang]\n            )\n            for sentence_id, neighbors in neighbors_map.items():\n                if sentence_id == neighbors[0]:\n                    top1 += 1\n                if sentence_id in neighbors[:5]:\n                    top5 += 1\n            n = len(sentence_embeddings[target_lang])\n            top1_str += f\"{top1/n} \"\n        top1_str += \"\\n\"\n\n    print(top1_str)\n    print(top1_str, file=open(f\"{directory}/accuracy\", \"w\"))\n\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser(description=\"Analyze encoder outputs\")\n    parser.add_argument(\"directory\", help=\"Source language corpus\")\n    parser.add_argument(\"--langs\", help=\"List of langs\")\n    args = parser.parse_args()\n    langs = args.langs.split(\",\")\n    compute_accuracy(args.directory, langs)\n"
  },
  {
    "path": "examples/criss/sentence_retrieval/sentence_retrieval_tatoeba.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n#\nsource_lang=kk_KZ\ntarget_lang=en_XX\nMODEL=criss_checkpoints/criss.3rd.pt\nSPM=criss_checkpoints/sentence.bpe.model\nSPLIT=test\nLANG_DICT=criss_checkpoints/lang_dict.txt\nENCODER_ANALYSIS=sentence_retrieval/encoder_analysis.py\nSAVE_ENCODER=save_encoder.py\nENCODER_SAVE_ROOT=sentence_embeddings/$MODEL\n\n\n\nDATA_DIR=data_tmp\nINPUT_DIR=$DATA_DIR/${source_lang}-${target_lang}-tatoeba\nENCODER_SAVE_DIR=${ENCODER_SAVE_ROOT}/${source_lang}-${target_lang}\nmkdir -p $ENCODER_SAVE_DIR/${target_lang}\nmkdir -p $ENCODER_SAVE_DIR/${source_lang}\n\n# Save encoder outputs for source sentences\npython $SAVE_ENCODER \\\n  ${INPUT_DIR} \\\n  --path ${MODEL} \\\n  --task translation_multi_simple_epoch \\\n  --lang-dict ${LANG_DICT} \\\n  --gen-subset ${SPLIT} \\\n  --bpe 'sentencepiece' \\\n  --lang-pairs ${source_lang}-${target_lang} \\\n  -s ${source_lang} -t ${target_lang} \\\n  --sentencepiece-model ${SPM} \\\n  --remove-bpe 'sentencepiece' \\\n  --beam 1 \\\n  --lang-tok-style mbart \\\n  --encoder-save-dir ${ENCODER_SAVE_DIR}/${source_lang}\n\n# Save encoder outputs for target sentences\npython $SAVE_ENCODER \\\n  ${INPUT_DIR} \\\n  --path ${MODEL} \\\n  --lang-dict ${LANG_DICT} \\\n  --task translation_multi_simple_epoch \\\n  --gen-subset ${SPLIT} \\\n  --bpe 'sentencepiece' \\\n  --lang-pairs ${target_lang}-${source_lang} \\\n  -t ${source_lang} -s ${target_lang} \\\n  --sentencepiece-model ${SPM} \\\n  --remove-bpe 'sentencepiece' \\\n  --beam 1 \\\n  --lang-tok-style mbart \\\n  --encoder-save-dir ${ENCODER_SAVE_DIR}/${target_lang}\n\n# Analyze sentence retrieval accuracy\npython $ENCODER_ANALYSIS --langs \"${source_lang},${target_lang}\" ${ENCODER_SAVE_DIR}\n"
  },
  {
    "path": "examples/criss/unsupervised_mt/eval.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n#\nSRC=si_LK\nTGT=en_XX\nMODEL=criss_checkpoints/criss.3rd.pt\n\nMULTIBLEU=mosesdecoder/scripts/generic/multi-bleu.perl\nMOSES=mosesdecoder\nREPLACE_UNICODE_PUNCT=$MOSES/scripts/tokenizer/replace-unicode-punctuation.perl\nNORM_PUNC=$MOSES/scripts/tokenizer/normalize-punctuation.perl\nREM_NON_PRINT_CHAR=$MOSES/scripts/tokenizer/remove-non-printing-char.perl\nTOKENIZER=$MOSES/scripts/tokenizer/tokenizer.perl\nGEN_TMP_DIR=gen_tmp\nLANG_DICT=criss_checkpoints/lang_dict.txt\n\nif [ ! -d \"mosesdecoder\" ]; then\n  git clone https://github.com/moses-smt/mosesdecoder\nfi\nmkdir -p $GEN_TMP_DIR\nfairseq-generate data_tmp/${SRC}-${TGT}-flores \\\n        --task translation_multi_simple_epoch \\\n        --max-tokens 2000 \\\n        --path ${MODEL} \\\n        --skip-invalid-size-inputs-valid-test \\\n        --beam 5 --lenpen 1.0 --gen-subset test  \\\n        --remove-bpe=sentencepiece \\\n        --source-lang ${SRC} --target-lang ${TGT} \\\n        --decoder-langtok --lang-pairs 'en_XX-ar_AR,en_XX-de_DE,en_XX-es_XX,en_XX-fr_XX,en_XX-hi_IN,en_XX-it_IT,en_XX-ja_XX,en_XX-ko_KR,en_XX-nl_XX,en_XX-ru_RU,en_XX-zh_CN,en_XX-tr_TR,en_XX-vi_VN,en_XX-ro_RO,en_XX-my_MM,en_XX-ne_NP,en_XX-si_LK,en_XX-cs_CZ,en_XX-lt_LT,en_XX-kk_KZ,en_XX-gu_IN,en_XX-fi_FI,en_XX-et_EE,en_XX-lv_LV,ar_AR-en_XX,cs_CZ-en_XX,de_DE-en_XX,es_XX-en_XX,et_EE-en_XX,fi_FI-en_XX,fr_XX-en_XX,gu_IN-en_XX,hi_IN-en_XX,it_IT-en_XX,ja_XX-en_XX,kk_KZ-en_XX,ko_KR-en_XX,lt_LT-en_XX,lv_LV-en_XX,my_MM-en_XX,ne_NP-en_XX,nl_XX-en_XX,ro_RO-en_XX,ru_RU-en_XX,si_LK-en_XX,tr_TR-en_XX,vi_VN-en_XX,zh_CN-en_XX,ar_AR-es_XX,es_XX-ar_AR,ar_AR-hi_IN,hi_IN-ar_AR,ar_AR-zh_CN,zh_CN-ar_AR,cs_CZ-es_XX,es_XX-cs_CZ,cs_CZ-hi_IN,hi_IN-cs_CZ,cs_CZ-zh_CN,zh_CN-cs_CZ,de_DE-es_XX,es_XX-de_DE,de_DE-hi_IN,hi_IN-de_DE,de_DE-zh_CN,zh_CN-de_DE,es_XX-hi_IN,hi_IN-es_XX,es_XX-zh_CN,zh_CN-es_XX,et_EE-es_XX,es_XX-et_EE,et_EE-hi_IN,hi_IN-et_EE,et_EE-zh_CN,zh_CN-et_EE,fi_FI-es_XX,es_XX-fi_FI,fi_FI-hi_IN,hi_IN-fi_FI,fi_FI-zh_CN,zh_CN-fi_FI,fr_XX-es_XX,es_XX-fr_XX,fr_XX-hi_IN,hi_IN-fr_XX,fr_XX-zh_CN,zh_CN-fr_XX,gu_IN-es_XX,es_XX-gu_IN,gu_IN-hi_IN,hi_IN-gu_IN,gu_IN-zh_CN,zh_CN-gu_IN,hi_IN-zh_CN,zh_CN-hi_IN,it_IT-es_XX,es_XX-it_IT,it_IT-hi_IN,hi_IN-it_IT,it_IT-zh_CN,zh_CN-it_IT,ja_XX-es_XX,es_XX-ja_XX,ja_XX-hi_IN,hi_IN-ja_XX,ja_XX-zh_CN,zh_CN-ja_XX,kk_KZ-es_XX,es_XX-kk_KZ,kk_KZ-hi_IN,hi_IN-kk_KZ,kk_KZ-zh_CN,zh_CN-kk_KZ,ko_KR-es_XX,es_XX-ko_KR,ko_KR-hi_IN,hi_IN-ko_KR,ko_KR-zh_CN,zh_CN-ko_KR,lt_LT-es_XX,es_XX-lt_LT,lt_LT-hi_IN,hi_IN-lt_LT,lt_LT-zh_CN,zh_CN-lt_LT,lv_LV-es_XX,es_XX-lv_LV,lv_LV-hi_IN,hi_IN-lv_LV,lv_LV-zh_CN,zh_CN-lv_LV,my_MM-es_XX,es_XX-my_MM,my_MM-hi_IN,hi_IN-my_MM,my_MM-zh_CN,zh_CN-my_MM,ne_NP-es_XX,es_XX-ne_NP,ne_NP-hi_IN,hi_IN-ne_NP,ne_NP-zh_CN,zh_CN-ne_NP,nl_XX-es_XX,es_XX-nl_XX,nl_XX-hi_IN,hi_IN-nl_XX,nl_XX-zh_CN,zh_CN-nl_XX,ro_RO-es_XX,es_XX-ro_RO,ro_RO-hi_IN,hi_IN-ro_RO,ro_RO-zh_CN,zh_CN-ro_RO,ru_RU-es_XX,es_XX-ru_RU,ru_RU-hi_IN,hi_IN-ru_RU,ru_RU-zh_CN,zh_CN-ru_RU,si_LK-es_XX,es_XX-si_LK,si_LK-hi_IN,hi_IN-si_LK,si_LK-zh_CN,zh_CN-si_LK,tr_TR-es_XX,es_XX-tr_TR,tr_TR-hi_IN,hi_IN-tr_TR,tr_TR-zh_CN,zh_CN-tr_TR,vi_VN-es_XX,es_XX-vi_VN,vi_VN-hi_IN,hi_IN-vi_VN,vi_VN-zh_CN,zh_CN-vi_VN' \\\n        --lang-dict ${LANG_DICT} --lang-tok-style 'mbart' --sampling-method 'temperature' --sampling-temperature '1.0'  > $GEN_TMP_DIR/${SRC}_${TGT}.gen\ncat $GEN_TMP_DIR/${SRC}_${TGT}.gen | grep -P \"^T-\" | cut -f2 | $REPLACE_UNICODE_PUNCT | $NORM_PUNC -l ${TGT:0:2} | $REM_NON_PRINT_CHAR | $TOKENIZER -no-escape ${TGT:0:2} > $GEN_TMP_DIR/${SRC}_${TGT}.hyp\ncat $GEN_TMP_DIR/${SRC}_${TGT}.gen | grep -P \"^H-\" | cut -f3 | $REPLACE_UNICODE_PUNCT | $NORM_PUNC -l ${TGT:0:2} | $REM_NON_PRINT_CHAR | $TOKENIZER -no-escape ${TGT:0:2} > $GEN_TMP_DIR/${SRC}_${TGT}.ref\n${MULTIBLEU} $GEN_TMP_DIR/${SRC}_${TGT}.ref < $GEN_TMP_DIR/${SRC}_${TGT}.hyp\n"
  },
  {
    "path": "examples/cross_lingual_language_model/README.md",
    "content": "# Cross-Lingual Language Model Pre-training\n\nBelow are some details for training Cross-Lingual Language Models (XLM) - similar to the ones presented in [Lample & Conneau, 2019](https://arxiv.org/pdf/1901.07291.pdf) - in Fairseq. The current implementation only supports the Masked Language Model (MLM) from the paper above.\n\n## Downloading and Tokenizing Monolingual Data\n\nPointers to the monolingual data from wikipedia, used for training the XLM-style MLM model as well as details on processing (tokenization and BPE) it can be found in the [XLM Github Repository](https://github.com/facebookresearch/XLM#download--preprocess-monolingual-data).\n\nLet's assume the following for the code snippets in later sections to work\n- Processed data is in the folder: monolingual_data/processed\n- Each language has 3 files for train, test and validation. For example we have the following files for English:\n    train.en, valid.en\n- We are training a model for 5 languages: Arabic (ar), German (de), English (en), Hindi (hi) and French (fr)\n- The vocabulary file is monolingual_data/processed/vocab_mlm\n\n\n## Fairseq Pre-processing and Binarization\n\nPre-process and binarize the data with the MaskedLMDictionary and cross_lingual_lm task\n\n```bash\n# Ensure the output directory exists\nDATA_DIR=monolingual_data/fairseq_processed\nmkdir -p \"$DATA_DIR\"\n\nfor lg in ar de en hi fr\ndo\n\n  fairseq-preprocess \\\n  --task cross_lingual_lm \\\n  --srcdict monolingual_data/processed/vocab_mlm \\\n  --only-source \\\n  --trainpref monolingual_data/processed/train \\\n  --validpref monolingual_data/processed/valid \\\n  --testpref monolingual_data/processed/test \\\n  --destdir monolingual_data/fairseq_processed \\\n  --workers 20 \\\n  --source-lang $lg\n\n  # Since we only have a source language, the output file has a None for the\n  # target language. Remove this\n\n  for stage in train test valid\n\n    sudo mv \"$DATA_DIR/$stage.$lg-None.$lg.bin\" \"$stage.$lg.bin\"\n    sudo mv \"$DATA_DIR/$stage.$lg-None.$lg.idx\" \"$stage.$lg.idx\"\n\n  done\n\ndone\n```\n\n## Train a Cross-lingual Language Model similar to the XLM MLM model\n\nUse the following command to train the model on 5 languages.\n\n```\nfairseq-train \\\n--task cross_lingual_lm monolingual_data/fairseq_processed \\\n--save-dir checkpoints/mlm \\\n--max-update 2400000 --save-interval 1 --no-epoch-checkpoints \\\n--arch xlm_base \\\n--optimizer adam --lr-scheduler reduce_lr_on_plateau \\\n--lr-shrink 0.5 --lr 0.0001 --stop-min-lr 1e-09 \\\n--dropout 0.1 \\\n--criterion legacy_masked_lm_loss \\\n--max-tokens 2048 --tokens-per-sample 256 --attention-dropout 0.1 \\\n--dataset-impl lazy --seed 0 \\\n--masked-lm-only \\\n--monolingual-langs 'ar,de,en,hi,fr' --num-segment 5 \\\n--ddp-backend=legacy_ddp\n```\n\nSome Notes:\n- Using tokens_per_sample greater than 256 can cause OOM (out-of-memory) issues. Usually since MLM packs in streams of text, this parameter doesn't need much tuning.\n- The Evaluation workflow for computing MLM Perplexity on test data is in progress.\n- Finetuning this model on a downstream task is something which is not currently available.\n"
  },
  {
    "path": "examples/data2vec/README.md",
    "content": "# data2vec 2.0\n\ndata2vec 2.0 improves the training efficiency of the original data2vec algorithm. We make the following improvements for efficiency considerations - we forward only the unmasked timesteps through the encoder, we use convolutional decoder and we use multimasking to amortize the compute overhead of the teacher model. You can find details in the paper [Efficient Self-supervised Learning with Contextualized Target Representations for Vision, Speech and Language](https://arxiv.org/abs/2212.07525) and our [blog post](https://ai.facebook.com/blog/ai-self-supervised-learning-data2vec/).\n\n## Pretrained and finetuned models\n### Vision\n| Model | Finetuning split | Link\n|---|---|---\ndata2vec ViT-B | No fine-tuning | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec2/base_imagenet.pt)\ndata2vec ViT-B | Imagenet-1K  | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec2/base_imagenet_ft.pt)\ndata2vec ViT-L | No fine-tuning | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec2/large_imagenet.pt)\ndata2vec ViT-L | Imagenet-1K  | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec2/large_imagenet_ft.pt)\ndata2vec ViT-H | No fine-tuning | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec2/huge_imagenet.pt)\ndata2vec ViT-H | Imagenet-1K  | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec2/huge_imagenet_ft.pt)\n\nVision models only are license under CC-BY-NC.\n### Speech\n\n| Model | Finetuning split | Dataset | Link\n|---|---|---|---\ndata2vec Base | No fine-tuning | [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec2/base_libri.pt)\ndata2vec Base | 960 hours | [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec2/base_libri_960h.pt)\ndata2vec Large | No fine-tuning | [Libri-light](https://github.com/facebookresearch/libri-light) | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec2/large_vox.pt)\ndata2vec Large | 960 hours | [Libri-light](https://github.com/facebookresearch/libri-light) | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec2/large_vox_960h.pt)\n\n### NLP\n\n| Model | Fine-tuning data | Dataset | Link | Dict | BPE\n|---|---|---|---|---|---\ndata2vec Base | No fine-tuning | Books + Wiki | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec2/nlp_base.pt) | [dict](https://dl.fbaipublicfiles.com/fairseq/data2vec2/dict.txt) | [encoder](https://dl.fbaipublicfiles.com/fairseq/data2vec2/encoder.json) / [vocab](https://dl.fbaipublicfiles.com/fairseq/data2vec2/vocab.bpe)\n\n[//]: # (## Data Preparation)\n\n[//]: # ()\n[//]: # (### Vision)\n\n[//]: # (add details)\n\n[//]: # (### Speech)\n\n[//]: # (add details)\n\n[//]: # ()\n[//]: # (### NLP)\n\n[//]: # (add details)\n\n\n## Commands to train different models using data2vec 2.0\n\n### Vision\n\nCommands to pretrain different model configurations\n```shell script\n$ python fairseq_cli/hydra_train.py -m --config-dir examples/data2vec/config/v2 \\\n--config-name base_images_only_task task.data=/path/to/dir\n```\n\n```shell script\n$ python fairseq_cli/hydra_train.py -m --config-dir examples/data2vec/config/v2 \\\n--config-name large_images_only_task task.data=/path/to/dir\n```\n\n```shell script\n$ python fairseq_cli/hydra_train.py -m --config-dir examples/data2vec/config/v2 \\\n--config-name huge_images14_only_task task.data=/path/to/dir\n```\n\nCommands to finetune different model configurations\n\n```shell script\n$ python fairseq_cli/hydra_train.py -m --config-dir examples/data2vec/config/vision/finetuning \\\n--config-name mae_imagenet_clean task.data=/path/to/dir model.model_path=/path/to/pretrained/model\n```\n\n```shell script\n$ python fairseq_cli/hydra_train.py -m --config-dir examples/data2vec/config/vision/finetuning \\\n--config-name mae_imagenet_large_clean task.data=/path/to/dir model.model_path=/path/to/pretrained/model\n```\n\n```shell script\n$ python fairseq_cli/hydra_train.py -m --config-dir examples/data2vec/config/vision/finetuning \\\n--config-name mae_imagenet_huge_clean task.data=/path/to/dir model.model_path=/path/to/pretrained/model\n```\n\n### Speech\n\n```shell script\n$ python fairseq_cli/hydra_train.py -m --config-dir examples/data2vec/config/v2 \\\n--config-name base_audio_only_task task.data=/path/to/manifests\n```\n\n```shell script\n$ python fairseq_cli/hydra_train.py -m --config-dir examples/data2vec/config/v2 \\\n--config-name large_audio_only_task task.data=/path/to/manifests\n```\n\nFinetuning:\n\n```shell script\n$ python fairseq_cli/hydra_train.py -m --config-dir examples/wav2vec/config/finetuning --config-name vox_10h \\\ntask.data=/path/to/manifests model.w2v_path=/path/to/pretrained/model common.user_dir=examples/data2vec\n```\n\nReplace vox_10h with the right config depending on your model and fine-tuning split. \nSee examples/wav2vec/config/finetuning for all available configs.\n\n### NLP\n\nCommands to pretrain\n```shell script\n$ python fairseq_cli/hydra_train.py -m --config-dir examples/data2vec/config/v2 \\\n--config-name base_text_only_task task.data=/path/to/file\n```\n\nCommands to fine-tune all GLUE tasks\n```shell script\n$ task=cola  # choose from [cola|qnli|mrpc|rte|sst_2|mnli|qqp|sts_b]\n$ lr=1e-5    # sweep [1e-5|2e-5|4e-5|6e-5] for each task\n$ python fairseq_cli/hydra_train.py -m --config-dir examples/data2vec/config/v2/text_finetuning \\\n--config-name $task task.data=/path/to/file model.model_path=/path/to/pretrained/model \"optimization.lr=[${lr}]\"\n```\n\n# data2vec\n  \ndata2vec is a framework for self-supervised representation learning for images, speech, and text as described in [data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (Baevski et al., 2022)](https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language).  The algorithm uses the same learning mechanism for different modalities. \n\n\n## Pre-trained models\n\n### Vision\n\nCode and pre-trained models for data2vec visions can be found [here](https://github.com/facebookresearch/data2vec_vision/tree/main/beit).\n\n### Speech\n\n| Model | Finetuning split | Dataset | Link\n|---|---|---|---\ndata2vec Base | No fine-tuning | [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec/audio_base_ls.pt)\ndata2vec Base | 10 minutes | [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec/audio_base_ls_10m.pt)\ndata2vec Base | 100 hours | [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec/audio_base_ls_100h.pt)\ndata2vec Base | 960 hours | [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec/audio_base_ls_960h.pt)\ndata2vec Large | No fine-tuning | [Libri-light](https://github.com/facebookresearch/libri-light) | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec/vox_pretrained.pt)\ndata2vec Large | 10 minutes | [Libri-light](https://github.com/facebookresearch/libri-light) | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec/vox_10m.pt)\ndata2vec Large | 100 hours | [Libri-light](https://github.com/facebookresearch/libri-light) | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec/vox_100h.pt)\ndata2vec Large | 960 hours | [Libri-light](https://github.com/facebookresearch/libri-light) | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec/vox_960h.pt)\n---\n\n### NLP\n\nModel | Fine-tuning data | Dataset | Link\n|---|---|---|---|\ndata2vec Base | No fine-tuning | Books + Wiki | [download](https://dl.fbaipublicfiles.com/fairseq/data2vec/nlp_base.pt)\n\n## Training a new speech model with the CLI tools\n\nGiven a directory containing wav files to be used for pretraining (we recommend splitting each file into separate file 10 to 30 seconds in length)\n\n### Prepare training data manifest:\n\nFirst, install the `soundfile` library:\n```shell script\npip install soundfile\n```\n\nNext, run:\n\n```shell script\n$ python examples/wav2vec/wav2vec_manifest.py /path/to/waves --dest /manifest/path --ext $ext --valid-percent $valid\n```\n\n$ext should be set to flac, wav, or whatever format your dataset happens to use that soundfile can read.\n\n$valid should be set to some reasonable percentage (like 0.01) of training data to use for validation.\nTo use a pre-defined validation set (like dev-other from librispeech), set to it 0 and then overwrite valid.tsv with a\nseparately pre-processed manifest file.\n\n### Train a data2vec Base model:\n\nThis configuration was used for the base model trained on the Librispeech dataset in the data2vec paper\n\nNote that the input is expected to be single channel, sampled at 16 kHz\n\n```shell script\n$ python fairseq_cli/hydra_train.py -m --config-dir examples/data2vec/config/audio/pretraining \\\n--config-name base_librispeech task.data=/path/to/manifests common.user_dir=examples/data2vec\n```\n\nNote: you can simulate 16 GPUs by using k GPUs and adding command line parameters\n`distributed_training.distributed_world_size=k` `+optimization.update_freq='[x]'` where x = 16/k\n\n### Fine-tune a pre-trained model with CTC:\n\nFine-tuning a model requires parallel audio and labels file, as well as a vocabulary file in fairseq format.\nA letter vocabulary can be downloaded [here](https://dl.fbaipublicfiles.com/fairseq/wav2vec/dict.ltr.txt).\nAn example [script](../wav2vec/libri_labels.py) that generates labels for the Librispeech dataset from the tsv file produced by wav2vec_manifest.py can be used as follows:\n\n```shell script\nsplit=train\n$ python libri_labels.py /path/to/tsv --output-dir /output/dir --output-name $split\n```\n\nFine-tuning on 100h of Librispeech with letter targets:\n```shell script\n$ fairseq-hydra-train \\\n    distributed_training.distributed_port=$PORT \\\n    task.data=/path/to/data \\\n    model.w2v_path=/path/to/model.pt \\\n    --config-dir /path/to/fairseq-py/examples/wav2vec/config/finetuning \\\n    --config-name base_100h common.user_dir=examples/data2vec\n```\n\nThere are other config files in the config/finetuning directory that can be used to fine-tune on other splits.\nYou can specify the right config via the `--config-name` parameter.\n\nDecoding with a language model during training requires flashlight [python bindings](https://github.com/facebookresearch/flashlight/tree/master/bindings/python) (previously called [wav2letter](https://github.com/facebookresearch/wav2letter).\nIf you want to use a language model, add `+criterion.wer_args='[/path/to/kenlm, /path/to/lexicon, 2, -1]'` to the command line.\n\n### Evaluating a CTC model:\n\nEvaluating a CTC model with a language model requires [flashlight python bindings](https://github.com/facebookresearch/flashlight/tree/master/bindings/python) (previously called [wav2letter](https://github.com/facebookresearch/wav2letter) to be installed.\n\nFairseq transformer language model used in the wav2vec 2.0 paper can be obtained from the [wav2letter model repository](https://github.com/facebookresearch/wav2letter/tree/master/recipes/sota/2019).\nBe sure to upper-case the language model vocab after downloading it.\n\nLetter dictionary for pre-trained models can be found [here](https://dl.fbaipublicfiles.com/fairseq/wav2vec/dict.ltr.txt).\n\nNext, run the evaluation command:\n\n```shell script\npython examples/speech_recognition/new/infer.py --config-dir examples/speech_recognition/new/conf \\\n--config-name infer task=audio_finetuning task.data=/path/to/manifests common.user_dir=examples/data2vec \\\ntask.labels=ltr decoding.type=kenlm \\\ndecoding.lmweight=${lmweight} decoding.wordscore=${wordscore} decoding.silweight=${silscore} \\\ndecoding.lexicon=/path/to/lexicon \\\ndecoding.lmpath=/path/to/lm decoding.unique_wer_file=True \\\ndataset.gen_subset=dev_clean,dev_other,test_clean,test_other \\\ncommon_eval.path=/path/to/checkpoint.pt decoding.beam=1500 distributed_training.distributed_world_size=${num_gpus}\n```\n\nTo get raw numbers, use decoding.type=viterbi and omit the lexicon. To use the transformer language model, use decoding.type=fairseqlm.\n\n## Training a new NLP model with the CLI tools\n\nPlease follow the [RoBERTa](../roberta/README.md) instructions to preprocess your data. To train a data2vec model on run:\n\n```shell script\n$ python fairseq_cli/hydra_train.py -m --config-dir examples/data2vec/config/text/pretraining \\\n--config-name base task.data=/path/to/data common.user_dir=examples/data2vec\n```\n\nAs for speech models, you can simulate 16 gpus by using the update_freq parameter.\n\n### Finetuning data2vec-text on GLUE\n\nPlease use a command similar to this:\n\n```shell\n$ python fairseq_cli/hydra_train.py -m --config-dir examples/roberta/config/finetuning \\\n    --config-name $task task.data=$data_path checkpoint.restore_file=\"${/path/to/pretrained/model.pt}\"\n```\n"
  },
  {
    "path": "examples/data2vec/__init__.py",
    "content": ""
  },
  {
    "path": "examples/data2vec/config/audio/classification/base_classification.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  all_gather_list_size: 70000\n  tensorboard_logdir: tb\n  min_loss_scale: 1e-6\n\ncheckpoint:\n  save_interval: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: mAP\n  maximize_best_checkpoint_metric: true\n\ntask:\n  _name: audio_classification\n  data: ???\n  normalize: true\n  labels: lbl\n\ndataset:\n  num_workers: 6\n  max_tokens: 2560000\n  skip_invalid_size_inputs_valid_test: true\n  valid_subset: eval\n  validate_interval: 5\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 8\n\ncriterion:\n  _name: model\n  can_sum: false\n  log_keys:\n    - _predictions\n    - _targets\n\noptimization:\n  max_update: 30000\n  lr: [0.00006] # scratch 53-5\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: cosine\n  warmup_updates: 5000\n\nmodel:\n  _name: audio_classification\n  model_path: ???\n  apply_mask: true\n  mask_prob: 0.6\n  mask_length: 5 # scratch 1\n  mask_channel_prob: 0\n  mask_channel_length: 64\n  layerdrop: 0.1\n  dropout: 0.1\n  activation_dropout: 0.1\n  attention_dropout: 0.2\n  feature_grad_mult: 0 # scratch 1\n  label_mixup: true\n  source_mixup: 0.5\n  prediction_mode: lin_softmax # scratch average_sigmoid\n\n"
  },
  {
    "path": "examples/data2vec/config/audio/classification/run_config/slurm_1.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/audio/classification/run_config/slurm_1g.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 1\n    tasks_per_node: 1\n    mem_gb: 100\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/audio/classification/run_config/slurm_2.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 2\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/audio/pretraining/audioset.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n  min_loss_scale: 1e-6\n  user_dir: /private/home/abaevski/fairseq-py/examples/data2vec\n\ncheckpoint:\n  save_interval: 1\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: audio_pretraining\n  data: /private/home/abaevski/data/audioset\n  max_sample_size: 320000\n  min_sample_size: 32000\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 3400000\n  skip_invalid_size_inputs_valid_test: true\n  validate_interval: 5\n  required_batch_size_multiple: 1\n  disable_validation: true\n\ndistributed_training:\n  distributed_world_size: 24\n  ddp_backend: legacy_ddp\n\ncriterion:\n  _name: model\n  log_keys:\n    - ema_decay\n    - target_var\n    - pred_var\n#    - avg_self_attn\n#    - weights\n\noptimization:\n  max_update: 200000\n  lr: [0.0005]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: cosine\n  warmup_updates: 10000\n\nmodel:\n  _name: data2vec_audio\n  extractor_mode: layer_norm\n  encoder_layerdrop: 0.05\n  dropout_input: 0.0\n  dropout_features: 0.0\n  feature_grad_mult: 1.0\n  encoder_embed_dim: 768\n\n  mask_prob: 0.65\n  mask_length: 10\n\n  loss_beta: 0\n  loss_scale: null\n\n  instance_norm_target_layer: true\n  layer_norm_targets: true\n  average_top_k_layers: 12\n\n  self_attn_norm_type: deepnorm\n  final_norm_type: deepnorm\n\n  pos_conv_depth: 5\n  conv_pos: 95\n\n  ema_decay: 0.999\n  ema_end_decay: 0.9999\n  ema_anneal_end_step: 30000\n  ema_transformer_only: true\n  ema_layers_only: false\n\n  require_same_masks: true\n  mask_dropout: 0\n"
  },
  {
    "path": "examples/data2vec/config/audio/pretraining/base_librispeech.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 5\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: audio_pretraining\n  data: ???\n  max_sample_size: 320000\n  min_sample_size: 32000\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 3800000\n  skip_invalid_size_inputs_valid_test: true\n  validate_interval: 5\n  required_batch_size_multiple: 1\n  disable_validation: true\n\ndistributed_training:\n  distributed_world_size: 16\n  ddp_backend: legacy_ddp\n\ncriterion:\n  _name: model\n  log_keys:\n    - ema_decay\n    - target_var\n    - pred_var\n\noptimization:\n  max_update: 400000\n  lr: [0.0005]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.03,0.9,0.07]\n\nmodel:\n  _name: data2vec_audio\n  extractor_mode: layer_norm\n  encoder_layerdrop: 0.05\n  dropout_input: 0.0\n  dropout_features: 0.0\n  feature_grad_mult: 1.0\n  encoder_embed_dim: 768\n\n  mask_prob: 0.65\n  mask_length: 10\n\n  loss_beta: 0\n  loss_scale: null\n\n  instance_norm_target_layer: true\n  average_top_k_layers: 8\n\n  pos_conv_depth: 5\n  conv_pos: 95\n\n  ema_decay: 0.999\n  ema_end_decay: 0.9999\n  ema_anneal_end_step: 30000\n  ema_transformer_only: true\n  ema_layers_only: true\n\n  require_same_masks: true\n  mask_dropout: 0\n"
  },
  {
    "path": "examples/data2vec/config/audio/pretraining/run_config/local.yaml",
    "content": "# @package _global_\nhydra:\n  sweep:\n    dir: ${env:PWD}/tmp_dbg/${now:%H-%M-%S}\n\ndistributed_training:\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n  \ncommon:\n  log_interval: 1\n  \ndataset:\n  num_workers: 0\n"
  },
  {
    "path": "examples/data2vec/config/audio/pretraining/run_config/slurm_1.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 450\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/audio/pretraining/run_config/slurm_1_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 0\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/audio/pretraining/run_config/slurm_2.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 2\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/audio/pretraining/run_config/slurm_2_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - task.post_save_script\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 2\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/audio/pretraining/run_config/slurm_3.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 450\n    nodes: 3\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/audio/pretraining/run_config/slurm_4.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 4\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/audio/pretraining/run_config/slurm_4_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - task.post_save_script\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 4\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/audio/pretraining/run_config/slurm_6_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 6\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/audio/pretraining/run_config/slurm_8_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 8\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/text/pretraining/base.yaml",
    "content": "# @package _group_\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n\ncheckpoint:\n  no_epoch_checkpoints: true\n  save_interval_updates: 50000\n  keep_interval_updates: 1\n\ndistributed_training:\n  distributed_world_size: 16\n  ddp_backend: legacy_ddp\n\ntask:\n  _name: masked_lm\n  data: ???\n  sample_break_mode: complete_doc\n  tokens_per_sample: 512\n  include_target_tokens: true\n  random_token_prob: 0\n  leave_unmasked_prob: 0\n  mask_prob: 0.35\n  mask_multiple_length: 4\n\ncriterion: model\n\ndataset:\n  max_tokens: 8192\n  ignore_unused_valid_subsets: true\n  skip_invalid_size_inputs_valid_test: true\n\noptimizer:\n  _name: adam\n  weight_decay: 0.01\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: cosine\n  warmup_updates: 10000\n\noptimization:\n  clip_norm: 5\n  lr: [0.0002]\n  max_update: 1000000\n  update_freq: [1]\n\nmodel:\n  _name: data2vec_text\n  head_layers: 2\n  average_top_k_layers: 10\n  layer_norm_target_layer: true\n  loss_scale: 1\n  ema_decay: 0.999\n  ema_end_decay: 0.9999\n  ema_anneal_end_step: 300000\n  loss_beta: 4\n  ema_transformer_layers_only: true\n  \n  transformer:\n    dropout: 0.1\n    attention_dropout: 0.1\n    layernorm_embedding: true\n    activation_fn: gelu\n    no_scale_embedding: true\n    max_source_positions: 512\n    encoder:\n      embed_dim: 768\n      ffn_embed_dim: 3072\n      layers: 12\n      attention_heads: 12\n      normalize_before: false\n      learned_pos: true\n      layerdrop: 0\n"
  },
  {
    "path": "examples/data2vec/config/text/pretraining/run_config/local.yaml",
    "content": "# @package _global_\nhydra:\n  sweep:\n    dir: ${env:PWD}/tmp_dbg/${now:%H-%M-%S}\n\ndistributed_training:\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n  \ncommon:\n  log_interval: 1\n  \ndataset:\n  num_workers: 0\n"
  },
  {
    "path": "examples/data2vec/config/text/pretraining/run_config/slurm_1_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '_'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}/submitit\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 0\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec\n    max_num_timeout: 30\n    exclude: a100-st-p4d24xlarge-471\n"
  },
  {
    "path": "examples/data2vec/config/text/pretraining/run_config/slurm_2.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 450\n    nodes: 2\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/text/pretraining/run_config/slurm_2_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '_'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}/submitit\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 2\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec\n    max_num_timeout: 30\n    exclude: a100-st-p4d24xlarge-471\n"
  },
  {
    "path": "examples/data2vec/config/text/pretraining/run_config/slurm_3.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 3\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/text/pretraining/run_config/slurm_4.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 4\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/text/pretraining/run_config/slurm_4_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '_'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}/submitit\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 4\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec\n    max_num_timeout: 30\n    exclude: a100-st-p4d24xlarge-471\n\ndistributed_training:\n  distributed_world_size: 32\n  ddp_backend: legacy_ddp\n"
  },
  {
    "path": "examples/data2vec/config/text/pretraining/run_config/slurm_8_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '_'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}/submitit\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 8\n    name: pt\n    partition: wav2vec\n    max_num_timeout: 30\n    exclude: a100-st-p4d24xlarge-471\n\ndistributed_training:\n  distributed_world_size: 64\n  ddp_backend: legacy_ddp\n"
  },
  {
    "path": "examples/data2vec/config/v2/base_audio_only_task.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n  min_loss_scale: 1e-6\n  fp16_no_flatten_grads: false\n  user_dir: ${env:PWD}/examples/data2vec\n\ncheckpoint:\n  save_interval: 1\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: audio_pretraining\n  data: /private/home/abaevski/data/librispeech/full\n  max_sample_size: 320000\n  min_sample_size: 32000\n  normalize: true\n  precompute_mask_config: {}\n\ndataset:\n  num_workers: 6\n  max_tokens: 1000000\n  skip_invalid_size_inputs_valid_test: true\n  validate_interval: 5\n  required_batch_size_multiple: 1\n  disable_validation: true\n\ndistributed_training:\n  distributed_world_size: 8\n  ddp_backend: legacy_ddp\n\ncriterion:\n  _name: model\n  log_keys:\n    - ema_decay\n    - target_var\n    - pred_var\n    - model_norm\n    - ema_norm\n    - masked_pct\n\noptimization:\n  max_update: 400000\n  lr: [0.00075]\n  debug_param_names: true\n\noptimizer:\n  _name: adam\n  adam_betas: [ 0.9,0.98 ]\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: cosine\n  warmup_updates: 8000\n\nmodel:\n  _name: data2vec_multi\n\n  loss_beta: 0\n  loss_scale: null\n\n  depth: 12\n  embed_dim: 768\n  clone_batch: 8\n\n  ema_decay: 0.999\n  ema_end_decay: 0.99999\n  ema_anneal_end_step: 75000\n  ema_encoder_only: false\n\n  average_top_k_layers: 8\n  instance_norm_target_layer: true\n  layer_norm_target_layer: false\n  layer_norm_targets: false\n\n  layerdrop: 0.05\n  norm_eps: 1e-5\n\n  supported_modality: AUDIO\n\n  modalities:\n    audio:\n      feature_encoder_spec: '[(512, 10, 5)] + [(512, 3, 2)] * 4 + [(512,2,2)] + [(512,2,2)]'\n      conv_pos_depth: 5\n      conv_pos_width: 95\n      conv_pos_groups: 16\n      prenet_depth: 0\n      mask_prob: 0.5\n      mask_prob_adjust: 0.05\n      inverse_mask: false\n      mask_length: 5\n      mask_noise_std: 0.01\n      mask_dropout: 0\n      add_masks: false\n      ema_local_encoder: false\n      use_alibi_encoder: true\n      prenet_layerdrop: 0.05\n      prenet_dropout: 0.1\n      learned_alibi_scale: true\n      learned_alibi_scale_per_head: true\n      decoder:\n        input_dropout: 0.1\n        decoder_dim: 384\n        decoder_groups: 16\n        decoder_kernel: 7\n        decoder_layers: 4\n"
  },
  {
    "path": "examples/data2vec/config/v2/base_images_only_task.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n  min_loss_scale: 1e-6\n  fp16_no_flatten_grads: true\n  user_dir: ${env:PWD}/examples/data2vec\n\ncheckpoint:\n  save_interval: 5\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: mae_image_pretraining\n  data: /datasets01/imagenet_full_size/061417/\n  rebuild_batches: true\n  local_cache_path: /scratch/cache_abaevski/imagenet\n  key: source\n  precompute_mask_config: {}\n\ndataset:\n  num_workers: 10\n  batch_size: 16\n  skip_invalid_size_inputs_valid_test: true\n  required_batch_size_multiple: 1\n  disable_validation: true\n\ndistributed_training:\n  distributed_world_size: 16\n  ddp_backend: c10d\n\ncriterion:\n  _name: model\n  log_keys:\n    - ema_decay\n    - target_var\n    - pred_var\n    - model_norm\n    - ema_norm\n    - masked_pct\n\noptimization:\n  max_update: 375300\n  lr: [ 0.001 ]\n  debug_param_names: true\n  clip_norm: 4\n\noptimizer:\n  _name: composite\n  dynamic_groups: true\n  groups:\n    default:\n      lr_float: 1e-3\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.95]\n        weight_decay: 0.05\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 50040\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: data2vec_multi\n\n  ema_decay: 0.9998\n  ema_end_decay: 0.99999\n  ema_anneal_end_step: 100000\n  instance_norm_target_layer: true\n  layer_norm_target_layer: false\n  layer_norm_targets: true\n  end_of_block_targets: false\n\n  depth: 10\n  average_top_k_layers: 10\n  clone_batch: 16\n\n  norm_eps: 1e-6\n\n  min_target_var: 0\n  min_pred_var: 0\n\n  encoder_dropout: 0\n  post_mlp_drop: 0\n  attention_dropout: 0\n  activation_dropout: 0\n\n  supported_modality: IMAGE\n  cls_loss: 0.01\n\n  ema_encoder_only: false\n\n  modalities:\n    image:\n      inverse_mask: true\n      mask_prob: 0.8\n      mask_prob_adjust: 0.07\n      mask_length: 3\n      mask_noise_std: 0.01\n      prenet_depth: 2\n      ema_local_encoder: true\n      num_extra_tokens: 1\n      init_extra_token_zero: false\n      use_alibi_encoder: false\n      decoder:\n        decoder_dim: 768\n        decoder_groups: 16\n        decoder_kernel: 3\n        decoder_layers: 6\n        input_dropout: 0"
  },
  {
    "path": "examples/data2vec/config/v2/base_text_only_task.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n  fp16_no_flatten_grads: true\n  user_dir: ${env:PWD}/examples/data2vec\n\ncheckpoint:\n  no_epoch_checkpoints: true\n  save_interval_updates: 50000\n  keep_interval_updates: 1\n\ndistributed_training:\n  distributed_world_size: 16\n  ddp_backend: legacy_ddp\n\ntask:\n  _name: masked_lm\n  data: /fsx-wav2vec/abaevski/data/nlp/bookwiki_aml-full-mmap2-bin\n  sample_break_mode: none\n  tokens_per_sample: 512\n  include_target_tokens: true\n  random_token_prob: 0\n  leave_unmasked_prob: 0\n  include_index: True\n  skip_masking: True\n  d2v2_multi: True\n\ncriterion:\n  _name: model\n  log_keys:\n    - ema_decay\n    - target_var\n    - pred_var\n    - model_norm\n    - ema_norm\n    - masked_pct\n\ndataset:\n  batch_size: 4\n  ignore_unused_valid_subsets: true\n  skip_invalid_size_inputs_valid_test: true\n  disable_validation: true\n\noptimization:\n  clip_norm: 1\n  lr: [0.0002]\n  max_update: 1000000\n  update_freq: [1]\n\noptimizer:\n  _name: composite\n  dynamic_groups: true\n  groups:\n    default:\n      lr_float: 0.0002\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.98]\n        adam_eps: 1e-06\n        weight_decay: 0.01\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 4000\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: data2vec_multi\n\n  loss_beta: 0\n  loss_scale: 1\n\n  depth: 12\n  embed_dim: 768\n  clone_batch: 8\n\n  ema_decay: 0.9999\n  ema_end_decay: 0.99999\n  ema_anneal_end_step: 100000\n  ema_encoder_only: true\n\n  average_top_k_layers: 12\n  layer_norm_target_layer: false\n  instance_norm_target_layer: true\n  batch_norm_target_layer: false\n  instance_norm_targets: false\n  layer_norm_targets: false\n\n  layerdrop: 0\n  norm_eps: 1e-5\n\n  supported_modality: TEXT\n\n  modalities:\n    text:\n      mask_prob: 0.48\n      mask_length: 1\n      mask_noise_std: 0.01\n      prenet_depth: 0\n      decoder:\n        input_dropout: 0.1\n        decoder_dim: 768\n        decoder_groups: 1\n        decoder_kernel: 9\n        decoder_layers: 5\n        decoder_residual: false\n        projection_layers: 2\n        projection_ratio: 2.0\n"
  },
  {
    "path": "examples/data2vec/config/v2/huge_images14_only_task.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n  min_loss_scale: 1e-6\n  fp16_no_flatten_grads: true\n  user_dir: ${env:PWD}/examples/data2vec\n\ncheckpoint:\n  save_interval: 5\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: mae_image_pretraining\n  data: /datasets01/imagenet_full_size/061417/\n  rebuild_batches: true\n  local_cache_path: /scratch/cache_abaevski/imagenet\n  key: source\n  precompute_mask_config: {}\n\ndataset:\n  num_workers: 10\n  batch_size: 8\n  skip_invalid_size_inputs_valid_test: true\n  required_batch_size_multiple: 1\n  disable_validation: true\n\ndistributed_training:\n  distributed_world_size: 32\n  ddp_backend: c10d\n\ncriterion:\n  _name: model\n  log_keys:\n    - ema_decay\n    - target_var\n    - pred_var\n    - model_norm\n    - ema_norm\n    - masked_pct\n\noptimization:\n  max_update: 500000\n  lr: [ 0.0004 ]\n  debug_param_names: true\n  clip_norm: 4\n\noptimizer:\n  _name: composite\n  dynamic_groups: true\n  groups:\n    default:\n      lr_float: 4e-4\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.95]\n        weight_decay: 0.05\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 50040\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: data2vec_multi\n\n  ema_decay: 0.9998\n  ema_end_decay: 1\n  ema_anneal_end_step: 300000\n  instance_norm_target_layer: true\n  layer_norm_target_layer: false\n  layer_norm_targets: true\n  end_of_block_targets: false\n\n  depth: 32\n  embed_dim: 1280\n  num_heads: 16\n\n  average_top_k_layers: 24\n  clone_batch: 16\n\n  norm_eps: 1e-6\n\n  min_target_var: 0\n  min_pred_var: 0\n\n  encoder_dropout: 0\n  post_mlp_drop: 0\n  attention_dropout: 0\n  activation_dropout: 0\n\n  supported_modality: IMAGE\n  cls_loss: 0.01\n\n  ema_encoder_only: false\n\n  modalities:\n    image:\n      patch_size: 14\n      inverse_mask: true\n      mask_prob: 0.75\n      mask_prob_adjust: 0.1\n      mask_length: 3\n      mask_noise_std: 0.01\n      prenet_depth: 0\n      ema_local_encoder: true\n      num_extra_tokens: 1\n      init_extra_token_zero: false\n      use_alibi_encoder: false\n      embed_dim: 1280\n      decoder:\n        decoder_dim: 1024\n        decoder_groups: 16\n        decoder_kernel: 5\n        decoder_layers: 3\n        final_layer_norm: false\n        input_dropout: 0"
  },
  {
    "path": "examples/data2vec/config/v2/huge_images_only_task.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n  min_loss_scale: 1e-6\n  fp16_no_flatten_grads: true\n  user_dir: ${env:PWD}/examples/data2vec\n\ncheckpoint:\n  save_interval: 5\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: mae_image_pretraining\n  data: /datasets01/imagenet_full_size/061417/\n  rebuild_batches: true\n  local_cache_path: /scratch/cache_abaevski/imagenet\n  key: source\n  precompute_mask_config: {}\n\ndataset:\n  num_workers: 10\n  batch_size: 8\n  skip_invalid_size_inputs_valid_test: true\n  required_batch_size_multiple: 1\n  disable_validation: true\n\ndistributed_training:\n  distributed_world_size: 16\n  ddp_backend: c10d\n\ncriterion:\n  _name: model\n  log_keys:\n    - ema_decay\n    - target_var\n    - pred_var\n    - model_norm\n    - ema_norm\n    - masked_pct\n\noptimization:\n  max_update: 375300\n  lr: [ 0.0004 ]\n  debug_param_names: true\n  clip_norm: 4\n\noptimizer:\n  _name: composite\n  dynamic_groups: true\n  groups:\n    default:\n      lr_float: 4e-4\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.95]\n        weight_decay: 0.05\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 50040\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: data2vec_multi\n\n  ema_decay: 0.9998\n  ema_end_decay: 0.99995\n  ema_anneal_end_step: 150000\n  instance_norm_target_layer: true\n  layer_norm_target_layer: false\n  layer_norm_targets: true\n  end_of_block_targets: false\n\n  depth: 32\n  embed_dim: 1280\n  num_heads: 16\n\n  average_top_k_layers: 24\n  clone_batch: 16\n\n  norm_eps: 1e-6\n\n  min_target_var: 0\n  min_pred_var: 0\n\n  encoder_dropout: 0\n  post_mlp_drop: 0\n  attention_dropout: 0\n  activation_dropout: 0\n\n  supported_modality: IMAGE\n  cls_loss: 0.01\n\n  ema_encoder_only: false\n\n  modalities:\n    image:\n      inverse_mask: true\n      mask_prob: 0.75\n      mask_prob_adjust: 0.1\n      mask_length: 3\n      mask_noise_std: 0.01\n      prenet_depth: 0\n      ema_local_encoder: true\n      num_extra_tokens: 1\n      init_extra_token_zero: false\n      use_alibi_encoder: false\n      embed_dim: 1280\n      decoder:\n        decoder_dim: 1024\n        decoder_groups: 16\n        decoder_kernel: 5\n        decoder_layers: 3\n        input_dropout: 0"
  },
  {
    "path": "examples/data2vec/config/v2/large_audio_only_task.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n  min_loss_scale: 1e-6\n  fp16_no_flatten_grads: true\n  user_dir: ${env:PWD}/examples/data2vec\n\ncheckpoint:\n  save_interval: 1\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: audio_pretraining\n  data: /fsx-wav2vec/abaevski/data/librivox/no_silence\n  max_sample_size: 320000\n  min_sample_size: 32000\n  normalize: true\n  precompute_mask_config: {}\n\ndataset:\n  num_workers: 8\n  max_tokens: 320000\n  skip_invalid_size_inputs_valid_test: true\n  validate_interval: 5\n  required_batch_size_multiple: 1\n  disable_validation: true\n\ndistributed_training:\n  distributed_world_size: 48\n  ddp_backend: c10d\n\ncriterion:\n  _name: model\n  log_keys:\n    - ema_decay\n    - target_var\n    - pred_var\n    - model_norm\n    - ema_norm\n    - masked_pct\n\noptimization:\n  max_update: 600000\n  debug_param_names: true\n  clip_norm: 1\n\noptimizer:\n  _name: composite\n  dynamic_groups: true\n  groups:\n    default:\n      lr_float: 0.0004\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.98]\n        adam_eps: 1e-06\n        weight_decay: 0.01\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 10000\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: data2vec_multi\n\n  loss_beta: 0\n  loss_scale: null\n\n  depth: 16\n  embed_dim: 1024\n  num_heads: 16\n\n  clone_batch: 12\n\n  ema_decay: 0.9997\n  ema_end_decay: 1\n  ema_anneal_end_step: 300000\n  ema_encoder_only: false\n\n  average_top_k_layers: 16\n  instance_norm_target_layer: true\n  layer_norm_target_layer: false\n  layer_norm_targets: false\n\n  layerdrop: 0\n  norm_eps: 1e-5\n\n  supported_modality: AUDIO\n\n  modalities:\n    audio:\n      feature_encoder_spec: '[(512, 10, 5)] + [(512, 3, 2)] * 4 + [(512,2,2)] + [(512,2,2)]'\n      conv_pos_depth: 5\n      conv_pos_width: 95\n      conv_pos_groups: 16\n      prenet_depth: 8\n      mask_prob: 0.55\n      mask_prob_adjust: 0.1\n      inverse_mask: false\n      mask_length: 5\n      mask_noise_std: 0.01\n      mask_dropout: 0\n      add_masks: false\n      ema_local_encoder: false\n      use_alibi_encoder: true\n      prenet_layerdrop: 0\n      prenet_dropout: 0.1\n      learned_alibi_scale: true\n      learned_alibi_scale_per_head: true\n      decoder:\n        input_dropout: 0.1\n        decoder_dim: 768\n        decoder_groups: 16\n        decoder_kernel: 7\n        decoder_layers: 4\n"
  },
  {
    "path": "examples/data2vec/config/v2/large_images_only_task.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n  min_loss_scale: 1e-6\n  fp16_no_flatten_grads: true\n  user_dir: ${env:PWD}/examples/data2vec\n\ncheckpoint:\n  save_interval: 5\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: mae_image_pretraining\n  data: /datasets01/imagenet_full_size/061417/\n  rebuild_batches: true\n  local_cache_path: /scratch/cache_abaevski/imagenet\n  key: source\n  precompute_mask_config: {}\n\ndataset:\n  num_workers: 10\n  batch_size: 8\n  skip_invalid_size_inputs_valid_test: true\n  required_batch_size_multiple: 1\n  disable_validation: true\n\ndistributed_training:\n  distributed_world_size: 16\n  ddp_backend: c10d\n\ncriterion:\n  _name: model\n  log_keys:\n    - ema_decay\n    - target_var\n    - pred_var\n    - model_norm\n    - ema_norm\n    - masked_pct\n\noptimization:\n  max_update: 375300\n  lr: [ 0.0004 ]\n  debug_param_names: true\n  clip_norm: 4\n\noptimizer:\n  _name: composite\n  dynamic_groups: true\n  groups:\n    default:\n      lr_float: 4e-4\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.95]\n        weight_decay: 0.05\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 50040\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: data2vec_multi\n\n  ema_decay: 0.9998\n  ema_end_decay: 0.99999\n  ema_anneal_end_step: 150000\n  instance_norm_target_layer: true\n  layer_norm_target_layer: false\n  layer_norm_targets: true\n  end_of_block_targets: false\n\n  depth: 24\n  embed_dim: 1024\n  num_heads: 16\n\n  average_top_k_layers: 18\n  clone_batch: 16\n\n  norm_eps: 1e-6\n\n  min_target_var: 0\n  min_pred_var: 0\n\n  encoder_dropout: 0\n  post_mlp_drop: 0\n  attention_dropout: 0\n  activation_dropout: 0\n\n  supported_modality: IMAGE\n  cls_loss: 0.01\n\n  ema_encoder_only: false\n\n  modalities:\n    image:\n      inverse_mask: true\n      mask_prob: 0.75\n      mask_prob_adjust: 0.1\n      mask_length: 3\n      mask_noise_std: 0.01\n      prenet_depth: 0\n      ema_local_encoder: true\n      num_extra_tokens: 1\n      init_extra_token_zero: false\n      use_alibi_encoder: false\n      embed_dim: 1024\n      decoder:\n        decoder_dim: 1024\n        decoder_groups: 16\n        decoder_kernel: 5\n        decoder_layers: 3\n        input_dropout: 0"
  },
  {
    "path": "examples/data2vec/config/v2/large_text_only_task.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n  min_loss_scale: 1e-6\n  fp16_no_flatten_grads: true\n  user_dir: ${env:PWD}/examples/data2vec\n\ncheckpoint:\n  save_interval_updates: 50000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: masked_lm\n  data: /fsx-wav2vec/abaevski/data/nlp/bookwiki_aml-full-mmap2-bin\n  sample_break_mode: none\n  tokens_per_sample: 512\n  include_target_tokens: true\n  random_token_prob: 0\n  leave_unmasked_prob: 0\n  include_index: True\n  skip_masking: True\n  d2v2_multi: True\n\ndataset:\n  batch_size: 2\n  ignore_unused_valid_subsets: true\n  skip_invalid_size_inputs_valid_test: true\n  disable_validation: true\n\ndistributed_training:\n  distributed_world_size: 32\n  ddp_backend: c10d\n\ncriterion:\n  _name: model\n  log_keys:\n    - ema_decay\n    - target_var\n    - pred_var\n    - model_norm\n    - ema_norm\n    - masked_pct\n\noptimization:\n  max_update: 600000\n  clip_norm: 1\n\noptimizer:\n  _name: composite\n  dynamic_groups: true\n  groups:\n    default:\n      lr_float: 0.0001\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.98]\n        adam_eps: 1e-06\n        weight_decay: 0.01\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 4000\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: data2vec_multi\n\n  loss_beta: 0\n  loss_scale: 1\n\n  depth: 24\n  num_heads: 16\n  embed_dim: 1024\n  clone_batch: 8\n\n  ema_decay: 0.9999\n  ema_end_decay: 0.99999\n  ema_anneal_end_step: 100000\n  ema_encoder_only: true\n\n  average_top_k_layers: 24\n  layer_norm_target_layer: true\n  instance_norm_target_layer: false\n  batch_norm_target_layer: false\n  instance_norm_targets: true\n  layer_norm_targets: false\n\n  layerdrop: 0\n  norm_eps: 1e-5\n\n  supported_modality: TEXT\n\n  modalities:\n    text:\n      mask_prob: 0.5\n      mask_length: 1\n      mask_noise_std: 0.01\n      prenet_depth: 0\n      decoder:\n        input_dropout: 0.1\n        decoder_dim: 768\n        decoder_groups: 1\n        decoder_kernel: 9\n        decoder_layers: 5\n        decoder_residual: false\n        projection_layers: 2\n        projection_ratio: 2.0\n"
  },
  {
    "path": "examples/data2vec/config/v2/large_text_only_task_pgrp_1M.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n  fp16_no_flatten_grads: true\n  user_dir: ${env:PWD}/examples/data2vec\n\ncheckpoint:\n  no_epoch_checkpoints: true\n  save_interval_updates: 50000\n  keep_interval_updates: 1\n\ndistributed_training:\n  distributed_world_size: 32\n  ddp_backend: legacy_ddp\n\ntask:\n  _name: masked_lm\n  data: /fsx-wav2vec/abaevski/data/nlp/bookwiki_aml-full-mmap2-bin\n  sample_break_mode: none\n  tokens_per_sample: 512\n  include_target_tokens: true\n  random_token_prob: 0\n  leave_unmasked_prob: 0\n  include_index: True\n  skip_masking: True\n  d2v2_multi: True\n\ncriterion:\n  _name: model\n  log_keys:\n    - ema_decay\n    - target_var\n    - pred_var\n    - model_norm\n    - ema_norm\n    - masked_pct\n\ndataset:\n  batch_size: 2\n  ignore_unused_valid_subsets: true\n  skip_invalid_size_inputs_valid_test: true\n  disable_validation: true\n\noptimization:\n  clip_norm: 1\n  lr: [3e-4]\n  max_update: 1000000\n  update_freq: [1]\n\noptimizer:\n  _name: composite\n  groups:\n    default:\n      lr_float: 1e-4\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.98]\n        adam_eps: 1e-06\n        weight_decay: 0.01\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 4000\n    decoder:\n      lr_float: 1e-4\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.98]\n        adam_eps: 1e-06\n        weight_decay: 0.01\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 4000\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: data2vec_multi\n\n  loss_beta: 4\n  loss_scale: 1\n\n  depth: 24\n  num_heads: 16\n  embed_dim: 1024\n  clone_batch: 8\n\n  ema_decay: 0.9999\n  ema_end_decay: 0.99999\n  ema_anneal_end_step: 100000\n  ema_encoder_only: true\n\n  average_top_k_layers: 24\n  layer_norm_target_layer: true\n  instance_norm_target_layer: false\n  batch_norm_target_layer: false\n  instance_norm_targets: true\n  layer_norm_targets: false\n\n  layerdrop: 0\n  norm_eps: 1e-5\n\n  supported_modality: TEXT\n  decoder_group: true\n\n  modalities:\n    text:\n      mask_prob: 0.5\n      mask_length: 1\n      mask_noise_std: 0.01\n      prenet_depth: 0\n      decoder:\n        input_dropout: 0.1\n        decoder_dim: 768\n        decoder_groups: 1\n        decoder_kernel: 9\n        decoder_layers: 5\n        decoder_residual: false\n        projection_layers: 2\n        projection_ratio: 2.0\n"
  },
  {
    "path": "examples/data2vec/config/v2/run_config/local.yaml",
    "content": "# @package _global_\nhydra:\n  sweep:\n    dir: ${env:PWD}/tmp_dbg/${now:%H-%M-%S}\n\ndistributed_training:\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n  \ncommon:\n  log_interval: 1\n  \ndataset:\n  num_workers: 0\n"
  },
  {
    "path": "examples/data2vec/config/v2/run_config/slurm_1.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 450\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/v2/run_config/slurm_1_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.local_cache_path\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 0\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/v2/run_config/slurm_2.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 2\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/v2/run_config/slurm_2_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.local_cache_path\n          - task.data\n          - task.post_save_script\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n          - model.model_path\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 12\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 2\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/v2/run_config/slurm_3.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 450\n    nodes: 3\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/v2/run_config/slurm_4.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 4\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/v2/run_config/slurm_4_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - task.post_save_script\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 12\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 4\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/v2/run_config/slurm_6_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 12\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 6\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/v2/run_config/slurm_8.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 8\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/v2/run_config/slurm_8_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 12\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 8\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/v2/text_finetuning/cola.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n  user_dir: ${env:PWD}/examples/data2vec\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 2\n  max_positions: 512\n  d2v2_multi: True\n\ncheckpoint:\n  best_checkpoint_metric: mcc\n  maximize_best_checkpoint_metric: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n\ncriterion:\n  _name: sentence_prediction\n  report_mcc: True\n\ndataset:\n  batch_size: 16\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n  num_workers: 1\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 320\n\noptimization:\n  clip_norm: 0.0\n  lr: [2e-05]\n  max_update: 5336\n  max_epoch: 10\n\nmodel:\n  _name: data2vec_text_classification\n  model_path: ???\n"
  },
  {
    "path": "examples/data2vec/config/v2/text_finetuning/mnli.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n  user_dir: ${env:PWD}/examples/data2vec\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 3\n  max_positions: 512\n  d2v2_multi: True\n\ncheckpoint:\n  best_checkpoint_metric: accuracy\n  maximize_best_checkpoint_metric: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n\ncriterion:\n  _name: sentence_prediction\n\ndataset:\n  batch_size: 32\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n  valid_subset: valid,valid1\n  num_workers: 1\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 7432\n\noptimization:\n  clip_norm: 0.0\n  lr: [2e-05]\n  max_update: 123873\n  max_epoch: 10\n\nmodel:\n  _name: data2vec_text_classification\n  model_path: ???\n"
  },
  {
    "path": "examples/data2vec/config/v2/text_finetuning/mrpc.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n  user_dir: ${env:PWD}/examples/data2vec\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 2\n  max_positions: 512\n  d2v2_multi: True\n\ncheckpoint:\n  best_checkpoint_metric: acc_and_f1\n  maximize_best_checkpoint_metric: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n\ncriterion:\n  _name: sentence_prediction\n  report_acc_and_f1: True\n\ndataset:\n  batch_size: 16\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n  num_workers: 1\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 137\n\noptimization:\n  clip_norm: 0.0\n  lr: [2e-05]\n  max_update: 2296\n  max_epoch: 10\n\nmodel:\n  _name: data2vec_text_classification\n  model_path: ???\n"
  },
  {
    "path": "examples/data2vec/config/v2/text_finetuning/qnli.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n  user_dir: ${env:PWD}/examples/data2vec\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 2\n  max_positions: 512\n  d2v2_multi: True\n\ncheckpoint:\n  best_checkpoint_metric: accuracy\n  maximize_best_checkpoint_metric: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n\ncriterion:\n  _name: sentence_prediction\n\ndataset:\n  batch_size: 32\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n  num_workers: 1\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 1986\n\noptimization:\n  clip_norm: 0.0\n  lr: [2e-05]\n  max_update: 33112\n  max_epoch: 10\n\nmodel:\n  _name: data2vec_text_classification\n  model_path: ???\n"
  },
  {
    "path": "examples/data2vec/config/v2/text_finetuning/qqp.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n  user_dir: ${env:PWD}/examples/data2vec\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 2\n  max_positions: 512\n  d2v2_multi: True\n\ncheckpoint:\n  best_checkpoint_metric: acc_and_f1\n  maximize_best_checkpoint_metric: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n\ncriterion:\n  _name: sentence_prediction\n  report_acc_and_f1: True\n\ndataset:\n  batch_size: 32\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n  num_workers: 1\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 28318\n\noptimization:\n  clip_norm: 0.0\n  lr: [2e-05]\n  max_update: 113272\n  max_epoch: 10\n\nmodel:\n  _name: data2vec_text_classification\n  model_path: ???\n"
  },
  {
    "path": "examples/data2vec/config/v2/text_finetuning/rte.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n  user_dir: ${env:PWD}/examples/data2vec\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 2\n  max_positions: 512\n  d2v2_multi: True\n\ncheckpoint:\n  best_checkpoint_metric: accuracy\n  maximize_best_checkpoint_metric: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n\ncriterion:\n  _name: sentence_prediction\n\ndataset:\n  batch_size: 16\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n  num_workers: 1\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 122\n\noptimization:\n  clip_norm: 0.0\n  lr: [2e-05]\n  max_update: 2036\n  max_epoch: 10\n\nmodel:\n  _name: data2vec_text_classification\n  model_path: ???\n"
  },
  {
    "path": "examples/data2vec/config/v2/text_finetuning/run_config/local.yaml",
    "content": "# @package _global_\nhydra:\n  sweep:\n    dir: ${env:PWD}/tmp_dbg/${now:%H-%M-%S}\n\ndistributed_training:\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n  \ncommon:\n  log_interval: 1\n  \ndataset:\n  num_workers: 0\n"
  },
  {
    "path": "examples/data2vec/config/v2/text_finetuning/sst_2.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n  user_dir: ${env:PWD}/examples/data2vec\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 2\n  max_positions: 512\n  d2v2_multi: True\n\ncheckpoint:\n  best_checkpoint_metric: accuracy\n  maximize_best_checkpoint_metric: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n\ncriterion:\n  _name: sentence_prediction\n\ndataset:\n  batch_size: 32\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n  num_workers: 1\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 1256\n\noptimization:\n  clip_norm: 0.0\n  lr: [2e-05]\n  max_update: 20935\n  max_epoch: 10\n\nmodel:\n  _name: data2vec_text_classification\n  model_path: ???\n"
  },
  {
    "path": "examples/data2vec/config/v2/text_finetuning/sts_b.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n  user_dir: ${env:PWD}/examples/data2vec\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 1\n  max_positions: 512\n  d2v2_multi: True\n\ncheckpoint:\n  best_checkpoint_metric: pearson_and_spearman\n  maximize_best_checkpoint_metric: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n\ncriterion:\n  _name: sentence_prediction\n  regression_target: true\n  report_pearson_and_spearman: True\n\ndataset:\n  batch_size: 16\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n  num_workers: 1\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 214\n\noptimization:\n  clip_norm: 0.0\n  lr: [4e-05]\n  max_update: 3598\n  max_epoch: 10\n\nmodel:\n  _name: data2vec_text_classification\n  model_path: ???\n"
  },
  {
    "path": "examples/data2vec/config/vision/finetuning/imagenet.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 1\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: accuracy\n\ntask:\n  _name: image_classification\n  data: /datasets01/imagenet_full_size/061417\n\ndataset:\n  num_workers: 6\n  batch_size: 64\n  skip_invalid_size_inputs_valid_test: true\n  required_batch_size_multiple: 1\n  valid_subset: val\n\ndistributed_training:\n  distributed_world_size: 8\n  ddp_backend: c10d\n\ncriterion:\n  _name: model\n  log_keys:\n    - correct\n\noptimization:\n  max_update: 100000\n  lr: [0.0005]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: cosine\n  warmup_updates: 10000\n\nmodel:\n  _name: data2vec_image_classification\n  model_path: ???\n"
  },
  {
    "path": "examples/data2vec/config/vision/finetuning/mae_imagenet_clean.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n  fp16_no_flatten_grads: true\n\ncheckpoint:\n  save_interval: 1\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: accuracy\n  maximize_best_checkpoint_metric: true\n\ntask:\n  _name: mae_image_classification\n  data: /datasets01/imagenet_full_size/061417\n\ndataset:\n  num_workers: 6\n  batch_size: 32\n  skip_invalid_size_inputs_valid_test: true\n  required_batch_size_multiple: 2\n  valid_subset: val\n\ndistributed_training:\n  distributed_world_size: 16\n  ddp_backend: c10d\n\ncriterion:\n  _name: model\n  log_keys:\n    - correct\n\noptimization:\n  max_update: 250200\n  lr: [0.001]\n\noptimizer:\n  _name: composite\n  dynamic_groups: true\n  groups:\n    default:\n      lr_float: 0.001\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.95]\n        weight_decay: 0.05\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 16000\n        min_lr: 1e-6\n\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: mae_image_classification\n  mixup: 0.7\n  mixup_prob: 0.9\n\n  model_path: ???\n"
  },
  {
    "path": "examples/data2vec/config/vision/finetuning/mae_imagenet_huge_clean.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n  fp16_no_flatten_grads: true\n\ncheckpoint:\n  save_interval: 1\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: accuracy\n  maximize_best_checkpoint_metric: true\n\ntask:\n  _name: mae_image_classification\n  data: /datasets01/imagenet_full_size/061417\n\ndataset:\n  num_workers: 6\n  batch_size: 32\n  skip_invalid_size_inputs_valid_test: true\n  required_batch_size_multiple: 2\n  valid_subset: val\n\ndistributed_training:\n  distributed_world_size: 16\n  ddp_backend: c10d\n\ncriterion:\n  _name: model\n  log_keys:\n    - correct\n\noptimization:\n  max_update: 125200\n  lr: [0.0005]\n  clip_norm: 4\n\noptimizer:\n  _name: composite\n  dynamic_groups: true\n  groups:\n    default:\n      lr_float: 0.0005\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.95]\n        weight_decay: 0.05\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 16000\n        min_lr: 1e-20\n\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: mae_image_classification\n  mixup: 0.7\n  mixup_prob: 0.9\n  layer_decay: 0.75\n  drop_path_rate: 0.2\n\n  model_path: ???\n"
  },
  {
    "path": "examples/data2vec/config/vision/finetuning/mae_imagenet_large_clean.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n  fp16_no_flatten_grads: true\n\ncheckpoint:\n  save_interval: 1\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: accuracy\n  maximize_best_checkpoint_metric: true\n\ntask:\n  _name: mae_image_classification\n  data: /datasets01/imagenet_full_size/061417\n\ndataset:\n  num_workers: 6\n  batch_size: 32\n  skip_invalid_size_inputs_valid_test: true\n  required_batch_size_multiple: 2\n  valid_subset: val\n\ndistributed_training:\n  distributed_world_size: 16\n  ddp_backend: c10d\n\ncriterion:\n  _name: model\n  log_keys:\n    - correct\n\noptimization:\n  max_update: 125200\n  lr: [0.0005]\n  clip_norm: 4\n\noptimizer:\n  _name: composite\n  dynamic_groups: true\n  groups:\n    default:\n      lr_float: 0.0005\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.95]\n        weight_decay: 0.05\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 16000\n        min_lr: 1e-7\n\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: mae_image_classification\n  mixup: 0.7\n  mixup_prob: 0.9\n  layer_decay: 0.75\n  drop_path_rate: 0.2\n\n  model_path: ???\n"
  },
  {
    "path": "examples/data2vec/config/vision/finetuning/run_config/local.yaml",
    "content": "# @package _global_\nhydra:\n  sweep:\n    dir: ${env:PWD}/tmp_dbg/${now:%H-%M-%S}\n\ndistributed_training:\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n  \ncommon:\n  log_interval: 1\n  \ndataset:\n  num_workers: 0\n"
  },
  {
    "path": "examples/data2vec/config/vision/finetuning/run_config/slurm_1.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 450\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/finetuning/run_config/slurm_1_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 0\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/finetuning/run_config/slurm_2.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n          - task.local_cache_path\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 2\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/finetuning/run_config/slurm_2_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n          - task.local_cache_path\n          - model.model_path\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 2\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/finetuning/run_config/slurm_3.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 450\n    nodes: 3\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/finetuning/run_config/slurm_4.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 4\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/finetuning/run_config/slurm_4_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 4\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/finetuning/run_config/slurm_6_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 6\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/finetuning/run_config/slurm_8_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 8\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/pretraining/base_imagenet.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 5\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: image_pretraining\n  data: /datasets01/imagenet_full_size/061417/\n\ndataset:\n  num_workers: 6\n  batch_size: 64\n  skip_invalid_size_inputs_valid_test: true\n  required_batch_size_multiple: 1\n  disable_validation: true\n\ndistributed_training:\n  distributed_world_size: 16\n  ddp_backend: c10d\n\ncriterion:\n  _name: model\n  log_keys:\n    - ema_decay\n    - target_var\n    - pred_var\n\noptimization:\n  max_update: 400000\n  lr: [0.0005]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: cosine\n  warmup_updates: 10000\n\nmodel:\n  _name: data2vec_vision\n"
  },
  {
    "path": "examples/data2vec/config/vision/pretraining/base_imagenet_d2v1.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 5\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: image_pretraining\n  data: /datasets01/imagenet_full_size/061417\n\ndataset:\n  num_workers: 6\n  batch_size: 128\n  skip_invalid_size_inputs_valid_test: true\n  required_batch_size_multiple: 2\n  disable_validation: true\n\ndistributed_training:\n  distributed_world_size: 16\n  ddp_backend: legacy_ddp\n\ncriterion:\n  _name: model\n  log_keys:\n    - ema_decay\n    - target_var\n    - pred_var\n\noptimization:\n  max_update: 375300 #300*1251\n  lr: [0.0005]\n  clip_norm: 3.0\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.999)\n  adam_eps: 1e-08\n  weight_decay: 0.05\n\nlr_scheduler:\n  _name: cosine\n  warmup_updates: 12510 # it should be 10 epochs\n\nmodel:\n  _name: data2vec_vision\n\n  attention_dropout: 0.05\n\n  ema_decay: 0.999\n  ema_end_decay: 0.9998\n  layer_norm_targets: True\n  average_top_k_layers: 6\n\n  loss_beta: 2.0\n  \n  drop_path: 0.25\n"
  },
  {
    "path": "examples/data2vec/config/vision/pretraining/base_mae_imagenet.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n  fp16_no_flatten_grads: true\n\ncheckpoint:\n  save_interval: 5\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: mae_image_pretraining\n  data: /datasets01/imagenet_full_size/061417/\n  rebuild_batches: true\n\ndataset:\n  num_workers: 6\n  batch_size: 64\n  skip_invalid_size_inputs_valid_test: true\n  required_batch_size_multiple: 1\n  disable_validation: true\n\ndistributed_training:\n  distributed_world_size: 16\n  ddp_backend: c10d\n\ncriterion:\n  _name: model\n\noptimization:\n  max_update: 375300\n  lr: [0.0006]\n\noptimizer:\n  _name: composite\n  groups:\n    with_decay:\n      lr_float: 6e-4\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.95]\n        weight_decay: 0.05\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 50040\n    no_decay:\n      lr_float: 6e-4\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.95]\n        weight_decay: 0\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 50040\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: mae\n"
  },
  {
    "path": "examples/data2vec/config/vision/pretraining/run_config/local.yaml",
    "content": "# @package _global_\nhydra:\n  sweep:\n    dir: ${env:PWD}/tmp_dbg/${now:%H-%M-%S}\n\ndistributed_training:\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n  \ncommon:\n  log_interval: 1\n  \ndataset:\n  num_workers: 0\n"
  },
  {
    "path": "examples/data2vec/config/vision/pretraining/run_config/slurm_1.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 450\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/pretraining/run_config/slurm_1_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 0\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/pretraining/run_config/slurm_2.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n          - task.local_cache_path\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 2\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/pretraining/run_config/slurm_2_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n          - task.local_cache_path\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 2\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/pretraining/run_config/slurm_3.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 450\n    nodes: 3\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/pretraining/run_config/slurm_4.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 4\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/pretraining/run_config/slurm_4_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 4\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/pretraining/run_config/slurm_6_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 6\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/config/vision/pretraining/run_config/slurm_8_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 8\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/data2vec/data/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .image_dataset import ImageDataset\nfrom .path_dataset import PathDataset\nfrom .mae_image_dataset import MaeImageDataset\nfrom .mae_finetuning_image_dataset import MaeFinetuningImageDataset\n\n\n__all__ = [\n    \"ImageDataset\",\n    \"MaeImageDataset\",\n    \"MaeFinetuningImageDataset\",\n    \"PathDataset\",\n]"
  },
  {
    "path": "examples/data2vec/data/add_class_target_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\nfrom fairseq.data import BaseWrapperDataset, data_utils\n\n\nclass AddClassTargetDataset(BaseWrapperDataset):\n    def __init__(\n        self,\n        dataset,\n        labels,\n        multi_class,\n        num_classes=None,\n        label_indices=None,\n        add_to_input=True,\n    ):\n        super().__init__(dataset)\n\n        self.label_indices = label_indices\n        self.labels = labels\n        self.multi_class = multi_class\n        self.add_to_input = add_to_input\n        if num_classes is None and multi_class:\n            assert self.label_indices is not None\n            num_classes = len(self.label_indices)\n\n        self.num_classes = num_classes\n\n    def __getitem__(self, index):\n        item = self.dataset[index]\n        item_labels = self.labels[index]\n        if self.multi_class:\n            item[\"label\"] = torch.zeros(self.num_classes)\n            for il in item_labels:\n                if self.label_indices is not None:\n                    il = self.label_indices[il]\n                item[\"label\"][il] = 1.0\n        else:\n            item[\"label\"] = torch.tensor(\n                self.labels[index]\n                if self.label_indices is None\n                else self.label_indices[self.labels[index]]\n            )\n\n        return item\n\n    def collater(self, samples):\n        collated = self.dataset.collater(samples)\n        if len(collated) == 0:\n            return collated\n\n        indices = set(collated[\"id\"].tolist())\n        target = [s[\"label\"] for s in samples if s[\"id\"] in indices]\n        collated[\"label\"] = torch.stack(target, dim=0)\n\n        if self.add_to_input:\n            collated[\"net_input\"][\"label\"] = collated[\"label\"]\n\n        return collated\n"
  },
  {
    "path": "examples/data2vec/data/image_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport logging\n\nimport numpy as np\nimport os\nfrom typing import Optional, Callable, Set\n\nimport torch\n\nfrom torchvision.datasets.vision import VisionDataset\nfrom torchvision.transforms import ToTensor\n\nfrom fairseq.data import FairseqDataset\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass ImageDataset(FairseqDataset, VisionDataset):\n    def __init__(\n        self,\n        root: str,\n        extensions: Set[str],\n        load_classes: bool,\n        transform: Optional[Callable] = None,\n        shuffle=True,\n    ):\n        FairseqDataset.__init__(self)\n        VisionDataset.__init__(self, root=root, transform=transform)\n\n        self.shuffle = shuffle\n        self.tensor_transform = ToTensor()\n\n        self.classes = None\n        self.labels = None\n        if load_classes:\n            classes = [d.name for d in os.scandir(root) if d.is_dir()]\n            classes.sort()\n            self.classes = {cls_name: i for i, cls_name in enumerate(classes)}\n            logger.info(f\"loaded {len(self.classes)} classes\")\n            self.labels = []\n\n        def walk_path(root_path):\n            for root, _, fnames in sorted(os.walk(root_path, followlinks=True)):\n                for fname in sorted(fnames):\n                    fname_ext = os.path.splitext(fname)\n                    if fname_ext[-1].lower() not in extensions:\n                        continue\n\n                    path = os.path.join(root, fname)\n                    yield path\n\n        logger.info(f\"finding images in {root}\")\n        if self.classes is not None:\n            self.files = []\n            self.labels = []\n            for c, i in self.classes.items():\n                for f in walk_path(os.path.join(root, c)):\n                    self.files.append(f)\n                    self.labels.append(i)\n        else:\n            self.files = [f for f in walk_path(root)]\n\n        logger.info(f\"loaded {len(self.files)} examples\")\n\n    def __getitem__(self, index):\n        from PIL import Image\n\n        fpath = self.files[index]\n\n        with open(fpath, \"rb\") as f:\n            img = Image.open(f).convert(\"RGB\")\n\n        if self.transform is None:\n            img = self.tensor_transform(img)\n        else:\n            img = self.transform(img)\n            assert torch.is_tensor(img)\n\n        res = {\"id\": index, \"img\": img}\n\n        if self.labels is not None:\n            res[\"label\"] = self.labels[index]\n\n        return res\n\n    def __len__(self):\n        return len(self.files)\n\n    def collater(self, samples):\n        if len(samples) == 0:\n            return {}\n\n        collated_img = torch.stack([s[\"img\"] for s in samples], dim=0)\n\n        res = {\n            \"id\": torch.LongTensor([s[\"id\"] for s in samples]),\n            \"net_input\": {\n                \"img\": collated_img,\n            },\n        }\n\n        if \"label\" in samples[0]:\n            res[\"net_input\"][\"label\"] = torch.LongTensor([s[\"label\"] for s in samples])\n\n        return res\n\n    def num_tokens(self, index):\n        return 1\n\n    def size(self, index):\n        return 1\n\n    def ordered_indices(self):\n        \"\"\"Return an ordered list of indices. Batches will be constructed based\n        on this order.\"\"\"\n        if self.shuffle:\n            order = [np.random.permutation(len(self))]\n        else:\n            order = [np.arange(len(self))]\n\n        return order[0]\n"
  },
  {
    "path": "examples/data2vec/data/mae_finetuning_image_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport logging\n\nimport numpy as np\nimport os\n\nimport torch\n\nfrom torchvision import datasets, transforms\n\nfrom timm.data import create_transform\nfrom timm.data.constants import IMAGENET_DEFAULT_MEAN, IMAGENET_DEFAULT_STD\nimport PIL\n\nfrom fairseq.data import FairseqDataset\nfrom .mae_image_dataset import caching_loader\n\n\nlogger = logging.getLogger(__name__)\n\n\ndef build_transform(is_train, input_size, color_jitter, aa, reprob, remode, recount):\n    mean = IMAGENET_DEFAULT_MEAN\n    std = IMAGENET_DEFAULT_STD\n    # train transform\n    if is_train:\n        # this should always dispatch to transforms_imagenet_train\n        transform = create_transform(\n            input_size=input_size,\n            is_training=True,\n            color_jitter=color_jitter,\n            auto_augment=aa,\n            interpolation=\"bicubic\",\n            re_prob=reprob,\n            re_mode=remode,\n            re_count=recount,\n            mean=mean,\n            std=std,\n        )\n        return transform\n\n    # eval transform\n    t = []\n    if input_size <= 224:\n        crop_pct = 224 / 256\n    else:\n        crop_pct = 1.0\n    size = int(input_size / crop_pct)\n    t.append(\n        transforms.Resize(\n            size, interpolation=PIL.Image.BICUBIC\n        ),  # to maintain same ratio w.r.t. 224 images\n    )\n    t.append(transforms.CenterCrop(input_size))\n\n    t.append(transforms.ToTensor())\n    t.append(transforms.Normalize(mean, std))\n    return transforms.Compose(t)\n\n\nclass MaeFinetuningImageDataset(FairseqDataset):\n    def __init__(\n        self,\n        root: str,\n        split: str,\n        is_train: bool,\n        input_size,\n        color_jitter=None,\n        aa=\"rand-m9-mstd0.5-inc1\",\n        reprob=0.25,\n        remode=\"pixel\",\n        recount=1,\n        local_cache_path=None,\n        shuffle=True,\n    ):\n        FairseqDataset.__init__(self)\n\n        self.shuffle = shuffle\n\n        transform = build_transform(\n            is_train, input_size, color_jitter, aa, reprob, remode, recount\n        )\n\n        path = os.path.join(root, split)\n        loader = caching_loader(local_cache_path, datasets.folder.default_loader)\n\n        self.dataset = datasets.ImageFolder(path, loader=loader, transform=transform)\n\n        logger.info(f\"loaded {len(self.dataset)} examples\")\n\n    def __getitem__(self, index):\n        img, label = self.dataset[index]\n        return {\"id\": index, \"img\": img, \"label\": label}\n\n    def __len__(self):\n        return len(self.dataset)\n\n    def collater(self, samples):\n        if len(samples) == 0:\n            return {}\n\n        collated_img = torch.stack([s[\"img\"] for s in samples], dim=0)\n\n        res = {\n            \"id\": torch.LongTensor([s[\"id\"] for s in samples]),\n            \"net_input\": {\n                \"imgs\": collated_img,\n            },\n        }\n\n        if \"label\" in samples[0]:\n            res[\"net_input\"][\"labels\"] = torch.LongTensor([s[\"label\"] for s in samples])\n\n        return res\n\n    def num_tokens(self, index):\n        return 1\n\n    def size(self, index):\n        return 1\n\n    def ordered_indices(self):\n        \"\"\"Return an ordered list of indices. Batches will be constructed based\n        on this order.\"\"\"\n        if self.shuffle:\n            order = [np.random.permutation(len(self))]\n        else:\n            order = [np.arange(len(self))]\n\n        return order[0]\n"
  },
  {
    "path": "examples/data2vec/data/mae_image_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom functools import partial\nimport logging\nimport math\nimport random\nimport time\n\nimport numpy as np\nimport os\n\nimport torch\n\nfrom torchvision import datasets, transforms\nfrom .path_dataset import PathDataset\n\nfrom fairseq.data import FairseqDataset\nfrom fairseq.data.data_utils import compute_block_mask_1d, compute_block_mask_2d\n\nfrom shutil import copyfile\n\nlogger = logging.getLogger(__name__)\n\n\ndef load(path, loader, cache):\n    if hasattr(caching_loader, \"cache_root\"):\n        cache = caching_loader.cache_root\n\n    cached_path = cache + path\n\n    num_tries = 3\n    for curr_try in range(num_tries):\n        try:\n            if curr_try == 2:\n                return loader(path)\n            if not os.path.exists(cached_path) or curr_try > 0:\n                os.makedirs(os.path.dirname(cached_path), exist_ok=True)\n                copyfile(path, cached_path)\n                os.chmod(cached_path, 0o777)\n            return loader(cached_path)\n        except Exception as e:\n            logger.warning(str(e))\n            if \"Errno 13\" in str(e):\n                caching_loader.cache_root = f\"/scratch/{random.randint(0, 69420)}\"\n                logger.warning(f\"setting cache root to {caching_loader.cache_root}\")\n                cached_path = caching_loader.cache_root + path\n            if curr_try == (num_tries - 1):\n                raise\n            time.sleep(2)\n\n\ndef caching_loader(cache_root: str, loader):\n    if cache_root is None:\n        return loader\n\n    if cache_root == \"slurm_tmpdir\":\n        cache_root = os.environ[\"SLURM_TMPDIR\"]\n        assert len(cache_root) > 0\n\n    if not cache_root.endswith(\"/\"):\n        cache_root += \"/\"\n\n    return partial(load, loader=loader, cache=cache_root)\n\n\nclass RandomResizedCropAndInterpolationWithTwoPic:\n    \"\"\"Crop the given PIL Image to random size and aspect ratio with random interpolation.\n\n    A crop of random size (default: of 0.08 to 1.0) of the original size and a random\n    aspect ratio (default: of 3/4 to 4/3) of the original aspect ratio is made. This crop\n    is finally resized to given size.\n    This is popularly used to train the Inception networks.\n\n    Args:\n        size: expected output size of each edge\n        scale: range of size of the origin size cropped\n        ratio: range of aspect ratio of the origin aspect ratio cropped\n        interpolation: Default: PIL.Image.BILINEAR\n    \"\"\"\n\n    def __init__(\n        self,\n        size,\n        second_size=None,\n        scale=(0.08, 1.0),\n        ratio=(3.0 / 4.0, 4.0 / 3.0),\n        interpolation=\"bilinear\",\n        second_interpolation=\"lanczos\",\n    ):\n        if isinstance(size, tuple):\n            self.size = size\n        else:\n            self.size = (size, size)\n        if second_size is not None:\n            if isinstance(second_size, tuple):\n                self.second_size = second_size\n            else:\n                self.second_size = (second_size, second_size)\n        else:\n            self.second_size = None\n        if (scale[0] > scale[1]) or (ratio[0] > ratio[1]):\n            logger.warning(\"range should be of kind (min, max)\")\n\n        if interpolation == \"random\":\n            from PIL import Image\n\n            self.interpolation = (Image.BILINEAR, Image.BICUBIC)\n        else:\n            self.interpolation = self._pil_interp(interpolation)\n\n        self.second_interpolation = (\n            self._pil_interp(second_interpolation)\n            if second_interpolation is not None\n            else None\n        )\n        self.scale = scale\n        self.ratio = ratio\n\n    def _pil_interp(self, method):\n        from PIL import Image\n\n        if method == \"bicubic\":\n            return Image.BICUBIC\n        elif method == \"lanczos\":\n            return Image.LANCZOS\n        elif method == \"hamming\":\n            return Image.HAMMING\n        else:\n            # default bilinear, do we want to allow nearest?\n            return Image.BILINEAR\n\n    @staticmethod\n    def get_params(img, scale, ratio):\n        \"\"\"Get parameters for ``crop`` for a random sized crop.\n\n        Args:\n            img (PIL Image): Image to be cropped.\n            scale (tuple): range of size of the origin size cropped\n            ratio (tuple): range of aspect ratio of the origin aspect ratio cropped\n\n        Returns:\n            tuple: params (i, j, h, w) to be passed to ``crop`` for a random\n                sized crop.\n        \"\"\"\n        area = img.size[0] * img.size[1]\n\n        for attempt in range(10):\n            target_area = random.uniform(*scale) * area\n            log_ratio = (math.log(ratio[0]), math.log(ratio[1]))\n            aspect_ratio = math.exp(random.uniform(*log_ratio))\n\n            w = int(round(math.sqrt(target_area * aspect_ratio)))\n            h = int(round(math.sqrt(target_area / aspect_ratio)))\n\n            if w <= img.size[0] and h <= img.size[1]:\n                i = random.randint(0, img.size[1] - h)\n                j = random.randint(0, img.size[0] - w)\n                return i, j, h, w\n\n        # Fallback to central crop\n        in_ratio = img.size[0] / img.size[1]\n        if in_ratio < min(ratio):\n            w = img.size[0]\n            h = int(round(w / min(ratio)))\n        elif in_ratio > max(ratio):\n            h = img.size[1]\n            w = int(round(h * max(ratio)))\n        else:  # whole image\n            w = img.size[0]\n            h = img.size[1]\n        i = (img.size[1] - h) // 2\n        j = (img.size[0] - w) // 2\n        return i, j, h, w\n\n    def __call__(self, img):\n        import torchvision.transforms.functional as F\n\n        \"\"\"\n        Args:\n            img (PIL Image): Image to be cropped and resized.\n\n        Returns:\n            PIL Image: Randomly cropped and resized image.\n        \"\"\"\n        i, j, h, w = self.get_params(img, self.scale, self.ratio)\n        if isinstance(self.interpolation, (tuple, list)):\n            interpolation = random.choice(self.interpolation)\n        else:\n            interpolation = self.interpolation\n        if self.second_size is None:\n            return F.resized_crop(img, i, j, h, w, self.size, interpolation)\n        else:\n            return F.resized_crop(\n                img, i, j, h, w, self.size, interpolation\n            ), F.resized_crop(\n                img, i, j, h, w, self.second_size, self.second_interpolation\n            )\n\n\nclass MaeImageDataset(FairseqDataset):\n    def __init__(\n        self,\n        root: str,\n        split: str,\n        input_size,\n        local_cache_path=None,\n        shuffle=True,\n        key=\"imgs\",\n        beit_transforms=False,\n        target_transform=False,\n        no_transform=False,\n        compute_mask=False,\n        patch_size: int = 16,\n        mask_prob: float = 0.75,\n        mask_prob_adjust: float = 0,\n        mask_length: int = 1,\n        inverse_mask: bool = False,\n        expand_adjacent: bool = False,\n        mask_dropout: float = 0,\n        non_overlapping: bool = False,\n        require_same_masks: bool = True,\n        clone_batch: int = 1,\n        dataset_type: str = \"imagefolder\",\n    ):\n        FairseqDataset.__init__(self)\n\n        self.shuffle = shuffle\n        self.key = key\n\n        loader = caching_loader(local_cache_path, datasets.folder.default_loader)\n\n        self.transform_source = None\n        self.transform_target = None\n\n        if target_transform:\n            self.transform_source = transforms.ColorJitter(0.4, 0.4, 0.4)\n            self.transform_target = transforms.ColorJitter(0.4, 0.4, 0.4)\n\n        if no_transform:\n            if input_size <= 224:\n                crop_pct = 224 / 256\n            else:\n                crop_pct = 1.0\n            size = int(input_size / crop_pct)\n\n            self.transform_train = transforms.Compose(\n                [\n                    transforms.Resize(size, interpolation=3),\n                    transforms.CenterCrop(input_size),\n                ]\n            )\n\n            self.transform_train = transforms.Resize((input_size, input_size))\n        elif beit_transforms:\n            beit_transform_list = []\n            if not target_transform:\n                beit_transform_list.append(transforms.ColorJitter(0.4, 0.4, 0.4))\n            beit_transform_list.extend(\n                [\n                    transforms.RandomHorizontalFlip(p=0.5),\n                    RandomResizedCropAndInterpolationWithTwoPic(\n                        size=input_size,\n                        second_size=None,\n                        interpolation=\"bicubic\",\n                        second_interpolation=None,\n                    ),\n                ]\n            )\n            self.transform_train = transforms.Compose(beit_transform_list)\n        else:\n            self.transform_train = transforms.Compose(\n                [\n                    transforms.RandomResizedCrop(\n                        input_size, scale=(0.2, 1.0), interpolation=3\n                    ),  # 3 is bicubic\n                    transforms.RandomHorizontalFlip(),\n                ]\n            )\n        self.final_transform = transforms.Compose(\n            [\n                transforms.ToTensor(),\n                transforms.Normalize(\n                    mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]\n                ),\n            ]\n        )\n\n        if dataset_type == \"imagefolder\":\n            self.dataset = datasets.ImageFolder(\n                os.path.join(root, split), loader=loader\n            )\n        elif dataset_type == \"path\":\n            self.dataset = PathDataset(\n                root,\n                loader,\n                None,\n                None,\n                mean=[0.485, 0.456, 0.406],\n                std=[0.229, 0.224, 0.225],\n            )\n        else:\n            raise Exception(f\"invalid dataset type {dataset_type}\")\n\n        logger.info(\n            f\"initial transform: {self.transform_train}, \"\n            f\"source transform: {self.transform_source}, \"\n            f\"target transform: {self.transform_target}, \"\n            f\"final transform: {self.final_transform}\"\n        )\n        logger.info(f\"loaded {len(self.dataset)} examples\")\n\n        self.is_compute_mask = compute_mask\n        self.patches = (input_size // patch_size) ** 2\n        self.mask_prob = mask_prob\n        self.mask_prob_adjust = mask_prob_adjust\n        self.mask_length = mask_length\n        self.inverse_mask = inverse_mask\n        self.expand_adjacent = expand_adjacent\n        self.mask_dropout = mask_dropout\n        self.non_overlapping = non_overlapping\n        self.require_same_masks = require_same_masks\n        self.clone_batch = clone_batch\n\n    def __getitem__(self, index):\n        img, _ = self.dataset[index]\n\n        img = self.transform_train(img)\n\n        source = None\n        target = None\n        if self.transform_source is not None:\n            source = self.final_transform(self.transform_source(img))\n        if self.transform_target is not None:\n            target = self.final_transform(self.transform_target(img))\n\n        if source is None:\n            img = self.final_transform(img)\n\n        v = {\"id\": index, self.key: source if source is not None else img}\n        if target is not None:\n            v[\"target\"] = target\n\n        if self.is_compute_mask:\n            if self.mask_length == 1:\n                mask = compute_block_mask_1d(\n                    shape=(self.clone_batch, self.patches),\n                    mask_prob=self.mask_prob,\n                    mask_length=self.mask_length,\n                    mask_prob_adjust=self.mask_prob_adjust,\n                    inverse_mask=self.inverse_mask,\n                    require_same_masks=True,\n                )\n            else:\n                mask = compute_block_mask_2d(\n                    shape=(self.clone_batch, self.patches),\n                    mask_prob=self.mask_prob,\n                    mask_length=self.mask_length,\n                    mask_prob_adjust=self.mask_prob_adjust,\n                    inverse_mask=self.inverse_mask,\n                    require_same_masks=True,\n                    expand_adjcent=self.expand_adjacent,\n                    mask_dropout=self.mask_dropout,\n                    non_overlapping=self.non_overlapping,\n                )\n\n            v[\"precomputed_mask\"] = mask\n\n        return v\n\n    def __len__(self):\n        return len(self.dataset)\n\n    def collater(self, samples):\n        if len(samples) == 0:\n            return {}\n\n        collated_img = torch.stack([s[self.key] for s in samples], dim=0)\n\n        res = {\n            \"id\": torch.LongTensor([s[\"id\"] for s in samples]),\n            \"net_input\": {\n                self.key: collated_img,\n            },\n        }\n\n        if \"target\" in samples[0]:\n            collated_target = torch.stack([s[\"target\"] for s in samples], dim=0)\n            res[\"net_input\"][\"target\"] = collated_target\n\n        if \"precomputed_mask\" in samples[0]:\n            collated_mask = torch.cat([s[\"precomputed_mask\"] for s in samples], dim=0)\n            res[\"net_input\"][\"precomputed_mask\"] = collated_mask\n\n        return res\n\n    def num_tokens(self, index):\n        return 1\n\n    def size(self, index):\n        return 1\n\n    @property\n    def sizes(self):\n        return np.full((len(self),), 1)\n\n    def ordered_indices(self):\n        \"\"\"Return an ordered list of indices. Batches will be constructed based\n        on this order.\"\"\"\n        if self.shuffle:\n            order = [np.random.permutation(len(self))]\n        else:\n            order = [np.arange(len(self))]\n\n        return order[0]\n"
  },
  {
    "path": "examples/data2vec/data/modality.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nfrom enum import Enum, auto\n\n\nclass Modality(Enum):\n    AUDIO = auto()\n    IMAGE = auto()\n    TEXT = auto()\n"
  },
  {
    "path": "examples/data2vec/data/path_dataset.py",
    "content": "import glob\nimport os\nfrom typing import List, Optional, Tuple\n\nimport logging\nimport numpy as np\nimport torchvision.transforms.functional as TF\nimport PIL\nfrom PIL import Image\nfrom torchvision.datasets import VisionDataset\n\nlogger = logging.getLogger(__name__)\n\n\nclass PathDataset(VisionDataset):\n    def __init__(\n        self,\n        root: List[str],\n        loader: None = None,\n        transform: Optional[str] = None,\n        extra_transform: Optional[str] = None,\n        mean: Optional[List[float]] = None,\n        std: Optional[List[float]] = None,\n    ):\n        super().__init__(root=root)\n\n        PIL.Image.MAX_IMAGE_PIXELS = 256000001\n\n        self.files = []\n        for folder in self.root:\n            self.files.extend(\n                sorted(glob.glob(os.path.join(folder, \"**\", \"*.jpg\"), recursive=True))\n            )\n            self.files.extend(\n                sorted(glob.glob(os.path.join(folder, \"**\", \"*.png\"), recursive=True))\n            )\n\n        self.transform = transform\n        self.extra_transform = extra_transform\n        self.mean = mean\n        self.std = std\n\n        self.loader = loader\n\n        logger.info(f\"loaded {len(self.files)} samples from {root}\")\n\n        assert (mean is None) == (std is None)\n\n    def __len__(self) -> int:\n        return len(self.files)\n\n    def __getitem__(self, idx) -> Tuple[np.ndarray, np.ndarray]:\n        path = self.files[idx]\n\n        if self.loader is not None:\n            return self.loader(path), None\n\n        img = Image.open(path).convert(\"RGB\")\n        if self.transform is not None:\n            img = self.transform(img)\n        img = TF.to_tensor(img)\n        if self.mean is not None and self.std is not None:\n            img = TF.normalize(img, self.mean, self.std)\n        return img, None\n"
  },
  {
    "path": "examples/data2vec/fb_convert_beit_cp.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport torch\n\nfrom omegaconf import OmegaConf\n\nfrom fairseq.criterions.model_criterion import ModelCriterionConfig\nfrom fairseq.dataclass.configs import FairseqConfig\n\nfrom tasks import ImageClassificationConfig, ImagePretrainingConfig\nfrom models.data2vec_image_classification import (\n    Data2VecImageClassificationConfig,\n    Data2VecImageClassificationModel,\n)\nfrom models.data2vec_vision import Data2VecVisionConfig, Data2VecVisionModel\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"convert beit checkpoint into data2vec - vision checkpoint\"\n    )\n    # fmt: off\n    parser.add_argument('checkpoint', help='checkpoint to convert')\n    parser.add_argument('--output', required=True, metavar='PATH', help='where to output converted checkpoint')\n    parser.add_argument('--type', type=str, choices=['vision', 'image_classification'], default='image_classification', help='type of model to upgrade')\n    parser.add_argument('--inception_norms', action='store_true', default=False)\n    # fmt: on\n\n    return parser\n\n\ndef update_checkpoint(model_dict, prefix, is_nested):\n\n    replace_paths = {\n        \"cls_token\": \"model.cls_emb\" if is_nested else \"cls_emb\",\n        \"patch_embed\": \"model.patch_embed\" if is_nested else \"patch_embed\",\n        \"mask_token\": \"mask_emb\",\n    }\n\n    starts_with = {\n        \"patch_embed.proj\": \"model.patch_embed.conv\"\n        if is_nested\n        else \"patch_embed.conv\",\n        \"lm_head\": \"final_proj\",\n        \"fc_norm\": \"fc_norm\",\n        \"head\": \"head\",\n    }\n\n    partial = {\n        \"mlp.fc1\": \"mlp.0\",\n        \"mlp.fc2\": \"mlp.2\",\n    }\n\n    for k in list(model_dict.keys()):\n        for sw, r in starts_with.items():\n            if k.startswith(sw):\n                replace_paths[k] = k.replace(sw, r)\n        for p, r in partial.items():\n            if p in k:\n                replace_paths[k] = prefix + k.replace(p, r)\n\n    if prefix != \"\":\n        for k in list(model_dict.keys()):\n            if k not in replace_paths:\n                replace_paths[k] = prefix + k\n\n    for k in list(model_dict.keys()):\n        if k in replace_paths:\n            model_dict[replace_paths[k]] = model_dict[k]\n            if k != replace_paths[k]:\n                del model_dict[k]\n\n    return model_dict\n\n\ndef main():\n    parser = get_parser()\n    args = parser.parse_args()\n\n    cp = torch.load(args.checkpoint, map_location=\"cpu\")\n\n    cfg = FairseqConfig(\n        criterion=ModelCriterionConfig(_name=\"model\", log_keys=[\"correct\"]),\n    )\n\n    if args.type == \"image_classification\":\n\n        cfg.task = ImageClassificationConfig(\n            _name=\"image_classification\",\n            data=\".\",\n        )\n\n        if args.inception_norms:\n            cfg.task.normalization_mean = [0.5, 0.5, 0.5]\n            cfg.task.normalization_std = [0.5, 0.5, 0.5]\n\n        cfg.model = Data2VecImageClassificationConfig(\n            _name=\"data2vec_image_classification\",\n        )\n        cfg.model.pretrained_model_args = FairseqConfig(\n            model=Data2VecVisionConfig(\n                _name=\"data2vec_vision\", shared_rel_pos_bias=False\n            ),\n            task=ImagePretrainingConfig(\n                _name=\"image_pretraining\",\n            ),\n        )\n\n        cfg = OmegaConf.create(cfg)\n\n        state = {\n            \"cfg\": OmegaConf.to_container(cfg, resolve=True, enum_to_str=True),\n            \"model\": cp[\"module\"],\n            \"best_loss\": None,\n            \"optimizer\": None,\n            \"extra_state\": {},\n        }\n\n        model = Data2VecImageClassificationModel(cfg.model)\n        model.load_state_dict(\n            update_checkpoint(state[\"model\"], prefix=\"model.encoder.\", is_nested=True),\n            strict=True,\n        )\n    elif args.type == \"vision\":\n        cfg.task = ImagePretrainingConfig(\n            _name=\"image_pretraining\",\n            data=\".\",\n        )\n\n        if args.inception_norms:\n            cfg.task.normalization_mean = [0.5, 0.5, 0.5]\n            cfg.task.normalization_std = [0.5, 0.5, 0.5]\n\n        cfg.model = Data2VecVisionConfig(\n            _name=\"data2vec_vision\",\n        )\n        cfg = OmegaConf.create(cfg)\n\n        state = {\n            \"cfg\": OmegaConf.to_container(cfg, resolve=True, enum_to_str=True),\n            \"model\": cp[\"model\"],\n            \"best_loss\": None,\n            \"optimizer\": None,\n            \"extra_state\": {},\n        }\n\n        model = Data2VecVisionModel(cfg.model)\n        model.load_state_dict(\n            update_checkpoint(state[\"model\"], prefix=\"encoder.\", is_nested=False),\n            strict=True,\n        )\n    else:\n        raise Exception(\"unsupported type \" + args.type)\n\n    print(state[\"cfg\"], state.keys())\n    torch.save(state, args.output)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/data2vec/models/__init__.py",
    "content": ""
  },
  {
    "path": "examples/data2vec/models/audio_classification.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport contextlib\nimport logging\nimport re\nfrom dataclasses import dataclass, field\nfrom typing import Any, Optional\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nimport numpy as np\nfrom omegaconf import II, MISSING, open_dict\n\nfrom fairseq import checkpoint_utils, tasks\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.models import (\n    BaseFairseqModel,\n    register_model,\n)\nfrom fairseq.models.wav2vec.wav2vec2 import MASKING_DISTRIBUTION_CHOICES\nfrom fairseq.modules import TransposeLast\nfrom fairseq.tasks import FairseqTask\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass AudioClassificationConfig(FairseqDataclass):\n    model_path: str = field(\n        default=MISSING, metadata={\"help\": \"path to wav2vec 2.0 model\"}\n    )\n    no_pretrained_weights: bool = field(\n        default=False, metadata={\"help\": \"if true, does not load pretrained weights\"}\n    )\n    dropout_input: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout to apply to the input (after feat extr)\"},\n    )\n    final_dropout: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout after transformer and before final projection\"},\n    )\n    dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout probability inside wav2vec 2.0 model\"}\n    )\n    attention_dropout: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"dropout probability for attention weights inside wav2vec 2.0 model\"\n        },\n    )\n    activation_dropout: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"dropout probability after activation in FFN inside wav2vec 2.0 model\"\n        },\n    )\n\n    # masking\n    apply_mask: bool = field(\n        default=False, metadata={\"help\": \"apply masking during fine-tuning\"}\n    )\n    mask_length: int = field(\n        default=10, metadata={\"help\": \"repeat the mask indices multiple times\"}\n    )\n    mask_prob: float = field(\n        default=0.5,\n        metadata={\n            \"help\": \"probability of replacing a token with mask (normalized by length)\"\n        },\n    )\n    mask_selection: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\", metadata={\"help\": \"how to choose masks\"}\n    )\n    mask_other: float = field(\n        default=0,\n        metadata={\n            \"help\": \"secondary mask argument (used for more complex distributions), \"\n            \"see help in compute_mask_indices\"\n        },\n    )\n    no_mask_overlap: bool = field(\n        default=False, metadata={\"help\": \"whether to allow masks to overlap\"}\n    )\n    mask_min_space: Optional[int] = field(\n        default=1,\n        metadata={\"help\": \"min space between spans (if no overlap is enabled)\"},\n    )\n    require_same_masks: bool = field(\n        default=True,\n        metadata={\n            \"help\": \"whether to number of masked timesteps must be the same across all \"\n            \"examples in a batch\"\n        },\n    )\n    mask_dropout: float = field(\n        default=0.0,\n        metadata={\"help\": \"percent of masks to unmask for each sample\"},\n    )\n\n    # channel masking\n    mask_channel_length: int = field(\n        default=10, metadata={\"help\": \"length of the mask for features (channels)\"}\n    )\n    mask_channel_prob: float = field(\n        default=0.0, metadata={\"help\": \"probability of replacing a feature with 0\"}\n    )\n    mask_channel_selection: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\",\n        metadata={\"help\": \"how to choose mask length for channel masking\"},\n    )\n    mask_channel_other: float = field(\n        default=0,\n        metadata={\n            \"help\": \"secondary mask argument (used for more complex distributions), \"\n            \"see help in compute_mask_indicesh\"\n        },\n    )\n    no_mask_channel_overlap: bool = field(\n        default=False, metadata={\"help\": \"whether to allow channel masks to overlap\"}\n    )\n    freeze_finetune_updates: int = field(\n        default=0, metadata={\"help\": \"dont finetune wav2vec for this many updates\"}\n    )\n    feature_grad_mult: float = field(\n        default=0.0, metadata={\"help\": \"reset feature grad mult in wav2vec 2.0 to this\"}\n    )\n    layerdrop: float = field(\n        default=0.0, metadata={\"help\": \"probability of dropping a layer in wav2vec 2.0\"}\n    )\n    mask_channel_min_space: Optional[int] = field(\n        default=1,\n        metadata={\"help\": \"min space between spans (if no overlap is enabled)\"},\n    )\n    mask_channel_before: bool = False\n    normalize: bool = II(\"task.normalize\")\n    data: str = II(\"task.data\")\n    # this holds the loaded wav2vec args\n    d2v_args: Any = None\n    offload_activations: bool = field(\n        default=False, metadata={\"help\": \"offload_activations\"}\n    )\n    min_params_to_wrap: int = field(\n        default=int(1e8),\n        metadata={\n            \"help\": \"minimum number of params for a layer to be wrapped with FSDP() when \"\n            \"training with --ddp-backend=fully_sharded. Smaller values will \"\n            \"improve memory efficiency, but may make torch.distributed \"\n            \"communication less efficient due to smaller input sizes. This option \"\n            \"is set to 0 (i.e., always wrap) when --checkpoint-activations or \"\n            \"--offload-activations are passed.\"\n        },\n    )\n\n    checkpoint_activations: bool = field(\n        default=False,\n        metadata={\"help\": \"recompute activations and save memory for extra compute\"},\n    )\n    ddp_backend: str = II(\"distributed_training.ddp_backend\")\n\n    prediction_mode: str = \"lin_softmax\"\n    eval_prediction_mode: Optional[str] = None\n    conv_kernel: int = -1\n    conv_stride: int = 1\n    two_convs: bool = False\n    extreme_factor: float = 1.0\n\n    conv_feature_layers: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"string describing convolutional feature extraction layers in form of a python list that contains \"\n            \"[(dim, kernel_size, stride), ...]\"\n        },\n    )\n\n    mixup_prob: float = 1.0\n    source_mixup: float = -1\n    same_mixup: bool = True\n    label_mixup: bool = False\n\n    gain_mode: str = \"none\"\n\n\n@register_model(\"audio_classification\", dataclass=AudioClassificationConfig)\nclass AudioClassificationModel(BaseFairseqModel):\n    def __init__(self, cfg: AudioClassificationConfig, num_classes):\n        super().__init__()\n\n        self.apply_mask = cfg.apply_mask\n        self.cfg = cfg\n\n        arg_overrides = {\n            \"dropout\": cfg.dropout,\n            \"activation_dropout\": cfg.activation_dropout,\n            \"dropout_input\": cfg.dropout_input,\n            \"attention_dropout\": cfg.attention_dropout,\n            \"mask_length\": cfg.mask_length,\n            \"mask_prob\": cfg.mask_prob,\n            \"require_same_masks\": getattr(cfg, \"require_same_masks\", True),\n            \"mask_dropout\": getattr(cfg, \"mask_dropout\", 0),\n            \"mask_selection\": cfg.mask_selection,\n            \"mask_other\": cfg.mask_other,\n            \"no_mask_overlap\": cfg.no_mask_overlap,\n            \"mask_channel_length\": cfg.mask_channel_length,\n            \"mask_channel_prob\": cfg.mask_channel_prob,\n            \"mask_channel_before\": cfg.mask_channel_before,\n            \"mask_channel_selection\": cfg.mask_channel_selection,\n            \"mask_channel_other\": cfg.mask_channel_other,\n            \"no_mask_channel_overlap\": cfg.no_mask_channel_overlap,\n            \"encoder_layerdrop\": cfg.layerdrop,\n            \"feature_grad_mult\": cfg.feature_grad_mult,\n            \"checkpoint_activations\": cfg.checkpoint_activations,\n            \"offload_activations\": cfg.offload_activations,\n            \"min_params_to_wrap\": cfg.min_params_to_wrap,\n            \"mixup\": -1,\n        }\n\n        if cfg.conv_feature_layers is not None:\n            arg_overrides[\"conv_feature_layers\"] = cfg.conv_feature_layers\n\n        if cfg.d2v_args is None:\n            state = checkpoint_utils.load_checkpoint_to_cpu(\n                cfg.model_path, arg_overrides\n            )\n            d2v_args = state.get(\"cfg\", None)\n            if d2v_args is None:\n                d2v_args = convert_namespace_to_omegaconf(state[\"args\"])\n            d2v_args.criterion = None\n            d2v_args.lr_scheduler = None\n            cfg.d2v_args = d2v_args\n\n            logger.info(d2v_args)\n\n        else:\n            state = None\n            d2v_args = cfg.d2v_args\n\n        model_normalized = d2v_args.task.get(\n            \"normalize\", d2v_args.model.get(\"normalize\", False)\n        )\n        assert cfg.normalize == model_normalized, (\n            \"Fine-tuning works best when data normalization is the same. \"\n            \"Please check that --normalize is set or unset for both pre-training and here\"\n        )\n\n        if hasattr(cfg, \"checkpoint_activations\") and cfg.checkpoint_activations:\n            with open_dict(d2v_args):\n                d2v_args.model.checkpoint_activations = cfg.checkpoint_activations\n\n        d2v_args.task.data = cfg.data\n        task = tasks.setup_task(d2v_args.task)\n        model = task.build_model(d2v_args.model, from_checkpoint=True)\n\n        model.remove_pretraining_modules()\n\n        if state is not None and not cfg.no_pretrained_weights:\n            self.load_model_weights(state, model, cfg)\n\n        d = d2v_args.model.encoder_embed_dim\n\n        self.d2v_model = model\n\n        self.final_dropout = nn.Dropout(cfg.final_dropout)\n        self.freeze_finetune_updates = cfg.freeze_finetune_updates\n        self.num_updates = 0\n\n        for p in self.parameters():\n            p.param_group = \"pretrained\"\n\n        if cfg.prediction_mode == \"proj_avg_proj\":\n            self.proj = nn.Linear(d, d * 2)\n            self.proj2 = nn.Linear(d * 2, num_classes)\n\n            for p in self.proj.parameters():\n                p.param_group = \"projection\"\n            for p in self.proj2.parameters():\n                p.param_group = \"projection\"\n        elif self.cfg.prediction_mode == \"summary_proj\":\n            self.proj = nn.Linear(d // 3, num_classes)\n            for p in self.proj.parameters():\n                p.param_group = \"projection\"\n        elif self.cfg.conv_kernel > 1 and not self.cfg.two_convs:\n            self.proj = nn.Sequential(\n                TransposeLast(),\n                nn.Conv1d(d, num_classes, kernel_size=self.cfg.conv_kernel, stride=self.cfg.conv_stride),\n                TransposeLast(),\n            )\n            for p in self.proj.parameters():\n                p.param_group = \"projection\"\n        elif self.cfg.conv_kernel > 0 and self.cfg.two_convs:\n            self.proj = nn.Sequential(\n                TransposeLast(),\n                nn.Conv1d(d, d, kernel_size=self.cfg.conv_kernel, stride=self.cfg.conv_stride),\n                TransposeLast(),\n                nn.GELU(),\n                nn.Linear(d, num_classes),\n            )\n            for p in self.proj.parameters():\n                p.param_group = \"projection\"\n        else:\n            self.proj = nn.Linear(d, num_classes)\n            for p in self.proj.parameters():\n                p.param_group = \"projection\"\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        super().upgrade_state_dict_named(state_dict, name)\n        return state_dict\n\n    @classmethod\n    def build_model(cls, cfg: AudioClassificationConfig, task: FairseqTask):\n        \"\"\"Build a new model instance.\"\"\"\n\n        assert hasattr(task, \"labels\"), f\"Task {task} must have an attribute 'labels'\"\n\n        return cls(cfg, len(task.labels))\n\n    def load_model_weights(self, state, model, cfg):\n        if cfg.ddp_backend == \"fully_sharded\":\n            from fairseq.distributed import FullyShardedDataParallel\n\n            for name, module in model.named_modules():\n                if \"encoder.layers\" in name and len(name.split(\".\")) == 3:\n                    # Only for layers, we do a special handling and load the weights one by one\n                    # We dont load all weights together as that wont be memory efficient and may\n                    # cause oom\n                    new_dict = {\n                        k.replace(name + \".\", \"\"): v\n                        for (k, v) in state[\"model\"].items()\n                        if name + \".\" in k\n                    }\n                    assert isinstance(module, FullyShardedDataParallel)\n                    with module.summon_full_params():\n                        module.load_state_dict(new_dict, strict=True)\n                    module._reset_lazy_init()\n\n            # Once layers are loaded, filter them out and load everything else.\n            r = re.compile(\"encoder.layers.\\d.\")\n            filtered_list = list(filter(r.match, state[\"model\"].keys()))\n\n            new_big_dict = {\n                k: v for (k, v) in state[\"model\"].items() if k not in filtered_list\n            }\n\n            model.load_state_dict(new_big_dict, strict=False)\n        else:\n            if \"_ema\" in state[\"model\"]:\n                del state[\"model\"][\"_ema\"]\n            model.load_state_dict(state[\"model\"], strict=False)\n\n    def set_num_updates(self, num_updates):\n        \"\"\"Set the number of parameters updates.\"\"\"\n        super().set_num_updates(num_updates)\n        self.num_updates = num_updates\n\n    def compute_gain(self, sound, fs=16_000, min_db=-80.0, mode=\"A_weighting\"):\n        if fs == 16000:\n            n_fft = 2048\n        elif fs == 44100:\n            n_fft = 4096\n        else:\n            raise Exception(\"Invalid fs {}\".format(fs))\n        stride = n_fft // 2\n\n        def a_weight(fs, n_fft, min_db=-80.0):\n            freq = np.linspace(0, fs // 2, n_fft // 2 + 1)\n            freq_sq = np.power(freq, 2)\n            freq_sq[0] = 1.0\n            weight = 2.0 + 20.0 * (\n                2 * np.log10(12194)\n                + 2 * np.log10(freq_sq)\n                - np.log10(freq_sq + 12194 ** 2)\n                - np.log10(freq_sq + 20.6 ** 2)\n                - 0.5 * np.log10(freq_sq + 107.7 ** 2)\n                - 0.5 * np.log10(freq_sq + 737.9 ** 2)\n            )\n            weight = np.maximum(weight, min_db)\n\n            return weight\n\n        gain = []\n        for i in range(0, len(sound) - n_fft + 1, stride):\n            if mode == \"RMSE\":\n                g = np.mean(sound[i : i + n_fft] ** 2)\n            elif mode == \"A_weighting\":\n                spec = np.fft.rfft(np.hanning(n_fft + 1)[:-1] * sound[i : i + n_fft])\n                power_spec = np.abs(spec) ** 2\n                a_weighted_spec = power_spec * np.power(10, a_weight(fs, n_fft) / 10)\n                g = np.sum(a_weighted_spec)\n            else:\n                raise Exception(\"Invalid mode {}\".format(mode))\n            gain.append(g)\n\n        gain = np.array(gain)\n        gain = np.maximum(gain, np.power(10, min_db / 10))\n        gain_db = 10 * np.log10(gain)\n\n        return gain_db\n\n    # adapted from https://github.com/mil-tokyo/bc_learning_sound/blob/master/utils.py\n    def compute_gain_torch(self, sound, fs=16_000, min_db=-80.0, mode=\"A_weighting\"):\n        if fs == 16000:\n            n_fft = 2048\n        elif fs == 44100:\n            n_fft = 4096\n        else:\n            raise Exception(\"Invalid fs {}\".format(fs))\n\n        if mode == \"A_weighting\":\n            if not hasattr(self, f\"a_weight\"):\n                self.a_weight = {}\n\n            if fs not in self.a_weight:\n\n                def a_weight(fs, n_fft, min_db=-80.0):\n                    freq = np.linspace(0, fs // 2, n_fft // 2 + 1)\n                    freq_sq = freq ** 2\n                    freq_sq[0] = 1.0\n                    weight = 2.0 + 20.0 * (\n                        2 * np.log10(12194)\n                        + 2 * np.log10(freq_sq)\n                        - np.log10(freq_sq + 12194 ** 2)\n                        - np.log10(freq_sq + 20.6 ** 2)\n                        - 0.5 * np.log10(freq_sq + 107.7 ** 2)\n                        - 0.5 * np.log10(freq_sq + 737.9 ** 2)\n                    )\n                    weight = np.maximum(weight, min_db)\n\n                    return weight\n\n                self.a_weight[fs] = torch.from_numpy(\n                    np.power(10, a_weight(fs, n_fft, min_db) / 10)\n                ).to(device=sound.device)\n\n        sound = sound.unfold(-1, n_fft, n_fft // 2)\n\n        if mode == \"RMSE\":\n            sound = sound ** 2\n            g = sound.mean(-1)\n        elif mode == \"A_weighting\":\n            w = torch.hann_window(n_fft, device=sound.device) * sound\n            spec = torch.fft.rfft(w)\n            power_spec = spec.abs() ** 2\n            a_weighted_spec = power_spec * self.a_weight[fs]\n            g = a_weighted_spec.sum(-1)\n        else:\n            raise Exception(\"Invalid mode {}\".format(mode))\n\n        gain = torch.maximum(g, torch.tensor(10 ** (min_db / 10), device=g.device))\n        gain_db = 10 * torch.log10(gain)\n\n        return gain_db\n\n    def forward(self, source, padding_mask, label=None, **kwargs):\n\n        if self.cfg.source_mixup >= 0 and self.training and self.cfg.mixup_prob > 0:\n            with torch.no_grad():\n                mixed_source = source\n                mix_mask = None\n                if self.cfg.mixup_prob < 1:\n                    mix_mask = (\n                        torch.empty((source.size(0),), device=source.device)\n                        .bernoulli_(self.cfg.mixup_prob)\n                        .bool()\n                    )\n                    mixed_source = source[mix_mask]\n\n                r = (\n                    torch.FloatTensor(\n                        1 if self.cfg.same_mixup else mixed_source.size(0)\n                    )\n                    .uniform_(max(1e-6, self.cfg.source_mixup), 1)\n                    .to(dtype=source.dtype, device=source.device)\n                )\n\n                mixup_perm = torch.randperm(source.size(0))\n                s2 = source[mixup_perm]\n\n                if self.cfg.gain_mode == \"none\":\n                    p = r.unsqueeze(-1)\n                    if mix_mask is not None:\n                        s2 = s2[mix_mask]\n                else:\n                    if self.cfg.gain_mode == \"naive_rms\":\n                        G1 = source.pow(2).mean(dim=-1).sqrt()\n                    else:\n                        G1, _ = self.compute_gain_torch(\n                            source, mode=self.cfg.gain_mode\n                        ).max(-1)\n                        G1 = G1.to(dtype=source.dtype)\n\n                    G2 = G1[mixup_perm]\n\n                    if mix_mask is not None:\n                        G1 = G1[mix_mask]\n                        G2 = G2[mix_mask]\n                        s2 = s2[mix_mask]\n\n                    p = 1 / (1 + 10 ** ((G1 - G2) / 20) * (1 - r) / r)\n                    p = p.unsqueeze(-1)\n\n                mixed = (p * mixed_source) + (1 - p) * s2\n\n                if mix_mask is None:\n                    source = mixed / torch.sqrt(p ** 2 + (1 - p) ** 2)\n                else:\n                    source[mix_mask] = mixed / torch.sqrt(p ** 2 + (1 - p) ** 2)\n\n                if label is not None and self.cfg.label_mixup:\n                    r = r.unsqueeze(-1)\n                    if mix_mask is None:\n                        label = label * r + (1 - r) * label[mixup_perm]\n                    else:\n                        label[mix_mask] = (\n                            label[mix_mask] * r + (1 - r) * label[mixup_perm][mix_mask]\n                        )\n\n        d2v_args = {\n            \"source\": source,\n            \"padding_mask\": padding_mask,\n            \"mask\": self.apply_mask and self.training,\n        }\n\n        ft = self.freeze_finetune_updates <= self.num_updates\n\n        with torch.no_grad() if not ft else contextlib.ExitStack():\n            res = self.d2v_model.extract_features(**d2v_args)\n\n            x = res[\"x\"]\n            padding_mask = res[\"padding_mask\"]\n            if padding_mask is not None:\n                x[padding_mask] = 0\n\n        x = self.final_dropout(x)\n\n        if self.training or (\n            self.cfg.eval_prediction_mode is None or self.cfg.eval_prediction_mode == \"\"\n        ):\n            prediction_mode = self.cfg.prediction_mode\n        else:\n            prediction_mode = self.cfg.eval_prediction_mode\n\n        if prediction_mode == \"average_before\":\n            x = x.mean(dim=1)\n\n        if prediction_mode != \"summary_mha\" and prediction_mode != \"summary_proj\" and prediction_mode != \"cls\":\n            x = self.proj(x)\n\n        logits = True\n        if prediction_mode == \"lin_softmax\":\n            x = F.logsigmoid(x.float())\n            x = torch.logsumexp(x + x, dim=1) - torch.logsumexp(x, dim=1)\n            x = x.clamp(max=0)\n            x = x - torch.log(-(torch.expm1(x)))\n        elif prediction_mode == \"extremized_odds\":\n            x = x.float().sum(dim=1)\n            x = x * self.cfg.extreme_factor\n        elif prediction_mode == \"average_before\":\n            x = x.float()\n        elif prediction_mode == \"average\":\n            x = x.float().mean(dim=1)\n        elif prediction_mode == \"average_sigmoid\":\n            x = torch.sigmoid(x.float())\n            x = x.mean(dim=1)\n            logits = False\n        elif prediction_mode == \"max\":\n            x, _ = x.float().max(dim=1)\n        elif prediction_mode == \"max_sigmoid\":\n            x = torch.sigmoid(x.float())\n            x, _ = x.float().max(dim=1)\n            logits = False\n        elif prediction_mode == \"proj_avg_proj\":\n            x = x.mean(dim=1)\n            x = self.proj2(x)\n        elif prediction_mode == \"summary_mha\" or prediction_mode == \"summary_proj\":\n            x = self.d2v_model.summary(\n                x, padding_mask, proj=prediction_mode == \"summary_proj\"\n            )\n            x = x.type_as(source)\n            x = self.proj(x)\n        elif prediction_mode == \"cls\":\n            x = x[:,0]\n            x = self.proj(x)\n        else:\n            raise Exception(f\"unknown prediction mode {prediction_mode}\")\n\n        if label is None:\n            return torch.sigmoid(x) if logits else x\n\n        x = torch.nan_to_num(x)\n\n        if logits:\n            loss = F.binary_cross_entropy_with_logits(\n                x, label.float(), reduction=\"none\"\n            )\n        else:\n            loss = F.binary_cross_entropy(x, label.float(), reduction=\"none\")\n\n        result = {\n            \"losses\": {\n                \"main\": loss,\n            },\n            \"sample_size\": label.sum(),\n        }\n\n        if not self.training:\n            result[\"_predictions\"] = torch.sigmoid(x) if logits else x\n            result[\"_targets\"] = label\n\n        return result\n"
  },
  {
    "path": "examples/data2vec/models/data2vec2.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport math\nfrom dataclasses import dataclass, field\nfrom typing import Optional, Callable\nfrom functools import partial\nimport numpy as np\n\nfrom omegaconf import II\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nimport torch.distributed as dist\n\nfrom fairseq.modules import EMAModule, EMAModuleConfig\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.models import BaseFairseqModel, register_model\n\nfrom examples.data2vec.data.modality import Modality\n\nfrom examples.data2vec.models.modalities.base import (\n    MaskSeed,\n    D2vModalityConfig,\n    ModalitySpecificEncoder,\n    get_annealed_rate,\n)\nfrom examples.data2vec.models.modalities.modules import (\n    D2vDecoderConfig,\n    AltBlock,\n    Decoder1d,\n)\n\nfrom examples.data2vec.models.modalities.audio import (\n    D2vAudioConfig,\n    AudioEncoder,\n)\nfrom examples.data2vec.models.modalities.images import (\n    D2vImageConfig,\n    ImageEncoder,\n)\nfrom examples.data2vec.models.modalities.text import (\n    D2vTextConfig,\n    TextEncoder,\n)\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass D2vModalitiesConfig(FairseqDataclass):\n    audio: D2vAudioConfig = D2vAudioConfig()\n    image: D2vImageConfig = D2vImageConfig()\n    text: D2vTextConfig = D2vTextConfig()\n\n\n@dataclass\nclass Data2VecMultiConfig(FairseqDataclass):\n\n    loss_beta: float = field(\n        default=0, metadata={\"help\": \"beta for smooth l1 loss. 0 means use l2 loss\"}\n    )\n    loss_scale: Optional[float] = field(\n        default=None,\n        metadata={\n            \"help\": \"scale the reconstruction loss by this constant. if None then scales by 1/sqrt(dim)\"\n        },\n    )\n\n    depth: int = 8\n    start_drop_path_rate: float = 0\n    end_drop_path_rate: float = 0\n    num_heads: int = 12\n    norm_eps: float = 1e-6\n    norm_affine: bool = True\n    encoder_dropout: float = 0.1\n    post_mlp_drop: float = 0.1\n    attention_dropout: float = 0.1\n    activation_dropout: float = 0.0\n    dropout_input: float = 0.0\n    layerdrop: float = 0.0\n    embed_dim: int = 768\n    mlp_ratio: float = 4\n    layer_norm_first: bool = False\n\n    average_top_k_layers: int = field(\n        default=8, metadata={\"help\": \"how many layers to average\"}\n    )\n\n    end_of_block_targets: bool = False\n\n    clone_batch: int = 1\n\n    layer_norm_target_layer: bool = False\n    batch_norm_target_layer: bool = False\n    instance_norm_target_layer: bool = False\n    instance_norm_targets: bool = False\n    layer_norm_targets: bool = False\n\n    ema_decay: float = field(default=0.999, metadata={\"help\": \"initial ema decay rate\"})\n    ema_same_dtype: bool = True\n    log_norms: bool = True\n    ema_end_decay: float = field(\n        default=0.9999, metadata={\"help\": \"final ema decay rate\"}\n    )\n\n    # when to finish annealing ema decay rate\n    ema_anneal_end_step: int = II(\"optimization.max_update\")\n\n    ema_encoder_only: bool = field(\n        default=True,\n        metadata={\n            \"help\": \"whether to momentum update only the shared transformer encoder\"\n        },\n    )\n\n    max_update: int = II(\"optimization.max_update\")\n\n    modalities: D2vModalitiesConfig = D2vModalitiesConfig()\n\n    shared_decoder: Optional[D2vDecoderConfig] = None\n\n    min_target_var: float = field(\n        default=0.1, metadata={\"help\": \"stop training if target var falls below this\"}\n    )\n    min_pred_var: float = field(\n        default=0.01,\n        metadata={\"help\": \"stop training if prediction var falls below this\"},\n    )\n\n    supported_modality: Optional[Modality] = None\n    mae_init: bool = False\n\n    seed: int = II(\"common.seed\")\n\n    skip_ema: bool = False\n\n    cls_loss: float = 0\n    recon_loss: float = 0\n    d2v_loss: float = 1\n\n    decoder_group: bool = False\n\n\n@register_model(\"data2vec_multi\", dataclass=Data2VecMultiConfig)\nclass Data2VecMultiModel(BaseFairseqModel):\n    def make_modality_encoder(\n        self,\n        cfg: D2vModalityConfig,\n        embed_dim: int,\n        make_block: Callable[[float], nn.ModuleList],\n        norm_layer: Callable[[int], nn.LayerNorm],\n        layer_norm_first: bool,\n        alibi_biases,\n        task,\n    ) -> ModalitySpecificEncoder:\n        if cfg.type == Modality.AUDIO:\n            enc_cls = AudioEncoder\n        elif cfg.type == Modality.IMAGE:\n            enc_cls = ImageEncoder\n        elif cfg.type == Modality.TEXT:\n            enc_cls = TextEncoder\n            if hasattr(task, \"text_task\"):\n                task = task.text_task\n        else:\n            raise Exception(f\"unsupported modality {cfg.type}\")\n\n        return enc_cls(\n            cfg,\n            embed_dim,\n            make_block,\n            norm_layer,\n            layer_norm_first,\n            alibi_biases,\n            task,\n        )\n\n    def __init__(self, cfg: Data2VecMultiConfig, modalities, skip_ema=False, task=None):\n        super().__init__()\n        self.cfg = cfg\n        self.modalities = modalities\n        self.task = task\n\n        make_layer_norm = partial(\n            nn.LayerNorm, eps=cfg.norm_eps, elementwise_affine=cfg.norm_affine\n        )\n\n        def make_block(drop_path, dim=None, heads=None):\n            return AltBlock(\n                cfg.embed_dim if dim is None else dim,\n                cfg.num_heads if heads is None else heads,\n                cfg.mlp_ratio,\n                qkv_bias=True,\n                drop=cfg.encoder_dropout,\n                attn_drop=cfg.attention_dropout,\n                mlp_drop=cfg.activation_dropout,\n                post_mlp_drop=cfg.post_mlp_drop,\n                drop_path=drop_path,\n                norm_layer=make_layer_norm,\n                layer_norm_first=cfg.layer_norm_first,\n                ffn_targets=not cfg.end_of_block_targets,\n            )\n\n        self.alibi_biases = {}\n        self.modality_encoders = nn.ModuleDict()\n        for mod in self.modalities:\n            mod_cfg = getattr(cfg.modalities, mod.name.lower())\n            enc = self.make_modality_encoder(\n                mod_cfg,\n                cfg.embed_dim,\n                make_block,\n                make_layer_norm,\n                cfg.layer_norm_first,\n                self.alibi_biases,\n                task,\n            )\n            self.modality_encoders[mod.name] = enc\n\n        self.ema = None\n\n        self.average_top_k_layers = cfg.average_top_k_layers\n        self.loss_beta = cfg.loss_beta\n        self.loss_scale = cfg.loss_scale\n\n        self.dropout_input = nn.Dropout(cfg.dropout_input)\n\n        dpr = np.linspace(cfg.start_drop_path_rate, cfg.end_drop_path_rate, cfg.depth)\n\n        self.blocks = nn.ModuleList([make_block(dpr[i]) for i in range(cfg.depth)])\n\n        self.norm = None\n        if cfg.layer_norm_first:\n            self.norm = make_layer_norm(cfg.embed_dim)\n\n        if self.cfg.mae_init:\n            self.apply(self._init_weights)\n        else:\n            from fairseq.modules.transformer_sentence_encoder import init_bert_params\n\n            self.apply(init_bert_params)\n\n        for mod_enc in self.modality_encoders.values():\n            mod_enc.reset_parameters()\n\n        if not skip_ema:\n            self.ema = self.make_ema_teacher(cfg.ema_decay)\n            self.shared_decoder = (\n                Decoder1d(cfg.shared_decoder, cfg.embed_dim)\n                if self.cfg.shared_decoder is not None\n                else None\n            )\n            if self.shared_decoder is not None:\n                self.shared_decoder.apply(self._init_weights)\n\n            self.recon_proj = None\n            if cfg.recon_loss > 0:\n                self.recon_proj = nn.Linear(cfg.embed_dim, cfg.embed_dim)\n\n        for pn, p in self.named_parameters():\n            if len(p.shape) == 1 or pn.endswith(\".bias\") or \"alibi_scale\" in pn:\n                p.optim_overrides = {\"optimizer\": {\"weight_decay_scale\": 0}}\n            if cfg.decoder_group and \"decoder\" in pn:\n                p.param_group = \"decoder\"\n\n        self.num_updates = 0\n\n    def _init_weights(self, m):\n\n        try:\n            from apex.normalization import FusedLayerNorm\n\n            fn = FusedLayerNorm\n        except:\n            fn = nn.LayerNorm\n\n        if isinstance(m, nn.Linear):\n            torch.nn.init.xavier_uniform_(m.weight)\n            if isinstance(m, nn.Linear) and m.bias is not None:\n                nn.init.constant_(m.bias, 0)\n        elif isinstance(m, nn.LayerNorm) or isinstance(m, fn):\n            if m.bias is not None:\n                nn.init.constant_(m.bias, 0)\n            if m.weight is not None:\n                nn.init.constant_(m.weight, 1.0)\n\n    @torch.no_grad()\n    def make_ema_teacher(self, ema_decay):\n        ema_config = EMAModuleConfig(\n            ema_decay=ema_decay,\n            ema_fp32=True,\n            log_norms=self.cfg.log_norms,\n            add_missing_params=False,\n        )\n\n        model_copy = self.make_target_model()\n\n        return EMAModule(\n            model_copy,\n            ema_config,\n            copy_model=False,\n        )\n\n    def make_target_model(self):\n        logger.info(\"making target model\")\n\n        model_copy = Data2VecMultiModel(\n            self.cfg, self.modalities, skip_ema=True, task=self.task\n        )\n\n        if self.cfg.ema_encoder_only:\n            model_copy = model_copy.blocks\n            for p_s, p_t in zip(self.blocks.parameters(), model_copy.parameters()):\n                p_t.data.copy_(p_s.data)\n        else:\n            for p_s, p_t in zip(self.parameters(), model_copy.parameters()):\n                p_t.data.copy_(p_s.data)\n\n            for mod_enc in model_copy.modality_encoders.values():\n                mod_enc.decoder = None\n                if not mod_enc.modality_cfg.ema_local_encoder:\n                    mod_enc.local_encoder = None\n                    mod_enc.project_features = None\n\n        model_copy.requires_grad_(False)\n        return model_copy\n\n    def set_num_updates(self, num_updates):\n        super().set_num_updates(num_updates)\n\n        if self.ema is not None and (\n            (self.num_updates == 0 and num_updates > 1)\n            or self.num_updates >= num_updates\n        ):\n            pass\n        elif self.training and self.ema is not None:\n            ema_weight_decay = None\n            if self.cfg.ema_decay != self.cfg.ema_end_decay:\n                if num_updates >= self.cfg.ema_anneal_end_step:\n                    decay = self.cfg.ema_end_decay\n                else:\n                    decay = get_annealed_rate(\n                        self.cfg.ema_decay,\n                        self.cfg.ema_end_decay,\n                        num_updates,\n                        self.cfg.ema_anneal_end_step,\n                    )\n                self.ema.set_decay(decay, weight_decay=ema_weight_decay)\n            if self.ema.get_decay() < 1:\n                self.ema.step(self.blocks if self.cfg.ema_encoder_only else self)\n\n        self.num_updates = num_updates\n\n    def state_dict(self, destination=None, prefix=\"\", keep_vars=False):\n        state = super().state_dict(destination, prefix, keep_vars)\n\n        if self.ema is not None:\n            state[prefix + \"_ema\"] = self.ema.fp32_params\n\n        return state\n\n    def _load_from_state_dict(self, state_dict, prefix, *args, **kwargs):\n        k = prefix + \"_ema\"\n        if self.ema is not None:\n            assert k in state_dict\n            self.ema.restore(state_dict[k], True)\n            del state_dict[k]\n        elif k in state_dict:\n            del state_dict[k]\n\n        return super()._load_from_state_dict(state_dict, prefix, *args, **kwargs)\n\n    @classmethod\n    def build_model(cls, cfg: Data2VecMultiConfig, task=None):\n        \"\"\"Build a new model instance.\"\"\"\n        if task is None or not hasattr(task, \"supported_modalities\"):\n            modalities = (\n                [cfg.supported_modality]\n                if cfg.supported_modality is not None\n                else [\n                    Modality.AUDIO,\n                    Modality.IMAGE,\n                    Modality.TEXT,\n                ]\n            )\n        else:\n            modalities = task.supported_modalities\n        return cls(cfg, modalities, task=task, skip_ema=cfg.skip_ema)\n\n    def forward(\n        self,\n        source,\n        target=None,\n        id=None,\n        mode=None,\n        padding_mask=None,\n        mask=True,\n        features_only=False,\n        force_remove_masked=False,\n        remove_extra_tokens=True,\n        precomputed_mask=None,\n    ):\n        if mode is None:\n            assert self.cfg.supported_modality is not None\n            mode = self.cfg.supported_modality\n\n        if isinstance(mode, Modality):\n            mode = mode.name\n\n        feature_extractor = self.modality_encoders[mode]\n\n        mask_seeds = None\n        if id is not None:\n            mask_seeds = MaskSeed(seed=self.cfg.seed, update=self.num_updates, ids=id)\n\n        extractor_out = feature_extractor(\n            source,\n            padding_mask,\n            mask,\n            remove_masked=not features_only or force_remove_masked,\n            clone_batch=self.cfg.clone_batch if not features_only else 1,\n            mask_seeds=mask_seeds,\n            precomputed_mask=precomputed_mask,\n        )\n\n        x = extractor_out[\"x\"]\n        encoder_mask = extractor_out[\"encoder_mask\"]\n        masked_padding_mask = extractor_out[\"padding_mask\"]\n        masked_alibi_bias = extractor_out.get(\"alibi_bias\", None)\n        alibi_scale = extractor_out.get(\"alibi_scale\", None)\n\n        if self.dropout_input is not None:\n            x = self.dropout_input(x)\n\n        layer_results = []\n        for i, blk in enumerate(self.blocks):\n            if (\n                not self.training\n                or self.cfg.layerdrop == 0\n                or (np.random.random() > self.cfg.layerdrop)\n            ):\n                ab = masked_alibi_bias\n                if ab is not None and alibi_scale is not None:\n                    scale = (\n                        alibi_scale[i]\n                        if alibi_scale.size(0) > 1\n                        else alibi_scale.squeeze(0)\n                    )\n                    ab = ab * scale.type_as(ab)\n\n                x, lr = blk(\n                    x,\n                    padding_mask=masked_padding_mask,\n                    alibi_bias=ab,\n                )\n                if features_only:\n                    layer_results.append(lr)\n\n        if self.norm is not None:\n            x = self.norm(x)\n\n        if features_only:\n            if remove_extra_tokens:\n                x = x[:, feature_extractor.modality_cfg.num_extra_tokens :]\n                if masked_padding_mask is not None:\n                    masked_padding_mask = masked_padding_mask[\n                        :, feature_extractor.modality_cfg.num_extra_tokens :\n                    ]\n\n            return {\n                \"x\": x,\n                \"padding_mask\": masked_padding_mask,\n                \"layer_results\": layer_results,\n                \"mask\": encoder_mask,\n            }\n\n        xs = []\n\n        if self.shared_decoder is not None:\n            dx = self.forward_decoder(\n                x,\n                feature_extractor,\n                self.shared_decoder,\n                encoder_mask,\n            )\n            xs.append(dx)\n        if feature_extractor.decoder is not None:\n            dx = self.forward_decoder(\n                x,\n                feature_extractor,\n                feature_extractor.decoder,\n                encoder_mask,\n            )\n            xs.append(dx)\n            orig_x = x\n\n        assert len(xs) > 0\n\n        p = next(self.ema.model.parameters())\n        device = x.device\n        dtype = x.dtype\n        ema_device = p.device\n        ema_dtype = p.dtype\n\n        if not self.cfg.ema_same_dtype:\n            dtype = ema_dtype\n\n        if ema_device != device or ema_dtype != dtype:\n            logger.info(f\"adjusting ema dtype to {dtype} and device to {device}\")\n            self.ema.model = self.ema.model.to(dtype=dtype, device=device)\n            ema_dtype = dtype\n\n            def to_device(d):\n                for k, p in d.items():\n                    if isinstance(d[k], dict):\n                        to_device(d[k])\n                    else:\n                        d[k] = p.to(device=device)\n\n            to_device(self.ema.fp32_params)\n        tm = self.ema.model\n\n        with torch.no_grad():\n            tm.eval()\n\n            if self.cfg.ema_encoder_only:\n                assert target is None\n                ema_input = extractor_out[\"local_features\"]\n                ema_input = feature_extractor.contextualized_features(\n                    ema_input.to(dtype=ema_dtype),\n                    padding_mask,\n                    mask=False,\n                    remove_masked=False,\n                )\n                ema_blocks = tm\n            else:\n                ema_blocks = tm.blocks\n                if feature_extractor.modality_cfg.ema_local_encoder:\n                    inp = (\n                        target.to(dtype=ema_dtype)\n                        if target is not None\n                        else source.to(dtype=ema_dtype)\n                    )\n                    ema_input = tm.modality_encoders[mode](\n                        inp,\n                        padding_mask,\n                        mask=False,\n                        remove_masked=False,\n                    )\n                else:\n                    assert target is None\n                    ema_input = extractor_out[\"local_features\"]\n                    ema_feature_enc = tm.modality_encoders[mode]\n                    ema_input = ema_feature_enc.contextualized_features(\n                        ema_input.to(dtype=ema_dtype),\n                        padding_mask,\n                        mask=False,\n                        remove_masked=False,\n                    )\n\n            ema_padding_mask = ema_input[\"padding_mask\"]\n            ema_alibi_bias = ema_input.get(\"alibi_bias\", None)\n            ema_alibi_scale = ema_input.get(\"alibi_scale\", None)\n            ema_input = ema_input[\"x\"]\n\n            y = []\n            ema_x = []\n            extra_tokens = feature_extractor.modality_cfg.num_extra_tokens\n            for i, blk in enumerate(ema_blocks):\n                ab = ema_alibi_bias\n                if ab is not None and alibi_scale is not None:\n                    scale = (\n                        ema_alibi_scale[i]\n                        if ema_alibi_scale.size(0) > 1\n                        else ema_alibi_scale.squeeze(0)\n                    )\n                    ab = ab * scale.type_as(ab)\n\n                ema_input, lr = blk(\n                    ema_input,\n                    padding_mask=ema_padding_mask,\n                    alibi_bias=ab,\n                )\n                y.append(lr[:, extra_tokens:])\n                ema_x.append(ema_input[:, extra_tokens:])\n\n        y = self.make_targets(y, self.average_top_k_layers)\n        orig_targets = y\n\n        if self.cfg.clone_batch > 1:\n            y = y.repeat_interleave(self.cfg.clone_batch, 0)\n\n        masked = encoder_mask.mask.unsqueeze(-1)\n        masked_b = encoder_mask.mask.bool()\n        y = y[masked_b]\n\n        if xs[0].size(1) == masked_b.size(1):\n            xs = [x[masked_b] for x in xs]\n        else:\n            xs = [x.reshape(-1, x.size(-1)) for x in xs]\n\n        sample_size = masked.sum().long()\n\n        result = {\n            \"losses\": {},\n            \"sample_size\": sample_size,\n        }\n\n        sample_size = result[\"sample_size\"]\n\n        if self.cfg.cls_loss > 0:\n            assert extra_tokens > 0\n            cls_target = orig_targets.mean(dim=1)\n            if self.cfg.clone_batch > 1:\n                cls_target = cls_target.repeat_interleave(self.cfg.clone_batch, 0)\n            cls_pred = x[:, extra_tokens - 1]\n            result[\"losses\"][\"cls\"] = self.d2v_loss(cls_pred, cls_target) * (\n                self.cfg.cls_loss * sample_size\n            )\n\n        if self.cfg.recon_loss > 0:\n\n            with torch.no_grad():\n                target = feature_extractor.patchify(source)\n                mean = target.mean(dim=-1, keepdim=True)\n                var = target.var(dim=-1, keepdim=True)\n                target = (target - mean) / (var + 1.0e-6) ** 0.5\n\n                if self.cfg.clone_batch > 1:\n                    target = target.repeat_interleave(self.cfg.clone_batch, 0)\n\n                if masked_b is not None:\n                    target = target[masked_b]\n\n            recon = xs[0]\n            if self.recon_proj is not None:\n                recon = self.recon_proj(recon)\n\n            result[\"losses\"][\"recon\"] = (\n                self.d2v_loss(recon, target.float()) * self.cfg.recon_loss\n            )\n\n        if self.cfg.d2v_loss > 0:\n            for i, x in enumerate(xs):\n                reg_loss = self.d2v_loss(x, y)\n                n = f\"{mode}_regression_{i}\" if len(xs) > 1 else f\"{mode}_regression\"\n                result[\"losses\"][n] = reg_loss * self.cfg.d2v_loss\n\n        suffix = \"\" if len(self.modalities) == 1 else f\"_{mode}\"\n        with torch.no_grad():\n            if encoder_mask is not None:\n                result[\"masked_pct\"] = 1 - (\n                    encoder_mask.ids_keep.size(1) / encoder_mask.ids_restore.size(1)\n                )\n            for i, x in enumerate(xs):\n                n = f\"pred_var{suffix}_{i}\" if len(xs) > 1 else f\"pred_var{suffix}\"\n                result[n] = self.compute_var(x.float())\n            if self.ema is not None:\n                for k, v in self.ema.logs.items():\n                    result[k] = v\n\n            y = y.float()\n            result[f\"target_var{suffix}\"] = self.compute_var(y)\n\n            if self.num_updates > 5000:\n                if result[f\"target_var{suffix}\"] < self.cfg.min_target_var:\n                    logger.error(\n                        f\"target var is {result[f'target_var{suffix}'].item()} < {self.cfg.min_target_var}, exiting ({mode})\"\n                    )\n                    raise Exception(\n                        f\"target var is {result[f'target_var{suffix}'].item()} < {self.cfg.min_target_var}, exiting ({mode})\"\n                    )\n\n                for k in result.keys():\n                    if k.startswith(\"pred_var\") and result[k] < self.cfg.min_pred_var:\n                        logger.error(\n                            f\"{k} is {result[k].item()} < {self.cfg.min_pred_var}, exiting ({mode})\"\n                        )\n                        raise Exception(\n                            f\"{k} is {result[k].item()} < {self.cfg.min_pred_var}, exiting ({mode})\"\n                        )\n\n            result[\"ema_decay\"] = self.ema.get_decay() * 1000\n\n        return result\n\n    def forward_decoder(\n        self,\n        x,\n        feature_extractor,\n        decoder,\n        mask_info,\n    ):\n        x = feature_extractor.decoder_input(x, mask_info)\n        x = decoder(*x)\n\n        return x\n\n    def d2v_loss(self, x, y):\n        x = x.view(-1, x.size(-1)).float()\n        y = y.view(-1, x.size(-1))\n\n        if self.loss_beta == 0:\n            loss = F.mse_loss(x, y, reduction=\"none\")\n        else:\n            loss = F.smooth_l1_loss(x, y, reduction=\"none\", beta=self.loss_beta)\n\n        if self.loss_scale is not None:\n            scale = self.loss_scale\n        else:\n            scale = 1 / math.sqrt(x.size(-1))\n\n        reg_loss = loss * scale\n\n        return reg_loss\n\n    def make_targets(self, y, num_layers):\n\n        with torch.no_grad():\n            target_layer_results = y[-num_layers:]\n\n            permuted = False\n            if self.cfg.instance_norm_target_layer or self.cfg.batch_norm_target_layer:\n                target_layer_results = [\n                    tl.transpose(1, 2) for tl in target_layer_results  # BTC -> BCT\n                ]\n                permuted = True\n            if self.cfg.batch_norm_target_layer:\n                target_layer_results = [\n                    F.batch_norm(\n                        tl.float(), running_mean=None, running_var=None, training=True\n                    )\n                    for tl in target_layer_results\n                ]\n            if self.cfg.instance_norm_target_layer:\n                target_layer_results = [\n                    F.instance_norm(tl.float()) for tl in target_layer_results\n                ]\n            if permuted:\n                target_layer_results = [\n                    tl.transpose(1, 2) for tl in target_layer_results  # BCT -> BTC\n                ]\n            if self.cfg.layer_norm_target_layer:\n                target_layer_results = [\n                    F.layer_norm(tl.float(), tl.shape[-1:])\n                    for tl in target_layer_results\n                ]\n\n        y = target_layer_results[0].float()\n        for tl in target_layer_results[1:]:\n            y.add_(tl.float())\n        y = y.div_(len(target_layer_results))\n\n        if self.cfg.layer_norm_targets:\n            y = F.layer_norm(y, y.shape[-1:])\n\n        if self.cfg.instance_norm_targets:\n            y = F.instance_norm(y.transpose(1, 2)).transpose(1, 2)\n\n        return y\n\n    @staticmethod\n    def compute_var(y):\n        y = y.view(-1, y.size(-1))\n        if dist.is_initialized():\n            zc = torch.tensor(y.size(0)).cuda()\n            zs = y.sum(dim=0)\n            zss = (y**2).sum(dim=0)\n\n            dist.all_reduce(zc)\n            dist.all_reduce(zs)\n            dist.all_reduce(zss)\n\n            var = zss / (zc - 1) - (zs**2) / (zc * (zc - 1))\n            return torch.sqrt(var + 1e-6).mean()\n        else:\n            return torch.sqrt(y.var(dim=0) + 1e-6).mean()\n\n    def extract_features(\n        self, source, mode=None, padding_mask=None, mask=False, remove_extra_tokens=True\n    ):\n        res = self.forward(\n            source,\n            mode=mode,\n            padding_mask=padding_mask,\n            mask=mask,\n            features_only=True,\n            remove_extra_tokens=remove_extra_tokens,\n        )\n        return res\n\n    def remove_pretraining_modules(self, modality=None, keep_decoder=False):\n        self.ema = None\n        self.cfg.clone_batch = 1\n        self.recon_proj = None\n\n        if not keep_decoder:\n            self.shared_decoder = None\n\n        modality = modality.lower() if modality is not None else None\n        for k in list(self.modality_encoders.keys()):\n            if modality is not None and k.lower() != modality:\n                del self.modality_encoders[k]\n            else:\n                self.modality_encoders[k].remove_pretraining_modules(\n                    keep_decoder=keep_decoder\n                )\n                if not keep_decoder:\n                    self.modality_encoders[k].decoder = None\n"
  },
  {
    "path": "examples/data2vec/models/data2vec_audio.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport math\nfrom dataclasses import dataclass, field\nfrom typing import Optional\n\nfrom omegaconf import II\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nimport torch.distributed as dist\n\nfrom fairseq.modules import EMAModule, EMAModuleConfig\nfrom fairseq.data.data_utils import compute_mask_indices\nfrom fairseq.models import BaseFairseqModel, register_model\nfrom fairseq.models.wav2vec import (\n    ConvFeatureExtractionModel,\n    Wav2Vec2Config,\n    TransformerEncoder,\n)\nfrom fairseq.modules import (\n    GradMultiply,\n    LayerNorm,\n)\nfrom fairseq.utils import index_put\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass Data2VecAudioConfig(Wav2Vec2Config):\n\n    loss_beta: float = field(\n        default=0, metadata={\"help\": \"beta for smooth l1 loss. 0 means use l2 loss\"}\n    )\n    loss_scale: Optional[float] = field(\n        default=None,\n        metadata={\n            \"help\": \"scale the reconstruction loss by this constant. if None then scales by 1/sqrt(dim)\"\n        },\n    )\n    average_top_k_layers: int = field(\n        default=8, metadata={\"help\": \"how many layers to average\"}\n    )\n\n    layer_norm_target_layer: bool = False\n    instance_norm_target_layer: bool = False\n    instance_norm_targets: bool = False\n    layer_norm_targets: bool = False\n    batch_norm_target_layer: bool = False\n    group_norm_target_layer: bool = False\n\n    ema_decay: float = field(default=0.999, metadata={\"help\": \"initial ema decay rate\"})\n    ema_end_decay: float = field(\n        default=0.9999, metadata={\"help\": \"final ema decay rate\"}\n    )\n\n    # when to finish annealing ema decay rate\n    ema_anneal_end_step: int = II(\"optimization.max_update\")\n\n    ema_transformer_only: bool = field(\n        default=True,\n        metadata={\"help\": \"whether to momentum update only the transformer\"},\n    )\n    ema_layers_only: bool = field(\n        default=True,\n        metadata={\"help\": \"whether to momentum update only the transformer layers\"},\n    )\n\n    max_update: int = II(\"optimization.max_update\")\n\n    min_target_var: float = field(\n        default=0.1, metadata={\"help\": \"stop training if target var falls below this\"}\n    )\n    min_pred_var: float = field(\n        default=0.01,\n        metadata={\"help\": \"stop training if prediction var falls below this\"},\n    )\n\n\ndef get_annealed_rate(start, end, curr_step, total_steps):\n    r = end - start\n    pct_remaining = 1 - curr_step / total_steps\n    return end - r * pct_remaining\n\n\n@register_model(\"data2vec_audio\", dataclass=Data2VecAudioConfig)\nclass Data2VecAudioModel(BaseFairseqModel):\n    def __init__(self, cfg: Data2VecAudioConfig):\n        super().__init__()\n        self.cfg = cfg\n\n        feature_enc_layers = eval(cfg.conv_feature_layers)\n        self.extractor_embed = feature_enc_layers[-1][0]\n\n        self.ema = None\n        self.embed = cfg.encoder_embed_dim\n\n        self.average_top_k_layers = cfg.average_top_k_layers\n        self.loss_beta = cfg.loss_beta\n        self.loss_scale = cfg.loss_scale\n\n        self.feature_extractor = ConvFeatureExtractionModel(\n            conv_layers=feature_enc_layers,\n            dropout=0.0,\n            mode=cfg.extractor_mode,\n            conv_bias=cfg.conv_bias,\n        )\n\n        self.post_extract_proj = nn.Linear(self.extractor_embed, cfg.encoder_embed_dim)\n\n        self.mask_prob = cfg.mask_prob\n        self.mask_selection = cfg.mask_selection\n        self.mask_other = cfg.mask_other\n        self.mask_length = cfg.mask_length\n        self.no_mask_overlap = cfg.no_mask_overlap\n        self.mask_min_space = cfg.mask_min_space\n\n        self.mask_channel_prob = cfg.mask_channel_prob\n        self.mask_channel_before = cfg.mask_channel_before\n        self.mask_channel_selection = cfg.mask_channel_selection\n        self.mask_channel_other = cfg.mask_channel_other\n        self.mask_channel_length = cfg.mask_channel_length\n        self.no_mask_channel_overlap = cfg.no_mask_channel_overlap\n        self.mask_channel_min_space = cfg.mask_channel_min_space\n\n        self.dropout_input = nn.Dropout(cfg.dropout_input)\n        self.dropout_features = nn.Dropout(cfg.dropout_features)\n\n        self.feature_grad_mult = cfg.feature_grad_mult\n\n        self.mask_emb = nn.Parameter(\n            torch.FloatTensor(cfg.encoder_embed_dim).uniform_()\n        )\n\n        self.encoder = TransformerEncoder(cfg)\n        self.layer_norm = LayerNorm(self.extractor_embed)\n\n        self.final_proj = nn.Linear(self.embed, self.embed)\n\n        self.num_updates = 0\n\n    def make_ema_teacher(self):\n        ema_config = EMAModuleConfig(\n            ema_decay=self.cfg.ema_decay,\n            ema_fp32=True,\n        )\n        skip_keys = set()\n        if self.cfg.ema_layers_only:\n            self.cfg.ema_transformer_only = True\n            for k, _ in self.encoder.pos_conv.named_parameters():\n                skip_keys.add(f\"pos_conv.{k}\")\n\n        self.ema = EMAModule(\n            self.encoder if self.cfg.ema_transformer_only else self,\n            ema_config,\n            skip_keys=skip_keys,\n        )\n\n    def set_num_updates(self, num_updates):\n        super().set_num_updates(num_updates)\n\n        if self.ema is None and self.final_proj is not None:\n            logger.info(f\"making ema teacher\")\n            self.make_ema_teacher()\n        elif self.training and self.ema is not None:\n            if self.cfg.ema_decay != self.cfg.ema_end_decay:\n                if num_updates >= self.cfg.ema_anneal_end_step:\n                    decay = self.cfg.ema_end_decay\n                else:\n                    decay = get_annealed_rate(\n                        self.cfg.ema_decay,\n                        self.cfg.ema_end_decay,\n                        num_updates,\n                        self.cfg.ema_anneal_end_step,\n                    )\n                self.ema.set_decay(decay)\n            if self.ema.get_decay() < 1:\n                self.ema.step(self.encoder if self.cfg.ema_transformer_only else self)\n\n        self.num_updates = num_updates\n\n    def state_dict(self, destination=None, prefix=\"\", keep_vars=False):\n        state = super().state_dict(destination, prefix, keep_vars)\n\n        if self.ema is not None:\n            state[prefix + \"_ema\"] = self.ema.fp32_params\n\n        return state\n\n    def _load_from_state_dict(self, state_dict, prefix, *args, **kwargs):\n        if self.ema is not None:\n            k = prefix + \"_ema\"\n            assert k in state_dict\n            self.ema.restore(state_dict[k], True)\n            del state_dict[k]\n        return super()._load_from_state_dict(state_dict, prefix, *args, **kwargs)\n\n    @classmethod\n    def build_model(cls, cfg: Data2VecAudioConfig, task=None):\n        \"\"\"Build a new model instance.\"\"\"\n\n        return cls(cfg)\n\n    def apply_mask(\n        self,\n        x,\n        padding_mask,\n        mask_indices=None,\n        mask_channel_indices=None,\n    ):\n        B, T, C = x.shape\n\n        if self.mask_channel_prob > 0 and self.mask_channel_before:\n            mask_channel_indices = compute_mask_indices(\n                (B, C),\n                None,\n                self.mask_channel_prob,\n                self.mask_channel_length,\n                self.mask_channel_selection,\n                self.mask_channel_other,\n                no_overlap=self.no_mask_channel_overlap,\n                min_space=self.mask_channel_min_space,\n            )\n            mask_channel_indices = (\n                torch.from_numpy(mask_channel_indices)\n                .to(x.device)\n                .unsqueeze(1)\n                .expand(-1, T, -1)\n            )\n            x[mask_channel_indices] = 0\n\n        if self.mask_prob > 0:\n            if mask_indices is None:\n                mask_indices = compute_mask_indices(\n                    (B, T),\n                    padding_mask,\n                    self.mask_prob,\n                    self.mask_length,\n                    self.mask_selection,\n                    self.mask_other,\n                    min_masks=1,\n                    no_overlap=self.no_mask_overlap,\n                    min_space=self.mask_min_space,\n                    require_same_masks=self.cfg.require_same_masks,\n                    mask_dropout=self.cfg.mask_dropout,\n                )\n                mask_indices = torch.from_numpy(mask_indices).to(x.device)\n            x = index_put(x, mask_indices, self.mask_emb)\n        else:\n            mask_indices = None\n\n        if self.mask_channel_prob > 0 and not self.mask_channel_before:\n            if mask_channel_indices is None:\n                mask_channel_indices = compute_mask_indices(\n                    (B, C),\n                    None,\n                    self.mask_channel_prob,\n                    self.mask_channel_length,\n                    self.mask_channel_selection,\n                    self.mask_channel_other,\n                    no_overlap=self.no_mask_channel_overlap,\n                    min_space=self.mask_channel_min_space,\n                )\n                mask_channel_indices = (\n                    torch.from_numpy(mask_channel_indices)\n                    .to(x.device)\n                    .unsqueeze(1)\n                    .expand(-1, T, -1)\n                )\n            x = index_put(x, mask_channel_indices, 0)\n\n        return x, mask_indices\n\n    def _get_feat_extract_output_lengths(self, input_lengths: torch.LongTensor):\n        \"\"\"\n        Computes the output length of the convolutional layers\n        \"\"\"\n\n        def _conv_out_length(input_length, kernel_size, stride):\n            return torch.floor((input_length - kernel_size) / stride + 1)\n\n        conv_cfg_list = eval(self.cfg.conv_feature_layers)\n\n        for i in range(len(conv_cfg_list)):\n            input_lengths = _conv_out_length(\n                input_lengths, conv_cfg_list[i][1], conv_cfg_list[i][2]\n            )\n\n        return input_lengths.to(torch.long)\n\n    def forward(\n        self,\n        source,\n        padding_mask=None,\n        mask=True,\n        features_only=False,\n        layer=None,\n        mask_indices=None,\n        mask_channel_indices=None,\n        padding_count=None,\n    ):\n        features = source\n\n        if self.feature_grad_mult > 0:\n            features = self.feature_extractor(features)\n            if self.feature_grad_mult != 1.0:\n                features = GradMultiply.apply(features, self.feature_grad_mult)\n        else:\n            with torch.no_grad():\n                features = self.feature_extractor(features)\n\n        features = features.transpose(1, 2)\n\n        features = self.layer_norm(features)\n\n        orig_padding_mask = padding_mask\n\n        if padding_mask is not None and padding_mask.any():\n            input_lengths = (1 - padding_mask.long()).sum(-1)\n            # apply conv formula to get real output_lengths\n            output_lengths = self._get_feat_extract_output_lengths(input_lengths)\n\n            padding_mask = torch.zeros(\n                features.shape[:2], dtype=features.dtype, device=features.device\n            )\n\n            # these two operations makes sure that all values\n            # before the output lengths indices are attended to\n            padding_mask[\n                (\n                    torch.arange(padding_mask.shape[0], device=padding_mask.device),\n                    output_lengths - 1,\n                )\n            ] = 1\n            padding_mask = (1 - padding_mask.flip([-1]).cumsum(-1).flip([-1])).bool()\n        else:\n            padding_mask = None\n\n        if self.post_extract_proj is not None:\n            features = self.post_extract_proj(features)\n\n        pre_encoder_features = None\n        if self.cfg.ema_transformer_only:\n            pre_encoder_features = features.clone()\n\n        features = self.dropout_input(features)\n\n        if mask:\n            x, mask_indices = self.apply_mask(\n                features,\n                padding_mask,\n                mask_indices=mask_indices,\n                mask_channel_indices=mask_channel_indices,\n            )\n        else:\n            x = features\n            mask_indices = None\n\n        x, layer_results = self.encoder(\n            x,\n            padding_mask=padding_mask,\n            layer=layer,\n        )\n\n        if features_only:\n            return {\n                \"x\": x,\n                \"padding_mask\": padding_mask,\n                \"layer_results\": layer_results,\n            }\n\n        result = {\n            \"losses\": {},\n        }\n\n        with torch.no_grad():\n            self.ema.model.eval()\n\n            if self.cfg.ema_transformer_only:\n                y, layer_results = self.ema.model.extract_features(\n                    pre_encoder_features,\n                    padding_mask=padding_mask,\n                    min_layer=self.cfg.encoder_layers - self.average_top_k_layers,\n                )\n                y = {\n                    \"x\": y,\n                    \"padding_mask\": padding_mask,\n                    \"layer_results\": layer_results,\n                }\n            else:\n                y = self.ema.model.extract_features(\n                    source=source,\n                    padding_mask=orig_padding_mask,\n                    mask=False,\n                )\n\n            target_layer_results = [l[2] for l in y[\"layer_results\"]]\n\n            permuted = False\n            if self.cfg.instance_norm_target_layer or self.cfg.batch_norm_target_layer:\n                target_layer_results = [\n                    tl.permute(1, 2, 0) for tl in target_layer_results  # TBC -> BCT\n                ]\n                permuted = True\n\n            if self.cfg.batch_norm_target_layer:\n                target_layer_results = [\n                    F.batch_norm(\n                        tl.float(), running_mean=None, running_var=None, training=True\n                    )\n                    for tl in target_layer_results\n                ]\n\n            if self.cfg.instance_norm_target_layer:\n                target_layer_results = [\n                    F.instance_norm(tl.float()) for tl in target_layer_results\n                ]\n\n            if permuted:\n                target_layer_results = [\n                    tl.transpose(1, 2) for tl in target_layer_results  # BCT -> BTC\n                ]\n\n            if self.cfg.group_norm_target_layer:\n                target_layer_results = [\n                    F.layer_norm(tl.float(), tl.shape[-2:])\n                    for tl in target_layer_results\n                ]\n\n            if self.cfg.layer_norm_target_layer:\n                target_layer_results = [\n                    F.layer_norm(tl.float(), tl.shape[-1:])\n                    for tl in target_layer_results\n                ]\n\n            y = sum(target_layer_results) / len(target_layer_results)\n\n            if self.cfg.layer_norm_targets:\n                y = F.layer_norm(y.float(), y.shape[-1:])\n\n            if self.cfg.instance_norm_targets:\n                y = F.instance_norm(y.float().transpose(1, 2)).transpose(1, 2)\n\n            if not permuted:\n                y = y.transpose(0, 1)\n\n            y = y[mask_indices]\n\n        x = x[mask_indices]\n        x = self.final_proj(x)\n\n        sz = x.size(-1)\n\n        if self.loss_beta == 0:\n            loss = F.mse_loss(x.float(), y.float(), reduction=\"none\").sum(dim=-1)\n        else:\n            loss = F.smooth_l1_loss(\n                x.float(), y.float(), reduction=\"none\", beta=self.loss_beta\n            ).sum(dim=-1)\n\n        if self.loss_scale is not None:\n            scale = self.loss_scale\n        else:\n            scale = 1 / math.sqrt(sz)\n\n        result[\"losses\"][\"regression\"] = loss.sum() * scale\n\n        if \"sample_size\" not in result:\n            result[\"sample_size\"] = loss.numel()\n\n        with torch.no_grad():\n            result[\"target_var\"] = self.compute_var(y)\n            result[\"pred_var\"] = self.compute_var(x.float())\n\n        if self.num_updates > 5000 and result[\"target_var\"] < self.cfg.min_target_var:\n            logger.error(\n                f\"target var is {result['target_var'].item()} < {self.cfg.min_target_var}, exiting\"\n            )\n            raise Exception(\n                f\"target var is {result['target_var'].item()} < {self.cfg.min_target_var}, exiting\"\n            )\n        if self.num_updates > 5000 and result[\"pred_var\"] < self.cfg.min_pred_var:\n            logger.error(\n                f\"pred var is {result['pred_var'].item()} < {self.cfg.min_pred_var}, exiting\"\n            )\n            raise Exception(\n                f\"pred var is {result['pred_var'].item()} < {self.cfg.min_pred_var}, exiting\"\n            )\n\n        if self.ema is not None:\n            result[\"ema_decay\"] = self.ema.get_decay() * 1000\n\n        return result\n\n    @staticmethod\n    def compute_var(y):\n        y = y.view(-1, y.size(-1))\n        if dist.is_initialized():\n            zc = torch.tensor(y.size(0)).cuda()\n            zs = y.sum(dim=0)\n            zss = (y ** 2).sum(dim=0)\n\n            dist.all_reduce(zc)\n            dist.all_reduce(zs)\n            dist.all_reduce(zss)\n\n            var = zss / (zc - 1) - (zs ** 2) / (zc * (zc - 1))\n            return torch.sqrt(var + 1e-6).mean()\n        else:\n            return torch.sqrt(y.var(dim=0) + 1e-6).mean()\n\n    def extract_features(\n        self, source, padding_mask, mask=False, layer=None\n    ):\n        res = self.forward(\n            source,\n            padding_mask,\n            mask=mask,\n            features_only=True,\n            layer=layer,\n        )\n        return res\n\n    def remove_pretraining_modules(self, last_layer=None):\n        self.final_proj = None\n        self.ema = None\n        if last_layer is not None:\n            self.encoder.layers = nn.ModuleList(\n                l for i, l in enumerate(self.encoder.layers) if i <= last_layer\n            )\n"
  },
  {
    "path": "examples/data2vec/models/data2vec_image_classification.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n# The code in this file is adapted from the BeiT implementation which can be found here:\n# https://github.com/microsoft/unilm/tree/master/beit\n\nimport logging\n\nfrom dataclasses import dataclass\nfrom typing import Any\n\nfrom omegaconf import II, MISSING\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nfrom fairseq import checkpoint_utils, tasks\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.models import BaseFairseqModel, register_model\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass Data2VecImageClassificationConfig(FairseqDataclass):\n    model_path: str = MISSING\n    no_pretrained_weights: bool = False\n    num_classes: int = 1000\n    mixup: float = 0.8\n    cutmix: float = 1.0\n    label_smoothing: float = 0.1\n\n    pretrained_model_args: Any = None\n    data: str = II(\"task.data\")\n\n\n@register_model(\n    \"data2vec_image_classification\", dataclass=Data2VecImageClassificationConfig\n)\nclass Data2VecImageClassificationModel(BaseFairseqModel):\n    def __init__(self, cfg: Data2VecImageClassificationConfig):\n        super().__init__()\n        self.cfg = cfg\n\n        if cfg.pretrained_model_args is None:\n            state = checkpoint_utils.load_checkpoint_to_cpu(cfg.model_path, {})\n            pretrained_args = state.get(\"cfg\", None)\n            pretrained_args.criterion = None\n            pretrained_args.lr_scheduler = None\n            cfg.pretrained_model_args = pretrained_args\n\n            logger.info(pretrained_args)\n        else:\n            state = None\n            pretrained_args = cfg.pretrained_model_args\n\n        pretrained_args.task.data = cfg.data\n        task = tasks.setup_task(pretrained_args.task)\n        model = task.build_model(pretrained_args.model, from_checkpoint=True)\n\n        model.remove_pretraining_modules()\n\n        self.model = model\n\n        if state is not None and not cfg.no_pretrained_weights:\n            self.load_model_weights(state, model, cfg)\n\n        self.fc_norm = nn.LayerNorm(pretrained_args.model.embed_dim)\n        self.head = nn.Linear(pretrained_args.model.embed_dim, cfg.num_classes)\n\n        self.head.weight.data.mul_(1e-3)\n        self.head.bias.data.mul_(1e-3)\n\n        self.mixup_fn = None\n\n        if cfg.mixup > 0 or cfg.cutmix > 0:\n            from timm.data import Mixup\n\n            self.mixup_fn = Mixup(\n                mixup_alpha=cfg.mixup,\n                cutmix_alpha=cfg.cutmix,\n                cutmix_minmax=None,\n                prob=1.0,\n                switch_prob=0.5,\n                mode=\"batch\",\n                label_smoothing=cfg.label_smoothing,\n                num_classes=cfg.num_classes,\n            )\n\n    def load_model_weights(self, state, model, cfg):\n        if \"_ema\" in state[\"model\"]:\n            del state[\"model\"][\"_ema\"]\n        model.load_state_dict(state[\"model\"], strict=True)\n\n    @classmethod\n    def build_model(cls, cfg: Data2VecImageClassificationConfig, task=None):\n        \"\"\"Build a new model instance.\"\"\"\n\n        return cls(cfg)\n\n    def forward(\n        self,\n        img,\n        label=None,\n    ):\n        if self.training and self.mixup_fn is not None and label is not None:\n            img, label = self.mixup_fn(img, label)\n\n        x = self.model(img, mask=False)\n        x = x[:, 1:]\n        x = self.fc_norm(x.mean(1))\n        x = self.head(x)\n\n        if label is None:\n            return x\n\n        if self.training and self.mixup_fn is not None:\n            loss = -label * F.log_softmax(x.float(), dim=-1)\n        else:\n            loss = F.cross_entropy(\n                x.float(),\n                label,\n                label_smoothing=self.cfg.label_smoothing if self.training else 0,\n                reduction=\"none\",\n            )\n\n        result = {\n            \"losses\": {\"regression\": loss},\n            \"sample_size\": img.size(0),\n        }\n\n        if not self.training:\n            with torch.no_grad():\n                pred = x.argmax(-1)\n                correct = (pred == label).sum()\n                result[\"correct\"] = correct\n\n        return result\n"
  },
  {
    "path": "examples/data2vec/models/data2vec_text.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\nfrom typing import Optional\nimport logging\nimport math\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nfrom omegaconf import II\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.modules import EMAModule, EMAModuleConfig\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderModel,\n    register_model,\n)\nfrom fairseq.models.roberta.model import RobertaLMHead, RobertaClassificationHead\nfrom fairseq.models.transformer import TransformerEncoder, TransformerConfig\nfrom fairseq.modules.transformer_sentence_encoder import init_bert_params\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass Data2VecTextConfig(FairseqDataclass):\n    max_positions: int = II(\"task.tokens_per_sample\")\n\n    head_layers: int = 1\n\n    transformer: TransformerConfig = TransformerConfig()\n\n    load_checkpoint_heads: bool = field(\n        default=False,\n        metadata={\"help\": \"(re-)register and load heads when loading checkpoints\"},\n    )\n\n    loss_beta: float = field(\n        default=0, metadata={\"help\": \"beta for smooth l1 loss. 0 means use l2 loss\"}\n    )\n    loss_scale: Optional[float] = field(\n        default=None,\n        metadata={\n            \"help\": \"scale the reconstruction loss by this constant. if None then scales by 1/sqrt(dim)\"\n        },\n    )\n    average_top_k_layers: int = field(\n        default=8, metadata={\"help\": \"how many layers to average\"}\n    )\n\n    layer_norm_target_layer: bool = False\n    instance_norm_target_layer: bool = False\n    batch_norm_target_layer: bool = False\n    instance_norm_targets: bool = False\n    layer_norm_targets: bool = False\n\n    ema_decay: float = field(default=0.999, metadata={\"help\": \"initial ema decay rate\"})\n    ema_end_decay: float = field(\n        default=0.9999, metadata={\"help\": \"final ema decay rate\"}\n    )\n\n    # when to finish annealing ema decay rate\n    ema_anneal_end_step: int = II(\"optimization.max_update\")\n\n    ema_transformer_layers_only: bool = field(\n        default=True,\n        metadata={\"help\": \"whether to momentum update only the transformer layers\"},\n    )\n\n\ndef get_annealed_rate(start, end, curr_step, total_steps):\n    r = end - start\n    pct_remaining = 1 - curr_step / total_steps\n    return end - r * pct_remaining\n\n\n@register_model(\"data2vec_text\", dataclass=Data2VecTextConfig)\nclass Data2VecTextModel(FairseqEncoderModel):\n    def __init__(self, cfg: Data2VecTextConfig, encoder):\n        super().__init__(encoder)\n        self.cfg = cfg\n\n        # We follow BERT's random weight initialization\n        self.apply(init_bert_params)\n\n        self.classification_heads = nn.ModuleDict()\n\n    @classmethod\n    def build_model(cls, cfg, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        encoder = Data2VecTextEncoder(cfg, task.source_dictionary, task.cfg.data)\n\n        return cls(cfg, encoder)\n\n    def forward(\n        self,\n        src_tokens,\n        target_tokens=None,\n        features_only=False,\n        return_all_hiddens=False,\n        classification_head_name=None,\n        **kwargs,\n    ):\n        if classification_head_name is not None:\n            features_only = True\n\n        res = self.encoder(\n            src_tokens, target_tokens, features_only, return_all_hiddens, **kwargs\n        )\n\n        if isinstance(res, tuple):\n            x, extra = res\n        else:\n            return res\n\n        if classification_head_name is not None:\n            x = self.classification_heads[classification_head_name](x)\n        return x, extra\n\n    def get_normalized_probs(self, net_output, log_probs, sample=None):\n        \"\"\"Get normalized probabilities (or log probs) from a net's output.\"\"\"\n        logits = net_output[0].float()\n        if log_probs:\n            return F.log_softmax(logits, dim=-1)\n        else:\n            return F.softmax(logits, dim=-1)\n\n    def register_classification_head(\n        self, name, num_classes=None, inner_dim=None, **kwargs\n    ):\n        \"\"\"Register a classification head.\"\"\"\n        if name in self.classification_heads:\n            prev_num_classes = self.classification_heads[name].out_proj.out_features\n            prev_inner_dim = self.classification_heads[name].dense.out_features\n            if num_classes != prev_num_classes or inner_dim != prev_inner_dim:\n                logger.warning(\n                    're-registering head \"{}\" with num_classes {} (prev: {}) '\n                    \"and inner_dim {} (prev: {})\".format(\n                        name, num_classes, prev_num_classes, inner_dim, prev_inner_dim\n                    )\n                )\n        self.classification_heads[name] = RobertaClassificationHead(\n            input_dim=self.cfg.transformer.encoder.embed_dim,\n            inner_dim=inner_dim or self.cfg.transformer.encoder.embed_dim,\n            num_classes=num_classes,\n            activation_fn=\"tanh\",\n            pooler_dropout=0,\n        )\n\n    @property\n    def supported_targets(self):\n        return {\"self\"}\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        prefix = name + \".\" if name != \"\" else \"\"\n\n        # rename decoder -> encoder before upgrading children modules\n        for k in list(state_dict.keys()):\n            if k.startswith(prefix + \"decoder\"):\n                new_k = prefix + \"encoder\" + k[len(prefix + \"decoder\") :]\n                state_dict[new_k] = state_dict[k]\n                del state_dict[k]\n\n        # rename emb_layer_norm -> layernorm_embedding\n        for k in list(state_dict.keys()):\n            if \".emb_layer_norm.\" in k:\n                new_k = k.replace(\".emb_layer_norm.\", \".layernorm_embedding.\")\n                state_dict[new_k] = state_dict[k]\n                del state_dict[k]\n\n            if self.encoder.regression_head is not None:\n                if \".lm_head.\" in k:\n                    new_k = k.replace(\".lm_head.\", \".regression_head.\")\n                    state_dict[new_k] = state_dict[k]\n                    del state_dict[k]\n            else:\n                if \".regression_head.\" in k:\n                    del state_dict[k]\n\n        # upgrade children modules\n        super().upgrade_state_dict_named(state_dict, name)\n\n        # Handle new classification heads present in the state dict.\n        current_head_names = (\n            []\n            if not hasattr(self, \"classification_heads\")\n            or self.classification_heads is None\n            else self.classification_heads.keys()\n        )\n        keys_to_delete = []\n        for k in state_dict.keys():\n            if not k.startswith(prefix + \"classification_heads.\"):\n                continue\n\n            head_name = k[len(prefix + \"classification_heads.\") :].split(\".\")[0]\n            num_classes = state_dict[\n                prefix + \"classification_heads.\" + head_name + \".out_proj.weight\"\n            ].size(0)\n            inner_dim = state_dict[\n                prefix + \"classification_heads.\" + head_name + \".dense.weight\"\n            ].size(0)\n\n            if self.cfg.load_checkpoint_heads:\n                if head_name not in current_head_names:\n                    self.register_classification_head(head_name, num_classes, inner_dim)\n            else:\n                if head_name not in current_head_names:\n                    logger.warning(\n                        \"deleting classification head ({}) from checkpoint \"\n                        \"not present in current model: {}\".format(head_name, k)\n                    )\n                    keys_to_delete.append(k)\n                elif (\n                    num_classes\n                    != self.classification_heads[head_name].out_proj.out_features\n                    or inner_dim\n                    != self.classification_heads[head_name].dense.out_features\n                ):\n                    logger.warning(\n                        \"deleting classification head ({}) from checkpoint \"\n                        \"with different dimensions than current model: {}\".format(\n                            head_name, k\n                        )\n                    )\n                    keys_to_delete.append(k)\n        for k in keys_to_delete:\n            del state_dict[k]\n\n        # Copy any newly-added classification heads into the state dict\n        # with their current weights.\n        if (\n            hasattr(self, \"classification_heads\")\n            and self.classification_heads is not None\n            and len(self.classification_heads) > 0\n        ):\n            cur_state = self.classification_heads.state_dict()\n            for k, v in cur_state.items():\n                if prefix + \"classification_heads.\" + k not in state_dict:\n                    logger.info(\"Overwriting \" + prefix + \"classification_heads.\" + k)\n                    state_dict[prefix + \"classification_heads.\" + k] = v\n\n            for k in list(state_dict.keys()):\n                if k.startswith(prefix + \"encoder.lm_head.\") or k.startswith(\n                    prefix + \"encoder.emb_head.\"\n                ):\n                    del state_dict[k]\n\n            self.encoder.lm_head = None\n\n        if self.encoder.target_model is None:\n            for k in list(state_dict.keys()):\n                if k.startswith(prefix + \"encoder.target_model.\"):\n                    del state_dict[k]\n\n        if (self.encoder.ema is None) and (prefix + \"encoder._ema\" in state_dict):\n            del state_dict[prefix + \"encoder._ema\"]\n\n    def remove_pretraining_modules(self, last_layer=None):\n        self.encoder.lm_head = None\n        self.encoder.regression_head = None\n        self.encoder.ema = None\n        self.classification_heads = None\n\n        if last_layer is not None:\n            self.encoder.sentence_encoder.layers = nn.ModuleList(\n                l\n                for i, l in enumerate(self.encoder.sentence_encoder.layers)\n                if i <= last_layer\n            )\n            self.encoder.sentence_encoder.layer_norm = None\n\n\nclass Data2VecTextEncoder(FairseqEncoder):\n    def __init__(self, cfg: Data2VecTextConfig, dictionary, task_data):\n        super().__init__(dictionary)\n\n        self.cfg = cfg\n\n        embed_tokens = self.build_embedding(\n            len(dictionary), cfg.transformer.encoder.embed_dim, dictionary.pad()\n        )\n\n        self.sentence_encoder = self.build_encoder(cfg, dictionary, embed_tokens)\n        self.mask_idx = dictionary.index(\"<mask>\")\n        assert self.mask_idx != dictionary.unk(), dictionary.symbols\n\n        self.ema = None\n        self.average_top_k_layers = cfg.average_top_k_layers\n        self.loss_scale = cfg.loss_scale\n\n        assert self.cfg.head_layers >= 1\n\n        embed_dim = cfg.transformer.encoder.embed_dim\n        curr_dim = embed_dim\n        projs = []\n        for i in range(self.cfg.head_layers - 1):\n            next_dim = embed_dim * 2 if i == 0 else curr_dim\n            projs.append(nn.Linear(curr_dim, next_dim))\n            projs.append(nn.GELU())\n            curr_dim = next_dim\n\n        projs.append(nn.Linear(curr_dim, embed_dim))\n        self.regression_head = nn.Sequential(*projs)\n\n        self.num_updates = 0\n\n    def build_embedding(self, vocab_size, embedding_dim, padding_idx):\n        return nn.Embedding(vocab_size, embedding_dim, padding_idx)\n\n    def build_encoder(self, cfg, dictionary, embed_tokens):\n        encoder = TransformerEncoder(cfg.transformer, dictionary, embed_tokens, return_fc=True)\n        encoder.apply(init_bert_params)\n        return encoder\n\n    def build_lm_head(self, embed_dim, output_dim, activation_fn, weight):\n        return RobertaLMHead(embed_dim, output_dim, activation_fn, weight)\n\n    def make_ema_teacher(self):\n        ema_config = EMAModuleConfig(\n            ema_decay=self.cfg.ema_decay,\n            ema_fp32=True,\n        )\n        skip_keys = set()\n        if self.cfg.ema_transformer_layers_only:\n            for k, _ in self.sentence_encoder.embed_positions.named_parameters():\n                skip_keys.add(f\"embed_tokens.{k}\")\n            for k, _ in self.sentence_encoder.embed_positions.named_parameters():\n                skip_keys.add(f\"embed_positions.{k}\")\n            if self.sentence_encoder.layernorm_embedding is not None:\n                for (\n                    k,\n                    _,\n                ) in self.sentence_encoder.layernorm_embedding.named_parameters():\n                    skip_keys.add(f\"layernorm_embedding.{k}\")\n            if self.sentence_encoder.layer_norm is not None:\n                for k, _ in self.sentence_encoder.layer_norm.named_parameters():\n                    skip_keys.add(f\"layernorm_embedding.{k}\")\n\n        self.ema = EMAModule(\n            self.sentence_encoder,\n            ema_config,\n            skip_keys=skip_keys,\n        )\n\n    def set_num_updates(self, num_updates):\n        super().set_num_updates(num_updates)\n\n        if self.ema is None and self.regression_head is not None:\n            logger.info(f\"making ema teacher\")\n            self.make_ema_teacher()\n        elif self.training and self.ema is not None:\n            if self.cfg.ema_decay != self.cfg.ema_end_decay:\n                if num_updates >= self.cfg.ema_anneal_end_step:\n                    decay = self.cfg.ema_end_decay\n                else:\n                    decay = get_annealed_rate(\n                        self.cfg.ema_decay,\n                        self.cfg.ema_end_decay,\n                        num_updates,\n                        self.cfg.ema_anneal_end_step,\n                    )\n                self.ema.set_decay(decay)\n            if self.ema.get_decay() < 1:\n                self.ema.step(self.sentence_encoder)\n\n    def state_dict(self, destination=None, prefix=\"\", keep_vars=False):\n        state = super().state_dict(destination, prefix, keep_vars)\n        if self.ema is not None:\n            state[prefix + \"_ema\"] = self.ema.fp32_params\n        return state\n\n    def _load_from_state_dict(self, state_dict, prefix, *args, **kwargs):\n        if self.ema is not None:\n            k = prefix + \"_ema\"\n            assert k in state_dict\n            self.ema.restore(state_dict[k], True)\n            del state_dict[k]\n        return super()._load_from_state_dict(state_dict, prefix, *args, **kwargs)\n\n    def forward(\n        self,\n        src_tokens,\n        target_tokens=None,\n        features_only=False,\n        return_all_hiddens=False,\n        masked_tokens=None,\n        **unused,\n    ):\n        \"\"\"\n        Args:\n            src_tokens (LongTensor): input tokens of shape `(batch, src_len)`\n            features_only (bool, optional): skip LM head and just return\n                features. If True, the output will be of shape\n                `(batch, src_len, embed_dim)`.\n            return_all_hiddens (bool, optional): also return all of the\n                intermediate hidden states (default: False).\n\n        Returns:\n            tuple:\n                - the LM output of shape `(batch, src_len, vocab)`\n                - a dictionary of additional data, where 'inner_states'\n                  is a list of hidden states. Note that the hidden\n                  states have shape `(src_len, batch, vocab)`.\n        \"\"\"\n\n        x, extra = self.extract_features(\n            src_tokens, return_all_hiddens=return_all_hiddens\n        )\n\n        if features_only:\n            return x, extra\n\n        assert target_tokens is not None\n\n        with torch.no_grad():\n            # use EMA parameter as the teacher\n            self.ema.model.eval()\n\n            encoder_out = self.ema.model(\n                target_tokens,\n                return_all_hiddens=True,\n            )\n            y = encoder_out[\"fc_results\"]\n\n            y = y[-self.average_top_k_layers :]\n\n            permuted = False\n            if self.cfg.instance_norm_target_layer or self.cfg.batch_norm_target_layer:\n                y = [tl.permute(1, 2, 0) for tl in y]  # TBC -> BCT\n                permuted = True\n\n            if self.cfg.batch_norm_target_layer:\n                y = [\n                    F.batch_norm(\n                        tl.float(), running_mean=None, running_var=None, training=True\n                    )\n                    for tl in y\n                ]\n\n            if self.cfg.instance_norm_target_layer:\n                y = [F.instance_norm(tl.float()) for tl in y]\n\n            if permuted:\n                y = [tl.transpose(1, 2) for tl in y]  # BCT -> BTC\n\n            if self.cfg.layer_norm_target_layer:\n                y = [F.layer_norm(tl.float(), tl.shape[-1:]) for tl in y]\n\n            y = sum(y) / len(y)\n\n            if not permuted:\n                y = y.transpose(0, 1)\n\n            if self.cfg.layer_norm_targets:\n                y = F.layer_norm(y.float(), y.shape[-1:])\n\n            if self.cfg.instance_norm_targets:\n                y = F.instance_norm(y.transpose(1, 2)).transpose(1, 2)\n\n        masked_indices = src_tokens.eq(self.mask_idx)\n\n        x = x[masked_indices]\n        y = y[masked_indices]\n\n        x = self.regression_head(x)\n\n        sz = x.size(-1)\n        if self.cfg.loss_beta == 0:\n            loss = F.mse_loss(x.float(), y.float(), reduction=\"none\").sum(dim=-1)\n        else:\n            loss = F.smooth_l1_loss(\n                x.float(), y.float(), reduction=\"none\", beta=self.cfg.loss_beta\n            ).sum(dim=-1)\n\n        result = {\n            \"losses\": {\n                \"main\": loss.sum() / math.sqrt(sz)\n                if self.loss_scale <= 0\n                else loss.sum() * self.loss_scale,\n            },\n            \"sample_size\": loss.numel(),\n        }\n\n        # logging other values\n        other_logs = {\n            \"ema_decay\": self.ema.get_decay() * 1000\n        }\n        result[\"logs\"] = other_logs\n        return result\n\n    def extract_features(self, src_tokens, return_all_hiddens=False, **kwargs):\n        encoder_out = self.sentence_encoder(\n            src_tokens,\n            return_all_hiddens=return_all_hiddens,\n            token_embeddings=kwargs.get(\"token_embeddings\", None),\n        )\n        # T x B x C -> B x T x C\n        features = encoder_out[\"encoder_out\"][0].transpose(0, 1)\n        inner_states = encoder_out[\"encoder_states\"] if return_all_hiddens else None\n        return features, {\n            \"inner_states\": inner_states,\n            \"encoder_embedding\": encoder_out[\"encoder_embedding\"][0],\n        }\n\n    def output_layer(self, features, masked_tokens=None, **unused):\n        return self.lm_head(features, masked_tokens)\n\n    def max_positions(self):\n        \"\"\"Maximum output length supported by the encoder.\"\"\"\n        return self.cfg.max_positions\n"
  },
  {
    "path": "examples/data2vec/models/data2vec_text_classification.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n# The code in this file is adapted from the BeiT implementation which can be found here:\n# https://github.com/microsoft/unilm/tree/master/beit\n\nimport logging\n\nfrom dataclasses import dataclass\nfrom typing import Any\n\nfrom omegaconf import II, MISSING\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nfrom fairseq import checkpoint_utils, tasks\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.models import BaseFairseqModel, register_model\nfrom fairseq.models.roberta.model import RobertaClassificationHead\n\nfrom examples.data2vec.data.modality import Modality\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass Data2VecTextClassificationConfig(FairseqDataclass):\n    pooler_dropout: float = 0.0\n    pooler_activation_fn: str = \"tanh\"\n    quant_noise_pq: int = 0\n    quant_noise_pq_block_size: int = 8\n    spectral_norm_classification_head: bool = False\n\n    model_path: str = MISSING\n    no_pretrained_weights: bool = False\n\n    pretrained_model_args: Any = None\n\n\n@register_model(\n    \"data2vec_text_classification\", dataclass=Data2VecTextClassificationConfig\n)\nclass Data2VecTextClassificationModel(BaseFairseqModel):\n    def __init__(self, cfg: Data2VecTextClassificationConfig):\n        super().__init__()\n        self.cfg = cfg\n\n        if cfg.pretrained_model_args is None:\n            state = checkpoint_utils.load_checkpoint_to_cpu(cfg.model_path, {})\n            pretrained_args = state.get(\"cfg\", None)\n            pretrained_args.criterion = None\n            pretrained_args.lr_scheduler = None\n            cfg.pretrained_model_args = pretrained_args\n\n            logger.info(pretrained_args)\n        else:\n            state = None\n            pretrained_args = cfg.pretrained_model_args\n\n        task = tasks.setup_task(pretrained_args.task)\n        model = task.build_model(pretrained_args.model, from_checkpoint=True)\n\n        model.remove_pretraining_modules()\n\n        self.model = model\n\n        if state is not None and not cfg.no_pretrained_weights:\n            self.load_model_weights(state, model, cfg)\n\n        self.classification_heads = nn.ModuleDict()\n\n\n    def load_model_weights(self, state, model, cfg):\n        for k in list(state[\"model\"].keys()):\n            if (\n                k.startswith(\"shared_decoder\") or\n                k.startswith(\"_ema\") or\n                \"decoder\" in k\n            ):\n                logger.info(f\"Deleting {k} from checkpoint\")\n                del state[\"model\"][k]\n        model.load_state_dict(state[\"model\"], strict=True)\n\n    @classmethod\n    def build_model(cls, cfg: Data2VecTextClassificationConfig, task=None):\n        \"\"\"Build a new model instance.\"\"\"\n\n        return cls(cfg)\n\n    def register_classification_head(\n        self, name, num_classes=None, inner_dim=None, **kwargs\n    ):\n        \"\"\"Register a classification head.\"\"\"\n        if name in self.classification_heads:\n            prev_num_classes = self.classification_heads[name].out_proj.out_features\n            prev_inner_dim = self.classification_heads[name].dense.out_features\n            if num_classes != prev_num_classes or inner_dim != prev_inner_dim:\n                logger.warning(\n                    're-registering head \"{}\" with num_classes {} (prev: {}) '\n                    \"and inner_dim {} (prev: {})\".format(\n                        name, num_classes, prev_num_classes, inner_dim, prev_inner_dim\n                    )\n                )\n        embed_dim = self.cfg.pretrained_model_args.model.embed_dim\n        self.classification_heads[name] = RobertaClassificationHead(\n            input_dim=embed_dim,\n            inner_dim=inner_dim or embed_dim,\n            num_classes=num_classes,\n            activation_fn=self.cfg.pooler_activation_fn,\n            pooler_dropout=self.cfg.pooler_dropout,\n            q_noise=self.cfg.quant_noise_pq,\n            qn_block_size=self.cfg.quant_noise_pq_block_size,\n            do_spectral_norm=self.cfg.spectral_norm_classification_head,\n        )\n\n    def forward(\n        self,\n        source,\n        id,\n        padding_mask,\n        features_only=True,\n        remove_extra_tokens=True,\n        classification_head_name=None,\n    ):\n        encoder_out = self.model(\n            source,\n            id=id,\n            mode=Modality.TEXT,\n            padding_mask=padding_mask,\n            mask=False,\n            features_only=features_only,\n            remove_extra_tokens=remove_extra_tokens\n        )\n        logits = self.classification_heads[classification_head_name](encoder_out[\"x\"])\n        return logits, encoder_out\n"
  },
  {
    "path": "examples/data2vec/models/data2vec_vision.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n# The code in this file is adapted from the BeiT implementation which can be found here:\n# https://github.com/microsoft/unilm/tree/master/beit\n\nimport logging\nimport math\nimport numpy as np\nimport random\n\nfrom dataclasses import dataclass, field\nfrom typing import Optional\n\nfrom omegaconf import II\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nimport torch.distributed as dist\n\nfrom fairseq.modules import EMAModule, EMAModuleConfig\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.models import BaseFairseqModel, register_model\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass Data2VecVisionConfig(FairseqDataclass):\n    layer_scale_init_value: float = field(\n        default=1e-4, metadata={\"help\": \"rescale layer outputs, 0 to disable\"}\n    )\n    num_mask_patches: int = field(\n        default=75,\n        metadata={\"help\": \"number of the visual tokens/patches need be masked\"},\n    )\n    min_mask_patches_per_block: int = 16\n    max_mask_patches_per_block: int = 196\n    image_size: int = 224\n    patch_size: int = 16\n    in_channels: int = 3\n\n    shared_rel_pos_bias: bool = True\n\n    drop_path: float = 0.1\n    attention_dropout: float = 0.0\n\n    depth: int = 12\n    embed_dim: int = 768\n    num_heads: int = 12\n    mlp_ratio: int = 4\n\n    loss_beta: float = field(\n        default=0, metadata={\"help\": \"beta for smooth l1 loss. 0 means use l2 loss\"}\n    )\n    loss_scale: Optional[float] = field(\n        default=None,\n        metadata={\n            \"help\": \"scale the reconstruction loss by this constant. if None then scales by 1/sqrt(dim)\"\n        },\n    )\n    average_top_k_layers: int = field(\n        default=8, metadata={\"help\": \"how many layers to average\"}\n    )\n\n    end_of_block_targets: bool = True\n    layer_norm_target_layer: bool = False\n    instance_norm_target_layer: bool = False\n    batch_norm_target_layer: bool = False\n    instance_norm_targets: bool = False\n    layer_norm_targets: bool = False\n\n    ema_decay: float = field(default=0.999, metadata={\"help\": \"initial ema decay rate\"})\n    ema_end_decay: float = field(\n        default=0.9999, metadata={\"help\": \"final ema decay rate\"}\n    )\n\n    # when to finish annealing ema decay rate\n    ema_anneal_end_step: int = II(\"optimization.max_update\")\n\n    ema_transformer_only: bool = field(\n        default=True,\n        metadata={\"help\": \"whether to momentum update only the transformer layers\"},\n    )\n\n\ndef get_annealed_rate(start, end, curr_step, total_steps):\n    r = end - start\n    pct_remaining = 1 - curr_step / total_steps\n    return end - r * pct_remaining\n\n\n@register_model(\"data2vec_vision\", dataclass=Data2VecVisionConfig)\nclass Data2VecVisionModel(BaseFairseqModel):\n    def __init__(self, cfg: Data2VecVisionConfig):\n        super().__init__()\n        self.cfg = cfg\n\n        self.ema = None\n\n        self.average_top_k_layers = cfg.average_top_k_layers\n        self.loss_beta = cfg.loss_beta\n        self.loss_scale = (\n            cfg.loss_scale\n            if cfg.loss_scale is not None\n            else 1 / math.sqrt(cfg.embed_dim)\n        )\n\n        self.patch_embed = PatchEmbed(\n            img_size=cfg.image_size,\n            patch_size=cfg.patch_size,\n            in_chans=cfg.in_channels,\n            embed_dim=cfg.embed_dim,\n        )\n\n        patch_size = self.patch_embed.patch_size\n        self.window_size = (\n            cfg.image_size // patch_size[0],\n            cfg.image_size // patch_size[1],\n        )\n\n        self.cls_emb = nn.Parameter(torch.FloatTensor(1, 1, cfg.embed_dim))\n        self.mask_emb = nn.Parameter(torch.FloatTensor(1, 1, cfg.embed_dim))\n\n        nn.init.trunc_normal_(self.cls_emb, 0.02)\n        nn.init.trunc_normal_(self.mask_emb, 0.02)\n\n        self.encoder = TransformerEncoder(cfg, self.patch_embed.patch_shape)\n\n        self.final_proj = nn.Linear(cfg.embed_dim, cfg.embed_dim)\n        self.num_updates = 0\n\n    def make_ema_teacher(self):\n        ema_config = EMAModuleConfig(\n            ema_decay=self.cfg.ema_decay,\n            ema_fp32=True,\n        )\n        self.ema = EMAModule(\n            self.encoder if self.cfg.ema_transformer_only else self,\n            ema_config,\n        )\n\n    def set_num_updates(self, num_updates):\n        super().set_num_updates(num_updates)\n\n        if self.ema is None and self.final_proj is not None:\n            logger.info(f\"making ema teacher\")\n            self.make_ema_teacher()\n        elif self.training and self.ema is not None:\n            if self.cfg.ema_decay != self.cfg.ema_end_decay:\n                if num_updates >= self.cfg.ema_anneal_end_step:\n                    decay = self.cfg.ema_end_decay\n                else:\n                    decay = get_annealed_rate(\n                        self.cfg.ema_decay,\n                        self.cfg.ema_end_decay,\n                        num_updates,\n                        self.cfg.ema_anneal_end_step,\n                    )\n                self.ema.set_decay(decay)\n            if self.ema.get_decay() < 1:\n                self.ema.step(self.encoder if self.cfg.ema_transformer_only else self)\n\n        self.num_updates = num_updates\n\n    def state_dict(self, destination=None, prefix=\"\", keep_vars=False):\n        state = super().state_dict(destination, prefix, keep_vars)\n\n        if self.ema is not None:\n            state[prefix + \"_ema\"] = self.ema.fp32_params\n\n        return state\n\n    def _load_from_state_dict(self, state_dict, prefix, *args, **kwargs):\n        if self.ema is not None:\n            k = prefix + \"_ema\"\n            assert k in state_dict\n            self.ema.restore(state_dict[k], True)\n            del state_dict[k]\n        return super()._load_from_state_dict(state_dict, prefix, *args, **kwargs)\n\n    @classmethod\n    def build_model(cls, cfg: Data2VecVisionConfig, task=None):\n        \"\"\"Build a new model instance.\"\"\"\n\n        return cls(cfg)\n\n    def make_mask(self, bsz, num_masks, min_masks, max_masks):\n        height, width = self.window_size\n\n        masks = np.zeros(shape=(bsz, height, width), dtype=np.int)\n\n        for i in range(bsz):\n            mask = masks[i]\n            mask_count = 0\n\n            min_aspect = 0.3\n            max_aspect = 1 / min_aspect\n            log_aspect_ratio = (math.log(min_aspect), math.log(max_aspect))\n\n            def _mask(mask, max_mask_patches):\n                delta = 0\n                for attempt in range(10):\n                    target_area = random.uniform(min_masks, max_mask_patches)\n                    aspect_ratio = math.exp(random.uniform(*log_aspect_ratio))\n                    h = int(round(math.sqrt(target_area * aspect_ratio)))\n                    w = int(round(math.sqrt(target_area / aspect_ratio)))\n                    if w < width and h < height:\n                        top = random.randint(0, height - h)\n                        left = random.randint(0, width - w)\n\n                        num_masked = mask[top : top + h, left : left + w].sum()\n                        # Overlap\n                        if 0 < h * w - num_masked <= max_mask_patches:\n                            for i in range(top, top + h):\n                                for j in range(left, left + w):\n                                    if mask[i, j] == 0:\n                                        mask[i, j] = 1\n                                        delta += 1\n\n                        if delta > 0:\n                            break\n                return delta\n\n            while mask_count < num_masks:\n                max_mask_patches = min(num_masks - mask_count, max_masks)\n\n                delta = _mask(mask, max_mask_patches)\n                if delta == 0:\n                    break\n                else:\n                    mask_count += delta\n\n        return torch.from_numpy(masks)\n\n    def forward(\n        self,\n        img,\n        mask: bool = True,\n        layer_results: bool = False,\n    ):\n        x = self.patch_embed(img)\n        batch_size, seq_len, _ = x.size()\n\n        if mask:\n            mask_indices = self.make_mask(\n                img.size(0),\n                self.cfg.num_mask_patches,\n                self.cfg.min_mask_patches_per_block,\n                self.cfg.max_mask_patches_per_block,\n            )\n            bool_mask = mask_indices.view(mask_indices.size(0), -1).bool()\n        else:\n            mask_indices = bool_mask = None\n\n        cls_tokens = self.cls_emb.expand(batch_size, -1, -1)\n        x = torch.cat((cls_tokens, x), dim=1)\n\n        if self.ema is not None:\n            with torch.no_grad():\n                self.ema.model.eval()\n\n                if self.cfg.ema_transformer_only:\n                    y = self.ema.model(\n                        x,\n                        layer_results=\"end\" if self.cfg.end_of_block_targets else \"fc\",\n                    )\n                else:\n                    y = self.ema.model(\n                        img,\n                        mask=False,\n                        layer_results=True,\n                    )\n\n            y = y[-self.cfg.average_top_k_layers :]\n\n            permuted = False\n            if self.cfg.instance_norm_target_layer or self.cfg.batch_norm_target_layer:\n                y = [tl.transpose(1, 2) for tl in y]  # BTC -> BCT\n                permuted = True\n\n            if self.cfg.batch_norm_target_layer:\n                y = [\n                    F.batch_norm(\n                        tl.float(), running_mean=None, running_var=None, training=True\n                    )\n                    for tl in y\n                ]\n\n            if self.cfg.instance_norm_target_layer:\n                y = [F.instance_norm(tl.float()) for tl in y]\n\n            if permuted:\n                y = [tl.transpose(1, 2) for tl in y]  # BCT -> BTC\n\n            if self.cfg.layer_norm_target_layer:\n                y = [F.layer_norm(tl.float(), tl.shape[-1:]) for tl in y]\n\n            y = sum(y) / len(y)\n\n            if self.cfg.layer_norm_targets:\n                y = F.layer_norm(y.float(), y.shape[-1:])\n\n            if self.cfg.instance_norm_targets:\n                y = F.instance_norm(y.float().transpose(1, 2)).transpose(1, 2)\n\n            y = y[bool_mask].float()\n\n        if mask_indices is not None:\n            mask_token = self.mask_emb.expand(batch_size, seq_len, -1)\n            w = mask_indices.view(mask_indices.size(0), -1, 1).type_as(mask_token)\n            x[:, 1:] = x[:, 1:] * (1 - w) + mask_token * w\n\n        if layer_results:\n            enc_layer_results = \"end\" if self.cfg.end_of_block_targets else \"fc\"\n        else:\n            enc_layer_results = None\n\n        x = self.encoder(x, layer_results=enc_layer_results)\n        if layer_results or mask_indices is None:\n            return x\n\n        x = x[bool_mask].float()\n\n        if self.loss_beta == 0:\n            loss = F.mse_loss(x, y, reduction=\"none\").sum(dim=-1)\n        else:\n            loss = F.smooth_l1_loss(x, y, reduction=\"none\", beta=self.loss_beta).sum(\n                dim=-1\n            )\n\n        if self.loss_scale > 0:\n            loss = loss * self.loss_scale\n\n        result = {\n            \"losses\": {\"regression\": loss.sum()},\n            \"sample_size\": loss.numel(),\n            \"target_var\": self.compute_var(y),\n            \"pred_var\": self.compute_var(x),\n            \"ema_decay\": self.ema.get_decay() * 1000,\n        }\n        return result\n\n    @staticmethod\n    def compute_var(y):\n        y = y.view(-1, y.size(-1))\n        if dist.is_initialized():\n            zc = torch.tensor(y.size(0)).cuda()\n            zs = y.sum(dim=0)\n            zss = (y ** 2).sum(dim=0)\n\n            dist.all_reduce(zc)\n            dist.all_reduce(zs)\n            dist.all_reduce(zss)\n\n            var = zss / (zc - 1) - (zs ** 2) / (zc * (zc - 1))\n            return torch.sqrt(var + 1e-6).mean()\n        else:\n            return torch.sqrt(y.var(dim=0) + 1e-6).mean()\n\n    def remove_pretraining_modules(self, last_layer=None):\n        self.final_proj = None\n        self.ema = None\n        self.encoder.norm = nn.Identity()\n        self.mask_emb = None\n        if last_layer is not None:\n            self.encoder.layers = nn.ModuleList(\n                l for i, l in enumerate(self.encoder.layers) if i <= last_layer\n            )\n\n\nclass PatchEmbed(nn.Module):\n    \"\"\"Image to Patch Embedding\"\"\"\n\n    def __init__(self, img_size=224, patch_size=16, in_chans=3, embed_dim=768):\n        super().__init__()\n        if isinstance(img_size, int):\n            img_size = img_size, img_size\n        if isinstance(patch_size, int):\n            patch_size = patch_size, patch_size\n        num_patches = (img_size[1] // patch_size[1]) * (img_size[0] // patch_size[0])\n        self.patch_shape = (img_size[0] // patch_size[0], img_size[1] // patch_size[1])\n        self.img_size = img_size\n        self.patch_size = patch_size\n        self.num_patches = num_patches\n\n        self.conv = nn.Conv2d(\n            in_chans, embed_dim, kernel_size=patch_size, stride=patch_size\n        )\n\n    def forward(self, x):\n        # BCHW -> BTC\n        x = self.conv(x).flatten(2).transpose(1, 2)\n        return x\n\n\nclass Attention(nn.Module):\n    def __init__(\n        self,\n        dim,\n        num_heads=8,\n        qkv_bias=True,\n        attn_drop=0.0,\n        proj_drop=0.0,\n        window_size=None,\n        attn_head_dim=None,\n    ):\n        super().__init__()\n        self.num_heads = num_heads\n        head_dim = dim // num_heads\n        if attn_head_dim is not None:\n            head_dim = attn_head_dim\n        all_head_dim = head_dim * self.num_heads\n        self.scale = head_dim ** -0.5\n\n        self.qkv = nn.Linear(dim, all_head_dim * 3, bias=False)\n        if qkv_bias:\n            self.q_bias = nn.Parameter(torch.zeros(all_head_dim))\n            self.v_bias = nn.Parameter(torch.zeros(all_head_dim))\n        else:\n            self.q_bias = None\n            self.v_bias = None\n\n        if window_size:\n            self.window_size = window_size\n            self.num_relative_distance = (2 * window_size[0] - 1) * (\n                2 * window_size[1] - 1\n            ) + 3\n            self.relative_position_bias_table = nn.Parameter(\n                torch.zeros(self.num_relative_distance, num_heads)\n            )  # 2*Wh-1 * 2*Ww-1, nH\n            # cls to token & token 2 cls & cls to cls\n\n            # get pair-wise relative position index for each token inside the window\n            coords_h = torch.arange(window_size[0])\n            coords_w = torch.arange(window_size[1])\n            coords = torch.stack(torch.meshgrid([coords_h, coords_w]))  # 2, Wh, Ww\n            coords_flatten = torch.flatten(coords, 1)  # 2, Wh*Ww\n            relative_coords = (\n                coords_flatten[:, :, None] - coords_flatten[:, None, :]\n            )  # 2, Wh*Ww, Wh*Ww\n            relative_coords = relative_coords.permute(\n                1, 2, 0\n            ).contiguous()  # Wh*Ww, Wh*Ww, 2\n            relative_coords[:, :, 0] += window_size[0] - 1  # shift to start from 0\n            relative_coords[:, :, 1] += window_size[1] - 1\n            relative_coords[:, :, 0] *= 2 * window_size[1] - 1\n            relative_position_index = torch.zeros(\n                size=(window_size[0] * window_size[1] + 1,) * 2,\n                dtype=relative_coords.dtype,\n            )\n            relative_position_index[1:, 1:] = relative_coords.sum(-1)  # Wh*Ww, Wh*Ww\n            relative_position_index[0, 0:] = self.num_relative_distance - 3\n            relative_position_index[0:, 0] = self.num_relative_distance - 2\n            relative_position_index[0, 0] = self.num_relative_distance - 1\n\n            self.register_buffer(\"relative_position_index\", relative_position_index)\n        else:\n            self.window_size = None\n            self.relative_position_bias_table = None\n            self.relative_position_index = None\n\n        self.attn_drop = nn.Dropout(attn_drop)\n        self.proj = nn.Linear(all_head_dim, dim)\n        self.proj_drop = nn.Dropout(proj_drop)\n\n    def forward(self, x, rel_pos_bias=None):\n        B, N, C = x.shape\n        qkv_bias = None\n        if self.q_bias is not None:\n            qkv_bias = torch.cat(\n                (\n                    self.q_bias,\n                    torch.zeros_like(self.v_bias, requires_grad=False),\n                    self.v_bias,\n                )\n            )\n        # qkv = self.qkv(x).reshape(B, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)\n        qkv = F.linear(input=x, weight=self.qkv.weight, bias=qkv_bias)\n        qkv = qkv.reshape(B, N, 3, self.num_heads, -1).permute(2, 0, 3, 1, 4)\n        q, k, v = (\n            qkv[0],\n            qkv[1],\n            qkv[2],\n        )  # make torchscript happy (cannot use tensor as tuple)\n\n        q = q * self.scale\n        attn = q @ k.transpose(-2, -1)\n\n        if self.relative_position_bias_table is not None:\n            assert 1==2\n            relative_position_bias = self.relative_position_bias_table[\n                self.relative_position_index.view(-1)\n            ].view(\n                self.window_size[0] * self.window_size[1] + 1,\n                self.window_size[0] * self.window_size[1] + 1,\n                -1,\n            )  # Wh*Ww,Wh*Ww,nH\n            relative_position_bias = relative_position_bias.permute(\n                2, 0, 1\n            ).contiguous()  # nH, Wh*Ww, Wh*Ww\n            attn = attn + relative_position_bias.unsqueeze(0)\n        print(\"attn.size() :\", attn.size())\n        print(\"rel_pos_bias.size() :\", rel_pos_bias.size())\n        if rel_pos_bias is not None:\n            attn = attn + rel_pos_bias\n        attn = attn.softmax(dim=-1)\n        attn = self.attn_drop(attn)\n\n        x = (attn @ v).transpose(1, 2).reshape(B, N, -1)\n        x = self.proj(x)\n        x = self.proj_drop(x)\n        return x\n\n\nclass RelativePositionBias(nn.Module):\n    def __init__(self, window_size, num_heads):\n        super().__init__()\n        self.window_size = window_size\n        self.num_relative_distance = (2 * window_size[0] - 1) * (\n            2 * window_size[1] - 1\n        ) + 3\n        self.relative_position_bias_table = nn.Parameter(\n            torch.zeros(self.num_relative_distance, num_heads)\n        )\n\n        # get pair-wise relative position index for each token inside the window\n        coords_h = torch.arange(window_size[0])\n        coords_w = torch.arange(window_size[1])\n        coords = torch.stack(torch.meshgrid([coords_h, coords_w]))  # 2, Wh, Ww\n        coords_flatten = torch.flatten(coords, 1)  # 2, Wh*Ww\n        relative_coords = (\n            coords_flatten[:, :, None] - coords_flatten[:, None, :]\n        )  # 2, Wh*Ww, Wh*Ww\n        relative_coords = relative_coords.permute(\n            1, 2, 0\n        ).contiguous()  # Wh*Ww, Wh*Ww, 2\n        relative_coords[:, :, 0] += window_size[0] - 1  # shift to start from 0\n        relative_coords[:, :, 1] += window_size[1] - 1\n        relative_coords[:, :, 0] *= 2 * window_size[1] - 1\n        relative_position_index = torch.zeros(\n            size=(window_size[0] * window_size[1] + 1,) * 2, dtype=relative_coords.dtype\n        )\n        relative_position_index[1:, 1:] = relative_coords.sum(-1)  # Wh*Ww, Wh*Ww\n        relative_position_index[0, 0:] = self.num_relative_distance - 3\n        relative_position_index[0:, 0] = self.num_relative_distance - 2\n        relative_position_index[0, 0] = self.num_relative_distance - 1\n\n        self.register_buffer(\"relative_position_index\", relative_position_index)\n\n    def forward(self):\n        relative_position_bias = self.relative_position_bias_table[\n            self.relative_position_index.view(-1)\n        ].view(\n            self.window_size[0] * self.window_size[1] + 1,\n            self.window_size[0] * self.window_size[1] + 1,\n            -1,\n        )  # Wh*Ww,Wh*Ww,nH\n        print(\"self.window_size :\", self.window_size)\n        print(\"self.num_relative_distance :\", self.num_relative_distance)\n        print(\"self.relative_position_index :\", self.relative_position_index.size(), self.relative_position_index)\n        print(\"relative_position_bias.size(), relative_position_bias :\",relative_position_bias.size(), relative_position_bias)\n        print(\"self.relative_position_bias_table.size(), self.relative_position_bias_table :\",self.relative_position_bias_table.size(), self.relative_position_bias_table)\n        return relative_position_bias.permute(2, 0, 1).contiguous()  # nH, Wh*Ww, Wh*Ww\n\n\nclass DropPath(nn.Module):\n    \"\"\"Drop paths (Stochastic Depth) per sample  (when applied in main path of residual blocks).\"\"\"\n\n    def __init__(self, drop_prob=None):\n        super(DropPath, self).__init__()\n        self.drop_prob = drop_prob\n\n    def forward(self, x):\n        if self.drop_prob == 0.0 or not self.training:\n            return x\n        keep_prob = 1 - self.drop_prob\n        shape = (x.shape[0],) + (1,) * (\n            x.ndim - 1\n        )  # work with diff dim tensors, not just 2D ConvNets\n        random_tensor = keep_prob + torch.rand(shape, dtype=x.dtype, device=x.device)\n        random_tensor.floor_()\n        output = x.div(keep_prob) * random_tensor\n        return output\n\n    def extra_repr(self) -> str:\n        return \"p={}\".format(self.drop_prob)\n\n\nclass Block(nn.Module):\n    def __init__(\n        self,\n        dim,\n        num_heads,\n        mlp_ratio=4.0,\n        drop=0.0,\n        attn_drop=0.0,\n        drop_path=0.0,\n        init_values=None,\n        window_size=None,\n    ):\n        super().__init__()\n\n        self.norm1 = nn.LayerNorm(dim)\n        self.attn = Attention(\n            dim,\n            num_heads=num_heads,\n            attn_drop=attn_drop,\n            proj_drop=drop,\n            window_size=window_size,\n        )\n\n        self.drop_path = DropPath(drop_path) if drop_path > 0.0 else nn.Identity()\n        self.norm2 = nn.LayerNorm(dim)\n        mlp_hidden_dim = int(dim * mlp_ratio)\n\n        self.mlp = nn.Sequential(\n            nn.Linear(dim, mlp_hidden_dim),\n            nn.GELU(),\n            nn.Linear(mlp_hidden_dim, dim),\n            nn.Dropout(drop),\n        )\n\n        if init_values > 0:\n            self.gamma_1 = nn.Parameter(\n                init_values * torch.ones((dim)), requires_grad=True\n            )\n            self.gamma_2 = nn.Parameter(\n                init_values * torch.ones((dim)), requires_grad=True\n            )\n        else:\n            self.gamma_1, self.gamma_2 = None, None\n\n    def forward(self, x, rel_pos_bias=None):\n        print(\"inside block :\", x.size())\n        if self.gamma_1 is None:\n            x = x + self.drop_path(self.attn(self.norm1(x), rel_pos_bias=rel_pos_bias))\n            fc_feature = self.drop_path(self.mlp(self.norm2(x)))\n            x = x + fc_feature\n        else:\n            x = x + self.drop_path(\n                self.gamma_1 * self.attn(self.norm1(x), rel_pos_bias=rel_pos_bias)\n            )\n            fc_feature = self.drop_path(self.gamma_2 * self.mlp(self.norm2(x)))\n            x = x + fc_feature\n        return x, fc_feature\n\n\nclass TransformerEncoder(nn.Module):\n    def __init__(self, cfg: Data2VecVisionConfig, patch_shape):\n        super().__init__()\n\n        self.rel_pos_bias = None\n        if cfg.shared_rel_pos_bias:\n            self.rel_pos_bias = RelativePositionBias(\n                window_size=patch_shape, num_heads=cfg.num_heads\n            )\n\n        dpr = [\n            x.item() for x in torch.linspace(0, cfg.drop_path, cfg.depth)\n        ]  # stochastic depth decay rule\n\n        print(\"TransformerEncoder > patch_shape :\", patch_shape)\n        self.blocks = nn.ModuleList(\n            Block(\n                dim=cfg.embed_dim,\n                num_heads=cfg.num_heads,\n                attn_drop=cfg.attention_dropout,\n                drop_path=dpr[i],\n                init_values=cfg.layer_scale_init_value,\n                window_size=patch_shape if not cfg.shared_rel_pos_bias else None,\n            )\n            for i in range(cfg.depth)\n        )\n\n        self.norm = nn.LayerNorm(cfg.embed_dim)\n\n        self.apply(self.init_weights)\n        self.fix_init_weight()\n\n    def init_weights(self, m):\n        std = 0.02\n        if isinstance(m, nn.Linear):\n            nn.init.trunc_normal_(m.weight, std=std)\n            if isinstance(m, nn.Linear) and m.bias is not None:\n                nn.init.constant_(m.bias, 0)\n        elif isinstance(m, nn.LayerNorm):\n            nn.init.constant_(m.bias, 0)\n            nn.init.constant_(m.weight, 1.0)\n        elif isinstance(m, nn.Conv2d):\n            nn.init.trunc_normal_(m.weight, std=std)\n            if m.bias is not None:\n                nn.init.constant_(m.bias, 0)\n\n    def fix_init_weight(self):\n        def rescale(param, layer_id):\n            param.div_(math.sqrt(2.0 * layer_id))\n\n        for layer_id, layer in enumerate(self.blocks):\n            rescale(layer.attn.proj.weight.data, layer_id + 1)\n            rescale(layer.mlp[2].weight.data, layer_id + 1)\n\n    def extract_features(self, x, layer_results):\n\n        rel_pos_bias = self.rel_pos_bias() if self.rel_pos_bias is not None else None\n\n        z = []\n        for i, blk in enumerate(self.blocks):\n            x, fc_feature = blk(x, rel_pos_bias=rel_pos_bias)\n            if layer_results == \"end\":\n                z.append(x)\n            elif layer_results == \"fc\":\n                z.append(fc_feature)\n\n        return z if layer_results else self.norm(x)\n\n    def forward(self, x, layer_results=None):\n        x = self.extract_features(x, layer_results=layer_results)\n        if layer_results:\n            return [z[:, 1:] for z in x]\n\n        x = x[:, 1:]\n        return x\n"
  },
  {
    "path": "examples/data2vec/models/mae.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n# The code in this file is adapted from the BeiT implementation which can be found here:\n# https://github.com/microsoft/unilm/tree/master/beit\n\nimport logging\nfrom dataclasses import dataclass\nfrom functools import partial\n\nfrom timm.models.vision_transformer import PatchEmbed, Block\n\nimport torch\nimport torch.nn as nn\n\nimport numpy as np\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.models import BaseFairseqModel, register_model\nfrom fairseq.models.wav2vec.wav2vec2 import TransformerSentenceEncoderLayer\n\ntry:\n    from apex.normalization import FusedLayerNorm\nexcept:\n    FusedLayerNorm = nn.LayerNorm\n\nimport torch.nn.functional as F\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass MaeConfig(FairseqDataclass):\n    input_size: int = 224\n    in_chans: int = 3\n    patch_size: int = 16\n    embed_dim: int = 768\n    depth: int = 12\n    num_heads: int = 12\n    decoder_embed_dim: int = 512\n    decoder_depth: int = 8\n    decoder_num_heads: int = 16\n    mlp_ratio: int = 4\n    norm_eps: float = 1e-6\n\n    drop_path_rate: float = 0.0\n\n    mask_ratio: float = 0.75\n    norm_pix_loss: bool = True\n\n    w2v_block: bool = False\n    alt_block: bool = False\n    alt_block2: bool = False\n    alt_attention: bool = False\n    block_dropout: float = 0\n    attention_dropout: float = 0\n    activation_dropout: float = 0\n    layer_norm_first: bool = False\n\n    fused_ln: bool = True\n    end_of_block_targets: bool = True\n\n    no_decoder_embed: bool = False\n    no_decoder_pos_embed: bool = False\n    mask_noise_std: float = 0\n\n    single_qkv: bool = False\n    use_rel_pos_bias: bool = False\n    no_cls: bool = False\n\n\ndef modify_relative_position_bias(orig_bias, bsz, mask):\n    if mask is None:\n        return orig_bias.unsqueeze(0).repeat(\n            bsz, 1, 1, 1\n        )  # heads x seq_len x seq_len => bsz x heads x seq_len x seq_len\n    heads, max_seq_len, max_seq_len = orig_bias.shape  # includes CLS token\n    mask_for_rel_pos_bias = torch.cat(\n        (torch.zeros(bsz, 1, dtype=mask.dtype, device=mask.device), mask), dim=1\n    ).bool()  # bsz x seqlen (add CLS token)\n    unmasked_for_rel_pos_bias = ~mask_for_rel_pos_bias\n    unmasked_for_rel_pos_bias = unmasked_for_rel_pos_bias.unsqueeze(1).repeat(\n        1, heads, 1\n    )  # bsz x seq_len => bsz x heads x seq_len\n    b_t_t_rel_pos_bias = orig_bias.unsqueeze(0).repeat(\n        bsz, 1, 1, 1\n    )  # heads x seq_len x seq_len => bsz x heads x seq_len x seq_len\n    b_t_t_rel_pos_bias = b_t_t_rel_pos_bias.masked_select(\n        unmasked_for_rel_pos_bias.unsqueeze(-1)\n    )\n    b_t_t_rel_pos_bias = b_t_t_rel_pos_bias.view(bsz, heads, -1, max_seq_len)\n    new_len = b_t_t_rel_pos_bias.size(-2)\n    b_t_t_rel_pos_bias = b_t_t_rel_pos_bias.masked_select(\n        unmasked_for_rel_pos_bias.unsqueeze(-2)\n    )\n    b_t_t_rel_pos_bias = b_t_t_rel_pos_bias.view(bsz, heads, new_len, new_len)\n    return b_t_t_rel_pos_bias\n\n\nclass AltBlock(nn.Module):\n    def __init__(\n        self,\n        dim,\n        num_heads,\n        mlp_ratio=4.0,\n        qkv_bias=False,\n        qk_scale=None,\n        drop=0.0,\n        attn_drop=0.0,\n        drop_path=0.0,\n        act_layer=nn.GELU,\n        norm_layer=nn.LayerNorm,\n        layer_norm_first=True,\n        ffn_targets=False,\n        use_rel_pos_bias=False,\n        window_size=None,\n        alt_attention=False,\n    ):\n        super().__init__()\n\n        self.layer_norm_first = layer_norm_first\n        self.ffn_targets = ffn_targets\n\n        from timm.models.vision_transformer import Attention, DropPath, Mlp\n\n        self.norm1 = norm_layer(dim)\n        self.use_rel_pos_bias = use_rel_pos_bias\n        if use_rel_pos_bias:\n            self.attn = AltAttention(\n                dim,\n                num_heads=num_heads,\n                qkv_bias=qkv_bias,\n                qk_scale=qk_scale,\n                attn_drop=attn_drop,\n                proj_drop=drop,\n                window_size=window_size,\n            )\n        else:\n            if alt_attention:\n                from .multi.modules import AltAttention as AltAttention2\n                self.attn = AltAttention2(\n                    dim,\n                    num_heads=num_heads,\n                    qkv_bias=qkv_bias,\n                    qk_scale=qk_scale,\n                    attn_drop=attn_drop,\n                    proj_drop=drop,\n                )\n            else:\n                self.attn = Attention(\n                    dim,\n                    num_heads=num_heads,\n                    qkv_bias=qkv_bias,\n                    qk_scale=qk_scale,\n                    attn_drop=attn_drop,\n                    proj_drop=drop,\n                )\n        # NOTE: drop path for stochastic depth, we shall see if this is better than dropout here\n        self.drop_path = DropPath(drop_path) if drop_path > 0.0 else nn.Identity()\n        self.norm2 = norm_layer(dim)\n        mlp_hidden_dim = int(dim * mlp_ratio)\n        self.mlp = Mlp(\n            in_features=dim,\n            hidden_features=mlp_hidden_dim,\n            act_layer=act_layer,\n            drop=drop,\n        )\n\n    def forward(self, x, rel_pos_bias=None, pos_mask=None):\n        if self.layer_norm_first:\n            if self.use_rel_pos_bias:\n                x = x + self.drop_path(\n                    self.attn(\n                        self.norm1(x), rel_pos_bias=rel_pos_bias, pos_mask=pos_mask\n                    )\n                )\n            else:\n                x = x + self.drop_path(self.attn(self.norm1(x)))\n            t = self.mlp(self.norm2(x))\n            x = x + self.drop_path(t)\n            if not self.ffn_targets:\n                t = x\n            return x, t\n        else:\n            if self.use_rel_pos_bias:\n                x = x + self.drop_path(\n                    self.attn(x, rel_pos_bias=rel_pos_bias, pos_mask=pos_mask)\n                )\n            else:\n                x = x + self.drop_path(self.attn(x))\n            r = x = self.norm1(x)\n            x = self.mlp(x)\n            t = x\n            x = self.norm2(r + self.drop_path(x))\n            if not self.ffn_targets:\n                t = x\n            return x, t\n\n\nclass AltAttention(nn.Module):\n    def __init__(\n        self,\n        dim,\n        num_heads=8,\n        qkv_bias=True,\n        qk_scale=None,\n        attn_drop=0.0,\n        proj_drop=0.0,\n        window_size=None,\n        attn_head_dim=None,\n    ):\n        super().__init__()\n        self.num_heads = num_heads\n        head_dim = dim // num_heads\n        if attn_head_dim is not None:\n            head_dim = attn_head_dim\n        all_head_dim = head_dim * self.num_heads\n        self.scale = qk_scale or head_dim ** -0.5\n\n        self.qkv = nn.Linear(dim, all_head_dim * 3, bias=False)\n        if qkv_bias:\n            self.q_bias = nn.Parameter(torch.zeros(all_head_dim))\n            self.v_bias = nn.Parameter(torch.zeros(all_head_dim))\n        else:\n            self.q_bias = None\n            self.v_bias = None\n\n        if window_size:\n            self.window_size = window_size\n            self.num_relative_distance = (2 * window_size[0] - 1) * (\n                2 * window_size[1] - 1\n            ) + 3\n            self.relative_position_bias_table = nn.Parameter(\n                torch.zeros(self.num_relative_distance, num_heads)\n            )  # 2*Wh-1 * 2*Ww-1, nH\n            # cls to token & token 2 cls & cls to cls\n\n            # get pair-wise relative position index for each token inside the window\n            coords_h = torch.arange(window_size[0])\n            coords_w = torch.arange(window_size[1])\n            coords = torch.stack(torch.meshgrid([coords_h, coords_w]))  # 2, Wh, Ww\n            coords_flatten = torch.flatten(coords, 1)  # 2, Wh*Ww\n            relative_coords = (\n                coords_flatten[:, :, None] - coords_flatten[:, None, :]\n            )  # 2, Wh*Ww, Wh*Ww\n            relative_coords = relative_coords.permute(\n                1, 2, 0\n            ).contiguous()  # Wh*Ww, Wh*Ww, 2\n            relative_coords[:, :, 0] += window_size[0] - 1  # shift to start from 0\n            relative_coords[:, :, 1] += window_size[1] - 1\n            relative_coords[:, :, 0] *= 2 * window_size[1] - 1\n            relative_position_index = torch.zeros(\n                size=(window_size[0] * window_size[1] + 1,) * 2,\n                dtype=relative_coords.dtype,\n            )\n            relative_position_index[1:, 1:] = relative_coords.sum(-1)  # Wh*Ww, Wh*Ww\n            relative_position_index[0, 0:] = self.num_relative_distance - 3\n            relative_position_index[0:, 0] = self.num_relative_distance - 2\n            relative_position_index[0, 0] = self.num_relative_distance - 1\n\n            self.register_buffer(\"relative_position_index\", relative_position_index)\n        else:\n            self.window_size = None\n            self.relative_position_bias_table = None\n            self.relative_position_index = None\n\n        self.attn_drop = nn.Dropout(attn_drop)\n        self.proj = nn.Linear(all_head_dim, dim)\n        self.proj_drop = nn.Dropout(proj_drop)\n\n    def forward(self, x, rel_pos_bias=None, pos_mask=None):\n        B, N, C = x.shape\n        qkv_bias = None\n        if self.q_bias is not None:\n            qkv_bias = torch.cat(\n                (\n                    self.q_bias,\n                    torch.zeros_like(self.v_bias, requires_grad=False),\n                    self.v_bias,\n                )\n            )\n        # qkv = self.qkv(x).reshape(B, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)\n        qkv = F.linear(input=x, weight=self.qkv.weight, bias=qkv_bias)\n        qkv = qkv.reshape(B, N, 3, self.num_heads, -1).permute(2, 0, 3, 1, 4)\n        q, k, v = (\n            qkv[0],\n            qkv[1],\n            qkv[2],\n        )  # make torchscript happy (cannot use tensor as tuple)\n\n        q = q * self.scale\n        attn = q @ k.transpose(-2, -1)\n\n        if self.relative_position_bias_table is not None:\n            relative_position_bias = self.relative_position_bias_table[\n                self.relative_position_index.view(-1)\n            ].view(\n                self.window_size[0] * self.window_size[1] + 1,\n                self.window_size[0] * self.window_size[1] + 1,\n                -1,\n            )  # Wh*Ww,Wh*Ww,nH\n            relative_position_bias = relative_position_bias.permute(\n                2, 0, 1\n            ).contiguous()  # nH, Wh*Ww, Wh*Ww\n            attn = attn + modify_relative_position_bias(\n                relative_position_bias, x.size(0), pos_mask\n            )\n\n        if rel_pos_bias is not None:\n            attn = attn + rel_pos_bias\n\n        attn = attn.softmax(dim=-1)\n        attn = self.attn_drop(attn)\n\n        x = (attn @ v).transpose(1, 2).reshape(B, N, -1)\n        x = self.proj(x)\n        x = self.proj_drop(x)\n        return x\n\n\nclass RelativePositionBias(nn.Module):\n    def __init__(self, window_size, num_heads):\n        super().__init__()\n        self.window_size = window_size\n        self.num_relative_distance = (2 * window_size[0] - 1) * (\n            2 * window_size[1] - 1\n        ) + 3\n        self.relative_position_bias_table = nn.Parameter(\n            torch.zeros(self.num_relative_distance, num_heads)\n        )\n\n        # get pair-wise relative position index for each token inside the window\n        coords_h = torch.arange(window_size[0])\n        coords_w = torch.arange(window_size[1])\n        coords = torch.stack(torch.meshgrid([coords_h, coords_w]))  # 2, Wh, Ww\n        coords_flatten = torch.flatten(coords, 1)  # 2, Wh*Ww\n        relative_coords = (\n            coords_flatten[:, :, None] - coords_flatten[:, None, :]\n        )  # 2, Wh*Ww, Wh*Ww\n        relative_coords = relative_coords.permute(\n            1, 2, 0\n        ).contiguous()  # Wh*Ww, Wh*Ww, 2\n        relative_coords[:, :, 0] += window_size[0] - 1  # shift to start from 0\n        relative_coords[:, :, 1] += window_size[1] - 1\n        relative_coords[:, :, 0] *= 2 * window_size[1] - 1\n        relative_position_index = torch.zeros(\n            size=(window_size[0] * window_size[1] + 1,) * 2, dtype=relative_coords.dtype\n        )\n        relative_position_index[1:, 1:] = relative_coords.sum(-1)  # Wh*Ww, Wh*Ww\n        relative_position_index[0, 0:] = self.num_relative_distance - 3\n        relative_position_index[0:, 0] = self.num_relative_distance - 2\n        relative_position_index[0, 0] = self.num_relative_distance - 1\n\n        self.register_buffer(\"relative_position_index\", relative_position_index)\n\n    def forward(self):\n        relative_position_bias = self.relative_position_bias_table[\n            self.relative_position_index.view(-1)\n        ].view(\n            self.window_size[0] * self.window_size[1] + 1,\n            self.window_size[0] * self.window_size[1] + 1,\n            -1,\n        )  # Wh*Ww,Wh*Ww,nH\n        return relative_position_bias.permute(2, 0, 1).contiguous()  # nH, Wh*Ww, Wh*Ww\n\n\ndef get_2d_sincos_pos_embed(embed_dim, grid_size, cls_token=False):\n    \"\"\"\n    grid_size: int of the grid height and width\n    return:\n    pos_embed: [grid_size*grid_size, embed_dim] or [1+grid_size*grid_size, embed_dim] (w/ or w/o cls_token)\n    \"\"\"\n    grid_h = np.arange(grid_size, dtype=np.float32)\n    grid_w = np.arange(grid_size, dtype=np.float32)\n    grid = np.meshgrid(grid_w, grid_h)  # here w goes first\n    grid = np.stack(grid, axis=0)\n\n    grid = grid.reshape([2, 1, grid_size, grid_size])\n    pos_embed = get_2d_sincos_pos_embed_from_grid(embed_dim, grid)\n    if cls_token:\n        pos_embed = np.concatenate([np.zeros([1, embed_dim]), pos_embed], axis=0)\n    return pos_embed\n\n\ndef get_2d_sincos_pos_embed_from_grid(embed_dim, grid):\n    assert embed_dim % 2 == 0\n\n    # use half of dimensions to encode grid_h\n    emb_h = get_1d_sincos_pos_embed_from_grid(embed_dim // 2, grid[0])  # (H*W, D/2)\n    emb_w = get_1d_sincos_pos_embed_from_grid(embed_dim // 2, grid[1])  # (H*W, D/2)\n\n    emb = np.concatenate([emb_h, emb_w], axis=1)  # (H*W, D)\n    return emb\n\n\ndef get_1d_sincos_pos_embed_from_grid(embed_dim, pos):\n    \"\"\"\n    embed_dim: output dimension for each position\n    pos: a list of positions to be encoded: size (M,)\n    out: (M, D)\n    \"\"\"\n    assert embed_dim % 2 == 0\n    omega = np.arange(embed_dim // 2, dtype=np.float)\n    omega /= embed_dim / 2.0\n    omega = 1.0 / 10000 ** omega  # (D/2,)\n\n    pos = pos.reshape(-1)  # (M,)\n    out = np.einsum(\"m,d->md\", pos, omega)  # (M, D/2), outer product\n\n    emb_sin = np.sin(out)  # (M, D/2)\n    emb_cos = np.cos(out)  # (M, D/2)\n\n    emb = np.concatenate([emb_sin, emb_cos], axis=1)  # (M, D)\n    return emb\n\n\ndef interpolate_pos_embed(model, checkpoint_model):\n    if \"pos_embed\" in checkpoint_model:\n        pos_embed_checkpoint = checkpoint_model[\"pos_embed\"]\n        embedding_size = pos_embed_checkpoint.shape[-1]\n        num_patches = model.patch_embed.num_patches\n        num_extra_tokens = model.pos_embed.shape[-2] - num_patches\n        # height (== width) for the checkpoint position embedding\n        orig_size = int((pos_embed_checkpoint.shape[-2] - num_extra_tokens) ** 0.5)\n        # height (== width) for the new position embedding\n        new_size = int(num_patches ** 0.5)\n        # class_token and dist_token are kept unchanged\n        if orig_size != new_size:\n            print(\n                \"Position interpolate from %dx%d to %dx%d\"\n                % (orig_size, orig_size, new_size, new_size)\n            )\n            extra_tokens = pos_embed_checkpoint[:, :num_extra_tokens]\n            # only the position tokens are interpolated\n            pos_tokens = pos_embed_checkpoint[:, num_extra_tokens:]\n            pos_tokens = pos_tokens.reshape(\n                -1, orig_size, orig_size, embedding_size\n            ).permute(0, 3, 1, 2)\n            pos_tokens = torch.nn.functional.interpolate(\n                pos_tokens,\n                size=(new_size, new_size),\n                mode=\"bicubic\",\n                align_corners=False,\n            )\n            pos_tokens = pos_tokens.permute(0, 2, 3, 1).flatten(1, 2)\n            new_pos_embed = torch.cat((extra_tokens, pos_tokens), dim=1)\n            checkpoint_model[\"pos_embed\"] = new_pos_embed\n\n\n@register_model(\"mae\", dataclass=MaeConfig)\nclass MaeModel(BaseFairseqModel):\n    def __init__(self, cfg: MaeConfig):\n        super().__init__()\n        self.cfg = cfg\n\n        self.mask_ratio = cfg.mask_ratio\n\n        # --------------------------------------------------------------------------\n        # MAE encoder specifics\n        self.patch_embed = PatchEmbed(\n            cfg.input_size, cfg.patch_size, cfg.in_chans, cfg.embed_dim\n        )\n        num_patches = self.patch_embed.num_patches\n\n        self.cls_token = nn.Parameter(torch.zeros(1, 1, cfg.embed_dim)) if not cfg.no_cls else None\n        self.pos_embed = nn.Parameter(\n            torch.zeros(1, num_patches + int(not cfg.no_cls), cfg.embed_dim), requires_grad=False\n        )  # fixed sin-cos embedding\n\n        norm_layer = partial(nn.LayerNorm, eps=cfg.norm_eps)\n\n        dpr = [\n            x.item() for x in torch.linspace(0, cfg.drop_path_rate, cfg.depth)\n        ]  # stochastic depth decay rule\n\n        def make_block(drop_path):\n            if cfg.w2v_block:\n                return TransformerSentenceEncoderLayer(\n                    embedding_dim=cfg.embed_dim,\n                    ffn_embedding_dim=cfg.embed_dim * cfg.mlp_ratio,\n                    num_attention_heads=cfg.num_heads,\n                    dropout=cfg.block_dropout,\n                    attention_dropout=cfg.attention_dropout,\n                    activation_dropout=cfg.activation_dropout,\n                    activation_fn=\"gelu\",\n                    layer_norm_first=cfg.layer_norm_first,\n                    drop_path=drop_path,\n                    norm_eps=1e-6,\n                    single_qkv=cfg.single_qkv,\n                    fused_ln=cfg.fused_ln,\n                )\n            elif cfg.alt_block:\n                window_size = (\n                    cfg.input_size // self.patch_embed.patch_size[0],\n                    cfg.input_size // self.patch_embed.patch_size[1],\n                )\n                return AltBlock(\n                    cfg.embed_dim,\n                    cfg.num_heads,\n                    cfg.mlp_ratio,\n                    qkv_bias=True,\n                    qk_scale=None,\n                    norm_layer=norm_layer,\n                    drop_path=drop_path,\n                    layer_norm_first=cfg.layer_norm_first,\n                    ffn_targets=not cfg.end_of_block_targets,\n                    use_rel_pos_bias=cfg.use_rel_pos_bias,\n                    window_size=window_size\n                    if (self.cfg.use_rel_pos_bias and not self.cfg.shared_rel_pos_bias)\n                    else None,\n                    alt_attention=cfg.alt_attention,\n                )\n            elif cfg.alt_block2:\n                from .multi.modules import AltBlock as AltBlock2\n                return AltBlock2(\n                    cfg.embed_dim,\n                    cfg.num_heads,\n                    cfg.mlp_ratio,\n                    qkv_bias=True,\n                    qk_scale=None,\n                    norm_layer=norm_layer,\n                    drop_path=drop_path,\n                    layer_norm_first=cfg.layer_norm_first,\n                    ffn_targets=not cfg.end_of_block_targets,\n                )\n            else:\n                return Block(\n                    cfg.embed_dim,\n                    cfg.num_heads,\n                    cfg.mlp_ratio,\n                    qkv_bias=True,\n                    qk_scale=None,\n                    norm_layer=norm_layer,\n                    drop_path=drop_path,\n                )\n\n        self.blocks = nn.ModuleList([make_block(dpr[i]) for i in range(cfg.depth)])\n        self.norm = norm_layer(cfg.embed_dim)\n        # --------------------------------------------------------------------------\n\n        # --------------------------------------------------------------------------\n        # MAE decoder specifics\n        self.decoder_embed = (\n            nn.Linear(cfg.embed_dim, cfg.decoder_embed_dim, bias=True)\n            if not cfg.no_decoder_embed\n            else None\n        )\n\n        self.mask_token = (\n            nn.Parameter(\n                torch.zeros(\n                    1,\n                    1,\n                    cfg.decoder_embed_dim\n                    if not cfg.no_decoder_embed\n                    else cfg.embed_dim,\n                )\n            )\n            if cfg.mask_noise_std <= 0\n            else None\n        )\n\n        self.decoder_pos_embed = (\n            nn.Parameter(\n                torch.zeros(\n                    1,\n                    num_patches + 1,\n                    cfg.decoder_embed_dim\n                    if not cfg.no_decoder_embed\n                    else cfg.embed_dim,\n                ),\n                requires_grad=False,\n            )\n            if not cfg.no_decoder_pos_embed\n            else None\n        )\n\n        self.decoder_blocks = nn.ModuleList(\n            [\n                Block(\n                    cfg.decoder_embed_dim,\n                    cfg.decoder_num_heads,\n                    cfg.mlp_ratio,\n                    qkv_bias=True,\n                    qk_scale=None,\n                    norm_layer=norm_layer,\n                )\n                for _ in range(cfg.decoder_depth)\n            ]\n        )\n\n        self.decoder_norm = norm_layer(cfg.decoder_embed_dim)\n        self.decoder_pred = nn.Linear(\n            cfg.decoder_embed_dim, cfg.patch_size ** 2 * cfg.in_chans, bias=True\n        )  # decoder to patch\n        # --------------------------------------------------------------------------\n\n        self.norm_pix_loss = cfg.norm_pix_loss\n\n        self.initialize_weights()\n\n        for pn, p in self.named_parameters():\n            if len(p.shape) == 1 or pn.endswith(\".bias\"):\n                p.param_group = \"no_decay\"\n            else:\n                p.param_group = \"with_decay\"\n\n    def initialize_weights(self):\n        # initialization\n        # initialize (and freeze) pos_embed by sin-cos embedding\n        pos_embed = get_2d_sincos_pos_embed(\n            self.pos_embed.shape[-1],\n            int(self.patch_embed.num_patches ** 0.5),\n            cls_token=not self.cfg.no_cls,\n        )\n        self.pos_embed.data.copy_(torch.from_numpy(pos_embed).float().unsqueeze(0))\n\n        if self.decoder_pos_embed is not None:\n            decoder_pos_embed = get_2d_sincos_pos_embed(\n                self.decoder_pos_embed.shape[-1],\n                int(self.patch_embed.num_patches ** 0.5),\n                cls_token=not self.cfg.no_cls,\n            )\n            self.decoder_pos_embed.data.copy_(\n                torch.from_numpy(decoder_pos_embed).float().unsqueeze(0)\n            )\n\n        # initialize patch_embed like nn.Linear (instead of nn.Conv2d)\n        w = self.patch_embed.proj.weight.data\n        torch.nn.init.xavier_uniform_(w.view([w.shape[0], -1]))\n\n        # timm's trunc_normal_(std=.02) is effectively normal_(std=0.02) as cutoff is too big (2.)\n        if self.cls_token is not None:\n            torch.nn.init.normal_(self.cls_token, std=0.02)\n\n        if self.mask_token is not None:\n            torch.nn.init.normal_(self.mask_token, std=0.02)\n\n        # initialize nn.Linear and nn.LayerNorm\n        self.apply(self._init_weights)\n\n    def _init_weights(self, m):\n        if isinstance(m, nn.Linear):\n            # we use xavier_uniform following official JAX ViT:\n            torch.nn.init.xavier_uniform_(m.weight)\n            if isinstance(m, nn.Linear) and m.bias is not None:\n                nn.init.constant_(m.bias, 0)\n        elif isinstance(m, nn.LayerNorm) or isinstance(m, FusedLayerNorm):\n            nn.init.constant_(m.bias, 0)\n            nn.init.constant_(m.weight, 1.0)\n\n    def patchify(self, imgs):\n        \"\"\"\n        imgs: (N, 3, H, W)\n        x: (N, L, patch_size**2 *3)\n        \"\"\"\n        p = self.patch_embed.patch_size[0]\n        assert imgs.shape[2] == imgs.shape[3] and imgs.shape[2] % p == 0\n\n        h = w = imgs.shape[2] // p\n        x = imgs.reshape(shape=(imgs.shape[0], 3, h, p, w, p))\n        x = torch.einsum(\"nchpwq->nhwpqc\", x)\n        x = x.reshape(shape=(imgs.shape[0], h * w, p ** 2 * 3))\n        return x\n\n    def unpatchify(self, x):\n        \"\"\"\n        x: (N, L, patch_size**2 *3)\n        imgs: (N, 3, H, W)\n        \"\"\"\n        p = self.patch_embed.patch_size[0]\n        h = w = int(x.shape[1] ** 0.5)\n        assert h * w == x.shape[1]\n\n        x = x.reshape(shape=(x.shape[0], h, w, p, p, 3))\n        x = torch.einsum(\"nhwpqc->nchpwq\", x)\n        imgs = x.reshape(shape=(x.shape[0], 3, h * p, h * p))\n        return imgs\n\n    def random_masking(self, x, mask_ratio):\n        \"\"\"\n        Perform per-sample random masking by per-sample shuffling.\n        Per-sample shuffling is done by argsort random noise.\n        x: [N, L, D], sequence\n        \"\"\"\n        N, L, D = x.shape  # batch, length, dim\n        len_keep = int(L * (1 - mask_ratio))\n\n        noise = torch.rand(N, L, device=x.device)  # noise in [0, 1]\n\n        # sort noise for each sample\n        ids_shuffle = torch.argsort(\n            noise, dim=1\n        )  # ascend: small is keep, large is remove\n        ids_restore = torch.argsort(ids_shuffle, dim=1)\n\n        # keep the first subset\n        ids_keep = ids_shuffle[:, :len_keep]\n        x_masked = torch.gather(x, dim=1, index=ids_keep.unsqueeze(-1).repeat(1, 1, D))\n\n        # generate the binary mask: 0 is keep, 1 is remove\n        mask = torch.ones([N, L], device=x.device)\n        mask[:, :len_keep] = 0\n        # unshuffle to get the binary mask\n        mask = torch.gather(mask, dim=1, index=ids_restore)\n\n        return x_masked, mask, ids_restore  # x_masked is actually unmasked x\n\n    @classmethod\n    def build_model(cls, cfg: MaeConfig, task=None):\n        \"\"\"Build a new model instance.\"\"\"\n\n        return cls(cfg)\n\n    def forward_encoder(self, x, mask_ratio):\n        # embed patches\n        x = self.patch_embed(x)\n\n        # add pos embed w/o cls token\n        # if self.cls_token is not None:\n        #     x = x + self.pos_embed\n        # else:\n        x = x + self.pos_embed[:, 1:, :]\n\n        # masking: length -> length * mask_ratio\n        if mask_ratio > 0:\n            x, mask, ids_restore = self.random_masking(x, mask_ratio)\n        else:\n            mask = ids_restore = None\n\n        # append cls token\n        if self.cls_token is not None:\n            cls_token = self.cls_token + self.pos_embed[:, :1, :]\n            cls_tokens = cls_token.expand(x.shape[0], -1, -1)\n            x = torch.cat((cls_tokens, x), dim=1)\n\n        # apply Transformer blocks\n        for blk in self.blocks:\n            x = blk(x)\n\n        if self.norm is not None:\n            x = self.norm(x)\n\n        return x, mask, ids_restore\n\n    def forward_decoder(self, x, ids_restore):\n        # embed tokens\n        x = self.decoder_embed(x)\n\n        # append mask tokens to sequence\n        mask_tokens = self.mask_token.repeat(\n            x.shape[0], ids_restore.shape[1] + 1 - x.shape[1], 1\n        )\n        if self.cls_token is not None:\n            x_ = torch.cat([x[:, 1:, :], mask_tokens], dim=1)  # no cls token\n        else:\n            x_ = torch.cat([x, mask_tokens], dim=1)  # no cls token\n\n        x_ = torch.gather(\n            x_, dim=1, index=ids_restore.unsqueeze(-1).repeat(1, 1, x.shape[2])\n        )  # unshuffle\n\n        if self.cls_token is not None:\n            x = torch.cat([x[:, :1, :], x_], dim=1)  # append cls token\n\n        # add pos embed\n        x = x + self.decoder_pos_embed\n\n        # apply Transformer blocks\n        for blk in self.decoder_blocks:\n            x = blk(x)\n        x = self.decoder_norm(x)\n\n        # predictor projection\n        x = self.decoder_pred(x)\n\n        if self.cls_token is not None:\n            # remove cls token\n            x = x[:, 1:, :]\n\n        return x\n\n    def forward_loss(self, imgs, pred, mask):\n        \"\"\"\n        imgs: [N, 3, H, W]\n        pred: [N, L, p*p*3]\n        mask: [N, L], 0 is keep, 1 is remove,\n        \"\"\"\n        target = self.patchify(imgs)\n        if self.norm_pix_loss:\n            mean = target.mean(dim=-1, keepdim=True)\n            var = target.var(dim=-1, keepdim=True)\n            target = (target - mean) / (var + 1.0e-6) ** 0.5\n\n        loss = (pred - target) ** 2\n        loss = loss.mean(dim=-1)  # [N, L], mean loss per patch\n\n        loss = (loss * mask).sum()\n        return loss, mask.sum()\n\n    def forward(self, imgs, predictions_only=False):\n        latent, mask, ids_restore = self.forward_encoder(\n            imgs, self.mask_ratio if not predictions_only else 0\n        )\n\n        if predictions_only:\n            return latent\n\n        pred = self.forward_decoder(latent, ids_restore)  # [N, L, p*p*3]\n        loss, sample_size = self.forward_loss(imgs, pred, mask)\n\n        result = {\n            \"losses\": {\"regression\": loss},\n            \"sample_size\": sample_size,\n        }\n        return result\n\n    def remove_pretraining_modules(self):\n        self.decoder_embed = None\n        self.decoder_blocks = None\n        self.decoder_norm = None\n        self.decoder_pos_embed = None\n        self.decoder_pred = None\n        self.mask_token = None\n        if self.cfg.layer_norm_first:\n            self.norm = None\n"
  },
  {
    "path": "examples/data2vec/models/mae_image_classification.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n# The code in this file is adapted from the BeiT implementation which can be found here:\n# https://github.com/microsoft/unilm/tree/master/beit\n\nimport logging\n\nfrom dataclasses import dataclass\nfrom enum import Enum, auto\nfrom typing import Any, Optional\n\nimport numpy as np\nfrom omegaconf import II, MISSING\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nfrom fairseq import checkpoint_utils, tasks\nfrom omegaconf import open_dict\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.models import BaseFairseqModel, register_model\nfrom .mae import interpolate_pos_embed\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass PredictionMode(Enum):\n    MEAN_POOLING = auto()\n    CLS_TOKEN = auto()\n    LIN_SOFTMAX = auto()\n\n\n@dataclass\nclass MaeImageClassificationConfig(FairseqDataclass):\n    model_path: str = MISSING\n    no_pretrained_weights: bool = False\n    linear_classifier: bool = False\n    num_classes: int = 1000\n    mixup: float = 0.8\n    cutmix: float = 1.0\n    label_smoothing: float = 0.1\n\n    drop_path_rate: float = 0.1\n    layer_decay: float = 0.65\n\n    mixup_prob: float = 1.0\n    mixup_switch_prob: float = 0.5\n    mixup_mode: str = \"batch\"\n\n    pretrained_model_args: Any = None\n    data: str = II(\"task.data\")\n\n    norm_eps: Optional[float] = None\n\n    remove_alibi: bool = False\n\n    # regularization overwrites\n    encoder_dropout: float = 0\n    post_mlp_drop: float = 0\n    attention_dropout: float = 0\n    activation_dropout: float = 0.0\n    dropout_input: float = 0.0\n    layerdrop: float = 0.0\n\n    prenet_layerdrop: float = 0\n    prenet_dropout: float = 0\n\n    use_fc_norm: bool = True\n    prediction_mode: PredictionMode = PredictionMode.MEAN_POOLING\n\n    no_decay_blocks: bool = True\n\n\ndef get_layer_id_for_vit(name, num_layers):\n    \"\"\"\n    Assign a parameter with its layer id\n    Following BEiT: https://github.com/microsoft/unilm/blob/master/beit/optim_factory.py#L33\n    \"\"\"\n    if name in [\"cls_token\", \"pos_embed\"]:\n        return 0\n    elif name.startswith(\"patch_embed\"):\n        return 0\n    elif name.startswith(\"rel_pos_bias\"):\n        return num_layers - 1\n    elif name.startswith(\"blocks\"):\n        return int(name.split(\".\")[1]) + 1\n    else:\n        return num_layers\n\n\n@register_model(\"mae_image_classification\", dataclass=MaeImageClassificationConfig)\nclass MaeImageClassificationModel(BaseFairseqModel):\n    def __init__(self, cfg: MaeImageClassificationConfig):\n        super().__init__()\n        self.cfg = cfg\n\n        if cfg.pretrained_model_args is None:\n            state = checkpoint_utils.load_checkpoint_to_cpu(cfg.model_path, {})\n            pretrained_args = state.get(\"cfg\", None)\n\n            pretrained_args.criterion = None\n            pretrained_args.lr_scheduler = None\n\n            logger.info(pretrained_args.model)\n\n            with open_dict(pretrained_args.model):\n                pretrained_args.model.drop_path_rate = cfg.drop_path_rate\n                if cfg.norm_eps is not None:\n                    pretrained_args.model.norm_eps = cfg.norm_eps\n\n            cfg.pretrained_model_args = pretrained_args\n\n            logger.info(pretrained_args)\n        else:\n            state = None\n            pretrained_args = cfg.pretrained_model_args\n\n        if \"data\" in pretrained_args.task:\n            pretrained_args.task.data = cfg.data\n        elif \"image\" in pretrained_args.task:\n            pretrained_args.task.image.data = cfg.data\n\n        if \"modalities\" in pretrained_args.model:\n            prenet_blocks = pretrained_args.model[\"modalities\"][\"image\"][\"prenet_depth\"]\n            model_blocks = pretrained_args.model[\"depth\"]\n            with open_dict(pretrained_args):\n                dpr = np.linspace(0, cfg.drop_path_rate, model_blocks).tolist()\n                pretrained_args.model[\"modalities\"][\"image\"][\n                    \"start_drop_path_rate\"\n                ] = dpr[0]\n                pretrained_args.model[\"modalities\"][\"image\"][\n                    \"end_drop_path_rate\"\n                ] = max(0, dpr[prenet_blocks - 1])\n                pretrained_args.model[\"start_drop_path_rate\"] = dpr[prenet_blocks]\n                pretrained_args.model[\"end_drop_path_rate\"] = dpr[-1]\n\n                if \"mae_masking\" in pretrained_args.model[\"modalities\"][\"image\"]:\n                    del pretrained_args.model[\"modalities\"][\"image\"][\"mae_masking\"]\n\n                if cfg.remove_alibi:\n                    pretrained_args.model[\"modalities\"][\"image\"][\n                        \"use_alibi_encoder\"\n                    ] = False\n                    if (\n                        state is not None\n                        and \"modality_encoders.IMAGE.alibi_bias\" in state[\"model\"]\n                    ):\n                        del state[\"model\"][\"modality_encoders.IMAGE.alibi_bias\"]\n\n                pretrained_args.model[\"encoder_dropout\"] = cfg.encoder_dropout\n                pretrained_args.model[\"post_mlp_drop\"] = cfg.post_mlp_drop\n                pretrained_args.model[\"attention_dropout\"] = cfg.attention_dropout\n                pretrained_args.model[\"activation_dropout\"] = cfg.activation_dropout\n                pretrained_args.model[\"dropout_input\"] = cfg.dropout_input\n                pretrained_args.model[\"layerdrop\"] = cfg.layerdrop\n\n                pretrained_args.model[\"modalities\"][\"image\"][\n                    \"prenet_layerdrop\"\n                ] = cfg.prenet_layerdrop\n                pretrained_args.model[\"modalities\"][\"image\"][\n                    \"prenet_dropout\"\n                ] = cfg.prenet_dropout\n        else:\n            # not d2v multi\n            with open_dict(pretrained_args):\n                pretrained_args.model[\"drop_path_rate\"] = cfg.drop_path_rate\n                pretrained_args.model[\"block_dropout\"] = cfg.encoder_dropout\n                pretrained_args.model[\"attention_dropout\"] = cfg.attention_dropout\n                pretrained_args.model[\"activation_dropout\"] = cfg.activation_dropout\n\n        task = tasks.setup_task(pretrained_args.task)\n        model = task.build_model(pretrained_args.model, from_checkpoint=True)\n\n        self.d2v_multi = \"data2vec_multi\" in pretrained_args.model._name\n        self.linear_classifier = cfg.linear_classifier\n\n        self.model = model\n\n        if state is not None and not cfg.no_pretrained_weights:\n            interpolate_pos_embed(model, state)\n\n            if \"modality_encoders.IMAGE.positional_encoder.pos_embed\" in state[\"model\"]:\n                state[\"model\"][\n                    \"modality_encoders.IMAGE.positional_encoder.positions\"\n                ] = state[\"model\"][\n                    \"modality_encoders.IMAGE.positional_encoder.pos_embed\"\n                ]\n                del state[\"model\"][\n                    \"modality_encoders.IMAGE.positional_encoder.pos_embed\"\n                ]\n            if \"modality_encoders.IMAGE.encoder_mask\" in state[\"model\"]:\n                del state[\"model\"][\"modality_encoders.IMAGE.encoder_mask\"]\n\n            model.load_state_dict(state[\"model\"], strict=True)\n\n        if self.d2v_multi:\n            model.remove_pretraining_modules(modality=\"image\")\n        else:\n            model.remove_pretraining_modules()\n\n        if self.linear_classifier:\n            model.requires_grad_(False)\n\n        self.fc_norm = None\n        if self.cfg.use_fc_norm:\n            self.fc_norm = nn.LayerNorm(pretrained_args.model.embed_dim, eps=1e-6)\n            nn.init.constant_(self.fc_norm.bias, 0)\n            nn.init.constant_(self.fc_norm.weight, 1.0)\n\n        self.head = nn.Linear(pretrained_args.model.embed_dim, cfg.num_classes)\n\n        nn.init.trunc_normal_(self.head.weight, std=0.02)\n        nn.init.constant_(self.head.bias, 0)\n\n        self.mixup_fn = None\n\n        if cfg.mixup > 0 or cfg.cutmix > 0:\n            from timm.data import Mixup\n\n            self.mixup_fn = Mixup(\n                mixup_alpha=cfg.mixup,\n                cutmix_alpha=cfg.cutmix,\n                cutmix_minmax=None,\n                prob=cfg.mixup_prob,\n                switch_prob=cfg.mixup_switch_prob,\n                mode=cfg.mixup_mode,\n                label_smoothing=cfg.label_smoothing,\n                num_classes=cfg.num_classes,\n            )\n\n        if self.model.norm is not None:\n            for pn, p in self.model.norm.named_parameters():\n                if len(p.shape) == 1 or pn.endswith(\".bias\"):\n                    p.optim_overrides = {\"optimizer\": {\"weight_decay_scale\": 0}}\n\n        if self.fc_norm is not None:\n            for pn, p in self.fc_norm.named_parameters():\n                if len(p.shape) == 1 or pn.endswith(\".bias\"):\n                    p.optim_overrides = {\"optimizer\": {\"weight_decay_scale\": 0}}\n\n        for pn, p in self.head.named_parameters():\n            if len(p.shape) == 1 or pn.endswith(\".bias\"):\n                p.optim_overrides = {\"optimizer\": {\"weight_decay_scale\": 0}}\n\n        if self.d2v_multi:\n            mod_encs = list(model.modality_encoders.values())\n            assert len(mod_encs) == 1, len(mod_encs)\n            blocks = list(mod_encs[0].context_encoder.blocks) + list(model.blocks)\n        else:\n            blocks = model.blocks\n\n        num_layers = len(blocks) + 1\n        layer_scales = list(\n            cfg.layer_decay ** (num_layers - i) for i in range(num_layers + 1)\n        )\n\n        if self.d2v_multi:\n            for n, p in self.model.named_parameters():\n                optimizer_override_dict = {}\n\n                if len(p.shape) == 1 or n.endswith(\".bias\"):\n                    optimizer_override_dict[\"weight_decay_scale\"] = 0\n\n                p.optim_overrides = {\"optimizer\": optimizer_override_dict}\n\n            if cfg.layer_decay > 0:\n                for i, b in enumerate(blocks):\n                    lid = i + 1\n                    if layer_scales[lid] == 1.0:\n                        continue\n\n                    for n, p in b.named_parameters():\n                        optim_override = getattr(p, \"optim_overrides\", {})\n                        if \"optimizer\" not in optim_override:\n                            optim_override[\"optimizer\"] = {}\n\n                        if cfg.no_decay_blocks:\n                            optim_override[\"optimizer\"][\"lr_scale\"] = layer_scales[lid]\n                            p.optim_overrides = optim_override\n                        else:\n                            optim_override[\"optimizer\"] = {\n                                \"lr_scale\": layer_scales[lid]\n                            }\n                            p.optim_overrides = optim_override\n\n        else:\n            for n, p in self.model.named_parameters():\n                optimizer_override_dict = {}\n                layer_id = get_layer_id_for_vit(n, num_layers)\n\n                if len(p.shape) == 1 or n.endswith(\".bias\"):\n                    optimizer_override_dict[\"weight_decay_scale\"] = 0\n\n                if cfg.layer_decay > 0:\n                    optimizer_override_dict[\"lr_scale\"] = layer_scales[layer_id]\n                p.optim_overrides = {\"optimizer\": optimizer_override_dict}\n\n    @classmethod\n    def build_model(cls, cfg: MaeImageClassificationConfig, task=None):\n        \"\"\"Build a new model instance.\"\"\"\n\n        return cls(cfg)\n\n    def forward(\n        self,\n        imgs,\n        labels=None,\n    ):\n        if self.training and self.mixup_fn is not None and labels is not None:\n            imgs, labels = self.mixup_fn(imgs, labels)\n\n        if self.linear_classifier:\n            with torch.no_grad():\n                x = self.model_forward(imgs)\n        else:\n            x = self.model_forward(imgs)\n\n        if self.cfg.prediction_mode == PredictionMode.MEAN_POOLING:\n            x = x.mean(dim=1)\n        elif self.cfg.prediction_mode == PredictionMode.CLS_TOKEN:\n            x = x[:, 0]\n        elif self.cfg.prediction_mode == PredictionMode.LIN_SOFTMAX:\n            dtype = x.dtype\n            x = F.logsigmoid(x.float())\n            x = torch.logsumexp(x + x, dim=1) - torch.logsumexp(x + 1e-6, dim=1)\n            x = x.clamp(max=0)\n            x = x - torch.log(-(torch.expm1(x)))\n            x = torch.nan_to_num(x, nan=0, posinf=0, neginf=0)\n            x = x.to(dtype=dtype)\n        else:\n            raise Exception(f\"unknown prediction mode {self.cfg.prediction_mode.name}\")\n\n        if self.fc_norm is not None:\n            x = self.fc_norm(x)\n\n        x = self.head(x)\n\n        if labels is None:\n            return x\n\n        if self.training and self.mixup_fn is not None:\n            loss = -labels * F.log_softmax(x.float(), dim=-1)\n        else:\n            loss = F.cross_entropy(\n                x.float(),\n                labels,\n                label_smoothing=self.cfg.label_smoothing if self.training else 0,\n                reduction=\"none\",\n            )\n\n        result = {\n            \"losses\": {\"regression\": loss},\n            \"sample_size\": imgs.size(0),\n        }\n\n        if not self.training:\n            with torch.no_grad():\n                pred = x.argmax(-1)\n                correct = (pred == labels).sum()\n                result[\"correct\"] = correct\n\n        return result\n\n    def model_forward(self, imgs):\n        if self.d2v_multi:\n            x = self.model.extract_features(\n                imgs,\n                mode=\"IMAGE\",\n                mask=False,\n                remove_extra_tokens=(\n                    self.cfg.prediction_mode != PredictionMode.CLS_TOKEN\n                ),\n            )[\"x\"]\n        else:\n            x = self.model(imgs, predictions_only=True)\n            if (\n                \"no_cls\" not in self.model.cfg or not self.model.cfg.no_cls\n            ) and not self.cfg.prediction_mode == PredictionMode.CLS_TOKEN:\n                x = x[:, 1:]\n        return x\n"
  },
  {
    "path": "examples/data2vec/models/modalities/__init__.py",
    "content": ""
  },
  {
    "path": "examples/data2vec/models/modalities/audio.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom functools import partial\nimport torch\nimport torch.nn as nn\nimport numpy as np\nfrom dataclasses import dataclass, field\nfrom typing import Callable, Dict, Optional\nfrom fairseq.models.wav2vec import ConvFeatureExtractionModel\nfrom fairseq.modules import (\n    LayerNorm,\n    SamePad,\n    TransposeLast,\n)\nfrom fairseq.tasks import FairseqTask\nfrom .base import D2vModalityConfig, ModalitySpecificEncoder, get_alibi_bias\nfrom .modules import BlockEncoder, Decoder1d\nfrom examples.data2vec.data.modality import Modality\n\n\n@dataclass\nclass D2vAudioConfig(D2vModalityConfig):\n    type: Modality = Modality.AUDIO\n    extractor_mode: str = \"layer_norm\"\n    feature_encoder_spec: str = field(\n        default=\"[(512, 10, 5)] + [(512, 3, 2)] * 4 + [(512,2,2)] + [(512,2,2)]\",\n        metadata={\n            \"help\": \"string describing convolutional feature extraction layers in form of a python list that contains \"\n            \"[(dim, kernel_size, stride), ...]\"\n        },\n    )\n    conv_pos_width: int = field(\n        default=95,\n        metadata={\"help\": \"number of filters for convolutional positional embeddings\"},\n    )\n    conv_pos_groups: int = field(\n        default=16,\n        metadata={\"help\": \"number of groups for convolutional positional embedding\"},\n    )\n    conv_pos_depth: int = field(\n        default=5,\n        metadata={\"help\": \"depth of positional encoder network\"},\n    )\n    conv_pos_pre_ln: bool = False\n\n\nclass AudioEncoder(ModalitySpecificEncoder):\n\n    modality_cfg: D2vAudioConfig\n\n    def __init__(\n        self,\n        modality_cfg: D2vAudioConfig,\n        embed_dim: int,\n        make_block: Callable[[float], nn.ModuleList],\n        norm_layer: Callable[[int], nn.LayerNorm],\n        layer_norm_first: bool,\n        alibi_biases: Dict,\n        task: Optional[FairseqTask],\n    ):\n\n        self.feature_enc_layers = eval(modality_cfg.feature_encoder_spec)\n        feature_embed_dim = self.feature_enc_layers[-1][0]\n\n        local_encoder = ConvFeatureExtractionModel(\n            conv_layers=self.feature_enc_layers,\n            dropout=0.0,\n            mode=modality_cfg.extractor_mode,\n            conv_bias=False,\n        )\n\n        project_features = nn.Sequential(\n            TransposeLast(),\n            nn.LayerNorm(feature_embed_dim),\n            nn.Linear(feature_embed_dim, embed_dim),\n        )\n\n        num_pos_layers = modality_cfg.conv_pos_depth\n        k = max(3, modality_cfg.conv_pos_width // num_pos_layers)\n\n        positional_encoder = nn.Sequential(\n            TransposeLast(),\n            *[\n                nn.Sequential(\n                    nn.Conv1d(\n                        embed_dim,\n                        embed_dim,\n                        kernel_size=k,\n                        padding=k // 2,\n                        groups=modality_cfg.conv_pos_groups,\n                    ),\n                    SamePad(k),\n                    TransposeLast(),\n                    LayerNorm(embed_dim, elementwise_affine=False),\n                    TransposeLast(),\n                    nn.GELU(),\n                )\n                for _ in range(num_pos_layers)\n            ],\n            TransposeLast(),\n        )\n\n        if modality_cfg.conv_pos_pre_ln:\n            positional_encoder = nn.Sequential(LayerNorm(embed_dim), positional_encoder)\n\n        dpr = np.linspace(\n            modality_cfg.start_drop_path_rate,\n            modality_cfg.end_drop_path_rate,\n            modality_cfg.prenet_depth,\n        )\n        context_encoder = BlockEncoder(\n            nn.ModuleList(make_block(dpr[i]) for i in range(modality_cfg.prenet_depth)),\n            norm_layer(embed_dim) if not layer_norm_first else None,\n            layer_norm_first,\n            modality_cfg.prenet_layerdrop,\n            modality_cfg.prenet_dropout,\n        )\n\n        decoder = (\n            Decoder1d(modality_cfg.decoder, embed_dim)\n            if modality_cfg.decoder is not None\n            else None\n        )\n\n        alibi_bias_fn = partial(get_alibi_bias, alibi_biases=alibi_biases)\n\n        super().__init__(\n            modality_cfg=modality_cfg,\n            embed_dim=embed_dim,\n            local_encoder=local_encoder,\n            project_features=project_features,\n            fixed_positional_encoder=None,\n            relative_positional_encoder=positional_encoder,\n            context_encoder=context_encoder,\n            decoder=decoder,\n            get_alibi_bias=alibi_bias_fn,\n        )\n\n    def convert_padding_mask(self, x, padding_mask):\n        def get_feat_extract_output_lengths(input_lengths: torch.LongTensor):\n            \"\"\"\n            Computes the output length of the convolutional layers\n            \"\"\"\n\n            def _conv_out_length(input_length, kernel_size, stride):\n                return torch.floor((input_length - kernel_size) / stride + 1)\n\n            for i in range(len(self.feature_enc_layers)):\n                input_lengths = _conv_out_length(\n                    input_lengths,\n                    self.feature_enc_layers[i][1],\n                    self.feature_enc_layers[i][2],\n                )\n\n            return input_lengths.to(torch.long)\n\n        if padding_mask is not None:\n            input_lengths = (1 - padding_mask.long()).sum(-1)\n            # apply conv formula to get real output_lengths\n            output_lengths = get_feat_extract_output_lengths(input_lengths)\n\n            if padding_mask.any():\n                padding_mask = torch.zeros(x.shape[:2], dtype=x.dtype, device=x.device)\n\n                # these two operations makes sure that all values\n                # before the output lengths indices are attended to\n                padding_mask[\n                    (\n                        torch.arange(padding_mask.shape[0], device=padding_mask.device),\n                        output_lengths - 1,\n                    )\n                ] = 1\n                padding_mask = (\n                    1 - padding_mask.flip([-1]).cumsum(-1).flip([-1])\n                ).bool()\n            else:\n                padding_mask = torch.zeros(\n                    x.shape[:2], dtype=torch.bool, device=x.device\n                )\n\n        return padding_mask\n\n    def reset_parameters(self):\n        super().reset_parameters()\n        for mod in self.project_features.children():\n            if isinstance(mod, nn.Linear):\n                mod.reset_parameters()\n        if self.decoder is not None:\n            self.decoder.reset_parameters()\n"
  },
  {
    "path": "examples/data2vec/models/modalities/base.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport math\nimport numpy as np\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom collections import namedtuple\nfrom dataclasses import dataclass\nfrom functools import partial\nfrom omegaconf import MISSING, II\nfrom typing import Optional, Callable\nfrom fairseq.data.data_utils import compute_mask_indices\nfrom fairseq.modules import GradMultiply\nfrom fairseq.utils import index_put\nfrom examples.data2vec.data.modality import Modality\nfrom .modules import D2vDecoderConfig\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass D2vModalityConfig:\n    type: Modality = MISSING\n    prenet_depth: int = 4\n    prenet_layerdrop: float = 0\n    prenet_dropout: float = 0\n    start_drop_path_rate: float = 0\n    end_drop_path_rate: float = 0\n\n    num_extra_tokens: int = 0\n    init_extra_token_zero: bool = True\n\n    mask_noise_std: float = 0.01\n    mask_prob_min: Optional[float] = None\n    mask_prob: float = 0.7\n    inverse_mask: bool = False\n    mask_prob_adjust: float = 0\n    keep_masked_pct: float = 0\n\n    mask_length: int = 5\n    add_masks: bool = False\n    remove_masks: bool = False\n    mask_dropout: float = 0.0\n    encoder_zero_mask: bool = True\n\n    mask_channel_prob: float = 0.0\n    mask_channel_length: int = 64\n\n    ema_local_encoder: bool = False  # used in data2vec_multi\n    local_grad_mult: float = 1.0\n\n    use_alibi_encoder: bool = False\n    alibi_scale: float = 1.0\n    learned_alibi: bool = False\n    alibi_max_pos: Optional[int] = None\n    learned_alibi_scale: bool = False\n    learned_alibi_scale_per_head: bool = False\n    learned_alibi_scale_per_layer: bool = False\n\n    num_alibi_heads: int = II(\"model.num_heads\")\n    model_depth: int = II(\"model.depth\")\n\n    decoder: Optional[D2vDecoderConfig] = D2vDecoderConfig()\n\n\nMaskSeed = namedtuple(\"MaskSeed\", [\"seed\", \"update\", \"ids\"])\nMaskInfo = namedtuple(\"MaskInfo\", [\"x_unmasked\", \"mask\", \"ids_restore\", \"ids_keep\"])\n\n\nclass ModalitySpecificEncoder(nn.Module):\n    def __init__(\n        self,\n        modality_cfg: D2vModalityConfig,\n        embed_dim: int,\n        local_encoder: nn.Module,\n        project_features: nn.Module,\n        fixed_positional_encoder: Optional[nn.Module],\n        relative_positional_encoder: Optional[nn.Module],\n        context_encoder: nn.Module,\n        decoder: nn.Module,\n        get_alibi_bias: Optional[Callable[[int, int, str, str], torch.Tensor]],\n    ):\n        super().__init__()\n\n        self.modality_cfg = modality_cfg\n        self.local_encoder = local_encoder\n        self.project_features = project_features\n        self.fixed_positional_encoder = fixed_positional_encoder\n        self.relative_positional_encoder = relative_positional_encoder\n        self.context_encoder = context_encoder\n\n        self.decoder = decoder\n        self.get_alibi_bias = get_alibi_bias if modality_cfg.use_alibi_encoder else None\n\n        self.local_grad_mult = self.modality_cfg.local_grad_mult\n\n        self.extra_tokens = None\n        if modality_cfg.num_extra_tokens > 0:\n            self.extra_tokens = nn.Parameter(\n                torch.zeros(1, modality_cfg.num_extra_tokens, embed_dim)\n            )\n            if not modality_cfg.init_extra_token_zero:\n                nn.init.normal_(self.extra_tokens)\n            elif self.extra_tokens.size(1) > 1:\n                nn.init.normal_(self.extra_tokens[:, 1:])\n\n        self.alibi_scale = None\n        if self.get_alibi_bias is not None:\n            self.alibi_scale = nn.Parameter(\n                torch.full(\n                    (\n                        (modality_cfg.prenet_depth + modality_cfg.model_depth)\n                        if modality_cfg.learned_alibi_scale_per_layer\n                        else 1,\n                        1,\n                        self.modality_cfg.num_alibi_heads\n                        if modality_cfg.learned_alibi_scale_per_head\n                        else 1,\n                        1,\n                        1,\n                    ),\n                    modality_cfg.alibi_scale,\n                    dtype=torch.float,\n                ),\n                requires_grad=modality_cfg.learned_alibi_scale,\n            )\n\n        if modality_cfg.learned_alibi and self.get_alibi_bias is not None:\n            assert modality_cfg.alibi_max_pos is not None\n            alibi_bias = self.get_alibi_bias(\n                batch_size=1,\n                time_steps=modality_cfg.alibi_max_pos,\n                heads=modality_cfg.num_alibi_heads,\n                scale=1.0,\n                dtype=torch.float,\n                device=\"cpu\",\n            )\n            self.alibi_bias = nn.Parameter(alibi_bias)\n            self.get_alibi_bias = partial(\n                _learned_alibi_bias, alibi_bias=self.alibi_bias\n            )\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        k = f\"{name}.alibi_scale\"\n        if k in state_dict and state_dict[k].dim() == 4:\n            state_dict[k] = state_dict[k].unsqueeze(0)\n\n        return state_dict\n\n    def convert_padding_mask(self, x, padding_mask):\n        return padding_mask\n\n    def decoder_input(self, x, mask_info: MaskInfo):\n        inp_drop = self.modality_cfg.decoder.input_dropout\n        if inp_drop > 0:\n            x = F.dropout(x, inp_drop, training=self.training, inplace=True)\n\n        num_extra = self.modality_cfg.num_extra_tokens\n\n        if mask_info is not None:\n            num_masked = mask_info.ids_restore.shape[1] - x.shape[1] + num_extra\n\n            mask_tokens = x.new_empty(\n                x.size(0),\n                num_masked,\n                x.size(-1),\n            ).normal_(0, self.modality_cfg.mask_noise_std)\n\n            x_ = torch.cat([x[:, num_extra:], mask_tokens], dim=1)\n            x = torch.gather(x_, dim=1, index=mask_info.ids_restore)\n\n            if self.modality_cfg.decoder.add_positions_masked:\n                assert self.fixed_positional_encoder is not None\n                pos = self.fixed_positional_encoder(x, None)\n                x = x + (pos * mask_info.mask.unsqueeze(-1))\n        else:\n            x = x[:, num_extra:]\n\n        if self.modality_cfg.decoder.add_positions_all:\n            assert self.fixed_positional_encoder is not None\n            x = x + self.fixed_positional_encoder(x, None)\n\n        return x, mask_info\n\n    def local_features(self, features):\n        if self.local_grad_mult > 0:\n            if self.local_grad_mult == 1.0:\n                x = self.local_encoder(features)\n            else:\n                x = GradMultiply.apply(\n                    self.local_encoder(features), self.local_grad_mult\n                )\n        else:\n            with torch.no_grad():\n                x = self.local_encoder(features)\n\n        x = self.project_features(x)\n        return x\n\n    def contextualized_features(\n        self,\n        x,\n        padding_mask,\n        mask,\n        remove_masked,\n        clone_batch: int = 1,\n        mask_seeds: Optional[torch.Tensor] = None,\n        precomputed_mask=None,\n    ):\n\n        if padding_mask is not None:\n            padding_mask = self.convert_padding_mask(x, padding_mask)\n\n        local_features = x\n        if mask and clone_batch == 1:\n            local_features = local_features.clone()\n\n        orig_B, orig_T, _ = x.shape\n        pre_mask_B = orig_B\n        mask_info = None\n\n        x_pos = None\n        if self.fixed_positional_encoder is not None:\n            x = x + self.fixed_positional_encoder(x, padding_mask)\n\n        if mask:\n            if clone_batch > 1:\n                x = x.repeat_interleave(clone_batch, 0)\n                if mask_seeds is not None:\n                    clone_hash = [\n                        int(hash((mask_seeds.seed, ind)) % 1e10)\n                        for ind in range(clone_batch - 1)\n                    ]\n                    clone_hash = torch.tensor([0] + clone_hash).long().view(1, -1)\n\n                    id = mask_seeds.ids\n                    id = id.repeat_interleave(clone_batch, 0)\n                    id = id.view(-1, clone_batch) + clone_hash.to(id)\n                    id = id.view(-1)\n                    mask_seeds = MaskSeed(\n                        seed=mask_seeds.seed, update=mask_seeds.update, ids=id\n                    )\n                if padding_mask is not None:\n                    padding_mask = padding_mask.repeat_interleave(clone_batch, 0)\n\n            x, mask_info = self.compute_mask(\n                x,\n                padding_mask,\n                mask_seed=mask_seeds,\n                apply=self.relative_positional_encoder is not None or not remove_masked,\n                precomputed_mask=precomputed_mask,\n            )\n\n        if self.relative_positional_encoder is not None:\n            x_pos = self.relative_positional_encoder(x)\n\n        masked_padding_mask = padding_mask\n        if mask and remove_masked:\n            x = mask_info.x_unmasked\n            if x_pos is not None:\n                x = x + gather_unmasked(x_pos, mask_info)\n\n            if padding_mask is not None and padding_mask.any():\n                masked_padding_mask = gather_unmasked_mask(padding_mask, mask_info)\n                if not masked_padding_mask.any():\n                    masked_padding_mask = None\n            else:\n                masked_padding_mask = None\n\n        elif x_pos is not None:\n            x = x + x_pos\n\n        alibi_bias = None\n        alibi_scale = self.alibi_scale\n\n        if self.get_alibi_bias is not None:\n            alibi_bias = self.get_alibi_bias(\n                batch_size=pre_mask_B,\n                time_steps=orig_T,\n                heads=self.modality_cfg.num_alibi_heads,\n                dtype=torch.float32,\n                device=x.device,\n            )\n\n            if alibi_scale is not None:\n                alibi_scale = alibi_scale.clamp_min(0)\n                if alibi_scale.size(0) == 1:\n                    alibi_bias = alibi_bias * alibi_scale.squeeze(0).type_as(alibi_bias)\n                    alibi_scale = None\n\n            if clone_batch > 1:\n                alibi_bias = alibi_bias.repeat_interleave(clone_batch, 0)\n\n            if mask_info is not None and remove_masked:\n                alibi_bias = masked_alibi(alibi_bias, mask_info)\n\n        if self.extra_tokens is not None:\n            num = self.extra_tokens.size(1)\n            x = torch.cat([self.extra_tokens.expand(x.size(0), -1, -1), x], dim=1)\n            if masked_padding_mask is not None:\n                # B x T\n                masked_padding_mask = F.pad(masked_padding_mask, (num, 0))\n            if alibi_bias is not None:\n                # B x H x T x T\n                alibi_bias = F.pad(alibi_bias, (num, 0, num, 0))\n\n        x = self.context_encoder(\n            x,\n            masked_padding_mask,\n            alibi_bias,\n            alibi_scale[: self.modality_cfg.prenet_depth]\n            if alibi_scale is not None\n            else None,\n        )\n\n        return {\n            \"x\": x,\n            \"local_features\": local_features,\n            \"padding_mask\": masked_padding_mask,\n            \"alibi_bias\": alibi_bias,\n            \"alibi_scale\": alibi_scale[self.modality_cfg.prenet_depth :]\n            if alibi_scale is not None and alibi_scale.size(0) > 1\n            else alibi_scale,\n            \"encoder_mask\": mask_info,\n        }\n\n    def forward(\n        self,\n        features,\n        padding_mask,\n        mask: bool,\n        remove_masked: bool,\n        clone_batch: int = 1,\n        mask_seeds: Optional[torch.Tensor] = None,\n        precomputed_mask=None,\n    ):\n        x = self.local_features(features)\n        return self.contextualized_features(\n            x,\n            padding_mask,\n            mask,\n            remove_masked,\n            clone_batch,\n            mask_seeds,\n            precomputed_mask,\n        )\n\n    def reset_parameters(self):\n        pass\n\n    def compute_mask(\n        self,\n        x,\n        padding_mask,\n        mask_seed: Optional[MaskSeed],\n        apply,\n        precomputed_mask,\n    ):\n        if precomputed_mask is not None:\n            mask = precomputed_mask\n            mask_info = self.make_maskinfo(x, mask)\n        else:\n            B, T, C = x.shape\n            cfg = self.modality_cfg\n\n            mask_prob = cfg.mask_prob\n\n            if (\n                cfg.mask_prob_min is not None\n                and cfg.mask_prob_min >= 0\n                and cfg.mask_prob_min < mask_prob\n            ):\n                mask_prob = np.random.uniform(cfg.mask_prob_min, mask_prob)\n\n            if mask_prob > 0:\n                if cfg.mask_length == 1:\n                    mask_info = random_masking(x, mask_prob, mask_seed)\n                else:\n                    if self.modality_cfg.inverse_mask:\n                        mask_prob = 1 - mask_prob\n\n                    mask = compute_mask_indices(\n                        (B, T),\n                        padding_mask,\n                        mask_prob,\n                        cfg.mask_length,\n                        min_masks=1,\n                        require_same_masks=True,\n                        mask_dropout=cfg.mask_dropout,\n                        add_masks=cfg.add_masks,\n                        seed=mask_seed.seed if mask_seed is not None else None,\n                        epoch=mask_seed.update if mask_seed is not None else None,\n                        indices=mask_seed.ids if mask_seed is not None else None,\n                    )\n\n                    mask = torch.from_numpy(mask).to(device=x.device)\n                    if self.modality_cfg.inverse_mask:\n                        mask = 1 - mask\n                    mask_info = self.make_maskinfo(x, mask)\n            else:\n                mask_info = None\n\n        if apply:\n            x = self.apply_mask(x, mask_info)\n\n        return x, mask_info\n\n    def make_maskinfo(self, x, mask, shape=None):\n        if shape is None:\n            B, T, D = x.shape\n        else:\n            B, T, D = shape\n\n        mask = mask.to(torch.uint8)\n        ids_shuffle = mask.argsort(dim=1)\n        ids_restore = ids_shuffle.argsort(dim=1).unsqueeze(-1).expand(-1, -1, D)\n\n        len_keep = T - mask[0].sum()\n        if self.modality_cfg.keep_masked_pct > 0:\n            len_keep += round((T - int(len_keep)) * self.modality_cfg.keep_masked_pct)\n\n        ids_keep = ids_shuffle[:, :len_keep]\n\n        if shape is not None:\n            x_unmasked = None\n        else:\n            ids_keep = ids_keep.unsqueeze(-1).expand(-1, -1, D)\n            x_unmasked = torch.gather(x, dim=1, index=ids_keep)\n\n        mask_info = MaskInfo(\n            x_unmasked=x_unmasked,\n            mask=mask,\n            ids_restore=ids_restore,\n            ids_keep=ids_keep,\n        )\n        return mask_info\n\n    def apply_mask(self, x, mask_info):\n        cfg = self.modality_cfg\n        B, T, C = x.shape\n\n        if mask_info is not None:\n            mask = mask_info.mask\n            if cfg.encoder_zero_mask:\n                x = x * (1 - mask.type_as(x).unsqueeze(-1))\n            else:\n                num_masks = mask.sum().item()\n                masks = x.new_empty(num_masks, x.size(-1)).normal_(\n                    0, cfg.mask_noise_std\n                )\n                x = index_put(x, mask, masks)\n        if cfg.mask_channel_prob > 0:\n            mask_channel = compute_mask_indices(\n                (B, C),\n                None,\n                cfg.mask_channel_prob,\n                cfg.mask_channel_length,\n            )\n            mask_channel = (\n                torch.from_numpy(mask_channel)\n                .to(x.device)\n                .unsqueeze(1)\n                .expand(-1, T, -1)\n            )\n            x = index_put(x, mask_channel, 0)\n        return x\n\n    def remove_pretraining_modules(self, keep_decoder=False):\n        if not keep_decoder:\n            self.decoder = None\n\n\ndef get_annealed_rate(start, end, curr_step, total_steps):\n    if curr_step >= total_steps:\n        return end\n    r = end - start\n    pct_remaining = 1 - curr_step / total_steps\n    return end - r * pct_remaining\n\n\n# adapted from MAE\ndef random_masking(x, mask_ratio, mask_seed: Optional[MaskSeed]):\n    N, L, D = x.shape  # batch, length, dim\n    len_keep = int(L * (1 - mask_ratio))\n\n    generator = None\n    if mask_seed is not None:\n        seed = int(\n            hash((mask_seed.seed, mask_seed.update, mask_seed.ids.sum().item())) % 1e6\n        )\n        generator = torch.Generator(device=x.device)\n        generator.manual_seed(seed)\n\n    noise = torch.rand(N, L, generator=generator, device=x.device)  # noise in [0, 1]\n\n    # sort noise for each sample\n    ids_shuffle = noise.argsort(dim=1)  # ascend: small is keep, large is remove\n    ids_restore = ids_shuffle.argsort(dim=1)\n\n    # keep the first subset\n    ids_keep = ids_shuffle[:, :len_keep]\n    ids_keep = ids_keep.unsqueeze(-1).expand(-1, -1, D)\n    x_unmasked = torch.gather(x, dim=1, index=ids_keep)\n\n    # generate the binary mask: 0 is keep, 1 is remove\n    mask = torch.ones([N, L], dtype=x.dtype, device=x.device)\n    mask[:, :len_keep] = 0\n    # unshuffle to get the binary mask\n    mask = torch.gather(mask, dim=1, index=ids_restore)\n\n    ids_restore = ids_restore.unsqueeze(-1).expand(-1, -1, D)\n\n    return MaskInfo(\n        x_unmasked=x_unmasked, mask=mask, ids_restore=ids_restore, ids_keep=ids_keep\n    )\n\n\ndef gather_unmasked(x: torch.Tensor, mask_info: MaskInfo) -> torch.Tensor:\n    return torch.gather(\n        x,\n        dim=1,\n        index=mask_info.ids_keep,\n    )\n\n\ndef gather_unmasked_mask(x: torch.Tensor, mask_info: MaskInfo) -> torch.Tensor:\n    return torch.gather(\n        x,\n        dim=1,\n        index=mask_info.ids_keep[..., 0],  # ignore the feature dimension\n    )\n\n\ndef get_alibi(\n    max_positions: int,\n    attention_heads: int,\n    dims: int = 1,\n    distance: str = \"manhattan\",\n):\n    def get_slopes(n):\n        def get_slopes_power_of_2(n):\n            start = 2 ** (-(2 ** -(math.log2(n) - 3)))\n            ratio = start\n            return [start * ratio**i for i in range(n)]\n\n        # In the paper, we only train models that have 2^a heads for some\n        # a. This function has some good properties that only occur when\n        # the input is a power of 2. To maintain that even when the number\n        # of heads is not a power of 2, we use this workaround.\n        if math.log2(n).is_integer():\n            return get_slopes_power_of_2(n)\n        else:\n            closest_power_of_2 = 2 ** math.floor(math.log2(n))\n            return (\n                get_slopes_power_of_2(closest_power_of_2)\n                + get_slopes(2 * closest_power_of_2)[0::2][: n - closest_power_of_2]\n            )\n\n    maxpos = max_positions\n    attn_heads = attention_heads\n    slopes = torch.Tensor(get_slopes(attn_heads))\n\n    if dims == 1:\n        # prepare alibi position linear bias. Note that wav2vec2 is non\n        # autoregressive model so we want a symmetric mask with 0 on the\n        # diagonal and other wise linear decreasing valuees\n        pos_bias = (\n            torch.abs(\n                torch.arange(maxpos).unsqueeze(0) - torch.arange(maxpos).unsqueeze(1)\n            )\n            * -1\n        )\n    elif dims == 2:\n        if distance == \"manhattan\":\n            df = lambda x1, y1, x2, y2: abs(x1 - x2) + abs(y1 - y2)\n        elif distance == \"euclidean\":\n            df = lambda x1, y1, x2, y2: math.sqrt((x1 - x2) ** 2 + (y1 - y2) ** 2)\n\n        n = math.sqrt(max_positions)\n        assert n.is_integer(), n\n        n = int(n)\n\n        pos_bias = torch.zeros((max_positions, max_positions))\n\n        for i in range(n):\n            for j in range(n):\n                for k in range(n):\n                    for l in range(n):\n                        new_x = i * n + j\n                        new_y = k * n + l\n                        pos_bias[new_x, new_y] = -df(i, j, k, l)\n\n    else:\n        raise Exception(f\"unsupported number of alibi dims: {dims}\")\n\n    alibi_bias = slopes.unsqueeze(1).unsqueeze(1) * pos_bias.unsqueeze(0).expand(\n        attn_heads, -1, -1\n    )\n\n    return alibi_bias\n\n\ndef get_alibi_bias(\n    alibi_biases,\n    batch_size,\n    time_steps,\n    heads,\n    dtype,\n    device,\n    dims=1,\n    distance=\"manhattan\",\n):\n    cache_key = f\"{dims}_{heads}_{distance}\"\n\n    buffered = alibi_biases.get(cache_key, None)\n\n    target_size = heads * batch_size\n    if (\n        buffered is None\n        or buffered.size(0) < target_size\n        or buffered.size(1) < time_steps\n        or buffered.dtype != dtype\n        or buffered.device != device\n    ):\n        bt = max(time_steps, buffered.size(1) if buffered is not None else 0)\n        bn = max(target_size, buffered.size(0) if buffered is not None else 0) // heads\n\n        buffered = (\n            get_alibi(bt, heads, dims=dims, distance=distance)\n            .to(dtype=dtype, device=device)\n            .repeat(bn, 1, 1)\n        )\n\n        alibi_biases[cache_key] = buffered\n\n    b = buffered[:target_size, :time_steps, :time_steps]\n    b = b.view(batch_size, heads, time_steps, time_steps)\n    return b\n\n\ndef _learned_alibi_bias(\n    alibi_bias,\n    batch_size,\n    time_steps,\n    heads,\n    scale,\n    dtype,\n    device,\n):\n    assert alibi_bias.size(1) == heads, alibi_bias.shape\n    assert alibi_bias.dtype == dtype, alibi_bias.dtype\n    assert alibi_bias.device == device, alibi_bias.device\n\n    if alibi_bias.size(-1) < time_steps:\n        psz = math.ceil((time_steps - alibi_bias.size(-1)) / 2)\n        alibi_bias = F.pad(alibi_bias, (psz, psz, psz, psz), mode=\"replicate\")\n\n    alibi_bias = alibi_bias.expand(batch_size, -1, -1, -1) * scale\n    return alibi_bias[..., :time_steps, :time_steps]\n\n\ndef masked_alibi(alibi_bias, mask_info):\n    H = alibi_bias.size(1)\n\n    orig_bias = alibi_bias\n\n    index = mask_info.ids_keep.unsqueeze(1)[..., 0].unsqueeze(-1)\n    alibi_bias = torch.gather(\n        orig_bias,\n        dim=-2,\n        index=index.expand(-1, H, -1, mask_info.ids_restore.size(1)),\n    )\n    alibi_bias = torch.gather(\n        alibi_bias,\n        dim=-1,\n        index=index.transpose(-1, -2).expand(-1, H, alibi_bias.size(-2), -1),\n    )\n\n    return alibi_bias\n"
  },
  {
    "path": "examples/data2vec/models/modalities/images.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nimport numpy as np\nfrom functools import partial\nfrom dataclasses import dataclass\nfrom typing import Callable, Dict, Optional\nfrom timm.models.layers import to_2tuple\nfrom fairseq.tasks import FairseqTask\nfrom examples.data2vec.models.mae import get_2d_sincos_pos_embed, PatchEmbed\nfrom .base import (\n    D2vModalityConfig,\n    ModalitySpecificEncoder,\n    get_alibi_bias,\n    MaskSeed,\n)\nfrom .modules import (\n    BlockEncoder,\n    Decoder2d,\n    FixedPositionalEncoder,\n    TransformerDecoder,\n    EncDecTransformerDecoder,\n)\nfrom examples.data2vec.data.modality import Modality\n\n\n@dataclass\nclass D2vImageConfig(D2vModalityConfig):\n    type: Modality = Modality.IMAGE\n\n    input_size: int = 224\n    in_chans: int = 3\n    patch_size: int = 16\n    embed_dim: int = 768\n\n    alibi_dims: int = 2\n    alibi_distance: str = \"manhattan\"\n\n    fixed_positions: bool = True\n\n    transformer_decoder: bool = False\n    enc_dec_transformer: bool = False\n\n\nclass ImageEncoder(ModalitySpecificEncoder):\n\n    modality_cfg: D2vImageConfig\n\n    def __init__(\n        self,\n        modality_cfg: D2vImageConfig,\n        embed_dim: int,\n        make_block: Callable[[float, Optional[int], Optional[int]], nn.ModuleList],\n        norm_layer: Callable[[int], nn.LayerNorm],\n        layer_norm_first: bool,\n        alibi_biases: Dict,\n        task: Optional[FairseqTask],\n    ):\n\n        img_size = to_2tuple(modality_cfg.input_size)\n        patch_size = to_2tuple(modality_cfg.patch_size)\n        num_patches = (img_size[1] // patch_size[1]) * (img_size[0] // patch_size[0])\n\n        local_encoder = PatchEmbed(\n            modality_cfg.input_size,\n            modality_cfg.patch_size,\n            modality_cfg.in_chans,\n            modality_cfg.embed_dim,\n        )\n\n        w = local_encoder.proj.weight.data\n        torch.nn.init.xavier_uniform_(w.view([w.shape[0], -1]))\n\n        if modality_cfg.embed_dim != embed_dim:\n            local_encoder = nn.Sequential(\n                local_encoder,\n                nn.Linear(modality_cfg.embed_dim, embed_dim),\n            )\n\n        project_features = nn.Identity()\n\n        pos_embed = nn.Parameter(\n            torch.zeros(1, num_patches, embed_dim), requires_grad=False\n        )\n\n        side_n = int(num_patches ** 0.5)\n\n        emb = get_2d_sincos_pos_embed(\n            pos_embed.shape[-1],\n            side_n,\n            cls_token=False,\n        )\n        pos_embed.data.copy_(torch.from_numpy(emb).float().unsqueeze(0))\n        fixed_positional_encoder = (\n            FixedPositionalEncoder(pos_embed) if modality_cfg.fixed_positions else None\n        )\n\n        dpr = np.linspace(\n            modality_cfg.start_drop_path_rate,\n            modality_cfg.end_drop_path_rate,\n            modality_cfg.prenet_depth,\n        )\n\n        context_encoder = BlockEncoder(\n            nn.ModuleList(make_block(dpr[i]) for i in range(modality_cfg.prenet_depth)),\n            norm_layer(embed_dim) if not layer_norm_first else None,\n            layer_norm_first,\n            modality_cfg.prenet_layerdrop,\n            modality_cfg.prenet_dropout,\n        )\n\n        if modality_cfg.transformer_decoder:\n            if modality_cfg.enc_dec_transformer:\n                decoder = EncDecTransformerDecoder(modality_cfg.decoder, embed_dim)\n            else:\n                dec_enc = BlockEncoder(\n                    nn.ModuleList(\n                        make_block(0, modality_cfg.decoder.decoder_dim, 8)\n                        for _ in range(modality_cfg.decoder.decoder_layers)\n                    ),\n                    None,\n                    layer_norm_first,\n                    0,\n                    0,\n                )\n                decoder = TransformerDecoder(modality_cfg.decoder, embed_dim, dec_enc)\n        else:\n            decoder = (\n                Decoder2d(modality_cfg.decoder, embed_dim, side_n, side_n)\n                if modality_cfg.decoder is not None\n                else None\n            )\n\n        alibi_bias_fn = partial(\n            get_alibi_bias,\n            alibi_biases=alibi_biases,\n            heads=modality_cfg.num_alibi_heads,\n            dims=modality_cfg.alibi_dims,\n            distance=modality_cfg.alibi_distance,\n        )\n\n        super().__init__(\n            modality_cfg=modality_cfg,\n            embed_dim=embed_dim,\n            local_encoder=local_encoder,\n            project_features=project_features,\n            fixed_positional_encoder=fixed_positional_encoder,\n            relative_positional_encoder=None,\n            context_encoder=context_encoder,\n            decoder=decoder,\n            get_alibi_bias=alibi_bias_fn,\n        )\n\n    def reset_parameters(self):\n        super().reset_parameters()\n        if self.decoder is not None:\n            self.decoder.reset_parameters()\n\n    @torch.no_grad()\n    def patchify(self, imgs):\n        \"\"\"\n        imgs: (N, 3, H, W)\n        x: (N, L, patch_size**2 *3)\n        \"\"\"\n        p = self.modality_cfg.patch_size\n        h = w = imgs.shape[2] // p\n        x = imgs.reshape(shape=(imgs.shape[0], 3, h, p, w, p))\n        x = torch.einsum(\"nchpwq->nhwpqc\", x)\n        x = x.reshape(shape=(imgs.shape[0], h * w, p ** 2 * 3))\n\n        return x\n\n    @torch.no_grad()\n    def unpatchify(self, x):\n        \"\"\"\n        x: (N, L, patch_size**2 *3)\n        imgs: (N, 3, H, W)\n        \"\"\"\n        p = self.modality_cfg.patch_size\n        h = w = int(x.shape[1] ** 0.5)\n        assert h * w == x.shape[1]\n\n        x = x.reshape(shape=(x.shape[0], h, w, p, p, 3))\n        x = torch.einsum(\"nhwpqc->nchpwq\", x)\n        imgs = x.reshape(shape=(x.shape[0], 3, h * p, h * p))\n        return imgs\n\n    def compute_mask(\n        self,\n        x,\n        padding_mask,\n        mask_seed: Optional[MaskSeed],\n        apply,\n        shape=None,\n        precomputed_mask=None,\n    ):\n        mlen = self.modality_cfg.mask_length\n        if mlen <= 1:\n            return super().compute_mask(\n                x, padding_mask, mask_seed, apply, precomputed_mask\n            )\n\n        if precomputed_mask is not None:\n            mask = precomputed_mask\n        else:\n            from fairseq.data.data_utils import compute_block_mask_2d\n\n            if shape is not None:\n                B, L, D = shape\n            else:\n                B, L, D = x.shape\n\n            mask = compute_block_mask_2d(\n                shape=(B, L),\n                mask_prob=self.modality_cfg.mask_prob,\n                mask_length=self.modality_cfg.mask_length,\n                mask_prob_adjust=self.modality_cfg.mask_prob_adjust,\n                inverse_mask=self.modality_cfg.inverse_mask,\n                require_same_masks=True,\n                mask_dropout=self.modality_cfg.mask_dropout,\n            )\n\n        mask_info = self.make_maskinfo(x, mask, shape)\n        if apply:\n            x = self.apply_mask(x, mask_info)\n\n        return x, mask_info\n\n    def decoder_input(self, x, mask_info):\n        if (\n            not self.modality_cfg.transformer_decoder\n            or not self.modality_cfg.enc_dec_transformer\n        ):\n            return super().decoder_input(x, mask_info)\n\n        inp_drop = self.modality_cfg.decoder.input_dropout\n        if inp_drop > 0:\n            x = F.dropout(x, inp_drop, training=self.training, inplace=True)\n\n        kv = x[:, self.modality_cfg.num_extra_tokens :]\n\n        assert self.fixed_positional_encoder is not None\n        pos = self.fixed_positional_encoder(x, None).expand(x.size(0), -1, -1)\n\n        mask = mask_info.mask.bool()\n        if self.modality_cfg.decoder.add_positions_all:\n            kv = kv + pos[~mask].view(kv.shape)\n\n        q = pos[mask].view(x.size(0), -1, x.size(-1))\n\n        return q, kv\n"
  },
  {
    "path": "examples/data2vec/models/modalities/modules.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nimport numpy as np\nfrom dataclasses import dataclass\nfrom fairseq.modules import (\n    LayerNorm,\n    SamePad,\n    SamePad2d,\n    TransposeLast,\n)\n\n\n@dataclass\nclass D2vDecoderConfig:\n    decoder_dim: int = 384\n    decoder_groups: int = 16\n    decoder_kernel: int = 5\n    decoder_layers: int = 5\n    input_dropout: float = 0.1\n\n    add_positions_masked: bool = False\n    add_positions_all: bool = False\n\n    decoder_residual: bool = True\n    projection_layers: int = 1\n    projection_ratio: float = 2.0\n\n\nclass FixedPositionalEncoder(nn.Module):\n    def __init__(self, pos_embed):\n        super().__init__()\n        self.positions = pos_embed\n\n    def forward(self, x, padding_mask):\n        return self.positions\n\n\nclass TextFeatPositionalEncoder(nn.Module):\n    \"\"\"\n    Original encoder expects (B, T) long input. This module wraps it to take\n    local_encoder output which are (B, T, D) float tensors\n    \"\"\"\n\n    def __init__(self, pos_encoder):\n        super().__init__()\n        self.pos_encoder = pos_encoder\n\n    def forward(self, x, padding_mask):\n        # assume padded token embeddings are 0s\n        # TODO: consider using padding_mask as input\n        return self.pos_encoder(x[..., 0])\n\n\nclass BlockEncoder(nn.Module):\n    def __init__(self, blocks, norm_layer, layer_norm_first, layerdrop, dropout):\n        super().__init__()\n        self.blocks = blocks\n        self.norm = norm_layer\n        self.layer_norm_first = layer_norm_first\n        self.layerdrop = layerdrop\n        self.dropout = nn.Dropout(dropout, inplace=True)\n\n    def forward(self, x, padding_mask, alibi_bias, alibi_scale):\n        if self.norm is not None and not self.layer_norm_first:\n            x = self.norm(x)\n\n        x = self.dropout(x)\n\n        for i, blk in enumerate(self.blocks):\n            if (\n                not self.training\n                or self.layerdrop == 0\n                or (np.random.random() > self.layerdrop)\n            ):\n                ab = alibi_bias\n                if ab is not None and alibi_scale is not None:\n                    scale = (\n                        alibi_scale[i]\n                        if alibi_scale.size(0) > 1\n                        else alibi_scale.squeeze(0)\n                    )\n                    ab = ab * scale.type_as(ab)\n                x, _ = blk(x, padding_mask, ab)\n\n        if self.norm is not None and self.layer_norm_first:\n            x = self.norm(x)\n\n        return x\n\n\nclass DecoderBase(nn.Module):\n    decoder_cfg: D2vDecoderConfig\n\n    def __init__(self, cfg: D2vDecoderConfig):\n        super().__init__()\n\n        self.decoder_cfg = cfg\n\n    def reset_parameters(self):\n        for mod in self.proj.modules():\n            if isinstance(mod, nn.Linear):\n                mod.reset_parameters()\n\n    def add_residual(self, x, residual, i, mask_info):\n        if (\n            residual is None\n            or not self.decoder_cfg.decoder_residual\n            or residual.size(1) != x.size(1)\n        ):\n            return x\n\n        ret = x + residual\n\n        return ret\n\n\nclass Decoder1d(DecoderBase):\n    def __init__(self, cfg: D2vDecoderConfig, input_dim):\n        super().__init__(cfg)\n\n        def make_block(in_dim):\n            block = [\n                nn.Conv1d(\n                    in_dim,\n                    cfg.decoder_dim,\n                    kernel_size=cfg.decoder_kernel,\n                    padding=cfg.decoder_kernel // 2,\n                    groups=cfg.decoder_groups,\n                ),\n                SamePad(cfg.decoder_kernel),\n                TransposeLast(),\n                LayerNorm(cfg.decoder_dim, elementwise_affine=False),\n                TransposeLast(),\n                nn.GELU(),\n            ]\n\n            return nn.Sequential(*block)\n\n        self.blocks = nn.Sequential(\n            *[\n                make_block(input_dim if i == 0 else cfg.decoder_dim)\n                for i in range(cfg.decoder_layers)\n            ]\n        )\n\n        projs = []\n        curr_dim = cfg.decoder_dim\n        for i in range(cfg.projection_layers - 1):\n            next_dim = int(curr_dim * cfg.projection_ratio) if i == 0 else curr_dim\n            projs.append(nn.Linear(curr_dim, next_dim))\n            projs.append(nn.GELU())\n            curr_dim = next_dim\n        projs.append(nn.Linear(curr_dim, input_dim))\n        if len(projs) == 1:\n            self.proj = projs[0]\n        else:\n            self.proj = nn.Sequential(*projs)\n\n    def forward(self, x, mask_info):\n\n        x = x.transpose(1, 2)\n\n        residual = x\n\n        for i, layer in enumerate(self.blocks):\n            x = layer(x)\n            x = self.add_residual(x, residual, i, mask_info)\n            residual = x\n\n        x = x.transpose(1, 2)\n        x = self.proj(x)\n        return x\n\n\nclass Decoder2d(DecoderBase):\n    def __init__(self, cfg: D2vDecoderConfig, input_dim, h_size, w_size):\n        super().__init__(cfg)\n\n        self.h_size = h_size\n        self.w_size = w_size\n\n        def make_block(in_dim):\n            block = [\n                nn.Conv2d(\n                    in_dim,\n                    cfg.decoder_dim,\n                    kernel_size=cfg.decoder_kernel,\n                    padding=cfg.decoder_kernel // 2,\n                    groups=cfg.decoder_groups,\n                ),\n                SamePad2d(cfg.decoder_kernel),\n                TransposeLast(tranpose_dim=-3),\n                LayerNorm(cfg.decoder_dim, elementwise_affine=False),\n                TransposeLast(tranpose_dim=-3),\n                nn.GELU(),\n            ]\n\n            return nn.Sequential(*block)\n\n        self.blocks = nn.Sequential(\n            *[\n                make_block(input_dim if i == 0 else cfg.decoder_dim)\n                for i in range(cfg.decoder_layers)\n            ]\n        )\n\n        self.proj = nn.Linear(cfg.decoder_dim, input_dim)\n\n    def forward(self, x, mask_info):\n        B, T, C = x.shape\n\n        x = x.transpose(1, 2).reshape(B, C, self.h_size, self.w_size)\n\n        residual = x\n\n        for i, layer in enumerate(self.blocks):\n            x = layer(x)\n            x = self.add_residual(x, residual, i, mask_info)\n            residual = x\n\n        x = x.reshape(B, -1, T).transpose(1, 2)\n        x = self.proj(x)\n        return x\n\n\nclass TransformerDecoder(nn.Module):\n    decoder_cfg: D2vDecoderConfig\n\n    def __init__(self, cfg: D2vDecoderConfig, input_dim, encoder):\n        super().__init__()\n\n        self.decoder_cfg = cfg\n\n        self.input_proj = nn.Linear(input_dim, cfg.decoder_dim)\n\n        self.encoder = encoder\n\n        self.proj = nn.Linear(cfg.decoder_dim, input_dim)\n\n    def reset_parameters(self):\n        from fairseq.modules.transformer_sentence_encoder import init_bert_params\n\n        self.apply(init_bert_params)\n\n    def forward(self, x, mask_info):\n        x = self.input_proj(x)\n        x = self.encoder(x, None, None, 1)\n        x = self.proj(x)\n        return x\n\n\nclass AltBlock(nn.Module):\n    def __init__(\n        self,\n        dim,\n        num_heads,\n        mlp_ratio=4.0,\n        qkv_bias=False,\n        qk_scale=None,\n        drop=0.0,\n        attn_drop=0.0,\n        mlp_drop=0.0,\n        post_mlp_drop=0.0,\n        drop_path=0.0,\n        act_layer=nn.GELU,\n        norm_layer=nn.LayerNorm,\n        layer_norm_first=True,\n        ffn_targets=False,\n        cosine_attention=False,\n    ):\n        super().__init__()\n\n        self.layer_norm_first = layer_norm_first\n        self.ffn_targets = ffn_targets\n\n        from timm.models.vision_transformer import DropPath, Mlp\n\n        self.norm1 = norm_layer(dim)\n        self.attn = AltAttention(\n            dim,\n            num_heads=num_heads,\n            qkv_bias=qkv_bias,\n            qk_scale=qk_scale,\n            attn_drop=attn_drop,\n            proj_drop=drop,\n            cosine_attention=cosine_attention,\n        )\n\n        self.drop_path = DropPath(drop_path) if drop_path > 0.0 else nn.Identity()\n        self.norm2 = norm_layer(dim)\n        mlp_hidden_dim = int(dim * mlp_ratio)\n        self.mlp = Mlp(\n            in_features=dim,\n            hidden_features=mlp_hidden_dim,\n            act_layer=act_layer,\n            drop=mlp_drop,\n        )\n        self.post_mlp_dropout = nn.Dropout(post_mlp_drop, inplace=False)\n\n    def forward(self, x, padding_mask=None, alibi_bias=None):\n        if self.layer_norm_first:\n            x = x + self.drop_path(self.attn(self.norm1(x), padding_mask, alibi_bias))\n            r = x = self.mlp(self.norm2(x))\n            t = x\n            x = r + self.drop_path(self.post_mlp_dropout(x))\n            if not self.ffn_targets:\n                t = x\n        else:\n            x = x + self.drop_path(self.attn(x, padding_mask, alibi_bias))\n            r = x = self.norm1(x)\n            x = self.mlp(x)\n            t = x\n            x = self.norm2(r + self.drop_path(self.post_mlp_dropout(x)))\n            if not self.ffn_targets:\n                t = x\n\n        return x, t\n\n\nclass AltAttention(nn.Module):\n    def __init__(\n        self,\n        dim,\n        num_heads=8,\n        qkv_bias=False,\n        qk_scale=None,\n        attn_drop=0.0,\n        proj_drop=0.0,\n        cosine_attention=False,\n    ):\n        super().__init__()\n        self.num_heads = num_heads\n        head_dim = dim // num_heads\n        self.scale = qk_scale or head_dim ** -0.5\n\n        self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias)\n        self.attn_drop = nn.Dropout(attn_drop)\n        self.proj = nn.Linear(dim, dim)\n        self.proj_drop = nn.Dropout(proj_drop)\n\n        self.cosine_attention = cosine_attention\n\n        if cosine_attention:\n            self.logit_scale = nn.Parameter(\n                torch.log(10 * torch.ones((num_heads, 1, 1))), requires_grad=True\n            )\n\n    def forward(self, x, padding_mask=None, alibi_bias=None):\n        B, N, C = x.shape\n        qkv = (\n            self.qkv(x)\n            .reshape(B, N, 3, self.num_heads, C // self.num_heads)\n            .permute(2, 0, 3, 1, 4)  # qkv x B x H x L x D\n        )\n        q, k, v = (\n            qkv[0],\n            qkv[1],\n            qkv[2],\n        )  # make torchscript happy (cannot use tensor as tuple)\n\n        dtype = q.dtype\n\n        if self.cosine_attention:\n            # cosine attention\n            attn = F.normalize(q, dim=-1) @ F.normalize(k, dim=-1).transpose(-2, -1)\n            logit_scale = torch.clamp(\n                self.logit_scale, max=torch.log(torch.tensor(1.0 / 0.01))\n            ).exp()\n            attn = attn * logit_scale\n        else:\n            q = q * self.scale\n            attn = q @ k.transpose(-2, -1)\n\n        if alibi_bias is not None:\n            attn = attn.type_as(alibi_bias)\n            attn[:, : alibi_bias.size(1)] += alibi_bias\n\n        if padding_mask is not None and padding_mask.any():\n            attn = attn.masked_fill(\n                padding_mask.unsqueeze(1).unsqueeze(2).to(torch.bool),\n                float(\"-inf\"),\n            )\n\n        attn = attn.softmax(dim=-1, dtype=torch.float32).to(dtype=dtype)\n        attn = self.attn_drop(attn)\n        x = (attn @ v).transpose(1, 2)  #\n        x = x.reshape(B, N, C)\n        x = self.proj(x)\n        x = self.proj_drop(x)\n        return x\n\n\nclass EncDecAttention(nn.Module):\n    def __init__(\n        self,\n        q_dim,\n        kv_dim,\n        num_heads=8,\n        qkv_bias=False,\n        qk_scale=None,\n        attn_drop=0.0,\n        proj_drop=0.0,\n        cosine_attention=False,\n    ):\n        super().__init__()\n        self.num_heads = num_heads\n        head_dim = q_dim // num_heads\n        self.scale = qk_scale or head_dim ** -0.5\n\n        self.q_proj = nn.Linear(q_dim, q_dim, bias=qkv_bias)\n        self.kv_proj = nn.Linear(kv_dim, 2 * q_dim, bias=qkv_bias)\n        self.attn_drop = nn.Dropout(attn_drop)\n        self.proj = nn.Linear(q_dim, q_dim)\n        self.proj_drop = nn.Dropout(proj_drop)\n\n        self.cosine_attention = cosine_attention\n\n        if cosine_attention:\n            self.logit_scale = nn.Parameter(\n                torch.log(10 * torch.ones((num_heads, 1, 1))), requires_grad=True\n            )\n\n    def forward(self, q, kv, padding_mask=None, alibi_bias=None):\n        B, N, C = q.shape\n\n        q = (\n            self.q_proj(q)\n            .reshape(B, N, self.num_heads, C // self.num_heads)\n            .permute(0, 2, 1, 3)\n        )  # B x H x L x D\n        kv = (\n            self.kv_proj(kv)\n            .reshape(B, -1, 2, self.num_heads, C // self.num_heads)\n            .permute(2, 0, 3, 1, 4)\n        )  # kv x B x H x L x D\n        k, v = (\n            kv[0],\n            kv[1],\n        )  # make torchscript happy (cannot use tensor as tuple)\n\n        dtype = q.dtype\n\n        if self.cosine_attention:\n            # cosine attention\n            attn = F.normalize(q, dim=-1) @ F.normalize(k, dim=-1).transpose(-2, -1)\n            logit_scale = torch.clamp(\n                self.logit_scale, max=torch.log(torch.tensor(1.0 / 0.01))\n            ).exp()\n            attn = attn * logit_scale\n        else:\n            q = q * self.scale\n            attn = q @ k.transpose(-2, -1)\n\n        if alibi_bias is not None:\n            attn = attn.type_as(alibi_bias)\n            attn[:, : alibi_bias.size(1)] += alibi_bias\n\n        if padding_mask is not None and padding_mask.any():\n            attn = attn.masked_fill(\n                padding_mask.unsqueeze(1).unsqueeze(2).to(torch.bool),\n                float(\"-inf\"),\n            )\n\n        attn = attn.softmax(dim=-1, dtype=torch.float32).to(dtype=dtype)\n        attn = self.attn_drop(attn)\n        x = (attn @ v).transpose(1, 2)  #\n        x = x.reshape(B, N, C)\n        x = self.proj(x)\n        x = self.proj_drop(x)\n        return x\n\n\nclass EncDecBlock(nn.Module):\n    def __init__(\n        self,\n        q_dim,\n        kv_dim,\n        num_heads,\n        mlp_ratio=4.0,\n        qkv_bias=False,\n        qk_scale=None,\n        drop=0.0,\n        attn_drop=0.0,\n        mlp_drop=0.0,\n        post_mlp_drop=0.0,\n        drop_path=0.0,\n        act_layer=nn.GELU,\n        norm_layer=nn.LayerNorm,\n        layer_norm_first=True,\n        cosine_attention=False,\n        first_residual=True,\n    ):\n        super().__init__()\n\n        self.layer_norm_first = layer_norm_first\n\n        from timm.models.vision_transformer import DropPath, Mlp\n\n        self.norm1 = norm_layer(q_dim)\n        self.attn = EncDecAttention(\n            q_dim,\n            kv_dim,\n            num_heads=num_heads,\n            qkv_bias=qkv_bias,\n            qk_scale=qk_scale,\n            attn_drop=attn_drop,\n            proj_drop=drop,\n            cosine_attention=cosine_attention,\n        )\n\n        self.drop_path = DropPath(drop_path) if drop_path > 0.0 else nn.Identity()\n        self.norm2 = norm_layer(q_dim)\n        mlp_hidden_dim = int(q_dim * mlp_ratio)\n        self.mlp = Mlp(\n            in_features=q_dim,\n            hidden_features=mlp_hidden_dim,\n            act_layer=act_layer,\n            drop=mlp_drop,\n        )\n        self.post_mlp_dropout = nn.Dropout(post_mlp_drop, inplace=False)\n        self.first_residual = first_residual\n\n    def forward(self, q, kv, padding_mask=None, alibi_bias=None):\n        r = q if self.first_residual else 0\n        if self.layer_norm_first:\n            x = r + self.drop_path(\n                self.attn(self.norm1(q), kv, padding_mask, alibi_bias)\n            )\n            r = x = self.mlp(self.norm2(x))\n            x = r + self.drop_path(self.post_mlp_dropout(x))\n        else:\n            x = r + self.drop_path(self.attn(q, kv, padding_mask, alibi_bias))\n            r = x = self.norm1(x)\n            x = self.mlp(x)\n            x = self.norm2(r + self.drop_path(self.post_mlp_dropout(x)))\n\n        return x\n\n\nclass EncDecTransformerDecoder(nn.Module):\n    def __init__(self, cfg: D2vDecoderConfig, input_dim):\n        super().__init__()\n\n        self.input_proj = nn.Linear(input_dim, cfg.decoder_dim)\n\n        self.blocks = nn.Sequential(\n            *[\n                EncDecBlock(\n                    q_dim=cfg.decoder_dim,\n                    kv_dim=input_dim,\n                    num_heads=8,\n                    mlp_ratio=4.0,\n                    qkv_bias=True,\n                    qk_scale=None,\n                    drop=0.0,\n                    attn_drop=0.0,\n                    mlp_drop=0.0,\n                    post_mlp_drop=0.0,\n                    drop_path=0.0,\n                    act_layer=nn.GELU,\n                    norm_layer=nn.LayerNorm,\n                    layer_norm_first=False,\n                    cosine_attention=False,\n                    first_residual=i > 0,\n                )\n                for i in range(cfg.decoder_layers)\n            ]\n        )\n\n        self.proj = nn.Linear(cfg.decoder_dim, input_dim)\n\n    def reset_parameters(self):\n        from fairseq.modules.transformer_sentence_encoder import init_bert_params\n\n        self.apply(init_bert_params)\n\n    def forward(self, x, kv):\n        x = self.input_proj(x)\n        for i, layer in enumerate(self.blocks):\n            x = layer(x, kv)\n\n        x = self.proj(x)\n        return x\n"
  },
  {
    "path": "examples/data2vec/models/modalities/text.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom dataclasses import dataclass\nfrom functools import partial\nfrom typing import Callable, Dict, Optional\n\nimport torch.nn as nn\nimport torch.nn.functional as F\nimport numpy as np\nfrom fairseq.modules import PositionalEmbedding, FairseqDropout, LayerNorm\nfrom fairseq.tasks import FairseqTask\nfrom .base import D2vModalityConfig, ModalitySpecificEncoder, get_alibi_bias\nfrom .modules import BlockEncoder, Decoder1d\nfrom examples.data2vec.data.modality import Modality\n\n\n@dataclass\nclass D2vTextConfig(D2vModalityConfig):\n    type: Modality = Modality.TEXT\n    max_source_positions: int = 512\n    learned_pos: bool = True\n    dropout: float = 0.1  # used for both local_encoder and contextualized encoder. tied with global transformer in data2vec_text\n\n    no_scale_embedding: bool = True\n    layernorm_embedding: bool = True\n    no_token_positional_embeddings: bool = False\n\n\nclass TextEncoder(ModalitySpecificEncoder):\n\n    modality_cfg: D2vTextConfig\n\n    def __init__(\n        self,\n        modality_cfg: D2vTextConfig,\n        embed_dim: int,\n        make_block: Callable[[float], nn.ModuleList],\n        norm_layer: Callable[[int], nn.LayerNorm],\n        layer_norm_first: bool,\n        alibi_biases: Dict,\n        task: Optional[FairseqTask],\n    ):\n        self.pad_idx = task.source_dictionary.pad()\n        self.vocab_size = len(task.source_dictionary)\n\n        local_encoder = TextLocalEncoder(\n            vocab_size=self.vocab_size,\n            embed_dim=embed_dim,\n            max_source_positions=modality_cfg.max_source_positions,\n            pad_idx=self.pad_idx,\n            no_scale_embedding=modality_cfg.no_scale_embedding,\n            layernorm_embedding=modality_cfg.layernorm_embedding,\n            dropout=modality_cfg.dropout,\n            no_token_positional_embeddings=modality_cfg.no_token_positional_embeddings,\n            learned_pos=modality_cfg.learned_pos,\n        )\n        dpr = np.linspace(\n            modality_cfg.start_drop_path_rate,\n            modality_cfg.end_drop_path_rate,\n            modality_cfg.prenet_depth,\n        )\n        context_encoder = BlockEncoder(\n            nn.ModuleList(make_block(dpr[i]) for i in range(modality_cfg.prenet_depth)),\n            norm_layer(embed_dim)\n            if not layer_norm_first and modality_cfg.prenet_depth > 0\n            else None,\n            layer_norm_first,\n            modality_cfg.prenet_layerdrop,\n            modality_cfg.prenet_dropout if modality_cfg.prenet_depth > 0 else 0.0,\n        )\n        decoder = (\n            Decoder1d(modality_cfg.decoder, embed_dim)\n            if modality_cfg.decoder is not None\n            else None\n        )\n\n        alibi_bias_fn = partial(get_alibi_bias, alibi_biases=alibi_biases)\n\n        super().__init__(\n            modality_cfg=modality_cfg,\n            embed_dim=embed_dim,\n            local_encoder=local_encoder,\n            project_features=nn.Identity(),\n            fixed_positional_encoder=None,\n            relative_positional_encoder=None,\n            context_encoder=context_encoder,\n            decoder=decoder,\n            get_alibi_bias=alibi_bias_fn,\n        )\n\n    def reset_parameters(self):\n        super().reset_parameters()\n\n    def convert_padding_mask(self, x, padding_mask):\n        if padding_mask is None or padding_mask.size(1) == x.size(1):\n            return padding_mask\n\n        diff = self.downsample - padding_mask.size(1) % self.downsample\n        if 0 < diff < self.downsample:\n            padding_mask = F.pad(padding_mask, (0, diff), value=True)\n\n        padding_mask = padding_mask.view(padding_mask.size(0), -1, self.downsample)\n        padding_mask = padding_mask.all(-1)\n        if padding_mask.size(1) > x.size(1):\n            padding_mask = padding_mask[:, : x.size(1)]\n\n        assert x.size(1) == padding_mask.size(\n            1\n        ), f\"{x.size(1), padding_mask.size(1), diff, self.downsample}\"\n\n        return padding_mask\n\n\nclass TextLocalEncoder(nn.Module):\n    def __init__(\n        self,\n        vocab_size,\n        embed_dim,\n        max_source_positions,\n        pad_idx,\n        no_scale_embedding,\n        layernorm_embedding,\n        dropout,\n        no_token_positional_embeddings,\n        learned_pos,\n    ):\n        super().__init__()\n        self.pad_idx = pad_idx\n        self.dropout_module = FairseqDropout(dropout)\n\n        self.embed_tokens = nn.Embedding(vocab_size, embed_dim, pad_idx)\n        self.embed_scale = 1.0 if no_scale_embedding else math.sqrt(embed_dim)\n        self.embed_positions = (\n            PositionalEmbedding(\n                max_source_positions,\n                embed_dim,\n                pad_idx,\n                learned=learned_pos,\n            )\n            if not no_token_positional_embeddings\n            else None\n        )\n        self.embed_scale = 1.0 if no_scale_embedding else math.sqrt(embed_dim)\n\n        self.layernorm_embedding = None\n        if layernorm_embedding:\n            self.layernorm_embedding = LayerNorm(embed_dim)\n\n    def forward(self, src_tokens):\n        x = self.embed_scale * self.embed_tokens(src_tokens)\n        if self.embed_positions is not None:\n            x = x + self.embed_positions(src_tokens)\n\n        if self.layernorm_embedding is not None:\n            x = self.layernorm_embedding(x)\n        x = self.dropout_module(x)\n        return x\n"
  },
  {
    "path": "examples/data2vec/models/utils.py",
    "content": "import math\nimport torch\n\ndef get_alibi(\n    max_positions: int,\n    attention_heads: int,\n):\n    def get_slopes(n):\n        def get_slopes_power_of_2(n):\n            start = 2 ** (-(2 ** -(math.log2(n) - 3)))\n            ratio = start\n            return [start * ratio ** i for i in range(n)]\n\n        # In the paper, we only train models that have 2^a heads for some\n        # a. This function has some good properties that only occur when\n        # the input is a power of 2. To maintain that even when the number\n        # of heads is not a power of 2, we use this workaround.\n        if math.log2(n).is_integer():\n            return get_slopes_power_of_2(n)\n        else:\n            closest_power_of_2 = 2 ** math.floor(math.log2(n))\n            return (\n                get_slopes_power_of_2(closest_power_of_2)\n                + get_slopes(2 * closest_power_of_2)[0::2][: n - closest_power_of_2]\n            )\n\n    maxpos = max_positions\n    attn_heads = attention_heads\n    slopes = torch.Tensor(get_slopes(attn_heads))\n    # prepare alibi position linear bias. Note that wav2vec2 is non\n    # autoregressive model so we want a symmetric mask with 0 on the\n    # diagonal and other wise linear decreasing valuees\n    pos_bias = (\n        torch.abs(\n            torch.arange(maxpos).unsqueeze(0) - torch.arange(maxpos).unsqueeze(1)\n        )\n        * -1\n    )\n    alibi_bias = slopes.unsqueeze(1).unsqueeze(1) * pos_bias.unsqueeze(0).expand(\n        attn_heads, -1, -1\n    )\n    return alibi_bias\n\ndef masked_alibi(alibi_bias, mask_indices, orig_B, orig_T):\n    alibi_bias = alibi_bias.view(orig_B, -1, orig_T, orig_T)\n    H = alibi_bias.size(1)\n    alibi_mask = mask_indices.unsqueeze(1)\n    alibi_bias = alibi_bias.masked_select(alibi_mask.unsqueeze(-1))\n    alibi_bias = alibi_bias.view(orig_B, H, -1, orig_T)\n    M = alibi_bias.size(-2)\n    alibi_bias = alibi_bias.masked_select(alibi_mask.unsqueeze(-2))\n    alibi_bias = alibi_bias.view(-1, M, M)\n    return alibi_bias\n\n\n"
  },
  {
    "path": "examples/data2vec/scripts/convert_audioset_labels.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport os\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(description=\"convert audioset labels\")\n    # fmt: off\n    parser.add_argument('in_file', help='audioset csv file to convert')\n    parser.add_argument('--manifest', required=True, metavar='PATH', help='wav2vec-like manifest')\n    parser.add_argument('--descriptors', required=True, metavar='PATH', help='path to label descriptor file')\n    parser.add_argument('--output', required=True, metavar='PATH', help='where to output converted labels')\n    # fmt: on\n\n    return parser\n\n\ndef main():\n    parser = get_parser()\n    args = parser.parse_args()\n\n    label_descriptors = {}\n    with open(args.descriptors, \"r\") as ldf:\n        next(ldf)\n        for line in ldf:\n            if line.strip() == \"\":\n                continue\n\n            items = line.split(\",\")\n            assert len(items) > 2, line\n            idx = items[0]\n            lbl = items[1]\n            assert lbl not in label_descriptors, lbl\n            label_descriptors[lbl] = idx\n\n    labels = {}\n    with open(args.in_file, \"r\") as ifd:\n        for line in ifd:\n            if line.lstrip().startswith(\"#\"):\n                continue\n            items = line.rstrip().split(\",\")\n            id = items[0].strip()\n            start = items[1].strip()\n            end = items[2].strip()\n            lbls = [label_descriptors[it.strip(' \"')] for it in items[3:]]\n            labels[id] = [start, end, \",\".join(lbls)]\n\n    with open(args.manifest, \"r\") as mf, open(args.output, \"w\") as of:\n        next(mf)\n        for line in mf:\n            path, _ = line.split(\"\\t\")\n            id = os.path.splitext(os.path.basename(path))[0]\n            lbl = labels[id]\n            print(\"\\t\".join(lbl), file=of)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/data2vec/scripts/multi/finetune_all_fair_aws_local_lr.sh",
    "content": "#!/bin/bash\n\nset -eu\n\njob_id=\"$1\"\ntask_id=\"$2\"\ndir=\"$3\"\n\necho \"job_id: $job_id, task_id: $task_id, dir: $dir\"\n\nmkdir -p \"$dir/log\"\nsbatch_args=\"-p wav2vec --nodes=1 --ntasks-per-node=1\"\nsbatch_args=\"$sbatch_args --gpus-per-node=1 --cpus-per-task=8 --mem=0 --time=24:00:00\"\nsbatch_args=\"$sbatch_args -d afterok:$job_id -o $dir/log/decode_sweep_%A.out\"\nsbatch_args=\"$sbatch_args -e $dir/log/decode_sweep_%A.err\"\n\nsbatch $sbatch_args examples/data2vec/scripts/multi/finetune_all_fair_local_lr.sh $dir\n\n"
  },
  {
    "path": "examples/data2vec/scripts/multi/finetune_all_fair_aws_local_lr_nodep.sh",
    "content": "#!/bin/bash\n\nset -eu\n\ndir=\"$1\"\n\necho \"dir: $dir\"\n\nmkdir -p \"$dir/log\"\nsbatch_args=\"-p wav2vec --nodes=1 --ntasks-per-node=1\"\nsbatch_args=\"$sbatch_args --gpus-per-node=1 --cpus-per-task=8 --mem=0 --time=24:00:00\"\nsbatch_args=\"$sbatch_args -o $dir/log/decode_sweep_%A.out\"\nsbatch_args=\"$sbatch_args -e $dir/log/decode_sweep_%A.err\"\n\nsbatch $sbatch_args examples/data2vec/scripts/multi/finetune_all_fair_local_lr.sh $dir\n\n"
  },
  {
    "path": "examples/data2vec/scripts/multi/finetune_all_fair_local_lr.sh",
    "content": "#!/usr/bin/env zsh\n\ndir=\"$1\"\ncp=\"$dir/checkpoints/checkpoint_last.pt\"\n\necho \"dir: $dir\"\n\ndeclare -A tasks\ntasks[cola]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/CoLA-bin\"\ntasks[qnli]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/QNLI-bin\"\ntasks[mrpc]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/MRPC-bin\"\ntasks[rte]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/RTE-bin\"\ntasks[sst_2]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/SST-2-bin\"\ntasks[mnli]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/MNLI-bin\"\ntasks[qqp]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/QQP-bin\"\ntasks[sts_b]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/STS-B-bin\"\n\nlrs=(5e-6 8e-6 1e-5 2e-5)\n\nfor task data_path in ${(kv)tasks}; do\n    for lr in $lrs; do\n      echo $lr $task\n      PYTHONPATH=. PREFIX=\"${PREFIX}\" SUFFIX=\"\" \\\n        python fairseq_cli/hydra_train.py -m --config-dir examples/data2vec/config/multi/text_finetuning \\\n        --config-name $task +run_config=local task.data=\"$data_path\" common.log_interval=200 dataset.num_workers=1 \\\n        model.model_path=\"$cp\" hydra.sweep.dir=\"$dir/finetune_lr/$task/$lr\" \"optimization.lr=[${lr}]\" +model=text_wrap\n    done\ndone\n"
  },
  {
    "path": "examples/data2vec/scripts/text/finetune_all_char_fair_aws_local_lr.sh",
    "content": "#!/bin/bash\n\nset -eu\n\njob_id=\"$1\"\ntask_id=\"$2\"\ndir=\"$3\"\n\necho \"job_id: $job_id, task_id: $task_id, dir: $dir\"\n\nmkdir -p \"$dir/log\"\nsbatch_args=\"-p wav2vec --nodes=1 --ntasks-per-node=1\"\nsbatch_args=\"$sbatch_args --gpus-per-node=1 --cpus-per-task=8 --mem=0 --time=24:00:00\"\nsbatch_args=\"$sbatch_args -d afterok:$job_id -o $dir/log/ft_%A.out\"\nsbatch_args=\"$sbatch_args -e $dir/log/ft_%A.err\"\n\nsbatch $sbatch_args examples/data2vec/scripts/text/finetune_all_char_fair_local_lr.sh $dir\n"
  },
  {
    "path": "examples/data2vec/scripts/text/finetune_all_fair.sh",
    "content": "#!/usr/bin/env zsh\n\njob_id=$1\ntask_id=$2\ndir=\"$3\"\ncp=\"$dir/$task_id/checkpoints/checkpoint_last.pt\"\n\necho \"job_id: $job_id, task_id: $task_id, dir: $dir\"\n\ndeclare -A tasks\ntasks[cola]=\"/private/home/jgu/data/GLUE/CoLA-bin\"\ntasks[qnli]=\"/private/home/jgu/data/GLUE/QNLI-bin\"\ntasks[mrpc]=\"/private/home/jgu/data/GLUE/MRPC-bin\"\ntasks[rte]=\"/private/home/jgu/data/GLUE/RTE-bin\"\ntasks[sst_2]=\"/private/home/jgu/data/GLUE/SST-2-bin\"\n\nfor task data_path in ${(kv)tasks}; do\n    PYTHONPATH=. PREFIX=\"${PREFIX}\" SUFFIX=\"\" nohup python fairseq_cli/hydra_train.py -m --config-dir examples/roberta/config/finetuning \\\n    --config-name $task hydra/launcher=submitit_slurm +run_config=slurm_1g task.data=\"$data_path\" hydra.launcher.name=finetune_${task}_${PREFIX} \\\n    checkpoint.restore_file=\"$cp\" +hydra.launcher.additional_parameters.dependency=\"afterok:$job_id\" hydra.sweep.dir=\"$dir/finetune/$task\" &\ndone\n"
  },
  {
    "path": "examples/data2vec/scripts/text/finetune_all_fair_aws.sh",
    "content": "#!/usr/bin/env zsh\n\njob_id=$1\ntask_id=$2\ndir=\"$3\"\ncp=\"$dir/checkpoints/checkpoint_last.pt\"\n\necho \"job_id: $job_id, task_id: $task_id, dir: $dir\"\n\ndeclare -A tasks\ntasks[cola]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/CoLA-bin\"\ntasks[qnli]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/QNLI-bin\"\ntasks[mrpc]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/MRPC-bin\"\ntasks[rte]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/RTE-bin\"\ntasks[sst_2]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/SST-2-bin\"\n\nfor task data_path in ${(kv)tasks}; do\n    PYTHONPATH=. PREFIX=\"${PREFIX}\" SUFFIX=\"\" nohup python fairseq_cli/hydra_train.py -m --config-dir examples/roberta/config/finetuning \\\n    --config-name $task hydra/launcher=submitit_slurm +run_config=slurm_1g_aws task.data=\"$data_path\" hydra.launcher.name=finetune_${task}_${PREFIX} \\\n    checkpoint.restore_file=\"$cp\" +hydra.launcher.additional_parameters.dependency=\"afterok:$job_id\" hydra.sweep.dir=\"$dir/finetune/$task\" &\ndone\n"
  },
  {
    "path": "examples/data2vec/scripts/text/finetune_all_fair_aws_local_lr.sh",
    "content": "#!/bin/bash\n\nset -eu\n\njob_id=\"$1\"\ntask_id=\"$2\"\ndir=\"$3\"\n\necho \"job_id: $job_id, task_id: $task_id, dir: $dir\"\n\nmkdir -p \"$dir/log\"\nsbatch_args=\"-p wav2vec --nodes=1 --ntasks-per-node=1\"\nsbatch_args=\"$sbatch_args --gpus-per-node=1 --cpus-per-task=8 --mem=0 --time=24:00:00\"\nsbatch_args=\"$sbatch_args -d afterok:$job_id -o $dir/log/decode_sweep_%A.out\"\nsbatch_args=\"$sbatch_args -e $dir/log/decode_sweep_%A.err\"\n\nsbatch $sbatch_args examples/data2vec/scripts/text/finetune_all_fair_local_lr.sh $dir\n"
  },
  {
    "path": "examples/data2vec/scripts/text/finetune_all_fair_aws_lr.sh",
    "content": "#!/usr/bin/env zsh\n\njob_id=$1\ntask_id=$2\ndir=\"$3\"\ncp=\"$dir/checkpoints/checkpoint_last.pt\"\n\necho \"job_id: $job_id, task_id: $task_id, dir: $dir\"\n\ndeclare -A tasks\ntasks[cola]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/CoLA-bin\"\ntasks[qnli]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/QNLI-bin\"\ntasks[mrpc]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/MRPC-bin\"\ntasks[rte]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/RTE-bin\"\ntasks[sst_2]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/SST-2-bin\"\n\nfor task data_path in ${(kv)tasks}; do\n    for lr in 5e-6 8e-6 1e-5 2e-5 5e-5 8e-5 1e-4 2e-4; do\n      PYTHONPATH=. PREFIX=\"${PREFIX}\" SUFFIX=\"\" nohup python fairseq_cli/hydra_train.py -m --config-dir examples/roberta/config/finetuning \\\n      --config-name $task hydra/launcher=submitit_slurm +run_config=slurm_1g_aws task.data=\"$data_path\" hydra.launcher.name=finetune_${task}_${PREFIX} \\\n      checkpoint.restore_file=\"$cp\" +hydra.launcher.additional_parameters.dependency=\"afterok:$job_id\" hydra.sweep.dir=\"$dir/finetune_lr/$task/$lr\" \"optimization.lr=[${lr}]\" &\n    done\ndone\n"
  },
  {
    "path": "examples/data2vec/scripts/text/finetune_all_fair_local_lr.sh",
    "content": "#!/usr/bin/env zsh\n\ndir=\"$1\"\ncp=\"$dir/checkpoints/checkpoint_last.pt\"\n\necho \"dir: $dir\"\n\ndeclare -A tasks\ntasks[cola]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/CoLA-bin\"\ntasks[qnli]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/QNLI-bin\"\ntasks[mrpc]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/MRPC-bin\"\ntasks[rte]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/RTE-bin\"\ntasks[sst_2]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/SST-2-bin\"\n\nlrs=(5e-6 8e-6 1e-5 2e-5)\n\nfor task data_path in ${(kv)tasks}; do\n    for lr in $lrs; do\n      echo $lr $task\n      PYTHONPATH=. PREFIX=\"${PREFIX}\" SUFFIX=\"\" \\\n        python fairseq_cli/hydra_train.py -m --config-dir examples/roberta/config/finetuning \\\n        --config-name $task +run_config=local task.data=\"$data_path\" common.log_interval=200 dataset.num_workers=1 \\\n        checkpoint.restore_file=\"$cp\" hydra.sweep.dir=\"$dir/finetune_lr/$task/$lr\" \"optimization.lr=[${lr}]\"\n    done\ndone\n"
  },
  {
    "path": "examples/data2vec/scripts/text/finetune_all_fair_nodep.sh",
    "content": "#!/usr/bin/env zsh\n\ndir=\"$1\"\ncp=\"$dir/checkpoints/checkpoint_last.pt\"\n\necho \"dir: $dir\"\n\ndeclare -A tasks\ntasks[cola]=\"/private/home/jgu/data/GLUE/CoLA-bin\"\ntasks[qnli]=\"/private/home/jgu/data/GLUE/QNLI-bin\"\ntasks[mrpc]=\"/private/home/jgu/data/GLUE/MRPC-bin\"\ntasks[rte]=\"/private/home/jgu/data/GLUE/RTE-bin\"\ntasks[sst_2]=\"/private/home/jgu/data/GLUE/SST-2-bin\"\n\nfor task data_path in ${(kv)tasks}; do\n    PYTHONPATH=. PREFIX=\"${PREFIX}\" SUFFIX=\"\" nohup python fairseq_cli/hydra_train.py -m --config-dir examples/roberta/config/finetuning \\\n    --config-name $task hydra/launcher=submitit_slurm +run_config=slurm_1g task.data=\"$data_path\" hydra.launcher.name=finetune_${task}_${PREFIX} \\\n    checkpoint.restore_file=\"$cp\" hydra.sweep.dir=\"$dir/finetune/$task\" &\ndone\n"
  },
  {
    "path": "examples/data2vec/scripts/text/finetune_all_fair_nodep_aws.sh",
    "content": "#!/usr/bin/env zsh\n\ndir=\"$1\"\ncp=\"$dir/checkpoints/checkpoint_last.pt\"\n\necho \"dir: $dir\"\n\ndeclare -A tasks\ntasks[cola]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/CoLA-bin\"\ntasks[qnli]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/QNLI-bin\"\ntasks[mrpc]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/MRPC-bin\"\ntasks[rte]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/RTE-bin\"\ntasks[sst_2]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/SST-2-bin\"\n\nfor task data_path in ${(kv)tasks}; do\n    PYTHONPATH=. PREFIX=\"${PREFIX}\" SUFFIX=\"\" nohup python fairseq_cli/hydra_train.py -m --config-dir examples/roberta/config/finetuning \\\n    --config-name $task hydra/launcher=submitit_slurm +run_config=slurm_1g_aws task.data=\"$data_path\" hydra.launcher.name=finetune_${task}_${PREFIX} \\\n    checkpoint.restore_file=\"$cp\" hydra.sweep.dir=\"$dir/finetune/$task\" &\ndone\n"
  },
  {
    "path": "examples/data2vec/scripts/text/finetune_all_fair_nodep_aws_local_lr.sh",
    "content": "#!/bin/bash\n\nset -eu\n\ndir=\"$1\"\n\necho \"dir: $dir\"\n\nmkdir -p \"$dir/log\"\nsbatch_args=\"-p wav2vec --nodes=1 --ntasks-per-node=1\"\nsbatch_args=\"$sbatch_args --gpus-per-node=1 --cpus-per-task=8 --mem=0 --time=24:00:00\"\nsbatch_args=\"$sbatch_args -o $dir/log/decode_sweep_%A.out\"\nsbatch_args=\"$sbatch_args -e $dir/log/decode_sweep_%A.err\"\n\nsbatch $sbatch_args examples/data2vec/scripts/text/finetune_all_fair_local_lr.sh $dir\n"
  },
  {
    "path": "examples/data2vec/scripts/text/finetune_all_fair_nodep_aws_lr.sh",
    "content": "#!/usr/bin/env zsh\n\ndir=\"$1\"\ncp=\"$dir/checkpoints/checkpoint_last.pt\"\n\necho \"dir: $dir\"\n\ndeclare -A tasks\ntasks[cola]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/CoLA-bin\"\ntasks[qnli]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/QNLI-bin\"\ntasks[mrpc]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/MRPC-bin\"\ntasks[rte]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/RTE-bin\"\ntasks[sst_2]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/SST-2-bin\"\n\nfor task data_path in ${(kv)tasks}; do\n    for lr in 5e-6 8e-6 1e-5 2e-5 5e-5 8e-5 1e-4 2e-4; do\n      PYTHONPATH=. PREFIX=\"${PREFIX}\" SUFFIX=\"\" nohup python fairseq_cli/hydra_train.py -m --config-dir examples/roberta/config/finetuning \\\n      --config-name $task hydra/launcher=submitit_slurm +run_config=slurm_1g_aws task.data=\"$data_path\" hydra.launcher.name=finetune_${task}_${PREFIX} \\\n      checkpoint.restore_file=\"$cp\" hydra.sweep.dir=\"$dir/finetune_lr/$task/$lr\" \"optimization.lr=[${lr}]\" &\n    done\ndone\n"
  },
  {
    "path": "examples/data2vec/scripts/text/finetune_all_fair_nodep_aws_lr_nopos.sh",
    "content": "#!/usr/bin/env zsh\n\ndir=\"$1\"\ncp=\"$dir/checkpoints/checkpoint_last.pt\"\n\necho \"dir: $dir\"\n\ndeclare -A tasks\ntasks[cola]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/CoLA-bin\"\ntasks[qnli]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/QNLI-bin\"\ntasks[mrpc]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/MRPC-bin\"\ntasks[rte]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/RTE-bin\"\ntasks[sst_2]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/SST-2-bin\"\n\nfor task data_path in ${(kv)tasks}; do\n    for lr in 5e-6 8e-6 1e-5 2e-5 5e-5 8e-5 1e-4 2e-4; do\n      PYTHONPATH=. PREFIX=\"${PREFIX}\" SUFFIX=\"\" nohup python fairseq_cli/hydra_train.py -m --config-dir examples/roberta/config/finetuning \\\n      --config-name $task hydra/launcher=submitit_slurm +run_config=slurm_1g_aws task.data=\"$data_path\" hydra.launcher.name=finetune_${task}_${PREFIX} \\\n      checkpoint.restore_file=\"$cp\" hydra.sweep.dir=\"$dir/finetune_lr/$task/$lr\" \"optimization.lr=[${lr}]\" +model.encoder_learned_pos=False &\n    done\ndone\n"
  },
  {
    "path": "examples/data2vec/scripts/text/finetune_all_large_fair_aws_local_lr.sh",
    "content": "#!/bin/bash\n\nset -eu\n\njob_id=\"$1\"\ntask_id=\"$2\"\ndir=\"$3\"\n\necho \"job_id: $job_id, task_id: $task_id, dir: $dir\"\n\nmkdir -p \"$dir/log\"\nsbatch_args=\"-p wav2vec --nodes=1 --ntasks-per-node=1\"\nsbatch_args=\"$sbatch_args --gpus-per-node=1 --cpus-per-task=8 --mem=0 --time=24:00:00\"\nsbatch_args=\"$sbatch_args -d afterok:$job_id -o $dir/log/decode_sweep_%A.out\"\nsbatch_args=\"$sbatch_args -e $dir/log/decode_sweep_%A.err\"\n\nsbatch $sbatch_args examples/data2vec/scripts/text/finetune_all_large_fair_local_lr.sh $dir\n"
  },
  {
    "path": "examples/data2vec/scripts/text/finetune_all_large_fair_local_lr.sh",
    "content": "#!/usr/bin/env zsh\n\ndir=\"$1\"\ncp=\"$dir/checkpoints/checkpoint_last.pt\"\n\necho \"dir: $dir\"\n\ndeclare -A tasks\ntasks[cola]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/CoLA-bin\"\ntasks[qnli]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/QNLI-bin\"\ntasks[mrpc]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/MRPC-bin\"\ntasks[rte]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/RTE-bin\"\ntasks[sst_2]=\"/fsx-wav2vec/abaevski/data/nlp/GLUE/SST-2-bin\"\n\nlrs=(5e-6 8e-6 1e-5 2e-5)\n\nfor task data_path in ${(kv)tasks}; do\n    for lr in $lrs; do\n      echo $lr $task\n      PYTHONPATH=. PREFIX=\"${PREFIX}\" SUFFIX=\"\" \\\n        python fairseq_cli/hydra_train.py -m --config-dir examples/roberta/config/finetuning \\\n        --config-name $task +run_config=local task.data=\"$data_path\" common.log_interval=200 dataset.num_workers=1 \\\n        checkpoint.restore_file=\"$cp\" hydra.sweep.dir=\"$dir/finetune_lr/$task/$lr\" \"optimization.lr=[${lr}]\" \\\n        model._name=roberta_large\n    done\ndone\n"
  },
  {
    "path": "examples/data2vec/scripts/text/finetune_all_large_fair_nodep_aws_local_lr.sh",
    "content": "#!/bin/bash\n\nset -eu\n\ndir=\"$1\"\n\necho \"dir: $dir\"\n\nmkdir -p \"$dir/log\"\nsbatch_args=\"-p wav2vec --nodes=1 --ntasks-per-node=1\"\nsbatch_args=\"$sbatch_args --gpus-per-node=1 --cpus-per-task=8 --mem=0 --time=24:00:00\"\nsbatch_args=\"$sbatch_args -o $dir/log/decode_sweep_%A.out\"\nsbatch_args=\"$sbatch_args -e $dir/log/decode_sweep_%A.err\"\n\nsbatch $sbatch_args examples/data2vec/scripts/text/finetune_all_large_fair_local_lr.sh $dir\n"
  },
  {
    "path": "examples/data2vec/scripts/text/finetune_sst2_qnli_sweep_fair_nodep.sh",
    "content": "#!/usr/bin/env zsh\n\ndir=\"$1\"\ncp=\"$dir/checkpoints/checkpoint_last.pt\"\n\necho \"dir: $dir\"\n\ndeclare -A tasks\ntasks[qnli]=\"/private/home/jgu/data/GLUE/QNLI-bin\"\ntasks[sst_2]=\"/private/home/jgu/data/GLUE/SST-2-bin\"\n\nlrs=\"5e-6 1e-5 2e-5 5e-5 1e-4 2e-4 5e-4 1e-3\"\n\nfor task data_path in ${(kv)tasks}; do\n  for lr in $(echo \"$lrs\"); do\n    PYTHONPATH=. PREFIX=\"${PREFIX}\" SUFFIX=\"\" nohup python fairseq_cli/hydra_train.py -m --config-dir examples/roberta/config/finetuning \\\n    --config-name $task hydra/launcher=submitit_slurm +run_config=slurm_1g task.data=\"$data_path\" hydra.launcher.name=finetune_${task}_${PREFIX} \\\n    checkpoint.restore_file=\"$cp\" hydra.sweep.dir=\"$dir/finetune_sweep/$task/lr_$lr\" \"optimization.lr=[${lr}]\" &\n  done\ndone\n"
  },
  {
    "path": "examples/data2vec/scripts/text/glue.py",
    "content": "from valids import parser, main as valids_main\nimport os.path as osp\n\n\nargs = parser.parse_args()\nargs.target = \"valid_accuracy\"\nargs.best_biggest = True\nargs.best = True\nargs.last = 0\nargs.path_contains = None\n\nres =  valids_main(args, print_output=False)\n\ngrouped = {}\nfor k, v in res.items():\n    k = osp.dirname(k)\n    run = osp.dirname(k)\n    task = osp.basename(k)\n    val = v[\"valid_accuracy\"]\n\n    if run not in grouped:\n        grouped[run] = {}\n\n    grouped[run][task] = val\n\nfor run, tasks in grouped.items():\n    print(run)\n    avg = sum(float(v) for v in tasks.values()) / len(tasks)\n    avg_norte = sum(float(v) for k,v in tasks.items() if k != 'rte') / (len(tasks) -1)\n    try:\n        print(f\"{tasks['cola']}\\t{tasks['qnli']}\\t{tasks['mrpc']}\\t{tasks['rte']}\\t{tasks['sst_2']}\\t{avg:.2f}\\t{avg_norte:.2f}\")\n    except:\n        print(tasks)\n    print()\n"
  },
  {
    "path": "examples/data2vec/scripts/text/glue_lr.py",
    "content": "import os.path as osp\nimport re\nfrom collections import defaultdict\n\nfrom valids import parser, main as valids_main\n\n\nTASK_TO_METRIC = {\n    \"cola\": \"mcc\",\n    \"qnli\": \"accuracy\",\n    \"mrpc\": \"acc_and_f1\",\n    \"rte\": \"accuracy\",\n    \"sst_2\": \"accuracy\",\n    \"mnli\": \"accuracy\",\n    \"qqp\": \"acc_and_f1\",\n    \"sts_b\": \"pearson_and_spearman\",\n}\nTASKS = [\"cola\", \"qnli\", \"mrpc\", \"rte\", \"sst_2\", \"mnli\", \"qqp\", \"sts_b\"]\n\n\ndef get_best_stat_str(task_vals, show_subdir):\n    task_to_best_val = {}\n    task_to_best_dir = {}\n    for task, subdir_to_val in task_vals.items():\n        task_to_best_val[task] = max(subdir_to_val.values())\n        task_to_best_dir[task] = max(subdir_to_val.keys(), key=lambda x: subdir_to_val[x])\n\n    # import pdb; pdb.set_trace()\n    N1 = len(task_to_best_val)\n    N2 = len([k for k in task_to_best_val if k != \"rte\"])\n    avg1 = sum(task_to_best_val.values()) / N1\n    avg2 = sum(v for task, v in task_to_best_val.items() if task != \"rte\") / N2\n\n    try:\n        msg = \"\"\n        for task in TASKS:\n            dir = task_to_best_dir.get(task, 'null')\n            val = task_to_best_val.get(task, -100)\n            msg += f\"({dir}, {val})\\t\" if show_subdir else f\"{val}\\t\"\n        msg += f\"{avg1:.2f}\\t{avg2:.2f}\"\n    except Exception as e:\n        msg = str(e)\n        msg += str(sorted(task_vals.items()))\n    return msg\n\ndef get_all_stat_str(task_vals):\n    msg = \"\"\n    for task in [task for task in TASKS if task in task_vals]:\n        msg += f\"=== {task}\\n\"\n        for subdir in sorted(task_vals[task].keys()):\n            msg += f\"\\t{subdir}\\t{task_vals[task][subdir]}\\n\"\n    return msg\n\ndef get_tabular_stat_str(task_vals):\n    \"\"\"assume subdir is <param>/run_*/0\"\"\"\n    msg = \"\"\n    for task in [task for task in TASKS if task in task_vals]:\n        msg += f\"=== {task}\\n\"\n        param_to_runs = defaultdict(dict)\n        for subdir in task_vals[task]:\n            match = re.match(\"(.*)/(run_.*)/0\", subdir)\n            assert match, \"subdir\"\n            param, run = match.groups()\n            param_to_runs[param][run] = task_vals[task][subdir]\n        params = sorted(param_to_runs, key=lambda x: float(x))\n        runs = sorted(set(run for runs in param_to_runs.values() for run in runs))\n        msg += (\"runs:\" + \"\\t\".join(runs) + \"\\n\")\n        msg += (\"params:\" + \"\\t\".join(params) + \"\\n\")\n        for param in params:\n            msg += \"\\t\".join([str(param_to_runs[param].get(run, None)) for run in runs])\n            msg += \"\\n\"\n        # for subdir in sorted(task_vals[task].keys()):\n        #     msg += f\"\\t{subdir}\\t{task_vals[task][subdir]}\\n\"\n    return msg\n\n   \n\ndef main():\n    parser.add_argument(\"--show_glue\", action=\"store_true\", help=\"show glue metric for each task instead of accuracy\")\n    parser.add_argument(\"--print_mode\", default=\"best\", help=\"best|all|tabular\")\n    parser.add_argument(\"--show_subdir\", action=\"store_true\", help=\"print the subdir that has the best results for each run\")\n    parser.add_argument(\"--override_target\", default=\"valid_accuracy\", help=\"override target\")\n\n    args = parser.parse_args()\n    args.target = args.override_target\n    args.best_biggest = True\n    args.best = True\n    args.last = 0\n    args.path_contains = None\n    \n    res =  valids_main(args, print_output=False)\n    grouped_acc = {}\n    grouped_met = {}  # use official metric for each task\n    for path, v in res.items():\n        path = \"/\".join([args.base, path])\n        path = re.sub(\"//*\", \"/\", path)\n        match = re.match(\"(.*)finetune[^/]*/([^/]*)/(.*)\", path)\n        if not match:\n            continue\n        run, task, subdir = match.groups()\n\n        if run not in grouped_acc:\n            grouped_acc[run] = {}\n            grouped_met[run] = {}\n        if task not in grouped_acc[run]:\n            grouped_acc[run][task] = {}\n            grouped_met[run][task] = {}\n\n        if v is not None:\n            grouped_acc[run][task][subdir] = float(v.get(\"valid_accuracy\", -100))\n            grouped_met[run][task][subdir] = float(v.get(f\"valid_{TASK_TO_METRIC[task]}\", -100))\n        else:\n            print(f\"{path} has None return\")\n\n    header = \"\\t\".join(TASKS)\n    for run in sorted(grouped_acc):\n        print(run)\n        if args.print_mode == \"all\":\n            if args.show_glue:\n                print(\"===== GLUE =====\")\n                print(get_all_stat_str(grouped_met[run]))\n            else:\n                print(\"===== ACC =====\")\n                print(get_all_stat_str(grouped_acc[run]))\n        elif args.print_mode == \"best\":\n            print(f\"      {header}\")\n            if args.show_glue:\n                print(f\"GLEU: {get_best_stat_str(grouped_met[run], args.show_subdir)}\")\n            else:\n                print(f\"ACC:  {get_best_stat_str(grouped_acc[run], args.show_subdir)}\")\n        elif args.print_mode == \"tabular\":\n            if args.show_glue:\n                print(\"===== GLUE =====\")\n                print(get_tabular_stat_str(grouped_met[run]))\n            else:\n                print(\"===== ACC =====\")\n                print(get_tabular_stat_str(grouped_acc[run]))\n        else:\n            raise ValueError(args.print_mode)\n        print()\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/data2vec/scripts/text/unprocess_data.py",
    "content": "import json\nimport os\nimport tqdm\nfrom fairseq.data import Dictionary, data_utils\n\n\ndef load_dictionary(dict_path):\n    return Dictionary.load(dict_path)\n\ndef load_dataset(split_path, src_dict):\n    dataset = data_utils.load_indexed_dataset(\n        split_path,\n        src_dict,\n        combine=False,  # set to true for loading `train*`\n    )\n    if dataset is None:\n        raise FileNotFoundError(f\"Dataset not found: {split_path}\")\n    return dataset\n\ndef load_bpe(enc_path):\n    with open(enc_path) as f:\n        bpe2idx = json.load(f)\n        idx2bpe = {v: k for k, v in bpe2idx.items()}\n    return bpe2idx, idx2bpe\n\ndef detokenize(tokens, src_dict, idx2bpe):\n    raw_inds = map(int, src_dict.string(tokens).split())\n    raw_chrs = \"\".join([idx2bpe[raw_ind] for raw_ind in raw_inds])\n    raw_chrs = raw_chrs.replace(\"\\u0120\", \" \")\n    return raw_chrs\n\ndef _main(src_root, src_dict_path, src_bpe_path, src_splits, tgt_root, tgt_splits):\n    src_dict = load_dictionary(src_dict_path)\n    bpe2idx, idx2bpe = load_bpe(src_bpe_path)\n\n    assert len(src_splits) == len(tgt_splits)\n    for src_split, tgt_split in zip(src_splits, tgt_splits):\n        src_dataset = load_dataset(f\"{src_root}/{src_split}\", src_dict)\n        tgt_path = f\"{tgt_root}/{tgt_split}.txt\"\n        print(f\"processing {src_split} (dump to {tgt_path})...\")\n        os.makedirs(os.path.dirname(tgt_path), exist_ok=True)\n        with open(tgt_path, \"w\") as f:\n            for tokens in tqdm.tqdm(src_dataset):\n                raw_str = detokenize(tokens, src_dict, idx2bpe)\n                f.write(raw_str + \"\\n\")\n\ndef main_pt():\n    src_root = \"/datasets01/bookwiki_CC-NEWS_openwebtext_stories-mmap2-bin/121219/bookwiki_CC-NEWS_openwebtext_stories-mmap2-bin\"\n    src_dict_path = f\"{src_root}/dict.txt\"\n    src_bpe_path = f\"{src_root}/encoder.json\"\n    src_splits = [\n        \"bookwiki_aml-mmap2-bin/shard0/train\",\n        \"bookwiki_aml-mmap2-bin/shard1/train\",\n        \"bookwiki_aml-mmap2-bin/shard2/train\",\n        \"bookwiki_aml-mmap2-bin/shard3/train\",\n        \"bookwiki_aml-mmap2-bin/shard4/train\",\n        \"bookwiki_aml-mmap2-bin/valid/valid\",\n    ]\n\n    tgt_root = \"/checkpoint/wnhsu/data/data2vec2/data/text/bookwiki_aml-full-mmap2-txt\"\n    tgt_splits = [\n        \"train0\",\n        \"train1\",\n        \"train2\",\n        \"train3\",\n        \"train4\",\n        \"valid\",\n    ]\n    _main(src_root, src_dict_path, src_bpe_path, src_splits, tgt_root, tgt_splits)\n\ndef main_ft():\n    src_root = \"/fsx-wav2vec/wnhsu/data/data2vec2/data/text/GLUE\"\n    src_dict_path = f\"{src_root}/dict.txt\"\n    src_bpe_path = f\"{src_root}/encoder.json\"\n    src_splits = [\n        \"CoLA-bin/input0/train\",\n        \"CoLA-bin/input0/valid\",\n        \"CoLA-bin/input0/test\",\n\n        \"MNLI-bin/input0/train\",\n        \"MNLI-bin/input0/valid\",\n        \"MNLI-bin/input0/test\",\n        \"MNLI-bin/input0/test1\",\n        \"MNLI-bin/input1/train\",\n        \"MNLI-bin/input1/valid\",\n        \"MNLI-bin/input1/test\",\n        \"MNLI-bin/input1/test1\",\n\n        \"MRPC-bin/input0/train\",\n        \"MRPC-bin/input0/valid\",\n        \"MRPC-bin/input0/test\",\n        \"MRPC-bin/input1/train\",\n        \"MRPC-bin/input1/valid\",\n        \"MRPC-bin/input1/test\",\n\n        \"QNLI-bin/input0/train\",\n        \"QNLI-bin/input0/valid\",\n        \"QNLI-bin/input0/test\",\n        \"QNLI-bin/input1/train\",\n        \"QNLI-bin/input1/valid\",\n        \"QNLI-bin/input1/test\",\n\n        \"QQP-bin/input0/train\",\n        \"QQP-bin/input0/valid\",\n        \"QQP-bin/input0/test\",\n        \"QQP-bin/input1/train\",\n        \"QQP-bin/input1/valid\",\n        \"QQP-bin/input1/test\",\n\n        \"RTE-bin/input0/train\",\n        \"RTE-bin/input0/valid\",\n        \"RTE-bin/input0/test\",\n        \"RTE-bin/input1/train\",\n        \"RTE-bin/input1/valid\",\n        \"RTE-bin/input1/test\",\n\n        \"SST-2-bin/input0/train\",\n        \"SST-2-bin/input0/valid\",\n        \"SST-2-bin/input0/test\",\n\n        \"STS-B-bin/input0/train\",\n        \"STS-B-bin/input0/valid\",\n        \"STS-B-bin/input0/test\",\n        \"STS-B-bin/input1/train\",\n        \"STS-B-bin/input1/valid\",\n        \"STS-B-bin/input1/test\",\n    ]\n\n    tgt_root = \"/fsx-wav2vec/wnhsu/data/data2vec2/data/text/GLUE_chr\"\n    tgt_splits = [\n        \"CoLA-bin/input0/train\",\n        \"CoLA-bin/input0/valid\",\n        \"CoLA-bin/input0/test\",\n\n        \"MNLI-bin/input0/train\",\n        \"MNLI-bin/input0/valid\",\n        \"MNLI-bin/input0/test\",\n        \"MNLI-bin/input0/test1\",\n        \"MNLI-bin/input1/train\",\n        \"MNLI-bin/input1/valid\",\n        \"MNLI-bin/input1/test\",\n        \"MNLI-bin/input1/test1\",\n\n        \"MRPC-bin/input0/train\",\n        \"MRPC-bin/input0/valid\",\n        \"MRPC-bin/input0/test\",\n        \"MRPC-bin/input1/train\",\n        \"MRPC-bin/input1/valid\",\n        \"MRPC-bin/input1/test\",\n\n        \"QNLI-bin/input0/train\",\n        \"QNLI-bin/input0/valid\",\n        \"QNLI-bin/input0/test\",\n        \"QNLI-bin/input1/train\",\n        \"QNLI-bin/input1/valid\",\n        \"QNLI-bin/input1/test\",\n\n        \"QQP-bin/input0/train\",\n        \"QQP-bin/input0/valid\",\n        \"QQP-bin/input0/test\",\n        \"QQP-bin/input1/train\",\n        \"QQP-bin/input1/valid\",\n        \"QQP-bin/input1/test\",\n\n        \"RTE-bin/input0/train\",\n        \"RTE-bin/input0/valid\",\n        \"RTE-bin/input0/test\",\n        \"RTE-bin/input1/train\",\n        \"RTE-bin/input1/valid\",\n        \"RTE-bin/input1/test\",\n\n        \"SST-2-bin/input0/train\",\n        \"SST-2-bin/input0/valid\",\n        \"SST-2-bin/input0/test\",\n\n        \"STS-B-bin/input0/train\",\n        \"STS-B-bin/input0/valid\",\n        \"STS-B-bin/input0/test\",\n        \"STS-B-bin/input1/train\",\n        \"STS-B-bin/input1/valid\",\n        \"STS-B-bin/input1/test\",\n    ]\n    _main(src_root, src_dict_path, src_bpe_path, src_splits, tgt_root, tgt_splits)\n\n\nif __name__ == \"__main__\":\n    main_pt()\n    main_ft()\n"
  },
  {
    "path": "examples/data2vec/scripts/text/valids.py",
    "content": "import os, argparse, re, json, copy, math\nfrom collections import OrderedDict\nimport numpy as np\n\nparser = argparse.ArgumentParser(description='Process some integers.')\nparser.add_argument('base', help='base log path')\nparser.add_argument('--file_name', default='train.log', help='the log file name')\nparser.add_argument('--target', default='valid_loss', help='target metric')\nparser.add_argument('--last', type=int, default=999999999, help='print last n matches')\nparser.add_argument('--last_files', type=int, default=None, help='print last x files')\nparser.add_argument('--everything', action='store_true', help='print everything instead of only last match')\nparser.add_argument('--path_contains', help='only consider matching file pattern')\nparser.add_argument('--group_on', help='if set, groups by this metric and shows table of differences')\nparser.add_argument('--epoch', help='epoch for comparison', type=int)\nparser.add_argument('--skip_empty', action='store_true', help='skip empty results')\nparser.add_argument('--skip_containing', help='skips entries containing this attribute')\nparser.add_argument('--unique_epochs', action='store_true', help='only consider the last line fore each epoch')\nparser.add_argument('--best', action='store_true', help='print the last best result')\nparser.add_argument('--avg_params', help='average these params through entire log')\nparser.add_argument('--extract_prev', help='extracts this metric from previous line')\n\nparser.add_argument('--remove_metric', help='extracts this metric from previous line')\n\nparser.add_argument('--compact', action='store_true', help='if true, just prints checkpoint <tab> best val')\nparser.add_argument('--hydra', action='store_true', help='if true, uses hydra param conventions')\n\nparser.add_argument('--best_biggest', action='store_true', help='if true, best is the biggest number, not smallest')\nparser.add_argument('--key_len', type=int, default=10, help='max length of key')\n\nparser.add_argument('--best_only', action='store_true', help='if set, only prints the best value')\nparser.add_argument('--flat', action='store_true', help='just print the best results')\n\n\ndef main(args, print_output):\n    ret = {}\n\n    entries = []\n\n    def extract_metric(s, metric):\n        try:\n            j = json.loads(s)\n        except:\n            return None\n        if args.epoch is not None and ('epoch' not in j or j['epoch'] != args.epoch):\n            return None\n        return j[metric] if metric in j else None\n\n\n    def extract_params(s):\n        s = s.replace(args.base, '', 1)\n        if args.path_contains is not None:\n            s = s.replace(args.path_contains, '', 1)\n\n        if args.hydra:\n            num_matches = re.findall(r'(?:/|__)([^/:]+):(\\d+\\.?\\d*)', s)\n            # str_matches = re.findall(r'(?:/|__)([^/:]+):([^\\.]*[^\\d\\.]+)(?:/|__)', s)\n            str_matches = re.findall(r'(?:/|__)?((?:(?!(?:\\:|__)).)+):([^\\.]*[^\\d\\.]+\\d*)(?:/|__)', s)\n            lr_matches =  re.findall(r'optimization.(lr):\\[([\\d\\.,]+)\\]', s)\n            task_matches = re.findall(r'.*/(\\d+)$', s)\n        else:\n            num_matches = re.findall(r'\\.?([^\\.]+?)(\\d+(e\\-\\d+)?(?:\\.\\d+)?)(\\.|$)', s)\n            str_matches = re.findall(r'[/\\.]([^\\.]*[^\\d\\.]+\\d*)(?=\\.)', s)\n            lr_matches = []\n            task_matches = []\n\n        cp_matches = re.findall(r'checkpoint(?:_\\d+)?_(\\d+).pt', s)\n\n        items = OrderedDict()\n        for m in str_matches:\n            if isinstance(m, tuple):\n                if 'checkpoint' not in m[0]:\n                    items[m[0]] = m[1]\n            else:\n                items[m] = ''\n\n        for m in num_matches:\n            items[m[0]] = m[1]\n\n        for m in lr_matches:\n            items[m[0]] = m[1]\n\n        for m in task_matches:\n            items[\"hydra_task\"] = m\n\n        for m in cp_matches:\n            items['checkpoint'] = m\n\n        return items\n\n    abs_best = None\n\n    sources = []\n    for root, _, files in os.walk(args.base):\n        if args.path_contains is not None and not args.path_contains in root:\n            continue\n        for f in files:\n            if f.endswith(args.file_name):\n                sources.append((root, f))\n\n    if args.last_files is not None:\n        sources = sources[-args.last_files:]\n\n    for root, file in sources:\n        with open(os.path.join(root, file), 'r') as fin:\n            found = []\n            avg = {}\n            prev = None\n            for line in fin:\n                line = line.rstrip()\n                if line.find(args.target) != -1 and (\n                        args.skip_containing is None or line.find(args.skip_containing) == -1):\n                    try:\n                        idx = line.index(\"{\")\n                        line = line[idx:]\n                        line_json = json.loads(line)\n                    except:\n                        continue\n                    if prev is not None:\n                        try:\n                            prev.update(line_json)\n                            line_json = prev\n                        except:\n                            pass\n                    if args.target in line_json:\n                        found.append(line_json)\n                if args.avg_params:\n                    avg_params = args.avg_params.split(',')\n                    for p in avg_params:\n                        m = extract_metric(line, p)\n                        if m is not None:\n                            prev_v, prev_c = avg.get(p, (0, 0))\n                            avg[p] = prev_v + float(m), prev_c + 1\n                if args.extract_prev:\n                    try:\n                        prev = json.loads(line)\n                    except:\n                        pass\n            best = None\n            if args.best:\n                curr_best = None\n                for i in range(len(found)):\n                    cand_best = found[i][args.target] if args.target in found[i] else None\n\n                    def cmp(a, b):\n                        a = float(a)\n                        b = float(b)\n                        if args.best_biggest:\n                            return a > b\n                        return a < b\n\n                    if cand_best is not None and not math.isnan(float(cand_best)) and (\n                            curr_best is None or cmp(cand_best, curr_best)):\n                        curr_best = cand_best\n                        if abs_best is None or cmp(curr_best, abs_best):\n                            abs_best = curr_best\n                        best = found[i]\n            if args.unique_epochs or args.epoch:\n                last_found = []\n                last_epoch = None\n                for i in reversed(range(len(found))):\n                    epoch = found[i]['epoch']\n                    if args.epoch and args.epoch != epoch:\n                        continue\n                    if epoch != last_epoch:\n                        last_epoch = epoch\n                        last_found.append(found[i])\n                found = list(reversed(last_found))\n\n            if len(found) == 0:\n                if print_output and (args.last_files is not None or not args.skip_empty):\n                    # print(root.split('/')[-1])\n                    print(root[len(args.base):])\n                    print('Nothing')\n            else:\n                if not print_output:\n                    ret[root[len(args.base):]] = best\n                    continue\n\n                if args.compact:\n                    # print('{}\\t{}'.format(root.split('/')[-1], curr_best))\n                    print('{}\\t{}'.format(root[len(args.base)+1:], curr_best))\n                    continue\n\n                if args.group_on is None and not args.best_only:\n                    # print(root.split('/')[-1])\n                    print(root[len(args.base):])\n                if not args.everything:\n                    if best is not None and args.group_on is None and not args.best_only and not args.flat:\n                        print(best, '(best)')\n                    if args.group_on is None and args.last and not args.best_only and not args.flat:\n                        for f in found[-args.last:]:\n                            if args.extract_prev is not None:\n                                try:\n                                    print('{}\\t{}'.format(f[args.extract_prev], f[args.target]))\n                                except Exception as e:\n                                    print('Exception!', e)\n                            else:\n                                print(f)\n                    try:\n                        metric = found[-1][args.target] if not args.best or best is None else best[args.target]\n                    except:\n                        print(found[-1])\n                        raise\n                    if metric is not None:\n                        entries.append((extract_params(root), metric))\n                else:\n                    for f in found:\n                        print(f)\n                if not args.group_on and print_output:\n                    print()\n\n            if len(avg) > 0:\n                for k, (v, c) in avg.items():\n                    print(f'{k}: {v/c}')\n\n    if args.best_only:\n        print(abs_best)\n\n    if args.flat:\n        print(\"\\t\".join(m for _, m in entries))\n\n    if args.group_on is not None:\n        by_val = OrderedDict()\n        for e, m in entries:\n            k = args.group_on\n            if k not in e:\n                m_keys = [x for x in e.keys() if x.startswith(k)]\n                if len(m_keys) == 0:\n                    val = \"False\"\n                else:\n                    assert len(m_keys) == 1\n                    k = m_keys[0]\n                    val = m_keys[0]\n            else:\n                val = e[args.group_on]\n                if val == \"\":\n                    val = \"True\"\n            scrubbed_entry = copy.deepcopy(e)\n            if k in scrubbed_entry:\n                del scrubbed_entry[k]\n            if args.remove_metric and args.remove_metric in scrubbed_entry:\n                val += '_' + scrubbed_entry[args.remove_metric]\n                del scrubbed_entry[args.remove_metric]\n            by_val.setdefault(tuple(scrubbed_entry.items()), dict())[val] = m\n        distinct_vals = set()\n        for v in by_val.values():\n            distinct_vals.update(v.keys())\n        try:\n            distinct_vals = {int(d) for d in distinct_vals}\n        except:\n            print(distinct_vals)\n            print()\n            print(\"by_val\", len(by_val))\n            for k,v in by_val.items():\n                print(k, '=>', v)\n            print()\n\n            # , by_val, entries)\n            raise\n        from natsort import natsorted\n        svals = list(map(str, natsorted(distinct_vals)))\n        print('{}\\t{}'.format(args.group_on, '\\t'.join(svals)))\n        sums = OrderedDict({n:[] for n in svals})\n        for k, v in by_val.items():\n            kstr = '.'.join(':'.join(x) for x in k)\n            vstr = ''\n            for mv in svals:\n                x = v[mv] if mv in v else ''\n                vstr += '\\t{}'.format(round(x, 5) if isinstance(x, float) else x)\n                try:\n                    sums[mv].append(float(x))\n                except:\n                    pass\n            print('{}{}'.format(kstr[:args.key_len], vstr))\n        if any(len(x) > 0 for x in sums.values()):\n            print('min:', end='')\n            for v in sums.values():\n                min = np.min(v)\n                print(f'\\t{round(min, 5)}', end='')\n            print()\n            print('max:', end='')\n            for v in sums.values():\n                max = np.max(v)\n                print(f'\\t{round(max, 5)}', end='')\n            print()\n            print('avg:', end='')\n            for v in sums.values():\n                mean = np.mean(v)\n                print(f'\\t{round(mean, 5)}', end='')\n            print()\n            print('median:', end='')\n            for v in sums.values():\n                median = np.median(v)\n                print(f'\\t{round(median, 5)}', end='')\n            print()\n\n    return ret\n\nif __name__ == \"__main__\":\n    args = parser.parse_args()\n    main(args, print_output=True)"
  },
  {
    "path": "examples/data2vec/tasks/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .image_pretraining import ImagePretrainingTask, ImagePretrainingConfig\nfrom .image_classification import ImageClassificationTask, ImageClassificationConfig\nfrom .mae_image_pretraining import MaeImagePretrainingTask, MaeImagePretrainingConfig\n\n\n__all__ = [\n    \"ImageClassificationTask\",\n    \"ImageClassificationConfig\",\n    \"ImagePretrainingTask\",\n    \"ImagePretrainingConfig\",\n    \"MaeImagePretrainingTask\",\n    \"MaeImagePretrainingConfig\",\n]"
  },
  {
    "path": "examples/data2vec/tasks/audio_classification.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nimport logging\nimport os\nimport numpy as np\nimport math\nimport torch\n\nfrom sklearn import metrics as sklearn_metrics\nfrom dataclasses import dataclass\n\nfrom fairseq.tasks.audio_pretraining import AudioPretrainingTask, AudioPretrainingConfig\nfrom fairseq.tasks import register_task\nfrom fairseq.logging import metrics\n\nfrom ..data.add_class_target_dataset import AddClassTargetDataset\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass AudioClassificationConfig(AudioPretrainingConfig):\n    label_descriptors: str = \"label_descriptors.csv\"\n    labels: str = \"lbl\"\n\n\n@register_task(\"audio_classification\", dataclass=AudioClassificationConfig)\nclass AudioClassificationTask(AudioPretrainingTask):\n    \"\"\" \"\"\"\n\n    cfg: AudioClassificationConfig\n\n    def __init__(\n        self,\n        cfg: AudioClassificationConfig,\n    ):\n        super().__init__(cfg)\n\n        self.state.add_factory(\"labels\", self.load_labels)\n\n    def load_labels(self):\n        labels = {}\n        path = os.path.join(self.cfg.data, self.cfg.label_descriptors)\n        with open(path, \"r\") as ldf:\n            for line in ldf:\n                if line.strip() == \"\":\n                    continue\n                items = line.split(\",\")\n                idx = items[0]\n                lbl = items[1]\n                assert lbl not in labels, lbl\n                labels[lbl] = idx\n        return labels\n\n    @property\n    def labels(self):\n        return self.state.labels\n\n    def load_dataset(\n        self, split: str, task_cfg: AudioClassificationConfig = None, **kwargs\n    ):\n        super().load_dataset(split, task_cfg, **kwargs)\n\n        task_cfg = task_cfg or self.cfg\n\n        data_path = self.cfg.data\n        label_path = os.path.join(data_path, f\"{split}.{task_cfg.labels}\")\n        skipped_indices = getattr(self.datasets[split], \"skipped_indices\", set())\n        labels = []\n        with open(label_path, \"r\") as f:\n            for i, line in enumerate(f):\n                if i not in skipped_indices:\n                    lbl_items = line.rstrip().split(\"\\t\")\n                    labels.append([int(x) for x in lbl_items[2].split(\",\")])\n\n        assert len(labels) == len(self.datasets[split]), (\n            f\"labels length ({len(labels)}) and dataset length \"\n            f\"({len(self.datasets[split])}) do not match\"\n        )\n\n        self.datasets[split] = AddClassTargetDataset(\n            self.datasets[split],\n            labels,\n            multi_class=True,\n            add_to_input=True,\n            num_classes=len(self.labels),\n        )\n\n    def calculate_stats(self, output, target):\n\n        classes_num = target.shape[-1]\n        stats = []\n\n        # Accuracy, only used for single-label classification such as esc-50, not for multiple label one such as AudioSet\n        # acc = sklearn_metrics.accuracy_score(np.argmax(target, 1), np.argmax(output, 1))\n\n        # Class-wise statistics\n        for k in range(classes_num):\n            # Average precision\n            avg_precision = sklearn_metrics.average_precision_score(\n                target[:, k], output[:, k], average=None\n            )\n\n            dict = {\n                \"AP\": avg_precision,\n            }\n\n            # # AUC\n            # try:\n            #     auc = sklearn_metrics.roc_auc_score(target[:, k], output[:, k], average=None)\n            # except:\n            #     auc = 0\n            #\n            # # Precisions, recalls\n            # (precisions, recalls, thresholds) = sklearn_metrics.precision_recall_curve(\n            #     target[:, k], output[:, k]\n            # )\n            #\n            # # FPR, TPR\n            # (fpr, tpr, thresholds) = sklearn_metrics.roc_curve(target[:, k], output[:, k])\n            #\n            # save_every_steps = 1000  # Sample statistics to reduce size\n            # dict = {\n            #     \"precisions\": precisions[0::save_every_steps],\n            #     \"recalls\": recalls[0::save_every_steps],\n            #     \"AP\": avg_precision,\n            #     \"fpr\": fpr[0::save_every_steps],\n            #     \"fnr\": 1.0 - tpr[0::save_every_steps],\n            #     \"auc\": auc,\n            #     # note acc is not class-wise, this is just to keep consistent with other metrics\n            #     \"acc\": acc,\n            # }\n            stats.append(dict)\n\n        return stats\n\n    def valid_step(self, sample, model, criterion):\n        loss, sample_size, logging_output = super().valid_step(sample, model, criterion)\n        return loss, sample_size, logging_output\n\n    def reduce_metrics(self, logging_outputs, criterion):\n        super().reduce_metrics(logging_outputs, criterion)\n        if \"_predictions\" in logging_outputs[0]:\n            metrics.log_concat_tensor(\n                \"_predictions\",\n                torch.cat([l[\"_predictions\"].cpu() for l in logging_outputs], dim=0),\n            )\n            metrics.log_concat_tensor(\n                \"_targets\",\n                torch.cat([l[\"_targets\"].cpu() for l in logging_outputs], dim=0),\n            )\n\n            def compute_stats(meters):\n                if meters[\"_predictions\"].tensor.shape[0] < 100:\n                    return 0\n                stats = self.calculate_stats(\n                    meters[\"_predictions\"].tensor, meters[\"_targets\"].tensor\n                )\n                return np.nanmean([stat[\"AP\"] for stat in stats])\n\n            metrics.log_derived(\"mAP\", compute_stats)\n"
  },
  {
    "path": "examples/data2vec/tasks/image_classification.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nimport os.path as osp\nimport logging\n\nfrom dataclasses import dataclass\nimport torch\nfrom torchvision import transforms\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.tasks import register_task\nfrom fairseq.logging import metrics\n\ntry:\n    from ..data import ImageDataset\nexcept:\n    import sys\n\n    sys.path.append(\"..\")\n    from data import ImageDataset\n\nfrom .image_pretraining import (\n    ImagePretrainingConfig,\n    ImagePretrainingTask,\n    IMG_EXTENSIONS,\n)\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass ImageClassificationConfig(ImagePretrainingConfig):\n    pass\n\n\n@register_task(\"image_classification\", dataclass=ImageClassificationConfig)\nclass ImageClassificationTask(ImagePretrainingTask):\n\n    cfg: ImageClassificationConfig\n\n    @classmethod\n    def setup_task(cls, cfg: ImageClassificationConfig, **kwargs):\n        return cls(cfg)\n\n    def load_dataset(self, split: str, task_cfg: FairseqDataclass = None, **kwargs):\n        data_path = self.cfg.data\n        cfg = task_cfg or self.cfg\n\n        path_with_split = osp.join(data_path, split)\n        if osp.exists(path_with_split):\n            data_path = path_with_split\n\n        from timm.data import create_transform\n\n        if split == \"train\":\n            # this should always dispatch to transforms_imagenet_train\n            transform = create_transform(\n                input_size=cfg.input_size,\n                is_training=True,\n                auto_augment=\"rand-m9-mstd0.5-inc1\",\n                interpolation=\"bicubic\",\n                re_prob=0.25,\n                re_mode=\"pixel\",\n                re_count=1,\n                mean=cfg.normalization_mean,\n                std=cfg.normalization_std,\n            )\n            if not cfg.input_size > 32:\n                transform.transforms[0] = transforms.RandomCrop(\n                    cfg.input_size, padding=4\n                )\n        else:\n            t = []\n            if cfg.input_size > 32:\n                crop_pct = 1\n                if cfg.input_size < 384:\n                    crop_pct = 224 / 256\n                size = int(cfg.input_size / crop_pct)\n                t.append(\n                    transforms.Resize(\n                        size, interpolation=3\n                    ),  # to maintain same ratio w.r.t. 224 images\n                )\n                t.append(transforms.CenterCrop(cfg.input_size))\n\n            t.append(transforms.ToTensor())\n            t.append(\n                transforms.Normalize(cfg.normalization_mean, cfg.normalization_std)\n            )\n            transform = transforms.Compose(t)\n            logger.info(transform)\n\n        self.datasets[split] = ImageDataset(\n            root=data_path,\n            extensions=IMG_EXTENSIONS,\n            load_classes=True,\n            transform=transform,\n        )\n        for k in self.datasets.keys():\n            if k != split:\n                assert self.datasets[k].classes == self.datasets[split].classes\n\n    def build_model(self, model_cfg: FairseqDataclass, from_checkpoint=False):\n        model = super().build_model(model_cfg, from_checkpoint)\n\n        actualized_cfg = getattr(model, \"cfg\", None)\n        if actualized_cfg is not None:\n            if hasattr(actualized_cfg, \"pretrained_model_args\"):\n                model_cfg.pretrained_model_args = actualized_cfg.pretrained_model_args\n\n        return model\n\n    def reduce_metrics(self, logging_outputs, criterion):\n        super().reduce_metrics(logging_outputs, criterion)\n\n        if \"correct\" in logging_outputs[0]:\n            zero = torch.scalar_tensor(0.0)\n            correct = sum(log.get(\"correct\", zero) for log in logging_outputs)\n            metrics.log_scalar_sum(\"_correct\", correct)\n\n            metrics.log_derived(\n                \"accuracy\",\n                lambda meters: 100 * meters[\"_correct\"].sum / meters[\"sample_size\"].sum,\n            )\n"
  },
  {
    "path": "examples/data2vec/tasks/image_pretraining.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nimport logging\nimport sys\nimport os.path as osp\n\nfrom dataclasses import dataclass, field\nfrom typing import List\nfrom omegaconf import MISSING\n\nimport torch\nfrom torchvision import transforms\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.tasks import FairseqTask, register_task\n\ntry:\n    from ..data import ImageDataset\nexcept:\n    sys.path.append(\"..\")\n    from data import ImageDataset\n\nlogger = logging.getLogger(__name__)\n\nIMG_EXTENSIONS = {\n    \".jpg\",\n    \".jpeg\",\n    \".png\",\n    \".ppm\",\n    \".bmp\",\n    \".pgm\",\n    \".tif\",\n    \".tiff\",\n    \".webp\",\n}\n\n\n@dataclass\nclass ImagePretrainingConfig(FairseqDataclass):\n    data: str = field(default=MISSING, metadata={\"help\": \"path to data directory\"})\n    input_size: int = 224\n    normalization_mean: List[float] = (0.485, 0.456, 0.406)\n    normalization_std: List[float] = (0.229, 0.224, 0.225)\n\n\n@register_task(\"image_pretraining\", dataclass=ImagePretrainingConfig)\nclass ImagePretrainingTask(FairseqTask):\n    \"\"\" \"\"\"\n\n    cfg: ImagePretrainingConfig\n\n    @classmethod\n    def setup_task(cls, cfg: ImagePretrainingConfig, **kwargs):\n        \"\"\"Setup the task (e.g., load dictionaries).\n\n        Args:\n            cfg (AudioPretrainingConfig): configuration of this task\n        \"\"\"\n\n        return cls(cfg)\n\n    def load_dataset(self, split: str, task_cfg: FairseqDataclass = None, **kwargs):\n        data_path = self.cfg.data\n        cfg = task_cfg or self.cfg\n\n        path_with_split = osp.join(data_path, split)\n        if osp.exists(path_with_split):\n            data_path = path_with_split\n\n        transform = transforms.Compose(\n            [\n                transforms.ColorJitter(0.4, 0.4, 0.4),\n                transforms.RandomHorizontalFlip(p=0.5),\n                transforms.RandomResizedCrop(\n                    size=cfg.input_size,\n                    interpolation=transforms.InterpolationMode.BICUBIC,\n                ),\n                transforms.ToTensor(),\n                transforms.Normalize(\n                    mean=torch.tensor(cfg.normalization_mean),\n                    std=torch.tensor(cfg.normalization_std),\n                ),\n            ]\n        )\n\n        logger.info(transform)\n\n        self.datasets[split] = ImageDataset(\n            root=data_path,\n            extensions=IMG_EXTENSIONS,\n            load_classes=False,\n            transform=transform,\n        )\n\n    @property\n    def source_dictionary(self):\n        return None\n\n    @property\n    def target_dictionary(self):\n        return None\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return sys.maxsize, sys.maxsize\n"
  },
  {
    "path": "examples/data2vec/tasks/mae_image_classification.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nimport logging\nimport sys\nimport torch\n\nfrom typing import Optional\nfrom dataclasses import dataclass, field\nfrom omegaconf import MISSING\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.tasks import FairseqTask, register_task\nfrom fairseq.logging import metrics\n\ntry:\n    from ..data import MaeFinetuningImageDataset\nexcept:\n    sys.path.append(\"..\")\n    from data import MaeFinetuningImageDataset\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass MaeImageClassificationConfig(FairseqDataclass):\n    data: str = field(default=MISSING, metadata={\"help\": \"path to data directory\"})\n    input_size: int = 224\n    local_cache_path: Optional[str] = None\n\n    rebuild_batches: bool = True\n\n\n@register_task(\"mae_image_classification\", dataclass=MaeImageClassificationConfig)\nclass MaeImageClassificationTask(FairseqTask):\n    \"\"\" \"\"\"\n\n    cfg: MaeImageClassificationConfig\n\n    @classmethod\n    def setup_task(cls, cfg: MaeImageClassificationConfig, **kwargs):\n        \"\"\"Setup the task (e.g., load dictionaries).\n\n        Args:\n            cfg (AudioPretrainingConfig): configuration of this task\n        \"\"\"\n\n        return cls(cfg)\n\n    def load_dataset(self, split: str, task_cfg: FairseqDataclass = None, **kwargs):\n        data_path = self.cfg.data\n        cfg = task_cfg or self.cfg\n\n        self.datasets[split] = MaeFinetuningImageDataset(\n            root=data_path,\n            split=split,\n            is_train=split == \"train\",\n            input_size=cfg.input_size,\n            local_cache_path=cfg.local_cache_path,\n            shuffle=split == \"train\",\n        )\n\n    def build_model(self, model_cfg: FairseqDataclass, from_checkpoint=False):\n        model = super().build_model(model_cfg, from_checkpoint)\n\n        actualized_cfg = getattr(model, \"cfg\", None)\n        if actualized_cfg is not None:\n            if hasattr(actualized_cfg, \"pretrained_model_args\"):\n                model_cfg.pretrained_model_args = actualized_cfg.pretrained_model_args\n\n        return model\n\n    def reduce_metrics(self, logging_outputs, criterion):\n        super().reduce_metrics(logging_outputs, criterion)\n\n        if \"correct\" in logging_outputs[0]:\n            zero = torch.scalar_tensor(0.0)\n            correct = sum(log.get(\"correct\", zero) for log in logging_outputs)\n            metrics.log_scalar_sum(\"_correct\", correct)\n\n            metrics.log_derived(\n                \"accuracy\",\n                lambda meters: 100 * meters[\"_correct\"].sum / meters[\"sample_size\"].sum,\n            )\n\n    @property\n    def source_dictionary(self):\n        return None\n\n    @property\n    def target_dictionary(self):\n        return None\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return sys.maxsize, sys.maxsize\n"
  },
  {
    "path": "examples/data2vec/tasks/mae_image_pretraining.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nimport logging\nimport sys\n\nfrom typing import Optional, List\nfrom dataclasses import dataclass, field\nfrom omegaconf import MISSING, II\n\nfrom fairseq.data import SubsampleDataset\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.tasks import FairseqTask, register_task\n\ntry:\n    from ..data import MaeImageDataset\nexcept:\n    sys.path.append(\"..\")\n    from data import MaeImageDataset\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass ImageMaskingConfig:\n    patch_size: int = II(\"model.modalities.image.patch_size\")\n    mask_prob: float = II(\"model.modalities.image.mask_prob\")\n    mask_prob_adjust: float = II(\"model.modalities.image.mask_prob_adjust\")\n    mask_length: int = II(\"model.modalities.image.mask_length\")\n    inverse_mask: bool = II(\"model.modalities.image.inverse_mask\")\n    mask_dropout: float = II(\"model.modalities.image.mask_dropout\")\n    clone_batch: int = II(\"model.clone_batch\")\n    expand_adjacent: bool = False\n    non_overlapping: bool = False\n\n\n@dataclass\nclass MaeImagePretrainingConfig(FairseqDataclass):\n    data: str = field(default=MISSING, metadata={\"help\": \"path to data directory\"})\n    multi_data: Optional[List[str]] = None\n    input_size: int = 224\n    local_cache_path: Optional[str] = None\n    key: str = \"imgs\"\n\n    beit_transforms: bool = False\n    target_transform: bool = False\n    no_transform: bool = False\n\n    rebuild_batches: bool = True\n\n    precompute_mask_config: Optional[ImageMaskingConfig] = None\n\n    subsample: float = 1\n    seed: int = II(\"common.seed\")\n    dataset_type: str = \"imagefolder\"\n\n\n@register_task(\"mae_image_pretraining\", dataclass=MaeImagePretrainingConfig)\nclass MaeImagePretrainingTask(FairseqTask):\n    \"\"\" \"\"\"\n\n    cfg: MaeImagePretrainingConfig\n\n    @classmethod\n    def setup_task(cls, cfg: MaeImagePretrainingConfig, **kwargs):\n        \"\"\"Setup the task (e.g., load dictionaries).\n\n        Args:\n            cfg (AudioPretrainingConfig): configuration of this task\n        \"\"\"\n\n        return cls(cfg)\n\n    def load_dataset(self, split: str, task_cfg: FairseqDataclass = None, **kwargs):\n        data_path = self.cfg.data\n        cfg = task_cfg or self.cfg\n\n        compute_mask = cfg.precompute_mask_config is not None\n        mask_args = {}\n        if compute_mask:\n            mask_args = cfg.precompute_mask_config\n\n        self.datasets[split] = MaeImageDataset(\n            root=data_path if cfg.multi_data is None else cfg.multi_data,\n            split=split,\n            input_size=cfg.input_size,\n            local_cache_path=cfg.local_cache_path,\n            key=cfg.key,\n            beit_transforms=cfg.beit_transforms,\n            target_transform=cfg.target_transform,\n            no_transform=cfg.no_transform,\n            compute_mask=compute_mask,\n            dataset_type=cfg.dataset_type,\n            **mask_args,\n        )\n\n        if cfg.subsample < 1:\n            self.datasets[split] = SubsampleDataset(\n                self.datasets[split],\n                cfg.subsample,\n                shuffle=True,\n                seed=cfg.seed,\n            )\n\n    @property\n    def source_dictionary(self):\n        return None\n\n    @property\n    def target_dictionary(self):\n        return None\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return sys.maxsize, sys.maxsize\n"
  },
  {
    "path": "examples/data2vec/tasks/multimodal.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nimport sys\n\nfrom dataclasses import dataclass\nfrom typing import Optional, List\nfrom omegaconf import II\n\nfrom fairseq.data.iterators import GroupedEpochBatchIterator\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.tasks import FairseqTask, register_task\nfrom fairseq.tasks.audio_pretraining import AudioPretrainingConfig, AudioPretrainingTask\nfrom fairseq.tasks.masked_lm import MaskedLMConfig, MaskedLMTask\nfrom .mae_image_pretraining import MaeImagePretrainingConfig, MaeImagePretrainingTask\nfrom examples.data2vec.data.modality import Modality\n\nfrom fairseq.data.audio.multi_modality_dataset import (\n    MultiModalityDataset,\n    ModalityDatasetItem,\n)\n\n\n@dataclass\nclass MultimodalPretrainingConfig(FairseqDataclass):\n    audio: Optional[AudioPretrainingConfig] = None\n    image: Optional[MaeImagePretrainingConfig] = None\n    text: Optional[MaskedLMConfig] = None\n\n    audio_ratio: float = 1\n    image_ratio: float = 1\n    text_ratio: float = 1\n\n    max_tokens: Optional[int] = II(\"dataset.max_tokens\")\n    batch_size: Optional[int] = II(\"dataset.batch_size\")\n    update_freq: List[int] = II(\"optimization.update_freq\")\n\n    rebuild_batches: bool = True\n\n\n@register_task(\"multimodal_pretraining\", dataclass=MultimodalPretrainingConfig)\nclass MultimodalPretrainingTask(FairseqTask):\n    \"\"\" \"\"\"\n\n    cfg: MultimodalPretrainingConfig\n\n    def __init__(self, cfg: MultimodalPretrainingConfig):\n        super().__init__(cfg)\n        self.audio_task = (\n            AudioPretrainingTask(cfg.audio) if cfg.audio is not None else None\n        )\n        self.image_task = (\n            MaeImagePretrainingTask(cfg.image) if cfg.image is not None else None\n        )\n        self.text_task = MaskedLMTask(cfg.text) if cfg.text is not None else None\n\n        self.mult_ratios = []\n\n    @classmethod\n    def setup_task(cls, cfg: MultimodalPretrainingConfig, **kwargs):\n        \"\"\"Setup the task (e.g., load dictionaries).\n\n        Args:\n            cfg (AudioPretrainingConfig): configuration of this task\n        \"\"\"\n\n        return cls(cfg)\n\n    def load_dataset(self, split: str, task_cfg: FairseqDataclass = None, **kwargs):\n        datasets = []\n        self.mult_ratios = []\n\n        def load_ds(task, name, ratio):\n            if task is not None:\n                task.load_dataset(split)\n                ds = ModalityDatasetItem(\n                    datasetname=name,\n                    dataset=task.dataset(split),\n                    max_positions=task.max_positions(),\n                    max_tokens=self.cfg.max_tokens,\n                    max_sentences=self.cfg.batch_size,\n                )\n                datasets.append(ds)\n                self.mult_ratios.append(ratio)\n\n        load_ds(self.audio_task, Modality.AUDIO, self.cfg.audio_ratio)\n        load_ds(self.image_task, Modality.IMAGE, self.cfg.image_ratio)\n        load_ds(self.text_task, Modality.TEXT, self.cfg.text_ratio)\n\n        assert len(datasets) > 0\n\n        self.datasets[split] = MultiModalityDataset(datasets)\n\n    @property\n    def supported_modalities(self):\n        modalities = []\n        if self.cfg.text is not None:\n            modalities.append(Modality.TEXT)\n        if self.cfg.audio is not None:\n            modalities.append(Modality.AUDIO)\n        if self.cfg.image is not None:\n            modalities.append(Modality.IMAGE)\n\n        return modalities\n\n    def get_batch_iterator(\n        self,\n        dataset,\n        max_tokens=None,\n        max_sentences=None,\n        max_positions=None,\n        ignore_invalid_inputs=False,\n        required_batch_size_multiple=1,\n        seed=1,\n        num_shards=1,\n        shard_id=0,\n        num_workers=0,\n        epoch=0,\n        data_buffer_size=0,\n        disable_iterator_cache=False,\n        skip_remainder_batch=False,\n        grouped_shuffling=False,\n        update_epoch_batch_itr=False,\n    ):\n\n        # initialize the dataset with the correct starting epoch\n        dataset.set_epoch(epoch)\n\n        batch_samplers = dataset.get_batch_samplers(\n            self.mult_ratios, required_batch_size_multiple, seed\n        )\n\n        # return a reusable, sharded iterator\n        epoch_iter = GroupedEpochBatchIterator(\n            dataset=dataset,\n            collate_fn=dataset.collater,\n            batch_samplers=batch_samplers,\n            seed=seed,\n            num_shards=num_shards,\n            shard_id=shard_id,\n            num_workers=num_workers,\n            epoch=epoch,\n            mult_rate=max(self.cfg.update_freq),\n            buffer_size=data_buffer_size,\n            skip_remainder_batch=skip_remainder_batch,\n        )\n        self.dataset_to_epoch_iter[dataset] = {}  # refresh it every epoch\n        return epoch_iter\n\n    @property\n    def source_dictionary(self):\n        return None\n\n    @property\n    def target_dictionary(self):\n        return None\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return sys.maxsize, sys.maxsize\n"
  },
  {
    "path": "examples/discriminative_reranking_nmt/README.md",
    "content": "# Discriminative Reranking for Neural Machine Translation\nhttps://aclanthology.org/2021.acl-long.563/\n\nThis folder contains source code for training DrNMT, a discriminatively trained reranker for neural machine translation.\n\n## Data preparation\n1. Follow the instructions under `examples/translation` to build a base MT model. Prepare three files, one with source sentences, one with ground truth target sentences, and one with hypotheses generated from the base MT model. Each line in the file contains one sentence in raw text (i.e. no sentencepiece, etc.). Below is an example of the files with _N_ hypotheses for each source sentence.\n\n```\n# Example of the source sentence file: (The file should contain L lines.)\n\nsource_sentence_1\nsource_sentence_2\nsource_sentence_3\n...\nsource_sentence_L\n\n# Example of the target sentence file: (The file should contain L lines.)\n\ntarget_sentence_1\ntarget_sentence_2\ntarget_sentence_3\n...\ntarget_sentence_L\n\n# Example of the hypotheses file: (The file should contain L*N lines.)\n\nsource_sentence_1_hypo_1\nsource_sentence_1_hypo_2\n...\nsource_sentence_1_hypo_N\nsource_sentence_2_hypo_1\n...\nsource_sentence_2_hypo_N\n...\nsource_sentence_L_hypo_1\n...\nsource_sentence_L_hypo_N\n```\n\n2. Download the [XLMR model](https://github.com/fairinternal/fairseq-py/tree/main/examples/xlmr#pre-trained-models).\n```\nwget https://dl.fbaipublicfiles.com/fairseq/models/xlmr.base.tar.gz\ntar zxvf xlmr.base.tar.gz\n\n# The folder should contain dict.txt, model.pt and sentencepiece.bpe.model.\n```\n\n3. Prepare scores and BPE data.\n* `N`: Number of hypotheses per each source sentence. We use 50 in the paper.\n* `SPLIT`: Name of the data split, i.e. train, valid, test. Use split_name, split_name1, split_name2, ..., if there are multiple datasets for a split, e.g. train, train1, valid, valid1.\n* `NUM_SHARDS`: Number of shards. Set this to 1 for non-train splits.\n* `METRIC`: The metric for DrNMT to optimize for. We support either `bleu` or `ter`.\n```\n# For each data split, e.g. train, valid, test, etc., run the following:\n\nSOURCE_FILE=/path/to/source_sentence_file\nTARGET_FILE=/path/to/target_sentence_file\nHYPO_FILE=/path/to/hypo_file\nXLMR_DIR=/path/to/xlmr\nOUTPUT_DIR=/path/to/output\n\npython scripts/prep_data.py \\\n    --input-source ${SOURCE_FILE} \\\n    --input-target ${TARGET_FILE} \\\n    --input-hypo ${HYPO_FILE} \\\n    --output-dir ${OUTPUT_DIR} \\\n    --split $SPLIT\n    --beam $N \\\n    --sentencepiece-model ${XLMR_DIR}/sentencepiece.bpe.model \\\n    --metric $METRIC \\\n    --num-shards ${NUM_SHARDS}\n\n# The script will create ${OUTPUT_DIR}/$METRIC with ${NUM_SHARDS} splits.\n# Under split*/input_src, split*/input_tgt and split*/$METRIC, there will be $SPLIT.bpe and $SPLIT.$METRIC files, respectively.\n\n```\n\n4. Pre-process the data into fairseq format.\n```\n# use comma to separate if there are more than one train or valid set\nfor suffix in src tgt ; do\n    fairseq-preprocess --only-source \\\n        --trainpref ${OUTPUT_DIR}/$METRIC/split1/input_${suffix}/train.bpe \\\n        --validpref ${OUTPUT_DIR}/$METRIC/split1/input_${suffix}/valid.bpe \\\n        --destdir ${OUTPUT_DIR}/$METRIC/split1/input_${suffix} \\\n        --workers 60 \\\n        --srcdict ${XLMR_DIR}/dict.txt\ndone\n\nfor i in `seq 2 ${NUM_SHARDS}`; do\n    for suffix in src tgt ; do\n        fairseq-preprocess --only-source \\\n            --trainpref ${OUTPUT_DIR}/$METRIC/split${i}/input_${suffix}/train.bpe \\\n            --destdir ${OUTPUT_DIR}/$METRIC/split${i}/input_${suffix} \\\n            --workers 60 \\\n            --srcdict ${XLMR_DIR}/dict.txt\n\n        ln -s ${OUTPUT_DIR}/$METRIC/split1/input_${suffix}/valid* ${OUTPUT_DIR}/$METRIC/split${i}/input_${suffix}/.\n    done\n\n    ln -s ${OUTPUT_DIR}/$METRIC/split1/$METRIC/valid* ${OUTPUT_DIR}/$METRIC/split${i}/$METRIC/.\ndone\n```\n\n## Training\n\n```\nEXP_DIR=/path/to/exp\n\n# An example of training the model with the config for De-En experiment in the paper.\n# The config uses 16 GPUs and 50 hypotheses.\n# For training with fewer number of GPUs, set\n# distributed_training.distributed_world_size=k +optimization.update_freq='[x]' where x = 16/k\n# For training with fewer number of hypotheses, set\n# task.mt_beam=N dataset.batch_size=N dataset.required_batch_size_multiple=N\n\nfairseq-hydra-train -m \\\n    --config-dir config/ --config-name deen \\\n    task.data=${OUTPUT_DIR}/$METRIC/split1/ \\\n    task.num_data_splits=${NUM_SHARDS} \\\n    model.pretrained_model=${XLMR_DIR}/model.pt \\\n    common.user_dir=${FAIRSEQ_ROOT}/examples/discriminative_reranking_nmt \\\n    checkpoint.save_dir=${EXP_DIR}\n\n```\n\n## Inference & scoring\nPerform DrNMT reranking (fw + reranker score)\n1. Tune weights on valid sets.\n```\n# genrate N hypotheses with the base MT model (fw score)\nVALID_SOURCE_FILE=/path/to/source_sentences # one sentence per line, converted to the sentencepiece used by the base MT model\nVALID_TARGET_FILE=/path/to/target_sentences # one sentence per line in raw text, i.e. no sentencepiece and tokenization\nMT_MODEL=/path/to/mt_model\nMT_DATA_PATH=/path/to/mt_data\n\ncat ${VALID_SOURCE_FILE} | \\\n    fairseq-interactive ${MT_DATA_PATH} \\\n    --max-tokens 4000 --buffer-size 16 \\\n    --num-workers 32 --path ${MT_MODEL} \\\n    --beam $N --nbest $N \\\n    --post-process sentencepiece &> valid-hypo.out\n\n# replace \"bleu\" with \"ter\" to optimize for TER\npython drnmt_rerank.py \\\n    ${OUTPUT_DIR}/$METRIC/split1/ \\\n    --path ${EXP_DIR}/checkpoint_best.pt \\\n    --in-text valid-hypo.out \\\n    --results-path ${EXP_DIR} \\\n    --gen-subset valid \\\n    --target-text ${VALID_TARGET_FILE} \\\n    --user-dir ${FAIRSEQ_ROOT}/examples/discriminative_reranking_nmt \\\n    --bpe sentencepiece \\\n    --sentencepiece-model ${XLMR_DIR}/sentencepiece.bpe.model \\\n    --beam $N \\\n    --batch-size $N \\\n    --metric bleu \\\n    --tune\n\n```\n\n2. Apply best weights on test sets\n```\n# genrate N hypotheses with the base MT model (fw score)\nTEST_SOURCE_FILE=/path/to/source_sentences  # one sentence per line, converted to the sentencepiece used by the base MT model\n\ncat ${TEST_SOURCE_FILE} | \\\n    fairseq-interactive ${MT_DATA_PATH} \\\n    --max-tokens 4000 --buffer-size 16 \\\n    --num-workers 32 --path ${MT_MODEL} \\\n    --beam $N --nbest $N \\\n    --post-process sentencepiece &> test-hypo.out\n\n# replace \"bleu\" with \"ter\" to evaluate TER\n# Add --target-text for evaluating BLEU/TER,\n# otherwise the script will only generate the hypotheses with the highest scores only.\npython drnmt_rerank.py \\\n    ${OUTPUT_DIR}/$METRIC/split1/ \\\n    --path ${EXP_DIR}/checkpoint_best.pt \\\n    --in-text test-hypo.out \\\n    --results-path ${EXP_DIR} \\\n    --gen-subset test \\\n    --user-dir ${FAIRSEQ_ROOT}/examples/discriminative_reranking_nmt \\\n    --bpe sentencepiece \\\n    --sentencepiece-model ${XLMR_DIR}/sentencepiece.bpe.model \\\n    --beam $N \\\n    --batch-size $N \\\n    --metric bleu \\\n    --fw-weight ${BEST_FW_WEIGHT} \\\n    --lenpen ${BEST_LENPEN}\n```\n\n## Citation\n```bibtex\n@inproceedings{lee2021discriminative,\n  title={Discriminative Reranking for Neural Machine Translation},\n  author={Lee, Ann and Auli, Michael and Ranzato, Marc'Aurelio},\n  booktitle={ACL},\n  year={2021}\n}\n```\n"
  },
  {
    "path": "examples/discriminative_reranking_nmt/__init__.py",
    "content": "from . import criterions, models, tasks  # noqa\n"
  },
  {
    "path": "examples/discriminative_reranking_nmt/config/deen.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 50\n  seed: 2\n\ncheckpoint:\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: bleu\n  maximize_best_checkpoint_metric: true\n\ntask:\n  _name: discriminative_reranking_nmt\n  data: ???\n  num_data_splits: ???\n  include_src: true\n  mt_beam: 50\n  eval_target_metric: true\n  target_metric: bleu\n\ndataset:\n  batch_size: 50\n  num_workers: 6\n  required_batch_size_multiple: 50\n  valid_subset: ???\n\ncriterion:\n  _name: kl_divergence_rereanking\n  target_dist_norm: minmax\n  temperature: 0.5\n\noptimization:\n  max_epoch: 200\n  lr: [0.00005]\n  update_freq: [32]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 8000\n  total_num_update: 320000\n\nmodel:\n  _name: discriminative_nmt_reranker\n  pretrained_model: ???\n  classifier_dropout: 0.2\n\ndistributed_training:\n  ddp_backend: no_c10d\n  distributed_world_size: 16\n"
  },
  {
    "path": "examples/discriminative_reranking_nmt/criterions/__init__.py",
    "content": "from .discriminative_reranking_criterion import KLDivergenceRerankingCriterion\n\n\n__all__ = [\n    \"KLDivergenceRerankingCriterion\",\n]\n"
  },
  {
    "path": "examples/discriminative_reranking_nmt/criterions/discriminative_reranking_criterion.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom dataclasses import dataclass, field\n\nimport torch\nimport torch.nn.functional as F\n\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\n\n\n_EPSILON = torch.finfo(torch.float32).eps\nTARGET_DIST_NORM_CHOICES = ChoiceEnum([\"none\", \"minmax\"])\n\n\n@dataclass\nclass KLDivergenceRerankingCriterionConfig(FairseqDataclass):\n    target_dist_norm: TARGET_DIST_NORM_CHOICES = field(\n        default=\"none\",\n        metadata={\"help\": \"method to normalize the range of target scores\"},\n    )\n    temperature: float = field(\n        default=1.0,\n        metadata={\"help\": \"temperature in softmax for target distributions\"},\n    )\n    forward_batch_size: int = field(\n        default=32,\n        metadata={\n            \"help\": \"number of hypotheses per batch for model forward (set a value smaller than --mt-beam to avoid OOM when training with a large beam size)\"\n        },\n    )\n\n\n@register_criterion(\n    \"kl_divergence_rereanking\", dataclass=KLDivergenceRerankingCriterionConfig\n)\nclass KLDivergenceRerankingCriterion(FairseqCriterion):\n    def __init__(\n        self, task, target_dist_norm, temperature, forward_batch_size,\n    ):\n        super().__init__(task)\n        self.target_dist_norm = target_dist_norm\n        self.temperature = temperature\n        self.forward_batch_size = forward_batch_size\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n\n        sample_size = sample[\"id\"].numel()\n        assert sample_size % self.task.cfg.mt_beam == 0, (\n            f\"sample_size ({sample_size}) cannot be divided by beam size ({self.task.cfg.mt_beam}).\"\n            f\"Please set --required-batch-size-multiple={self.task.cfg.mt_beam}.\"\n        )\n\n        # split into smaller batches for model forward\n        batch_out = []\n        for i in range(0, sample_size, self.forward_batch_size):\n            j = min(i + self.forward_batch_size, sample_size)\n\n            out = model(\n                src_tokens=sample[\"net_input\"][\"src_tokens\"][i:j, :],\n                src_lengths=sample[\"net_input\"][\"src_lengths\"][i:j],\n            )\n\n            batch_out.append(\n                model.sentence_forward(out, sample[\"net_input\"][\"src_tokens\"][i:j, :])\n            )\n\n        batch_out = torch.cat(batch_out, dim=0).view(\n            self.task.cfg.mt_beam, sample_size // self.task.cfg.mt_beam, -1\n        )  # T x B x C\n        if model.joint_classification == \"sent\":\n            batch_out = model.joint_forward(batch_out)\n        scores = model.classification_forward(batch_out.view(sample_size, 1, -1)).view(\n            -1, self.task.cfg.mt_beam\n        )  # input: B x T x C\n\n        loss = self.compute_kl_loss(\n            scores, sample[\"target\"][:, 0].view(-1, self.task.cfg.mt_beam)\n        )\n\n        sample_size = sample_size // self.task.cfg.mt_beam\n\n        logging_output = {\n            \"loss\": loss.detach(),\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample_size * self.task.cfg.mt_beam,\n            \"sample_size\": sample_size,\n            \"scores\": scores.detach(),\n        }\n\n        return loss, sample_size, logging_output\n\n    def compute_kl_loss(self, logits, target):\n        norm_target = target\n        if self.target_dist_norm == \"minmax\":\n            min_v = torch.min(target, 1, keepdim=True).values\n            max_v = torch.max(target, 1, keepdim=True).values\n            norm_target = (target - min_v) / (max_v - min_v + _EPSILON)\n\n        target_dist = F.softmax(\n            norm_target / self.temperature, dim=-1, dtype=torch.float32\n        )\n        model_dist = F.log_softmax(logits, dim=-1, dtype=torch.float32)\n        loss = -(target_dist * model_dist - target_dist * target_dist.log()).sum()\n        return loss\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = utils.item(sum(log.get(\"loss\", 0) for log in logging_outputs))\n\n        sample_size = utils.item(\n            sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        )\n\n        loss = loss_sum / sample_size / math.log(2)\n        metrics.log_scalar(\"loss\", loss, sample_size, round=3)\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "examples/discriminative_reranking_nmt/drnmt_rerank.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nScore raw text with a trained model.\n\"\"\"\n\nfrom collections import namedtuple\nimport logging\nfrom multiprocessing import Pool\nimport sys\nimport os\nimport random\n\nimport numpy as np\nimport sacrebleu\nimport torch\n\nfrom fairseq import checkpoint_utils, options, utils\n\n\nlogger = logging.getLogger(\"fairseq_cli.drnmt_rerank\")\nlogger.setLevel(logging.INFO)\n\nBatch = namedtuple(\"Batch\", \"ids src_tokens src_lengths\")\n\n\npool_init_variables = {}\n\n\ndef init_loaded_scores(mt_scores, model_scores, hyp, ref):\n    global pool_init_variables\n    pool_init_variables[\"mt_scores\"] = mt_scores\n    pool_init_variables[\"model_scores\"] = model_scores\n    pool_init_variables[\"hyp\"] = hyp\n    pool_init_variables[\"ref\"] = ref\n\n\ndef parse_fairseq_gen(filename, task):\n    source = {}\n    hypos = {}\n    scores = {}\n    with open(filename, \"r\", encoding=\"utf-8\") as f:\n        for line in f:\n            line = line.strip()\n            if line.startswith(\"S-\"):  # source\n                uid, text = line.split(\"\\t\", 1)\n                uid = int(uid[2:])\n                source[uid] = text\n            elif line.startswith(\"D-\"):  # hypo\n                uid, score, text = line.split(\"\\t\", 2)\n                uid = int(uid[2:])\n                if uid not in hypos:\n                    hypos[uid] = []\n                    scores[uid] = []\n                hypos[uid].append(text)\n                scores[uid].append(float(score))\n            else:\n                continue\n\n    source_out = [source[i] for i in range(len(hypos))]\n    hypos_out = [h for i in range(len(hypos)) for h in hypos[i]]\n    scores_out = [s for i in range(len(scores)) for s in scores[i]]\n\n    return source_out, hypos_out, scores_out\n\n\ndef read_target(filename):\n    with open(filename, \"r\", encoding=\"utf-8\") as f:\n        output = [line.strip() for line in f]\n    return output\n\n\ndef make_batches(args, src, hyp, task, max_positions, encode_fn):\n    assert len(src) * args.beam == len(\n        hyp\n    ), f\"Expect {len(src) * args.beam} hypotheses for {len(src)} source sentences with beam size {args.beam}. Got {len(hyp)} hypotheses intead.\"\n    hyp_encode = [\n        task.source_dictionary.encode_line(encode_fn(h), add_if_not_exist=False).long()\n        for h in hyp\n    ]\n    if task.cfg.include_src:\n        src_encode = [\n            task.source_dictionary.encode_line(\n                encode_fn(s), add_if_not_exist=False\n            ).long()\n            for s in src\n        ]\n        tokens = [(src_encode[i // args.beam], h) for i, h in enumerate(hyp_encode)]\n        lengths = [(t1.numel(), t2.numel()) for t1, t2 in tokens]\n    else:\n        tokens = [(h,) for h in hyp_encode]\n        lengths = [(h.numel(),) for h in hyp_encode]\n\n    itr = task.get_batch_iterator(\n        dataset=task.build_dataset_for_inference(tokens, lengths),\n        max_tokens=args.max_tokens,\n        max_sentences=args.batch_size,\n        max_positions=max_positions,\n        ignore_invalid_inputs=args.skip_invalid_size_inputs_valid_test,\n    ).next_epoch_itr(shuffle=False)\n\n    for batch in itr:\n        yield Batch(\n            ids=batch[\"id\"],\n            src_tokens=batch[\"net_input\"][\"src_tokens\"],\n            src_lengths=batch[\"net_input\"][\"src_lengths\"],\n        )\n\n\ndef decode_rerank_scores(args):\n    if args.max_tokens is None and args.batch_size is None:\n        args.batch_size = 1\n\n    logger.info(args)\n\n    use_cuda = torch.cuda.is_available() and not args.cpu\n\n    # Load ensemble\n    logger.info(\"loading model(s) from {}\".format(args.path))\n    models, _model_args, task = checkpoint_utils.load_model_ensemble_and_task(\n        [args.path], arg_overrides=eval(args.model_overrides),\n    )\n\n    for model in models:\n        if args.fp16:\n            model.half()\n        if use_cuda:\n            model.cuda()\n\n    # Initialize generator\n    generator = task.build_generator(args)\n\n    # Handle tokenization and BPE\n    tokenizer = task.build_tokenizer(args)\n    bpe = task.build_bpe(args)\n\n    def encode_fn(x):\n        if tokenizer is not None:\n            x = tokenizer.encode(x)\n        if bpe is not None:\n            x = bpe.encode(x)\n        return x\n\n    max_positions = utils.resolve_max_positions(\n        task.max_positions(), *[model.max_positions() for model in models]\n    )\n\n    src, hyp, mt_scores = parse_fairseq_gen(args.in_text, task)\n    model_scores = {}\n    logger.info(\"decode reranker score\")\n    for batch in make_batches(args, src, hyp, task, max_positions, encode_fn):\n        src_tokens = batch.src_tokens\n        src_lengths = batch.src_lengths\n        if use_cuda:\n            src_tokens = src_tokens.cuda()\n            src_lengths = src_lengths.cuda()\n\n        sample = {\n            \"net_input\": {\"src_tokens\": src_tokens, \"src_lengths\": src_lengths},\n        }\n        scores = task.inference_step(generator, models, sample)\n\n        for id, sc in zip(batch.ids.tolist(), scores.tolist()):\n            model_scores[id] = sc[0]\n\n    model_scores = [model_scores[i] for i in range(len(model_scores))]\n\n    return src, hyp, mt_scores, model_scores\n\n\ndef get_score(mt_s, md_s, w1, lp, tgt_len):\n    return mt_s / (tgt_len ** lp) * w1 + md_s\n\n\ndef get_best_hyps(mt_scores, md_scores, hypos, fw_weight, lenpen, beam):\n    assert len(mt_scores) == len(md_scores) and len(mt_scores) == len(hypos)\n    hypo_scores = []\n    best_hypos = []\n    best_scores = []\n    offset = 0\n    for i in range(len(hypos)):\n        tgt_len = len(hypos[i].split())\n        hypo_scores.append(\n            get_score(mt_scores[i], md_scores[i], fw_weight, lenpen, tgt_len)\n        )\n\n        if (i + 1) % beam == 0:\n            max_i = np.argmax(hypo_scores)\n            best_hypos.append(hypos[offset + max_i])\n            best_scores.append(hypo_scores[max_i])\n            hypo_scores = []\n            offset += beam\n    return best_hypos, best_scores\n\n\ndef eval_metric(args, hypos, ref):\n    if args.metric == \"bleu\":\n        score = sacrebleu.corpus_bleu(hypos, [ref]).score\n    else:\n        score = sacrebleu.corpus_ter(hypos, [ref]).score\n\n    return score\n\n\ndef score_target_hypo(args, fw_weight, lp):\n    mt_scores = pool_init_variables[\"mt_scores\"]\n    model_scores = pool_init_variables[\"model_scores\"]\n    hyp = pool_init_variables[\"hyp\"]\n    ref = pool_init_variables[\"ref\"]\n    best_hypos, _ = get_best_hyps(\n        mt_scores, model_scores, hyp, fw_weight, lp, args.beam\n    )\n    rerank_eval = None\n    if ref:\n        rerank_eval = eval_metric(args, best_hypos, ref)\n        print(f\"fw_weight {fw_weight}, lenpen {lp}, eval {rerank_eval}\")\n\n    return rerank_eval\n\n\ndef print_result(best_scores, best_hypos, output_file):\n    for i, (s, h) in enumerate(zip(best_scores, best_hypos)):\n        print(f\"{i}\\t{s}\\t{h}\", file=output_file)\n\n\ndef main(args):\n    utils.import_user_module(args)\n\n    src, hyp, mt_scores, model_scores = decode_rerank_scores(args)\n\n    assert (\n        not args.tune or args.target_text is not None\n    ), \"--target-text has to be set when tuning weights\"\n    if args.target_text:\n        ref = read_target(args.target_text)\n        assert len(src) == len(\n            ref\n        ), f\"different numbers of source and target sentences ({len(src)} vs. {len(ref)})\"\n\n        orig_best_hypos = [hyp[i] for i in range(0, len(hyp), args.beam)]\n        orig_eval = eval_metric(args, orig_best_hypos, ref)\n\n    if args.tune:\n        logger.info(\"tune weights for reranking\")\n\n        random_params = np.array(\n            [\n                [\n                    random.uniform(\n                        args.lower_bound_fw_weight, args.upper_bound_fw_weight\n                    ),\n                    random.uniform(args.lower_bound_lenpen, args.upper_bound_lenpen),\n                ]\n                for k in range(args.num_trials)\n            ]\n        )\n\n        logger.info(\"launching pool\")\n        with Pool(\n            32,\n            initializer=init_loaded_scores,\n            initargs=(mt_scores, model_scores, hyp, ref),\n        ) as p:\n            rerank_scores = p.starmap(\n                score_target_hypo,\n                [\n                    (args, random_params[i][0], random_params[i][1],)\n                    for i in range(args.num_trials)\n                ],\n            )\n        if args.metric == \"bleu\":\n            best_index = np.argmax(rerank_scores)\n        else:\n            best_index = np.argmin(rerank_scores)\n        best_fw_weight = random_params[best_index][0]\n        best_lenpen = random_params[best_index][1]\n    else:\n        assert (\n            args.lenpen is not None and args.fw_weight is not None\n        ), \"--lenpen and --fw-weight should be set\"\n        best_fw_weight, best_lenpen = args.fw_weight, args.lenpen\n\n    best_hypos, best_scores = get_best_hyps(\n        mt_scores, model_scores, hyp, best_fw_weight, best_lenpen, args.beam\n    )\n\n    if args.results_path is not None:\n        os.makedirs(args.results_path, exist_ok=True)\n        output_path = os.path.join(\n            args.results_path, \"generate-{}.txt\".format(args.gen_subset),\n        )\n        with open(output_path, \"w\", buffering=1, encoding=\"utf-8\") as o:\n            print_result(best_scores, best_hypos, o)\n    else:\n        print_result(best_scores, best_hypos, sys.stdout)\n\n    if args.target_text:\n        rerank_eval = eval_metric(args, best_hypos, ref)\n        print(f\"before reranking, {args.metric.upper()}:\", orig_eval)\n        print(\n            f\"after reranking with fw_weight={best_fw_weight}, lenpen={best_lenpen}, {args.metric.upper()}:\",\n            rerank_eval,\n        )\n\n\ndef cli_main():\n    parser = options.get_generation_parser(interactive=True)\n\n    parser.add_argument(\n        \"--in-text\",\n        default=None,\n        required=True,\n        help=\"text from fairseq-interactive output, containing source sentences and hypotheses\",\n    )\n    parser.add_argument(\"--target-text\", default=None, help=\"reference text\")\n    parser.add_argument(\"--metric\", type=str, choices=[\"bleu\", \"ter\"], default=\"bleu\")\n    parser.add_argument(\n        \"--tune\",\n        action=\"store_true\",\n        help=\"if set, tune weights on fw scores and lenpen instead of applying fixed weights for reranking\",\n    )\n    parser.add_argument(\n        \"--lower-bound-fw-weight\",\n        default=0.0,\n        type=float,\n        help=\"lower bound of search space\",\n    )\n    parser.add_argument(\n        \"--upper-bound-fw-weight\",\n        default=3,\n        type=float,\n        help=\"upper bound of search space\",\n    )\n    parser.add_argument(\n        \"--lower-bound-lenpen\",\n        default=0.0,\n        type=float,\n        help=\"lower bound of search space\",\n    )\n    parser.add_argument(\n        \"--upper-bound-lenpen\",\n        default=3,\n        type=float,\n        help=\"upper bound of search space\",\n    )\n    parser.add_argument(\n        \"--fw-weight\", type=float, default=None, help=\"weight on the fw model score\"\n    )\n    parser.add_argument(\n        \"--num-trials\",\n        default=1000,\n        type=int,\n        help=\"number of trials to do for random search\",\n    )\n\n    args = options.parse_args_and_arch(parser)\n    main(args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/discriminative_reranking_nmt/models/__init__.py",
    "content": "from .discriminative_reranking_model import DiscriminativeNMTReranker\n\n\n__all__ = [\n    \"DiscriminativeNMTReranker\",\n]\n"
  },
  {
    "path": "examples/discriminative_reranking_nmt/models/discriminative_reranking_model.py",
    "content": "from dataclasses import dataclass, field\nimport os\n\nimport torch\nimport torch.nn as nn\n\nfrom fairseq import utils\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.models import (\n    BaseFairseqModel,\n    register_model,\n)\n\nfrom fairseq.models.roberta.model import RobertaClassificationHead\n\nfrom fairseq.modules import (\n    LayerNorm,\n    TransformerSentenceEncoder,\n    TransformerSentenceEncoderLayer,\n)\n\n\nACTIVATION_FN_CHOICES = ChoiceEnum(utils.get_available_activation_fns())\nJOINT_CLASSIFICATION_CHOICES = ChoiceEnum([\"none\", \"sent\"])\nSENTENCE_REP_CHOICES = ChoiceEnum([\"head\", \"meanpool\", \"maxpool\"])\n\n\ndef update_init_roberta_model_state(state):\n    \"\"\"\n   update the state_dict of a Roberta model for initializing\n   weights of the BertRanker\n   \"\"\"\n    for k in list(state.keys()):\n        if \".lm_head.\" in k or \"version\" in k:\n            del state[k]\n            continue\n        # remove 'encoder/decoder.sentence_encoder.' from the key\n        assert k.startswith(\"encoder.sentence_encoder.\") or k.startswith(\n            \"decoder.sentence_encoder.\"\n        ), f\"Cannot recognize parameter name {k}\"\n        if \"layernorm_embedding\" in k:\n            new_k = k.replace(\".layernorm_embedding.\", \".emb_layer_norm.\")\n            state[new_k[25:]] = state[k]\n        else:\n            state[k[25:]] = state[k]\n        del state[k]\n\n\nclass BaseRanker(nn.Module):\n    def __init__(self, args, task):\n        super().__init__()\n\n        self.separator_token = task.dictionary.eos()\n        self.padding_idx = task.dictionary.pad()\n\n    def forward(self, src_tokens):\n        raise NotImplementedError\n\n    def get_segment_labels(self, src_tokens):\n        segment_boundary = (src_tokens == self.separator_token).long()\n        segment_labels = (\n            segment_boundary.cumsum(dim=1)\n            - segment_boundary\n            - (src_tokens == self.padding_idx).long()\n        )\n\n        return segment_labels\n\n    def get_positions(self, src_tokens, segment_labels):\n        segment_positions = (\n            torch.arange(src_tokens.shape[1])\n            .to(src_tokens.device)\n            .repeat(src_tokens.shape[0], 1)\n        )\n        segment_boundary = (src_tokens == self.separator_token).long()\n        _, col_idx = (segment_positions * segment_boundary).nonzero(as_tuple=True)\n        col_idx = torch.cat([torch.zeros(1).type_as(col_idx), col_idx])\n        offset = torch.cat(\n            [\n                torch.zeros(1).type_as(segment_boundary),\n                segment_boundary.sum(dim=1).cumsum(dim=0)[:-1],\n            ]\n        )\n        segment_positions -= col_idx[segment_labels + offset.unsqueeze(1)] * (\n            segment_labels != 0\n        )\n\n        padding_mask = src_tokens.ne(self.padding_idx)\n        segment_positions = (segment_positions + 1) * padding_mask.type_as(\n            segment_positions\n        ) + self.padding_idx\n\n        return segment_positions\n\n\nclass BertRanker(BaseRanker):\n    def __init__(self, args, task):\n        super(BertRanker, self).__init__(args, task)\n\n        init_model = getattr(args, \"pretrained_model\", \"\")\n        self.joint_layers = nn.ModuleList()\n        if os.path.isfile(init_model):\n            print(f\"initialize weight from {init_model}\")\n\n            from fairseq import hub_utils\n\n            x = hub_utils.from_pretrained(\n                os.path.dirname(init_model),\n                checkpoint_file=os.path.basename(init_model),\n            )\n\n            in_state_dict = x[\"models\"][0].state_dict()\n            init_args = x[\"args\"].model\n\n            num_positional_emb = init_args.max_positions + task.dictionary.pad() + 1\n\n            # follow the setup in roberta\n            self.model = TransformerSentenceEncoder(\n                padding_idx=task.dictionary.pad(),\n                vocab_size=len(task.dictionary),\n                num_encoder_layers=getattr(\n                    args, \"encoder_layers\", init_args.encoder_layers\n                ),\n                embedding_dim=init_args.encoder_embed_dim,\n                ffn_embedding_dim=init_args.encoder_ffn_embed_dim,\n                num_attention_heads=init_args.encoder_attention_heads,\n                dropout=init_args.dropout,\n                attention_dropout=init_args.attention_dropout,\n                activation_dropout=init_args.activation_dropout,\n                num_segments=2,  # add language embeddings\n                max_seq_len=num_positional_emb,\n                offset_positions_by_padding=False,\n                encoder_normalize_before=True,\n                apply_bert_init=True,\n                activation_fn=init_args.activation_fn,\n                freeze_embeddings=args.freeze_embeddings,\n                n_trans_layers_to_freeze=args.n_trans_layers_to_freeze,\n            )\n\n            # still need to learn segment embeddings as we added a second language embedding\n            if args.freeze_embeddings:\n                for p in self.model.segment_embeddings.parameters():\n                    p.requires_grad = False\n\n            update_init_roberta_model_state(in_state_dict)\n            print(\"loading weights from the pretrained model\")\n            self.model.load_state_dict(\n                in_state_dict, strict=False\n            )  # ignore mismatch in language embeddings\n\n            ffn_embedding_dim = init_args.encoder_ffn_embed_dim\n            num_attention_heads = init_args.encoder_attention_heads\n            dropout = init_args.dropout\n            attention_dropout = init_args.attention_dropout\n            activation_dropout = init_args.activation_dropout\n            activation_fn = init_args.activation_fn\n\n            classifier_embed_dim = getattr(\n                args, \"embed_dim\", init_args.encoder_embed_dim\n            )\n            if classifier_embed_dim != init_args.encoder_embed_dim:\n                self.transform_layer = nn.Linear(\n                    init_args.encoder_embed_dim, classifier_embed_dim\n                )\n        else:\n            self.model = TransformerSentenceEncoder(\n                padding_idx=task.dictionary.pad(),\n                vocab_size=len(task.dictionary),\n                num_encoder_layers=args.encoder_layers,\n                embedding_dim=args.embed_dim,\n                ffn_embedding_dim=args.ffn_embed_dim,\n                num_attention_heads=args.attention_heads,\n                dropout=args.dropout,\n                attention_dropout=args.attention_dropout,\n                activation_dropout=args.activation_dropout,\n                max_seq_len=task.max_positions()\n                if task.max_positions()\n                else args.tokens_per_sample,\n                num_segments=2,\n                offset_positions_by_padding=False,\n                encoder_normalize_before=args.encoder_normalize_before,\n                apply_bert_init=args.apply_bert_init,\n                activation_fn=args.activation_fn,\n            )\n\n            classifier_embed_dim = args.embed_dim\n            ffn_embedding_dim = args.ffn_embed_dim\n            num_attention_heads = args.attention_heads\n            dropout = args.dropout\n            attention_dropout = args.attention_dropout\n            activation_dropout = args.activation_dropout\n            activation_fn = args.activation_fn\n\n        self.joint_classification = args.joint_classification\n        if args.joint_classification == \"sent\":\n            if args.joint_normalize_before:\n                self.joint_layer_norm = LayerNorm(classifier_embed_dim)\n            else:\n                self.joint_layer_norm = None\n\n            self.joint_layers = nn.ModuleList(\n                [\n                    TransformerSentenceEncoderLayer(\n                        embedding_dim=classifier_embed_dim,\n                        ffn_embedding_dim=ffn_embedding_dim,\n                        num_attention_heads=num_attention_heads,\n                        dropout=dropout,\n                        attention_dropout=attention_dropout,\n                        activation_dropout=activation_dropout,\n                        activation_fn=activation_fn,\n                    )\n                    for _ in range(args.num_joint_layers)\n                ]\n            )\n\n        self.classifier = RobertaClassificationHead(\n            classifier_embed_dim,\n            classifier_embed_dim,\n            1,  # num_classes\n            \"tanh\",\n            args.classifier_dropout,\n        )\n\n    def forward(self, src_tokens, src_lengths):\n        segment_labels = self.get_segment_labels(src_tokens)\n        positions = self.get_positions(src_tokens, segment_labels)\n\n        inner_states, _ = self.model(\n            tokens=src_tokens,\n            segment_labels=segment_labels,\n            last_state_only=True,\n            positions=positions,\n        )\n\n        return inner_states[-1].transpose(0, 1)  # T x B x C -> B x T x C\n\n    def sentence_forward(self, encoder_out, src_tokens=None, sentence_rep=\"head\"):\n        # encoder_out: B x T x C\n        if sentence_rep == \"head\":\n            x = encoder_out[:, :1, :]\n        else:  # 'meanpool', 'maxpool'\n            assert src_tokens is not None, \"meanpool requires src_tokens input\"\n            segment_labels = self.get_segment_labels(src_tokens)\n            padding_mask = src_tokens.ne(self.padding_idx)\n            encoder_mask = segment_labels * padding_mask.type_as(segment_labels)\n\n            if sentence_rep == \"meanpool\":\n                ntokens = torch.sum(encoder_mask, dim=1, keepdim=True)\n                x = torch.sum(\n                    encoder_out * encoder_mask.unsqueeze(2), dim=1, keepdim=True\n                ) / ntokens.unsqueeze(2).type_as(encoder_out)\n            else:  # 'maxpool'\n                encoder_out[\n                    (encoder_mask == 0).unsqueeze(2).repeat(1, 1, encoder_out.shape[-1])\n                ] = -float(\"inf\")\n                x, _ = torch.max(encoder_out, dim=1, keepdim=True)\n\n        if hasattr(self, \"transform_layer\"):\n            x = self.transform_layer(x)\n\n        return x  # B x 1 x C\n\n    def joint_forward(self, x):\n        # x: T x B x C\n        if self.joint_layer_norm:\n            x = self.joint_layer_norm(x.transpose(0, 1))\n            x = x.transpose(0, 1)\n\n        for layer in self.joint_layers:\n            x, _ = layer(x, self_attn_padding_mask=None)\n        return x\n\n    def classification_forward(self, x):\n        # x: B x T x C\n        return self.classifier(x)\n\n\n@dataclass\nclass DiscriminativeNMTRerankerConfig(FairseqDataclass):\n    pretrained_model: str = field(\n        default=\"\", metadata={\"help\": \"pretrained model to load\"}\n    )\n    sentence_rep: SENTENCE_REP_CHOICES = field(\n        default=\"head\",\n        metadata={\n            \"help\": \"method to transform the output of the transformer stack to a sentence-level representation\"\n        },\n    )\n\n    dropout: float = field(default=0.1, metadata={\"help\": \"dropout probability\"})\n    attention_dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout probability for attention weights\"}\n    )\n    activation_dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout probability after activation in FFN\"}\n    )\n    classifier_dropout: float = field(\n        default=0.0, metadata={\"help\": \"classifier dropout probability\"}\n    )\n    embed_dim: int = field(default=768, metadata={\"help\": \"embedding dimension\"})\n    ffn_embed_dim: int = field(\n        default=2048, metadata={\"help\": \"embedding dimension for FFN\"}\n    )\n    encoder_layers: int = field(default=12, metadata={\"help\": \"num encoder layers\"})\n    attention_heads: int = field(default=8, metadata={\"help\": \"num attention heads\"})\n    encoder_normalize_before: bool = field(\n        default=False, metadata={\"help\": \"apply layernorm before each encoder block\"}\n    )\n    apply_bert_init: bool = field(\n        default=False, metadata={\"help\": \"use custom param initialization for BERT\"}\n    )\n    activation_fn: ACTIVATION_FN_CHOICES = field(\n        default=\"relu\", metadata={\"help\": \"activation function to use\"}\n    )\n    freeze_embeddings: bool = field(\n        default=False, metadata={\"help\": \"freeze embeddings in the pretrained model\"}\n    )\n    n_trans_layers_to_freeze: int = field(\n        default=0,\n        metadata={\n            \"help\": \"number of layers to freeze in the pretrained transformer model\"\n        },\n    )\n\n    # joint classfication\n    joint_classification: JOINT_CLASSIFICATION_CHOICES = field(\n        default=\"none\",\n        metadata={\"help\": \"method to compute joint features for classification\"},\n    )\n    num_joint_layers: int = field(\n        default=1, metadata={\"help\": \"number of joint layers\"}\n    )\n    joint_normalize_before: bool = field(\n        default=False,\n        metadata={\"help\": \"apply layer norm on the input to the joint layer\"},\n    )\n\n\n@register_model(\n    \"discriminative_nmt_reranker\", dataclass=DiscriminativeNMTRerankerConfig\n)\nclass DiscriminativeNMTReranker(BaseFairseqModel):\n    @classmethod\n    def build_model(cls, args, task):\n        model = BertRanker(args, task)\n        return DiscriminativeNMTReranker(args, model)\n\n    def __init__(self, args, model):\n        super().__init__()\n\n        self.model = model\n        self.sentence_rep = args.sentence_rep\n        self.joint_classification = args.joint_classification\n\n    def forward(self, src_tokens, src_lengths, **kwargs):\n        return self.model(src_tokens, src_lengths)\n\n    def sentence_forward(self, encoder_out, src_tokens):\n        return self.model.sentence_forward(encoder_out, src_tokens, self.sentence_rep)\n\n    def joint_forward(self, x):\n        return self.model.joint_forward(x)\n\n    def classification_forward(self, x):\n        return self.model.classification_forward(x)\n"
  },
  {
    "path": "examples/discriminative_reranking_nmt/scripts/prep_data.py",
    "content": "#!/usr/bin/env python\n\nimport argparse\nfrom multiprocessing import Pool\nfrom pathlib import Path\n\nimport sacrebleu\nimport sentencepiece as spm\n\n\ndef read_text_file(filename):\n    with open(filename, \"r\") as f:\n        output = [line.strip() for line in f]\n\n    return output\n\n\ndef get_bleu(in_sent, target_sent):\n    bleu = sacrebleu.corpus_bleu([in_sent], [[target_sent]])\n    out = \" \".join(\n        map(str, [bleu.score, bleu.sys_len, bleu.ref_len] + bleu.counts + bleu.totals)\n    )\n    return out\n\n\ndef get_ter(in_sent, target_sent):\n    ter = sacrebleu.corpus_ter([in_sent], [[target_sent]])\n    out = \" \".join(map(str, [ter.score, ter.num_edits, ter.ref_length]))\n    return out\n\n\ndef init(sp_model):\n    global sp\n    sp = spm.SentencePieceProcessor()\n    sp.Load(sp_model)\n\n\ndef process(source_sent, target_sent, hypo_sent, metric):\n    source_bpe = \" \".join(sp.EncodeAsPieces(source_sent))\n    hypo_bpe = [\" \".join(sp.EncodeAsPieces(h)) for h in hypo_sent]\n\n    if metric == \"bleu\":\n        score_str = [get_bleu(h, target_sent) for h in hypo_sent]\n    else:  # ter\n        score_str = [get_ter(h, target_sent) for h in hypo_sent]\n\n    return source_bpe, hypo_bpe, score_str\n\n\ndef main(args):\n    assert (\n        args.split.startswith(\"train\") or args.num_shards == 1\n    ), \"--num-shards should be set to 1 for valid and test sets\"\n    assert (\n        args.split.startswith(\"train\")\n        or args.split.startswith(\"valid\")\n        or args.split.startswith(\"test\")\n    ), \"--split should be set to train[n]/valid[n]/test[n]\"\n\n    source_sents = read_text_file(args.input_source)\n    target_sents = read_text_file(args.input_target)\n\n    num_sents = len(source_sents)\n    assert num_sents == len(\n        target_sents\n    ), f\"{args.input_source} and {args.input_target} should have the same number of sentences.\"\n\n    hypo_sents = read_text_file(args.input_hypo)\n    assert (\n        len(hypo_sents) % args.beam == 0\n    ), f\"Number of hypotheses ({len(hypo_sents)}) cannot be divided by beam size ({args.beam}).\"\n\n    hypo_sents = [\n        hypo_sents[i : i + args.beam] for i in range(0, len(hypo_sents), args.beam)\n    ]\n    assert num_sents == len(\n        hypo_sents\n    ), f\"{args.input_hypo} should contain {num_sents * args.beam} hypotheses but only has {len(hypo_sents) * args.beam}. (--beam={args.beam})\"\n\n    output_dir = args.output_dir / args.metric\n    for ns in range(args.num_shards):\n        print(f\"processing shard {ns+1}/{args.num_shards}\")\n        shard_output_dir = output_dir / f\"split{ns+1}\"\n        source_output_dir = shard_output_dir / \"input_src\"\n        hypo_output_dir = shard_output_dir / \"input_tgt\"\n        metric_output_dir = shard_output_dir / args.metric\n\n        source_output_dir.mkdir(parents=True, exist_ok=True)\n        hypo_output_dir.mkdir(parents=True, exist_ok=True)\n        metric_output_dir.mkdir(parents=True, exist_ok=True)\n\n        if args.n_proc > 1:\n            with Pool(\n                args.n_proc, initializer=init, initargs=(args.sentencepiece_model,)\n            ) as p:\n                output = p.starmap(\n                    process,\n                    [\n                        (source_sents[i], target_sents[i], hypo_sents[i], args.metric)\n                        for i in range(ns, num_sents, args.num_shards)\n                    ],\n                )\n        else:\n            init(args.sentencepiece_model)\n            output = [\n                process(source_sents[i], target_sents[i], hypo_sents[i], args.metric)\n                for i in range(ns, num_sents, args.num_shards)\n            ]\n\n        with open(source_output_dir / f\"{args.split}.bpe\", \"w\") as s_o, open(\n            hypo_output_dir / f\"{args.split}.bpe\", \"w\"\n        ) as h_o, open(metric_output_dir / f\"{args.split}.{args.metric}\", \"w\") as m_o:\n            for source_bpe, hypo_bpe, score_str in output:\n                assert len(hypo_bpe) == len(score_str)\n                for h, m in zip(hypo_bpe, score_str):\n                    s_o.write(f\"{source_bpe}\\n\")\n                    h_o.write(f\"{h}\\n\")\n                    m_o.write(f\"{m}\\n\")\n\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--input-source\", type=Path, required=True)\n    parser.add_argument(\"--input-target\", type=Path, required=True)\n    parser.add_argument(\"--input-hypo\", type=Path, required=True)\n    parser.add_argument(\"--output-dir\", type=Path, required=True)\n    parser.add_argument(\"--split\", type=str, required=True)\n    parser.add_argument(\"--beam\", type=int, required=True)\n    parser.add_argument(\"--sentencepiece-model\", type=str, required=True)\n    parser.add_argument(\"--metric\", type=str, choices=[\"bleu\", \"ter\"], default=\"bleu\")\n    parser.add_argument(\"--num-shards\", type=int, default=1)\n    parser.add_argument(\"--n-proc\", type=int, default=8)\n\n    args = parser.parse_args()\n\n    main(args)\n"
  },
  {
    "path": "examples/discriminative_reranking_nmt/tasks/__init__.py",
    "content": "from .discriminative_reranking_task import DiscriminativeRerankingNMTTask\n\n\n__all__ = [\n    \"DiscriminativeRerankingNMTTask\",\n]\n"
  },
  {
    "path": "examples/discriminative_reranking_nmt/tasks/discriminative_reranking_task.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\n\nimport itertools\nimport logging\nimport os\n\nimport numpy as np\nimport torch\n\nfrom fairseq.logging import metrics\nfrom fairseq.data import (\n    ConcatDataset,\n    ConcatSentencesDataset,\n    data_utils,\n    Dictionary,\n    IdDataset,\n    indexed_dataset,\n    NestedDictionaryDataset,\n    NumSamplesDataset,\n    NumelDataset,\n    PrependTokenDataset,\n    RawLabelDataset,\n    RightPadDataset,\n    SortDataset,\n    TruncateDataset,\n    TokenBlockDataset,\n)\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.tasks import FairseqTask, register_task\nfrom omegaconf import II, MISSING\n\n\nEVAL_BLEU_ORDER = 4\nTARGET_METRIC_CHOICES = ChoiceEnum([\"bleu\", \"ter\"])\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass DiscriminativeRerankingNMTConfig(FairseqDataclass):\n    data: str = field(default=MISSING, metadata={\"help\": \"path to data directory\"})\n    num_data_splits: int = field(\n        default=1, metadata={\"help\": \"total number of data splits\"}\n    )\n    no_shuffle: bool = field(\n        default=False, metadata={\"help\": \"do not shuffle training data\"}\n    )\n    max_positions: int = field(\n        default=512, metadata={\"help\": \"number of positional embeddings to learn\"}\n    )\n    include_src: bool = field(\n        default=False, metadata={\"help\": \"include source sentence\"}\n    )\n    mt_beam: int = field(default=50, metadata={\"help\": \"beam size of input hypotheses\"})\n    eval_target_metric: bool = field(\n        default=False,\n        metadata={\"help\": \"evaluation with the target metric during validation\"},\n    )\n    target_metric: TARGET_METRIC_CHOICES = field(\n        default=\"bleu\", metadata={\"help\": \"name of the target metric to optimize for\"}\n    )\n    train_subset: str = field(\n        default=II(\"dataset.train_subset\"),\n        metadata={\"help\": \"data subset to use for training (e.g. train, valid, test)\"},\n    )\n    seed: int = field(\n        default=II(\"common.seed\"),\n        metadata={\"help\": \"pseudo random number generator seed\"},\n    )\n\n\nclass RerankerScorer(object):\n    \"\"\"Scores the target for a given (source (optional), target) input.\"\"\"\n\n    def __init__(self, args, mt_beam):\n        self.mt_beam = mt_beam\n\n    @torch.no_grad()\n    def generate(self, models, sample, **kwargs):\n        \"\"\"Score a batch of translations.\"\"\"\n        net_input = sample[\"net_input\"]\n\n        assert len(models) == 1, \"does not support model ensemble\"\n        model = models[0]\n\n        bs = net_input[\"src_tokens\"].shape[0]\n        assert (\n            model.joint_classification == \"none\" or bs % self.mt_beam == 0\n        ), f\"invalid batch size ({bs}) for joint classification with beam size ({self.mt_beam})\"\n\n        model.eval()\n        logits = model(**net_input)\n\n        batch_out = model.sentence_forward(logits, net_input[\"src_tokens\"])\n        if model.joint_classification == \"sent\":\n            batch_out = model.joint_forward(\n                batch_out.view(self.mt_beam, bs // self.mt_beam, -1)\n            )\n        scores = model.classification_forward(\n            batch_out.view(bs, 1, -1)\n        )  # input: B x T x C\n\n        return scores\n\n\n@register_task(\n    \"discriminative_reranking_nmt\", dataclass=DiscriminativeRerankingNMTConfig\n)\nclass DiscriminativeRerankingNMTTask(FairseqTask):\n    \"\"\"\n    Translation rerank task.\n    The input can be either (src, tgt) sentence pairs or tgt sentence only.\n    \"\"\"\n\n    cfg: DiscriminativeRerankingNMTConfig\n\n    def __init__(self, cfg: DiscriminativeRerankingNMTConfig, data_dictionary=None):\n        super().__init__(cfg)\n        self.dictionary = data_dictionary\n        self._max_positions = cfg.max_positions\n        # args.tokens_per_sample = self._max_positions\n        # self.num_classes = 1  # for model\n\n    @classmethod\n    def load_dictionary(cls, cfg, filename):\n        \"\"\"Load the dictionary from the filename\"\"\"\n        dictionary = Dictionary.load(filename)\n        dictionary.add_symbol(\"<mask>\")  # for loading pretrained XLMR model\n\n        return dictionary\n\n    @classmethod\n    def setup_task(cls, cfg: DiscriminativeRerankingNMTConfig, **kwargs):\n        # load data dictionary (assume joint dictionary)\n        data_path = cfg.data\n        data_dict = cls.load_dictionary(\n            cfg, os.path.join(data_path, \"input_src/dict.txt\")\n        )\n\n        logger.info(\"[input] src dictionary: {} types\".format(len(data_dict)))\n\n        return DiscriminativeRerankingNMTTask(cfg, data_dict)\n\n    def load_dataset(self, split, epoch=0, combine=False, **kwargs):\n        \"\"\"Load a given dataset split (e.g., train, valid, test).\"\"\"\n        if self.cfg.data.endswith(\"1\"):\n            data_shard = (epoch - 1) % self.cfg.num_data_splits + 1\n            data_path = self.cfg.data[:-1] + str(data_shard)\n        else:\n            data_path = self.cfg.data\n\n        def get_path(type, data_split):\n            return os.path.join(data_path, str(type), data_split)\n\n        def make_dataset(type, dictionary, data_split, combine):\n            split_path = get_path(type, data_split)\n\n            dataset = data_utils.load_indexed_dataset(\n                split_path,\n                dictionary,\n                combine=combine,\n            )\n            return dataset\n\n        def load_split(data_split, metric):\n            input_src = None\n            if self.cfg.include_src:\n                input_src = make_dataset(\n                    \"input_src\", self.dictionary, data_split, combine=False\n                )\n                assert input_src is not None, \"could not find dataset: {}\".format(\n                    get_path(\"input_src\", data_split)\n                )\n\n            input_tgt = make_dataset(\n                \"input_tgt\", self.dictionary, data_split, combine=False\n            )\n            assert input_tgt is not None, \"could not find dataset: {}\".format(\n                get_path(\"input_tgt\", data_split)\n            )\n\n            label_path = f\"{get_path(metric, data_split)}.{metric}\"\n            assert os.path.exists(label_path), f\"could not find dataset: {label_path}\"\n\n            np_labels = np.loadtxt(label_path)\n            if self.cfg.target_metric == \"ter\":\n                np_labels = -np_labels\n            label = RawLabelDataset(np_labels)\n\n            return input_src, input_tgt, label\n\n        src_datasets = []\n        tgt_datasets = []\n        label_datasets = []\n\n        if split == self.cfg.train_subset:\n            for k in itertools.count():\n                split_k = \"train\" + (str(k) if k > 0 else \"\")\n                prefix = os.path.join(data_path, \"input_tgt\", split_k)\n                if not indexed_dataset.dataset_exists(prefix, impl=None):\n                    if k > 0:\n                        break\n                    else:\n                        raise FileNotFoundError(f\"Dataset not found: {prefix}\")\n                input_src, input_tgt, label = load_split(\n                    split_k, self.cfg.target_metric\n                )\n                src_datasets.append(input_src)\n                tgt_datasets.append(input_tgt)\n                label_datasets.append(label)\n        else:\n            input_src, input_tgt, label = load_split(split, self.cfg.target_metric)\n            src_datasets.append(input_src)\n            tgt_datasets.append(input_tgt)\n            label_datasets.append(label)\n\n        if len(tgt_datasets) == 1:\n            input_tgt, label = tgt_datasets[0], label_datasets[0]\n            if self.cfg.include_src:\n                input_src = src_datasets[0]\n        else:\n            input_tgt = ConcatDataset(tgt_datasets)\n            label = ConcatDataset(label_datasets)\n            if self.cfg.include_src:\n                input_src = ConcatDataset(src_datasets)\n\n        input_tgt = TruncateDataset(input_tgt, self.cfg.max_positions)\n        if self.cfg.include_src:\n            input_src = PrependTokenDataset(input_src, self.dictionary.bos())\n            input_src = TruncateDataset(input_src, self.cfg.max_positions)\n            src_lengths = NumelDataset(input_src, reduce=False)\n            src_tokens = ConcatSentencesDataset(input_src, input_tgt)\n        else:\n            src_tokens = PrependTokenDataset(input_tgt, self.dictionary.bos())\n            src_lengths = NumelDataset(src_tokens, reduce=False)\n\n        dataset = {\n            \"id\": IdDataset(),\n            \"net_input\": {\n                \"src_tokens\": RightPadDataset(\n                    src_tokens,\n                    pad_idx=self.source_dictionary.pad(),\n                ),\n                \"src_lengths\": src_lengths,\n            },\n            \"nsentences\": NumSamplesDataset(),\n            \"ntokens\": NumelDataset(src_tokens, reduce=True),\n            \"target\": label,\n        }\n\n        dataset = NestedDictionaryDataset(\n            dataset,\n            sizes=[src_tokens.sizes],\n        )\n\n        assert (\n            len(dataset) % self.cfg.mt_beam == 0\n        ), \"dataset size (%d) is not a multiple of beam size (%d)\" % (\n            len(dataset),\n            self.cfg.mt_beam,\n        )\n\n        # no need to shuffle valid/test sets\n        if not self.cfg.no_shuffle and split == self.cfg.train_subset:\n\n            # need to keep all hypothese together\n            start_idx = np.arange(0, len(dataset), self.cfg.mt_beam)\n            with data_utils.numpy_seed(self.cfg.seed + epoch):\n                np.random.shuffle(start_idx)\n\n            idx = np.arange(0, self.cfg.mt_beam)\n            shuffle = np.tile(idx, (len(start_idx), 1)).reshape(-1) + np.tile(\n                start_idx, (self.cfg.mt_beam, 1)\n            ).transpose().reshape(-1)\n\n            dataset = SortDataset(\n                dataset,\n                sort_order=[shuffle],\n            )\n\n        logger.info(f\"Loaded {split} with #samples: {len(dataset)}\")\n\n        self.datasets[split] = dataset\n        return self.datasets[split]\n\n    def build_dataset_for_inference(self, src_tokens, src_lengths, **kwargs):\n        assert not self.cfg.include_src or len(src_tokens[0]) == 2\n        input_src = None\n        if self.cfg.include_src:\n            input_src = TokenBlockDataset(\n                [t[0] for t in src_tokens],\n                [l[0] for l in src_lengths],\n                block_size=None,  # ignored for \"eos\" break mode\n                pad=self.source_dictionary.pad(),\n                eos=self.source_dictionary.eos(),\n                break_mode=\"eos\",\n            )\n            input_src = PrependTokenDataset(input_src, self.dictionary.bos())\n            input_src = TruncateDataset(input_src, self.cfg.max_positions)\n\n        input_tgt = TokenBlockDataset(\n            [t[-1] for t in src_tokens],\n            [l[-1] for l in src_lengths],\n            block_size=None,  # ignored for \"eos\" break mode\n            pad=self.source_dictionary.pad(),\n            eos=self.source_dictionary.eos(),\n            break_mode=\"eos\",\n        )\n        input_tgt = TruncateDataset(input_tgt, self.cfg.max_positions)\n        if self.cfg.include_src:\n            src_tokens = ConcatSentencesDataset(input_src, input_tgt)\n            src_lengths = NumelDataset(input_src, reduce=False)\n        else:\n            input_tgt = PrependTokenDataset(input_tgt, self.dictionary.bos())\n            src_tokens = input_tgt\n            src_lengths = NumelDataset(src_tokens, reduce=False)\n\n        dataset = {\n            \"id\": IdDataset(),\n            \"net_input\": {\n                \"src_tokens\": RightPadDataset(\n                    src_tokens,\n                    pad_idx=self.source_dictionary.pad(),\n                ),\n                \"src_lengths\": src_lengths,\n            },\n            \"nsentences\": NumSamplesDataset(),\n            \"ntokens\": NumelDataset(src_tokens, reduce=True),\n        }\n\n        return NestedDictionaryDataset(\n            dataset,\n            sizes=[src_tokens.sizes],\n        )\n\n    def build_model(self, cfg: FairseqDataclass, from_checkpoint: bool = False):\n        return super().build_model(cfg)\n\n    def build_generator(self, args):\n        return RerankerScorer(args, mt_beam=self.cfg.mt_beam)\n\n    def max_positions(self):\n        return self._max_positions\n\n    @property\n    def source_dictionary(self):\n        return self.dictionary\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n\n    def create_dummy_batch(self, device):\n        dummy_target = (\n            torch.zeros(self.cfg.mt_beam, EVAL_BLEU_ORDER * 2 + 3).long().to(device)\n            if not self.cfg.eval_ter\n            else torch.zeros(self.cfg.mt_beam, 3).long().to(device)\n        )\n\n        return {\n            \"id\": torch.zeros(self.cfg.mt_beam, 1).long().to(device),\n            \"net_input\": {\n                \"src_tokens\": torch.zeros(self.cfg.mt_beam, 4).long().to(device),\n                \"src_lengths\": torch.ones(self.cfg.mt_beam, 1).long().to(device),\n            },\n            \"nsentences\": 0,\n            \"ntokens\": 0,\n            \"target\": dummy_target,\n        }\n\n    def train_step(\n        self, sample, model, criterion, optimizer, update_num, ignore_grad=False\n    ):\n        if ignore_grad and sample is None:\n            sample = self.create_dummy_batch(model.device)\n\n        return super().train_step(\n            sample, model, criterion, optimizer, update_num, ignore_grad\n        )\n\n    def valid_step(self, sample, model, criterion):\n        if sample is None:\n            sample = self.create_dummy_batch(model.device)\n\n        loss, sample_size, logging_output = super().valid_step(sample, model, criterion)\n\n        if not self.cfg.eval_target_metric:\n            return loss, sample_size, logging_output\n\n        scores = logging_output[\"scores\"]\n\n        if self.cfg.target_metric == \"bleu\":\n            assert sample[\"target\"].shape[1] == EVAL_BLEU_ORDER * 2 + 3, (\n                \"target does not contain enough information (\"\n                + str(sample[\"target\"].shape[1])\n                + \"for evaluating BLEU\"\n            )\n\n            max_id = torch.argmax(scores, dim=1)\n            select_id = max_id + torch.arange(\n                0, sample_size * self.cfg.mt_beam, self.cfg.mt_beam\n            ).to(max_id.device)\n            bleu_data = sample[\"target\"][select_id, 1:].sum(0).data\n\n            logging_output[\"_bleu_sys_len\"] = bleu_data[0]\n            logging_output[\"_bleu_ref_len\"] = bleu_data[1]\n\n            for i in range(EVAL_BLEU_ORDER):\n                logging_output[\"_bleu_counts_\" + str(i)] = bleu_data[2 + i]\n                logging_output[\"_bleu_totals_\" + str(i)] = bleu_data[\n                    2 + EVAL_BLEU_ORDER + i\n                ]\n\n        elif self.cfg.target_metric == \"ter\":\n            assert sample[\"target\"].shape[1] == 3, (\n                \"target does not contain enough information (\"\n                + str(sample[\"target\"].shape[1])\n                + \"for evaluating TER\"\n            )\n\n            max_id = torch.argmax(scores, dim=1)\n            select_id = max_id + torch.arange(\n                0, sample_size * self.cfg.mt_beam, self.cfg.mt_beam\n            ).to(max_id.device)\n            ter_data = sample[\"target\"][select_id, 1:].sum(0).data\n\n            logging_output[\"_ter_num_edits\"] = -ter_data[0]\n            logging_output[\"_ter_ref_len\"] = -ter_data[1]\n\n        return loss, sample_size, logging_output\n\n    def reduce_metrics(self, logging_outputs, criterion):\n        super().reduce_metrics(logging_outputs, criterion)\n\n        if not self.cfg.eval_target_metric:\n            return\n\n        def sum_logs(key):\n            return sum(log.get(key, 0) for log in logging_outputs)\n\n        if self.cfg.target_metric == \"bleu\":\n            counts, totals = [], []\n            for i in range(EVAL_BLEU_ORDER):\n                counts.append(sum_logs(\"_bleu_counts_\" + str(i)))\n                totals.append(sum_logs(\"_bleu_totals_\" + str(i)))\n\n            if max(totals) > 0:\n                # log counts as numpy arrays -- log_scalar will sum them correctly\n                metrics.log_scalar(\"_bleu_counts\", np.array(counts))\n                metrics.log_scalar(\"_bleu_totals\", np.array(totals))\n                metrics.log_scalar(\"_bleu_sys_len\", sum_logs(\"_bleu_sys_len\"))\n                metrics.log_scalar(\"_bleu_ref_len\", sum_logs(\"_bleu_ref_len\"))\n\n                def compute_bleu(meters):\n                    import inspect\n                    import sacrebleu\n\n                    fn_sig = inspect.getfullargspec(sacrebleu.compute_bleu)[0]\n                    if \"smooth_method\" in fn_sig:\n                        smooth = {\"smooth_method\": \"exp\"}\n                    else:\n                        smooth = {\"smooth\": \"exp\"}\n                    bleu = sacrebleu.compute_bleu(\n                        correct=meters[\"_bleu_counts\"].sum,\n                        total=meters[\"_bleu_totals\"].sum,\n                        sys_len=meters[\"_bleu_sys_len\"].sum,\n                        ref_len=meters[\"_bleu_ref_len\"].sum,\n                        **smooth,\n                    )\n                    return round(bleu.score, 2)\n\n                metrics.log_derived(\"bleu\", compute_bleu)\n        elif self.cfg.target_metric == \"ter\":\n            num_edits = sum_logs(\"_ter_num_edits\")\n            ref_len = sum_logs(\"_ter_ref_len\")\n\n            if ref_len > 0:\n                metrics.log_scalar(\"_ter_num_edits\", num_edits)\n                metrics.log_scalar(\"_ter_ref_len\", ref_len)\n\n                def compute_ter(meters):\n                    score = meters[\"_ter_num_edits\"].sum / meters[\"_ter_ref_len\"].sum\n                    return round(score.item(), 2)\n\n                metrics.log_derived(\"ter\", compute_ter)\n"
  },
  {
    "path": "examples/emotion_conversion/README.md",
    "content": "# Textless speech emotion conversion using decomposed and discrete representations\n[Felix Kreuk](https://felixkreuk.github.io), Adam Polyak, Jade Copet, Eugene Kharitonov, Tu-Anh Nguyen, Morgane Rivière, Wei-Ning Hsu, Abdelrahman Mohamed, Emmanuel Dupoux, [Yossi Adi](https://adiyoss.github.io)\n\n_abstract_: Speech emotion conversion is the task of modifying the perceived emotion of a speech utterance while preserving the lexical content and speaker identity. In this study, we cast the problem of emotion conversion as a spoken language translation task. We decompose speech into discrete and disentangled learned representations, consisting of content units, F0, speaker, and emotion. First, we modify the speech content by translating the content units to a target emotion, and then predict the prosodic features based on these units. Finally, the speech waveform is generated by feeding the predicted representations into a neural vocoder. Such a paradigm allows us to go beyond spectral and parametric changes of the signal, and model non-verbal vocalizations, such as laughter insertion, yawning removal, etc. We demonstrate objectively and subjectively that the proposed method is superior to the baselines in terms of perceived emotion and audio quality. We rigorously evaluate all components of such a complex system and conclude with an extensive model analysis and ablation study to better emphasize the architectural choices, strengths and weaknesses of the proposed method. Samples and code will be publicly available under the following link: https://speechbot.github.io/emotion.\n\n## Installation\nFirst, create a conda virtual environment and activate it:\n```\nconda create -n emotion python=3.8 -y\nconda activate emotion\n```\n\nThen, clone this repository:\n```\ngit clone https://github.com/facebookresearch/fairseq.git\ncd fairseq/examples/emotion_conversion\ngit clone https://github.com/felixkreuk/speech-resynthesis\n```\n\nNext, download the EmoV discrete tokens:\n```\nwget https://dl.fbaipublicfiles.com/textless_nlp/emotion_conversion/data.tar.gz  # (still in fairseq/examples/emotion_conversion)\ntar -xzvf data.tar.gz\n```\n\nYour `fairseq/examples/emotion_conversion` directory should like this:\n```\ndrwxrwxr-x 3 felixkreuk felixkreuk   0 Feb  6  2022 data\ndrwxrwxr-x 3 felixkreuk felixkreuk   0 Sep 28 10:41 emotion_models\ndrwxr-xr-x 3 felixkreuk felixkreuk   0 Jun 29 05:43 fairseq_models\ndrwxr-xr-x 3 felixkreuk felixkreuk   0 Sep 28 10:41 preprocess\n-rw-rw-r-- 1 felixkreuk felixkreuk 11K Dec  5 09:00 README.md\n-rw-rw-r-- 1 felixkreuk felixkreuk  88 Mar  6  2022 requirements.txt\n-rw-rw-r-- 1 felixkreuk felixkreuk 13K Jun 29 06:26 synthesize.py\n```\n\nLastly, install fairseq and the other packages:\n```\npip install --editable ./\npip install -r examples/emotion_conversion/requirements.txt\n```\n\n## Data preprocessing\n\n### Convert your audio to discrete representations\nPlease follow the steps described [here](https://github.com/pytorch/fairseq/tree/main/examples/hubert/simple_kmeans).\nTo generate the same discrete representations please use the following:\n1. [HuBERT checkpoint](https://dl.fbaipublicfiles.com/hubert/hubert_base_ls960.pt)\n2. k-means model at `data/hubert_base_ls960_layer9_clusters200/data_hubert_base_ls960_layer9_clusters200.bin`\n\n### Construct data splits\nThis step will use the discrete representations from the previous step and split them to train/valid/test sets for 3 tasks:\n1. Translation model pre-training (BART language denoising)\n2. Translation model training (content units emotion translation mechanism)\n3. HiFiGAN model training (for synthesizing audio from discrete representations)\n\nYour processed data should be at `data/`:\n1. `hubert_base_ls960_layer9_clusters200` - discrete representations extracted using HuBERT layer 9, clustered into 200 clusters.\n2. `data.tsv` - a tsv file pointing to the EmoV dataset in your environment (Please edit the first line of this file according to your path).\n\nThe following command will create the above splits:\n```\npython examples/emotion_conversion/preprocess/create_core_manifest.py \\\n    --tsv data/data.tsv \\\n    --emov-km data/hubert_base_ls960_layer9_clusters200/data.km \\\n    --km data/hubert_base_ls960_layer9_clusters200/vctk.km \\\n    --dict data/hubert_base_ls960_layer9_clusters200/dict.txt \\\n    --manifests-dir $DATA\n```\n* Set `$DATA` as the directory that will contain the processed data.\n\n### Extract F0\nTo train the HiFiGAN vocoder we need to first extract the F0 curves:\n```\npython examples/emotion_conversion/preprocess/extract_f0.py \\\n    --tsv data/data.tsv \\\n    --extractor pyaapt \\\n```\n\n## HiFiGAN training\nNow we are all set to train the HiFiGAN vocoder:\n```\npython examples/emotion_conversion/speech-resynthesis/train.py \n    --checkpoint_path <hifigan-checkpoint-dir> \\\n    --config examples/emotion_conversion/speech-resynthesis/configs/EmoV/emov_hubert-layer9-cluster200_fixed-spkr-embedder_f0-raw_gst.json\n```\n\n## Translation Pre-training\nBefore translating emotions, we first need to pre-train the translation model as a denoising autoencoder (similarly to BART).\n```\npython train.py \\\n    $DATA/fairseq-data/emov_multilingual_denoising_cross-speaker_dedup_nonzeroshot/tokenized \\\n    --save-dir <your-save-dir> \\\n    --tensorboard-logdir <your-tb-dir> \\\n    --langs neutral,amused,angry,sleepy,disgusted,vctk.km \\\n    --dataset-impl mmap \\\n    --task multilingual_denoising \\\n    --arch transformer_small --criterion cross_entropy \\\n    --multilang-sampling-alpha 1.0 --sample-break-mode eos --max-tokens 16384 \\\n    --update-freq 1 --max-update 3000000 \\\n    --dropout 0.1 --attention-dropout 0.1 --relu-dropout 0.0 \\\n    --optimizer adam --weight-decay 0.01 --adam-eps 1e-06 \\\n    --clip-norm 0.1 --lr-scheduler polynomial_decay --lr 0.0003 \\\n    --total-num-update 3000000 --warmup-updates 10000 --fp16 \\\n    --poisson-lambda 3.5 --mask 0.3 --mask-length span-poisson --replace-length 1 --rotate 0 --mask-random 0.1 --insert 0 --permute-sentences 1.0 \\\n    --skip-invalid-size-inputs-valid-test \\\n    --user-dir examples/emotion_conversion/fairseq_models\n```\n\n## Translation Training\nNow we are ready to train our emotion translation model:\n```\npython train.py \\\n    --distributed-world-size 1 \\\n    $DATA/fairseq-data/emov_multilingual_translation_cross-speaker_dedup/tokenized/ \\\n    --save-dir <your-save-dir> \\\n    --tensorboard-logdir <your-tb-dir> \\\n    --arch multilingual_small --task multilingual_translation \\\n    --criterion label_smoothed_cross_entropy --label-smoothing 0.2 \\\n    --lang-pairs neutral-amused,neutral-sleepy,neutral-disgusted,neutral-angry,amused-sleepy,amused-disgusted,amused-neutral,amused-angry,angry-amused,angry-sleepy,angry-disgusted,angry-neutral,disgusted-amused,disgusted-sleepy,disgusted-neutral,disgusted-angry,sleepy-amused,sleepy-neutral,sleepy-disgusted,sleepy-angry \\\n    --optimizer adam --adam-betas \"(0.9, 0.98)\" --adam-eps 1e-06 \\\n    --lr 1e-05 --clip-norm 0 --dropout 0.1 --attention-dropout 0.1 \\\n    --weight-decay 0.01 --warmup-updates 2000 --lr-scheduler inverse_sqrt \\\n    --max-tokens 4096 --update-freq 1 --max-update 100000 \\\n    --required-batch-size-multiple 8 --fp16 --num-workers 4 \\\n    --seed 2 --log-format json --log-interval 25 --save-interval-updates 1000 \\\n    --no-epoch-checkpoints --keep-best-checkpoints 1 --keep-interval-updates 1 \\\n    --finetune-from-model <path-to-model-from-previous-step> \\\n    --user-dir examples/emotion_conversion/fairseq_models\n```\n* To share encoders/decoders use the `--share-encoders` and `--share-decoders` flags.\n* To add source/target emotion tokens use the `--encoder-langtok {'src'|'tgt'}` and `--decoder-langtok` flags.\n\n## F0-predictor Training\nThe following command trains the F0 prediction module:\n```\ncd examples/emotion_conversion\npython -m emotion_models.pitch_predictor n_tokens=200 \\\n    train_tsv=\"$DATA/denoising/emov/train.tsv\" \\\n    train_km=\"$DATA/denoising/emov/train.km\" \\\n    valid_tsv=\"$DATA/denoising/emov/valid.tsv\" \\\n    valid_km=\"$DATA/denoising/emov/valid.km\"\n```\n* See `hyra.run.dir` to configure directory for saving models.\n\n## Duration-predictor Training\nThe following command trains the duration prediction modules:\n```\ncd examples/emotion_conversion\nfor emotion in \"neutral\" \"amused\" \"angry\" \"disgusted\" \"sleepy\"; do\n    python -m emotion_models.duration_predictor n_tokens=200 substring=$emotion \\\n        train_tsv=\"$DATA/denoising/emov/train.tsv\" \\\n        train_km=\"$DATA/denoising/emov/train.km\" \\\n        valid_tsv=\"$DATA/denoising/emov/valid.tsv\" \\\n        valid_km=\"$DATA/denoising/emov/valid.km\"\ndone\n```\n* See `hyra.run.dir` to configure directory for saving models.\n* After the above command you should have 5 duration models in your checkpoint directory:\n```\n❯ ll duration_predictor/\ntotal 21M\n-rw-rw-r-- 1 felixkreuk felixkreuk 4.1M Nov 15  2021 amused.ckpt\n-rw-rw-r-- 1 felixkreuk felixkreuk 4.1M Nov 15  2021 angry.ckpt\n-rw-rw-r-- 1 felixkreuk felixkreuk 4.1M Nov 15  2021 disgusted.ckpt\n-rw-rw-r-- 1 felixkreuk felixkreuk 4.1M Nov 15  2021 neutral.ckpt\n-rw-rw-r-- 1 felixkreuk felixkreuk 4.1M Nov 15  2021 sleepy.ckpt\n```\n\n## Token Generation\nThe following command uses `fairseq-generate` to generate the token sequences based on the source and target emotions.\n```\nfairseq-generate \\\n    $DATA/fairseq-data/emov_multilingual_translation_cross-speaker_dedup/tokenized/ \\\n    --task multilingual_translation \\\n    --gen-subset test \\\n    --path <your-saved-translation-checkpoint> \\\n    --beam 5 \\\n    --batch-size 4 --max-len-a 1.8 --max-len-b 10 --lenpen 1 --min-len 1 \\\n    --skip-invalid-size-inputs-valid-test --distributed-world-size 1 \\\n    --source-lang neutral --target-lang amused \\\n    --lang-pairs neutral-amused,neutral-sleepy,neutral-disgusted,neutral-angry,amused-sleepy,amused-disgusted,amused-neutral,amused-angry,angry-amused,angry-sleepy,angry-disgusted,angry-neutral,disgusted-amused,disgusted-sleepy,disgusted-neutral,disgusted-angry,sleepy-amused,sleepy-neutral,sleepy-disgusted,sleepy-angry \\\n    --results-path <token-output-path> \\\n    --user-dir examples/emotion_conversion/fairseq_models\n```\n* Modify `--source-lang` and `--target-lang` to control for the source and target emotions.\n* See [fairseq documentation](https://fairseq.readthedocs.io/en/latest/command_line_tools.html#fairseq-generate) for a full overview of generation parameters (e.g., top-k/top-p sampling).\n\n## Waveform Synthesis\nUsing the output of the above command, the HiFiGAN vocoder, and the prosody prediction modules (F0 and duration) we can now generate the output waveforms:\n```\npython examples/emotion_conversion/synthesize.py \\\n    --result-path <token-output-path>/generate-test.txt \\\n    --data $DATA/fairseq-data/emov_multilingual_translation_cross-speaker_dedup/neutral-amused \\\n    --orig-tsv examples/emotion_conversion/data/data.tsv \\\n    --orig-km examples/emotion_conversion/data/hubert_base_ls960_layer9_clusters200/data.km \\\n    --checkpoint-file <hifigan-checkpoint-dir>/g_00400000 \\\n    --dur-model duration_predictor/ \\\n    --f0-model pitch_predictor/pitch_predictor.ckpt \\\n    -s neutral -t amused \\\n    --outdir ~/tmp/emotion_results/wavs/neutral-amused\n```\n* Please make sure the source and target emotions here match those of the previous command.\n\n# Citation\nIf you find this useful in your research, please use the following BibTeX entry for citation.\n```\n@article{kreuk2021textless,\n  title={Textless speech emotion conversion using decomposed and discrete representations},\n  author={Kreuk, Felix and Polyak, Adam and Copet, Jade and Kharitonov, Eugene and Nguyen, Tu-Anh and Rivi{\\`e}re, Morgane and Hsu, Wei-Ning and Mohamed, Abdelrahman and Dupoux, Emmanuel and Adi, Yossi},\n  journal={Conference on Empirical Methods in Natural Language Processing (EMNLP)},\n  year={2022}\n}\n```\n"
  },
  {
    "path": "examples/emotion_conversion/emotion_models/__init__.py",
    "content": ""
  },
  {
    "path": "examples/emotion_conversion/emotion_models/duration_predictor.py",
    "content": "import logging\nimport os\n\nimport hydra\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom einops.layers.torch import Rearrange\nfrom torch.utils.data import DataLoader, Dataset\n\nfrom .utils import Accuracy\n\nlogger = logging.getLogger(__name__)\n\n\ndef save_ckpt(model, path, model_class):\n    ckpt = {\n        \"state_dict\": model.state_dict(),\n        \"padding_token\": model.padding_token,\n        \"model_class\": model_class,\n    }\n    torch.save(ckpt, path)\n\n\ndef load_ckpt(path):\n    ckpt = torch.load(path)\n    ckpt[\"model_class\"][\"_target_\"] = \"emotion_models.duration_predictor.CnnPredictor\"\n    model = hydra.utils.instantiate(ckpt[\"model_class\"])\n    model.load_state_dict(ckpt[\"state_dict\"])\n    model.padding_token = ckpt[\"padding_token\"]\n    model = model.cpu()\n    model.eval()\n    return model\n\n\nclass Collator:\n    def __init__(self, padding_idx):\n        self.padding_idx = padding_idx\n\n    def __call__(self, batch):\n        x = [item[0] for item in batch]\n        lengths = [len(item) for item in x]\n        x = torch.nn.utils.rnn.pad_sequence(x, batch_first=True, padding_value=self.padding_idx)\n        y = [item[1] for item in batch]\n        y = torch.nn.utils.rnn.pad_sequence(y, batch_first=True, padding_value=self.padding_idx)\n        mask = (x != self.padding_idx)\n        return x, y, mask, lengths\n\n\nclass Predictor(nn.Module):\n    def __init__(self, n_tokens, emb_dim):\n        super(Predictor, self).__init__()\n        self.n_tokens = n_tokens\n        self.emb_dim = emb_dim\n        self.padding_token = n_tokens\n        # add 1 extra embedding for padding token, set the padding index to be the last token\n        # (tokens from the clustering start at index 0)\n        self.emb = nn.Embedding(n_tokens + 1, emb_dim, padding_idx=self.padding_token)\n\n    def inflate_input(self, batch):\n        \"\"\" get a sequence of tokens, predict their durations\n        and inflate them accordingly \"\"\"\n        batch_durs = self.forward(batch)\n        batch_durs = torch.exp(batch_durs) - 1\n        batch_durs = batch_durs.round()\n        output = []\n        for seq, durs in zip(batch, batch_durs):\n            inflated_seq = []\n            for token, n in zip(seq, durs):\n                if token == self.padding_token:\n                    break\n                n = int(n.item())\n                token = int(token.item())\n                inflated_seq.extend([token for _ in range(n)])\n            output.append(inflated_seq)\n        output = torch.LongTensor(output)\n        return output\n\n\nclass CnnPredictor(Predictor):\n    def __init__(self, n_tokens, emb_dim, channels, kernel, output_dim, dropout, n_layers):\n        super(CnnPredictor, self).__init__(n_tokens=n_tokens, emb_dim=emb_dim)\n        layers = [\n            Rearrange(\"b t c -> b c t\"),\n            nn.Conv1d(emb_dim, channels, kernel_size=kernel, padding=(kernel - 1) // 2),\n            Rearrange(\"b c t -> b t c\"),\n            nn.ReLU(),\n            nn.LayerNorm(channels),\n            nn.Dropout(dropout),\n        ]\n        for _ in range(n_layers-1):\n            layers += [\n                Rearrange(\"b t c -> b c t\"),\n                nn.Conv1d(channels, channels, kernel_size=kernel, padding=(kernel - 1) // 2),\n                Rearrange(\"b c t -> b t c\"),\n                nn.ReLU(),\n                nn.LayerNorm(channels),\n                nn.Dropout(dropout),\n            ]\n        self.conv_layer = nn.Sequential(*layers)\n        self.proj = nn.Linear(channels, output_dim)\n\n    def forward(self, x):\n        x = self.emb(x)\n        x = self.conv_layer(x)\n        x = self.proj(x)\n        x = x.squeeze(-1)\n        return x\n\n\ndef l2_log_loss(input, target):\n    return F.mse_loss(\n        input=input.float(),\n        target=torch.log(target.float() + 1),\n        reduce=False\n    )\n\n\nclass DurationDataset(Dataset):\n    def __init__(self, tsv_path, km_path, substring=\"\"):\n        lines = open(tsv_path, \"r\").readlines()\n        self.root, self.tsv = lines[0], lines[1:]\n        self.km = open(km_path, \"r\").readlines()\n        logger.info(f\"loaded {len(self.km)} files\")\n\n        if substring != \"\":\n            tsv, km = [], []\n            for tsv_line, km_line in zip(self.tsv, self.km):\n                if substring.lower() in tsv_line.lower():\n                    tsv.append(tsv_line)\n                    km.append(km_line)\n            self.tsv, self.km = tsv, km\n            logger.info(f\"after filtering: {len(self.km)} files\")\n\n    def __len__(self):\n        return len(self.km)\n\n    def __getitem__(self, i):\n        x = self.km[i]\n        x = x.split(\" \")\n        x = list(map(int, x))\n\n        y = []\n        xd = []\n        count = 1\n        for x1, x2 in zip(x[:-1], x[1:]):\n            if x1 == x2:\n                count += 1\n                continue\n            else:\n                y.append(count)\n                xd.append(x1)\n                count = 1\n\n        xd = torch.LongTensor(xd)\n        y = torch.LongTensor(y)\n        return xd, y\n\n\ndef train(cfg):\n    device = \"cuda:0\"\n    model = hydra.utils.instantiate(cfg[cfg.model]).to(device)\n    optimizer = hydra.utils.instantiate(cfg.optimizer, model.parameters())\n    # add 1 extra embedding for padding token, set the padding index to be the last token\n    # (tokens from the clustering start at index 0)\n    collate_fn = Collator(padding_idx=model.padding_token)\n    logger.info(f\"data: {cfg.train_tsv}\")\n    train_ds = DurationDataset(cfg.train_tsv, cfg.train_km, substring=cfg.substring)\n    valid_ds = DurationDataset(cfg.valid_tsv, cfg.valid_km, substring=cfg.substring)\n    train_dl = DataLoader(train_ds, batch_size=32, shuffle=True, collate_fn=collate_fn)\n    valid_dl = DataLoader(valid_ds, batch_size=32, shuffle=False, collate_fn=collate_fn)\n\n    best_loss = float(\"inf\")\n    for epoch in range(cfg.epochs):\n        train_loss, train_loss_scaled = train_epoch(model, train_dl, l2_log_loss, optimizer, device)\n        valid_loss, valid_loss_scaled, *acc = valid_epoch(model, valid_dl, l2_log_loss, device)\n        acc0, acc1, acc2, acc3 = acc\n        if valid_loss_scaled < best_loss:\n            path = f\"{os.getcwd()}/{cfg.substring}.ckpt\"\n            save_ckpt(model, path, cfg[cfg.model])\n            best_loss = valid_loss_scaled\n            logger.info(f\"saved checkpoint: {path}\")\n            logger.info(f\"[epoch {epoch}] train loss: {train_loss:.3f}, train scaled: {train_loss_scaled:.3f}\")\n            logger.info(f\"[epoch {epoch}] valid loss: {valid_loss:.3f}, valid scaled: {valid_loss_scaled:.3f}\")\n            logger.info(f\"acc: {acc0,acc1,acc2,acc3}\")\n\n\ndef train_epoch(model, loader, criterion, optimizer, device):\n    model.train()\n    epoch_loss = 0\n    epoch_loss_scaled = 0\n    for x, y, mask, _ in loader:\n        x, y, mask = x.to(device), y.to(device), mask.to(device)\n        yhat = model(x)\n        loss = criterion(yhat, y) * mask\n        loss = torch.mean(loss)\n        loss.backward()\n        nn.utils.clip_grad_norm_(model.parameters(), 1.0)\n        optimizer.step()\n        epoch_loss += loss.item()\n        # get normal scale loss\n        yhat_scaled = torch.exp(yhat) - 1\n        yhat_scaled = torch.round(yhat_scaled)\n        scaled_loss = torch.mean(torch.abs(yhat_scaled - y) * mask)\n        epoch_loss_scaled += scaled_loss.item()\n    return epoch_loss / len(loader), epoch_loss_scaled / len(loader)\n\n\ndef valid_epoch(model, loader, criterion, device):\n    model.eval()\n    epoch_loss = 0\n    epoch_loss_scaled = 0\n    acc = Accuracy()\n    for x, y, mask, _ in loader:\n        x, y, mask = x.to(device), y.to(device), mask.to(device)\n        yhat = model(x)\n        loss = criterion(yhat, y) * mask\n        loss = torch.mean(loss)\n        epoch_loss += loss.item()\n        # get normal scale loss\n        yhat_scaled = torch.exp(yhat) - 1\n        yhat_scaled = torch.round(yhat_scaled)\n        scaled_loss = torch.sum(torch.abs(yhat_scaled - y) * mask) / mask.sum()\n        acc.update(yhat_scaled[mask].view(-1).float(), y[mask].view(-1).float())\n        epoch_loss_scaled += scaled_loss.item()\n    logger.info(f\"example y: {y[0, :10].tolist()}\")\n    logger.info(f\"example yhat: {yhat_scaled[0, :10].tolist()}\")\n    acc0 = acc.acc(tol=0)\n    acc1 = acc.acc(tol=1)\n    acc2 = acc.acc(tol=2)\n    acc3 = acc.acc(tol=3)\n    logger.info(f\"accs: {acc0,acc1,acc2,acc3}\")\n    return epoch_loss / len(loader), epoch_loss_scaled / len(loader), acc0, acc1, acc2, acc3\n\n\n@hydra.main(config_path=\".\", config_name=\"duration_predictor.yaml\")\ndef main(cfg):\n    logger.info(f\"{cfg}\")\n    train(cfg)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/emotion_conversion/emotion_models/duration_predictor.yaml",
    "content": "train_tsv: \"<your-processed-data>/denoising/emov/train.tsv\" \ntrain_km:  \"<your-processed-data>/denoising/emov/train.km\" \nvalid_tsv: \"<your-processed-data>/denoising/emov/valid.tsv\" \nvalid_km:  \"<your-processed-data>/denoising/emov/valid.km\"\n\nn_tokens: 200\nbatch_size: 32\nlr: 0.0001\nepochs: 300\nmodel: \"cnn\"\nsubstring: \"\"\n\nrnn:\n  _target_: emotion_models.duration_predictor.RnnPredictor\n  n_tokens: ${n_tokens}\n  emb_dim: 128\n  rnn_hidden: 128\n  output_dim: 1\n  dropout: 0\n  n_layers: 1\n\noptimizer:\n  _target_: torch.optim.Adam\n  lr: ${lr}\n  betas: [0.9, 0.98]\n  eps: 0.000000001\n  weight_decay: 0\n\ncnn:\n  _target_: emotion_models.duration_predictor.CnnPredictor\n  n_tokens: ${n_tokens}\n  emb_dim: 128\n  channels: 256\n  kernel: 3\n  output_dim: 1\n  dropout: 0.5\n  n_layers: 1\n\nhydra:\n  run:\n    dir: /checkpoint/felixkreuk/experiments/duration_predictor/${hydra.job.override_dirname}\n  job:\n    config:\n      # configuration for the ${hydra.job.override_dirname} runtime variable\n      override_dirname:\n        kv_sep: '='\n        item_sep: ','\n        exclude_keys: ['train_tsv', 'train_km', 'valid_tsv', 'valid_km']\n"
  },
  {
    "path": "examples/emotion_conversion/emotion_models/pitch_predictor.py",
    "content": "import logging\nimport os\nimport random\nimport sys\nfrom collections import defaultdict\n\nimport hydra\nimport numpy as np\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom einops import rearrange\nfrom einops.layers.torch import Rearrange\nfrom scipy.io.wavfile import read\nfrom scipy.ndimage import gaussian_filter1d\nfrom torch.utils.data import DataLoader, Dataset\nfrom tqdm import tqdm\n\ndir_path = os.path.dirname(__file__)\nresynth_path = os.path.dirname(dir_path) + \"/speech-resynthesis\"\nsys.path.append(resynth_path)\nfrom dataset import parse_speaker, parse_style\nfrom .utils import F0Stat\n\nMAX_WAV_VALUE = 32768.0\nlogger = logging.getLogger(__name__)\n\n\ndef quantize_f0(speaker_to_f0, nbins, normalize, log):\n    f0_all = []\n    for speaker, f0 in speaker_to_f0.items():\n        f0 = f0.raw_data\n        if log:\n            f0 = f0.log()\n        mean = speaker_to_f0[speaker].mean_log if log else speaker_to_f0[speaker].mean\n        std = speaker_to_f0[speaker].std_log if log else speaker_to_f0[speaker].std\n        if normalize == \"mean\":\n            f0 = f0 - mean\n        elif normalize == \"meanstd\":\n            f0 = (f0 - mean) / std\n        f0_all.extend(f0.tolist())\n\n    hist, bin_x = np.histogram(f0_all, 100000)\n    cum_hist = np.cumsum(hist) / len(f0_all) * 100\n\n    bin_offset = []\n    bin_size = 100 / nbins\n    threshold = bin_size\n    for i in range(nbins - 1):\n        index = (np.abs(cum_hist - threshold)).argmin()\n        bin_offset.append(bin_x[index])\n        threshold += bin_size\n    bins = np.array(bin_offset)\n    bins = torch.FloatTensor(bins)\n\n    return bins\n\n\ndef save_ckpt(model, path, model_class, f0_min, f0_max, f0_bins, speaker_stats):\n    ckpt = {\n        \"state_dict\": model.state_dict(),\n        \"padding_token\": model.padding_token,\n        \"model_class\": model_class,\n        \"speaker_stats\": speaker_stats,\n        \"f0_min\": f0_min,\n        \"f0_max\": f0_max,\n        \"f0_bins\": f0_bins,\n    }\n    torch.save(ckpt, path)\n\n\ndef load_ckpt(path):\n    ckpt = torch.load(path)\n    ckpt[\"model_class\"][\"_target_\"] = \"emotion_models.pitch_predictor.CnnPredictor\"\n    model = hydra.utils.instantiate(ckpt[\"model_class\"])\n    model.load_state_dict(ckpt[\"state_dict\"])\n    model.setup_f0_stats(\n        ckpt[\"f0_min\"],\n        ckpt[\"f0_max\"],\n        ckpt[\"f0_bins\"],\n        ckpt[\"speaker_stats\"],\n    )\n    return model\n\n\ndef freq2bin(f0, f0_min, f0_max, bins):\n    f0 = f0.clone()\n    f0[f0 < f0_min] = f0_min\n    f0[f0 > f0_max] = f0_max\n    f0 = torch.bucketize(f0, bins)\n    return f0\n\n\ndef bin2freq(x, f0_min, f0_max, bins, mode):\n    n_bins = len(bins) + 1\n    assert x.shape[-1] == n_bins\n    bins = torch.cat([torch.tensor([f0_min]), bins]).to(x.device)\n    if mode == \"mean\":\n        f0 = (x * bins).sum(-1, keepdims=True) / x.sum(-1, keepdims=True)\n    elif mode == \"argmax\":\n        idx = F.one_hot(x.argmax(-1), num_classes=n_bins)\n        f0 = (idx * bins).sum(-1, keepdims=True)\n    else:\n        raise NotImplementedError()\n    return f0[..., 0]\n\n\ndef load_wav(full_path):\n    sampling_rate, data = read(full_path)\n    return data, sampling_rate\n\n\ndef l1_loss(input, target):\n    return F.l1_loss(input=input.float(), target=target.float(), reduce=False)\n\n\ndef l2_loss(input, target):\n    return F.mse_loss(input=input.float(), target=target.float(), reduce=False)\n\n\nclass Collator:\n    def __init__(self, padding_idx):\n        self.padding_idx = padding_idx\n\n    def __call__(self, batch):\n        tokens = [item[0] for item in batch]\n        lengths = [len(item) for item in tokens]\n        tokens = torch.nn.utils.rnn.pad_sequence(\n            tokens, batch_first=True, padding_value=self.padding_idx\n        )\n        f0 = [item[1] for item in batch]\n        f0 = torch.nn.utils.rnn.pad_sequence(\n            f0, batch_first=True, padding_value=self.padding_idx\n        )\n        f0_raw = [item[2] for item in batch]\n        f0_raw = torch.nn.utils.rnn.pad_sequence(\n            f0_raw, batch_first=True, padding_value=self.padding_idx\n        )\n        spk = [item[3] for item in batch]\n        spk = torch.LongTensor(spk)\n        gst = [item[4] for item in batch]\n        gst = torch.LongTensor(gst)\n        mask = tokens != self.padding_idx\n        return tokens, f0, f0_raw, spk, gst, mask, lengths\n\n\nclass CnnPredictor(nn.Module):\n    def __init__(\n        self,\n        n_tokens,\n        emb_dim,\n        channels,\n        kernel,\n        dropout,\n        n_layers,\n        spk_emb,\n        gst_emb,\n        n_bins,\n        f0_pred,\n        f0_log,\n        f0_norm,\n    ):\n        super(CnnPredictor, self).__init__()\n        self.n_tokens = n_tokens\n        self.emb_dim = emb_dim\n        self.f0_log = f0_log\n        self.f0_pred = f0_pred\n        self.padding_token = n_tokens\n        self.f0_norm = f0_norm\n        # add 1 extra embedding for padding token, set the padding index to be the last token\n        # (tokens from the clustering start at index 0)\n        self.token_emb = nn.Embedding(\n            n_tokens + 1, emb_dim, padding_idx=self.padding_token\n        )\n\n        self.spk_emb = spk_emb\n        self.gst_emb = nn.Embedding(20, gst_emb)\n        self.setup = False\n\n        feats = emb_dim + gst_emb\n        # feats = emb_dim + gst_emb + (256 if spk_emb else 0)\n        layers = [\n            nn.Sequential(\n                Rearrange(\"b t c -> b c t\"),\n                nn.Conv1d(\n                    feats, channels, kernel_size=kernel, padding=(kernel - 1) // 2\n                ),\n                Rearrange(\"b c t -> b t c\"),\n                nn.ReLU(),\n                nn.LayerNorm(channels),\n                nn.Dropout(dropout),\n            )\n        ]\n        for _ in range(n_layers - 1):\n            layers += [\n                nn.Sequential(\n                    Rearrange(\"b t c -> b c t\"),\n                    nn.Conv1d(\n                        channels,\n                        channels,\n                        kernel_size=kernel,\n                        padding=(kernel - 1) // 2,\n                    ),\n                    Rearrange(\"b c t -> b t c\"),\n                    nn.ReLU(),\n                    nn.LayerNorm(channels),\n                    nn.Dropout(dropout),\n                )\n            ]\n        self.conv_layer = nn.ModuleList(layers)\n        self.proj = nn.Linear(channels, n_bins)\n\n    def forward(self, x, gst=None):\n        x = self.token_emb(x)\n        feats = [x]\n\n        if gst is not None:\n            gst = self.gst_emb(gst)\n            gst = rearrange(gst, \"b c -> b c 1\")\n            gst = F.interpolate(gst, x.shape[1])\n            gst = rearrange(gst, \"b c t -> b t c\")\n            feats.append(gst)\n\n        x = torch.cat(feats, dim=-1)\n\n        for i, conv in enumerate(self.conv_layer):\n            if i != 0:\n                x = conv(x) + x\n            else:\n                x = conv(x)\n\n        x = self.proj(x)\n        x = x.squeeze(-1)\n\n        if self.f0_pred == \"mean\":\n            x = torch.sigmoid(x)\n        elif self.f0_pred == \"argmax\":\n            x = torch.softmax(x, dim=-1)\n        else:\n            raise NotImplementedError\n        return x\n\n    def setup_f0_stats(self, f0_min, f0_max, f0_bins, speaker_stats):\n        self.f0_min = f0_min\n        self.f0_max = f0_max\n        self.f0_bins = f0_bins\n        self.speaker_stats = speaker_stats\n        self.setup = True\n\n    def inference(self, x, spk_id=None, gst=None):\n        assert (\n            self.setup == True\n        ), \"make sure that `setup_f0_stats` was called before inference!\"\n        probs = self(x, gst)\n        f0 = bin2freq(probs, self.f0_min, self.f0_max, self.f0_bins, self.f0_pred)\n        for i in range(f0.shape[0]):\n            mean = (\n                self.speaker_stats[spk_id[i].item()].mean_log\n                if self.f0_log\n                else self.speaker_stats[spk_id[i].item()].mean\n            )\n            std = (\n                self.speaker_stats[spk_id[i].item()].std_log\n                if self.f0_log\n                else self.speaker_stats[spk_id[i].item()].std\n            )\n            if self.f0_norm == \"mean\":\n                f0[i] = f0[i] + mean\n            if self.f0_norm == \"meanstd\":\n                f0[i] = (f0[i] * std) + mean\n        if self.f0_log:\n            f0 = f0.exp()\n        return f0\n\n\nclass PitchDataset(Dataset):\n    def __init__(\n        self,\n        tsv_path,\n        km_path,\n        substring,\n        spk,\n        spk2id,\n        gst,\n        gst2id,\n        f0_bins,\n        f0_bin_type,\n        f0_smoothing,\n        f0_norm,\n        f0_log,\n    ):\n        lines = open(tsv_path, \"r\").readlines()\n        self.root, self.tsv = lines[0], lines[1:]\n        self.root = self.root.strip()\n        self.km = open(km_path, \"r\").readlines()\n        print(f\"loaded {len(self.km)} files\")\n\n        self.spk = spk\n        self.spk2id = spk2id\n        self.gst = gst\n        self.gst2id = gst2id\n\n        self.f0_bins = f0_bins\n        self.f0_smoothing = f0_smoothing\n        self.f0_norm = f0_norm\n        self.f0_log = f0_log\n\n        if substring != \"\":\n            tsv, km = [], []\n            for tsv_line, km_line in zip(self.tsv, self.km):\n                if substring.lower() in tsv_line.lower():\n                    tsv.append(tsv_line)\n                    km.append(km_line)\n            self.tsv, self.km = tsv, km\n            print(f\"after filtering: {len(self.km)} files\")\n\n        self.speaker_stats = self._compute_f0_stats()\n        self.f0_min, self.f0_max = self._compute_f0_minmax()\n        if f0_bin_type == \"adaptive\":\n            self.f0_bins = quantize_f0(\n                self.speaker_stats, self.f0_bins, self.f0_norm, self.f0_log\n            )\n        elif f0_bin_type == \"uniform\":\n            self.f0_bins = torch.linspace(self.f0_min, self.f0_max, self.f0_bins + 1)[\n                1:-1\n            ]\n        else:\n            raise NotImplementedError\n        print(f\"f0 min: {self.f0_min}, f0 max: {self.f0_max}\")\n        print(f\"bins: {self.f0_bins} (shape: {self.f0_bins.shape})\")\n\n    def __len__(self):\n        return len(self.km)\n\n    def _load_f0(self, tsv_line):\n        tsv_line = tsv_line.split(\"\\t\")[0]\n        f0 = self.root + \"/\" + tsv_line.replace(\".wav\", \".yaapt.f0.npy\")\n        f0 = np.load(f0)\n        f0 = torch.FloatTensor(f0)\n        return f0\n\n    def _preprocess_f0(self, f0, spk):\n        mask = f0 != -999999  # process all frames\n        # mask = (f0 != 0)  # only process voiced frames\n        mean = (\n            self.speaker_stats[spk].mean_log\n            if self.f0_log\n            else self.speaker_stats[spk].mean\n        )\n        std = (\n            self.speaker_stats[spk].std_log\n            if self.f0_log\n            else self.speaker_stats[spk].std\n        )\n        if self.f0_log:\n            f0[f0 == 0] = 1e-5\n            f0[mask] = f0[mask].log()\n        if self.f0_norm == \"mean\":\n            f0[mask] = f0[mask] - mean\n        if self.f0_norm == \"meanstd\":\n            f0[mask] = (f0[mask] - mean) / std\n        return f0\n\n    def _compute_f0_minmax(self):\n        f0_min, f0_max = float(\"inf\"), -float(\"inf\")\n        for tsv_line in tqdm(self.tsv, desc=\"computing f0 minmax\"):\n            spk = self.spk2id[parse_speaker(tsv_line, self.spk)]\n            f0 = self._load_f0(tsv_line)\n            f0 = self._preprocess_f0(f0, spk)\n            f0_min = min(f0_min, f0.min().item())\n            f0_max = max(f0_max, f0.max().item())\n        return f0_min, f0_max\n\n    def _compute_f0_stats(self):\n        from functools import partial\n\n        speaker_stats = defaultdict(partial(F0Stat, True))\n        for tsv_line in tqdm(self.tsv, desc=\"computing speaker stats\"):\n            spk = self.spk2id[parse_speaker(tsv_line, self.spk)]\n            f0 = self._load_f0(tsv_line)\n            mask = f0 != 0\n            f0 = f0[mask]  # compute stats only on voiced parts\n            speaker_stats[spk].update(f0)\n        return speaker_stats\n\n    def __getitem__(self, i):\n        x = self.km[i]\n        x = x.split(\" \")\n        x = list(map(int, x))\n        x = torch.LongTensor(x)\n\n        gst = parse_style(self.tsv[i], self.gst)\n        gst = self.gst2id[gst]\n        spk = parse_speaker(self.tsv[i], self.spk)\n        spk = self.spk2id[spk]\n\n        f0_raw = self._load_f0(self.tsv[i])\n        f0 = self._preprocess_f0(f0_raw.clone(), spk)\n\n        f0 = F.interpolate(f0.unsqueeze(0).unsqueeze(0), x.shape[0])[0, 0]\n        f0_raw = F.interpolate(f0_raw.unsqueeze(0).unsqueeze(0), x.shape[0])[0, 0]\n\n        f0 = freq2bin(f0, f0_min=self.f0_min, f0_max=self.f0_max, bins=self.f0_bins)\n        f0 = F.one_hot(f0.long(), num_classes=len(self.f0_bins) + 1).float()\n        if self.f0_smoothing > 0:\n            f0 = torch.tensor(\n                gaussian_filter1d(f0.float().numpy(), sigma=self.f0_smoothing)\n            )\n        return x, f0, f0_raw, spk, gst\n\n\ndef train(cfg):\n    device = \"cuda:0\"\n    # add 1 extra embedding for padding token, set the padding index to be the last token\n    # (tokens from the clustering start at index 0)\n    padding_token = cfg.n_tokens\n    collate_fn = Collator(padding_idx=padding_token)\n    train_ds = PitchDataset(\n        cfg.train_tsv,\n        cfg.train_km,\n        substring=cfg.substring,\n        spk=cfg.spk,\n        spk2id=cfg.spk2id,\n        gst=cfg.gst,\n        gst2id=cfg.gst2id,\n        f0_bins=cfg.f0_bins,\n        f0_bin_type=cfg.f0_bin_type,\n        f0_smoothing=cfg.f0_smoothing,\n        f0_norm=cfg.f0_norm,\n        f0_log=cfg.f0_log,\n    )\n    valid_ds = PitchDataset(\n        cfg.valid_tsv,\n        cfg.valid_km,\n        substring=cfg.substring,\n        spk=cfg.spk,\n        spk2id=cfg.spk2id,\n        gst=cfg.gst,\n        gst2id=cfg.gst2id,\n        f0_bins=cfg.f0_bins,\n        f0_bin_type=cfg.f0_bin_type,\n        f0_smoothing=cfg.f0_smoothing,\n        f0_norm=cfg.f0_norm,\n        f0_log=cfg.f0_log,\n    )\n    train_dl = DataLoader(\n        train_ds,\n        num_workers=0,\n        batch_size=cfg.batch_size,\n        shuffle=True,\n        collate_fn=collate_fn,\n    )\n    valid_dl = DataLoader(\n        valid_ds, num_workers=0, batch_size=16, shuffle=False, collate_fn=collate_fn\n    )\n\n    f0_min = train_ds.f0_min\n    f0_max = train_ds.f0_max\n    f0_bins = train_ds.f0_bins\n    speaker_stats = train_ds.speaker_stats\n\n    model = hydra.utils.instantiate(cfg[\"model\"]).to(device)\n    model.setup_f0_stats(f0_min, f0_max, f0_bins, speaker_stats)\n\n    optimizer = hydra.utils.instantiate(cfg.optimizer, model.parameters())\n\n    best_loss = float(\"inf\")\n    for epoch in range(cfg.epochs):\n        train_loss, train_l2_loss, train_l2_voiced_loss = run_epoch(\n            model, train_dl, optimizer, device, cfg, mode=\"train\"\n        )\n        valid_loss, valid_l2_loss, valid_l2_voiced_loss = run_epoch(\n            model, valid_dl, None, device, cfg, mode=\"valid\"\n        )\n        print(\n            f\"[epoch {epoch}] train loss: {train_loss:.3f}, l2 loss: {train_l2_loss:.3f}, l2 voiced loss: {train_l2_voiced_loss:.3f}\"\n        )\n        print(\n            f\"[epoch {epoch}] valid loss: {valid_loss:.3f}, l2 loss: {valid_l2_loss:.3f}, l2 voiced loss: {valid_l2_voiced_loss:.3f}\"\n        )\n        if valid_l2_voiced_loss < best_loss:\n            path = f\"{os.getcwd()}/pitch_predictor.ckpt\"\n            save_ckpt(model, path, cfg[\"model\"], f0_min, f0_max, f0_bins, speaker_stats)\n            best_loss = valid_l2_voiced_loss\n            print(f\"saved checkpoint: {path}\")\n        print(f\"[epoch {epoch}] best loss: {best_loss:.3f}\")\n\n\ndef run_epoch(model, loader, optimizer, device, cfg, mode):\n    if mode == \"train\":\n        model.train()\n    else:\n        model.eval()\n\n    epoch_loss = 0\n    l1 = 0\n    l1_voiced = 0\n    for x, f0_bin, f0_raw, spk_id, gst, mask, _ in tqdm(loader):\n        x, f0_bin, f0_raw, spk_id, gst, mask = (\n            x.to(device),\n            f0_bin.to(device),\n            f0_raw.to(device),\n            spk_id.to(device),\n            gst.to(device),\n            mask.to(device),\n        )\n        b, t, n_bins = f0_bin.shape\n        yhat = model(x, gst)\n        nonzero_mask = (f0_raw != 0).logical_and(mask)\n        yhat_raw = model.inference(x, spk_id, gst)\n        expanded_mask = mask.unsqueeze(-1).expand(-1, -1, n_bins)\n        if cfg.f0_pred == \"mean\":\n            loss = F.binary_cross_entropy(\n                yhat[expanded_mask], f0_bin[expanded_mask]\n            ).mean()\n        elif cfg.f0_pred == \"argmax\":\n            loss = F.cross_entropy(\n                rearrange(yhat, \"b t d -> (b t) d\"),\n                rearrange(f0_bin.argmax(-1), \"b t -> (b t)\"),\n                reduce=False,\n            )\n            loss = rearrange(loss, \"(b t) -> b t\", b=b, t=t)\n            loss = (loss * mask).sum() / mask.float().sum()\n        else:\n            raise NotImplementedError\n        l1 += F.l1_loss(yhat_raw[mask], f0_raw[mask]).item()\n        l1_voiced += F.l1_loss(yhat_raw[nonzero_mask], f0_raw[nonzero_mask]).item()\n        epoch_loss += loss.item()\n\n        if mode == \"train\":\n            loss.backward()\n            nn.utils.clip_grad_norm_(model.parameters(), 1.0)\n            optimizer.step()\n\n    print(f\"{mode} example    y: {f0_bin.argmax(-1)[0, 50:60].tolist()}\")\n    print(f\"{mode} example yhat: {yhat.argmax(-1)[0, 50:60].tolist()}\")\n    print(f\"{mode} example    y: {f0_raw[0, 50:60].round().tolist()}\")\n    print(f\"{mode} example yhat: {yhat_raw[0, 50:60].round().tolist()}\")\n    return epoch_loss / len(loader), l1 / len(loader), l1_voiced / len(loader)\n\n\n@hydra.main(config_path=dir_path, config_name=\"pitch_predictor.yaml\")\ndef main(cfg):\n    np.random.seed(1)\n    random.seed(1)\n    torch.manual_seed(1)\n    from hydra.core.hydra_config import HydraConfig\n\n    overrides = {\n        x.split(\"=\")[0]: x.split(\"=\")[1]\n        for x in HydraConfig.get().overrides.task\n        if \"/\" not in x\n    }\n    print(f\"{cfg}\")\n    train(cfg)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/emotion_conversion/emotion_models/pitch_predictor.yaml",
    "content": "train_tsv: \"<your-processed-data>/denoising/emov/train.tsv\" \ntrain_km:  \"<your-processed-data>/denoising/emov/train.km\" \nvalid_tsv: \"<your-processed-data>/denoising/emov/valid.tsv\" \nvalid_km:  \"<your-processed-data>/denoising/emov/valid.km\"\n\nn_tokens: 200\nbatch_size: 64\nlr: 0.0001\nepochs: 1000\n\nsubstring: \"\"\nloss: \"l2\"\nspk: \"parent_parent_name\"\ngst: \"emotion\"\n\nf0_bins: 50\nf0_pred: \"mean\" # [argmax, mean]\nf0_smoothing: 0.1\nf0_norm: \"mean\"\nf0_log: false\nf0_bin_type: \"adaptive\" # [uniform, adaptive]\n\nspk2id:\n  bea: 0\n  jenie: 1\n  josh: 2\n  sam: 3\n\ngst2id:\n  amused: 0\n  angry: 1\n  disgusted: 2\n  neutral: 3\n  sleepy: 4\n\noptimizer:\n  _target_: torch.optim.Adam\n  lr: ${lr}\n\nmodel:\n  _target_: emotion_models.pitch_predictor.CnnPredictor\n  n_tokens: ${n_tokens}\n  emb_dim: 256\n  channels: 256\n  kernel: 5\n  dropout: 0.1\n  n_layers: 6\n  spk_emb: true\n  gst_emb: 8\n  n_bins: ${f0_bins}\n  f0_pred: ${f0_pred}\n  f0_log: ${f0_log}\n  f0_norm: ${f0_norm}\n\nhydra:\n  run:\n    dir: /checkpoint/felixkreuk/experiments/pitch_predictor/${hydra.job.override_dirname}\n  job:\n    config:\n      # configuration for the ${hydra.job.override_dirname} runtime variable\n      override_dirname:\n        kv_sep: '='\n        item_sep: ','\n        exclude_keys: ['train_tsv', 'train_km', 'valid_tsv', 'valid_km']\n"
  },
  {
    "path": "examples/emotion_conversion/emotion_models/utils.py",
    "content": "import torch\n\n\nclass Stat:\n    def __init__(self, keep_raw=False):\n        self.x = 0.0\n        self.x2 = 0.0\n        self.z = 0.0  # z = logx\n        self.z2 = 0.0\n        self.n = 0.0\n        self.u = 0.0\n        self.keep_raw = keep_raw\n        self.raw = []\n\n    def update(self, new_x):\n        new_z = new_x.log()\n\n        self.x += new_x.sum()\n        self.x2 += (new_x**2).sum()\n        self.z += new_z.sum()\n        self.z2 += (new_z**2).sum()\n        self.n += len(new_x)\n        self.u += 1\n\n        if self.keep_raw:\n            self.raw.append(new_x)\n\n    @property\n    def mean(self):\n        return self.x / self.n\n\n    @property\n    def std(self):\n        return (self.x2 / self.n - self.mean**2) ** 0.5\n\n    @property\n    def mean_log(self):\n        return self.z / self.n\n\n    @property\n    def std_log(self):\n        return (self.z2 / self.n - self.mean_log**2) ** 0.5\n\n    @property\n    def n_frms(self):\n        return self.n\n\n    @property\n    def n_utts(self):\n        return self.u\n\n    @property\n    def raw_data(self):\n        assert self.keep_raw, \"does not support storing raw data!\"\n        return torch.cat(self.raw)\n\n\nclass F0Stat(Stat):\n    def update(self, new_x):\n        # assume unvoiced frames are 0 and consider only voiced frames\n        if new_x is not None:\n            super().update(new_x[new_x != 0])\n\n\nclass Accuracy:\n    def __init__(self):\n        self.y, self.yhat = [], []\n\n    def update(self, yhat, y):\n        self.yhat.append(yhat)\n        self.y.append(y)\n\n    def acc(self, tol):\n        yhat = torch.cat(self.yhat)\n        y = torch.cat(self.y)\n        acc = torch.abs(yhat - y) <= tol\n        acc = acc.float().mean().item()\n        return acc\n"
  },
  {
    "path": "examples/emotion_conversion/fairseq_models/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq import utils\nfrom fairseq.models import (\n    FairseqMultiModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.transformer import (\n    Embedding,\n    base_architecture,\n)\nfrom fairseq.models.multilingual_transformer import (\n    MultilingualTransformerModel,\n    base_multilingual_architecture,\n)\nfrom fairseq.utils import safe_hasattr\nfrom collections import OrderedDict\n\n\n@register_model(\"multilingual_transformer_from_mbart\")\nclass MultilingualTransformerModelFromMbart(MultilingualTransformerModel):\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        from fairseq.tasks.multilingual_translation import MultilingualTranslationTask\n\n        assert isinstance(task, MultilingualTranslationTask)\n\n        # make sure all arguments are present in older models\n        base_multilingual_architecture(args)\n\n        if not safe_hasattr(args, \"max_source_positions\"):\n            args.max_source_positions = 1024\n        if not safe_hasattr(args, \"max_target_positions\"):\n            args.max_target_positions = 1024\n\n        src_langs = [lang_pair.split(\"-\")[0] for lang_pair in task.model_lang_pairs]\n        tgt_langs = [lang_pair.split(\"-\")[1] for lang_pair in task.model_lang_pairs]\n\n        if args.share_encoders:\n            args.share_encoder_embeddings = True\n        if args.share_decoders:\n            args.share_decoder_embeddings = True\n\n        def build_embedding(dictionary, embed_dim, path=None):\n            num_embeddings = len(dictionary)\n            padding_idx = dictionary.pad()\n            emb = Embedding(num_embeddings, embed_dim, padding_idx)\n            # if provided, load from preloaded dictionaries\n            if path:\n                embed_dict = utils.parse_embedding(path)\n                utils.load_embedding(embed_dict, dictionary, emb)\n            return emb\n\n        # build shared embeddings (if applicable)\n        shared_encoder_embed_tokens, shared_decoder_embed_tokens = None, None\n        if args.share_all_embeddings:\n            if args.encoder_embed_dim != args.decoder_embed_dim:\n                raise ValueError(\n                    \"--share-all-embeddings requires --encoder-embed-dim to match --decoder-embed-dim\"\n                )\n            if args.decoder_embed_path and (\n                args.decoder_embed_path != args.encoder_embed_path\n            ):\n                raise ValueError(\n                    \"--share-all-embeddings not compatible with --decoder-embed-path\"\n                )\n            shared_encoder_embed_tokens = FairseqMultiModel.build_shared_embeddings(\n                dicts=task.dicts,\n                langs=task.langs,\n                embed_dim=args.encoder_embed_dim,\n                build_embedding=build_embedding,\n                pretrained_embed_path=args.encoder_embed_path,\n            )\n            shared_decoder_embed_tokens = shared_encoder_embed_tokens\n            args.share_decoder_input_output_embed = True\n        else:\n            if args.share_encoder_embeddings:\n                shared_encoder_embed_tokens = FairseqMultiModel.build_shared_embeddings(\n                    dicts=task.dicts,\n                    langs=src_langs,\n                    embed_dim=args.encoder_embed_dim,\n                    build_embedding=build_embedding,\n                    pretrained_embed_path=args.encoder_embed_path,\n                )\n            if args.share_decoder_embeddings:\n                shared_decoder_embed_tokens = FairseqMultiModel.build_shared_embeddings(\n                    dicts=task.dicts,\n                    langs=tgt_langs,\n                    embed_dim=args.decoder_embed_dim,\n                    build_embedding=build_embedding,\n                    pretrained_embed_path=args.decoder_embed_path,\n                )\n\n        # encoders/decoders for each language\n        lang_encoders, lang_decoders = {}, {}\n\n        def get_encoder(lang):\n            if lang not in lang_encoders:\n                if shared_encoder_embed_tokens is not None:\n                    encoder_embed_tokens = shared_encoder_embed_tokens\n                else:\n                    encoder_embed_tokens = build_embedding(\n                        task.dicts[lang],\n                        args.encoder_embed_dim,\n                        args.encoder_embed_path,\n                    )\n                lang_encoders[lang] = MultilingualTransformerModel._get_module_class(\n                    True, args, task.dicts[lang], encoder_embed_tokens, src_langs\n                )\n            return lang_encoders[lang]\n\n        def get_decoder(lang):\n            if lang not in lang_decoders:\n                if shared_decoder_embed_tokens is not None:\n                    decoder_embed_tokens = shared_decoder_embed_tokens\n                else:\n                    decoder_embed_tokens = build_embedding(\n                        task.dicts[lang],\n                        args.decoder_embed_dim,\n                        args.decoder_embed_path,\n                    )\n                lang_decoders[lang] = MultilingualTransformerModel._get_module_class(\n                    False, args, task.dicts[lang], decoder_embed_tokens, tgt_langs\n                )\n            return lang_decoders[lang]\n\n        # shared encoders/decoders (if applicable)\n        shared_encoder, shared_decoder = None, None\n        if args.share_encoders:\n            shared_encoder = get_encoder(src_langs[0])\n        if args.share_decoders:\n            shared_decoder = get_decoder(tgt_langs[0])\n\n        encoders, decoders = OrderedDict(), OrderedDict()\n        for lang_pair, src, tgt in zip(task.model_lang_pairs, src_langs, tgt_langs):\n            encoders[lang_pair] = (\n                shared_encoder if shared_encoder is not None else get_encoder(src)\n            )\n            decoders[lang_pair] = (\n                shared_decoder if shared_decoder is not None else get_decoder(tgt)\n            )\n\n        return MultilingualTransformerModelFromMbart(encoders, decoders)\n\n    def load_state_dict(self, state_dict, strict=True, model_cfg=None):\n        state_dict_subset = state_dict.copy()\n        lang_pairs = set([x.split(\".\")[1] for x in state_dict.keys()])\n        finetune_mode = not any(\"neutral\" in lp for lp in lang_pairs)\n\n        if finetune_mode:\n            # load a pre-trained mBART/BART model\n            # we need this code because mBART/BART are not of type FairseqMultiModel but FairseqModel\n            # so we hackishly load the weights by replicating them for all lang pairs\n            print(\"loading pre-trained BART\")\n            self_state_dict = self.state_dict()\n            for k, v in state_dict.items():\n                for lang_pair in self.models:\n                    new_key = k if \"models.\" in k else f\"models.{lang_pair}.{k}\"\n                    # print(new_key)\n                    if self_state_dict[new_key].shape == v.shape:\n                        state_dict_subset[new_key] = v\n                    elif any(\n                        w in k\n                        for w in [\n                            \"encoder.embed_tokens.weight\",\n                            \"decoder.embed_tokens.weight\",\n                            \"decoder.output_projection.weight\",\n                        ]\n                    ):\n                        # why vocab_size - 5? because there are `vocab_size` tokens from the language\n                        # and 5 additional tokens in the denoising task: eos,bos,pad,unk,mask.\n                        # but in the translation task there are only `vocab_size` + 4 (no mask).\n                        print(\n                            f\"{k}: {self_state_dict[new_key].shape} != {v.shape}\",\n                            end=\"\",\n                            flush=True,\n                        )\n                        vocab_size = v.shape[0] - 5\n                        state_dict_subset[new_key] = self_state_dict[new_key]\n                        state_dict_subset[new_key] = v[: vocab_size + 4]\n                        print(f\" => fixed by using first {vocab_size + 4} dims\")\n                    else:\n                        raise ValueError(\"unable to load model due to mimatched dims!\")\n                del state_dict_subset[k]\n        else:\n            print(\"loading pre-trained emotion translation model\")\n            for k, _ in state_dict.items():\n                assert k.startswith(\"models.\")\n                lang_pair = k.split(\".\")[1]\n                if lang_pair not in self.models:\n                    del state_dict_subset[k]\n\n        super().load_state_dict(state_dict_subset, strict=strict, model_cfg=model_cfg)\n\n\n@register_model_architecture(\"transformer\", \"transformer_small\")\ndef transformer_small(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 512)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 3)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 512)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 4)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 3)\n    base_architecture(args)\n\n\n@register_model_architecture(\n    \"multilingual_transformer_from_mbart\", \"multilingual_small\"\n)\ndef multilingual_small(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 512)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 3)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 512)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 4)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 3)\n    base_multilingual_architecture(args)\n"
  },
  {
    "path": "examples/emotion_conversion/preprocess/__init__.py",
    "content": ""
  },
  {
    "path": "examples/emotion_conversion/preprocess/build_hifigan_manifest.py",
    "content": "import torchaudio\nimport argparse\nimport json\n\ndef main():\n    parser = argparse.ArgumentParser(description=\"example: python create_hifigan_manifest.py --tsv /checkpoint/felixkreuk/datasets/vctk/splits/vctk_16khz/train.tsv --km /checkpoint/felixkreuk/experiments/hubert/hubert_feats/vctk_16khz_km_100/train.km --km_type hubert_100km > ~/tmp/tmp_mani.txt\")\n    parser.add_argument(\"--tsv\", required=True, help=\"path to fairseq tsv file\")\n    parser.add_argument(\"--km\", required=True, help=\"path to a km file generated by HuBERT clustering\")\n    parser.add_argument(\"--km_type\", required=True, help=\"name of the codes in the output json (for example: 'cpc_100km')\")\n    args = parser.parse_args()\n\n    km_lines = open(args.km, \"r\").readlines()\n    tsv_lines = open(args.tsv, \"r\").readlines()\n    assert len(km_lines) == len(tsv_lines) - 1, \"tsv and km files are not of the same length!\"\n\n    wav_root = tsv_lines[0].strip()\n    tsv_lines = tsv_lines[1:]\n\n    for tsv_line, km_line in zip(tsv_lines, km_lines):\n        tsv_line, km_line = tsv_line.strip(), km_line.strip()\n        wav_basename, wav_num_frames = tsv_line.split(\"\\t\")\n        wav_path = wav_root + \"/\" + wav_basename\n        wav_info = torchaudio.info(wav_path)\n        assert int(wav_num_frames) == wav_info.num_frames, \"tsv duration and actual duration don't match!\"\n        wav_duration = wav_info.num_frames / wav_info.sample_rate\n        manifest_line = {\"audio\": wav_path, \"duration\": wav_duration, args.km_type: km_line}\n        print(json.dumps(manifest_line))\n\nif __name__ == \"__main__\":\n    \"\"\"\n    usage:\n    python create_hifigan_manifest.py \\\n            --tsv /checkpoint/felixkreuk/datasets/vctk/manifests/vctk_16khz/valid.tsv \\\n            --km /checkpoint/felixkreuk/datasets/vctk/manifests/vctk_16khz/hubert_km_100/valid.km \\\n            --km_type hubert \\\n            > /checkpoint/felixkreuk/datasets/vctk/manifests/vctk_16khz/hubert_km_100/hifigan_valid_manifest.txt\n    \"\"\"\n    main()\n"
  },
  {
    "path": "examples/emotion_conversion/preprocess/build_translation_manifests.py",
    "content": "from glob import glob\nimport argparse\nfrom collections import defaultdict, Counter\nfrom itertools import combinations, product, groupby\nfrom pathlib import Path\nimport os\nfrom sklearn.utils import shuffle\nimport numpy as np\nimport random\nfrom shutil import copy\nfrom subprocess import check_call\n\nnp.random.seed(42)\nrandom.seed(42)\n\n\ndef get_fname(s):\n    return s.split(\"\\t\")[0]\n\ndef get_emotion(s):\n    return get_fname(s).split(\"_\")[0].split(\"/\")[1].lower()\n\ndef get_utt_id(s):\n    return get_fname(s).split(\".\")[0].split(\"_\")[-1]\n\ndef dedup(seq):\n    \"\"\" >> remove_repetitions(\"1 2 2 3 100 2 2 1\")\n    '1 2 3 100 2 1' \"\"\"\n    seq = seq.strip().split(\" \")\n    result = seq[:1]\n    reps = []\n    rep_counter = 1\n    for k in seq[1:]:\n        if k != result[-1]:\n            result += [k]\n            reps += [rep_counter]\n            rep_counter = 1\n        else:\n            rep_counter += 1\n    reps += [rep_counter]\n    assert len(reps) == len(result) and sum(reps) == len(seq)\n    return \" \".join(result) + \"\\n\" #, reps\n\ndef remove_under_k(seq, k):\n    \"\"\" remove tokens that repeat less then k times in a row\n    >> remove_under_k(\"a a a a b c c c\", 1) ==> a a a a c c c \"\"\"\n    seq = seq.strip().split(\" \")\n    result = []\n\n    freqs = [(k,len(list(g))) for k, g in groupby(seq)]\n    for c, f in freqs:\n        if f > k:\n            result += [c for _ in range(f)]\n    return \" \".join(result) + \"\\n\" #, reps\n\n\ndef call(cmd):\n    print(cmd)\n    check_call(cmd, shell=True)\n\n\ndef denoising_preprocess(path, lang, dict):\n    bin = 'fairseq-preprocess'\n    cmd = [\n        bin,\n        f'--trainpref {path}/train.{lang} --validpref {path}/valid.{lang} --testpref {path}/test.{lang}',\n        f'--destdir {path}/tokenized/{lang}',\n        '--only-source',\n        '--task multilingual_denoising',\n        '--workers 40',\n    ]\n    if dict != \"\":\n        cmd += [f'--srcdict {dict}']\n    cmd = \" \".join(cmd)\n    call(cmd)\n\n\ndef translation_preprocess(path, src_lang, trg_lang, dict, only_train=False):\n    bin = 'fairseq-preprocess'\n    cmd = [\n        bin,\n        f'--source-lang {src_lang} --target-lang {trg_lang}',\n        f'--trainpref {path}/train',\n        f'--destdir {path}/tokenized',\n        '--workers 40',\n    ]\n    if not only_train:\n        cmd += [f'--validpref {path}/valid --testpref {path}/test']\n    if dict != \"\":\n        cmd += [\n            f'--srcdict {dict}',\n            f'--tgtdict {dict}',\n        ]\n    cmd = \" \".join(cmd)\n    call(cmd)\n\n\ndef load_tsv_km(tsv_path, km_path):\n    assert tsv_path.exists() and km_path.exists()\n    tsv_lines = open(tsv_path, \"r\").readlines()\n    root, tsv_lines = tsv_lines[0], tsv_lines[1:]\n    km_lines = open(km_path, \"r\").readlines()\n    assert len(tsv_lines) == len(km_lines), \".tsv and .km should be the same length!\"\n    return root, tsv_lines, km_lines\n\n\ndef main():\n    desc = \"\"\"\n    this script takes as input .tsv and .km files for EMOV dataset, and a pairs of emotions.\n    it generates parallel .tsv and .km files for these emotions. for exmaple:\n    ❯ python build_emov_translation_manifests.py \\\n            /checkpoint/felixkreuk/datasets/emov/manifests/emov_16khz/train.tsv \\\n            /checkpoint/felixkreuk/datasets/emov/manifests/emov_16khz/emov_16khz_km_100/train.km \\\n            ~/tmp/emov_pairs \\\n            --src-emotion amused --trg-emotion neutral \\\n            --dedup --shuffle --cross-speaker --dry-run\n    \"\"\"\n    parser = argparse.ArgumentParser(description=desc)\n    parser.add_argument(\"data\", type=Path, help=\"path to a dir containing .tsv and .km files containing emov dataset\")\n    parser.add_argument(\"output_path\", type=Path, help=\"output directory with the manifests will be created\")\n    parser.add_argument(\"-cs\", \"--cross-speaker\", action='store_true', help=\"if set then translation will occur also between speakers, meaning the same sentence can be translated between different speakers (default: false)\")\n    parser.add_argument(\"-dd\", \"--dedup\", action='store_true', help=\"remove repeated tokens (example: 'aaabc=>abc')\")\n    parser.add_argument(\"-sh\", \"--shuffle\", action='store_true', help=\"shuffle the data\")\n    parser.add_argument(\"-ae\", \"--autoencode\", action='store_true', help=\"include training pairs from the same emotion (this includes examples of the same sentence uttered by different people and examples where the src and trg are the exact same seq)\")\n    parser.add_argument(\"-dr\", \"--dry-run\", action='store_true', help=\"don't write anything to disk\")\n    parser.add_argument(\"-zs\", \"--zero-shot\", action='store_true', help=\"if true, the denoising task will train on the same splits as the translation task (split by utterance id). if false, the denoising task will train on randomly sampled splits (not split by utterance id)\")\n    parser.add_argument(\"--km-ext\", default=\"km\", help=\"\")\n    parser.add_argument(\"--dict\", default=\"/checkpoint/felixkreuk/datasets/emov/manifests/emov_16khz/fairseq.dict.txt\", help=\"\")\n    args = parser.parse_args()\n    SPEAKERS = [\"bea\", \"jenie\", \"josh\", \"sam\", \"SAME\"]\n    EMOTIONS = ['neutral', 'amused', 'angry', 'disgusted', 'sleepy']\n\n    suffix = \"\"\n    if args.cross_speaker: suffix += \"_cross-speaker\"\n    if args.dedup: suffix += \"_dedup\"\n    translation_suffix = \"\"\n    if args.autoencode: translation_suffix += \"_autoencode\"\n    denoising_suffix = \"\"\n    denoising_suffix += \"_zeroshot\" if args.zero_shot else \"_nonzeroshot\"\n\n    translation_dir = Path(args.output_path) / (\"emov_multilingual_translation\" + suffix + translation_suffix)\n    os.makedirs(translation_dir, exist_ok=True)\n    denoising_dir = Path(args.output_path) / (\"emov_multilingual_denoising\" + suffix + denoising_suffix)\n    os.makedirs(denoising_dir, exist_ok=True)\n\n    denoising_data = [p.name for p in (args.data / \"denoising\").glob(\"*\") if \"emov\" not in p.name]\n\n    for split in [\"train\", \"valid\", \"test\"]:\n        root, tsv_lines, km_lines = load_tsv_km(\n            tsv_path = args.data / \"denoising\" / \"emov\" / f\"{split}.tsv\",\n            km_path = args.data / \"denoising\" / \"emov\" / f\"{split}.{args.km_ext}\"\n        )\n\n        # generate data for the multilingual denoising task\n        for EMOTION in EMOTIONS:\n            print(\"---\")\n            print(split)\n            print(f\"denoising: {EMOTION}\")\n            emotion_tsv, emotion_km = [], []\n            for tsv_line, km_line in zip(tsv_lines, km_lines):\n                if EMOTION.lower() in tsv_line.lower():\n                    km_line = km_line if not args.dedup else dedup(km_line)\n                    emotion_tsv.append(tsv_line)\n                    emotion_km.append(km_line)\n            print(f\"{len(emotion_km)} samples\")\n            open(denoising_dir / f\"files.{split}.{EMOTION}\", \"w\").writelines([root] + emotion_tsv)\n            open(denoising_dir / f\"{split}.{EMOTION}\", \"w\").writelines(emotion_km)\n\n        for data in denoising_data:\n            with open(args.data / \"denoising\" / data / f\"{split}.{args.km_ext}\", \"r\") as f1:\n                with open(denoising_dir / f\"{split}.{data}\", \"w\") as f2:\n                    f2.writelines([l if not args.dedup else dedup(l) for l in f1.readlines()])\n\n        # start of translation preprocessing\n        root, tsv_lines, km_lines = load_tsv_km(\n            tsv_path = args.data / \"translation\" / f\"{split}.tsv\",\n            km_path = args.data / \"translation\" / f\"{split}.{args.km_ext}\"\n        )\n\n        # generate data for the multilingual translation task\n        for SRC_EMOTION in EMOTIONS:\n            TRG_EMOTIONS = EMOTIONS if args.autoencode else set(EMOTIONS) - set([SRC_EMOTION])\n            for TRG_EMOTION in TRG_EMOTIONS:\n                # when translating back to the same emotion - we dont want these emotion\n                # pairs to be part of the validation/test sets (because its not really emotion conversino)\n                #  if SRC_EMOTION == TRG_EMOTION and split in [\"valid\", \"test\"]: continue\n                print(\"---\")\n                print(split)\n                print(f\"src emotions: {SRC_EMOTION}\\ntrg emotions: {TRG_EMOTION}\")\n\n                # create a dictionary with the following structure:\n                # output[SPEAKER][UTT_ID] = list with indexes of line from the tsv file\n                # that match the speaker and utterance id. for exmaple:\n                # output = {'sam': {'0493': [875, 1608, 1822], ...}, ...}\n                # meaning, for speaker 'sam', utterance id '0493', the indexes in tsv_lines\n                # are 875, 1608, 1822\n                spkr2utts = defaultdict(lambda: defaultdict(list))\n                for i, tsv_line in enumerate(tsv_lines):\n                    speaker = tsv_line.split(\"/\")[0]\n                    if args.cross_speaker: speaker = \"SAME\"\n                    assert speaker in SPEAKERS, \"unknown speaker! make sure the .tsv contains EMOV data\"\n                    utt_id = get_utt_id(tsv_line)\n                    spkr2utts[speaker][utt_id].append(i)\n\n                # create a tsv and km files with all the combinations for translation\n                src_tsv, trg_tsv, src_km, trg_km = [], [], [], []\n                for speaker, utt_ids in spkr2utts.items():\n                    for utt_id, indices in utt_ids.items():\n                        # generate all pairs\n                        pairs = [(x,y) for x in indices for y in indices]\n                        # self-translation \n                        if SRC_EMOTION == TRG_EMOTION:\n                            pairs = [(x,y) for (x,y) in pairs if x == y]\n                        # filter according to src and trg emotions\n                        pairs = [(x,y) for (x,y) in pairs \n                                if get_emotion(tsv_lines[x]) == SRC_EMOTION and get_emotion(tsv_lines[y]) == TRG_EMOTION]\n\n                        for idx1, idx2 in pairs:\n                            assert get_utt_id(tsv_lines[idx1]) == get_utt_id(tsv_lines[idx2])\n                            src_tsv.append(tsv_lines[idx1])\n                            trg_tsv.append(tsv_lines[idx2])\n                            km_line_idx1 = km_lines[idx1]\n                            km_line_idx2 = km_lines[idx2]\n                            km_line_idx1 = km_line_idx1 if not args.dedup else dedup(km_line_idx1)\n                            km_line_idx2 = km_line_idx2 if not args.dedup else dedup(km_line_idx2)\n                            src_km.append(km_line_idx1)\n                            trg_km.append(km_line_idx2)\n                assert len(src_tsv) == len(trg_tsv) == len(src_km) == len(trg_km)\n                print(f\"{len(src_tsv)} pairs\")\n\n                if len(src_tsv) == 0:\n                    raise Exception(\"ERROR: generated 0 pairs!\")\n\n                if args.dry_run: continue\n\n                # create files\n                os.makedirs(translation_dir / f\"{SRC_EMOTION}-{TRG_EMOTION}\", exist_ok=True)\n                open(translation_dir / f\"{SRC_EMOTION}-{TRG_EMOTION}\" / f\"files.{split}.{SRC_EMOTION}\", \"w\").writelines([root] + src_tsv)\n                open(translation_dir / f\"{SRC_EMOTION}-{TRG_EMOTION}\" / f\"files.{split}.{TRG_EMOTION}\", \"w\").writelines([root] + trg_tsv)\n                open(translation_dir / f\"{SRC_EMOTION}-{TRG_EMOTION}\" / f\"{split}.{SRC_EMOTION}\", \"w\").writelines(src_km)\n                open(translation_dir / f\"{SRC_EMOTION}-{TRG_EMOTION}\" / f\"{split}.{TRG_EMOTION}\", \"w\").writelines(trg_km)\n\n        \n    # fairseq-preprocess the denoising data\n    for EMOTION in EMOTIONS + denoising_data:\n        denoising_preprocess(denoising_dir, EMOTION, args.dict)\n    os.system(f\"cp {args.dict} {denoising_dir}/tokenized/dict.txt\")\n\n    # fairseq-preprocess the translation data\n    os.makedirs(translation_dir / \"tokenized\", exist_ok=True)\n    for SRC_EMOTION in EMOTIONS:\n        TRG_EMOTIONS = EMOTIONS if args.autoencode else set(EMOTIONS) - set([SRC_EMOTION])\n        for TRG_EMOTION in TRG_EMOTIONS:\n            translation_preprocess(translation_dir / f\"{SRC_EMOTION}-{TRG_EMOTION}\", SRC_EMOTION, TRG_EMOTION, args.dict)#, only_train=SRC_EMOTION==TRG_EMOTION)\n    os.system(f\"cp -rf {translation_dir}/**/tokenized/* {translation_dir}/tokenized\")\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/emotion_conversion/preprocess/create_core_manifest.py",
    "content": "from pathlib import Path\nimport os\nimport sys\nimport subprocess\nimport argparse\nfrom datetime import datetime\nimport logging\n\nlogging.basicConfig(\n    level=logging.INFO,\n    format='%(asctime)s [%(levelname)s] %(message)s',\n    handlers=[logging.FileHandler('debug.log'), logging.StreamHandler()]\n)\nlogger = logging.getLogger(__name__)\n\n\ndef verify_dict_size(km, dict):\n    logger.info(f\"verifying: {km}\")\n    dict_size = len(open(dict, \"r\").readlines())\n    km_vocab = set(open(km, \"r\").read().replace(\"\\n\", \" \").split(\" \"))\n    if \"\" in km_vocab: km_vocab.remove(\"\")\n    km_vocab_size = len(km_vocab)\n    return dict_size == km_vocab_size\n\n\ndef verify_files_exist(l):\n    for f in l:\n        if not f.exists():\n            logging.error(f\"{f} doesn't exist!\")\n            return False\n    return True\n\n\ndef run_cmd(cmd, print_output=True):\n    try:\n        out = subprocess.check_output(cmd, stderr=subprocess.STDOUT, universal_newlines=True, shell=True)\n        if print_output:\n            logger.info(f\"command output:\\n{out}\")\n        return out\n    except subprocess.CalledProcessError as grepexc:                                                                                                   \n        logger.info(f\"error executing command!:\\n{cmd}\")\n        logger.info(grepexc.output)\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--tsv\", default=\"/checkpoint/felixkreuk/datasets/emov/manifests/emov_16khz/data.tsv\", type=Path)\n    parser.add_argument(\"--emov-km\", required=True, type=Path)\n    parser.add_argument(\"--km\", nargs='+', required=True, type=Path)\n    parser.add_argument(\"--seed\", type=int, default=1)\n    parser.add_argument(\"--dict\", default=\"/checkpoint/felixkreuk/datasets/emov/manifests/emov_16khz/fairseq.dict.txt\")\n    parser.add_argument(\"--manifests-dir\", type=Path, default=\"/checkpoint/felixkreuk/datasets/emov/manifests/emov_16khz\")\n    args = parser.parse_args()\n\n    manifests_dir = args.manifests_dir\n    date = datetime.now().strftime('%d%m%y')\n    outdir = manifests_dir / f\"{date}\"\n\n    # verify input and create folders\n    all_kms = args.km + [args.emov_km]\n    assert verify_files_exist(all_kms), \"make sure the km dir contains: train-clean-all.km, blizzard2013.km, data.km\"\n    for codes in all_kms:\n        assert verify_dict_size(codes, args.dict), \"dict argument doesn't match the vocabulary of the km file!\"\n    assert not outdir.exists(), \"data dir already exists!\"\n    outdir.mkdir(parents=True, exist_ok=True)\n\n    logger.info(\"generating denoising split (emov)\")\n    run_cmd(f\"python preprocess/split_km_tsv.py {args.tsv} {args.emov_km} --destdir {outdir}/denoising/emov -sh --seed {args.seed}\")\n    for codes in args.km:\n        codes_name = os.path.basename(codes)\n        run_cmd(f\"python preprocess/split_km.py {codes} --destdir {outdir}/denoising/{codes_name} -sh --seed {args.seed}\")\n\n    logger.info(\"generating translation split\")\n    run_cmd(f\"python preprocess/split_emov_km_tsv_by_uttid.py {args.tsv} {args.emov_km} --destdir {outdir}/translation --seed {args.seed}\")\n\n    emov_code_name = os.path.basename(args.emov_km)\n    logger.info(\"generating hifigan split\")\n    run_cmd(\n        f\"mkdir -p {outdir}/hifigan &&\"\n        f\"python preprocess/build_hifigan_manifest.py --km_type hubert --tsv {outdir}/denoising/emov/train.tsv --km {outdir}/denoising/emov/train.km > {outdir}/hifigan/train.txt &&\"\n        f\"python preprocess/build_hifigan_manifest.py --km_type hubert --tsv {outdir}/denoising/emov/valid.tsv --km {outdir}/denoising/emov/valid.km > {outdir}/hifigan/valid.txt &&\"\n        f\"python preprocess/build_hifigan_manifest.py --km_type hubert --tsv {outdir}/denoising/emov/test.tsv --km {outdir}/denoising/emov/test.km > {outdir}/hifigan/test.txt\"\n    )\n\n    logger.info(\"generating fairseq manifests\")\n    run_cmd(f\"python preprocess/build_translation_manifests.py {outdir} {outdir}/fairseq-data -dd -cs --dict {args.dict}\")\n\n    logger.info(f\"finished processing data at:\\n{outdir}\")\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/emotion_conversion/preprocess/extract_f0.py",
    "content": "import argparse\nfrom tqdm import tqdm\nfrom multiprocessing import Manager, Pool\n\nfrom scipy.io.wavfile import read\nfrom librosa.util import normalize\nimport numpy as np\nimport amfm_decompy.pYAAPT as pYAAPT\nimport amfm_decompy.basic_tools as basic\n\nMAX_WAV_VALUE = 32768.0\n\nparser = argparse.ArgumentParser(description=\"\")\nparser.add_argument(\"tsv\", help=\"\")\nparser.add_argument(\"--extractor\", choices=[\"crepe\", \"pyaapt\"], default=\"pyaapt\", help=\"\")\nparser.add_argument(\"--interp\", action=\"store_true\", help=\"\")\nparser.add_argument(\"--n_workers\", type=int, default=40, help=\"\")\nargs = parser.parse_args()\n\ntsv_lines = open(args.tsv, \"r\").readlines()\nroot, tsv_lines = tsv_lines[0].strip(), tsv_lines[1:]\n\n\ndef extract_f0(tsv_line):\n    wav_path, _ = tsv_line.split(\"\\t\")\n    wav_path = root.strip() + \"/\" + wav_path\n    sr, wav = read(wav_path)\n    wav = wav / MAX_WAV_VALUE\n    wav = normalize(wav) * 0.95\n\n    if args.extractor == \"pyaapt\":\n        frame_length = 20.0\n        pad = int(frame_length / 1000 * sr) // 2\n        wav = np.pad(wav.squeeze(), (pad, pad), \"constant\", constant_values=0)\n        signal = basic.SignalObj(wav, sr)\n        pitch = pYAAPT.yaapt(\n                signal,\n                **{\n                    'frame_length': frame_length,\n                    'frame_space': 5.0,\n                    'nccf_thresh1': 0.25,\n                    'tda_frame_length': 25.0\n                })\n        pitch = pitch.samp_interp[None, None, :] if args.interp else pitch.samp_values[None, None, :]\n        pitch = pitch[0, 0]\n        f0_path = wav_path.replace(\".wav\", \".yaapt\")\n        f0_path += \".interp.f0\" if args.interp else \".f0\"\n        np.save(f0_path, pitch)\n\n\ndef main():\n    with Pool(args.n_workers) as p:\n        r = list(tqdm(p.imap(extract_f0, tsv_lines), total=len(tsv_lines)))\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/emotion_conversion/preprocess/process_km.py",
    "content": "import sys\nimport argparse\nfrom tqdm import tqdm\nfrom build_emov_translation_manifests import dedup, remove_under_k\n\n\nif __name__ == \"__main__\":\n    \"\"\"\n    this is a standalone script to process a km file\n    specifically, to dedup or remove tokens that repeat less\n    than k times in a row\n    \"\"\"\n    parser = argparse.ArgumentParser(description=\"\")\n    parser.add_argument(\"km\", type=str, help=\"path to km file\")\n    parser.add_argument(\"--dedup\", action='store_true')\n    parser.add_argument(\"--remove-under-k\", type=int, default=0)\n    parser.add_argument(\"--output\", default=None)\n    args = parser.parse_args()\n\n    if not args.dedup and args.remove_under_k == 0:\n        print(\"nothing to do! quitting...\")\n        sys.exit(0)\n\n    km = open(args.km, \"r\").readlines()\n    out = []\n    for line in tqdm(km):\n        if args.remove_under_k > 0:\n            line = remove_under_k(line, args.remove_under_k)\n        if args.dedup:\n            line = dedup(line)\n        out.append(line)\n\n    path = args.km if args.output is None else args.output\n    if args.remove_under_k > 0:\n        path = path.replace(\".km\", f\"-k{args.remove_under_k}.km\")\n    if args.dedup:\n        path = path.replace(\".km\", f\"-deduped.km\")\n\n    open(path, \"w\").writelines(out)\n    print(f\"written to {path}\")\n"
  },
  {
    "path": "examples/emotion_conversion/preprocess/split_emov_km_tsv_by_uttid.py",
    "content": "from pathlib import Path\nimport os\nimport sys\nimport argparse\nimport random\nimport numpy as np\nfrom tqdm import tqdm\nfrom sklearn.model_selection import train_test_split\nfrom build_translation_manifests import get_utt_id\n\n\ndef train_val_test_split(tsv_lines, km_lines, valid_percent, test_percent, seed=42):\n    utt_ids = list(sorted(set([get_utt_id(x) for x in tsv_lines])))\n    utt_ids, valid_utt_ids, _, _ = train_test_split(utt_ids, utt_ids, test_size=valid_percent, shuffle=True, random_state=seed)\n    train_utt_ids, test_utt_ids, _, _ = train_test_split(utt_ids, utt_ids, test_size=test_percent, shuffle=True, random_state=seed)\n\n    train_idx = [i for i, line in enumerate(tsv_lines) if get_utt_id(line) in train_utt_ids]\n    valid_idx = [i for i, line in enumerate(tsv_lines) if get_utt_id(line) in valid_utt_ids]\n    test_idx = [i for i, line in enumerate(tsv_lines) if get_utt_id(line) in test_utt_ids]\n\n    train_tsv, train_km = [tsv_lines[i] for i in train_idx], [km_lines[i] for i in train_idx]\n    valid_tsv, valid_km = [tsv_lines[i] for i in valid_idx], [km_lines[i] for i in valid_idx]\n    test_tsv, test_km = [tsv_lines[i] for i in test_idx], [km_lines[i] for i in test_idx]\n\n    print(f\"train {len(train_km)}\")\n    print(f\"valid {len(valid_km)}\")\n    print(f\"test {len(test_km)}\")\n\n    return train_tsv, train_km, valid_tsv, valid_km, test_tsv, test_km\n\n\nif __name__ == \"__main__\":\n    \"\"\"\n    this is a standalone script to process a km file\n    specifically, to dedup or remove tokens that repeat less\n    than k times in a row\n    \"\"\"\n    parser = argparse.ArgumentParser(description=\"\")\n    parser.add_argument(\"tsv\", type=str, help=\"path to tsv file\")\n    parser.add_argument(\"km\", type=str, help=\"path to km file\")\n    parser.add_argument(\"--destdir\", required=True, type=str)\n    parser.add_argument(\"--valid-percent\", type=float, default=0.05, help=\"percent to allocate to validation set\")\n    parser.add_argument(\"--test-percent\", type=float, default=0.05, help=\"percent to allocate to test set\")\n    parser.add_argument(\"--seed\", type=int, default=42, help=\"\")\n    args = parser.parse_args()\n    \n    np.random.seed(args.seed)\n    random.seed(args.seed)\n\n    os.makedirs(args.destdir, exist_ok=True)\n    km = open(args.km, \"r\").readlines()\n    tsv = open(args.tsv, \"r\").readlines()\n    root, tsv = tsv[0], tsv[1:]\n\n    assert args.tsv.endswith(\".tsv\") and args.km.endswith(\".km\")\n    assert len(tsv) == len(km)\n\n    train_tsv, train_km, valid_tsv, valid_km, test_tsv, test_km = train_val_test_split(tsv, km, args.valid_percent, args.test_percent, args.seed)\n\n    assert len(train_tsv) + len(valid_tsv) + len(test_tsv) == len(tsv)\n    assert len(train_tsv) == len(train_km) and len(valid_tsv) == len(valid_km) and len(test_tsv) == len(test_km)\n\n    dir = Path(args.destdir)\n    open(dir / f\"train.tsv\", \"w\").writelines([root] + train_tsv)\n    open(dir / f\"valid.tsv\", \"w\").writelines([root] + valid_tsv)\n    open(dir / f\"test.tsv\", \"w\").writelines([root] + test_tsv)\n    open(dir / f\"train.km\", \"w\").writelines(train_km)\n    open(dir / f\"valid.km\", \"w\").writelines(valid_km)\n    open(dir / f\"test.km\", \"w\").writelines(test_km)\n    print(\"done\")\n"
  },
  {
    "path": "examples/emotion_conversion/preprocess/split_km.py",
    "content": "from pathlib import Path\nimport os\nimport argparse\nimport random\nimport numpy as np\nfrom sklearn.utils import shuffle\n\n\nif __name__ == \"__main__\":\n    \"\"\"\n    this is a standalone script to process a km file\n    specifically, to dedup or remove tokens that repeat less\n    than k times in a row\n    \"\"\"\n    parser = argparse.ArgumentParser(description=\"\")\n    parser.add_argument(\"km\", type=str, help=\"path to km file\")\n    parser.add_argument(\"--destdir\", required=True, type=str)\n    parser.add_argument(\"--valid-percent\", type=float, default=0.05, help=\"percent to allocate to validation set\")\n    parser.add_argument(\"--test-percent\", type=float, default=0.05, help=\"percent to allocate to test set\")\n    parser.add_argument(\"-sh\", \"--shuffle\", action=\"store_true\", help=\"path to km file\")\n    parser.add_argument(\"--seed\", type=int, default=42, help=\"\")\n    args = parser.parse_args()\n    \n    np.random.seed(args.seed)\n    random.seed(args.seed)\n\n    os.makedirs(args.destdir, exist_ok=True)\n    km = open(args.km, \"r\").readlines()\n\n    if args.shuffle:\n        km = shuffle(km)\n        print(f\"shuffled\")\n\n    N = len(km)\n    N_tt = int(N * args.test_percent)\n    N_cv = int(N * args.valid_percent)\n    N_tr = N - N_tt - N_cv\n\n    train_km = km[:N_tr]\n    valid_km = km[N_tr:N_tr + N_cv]\n    test_km = km[N_tr + N_cv:]\n\n    dir = Path(args.destdir)\n    open(dir / f\"train.km\", \"w\").writelines(train_km)\n    open(dir / f\"valid.km\", \"w\").writelines(valid_km)\n    open(dir / f\"test.km\", \"w\").writelines(test_km)\n    print(f\"train: {len(train_km)}\")\n    print(f\"valid: {len(valid_km)}\")\n    print(f\"test: {len(test_km)}\")\n    print(\"done\")\n"
  },
  {
    "path": "examples/emotion_conversion/preprocess/split_km_tsv.py",
    "content": "from pathlib import Path\nimport os\nimport argparse\nimport random\nimport numpy as np\nfrom sklearn.utils import shuffle\n\n\nif __name__ == \"__main__\":\n    \"\"\"\n    this is a standalone script to process a km file\n    specifically, to dedup or remove tokens that repeat less\n    than k times in a row\n    \"\"\"\n    parser = argparse.ArgumentParser(description=\"\")\n    parser.add_argument(\"tsv\", type=str, help=\"path to tsv file\")\n    parser.add_argument(\"km\", type=str, help=\"path to km file\")\n    parser.add_argument(\"--destdir\", required=True, type=str)\n    parser.add_argument(\"--valid-percent\", type=float, default=0.05, help=\"percent to allocate to validation set\")\n    parser.add_argument(\"--test-percent\", type=float, default=0.05, help=\"percent to allocate to test set\")\n    parser.add_argument(\"-sh\", \"--shuffle\", action=\"store_true\", help=\"path to km file\")\n    parser.add_argument(\"--seed\", type=int, default=42, help=\"\")\n    args = parser.parse_args()\n    \n    np.random.seed(args.seed)\n    random.seed(args.seed)\n\n    os.makedirs(args.destdir, exist_ok=True)\n    km = open(args.km, \"r\").readlines()\n    tsv = open(args.tsv, \"r\").readlines()\n    root, tsv = tsv[0], tsv[1:]\n\n    assert args.tsv.endswith(\".tsv\") and args.km.endswith(\".km\")\n    assert len(tsv) == len(km)\n\n    if args.shuffle:\n        tsv, km = shuffle(tsv, km)\n        print(f\"shuffled\")\n\n    N = len(tsv)\n    N_tt = int(N * args.test_percent)\n    N_cv = int(N * args.valid_percent)\n    N_tr = N - N_tt - N_cv\n\n    train_tsv = tsv[:N_tr]\n    valid_tsv = tsv[N_tr:N_tr + N_cv]\n    test_tsv = tsv[N_tr + N_cv:]\n    train_km = km[:N_tr]\n    valid_km = km[N_tr:N_tr + N_cv]\n    test_km = km[N_tr + N_cv:]\n\n    assert len(train_tsv) + len(valid_tsv) + len(test_tsv) == len(tsv)\n    assert len(train_tsv) == len(train_km) and len(valid_tsv) == len(valid_km) and len(test_tsv) == len(test_km)\n\n    dir = Path(args.destdir)\n    open(dir / f\"train.tsv\", \"w\").writelines([root] + train_tsv)\n    open(dir / f\"valid.tsv\", \"w\").writelines([root] + valid_tsv)\n    open(dir / f\"test.tsv\", \"w\").writelines([root] + test_tsv)\n    open(dir / f\"train.km\", \"w\").writelines(train_km)\n    open(dir / f\"valid.km\", \"w\").writelines(valid_km)\n    open(dir / f\"test.km\", \"w\").writelines(test_km)\n    print(f\"train: {len(train_km)}\")\n    print(f\"valid: {len(valid_km)}\")\n    print(f\"test: {len(test_km)}\")\n    print(\"done\")\n"
  },
  {
    "path": "examples/emotion_conversion/requirements.txt",
    "content": "scipy\neinops\namfm_decompy\njoblib\nnumba\ndecorator\nrequests\nappdirs\npackaging\nsix\nsklearn\n"
  },
  {
    "path": "examples/emotion_conversion/synthesize.py",
    "content": "import logging\nimport argparse\nimport random\nimport sys\nimport os\nimport numpy as np\nimport torch\nimport soundfile as sf\nimport shutil\nimport librosa\nimport json\nfrom pathlib import Path\nfrom tqdm import tqdm\nimport amfm_decompy.basic_tools as basic\nimport amfm_decompy.pYAAPT as pYAAPT\n\ndir_path = os.path.dirname(__file__)\nresynth_path = os.path.dirname(os.path.abspath(__file__)) + \"/speech-resynthesis\"\nsys.path.append(resynth_path)\n\nfrom models import CodeGenerator\nfrom inference import scan_checkpoint, load_checkpoint, generate\nfrom emotion_models.pitch_predictor import load_ckpt as load_pitch_predictor\nfrom emotion_models.duration_predictor import load_ckpt as load_duration_predictor\nfrom dataset import load_audio, MAX_WAV_VALUE, parse_style, parse_speaker, EMOV_SPK2ID, EMOV_STYLE2ID\n\n\nlogging.basicConfig(\n    level=logging.INFO,\n    format='%(asctime)s [%(levelname)s] %(message)s',\n    handlers=[logging.FileHandler('debug.log'), logging.StreamHandler()]\n)\nlogger = logging.getLogger(__name__)\n\n\nclass AttrDict(dict):\n    def __init__(self, *args, **kwargs):\n        super(AttrDict, self).__init__(*args, **kwargs)\n        self.__dict__ = self\n\n\ndef parse_generation_file(fname):\n    lines = open(fname).read()\n    lines = lines.split('\\n')\n\n    results = {}\n    for l in lines:\n        if len(l) == 0:\n            continue\n\n        if l[0] == 'H':\n            parts = l[2:].split('\\t')\n            if len(parts) == 2:\n                sid, utt = parts\n            else:\n                sid, _, utt = parts\n            sid = int(sid)\n            utt = [int(x) for x in utt.split()]\n            if sid in results:\n                results[sid]['H'] = utt\n            else:\n                results[sid] = {'H': utt}\n        elif l[0] == 'S':\n            sid, utt = l[2:].split('\\t')\n            sid = int(sid)\n            utt = [x for x in utt.split()]\n            if sid in results:\n                results[sid]['S'] = utt\n            else:\n                results[sid] = {'S': utt}\n        elif l[0] == 'T':\n            sid, utt = l[2:].split('\\t')\n            sid = int(sid)\n            utt = [int(x) for x in utt.split()]\n            if sid in results:\n                results[sid]['T'] = utt\n            else:\n                results[sid] = {'T': utt}\n\n    for d, result in results.items():\n        if 'H' not in result:\n            result['H'] = result['S']\n\n    return results\n\n\ndef get_code_to_fname(manifest, tokens):\n    if tokens is None:\n        code_to_fname = {}\n        with open(manifest) as f:\n            for line in f:\n                line = line.strip()\n                fname, code = line.split()\n                code = code.replace(',', ' ')\n                code_to_fname[code] = fname\n\n        return code_to_fname\n\n    with open(manifest) as f:\n        fnames = [l.strip() for l in f.readlines()]\n        root = Path(fnames[0])\n        fnames = fnames[1:]\n        if '\\t' in fnames[0]:\n            fnames = [x.split()[0] for x in fnames]\n\n    with open(tokens) as f:\n        codes = [l.strip() for l in f.readlines()]\n\n    code_to_fname = {}\n    for fname, code in zip(fnames, codes):\n        code = code.replace(',', ' ')\n        code_to_fname[code] = str(root / fname)\n\n    return root, code_to_fname\n\n\ndef code_to_str(s):\n    k = ' '.join([str(x) for x in s])\n    return k\n\n\ndef get_praat_f0(audio, rate=16000, interp=False):\n    frame_length = 20.0\n    to_pad = int(frame_length / 1000 * rate) // 2\n\n    f0s = []\n    for y in audio.astype(np.float64):\n        y_pad = np.pad(y.squeeze(), (to_pad, to_pad), \"constant\", constant_values=0)\n        signal = basic.SignalObj(y_pad, rate)\n        pitch = pYAAPT.yaapt(signal, **{'frame_length': frame_length, 'frame_space': 5.0, 'nccf_thresh1': 0.25,\n                                        'tda_frame_length': 25.0})\n        if interp:\n            f0s += [pitch.samp_interp[None, None, :]]\n        else:\n            f0s += [pitch.samp_values[None, None, :]]\n\n    f0 = np.vstack(f0s)\n    return f0\n\n\ndef generate_from_code(generator, h, code, spkr=None, f0=None, gst=None, device=\"cpu\"):\n    batch = {\n        'code': torch.LongTensor(code).to(device).view(1, -1),\n    }\n    if spkr is not None:\n        batch['spkr'] = spkr.to(device).unsqueeze(0)\n    if f0 is not None:\n        batch['f0'] = f0.to(device)\n    if gst is not None:\n        batch['style'] = gst.to(device)\n\n    with torch.no_grad():\n        audio, rtf = generate(h, generator, batch)\n        audio = librosa.util.normalize(audio / 2 ** 15)\n\n    return audio\n\n\n@torch.no_grad()\ndef synth(argv, interactive=False):\n    parser = argparse.ArgumentParser()\n    parser.add_argument('--result-path', type=Path, help='Translation Model Output', required=True)\n    parser.add_argument('--data', type=Path, help='a directory with the files: src.tsv, src.km, trg.tsv, trg.km, orig.tsv, orig.km')\n    parser.add_argument(\"--orig-tsv\", default=\"/checkpoint/felixkreuk/datasets/emov/manifests/emov_16khz/data.tsv\")\n    parser.add_argument(\"--orig-km\", default=\"/checkpoint/felixkreuk/datasets/emov/manifests/emov_16khz/core_manifests/emov_16khz_km_100/data.km\")\n\n    parser.add_argument('--checkpoint-file', type=Path, help='Generator Checkpoint', required=True)\n    parser.add_argument('--dur-model', type=Path, help='a token duration prediction model (if tokens were deduped)')\n    parser.add_argument('--f0-model', type=Path, help='a f0 prediction model')\n\n    parser.add_argument('-s', '--src-emotion', default=None)\n    parser.add_argument('-t', '--trg-emotion', default=None)\n    parser.add_argument('-N', type=int, default=10)\n    parser.add_argument('--split', default=\"test\")\n\n    parser.add_argument('--outdir', type=Path, default=Path('results'))\n    parser.add_argument('--orig-filename', action='store_true')\n\n    parser.add_argument('--device', type=int, default=0)\n    a = parser.parse_args(argv)\n\n    seed = 52\n    random.seed(seed)\n    np.random.seed(seed)\n    torch.manual_seed(seed)\n\n    if os.path.isdir(a.checkpoint_file):\n        config_file = os.path.join(a.checkpoint_file, 'config.json')\n    else:\n        config_file = os.path.join(os.path.split(a.checkpoint_file)[0], 'config.json')\n    with open(config_file) as f:\n        data = f.read()\n    json_config = json.loads(data)\n    h = AttrDict(json_config)\n\n    generator = CodeGenerator(h).to(a.device)\n    if os.path.isdir(a.checkpoint_file):\n        cp_g = scan_checkpoint(a.checkpoint_file, 'g_')\n    else:\n        cp_g = a.checkpoint_file\n    state_dict_g = load_checkpoint(cp_g)\n    generator.load_state_dict(state_dict_g['generator'])\n\n    generator.eval()\n    generator.remove_weight_norm()\n\n    dur_models = {\n        \"neutral\":   load_duration_predictor(f\"{a.dur_model}/neutral.ckpt\"),\n        \"amused\":    load_duration_predictor(f\"{a.dur_model}/amused.ckpt\"),\n        \"disgusted\": load_duration_predictor(f\"{a.dur_model}/disgusted.ckpt\"),\n        \"angry\":     load_duration_predictor(f\"{a.dur_model}/angry.ckpt\"),\n        \"sleepy\":    load_duration_predictor(f\"{a.dur_model}/sleepy.ckpt\"),\n    }\n    logger.info(f\"loaded duration prediction model from {a.dur_model}\")\n\n    f0_model = load_pitch_predictor(a.f0_model).to(a.device)\n    logger.info(f\"loaded f0 prediction model from {a.f0_model}\")\n\n    # we need to know how to map code back to the filename\n    # (if we want the original files names as output)\n    results = parse_generation_file(a.result_path)\n    _, src_code_to_fname = get_code_to_fname(f'{a.data}/files.{a.split}.{a.src_emotion}', f'{a.data}/{a.split}.{a.src_emotion}')\n    _, tgt_code_to_fname = get_code_to_fname(f'{a.data}/files.{a.split}.{a.trg_emotion}', f'{a.data}/{a.split}.{a.trg_emotion}')\n\n    # we need the originals (before dedup) to get the ground-truth durations\n    orig_tsv = open(a.orig_tsv, 'r').readlines()\n    orig_tsv_root, orig_tsv = orig_tsv[0].strip(), orig_tsv[1:]\n    orig_km = open(a.orig_km, 'r').readlines()\n    fname_to_idx = {orig_tsv_root + \"/\" + line.split(\"\\t\")[0]: i for i, line in enumerate(orig_tsv)}\n\n    outdir = a.outdir\n    outdir.mkdir(parents=True, exist_ok=True)\n    (outdir / '0-source').mkdir(exist_ok=True)\n    (outdir / '1-src-tokens-src-style-src-f0').mkdir(exist_ok=True)\n    (outdir / '2-src-tokens-trg-style-src-f0').mkdir(exist_ok=True)\n    (outdir / '2.5-src-tokens-trg-style-src-f0').mkdir(exist_ok=True)\n    (outdir / '3-src-tokens-trg-style-pred-f0').mkdir(exist_ok=True)\n    (outdir / '4-gen-tokens-trg-style-pred-f0').mkdir(exist_ok=True)\n    (outdir / '5-target').mkdir(exist_ok=True)\n\n    N = 0\n    results = list(results.items())\n    random.shuffle(results)\n    for i, (sid, result) in tqdm(enumerate(results)):\n        N += 1\n        if N > a.N and a.N != -1:\n            break\n\n        if '[' in result['S'][0]:\n            result['S'] = result['S'][1:]\n        if '_' in result['S'][-1]:\n            result['S'] = result['S'][:-1]\n        src_ref = src_code_to_fname[code_to_str(result['S'])]\n        trg_ref = tgt_code_to_fname[code_to_str(result['T'])]\n\n        src_style, trg_style = None, None\n        src_spkr, trg_spkr = None, None\n        src_f0 = None\n        src_audio = (load_audio(src_ref)[0] / MAX_WAV_VALUE) * 0.95\n        trg_audio = (load_audio(trg_ref)[0] / MAX_WAV_VALUE) * 0.95\n        src_audio = torch.FloatTensor(src_audio).unsqueeze(0).cuda()\n        trg_audio = torch.FloatTensor(trg_audio).unsqueeze(0).cuda()\n\n        src_spkr = parse_speaker(src_ref, h.multispkr)\n        src_spkr = src_spkr if src_spkr in EMOV_SPK2ID else random.choice(list(EMOV_SPK2ID.keys()))\n        src_spkr = EMOV_SPK2ID[src_spkr]\n        src_spkr = torch.LongTensor([src_spkr])\n        trg_spkr = parse_speaker(trg_ref, h.multispkr)\n        trg_spkr = trg_spkr if trg_spkr in EMOV_SPK2ID else random.choice(list(EMOV_SPK2ID.keys()))\n        trg_spkr = EMOV_SPK2ID[trg_spkr]\n        trg_spkr = torch.LongTensor([trg_spkr])\n\n        src_style = EMOV_STYLE2ID[a.src_emotion]\n        src_style = torch.LongTensor([src_style]).cuda()\n        trg_style_str = a.trg_emotion\n        trg_style = EMOV_STYLE2ID[a.trg_emotion]\n        trg_style = torch.LongTensor([trg_style]).cuda()\n\n        src_tokens = list(map(int, orig_km[fname_to_idx[src_ref]].strip().split(\" \")))\n        src_tokens = torch.LongTensor(src_tokens).unsqueeze(0)\n        src_tokens_dur_pred = torch.LongTensor(list(map(int, result['S']))).unsqueeze(0)\n        src_tokens_dur_pred = dur_models[trg_style_str].inflate_input(src_tokens_dur_pred)\n        gen_tokens = torch.LongTensor(result['H']).unsqueeze(0)\n        gen_tokens = dur_models[trg_style_str].inflate_input(gen_tokens)\n        trg_tokens = torch.LongTensor(result['T']).unsqueeze(0)\n        trg_tokens = dur_models[trg_style_str].inflate_input(trg_tokens)\n\n        src_f0 = get_praat_f0(src_audio.unsqueeze(0).cpu().numpy())\n        src_f0 = torch.FloatTensor(src_f0).cuda()\n\n        pred_src_f0 = f0_model.inference(torch.LongTensor(src_tokens).to(a.device), src_spkr, trg_style).unsqueeze(0)\n        pred_src_dur_pred_f0 = f0_model.inference(torch.LongTensor(src_tokens_dur_pred).to(a.device), src_spkr, trg_style).unsqueeze(0)\n        pred_gen_f0 = f0_model.inference(torch.LongTensor(gen_tokens).to(a.device), src_spkr, trg_style).unsqueeze(0)\n        pred_trg_f0 = f0_model.inference(torch.LongTensor(trg_tokens).to(a.device), src_spkr, trg_style).unsqueeze(0)\n\n        if a.orig_filename:\n            path = src_code_to_fname[code_to_str(result['S'])]\n            sid = str(sid) + \"__\" + Path(path).stem\n        shutil.copy(src_code_to_fname[code_to_str(result['S'])], outdir / '0-source' / f'{sid}.wav')\n\n        audio = generate_from_code(generator, h, src_tokens, spkr=src_spkr, f0=src_f0, gst=src_style, device=a.device)\n        sf.write(outdir / '1-src-tokens-src-style-src-f0' / f'{sid}.wav', audio, samplerate=h.sampling_rate)\n\n        audio = generate_from_code(generator, h, src_tokens, spkr=src_spkr, f0=src_f0, gst=trg_style, device=a.device)\n        sf.write(outdir / '2-src-tokens-trg-style-src-f0' / f'{sid}.wav', audio, samplerate=h.sampling_rate)\n\n        audio = generate_from_code(generator, h, src_tokens_dur_pred, spkr=src_spkr, f0=src_f0, gst=trg_style, device=a.device)\n        sf.write(outdir / '2.5-src-tokens-trg-style-src-f0' / f'{sid}.wav', audio, samplerate=h.sampling_rate)\n\n        audio = generate_from_code(generator, h, src_tokens_dur_pred, spkr=src_spkr, f0=pred_src_dur_pred_f0, gst=trg_style, device=a.device)\n        sf.write(outdir / '3-src-tokens-trg-style-pred-f0' / f'{sid}.wav', audio, samplerate=h.sampling_rate)\n\n        audio = generate_from_code(generator, h, gen_tokens, spkr=src_spkr, f0=pred_gen_f0, gst=trg_style, device=a.device)\n        sf.write(outdir / '4-gen-tokens-trg-style-pred-f0' / f'{sid}.wav', audio, samplerate=h.sampling_rate)\n\n        shutil.copy(tgt_code_to_fname[code_to_str(result['T'])], outdir / '5-target' / f'{sid}.wav')\n\n    logger.info(\"Done.\")\n\n\nif __name__ == '__main__':\n    synth(sys.argv[1:])\n"
  },
  {
    "path": "examples/fast_noisy_channel/README.md",
    "content": "# Language Models not just for Pre-training: Fast Online Neural Noisy Channel Modeling\n\n## Introduction\n- [Yee et al. (2019)](https://www.aclweb.org/anthology/D19-1571.pdf) introduce a simple and effective noisy channel modeling approach for neural machine translation. However, the noisy channel online decoding approach introduced in this paper is too slow to be practical.\n- To address this, [Bhosale et al. (2020)](http://www.statmt.org/wmt20/pdf/2020.wmt-1.68.pdf) introduces 3 simple approximations to make this approach very fast and practical without much loss in accuracy.\n- This README provides intructions on how to run online decoding or generation with the noisy channel modeling approach, including ways to make it very fast without much loss in accuracy.\n\n## Noisy Channel Modeling\n\n[Yee et al. (2019)](https://www.aclweb.org/anthology/D19-1571.pdf) applies the Bayes Rule to predict `P(y|x)`, the probability of the target `y` given the source `x`.\n```P(y|x) = P(x|y) * P(y) / P(x)```\n- `P(x|y)` predicts the source `x` given the target `y` and is referred to as the **channel model**\n- `P(y)` is a **language model** over the target `y`\n- `P(x)` is generally not modeled since it is constant for all `y`.\n\nWe use Transformer models to parameterize the direct model `P(y|x)`, the channel model `P(x|y)` and the language model `P(y)`.\n\nDuring online decoding with beam search, we generate the top `K2` candidates per beam and score them with the following linear combination of the channel model, the language model as well as the direct model scores.\n\n```(1 / t) * log(P(y|x) + (1 / s) * ( λ1 * log(P(x|y)) + λ2 * log(P(y) ) )```\n- `t` - Target Prefix Length\n- `s` - Source Length\n- `λ1` - Channel Model Weight\n- `λ2` - Language Model Weight\n\nThe top `beam_size` candidates based on the above combined scores are chosen to continue the beams in beam search. In beam search with a direct model alone, the scores from the direct model `P(y|x)` are used to choose the top candidates in beam search.\n\nThis framework provides a great way to utlize strong target language models trained on large amounts of unlabeled data. Language models can prefer targets unrelated to the source, so we also need a channel model whose role is to ensure that the target preferred by the language model also translates back to the source.\n\n### Training Translation Models and Language Models\n\nFor training Transformer models in fairseq for machine translation, refer to instructions [here](https://github.com/pytorch/fairseq/tree/main/examples/translation)\n\nFor training Transformer models in fairseq for language modeling, refer to instructions [here](https://github.com/pytorch/fairseq/tree/main/examples/language_model)\n\n### Generation with Language Model for German-English translation with fairseq\n\nHere are instructions to generate using a direct model and a target-side language model.\n\nNote:\n- Download and install fairseq as per instructions [here](https://github.com/pytorch/fairseq)\n- Preprocess and binarize the dataset as per instructions in section [Test Data Preprocessing](#test-data-preprocessing)\n\n```sh\nbinarized_data=data_dir/binarized\ndirect_model=de_en_seed4.pt\nlm_model=en_lm.pt\nlm_data=lm_data\nwget https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/direct_models/seed4.pt -O ${direct_model}\nwget https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/lm_model/transformer_lm.pt -O ${lm_model}\nmkdir -p ${lm_data}\nwget https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/lm_model/lm_dict/dict.txt -O ${lm_data}/dict.txt\n\nk2=10\nlenpen=0.16\nlm_wt=0.14\nfairseq-generate ${binarized_data} \\\n    --user-dir examples/fast_noisy_channel \\\n    --beam 5 \\\n    --path ${direct_model} \\\n    --lm-model ${lm_model} \\\n    --lm-data ${lm_data}  \\\n    --k2 ${k2} \\\n    --combine-method lm_only \\\n    --task noisy_channel_translation \\\n    --lenpen ${lenpen} \\\n    --lm-wt ${lm_wt} \\\n    --gen-subset valid \\\n    --remove-bpe \\\n    --fp16 \\\n    --batch-size 10\n```\n### Noisy Channel Generation for German-English translation with fairseq\n\nHere are instructions for noisy channel generation with a direct model, channel model and language model as explained in section [Noisy Channel Modeling](#noisy-channel-modeling).\n\nNote:\n- Download and install fairseq as per instructions [here](https://github.com/pytorch/fairseq)\n- Preprocess and binarize the dataset as per instructions in section [Test Data Preprocessing](#test-data-preprocessing)\n\n```sh\nbinarized_data=data_dir/binarized\ndirect_model=de_en_seed4.pt\nlm_model=en_lm.pt\nlm_data=lm_data\nch_model=en_de.big.seed4.pt\nwget https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/direct_models/seed4.pt -O ${direct_model}\nwget https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/lm_model/transformer_lm.pt -O ${lm_model}\nmkdir -p ${lm_data}\nwget https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/lm_model/lm_dict/dict.txt -O ${lm_data}/dict.txt\nwget https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/big.seed4.pt -O ${ch_model}\n\nk2=10\nlenpen=0.21\nlm_wt=0.50\nbw_wt=0.30\nfairseq-generate ${binarized_data} \\\n    --user-dir examples/fast_noisy_channel \\\n    --beam 5 \\\n    --path ${direct_model} \\\n    --lm-model ${lm_model} \\\n    --lm-data ${lm_data}  \\\n    --channel-model ${ch_model} \\\n    --k2 ${k2} \\\n    --combine-method noisy_channel \\\n    --task noisy_channel_translation \\\n    --lenpen ${lenpen} \\\n    --lm-wt ${lm_wt} \\\n    --ch-wt ${bw_wt} \\\n    --gen-subset test \\\n    --remove-bpe \\\n    --fp16 \\\n    --batch-size 1\n```\n## Fast Noisy Channel Modeling\n\n[Bhosale et al. (2020)](http://www.statmt.org/wmt20/pdf/2020.wmt-1.68.pdf) introduces 3 approximations that speed up online noisy channel decoding -\n- Smaller channel models (`Tranformer Base` with 1 encoder and decoder layer each vs. `Transformer Big`)\n  - This involves training a channel model that is possibly smaller and less accurate in terms of BLEU than a channel model of the same size as the direct model.\n  - Since the role of the channel model is mainly to assign low scores to generations from the language model if they don't translate back to the source, we may not need the most accurate channel model for this purpose.\n- Smaller output vocabulary size for the channel model (~30,000 -> ~1000)\n  - The channel model doesn't need to score the full output vocabulary, it just needs to score the source tokens, which are completely known.\n  - This is specified using the arguments `--channel-scoring-type src_vocab --top-k-vocab 500`\n  - This means that the output vocabulary for the channel model will be the source tokens for all examples in the batch and the top-K most frequent tokens in the vocabulary\n  - This reduces the memory consumption needed to store channel model scores significantly\n- Smaller number of candidates (`k2`) scored per beam\n  - This is specified by reducing the argument `--k2`\n\n\n### Fast Noisy Channel Generation for German-English translation with fairseq\n\nHere are instructions for **fast** noisy channel generation with a direct model, channel model and language model as explained in section [Fast Noisy Channel Modeling](#fast-noisy-channel-modeling). The main differences are that we use a smaller channel model, reduce `--k2`, set `--channel-scoring-type src_vocab --top-k-vocab 500` and increase the `--batch-size`.\n\nNote:\n- Download and install fairseq as per instructions [here](https://github.com/pytorch/fairseq)\n- Preprocess and binarize the dataset as per instructions in section [Test Data Preprocessing](#test-data-preprocessing)\n\n```sh\nbinarized_data=data_dir/binarized\ndirect_model=de_en_seed4.pt\nlm_model=en_lm.pt\nlm_data=lm_data\nsmall_ch_model=en_de.base_1_1.seed4.pt\nwget https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/direct_models/seed4.pt -O ${direct_model}\nwget https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/lm_model/transformer_lm.pt -O ${lm_model}\nmkdir -p ${lm_data}\nwget https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/lm_model/lm_dict/dict.txt -O ${lm_data}/dict.txt\nwget https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/base_1_1.seed4.pt -O ${small_ch_model}\n\nk2=3\nlenpen=0.23\nlm_wt=0.58\nbw_wt=0.26\nfairseq-generate ${binarized_data} \\\n    --user-dir examples/fast_noisy_channel \\\n    --beam 5 \\\n    --path ${direct_model} \\\n    --lm-model ${lm_model} \\\n    --lm-data ${lm_data}  \\\n    --channel-model ${small_ch_model} \\\n    --k2 ${k2} \\\n    --combine-method noisy_channel \\\n    --task noisy_channel_translation \\\n    --lenpen ${lenpen} \\\n    --lm-wt ${lm_wt} \\\n    --ch-wt ${bw_wt} \\\n    --gen-subset test \\\n    --remove-bpe \\\n    --fp16 \\\n    --batch-size 50 \\\n    --channel-scoring-type src_vocab --top-k-vocab 500\n```\n\n## Test Data Preprocessing\n\nFor preprocessing and binarizing the test sets for Romanian-English and German-English translation, we use the following script -\n\n```sh\nFAIRSEQ=/path/to/fairseq\ncd $FAIRSEQ\nSCRIPTS=$FAIRSEQ/mosesdecoder/scripts\nif [ ! -d \"${SCRIPTS}\" ]; then\n    echo 'Cloning Moses github repository (for tokenization scripts)...'\n    git clone https://github.com/moses-smt/mosesdecoder.git\nfi\nTOKENIZER=$SCRIPTS/tokenizer/tokenizer.perl\nNORMALIZE=$SCRIPTS/tokenizer/normalize-punctuation.perl\n\ns=de\nt=en\ntest=wmt18\n\nmkdir -p data_dir\n\n# Tokenization\nif [ $s == \"ro\" ] ; then\n    # Note: Get normalise-romanian.py and remove-diacritics.py from\n    # https://github.com/rsennrich/wmt16-scripts/tree/master/preprocess\n    sacrebleu -t $test -l $s-$t --echo src | \\\n        $NORMALIZE -l $s | \\\n        python normalise-romanian.py | \\\n        python remove-diacritics.py | \\\n        $TOKENIZER -l $s -a -q > data_dir/$test.$s-$t.$s\nelse\n    sacrebleu -t $test -l $s-$t --echo src | perl $NORMALIZE -l $s | perl $TOKENIZER -threads 8 -a -l $s > data_dir/$test.$s-$t.$s\nfi\n\nsacrebleu -t $test -l $s-$t --echo ref | perl $NORMALIZE -l $t | perl $TOKENIZER -threads 8 -a -l $t > data_dir/$test.$s-$t.$t\n\n\n# Applying BPE\nsrc_bpe_code=/path/to/source/language/bpe/code\ntgt_bpe_code=/path/to/target/language/bpe/code\nsrc_dict=/path/to/source/language/dict\ntgt_dict=/path/to/target/language/dict\n\nFASTBPE=$FAIRSEQ/fastBPE\nif [ ! -d \"${FASTBPE}\" ] ; then\n    git clone https://github.com/glample/fastBPE.git\n    # Follow compilation instructions at https://github.com/glample/fastBPE\n    g++ -std=c++11 -pthread -O3 fastBPE/main.cc -IfastBPE -o fast\nfi\n\n${FASTBPE}/fast applybpe data_dir/bpe.$test.$s-$t.$s data_dir/$test.$s-$t.$s ${src_bpe_code}\n${FASTBPE}/fast applybpe data_dir/bpe.$test.$s-$t.$s data_dir/$test.$s-$t.$s ${tgt_bpe_code}\n\nfairseq-preprocess -s $s -t $t \\\n    --testpref data_dir/bpe.$test.$s-$t \\\n    --destdir data_dir/binarized \\\n    --srcdict ${src_dict} \\\n    --tgtdict ${tgt_dict}\n```\n\n## Calculating BLEU\n\n```sh\nDETOKENIZER=$SCRIPTS/tokenizer/detokenizer.perl\ncat ${generation_output} | grep -P \"^H\" | sort -V | cut -f 3- | $DETOKENIZER -l $t -q -a | sacrebleu -t $test -l $s-$t\n```\n\n\n## Romanian-English Translation\n\nThe direct and channel models are trained using bitext data (WMT16) combined with backtranslated data (The monolingual data used for backtranslation comes from http://data.statmt.org/rsennrich/wmt16_backtranslations/ (Sennrich et al., 2016c))\n\nThe backtranslated data is generated using an ensemble of 3 English-Romanian models trained on bitext training data (WMT16) with unrestricted sampling.\n\n### BPE Codes and Dictionary\n\nWe learn a joint BPE vocabulary of 18K types on the bitext training data which is used for both the source and target.\n||Path|\n|----------|------|\n| BPE Code | [joint_bpe_18k](https://dl.fbaipublicfiles.com/fast_noisy_channel/ro_en/bpe_18k) |\n| Dictionary | [dict](https://dl.fbaipublicfiles.com/fast_noisy_channel/ro_en/dict) |\n\n### Direct Models\nFor Ro-En with backtranslation, the direct and channel models use a Transformer-Big architecture.\n\n| Seed | Model |\n|----|----|\n| 2 | [ro_en_seed2.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/ro_en/direct_models/seed2.pt)\n| 4 | [ro_en_seed4.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/ro_en/direct_models/seed4.pt)\n| 6 | [ro_en_seed6.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/ro_en/direct_models/seed6.pt)\n\n### Channel Models\nFor channel models, we follow the same steps as for the direct models. But backtranslated data is generated in the opposite direction using [this Romanian monolingual data](http://data.statmt.org/rsennrich/wmt16_backtranslations/).\nThe best lenpen, LM weight and CH weight are obtained by sweeping over the validation set (wmt16/dev) using beam 5.\n| Model Size | Lenpen | LM Weight | CH Weight | Seed 2 | Seed 4 | Seed 6 |\n|----|----|----|----|----|----|----|\n| `big` | 0.84 | 0.64 | 0.56 | [big.seed2.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/ro_en/channel_models/big.seed2.pt) | [big.seed2.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/ro_en/channel_models/big.seed2.pt) | [big.seed2.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/ro_en/channel_models/big.seed2.pt) |\n| `base_1_1` | 0.63 | 0.40 | 0.37 | [base_1_1.seed2.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/ro_en/channel_models/base_1_1.seed2.pt) | [base_1_1.seed4.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/ro_en/channel_models/base_1_1.seed4.pt) | [base_1_1.seed6.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/ro_en/channel_models/base_1_1.seed6.pt) |\n\n### Language Model\nThe model is trained on de-duplicated English Newscrawl data from 2007-2018 comprising 186 million sentences or 4.5B words after normalization and tokenization.\n|  | Path |\n|----|----|\n| `--lm-model` | [transformer_en_lm](https://dl.fbaipublicfiles.com/fast_noisy_channel/ro_en/lm_model/transformer_lm.pt) |\n| `--lm-data` | [lm_data](https://dl.fbaipublicfiles.com/fast_noisy_channel/ro_en/lm_model/lm_dict)\n\n## German-English Translation\n\n### BPE Codes and Dictionaries\n\n| | Path|\n|----------|------|\n| Source BPE Code | [de_bpe_code_24K](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/de_bpe_code_24K) |\n| Target BPE Code | [en_bpe_code_24K](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/en_bpe_code_24K)\n| Source Dictionary | [de_dict](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/de_dict) |\n| Target Dictionary | [en_dict](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/en_dict) |\n\n### Direct Models\nWe train on WMT’19 training data. Following [Ng et al., 2019](http://statmt.org/wmt19/pdf/53/WMT33.pdf), we apply language identification filtering and remove sentences longer than 250 tokens as well as sentence pairs with a source/target length ratio exceeding 1.5. This results in 26.8M sentence pairs.\nWe use the Transformer-Big architecture for the direct model.\n\n| Seed | Model |\n|:----:|----|\n| 4 | [de_en_seed4.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/direct_models/seed4.pt)\n| 5 | [de_en_seed5.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/direct_models/seed5.pt)\n| 6 | [de_en_seed6.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/direct_models/seed6.pt)\n\n### Channel Models\n\nWe train on WMT’19 training data. Following [Ng et al., 2019](http://statmt.org/wmt19/pdf/53/WMT33.pdf), we apply language identification filtering and remove sentences longer than 250 tokens as well as sentence pairs with a source/target length ratio exceeding 1.5. This results in 26.8M sentence pairs.\n\n| Model Size | Seed 4 | Seed 5 | Seed 6 |\n|----|----|----|----|\n| `big` | [big.seed4.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/big.seed4.pt) | [big.seed5.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/big.seed5.pt) | [big.seed6.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/big.seed6.pt) |\n| `big_1_1` | [big_1_1.seed4.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/big_1_1.seed4.pt) | [big_1_1.seed5.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/big_1_1.seed5.pt) | [big_1_1.seed6.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/big_1_1.seed6.pt) |\n| `base` | [base.seed4.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/base.seed4.pt) | [base.seed5.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/base.seed5.pt) | [base.seed6.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/base.seed6.pt) |\n| `base_1_1` | [base_1_1.seed4.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/base_1_1.seed4.pt) | [base_1_1.seed5.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/base_1_1.seed5.pt) | [base_1_1.seed6.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/base_1_1.seed6.pt) |\n| `half` | [half.seed4.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/half.seed4.pt) | [half.seed5.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/half.seed5.pt) | [half.seed6.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/half.seed6.pt) |\n| `half_1_1` | [half_1_1.seed4.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/half_1_1.seed4.pt) | [half_1_1.seed5.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/half_1_1.seed5.pt) | [half_1_1.seed6.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/half_1_1.seed6.pt) |\n| `quarter` | [quarter.seed4.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/quarter.seed4.pt) | [quarter.seed5.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/quarter.seed5.pt) | [quarter.seed6.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/quarter.seed6.pt) |\n| `quarter_1_1` | [quarter_1_1.seed4.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/quarter_1_1.seed4.pt) | [quarter_1_1.seed5.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/quarter_1_1.seed5.pt) | [quarter_1_1.seed6.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/quarter_1_1.seed6.pt) |\n| `8th` | [8th.seed4.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/8th.seed4.pt) | [8th.seed5.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/8th.seed5.pt) | [8th.seed6.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/8th.seed6.pt) |\n| `8th_1_1` | [8th_1_1.seed4.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/8th_1_1.seed4.pt) | [8th_1_1.seed5.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/8th_1_1.seed5.pt) | [8th_1_1.seed6.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/8th_1_1.seed6.pt) |\n| `16th` | [16th.seed4.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/16th.seed4.pt) | [16th.seed5.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/16th.seed5.pt) | [16th.seed6.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/16th.seed6.pt) |\n| `16th_1_1` | [16th_1_1.seed4.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/16th_1_1.seed4.pt) | [16th_1_1.seed5.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/16th_1_1.seed5.pt) | [16th_1_1.seed6.pt](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/channel_models/16th_1_1.seed6.pt) |\n\n### Language Model\nThe model is trained on de-duplicated English Newscrawl data from 2007-2018 comprising 186 million sentences or 4.5B words after normalization and tokenization.\n|  | Path |\n|----|----|\n| `--lm-model` | [transformer_en_lm](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/lm_model/transformer_lm.pt) |\n| `--lm-data` | [lm_data](https://dl.fbaipublicfiles.com/fast_noisy_channel/de_en/lm_model/lm_dict/)\n\n\n## Citation\n\n```bibtex\n@inproceedings{bhosale2020language,\n    title={Language Models not just for Pre-training: Fast Online Neural Noisy Channel Modeling},\n    author={Shruti Bhosale and Kyra Yee and Sergey Edunov and Michael Auli},\n    booktitle={Proceedings of the Fifth Conference on Machine Translation (WMT)},\n    year={2020},\n}\n\n@inproceedings{yee2019simple,\n  title={Simple and Effective Noisy Channel Modeling for Neural Machine Translation},\n  author={Yee, Kyra and Dauphin, Yann and Auli, Michael},\n  booktitle={Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)},\n  pages={5700--5705},\n  year={2019}\n}\n```\n"
  },
  {
    "path": "examples/fast_noisy_channel/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import noisy_channel_translation  # noqa\nfrom . import noisy_channel_sequence_generator  # noqa\nfrom . import noisy_channel_beam_search  # noqa\n"
  },
  {
    "path": "examples/fast_noisy_channel/noisy_channel_beam_search.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nfrom fairseq.search import Search\n\n\nclass NoisyChannelBeamSearch(Search):\n\n    def __init__(self, tgt_dict):\n        super().__init__(tgt_dict)\n        self.fw_scores_buf = None\n        self.lm_scores_buf = None\n\n    def _init_buffers(self, t):\n        # super()._init_buffers(t)\n        if self.fw_scores_buf is None:\n            self.scores_buf = t.new()\n            self.indices_buf = torch.LongTensor().to(device=t.device)\n            self.beams_buf = torch.LongTensor().to(device=t.device)\n            self.fw_scores_buf = t.new()\n            self.lm_scores_buf = t.new()\n\n    def combine_fw_bw(self, combine_method, fw_cum, bw, step):\n        if combine_method == \"noisy_channel\":\n            fw_norm = fw_cum.div(step + 1)\n            lprobs = bw + fw_norm\n        elif combine_method == \"lm_only\":\n            lprobs = bw + fw_cum\n\n        return lprobs\n\n    def step(self, step, fw_lprobs, scores, bw_lprobs, lm_lprobs, combine_method):\n        self._init_buffers(fw_lprobs)\n        bsz, beam_size, vocab_size = fw_lprobs.size()\n\n        if step == 0:\n            # at the first step all hypotheses are equally likely, so use\n            # only the first beam\n            fw_lprobs = fw_lprobs[:, ::beam_size, :].contiguous()\n            bw_lprobs = bw_lprobs[:, ::beam_size, :].contiguous()\n            # nothing to add since we are at the first step\n            fw_lprobs_cum = fw_lprobs\n\n        else:\n            # make probs contain cumulative scores for each hypothesis\n            raw_scores = (scores[:, :, step - 1].unsqueeze(-1))\n            fw_lprobs_cum = (fw_lprobs.add(raw_scores))\n\n        combined_lprobs = self.combine_fw_bw(combine_method, fw_lprobs_cum, bw_lprobs, step)\n\n        # choose the top k according to the combined noisy channel model score\n        torch.topk(\n            combined_lprobs.view(bsz, -1),\n            k=min(\n                # Take the best 2 x beam_size predictions. We'll choose the first\n                # beam_size of these which don't predict eos to continue with.\n                beam_size * 2,\n                combined_lprobs.view(bsz, -1).size(1) - 1,  # -1 so we never select pad\n            ),\n            out=(self.scores_buf, self.indices_buf),\n        )\n        # save corresponding fw and lm scores\n        self.fw_scores_buf = torch.gather(fw_lprobs_cum.view(bsz, -1), 1, self.indices_buf)\n        self.lm_scores_buf = torch.gather(lm_lprobs.view(bsz, -1), 1, self.indices_buf)\n        # Project back into relative indices and beams\n        self.beams_buf = self.indices_buf // vocab_size\n        self.indices_buf.fmod_(vocab_size)\n        return self.scores_buf, self.fw_scores_buf, self.lm_scores_buf, self.indices_buf, self.beams_buf\n"
  },
  {
    "path": "examples/fast_noisy_channel/noisy_channel_sequence_generator.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Dict, List, Optional\n\nimport math\nimport numpy as np\n\nimport torch\nimport torch.nn.functional as F\nfrom torch import Tensor\n\nfrom .noisy_channel_beam_search import NoisyChannelBeamSearch\nfrom fairseq.sequence_generator import EnsembleModel\n\n\nclass NoisyChannelSequenceGenerator(object):\n    def __init__(\n        self,\n        combine_method,\n        tgt_dict,\n        src_dict=None,\n        beam_size=1,\n        max_len_a=0,\n        max_len_b=200,\n        min_len=1,\n        len_penalty=1.0,\n        unk_penalty=0.0,\n        retain_dropout=False,\n        temperature=1.0,\n        match_source_len=False,\n        no_repeat_ngram_size=0,\n        normalize_scores=True,\n        channel_models=None,\n        k2=10,\n        ch_weight=1.0,\n        channel_scoring_type='log_norm',\n        top_k_vocab=0,\n        lm_models=None,\n        lm_dict=None,\n        lm_weight=1.0,\n        normalize_lm_scores_by_tgt_len=False,\n    ):\n        \"\"\"Generates translations of a given source sentence,\n           using beam search with noisy channel decoding.\n\n        Args:\n            combine_method (string, optional): Method to combine direct, LM and\n                channel model scores (default: None)\n            tgt_dict (~fairseq.data.Dictionary): target dictionary\n            src_dict (~fairseq.data.Dictionary): source dictionary\n            beam_size (int, optional): beam width (default: 1)\n            max_len_a/b (int, optional): generate sequences of maximum length\n                ax + b, where x is the source length\n            min_len (int, optional): the minimum length of the generated output\n                (not including end-of-sentence)\n            len_penalty (float, optional): length penalty, where <1.0 favors\n                shorter, >1.0 favors longer sentences (default: 1.0)\n            unk_penalty (float, optional): unknown word penalty, where <0\n                produces more unks, >0 produces fewer (default: 0.0)\n            retain_dropout (bool, optional): use dropout when generating\n                (default: False)\n            temperature (float, optional): temperature, where values\n                >1.0 produce more uniform samples and values <1.0 produce\n                sharper samples (default: 1.0)\n            match_source_len (bool, optional): outputs should match the source\n                length (default: False)\n            no_repeat_ngram_size (int, optional): Size of n-grams that we avoid\n                repeating in the generation (default: 0)\n            normalize_scores (bool, optional): normalize scores by the length\n                of the output (default: True)\n            channel_models (List[~fairseq.models.FairseqModel]): ensemble of models\n                translating from the target to the source\n            k2 (int, optional): Top K2 candidates to score per beam at each step (default:10)\n            ch_weight (int, optional): Weight associated with the channel model score\n                assuming that the direct model score has weight 1.0 (default: 1.0)\n            channel_scoring_type (str, optional): String specifying how to score\n                the channel model (default: 'log_norm')\n            top_k_vocab (int, optional): If `channel_scoring_type` is `'src_vocab'` or\n                `'src_vocab_batched'`, then this parameter specifies the number of\n                most frequent tokens to include in the channel model output vocabulary,\n                in addition to the source tokens in the input batch (default: 0)\n            lm_models (List[~fairseq.models.FairseqModel]): ensemble of models\n                generating text in the target language\n            lm_dict (~fairseq.data.Dictionary): LM Model dictionary\n            lm_weight (int, optional): Weight associated with the LM model score\n                assuming that the direct model score has weight 1.0 (default: 1.0)\n            normalize_lm_scores_by_tgt_len (bool, optional): Should we normalize LM scores\n                by the target length? By default, we normalize the combination of\n                LM and channel model scores by the source length\n        \"\"\"\n        self.pad = tgt_dict.pad()\n        self.unk = tgt_dict.unk()\n        self.eos = tgt_dict.eos()\n        self.vocab_size = len(tgt_dict)\n        self.beam_size = beam_size\n        # the max beam size is the dictionary size - 1, since we never select pad\n        self.beam_size = min(beam_size, self.vocab_size - 1)\n        self.max_len_a = max_len_a\n        self.max_len_b = max_len_b\n        self.min_len = min_len\n        self.normalize_scores = normalize_scores\n        self.len_penalty = len_penalty\n        self.unk_penalty = unk_penalty\n        self.retain_dropout = retain_dropout\n        self.temperature = temperature\n        self.match_source_len = match_source_len\n        self.no_repeat_ngram_size = no_repeat_ngram_size\n        self.channel_models = channel_models\n        self.src_dict = src_dict\n        self.tgt_dict = tgt_dict\n        self.combine_method = combine_method\n        self.k2 = k2\n        self.ch_weight = ch_weight\n        self.channel_scoring_type = channel_scoring_type\n        self.top_k_vocab = top_k_vocab\n        self.lm_models = lm_models\n        self.lm_dict = lm_dict\n        self.lm_weight = lm_weight\n        self.log_softmax_fn = torch.nn.LogSoftmax(dim=1)\n        self.normalize_lm_scores_by_tgt_len = normalize_lm_scores_by_tgt_len\n\n        self.share_tgt_dict = (self.lm_dict == self.tgt_dict)\n        self.tgt_to_lm = make_dict2dict(tgt_dict, lm_dict)\n\n        self.ch_scoring_bsz = 3072\n\n        assert temperature > 0, '--temperature must be greater than 0'\n\n        self.search = NoisyChannelBeamSearch(tgt_dict)\n\n    @torch.no_grad()\n    def generate(\n        self,\n        models,\n        sample,\n        prefix_tokens=None,\n        bos_token=None,\n        **kwargs\n    ):\n        \"\"\"Generate a batch of translations.\n        Args:\n            models (List[~fairseq.models.FairseqModel]): ensemble of models\n            sample (dict): batch\n            prefix_tokens (torch.LongTensor, optional): force decoder to begin\n                with these tokens\n        \"\"\"\n        model = EnsembleModel(models)\n        incremental_states = torch.jit.annotate(\n            List[Dict[str, Dict[str, Optional[Tensor]]]],\n            [\n                torch.jit.annotate(Dict[str, Dict[str, Optional[Tensor]]], {})\n                for i in range(model.models_size)\n            ],\n        )\n        if not self.retain_dropout:\n            model.eval()\n\n        # model.forward normally channels prev_output_tokens into the decoder\n        # separately, but SequenceGenerator directly calls model.encoder\n        encoder_input = {\n            k: v for k, v in sample['net_input'].items()\n            if k != 'prev_output_tokens'\n        }\n        src_tokens = encoder_input['src_tokens']\n        src_lengths_no_eos = (src_tokens.ne(self.eos) & src_tokens.ne(self.pad)).long().sum(dim=1)\n        input_size = src_tokens.size()\n        # batch dimension goes first followed by source lengths\n        bsz = input_size[0]\n        src_len = input_size[1]\n        beam_size = self.beam_size\n\n        if self.match_source_len:\n            max_len = src_lengths_no_eos.max().item()\n        else:\n            max_len = min(\n                int(self.max_len_a * src_len + self.max_len_b),\n                # exclude the EOS marker\n                model.max_decoder_positions() - 1,\n            )\n\n        # compute the encoder output for each beam\n        encoder_outs = model.forward_encoder(encoder_input)\n        new_order = torch.arange(bsz).view(-1, 1).repeat(1, beam_size).view(-1)\n        new_order = new_order.to(src_tokens.device).long()\n        encoder_outs = model.reorder_encoder_out(encoder_outs, new_order)\n\n        src_lengths = encoder_input['src_lengths']\n        # initialize buffers\n        scores = src_tokens.new(bsz * beam_size, max_len + 1).float().fill_(0)\n        lm_prefix_scores = src_tokens.new(bsz * beam_size).float().fill_(0)\n\n        scores_buf = scores.clone()\n        tokens = src_tokens.new(bsz * beam_size, max_len + 2).long().fill_(self.pad)\n        tokens_buf = tokens.clone()\n        tokens[:, 0] = self.eos if bos_token is None else bos_token\n\n        # reorder source tokens so they may be used as a reference in generating P(S|T)\n        src_tokens = reorder_all_tokens(src_tokens, src_lengths, self.src_dict.eos_index)\n\n        src_tokens = src_tokens.repeat(1, beam_size).view(-1, src_len)\n        src_lengths = src_lengths.view(bsz, -1).repeat(1, beam_size).view(bsz*beam_size, -1)\n\n        attn, attn_buf = None, None\n        nonpad_idxs = None\n\n        # The cands_to_ignore indicates candidates that should be ignored.\n        # For example, suppose we're sampling and have already finalized 2/5\n        # samples. Then the cands_to_ignore would mark 2 positions as being ignored,\n        # so that we only finalize the remaining 3 samples.\n        cands_to_ignore = src_tokens.new_zeros(bsz, beam_size).eq(-1)  # forward and backward-compatible False mask\n\n        # list of completed sentences\n        finalized = [[] for i in range(bsz)]\n        finished = [False for i in range(bsz)]\n        num_remaining_sent = bsz\n\n        # number of candidate hypos per step\n        cand_size = 2 * beam_size  # 2 x beam size in case half are EOS\n\n        # offset arrays for converting between different indexing schemes\n        bbsz_offsets = (torch.arange(0, bsz) * beam_size).unsqueeze(1).type_as(tokens)\n        cand_offsets = torch.arange(0, cand_size).type_as(tokens)\n\n        # helper function for allocating buffers on the fly\n        buffers = {}\n\n        def buffer(name, type_of=tokens):  # noqa\n            if name not in buffers:\n                buffers[name] = type_of.new()\n            return buffers[name]\n\n        def is_finished(sent, step, unfin_idx):\n            \"\"\"\n            Check whether we've finished generation for a given sentence, by\n            comparing the worst score among finalized hypotheses to the best\n            possible score among unfinalized hypotheses.\n            \"\"\"\n            assert len(finalized[sent]) <= beam_size\n            if len(finalized[sent]) == beam_size:\n                return True\n            return False\n\n        def finalize_hypos(step, bbsz_idx, eos_scores, combined_noisy_channel_eos_scores):\n            \"\"\"\n            Finalize the given hypotheses at this step, while keeping the total\n            number of finalized hypotheses per sentence <= beam_size.\n\n            Note: the input must be in the desired finalization order, so that\n            hypotheses that appear earlier in the input are preferred to those\n            that appear later.\n\n            Args:\n                step: current time step\n                bbsz_idx: A vector of indices in the range [0, bsz*beam_size),\n                    indicating which hypotheses to finalize\n                eos_scores: A vector of the same size as bbsz_idx containing\n                    fw scores for each hypothesis\n                combined_noisy_channel_eos_scores: A vector of the same size as bbsz_idx containing\n                    combined noisy channel scores for each hypothesis\n            \"\"\"\n            assert bbsz_idx.numel() == eos_scores.numel()\n\n            # clone relevant token and attention tensors\n            tokens_clone = tokens.index_select(0, bbsz_idx)\n            tokens_clone = tokens_clone[:, 1:step + 2]  # skip the first index, which is EOS\n            assert not tokens_clone.eq(self.eos).any()\n            tokens_clone[:, step] = self.eos\n            attn_clone = attn.index_select(0, bbsz_idx)[:, :, 1:step+2] if attn is not None else None\n\n            # compute scores per token position\n            pos_scores = scores.index_select(0, bbsz_idx)[:, :step+1]\n            pos_scores[:, step] = eos_scores\n            # convert from cumulative to per-position scores\n            pos_scores[:, 1:] = pos_scores[:, 1:] - pos_scores[:, :-1]\n\n            # normalize sentence-level scores\n            if self.normalize_scores:\n                combined_noisy_channel_eos_scores /= (step + 1) ** self.len_penalty\n\n            cum_unfin = []\n            prev = 0\n            for f in finished:\n                if f:\n                    prev += 1\n                else:\n                    cum_unfin.append(prev)\n\n            sents_seen = set()\n            for i, (idx, score) in enumerate(zip(bbsz_idx.tolist(), combined_noisy_channel_eos_scores.tolist())):\n                unfin_idx = idx // beam_size\n                sent = unfin_idx + cum_unfin[unfin_idx]\n\n                sents_seen.add((sent, unfin_idx))\n\n                if self.match_source_len and step > src_lengths_no_eos[unfin_idx]:\n                    score = -math.inf\n\n                def get_hypo():\n\n                    if attn_clone is not None:\n                        # remove padding tokens from attn scores\n                        hypo_attn = attn_clone[i][nonpad_idxs[sent]]\n                        _, alignment = hypo_attn.max(dim=0)\n                    else:\n                        hypo_attn = None\n                        alignment = None\n\n                    return {\n                        'tokens': tokens_clone[i],\n                        'score': score,\n                        'attention': hypo_attn,  # src_len x tgt_len\n                        'alignment': alignment,\n                        'positional_scores': pos_scores[i],\n                    }\n\n                if len(finalized[sent]) < beam_size:\n                    finalized[sent].append(get_hypo())\n\n            newly_finished = []\n            for sent, unfin_idx in sents_seen:\n                # check termination conditions for this sentence\n                if not finished[sent] and is_finished(sent, step, unfin_idx):\n                    finished[sent] = True\n                    newly_finished.append(unfin_idx)\n            return newly_finished\n\n        def noisy_channel_rescoring(lprobs, beam_size, bsz, src_tokens, tokens, k):\n            \"\"\"Rescore the top k hypothesis from each beam using noisy channel modeling\n            Returns:\n                new_fw_lprobs: the direct model probabilities after pruning the top k\n                new_ch_lm_lprobs:  the combined channel and language model probabilities\n                new_lm_lprobs: the language model probabilities after pruning the top k\n            \"\"\"\n            with torch.no_grad():\n                lprobs_size = lprobs.size()\n                if prefix_tokens is not None and step < prefix_tokens.size(1):\n                    probs_slice = lprobs.view(bsz, -1, lprobs.size(-1))[:, 0, :]\n                    cand_scores = torch.gather(\n                        probs_slice, dim=1,\n                        index=prefix_tokens[:, step].view(-1, 1).data\n                    ).expand(-1, beam_size).contiguous().view(bsz*beam_size, 1)\n                    cand_indices = prefix_tokens[:, step].view(-1, 1).expand(bsz, beam_size).data.contiguous().view(bsz*beam_size, 1)\n\n                    # need to calculate and save fw and lm probs for prefix tokens\n                    fw_top_k = cand_scores\n                    fw_top_k_idx = cand_indices\n                    k = 1\n                else:\n                    # take the top k best words for every sentence in batch*beam\n                    fw_top_k, fw_top_k_idx = torch.topk(lprobs.view(beam_size*bsz, -1), k=k)\n                eos_idx = torch.nonzero(fw_top_k_idx.view(bsz*beam_size*k, -1) == self.eos)[:, 0]\n                ch_scores = fw_top_k.new_full((beam_size*bsz*k, ), 0)\n                src_size = torch.sum(src_tokens[:, :] != self.src_dict.pad_index, dim=1, keepdim=True, dtype=fw_top_k.dtype)\n\n                if self.combine_method != \"lm_only\":\n                    temp_src_tokens_full = src_tokens[:, :].repeat(1, k).view(bsz*beam_size*k, -1)\n                    not_padding = temp_src_tokens_full[:, 1:] != self.src_dict.pad_index\n                    cur_tgt_size = step+2\n\n                    # add eos to all candidate sentences except those that already end in eos\n                    eos_tokens = tokens[:, 0].repeat(1, k).view(-1, 1)\n                    eos_tokens[eos_idx] = self.tgt_dict.pad_index\n\n                    if step == 0:\n                        channel_input = torch.cat((fw_top_k_idx.view(-1, 1), eos_tokens), 1)\n                    else:\n                        # move eos from beginning to end of target sentence\n                        channel_input = torch.cat((tokens[:, 1:step + 1].repeat(1, k).view(-1, step), fw_top_k_idx.view(-1, 1), eos_tokens), 1)\n\n                    ch_input_lengths = torch.tensor(np.full(channel_input.size(0), cur_tgt_size))\n                    ch_input_lengths[eos_idx] = cur_tgt_size-1\n                    if self.channel_scoring_type == \"unnormalized\":\n                        ch_encoder_output = channel_model.encoder(channel_input, src_lengths=ch_input_lengths)\n                        ch_decoder_output, _ = channel_model.decoder(temp_src_tokens_full, encoder_out=ch_encoder_output, features_only=True)\n                        del ch_encoder_output\n                        ch_intermed_scores = channel_model.decoder.unnormalized_scores_given_target(ch_decoder_output, target_ids=temp_src_tokens_full[:, 1:])\n                        ch_intermed_scores = ch_intermed_scores.float()\n                        ch_intermed_scores *= not_padding.float()\n                        ch_scores = torch.sum(ch_intermed_scores, dim=1)\n                    elif self.channel_scoring_type == \"k2_separate\":\n                        for k_idx in range(k):\n                            k_eos_tokens = eos_tokens[k_idx::k, :]\n                            if step == 0:\n                                k_ch_input = torch.cat((fw_top_k_idx[:, k_idx:k_idx+1], k_eos_tokens), 1)\n                            else:\n                                # move eos from beginning to end of target sentence\n                                k_ch_input = torch.cat((tokens[:, 1:step + 1], fw_top_k_idx[:, k_idx:k_idx+1], k_eos_tokens), 1)\n                            k_ch_input_lengths = ch_input_lengths[k_idx::k]\n                            k_ch_output = channel_model(k_ch_input, k_ch_input_lengths, src_tokens)\n                            k_ch_lprobs = channel_model.get_normalized_probs(k_ch_output, log_probs=True)\n                            k_ch_intermed_scores = torch.gather(k_ch_lprobs[:, :-1, :], 2, src_tokens[:, 1:].unsqueeze(2)).squeeze(2)\n                            k_ch_intermed_scores *= not_padding.float()\n                            ch_scores[k_idx::k] = torch.sum(k_ch_intermed_scores, dim=1)\n                    elif self.channel_scoring_type == \"src_vocab\":\n                        ch_encoder_output = channel_model.encoder(channel_input, src_lengths=ch_input_lengths)\n                        ch_decoder_output, _ = channel_model.decoder(temp_src_tokens_full, encoder_out=ch_encoder_output, features_only=True)\n\n                        del ch_encoder_output\n                        ch_lprobs = normalized_scores_with_batch_vocab(\n                            channel_model.decoder,\n                            ch_decoder_output, src_tokens, k, bsz, beam_size,\n                            self.src_dict.pad_index, top_k=self.top_k_vocab)\n                        ch_scores = torch.sum(ch_lprobs, dim=1)\n                    elif self.channel_scoring_type == \"src_vocab_batched\":\n                        ch_bsz_size = temp_src_tokens_full.shape[0]\n                        ch_lprobs_list = [None] * len(range(0, ch_bsz_size, self.ch_scoring_bsz))\n                        for i, start_idx in enumerate(range(0, ch_bsz_size, self.ch_scoring_bsz)):\n                            end_idx = min(start_idx + self.ch_scoring_bsz, ch_bsz_size)\n                            temp_src_tokens_full_batch = temp_src_tokens_full[start_idx:end_idx, :]\n                            channel_input_batch = channel_input[start_idx:end_idx, :]\n                            ch_input_lengths_batch = ch_input_lengths[start_idx:end_idx]\n                            ch_encoder_output_batch = channel_model.encoder(channel_input_batch, src_lengths=ch_input_lengths_batch)\n                            ch_decoder_output_batch, _ = channel_model.decoder(temp_src_tokens_full_batch, encoder_out=ch_encoder_output_batch, features_only=True)\n                            ch_lprobs_list[i] = normalized_scores_with_batch_vocab(\n                                channel_model.decoder,\n                                ch_decoder_output_batch, src_tokens, k, bsz, beam_size,\n                                self.src_dict.pad_index, top_k=self.top_k_vocab,\n                                start_idx=start_idx, end_idx=end_idx)\n                        ch_lprobs = torch.cat(ch_lprobs_list, dim=0)\n                        ch_scores = torch.sum(ch_lprobs, dim=1)\n                    else:\n                        ch_output = channel_model(channel_input, ch_input_lengths, temp_src_tokens_full)\n                        ch_lprobs = channel_model.get_normalized_probs(ch_output, log_probs=True)\n                        ch_intermed_scores = torch.gather(ch_lprobs[:, :-1, :], 2, temp_src_tokens_full[:, 1:].unsqueeze(2)).squeeze().view(bsz*beam_size*k, -1)\n                        ch_intermed_scores *= not_padding.float()\n                        ch_scores = torch.sum(ch_intermed_scores, dim=1)\n\n                else:\n                    cur_tgt_size = 0\n                ch_scores = ch_scores.view(bsz*beam_size, k)\n                expanded_lm_prefix_scores = lm_prefix_scores.unsqueeze(1).expand(-1, k).flatten()\n\n                if self.share_tgt_dict:\n                    lm_scores = get_lm_scores(lm, tokens[:, :step + 1].view(-1, step+1), lm_incremental_states, fw_top_k_idx.view(-1, 1), torch.tensor(np.full(tokens.size(0), step+1)), k)\n                else:\n                    new_lm_input = dict2dict(tokens[:, :step + 1].view(-1, step+1), self.tgt_to_lm)\n                    new_cands = dict2dict(fw_top_k_idx.view(-1, 1), self.tgt_to_lm)\n                    lm_scores = get_lm_scores(lm, new_lm_input, lm_incremental_states, new_cands, torch.tensor(np.full(tokens.size(0), step+1)), k)\n\n                lm_scores.add_(expanded_lm_prefix_scores)\n                ch_lm_scores = combine_ch_lm(self.combine_method, ch_scores, lm_scores, src_size, cur_tgt_size)\n                # initialize all as min value\n                new_fw_lprobs = ch_scores.new(lprobs_size).fill_(-1e17).view(bsz*beam_size, -1)\n                new_ch_lm_lprobs = ch_scores.new(lprobs_size).fill_(-1e17).view(bsz*beam_size, -1)\n                new_lm_lprobs = ch_scores.new(lprobs_size).fill_(-1e17).view(bsz*beam_size, -1)\n                new_fw_lprobs[:, self.pad] = -math.inf\n                new_ch_lm_lprobs[:, self.pad] = -math.inf\n                new_lm_lprobs[:, self.pad] = -math.inf\n\n                new_fw_lprobs.scatter_(1, fw_top_k_idx, fw_top_k)\n                new_ch_lm_lprobs.scatter_(1, fw_top_k_idx, ch_lm_scores)\n                new_lm_lprobs.scatter_(1, fw_top_k_idx, lm_scores.view(-1, k))\n                return new_fw_lprobs, new_ch_lm_lprobs, new_lm_lprobs\n\n        def combine_ch_lm(combine_type, ch_scores, lm_scores1, src_size, tgt_size):\n            if self.channel_scoring_type == \"unnormalized\":\n                ch_scores = self.log_softmax_fn(\n                    ch_scores.view(-1, self.beam_size * self.k2)\n                ).view(ch_scores.shape)\n            ch_scores = ch_scores * self.ch_weight\n            lm_scores1 = lm_scores1 * self.lm_weight\n\n            if combine_type == \"lm_only\":\n                # log P(T|S) + log P(T)\n                ch_scores = lm_scores1.view(ch_scores.size())\n            elif combine_type == \"noisy_channel\":\n                # 1/t log P(T|S) + 1/s log P(S|T) + 1/t log P(T)\n                if self.normalize_lm_scores_by_tgt_len:\n                    ch_scores.div_(src_size)\n                    lm_scores_norm = lm_scores1.view(ch_scores.size()).div(tgt_size)\n                    ch_scores.add_(lm_scores_norm)\n                # 1/t log P(T|S) + 1/s log P(S|T) + 1/s log P(T)\n                else:\n                    ch_scores.add_(lm_scores1.view(ch_scores.size()))\n                    ch_scores.div_(src_size)\n\n            return ch_scores\n\n        if self.channel_models is not None:\n            channel_model = self.channel_models[0]  # assume only one channel_model model\n        else:\n            channel_model = None\n\n        lm = EnsembleModel(self.lm_models)\n        lm_incremental_states = torch.jit.annotate(\n            List[Dict[str, Dict[str, Optional[Tensor]]]],\n            [\n                torch.jit.annotate(Dict[str, Dict[str, Optional[Tensor]]], {})\n                for i in range(lm.models_size)\n            ],\n        )\n\n        reorder_state = None\n        batch_idxs = None\n        for step in range(max_len + 1):  # one extra step for EOS marker\n            # reorder decoder internal states based on the prev choice of beams\n            if reorder_state is not None:\n                if batch_idxs is not None:\n                    # update beam indices to take into account removed sentences\n                    corr = batch_idxs - torch.arange(batch_idxs.numel()).type_as(batch_idxs)\n                    reorder_state.view(-1, beam_size).add_(corr.unsqueeze(-1) * beam_size)\n                model.reorder_incremental_state(incremental_states, reorder_state)\n                encoder_outs = model.reorder_encoder_out(encoder_outs, reorder_state)\n\n                lm.reorder_incremental_state(lm_incremental_states, reorder_state)\n\n            fw_lprobs, avg_attn_scores = model.forward_decoder(\n                tokens[:, :step + 1], encoder_outs, incremental_states, temperature=self.temperature,\n            )\n\n            fw_lprobs[:, self.pad] = -math.inf  # never select pad\n            fw_lprobs[:, self.unk] -= self.unk_penalty  # apply unk penalty\n            fw_lprobs, ch_lm_lprobs, lm_lprobs = noisy_channel_rescoring(fw_lprobs, beam_size, bsz, src_tokens, tokens, self.k2)\n\n            # handle min and max length constraints\n            if step >= max_len:\n                fw_lprobs[:, :self.eos] = -math.inf\n                fw_lprobs[:, self.eos + 1:] = -math.inf\n            elif step < self.min_len:\n                fw_lprobs[:, self.eos] = -math.inf\n\n            # handle prefix tokens (possibly with different lengths)\n            if prefix_tokens is not None and step < prefix_tokens.size(1):\n                prefix_toks = prefix_tokens[:, step].unsqueeze(-1).repeat(1, beam_size).view(-1)\n                prefix_mask = prefix_toks.ne(self.pad)\n\n                prefix_fw_lprobs = fw_lprobs.gather(-1, prefix_toks.unsqueeze(-1))\n                fw_lprobs[prefix_mask] = -math.inf\n                fw_lprobs[prefix_mask] = fw_lprobs[prefix_mask].scatter_(\n                    -1, prefix_toks[prefix_mask].unsqueeze(-1), prefix_fw_lprobs\n                )\n\n                prefix_ch_lm_lprobs = ch_lm_lprobs.gather(-1, prefix_toks.unsqueeze(-1))\n                ch_lm_lprobs[prefix_mask] = -math.inf\n                ch_lm_lprobs[prefix_mask] = ch_lm_lprobs[prefix_mask].scatter_(\n                    -1, prefix_toks[prefix_mask].unsqueeze(-1), prefix_ch_lm_lprobs\n                )\n\n                prefix_lm_lprobs = lm_lprobs.gather(-1, prefix_toks.unsqueeze(-1))\n                lm_lprobs[prefix_mask] = -math.inf\n                lm_lprobs[prefix_mask] = lm_lprobs[prefix_mask].scatter_(\n                    -1, prefix_toks[prefix_mask].unsqueeze(-1), prefix_lm_lprobs\n                )\n\n                # if prefix includes eos, then we should make sure tokens and\n                # scores are the same across all beams\n                eos_mask = prefix_toks.eq(self.eos)\n                if eos_mask.any():\n                    # validate that the first beam matches the prefix\n                    first_beam = tokens[eos_mask].view(-1, beam_size, tokens.size(-1))[:, 0, 1:step + 1]\n                    eos_mask_batch_dim = eos_mask.view(-1, beam_size)[:, 0]\n                    target_prefix = prefix_tokens[eos_mask_batch_dim][:, :step]\n                    assert (first_beam == target_prefix).all()\n\n                    def replicate_first_beam(tensor, mask):\n                        tensor = tensor.view(-1, beam_size, tensor.size(-1))\n                        tensor[mask] = tensor[mask][:, :1, :]\n                        return tensor.view(-1, tensor.size(-1))\n\n                    # copy tokens, scores and lprobs from the first beam to all beams\n                    tokens = replicate_first_beam(tokens, eos_mask_batch_dim)\n                    scores = replicate_first_beam(scores, eos_mask_batch_dim)\n\n                    fw_lprobs = replicate_first_beam(fw_lprobs, eos_mask_batch_dim)\n                    ch_lm_lprobs = replicate_first_beam(ch_lm_lprobs, eos_mask_batch_dim)\n                    lm_lprobs = replicate_first_beam(lm_lprobs, eos_mask_batch_dim)\n\n            if self.no_repeat_ngram_size > 0:\n                # for each beam and batch sentence, generate a list of previous ngrams\n                gen_ngrams = [{} for bbsz_idx in range(bsz * beam_size)]\n                for bbsz_idx in range(bsz * beam_size):\n                    gen_tokens = tokens[bbsz_idx].tolist()\n                    for ngram in zip(*[gen_tokens[i:] for i in range(self.no_repeat_ngram_size)]):\n                        gen_ngrams[bbsz_idx][tuple(ngram[:-1])] = \\\n                                gen_ngrams[bbsz_idx].get(tuple(ngram[:-1]), []) + [ngram[-1]]\n\n            # Record attention scores\n            if avg_attn_scores is not None:\n                if attn is None:\n                    attn = scores.new(bsz * beam_size, src_tokens.size(1), max_len + 2)\n                    attn_buf = attn.clone()\n                    nonpad_idxs = src_tokens.ne(self.pad)\n                attn[:, :, step + 1].copy_(avg_attn_scores)\n\n            scores = scores.type_as(fw_lprobs)\n            scores_buf = scores_buf.type_as(fw_lprobs)\n\n            self.search.set_src_lengths(src_lengths_no_eos)\n\n            if self.no_repeat_ngram_size > 0:\n                def calculate_banned_tokens(bbsz_idx):\n                    # before decoding the next token, prevent decoding of ngrams that have already appeared\n                    ngram_index = tuple(tokens[bbsz_idx, step + 2 - self.no_repeat_ngram_size:step + 1].tolist())\n                    return gen_ngrams[bbsz_idx].get(ngram_index, [])\n\n                if step + 2 - self.no_repeat_ngram_size >= 0:\n                    # no banned tokens if we haven't generated no_repeat_ngram_size tokens yet\n                    banned_tokens = [calculate_banned_tokens(bbsz_idx) for bbsz_idx in range(bsz * beam_size)]\n                else:\n                    banned_tokens = [[] for bbsz_idx in range(bsz * beam_size)]\n\n                for bbsz_idx in range(bsz * beam_size):\n                    fw_lprobs[bbsz_idx, banned_tokens[bbsz_idx]] = -math.inf\n\n            combined_noisy_channel_scores, fw_lprobs_top_k, lm_lprobs_top_k, cand_indices, cand_beams = self.search.step(\n                step,\n                fw_lprobs.view(bsz, -1, self.vocab_size),\n                scores.view(bsz, beam_size, -1)[:, :, :step], ch_lm_lprobs.view(bsz, -1, self.vocab_size),\n                lm_lprobs.view(bsz, -1, self.vocab_size), self.combine_method\n            )\n\n            # cand_bbsz_idx contains beam indices for the top candidate\n            # hypotheses, with a range of values: [0, bsz*beam_size),\n            # and dimensions: [bsz, cand_size]\n            cand_bbsz_idx = cand_beams.add(bbsz_offsets)\n\n            # finalize hypotheses that end in eos (except for candidates to be ignored)\n            eos_mask = cand_indices.eq(self.eos)\n            eos_mask[:, :beam_size] &= ~cands_to_ignore\n\n            # only consider eos when it's among the top beam_size indices\n            eos_bbsz_idx = torch.masked_select(\n                cand_bbsz_idx[:, :beam_size], mask=eos_mask[:, :beam_size]\n            )\n\n            finalized_sents = set()\n            if eos_bbsz_idx.numel() > 0:\n                eos_scores = torch.masked_select(\n                    fw_lprobs_top_k[:, :beam_size], mask=eos_mask[:, :beam_size]\n                )\n                combined_noisy_channel_eos_scores = torch.masked_select(\n                    combined_noisy_channel_scores[:, :beam_size],\n                    mask=eos_mask[:, :beam_size],\n                )\n\n                # finalize hypo using channel model score\n                finalized_sents = finalize_hypos(\n                    step, eos_bbsz_idx, eos_scores, combined_noisy_channel_eos_scores)\n\n                num_remaining_sent -= len(finalized_sents)\n\n            assert num_remaining_sent >= 0\n            if num_remaining_sent == 0:\n                break\n\n            if len(finalized_sents) > 0:\n                new_bsz = bsz - len(finalized_sents)\n\n                # construct batch_idxs which holds indices of batches to keep for the next pass\n                batch_mask = cand_indices.new_ones(bsz)\n                batch_mask[cand_indices.new(finalized_sents)] = 0\n                batch_idxs = torch.nonzero(batch_mask).squeeze(-1)\n\n                eos_mask = eos_mask[batch_idxs]\n                cand_beams = cand_beams[batch_idxs]\n                bbsz_offsets.resize_(new_bsz, 1)\n                cand_bbsz_idx = cand_beams.add(bbsz_offsets)\n\n                lm_lprobs_top_k = lm_lprobs_top_k[batch_idxs]\n\n                fw_lprobs_top_k = fw_lprobs_top_k[batch_idxs]\n                cand_indices = cand_indices[batch_idxs]\n                if prefix_tokens is not None:\n                    prefix_tokens = prefix_tokens[batch_idxs]\n                src_lengths_no_eos = src_lengths_no_eos[batch_idxs]\n                cands_to_ignore = cands_to_ignore[batch_idxs]\n\n                scores = scores.view(bsz, -1)[batch_idxs].view(new_bsz * beam_size, -1)\n                scores_buf.resize_as_(scores)\n                tokens = tokens.view(bsz, -1)[batch_idxs].view(new_bsz * beam_size, -1)\n                tokens_buf.resize_as_(tokens)\n                src_tokens = src_tokens.view(bsz, -1)[batch_idxs].view(new_bsz * beam_size, -1)\n                src_lengths = src_lengths.view(bsz, -1)[batch_idxs].view(new_bsz * beam_size, -1)\n                lm_prefix_scores = lm_prefix_scores.view(bsz, -1)[batch_idxs].view(new_bsz * beam_size, -1).squeeze()\n\n                if attn is not None:\n                    attn = attn.view(bsz, -1)[batch_idxs].view(new_bsz * beam_size, attn.size(1), -1)\n                    attn_buf.resize_as_(attn)\n                bsz = new_bsz\n            else:\n                batch_idxs = None\n\n            # Set active_mask so that values > cand_size indicate eos or\n            # ignored hypos and values < cand_size indicate candidate\n            # active hypos. After this, the min values per row are the top\n            # candidate active hypos.\n            eos_mask[:, :beam_size] |= cands_to_ignore\n            active_mask = torch.add(\n                eos_mask.type_as(cand_offsets) * cand_size,\n                cand_offsets[: eos_mask.size(1)],\n            )\n\n            # get the top beam_size active hypotheses, which are just the hypos\n            # with the smallest values in active_mask\n            active_hypos, new_cands_to_ignore = buffer('active_hypos'), buffer('new_cands_to_ignore')\n            torch.topk(\n                active_mask, k=beam_size, dim=1, largest=False,\n                out=(new_cands_to_ignore, active_hypos)\n            )\n\n            # update cands_to_ignore to ignore any finalized hypos\n            cands_to_ignore = new_cands_to_ignore.ge(cand_size)[:, :beam_size]\n            assert (~cands_to_ignore).any(dim=1).all()\n\n            active_bbsz_idx = buffer('active_bbsz_idx')\n            torch.gather(\n                cand_bbsz_idx, dim=1, index=active_hypos,\n                out=active_bbsz_idx,\n            )\n            active_scores = torch.gather(\n                fw_lprobs_top_k, dim=1, index=active_hypos,\n                out=scores[:, step].view(bsz, beam_size),\n            )\n\n            active_bbsz_idx = active_bbsz_idx.view(-1)\n            active_scores = active_scores.view(-1)\n\n            # copy tokens and scores for active hypotheses\n            torch.index_select(\n                tokens[:, :step + 1], dim=0, index=active_bbsz_idx,\n                out=tokens_buf[:, :step + 1],\n            )\n            torch.gather(\n                cand_indices, dim=1, index=active_hypos,\n                out=tokens_buf.view(bsz, beam_size, -1)[:, :, step + 1],\n            )\n            if step > 0:\n                torch.index_select(\n                    scores[:, :step], dim=0, index=active_bbsz_idx,\n                    out=scores_buf[:, :step],\n                )\n            torch.gather(\n                fw_lprobs_top_k, dim=1, index=active_hypos,\n                out=scores_buf.view(bsz, beam_size, -1)[:, :, step],\n            )\n            torch.gather(\n                lm_lprobs_top_k, dim=1, index=active_hypos,\n                out=lm_prefix_scores.view(bsz, beam_size)\n            )\n\n            # copy attention for active hypotheses\n            if attn is not None:\n                torch.index_select(\n                    attn[:, :, :step + 2], dim=0, index=active_bbsz_idx,\n                    out=attn_buf[:, :, :step + 2],\n                )\n\n            # swap buffers\n            tokens, tokens_buf = tokens_buf, tokens\n            scores, scores_buf = scores_buf, scores\n            if attn is not None:\n                attn, attn_buf = attn_buf, attn\n\n            # reorder incremental state in decoder\n            reorder_state = active_bbsz_idx\n\n        # sort by score descending\n        for sent in range(len(finalized)):\n            finalized[sent] = sorted(finalized[sent], key=lambda r: r['score'], reverse=True)\n\n        return finalized\n\n\ndef get_lm_scores(model, input_tokens, incremental_states, cand_tokens, input_len, k):\n    with torch.no_grad():\n        lm_lprobs, avg_attn_scores = model.forward_decoder(\n            input_tokens, encoder_outs=None, incremental_states=incremental_states,\n        )\n\n        lm_lprobs_size = lm_lprobs.size(0)\n        probs_next_wrd = torch.gather(lm_lprobs.repeat(1, k).view(lm_lprobs_size*k, -1), 1, cand_tokens).squeeze().view(-1)\n\n        return probs_next_wrd\n\n\ndef make_dict2dict(old_dict, new_dict):\n    dict2dict_map = {}\n    for sym in old_dict.symbols:\n        dict2dict_map[old_dict.index(sym)] = new_dict.index(sym)\n    return dict2dict_map\n\n\ndef dict2dict(tokens, dict2dict_map):\n    if tokens.device == torch.device('cpu'):\n        tokens_tmp = tokens\n    else:\n        tokens_tmp = tokens.cpu()\n    return tokens_tmp.map_(\n        tokens_tmp,\n        lambda _, val, dict2dict_map=dict2dict_map : dict2dict_map[float(val)]\n    ).to(tokens.device)\n\n\ndef reorder_tokens(tokens, lengths, eos):\n    # reorder source tokens so they may be used as reference for P(S|T)\n    return torch.cat((tokens.new([eos]), tokens[-lengths:-1], tokens[:-lengths]), 0)\n\n\ndef reorder_all_tokens(tokens, lengths, eos):\n    # used to reorder src tokens from [<pad> <w1> <w2> .. <eos>] to [<eos> <w1> <w2>...<pad>]\n    # so source tokens can be used to predict P(S|T)\n    return torch.stack([reorder_tokens(token, length, eos) for token, length in zip(tokens, lengths)])\n\n\ndef normalized_scores_with_batch_vocab(\n        model_decoder, features, target_ids, k, bsz, beam_size,\n        pad_idx, top_k=0, vocab_size_meter=None, start_idx=None,\n        end_idx=None, **kwargs):\n    \"\"\"\n        Get normalized probabilities (or log probs) from a net's output\n        w.r.t. vocab consisting of target IDs in the batch\n    \"\"\"\n    if model_decoder.adaptive_softmax is None:\n        weight = model_decoder.output_projection.weight\n        vocab_ids = torch.unique(\n            torch.cat(\n                (torch.unique(target_ids), torch.arange(top_k, device=target_ids.device))\n            )\n        )\n        id_map = dict(zip(vocab_ids.tolist(), range(len(vocab_ids))))\n        mapped_target_ids = target_ids.cpu().apply_(\n            lambda x, id_map=id_map: id_map[x]\n        ).to(target_ids.device)\n        expanded_target_ids = mapped_target_ids[:, :].repeat(1, k).view(bsz*beam_size*k, -1)\n        if start_idx is not None and end_idx is not None:\n            expanded_target_ids = expanded_target_ids[start_idx:end_idx, :]\n        logits = F.linear(features, weight[vocab_ids, :])\n        log_softmax = F.log_softmax(logits, dim=-1, dtype=torch.float32)\n        intermed_scores = torch.gather(\n            log_softmax[:, :-1, :],\n            2,\n            expanded_target_ids[:, 1:].unsqueeze(2),\n        ).squeeze()\n        not_padding = expanded_target_ids[:, 1:] != pad_idx\n        intermed_scores *= not_padding.float()\n        return intermed_scores\n    else:\n        raise ValueError(\"adaptive softmax doesn't work with \" +\n                         \"`normalized_scores_with_batch_vocab()`\")\n"
  },
  {
    "path": "examples/fast_noisy_channel/noisy_channel_translation.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.tasks.translation import TranslationTask\nfrom fairseq.tasks.language_modeling import LanguageModelingTask\nfrom fairseq import checkpoint_utils\nimport argparse\nfrom fairseq.tasks import register_task\nimport torch\n\n\n@register_task(\"noisy_channel_translation\")\nclass NoisyChannelTranslation(TranslationTask):\n    \"\"\"\n    Rescore the top k candidates from each beam using noisy channel modeling\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        TranslationTask.add_args(parser)\n        # fmt: off\n        parser.add_argument('--channel-model', metavar='FILE',\n                            help='path to P(S|T) model. P(S|T) and P(T|S) must share source and target dictionaries.')\n        parser.add_argument('--combine-method', default='lm_only',\n                            choices=['lm_only', 'noisy_channel'],\n                            help=\"\"\"method for combining direct and channel model scores.\n                                    lm_only: decode with P(T|S)P(T)\n                                    noisy_channel: decode with 1/t P(T|S) + 1/s(P(S|T)P(T))\"\"\")\n        parser.add_argument('--normalize-lm-scores-by-tgt-len', action='store_true', default=False,\n                            help='normalize lm score by target length instead of source length')\n        parser.add_argument('--channel-scoring-type', default='log_norm', choices=['unnormalized', 'log_norm', 'k2_separate', 'src_vocab', 'src_vocab_batched'],\n                            help=\"Normalize bw scores with log softmax or return bw scores without log softmax\")\n        parser.add_argument('--top-k-vocab', default=0, type=int,\n                            help='top k vocab IDs to use with `src_vocab` in channel model scoring')\n        parser.add_argument('--k2', default=50, type=int,\n                            help='the top k2 candidates to rescore with the noisy channel model for each beam')\n        parser.add_argument('--ch-wt', default=1, type=float,\n                            help='weight for the channel model')\n        parser.add_argument('--lm-model', metavar='FILE',\n                            help='path to lm model file, to model P(T). P(T) must share the same vocab as the direct model on the target side')\n        parser.add_argument('--lm-data', metavar='FILE',\n                            help='path to lm model training data for target language, used to properly load LM with correct dictionary')\n        parser.add_argument('--lm-wt', default=1, type=float,\n                            help='the weight of the lm in joint decoding')\n        # fmt: on\n\n    def build_generator(\n        self, models, args, seq_gen_cls=None, extra_gen_cls_kwargs=None\n    ):\n        if getattr(args, \"score_reference\", False):\n            raise NotImplementedError()\n        else:\n            from .noisy_channel_sequence_generator import NoisyChannelSequenceGenerator\n            use_cuda = torch.cuda.is_available() and not self.args.cpu\n            assert self.args.lm_model is not None, '--lm-model required for noisy channel generation!'\n            assert self.args.lm_data is not None, '--lm-data required for noisy channel generation to map between LM and bitext vocabs'\n            if self.args.channel_model is not None:\n                import copy\n                ch_args_task = copy.deepcopy(self.args)\n                tmp = ch_args_task.source_lang\n                ch_args_task.source_lang = ch_args_task.target_lang\n                ch_args_task.target_lang = tmp\n                ch_args_task._name = 'translation'\n                channel_task = TranslationTask.setup_task(ch_args_task)\n\n            arg_dict = {}\n            arg_dict['task'] = 'language_modeling'\n            arg_dict['sample_break_mode'] = 'eos'\n            arg_dict['data'] = self.args.lm_data\n            arg_dict['output_dictionary_size'] = -1\n            lm_args = argparse.Namespace(**arg_dict)\n            lm_task = LanguageModelingTask.setup_task(lm_args)\n            lm_dict = lm_task.output_dictionary\n\n            if self.args.channel_model is not None:\n                channel_models, _ = checkpoint_utils.load_model_ensemble(self.args.channel_model.split(':'), task=channel_task)\n\n                for model in channel_models:\n                    model.make_generation_fast_(\n                        beamable_mm_beam_size=None if args.no_beamable_mm else args.beam,\n                        need_attn=args.print_alignment,\n                    )\n                    if self.args.fp16:\n                        model.half()\n                    if use_cuda:\n                        model.cuda()\n            else:\n                channel_models = None\n\n            lm_models, _ = checkpoint_utils.load_model_ensemble(self.args.lm_model.split(':'), task=lm_task)\n\n            for model in lm_models:\n                model.make_generation_fast_(\n                    beamable_mm_beam_size=None if args.no_beamable_mm else args.beam,\n                    need_attn=args.print_alignment,\n                )\n                if self.args.fp16:\n                    model.half()\n                if use_cuda:\n                    model.cuda()\n            return NoisyChannelSequenceGenerator(\n                combine_method=self.args.combine_method,\n                tgt_dict=self.target_dictionary,\n                src_dict=self.source_dictionary,\n                beam_size=getattr(args, 'beam', 5),\n                max_len_a=getattr(args, 'max_len_a', 0),\n                max_len_b=getattr(args, 'max_len_b', 200),\n                min_len=getattr(args, 'min_len', 1),\n                len_penalty=getattr(args, 'lenpen', 1),\n                unk_penalty=getattr(args, 'unkpen', 0),\n                temperature=getattr(args, 'temperature', 1.),\n                match_source_len=getattr(args, 'match_source_len', False),\n                no_repeat_ngram_size=getattr(args, 'no_repeat_ngram_size', 0),\n                normalize_scores=(not getattr(args, 'unnormalized', False)),\n                channel_models=channel_models,\n                k2=getattr(self.args, 'k2', 50),\n                ch_weight=getattr(self.args, 'ch_wt', 1),\n                channel_scoring_type=self.args.channel_scoring_type,\n                top_k_vocab=self.args.top_k_vocab,\n                lm_models=lm_models,\n                lm_dict=lm_dict,\n                lm_weight=getattr(self.args, 'lm_wt', 1),\n                normalize_lm_scores_by_tgt_len=getattr(self.args, 'normalize_lm_scores_by_tgt_len', False),\n            )\n"
  },
  {
    "path": "examples/flores101/README.md",
    "content": "<p align=\"center\">\n<img src=\"flores_logo.png\" width=\"500\">\n</p>\n\n# Flores101: Large-Scale Multilingual Machine Translation\n\n## Introduction\n\nBaseline pretrained models for small and large tracks of WMT 21 Large-Scale Multilingual Machine Translation competition.\n\nFlores Task at WMT 21: http://www.statmt.org/wmt21/large-scale-multilingual-translation-task.html\n\nFlores announement blog post: https://ai.facebook.com/blog/flores-researchers-kick-off-multilingual-translation-challenge-at-wmt-and-call-for-compute-grants/\n\n\n\n## Pretrained models\n\nModel | Num layers | Embed dimension | FFN dimension| Vocab Size | #params | Download\n---|---|---|---|---|---|---\n`flores101_mm100_615M` | 12 | 1024 | 4096 | 256,000 | 615M | https://dl.fbaipublicfiles.com/flores101/pretrained_models/flores101_mm100_615M.tar.gz\n`flores101_mm100_175M` | 6 | 512 | 2048 | 256,000 | 175M | https://dl.fbaipublicfiles.com/flores101/pretrained_models/flores101_mm100_175M.tar.gz\n\n\nThese models are trained similar to [M2M-100](https://arxiv.org/abs/2010.11125) with additional support for the languages that are part of the WMT Large-Scale Multilingual Machine Translation track. Full list of languages can be found at the bottom.\n\n\n## Example Generation code\n\n### Download model, sentencepiece vocab\n\n```bash\nfairseq=/path/to/fairseq\ncd $fairseq\n\n# Download 615M param model.\nwget https://dl.fbaipublicfiles.com/flores101/pretrained_models/flores101_mm100_615M.tar.gz\n\n# Extract \ntar -xvzf flores101_mm100_615M.tar.gz\n```\n\n### Encode using our SentencePiece Model\nNote: Install SentencePiece from [here](https://github.com/google/sentencepiece)\n\n\n```bash\nfairseq=/path/to/fairseq\ncd $fairseq\n\n# Download example dataset From German to French\nsacrebleu --echo src -l de-fr -t wmt19 | head -n 20 > raw_input.de-fr.de\nsacrebleu --echo ref -l de-fr -t wmt19 | head -n 20 > raw_input.de-fr.fr\n\nfor lang in de fr ; do\n    python scripts/spm_encode.py \\\n        --model flores101_mm100_615M/sentencepiece.bpe.model \\\n        --output_format=piece \\\n        --inputs=raw_input.de-fr.${lang} \\\n        --outputs=spm.de-fr.${lang}\ndone\n```\n\n### Binarization\n\n```bash\nfairseq-preprocess \\\n    --source-lang de --target-lang fr \\\n    --testpref spm.de-fr \\\n    --thresholdsrc 0 --thresholdtgt 0 \\\n    --destdir data_bin \\\n    --srcdict flores101_mm100_615M/dict.txt --tgtdict flores101_mm100_615M/dict.txt\n```\n\n### Generation \n\n\n```bash\nfairseq-generate \\\n    data_bin \\\n    --batch-size 1 \\\n    --path flores101_mm100_615M/model.pt \\\n    --fixed-dictionary flores101_mm100_615M/dict.txt \\\n    -s de -t fr \\\n    --remove-bpe 'sentencepiece' \\\n    --beam 5 \\\n    --task translation_multi_simple_epoch \\\n    --lang-pairs flores101_mm100_615M/language_pairs.txt \\\n    --decoder-langtok --encoder-langtok src \\\n    --gen-subset test \\\n    --fp16 \\\n    --dataset-impl mmap \\\n    --distributed-world-size 1 --distributed-no-spawn\n```\n\n### Supported Languages and lang code\n\nLanguage | lang code\n---|---\nAkrikaans | af\nAmharic | am\nArabic | ar\nAssamese | as\nAsturian | ast\nAymara | ay\nAzerbaijani | az\nBashkir | ba\nBelarusian | be\nBulgarian | bg\nBengali | bn\nBreton | br\nBosnian | bs\nCatalan | ca\nCebuano | ceb\nChokwe | cjk\nCzech | cs\nWelsh | cy\nDanish | da\nGerman | de\nDyula| dyu\nGreek | el\nEnglish | en\nSpanish | es\nEstonian | et\nPersian | fa\nFulah | ff\nFinnish | fi\nFrench | fr\nWestern Frisian | fy\nIrish | ga\nScottish Gaelic | gd\nGalician | gl\nGujarati | gu\nHausa | ha\nHebrew | he\nHindi | hi\nCroatian | hr\nHaitian Creole | ht\nHungarian | hu\nArmenian | hy\nIndonesian | id\nIgbo | ig\nIloko | ilo\nIcelandic | is\nItalian | it\nJapanese | ja\nJavanese | jv\nGeorgian | ka\nKachin | kac\nKamba | kam\nKabuverdianu | kea\nKongo | kg\nKazakh | kk\nCentral Khmer | km\nKimbundu | kmb\nNorthern Kurdish | kmr\nKannada | kn\nKorean | ko\nKurdish | ku\nKyrgyz | ky\nLuxembourgish | lb\nGanda | lg\nLingala | ln\nLao | lo\nLithuanian | lt\nLuo | luo\nLatvian | lv\nMalagasy | mg\nMaori | mi\nMacedonian | mk\nMalayalam | ml\nMongolian | mn\nMarathi | mr\nMalay | ms\nMaltese | mt\nBurmese | my\nNepali | ne\nDutch | nl\nNorwegian | no\nNorthern Sotho | ns\nNyanja | ny\nOccitan | oc\nOromo | om\nOriya | or\nPunjabi | pa\nPolish | pl\nPashto | ps\nPortuguese | pt\nQuechua | qu\nRomanian | ro\nRussian | ru\nSindhi | sd\nShan | shn\nSinhala | si\nSlovak | sk\nSlovenian | sl\nShona | sn\nSomali | so\nAlbanian | sq\nSerbian | sr\nSwati | ss\nSundanese | su\nSwedish | sv\nSwahili | sw\nTamil | ta\nTelugu | te\nTajik | tg\nThai | th\nTigrinya | ti\nTagalog | tl\nTswana | tn\nTurkish | tr\nUkrainian | uk\nUmbundu | umb\nUrdu | ur\nUzbek | uz\nVietnamese | vi\nWolof | wo\nXhosa | xh\nYiddish | yi\nYoruba | yo\nChinese| zh\nZulu | zu\n"
  },
  {
    "path": "examples/fully_sharded_data_parallel/README.md",
    "content": "# Fully Sharded Data Parallel (FSDP)\n\n## Overview\nRecent work by [Microsoft](https://arxiv.org/abs/1910.02054) and\n[Google](https://arxiv.org/abs/2004.13336) has shown that data parallel\ntraining can be made significantly more efficient by sharding the model\nparameters and optimizer state across data parallel workers. These ideas are\nencapsulated in the new **`FullyShardedDataParallel` (FSDP)** wrapper provided\nby [fairscale](https://github.com/facebookresearch/fairscale/).\n\nCompared to PyTorch DDP:\n* FSDP produces identical results as PyTorch DDP (it's still synchronous data parallel training)\n* FSDP shards parameters (FP16 + FP32) and optimizer state across data parallel GPUs\n* FSDP is faster than PyTorch DDP because the optimizer step is sharded, and the communication can be overlapped with the forward pass\n* FSDP enables training 13B parameter models on 8 GPUs and 175B parameter models on 128 GPUs\n\nFSDP is fully supported in fairseq via the following new arguments:\n* `--ddp-backend=fully_sharded`: enables full sharding via FSDP\n* `--cpu-offload`: offloads the optimizer state and FP32 model copy to CPU (combine with `--optimizer=cpu_adam`)\n* `--no-reshard-after-forward`: increases training speed for large models (1B+ params) and is similar to ZeRO stage 2\n* other popular options (`--fp16`, `--update-freq`, `--checkpoint-activations`, `--offload-activations`, etc.) continue to work as normal\n\n<details><summary>Limitations</summary><p>\n\nFSDP currently has several limitations compared to fairseq's default DDP backend (PyTorch DDP):\n* while FSDP is full compatible with pointwise Optimizers (e.g., Adam, AdamW, Adadelta, Adamax, SGD, etc.), it is not currently compatible with non-pointwise Optimizers (e.g., Adagrad, Adafactor, LAMB, etc.)\n* FSDP depends on flattening the parameters, so models that currently require `--fp16-no-flatten-grads` may not be supported\n\nSee the [fairscale docs](https://fairscale.readthedocs.io/en/latest/api/nn/fsdp_tips.html) for a more detailed\nexplanation of these and other limitations.\n\n</p></details>\n\n<details><summary>How it works</summary><p>\n\n<img width=\"800\" alt=\"Fully Sharded Data Parallel\" src=\"https://user-images.githubusercontent.com/231798/110406775-c2de0000-8050-11eb-9718-fbfc4510a76a.png\">\n\nSee the [fairscale docs](https://fairscale.readthedocs.io/en/latest/api/nn/fsdp_tips.html) for a more detailed\nexplanation of how FSDP works.\n\n</p></details>\n\n## Example usage\n\nThe following examples illustrate how to train a very large language model with\n13 billion parameters on 1 GPU by offloading parameters and optimizer states to\nCPU, or on 8 GPUs by fully sharding the params and optimizer states across GPUs.\n\nThese examples use the WikiText-103 dataset for demonstration purposes, but\nin practice a much larger dataset will be needed to achieve good results.\nFollow the [instructions here](https://github.com/pytorch/fairseq/blob/main/examples/roberta/README.pretraining.md#1-preprocess-the-data)\nto preprocess the WikiText-103 dataset using the GPT-2/RoBERTa vocabulary.\n\n### 13B params on 1 V100 GPU (with CPU offloading)\n\nThe following command trains a 13B parameter GPT-3 model on a single V100 GPU\nusing the `--cpu-offload` feature to offload parameters and optimizer states to\nCPU. In this setting, the optimizer step (Adam) happens on CPU. We also use the\n`--checkpoint-activations` feature (sometimes called [gradient checkpointing](https://pytorch.org/docs/stable/checkpoint.html)),\nwhich further saves memory in exchange for a small increase in computation.\n\n**Requirements:**\n- Install the latest master version of fairscale: `pip install git+https://github.com/facebookresearch/fairscale.git@master`\n- You'll need 32GB of GPU memory and ~256GB of system memory to train the 13B param model.\n- If you have less system memory, the 6.7B param model can be trained with ~128GB of system memory, just set `--arch transformer_lm_gpt3_6_7`\n- We use the CPU Adam optimizer from [DeepSpeed](https://github.com/microsoft/DeepSpeed), so you'll need to `pip install deepspeed` before running the command.\n\n**Notes:**\n- The command will take ~5 minutes to start training, during which time it will appear to be hung, since randomly initializing 13B weights can be slow.\n- The `--cpu-offload` feature requires training in mixed precision (`--fp16`).\n- Tune the `OMP_NUM_THREADS` env variable for best performance with CPU offloading.\n- The example command below stops training after 10 steps (`--max-update 10`) and does not save checkpoints (`--no-save`).\n\n```bash\nOMP_NUM_THREADS=20 CUDA_VISIBLE_DEVICES=0 \\\n    fairseq-train data-bin/wikitext-103-roberta-bpe-bin \\\n    --ddp-backend fully_sharded --fp16 --fp16-init-scale 4 \\\n    --cpu-offload --checkpoint-activations \\\n    --task language_modeling --tokens-per-sample 2048 --batch-size 8 \\\n    --arch transformer_lm_gpt3_13 \\\n    --optimizer cpu_adam --adam-betas \"(0.9,0.98)\" \\\n    --lr 0.0001 --lr-scheduler polynomial_decay --warmup-updates 5 --total-num-update 10 \\\n    --max-update 10 --no-save --log-format json --log-interval 1\n```\n\n<details><summary>Example output</summary><p>\n\n```\n(...)\n2021-03-08 12:29:51 | INFO | fairseq_cli.train | num. model params: 13,110,865,920 (num. trained: 13,110,865,920)\n(...)\n2021-03-08 12:29:51 | INFO | fairseq_cli.train | training on 1 devices (GPUs/TPUs)\n2021-03-08 12:29:51 | INFO | fairseq_cli.train | max tokens per GPU = None and batch size per GPU = 8\n(...)\nAdam Optimizer #0 is created with AVX2 arithmetic capability.\nConfig: alpha=0.000100, betas=(0.900000, 0.980000), weight_decay=0.000000, adam_w=1\n(...)\n2021-03-08 12:31:36 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.0, \"loss\": \"16.475\", \"ppl\": \"91120.8\", \"wps\": \"0\", \"ups\": \"0\", \"wpb\": \"16384\", \"bsz\": \"8\", \"num_updates\": \"1\", \"lr\": \"2e-05\", \"gnorm\": \"20.751\", \"loss_scale\": \"4\", \"train_wall\": \"99\", \"gb_free\": \"9.3\", \"wall\": \"105\"}\n2021-03-08 12:32:33 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.0, \"loss\": \"16.446\", \"ppl\": \"89281.6\", \"wps\": \"288.7\", \"ups\": \"0.02\", \"wpb\": \"16384\", \"bsz\": \"8\", \"num_updates\": \"2\", \"lr\": \"4e-05\", \"gnorm\": \"19.777\", \"loss_scale\": \"4\", \"train_wall\": \"57\", \"gb_free\": \"9.3\", \"wall\": \"161\"}\n2021-03-08 12:33:12 | INFO | fairseq.trainer | NOTE: gradient overflow detected, ignoring gradient, setting loss scale to: 2.0\n2021-03-08 12:33:51 | INFO | fairseq.trainer | NOTE: gradient overflow detected, ignoring gradient, setting loss scale to: 1.0\n2021-03-08 12:34:45 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.001, \"loss\": \"25.22\", \"ppl\": \"3.90691e+07\", \"wps\": \"123.4\", \"ups\": \"0.01\", \"wpb\": \"16384\", \"bsz\": \"8\", \"num_updates\": \"3\", \"lr\": \"6e-05\", \"gnorm\": \"131.281\", \"loss_scale\": \"1\", \"train_wall\": \"133\", \"gb_free\": \"9.3\", \"wall\": \"294\"}\n2021-03-08 12:35:43 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.001, \"loss\": \"18.079\", \"ppl\": \"276809\", \"wps\": \"285.5\", \"ups\": \"0.02\", \"wpb\": \"16384\", \"bsz\": \"8\", \"num_updates\": \"4\", \"lr\": \"8e-05\", \"gnorm\": \"13.776\", \"loss_scale\": \"1\", \"train_wall\": \"57\", \"gb_free\": \"9.3\", \"wall\": \"351\"}\n2021-03-08 12:36:35 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.001, \"loss\": \"23.729\", \"ppl\": \"1.39088e+07\", \"wps\": \"316.7\", \"ups\": \"0.02\", \"wpb\": \"16384\", \"bsz\": \"8\", \"num_updates\": \"5\", \"lr\": \"0.0001\", \"gnorm\": \"72.774\", \"loss_scale\": \"1\", \"train_wall\": \"52\", \"gb_free\": \"9.3\", \"wall\": \"403\"}\n2021-03-08 12:37:28 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.001, \"loss\": \"20.429\", \"ppl\": \"1.41203e+06\", \"wps\": \"307.6\", \"ups\": \"0.02\", \"wpb\": \"16384\", \"bsz\": \"8\", \"num_updates\": \"6\", \"lr\": \"8e-05\", \"gnorm\": \"60.846\", \"loss_scale\": \"1\", \"train_wall\": \"53\", \"gb_free\": \"9.3\", \"wall\": \"456\"}\n2021-03-08 12:38:27 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.001, \"loss\": \"18.965\", \"ppl\": \"511684\", \"wps\": \"279.4\", \"ups\": \"0.02\", \"wpb\": \"16384\", \"bsz\": \"8\", \"num_updates\": \"7\", \"lr\": \"6e-05\", \"gnorm\": \"22.687\", \"loss_scale\": \"1\", \"train_wall\": \"59\", \"gb_free\": \"9.3\", \"wall\": \"515\"}\n2021-03-08 12:39:18 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.001, \"loss\": \"18.345\", \"ppl\": \"332887\", \"wps\": \"319.1\", \"ups\": \"0.02\", \"wpb\": \"16384\", \"bsz\": \"8\", \"num_updates\": \"8\", \"lr\": \"4e-05\", \"gnorm\": \"8.451\", \"loss_scale\": \"1\", \"train_wall\": \"51\", \"gb_free\": \"9.3\", \"wall\": \"566\"}\n2021-03-08 12:40:11 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.002, \"loss\": \"18.262\", \"ppl\": \"314336\", \"wps\": \"305.9\", \"ups\": \"0.02\", \"wpb\": \"16384\", \"bsz\": \"8\", \"num_updates\": \"9\", \"lr\": \"2e-05\", \"gnorm\": \"6.457\", \"loss_scale\": \"1\", \"train_wall\": \"54\", \"gb_free\": \"9.3\", \"wall\": \"620\"}\n2021-03-08 12:41:04 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.002, \"loss\": \"17.556\", \"ppl\": \"192686\", \"wps\": \"311.8\", \"ups\": \"0.02\", \"wpb\": \"16384\", \"bsz\": \"8\", \"num_updates\": \"10\", \"lr\": \"0\", \"gnorm\": \"5.796\", \"loss_scale\": \"1\", \"train_wall\": \"53\", \"gb_free\": \"9.3\", \"wall\": \"673\"}\n2021-03-08 12:41:04 | INFO | fairseq_cli.train | Stopping training due to num_updates: 10 >= max_update: 10\n2021-03-08 12:41:04 | INFO | fairseq_cli.train | begin validation on \"valid\" subset\n2021-03-08 12:43:15 | INFO | valid | {\"epoch\": 1, \"valid_loss\": \"17.953\", \"valid_ppl\": \"253807\", \"valid_wps\": \"1868.4\", \"valid_wpb\": \"15400.2\", \"valid_bsz\": \"7.6\", \"valid_num_updates\": \"10\"}\n2021-03-08 12:43:15 | INFO | fairseq_cli.train | end of epoch 1 (average epoch stats below)\n2021-03-08 12:43:15 | INFO | train | {\"epoch\": 1, \"train_loss\": \"19.351\", \"train_ppl\": \"668509\", \"train_wps\": \"210.9\", \"train_ups\": \"0.01\", \"train_wpb\": \"16384\", \"train_bsz\": \"8\", \"train_num_updates\": \"10\", \"train_lr\": \"0\", \"train_gnorm\": \"36.26\", \"train_loss_scale\": \"1\", \"train_train_wall\": \"667\", \"train_gb_free\": \"9.3\", \"train_wall\": \"804\"}\n2021-03-08 12:43:15 | INFO | fairseq_cli.train | done training in 798.6 seconds\n```\n\n</p></details>\n\n### 13B params on 8 V100 GPUs (with full parameter + optimizer state sharding)\n\nFSDP can also shard the parameters and optimizer states across multiple GPUs,\nreducing memory requirements significantly. On 8 x 32GB GPUs, sharding enables\ntraining the same 13B parameter model *without offloading the parameters to\nCPU*. However, without CPU offloading we'd only be able to fit a batch size of\n1 per GPU, which would cause training speed to suffer.\n\nWe obtain the best performance on 8 GPUs by combining full sharding and CPU\noffloading. The following command trains the same 13B parameter GPT-3 model as\nbefore on 8 x 32GB V100 GPUs; training speed increases superlinearly from ~310\nwords per second to ~3200 words per second.\n\n```bash\nOMP_NUM_THREADS=20 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \\\n    fairseq-train data-bin/wikitext-103-roberta-bpe-bin \\\n    --ddp-backend fully_sharded --fp16 --fp16-init-scale 4 \\\n    --cpu-offload --checkpoint-activations \\\n    --task language_modeling --tokens-per-sample 2048 --batch-size 8 \\\n    --arch transformer_lm_gpt3_13 \\\n    --optimizer cpu_adam --adam-betas \"(0.9,0.98)\" \\\n    --lr 0.0001 --lr-scheduler polynomial_decay --warmup-updates 5 --total-num-update 10 \\\n    --max-update 10 --no-save --log-format json --log-interval 1\n```\n\n<details><summary>Example output</summary><p>\n\n```\n(...)\n2021-03-08 18:04:09 | INFO | fairseq_cli.train | num. model params: 13,110,865,920 (num. trained: 13,110,865,920)\n(...)\n2021-03-08 18:04:09 | INFO | fairseq_cli.train | training on 8 devices (GPUs/TPUs)\n2021-03-08 18:04:09 | INFO | fairseq_cli.train | max tokens per GPU = None and batch size per GPU = 8\n(...)\nAdam Optimizer #0 is created with AVX2 arithmetic capability.\nConfig: alpha=0.000100, betas=(0.900000, 0.980000), weight_decay=0.000000, adam_w=1\n(...)\n2021-03-08 18:05:06 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.001, \"loss\": \"16.408\", \"ppl\": \"86945.6\", \"wps\": \"0\", \"ups\": \"0\", \"wpb\": \"131072\", \"bsz\": \"64\", \"num_updates\": \"1\", \"lr\": \"2e-05\", \"gnorm\": \"18.27\", \"loss_scale\": \"4\", \"train_wall\": \"47\", \"gb_free\": \"9.3\", \"wall\": \"56\"}\n2021-03-08 18:05:45 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.002, \"loss\": \"16.352\", \"ppl\": \"83644.3\", \"wps\": \"3283.4\", \"ups\": \"0.03\", \"wpb\": \"131072\", \"bsz\": \"64\", \"num_updates\": \"2\", \"lr\": \"4e-05\", \"gnorm\": \"18.411\", \"loss_scale\": \"4\", \"train_wall\": \"40\", \"gb_free\": \"9.3\", \"wall\": \"96\"}\n2021-03-08 18:06:21 | INFO | fairseq.trainer | NOTE: gradient overflow detected, ignoring gradient, setting loss scale to: 2.0\n2021-03-08 18:06:56 | INFO | fairseq.trainer | NOTE: gradient overflow detected, ignoring gradient, setting loss scale to: 1.0\n2021-03-08 18:07:37 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.006, \"loss\": \"23.682\", \"ppl\": \"1.34537e+07\", \"wps\": \"1176.6\", \"ups\": \"0.01\", \"wpb\": \"131072\", \"bsz\": \"64\", \"num_updates\": \"3\", \"lr\": \"6e-05\", \"gnorm\": \"119.682\", \"loss_scale\": \"1\", \"train_wall\": \"111\", \"gb_free\": \"9.3\", \"wall\": \"208\"}\n2021-03-08 18:08:18 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.007, \"loss\": \"18.988\", \"ppl\": \"519921\", \"wps\": \"3189.1\", \"ups\": \"0.02\", \"wpb\": \"131072\", \"bsz\": \"64\", \"num_updates\": \"4\", \"lr\": \"8e-05\", \"gnorm\": \"14.934\", \"loss_scale\": \"1\", \"train_wall\": \"41\", \"gb_free\": \"9.3\", \"wall\": \"249\"}\n2021-03-08 18:08:59 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.008, \"loss\": \"20.08\", \"ppl\": \"1.10798e+06\", \"wps\": \"3223.1\", \"ups\": \"0.02\", \"wpb\": \"131072\", \"bsz\": \"64\", \"num_updates\": \"5\", \"lr\": \"0.0001\", \"gnorm\": \"59.92\", \"loss_scale\": \"1\", \"train_wall\": \"41\", \"gb_free\": \"9.3\", \"wall\": \"289\"}\n2021-03-08 18:09:39 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.009, \"loss\": \"18.323\", \"ppl\": \"327980\", \"wps\": \"3256.6\", \"ups\": \"0.02\", \"wpb\": \"131072\", \"bsz\": \"64\", \"num_updates\": \"6\", \"lr\": \"8e-05\", \"gnorm\": \"37.425\", \"loss_scale\": \"1\", \"train_wall\": \"40\", \"gb_free\": \"9.3\", \"wall\": \"330\"}\n2021-03-08 18:10:20 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.01, \"loss\": \"17.264\", \"ppl\": \"157354\", \"wps\": \"3188.7\", \"ups\": \"0.02\", \"wpb\": \"131072\", \"bsz\": \"64\", \"num_updates\": \"7\", \"lr\": \"6e-05\", \"gnorm\": \"10.824\", \"loss_scale\": \"1\", \"train_wall\": \"41\", \"gb_free\": \"9.3\", \"wall\": \"371\"}\n2021-03-08 18:11:01 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.011, \"loss\": \"16.794\", \"ppl\": \"113647\", \"wps\": \"3230\", \"ups\": \"0.02\", \"wpb\": \"131072\", \"bsz\": \"64\", \"num_updates\": \"8\", \"lr\": \"4e-05\", \"gnorm\": \"5.616\", \"loss_scale\": \"1\", \"train_wall\": \"41\", \"gb_free\": \"9.3\", \"wall\": \"411\"}\n2021-03-08 18:11:39 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.012, \"loss\": \"16.706\", \"ppl\": \"106938\", \"wps\": \"3384\", \"ups\": \"0.03\", \"wpb\": \"131072\", \"bsz\": \"64\", \"num_updates\": \"9\", \"lr\": \"2e-05\", \"gnorm\": \"5.318\", \"loss_scale\": \"1\", \"train_wall\": \"39\", \"gb_free\": \"9.3\", \"wall\": \"450\"}\n2021-03-08 18:12:19 | INFO | train_inner | {\"epoch\": 1, \"update\": 0.013, \"loss\": \"16.548\", \"ppl\": \"95796.2\", \"wps\": \"3274.4\", \"ups\": \"0.02\", \"wpb\": \"131072\", \"bsz\": \"64\", \"num_updates\": \"10\", \"lr\": \"0\", \"gnorm\": \"5.22\", \"loss_scale\": \"1\", \"train_wall\": \"40\", \"gb_free\": \"9.3\", \"wall\": \"490\"}\n2021-03-08 18:12:19 | INFO | fairseq_cli.train | Stopping training due to num_updates: 10 >= max_update: 10\n2021-03-08 18:12:19 | INFO | fairseq_cli.train | begin validation on \"valid\" subset\n2021-03-08 18:12:45 | INFO | valid | {\"epoch\": 1, \"valid_loss\": \"16.624\", \"valid_ppl\": \"101000\", \"valid_wps\": \"10855.9\", \"valid_wpb\": \"123202\", \"valid_bsz\": \"60.5\", \"valid_num_updates\": \"10\"}\n2021-03-08 18:12:45 | INFO | fairseq_cli.train | end of epoch 1 (average epoch stats below)\n2021-03-08 18:12:45 | INFO | train | {\"epoch\": 1, \"train_loss\": \"18.114\", \"train_ppl\": \"283776\", \"train_wps\": \"2567.8\", \"train_ups\": \"0.02\", \"train_wpb\": \"131072\", \"train_bsz\": \"64\", \"train_num_updates\": \"10\", \"train_lr\": \"0\", \"train_gnorm\": \"29.562\", \"train_loss_scale\": \"1\", \"train_train_wall\": \"480\", \"train_gb_free\": \"9.3\", \"train_wall\": \"516\"}\n2021-03-08 18:12:45 | INFO | fairseq_cli.train | done training in 509.9 seconds\n```\n\n</p></details>\n"
  },
  {
    "path": "examples/gottbert/README.md",
    "content": "# GottBERT: a pure German language model\n\n## Introduction\n\n[GottBERT](http://arxiv.org/abs/2012.02110) is a pretrained language model trained on 145GB of German text based on RoBERTa.\n\n## Example usage\n\n### fairseq\n##### Load GottBERT from torch.hub (PyTorch >= 1.1):\n```python\nimport torch\ngottbert = torch.hub.load('pytorch/fairseq', 'gottbert-base')\ngottbert.eval()  # disable dropout (or leave in train mode to finetune)\n```\n\n##### Load GottBERT (for PyTorch 1.0 or custom models):\n```python\n# Download gottbert model\nwget https://dl.gottbert.de/fairseq/models/gottbert-base.tar.gz\ntar -xzvf gottbert.tar.gz\n\n# Load the model in fairseq\nfrom fairseq.models.roberta import GottbertModel\ngottbert = GottbertModel.from_pretrained('/path/to/gottbert')\ngottbert.eval()  # disable dropout (or leave in train mode to finetune)\n```\n\n##### Filling masks:\n```python\nmasked_line = 'Gott ist <mask> ! :)'\ngottbert.fill_mask(masked_line, topk=3)\n# [('Gott ist gut ! :)',        0.3642110526561737,   ' gut'),\n#  ('Gott ist überall ! :)',    0.06009674072265625,  ' überall'),\n#  ('Gott ist großartig ! :)',  0.0370681993663311,   ' großartig')]\n```\n\n##### Extract features from GottBERT\n\n```python\n# Extract the last layer's features\nline = \"Der erste Schluck aus dem Becher der Naturwissenschaft macht atheistisch , aber auf dem Grunde des Bechers wartet Gott !\"\ntokens = gottbert.encode(line)\nlast_layer_features = gottbert.extract_features(tokens)\nassert last_layer_features.size() == torch.Size([1, 27, 768])\n\n# Extract all layer's features (layer 0 is the embedding layer)\nall_layers = gottbert.extract_features(tokens, return_all_hiddens=True)\nassert len(all_layers) == 13\nassert torch.all(all_layers[-1] == last_layer_features)\n```\n## Citation\nIf you use our work, please cite:\n\n```bibtex\n@misc{scheible2020gottbert,\n      title={GottBERT: a pure German Language Model},\n      author={Raphael Scheible and Fabian Thomczyk and Patric Tippmann and Victor Jaravine and Martin Boeker},\n      year={2020},\n      eprint={2012.02110},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL}\n}\n```\n"
  },
  {
    "path": "examples/hubert/README.md",
    "content": "# HuBERT\n\n## Pre-trained and fine-tuned (ASR) models\nModel | Pretraining Data | Finetuning Dataset | Model | Quantizer\n|---|---|---|---|---\nHuBERT Base (~95M params) | [Librispeech](http://www.openslr.org/12) 960 hr | No finetuning (Pretrained Model) | [download](https://dl.fbaipublicfiles.com/hubert/hubert_base_ls960.pt) | [L9 km500](https://dl.fbaipublicfiles.com/hubert/hubert_base_ls960_L9_km500.bin)\nHuBERT Large (~316M params) | [Libri-Light](https://github.com/facebookresearch/libri-light) 60k hr | No finetuning (Pretrained Model) | [download](https://dl.fbaipublicfiles.com/hubert/hubert_large_ll60k.pt)\nHuBERT Extra Large (~1B params) | [Libri-Light](https://github.com/facebookresearch/libri-light) 60k hr |  No finetuning (Pretrained Model) | [download](https://dl.fbaipublicfiles.com/hubert/hubert_xtralarge_ll60k.pt)\nHuBERT Large | [Libri-Light](https://github.com/facebookresearch/libri-light) 60k hr | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/hubert/hubert_large_ll60k_finetune_ls960.pt)\nHuBERT Extra Large | [Libri-Light](https://github.com/facebookresearch/libri-light) 60k hr | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/hubert/hubert_xtralarge_ll60k_finetune_ls960.pt)\n\n## Load a model\n```\nckpt_path = \"/path/to/the/checkpoint.pt\"\nmodels, cfg, task = fairseq.checkpoint_utils.load_model_ensemble_and_task([ckpt_path])\nmodel = models[0]\n```\n\n## Train a new model\n\n### Data preparation\n\nFollow the steps in `./simple_kmeans` to create:\n- `{train,valid}.tsv` waveform list files\n- `{train,valid}.km` frame-aligned pseudo label files.\n- `dict.km.txt` a dummy dictionary\nThe `label_rate` is the same as the feature frame rate used for clustering,\nwhich is 100Hz for MFCC features and 50Hz for HuBERT features by default.\n\n### Pre-train a HuBERT model\n\nSuppose `{train,valid}.tsv` are saved at `/path/to/data`, `{train,valid}.km`\nare saved at `/path/to/labels`, and the label rate is 100Hz.\n\nTo train a base model (12 layer transformer), run:\n```sh\n$ python fairseq_cli/hydra_train.py \\\n  --config-dir /path/to/fairseq-py/examples/hubert/config/pretrain \\\n  --config-name hubert_base_librispeech \\\n  task.data=/path/to/data task.label_dir=/path/to/labels task.labels='[\"km\"]' model.label_rate=100\n```\n\n### Fine-tune a HuBERT model with a CTC loss\n\nSuppose `{train,valid}.tsv` are saved at `/path/to/data`, and their\ncorresponding character transcripts `{train,valid}.ltr` are saved at\n`/path/to/trans`.\n\nTo fine-tune a pre-trained HuBERT model at `/path/to/checkpoint`, run\n```sh\n$ python fairseq_cli/hydra_train.py \\\n  --config-dir /path/to/fairseq-py/examples/hubert/config/finetune \\\n  --config-name base_10h \\\n  task.data=/path/to/data task.label_dir=/path/to/trans \\\n  model.w2v_path=/path/to/checkpoint\n```\n\n### Decode a HuBERT model\n\nSuppose the `test.tsv` and `test.ltr` are the waveform list and transcripts of\nthe split to be decoded, saved at `/path/to/data`, and the fine-tuned model is\nsaved at `/path/to/checkpoint`. We support three decoding modes:\n- Viterbi decoding: greedy decoding without a language model\n- KenLM decoding: decoding with an arpa-format KenLM n-gram language model\n- Fairseq-LM deocding: decoding with a Fairseq neural language model\n\n\n#### Viterbi decoding\n\n`task.normalize` needs to be consistent with the value used during fine-tuning.\nDecoding results will be saved at\n`/path/to/experiment/directory/decode/viterbi/test`.\n\n```sh\n$ python examples/speech_recognition/new/infer.py \\\n  --config-dir /path/to/fairseq-py/examples/hubert/config/decode \\\n  --config-name infer_viterbi \\\n  task.data=/path/to/data \\\n  task.normalize=[true|false] \\\n  decoding.exp_dir=/path/to/experiment/directory \\\n  common_eval.path=/path/to/checkpoint\n  dataset.gen_subset=test \\\n```\n\n#### KenLM / Fairseq-LM decoding\n\nSuppose the pronunciation lexicon and the n-gram LM are saved at\n`/path/to/lexicon` and `/path/to/arpa`, respectively. Decoding results will be\nsaved at `/path/to/experiment/directory/decode/kenlm/test`.\n\n```sh\n$ python examples/speech_recognition/new/infer.py \\\n  --config-dir /path/to/fairseq-py/examples/hubert/config/decode \\\n  --config-name infer_kenlm \\\n  task.data=/path/to/data \\\n  task.normalize=[true|false] \\\n  decoding.exp_dir=/path/to/experiment/directory \\\n  common_eval.path=/path/to/checkpoint\n  dataset.gen_subset=test \\\n  decoding.decoder.lexicon=/path/to/lexicon \\\n  decoding.decoder.lmpath=/path/to/arpa\n```\n\nThe command above uses the default decoding hyperparameter, which can be found\nin `examples/speech_recognition/hydra/decoder.py`. These parameters can be\nconfigured from the command line. For example, to search with a beam size of\n500, we can append the command above with `decoding.decoder.beam=500`.\nImportant parameters include:\n- decoding.decoder.beam\n- decoding.decoder.beamthreshold\n- decoding.decoder.lmweight\n- decoding.decoder.wordscore\n- decoding.decoder.silweight\n\nTo decode with a Fairseq LM, use `--config-name infer_fsqlm` instead, and\nchange the path of lexicon and LM accordingly.\n"
  },
  {
    "path": "examples/hubert/config/decode/ax_sweep/ngram.yaml",
    "content": "# @package _global_\n\ncommon_eval:\n  results_path: ${decoding.exp_dir}/decode/${decoding.decoder.name}_ax/${dataset.gen_subset}\n\nhydra:\n  sweeper:\n    ax_config:\n      max_trials: 60\n      early_stop:\n        minimize: true\n        max_epochs_without_improvement: 10\n        epsilon: 0.025\n      experiment:\n        name: ${dataset.gen_subset}\n        objective_name: wer\n        minimize: true\n        parameter_constraints: null\n        outcome_constraints: null\n        status_quo: null\n      client:\n        verbose_logging: false\n        random_seed: null\n      params:\n        decoding.decoder.lmweight:\n          type: range\n          bounds: [0.0, 8.0]\n        decoding.decoder.wordscore:\n          type: range\n          bounds: [-5.0, 5.0]\n        decoding.decoder.silweight:\n          type: range\n          bounds: [-10.0, 0.0]\n"
  },
  {
    "path": "examples/hubert/config/decode/ax_sweep/transformer.yaml",
    "content": "# @package _global_\n\ncommon_eval:\n  results_path: ${decoding.exp_dir}/decode/${decoding.decoder.name}_ax/${dataset.gen_subset}\n\nhydra:\n  sweeper:\n    ax_config:\n      max_trials: 60\n      early_stop:\n        minimize: true\n        max_epochs_without_improvement: 10\n        epsilon: 0.025\n      experiment:\n        name: ${dataset.gen_subset}\n        objective_name: wer\n        minimize: true\n        parameter_constraints: null\n        outcome_constraints: null\n        status_quo: null\n      client:\n        verbose_logging: false\n        random_seed: null\n      params:\n        decoding.decoder.lmweight:\n          type: range\n          bounds: [0.0, 4.0]\n        decoding.decoder.wordscore:\n          type: range\n          bounds: [-5.0, 5.0]\n        decoding.decoder.silweight:\n          type: range\n          bounds: [-8.0, 0.0]\n"
  },
  {
    "path": "examples/hubert/config/decode/infer_fsqlm.yaml",
    "content": "# @package _group_\n\ndefaults:\n  - model: null\n\nhydra:\n  run:\n    dir: ${common_eval.results_path}/beam${decoding.beam}_th${decoding.beamthreshold}_lmw${decoding.lmweight}_wrd${decoding.wordscore}_sil${decoding.silweight}\n  sweep:\n    dir: ${common_eval.results_path}\n    subdir: beam${decoding.beam}_th${decoding.beamthreshold}_lmw${decoding.lmweight}_wrd${decoding.wordscore}_sil${decoding.silweight}\n\ntask:\n  _name: hubert_pretraining\n  single_target: true\n  fine_tuning: true\n  data: ???\n  normalize: ???\n\ndecoding:\n  type: fairseqlm\n  lexicon: ???\n  lmpath: ???\n  beamthreshold: 25\n  beam: 500\n  lmweight: 2\n  wordscore: -1\n  silweight: 0\n  unique_wer_file: true\ncommon_eval:\n  results_path: ???\n  path: ???\n  post_process: letter\ndataset:\n  max_tokens: 1100000\n  gen_subset: ???\n"
  },
  {
    "path": "examples/hubert/config/decode/infer_kenlm.yaml",
    "content": "# @package _group_\n\ndefaults:\n  - model: null\n\nhydra:\n  run:\n    dir: ${common_eval.results_path}/beam${decoding.beam}_th${decoding.beamthreshold}_lmw${decoding.lmweight}_wrd${decoding.wordscore}_sil${decoding.silweight}\n  sweep:\n    dir: ${common_eval.results_path}\n    subdir: beam${decoding.beam}_th${decoding.beamthreshold}_lmw${decoding.lmweight}_wrd${decoding.wordscore}_sil${decoding.silweight}\n\ntask:\n  _name: hubert_pretraining\n  single_target: true\n  fine_tuning: true\n  data: ???\n  normalize: ???\n\ndecoding:\n  type: kenlm\n  lexicon: ???\n  lmpath: ???\n  beamthreshold: 100\n  beam: 500\n  lmweight: 2\n  wordscore: -1\n  silweight: 0\n  unique_wer_file: true\ncommon_eval:\n  results_path: ???\n  path: ???\n  post_process: letter\ndataset:\n  max_tokens: 1100000\n  gen_subset: ???\n"
  },
  {
    "path": "examples/hubert/config/decode/infer_viterbi.yaml",
    "content": "# @package _group_\n\ndefaults:\n  - model: null\n\nhydra:\n  run:\n    dir: ${common_eval.results_path}/viterbi\n  sweep:\n    dir: ${common_eval.results_path}\n    subdir: viterbi\n\ntask:\n  _name: hubert_pretraining\n  single_target: true\n  fine_tuning: true\n  data: ???\n  normalize: ???\n\ndecoding:\n  type: viterbi\n  unique_wer_file: true\ncommon_eval:\n  results_path: ???\n  path: ???\n  post_process: letter\ndataset:\n  max_tokens: 1100000\n  gen_subset: ???\n"
  },
  {
    "path": "examples/hubert/config/decode/run/submitit_slurm.yaml",
    "content": "# @package _global_\nhydra:\n  launcher:\n    cpus_per_task: ${distributed_training.distributed_world_size}\n    gpus_per_node: ${distributed_training.distributed_world_size}\n    tasks_per_node: ${hydra.launcher.gpus_per_node}\n    nodes: 1\n    mem_gb: 200\n    timeout_min: 4320\n    max_num_timeout: 50\n    name: ${hydra.job.config_name}\n    submitit_folder: ${hydra.sweep.dir}/submitit\n\ndistributed_training:\n  distributed_world_size: 1\n  distributed_no_spawn: true\n  distributed_port: 29761\n"
  },
  {
    "path": "examples/hubert/config/decode/run/submitit_slurm_8gpu.yaml",
    "content": "# @package _global_\nhydra:\n  launcher:\n    cpus_per_task: ${distributed_training.distributed_world_size}\n    gpus_per_node: ${distributed_training.distributed_world_size}\n    tasks_per_node: ${hydra.launcher.gpus_per_node}\n    nodes: 1\n    mem_gb: 200\n    timeout_min: 4320\n    max_num_timeout: 50\n    name: ${hydra.job.config_name}\n    submitit_folder: ${hydra.sweep.dir}/submitit\n\ndistributed_training:\n  distributed_world_size: 8\n  distributed_no_spawn: true\n  distributed_port: 29761\n"
  },
  {
    "path": "examples/hubert/config/finetune/base_10h.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tblog\n  seed: 1337\n\ncheckpoint:\n  save_interval: 5\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ndistributed_training:\n  ddp_backend: c10d\n  find_unused_parameters: true\n  distributed_world_size: 1\n  distributed_port: 29671\n  nprocs_per_node: 8\n\ntask:\n  _name: hubert_pretraining\n  data: ???\n  fine_tuning: true\n  label_dir: ???\n  normalize: false  # must be consistent with pre-training\n  labels: [\"ltr\"]\n  single_target: true\n\ndataset:\n  num_workers: 0\n  max_tokens: 3200000\n  validate_after_updates: ${model.freeze_finetune_updates}\n  validate_interval: 5\n  train_subset: train\n  valid_subset: valid\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 25000\n  lr: [2e-5]\n  sentence_avg: true\n  update_freq: [1]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  warmup_steps: 8000\n  hold_steps: 0\n  decay_steps: 72000\n  final_lr_scale: 0.05\n\nmodel:\n  _name: hubert_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_selection: static\n  mask_length: 10\n  mask_other: 0\n  mask_prob: 0.75\n  mask_channel_selection: static\n  mask_channel_length: 64\n  mask_channel_other: 0\n  mask_channel_prob: 0.5\n  layerdrop: 0.1\n  dropout: 0.0\n  activation_dropout: 0.1\n  attention_dropout: 0.0\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '-'\n        item_sep: '__'\n        exclude_keys:\n          - run\n          - task.data\n          - task.label_dir\n          - model.w2v_path\n          - dataset.train_subset\n          - dataset.valid_subset\n          - criterion.wer_kenlm_model\n          - criterion.wer_lexicon\n  run:\n    dir: ???\n  sweep:\n    dir: ???\n    subdir: ${hydra.job.config_name}__${hydra.job.override_dirname}\n"
  },
  {
    "path": "examples/hubert/config/finetune/ckpt/it1.yaml",
    "content": "# @package _global_\n\ntask:\n  normalize: false\n\nmodel:\n  w2v_path: /checkpoint/wnhsu/w2v/hubert_final/iter1/hubert.km.randcrop.pmw1_0.puw0_0.grpnorm.ml10.mp0_8.untie.mxsz250000.ufreq1.maxtok1400000.MU400k.s1337.ngpu32/checkpoint_last.pt\n"
  },
  {
    "path": "examples/hubert/config/finetune/lm/ls_4gram.yaml",
    "content": "# @package _global_\n\ncriterion:\n  wer_kenlm_model: /checkpoint/abdo/old_checkpoint02/datasets/librispeech/4-gram.bin\n  wer_lexicon: /checkpoint/abdo/old_checkpoint02/datasets/librispeech/10h/raw/lexicon_ltr.lst\n  wer_lm_weight: 2.0\n  wer_word_score: -1.0\n"
  },
  {
    "path": "examples/hubert/config/finetune/run/submitit_reg.yaml",
    "content": "# @package _global_\n\nhydra:\n  launcher:\n    cpus_per_task: 8\n    gpus_per_node: 8\n    tasks_per_node: ${hydra.launcher.gpus_per_node}\n    nodes: 1\n    comment: null\n    mem_gb: 384\n    timeout_min: 4320\n    max_num_timeout: 100\n    constraint: volta32gb\n    name: ${hydra.job.config_name}/${hydra.job.override_dirname}\n    submitit_folder: ${hydra.sweep.dir}/submitit/%j\n\ndistributed_training:\n  distributed_world_size: 8\n  distributed_port: 29671\n  nprocs_per_node: 8\n"
  },
  {
    "path": "examples/hubert/config/pretrain/data/iter1.yaml",
    "content": "# @package _global_\n\ntask:\n  label_dir: ???\n  labels: [\"km\"]\n\nmodel:\n  label_rate: 100\n"
  },
  {
    "path": "examples/hubert/config/pretrain/data/iter2.yaml",
    "content": "# @package _global_\n\ntask:\n  label_dir: ???\n  labels: [\"km\"]\n\nmodel:\n  label_rate: 50\n"
  },
  {
    "path": "examples/hubert/config/pretrain/hubert_base_librispeech.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  seed: 1337\n  tensorboard_logdir: tblog\n\ncheckpoint:\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\n\ndistributed_training:\n  ddp_backend: no_c10d\n  distributed_backend: 'nccl'\n  distributed_world_size: 32\n  distributed_port: 29671\n  nprocs_per_node: 8\n  find_unused_parameters: true\n\ntask:\n  _name: hubert_pretraining\n  data: ???\n  label_dir: ???\n  labels: ???\n  label_rate: ${model.label_rate}\n  sample_rate: 16000\n  max_sample_size: 250000\n  min_sample_size: 32000\n  pad_audio: false\n  random_crop: true\n  normalize: false # must be consistent with extractor\n\ndataset:\n  num_workers: 6\n  max_tokens: 1400000\n  skip_invalid_size_inputs_valid_test: true\n  validate_interval: 5\n  validate_interval_updates: 10000\n\ncriterion:\n  _name: hubert\n  pred_masked_weight: 1.0\n  pred_nomask_weight: 0.0\n  loss_weights: [10,]\n\noptimization:\n  max_update: 400000\n  lr: [0.0005]\n  clip_norm: 10.0\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 32000\n\nmodel:\n  _name: hubert\n  label_rate: ???\n  skip_masked: false\n  skip_nomask: false\n  mask_prob: 0.80\n  extractor_mode: default\n  conv_feature_layers: '[(512,10,5)] + [(512,3,2)] * 4 + [(512,2,2)] * 2'\n  final_dim: 256\n  encoder_layerdrop: 0.05\n  dropout_input: 0.1\n  dropout_features: 0.1\n  dropout: 0.1\n  attention_dropout: 0.1\n  feature_grad_mult: 0.1\n  untie_final_proj: true\n  activation_dropout: 0.0\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '-'\n        item_sep: '__'\n        exclude_keys:\n          - run\n          - task.data\n          - task.label_dir\n  run:\n    dir: ???\n  sweep:\n    dir: ???\n    subdir: ${hydra.job.config_name}__${hydra.job.override_dirname}\n"
  },
  {
    "path": "examples/hubert/config/pretrain/hubert_large_librivox.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  seed: 1337\n  tensorboard_logdir: tblog\n\ncheckpoint:\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\n\ndistributed_training:\n  ddp_backend: no_c10d\n  distributed_backend: 'nccl'\n  distributed_world_size: 128\n  distributed_port: 29671\n  nprocs_per_node: 8\n  find_unused_parameters: true\n\ntask:\n  _name: hubert_pretraining\n  data: ???\n  label_dir: ???\n  labels: ???\n  label_rate: ${model.label_rate}\n  sample_rate: 16000\n  max_sample_size: 250000\n  min_sample_size: 32000\n  pad_audio: false\n  random_crop: true\n  normalize: true # must be consistent with extractor\n\ndataset:\n  num_workers: 6\n  max_tokens: 900000\n  skip_invalid_size_inputs_valid_test: true\n  validate_interval: 5\n  validate_interval_updates: 10000\n\ncriterion:\n  _name: hubert\n  pred_masked_weight: 1.0\n  pred_nomask_weight: 0.0\n  loss_weights: [10,]\n\noptimization:\n  max_update: 400000\n  lr: [0.0015]\n  clip_norm: 1.0\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 32000\n\nmodel:\n  _name: hubert\n  label_rate: ???\n  encoder_layers: 24\n  encoder_embed_dim: 1024\n  encoder_ffn_embed_dim: 4096\n  encoder_attention_heads: 16\n  final_dim: 768\n  skip_masked: false\n  skip_nomask: false\n  mask_prob: 0.80\n  extractor_mode: layer_norm\n  conv_feature_layers: '[(512,10,5)] + [(512,3,2)] * 4 + [(512,2,2)] * 2'\n  encoder_layerdrop: 0.0\n  dropout_input: 0.0\n  dropout_features: 0.0\n  dropout: 0.0\n  attention_dropout: 0.0\n  layer_norm_first: true\n  feature_grad_mult: 1.0\n  untie_final_proj: true\n  activation_dropout: 0.0\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '-'\n        item_sep: '__'\n        exclude_keys:\n          - run\n          - task.data\n  run:\n    dir: /checkpoint/wnhsu/w2v/hubert_final/hydra_pt\n  sweep:\n    dir: /checkpoint/wnhsu/w2v/hubert_final/hydra_pt\n    subdir: ${hydra.job.config_name}__${hydra.job.override_dirname}\n"
  },
  {
    "path": "examples/hubert/config/pretrain/hubert_xlarge_librivox.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  seed: 1337\n  tensorboard_logdir: tblog\n\ncheckpoint:\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\n\ndistributed_training:\n  ddp_backend: no_c10d\n  distributed_backend: 'nccl'\n  distributed_world_size: 256\n  distributed_port: 29671\n  nprocs_per_node: 8\n  find_unused_parameters: true\n\ntask:\n  _name: hubert_pretraining\n  data: ???\n  label_dir: ???\n  labels: ???\n  label_rate: ${model.label_rate}\n  sample_rate: 16000\n  max_sample_size: 250000\n  min_sample_size: 32000\n  pad_audio: false\n  random_crop: true\n  normalize: true # must be consistent with extractor\n\ndataset:\n  num_workers: 6\n  max_tokens: 360000\n  skip_invalid_size_inputs_valid_test: true\n  validate_interval: 5\n  validate_interval_updates: 10000\n\ncriterion:\n  _name: hubert\n  pred_masked_weight: 1.0\n  pred_nomask_weight: 0.0\n  loss_weights: [10,]\n\noptimization:\n  max_update: 400000\n  lr: [0.003]\n  clip_norm: 1.0\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 32000\n\nmodel:\n  _name: hubert\n  label_rate: ???\n  encoder_layers: 48\n  encoder_embed_dim: 1280\n  encoder_ffn_embed_dim: 5120\n  encoder_attention_heads: 16\n  final_dim: 1024\n  skip_masked: false\n  skip_nomask: false\n  mask_prob: 0.80\n  extractor_mode: layer_norm\n  conv_feature_layers: '[(512,10,5)] + [(512,3,2)] * 4 + [(512,2,2)] * 2'\n  encoder_layerdrop: 0.0\n  dropout_input: 0.0\n  dropout_features: 0.0\n  dropout: 0.0\n  attention_dropout: 0.0\n  layer_norm_first: true\n  feature_grad_mult: 1.0\n  untie_final_proj: true\n  activation_dropout: 0.0\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '-'\n        item_sep: '__'\n        exclude_keys:\n          - run\n          - task.data\n  run:\n    dir: /checkpoint/wnhsu/w2v/hubert_final/hydra_pt\n  sweep:\n    dir: /checkpoint/wnhsu/w2v/hubert_final/hydra_pt\n    subdir: ${hydra.job.config_name}__${hydra.job.override_dirname}\n"
  },
  {
    "path": "examples/hubert/config/pretrain/run/submitit_reg.yaml",
    "content": "# @package _global_\n\nhydra:\n  launcher:\n    cpus_per_task: 8\n    gpus_per_node: 8\n    tasks_per_node: ${hydra.launcher.gpus_per_node}\n    nodes: 4\n    comment: null\n    mem_gb: 384\n    timeout_min: 4320\n    max_num_timeout: 100\n    constraint: volta32gb\n    name: ${hydra.job.config_name}/${hydra.job.override_dirname}\n    submitit_folder: ${hydra.sweep.dir}/submitit/%j\n\ndistributed_training:\n  distributed_world_size: 32\n  distributed_port: 29671\n  nprocs_per_node: 8\n"
  },
  {
    "path": "examples/hubert/measure_teacher_quality.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport os.path as op\nimport re\nfrom tabulate import tabulate\nfrom collections import Counter\n\n\ndef comp_purity(p_xy, axis):\n    max_p = p_xy.max(axis=axis)\n    marg_p = p_xy.sum(axis=axis)\n    indv_pur = max_p / marg_p\n    aggr_pur = max_p.sum()\n    return indv_pur, aggr_pur\n\n\ndef comp_entropy(p):\n    return (-p * np.log(p + 1e-8)).sum()\n\n\ndef comp_norm_mutual_info(p_xy):\n    p_x = p_xy.sum(axis=1, keepdims=True)\n    p_y = p_xy.sum(axis=0, keepdims=True)\n    pmi = np.log(p_xy / np.matmul(p_x, p_y) + 1e-8)\n    mi = (p_xy * pmi).sum()\n    h_x = comp_entropy(p_x)\n    h_y = comp_entropy(p_y)\n    return mi, mi / h_x, mi / h_y, h_x, h_y\n\n\ndef pad(labs, n):\n    if n == 0:\n        return np.array(labs)\n    return np.concatenate([[labs[0]] * n, labs, [labs[-1]] * n])\n\n\ndef comp_avg_seg_dur(labs_list):\n    n_frms = 0\n    n_segs = 0\n    for labs in labs_list:\n        labs = np.array(labs)\n        edges = np.zeros(len(labs)).astype(bool)\n        edges[0] = True\n        edges[1:] = labs[1:] != labs[:-1]\n        n_frms += len(edges)\n        n_segs += edges.astype(int).sum()\n    return n_frms / n_segs\n\n\ndef comp_joint_prob(uid2refs, uid2hyps):\n    \"\"\"\n    Args:\n        pad: padding for spliced-feature derived labels\n    \"\"\"\n    cnts = Counter()\n    skipped = []\n    abs_frmdiff = 0\n    for uid in uid2refs:\n        if uid not in uid2hyps:\n            skipped.append(uid)\n            continue\n        refs = uid2refs[uid]\n        hyps = uid2hyps[uid]\n        abs_frmdiff += abs(len(refs) - len(hyps))\n        min_len = min(len(refs), len(hyps))\n        refs = refs[:min_len]\n        hyps = hyps[:min_len]\n        cnts.update(zip(refs, hyps))\n    tot = sum(cnts.values())\n\n    ref_set = sorted({ref for ref, _ in cnts.keys()})\n    hyp_set = sorted({hyp for _, hyp in cnts.keys()})\n    ref2pid = dict(zip(ref_set, range(len(ref_set))))\n    hyp2lid = dict(zip(hyp_set, range(len(hyp_set))))\n    # print(hyp_set)\n    p_xy = np.zeros((len(ref2pid), len(hyp2lid)), dtype=float)\n    for (ref, hyp), cnt in cnts.items():\n        p_xy[ref2pid[ref], hyp2lid[hyp]] = cnt\n    p_xy /= p_xy.sum()\n    return p_xy, ref2pid, hyp2lid, tot, abs_frmdiff, skipped\n\n\ndef read_phn(tsv_path, rm_stress=True):\n    uid2phns = {}\n    with open(tsv_path) as f:\n        for line in f:\n            uid, phns = line.rstrip().split(\"\\t\")\n            phns = phns.split(\",\")\n            if rm_stress:\n                phns = [re.sub(\"[0-9]\", \"\", phn) for phn in phns]\n            uid2phns[uid] = phns\n    return uid2phns\n\n\ndef read_lab(tsv_path, lab_path, pad_len=0, upsample=1):\n    \"\"\"\n    tsv is needed to retrieve the uids for the labels\n    \"\"\"\n    with open(tsv_path) as f:\n        f.readline()\n        uids = [op.splitext(op.basename(line.rstrip().split()[0]))[0] for line in f]\n    with open(lab_path) as f:\n        labs_list = [pad(line.rstrip().split(), pad_len).repeat(upsample) for line in f]\n    assert len(uids) == len(labs_list)\n    return dict(zip(uids, labs_list))\n\n\ndef main_lab_lab(\n    tsv_dir,\n    lab_dir,\n    lab_name,\n    lab_sets,\n    ref_dir,\n    ref_name,\n    pad_len=0,\n    upsample=1,\n    verbose=False,\n):\n    # assume tsv_dir is the same for both the reference and the hypotheses\n    tsv_dir = lab_dir if tsv_dir is None else tsv_dir\n\n    uid2refs = {}\n    for s in lab_sets:\n        uid2refs.update(read_lab(f\"{tsv_dir}/{s}.tsv\", f\"{ref_dir}/{s}.{ref_name}\"))\n\n    uid2hyps = {}\n    for s in lab_sets:\n        uid2hyps.update(\n            read_lab(\n                f\"{tsv_dir}/{s}.tsv\", f\"{lab_dir}/{s}.{lab_name}\", pad_len, upsample\n            )\n        )\n    _main(uid2refs, uid2hyps, verbose)\n\n\ndef main_phn_lab(\n    tsv_dir,\n    lab_dir,\n    lab_name,\n    lab_sets,\n    phn_dir,\n    phn_sets,\n    pad_len=0,\n    upsample=1,\n    verbose=False,\n):\n    uid2refs = {}\n    for s in phn_sets:\n        uid2refs.update(read_phn(f\"{phn_dir}/{s}.tsv\"))\n\n    uid2hyps = {}\n    tsv_dir = lab_dir if tsv_dir is None else tsv_dir\n    for s in lab_sets:\n        uid2hyps.update(\n            read_lab(\n                f\"{tsv_dir}/{s}.tsv\", f\"{lab_dir}/{s}.{lab_name}\", pad_len, upsample\n            )\n        )\n    _main(uid2refs, uid2hyps, verbose)\n\n\ndef _main(uid2refs, uid2hyps, verbose):\n    (p_xy, ref2pid, hyp2lid, tot, frmdiff, skipped) = comp_joint_prob(\n        uid2refs, uid2hyps\n    )\n    ref_pur_by_hyp, ref_pur = comp_purity(p_xy, axis=0)\n    hyp_pur_by_ref, hyp_pur = comp_purity(p_xy, axis=1)\n    (mi, mi_norm_by_ref, mi_norm_by_hyp, h_ref, h_hyp) = comp_norm_mutual_info(p_xy)\n    outputs = {\n        \"ref pur\": ref_pur,\n        \"hyp pur\": hyp_pur,\n        \"H(ref)\": h_ref,\n        \"H(hyp)\": h_hyp,\n        \"MI\": mi,\n        \"MI/H(ref)\": mi_norm_by_ref,\n        \"ref segL\": comp_avg_seg_dur(uid2refs.values()),\n        \"hyp segL\": comp_avg_seg_dur(uid2hyps.values()),\n        \"p_xy shape\": p_xy.shape,\n        \"frm tot\": tot,\n        \"frm diff\": frmdiff,\n        \"utt tot\": len(uid2refs),\n        \"utt miss\": len(skipped),\n    }\n    print(tabulate([outputs.values()], outputs.keys(), floatfmt=\".4f\"))\n\n\nif __name__ == \"__main__\":\n    \"\"\"\n    compute quality of labels with respect to phone or another labels if set\n    \"\"\"\n    import argparse\n\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"tsv_dir\")\n    parser.add_argument(\"lab_dir\")\n    parser.add_argument(\"lab_name\")\n    parser.add_argument(\"--lab_sets\", default=[\"valid\"], type=str, nargs=\"+\")\n    parser.add_argument(\n        \"--phn_dir\",\n        default=\"/checkpoint/wnhsu/data/librispeech/960h/fa/raw_phn/phone_frame_align_v1\",\n    )\n    parser.add_argument(\n        \"--phn_sets\", default=[\"dev-clean\", \"dev-other\"], type=str, nargs=\"+\"\n    )\n    parser.add_argument(\"--pad_len\", default=0, type=int, help=\"padding for hypotheses\")\n    parser.add_argument(\n        \"--upsample\", default=1, type=int, help=\"upsample factor for hypotheses\"\n    )\n    parser.add_argument(\"--ref_lab_dir\", default=\"\")\n    parser.add_argument(\"--ref_lab_name\", default=\"\")\n    parser.add_argument(\"--verbose\", action=\"store_true\")\n    args = parser.parse_args()\n\n    if args.ref_lab_dir and args.ref_lab_name:\n        main_lab_lab(\n            args.tsv_dir,\n            args.lab_dir,\n            args.lab_name,\n            args.lab_sets,\n            args.ref_lab_dir,\n            args.ref_lab_name,\n            args.pad_len,\n            args.upsample,\n            args.verbose,\n        )\n    else:\n        main_phn_lab(\n            args.tsv_dir,\n            args.lab_dir,\n            args.lab_name,\n            args.lab_sets,\n            args.phn_dir,\n            args.phn_sets,\n            args.pad_len,\n            args.upsample,\n            args.verbose,\n        )\n"
  },
  {
    "path": "examples/hubert/simple_kmeans/README.md",
    "content": "# Sharded Feature Extraction and K-means Application\n\nThis folder contains scripts for preparing HUBERT labels from tsv files, the\nsteps are:\n1. feature extraction\n2. k-means clustering\n3. k-means application\n\n\n## Data preparation\n\n`*.tsv` files contains a list of audio, where each line is the root, and\nfollowing lines are the subpath for each audio:\n```\n<root-dir>\n<audio-path-1>\n<audio-path-2>\n...\n```\n\n\n## Feature extraction\n\n### MFCC feature\nSuppose the tsv file is at `${tsv_dir}/${split}.tsv`. To extract 39-D\nmfcc+delta+ddelta features for the 1st iteration HUBERT training, run:\n```sh\npython dump_mfcc_feature.py ${tsv_dir} ${split} ${nshard} ${rank} ${feat_dir}\n```\nThis would shard the tsv file into `${nshard}` and extract features for the\n`${rank}`-th shard, where rank is an integer in `[0, nshard-1]`. Features would\nbe saved at `${feat_dir}/${split}_${rank}_${nshard}.{npy,len}`.\n\n\n### HUBERT feature\nTo extract features from the `${layer}`-th transformer layer of a trained\nHUBERT model saved at `${ckpt_path}`, run:\n```sh\npython dump_hubert_feature.py ${tsv_dir} ${split} ${ckpt_path} ${layer} ${nshard} ${rank} ${feat_dir}\n```\nFeatures would also be saved at `${feat_dir}/${split}_${rank}_${nshard}.{npy,len}`.\n\n- if out-of-memory, decrease the chunk size with `--max_chunk`\n\n\n## K-means clustering\nTo fit a k-means model with `${n_clusters}` clusters on 10% of the `${split}` data, run\n```sh\npython learn_kmeans.py ${feat_dir} ${split} ${nshard} ${km_path} ${n_cluster} --percent 0.1\n```\nThis saves the k-means model to `${km_path}`.\n\n- set `--precent -1` to use all data\n- more kmeans options can be found with `-h` flag\n\n\n## K-means application\nTo apply a trained k-means model `${km_path}` to obtain labels for `${split}`, run\n```sh\npython dump_km_label.py ${feat_dir} ${split} ${km_path} ${nshard} ${rank} ${lab_dir}\n```\nThis would extract labels for the `${rank}`-th shard out of `${nshard}` shards\nand dump them to `${lab_dir}/${split}_${rank}_${shard}.km`\n\n\nFinally, merge shards for `${split}` by running\n```sh\nfor rank in $(seq 0 $((nshard - 1))); do\n  cat $lab_dir/${split}_${rank}_${nshard}.km\ndone > $lab_dir/${split}.km\n```\n\n\n## Create a dummy dict\nTo create a dummy dictionary, run\n```sh\nfor x in $(seq 0 $((n_clusters - 1))); do\n  echo \"$x 1\"\ndone >> $lab_dir/dict.km.txt\n```\n"
  },
  {
    "path": "examples/hubert/simple_kmeans/dump_hubert_feature.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport sys\n\nimport fairseq\nimport soundfile as sf\nimport torch\nimport torch.nn.functional as F\n\nfrom feature_utils import get_path_iterator, dump_feature\nfrom fairseq.data.audio.audio_utils import get_features_or_waveform\n\n\nlogging.basicConfig(\n    format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n    datefmt=\"%Y-%m-%d %H:%M:%S\",\n    level=os.environ.get(\"LOGLEVEL\", \"INFO\").upper(),\n    stream=sys.stdout,\n)\nlogger = logging.getLogger(\"dump_hubert_feature\")\n\n\nclass HubertFeatureReader(object):\n    def __init__(self, ckpt_path, layer, max_chunk=1600000):\n        (\n            model,\n            cfg,\n            task,\n        ) = fairseq.checkpoint_utils.load_model_ensemble_and_task([ckpt_path])\n        self.model = model[0].eval().cuda()\n        self.task = task\n        self.layer = layer\n        self.max_chunk = max_chunk\n        logger.info(f\"TASK CONFIG:\\n{self.task.cfg}\")\n        logger.info(f\" max_chunk = {self.max_chunk}\")\n\n    def read_audio(self, path, ref_len=None):\n        wav = get_features_or_waveform(path, need_waveform=True, use_sample_rate=self.task.cfg.sample_rate)\n        if wav.ndim == 2:\n            wav = wav.mean(-1)\n        assert wav.ndim == 1, wav.ndim\n        if ref_len is not None and abs(ref_len - len(wav)) > 160:\n            logging.warning(f\"ref {ref_len} != read {len(wav)} ({path})\")\n        return wav\n\n    def get_feats(self, path, ref_len=None):\n        x = self.read_audio(path, ref_len=ref_len)\n        with torch.no_grad():\n            x = torch.from_numpy(x).float().cuda()\n            if self.task.cfg.normalize:\n                x = F.layer_norm(x, x.shape)\n            x = x.view(1, -1)\n\n            feat = []\n            for start in range(0, x.size(1), self.max_chunk):\n                x_chunk = x[:, start : start + self.max_chunk]\n                feat_chunk, _ = self.model.extract_features(\n                    source=x_chunk,\n                    padding_mask=None,\n                    mask=False,\n                    output_layer=self.layer,\n                )\n                feat.append(feat_chunk)\n        return torch.cat(feat, 1).squeeze(0)\n\n\ndef main(tsv_dir, split, ckpt_path, layer, nshard, rank, feat_dir, max_chunk):\n    reader = HubertFeatureReader(ckpt_path, layer, max_chunk)\n    generator, num = get_path_iterator(f\"{tsv_dir}/{split}.tsv\", nshard, rank)\n    dump_feature(reader, generator, num, split, nshard, rank, feat_dir)\n\n\nif __name__ == \"__main__\":\n    import argparse\n\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"tsv_dir\")\n    parser.add_argument(\"split\")\n    parser.add_argument(\"ckpt_path\")\n    parser.add_argument(\"layer\", type=int)\n    parser.add_argument(\"nshard\", type=int)\n    parser.add_argument(\"rank\", type=int)\n    parser.add_argument(\"feat_dir\")\n    parser.add_argument(\"--max_chunk\", type=int, default=1600000)\n    args = parser.parse_args()\n    logger.info(args)\n\n    main(**vars(args))\n"
  },
  {
    "path": "examples/hubert/simple_kmeans/dump_hubert_feature_s2t.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport csv\nimport io\nimport logging\nimport os\nimport os.path as op\nimport sys\n\nfrom dump_hubert_feature import HubertFeatureReader\nfrom feature_utils import get_shard_range, dump_feature\nfrom fairseq.data.audio.audio_utils import get_features_or_waveform\n\n\nlogging.basicConfig(\n    format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n    datefmt=\"%Y-%m-%d %H:%M:%S\",\n    level=os.environ.get(\"LOGLEVEL\", \"INFO\").upper(),\n    stream=sys.stdout,\n)\nlogger = logging.getLogger(\"dump_hubert_feature_s2t\")\n\n\nclass HubertFeatureReaderS2T(HubertFeatureReader):\n    def read_audio(self, path, ref_len=None):\n        wav = get_features_or_waveform(\n            path, need_waveform=True, use_sample_rate=self.task.cfg.sample_rate\n        )\n        if wav.ndim == 2:\n            wav = wav.mean(-1)\n        assert wav.ndim == 1, wav.ndim\n        if ref_len is not None and abs(ref_len - len(wav)) > 160:\n            logging.warning(f\"ref {ref_len} != read {len(wav)} ({path})\")\n        return wav\n\n\ndef get_path_iterator(root, tsv, nshard, rank, audio_col_name):\n    with open(tsv) as f:\n        reader = csv.DictReader(\n            f,\n            delimiter=\"\\t\",\n            quotechar=None,\n            doublequote=False,\n            lineterminator=\"\\n\",\n            quoting=csv.QUOTE_NONE,\n        )\n        subpaths = [op.join(root, e[audio_col_name]) for e in reader]\n        start, end = get_shard_range(len(subpaths), nshard, rank)\n        subpaths = subpaths[start:end]\n\n        def iterate():\n            for subpath in subpaths:\n                yield op.join(root, subpath), None\n\n    return iterate, len(subpaths)\n\n\ndef main(\n    root,\n    tsv_path,\n    ckpt_path,\n    layer,\n    nshard,\n    rank,\n    feat_dir,\n    split,\n    max_chunk,\n    audio_col_name,\n):\n    reader = HubertFeatureReaderS2T(ckpt_path, layer, max_chunk)\n    generator, num = get_path_iterator(root, tsv_path, nshard, rank, audio_col_name)\n    dump_feature(reader, generator, num, split, nshard, rank, feat_dir)\n\n\nif __name__ == \"__main__\":\n    import argparse\n\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"root\")\n    parser.add_argument(\"tsv_path\")\n    parser.add_argument(\"ckpt_path\")\n    parser.add_argument(\"layer\", type=int)\n    parser.add_argument(\"nshard\", type=int)\n    parser.add_argument(\"rank\", type=int)\n    parser.add_argument(\"feat_dir\")\n    parser.add_argument(\"split\")\n    parser.add_argument(\"--audio_col_name\", type=str, default=\"audio\")\n    parser.add_argument(\"--max_chunk\", type=int, default=1600000)\n    args = parser.parse_args()\n    logger.info(args)\n\n    main(**vars(args))\n"
  },
  {
    "path": "examples/hubert/simple_kmeans/dump_km_label.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport sys\n\nimport numpy as np\n\nimport joblib\nimport torch\nimport tqdm\n\nlogging.basicConfig(\n    format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n    datefmt=\"%Y-%m-%d %H:%M:%S\",\n    level=os.environ.get(\"LOGLEVEL\", \"INFO\").upper(),\n    stream=sys.stdout,\n)\nlogger = logging.getLogger(\"dump_km_label\")\n\n\nclass ApplyKmeans(object):\n    def __init__(self, km_path):\n        self.km_model = joblib.load(km_path)\n        self.C_np = self.km_model.cluster_centers_.transpose()\n        self.Cnorm_np = (self.C_np ** 2).sum(0, keepdims=True)\n\n        self.C = torch.from_numpy(self.C_np)\n        self.Cnorm = torch.from_numpy(self.Cnorm_np)\n        if torch.cuda.is_available():\n            self.C = self.C.cuda()\n            self.Cnorm = self.Cnorm.cuda()\n\n    def __call__(self, x):\n        if isinstance(x, torch.Tensor):\n            dist = (\n                x.pow(2).sum(1, keepdim=True)\n                - 2 * torch.matmul(x, self.C)\n                + self.Cnorm\n            )\n            return dist.argmin(dim=1).cpu().numpy()\n        else:\n            dist = (\n                (x ** 2).sum(1, keepdims=True)\n                - 2 * np.matmul(x, self.C_np)\n                + self.Cnorm_np\n            )\n            return np.argmin(dist, axis=1)\n\n\ndef get_feat_iterator(feat_dir, split, nshard, rank):\n    feat_path = f\"{feat_dir}/{split}_{rank}_{nshard}.npy\"\n    leng_path = f\"{feat_dir}/{split}_{rank}_{nshard}.len\"\n    with open(leng_path, \"r\") as f:\n        lengs = [int(line.rstrip()) for line in f]\n        offsets = [0] + np.cumsum(lengs[:-1]).tolist()\n\n    def iterate():\n        feat = np.load(feat_path, mmap_mode=\"r\")\n        assert feat.shape[0] == (offsets[-1] + lengs[-1])\n        for offset, leng in zip(offsets, lengs):\n            yield feat[offset: offset + leng]\n\n    return iterate, len(lengs)\n\n\ndef dump_label(feat_dir, split, km_path, nshard, rank, lab_dir):\n    apply_kmeans = ApplyKmeans(km_path)\n    generator, num = get_feat_iterator(feat_dir, split, nshard, rank)\n    iterator = generator()\n\n    lab_path = f\"{lab_dir}/{split}_{rank}_{nshard}.km\"\n    os.makedirs(lab_dir, exist_ok=True)\n    with open(lab_path, \"w\") as f:\n        for feat in tqdm.tqdm(iterator, total=num):\n            # feat = torch.from_numpy(feat).cuda()\n            lab = apply_kmeans(feat).tolist()\n            f.write(\" \".join(map(str, lab)) + \"\\n\")\n    logger.info(\"finished successfully\")\n\n\nif __name__ == \"__main__\":\n    import argparse\n\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"feat_dir\")\n    parser.add_argument(\"split\")\n    parser.add_argument(\"km_path\")\n    parser.add_argument(\"nshard\", type=int)\n    parser.add_argument(\"rank\", type=int)\n    parser.add_argument(\"lab_dir\")\n    args = parser.parse_args()\n    logging.info(str(args))\n\n    dump_label(**vars(args))\n"
  },
  {
    "path": "examples/hubert/simple_kmeans/dump_mfcc_feature.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport sys\n\nimport soundfile as sf\nimport torch\nimport torchaudio\n\nfrom feature_utils import get_path_iterator, dump_feature\nfrom fairseq.data.audio.audio_utils import get_features_or_waveform\n\nlogging.basicConfig(\n    format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n    datefmt=\"%Y-%m-%d %H:%M:%S\",\n    level=os.environ.get(\"LOGLEVEL\", \"INFO\").upper(),\n    stream=sys.stdout,\n)\nlogger = logging.getLogger(\"dump_mfcc_feature\")\n\n\nclass MfccFeatureReader(object):\n    def __init__(self, sample_rate):\n        self.sample_rate = sample_rate\n\n    def read_audio(self, path, ref_len=None):\n        wav = get_features_or_waveform(path, need_waveform=True, use_sample_rate=self.sample_rate)\n        if ref_len is not None and abs(ref_len - len(wav)) > 160:\n            logging.warning(f\"ref {ref_len} != read {len(wav)} ({path})\")\n        return wav\n\n    def get_feats(self, path, ref_len=None):\n        x = self.read_audio(path, ref_len=ref_len)\n        with torch.no_grad():\n            x = torch.from_numpy(x).float()\n            x = x.view(1, -1)\n\n            mfccs = torchaudio.compliance.kaldi.mfcc(\n                waveform=x,\n                sample_frequency=self.sample_rate,\n                use_energy=False,\n            )  # (time, freq)\n            mfccs = mfccs.transpose(0, 1)  # (freq, time)\n            deltas = torchaudio.functional.compute_deltas(mfccs)\n            ddeltas = torchaudio.functional.compute_deltas(deltas)\n            concat = torch.cat([mfccs, deltas, ddeltas], dim=0)\n            concat = concat.transpose(0, 1).contiguous()  # (freq, time)\n            return concat\n\n\ndef main(tsv_dir, split, nshard, rank, feat_dir, sample_rate):\n    reader = MfccFeatureReader(sample_rate)\n    generator, num = get_path_iterator(f\"{tsv_dir}/{split}.tsv\", nshard, rank)\n    dump_feature(reader, generator, num, split, nshard, rank, feat_dir)\n\n\nif __name__ == \"__main__\":\n    import argparse\n\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"tsv_dir\")\n    parser.add_argument(\"split\")\n    parser.add_argument(\"nshard\", type=int)\n    parser.add_argument(\"rank\", type=int)\n    parser.add_argument(\"feat_dir\")\n    parser.add_argument(\"--sample_rate\", type=int, default=16000)\n    args = parser.parse_args()\n    logger.info(args)\n\n    main(**vars(args))\n"
  },
  {
    "path": "examples/hubert/simple_kmeans/dump_w2v2_feature.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport sys\n\nimport fairseq\nimport soundfile as sf\nimport torch\nimport torch.nn.functional as F\n\nfrom feature_utils import get_path_iterator, dump_feature\n\n\nlogging.basicConfig(\n    format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n    datefmt=\"%Y-%m-%d %H:%M:%S\",\n    level=os.environ.get(\"LOGLEVEL\", \"INFO\").upper(),\n    stream=sys.stdout,\n)\nlogger = logging.getLogger(\"dump_w2v2_feature\")\n\n\nclass Wav2Vec2FeatureReader(object):\n    def __init__(self, ckpt_path, layer, max_chunk=1600000):\n        (\n            model,\n            cfg,\n            task,\n        ) = fairseq.checkpoint_utils.load_model_ensemble_and_task([ckpt_path])\n        self.model = model[0].eval().cuda()\n        self.task = task\n        self.layer = layer  # assume this is 1-based like HuBERT\n        self.max_chunk = max_chunk\n        logger.info(f\"TASK CONFIG:\\n{self.task.cfg}\")\n        logger.info(f\" max_chunk = {self.max_chunk}\")\n        logger.info(f\" model:\\n{self.model}\")\n\n    def read_audio(self, path, ref_len=None):\n        wav, sr = sf.read(path)\n        assert sr == self.task.cfg.sample_rate, sr\n        if wav.ndim == 2:\n            wav = wav.mean(-1)\n        assert wav.ndim == 1, wav.ndim\n        if ref_len is not None and abs(ref_len - len(wav)) > 160:\n            logging.warning(f\"ref {ref_len} != read {len(wav)} ({path})\")\n        return wav\n\n    def get_feats(self, path, ref_len=None):\n        x = self.read_audio(path, ref_len)\n        with torch.no_grad():\n            x = torch.from_numpy(x).float().cuda()\n            if self.task.cfg.normalize:\n                x = F.layer_norm(x, x.shape)\n            x = x.view(1, -1)\n\n            feat = []\n            for start in range(0, x.size(1), self.max_chunk):\n                x_chunk = x[:, start: start + self.max_chunk]\n                res = self.model.extract_features(\n                    source=x_chunk,\n                    padding_mask=None,\n                    mask=False,\n                    layer=self.layer - 1,\n                )\n                feat_chunk = res[\"x\"]\n                feat.append(feat_chunk)\n        return torch.cat(feat, 1).squeeze(0)\n\n\ndef main(tsv_dir, split, ckpt_path, layer, nshard, rank, feat_dir, max_chunk):\n    reader = Wav2Vec2FeatureReader(ckpt_path, layer, max_chunk)\n    generator, num = get_path_iterator(f\"{tsv_dir}/{split}.tsv\", nshard, rank)\n    dump_feature(reader, generator, num, split, nshard, rank, feat_dir)\n\n\nif __name__ == \"__main__\":\n    import argparse\n\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"tsv_dir\")\n    parser.add_argument(\"split\")\n    parser.add_argument(\"ckpt_path\")\n    parser.add_argument(\"layer\", type=int)\n    parser.add_argument(\"nshard\", type=int)\n    parser.add_argument(\"rank\", type=int)\n    parser.add_argument(\"feat_dir\")\n    parser.add_argument(\"--max_chunk\", type=int, default=1600000)\n    args = parser.parse_args()\n    logger.info(args)\n\n    main(**vars(args))\n"
  },
  {
    "path": "examples/hubert/simple_kmeans/feature_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport sys\n\nimport tqdm\nfrom npy_append_array import NpyAppendArray\n\n\nlogging.basicConfig(\n    format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n    datefmt=\"%Y-%m-%d %H:%M:%S\",\n    level=os.environ.get(\"LOGLEVEL\", \"INFO\").upper(),\n    stream=sys.stdout,\n)\nlogger = logging.getLogger(\"feature_utils\")\n\n\ndef get_shard_range(tot, nshard, rank):\n    assert rank < nshard and rank >= 0, f\"invaid rank/nshard {rank}/{nshard}\"\n    start = round(tot / nshard * rank)\n    end = round(tot / nshard * (rank + 1))\n    assert start < end, f\"start={start}, end={end}\"\n    logger.info(\n        f\"rank {rank} of {nshard}, process {end-start} \"\n        f\"({start}-{end}) out of {tot}\"\n    )\n    return start, end\n\n\ndef get_path_iterator(tsv, nshard, rank):\n    with open(tsv, \"r\") as f:\n        root = f.readline().rstrip()\n        lines = [line.rstrip() for line in f]\n        start, end = get_shard_range(len(lines), nshard, rank)\n        lines = lines[start:end]\n        def iterate():\n            for line in lines:\n                subpath, nsample = line.split(\"\\t\")\n                yield f\"{root}/{subpath}\", int(nsample)\n    return iterate, len(lines)\n\n\ndef dump_feature(reader, generator, num, split, nshard, rank, feat_dir):\n    iterator = generator()\n\n    feat_path = f\"{feat_dir}/{split}_{rank}_{nshard}.npy\"\n    leng_path = f\"{feat_dir}/{split}_{rank}_{nshard}.len\"\n\n    os.makedirs(feat_dir, exist_ok=True)\n    if os.path.exists(feat_path):\n        os.remove(feat_path)\n\n    feat_f = NpyAppendArray(feat_path)\n    with open(leng_path, \"w\") as leng_f:\n        for path, nsample in tqdm.tqdm(iterator, total=num):\n            feat = reader.get_feats(path, nsample)\n            feat_f.append(feat.cpu().numpy())\n            leng_f.write(f\"{len(feat)}\\n\")\n    logger.info(\"finished successfully\")\n\n\n"
  },
  {
    "path": "examples/hubert/simple_kmeans/learn_kmeans.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport sys\n\nimport numpy as np\nfrom sklearn.cluster import MiniBatchKMeans\n\nimport joblib\n\nlogging.basicConfig(\n    format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n    datefmt=\"%Y-%m-%d %H:%M:%S\",\n    level=os.environ.get(\"LOGLEVEL\", \"INFO\").upper(),\n    stream=sys.stdout,\n)\nlogger = logging.getLogger(\"learn_kmeans\")\n\n\ndef get_km_model(\n    n_clusters,\n    init,\n    max_iter,\n    batch_size,\n    tol,\n    max_no_improvement,\n    n_init,\n    reassignment_ratio,\n):\n    return MiniBatchKMeans(\n        n_clusters=n_clusters,\n        init=init,\n        max_iter=max_iter,\n        batch_size=batch_size,\n        verbose=1,\n        compute_labels=False,\n        tol=tol,\n        max_no_improvement=max_no_improvement,\n        init_size=None,\n        n_init=n_init,\n        reassignment_ratio=reassignment_ratio,\n    )\n\n\ndef load_feature_shard(feat_dir, split, nshard, rank, percent):\n    feat_path = f\"{feat_dir}/{split}_{rank}_{nshard}.npy\"\n    leng_path = f\"{feat_dir}/{split}_{rank}_{nshard}.len\"\n    with open(leng_path, \"r\") as f:\n        lengs = [int(line.rstrip()) for line in f]\n        offsets = [0] + np.cumsum(lengs[:-1]).tolist()\n\n    if percent < 0:\n        return np.load(feat_path, mmap_mode=\"r\")\n    else:\n        nsample = int(np.ceil(len(lengs) * percent))\n        indices = np.random.choice(len(lengs), nsample, replace=False)\n        feat = np.load(feat_path, mmap_mode=\"r\")\n        sampled_feat = np.concatenate(\n            [feat[offsets[i]: offsets[i] + lengs[i]] for i in indices], axis=0\n        )\n        logger.info(\n            (\n                f\"sampled {nsample} utterances, {len(sampled_feat)} frames \"\n                f\"from shard {rank}/{nshard}\"\n            )\n        )\n        return sampled_feat\n\n\ndef load_feature(feat_dir, split, nshard, seed, percent):\n    assert percent <= 1.0\n    feat = np.concatenate(\n        [\n            load_feature_shard(feat_dir, split, nshard, r, percent)\n            for r in range(nshard)\n        ],\n        axis=0,\n    )\n    logging.info(f\"loaded feature with dimension {feat.shape}\")\n    return feat\n\n\ndef learn_kmeans(\n    feat_dir,\n    split,\n    nshard,\n    km_path,\n    n_clusters,\n    seed,\n    percent,\n    init,\n    max_iter,\n    batch_size,\n    tol,\n    n_init,\n    reassignment_ratio,\n    max_no_improvement,\n):\n    np.random.seed(seed)\n    feat = load_feature(feat_dir, split, nshard, seed, percent)\n    km_model = get_km_model(\n        n_clusters,\n        init,\n        max_iter,\n        batch_size,\n        tol,\n        max_no_improvement,\n        n_init,\n        reassignment_ratio,\n    )\n    km_model.fit(feat)\n    joblib.dump(km_model, km_path)\n\n    inertia = -km_model.score(feat) / len(feat)\n    logger.info(\"total intertia: %.5f\", inertia)\n    logger.info(\"finished successfully\")\n\n\nif __name__ == \"__main__\":\n    import argparse\n\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"feat_dir\", type=str)\n    parser.add_argument(\"split\", type=str)\n    parser.add_argument(\"nshard\", type=int)\n    parser.add_argument(\"km_path\", type=str)\n    parser.add_argument(\"n_clusters\", type=int)\n    parser.add_argument(\"--seed\", default=0, type=int)\n    parser.add_argument(\n        \"--percent\", default=-1, type=float, help=\"sample a subset; -1 for all\"\n    )\n    parser.add_argument(\"--init\", default=\"k-means++\")\n    parser.add_argument(\"--max_iter\", default=100, type=int)\n    parser.add_argument(\"--batch_size\", default=10000, type=int)\n    parser.add_argument(\"--tol\", default=0.0, type=float)\n    parser.add_argument(\"--max_no_improvement\", default=100, type=int)\n    parser.add_argument(\"--n_init\", default=20, type=int)\n    parser.add_argument(\"--reassignment_ratio\", default=0.0, type=float)\n    args = parser.parse_args()\n    logging.info(str(args))\n\n    learn_kmeans(**vars(args))\n"
  },
  {
    "path": "examples/hubert/tests/sample.base.L9.km500.km",
    "content": "17 17 17 17 296 296 20 20 20 461 461 20 184 20 20 20 184 289 144 445 445 213 213 213 213 252 215 129 401 20 354 180 494 44 416 416 416 192 192 180 180 84 84 84 16 88 88 88 88 319 242 240 348 35 35 117 404 197 226 209 83 55 55 55 322 67 94 199 118 118 118 118 118 118 402 219 219 219 222 222 222 353 59 245 245 251 251 241 241 431 367 367 178 35 35 35 458 192 351 41 324 324 324 252 464 464 139 139 424 424 424 497 497 497 122 90 42 42 147 380 380 499 319 319 319 348 348 33 33 394 90 76 465 74 425 425 386 386 431 319 319 319 319 319 240 203 53 473 34 340 340 340 340 116 64 212 384 377 123 123 123 216 216 216 114 114 57 57 57 203 381 381 117 48 13 47 80 20 80 80 320 7 7 364 345 141 141 141 141 281 281 9 86 221 198 198 22 283 455 236 239 239 107 107 395 286 286 286 468 468 406 406 467 176 176 176 328 200 200 248 464 145 365 365 365 365 330 385 457 77 77 77 54 224 300 334 334 382 304 304 271 186 31 342 342 342 198 22 283 5 38 162 232 232 482 68 26 26 359 359 81 444 213 213 252 143 458 41 324 324 324 422 143 445 445 445 351 180 486 315 315 450 450 450 203 53 473 291 89 116 379 243 478 478 66 482 482 105 105 336 336 354 29 498 498 498 498 396 396 313 37 314 198 22 222 222 222 222 245 129 74 74 437 437 496 496 496 413 94 199 41 41 324 324 318 318 269 342 9 168 106 106 284 426 426 426 426 348 64 76 401 259 108 123 153 153 153 153 372 372 396 313 24 314 90 401 259 445 445 351 351 365 365 365 365 282 282 215 233 233 229 427 20 247 126 126 126 326 326 326 326 326 326 326 101 101 101 149 228 228 20 289 20 7 217 70 65 189 189 151 240 285 300 300 495 406 467 176 135 135 339 248 466 114 222 222 222 313 313 239 384 371 490 490 38 31 54 54 224 494 494 236 129 259 74 190 487 288 288 288 288 374 173 173 280 280 302 302 175 175 69 69 223 130 129 401 75 108 119 295 295 295 295 143 192 192 135 135 135 135 200 200 464 255 255 255 251 251 241 431 235 235 235 348 348 465 192 44 44 236 8 8 354 319 319 383 348 36 310 107 107 395 462 462 8 32 32 32 354 153 153 153 153 153 387 387 387 387 85 207 318 318 318 49 453 9 168 125 125 125 125 125 466 199 44 44 143 129 144 445 351 351 351 486 486 460 285 285 302 302 497 497 122 239 161 161 79 79 499 499 499 265 265 265 85 85 85 299 299 173 352 352 427 229 170 247 15 15 15 15 15 15 193 193 193 17\n"
  },
  {
    "path": "examples/hubert/tests/sample.base.L9.len",
    "content": "596\n"
  },
  {
    "path": "examples/hubert/tests/sample.large.L20.len",
    "content": "596\n"
  },
  {
    "path": "examples/hubert/tests/sample.large.hypo.word",
    "content": "KEEP A GOING AN IF YOU'RE LUCKY YOU'LL RUN PLUMB INTO THEM WAS THE JEERING ANSWER AS THE SLEEPY COWMEN SPURRED THEIR PONIES ON TOWARD CAMP MUTTERING THEIR DISAPPROVAL OF TAKING ALONG A BUNCH OF BOYS ON A CATTLE DRIVE (None-0)\n"
  },
  {
    "path": "examples/hubert/tests/sample.xlarge.L30.len",
    "content": "596\n"
  },
  {
    "path": "examples/hubert/tests/sample.xlarge.hypo.word",
    "content": "KEEP A GOIN AND IF YOU'RE LUCKY YOU'LL RUN PLUMB INTO THEM WAS THE JEERING ANSWER AS THE SLEEPY COWMEN SPURRED THEIR PONIES ON TOWARD CAMP MUTTERING THEIR DISAPPROVAL OF TAKING ALONG A BUNCH OF BOYS ON A CATTLE DRIVE (None-0)\n"
  },
  {
    "path": "examples/hubert/tests/test_feature_and_unit.sh",
    "content": "#!/bin/bash\n\nset -e\n\nsizes=\"base large xlarge\"\n\ndeclare -A ckpt_urls\nckpt_urls[base]=\"https://dl.fbaipublicfiles.com/hubert/hubert_base_ls960.pt\"\nckpt_urls[large]=\"https://dl.fbaipublicfiles.com/hubert/hubert_large_ll60k.pt\"\nckpt_urls[xlarge]=\"https://dl.fbaipublicfiles.com/hubert/hubert_xtralarge_ll60k.pt\"\n\ndeclare -A km_layers\nkm_layers[base]=9\nkm_layers[large]=20\nkm_layers[xlarge]=30\n\ndeclare -A km_urls\nkm_urls[base]=\"https://dl.fbaipublicfiles.com/hubert/hubert_base_ls960_L9_km500.bin\"\n\ndeclare -A km_nunits\nkm_nunits[base]=500\n\ntest_dir=./examples/hubert/tests\nsplit=sample\n\necho -e \"${test_dir}\\n6313-76958-0021.flac\\t190800\" > \"${test_dir}/${split}.tsv\"\n\ncheck_feature () {\n  echo \"checking features...\"\n\n  size=$1\n  ckpt_url=$2\n  km_layer=$3\n  ckpt_path=\"$test_dir/$(basename \"$ckpt_url\")\"\n\n  if [ ! -f \"$ckpt_path\" ]; then\n    echo \"downloading $ckpt_url to $ckpt_path\"\n    wget \"$ckpt_url\" -O \"$ckpt_path\"\n  fi\n\n  python ./examples/hubert/simple_kmeans/dump_hubert_feature.py \\\n    \"${test_dir}\" \"${split}\" \"${ckpt_path}\" \"${km_layer}\" 1 0 \"${test_dir}\"\n\n  if diff -q \"${test_dir}/${split}.${size}.L${km_layer}.npy\" \"${test_dir}/${split}_0_1.npy\" &>/dev/null; then\n    echo \"...passed npy check\"\n  else\n    echo \"...failed npy check\"\n  fi\n\n  if diff -q \"${test_dir}/${split}.${size}.L${km_layer}.len\" \"${test_dir}/${split}_0_1.len\" &>/dev/null; then\n    echo \"...passed len check\"\n  else\n    echo \"...failed len check\"\n  fi\n}\n\n\ncheck_unit () {\n  echo \"checking units...\"\n\n  size=$1\n  km_url=$2\n  km_layer=$3\n  km_nunit=$4\n  km_path=\"$test_dir/$(basename \"$km_url\")\"\n\n  if [ ! -f \"$km_path\" ]; then\n    echo \"downloading $km_url to $km_path\"\n    wget \"$km_url\" -O \"$km_path\"\n  fi\n\n  python ./examples/hubert/simple_kmeans/dump_km_label.py \\\n    \"${test_dir}\" \"${split}\" \"${km_path}\" 1 0 \"${test_dir}\"\n\n  if diff -q \"${test_dir}/${split}.${size}.L${km_layer}.km${km_nunit}.km\" \"${test_dir}/${split}_0_1.km\" &>/dev/null; then\n    echo \"...passed unit check\"\n  else\n    echo \"...failed unit check\"\n  fi\n}\n\n\nfor size in $sizes; do\n  echo \"=== Running unit test for HuBERT $size ===\"\n  check_feature \"$size\" \"${ckpt_urls[$size]}\" \"${km_layers[$size]}\"\n\n  if [ -n \"${km_urls[$size]}\" ]; then\n    check_unit \"$size\" \"${km_urls[$size]}\" \"${km_layers[$size]}\" \"${km_nunits[$size]}\"\n  fi\n\n  rm -f $test_dir/${split}_0_1.*\ndone\n"
  },
  {
    "path": "examples/hubert/tests/test_finetuned_asr.sh",
    "content": "#!/bin/bash\n\nset -e\n\nsizes=\"large xlarge\"\n\ndeclare -A ckpt_urls\nckpt_urls[large]=\"https://dl.fbaipublicfiles.com/hubert/hubert_large_ll60k_finetune_ls960.pt\"\nckpt_urls[xlarge]=\"https://dl.fbaipublicfiles.com/hubert/hubert_xtralarge_ll60k_finetune_ls960.pt\"\n\ntest_dir=$(pwd)/examples/hubert/tests\nsplit=sample\n\necho -e \"${test_dir}\\n6313-76958-0021.flac\\t190800\" > \"${test_dir}/${split}.tsv\"\necho -e \"K E E P | A | G O I N G | A N D | I F | Y O U ' R E | L U C K Y | Y O U ' L L | R U N | P L U M B | I N T O | T H E M | W A S | T H E | J E E R I N G | A N S W E R | A S | T H E | S L E E P Y | C O W M E N | S P U R R E D | T H E I R | P O N I E S | O N | T O W A R D | C A M P | M U T T E R I N G | T H E I R | D I S A P P R O V A L | O F | T A K I N G | A L O N G | A | B U N C H | O F | B O Y S | O N | A | C A T T L E | D R I V E |\" > \"${test_dir}/${split}.ltr\"\n\ncheck_asr () {\n  echo \"checking asr outputs...\"\n\n  size=$1\n  ckpt_url=$2\n  ckpt_path=\"$test_dir/$(basename \"$ckpt_url\")\"\n\n  if [ ! -f \"$ckpt_path\" ]; then\n    echo \"downloading $ckpt_url to $ckpt_path\"\n    wget \"$ckpt_url\" -O \"$ckpt_path\"\n  fi\n\n  python examples/speech_recognition/new/infer.py \\\n    --config-dir examples/hubert/config/decode --config-name infer_viterbi \\\n    common_eval.path=\"${ckpt_path}\" task.data=\"${test_dir}\" task.normalize=true \\\n    decoding.results_path=\"${test_dir}/pred\" \\\n    common_eval.results_path=\"${test_dir}/pred\" \\\n    common_eval.quiet=false dataset.gen_subset=\"${split}\"\n\n  if diff -q \"${test_dir}/pred/hypo.word\" \"${test_dir}/${split}.${size}.hypo.word\" &>/dev/null; then\n    echo \"...passed word check\"\n  else\n    echo \"...failed word check\"\n  fi\n  rm -rf \"${test_dir}/pred\"\n}\n\nfor size in $sizes; do\n  check_asr \"$size\" \"${ckpt_urls[$size]}\"\ndone\n"
  },
  {
    "path": "examples/hubert/update_ckpt.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\nsrc_ckpt = \"/checkpoint/wnhsu/w2v/archived/hubert_base_ls960_it2.pt\"\nref_ckpt = \"/checkpoint/wnhsu/w2v/hubert_icassp_oss_v3/iter2_km100-400k-grp-L6/oss.km500_p0_1_s334.pmw1_0.puw0_0.grpnorm.ml10.mp0_8.untie.mxsz250000.ufreq1.maxtok1400000.MU100k.s1337.ngpu32/checkpoint_last.pt\"\nnew_ckpt = \"/checkpoint/wnhsu/w2v/archived/hubert_base_ls960_it2_updated.pt\"\n\n\ndef update_state(state):\n    state[\"model\"][\"label_embs_concat\"] = state[\"model\"].pop(\"label_embs\")\n    state[\"args\"].task = \"hubert_pretraining\"\n    state[\"args\"].labels = f\"['{state['args'].labels}']\"\n    return state\n\n\nsrc_state = torch.load(src_ckpt)\nsrc_state = update_state(src_state)\ntorch.save(src_state, new_ckpt)\n"
  },
  {
    "path": "examples/joint_alignment_translation/README.md",
    "content": "# Jointly Learning to Align and Translate with Transformer Models (Garg et al., 2019)\n\nThis page includes instructions for training models described in [Jointly Learning to Align and Translate with Transformer Models (Garg et al., 2019)](https://arxiv.org/abs/1909.02074).\n\n## Training a joint alignment-translation model on WMT'18 En-De\n\n##### 1. Extract and preprocess the WMT'18 En-De data\n```bash\n./prepare-wmt18en2de_no_norm_no_escape_no_agressive.sh\n```\n\n##### 2. Generate alignments from statistical alignment toolkits e.g. Giza++/FastAlign.\nIn this example, we use FastAlign.\n```bash\ngit clone git@github.com:clab/fast_align.git\npushd fast_align\nmkdir build\ncd build\ncmake ..\nmake\npopd\nALIGN=fast_align/build/fast_align\npaste bpe.32k/train.en bpe.32k/train.de | awk -F '\\t' '{print $1 \" ||| \" $2}' > bpe.32k/train.en-de\n$ALIGN -i bpe.32k/train.en-de -d -o -v > bpe.32k/train.align\n```\n\n##### 3. Preprocess the dataset with the above generated alignments.\n```bash\nfairseq-preprocess \\\n    --source-lang en --target-lang de \\\n    --trainpref bpe.32k/train \\\n    --validpref bpe.32k/valid \\\n    --testpref bpe.32k/test \\\n    --align-suffix align \\\n    --destdir binarized/ \\\n    --joined-dictionary \\\n    --workers 32\n```\n\n##### 4. Train a model\n```bash\nfairseq-train \\\n    binarized \\\n    --arch transformer_wmt_en_de_big_align --share-all-embeddings \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' --clip-norm 0.0 --activation-fn relu\\\n    --lr 0.0002 --lr-scheduler inverse_sqrt --warmup-updates 4000 --warmup-init-lr 1e-07 \\\n    --dropout 0.3 --attention-dropout 0.1 --weight-decay 0.0 \\\n    --max-tokens 3500 --label-smoothing 0.1 \\\n    --save-dir ./checkpoints --log-interval 1000 --max-update 60000 \\\n    --keep-interval-updates -1 --save-interval-updates 0 \\\n    --load-alignments --criterion label_smoothed_cross_entropy_with_alignment \\\n    --fp16\n```\n\nNote that the `--fp16` flag requires you have CUDA 9.1 or greater and a Volta GPU or newer.\n\nIf you want to train the above model with big batches (assuming your machine has 8 GPUs):\n- add `--update-freq 8` to simulate training on 8x8=64 GPUs\n- increase the learning rate; 0.0007 works well for big batches\n\n##### 5. Evaluate and generate the alignments (BPE level)\n```bash\nfairseq-generate \\\n    binarized --gen-subset test --print-alignment \\\n    --source-lang en --target-lang de \\\n    --path checkpoints/checkpoint_best.pt --beam 5 --nbest 1\n```\n\n##### 6. Other resources.\nThe code for:\n1. preparing alignment test sets\n2. converting BPE level alignments to token level alignments\n3. symmetrizing bidirectional alignments\n4. evaluating alignments using AER metric\ncan be found [here](https://github.com/lilt/alignment-scripts)\n\n## Citation\n\n```bibtex\n@inproceedings{garg2019jointly,\n  title = {Jointly Learning to Align and Translate with Transformer Models},\n  author = {Garg, Sarthak and Peitz, Stephan and Nallasamy, Udhyakumar and Paulik, Matthias},\n  booktitle = {Conference on Empirical Methods in Natural Language Processing (EMNLP)},\n  address = {Hong Kong},\n  month = {November},\n  url = {https://arxiv.org/abs/1909.02074},\n  year = {2019},\n}\n```\n"
  },
  {
    "path": "examples/joint_alignment_translation/prepare-wmt18en2de_no_norm_no_escape_no_agressive.sh",
    "content": "#!/bin/bash\n\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\necho 'Cloning Moses github repository (for tokenization scripts)...'\ngit clone https://github.com/moses-smt/mosesdecoder.git\n\nSCRIPTS=mosesdecoder/scripts\nTOKENIZER=$SCRIPTS/tokenizer/tokenizer.perl\nCLEAN=$SCRIPTS/training/clean-corpus-n.perl\nREM_NON_PRINT_CHAR=$SCRIPTS/tokenizer/remove-non-printing-char.perl\n\nURLS=(\n    \"http://statmt.org/wmt13/training-parallel-europarl-v7.tgz\"\n    \"http://statmt.org/wmt13/training-parallel-commoncrawl.tgz\"\n    \"http://data.statmt.org/wmt18/translation-task/training-parallel-nc-v13.tgz\"\n    \"http://data.statmt.org/wmt18/translation-task/rapid2016.tgz\"\n    \"http://data.statmt.org/wmt17/translation-task/dev.tgz\"\n    \"http://statmt.org/wmt14/test-full.tgz\"\n)\nCORPORA=(\n    \"training/europarl-v7.de-en\"\n    \"commoncrawl.de-en\"\n    \"training-parallel-nc-v13/news-commentary-v13.de-en\"\n    \"rapid2016.de-en\"\n)\n\nif [ ! -d \"$SCRIPTS\" ]; then\n    echo \"Please set SCRIPTS variable correctly to point to Moses scripts.\"\n    exit\nfi\n\nsrc=en\ntgt=de\nlang=en-de\nprep=wmt18_en_de\ntmp=$prep/tmp\norig=orig\ndev=dev/newstest2012\ncodes=32000\nbpe=bpe.32k\n\nmkdir -p $orig $tmp $prep $bpe\n\ncd $orig\n\nfor ((i=0;i<${#URLS[@]};++i)); do\n    url=${URLS[i]}\n    file=$(basename $url)\n    if [ -f $file ]; then\n        echo \"$file already exists, skipping download\"\n    else\n        wget \"$url\"\n        if [ -f $file ]; then\n            echo \"$url successfully downloaded.\"\n        else\n            echo \"$url not successfully downloaded.\"\n            exit 1\n        fi\n        if [ ${file: -4} == \".tgz\" ]; then\n            tar zxvf $file\n        elif [ ${file: -4} == \".tar\" ]; then\n            tar xvf $file\n        fi\n    fi\ndone\ncd ..\n\necho \"pre-processing train data...\"\nfor l in $src $tgt; do\n    rm  -rf $tmp/train.tags.$lang.tok.$l\n    for f in \"${CORPORA[@]}\"; do\n        cat $orig/$f.$l | \\\n            perl $REM_NON_PRINT_CHAR | \\\n            perl $TOKENIZER -threads 8 -l $l -no-escape >> $tmp/train.tags.$lang.tok.$l\n    done\ndone\n\necho \"pre-processing test data...\"\nfor l in $src $tgt; do\n    if [ \"$l\" == \"$src\" ]; then\n        t=\"src\"\n    else\n        t=\"ref\"\n    fi\n    grep '<seg id' $orig/test-full/newstest2014-deen-$t.$l.sgm | \\\n        sed -e 's/<seg id=\"[0-9]*\">\\s*//g' | \\\n        sed -e 's/\\s*<\\/seg>\\s*//g' | \\\n        sed -e \"s/\\’/\\'/g\" | \\\n    perl $TOKENIZER -threads 8 -l $l -no-escape > $tmp/test.$l\n    echo \"\"\ndone\n\n# apply length filtering before BPE\nperl $CLEAN -ratio 1.5 $tmp/train.tags.$lang.tok $src $tgt $tmp/train 1 100\n\n# use newstest2012 for valid\necho \"pre-processing valid data...\"\nfor l in $src $tgt; do\n    rm  -rf $tmp/valid.$l\n    cat $orig/$dev.$l | \\\n        perl $REM_NON_PRINT_CHAR | \\\n        perl $TOKENIZER -threads 8 -l $l -no-escape >> $tmp/valid.$l\ndone\n\nmkdir output\nmv $tmp/{train,valid,test}.{$src,$tgt} output\n\n#BPE\ngit clone https://github.com/glample/fastBPE.git\npushd fastBPE\ng++ -std=c++11 -pthread -O3 fastBPE/main.cc -IfastBPE -o fast\npopd\nfastBPE/fast learnbpe $codes output/train.$src output/train.$tgt > $bpe/codes\nfor split in {train,valid,test}; do for lang in {en,de}; do fastBPE/fast applybpe $bpe/$split.$lang output/$split.$lang $bpe/codes; done; done\n"
  },
  {
    "path": "examples/language_model/README.adaptive_inputs.md",
    "content": "# Adaptive Input Representations for Neural Language Modeling (Baevski and Auli, 2018)\n\n## Pre-trained models\n\nDescription | Parameters | Dataset | Model and Test set(s)\n---|---:|---|---\nAdaptive Inputs <br> ([Baevski and Auli, 2018](https://arxiv.org/abs/1809.10853)) | 1026M | [Google Billion Words](https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark) | [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/models/lm/adaptive_lm_gbw_huge.tar.bz2)\nAdaptive Inputs <br> ([Baevski and Auli, 2018](https://arxiv.org/abs/1809.10853)) | 247M | [WikiText-103](https://blog.einstein.ai/the-wikitext-long-term-dependency-language-modeling-dataset/) | [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/models/lm/adaptive_lm_wiki103.v2.tar.bz2)\n\n## Training an LM with adaptive inputs\n\nFirst, see the general [language modeling README](README.md) for instructions on\npreprocessing the WikiText-103 data.\n\nThen use the following training command to train a model with adaptive inputs\nusing the `transformer_lm_wiki103` model architecture:\n```bash\nfairseq-train --task language_modeling \\\n    data-bin/wikitext-103 \\\n    --save-dir checkpoints/transformer_wikitext-103 \\\n    --arch transformer_lm_wiki103 \\\n    --max-update 286000 --lr 1.0 --t-mult 2 --lr-period-updates 270000 --lr-scheduler cosine --lr-shrink 0.75 \\\n    --warmup-updates 16000 --warmup-init-lr 1e-07 --stop-min-lr 1e-09 --optimizer nag --min-lr 0.0001 --clip-norm 0.1 \\\n    --criterion adaptive_loss --max-tokens 3072 --update-freq 3 --tokens-per-sample 3072 --seed 1 \\\n    --sample-break-mode none --skip-invalid-size-inputs-valid-test --ddp-backend=legacy_ddp\n```\n\n## Citation\n\n```bibtex\n@inproceedings{\n    baevski2018adaptive,\n    title={Adaptive Input Representations for Neural Language Modeling},\n    author={Alexei Baevski and Michael Auli},\n    booktitle={International Conference on Learning Representations},\n    year={2019},\n    url={https://openreview.net/forum?id=ByxZX20qFQ},\n}\n```\n"
  },
  {
    "path": "examples/language_model/README.conv.md",
    "content": "# Language Modeling with Gated Convolutional Networks (Dauphin et al., 2017)\n\n## Example usage\n\nFirst download and preprocess the data following the main [language modeling README](README.md).\n\nThen to train a convolutional LM using the `fconv_lm_dauphin_wikitext103`\narchitecture:\n```bash\nfairseq-train --task language_modeling \\\n    data-bin/wikitext-103 \\\n    --save-dir checkpoints/fconv_wikitext-103 \\\n    --arch fconv_lm_dauphin_wikitext103 \\\n    --adaptive-softmax-cutoff 10000,20000,200000 \\\n    --dropout 0.2 \\\n    --criterion adaptive_loss \\\n    --optimizer nag --clip-norm 0.1 --weight-decay 5e-06 \\\n    --lr 1.0 --lr-scheduler reduce_lr_on_plateau --lr-shrink 0.5 \\\n    --max-tokens 1024 --tokens-per-sample 1024 \\\n    --ddp-backend legacy_ddp \\\n    --max-epoch 35\n```\n\nAnd evaluate with:\n```bash\nfairseq-eval-lm data-bin/wikitext-103 --path checkpoints/fconv_wiki103/checkpoint_best.pt\n```\n\n## Citation\n\n```bibtex\n@inproceedings{dauphin2017language,\n  title={Language Modeling with Gated Convolutional Networks},\n  author={Dauphin, Yann N and Fan, Angela and Auli, Michael and Grangier, David},\n  booktitle={Proceedings of the 34th International Conference on Machine Learning-Volume 70},\n  pages={933--941},\n  year={2017},\n  organization={JMLR}\n}\n```\n"
  },
  {
    "path": "examples/language_model/README.md",
    "content": "# Neural Language Modeling\n\n## Pre-trained models\n\nModel | Description | Dataset | Download\n---|---|---|---\n`transformer_lm.gbw.adaptive_huge` | Adaptive Inputs <br> ([Baevski and Auli, 2018](https://arxiv.org/abs/1809.10853)) <br> 1026M params | [Google Billion Words](https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark) | [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/models/lm/adaptive_lm_gbw_huge.tar.bz2)\n`transformer_lm.wiki103.adaptive` | Adaptive Inputs <br> ([Baevski and Auli, 2018](https://arxiv.org/abs/1809.10853)) <br> 247M params | [WikiText-103](https://blog.einstein.ai/the-wikitext-long-term-dependency-language-modeling-dataset) | [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/models/lm/adaptive_lm_wiki103.v2.tar.bz2)\n`transformer_lm.wmt19.en` | English LM <br> ([Ng et al., 2019](https://arxiv.org/abs/1907.06616)) | [WMT News Crawl](http://data.statmt.org/news-crawl/) | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/lm/wmt19.en.tar.gz)\n`transformer_lm.wmt19.de` | German LM <br> ([Ng et al., 2019](https://arxiv.org/abs/1907.06616)) | [WMT News Crawl](http://data.statmt.org/news-crawl/) | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/lm/wmt19.de.tar.gz)\n`transformer_lm.wmt19.ru` | Russian LM <br> ([Ng et al., 2019](https://arxiv.org/abs/1907.06616)) | [WMT News Crawl](http://data.statmt.org/news-crawl/) | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/lm/wmt19.ru.tar.gz)\n\n## Example usage\n\nWe require a few additional Python dependencies for preprocessing:\n```bash\npip install fastBPE sacremoses\n```\n\nTo sample from a language model using PyTorch Hub:\n```python\nimport torch\n\n# List available models\ntorch.hub.list('pytorch/fairseq')  # [..., 'transformer_lm.wmt19.en', ...]\n\n# Load an English LM trained on WMT'19 News Crawl data\nen_lm = torch.hub.load('pytorch/fairseq', 'transformer_lm.wmt19.en', tokenizer='moses', bpe='fastbpe')\nen_lm.eval()  # disable dropout\n\n# Move model to GPU\nen_lm.cuda()\n\n# Sample from the language model\nen_lm.sample('Barack Obama', beam=1, sampling=True, sampling_topk=10, temperature=0.8)\n# \"Barack Obama is coming to Sydney and New Zealand (...)\"\n\n# Compute perplexity for a sequence\nen_lm.score('Barack Obama is coming to Sydney and New Zealand')['positional_scores'].mean().neg().exp()\n# tensor(15.1474)\n\n# The same interface can be used with custom models as well\nfrom fairseq.models.transformer_lm import TransformerLanguageModel\ncustom_lm = TransformerLanguageModel.from_pretrained('/path/to/model/dir', 'checkpoint100.pt', tokenizer='moses', bpe='fastbpe')\ncustom_lm.sample('Barack Obama', beam=5)\n# \"Barack Obama (...)\"\n```\n\n## Training a transformer language model with the CLI tools\n\n### 1) Preprocess the data\n\nFirst download and prepare the [WikiText-103 dataset](https://www.salesforce.com/products/einstein/ai-research/the-wikitext-dependency-language-modeling-dataset/):\n```bash\ncd examples/language_model/\nbash prepare-wikitext-103.sh\ncd ../..\n```\n\nNext preprocess/binarize the data:\n```bash\nTEXT=examples/language_model/wikitext-103\nfairseq-preprocess \\\n    --only-source \\\n    --trainpref $TEXT/wiki.train.tokens \\\n    --validpref $TEXT/wiki.valid.tokens \\\n    --testpref $TEXT/wiki.test.tokens \\\n    --destdir data-bin/wikitext-103 \\\n    --workers 20\n```\n\n### 2) Train a language model\n\nNext we'll train a basic transformer language model on wikitext-103. For more\nadvanced usage, see the [adaptive inputs README](README.adaptive_inputs.md).\n\nTo train a basic LM (assumes 2 GPUs):\n```\n$ fairseq-train --task language_modeling \\\n  data-bin/wikitext-103 \\\n  --save-dir checkpoints/transformer_wikitext-103 \\\n  --arch transformer_lm --share-decoder-input-output-embed \\\n  --dropout 0.1 \\\n  --optimizer adam --adam-betas '(0.9, 0.98)' --weight-decay 0.01 --clip-norm 0.0 \\\n  --lr 0.0005 --lr-scheduler inverse_sqrt --warmup-updates 4000 --warmup-init-lr 1e-07 \\\n  --tokens-per-sample 512 --sample-break-mode none \\\n  --max-tokens 2048 --update-freq 16 \\\n  --fp16 \\\n  --max-update 50000\n```\n\nIf you run out of memory, try reducing `--max-tokens` (max number of tokens per\nbatch) or `--tokens-per-sample` (max sequence length). You can also adjust\n`--update-freq` to accumulate gradients and simulate training on a different\nnumber of GPUs.\n\n### 3) Evaluate\n\n```bash\nfairseq-eval-lm data-bin/wikitext-103 \\\n    --path checkpoints/transformer_wiki103/checkpoint_best.pt \\\n    --batch-size 2 \\\n    --tokens-per-sample 512 \\\n    --context-window 400\n# | Evaluated 245569 tokens in 56.1s (4379.02 tokens/s)\n# | Loss: 3.4164, Perplexity: 30.46\n```\n\n*Note:* The `--context-window` option controls how much context is provided to\neach token when computing perplexity. When the window size is 0, the dataset is\nchunked into segments of length 512 and perplexity is computed over each segment\nnormally. However, this results in worse (higher) perplexity since tokens that\nappear earlier in each segment have less conditioning. When the maximum window\nsize is used (511 in this case), then we compute perplexity for each token\nfully conditioned on 511 tokens of context. This slows down evaluation\nsignificantly, since we must run a separate forward pass for every token in the\ndataset, but results in better (lower) perplexity.\n\n\n## Convolutional language models\n\nPlease see the [convolutional LM README](README.conv.md) for instructions on\ntraining convolutional language models.\n"
  },
  {
    "path": "examples/language_model/prepare-wikitext-103.sh",
    "content": "#!/bin/bash\n# Adapted from https://github.com/facebookresearch/MIXER/blob/master/prepareData.sh\n\nURLS=(\n    \"https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-103-v1.zip\"\n)\nFILES=(\n    \"wikitext-103-v1.zip\"\n)\n\nfor ((i=0;i<${#URLS[@]};++i)); do\n    file=${FILES[i]}\n    if [ -f $file ]; then\n        echo \"$file already exists, skipping download\"\n    else\n        url=${URLS[i]}\n        wget \"$url\"\n        if [ -f $file ]; then\n            echo \"$url successfully downloaded.\"\n        else\n            echo \"$url not successfully downloaded.\"\n            exit -1\n        fi\n        if [ ${file: -4} == \".tgz\" ]; then\n            tar zxvf $file\n        elif [ ${file: -4} == \".tar\" ]; then\n            tar xvf $file\n        elif [ ${file: -4} == \".zip\" ]; then\n            unzip $file\n        fi\n    fi\ndone\ncd ..\n"
  },
  {
    "path": "examples/laser/README.md",
    "content": "# LASER  Language-Agnostic SEntence Representations\n\nLASER is a library to calculate and use multilingual sentence embeddings.\n\nYou can find more information about LASER and how to use it on the official [LASER repository](https://github.com/facebookresearch/LASER).\n\nThis folder contains source code for training LASER embeddings.\n\n\n## Prepare data and configuration file\n\nBinarize your data with fairseq, as described [here](https://fairseq.readthedocs.io/en/latest/getting_started.html#data-pre-processing).\n\nCreate a json config file with this format:\n```\n{\n  \"src_vocab\": \"/path/to/spm.src.cvocab\",\n  \"tgt_vocab\": \"/path/to/spm.tgt.cvocab\",\n  \"train\": [\n    {\n      \"type\": \"translation\",\n      \"id\": 0,\n      \"src\": \"/path/to/srclang1-tgtlang0/train.srclang1\",\n      \"tgt\": \"/path/to/srclang1-tgtlang0/train.tgtlang0\"\n    },\n    {\n      \"type\": \"translation\",\n      \"id\": 1,\n      \"src\": \"/path/to/srclang1-tgtlang1/train.srclang1\",\n      \"tgt\": \"/path/to/srclang1-tgtlang1/train.tgtlang1\"\n    },\n    {\n      \"type\": \"translation\",\n      \"id\": 0,\n      \"src\": \"/path/to/srclang2-tgtlang0/train.srclang2\",\n      \"tgt\": \"/path/to/srclang2-tgtlang0/train.tgtlang0\"\n    },\n    {\n      \"type\": \"translation\",\n      \"id\": 1,\n      \"src\": \"/path/to/srclang2-tgtlang1/train.srclang2\",\n      \"tgt\": \"/path/to/srclang2-tgtlang1/train.tgtlang1\"\n    },\n    ...\n  ],\n  \"valid\": [\n    {\n      \"type\": \"translation\",\n      \"id\": 0,\n      \"src\": \"/unused\",\n      \"tgt\": \"/unused\"\n    }\n  ]\n}\n```\nwhere paths are paths to binarized indexed fairseq dataset files.\n`id` represents the target language id.\n\n\n## Training Command Line Example\n\n```\nfairseq-train \\\n  /path/to/configfile_described_above.json \\\n  --user-dir examples/laser/laser_src \\\n  --log-interval 100 --log-format simple \\\n  --task laser --arch laser_lstm \\\n  --save-dir . \\\n  --optimizer adam \\\n  --lr 0.001 \\\n  --lr-scheduler inverse_sqrt \\\n  --clip-norm 5 \\\n  --warmup-updates 90000 \\\n  --update-freq 2 \\\n  --dropout 0.0 \\\n  --encoder-dropout-out 0.1 \\\n  --max-tokens 2000 \\\n  --max-epoch 50 \\\n  --encoder-bidirectional \\\n  --encoder-layers 5 \\\n  --encoder-hidden-size 512 \\\n  --decoder-layers 1 \\\n  --decoder-hidden-size 2048 \\\n  --encoder-embed-dim 320 \\\n  --decoder-embed-dim 320 \\\n  --decoder-lang-embed-dim 32 \\\n  --warmup-init-lr 0.001 \\\n  --disable-validation\n```\n\n\n## Applications\n\nWe showcase several applications of multilingual sentence embeddings\nwith code to reproduce our results (in the directory \"tasks\").\n\n* [**Cross-lingual document classification**](https://github.com/facebookresearch/LASER/tree/master/tasks/mldoc) using the\n  [*MLDoc*](https://github.com/facebookresearch/MLDoc) corpus [2,6]\n* [**WikiMatrix**](https://github.com/facebookresearch/LASER/tree/master/tasks/WikiMatrix)\n   Mining 135M Parallel Sentences in 1620 Language Pairs from Wikipedia [7]\n* [**Bitext mining**](https://github.com/facebookresearch/LASER/tree/master/tasks/bucc) using the\n  [*BUCC*](https://comparable.limsi.fr/bucc2018/bucc2018-task.html) corpus [3,5]\n* [**Cross-lingual NLI**](https://github.com/facebookresearch/LASER/tree/master/tasks/xnli)\n  using the [*XNLI*](https://www.nyu.edu/projects/bowman/xnli/) corpus [4,5,6]\n* [**Multilingual similarity search**](https://github.com/facebookresearch/LASER/tree/master/tasks/similarity) [1,6]\n* [**Sentence embedding of text files**](https://github.com/facebookresearch/LASER/tree/master/tasks/embed)\n  example how to calculate sentence embeddings for arbitrary text files in any of the supported language.\n\n**For all tasks, we use exactly the same multilingual encoder, without any task specific optimization or fine-tuning.**\n\n\n\n## References\n\n[1] Holger Schwenk and Matthijs Douze,\n    [*Learning Joint Multilingual Sentence Representations with Neural Machine Translation*](https://aclanthology.info/papers/W17-2619/w17-2619),\n    ACL workshop on Representation Learning for NLP, 2017\n\n[2] Holger Schwenk and Xian Li,\n    [*A Corpus for Multilingual Document Classification in Eight Languages*](http://www.lrec-conf.org/proceedings/lrec2018/pdf/658.pdf),\n    LREC, pages 3548-3551, 2018.\n\n[3] Holger Schwenk,\n    [*Filtering and Mining Parallel Data in a Joint Multilingual Space*](http://aclweb.org/anthology/P18-2037)\n    ACL, July 2018\n\n[4] Alexis Conneau, Guillaume Lample, Ruty Rinott, Adina Williams, Samuel R. Bowman, Holger Schwenk and Veselin Stoyanov,\n    [*XNLI: Cross-lingual Sentence Understanding through Inference*](https://aclweb.org/anthology/D18-1269),\n    EMNLP, 2018.\n\n[5] Mikel Artetxe and Holger Schwenk,\n    [*Margin-based Parallel Corpus Mining with Multilingual Sentence Embeddings*](https://arxiv.org/abs/1811.01136)\n    arXiv, Nov 3 2018.\n\n[6] Mikel Artetxe and Holger Schwenk,\n    [*Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond*](https://arxiv.org/abs/1812.10464)\n    arXiv, Dec 26 2018.\n\n[7] Holger Schwenk, Vishrav Chaudhary, Shuo Sun, Hongyu Gong and Paco Guzman,\n    [*WikiMatrix: Mining 135M Parallel Sentences in 1620 Language Pairs from Wikipedia*](https://arxiv.org/abs/1907.05791)\n    arXiv, July 11  2019.\n\n[8] Holger Schwenk, Guillaume Wenzek, Sergey Edunov, Edouard Grave and Armand Joulin\n    [*CCMatrix: Mining Billions of High-Quality Parallel Sentences on the WEB*](https://arxiv.org/abs/1911.04944)\n"
  },
  {
    "path": "examples/laser/laser_src/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .laser_task import *  # noqa\nfrom .laser_lstm import *  # noqa\nfrom .laser_transformer import *  # noqa\n"
  },
  {
    "path": "examples/laser/laser_src/laser_lstm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nfrom fairseq import options, utils\n\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqIncrementalDecoder,\n    FairseqEncoderDecoderModel,\n    register_model,\n    register_model_architecture,\n)\n\n\n@register_model(\"laser_lstm\")\nclass LSTMModel(FairseqEncoderDecoderModel):\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths,\n        prev_output_tokens=None,\n        tgt_tokens=None,\n        tgt_lengths=None,\n        target_language_id=None,\n        dataset_name=\"\",\n    ):\n        assert target_language_id is not None\n\n        src_encoder_out = self.encoder(src_tokens, src_lengths, dataset_name)\n        return self.decoder(\n            prev_output_tokens, src_encoder_out, lang_id=target_language_id\n        )\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        parser.add_argument(\n            \"--dropout\",\n            default=0.1,\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability\",\n        )\n        parser.add_argument(\n            \"--encoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--encoder-embed-path\",\n            default=None,\n            type=str,\n            metavar=\"STR\",\n            help=\"path to pre-trained encoder embedding\",\n        )\n        parser.add_argument(\n            \"--encoder-hidden-size\", type=int, metavar=\"N\", help=\"encoder hidden size\"\n        )\n        parser.add_argument(\n            \"--encoder-layers\", type=int, metavar=\"N\", help=\"number of encoder layers\"\n        )\n        parser.add_argument(\n            \"--encoder-bidirectional\",\n            action=\"store_true\",\n            help=\"make all layers of encoder bidirectional\",\n        )\n        parser.add_argument(\n            \"--decoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--decoder-embed-path\",\n            default=None,\n            type=str,\n            metavar=\"STR\",\n            help=\"path to pre-trained decoder embedding\",\n        )\n        parser.add_argument(\n            \"--decoder-hidden-size\", type=int, metavar=\"N\", help=\"decoder hidden size\"\n        )\n        parser.add_argument(\n            \"--decoder-layers\", type=int, metavar=\"N\", help=\"number of decoder layers\"\n        )\n        parser.add_argument(\n            \"--decoder-out-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder output embedding dimension\",\n        )\n        parser.add_argument(\n            \"--decoder-zero-init\",\n            type=str,\n            metavar=\"BOOL\",\n            help=\"initialize the decoder hidden/cell state to zero\",\n        )\n        parser.add_argument(\n            \"--decoder-lang-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder language embedding dimension\",\n        )\n        parser.add_argument(\n            \"--fixed-embeddings\",\n            action=\"store_true\",\n            help=\"keep embeddings fixed (ENCODER ONLY)\",\n        )  # TODO Also apply to decoder embeddings?\n\n        # Granular dropout settings (if not specified these default to --dropout)\n        parser.add_argument(\n            \"--encoder-dropout-in\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for encoder input embedding\",\n        )\n        parser.add_argument(\n            \"--encoder-dropout-out\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for encoder output\",\n        )\n        parser.add_argument(\n            \"--decoder-dropout-in\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for decoder input embedding\",\n        )\n        parser.add_argument(\n            \"--decoder-dropout-out\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for decoder output\",\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        # make sure that all args are properly defaulted (in case there are any new ones)\n        base_architecture(args)\n\n        def load_pretrained_embedding_from_file(embed_path, dictionary, embed_dim):\n            num_embeddings = len(dictionary)\n            padding_idx = dictionary.pad()\n            embed_tokens = Embedding(num_embeddings, embed_dim, padding_idx)\n            embed_dict = utils.parse_embedding(embed_path)\n            utils.print_embed_overlap(embed_dict, dictionary)\n            return utils.load_embedding(embed_dict, dictionary, embed_tokens)\n\n        pretrained_encoder_embed = None\n        if args.encoder_embed_path:\n            pretrained_encoder_embed = load_pretrained_embedding_from_file(\n                args.encoder_embed_path, task.source_dictionary, args.encoder_embed_dim\n            )\n        pretrained_decoder_embed = None\n        if args.decoder_embed_path:\n            pretrained_decoder_embed = load_pretrained_embedding_from_file(\n                args.decoder_embed_path, task.target_dictionary, args.decoder_embed_dim\n            )\n\n        num_langs = task.num_tasks if hasattr(task, \"num_tasks\") else 0\n\n        encoder = LSTMEncoder(\n            dictionary=task.source_dictionary,\n            embed_dim=args.encoder_embed_dim,\n            hidden_size=args.encoder_hidden_size,\n            num_layers=args.encoder_layers,\n            dropout_in=args.encoder_dropout_in,\n            dropout_out=args.encoder_dropout_out,\n            bidirectional=args.encoder_bidirectional,\n            pretrained_embed=pretrained_encoder_embed,\n            fixed_embeddings=args.fixed_embeddings,\n        )\n        decoder = LSTMDecoder(\n            dictionary=task.target_dictionary,\n            embed_dim=args.decoder_embed_dim,\n            hidden_size=args.decoder_hidden_size,\n            out_embed_dim=args.decoder_out_embed_dim,\n            num_layers=args.decoder_layers,\n            dropout_in=args.decoder_dropout_in,\n            dropout_out=args.decoder_dropout_out,\n            zero_init=options.eval_bool(args.decoder_zero_init),\n            encoder_embed_dim=args.encoder_embed_dim,\n            encoder_output_units=encoder.output_units,\n            pretrained_embed=pretrained_decoder_embed,\n            num_langs=num_langs,\n            lang_embed_dim=args.decoder_lang_embed_dim,\n        )\n        return cls(encoder, decoder)\n\n\nclass LSTMEncoder(FairseqEncoder):\n    \"\"\"LSTM encoder.\"\"\"\n\n    def __init__(\n        self,\n        dictionary,\n        embed_dim=512,\n        hidden_size=512,\n        num_layers=1,\n        dropout_in=0.1,\n        dropout_out=0.1,\n        bidirectional=False,\n        left_pad=True,\n        pretrained_embed=None,\n        padding_value=0.0,\n        fixed_embeddings=False,\n    ):\n        super().__init__(dictionary)\n        self.num_layers = num_layers\n        self.dropout_in = dropout_in\n        self.dropout_out = dropout_out\n        self.bidirectional = bidirectional\n        self.hidden_size = hidden_size\n\n        num_embeddings = len(dictionary)\n        self.padding_idx = dictionary.pad()\n        if pretrained_embed is None:\n            self.embed_tokens = Embedding(num_embeddings, embed_dim, self.padding_idx)\n        else:\n            self.embed_tokens = pretrained_embed\n        if fixed_embeddings:\n            self.embed_tokens.weight.requires_grad = False\n\n        self.lstm = LSTM(\n            input_size=embed_dim,\n            hidden_size=hidden_size,\n            num_layers=num_layers,\n            dropout=self.dropout_out if num_layers > 1 else 0.0,\n            bidirectional=bidirectional,\n        )\n        self.left_pad = left_pad\n        self.padding_value = padding_value\n\n        self.output_units = hidden_size\n        if bidirectional:\n            self.output_units *= 2\n\n    def forward(self, src_tokens, src_lengths, dataset_name):\n        if self.left_pad:\n            # convert left-padding to right-padding\n            src_tokens = utils.convert_padding_direction(\n                src_tokens,\n                self.padding_idx,\n                left_to_right=True,\n            )\n\n        bsz, seqlen = src_tokens.size()\n\n        # embed tokens\n        x = self.embed_tokens(src_tokens)\n        x = F.dropout(x, p=self.dropout_in, training=self.training)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        # pack embedded source tokens into a PackedSequence\n        try:\n            packed_x = nn.utils.rnn.pack_padded_sequence(x, src_lengths.data.tolist())\n        except BaseException:\n            raise Exception(f\"Packing failed in dataset {dataset_name}\")\n\n        # apply LSTM\n        if self.bidirectional:\n            state_size = 2 * self.num_layers, bsz, self.hidden_size\n        else:\n            state_size = self.num_layers, bsz, self.hidden_size\n        h0 = x.data.new(*state_size).zero_()\n        c0 = x.data.new(*state_size).zero_()\n        packed_outs, (final_hiddens, final_cells) = self.lstm(packed_x, (h0, c0))\n\n        # unpack outputs and apply dropout\n        x, _ = nn.utils.rnn.pad_packed_sequence(\n            packed_outs, padding_value=self.padding_value\n        )\n        x = F.dropout(x, p=self.dropout_out, training=self.training)\n        assert list(x.size()) == [seqlen, bsz, self.output_units]\n\n        if self.bidirectional:\n\n            def combine_bidir(outs):\n                return torch.cat(\n                    [\n                        torch.cat([outs[2 * i], outs[2 * i + 1]], dim=0).view(\n                            1, bsz, self.output_units\n                        )\n                        for i in range(self.num_layers)\n                    ],\n                    dim=0,\n                )\n\n            final_hiddens = combine_bidir(final_hiddens)\n            final_cells = combine_bidir(final_cells)\n\n        encoder_padding_mask = src_tokens.eq(self.padding_idx).t()\n\n        # Set padded outputs to -inf so they are not selected by max-pooling\n        padding_mask = src_tokens.eq(self.padding_idx).t().unsqueeze(-1)\n        if padding_mask.any():\n            x = x.float().masked_fill_(padding_mask, float(\"-inf\")).type_as(x)\n\n        # Build the sentence embedding by max-pooling over the encoder outputs\n        sentemb = x.max(dim=0)[0]\n\n        return {\n            \"sentemb\": sentemb,\n            \"encoder_out\": (x, final_hiddens, final_cells),\n            \"encoder_padding_mask\": encoder_padding_mask\n            if encoder_padding_mask.any()\n            else None,\n        }\n\n    def reorder_encoder_out(self, encoder_out_dict, new_order):\n        encoder_out_dict[\"sentemb\"] = encoder_out_dict[\"sentemb\"].index_select(\n            0, new_order\n        )\n        encoder_out_dict[\"encoder_out\"] = tuple(\n            eo.index_select(1, new_order) for eo in encoder_out_dict[\"encoder_out\"]\n        )\n        if encoder_out_dict[\"encoder_padding_mask\"] is not None:\n            encoder_out_dict[\"encoder_padding_mask\"] = encoder_out_dict[\n                \"encoder_padding_mask\"\n            ].index_select(1, new_order)\n        return encoder_out_dict\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return int(1e5)  # an arbitrary large number\n\n\nclass LSTMDecoder(FairseqIncrementalDecoder):\n    \"\"\"LSTM decoder.\"\"\"\n\n    def __init__(\n        self,\n        dictionary,\n        embed_dim=512,\n        hidden_size=512,\n        out_embed_dim=512,\n        num_layers=1,\n        dropout_in=0.1,\n        dropout_out=0.1,\n        zero_init=False,\n        encoder_embed_dim=512,\n        encoder_output_units=512,\n        pretrained_embed=None,\n        num_langs=1,\n        lang_embed_dim=0,\n    ):\n        super().__init__(dictionary)\n        self.dropout_in = dropout_in\n        self.dropout_out = dropout_out\n        self.hidden_size = hidden_size\n\n        num_embeddings = len(dictionary)\n        padding_idx = dictionary.pad()\n        if pretrained_embed is None:\n            self.embed_tokens = Embedding(num_embeddings, embed_dim, padding_idx)\n        else:\n            self.embed_tokens = pretrained_embed\n\n        self.layers = nn.ModuleList(\n            [\n                LSTMCell(\n                    input_size=encoder_output_units + embed_dim + lang_embed_dim\n                    if layer == 0\n                    else hidden_size,\n                    hidden_size=hidden_size,\n                )\n                for layer in range(num_layers)\n            ]\n        )\n        if hidden_size != out_embed_dim:\n            self.additional_fc = Linear(hidden_size, out_embed_dim)\n        self.fc_out = Linear(out_embed_dim, num_embeddings, dropout=dropout_out)\n\n        if zero_init:\n            self.sentemb2init = None\n        else:\n            self.sentemb2init = Linear(\n                encoder_output_units, 2 * num_layers * hidden_size\n            )\n\n        if lang_embed_dim == 0:\n            self.embed_lang = None\n        else:\n            self.embed_lang = nn.Embedding(num_langs, lang_embed_dim)\n            nn.init.uniform_(self.embed_lang.weight, -0.1, 0.1)\n\n    def forward(\n        self, prev_output_tokens, encoder_out_dict, incremental_state=None, lang_id=0\n    ):\n        sentemb = encoder_out_dict[\"sentemb\"]\n        encoder_out = encoder_out_dict[\"encoder_out\"]\n\n        if incremental_state is not None:\n            prev_output_tokens = prev_output_tokens[:, -1:]\n        bsz, seqlen = prev_output_tokens.size()\n\n        # get outputs from encoder\n        encoder_outs, _, _ = encoder_out[:3]\n        srclen = encoder_outs.size(0)\n\n        # embed tokens\n        x = self.embed_tokens(prev_output_tokens)\n        x = F.dropout(x, p=self.dropout_in, training=self.training)\n\n        # embed language identifier\n        if self.embed_lang is not None:\n            lang_ids = prev_output_tokens.data.new_full((bsz,), lang_id)\n            langemb = self.embed_lang(lang_ids)\n            # TODO Should we dropout here???\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        # initialize previous states (or get from cache during incremental generation)\n        cached_state = utils.get_incremental_state(\n            self, incremental_state, \"cached_state\"\n        )\n        if cached_state is not None:\n            prev_hiddens, prev_cells, input_feed = cached_state\n        else:\n            num_layers = len(self.layers)\n            if self.sentemb2init is None:\n                prev_hiddens = [\n                    x.data.new(bsz, self.hidden_size).zero_() for i in range(num_layers)\n                ]\n                prev_cells = [\n                    x.data.new(bsz, self.hidden_size).zero_() for i in range(num_layers)\n                ]\n            else:\n                init = self.sentemb2init(sentemb)\n                prev_hiddens = [\n                    init[:, (2 * i) * self.hidden_size : (2 * i + 1) * self.hidden_size]\n                    for i in range(num_layers)\n                ]\n                prev_cells = [\n                    init[\n                        :,\n                        (2 * i + 1) * self.hidden_size : (2 * i + 2) * self.hidden_size,\n                    ]\n                    for i in range(num_layers)\n                ]\n            input_feed = x.data.new(bsz, self.hidden_size).zero_()\n\n        attn_scores = x.data.new(srclen, seqlen, bsz).zero_()\n        outs = []\n        for j in range(seqlen):\n            if self.embed_lang is None:\n                input = torch.cat((x[j, :, :], sentemb), dim=1)\n            else:\n                input = torch.cat((x[j, :, :], sentemb, langemb), dim=1)\n\n            for i, rnn in enumerate(self.layers):\n                # recurrent cell\n                hidden, cell = rnn(input, (prev_hiddens[i], prev_cells[i]))\n\n                # hidden state becomes the input to the next layer\n                input = F.dropout(hidden, p=self.dropout_out, training=self.training)\n\n                # save state for next time step\n                prev_hiddens[i] = hidden\n                prev_cells[i] = cell\n\n            out = hidden\n            out = F.dropout(out, p=self.dropout_out, training=self.training)\n\n            # input feeding\n            input_feed = out\n\n            # save final output\n            outs.append(out)\n\n        # cache previous states (no-op except during incremental generation)\n        utils.set_incremental_state(\n            self,\n            incremental_state,\n            \"cached_state\",\n            (prev_hiddens, prev_cells, input_feed),\n        )\n\n        # collect outputs across time steps\n        x = torch.cat(outs, dim=0).view(seqlen, bsz, self.hidden_size)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(1, 0)\n\n        # srclen x tgtlen x bsz -> bsz x tgtlen x srclen\n        attn_scores = attn_scores.transpose(0, 2)\n\n        # project back to size of vocabulary\n        if hasattr(self, \"additional_fc\"):\n            x = self.additional_fc(x)\n            x = F.dropout(x, p=self.dropout_out, training=self.training)\n        x = self.fc_out(x)\n\n        return x, attn_scores\n\n    def reorder_incremental_state(self, incremental_state, new_order):\n        super().reorder_incremental_state(incremental_state, new_order)\n        cached_state = utils.get_incremental_state(\n            self, incremental_state, \"cached_state\"\n        )\n        if cached_state is None:\n            return\n\n        def reorder_state(state):\n            if isinstance(state, list):\n                return [reorder_state(state_i) for state_i in state]\n            return state.index_select(0, new_order)\n\n        new_state = tuple(map(reorder_state, cached_state))\n        utils.set_incremental_state(self, incremental_state, \"cached_state\", new_state)\n\n    def max_positions(self):\n        \"\"\"Maximum output length supported by the decoder.\"\"\"\n        return int(1e5)  # an arbitrary large number\n\n\ndef Embedding(num_embeddings, embedding_dim, padding_idx):\n    m = nn.Embedding(num_embeddings, embedding_dim, padding_idx=padding_idx)\n    nn.init.uniform_(m.weight, -0.1, 0.1)\n    nn.init.constant_(m.weight[padding_idx], 0)\n    return m\n\n\ndef LSTM(input_size, hidden_size, **kwargs):\n    m = nn.LSTM(input_size, hidden_size, **kwargs)\n    for name, param in m.named_parameters():\n        if \"weight\" in name or \"bias\" in name:\n            param.data.uniform_(-0.1, 0.1)\n    return m\n\n\ndef LSTMCell(input_size, hidden_size, **kwargs):\n    m = nn.LSTMCell(input_size, hidden_size, **kwargs)\n    for name, param in m.named_parameters():\n        if \"weight\" in name or \"bias\" in name:\n            param.data.uniform_(-0.1, 0.1)\n    return m\n\n\ndef Linear(in_features, out_features, bias=True, dropout=0):\n    \"\"\"Weight-normalized Linear layer (input: N x T x C)\"\"\"\n    m = nn.Linear(in_features, out_features, bias=bias)\n    m.weight.data.uniform_(-0.1, 0.1)\n    if bias:\n        m.bias.data.uniform_(-0.1, 0.1)\n    return m\n\n\n@register_model_architecture(\"laser_lstm\", \"laser_lstm\")\ndef base_architecture(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_embed_path = getattr(args, \"encoder_embed_path\", None)\n    args.encoder_hidden_size = getattr(\n        args, \"encoder_hidden_size\", args.encoder_embed_dim\n    )\n    args.encoder_layers = getattr(args, \"encoder_layers\", 1)\n    args.encoder_bidirectional = getattr(args, \"encoder_bidirectional\", False)\n    args.encoder_dropout_in = getattr(args, \"encoder_dropout_in\", args.dropout)\n    args.encoder_dropout_out = getattr(args, \"encoder_dropout_out\", args.dropout)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_embed_path = getattr(args, \"decoder_embed_path\", None)\n    args.decoder_hidden_size = getattr(\n        args, \"decoder_hidden_size\", args.decoder_embed_dim\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 1)\n    args.decoder_out_embed_dim = getattr(args, \"decoder_out_embed_dim\", 512)\n    args.decoder_dropout_in = getattr(args, \"decoder_dropout_in\", args.dropout)\n    args.decoder_dropout_out = getattr(args, \"decoder_dropout_out\", args.dropout)\n    args.decoder_zero_init = getattr(args, \"decoder_zero_init\", \"0\")\n    args.decoder_lang_embed_dim = getattr(args, \"decoder_lang_embed_dim\", 0)\n    args.fixed_embeddings = getattr(args, \"fixed_embeddings\", False)\n"
  },
  {
    "path": "examples/laser/laser_src/laser_task.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom collections import OrderedDict, defaultdict\nimport json\nimport os\nimport logging\nfrom argparse import ArgumentError\n\nfrom fairseq import options, models\nfrom fairseq.data import (\n    data_utils,\n    Dictionary,\n    LanguagePairDataset,\n    IndexedDataset,\n    FairseqDataset,\n)\nfrom .multitask_data_utils import (\n    MultitaskDatasetWrapper,\n    MultidatasetEpochBatchIterator,\n)\n\n\nfrom fairseq.tasks import LegacyFairseqTask, register_task\n\nlogger = logging.getLogger(__name__)\n\n\n@register_task(\"laser\")\nclass LaserTask(LegacyFairseqTask):\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        parser.add_argument(\n            \"configfile\", metavar=\"PATH\", help=\"dataset configuration file in json\"\n        )\n        parser.add_argument(\n            \"--weighting-alpha\",\n            type=float,\n            default=None,\n            help=\"alpha for automatic weighting\",\n        )\n        parser.add_argument(\n            \"--raw-text\", action=\"store_true\", help=\"load raw text dataset\"\n        )\n        parser.add_argument(\n            \"--left-pad-source\",\n            default=\"True\",\n            type=str,\n            metavar=\"BOOL\",\n            help=\"pad the source on the left (default: True)\",\n        )\n        parser.add_argument(\n            \"--left-pad-target\",\n            default=\"False\",\n            type=str,\n            metavar=\"BOOL\",\n            help=\"pad the target on the left (default: False)\",\n        )\n        try:\n            parser.add_argument(\n                \"--max-source-positions\",\n                default=1024,\n                type=int,\n                metavar=\"N\",\n                help=\"max number of tokens in the source sequence\",\n            )\n            parser.add_argument(\n                \"--max-target-positions\",\n                default=1024,\n                type=int,\n                metavar=\"N\",\n                help=\"max number of tokens in the target sequence\",\n            )\n        except ArgumentError:\n            # this might have already been defined. Once we transition this to hydra it should be fine to add it here.\n            pass\n\n    def __init__(self, args, config, src_dictionary, tgt_dictionary, num_tasks):\n        super().__init__(args)\n        self.config = config\n        self.src_dictionary = src_dictionary\n        self.tgt_dictionary = tgt_dictionary\n        self.num_tasks = num_tasks\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        with open(args.configfile, \"r\") as f:\n            config = json.load(f)\n        num_tasks = max(dataset[\"id\"] for dataset in config[\"train\"]) + 1\n\n        args.left_pad_source = options.eval_bool(args.left_pad_source)\n        args.left_pad_target = options.eval_bool(args.left_pad_target)\n\n        src_dictionary = Dictionary.load(config[\"src_vocab\"])\n        tgt_dictionary = Dictionary.load(config[\"tgt_vocab\"])\n\n        logger.info(\n            \"| src Dictionary {} : {} types\".format(\n                config[\"src_vocab\"], len(src_dictionary)\n            )\n        )\n        logger.info(\n            \"| tgt Dictionary {} : {} types\".format(\n                config[\"tgt_vocab\"], len(tgt_dictionary)\n            )\n        )\n\n        return cls(args, config, src_dictionary, tgt_dictionary, num_tasks)\n\n    # Experimental overriding for backtranslation\n    def build_model(self, args, from_checkpoint=False):\n        model = models.build_model(args, self)\n        return model\n\n    def dataset(self, split):\n        if split not in self.datasets:\n            raise KeyError(\"Dataset not loaded: \" + split)\n        return self.datasets[split]\n\n    def load_dataset(self, split, epoch=1, **kwargs):\n        \"\"\"Load a dataset split.\"\"\"\n\n        def indexed_dataset(path, dictionary):\n            if self.args.raw_text:\n                raise Exception(\"Unable to handle raw text.\")\n            dataset = IndexedDataset(path, fix_lua_indexing=True)\n\n            return dataset\n\n        pair_datasets = OrderedDict()\n\n        if split == \"valid\":\n            self.datasets[split] = pair_datasets\n            return\n\n        if split not in self.config:\n            raise FileNotFoundError(\n                \"Dataset not found in config file: {}\".format(split)\n            )\n\n        size_by_corpus = defaultdict(int)\n        size_sum = 0\n        size_sum_with_subsampling = 0\n        init_pair_datasets = {}\n\n        for dataset_config in self.config[split]:\n            src_path = os.path.dirname(dataset_config[\"src\"])\n            corpus_name = src_path.split(\"/\")[-2]\n            language_pair_name = src_path.split(\"/\")[-1]\n            pair_datasets_key = corpus_name + \"-\" + language_pair_name\n\n            logger.info(f\"loading... {pair_datasets_key}\")\n            if \"src\" in dataset_config:\n                src_dataset = indexed_dataset(\n                    dataset_config[\"src\"], self.src_dictionary\n                )\n            else:\n                src_dataset = None\n\n            if \"tgt\" in dataset_config:\n                tgt_dataset = indexed_dataset(\n                    dataset_config[\"tgt\"], self.tgt_dictionary\n                )\n            else:\n                tgt_dataset = None\n\n            dataset = LanguagePairDataset(\n                src_dataset,\n                src_dataset.sizes,\n                self.src_dictionary,\n                tgt_dataset,\n                tgt_dataset.sizes,\n                self.tgt_dictionary,\n                left_pad_source=self.args.left_pad_source,\n                left_pad_target=self.args.left_pad_target,\n            )\n\n            if pair_datasets_key in init_pair_datasets:\n                logger.warning(\n                    f\"Ignoring already added {pair_datasets_key}. \"\n                    f\"Consider using `sample` key in order to upsample.\"\n                )\n            else:\n                init_pair_datasets[pair_datasets_key] = {\n                    \"dataset\": dataset,\n                    \"sample\": dataset_config.get(\"sample\", None),\n                    \"id\": dataset_config.get(\"id\", None),\n                    \"len\": len(dataset),\n                }\n\n        length_sum = 0\n        weighted_freqs_sum = 0\n        freq_per_dataset = {}\n        vmax = 0\n        vmin = 1\n        weighted_freq_per_dataset = {}\n\n        if self.args.weighting_alpha:\n            for key in init_pair_datasets:\n                if init_pair_datasets[key][\"sample\"] is None:\n                    length_sum += len(init_pair_datasets[key][\"dataset\"])\n\n            for key in init_pair_datasets:\n                if init_pair_datasets[key][\"sample\"] is None:\n                    val = float(init_pair_datasets[key][\"len\"]) / length_sum\n                    freq_per_dataset[key] = val\n                    weighted_freqs_sum += val ** self.args.weighting_alpha\n\n            for key in freq_per_dataset:\n                val = (\n                    freq_per_dataset[key] ** self.args.weighting_alpha\n                    / weighted_freqs_sum\n                )\n                vmin = min(vmin, val)\n                vmax = max(vmax, val)\n                weighted_freq_per_dataset[key] = val\n\n        for pair_datasets_key in init_pair_datasets:\n            dataset_config = init_pair_datasets[pair_datasets_key]\n            dataset = dataset_config[\"dataset\"]\n            sample = dataset_config[\"sample\"]\n            if sample is None:\n                sample = 1.0\n\n            if pair_datasets_key in weighted_freq_per_dataset:\n                w = vmax / weighted_freq_per_dataset[pair_datasets_key]\n                sample = w\n\n            sample = round(sample)\n\n            initial_sample = sample\n            initial_pair_datasets_key = pair_datasets_key\n\n            while sample >= 1.0:\n                assert (\n                    pair_datasets_key not in pair_datasets\n                ), f\"{pair_datasets_key} already in\"\n                size_sum_with_subsampling += len(dataset)\n                pair_datasets[pair_datasets_key] = MultitaskDatasetWrapper(\n                    dataset, dataset_config.get(\"id\", 0), 1.0, name=pair_datasets_key\n                )\n                size_sum += len(dataset)\n                sample -= 1.0\n                pair_datasets_key += \"-up\"\n\n            assert sample < 1e-6, f\"sample remains > 0 {pair_datasets_key}\"\n\n            logger.info(\n                f\"added pair {initial_pair_datasets_key} length {len(dataset)} new_length = {len(dataset)*initial_sample}\"\n            )\n            size_by_corpus[corpus_name] += len(dataset)\n\n        self.datasets[split] = pair_datasets\n        logger.info(\n            f\"Datasets number = {len(self.datasets[split])} size = {size_sum} size_sum_with_subsampling = {size_sum_with_subsampling}\"\n        )\n\n    @property\n    def source_dictionary(self):\n        return self.src_dictionary\n\n    @property\n    def target_dictionary(self):\n        return self.tgt_dictionary\n\n    def get_batch_iterator(\n        self,\n        dataset,\n        max_tokens=None,\n        max_sentences=None,\n        max_positions=None,\n        ignore_invalid_inputs=False,\n        required_batch_size_multiple=1,\n        seed=1,\n        num_shards=1,\n        shard_id=0,\n        num_workers=0,\n        epoch=1,\n        data_buffer_size=0,\n        disable_iterator_cache=False,\n        grouped_shuffling=False,\n        update_epoch_batch_itr=False,\n        **kwargs,\n    ):\n\n        assert isinstance(dataset, OrderedDict)\n        assert len(dataset)\n        assert isinstance(dataset[next(iter(dataset))], FairseqDataset)\n\n        # initialize the dataset with the correct starting epoch\n        for _, dt in dataset.items():\n            dt.set_epoch(epoch)\n\n        indices = OrderedDict()\n        batch_sampler = OrderedDict()\n\n        with data_utils.numpy_seed(seed + epoch):\n            for key, dt in dataset.items():\n                logger.info(f\"\\t ordered_indices {key}\")\n                indices[key] = dt.ordered_indices()\n\n        # filter examples that are too large\n        if max_positions is not None:\n            for key, dt in dataset.items():\n                logger.info(f\"\\t filter_by_size {key}\")\n                indices[key], ignored = dt.filter_indices_by_size(\n                    indices[key], max_positions\n                )\n\n        for key, dt in dataset.items():\n            logger.info(f\"\\t batch_by_size {key}\")\n            batch_sampler[key] = data_utils.batch_by_size(\n                indices[key],\n                dt.num_tokens,\n                max_tokens=max_tokens,\n                max_sentences=max_sentences,\n                required_batch_size_multiple=required_batch_size_multiple,\n            )\n\n        epoch_iter = MultidatasetEpochBatchIterator(\n            dataset=dataset,\n            batch_sampler=batch_sampler,\n            seed=seed,\n            num_shards=num_shards,\n            shard_id=shard_id,\n            num_workers=num_workers,\n            epoch=epoch,\n        )\n\n        return epoch_iter\n"
  },
  {
    "path": "examples/laser/laser_src/laser_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nfrom typing import Any, Dict, List, Optional\nfrom torch import Tensor\n\nimport torch\nimport torch.nn as nn\n\nfrom fairseq.models import (\n    FairseqEncoderDecoderModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.transformer import (\n    base_architecture,\n    Embedding,\n    TransformerModel,\n    TransformerEncoder,\n    TransformerDecoder,\n)\nfrom fairseq.modules import (\n    TransformerDecoderLayer,\n)\n\nlogger = logging.getLogger(__name__)\n\n\n@register_model(\"laser_transformer\")\nclass LaserTransformerModel(FairseqEncoderDecoderModel):\n    \"\"\"Train Transformer for LASER task\n\n    Requires --task laser\n    \"\"\"\n\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths,\n        prev_output_tokens=None,\n        tgt_tokens=None,\n        tgt_lengths=None,\n        target_language_id=-1,\n        dataset_name=\"\",\n    ):\n        laser_encoder_out = self.encoder(src_tokens, src_lengths)\n        return self.decoder(\n            prev_output_tokens, laser_encoder_out, lang_id=target_language_id\n        )\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        TransformerModel.add_args(parser)\n        parser.add_argument(\n            \"--decoder-lang-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder language embedding dimension\",\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        base_laser_transformer_architecture(args)\n\n        num_langs = task.num_tasks if hasattr(task, \"num_tasks\") else 0\n\n        def load_embed_tokens(dictionary, embed_dim):\n            num_embeddings = len(dictionary)\n            padding_idx = dictionary.pad()\n\n            return Embedding(num_embeddings, embed_dim, padding_idx)\n\n        encoder_embed_tokens = load_embed_tokens(\n            task.source_dictionary, args.encoder_embed_dim\n        )\n        decoder_embed_tokens = load_embed_tokens(\n            task.target_dictionary, args.decoder_embed_dim\n        )\n        num_langs = task.num_tasks if hasattr(task, \"num_tasks\") else 0\n\n        encoder = LaserTransformerEncoder(\n            args, task.source_dictionary, encoder_embed_tokens\n        )\n\n        decoder = LaserTransformerDecoder(\n            args,\n            task.target_dictionary,\n            decoder_embed_tokens,\n            num_langs=num_langs,\n            lang_embed_dim=args.decoder_lang_embed_dim,\n        )\n\n        return cls(encoder, decoder)\n\n\nclass LaserTransformerEncoder(TransformerEncoder):\n    def __init__(self, *args, **kwargs):\n        super().__init__(*args, **kwargs)\n\n    def forward(self, src_tokens, *args, **kwargs):\n        encoder_out = super().forward(src_tokens, *args, **kwargs)\n\n        x = encoder_out[\"encoder_out\"][0]  # T x B x C\n        padding_mask = src_tokens.eq(self.padding_idx).t().unsqueeze(-1)\n\n        if padding_mask.any():\n            x = x.float().masked_fill_(padding_mask, float(\"-inf\")).type_as(x)\n\n        # Build the sentence embedding by max-pooling over the encoder outputs\n        sentemb = x.max(dim=0)[0]\n\n        # The Pytorch Mobile lite interpreter does not supports returning NamedTuple in\n        # `foward` so we use a dictionary instead.\n        # TorchScript does not support mixed values so the values are all lists.\n        # The empty list is equivalent to None.\n        return {\"sentemb\": [sentemb]}  # B x C\n\n    @torch.jit.export\n    def reorder_encoder_out(self, encoder_out: Dict[str, List[Tensor]], new_order):\n        \"\"\"\n        Same as the one in transformer.py, with new_sentemb\n        \"\"\"\n        if len(encoder_out[\"sentemb\"]) == 0:\n            new_sentemb = []\n        else:\n            new_sentemb = [encoder_out[\"sentemb\"][0].index_select(0, new_order)]\n\n        return {\n            \"sentemb\": new_sentemb,  # B x C\n        }\n\n\nclass LaserTransformerDecoder(TransformerDecoder):\n    def __init__(self, args, dictionary, *kargs, **kwargs):\n        self.num_langs = kwargs.get(\"num_langs\", 1)\n        self.lang_embed_dim = kwargs.get(\"lang_embed_dim\", 0)\n        kwargs.pop(\"num_langs\", None)\n        kwargs.pop(\"lang_embed_dim\", None)\n\n        super().__init__(args, dictionary, *kargs, **kwargs, no_encoder_attn=True)\n\n        if self.lang_embed_dim == 0:\n            self.embed_lang = None\n        else:\n            self.embed_lang = nn.Embedding(self.num_langs, self.lang_embed_dim)\n            nn.init.uniform_(self.embed_lang.weight, -0.1, 0.1)\n\n        if self.output_projection is not None:\n            laser_output_embed_dim = (\n                self.output_embed_dim + self.lang_embed_dim + args.encoder_embed_dim\n            )\n            self.output_projection = nn.Linear(\n                laser_output_embed_dim, len(dictionary), bias=False\n            )\n            nn.init.normal_(\n                self.output_projection.weight,\n                mean=0,\n                std=laser_output_embed_dim ** -0.5,\n            )\n\n    def build_decoder_layer(self, args, no_encoder_attn=False):\n        decoder_embed_dim = args.decoder_embed_dim\n        args.decoder_embed_dim = (\n            decoder_embed_dim + self.lang_embed_dim + args.encoder_embed_dim\n        )\n        res = TransformerDecoderLayer(args, no_encoder_attn=True)\n        args.decoder_embed_dim = decoder_embed_dim\n\n        return res\n\n    def extract_features(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]],\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n        lang_id: Optional[int] = None,\n    ):\n        \"\"\"\n        Similar to *forward* but only return features.\n\n        Includes several features from \"Jointly Learning to Align and\n        Translate with Transformer Models\" (Garg et al., EMNLP 2019).\n\n        Args:\n            full_context_alignment (bool, optional): don't apply\n                auto-regressive mask to self-attention (default: False).\n            alignment_layer (int, optional): return mean alignment over\n                heads at this layer (default: last layer).\n            alignment_heads (int, optional): only average alignment over\n                this many heads (default: all heads).\n\n        Returns:\n            tuple:\n                - the decoder's features of shape `(batch, tgt_len, embed_dim)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        if alignment_layer is None:\n            alignment_layer = self.num_layers - 1\n\n        # embed positions\n        positions = (\n            self.embed_positions(\n                prev_output_tokens, incremental_state=incremental_state\n            )\n            if self.embed_positions is not None\n            else None\n        )\n\n        if incremental_state is not None:\n            prev_output_tokens = prev_output_tokens[:, -1:]\n            if positions is not None:\n                positions = positions[:, -1:]\n\n        bsz, seqlen = prev_output_tokens.size()\n\n        # embed tokens and positions\n        x = self.embed_scale * self.embed_tokens(prev_output_tokens)\n\n        if self.quant_noise is not None:\n            x = self.quant_noise(x)\n\n        if self.project_in_dim is not None:\n            x = self.project_in_dim(x)\n\n        if positions is not None:\n            x += positions\n\n        if self.layernorm_embedding is not None:\n            x = self.layernorm_embedding(x)\n\n        x = self.dropout_module(x)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        if self.embed_lang is not None:\n            lang_ids = prev_output_tokens.data.new_full((bsz,), lang_id)\n            langemb = self.embed_lang(lang_ids)\n            langemb = langemb.unsqueeze(0)\n            repeat_vals = [x.shape[0] // langemb.shape[0]] + [-1] * (\n                len(langemb.shape) - 1\n            )\n            x = torch.cat((x, langemb.expand(*repeat_vals)), dim=-1)\n\n        sentemb = encoder_out[\"sentemb\"][0]\n        sentemb = sentemb.unsqueeze(0)\n\n        repeat_vals = [x.shape[0] // sentemb.shape[0]] + [-1] * (len(sentemb.shape) - 1)\n        x = torch.cat((x, sentemb.expand(*repeat_vals)), dim=-1)\n\n        self_attn_padding_mask: Optional[Tensor] = None\n        if self.cross_self_attention or prev_output_tokens.eq(self.padding_idx).any():\n            self_attn_padding_mask = prev_output_tokens.eq(self.padding_idx)\n\n        # decoder layers\n        attn: Optional[Tensor] = None\n        inner_states: List[Optional[Tensor]] = [x]\n        for idx, layer in enumerate(self.layers):\n            if incremental_state is None and not full_context_alignment:\n                self_attn_mask = self.buffered_future_mask(x)\n            else:\n                self_attn_mask = None\n\n            x, layer_attn, _ = layer(\n                x,\n                None,\n                None,\n                incremental_state,\n                self_attn_mask=self_attn_mask,\n                self_attn_padding_mask=self_attn_padding_mask,\n                need_attn=bool((idx == alignment_layer)),\n                need_head_weights=bool((idx == alignment_layer)),\n            )\n            inner_states.append(x)\n            if layer_attn is not None and idx == alignment_layer:\n                attn = layer_attn.float().to(x)\n\n        if attn is not None:\n            if alignment_heads is not None:\n                attn = attn[:alignment_heads]\n\n            # average probabilities over heads\n            attn = attn.mean(dim=0)\n\n        if self.layer_norm is not None:\n            x = self.layer_norm(x)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        if self.project_out_dim is not None:\n            x = self.project_out_dim(x)\n\n        return x, {\"attn\": [attn], \"inner_states\": inner_states}\n\n    def forward(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        features_only: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n        src_lengths: Optional[Any] = None,\n        return_all_hiddens: bool = False,\n        lang_id: Optional[int] = None,\n    ):\n        \"\"\"\n        Args:\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for teacher forcing\n            encoder_out (optional): output from the encoder, used for\n                encoder-side attention\n            incremental_state (dict): dictionary used for storing state during\n                :ref:`Incremental decoding`\n            features_only (bool, optional): only return features without\n                applying output layer (default: False).\n\n        Returns:\n            tuple:\n                - the decoder's output of shape `(batch, tgt_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n\n        assert lang_id is not None\n\n        x, extra = self.extract_features(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            incremental_state=incremental_state,\n            alignment_layer=alignment_layer,\n            alignment_heads=alignment_heads,\n            lang_id=lang_id,\n        )\n        if not features_only:\n            x = self.output_layer(x)\n        return x, extra\n\n\n@register_model_architecture(\"laser_transformer\", \"laser_transformer\")\ndef base_laser_transformer_architecture(args):\n    base_architecture(args)\n    args.decoder_lang_embed_dim = getattr(args, \"decoder_lang_embed_dim\", 0)\n"
  },
  {
    "path": "examples/laser/laser_src/multitask_data_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom collections import OrderedDict\n\nimport numpy as np\n\nfrom fairseq.data import BaseWrapperDataset, FairseqDataset, iterators\n\n\nclass MultiItr(object):\n    def __init__(self, itr):\n        self.itr = itr\n        self._counts = [0 for x in itr]\n\n    def __len__(self):\n        return sum(len(itr) for itr in self.itr)\n\n    def __iter__(self):\n        return self\n\n    def __next__(self):\n        ratios = [count / len(itr) for count, itr in zip(self._counts, self.itr)]\n        idx = ratios.index(min(ratios))\n        self._counts[idx] += 1\n        return next(self.itr[idx])\n\n\nclass MultidatasetEpochBatchIterator(iterators.EpochBatchIterating):\n    \"\"\"A wrapper around multiple epoch batch iterators.\"\"\"\n\n    def __init__(\n        self,\n        dataset,\n        batch_sampler,\n        seed=1,\n        num_shards=1,\n        shard_id=0,\n        num_workers=0,\n        epoch=1,\n    ):\n\n        assert isinstance(dataset, OrderedDict)\n        assert len(dataset)\n        assert isinstance(dataset[next(iter(dataset))], FairseqDataset)\n\n        self.iterators = []\n\n        self.epoch = epoch\n        for key, dt in dataset.items():\n            epoch_iter = iterators.EpochBatchIterator(\n                dataset=dt,\n                collate_fn=dt.collater,\n                batch_sampler=batch_sampler[key],\n                seed=seed,\n                num_shards=num_shards,\n                shard_id=shard_id,\n                num_workers=0,\n                epoch=epoch,\n            )\n            self.iterators.append(epoch_iter)\n\n    def __len__(self):\n        return sum(len(itr) for itr in self.iterators)\n\n    def next_epoch_itr(self, shuffle=True, fix_batches_to_gpus=False):\n        # `self.epoch += 1` should be handled by underlying `EpochBatchIterator`s.\n        return MultiItr(\n            [\n                itr.next_epoch_itr(\n                    shuffle=shuffle, fix_batches_to_gpus=fix_batches_to_gpus\n                )\n                for itr in self.iterators\n            ]\n        )\n\n    def end_of_epoch(self):\n        return all(itr.end_of_epoch() for itr in self.iterators)\n\n    @property\n    def next_epoch_idx(self):\n        \"\"\"Return the epoch index after *next_epoch_itr* is called.\"\"\"\n\n        epochs = [itr.next_epoch_idx for itr in self.iterators]\n        self.epoch = epochs[0]\n        assert all(epoch == self.epoch for epoch in epochs)\n\n        return self.epoch\n\n    @property\n    def iterations_in_epoch(self):\n        return sum(itr.iterations_in_epoch for itr in self.iterators)\n\n    def state_dict(self):\n        return {\n            \"iterators\": [it.state_dict() for it in self.iterators],\n            \"epoch\": self.epoch,\n        }\n\n    def load_state_dict(self, state_dict):\n        self.epoch = state_dict[\"epoch\"]\n        for it, d in zip(self.iterators, state_dict[\"iterators\"]):\n            it.load_state_dict(d)\n\n\nclass MultitaskDatasetWrapper(BaseWrapperDataset):\n    \"\"\"A wrapper for a multitask dataset.\"\"\"\n\n    def __init__(self, dataset, target_language_id, sample=1.0, name=\"\"):\n        super().__init__(dataset)\n        self.target_language_id = target_language_id\n        self.sample = sample\n        self.name = name\n\n    def collater(self, *args, **kwargs):\n        ans = self.dataset.collater(*args, **kwargs)\n        if \"net_input\" in ans:\n            ans[\"net_input\"][\"target_language_id\"] = self.target_language_id\n            ans[\"net_input\"][\"dataset_name\"] = self.name\n        return ans\n\n    def num_tokens(self, *args, **kwargs):\n        return self.dataset.num_tokens(*args, **kwargs)\n\n    def ordered_indices(self, *args, **kwargs):\n        indices = self.dataset.ordered_indices(*args, **kwargs)\n        # Hacky solution for sampling\n        size = int(self.sample * indices.shape[0])\n\n        return indices.take(np.sort(np.random.permutation(indices.shape[0])[:size]))\n\n    def size(self, index: int):\n        return self.dataset.size(index)\n\n    @property\n    def supports_prefetch(self):\n        \"\"\"Whether this dataset supports prefetching.\"\"\"\n        return getattr(self.dataset, \"supports_prefetch\", False)\n\n    def prefetch(self, indices):\n        return self.dataset.prefetch(indices)\n"
  },
  {
    "path": "examples/latent_depth/README.md",
    "content": "# Deep Transformers with Latent Depth (Li et al., 2020)\n\n[https://arxiv.org/abs/2009.13102](https://arxiv.org/abs/2009.13102).\n\n## Introduction\n\nWe present a probabilistic framework to automatically learn which layer(s) to use by learning the posterior distributions of layer selection. As an extension of this framework, we propose a novel method to train one shared Transformer network for multilingual machine translation with different layer selection posteriors for each language pair.\n\n## Training a multilingual model with latent depth\n\nBelow is an example of training with latent depth in decoder for one-to-many (O2M) related languages. We use the same preprocessed (numberized and binarized) TED8 dataset as in [Balancing Training for Multilingual Neural Machine Translation (Wang et al., 2020)](https://github.com/cindyxinyiwang/multiDDS), which could be generated by [the script](https://github.com/cindyxinyiwang/multiDDS/blob/multiDDS/util_scripts/prepare_multilingual_data.sh) the author provided.\n```bash\nlang_pairs_str=\"eng-aze,eng-bel,eng-ces,eng-glg,eng-por,eng-rus,eng-slk,eng-tur\"\ndatabin_dir=<path to binarized data>\n\nfairseq-train ${databin_dir} \\\n  --user-dir examples/latent_depth/latent_depth_src \\\n  --lang-pairs \"${lang_pairs_str}\" \\\n  --arch multilingual_transformer_iwslt_de_en \\\n  --task multilingual_translation_latent_depth \\\n  --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n  --share-encoders \\\n  --share-decoders \\\n  --decoder-langtok \\\n  --share-decoder-input-output-embed \\\n  --dropout 0.3 --attention-dropout 0.3 \\\n  --optimizer adam --adam-eps 1e-06 --adam-betas '(0.9, 0.98)' \\\n  --lr-scheduler inverse_sqrt --stop-min-lr 1e-9 --warmup-init-lr 1e-7 --warmup-updates 8000 \\\n  --max-tokens 4096 --update-freq 1  \\\n  --lr 0.0015 \\\n  --clip-norm 1.0 \\\n  --seed 2 \\\n  --ddp-backend=legacy_ddp \\\n  --encoder-layers 12 \\\n  --decoder-layers 24 \\\n  --decoder-latent-layer \\\n  --sparsity-weight 0.1 \\\n  --anneal-updates 5000 \\\n  --soft-update 500  \\\n  --target-layers 12 \\\n  --share-weight 0.1\n```\n## Inference command\n\n```bash\nlang_pairs_str=\"eng-aze,eng-bel,eng-ces,eng-glg,eng-por,eng-rus,eng-slk,eng-tur\"\ndatabin_dir=<path to binarized data>\nmodel_path=<path to checkpoint>\nsrc_lang=<source language to translate from>\ntgt_lang=<target language to translate to>\ngen_data=<name of data split, e.g. valid, test, etc>\n\nfairseq-generate ${databin_dir} \\\n  --path ${model_path} \\\n  --task multilingual_translation_latent_depth \\\n  --decoder-latent-layer \\\n  --lang-pairs \"${lang_pairs_str}\" \\\n  -s ${src_lang} -t ${tgt_lang} \\\n  --gen-subset $gen_data \\\n  --scoring sacrebleu \\\n  --remove-bpe 'sentencepiece' \\\n  --lenpen 1.0 \\\n  --beam 5  \\\n  --decoder-langtok \\\n  --max-tokens 4096\n```\n\n\n## Citation\n```bibtex\n@article{li2020deep,\n  title={Deep Transformers with Latent Depth},\n  author={Li, Xian and Stickland, Asa Cooper and Tang, Yuqing and Kong, Xiang},\n  journal={arXiv preprint arXiv:2009.13102},\n  year={2020}\n}\n```\n"
  },
  {
    "path": "examples/latent_depth/latent_depth_src/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import multilingual_translation_latent_depth  # noqa\nfrom .loss import latent_depth  # noqa\nfrom .models import latent_multilingual_transformer  # noqa\nfrom .modules import latent_layers  # noqa\n"
  },
  {
    "path": "examples/latent_depth/latent_depth_src/loss/__init__.py",
    "content": ""
  },
  {
    "path": "examples/latent_depth/latent_depth_src/loss/latent_depth.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\nfrom torch.nn.modules.loss import _Loss\n\n\nclass LatentLayersKLLoss(_Loss):\n    def __init__(self, args):\n        super().__init__()\n        self.args = args\n\n    def forward(self, layer_samples, lang_idx, update_num, sample_size):\n        prior = self.args.prior\n        samples = layer_samples[lang_idx]\n        eps = 1e-7\n        if prior == \"uniform\":\n            # uniform prior\n            kl_loss = (samples * (torch.log(samples + eps) - math.log(0.5))).sum(-1)\n        elif prior == \"agged_posterior\":\n            # aggregated posterior\n            y_t = torch.stack([x.detach() for x in layer_samples], dim=0)\n            agged_q = torch.sum(y_t, dim=0)\n            row_norm = agged_q.sum(-1)\n            normed_agg_q = agged_q / row_norm\n            kl_loss = (\n                samples * (torch.log(samples + eps) - torch.log(normed_agg_q + eps))\n            ).sum(-1)\n        else:\n            raise NotImplementedError(\"The specified prior is not implemented.\")\n\n        # normalized by number of layers\n        kl_loss /= layer_samples[0].size()[0]\n        kl_weight = min(\n            self.args.sparsity_weight,\n            (update_num - self.args.soft_update)\n            * self.args.sparsity_weight\n            / self.args.anneal_updates,\n        )\n        kl_loss *= kl_weight * sample_size\n        return kl_loss\n\n\nclass LatentLayersSparsityLoss(_Loss):\n    def __init__(self, args):\n        super().__init__()\n        self.args = args\n\n    def is_valid(self, update_num):\n        if self.args.target_layers <= 0:\n            return False\n        return update_num > (self.args.soft_update + self.args.anneal_updates)\n\n    def forward(self, layer_samples_list, update_num, sample_size):\n        batch_loss = 0\n        share_loss = 0\n        global_sparsity_loss = 0\n        layer_samples = torch.stack(layer_samples_list, dim=0)\n        if (\n            self.args.target_layers > 0 or self.args.share_weight > 0\n        ) and update_num > (self.args.soft_update + self.args.anneal_updates):\n            # anneal sparsity weight\n            if update_num < (self.args.anneal_updates + self.args.soft_update):\n                weight_anneal = 0\n            elif update_num < (2 * self.args.anneal_updates + self.args.soft_update):\n                weight_anneal = (\n                    (update_num - self.args.soft_update - self.args.anneal_updates)\n                    * self.args.share_weight\n                    / self.args.anneal_updates\n                )\n            else:\n                weight_anneal = 1\n            # compute ratio among languages\n            layer_utilization = torch.sum(layer_samples, dim=0)\n            layer_utilization /= layer_samples.size()[0]\n            if self.args.share_weight > 0:\n                # encouraging sharing across languages\n                share_loss = sum(\n                    -1.0 * v * math.log(v) for v in layer_utilization if v > 0\n                )\n                batch_loss += (\n                    weight_anneal * self.args.share_weight * sample_size * share_loss\n                )\n            if self.args.target_layers > 0:\n                # computed expected number of layers selected\n                expeted_layers = sum(layer_utilization)\n                # compute l2 loss wrt target number of layers\n                global_sparsity_loss = (expeted_layers - self.args.target_layers) ** 2\n                batch_loss += (\n                    weight_anneal\n                    * self.args.share_weight\n                    * sample_size\n                    * global_sparsity_loss\n                )\n        return batch_loss\n"
  },
  {
    "path": "examples/latent_depth/latent_depth_src/models/__init__.py",
    "content": ""
  },
  {
    "path": "examples/latent_depth/latent_depth_src/models/latent_multilingual_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.multilingual_transformer import MultilingualTransformerModel\nfrom fairseq.models.transformer import (\n    TransformerDecoder,\n    TransformerEncoder,\n    base_architecture,\n)\nfrom fairseq.utils import safe_hasattr\n\nfrom .latent_transformer import LatentTransformerDecoder, LatentTransformerEncoder\n\n\n@register_model(\"latent_multilingual_transformer\")\nclass LatentMultilingualTransformerModel(MultilingualTransformerModel):\n    \"\"\"A variant of standard multilingual Transformer models which encoder and/or\n    decoders supports latent depth, as is in \"Deep Transformer with Latent Depth\"\n    (https://arxiv.org/abs/2009.13102).\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        MultilingualTransformerModel.add_args(parser)\n        parser.add_argument(\n            '--soft-select',\n            action='store_true',\n            help='use soft samples in training an inference',\n        )\n        parser.add_argument(\n            '--sampling-tau',\n            type=float,\n            default=5.,\n            help='sampling temperature',\n        )\n\n    @classmethod\n    def _get_module_class(cls, is_encoder, args, lang_dict, embed_tokens, langs):\n        if is_encoder:\n            if safe_hasattr(args, \"encoder_latent_layer\") and args.encoder_latent_layer:\n                return LatentTransformerEncoder(\n                    args, lang_dict, embed_tokens, num_logits=len(langs)\n                )\n            else:\n                return TransformerEncoder(args, lang_dict, embed_tokens)\n        else:\n            if safe_hasattr(args, \"decoder_latent_layer\") and args.decoder_latent_layer:\n                return LatentTransformerDecoder(\n                    args, lang_dict, embed_tokens, num_logits=len(langs)\n                )\n            else:\n                return TransformerDecoder(args, lang_dict, embed_tokens)\n\n\n@register_model_architecture(\n    \"latent_multilingual_transformer\", \"latent_multilingual_transformer\"\n)\ndef latent_multilingual_architecture(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 1024)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 12)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 1024)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 4)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 24)\n    args.share_encoders = getattr(args, \"share_encoders\", True)\n    args.share_decoders = getattr(args, \"share_decoders\", True)\n    args.share_encoder_embeddings = getattr(args, \"share_encoder_embeddings\", True)\n    args.share_decoder_embeddings = getattr(args, \"share_decoder_embeddings\", True)\n\n    base_architecture(args)\n"
  },
  {
    "path": "examples/latent_depth/latent_depth_src/models/latent_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Any, Dict, Optional\n\nimport torch.nn as nn\nfrom fairseq.models.fairseq_encoder import EncoderOut\nfrom fairseq.models.transformer import TransformerDecoder, TransformerEncoder\nfrom fairseq.modules import TransformerDecoderLayer, TransformerEncoderLayer\nfrom torch import Tensor\n\nfrom ..modules.latent_layers import LayerSelect\n\n\nclass LatentTransformerEncoder(TransformerEncoder):\n    \"\"\"Latent depth (https://arxiv.org/abs/2009.13102) implemented in\n    TransformerEncoder.\n    \"\"\"\n\n    def __init__(self, args, dictionary, embed_tokens, num_logits=1):\n        self.num_logits = num_logits\n        self.num_layers = args.encoder_layers\n        super().__init__(args, dictionary, embed_tokens)\n        self.layer_select = LayerSelect(\n            num_layers=self.num_layers,\n            num_logits=self.num_logits,\n            soft_select=getattr(args, \"soft_select\", False),\n            sampling_tau=getattr(args, \"sampling_tau\", 5.),\n        )\n        self.lang_idx = None\n        self.layers = nn.ModuleList(\n            [self._build_encoder_layer(args, idx) for idx in range(args.encoder_layers)]\n        )\n\n    def set_lang_idx(self, lang_idx):\n        self.lang_idx = lang_idx\n\n    def _build_encoder_layer(self, args, idx=None):\n        return LatentTransformerEncoderLayer(args, idx, layer_select=self.layer_select)\n\n    def forward(self, src_tokens, src_lengths, return_all_hiddens: bool = False):\n        self.layer_select.sample(self.lang_idx)\n        return super().forward(src_tokens, src_lengths, return_all_hiddens)\n\n\nclass LatentTransformerEncoderLayer(TransformerEncoderLayer):\n    \"\"\"Encoder layer with each (non_residual) block weighted by samples of Bernouli\n    or Gumbel Signmoid samples.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments from standard\n            TransformerEncoderLayer.\n        idx (int): layer index (used to retrieve samples).\n        layer_select (LayerSelect, optional): instance of LayerSelect module with logits\n            parameters and sampling method.\n    \"\"\"\n\n    def __init__(self, args, idx, layer_select=None):\n        super().__init__(args)\n        self.idx = idx\n        self.layer_select = layer_select\n\n    def residual_connection(self, x, residual):\n        return residual + x * self.layer_select(self.idx)\n\n\nclass LatentTransformerDecoder(TransformerDecoder):\n    \"\"\"Latent depth (https://arxiv.org/abs/2009.13102) implemented in\n    TransformerDecoder.\n    \"\"\"\n\n    def __init__(\n        self, args, dictionary, embed_tokens, no_encoder_attn=False, num_logits=1\n    ):\n        self.num_logits = num_logits\n        self.num_layers = args.decoder_layers\n        super().__init__(\n            args, dictionary, embed_tokens, no_encoder_attn=no_encoder_attn\n        )\n        self.layer_select = LayerSelect(\n            num_layers=self.num_layers,\n            num_logits=self.num_logits,\n            soft_select=getattr(args, \"soft_select\", False),\n            sampling_tau=getattr(args, \"sampling_tau\", 5.),\n        )\n        self.lang_idx = None\n        self.layers = nn.ModuleList(\n            [\n                self._build_decoder_layer(args, no_encoder_attn, idx)\n                for idx in range(args.decoder_layers)\n            ]\n        )\n\n    def set_lang_idx(self, lang_idx):\n        self.lang_idx = lang_idx\n\n    def _build_decoder_layer(self, args, no_encoder_attn=False, idx=None):\n        return LatentTransformerDecoderLayer(\n            args, idx, layer_select=self.layer_select, no_encoder_attn=no_encoder_attn\n        )\n\n    def forward(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[EncoderOut] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        features_only: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n        src_lengths: Optional[Any] = None,\n        return_all_hiddens: bool = False,\n    ):\n        self.layer_select.sample(self.lang_idx)\n        return super().forward(\n            prev_output_tokens=prev_output_tokens,\n            encoder_out=encoder_out,\n            incremental_state=incremental_state,\n            features_only=features_only,\n            alignment_layer=alignment_layer,\n            src_lengths=src_lengths,\n            return_all_hiddens=return_all_hiddens,\n        )\n\n\nclass LatentTransformerDecoderLayer(TransformerDecoderLayer):\n    \"\"\"Decoder layer with each (non_residual) block weighted by samples of Bernouli\n    or Gumbel Signmoid samples.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments from standard\n            TransformerDecoderLayer.\n        idx (int): layer index (used to retrieve samples).\n        layer_select (LayerSelect, optional): instance of LayerSelect module with logits\n            parameters and sampling method.\n        no_encoder_attn (bool, optional): whether to attend to encoder outputs\n            (default: False).\n\n    \"\"\"\n\n    def __init__(\n        self,\n        args,\n        idx,\n        layer_select=None,\n        no_encoder_attn=False,\n        add_bias_kv=False,\n        add_zero_attn=False,\n    ):\n        super().__init__(args, no_encoder_attn, add_bias_kv, add_zero_attn)\n        self.idx = idx\n        self.layer_select = layer_select\n\n    def residual_connection(self, x, residual):\n        return residual + x * self.layer_select(self.idx)\n"
  },
  {
    "path": "examples/latent_depth/latent_depth_src/modules/__init__.py",
    "content": ""
  },
  {
    "path": "examples/latent_depth/latent_depth_src/modules/latent_layers.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\n\n\nclass LayerSelect(nn.Module):\n    \"\"\"Compute samples (from a Gumbel-Sigmoid distribution) which is used as\n    either (soft) weighting or (hard) selection of residual connection.\n    https://arxiv.org/abs/2009.13102\n    \"\"\"\n    def __init__(self, num_layers, num_logits, soft_select=False, sampling_tau=5.):\n        super(LayerSelect, self).__init__()\n        self.layer_logits = torch.nn.Parameter(\n            torch.Tensor(num_logits, num_layers),\n            requires_grad=True,\n        )\n        self.hard_select = not soft_select\n        self.tau = sampling_tau\n        self.detach_grad = False\n        self.layer_samples = [None] * num_logits\n\n    def sample(self, logit_idx):\n        \"\"\"To leverage the efficiency of distributed training, samples for all\n        layers are computed at once for each logit_idx. Logits are parameters\n        learnt independent of each other.\n\n        Args:\n            logit_idx: The index of logit parameters used for sampling.\n        \"\"\"\n        assert logit_idx is not None\n        self.samples = self._gumbel_sigmoid(\n            self.layer_logits[logit_idx, :].detach()\n            if self.detach_grad\n            else self.layer_logits[logit_idx, :],\n            dim=-1,\n            tau=self.tau,\n            hard=self.hard_select,\n        )\n        self.layer_samples[logit_idx] = self.samples\n\n    def forward(self, i):\n        sample = self.samples[i]\n        return sample\n\n    def _gumbel_sigmoid(\n        self, logits, tau=1, hard=False, eps=1e-10, dim=-1, threshold=0.5\n    ):\n        # ~Gumbel(0,1)\n        gumbels1 = (\n            -torch.empty_like(logits, memory_format=torch.legacy_contiguous_format)\n            .exponential_()\n            .log()\n        )\n        gumbels2 = (\n            -torch.empty_like(logits, memory_format=torch.legacy_contiguous_format)\n            .exponential_()\n            .log()\n        )\n        # Difference of two gumbels because we apply a sigmoid\n        gumbels1 = (logits + gumbels1 - gumbels2) / tau\n        y_soft = gumbels1.sigmoid()\n        if hard:\n            # Straight through.\n            y_hard = torch.zeros_like(\n                logits, memory_format=torch.legacy_contiguous_format\n            ).masked_fill(y_soft > threshold, 1.0)\n            ret = y_hard - y_soft.detach() + y_soft\n        else:\n            # Reparametrization trick.\n            ret = y_soft\n        return ret\n"
  },
  {
    "path": "examples/latent_depth/latent_depth_src/multilingual_translation_latent_depth.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.tasks import register_task\nfrom fairseq.tasks.multilingual_translation import MultilingualTranslationTask\nfrom fairseq.utils import safe_hasattr\n\nfrom .loss.latent_depth import LatentLayersKLLoss, LatentLayersSparsityLoss\n\n\n@register_task(\"multilingual_translation_latent_depth\")\nclass MultilingualTranslationTaskLatentDepth(MultilingualTranslationTask):\n    \"\"\"A task for multiple translation with latent depth.\n\n    See `\"Deep Transformer with Latent Depth\"\n        (Li et al., 2020) <https://arxiv.org/pdf/2009.13102.pdf>`_.\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        # fmt: off\n        MultilingualTranslationTask.add_args(parser)\n        parser.add_argument('--encoder-latent-layer', action='store_true', help='latent layer selection in encoder')\n        parser.add_argument('--decoder-latent-layer', action='store_true', help='latent layer selection in decoder')\n        parser.add_argument('--target-layers', default=-1, type=int,\n                            help='number of effective layers to learn; -1 means no constraint')\n        parser.add_argument('--sparsity-weight', default=0.0, type=float,\n                            help='weight for sparsity loss')\n        parser.add_argument('--share-weight', default=0.0, type=float,\n                            help='weight for sharing loss')\n        parser.add_argument('--soft-update', default=1, type=int,\n                            help='number of updates with soft sampling')\n        parser.add_argument('--anneal-updates', default=1, type=int,\n                            help='number of updates to anneal the KL loss weight')\n        parser.add_argument('--prior', default=\"uniform\", type=str,\n                            help='prior used for computing KL loss')\n        # fmt: on\n\n    def __init__(self, args, dicts, training):\n        super().__init__(args, dicts, training)\n        self.src_langs, self.tgt_langs = zip(\n            *[(lang.split(\"-\")[0], lang.split(\"-\")[1]) for lang in args.lang_pairs]\n        )\n        if self.training and self.encoder_latent_layer:\n            assert self.args.share_encoders\n        if self.training and self.decoder_latent_layer:\n            assert self.args.share_decoders\n        if training or self.encoder_latent_layer or self.decoder_latent_layer:\n            self.lang_pairs = args.lang_pairs\n        else:\n            self.lang_pairs = [\"{}-{}\".format(args.source_lang, args.target_lang)]\n        self.eval_lang_pairs = self.lang_pairs\n        self.model_lang_pairs = self.lang_pairs\n        if self.training and (self.encoder_latent_layer or self.decoder_latent_layer):\n            self.kl_loss = LatentLayersKLLoss(self.args)\n            self.sparsity_loss = LatentLayersSparsityLoss(self.args)\n\n    def _per_lang_pair_train_loss(\n        self, lang_pair, model, update_num, criterion, sample, optimizer, ignore_grad\n    ):\n        src, tgt = lang_pair.split(\"-\")\n        if self.encoder_latent_layer:\n            src_lang_idx = self.src_lang_idx_dict[src]\n            model.models[lang_pair].encoder.set_lang_idx(src_lang_idx)\n            model.models[lang_pair].encoder.layer_select.hard_select = (\n                update_num > self.args.soft_update\n            )\n        if self.decoder_latent_layer:\n            tgt_lang_idx = self.tgt_lang_idx_dict[tgt]\n            model.models[lang_pair].decoder.set_lang_idx(tgt_lang_idx)\n            model.models[lang_pair].decoder.layer_select.hard_select = (\n                update_num > self.args.soft_update\n            )\n\n        loss, sample_size, logging_output = criterion(\n            model.models[lang_pair], sample[lang_pair]\n        )\n        if self.encoder_latent_layer:\n            none_samples = sum(\n                1 if x is None else 0\n                for x in model.models[lang_pair].encoder.layer_select.layer_samples\n            )\n            if none_samples == 0 or self.args.prior != \"agged_posterior\":\n                loss += self.kl_loss(\n                    model.models[lang_pair].encoder.layer_select.layer_samples,\n                    src_lang_idx,\n                    update_num,\n                    sample_size,\n                )\n        if self.decoder_latent_layer:\n            none_samples = sum(\n                1 if x is None else 0\n                for x in model.models[lang_pair].decoder.layer_select.layer_samples\n            )\n            if none_samples == 0 or self.args.prior != \"agged_posterior\":\n                loss += self.kl_loss(\n                    model.models[lang_pair].decoder.layer_select.layer_samples,\n                    tgt_lang_idx,\n                    update_num,\n                    sample_size,\n                )\n        if ignore_grad:\n            loss *= 0\n\n        if hasattr(self, \"sparsity_loss\") and self.sparsity_loss.is_valid(update_num):\n            # need to retain the graph if sparsity loss needs to be added\n            loss.backward(retain_graph=True)\n        else:\n            optimizer.backward(loss)\n\n        return loss, sample_size, logging_output\n\n    def train_step(\n        self, sample, model, criterion, optimizer, update_num, ignore_grad=False\n    ):\n        agg_loss, agg_sample_size, agg_logging_output = super().train_step(\n            sample, model, criterion, optimizer, update_num, ignore_grad\n        )\n        # compute auxiliary loss from layere sparsity, based on all samples from all languages\n        if hasattr(self, \"sparsity_loss\") and self.sparsity_loss.is_valid(update_num):\n            sparsity_loss = 0\n            if self.encoder_latent_layer:\n                sparsity_loss += self.sparsity_loss(\n                    next(\n                        iter(model.models.values())\n                    ).encoder.layer_select.layer_samples,\n                    update_num,\n                    agg_sample_size,\n                )\n            if self.decoder_latent_layer:\n                sparsity_loss += self.sparsity_loss(\n                    next(\n                        iter(model.models.values())\n                    ).decoder.layer_select.layer_samples,\n                    update_num,\n                    agg_sample_size,\n                )\n            if sparsity_loss > 0:\n                optimizer.backward(sparsity_loss)\n        return agg_loss, agg_sample_size, agg_logging_output\n\n    def _per_lang_pair_valid_loss(self, lang_pair, model, criterion, sample):\n        src, tgt = lang_pair.split(\"-\")\n        if self.encoder_latent_layer:\n            src_lang_idx = self.src_lang_idx_dict[src]\n            model.models[lang_pair].encoder.set_lang_idx(src_lang_idx)\n        if self.decoder_latent_layer:\n            tgt_lang_idx = self.tgt_lang_idx_dict[tgt]\n            model.models[lang_pair].decoder.set_lang_idx(tgt_lang_idx)\n        loss, sample_size, logging_output = criterion(\n            model.models[lang_pair], sample[lang_pair]\n        )\n        return loss, sample_size, logging_output\n\n    def inference_step(\n        self, generator, models, sample, prefix_tokens=None, constraints=None\n    ):\n        if self.encoder_latent_layer or self.decoder_latent_layer:\n            for model in models:\n                if self.encoder_latent_layer:\n                    assert model.encoder.layer_select is not None\n                    src_lang_idx = self.src_lang_idx_dict[self.args.source_lang]\n                    model.encoder.set_lang_idx(src_lang_idx)\n                if self.decoder_latent_layer:\n                    assert model.decoder.layer_select is not None\n                    tgt_lang_idx = self.tgt_lang_idx_dict[self.args.target_lang]\n                    model.decoder.set_lang_idx(tgt_lang_idx)\n        return super().inference_step(\n            generator, models, sample, prefix_tokens, constraints\n        )\n\n    @property\n    def encoder_latent_layer(self):\n        return (\n            safe_hasattr(self.args, \"encoder_latent_layer\")\n            and self.args.encoder_latent_layer\n        )\n\n    @property\n    def decoder_latent_layer(self):\n        return (\n            safe_hasattr(self.args, \"decoder_latent_layer\")\n            and self.args.decoder_latent_layer\n        )\n\n    @property\n    def src_lang_idx_dict(self):\n        return {lang: lang_idx for lang_idx, lang in enumerate(self.src_langs)}\n\n    @property\n    def tgt_lang_idx_dict(self):\n        return {lang: lang_idx for lang_idx, lang in enumerate(self.tgt_langs)}\n"
  },
  {
    "path": "examples/layerdrop/README.md",
    "content": "# Reducing Transformer Depth on Demand with Structured Dropout (Fan et al., 2019)\nThis page contains information for how to train models with LayerDrop, based on this [paper](https://arxiv.org/abs/1909.11556).\n\n## Citation:\nIf you found this technique useful, please cite our paper:\n```bibtex\n@article{fan2019reducing,\n  title={Reducing Transformer Depth on Demand with Structured Dropout},\n  author={Fan, Angela and Grave, Edouard and Joulin, Armand},\n  journal={arXiv preprint arXiv:1909.11556},\n  year={2019}\n}\n```\n\n## Pre-trained models\n\nModel | Description | Download\n---|---|---\n`layerdrop_wmt_en_de_12_6` | Transformer + LayerDrop 0.2 trained on WMT16 en-de with 12 encoder and 6 decoder layers | [layerdrop_wmt_en_de_12_6.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/layerdrop_wmt_en_de_12_6.tar.gz)\n`roberta_layerdrop.base` | RoBERTa Base + LayerDrop 0.2 | [roberta_layerdrop.base.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/roberta_layerdrop.base.qnli.tar.gz)\n`roberta_layerdrop.large` | RoBERTa Large + LayerDrop 0.2 | [roberta_layerdrop.large.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/roberta_layerdrop.large.tar.gz)\n`roberta_layerdrop.large.mnli` | `roberta_layerdrop.large` finetuned on [MNLI](http://www.nyu.edu/projects/bowman/multinli) | [roberta_layerdrop.large.mnli.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/roberta_layerdrop.large.mnli.tar.gz)\n`roberta_layerdrop.large.qnli` | `roberta_layerdrop.large` finetuned on [QNLI](https://arxiv.org/abs/1804.07461) | [roberta_layerdrop.large.mnli.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/roberta_layerdrop.large.qnli.tar.gz)\n\n\nEvaluate performance of these pre-trained models:\n```bash\n# Example for Machine Translation\nfairseq-generate /path/to/bped/wmt/data --path nmt_checkpoint.pt \\\n  --beam 8 --lenpen 0.4 \\\n  --batch-size 64 \\\n  --remove-bpe \\\n  --gen-subset test > wmt16_gen.txt\nbash scripts/compound_split_bleu.sh wmt16_gen.txt\n# prints BLEU4 = 30.17\n```\n\n```python\n# Example for RoBERTa + LayerDrop finetuned on MNLI:\nfrom fairseq.models.roberta import RobertaModel\n\nroberta_layerdrop = RobertaModel.from_pretrained(\n    '/path/to/MNLI/model',\n    checkpoint_file='mnli_checkpoint.pt',\n    data_name_or_path='/path/to/MNLI/data/MNLI-bin'\n)\nlabel_map = {0: 'contradiction', 2: 'neutral', 1: 'entailment'}\nncorrect, nsamples = 0, 0\nroberta_layerdrop.cuda()\nroberta_layerdrop.eval()\nwith open('/path/to/MNLI/data/dev_matched.tsv') as fin:\n    fin.readline()\n    for index, line in enumerate(fin):\n        tokens = line.strip().split('\\t')\n        sent1, sent2, target = tokens[8], tokens[9], tokens[-1]\n        tokens = roberta_layerdrop.encode(sent1, sent2)\n        prediction = roberta_layerdrop.predict('sentence_classification_head', tokens).argmax().item()\n        prediction_label = label_map[prediction]\n        ncorrect += int(prediction_label == target)\n        nsamples += 1\nprint('| Accuracy: ', float(ncorrect)/float(nsamples))\n# prints | Accuracy:  0.9026999490575649\n\n\n# Example for RoBERTa + LayerDrop finetuned on QNLI:\nroberta = RobertaModel.from_pretrained(\n    '/path/to/QNLI/model',\n    checkpoint_file='qnli_checkpoint.pt',\n    data_name_or_path='/path/to/QNLI/data/QNLI-bin'\n)\n\nlabel_fn = lambda label: roberta.task.label_dictionary.string(\n    [label + roberta.task.target_dictionary.nspecial]\n)\nncorrect, nsamples = 0, 0\nroberta.cuda()\nroberta.eval()\nwith open('/path/to/QNLI/data/dev.tsv') as fin:\n    fin.readline()\n    for index, line in enumerate(fin):\n        tokens = line.strip().split('\\t')\n        sent1, sent2, target = tokens[1], tokens[2], tokens[3]\n        tokens = roberta.encode(sent1, sent2)\n        prediction = roberta.predict('sentence_classification_head', tokens).argmax().item()\n        prediction_label = label_fn(prediction)\n        ncorrect += int(prediction_label == target)\n        nsamples += 1\nprint('| Accuracy: ', float(ncorrect)/float(nsamples))\n# prints | Accuracy:  0.9480139117700896\n```\n\n\n## Example usage\n\nTo train a model with LayerDrop, add the following flags. We recommend 0.2, a value that worked well in our experiments. For Language Models that are decoder-only, you need only the decoder flag. For RoBERTa, an encoder, you need only the encoder flag. The encoder and decoder LayerDrop values can be set differently.\n```\n--encoder-layerdrop 0.2 --decoder-layerdrop 0.2\n```\n\nTo prune a model that has been trained with LayerDrop, add the following flags followed by a comma separated list of which layers you would like to keep.\n```\n--encoder-layers-to-keep 0,2,4,6,8,10,12,14 --decoder-layers-to-keep 0,2,4,6,8,10,12,14\n```\nSetting these flags should print a message such as:\n```\n| Pruning model to specified layer configuration\n```\nYou should also see a smaller number of parameters in the model, for example the 16-Layer Transformer Language Model prints:\n```\nnum. model params: 246933504\n```\nwhile a model pruned to 8 Layers prints:\n```\nnum. model params: 146163712\n```\n\nIf you would like to pick up training with a model that has been pruned, simply adding these flags is sufficient. If you would like to use a script that only does evaluation (no training), you may need to pass an override command. A specific example would be for language modeling:\n```bash\nfairseq-eval-lm /path/to/wikitext-103 \\\n  --path /path/to/model/checkpoint.pt \\\n  --model-overrides \"{'decoder_layers_to_keep':'0,2,4,6,8,10,12,14'}\"\n```\nThis model override command overrides the training parameters and updates the model arguments so that the pruned model is run instead of the full model.\n\n## Reproduce Paper Results\n\nLooking to reproduce the results in the paper?\n\n1. For Translation on WMT16 en-de, we followed this setting [here](https://github.com/pytorch/fairseq/blob/main/examples/scaling_nmt/README.md)\n2. To train RoBERTa, we followed this setting [here](https://github.com/pytorch/fairseq/tree/main/examples/roberta)\n3. To train Language Models on Wikitext-103, we followed this setting [here](https://github.com/pytorch/fairseq/tree/main/examples/language_model)\n\n\n## Tips\n\n1. If you would like to train large models with better performance, LayerDrop should be set to a smaller value such as 0.1 or 0.2. Too much LayerDrop will mean the model has too much regularization, so may not reach the best performance. Since LayerDrop adds regularization, you may achieve the best performance by slightly reducing the amount of standard dropout (for example, reduce by 0.1).\n\n2. If you would like to train large models to be pruned and made smaller, LayerDrop should be set to a larger value such as 0.5 if you want to prune very aggressively (such as removing half the network or more). If you would like to prune fewer layers away, LayerDrop can be set to a smaller value such as 0.2. Our experiments were conducted with low values of LayerDrop (such as 0.1 and 0.2), for reference.\n\n3. When pruning layers at inference time, it is best to spread out the layers remaining so they are evenly spaced throughout the network. For example, if you want to remove 50% of the network, keeping every other layer is good.\n\n\n## FAQ\n\n1. How did the sharing layers experiment work? In an appendix (https://openreview.net/pdf?id=SylO2yStDr) we added an experiment on Wikitext-103 language modeling that combined LayerDrop with Weight Sharing. We shared chunks of 2 layers such that every other layer had shared weights. For example, if our network has layers 1 through 6, then layer 1 and 2 are shared, layer 3 and 4 are shared, and layer 5 and 6 are shared.\n\n2. LayerDrop hasn't been helping in my setting? During training time, LayerDrop can help regularize your network. This is most important if your network is already overfitting - if your network is underfitting, it is possible LayerDrop is adding too much regularization. We recommend using smaller values (such as 0.1 or 0.2) and also decreasing the quantity of standard dropout (for example, reduce by 0.1).\n\n3. Can you train a model without LayerDrop and finetune with LayerDrop (e.g. for BERT)? In our experiments, we did not see great performance. Models such as RoBERTa have trained for a long time in the pre-training setting, so only finetuning with LayerDrop for a few epochs on a downstream task such as MNLI does not achieve the robustness required for successful pruning.\n\n\n## Having an issue or have a question?\n\nPlease open an issue in this repository with the details of your question. Thanks!\n"
  },
  {
    "path": "examples/linformer/README.md",
    "content": "# Linformer: Self-Attention with Linear Complexity (Wang et al., 2020)\n\nThis example contains code to train Linformer models as described in our paper\n[Linformer: Self-Attention with Linear Complexity](https://arxiv.org/abs/2006.04768).\n\n## Training a new Linformer RoBERTa model\n\nYou can mostly follow the [RoBERTa pretraining README](/examples/roberta/README.pretraining.md),\nupdating your training command with `--user-dir examples/linformer/linformer_src --arch linformer_roberta_base`.\n\n## Citation\n\nIf you use our work, please cite:\n\n```bibtex\n@article{wang2020linformer,\n  title={Linformer: Self-Attention with Linear Complexity},\n  author={Wang, Sinong and Li, Belinda and Khabsa, Madian and Fang, Han and Ma, Hao},\n  journal={arXiv preprint arXiv:2006.04768},\n  year={2020}\n}\n```\n"
  },
  {
    "path": "examples/linformer/linformer_src/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .models import linformer_roberta  # noqa\n"
  },
  {
    "path": "examples/linformer/linformer_src/models/__init__.py",
    "content": ""
  },
  {
    "path": "examples/linformer/linformer_src/models/linformer_roberta.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nLinformer: Self-Attention with Linear Complexity\n\"\"\"\n\nimport logging\n\nimport torch\nfrom fairseq import utils\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.roberta import (\n    init_bert_params,\n    roberta_base_architecture,\n    roberta_large_architecture,\n    RobertaEncoder,\n    RobertaModel,\n)\nfrom fairseq.utils import safe_hasattr\n\nfrom ..modules.linformer_sentence_encoder import LinformerTransformerEncoder\n\n\nlogger = logging.getLogger(__name__)\n\n\n@register_model(\"linformer_roberta\")\nclass LinformerModel(RobertaModel):\n    @staticmethod\n    def add_args(parser):\n        RobertaModel.add_args(parser)\n\n        # add args for Linformer\n        parser.add_argument(\n            \"--compressed\", type=int, help=\"compressed ratio of sequence length\"\n        )\n        parser.add_argument(\n            \"--shared-kv-compressed\",\n            type=int,\n            help=\"share compressed matrix between k and v, in each layer\",\n        )\n        parser.add_argument(\n            \"--shared-layer-kv-compressed\",\n            type=int,\n            help=\"share compressed matrix between k and v and across all layers\",\n        )\n        parser.add_argument(\n            \"--freeze-compress\",\n            type=int,\n            help=\"freeze the parameters in compressed layer\",\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        # make sure all arguments are present\n        base_architecture(args)\n\n        if not safe_hasattr(args, \"max_positions\"):\n            args.max_positions = args.tokens_per_sample\n\n        encoder = LinformerEncoder(args, task.source_dictionary)\n        return cls(args, encoder)\n\n\nclass LinformerEncoder(RobertaEncoder):\n    \"\"\"Linformer encoder.\"\"\"\n\n    def __init__(self, args, dictionary):\n        super().__init__(args, dictionary)\n        self.register_buffer(\"version\", torch.tensor(2))\n\n    def build_encoder(self, args, dictionary, embed_tokens):\n        encoder = LinformerTransformerEncoder(args, dictionary, embed_tokens)\n        encoder.apply(init_bert_params)\n        return encoder\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        super().upgrade_state_dict_named(state_dict, name)\n        prefix = name + \".\" if name != \"\" else \"\"\n\n        # some old checkpoints had weight sharing implemented incorrectly\n        # (note: this was correct in the original paper code)\n        if utils.item(state_dict.get(f\"{prefix}version\", torch.tensor(1))) < 2:\n            state_dict[f\"{prefix}version\"] = torch.tensor(1)\n            # check if input embeddings and output embeddings were tied\n            if not torch.allclose(\n                state_dict[f\"{prefix}sentence_encoder.embed_tokens.weight\"],\n                state_dict[f\"{prefix}lm_head.weight\"],\n            ):\n                # they weren't tied, re-init the LM head without weight sharing\n                self.lm_head = self.build_lm_head(\n                    embed_dim=self.args.encoder_embed_dim,\n                    output_dim=len(self.dictionary),\n                    activation_fn=self.args.activation_fn,\n                    weight=None,  # don't share weights\n                )\n\n\n@register_model_architecture(\"linformer_roberta\", \"linformer_roberta\")\ndef base_architecture(args):\n    args.compressed = getattr(args, \"compressed\", 4)\n    args.shared_kv_compressed = getattr(args, \"shared_kv_compressed\", 0)\n    args.shared_layer_kv_compressed = getattr(args, \"shared_layer_kv_compressed\", 0)\n    args.freeze_compress = getattr(args, \"freeze_compress\", 0)\n    roberta_base_architecture(args)\n\n\n@register_model_architecture(\"linformer_roberta\", \"linformer_roberta_base\")\ndef linformer_roberta_base_architecture(args):\n    base_architecture(args)\n\n\n@register_model_architecture(\"linformer_roberta\", \"linformer_roberta_large\")\ndef linformer_roberta_large_architecture(args):\n    roberta_large_architecture(args)\n    base_architecture(args)\n"
  },
  {
    "path": "examples/linformer/linformer_src/modules/__init__.py",
    "content": ""
  },
  {
    "path": "examples/linformer/linformer_src/modules/linformer_sentence_encoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch.nn as nn\nfrom fairseq.models.transformer import TransformerEncoder\n\nfrom .linformer_sentence_encoder_layer import LinformerTransformerEncoderLayer\n\n\nclass LinformerTransformerEncoder(TransformerEncoder):\n    \"\"\"\n    Implementation for a Bi-directional Linformer based Sentence Encoder used\n    in BERT/XLM style pre-trained models.\n\n    This first computes the token embedding using the token embedding matrix,\n    position embeddings (if specified) and segment embeddings\n    (if specified). After applying the specified number of\n    LinformerEncoderLayers, it outputs all the internal states of the\n    encoder as well as the final representation associated with the first\n    token (usually CLS token).\n\n    Input:\n        - tokens: B x T matrix representing sentences\n        - segment_labels: B x T matrix representing segment label for tokens\n\n    Output:\n        - a tuple of the following:\n            - a list of internal model states used to compute the\n              predictions where each tensor has shape T x B x C\n            - sentence representation associated with first input token\n              in format B x C.\n    \"\"\"\n\n    def __init__(self, args, dictionary, embed_tokens):\n        self.compress_layer = None\n        super().__init__(args, dictionary, embed_tokens)\n\n    def build_encoder_layer(self, args):\n        if self.args.shared_layer_kv_compressed == 1 and self.compress_layer is None:\n            compress_layer = nn.Linear(\n                self.args.max_positions,\n                self.args.max_positions // self.args.compressed,\n            )\n            # intialize parameters for compressed layer\n            nn.init.xavier_uniform_(compress_layer.weight, gain=1 / math.sqrt(2))\n            if self.args.freeze_compress == 1:\n                compress_layer.weight.requires_grad = False\n            self.compress_layer = compress_layer\n\n        return LinformerTransformerEncoderLayer(args, self.compress_layer)\n"
  },
  {
    "path": "examples/linformer/linformer_src/modules/linformer_sentence_encoder_layer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nfrom fairseq import utils\nfrom fairseq.modules import TransformerEncoderLayer\n\nfrom .multihead_linear_attention import MultiheadLinearAttention\n\n\nclass LinformerTransformerEncoderLayer(TransformerEncoderLayer):\n    \"\"\"\n    Implements a Linformer Encoder Layer used in BERT/XLM style pre-trained\n    models.\n    \"\"\"\n\n    def __init__(self, args, shared_compress_layer):\n        # wrap in a list so it's not automatically registered by PyTorch\n        self.shared_compress_layer = [shared_compress_layer]\n\n        super().__init__(args)\n\n        self.register_buffer(\"version\", torch.tensor(2))\n\n    def build_self_attention(self, embed_dim, args):\n        return MultiheadLinearAttention(\n            embed_dim,\n            args.encoder_attention_heads,\n            dropout=args.dropout,\n            self_attention=True,\n            q_noise=args.quant_noise_pq,\n            qn_block_size=args.quant_noise_pq_block_size,\n            compressed=args.compressed,\n            max_seq_len=args.max_positions,\n            shared_kv_compressed=args.shared_kv_compressed,\n            shared_compress_layer=self.shared_compress_layer[0],\n            freeze_compress=args.freeze_compress,\n        )\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        super().upgrade_state_dict_named(state_dict, name)\n        prefix = name + \".\" if name != \"\" else \"\"\n\n        # some old checkpoints had weight sharing implemented incorrectly\n        # (note: this was correct in the original paper code)\n        if utils.item(state_dict.get(f\"{prefix}version\", torch.tensor(1))) < 2:\n            state_dict[f\"{prefix}version\"] = torch.tensor(1)\n            # check compression layer sharing\n            if f\"{prefix}shared_compress_layer.weight\" in state_dict:\n                # reinitialize block without sharing compression layer to match\n                # old behavior\n                self.shared_compress_layer = [\n                    torch.nn.Linear(\n                        self.shared_compress_layer[0].weight.size(1),\n                        self.shared_compress_layer[0].weight.size(0),\n                    )\n                ]\n                self.self_attn = self.build_self_attention(self.embed_dim, self.args)\n                # delete shared_compress_layer, since it's already copied to\n                # self_attn.compress_k.weight\n                del state_dict[f\"{prefix}shared_compress_layer.weight\"]\n                if f\"{prefix}shared_compress_layer.bias\" in state_dict:\n                    del state_dict[f\"{prefix}shared_compress_layer.bias\"]\n"
  },
  {
    "path": "examples/linformer/linformer_src/modules/multihead_linear_attention.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom typing import Dict, Optional, Tuple\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.incremental_decoding_utils import with_incremental_state\nfrom fairseq.modules.quant_noise import quant_noise\nfrom torch import Tensor, nn\nfrom torch.nn import Parameter\n\n\n@with_incremental_state\nclass MultiheadLinearAttention(nn.Module):\n    \"\"\"Multi-headed linformer attention.\n\n    Projects the key and values down to the compressed dimension, before computing self-attention.\n\n    See \"Linformer: Self-Attention with Linear Complexity\" for more details.\n    \"\"\"\n\n    def __init__(\n        self,\n        embed_dim,\n        num_heads,\n        kdim=None,\n        vdim=None,\n        dropout=0.0,\n        bias=True,\n        add_bias_kv=False,\n        add_zero_attn=False,\n        self_attention=False,\n        encoder_decoder_attention=False,\n        q_noise=0.0,\n        qn_block_size=8,\n        compressed=1,\n        max_seq_len=256,\n        shared_kv_compressed=0,\n        shared_compress_layer=None,\n        freeze_compress=0,\n    ):\n        super().__init__()\n        self.embed_dim = embed_dim\n        self.kdim = kdim if kdim is not None else embed_dim\n        self.vdim = vdim if vdim is not None else embed_dim\n        self.qkv_same_dim = self.kdim == embed_dim and self.vdim == embed_dim\n\n        self.num_heads = num_heads\n        self.dropout = dropout\n        self.head_dim = embed_dim // num_heads\n        assert (\n            self.head_dim * num_heads == self.embed_dim\n        ), \"embed_dim must be divisible by num_heads\"\n        self.scaling = self.head_dim ** -0.5\n\n        self.self_attention = self_attention\n        self.encoder_decoder_attention = encoder_decoder_attention\n\n        assert not self.self_attention or self.qkv_same_dim, (\n            \"Self-attention requires query, key and \" \"value to be of the same size\"\n        )\n\n        self.k_proj = quant_noise(\n            nn.Linear(self.kdim, embed_dim, bias=bias), q_noise, qn_block_size\n        )\n        self.v_proj = quant_noise(\n            nn.Linear(self.vdim, embed_dim, bias=bias), q_noise, qn_block_size\n        )\n        self.q_proj = quant_noise(\n            nn.Linear(embed_dim, embed_dim, bias=bias), q_noise, qn_block_size\n        )\n\n        # used for compress sequence to subsequence\n        if shared_compress_layer is None:\n            self.compress_seq_len = max_seq_len // compressed\n            self.compress_k = nn.Linear(max_seq_len, self.compress_seq_len, bias=False)\n            if shared_kv_compressed == 0:\n                self.compress_v = nn.Linear(\n                    max_seq_len, self.compress_seq_len, bias=False\n                )\n            self.layerwise_sharing = False\n        else:\n            self.compress_k = shared_compress_layer\n            if shared_kv_compressed == 0:\n                self.compress_v = shared_compress_layer\n            self.layerwise_sharing = True\n        self.shared_kv_compressed = shared_kv_compressed\n\n        self.out_proj = quant_noise(\n            nn.Linear(embed_dim, embed_dim, bias=bias), q_noise, qn_block_size\n        )\n\n        if add_bias_kv:\n            self.bias_k = Parameter(torch.Tensor(1, 1, embed_dim))\n            self.bias_v = Parameter(torch.Tensor(1, 1, embed_dim))\n        else:\n            self.bias_k = self.bias_v = None\n\n        self.add_zero_attn = add_zero_attn\n\n        self.reset_parameters()\n\n        if freeze_compress == 1:\n            self.compress_k.weight.requires_grad = False\n            if shared_kv_compressed == 0:\n                self.compress_v.weight.requires_grad = False\n\n        self.onnx_trace = False\n\n    def prepare_for_onnx_export_(self):\n        self.onnx_trace = True\n\n    def reset_parameters(self):\n        if self.qkv_same_dim:\n            # Empirically observed the convergence to be much better with\n            # the scaled initialization\n            nn.init.xavier_uniform_(self.k_proj.weight, gain=1 / math.sqrt(2))\n            nn.init.xavier_uniform_(self.v_proj.weight, gain=1 / math.sqrt(2))\n            nn.init.xavier_uniform_(self.q_proj.weight, gain=1 / math.sqrt(2))\n            if (\n                not self.layerwise_sharing\n            ):  # otherwise, we already initialize the parameters\n                nn.init.xavier_uniform_(self.compress_k.weight, gain=1 / math.sqrt(2))\n                if self.shared_kv_compressed == 0:\n                    nn.init.xavier_uniform_(\n                        self.compress_v.weight, gain=1 / math.sqrt(2)\n                    )\n        else:\n            nn.init.xavier_uniform_(self.k_proj.weight)\n            nn.init.xavier_uniform_(self.v_proj.weight)\n            nn.init.xavier_uniform_(self.q_proj.weight)\n            if (\n                not self.layerwise_sharing\n            ):  # otherwise, we already initialize the parameters\n                nn.init.xavier_uniform_(self.compress_k.weight)\n                if self.shared_kv_compressed == 0:\n                    nn.init.xavier_uniform_(self.compress_v.weight)\n\n        nn.init.xavier_uniform_(self.out_proj.weight)\n        if self.out_proj.bias is not None:\n            nn.init.constant_(self.out_proj.bias, 0.0)\n        if self.bias_k is not None:\n            nn.init.xavier_normal_(self.bias_k)\n        if self.bias_v is not None:\n            nn.init.xavier_normal_(self.bias_v)\n\n    def forward(\n        self,\n        query,\n        key: Optional[Tensor],\n        value: Optional[Tensor],\n        key_padding_mask: Optional[Tensor] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        need_weights: bool = True,\n        static_kv: bool = False,\n        attn_mask: Optional[Tensor] = None,\n        before_softmax: bool = False,\n        need_head_weights: bool = False,\n    ) -> Tuple[Tensor, Optional[Tensor]]:\n        \"\"\"Input shape: Time x Batch x Channel\n\n        Args:\n            key_padding_mask (ByteTensor, optional): mask to exclude\n                keys that are pads, of shape `(batch, src_len)`, where\n                padding elements are indicated by 1s.\n            need_weights (bool, optional): return the attention weights,\n                averaged over heads (default: False).\n            attn_mask (ByteTensor, optional): typically used to\n                implement causal attention, where the mask prevents the\n                attention from looking forward in time (default: None).\n            before_softmax (bool, optional): return the raw attention\n                weights and values before the attention softmax.\n            need_head_weights (bool, optional): return the attention\n                weights for each head. Implies *need_weights*. Default:\n                return the average attention weights over all heads.\n        \"\"\"\n        if need_head_weights:\n            need_weights = True\n\n        tgt_len, bsz, embed_dim = query.size()\n        assert embed_dim == self.embed_dim\n        assert list(query.size()) == [tgt_len, bsz, embed_dim]\n\n        if incremental_state is not None:\n            saved_state = self._get_input_buffer(incremental_state)\n            if saved_state is not None and \"prev_key\" in saved_state:\n                # previous time steps are cached - no need to recompute\n                # key and value if they are static\n                if static_kv:\n                    assert self.encoder_decoder_attention and not self.self_attention\n                    key = value = None\n        else:\n            saved_state = None\n\n        if self.self_attention:\n            q = self.q_proj(query)\n\n            k_input = query.permute(1, 2, 0).contiguous()  # B * C * T\n            k_input = (\n                F.linear(k_input, self.compress_k.weight[:, 0:tgt_len])\n                .permute(2, 0, 1)\n                .contiguous()\n            )\n            k = self.k_proj(k_input)\n\n            v_input = query.permute(1, 2, 0).contiguous()  # B * C * T\n            if self.shared_kv_compressed == 0:\n                v_input = (\n                    F.linear(v_input, self.compress_v.weight[:, 0:tgt_len])\n                    .permute(2, 0, 1)\n                    .contiguous()\n                )\n            if self.shared_kv_compressed == 1:  # use shared kv compressed linear layer\n                v_input = (\n                    F.linear(v_input, self.compress_k.weight[:, 0:tgt_len])\n                    .permute(2, 0, 1)\n                    .contiguous()\n                )\n            v = self.v_proj(v_input)\n        elif self.encoder_decoder_attention:\n            # encoder-decoder attention\n            q = self.q_proj(query)\n            if key is None:\n                assert value is None\n                k = v = None\n            else:\n                k = self.k_proj(key)\n                v = self.v_proj(key)\n\n        else:\n            assert key is not None and value is not None\n            q = self.q_proj(query)\n            k = self.k_proj(key)\n            v = self.v_proj(value)\n        q *= self.scaling\n\n        if self.bias_k is not None:\n            assert self.bias_v is not None\n            k = torch.cat([k, self.bias_k.repeat(1, bsz, 1)])\n            v = torch.cat([v, self.bias_v.repeat(1, bsz, 1)])\n            if attn_mask is not None:\n                attn_mask = torch.cat(\n                    [attn_mask, attn_mask.new_zeros(attn_mask.size(0), 1)], dim=1\n                )\n            if key_padding_mask is not None:\n                key_padding_mask = torch.cat(\n                    [\n                        key_padding_mask,\n                        key_padding_mask.new_zeros(key_padding_mask.size(0), 1),\n                    ],\n                    dim=1,\n                )\n\n        q = (\n            q.contiguous()\n            .view(tgt_len, bsz * self.num_heads, self.head_dim)\n            .transpose(0, 1)\n        )\n        if k is not None:\n            k = (\n                k.contiguous()\n                .view(-1, bsz * self.num_heads, self.head_dim)\n                .transpose(0, 1)\n            )\n        if v is not None:\n            v = (\n                v.contiguous()\n                .view(-1, bsz * self.num_heads, self.head_dim)\n                .transpose(0, 1)\n            )\n\n        if saved_state is not None:\n            # saved states are stored with shape (bsz, num_heads, seq_len, head_dim)\n            if \"prev_key\" in saved_state:\n                _prev_key = saved_state[\"prev_key\"]\n                assert _prev_key is not None\n                prev_key = _prev_key.view(bsz * self.num_heads, -1, self.head_dim)\n                if static_kv:\n                    k = prev_key\n                else:\n                    assert k is not None\n                    k = torch.cat([prev_key, k], dim=1)\n            if \"prev_value\" in saved_state:\n                _prev_value = saved_state[\"prev_value\"]\n                assert _prev_value is not None\n                prev_value = _prev_value.view(bsz * self.num_heads, -1, self.head_dim)\n                if static_kv:\n                    v = prev_value\n                else:\n                    assert v is not None\n                    v = torch.cat([prev_value, v], dim=1)\n            prev_key_padding_mask: Optional[Tensor] = None\n            if \"prev_key_padding_mask\" in saved_state:\n                prev_key_padding_mask = saved_state[\"prev_key_padding_mask\"]\n            assert k is not None and v is not None\n            key_padding_mask = MultiheadLinearAttention._append_prev_key_padding_mask(\n                key_padding_mask=key_padding_mask,\n                prev_key_padding_mask=prev_key_padding_mask,\n                batch_size=bsz,\n                src_len=k.size(1),\n                static_kv=static_kv,\n            )\n\n            saved_state[\"prev_key\"] = k.view(bsz, self.num_heads, -1, self.head_dim)\n            saved_state[\"prev_value\"] = v.view(bsz, self.num_heads, -1, self.head_dim)\n            saved_state[\"prev_key_padding_mask\"] = key_padding_mask\n            # In this branch incremental_state is never None\n            assert incremental_state is not None\n            incremental_state = self._set_input_buffer(incremental_state, saved_state)\n        assert k is not None\n        src_len = k.size(1)\n\n        if self.add_zero_attn:\n            assert v is not None\n            src_len += 1\n            k = torch.cat([k, k.new_zeros((k.size(0), 1) + k.size()[2:])], dim=1)\n            v = torch.cat([v, v.new_zeros((v.size(0), 1) + v.size()[2:])], dim=1)\n            if attn_mask is not None:\n                attn_mask = torch.cat(\n                    [attn_mask, attn_mask.new_zeros(attn_mask.size(0), 1)], dim=1\n                )\n\n        attn_weights = torch.bmm(q, k.transpose(1, 2))\n        attn_weights = MultiheadLinearAttention.apply_sparse_mask(\n            attn_weights, tgt_len, src_len, bsz\n        )\n\n        assert list(attn_weights.size()) == [bsz * self.num_heads, tgt_len, src_len]\n\n        if attn_mask is not None:\n            attn_mask = attn_mask.unsqueeze(0)\n            if self.onnx_trace:\n                attn_mask = attn_mask.repeat(attn_weights.size(0), 1, 1)\n            attn_weights += attn_mask\n\n        if before_softmax:\n            return attn_weights, v\n\n        attn_weights_float = utils.softmax(\n            attn_weights, dim=-1, onnx_trace=self.onnx_trace\n        )\n        attn_weights = attn_weights_float.type_as(attn_weights)\n        attn_probs = F.dropout(\n            attn_weights,\n            p=self.dropout,\n            training=self.training,\n        )\n        assert v is not None\n        attn = torch.bmm(attn_probs, v)\n        assert list(attn.size()) == [bsz * self.num_heads, tgt_len, self.head_dim]\n        if self.onnx_trace and attn.size(1) == 1:\n            # when ONNX tracing a single decoder step (sequence length == 1)\n            # the transpose is a no-op copy before view, thus unnecessary\n            attn = attn.contiguous().view(tgt_len, bsz, embed_dim)\n        else:\n            attn = attn.transpose(0, 1).contiguous().view(tgt_len, bsz, embed_dim)\n        attn = self.out_proj(attn)\n        attn_weights: Optional[Tensor] = None\n        if need_weights:\n            attn_weights = attn_weights_float.view(\n                bsz, self.num_heads, tgt_len, src_len\n            ).transpose(1, 0)\n            if not need_head_weights:\n                # average attention weights over heads\n                attn_weights = attn_weights.mean(dim=0)\n\n        return attn, attn_weights\n\n    @staticmethod\n    def _append_prev_key_padding_mask(\n        key_padding_mask: Optional[Tensor],\n        prev_key_padding_mask: Optional[Tensor],\n        batch_size: int,\n        src_len: int,\n        static_kv: bool,\n    ) -> Optional[Tensor]:\n        # saved key padding masks have shape (bsz, seq_len)\n        if prev_key_padding_mask is not None and static_kv:\n            new_key_padding_mask = prev_key_padding_mask\n        elif prev_key_padding_mask is not None and key_padding_mask is not None:\n            new_key_padding_mask = torch.cat(\n                [prev_key_padding_mask.float(), key_padding_mask.float()], dim=1\n            )\n        # During incremental decoding, as the padding token enters and\n        # leaves the frame, there will be a time when prev or current\n        # is None\n        elif prev_key_padding_mask is not None:\n            filler = torch.zeros(\n                (batch_size, src_len - prev_key_padding_mask.size(1)),\n                device=prev_key_padding_mask.device,\n            )\n            new_key_padding_mask = torch.cat(\n                [prev_key_padding_mask.float(), filler.float()], dim=1\n            )\n        elif key_padding_mask is not None:\n            filler = torch.zeros(\n                (batch_size, src_len - key_padding_mask.size(1)),\n                device=key_padding_mask.device,\n            )\n            new_key_padding_mask = torch.cat(\n                [filler.float(), key_padding_mask.float()], dim=1\n            )\n        else:\n            new_key_padding_mask = prev_key_padding_mask\n        return new_key_padding_mask\n\n    @torch.jit.export\n    def reorder_incremental_state(\n        self,\n        incremental_state: Dict[str, Dict[str, Optional[Tensor]]],\n        new_order: Tensor,\n    ):\n        \"\"\"Reorder buffered internal state (for incremental generation).\"\"\"\n        input_buffer = self._get_input_buffer(incremental_state)\n        if input_buffer is not None:\n            for k in input_buffer.keys():\n                input_buffer_k = input_buffer[k]\n                if input_buffer_k is not None:\n                    if self.encoder_decoder_attention and input_buffer_k.size(\n                        0\n                    ) == new_order.size(0):\n                        break\n                    input_buffer[k] = input_buffer_k.index_select(0, new_order)\n            incremental_state = self._set_input_buffer(incremental_state, input_buffer)\n        return incremental_state\n\n    def _get_input_buffer(\n        self, incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]]\n    ) -> Dict[str, Optional[Tensor]]:\n        result = self.get_incremental_state(incremental_state, \"attn_state\")\n        if result is not None:\n            return result\n        else:\n            empty_result: Dict[str, Optional[Tensor]] = {}\n            return empty_result\n\n    def _set_input_buffer(\n        self,\n        incremental_state: Dict[str, Dict[str, Optional[Tensor]]],\n        buffer: Dict[str, Optional[Tensor]],\n    ):\n        return self.set_incremental_state(incremental_state, \"attn_state\", buffer)\n\n    def apply_sparse_mask(attn_weights, tgt_len: int, src_len: int, bsz: int):\n        return attn_weights\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        prefix = name + \".\" if name != \"\" else \"\"\n        items_to_add = {}\n        keys_to_remove = []\n        for k in state_dict.keys():\n            if k.endswith(prefix + \"in_proj_weight\"):\n                # in_proj_weight used to be q + k + v with same dimensions\n                dim = int(state_dict[k].shape[0] / 3)\n                items_to_add[prefix + \"q_proj.weight\"] = state_dict[k][:dim]\n                items_to_add[prefix + \"k_proj.weight\"] = state_dict[k][dim : 2 * dim]\n                items_to_add[prefix + \"v_proj.weight\"] = state_dict[k][2 * dim :]\n\n                keys_to_remove.append(k)\n\n                k_bias = prefix + \"in_proj_bias\"\n                if k_bias in state_dict.keys():\n                    dim = int(state_dict[k].shape[0] / 3)\n                    items_to_add[prefix + \"q_proj.bias\"] = state_dict[k_bias][:dim]\n                    items_to_add[prefix + \"k_proj.bias\"] = state_dict[k_bias][\n                        dim : 2 * dim\n                    ]\n                    items_to_add[prefix + \"v_proj.bias\"] = state_dict[k_bias][2 * dim :]\n\n                    keys_to_remove.append(prefix + \"in_proj_bias\")\n\n        for k in keys_to_remove:\n            del state_dict[k]\n\n        for key, value in items_to_add.items():\n            state_dict[key] = value\n"
  },
  {
    "path": "examples/m2m_100/README.md",
    "content": "# Beyond English-Centric Multilingual Machine Translation\n\n## Introduction\nIn this work, we create a true Many-to-Many multilingual translation model that can translate directly between any pair of 100 languages. Our focus on non-English-Centric models brings gains of more than 10 BLEU when directly translating between non-English directions while performing competitively with the best single systems of WMT. \n\nIf you are new to using fairseq, read the following walkthrough. Otherwise, skip to the sections below. \n\n0. **Generation Data**\n\nTo download the generation data, follow the below commands. Note that all datasets need to be detokenized *before* applying SPM in the data preprocessing step. If you use these evaluation datasets, please cite their associated papers. \n```bash\n# WMT - use sacrebleu, example here:\nsacrebleu -t wmt14 -l fr-en --echo src > wmt.test.fr-en.fr\nsacrebleu -t wmt14 -l fr-en --echo ref > wmt.test.fr-en.en\n\n# WAT\nwget http://lotus.kuee.kyoto-u.ac.jp/WAT/my-en-data/wat2020.my-en.zip\nunzip wat2020.my-en.zip\n\n# FLORES\n# download from: https://github.com/facebookresearch/flores\n\n# TED - need to detokenize with Moses!\n# from: https://github.com/neulab/word-embeddings-for-nmt\nwget http://phontron.com/data/ted_talks.tar.gz\n\n# Autshumato\n# request to download: https://repo.sadilar.org/handle/20.500.12185/397\n\n# Tatoeba Challenge\n# available here: https://github.com/Helsinki-NLP/Tatoeba-Challenge\n```\n\n1. **Training Data**\n\nTo produce the training data, we use a combination of [CCMatrix](https://arxiv.org/abs/1911.04944) and [CCAligned](https://arxiv.org/abs/1911.06154). Check out the instructions [here](https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix) to download the raw data.\n\n2. **Preprocess Data**\n\nAfter downloading raw data, you will need to postprocess the data, then apply SPM, then binarize. Note that it is very important you run the postprocessing script, because this removes any instance of the evaluation data in the mined training data.\n\n```bash\n# preprocess data\n\n# remove sentences with more than 50% punctuation\npython /path/to/fairseq/examples/m2m_100/process_data/remove_too_much_punc.py \n\n# deduplicate training data\npaste /path/to/datadir/train.$src /path/to/datadir/train.$tgt | awk '!x[$0]++' > /path/to/datadir/train.dedup\necho \"keeping $(wc -l /path/to/datadir/train.dedup) bitext out of $(wc -l /path/to/datadir/train.$src)\"\ncut -f1 /path/to/datadir/train.dedup > /path/to/datadir/train.$src\ncut -f2 /path/to/datadir/train.dedup > /path/to/datadir/train.$tgt\n\n# remove all instances of evaluation data from the training data\npython /path/to/fairseq/examples/m2m_100/process_data/dedup_data.py \n\n# frequency cleaning\nwget https://dl.fbaipublicfiles.com/m2m_100/histograms.tar.gz \ntar -xvzf histograms.tar.gz\npython /path/to/fairseq/examples/m2m_100/process_data/clean_histogram.py --src $src --tgt $tgt --src-file /path/to/source/file --tgt-file /path/to/output/file --src-output-file source_output.$src --tgt-output-file target_output.$tgt --histograms /path/to/histograms\n\n# apply SPM\nwget https://dl.fbaipublicfiles.com/m2m_100/spm.128k.model\npython /path/to/fairseq/scripts/spm_encode.py \\\n    --model spm.128k.model \\\n    --output_format=piece \\\n    --inputs=/path/to/input/file/here \\\n    --outputs=/path/to/output/file/here\n\n# length ratio cleaning\nperl mosesdecoder/scripts/training/clean-corpus-n.perl --ratio 3 /path/to/training/data/train.spm.$src-$tgt $src $tgt /path/to/output/directory/train.spm.$src-$tgt 1 250\n\n# binarize data\nwget https://dl.fbaipublicfiles.com/m2m_100/data_dict.128k.txt\nfairseq-preprocess \\\n    --source-lang $src --target-lang $tgt \\\n    --testpref spm.$src.$tgt \\\n    --thresholdsrc 0 --thresholdtgt 0 \\\n    --destdir data_bin \\\n    --srcdict data_dict.128k.txt --tgtdict data_dict.128k.txt\n```\n\n3. **Training Scripts**\n\nTo reproduce the training of our models, we train with fairseq-py's multilingual translation [task](https://github.com/pytorch/fairseq/tree/main/examples/multilingual). If you are interested in model parallel training, also check out [fairscale](https://github.com/facebookresearch/fairscale).\n\n4. **Generation**\n\nTo generate from our models, follow the the commands in the generation section below.\n\n\nIf you use any of the resources listed here, please cite:\n```bibtex\n@article{fan2020beyond,\n  title={Beyond English-Centric Multilingual Machine Translation},\n  author={Fan, Angela and Bhosale, Shruti and Schwenk, Holger and Ma, Zhiyi and El-Kishky, Ahmed and Goyal, Siddharth and Baines, Mandeep and Celebi, Onur and Wenzek, Guillaume and Chaudhary, Vishrav and Goyal, Naman and Birch, Tom and Liptchinsky, Vitaliy and Edunov, Sergey and Grave, Edouard and Auli, Michael and Joulin, Armand},\n  journal={arXiv preprint},\n  year={2020}\n}\n\n@article{schwenk2019ccmatrix,\n  title={Ccmatrix: Mining billions of high-quality parallel sentences on the web},\n  author={Schwenk, Holger and Wenzek, Guillaume and Edunov, Sergey and Grave, Edouard and Joulin, Armand},\n  journal={arXiv preprint arXiv:1911.04944},\n  year={2019}\n}\n\n@article{el2019massive,\n  title={A Massive Collection of Cross-Lingual Web-Document Pairs},\n  author={El-Kishky, Ahmed and Chaudhary, Vishrav and Guzman, Francisco and Koehn, Philipp},\n  journal={arXiv preprint arXiv:1911.06154},\n  year={2019}\n}\n```\n\n\n## Trained Models\n\n### 418M and 1.2B Model\nWe include the last checkpoint for both of these models. \n\n```bash\nwget https://dl.fbaipublicfiles.com/m2m_100/model_dict.128k.txt\nwget https://dl.fbaipublicfiles.com/m2m_100/language_pairs_small_models.txt \n\n# 418M parameter model\nwget https://dl.fbaipublicfiles.com/m2m_100/418M_last_checkpoint.pt \n\n# 1.2B parameter model\nwget https://dl.fbaipublicfiles.com/m2m_100/1.2B_last_checkpoint.pt\n\n# Generation:\nfairseq-generate $binarized_data_path --batch-size 32 --path $path_to_model --fixed-dictionary model_dict.128k.txt -s en -t fr --remove-bpe 'sentencepiece' --beam 5 --task translation_multi_simple_epoch --lang-pairs language_pairs_small_models.txt --decoder-langtok --encoder-langtok src --gen-subset test > gen_out\n```\n\n### 12B Model\n12B parameter model trained on many-to-many training data for 100 languages. We include the last checkpoint, average of last 5 checkpoints, average of last 10 checkpoints. There isn't a universally best choice out of these three, but all three versions are pretty close in accuracy. You can either sweep over the 3 checkpoints on a dev test and use the best performing checkpoint for final testing. Or the last checkpoint can be a good default choice.\n\n**Model Download Links**\nConfiguration | 2 32GB GPUs | 4 16GB GPUs | 6 12GB GPUs | 8 8GB GPUs\n:--|:--|:--|:--|:--\nLast Checkpoint | [12b_last_chk_2_gpus.pt](https://dl.fbaipublicfiles.com/m2m_100/12b_last_chk_2_gpus.pt) | [12b_last_chk_4_gpus.pt](https://dl.fbaipublicfiles.com/m2m_100/12b_last_chk_4_gpus.pt) | [12b_last_chk_6_gpus.pt](https://dl.fbaipublicfiles.com/m2m_100/12b_last_chk_6_gpus.pt) | [12b_last_chk_8_gpus.pt](https://dl.fbaipublicfiles.com/m2m_100/12b_last_chk_8_gpus.pt)\nAverage of last 5 checkpoints | [12b_avg5_chk_2_gpus.pt](https://dl.fbaipublicfiles.com/m2m_100/12b_avg5_chk_2_gpus.pt) | [12b_avg5_chk_4_gpus.pt](https://dl.fbaipublicfiles.com/m2m_100/12b_avg5_chk_4_gpus.pt) | [12b_avg5_chk_6_gpus.pt](https://dl.fbaipublicfiles.com/m2m_100/12b_avg5_chk_6_gpus.pt) | [12b_avg5_chk_8_gpus.pt](https://dl.fbaipublicfiles.com/m2m_100/12b_avg5_chk_8_gpus.pt)\nAverage of last 10 checkpoints |  [12b_avg10_chk_2_gpus.pt](https://dl.fbaipublicfiles.com/m2m_100/12b_avg10_chk_2_gpus.pt) | [12b_avg10_chk_4_gpus.pt](https://dl.fbaipublicfiles.com/m2m_100/12b_avg10_chk_4_gpus.pt) | [12b_avg10_chk_6_gpus.pt](https://dl.fbaipublicfiles.com/m2m_100/12b_avg10_chk_6_gpus.pt) | [12b_avg10_chk_8_gpus.pt](https://dl.fbaipublicfiles.com/m2m_100/12b_avg10_chk_8_gpus.pt)\n\n**Generation Arguments**\nConfiguration | 2 32GB GPUs | 4 16GB GPUs | 6 12GB GPUs | 8 8GB GPUs\n:--|:--|:--|:--|:--\n`--pipeline-encoder-balance` | `[26]` | `[1,15,10]` | `[1,9,9,7]` | `[1,6,6,6,7]`\n`--pipeline-encoder-devices` | `[0]` | `[0,1,0]` | `[0,1,2,0]` | `[0,4,5,1,0]`\n`--pipeline-decoder-balance` | `[3,22,1]` | `[3,11,11,1]` | `[3,7,7,8,1]` | `[1,6,6,6,6,1]`\n`--pipeline-decoder-devices` | `[0,1,0]` | `[0,2,3,0]` | `[0,3,4,5,0]` |  `[0,2,6,7,3,0]`\n\n\n## SentencePiece Model\n\n```bash\nwget https://dl.fbaipublicfiles.com/m2m_100/spm.128k.model\n```\n\n## Generation with M2M-100\n\n### Encode using our SentencePiece Model\n\nNote: Install SentencePiece from [here](https://github.com/google/sentencepiece)\n\n```bash\nfairseq=/path/to/fairseq\ncd $fairseq\nsacrebleu --echo src -l de-fr -t wmt19 | head -n 20 > raw_input.de-fr.de\nsacrebleu --echo ref -l de-fr -t wmt19 | head -n 20 > raw_input.de-fr.fr\nwget https://dl.fbaipublicfiles.com/m2m_100/spm.128k.model\nfor lang in de fr ; do\n    python scripts/spm_encode.py \\\n        --model spm.128k.model \\\n        --output_format=piece \\\n        --inputs=raw_input.de-fr.${lang} \\\n        --outputs=spm.de-fr.${lang}\ndone\n```\n\n### Binarization\n\n```bash\nwget https://dl.fbaipublicfiles.com/m2m_100/data_dict.128k.txt\nfairseq-preprocess \\\n    --source-lang de --target-lang fr \\\n    --testpref spm.de-fr \\\n    --thresholdsrc 0 --thresholdtgt 0 \\\n    --destdir data_bin \\\n    --srcdict data_dict.128k.txt --tgtdict data_dict.128k.txt\n```\n\n### Generation for the 12B model\n\nNote that generation can currently be run using 2 32GB / 4 16GB / 6 12GB / 8 8GB GPUs, and the corresponding model checkpoints and pipeline arguments can be found in the [12B Model Section](#12b-model).\nGeneration on CPUs will be added in the future.\n\n```bash\nwget https://dl.fbaipublicfiles.com/m2m_100/model_dict.128k.txt\nwget https://dl.fbaipublicfiles.com/m2m_100/language_pairs.txt\nwget https://dl.fbaipublicfiles.com/m2m_100/12b_last_chk_4_gpus.pt\nfairseq-generate \\\n    data_bin \\\n    --batch-size 1 \\\n    --path 12b_last_chk_4_gpus.pt \\\n    --fixed-dictionary model_dict.128k.txt \\\n    -s de -t fr \\\n    --remove-bpe 'sentencepiece' \\\n    --beam 5 \\\n    --task translation_multi_simple_epoch \\\n    --lang-pairs language_pairs.txt \\\n    --decoder-langtok --encoder-langtok src \\\n    --gen-subset test \\\n    --fp16 \\\n    --dataset-impl mmap \\\n    --distributed-world-size 1 --distributed-no-spawn \\\n    --pipeline-model-parallel \\\n    --pipeline-chunks 1 \\\n    --pipeline-encoder-balance '[1,15,10]' \\\n    --pipeline-encoder-devices '[0,1,0]' \\\n    --pipeline-decoder-balance '[3,11,11,1]' \\\n    --pipeline-decoder-devices '[0,2,3,0]' > gen_out\n```\n## Evaluation with M2M-100\n\n### Tokenization\n\nNote: Refer to tokenizers/README.md for more details on tokenization.\n\n```bash\ncd ${fairseq}/examples/m2m_100\ncat ${fairseq}/gen_out | grep -P \"^H\" | sort -V | cut -f 3- | sh tok.sh fr > hyp\ncat ${fairseq}/raw_input.de-fr.fr | sh tok.sh fr > ref\n```\n\n### BLEU\n\n```bash\nsacrebleu -tok 'none' ref < hyp\n```\n"
  },
  {
    "path": "examples/m2m_100/install_dependecies.sh",
    "content": "#!/usr/bin/env bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nCWD=`pwd`\nINSTALL_PATH=$CWD/tokenizers/thirdparty\n\nMOSES=$INSTALL_PATH/mosesdecoder\nif [ ! -d $MOSES ]; then\n    echo 'Cloning Moses github repository (for tokenization scripts)...'\n    git clone https://github.com/moses-smt/mosesdecoder.git $MOSES\n    cd $MOSES\n    # To deal with differences in handling ' vs \"\n    git checkout 03578921cc1a03402\n    cd -\nfi\n\nWMT16_SCRIPTS=$INSTALL_PATH/wmt16-scripts\nif [ ! -d $WMT16_SCRIPTS ]; then\n    echo 'Cloning Romanian tokenization scripts'\n    git clone https://github.com/rsennrich/wmt16-scripts.git $WMT16_SCRIPTS\nfi\n\nKYTEA=$INSTALL_PATH/kytea\nif [ ! -f $KYTEA/bin/kytea ]; then\n    git clone https://github.com/neubig/kytea.git $KYTEA\n    cd $KYTEA\n    autoreconf -i\n    ./configure --prefix=`pwd`\n    make\n    make install\n    cd ..\nfi\n\nexport MECAB=$INSTALL_PATH/mecab-0.996-ko-0.9.2\nif [ ! -f $MECAB/bin/mecab ]; then\n    cd $INSTALL_PATH\n    curl -LO https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz\n    tar zxfv mecab-0.996-ko-0.9.2.tar.gz\n    cd mecab-0.996-ko-0.9.2/\n    ./configure --prefix=`pwd`\n    make\n    make install\n\n    cd ..\n    curl -LO https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/mecab-ko-dic-2.1.1-20180720.tar.gz\n    tar zxfv mecab-ko-dic-2.1.1-20180720.tar.gz\n    cd mecab-ko-dic-2.1.1-20180720/\n    ./autogen.sh\n    ./configure --prefix=`pwd` --with-dicdir=$MECAB/lib/mecab/dic/mecab-ko-dic --with-mecab-config=$MECAB/bin/mecab-config\n    make\n    sh -c 'echo \"dicdir=$MECAB/lib/mecab/dic/mecab-ko-dic\" > $MECAB/etc/mecabrc'\n    make install\n    cd $CWD\nfi\n\nINDIC_RESOURCES_PATH=$INSTALL_PATH/indic_nlp_resources\nif [ ! -d $INDIC_RESOURCES_PATH ]; then\n    echo 'Cloning indic_nlp_resources'\n    git clone https://github.com/anoopkunchukuttan/indic_nlp_resources.git $INDIC_RESOURCES_PATH\nfi\n\n\nif [ ! -f $INSTALL_PATH/seg_my.py ]; then\n    cd $INSTALL_PATH\n    wget http://lotus.kuee.kyoto-u.ac.jp/WAT/my-en-data/wat2020.my-en.zip\n    unzip wat2020.my-en.zip\n    # switch to python3\n    cat wat2020.my-en/myseg.py  |sed 's/^sys.std/###sys.std/g' | sed 's/### sys/sys/g' | sed 's/unichr/chr/g' > seg_my.py\n    cd $CWD\nfi\n\n\npip install pythainlp sacrebleu indic-nlp-library\n\n"
  },
  {
    "path": "examples/m2m_100/process_data/clean_histogram.py",
    "content": "import argparse\n\nparser = argparse.ArgumentParser()\nparser.add_argument('--src', type=str, help='Source language')\nparser.add_argument('--tgt', type=str, help='Target language')\nparser.add_argument('--src-file', type=str, help='Input source file')\nparser.add_argument('--tgt-file', type=str, help='Input target file')\nparser.add_argument('--src-output-file', type=str, help='Output source file')\nparser.add_argument('--tgt-output-file', type=str, help='Output target file')\nparser.add_argument('--threshold', type=float, default=0.5, help='Threshold')\nparser.add_argument('--threshold-character', type=str, default=']', help='Threshold character')\nparser.add_argument('--histograms', type=str, help='Path to histograms')\n\nargs = parser.parse_args()\n\n\ndef read_hist(f):\n    ch = []\n    for line in f:\n        c = line[0]\n        if c == args.threshold_character:\n            break\n        ch.append(c)\n    return ch\n\n\nwith(open(\"{}/{}\".format(args.histograms, args.src), 'r', encoding='utf8')) as f:\n    ch1 = read_hist(f)\n\nwith(open(\"{}/{}\".format(args.histograms, args.tgt), 'r', encoding='utf8')) as f:\n    ch2 = read_hist(f)\n\nprint(\"Accepted characters for {}: {}\".format(args.src, ch1))\nprint(\"Accepted characters for {}: {}\".format(args.tgt, ch2))\n\nwith open(args.src_file, 'r', encoding='utf8') as fs1, open(args.tgt_file, 'r', encoding='utf8') as fs2, open(args.src_output_file, 'w', encoding='utf8') as fos1, open(args.tgt_output_file, 'w', encoding='utf8') as fos2:\n    ls1 = fs1.readline()\n    ls2 = fs2.readline()\n\n    while ls1 or ls2:\n        cnt1 = len([c for c in ls1.strip() if c in ch1])\n        cnt2 = len([c for c in ls2.strip() if c in ch2])\n\n        if cnt1 / len(ls1) > args.threshold and cnt2 / len(ls2) > args.threshold:\n            fos1.write(ls1)\n            fos2.write(ls2)\n        else:\n            print(\"{} {} {} \\n{} {} {}\".format(args.src, cnt1 / len(ls1), ls1.strip(), args.tgt, cnt2 / len(ls2), ls2.strip()))\n\n        ls1 = fs1.readline()\n        ls2 = fs2.readline()\n        "
  },
  {
    "path": "examples/m2m_100/process_data/dedup_data.py",
    "content": "import argparse\nfrom collections import namedtuple\nimport os\n\nDATADIR = \"/path/to/train_data\"\nDEDUP_FROM_DIR = \"/path/to/eval/data\"\nOUTPUT_DIR = \"/path/to/output/data\"\n\n\ndef main(args):\n    languages = set()\n    for language_directory in os.listdir(DATADIR):\n        if \"_\" in language_directory:\n            src, tgt = language_directory.split(\"_\")\n            languages.add(LanguagePair(src=src, tgt=tgt))\n\n    data = existing_data()\n    train_languages = sorted(languages)\n    for language_pair in train_languages[args.start_index:args.start_index + args.size]:\n        print(language_pair)\n        dedup(language_pair, data)\n\n\nLanguagePair = namedtuple(\"LanguagePair\", [\"src\", \"tgt\"])\n\n\ndef existing_data():\n    data = set()\n    for file in os.listdir(DEDUP_FROM_DIR):\n        with open(os.path.join(DEDUP_FROM_DIR, file)) as f:\n            data |= set(f.readlines())\n    return data\n \ndef dedup(language_pair, data, verbose=True, output=True):\n    train_filenames = LanguagePair(\n            src=f\"{DATADIR}/{language_pair.src}_{language_pair.tgt}/train.{language_pair.src}\",\n            tgt=f\"{DATADIR}/{language_pair.src}_{language_pair.tgt}/train.{language_pair.tgt}\",\n        )\n\n    output_filenames = LanguagePair(\n        src=f\"{OUTPUT_DIR}/train.dedup.{language_pair.src}-{language_pair.tgt}.{language_pair.src}\",\n        tgt=f\"{OUTPUT_DIR}/train.dedup.{language_pair.src}-{language_pair.tgt}.{language_pair.tgt}\"\n    )\n\n    # If output exists, skip this pair. It has already been done.\n    if (os.path.exists(output_filenames.src) and\n        os.path.exists(output_filenames.tgt)):\n        if verbose:\n            print(f\"{language_pair.src}-{language_pair.tgt} already done.\")\n        return\n\n    if verbose:\n        print(f\"{language_pair.src}-{language_pair.tgt} ready, will check dups.\")\n\n    # If there is no output, no need to actually do the loop.\n    if not output:\n        return\n\n    if os.path.exists(train_filenames.src) and os.path.exists(train_filenames.tgt):\n        with open(train_filenames.src) as f:\n            train_source = f.readlines()\n\n        with open(train_filenames.tgt) as f:\n            train_target = f.readlines()\n\n        # do dedup\n        new_train_source = []\n        new_train_target = []\n        for i, train_line in enumerate(train_source):\n            if train_line not in data and train_target[i] not in data:\n                new_train_source.append(train_line)\n                new_train_target.append(train_target[i])\n\n        assert len(train_source) == len(train_target)\n        assert len(new_train_source) == len(new_train_target)\n        assert len(new_train_source) <= len(train_source)\n\n        with open(output_filenames.src, \"w\") as o:\n            for line in new_train_source:\n                o.write(line)\n\n        with open(output_filenames.tgt, \"w\") as o:\n            for line in new_train_target:\n                o.write(line)\n\n\nif __name__ == '__main__':\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"-s\", \"--start-index\", required=True, type=int)\n    parser.add_argument(\"-n\", \"--size\", required=True, type=int)\n    main(parser.parse_args())\n"
  },
  {
    "path": "examples/m2m_100/process_data/remove_too_much_punc.py",
    "content": "import gzip\nimport argparse\nfrom string import punctuation\n\ndef len_no_punc(s, punc):\n    return len([ch for ch in s if ch in punc])\n\ndef filter_overpunc(len_npunc, len_sen):\n    return len_npunc < 0.5*len_sen\n\ndef main(args):\n    punc = punctuation + \"—|–\"\n    print('Processing file {}'.format(args.input))\n    with gzip.open(args.input, 'rt', encoding=args.encoding) as tsv:\n        with open(args.bitext + '.' + args.src_lang, 'wt', encoding=args.encoding) as fsrc:\n            with open(args.bitext + '.' + args.tgt_lang, 'wt', encoding=args.encoding) as ftgt:\n                line = tsv.readline()\n                fields = line.split('\\t')\n\n                src, tgt = fields[1], fields[2]\n\n                nchar_npunc_src = len_no_punc(src, punc)\n                nchar_npunc_tgt = len_no_punc(tgt, punc)\n\n                if filter_overpunc(nchar_npunc_src, len(src)) and filter_overpunc(nchar_npunc_tgt, len(tgt)):\n                    fsrc.write(src.strip() + '\\n')\n                    ftgt.write(tgt.strip() + '\\n')\n\nif __name__ == '__main__':\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--input\", required=True, type=str)\n    parser.add_argument('--encoding', default='utf-8', help='character encoding for input/output')\n    parser.add_argument('--bitext', type=str, required=True, help='language direction')\n    parser.add_argument('--src-lang', type=str, required=True, help='Source language')\n    parser.add_argument('--tgt-lang', type=str, required=True, help='Target language')\n    main(parser.parse_args())\n"
  },
  {
    "path": "examples/m2m_100/tok.sh",
    "content": "#!/usr/bin/env bash\n# Copyright (c) 2019-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n#\n\nset -e\n\nTOKENIZERS_SCRIPTS=tokenizers\nINSTALL_PATH=$TOKENIZERS_SCRIPTS/thirdparty\n\nN_THREADS=8\n\nlg=$1\n\nMOSES=$INSTALL_PATH/mosesdecoder\nREPLACE_UNICODE_PUNCT=$MOSES/scripts/tokenizer/replace-unicode-punctuation.perl\nNORM_PUNC=$MOSES/scripts/tokenizer/normalize-punctuation.perl\nREM_NON_PRINT_CHAR=$MOSES/scripts/tokenizer/remove-non-printing-char.perl\nTOKENIZER=$MOSES/scripts/tokenizer/tokenizer.perl\n\n# special tokenization for Romanian\nWMT16_SCRIPTS=$INSTALL_PATH/wmt16-scripts\n\nNORMALIZE_ROMANIAN=$WMT16_SCRIPTS/preprocess/normalise-romanian.py\nREMOVE_DIACRITICS=$WMT16_SCRIPTS/preprocess/remove-diacritics.py\n\n# Burmese\nMY_SEGMENT=$INSTALL_PATH/seg_my.py\n\n# Arabic\nAR_TOKENIZER=$TOKENIZERS_SCRIPTS/tokenizer_ar.sh\n\n# Korean\nKO_SEGMENT=$TOKENIZERS_SCRIPTS/seg_ko.sh\n\n# Japanese\nJA_SEGMENT=$TOKENIZERS_SCRIPTS/seg_ja.sh\n\n# Indic\nIN_TOKENIZER=$TOKENIZERS_SCRIPTS/tokenize_indic.py\nINDIC_RESOURCES_PATH=$INSTALL_PATH/indic_nlp_resources\n\n# Thai\nTHAI_TOKENIZER=$TOKENIZERS_SCRIPTS/tokenize_thai.py\n\n# Chinese\nCHINESE_TOKENIZER=$TOKENIZERS_SCRIPTS/tokenize_zh.py\n\n# Chinese\nif [ \"$lg\" = \"zh\" ]; then\n  cat - | $REPLACE_UNICODE_PUNCT | $NORM_PUNC -l $lg | $REM_NON_PRINT_CHAR | python $CHINESE_TOKENIZER\n# Thai\nelif [ \"$lg\" = \"th\" ]; then\n  cat - | python $THAI_TOKENIZER\n# Japanese\nelif [ \"$lg\" = \"ja\" ]; then\n  cat - | $REPLACE_UNICODE_PUNCT | $NORM_PUNC -l $lg | $REM_NON_PRINT_CHAR | ${JA_SEGMENT}\n# Korean\nelif [ \"$lg\" = \"ko\" ]; then\n  cat - | $REM_NON_PRINT_CHAR | ${KO_SEGMENT}\n# Romanian\nelif [ \"$lg\" = \"ro\" ]; then\n  cat - | $REPLACE_UNICODE_PUNCT | $NORM_PUNC -l $lg | $REM_NON_PRINT_CHAR | $NORMALIZE_ROMANIAN | $REMOVE_DIACRITICS | $TOKENIZER -no-escape -threads $N_THREADS -l $lg\n# Burmese\nelif [ \"$lg\" = \"my\" ]; then\n  cat - | python ${MY_SEGMENT}\n# Arabic\nelif [ \"$lg\" = \"ar\" ]; then\n  cat - | ${AR_TOKENIZER}\n# Indic\nelif [ \"$lg\" = \"ne\" ]; then\n  cat - | python ${IN_TOKENIZER} $lg\nelif [ \"$lg\" = \"si\" ]; then\n  cat - | python ${IN_TOKENIZER} $lg\nelif [ \"$lg\" = \"hi\" ]; then\n  cat - | python ${IN_TOKENIZER} $lg\n# other languages\nelse\n  cat - | $REPLACE_UNICODE_PUNCT | $NORM_PUNC -l $lg | $REM_NON_PRINT_CHAR | $TOKENIZER -no-escape -threads $N_THREADS -l $lg\nfi\n"
  },
  {
    "path": "examples/m2m_100/tokenizers/README.md",
    "content": "# M2M-100 Tokenization\n\nWe apply different tokenization strategies for different languages following the existing literature. Here we provide tok.sh a tokenizer that can be used to reproduce our results.\n\nTo reproduce the results, follow these steps:\n\n```\ntgt_lang=...\nreference_translation=...\ncat generation_output | grep -P \"^H\" | sort -V | cut -f 3- | sh tok.sh $tgt_lang > hyp\ncat $reference_translation |sh tok.sh $tgt_lang > ref\nsacrebleu -tok 'none' ref < hyp\n```\n\n## Installation\n\nTools needed for all the languages except Arabic can be installed by running install_dependencies.sh\nIf you want to evaluate Arabic models, please follow the instructions provided here: http://alt.qcri.org/tools/arabic-normalizer/ to install \n"
  },
  {
    "path": "examples/m2m_100/tokenizers/seg_ja.sh",
    "content": "#!/usr/bin/env bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nSCRIPT=`realpath $0`\nKYTEA=`dirname $SCRIPT`/thirdparty/kytea\nexport LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$KYTEA/lib:/usr/local/lib\nexport PATH=$PATH:\"$KYTEA/bin\"\n\ncat - | tr -d \"[:blank:]\" | kytea -notags\n"
  },
  {
    "path": "examples/m2m_100/tokenizers/seg_ko.sh",
    "content": "#!/usr/bin/env bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nSCRIPT=`realpath $0`\nMECAB=`dirname $SCRIPT`/thirdparty/mecab-0.996-ko-0.9.2\n\nexport PATH=$PATH:\"$MECAB/bin\":\"$MECAB/lib\"\nexport LD_LIBRARY_PATH=$LD_LIBRARY_PATH:\"$MECAB/lib\"\n\ncat - | mecab -O wakati\n"
  },
  {
    "path": "examples/m2m_100/tokenizers/thirdparty/.gitignore",
    "content": "seg_my.py\nindic_nlp_library/\nindic_nlp_resources/\nkytea/\nmecab-0.996-ko-0.9.2.tar.gz\nmecab-0.996-ko-0.9.2/\nmosesdecoder/\nwat2020.my-en.zip\nwat2020.my-en/\nwmt16-scripts/\nmecab-ko-dic-2.1.1-20180720/\nmecab-ko-dic-2.1.1-20180720.tar.gz"
  },
  {
    "path": "examples/m2m_100/tokenizers/tokenize_indic.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n# Use: echo {text} | python tokenize_indic.py {language}\n\nimport sys\n\nfrom indicnlp.normalize.indic_normalize import IndicNormalizerFactory\nfrom indicnlp.tokenize.indic_tokenize import trivial_tokenize\n\n\nfactory = IndicNormalizerFactory()\nnormalizer = factory.get_normalizer(\n    sys.argv[1], remove_nuktas=False, nasals_mode=\"do_nothing\"\n)\n\nfor line in sys.stdin:\n    normalized_line = normalizer.normalize(line.strip())\n    tokenized_line = \" \".join(trivial_tokenize(normalized_line, sys.argv[1]))\n    print(tokenized_line)\n"
  },
  {
    "path": "examples/m2m_100/tokenizers/tokenize_thai.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport sys\n\nfrom pythainlp import word_tokenize\n\n\nfor line in sys.stdin:\n    print(\" \".join(word_tokenize(line.strip())))\n"
  },
  {
    "path": "examples/m2m_100/tokenizers/tokenize_zh.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport fileinput\n\nimport sacrebleu\n\n\nfor line in fileinput.input():\n    print(sacrebleu.tokenize_zh(line))\n"
  },
  {
    "path": "examples/m2m_100/tokenizers/tokenizer_ar.sh",
    "content": "#!/usr/bin/env sh\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n#\n# Please follow the instructions here http://alt.qcri.org/tools/arabic-normalizer/\n# to install tools needed for Arabic\n\necho \"Please install Arabic tools: http://alt.qcri.org/tools/arabic-normalizer/\"\necho \"Then update environment variables in tokenizer_ar.sh\"\nexit 1\n\nSVMTOOL=...\nGOMOSESGO=...\nQCRI_ARABIC_NORMALIZER=...\n\nexport PERL5LIB=\"$SVMTOOL/lib\":\"$GOMOSESGO/bin/MADA-3.2\":$PERL5LIB\n\n\ntempfile=$(mktemp)\ncat - > $tempfile\n\ncd $QCRI_ARABIC_NORMALIZER\n\nbash qcri_normalizer_mada3.2_aramorph1.2.1.sh $tempfile\ncat $tempfile.mada_norm-aramorph.europarl_tok\n"
  },
  {
    "path": "examples/mbart/README.md",
    "content": "# MBART: Multilingual Denoising Pre-training for Neural Machine Translation\n[https://arxiv.org/abs/2001.08210]\n\n## Introduction\n\nMBART is a sequence-to-sequence denoising auto-encoder pre-trained on large-scale monolingual corpora in many languages using the BART objective. mBART is one of the first methods for pre-training a complete sequence-to-sequence model by denoising full texts in multiple languages, while previous approaches have focused only on the encoder, decoder, or reconstructing parts of the text.\n\n## Pre-trained models\n\nModel | Description | # params | Download\n---|---|---|---\n`mbart.CC25` | mBART model with 12 encoder and decoder layers trained on 25 languages' monolingual corpus | 610M | [mbart.CC25.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/mbart/mbart.cc25.v2.tar.gz)\n`mbart.ft.ro_en` | finetune mBART cc25 model on ro-en language pairs | 610M | [mbart.cc25.ft.enro.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/mbart/mbart.cc25.ft.enro.tar.gz)\n\n## Results\n\n**[WMT16 EN-RO](https://www.statmt.org/wmt16/translation-task.html)**\n\n_(test set, no additional data used)_\n\nModel | en-ro | ro-en\n---|---|---\n`Random` | 34.3 | 34.0\n`mbart.cc25` | 37.7 | 37.8\n`mbart.enro.bilingual` | 38.5 | 38.5 \n\n## BPE data\n# download model\nwget https://dl.fbaipublicfiles.com/fairseq/models/mbart/mbart.cc25.v2.tar.gz\ntar -xzvf mbart.CC25.tar.gz\n# bpe data\ninstall SPM [here](https://github.com/google/sentencepiece)\n```bash\nSPM=/path/to/sentencepiece/build/src/spm_encode\nMODEL=sentence.bpe.model\n${SPM} --model=${MODEL} < ${DATA}/${TRAIN}.${SRC} > ${DATA}/${TRAIN}.spm.${SRC} &\n${SPM} --model=${MODEL} < ${DATA}/${TRAIN}.${TGT} > ${DATA}/${TRAIN}.spm.${TGT} &\n${SPM} --model=${MODEL} < ${DATA}/${VALID}.${SRC} > ${DATA}/${VALID}.spm.${SRC} &\n${SPM} --model=${MODEL} < ${DATA}/${VALID}.${TGT} > ${DATA}/${VALID}.spm.${TGT} &\n${SPM} --model=${MODEL} < ${DATA}/${TEST}.${SRC} > ${DATA}/${TEST}.spm.${SRC} &\n${SPM} --model=${MODEL} < ${DATA}/${TEST}.${TGT} > ${DATA}/${TEST}.spm.${TGT} &\n```\n\n## Preprocess data\n\n```bash\nDICT=dict.txt\nfairseq-preprocess \\\n  --source-lang ${SRC} \\\n  --target-lang ${TGT} \\\n  --trainpref ${DATA}/${TRAIN}.spm \\\n  --validpref ${DATA}/${VALID}.spm \\\n  --testpref ${DATA}/${TEST}.spm \\\n  --destdir ${DEST}/${NAME} \\\n  --thresholdtgt 0 \\\n  --thresholdsrc 0 \\\n  --srcdict ${DICT} \\\n  --tgtdict ${DICT} \\\n  --workers 70\n```\n\n## Finetune on EN-RO\nFinetune on mbart CC25\n\n```bash\nPRETRAIN=mbart.cc25 # fix if you moved the downloaded checkpoint\nlangs=ar_AR,cs_CZ,de_DE,en_XX,es_XX,et_EE,fi_FI,fr_XX,gu_IN,hi_IN,it_IT,ja_XX,kk_KZ,ko_KR,lt_LT,lv_LV,my_MM,ne_NP,nl_XX,ro_RO,ru_RU,si_LK,tr_TR,vi_VN,zh_CN\n\nfairseq-train path_2_data \\\n  --encoder-normalize-before --decoder-normalize-before \\\n  --arch mbart_large --layernorm-embedding \\\n  --task translation_from_pretrained_bart \\\n  --source-lang en_XX --target-lang ro_RO \\\n  --criterion label_smoothed_cross_entropy --label-smoothing 0.2 \\\n  --optimizer adam --adam-eps 1e-06 --adam-betas '(0.9, 0.98)' \\\n  --lr-scheduler polynomial_decay --lr 3e-05 --warmup-updates 2500 --total-num-update 40000 \\\n  --dropout 0.3 --attention-dropout 0.1 --weight-decay 0.0 \\\n  --max-tokens 1024 --update-freq 2 \\\n  --save-interval 1 --save-interval-updates 5000 --keep-interval-updates 10 --no-epoch-checkpoints \\\n  --seed 222 --log-format simple --log-interval 2 \\\n  --restore-file $PRETRAIN \\\n  --reset-optimizer --reset-meters --reset-dataloader --reset-lr-scheduler \\\n  --langs $langs \\\n  --ddp-backend legacy_ddp\n```\n## Generate on EN-RO\nGet sacrebleu on finetuned en-ro model\n\nget tokenizer  [here](https://github.com/rsennrich/wmt16-scripts)\n```bash  \nwget https://dl.fbaipublicfiles.com/fairseq/models/mbart/mbart.cc25.ft.enro.tar.gz  \ntar -xzvf mbart.cc25.ft.enro.tar.gz\n```\n\n```bash\nmodel_dir=MBART_finetuned_enro # fix if you moved the checkpoint\n\nfairseq-generate path_2_data \\\n  --path $model_dir/model.pt \\\n  --task translation_from_pretrained_bart \\\n  --gen-subset test \\\n  -t ro_RO -s en_XX \\\n  --bpe 'sentencepiece' --sentencepiece-model $model_dir/sentence.bpe.model \\\n  --sacrebleu --remove-bpe 'sentencepiece' \\\n  --batch-size 32 --langs $langs > en_ro\n\ncat en_ro | grep -P \"^H\" |sort -V |cut -f 3- | sed 's/\\[ro_RO\\]//g' |$TOKENIZER ro > en_ro.hyp\ncat en_ro | grep -P \"^T\" |sort -V |cut -f 2- | sed 's/\\[ro_RO\\]//g' |$TOKENIZER ro > en_ro.ref\nsacrebleu -tok 'none' -s 'none' en_ro.ref < en_ro.hyp\n```\n\n## Citation\n\n```bibtex\n@article{liu2020multilingual,\n    title={Multilingual Denoising Pre-training for Neural Machine Translation},\n    author={Yinhan Liu and Jiatao Gu and Naman Goyal and Xian Li and Sergey Edunov and Marjan Ghazvininejad and Mike Lewis and Luke Zettlemoyer},\n    year={2020},\n    eprint={2001.08210},\n    archivePrefix={arXiv},\n    primaryClass={cs.CL}\n}\n```\n"
  },
  {
    "path": "examples/megatron_11b/README.md",
    "content": "# Megatron-11b\n\nMegatron-11b is a unidirectional language model with `11B` parameters based on [Megatron-LM](https://arxiv.org/pdf/1909.08053.pdf). Following the original Megatron work, we trained the model using intra-layer model parallelism with each layer's parameters split across 8 GPUs.\n\nMegatron-11b is trained on the same data and uses the same byte-pair encoding (BPE) as [RoBERTa](https://arxiv.org/pdf/1907.11692.pdf).\n\n## Pre-trained models\n\nModel | Description | # params | # filesize | Download\n---|---|---|---|---\n`megatron_11b` | megatron_11b unidirectional language model | 11B | 19Gb | [megatron_11b.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/model_parallel/megatron_11b.tar.gz)\n\n#### Architecture:\n\nParam | Value\n---|---\nembed_dim | 3072\nffn_dim | 3072 * 6\nlayers | 72\nattention heads | 32\n\n#### Training details:\n\nParam | value\n---|---\nbsz | 512\nnum_updates | 300,000\npeak_lr | 1.5e-04\nlr scheduler | inverse_sqrt\nclip norm | 0.0\n\n\n## Example training command (model parallel)\n\nMegatron-11b contains too many parameters to train on a single GPU. Following\nthe original Megatron work, we adopt an intra-layer model parallel training\napproach in which each layer's parameters are split across multiple GPUs and\nactivations and gradients are communicated during the forward/backward pass,\nrespectively. We similarly split the loss computation using the\n`vocab_parallel_cross_entropy` criterion.\n\nThe following training command illustrates how to do model parallel training in\nfairseq. We assume that each machine (node) has 8 GPUs among which to split the\nmodel parameters (`--model-parallel-size 8`). If you have access to multiple\nnodes, you may combine this with data parallel training by increasing\n`--distributed-world-size`.\n\nTo train Megatron-11b on a single node:\n\n\n```bash\nfairseq-train <DATA_PATH> \\\n  --distributed-world-size 8  \\\n  --memory-efficient-fp16 \\\n  --num-workers 2 \\\n  --model-parallel-size 8 \\\n  --criterion vocab_parallel_cross_entropy \\\n  --task language_modeling \\\n  --sample-break-mode none \\\n  --tokens-per-sample 1024 \\\n  --arch transformer_lm_megatron_11b \\\n  --share-decoder-input-output-embed \\\n  --optimizer adam --adam-betas \"(0.9, 0.98)\" --adam-eps 1e-08 --clip-norm 0.0 \\\n  --lr-scheduler inverse_sqrt --lr 0.00015 \\\n  --warmup-updates 3000 --weight-decay 0.01 \\\n  --dropout 0.1 --attention-dropout 0.1 \\\n  --batch-size 2 \\\n  --max-update 300000;\n```\n\nNote: Above was tested on `DGX-1` box, with `8xV100-32Gb` GPUs.\n\n## Results\n\n**[Wikitext103](https://blog.einstein.ai/the-wikitext-long-term-dependency-language-modeling-dataset/)**\n\nModel | Valid perplexity | Test perplexity\n---|---|---\n`megatron_11b` | 10.64 | 10.54\n\n\n## Evaluating `megatron_11b` on Wikitext-103\n\n#### 1. Downloading Megatron-11b\n```bash\n# WARNING: this file is 19GB\nwget https://dl.fbaipublicfiles.com/fairseq/models/model_parallel/megatron_11b.tar.gz\ntar -xzvf megatron_11b.tar.gz\n```\n\n#### 2. Download Wikitext-103\n```bash\nwget https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-103-raw-v1.zip\nunzip wikitext-103-raw-v1.zip\n```\n\n#### 3. Detokenize test tokens\nMegatron-11b uses a byte-level BPE that expects raw (untokenized) input. Since\nthe wikitext-103 dataset comes tokenized, we apply a simple detokenization\nprocess to restore the untokenized test set:\n\n```bash\npython -m examples.megatron_11b.detok wikitext-103-raw/wiki.test.raw > wikitext-103-raw/wiki.test.detok\n```\n\n#### 4. BPE encoding\n```bash\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/encoder.json'\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/vocab.bpe'\n\npython -m examples.roberta.multiprocessing_bpe_encoder \\\n    --encoder-json encoder.json \\\n    --vocab-bpe vocab.bpe \\\n    --inputs \"wikitext-103-raw/wiki.test.detok\" \\\n    --outputs \"wikitext-103-raw/wiki.test.bpe\" \\\n    --workers 60;\n```\n\n#### 5. Fairseq binarize\n```bash\nfairseq-preprocess \\\n    --only-source \\\n    --testpref wikitext-103-raw/wiki.test.bpe \\\n    --srcdict megatron_11b/dict.txt \\\n    --destdir wikitext103-bin;\n```\n\n#### 6. Evaluating perplexity.\nWe can now evaluate perplexity on the test set. Note that because we've modified\nthe test set (via detokenization and BPE), the perplexity reported by\n`fairseq-eval-lm` needs to be renormalized.\n\nCompute unnormalized perplexity:\n\n```bash\nDATA_PATH=wikitext103-bin/\nfairseq-eval-lm \\\n  $DATA_PATH \\\n  --path megatron_11b/model.pt \\\n  --task language_modeling \\\n  --gen-subset test \\\n  --batch-size 8 \\\n  --criterion cross_entropy \\\n  --context-window 992 \\\n  --distributed-world-size 8 \\\n  --model-parallel-size 8;\n# Expected PPL (unnormalized_ppl): [8.46]\n# Note: the eval command needs to run on 8 GPUs for the released model\n```\nRenormalizing formula:  `2 ^ ( log_2(unnormalized_PPL) * (270847 / 245566))`.\nPPL After normalization: `10.54`\n\nTo renormalize the perplexity, we must account for the change in token count\nafter detokenizing and appling BPE. The formula for this is:\n`2 ^ ( log_2(unnormalized_PPL) * (new_token_cnt / orig_token_cnt))`\n\nFor the wikitext-103 test set, the original token count is `245566` and the\ntoken count after detokenization and applying BPE is `270847`.\n\nThe perplexity after renormalization is:\n`2 ^ ( log_2(8.46) * (270847 / 245566)) = 10.54`\n"
  },
  {
    "path": "examples/megatron_11b/detok.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport fileinput\n\nimport sacremoses\n\n\ndef main():\n    parser = argparse.ArgumentParser(description=\"\")\n    parser.add_argument(\"files\", nargs=\"*\", help=\"input files\")\n    args = parser.parse_args()\n\n    detok = sacremoses.MosesDetokenizer()\n\n    for line in fileinput.input(args.files, openhook=fileinput.hook_compressed):\n        print(\n            detok.detokenize(line.strip().split(\" \"))\n            .replace(\" @\", \"\")\n            .replace(\"@ \", \"\")\n            .replace(\" =\", \"=\")\n            .replace(\"= \", \"=\")\n            .replace(\" – \", \"–\")\n        )\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/mms/MODEL_CARD.md",
    "content": "# MMS Model Card\n\n## Model details\n\n**Organization developing the model**  The FAIR team\n\n**Model version**  This is version 1 of the model.\n\n**Model type**  MMS is speech model, based on the transformer architecture. The pre-trained model comes in two sizes: 300M and 1B parameters. We fine-tune the model for speech recognition and make it available in the 1B variant. We also fine-tune the 1B variant for language identification.\n\n**License**  CC BY-NC\n\n**Where to send questions or comments about the model**  Questions and comments about MMS can be sent via the  [GitHub repository](https://github.com/pytorch/fairseq/tree/master/examples/mms)  of the project , by opening an issue and tagging it as MMS.\n\n## Uses\n\n**Primary intended uses**  The primary use of MMS is to perform speech processing research for many more languages and to perform tasks such as automatic speech recognition, language identification, and speech synthesis.\n\n**Primary intended users**  The primary intended users of the model are researchers in speech processing, machine learning and artificial intelligence.\n\n**Out-of-scope use cases**  Fine-tuning the pre-pretrained models on other labeled datasets or downstream tasks requires further risk evaluation and mitigation.\n\n## Bias and Risks\n\nThe MMS models were pre-trained on a blend of data from different domains, including readings of the New Testament. In the paper, we describe two studies analyzing gender bias and the use of religious language which conclude that models perform equally well for both genders and that on average, there is little bias for religious language (section 8 of the paper).\n\n# Training Details\n\n## Training Data\n\nMMS is pre-trained on VoxPopuli (parliamentary speech), MLS (read audiobooks), VoxLingua-107 (YouTube speech), CommonVoice (read Wikipedia text), BABEL (telephone conversations), and MMS-lab-U (New Testament readings), MMS-unlab (various read Christian texts).\nModels are fine-tuned on FLEURS, VoxLingua-107, MLS, CommonVoice, and MMS-lab. We obtained the language information for MMS-lab, MMS-lab-U and MMS-unlab from our data soucrce and did not  manually verify it for every language.\n\n## Training Procedure\n\nPlease refer to the research paper for details on this.\n\n# Evaluation\n\n## Testing Data, Factors & Metrics\n\nWe evaluate the model on a different benchmarks for the downstream tasks. The evaluation details are presented in the paper. The models performance is measured using standard metrics such as character error rate, word error rate, and classification accuracy.\n\n\n# Citation\n\n**BibTeX:**\n\n```\n@article{pratap2023mms,\n  title={Scaling Speech Technology to 1,000+ Languages},\n  author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},\n  journal={arXiv},\n  year={2023}\n}\n\n```\n\n# Model Card Contact\n\nPlease reach out to the authors at: [vineelkpratap@meta.com](mailto:vineelkpratap@meta.com) [androstj@meta.com](mailto:androstj@meta.com) [bshi@meta.com](mailto:bshi@meta.com) [michaelauli@meta.com](mailto:michaelauli@gmail.com)\n\n\n"
  },
  {
    "path": "examples/mms/README.md",
    "content": "# MMS: Scaling Speech Technology to 1000+ languages\n\nThe Massively Multilingual Speech (MMS) project expands speech technology from about 100 languages to over 1,000 by building a single multilingual speech recognition model supporting over 1,100 languages (more than 10 times as many as before), language identification models able to identify over [4,000 languages](https://dl.fbaipublicfiles.com/mms/misc/language_coverage_mms.html) (40 times more than before), pretrained models supporting over 1,400 languages, and text-to-speech models for over 1,100 languages. Our goal is to make it easier for people to access information and to use devices in their preferred language.  \n\nYou can find details in the paper [Scaling Speech Technology to 1000+ languages](https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/) and the [blog post](https://ai.facebook.com/blog/multilingual-model-speech-recognition/).\n\nAn overview of the languages covered by MMS can be found [here](https://dl.fbaipublicfiles.com/mms/misc/language_coverage_mms.html).\n\n## 🤗 Transformers\n\nMMS has been added to Transformers. For more information, please refer to [Transformers' MMS docs](https://huggingface.co/docs/transformers/main/en/model_doc/mms).\n\n[Click here](https://huggingface.co/models?other=mms) to find all MMS checkpoints on the Hub. \n\nCheckout the demo here [![Open In HF Spaces](https://huggingface.co/datasets/huggingface/badges/raw/main/open-in-hf-spaces-sm-dark.svg)](https://huggingface.co/spaces/facebook/MMS) \n\n## Finetuned models\n### ASR\n\n| Model | Languages | Dataset | Model | Dictionary* | Supported languages |  |\n|---|---|---|---|---|---|---\nMMS-1B:FL102 | 102 | FLEURS | [download](https://dl.fbaipublicfiles.com/mms/asr/mms1b_fl102.pt) | [download](https://dl.fbaipublicfiles.com/mms/asr/dict/mms1b_fl102/eng.txt) | [download](https://dl.fbaipublicfiles.com/mms/asr/mms1b_fl102_langs.html) | [🤗 Hub](https://huggingface.co/facebook/mms-1b-fl102)\nMMS-1B:L1107| 1107 | MMS-lab | [download](https://dl.fbaipublicfiles.com/mms/asr/mms1b_l1107.pt) | [download](https://dl.fbaipublicfiles.com/mms/asr/dict/mms1b_l1107/eng.txt)  | [download](https://dl.fbaipublicfiles.com/mms/asr/mms1b_l1107_langs.html) | [🤗 Hub](https://huggingface.co/facebook/mms-1b-l1107)\nMMS-1B-all| 1162 | MMS-lab + FLEURS <br>+ CV + VP + MLS |  [download](https://dl.fbaipublicfiles.com/mms/asr/mms1b_all.pt) | [download](https://dl.fbaipublicfiles.com/mms/asr/dict/mms1b_all/eng.txt) | [download](https://dl.fbaipublicfiles.com/mms/asr/mms1b_all_langs.html) | [🤗 Hub](https://huggingface.co/facebook/mms-1b-all)\n\n\\* In the `Dictionary` column, we provide the download link for token dictionary in English language. To download token dictionary for a different language supported by the model, modify the language code in the URL appropriately. For example, to get token dictionary of FL102 model for Hindi language, use [this](https://dl.fbaipublicfiles.com/mms/asr/dict/mms1b_fl102/hin.txt) link. \n\n### TTS\n1. Download the list of [iso codes](https://dl.fbaipublicfiles.com/mms/tts/all-tts-languages.html) of 1107 languages.\n2. Find the iso code of the target language and download the checkpoint. Each folder contains 3 files: `G_100000.pth`,  `config.json`, `vocab.txt`. The `G_100000.pth` is the generator trained for 100K updates, `config.json` is the training config, `vocab.txt` is the vocabulary for the TTS model. \n```\n# Examples:\nwget https://dl.fbaipublicfiles.com/mms/tts/eng.tar.gz # English (eng)\nwget https://dl.fbaipublicfiles.com/mms/tts/azj-script_latin.tar.gz # North Azerbaijani (azj-script_latin)\n```\nThe above command downloads generator only, which is enough to run TTS inference. If you want the full model checkpoint which also includes the discriminator (`D_100000.pth`) and the optimizer states, download as follows.\n```\n# Example (full checkpoint: generator + discriminator + optimizer):\nwget https://dl.fbaipublicfiles.com/mms/tts/full_model/eng.tar.gz # English (eng)\n```\n\n\n### LID\n\n\\# Languages | Dataset | Model | Dictionary | Supported languages | |\n|---|---|---|---|---|---\n126 | FLEURS + VL + MMS-lab-U + MMS-unlab | [download](https://dl.fbaipublicfiles.com/mms/lid/mms1b_l126.pt) | [download](https://dl.fbaipublicfiles.com/mms/lid/dict/l126/dict.lang.txt) | [download](https://dl.fbaipublicfiles.com/mms/lid/mms1b_l126_langs.html) | [🤗 Hub](https://huggingface.co/facebook/mms-lid-126)\n256 | FLEURS + VL + MMS-lab-U + MMS-unlab | [download](https://dl.fbaipublicfiles.com/mms/lid/mms1b_l256.pt) | [download](https://dl.fbaipublicfiles.com/mms/lid/dict/l256/dict.lang.txt) | [download](https://dl.fbaipublicfiles.com/mms/lid/mms1b_l256_langs.html) | [🤗 Hub](https://huggingface.co/facebook/mms-lid-256)\n512 | FLEURS + VL + MMS-lab-U + MMS-unlab | [download](https://dl.fbaipublicfiles.com/mms/lid/mms1b_l512.pt) | [download](https://dl.fbaipublicfiles.com/mms/lid/dict/l512/dict.lang.txt) | [download](https://dl.fbaipublicfiles.com/mms/lid/mms1b_l512_langs.html)| [🤗 Hub](https://huggingface.co/facebook/mms-lid-512)\n1024 | FLEURS + VL + MMS-lab-U + MMS-unlab | [download](https://dl.fbaipublicfiles.com/mms/lid/mms1b_l1024.pt) | [download](https://dl.fbaipublicfiles.com/mms/lid/dict/l1024/dict.lang.txt) | [download](https://dl.fbaipublicfiles.com/mms/lid/mms1b_l1024_langs.html)| [🤗 Hub](https://huggingface.co/facebook/mms-lid-1024)\n2048 | FLEURS + VL + MMS-lab-U + MMS-unlab | [download](https://dl.fbaipublicfiles.com/mms/lid/mms1b_l2048.pt) | [download](https://dl.fbaipublicfiles.com/mms/lid/dict/l2048/dict.lang.txt) | [download](https://dl.fbaipublicfiles.com/mms/lid/mms1b_l2048_langs.html)| [🤗 Hub](https://huggingface.co/facebook/mms-lid-2048)\n4017 | FLEURS + VL + MMS-lab-U + MMS-unlab | [download](https://dl.fbaipublicfiles.com/mms/lid/mms1b_l4017.pt) | [download](https://dl.fbaipublicfiles.com/mms/lid/dict/l4017/dict.lang.txt) | [download](https://dl.fbaipublicfiles.com/mms/lid/mms1b_l4017_langs.html)| [🤗 Hub](https://huggingface.co/facebook/mms-lid-4017)\n\n## Commands to run inference \n\n### ASR\nRun this command to transcribe one or more audio files:\n```shell command\ncd /path/to/fairseq-py/\npython examples/mms/asr/infer/mms_infer.py --model \"/path/to/asr/model\" --lang lang_code \\\n  --audio \"/path/to/audio_1.wav\" \"/path/to/audio_2.wav\" \"/path/to/audio_3.wav\"\n```\nWe also provide an Ipython notebook example inside `asr/tutorial` folder [ipynb](https://github.com/facebookresearch/fairseq/blob/main/examples/mms/asr/tutorial/MMS_ASR_Inference_Colab.ipynb) or [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/facebookresearch/fairseq/blob/main/examples/mms/asr/tutorial/MMS_ASR_Inference_Colab.ipynb) \n\n\nFor more advance configuration and calculate CER/WER, you could prepare manifest folder by creating a folder with this format: \n```\n$ ls /path/to/manifest\ndev.tsv\ndev.wrd\ndev.ltr\ndev.uid\n\n# dev.tsv each line contains <audio>  <number_of_sample>\n# if user don't have this information, please run misc/get_sample_size.py\n\n$ cat dev.tsv\n/\n/path/to/audio_1.wav  180000\n/path/to/audio_2.wav  200000\n\n$ cat dev.ltr\nt h i s | i s | o n e |\nt h i s | i s | t w o |\n\n$ cat dev.wrd\nthis is one\nthis is two\n\n$ cat dev.uid\naudio_1\naudio_2\n```\n\nFollowed by command below:\n```\nlang_code=<iso_code>\n\nPYTHONPATH=. PREFIX=INFER HYDRA_FULL_ERROR=1 python examples/speech_recognition/new/infer.py -m --config-dir examples/mms/config/ --config-name infer_common decoding.type=viterbi dataset.max_tokens=4000000 distributed_training.distributed_world_size=1 \"common_eval.path='/path/to/asr/model'\" task.data='/path/to/manifest' dataset.gen_subset=\"${lang_code}:dev\" common_eval.post_process=letter\n\n```\nAvailable options:\n* To get the raw character-based output, user can change to `common_eval.post_process=none` \n\n* To maximize GPU efficiency or avoid out-of-memory (OOM), user can tune `dataset.max_tokens=???` size\n\n* To run language model decoding, install flashlight python bindings using\n  ```\n  git clone --recursive git@github.com:flashlight/flashlight.git\n  cd flashlight; \n  git checkout 035ead6efefb82b47c8c2e643603e87d38850076 \n  cd bindings/python \n  python3 setup.py install\n  ```\n  Train a [KenLM language model](https://github.com/flashlight/wav2letter/tree/main/recipes/rasr#language-model) and prepare a lexicon file in [this](https://dl.fbaipublicfiles.com/wav2letter/rasr/tutorial/lexicon.txt) format. Pretrained languages models from our paper can be found in [🤗 Hub](https://huggingface.co/facebook/mms-cclms/).\n  \n  ```\n   LANG=<iso> # for example - 'eng', 'azj-script_latin'\n   PYTHONPATH=. PREFIX=INFER HYDRA_FULL_ERROR=1  python examples/speech_recognition/new/infer.py  --config-dir=examples/mms/asr/config \\\n      --config-name=infer_common decoding.type=kenlm  distributed_training.distributed_world_size=1  \\ \n      decoding.unique_wer_file=true   decoding.beam=500 decoding.beamsizetoken=50  \\\n      task.data=<MANIFEST_FOLDER_PATH>   common_eval.path='<MODEL_PATH.pt>' decoding.lexicon=<LEXICON_FILE> decoding.lmpath=<LM_FILE> \\  \n      decoding.results_path=<OUTPUT_DIR> dataset.gen_subset=${LANG}:dev decoding.lmweight=??? decoding.wordscore=???\n  ```\n   We typically sweep `lmweight` in the range of 0 to 5 and `wordscore` in the range of -3 to 3.  The output directory will contain the reference and hypothesis outputs from decoder. \n   \n   For decoding with character-based language models, use empty lexicon file (`decoding.lexicon=`), `decoding.unitlm=True` and sweep over `decoding.silweight` instead of `wordscore`. \n\n### TTS\nNote: clone and install [VITS](https://github.com/jaywalnut310/vits) before running inference.\n```shell script\n## English TTS\n$ PYTHONPATH=$PYTHONPATH:/path/to/vits python examples/mms/tts/infer.py --model-dir /path/to/model/eng \\\n--wav ./example.wav --txt \"Expanding the language coverage of speech technology \\\nhas the potential to improve access to information for many more people\"\n\n## Maithili TTS\n$ PYTHONPATH=$PYTHONPATH:/path/to/vits python examples/mms/tts/infer.py --model-dir /path/to/model/mai \\\n--wav ./example.wav --txt \"मुदा आइ धरि ई तकनीक सौ सं किछु बेसी भाषा तक सीमित छल जे सात हजार \\ \nसं बेसी ज्ञात भाषाक एकटा अंश अछी\"\n```\n`example.wav` contains synthesized audio for the language.\n\nWe also provide an Ipython notebook example inside `tts/tutorial` folder [ipynb](https://github.com/facebookresearch/fairseq/blob/main/examples/mms/tts/tutorial/MMS_TTS_Inference_Colab.ipynb) or [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/facebookresearch/fairseq/blob/main/examples/mms/tts/tutorial/MMS_TTS_Inference_Colab.ipynb)\n\n\n### LID\n\n\nPrepare two files in this format. Each manifest line contains <audio> and <number_of_sample>\n```\n#/path/to/manifest.tsv\n/\n/path/to/audio1.wav\t180000\n/path/to/audio2.wav\t240000\n/path/to/audio3.wav\t160000\n\n# /path/to/manifest.lang\neng 1\neng 1\neng 1\n```\n\nDownload model and the corresponding dictionary file for the LID model. \nUse the following command to run inference - \n```shell script\n$  PYTHONPATH='.'  python3  examples/mms/lid/infer.py /path/to/dict/l126/ --path /path/to/models/mms1b_l126.pt \\\n  --task audio_classification  --infer-manifest /path/to/manifest.tsv --output-path <OUTDIR>\n```\nThe above command assumes there is a file named `dict.lang.txt` in `/path/to/dict/l126/`. `<OUTDIR>/predictions.txt` will contain the predictions from the model for the audio files in `manifest.tsv`. \n\nWe also provide an Ipython notebook example inside `lid/tutorial` folder [ipynb](https://github.com/facebookresearch/fairseq/blob/main/examples/mms/lid/tutorial/MMS_LID_Inference_Colab.ipynb) or [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/facebookresearch/fairseq/blob/main/examples/mms/lid/tutorial/MMS_LID_Inference_Colab.ipynb) \n\n## Fine-tuning\n\n### ASR\n\nMMS Adapter fine-tuning has been added to the official 🤗 Transformers examples [here](https://github.com/huggingface/transformers/tree/main/examples/pytorch/speech-recognition#connectionist-temporal-classification-with-adapters).\nFor a more step-by-step explanation of how to fine-tune MMS, please have a look at the blog [**Fine-tuning MMS Adapter Models for Multi-Lingual ASR**](https://huggingface.co/blog/mms_adapters) on 🤗 blogs.\n\n### TTS\n\nFor a guide on how to fine-tune MMS TTS checkpoints using the 🤗 Transformer implementation, please have a look at this [repository](https://github.com/ylacombe/finetune-hf-vits).\n  \n## Pretrained models\n\n| Model | Link | |\n|---|---|---\nMMS-300M | [download](https://dl.fbaipublicfiles.com/mms/pretraining/base_300m.pt) | [🤗 Hub](https://huggingface.co/facebook/mms-300m)\nMMS-1B | [download](https://dl.fbaipublicfiles.com/mms/pretraining/base_1b.pt) | [🤗 Hub](https://huggingface.co/facebook/mms-1b)\n\nExample commands to finetune the pretrained models can be found [here](https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec#fine-tune-a-pre-trained-model-with-ctc).\n\n## Forced Alignment Tooling\n\nWe also developed an efficient forced alignment algorithm implemented on GPU which is able to process very long audio files. This algorithm is open sourced and we provide instructions on how to use it [here](data_prep). We also open source a multilingual alignment model trained on 31K hours of data in 1,130 languages, as well as text normalization scripts.\n\n\n# License\n\nThe MMS code and model weights are released under the CC-BY-NC 4.0 license.\n\n# Citation\n\n**BibTeX:**\n\n```\n@article{pratap2023mms,\n  title={Scaling Speech Technology to 1,000+ Languages},\n  author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},\n  journal={arXiv},\n  year={2023}\n}\n\n```\n"
  },
  {
    "path": "examples/mms/asr/config/infer_common.yaml",
    "content": "# @package _global_\n# defaults:\n#   - hydra/launcher: submitit_slurm\n\n# @package _group_\n\ntask:\n  _name: audio_finetuning\n  data: null\n  labels: ltr\ncommon_eval:\n  path: null\n  post_process: letter\n  # model_overrides: \"{'task':{'multi_corpus_keys':None}}\"\ndecoding:\n  type: viterbi\n  lexicon: null\n  unique_wer_file: false\n  results_path: null\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 1\nhydra:\n  run:\n    dir: ${common_eval.results_path}/${dataset.gen_subset}\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${common_eval.results_path}\n    subdir: ${dataset.gen_subset}\ndataset:\n  max_tokens: 2_000_000\n  gen_subset: dev\n  required_batch_size_multiple: 1\n"
  },
  {
    "path": "examples/mms/asr/infer/example_infer_adapter.sh",
    "content": "#!/bin/bash\nlang=\"$1\"\nPYTHONPATH=. PREFIX=INFER HYDRA_FULL_ERROR=1 python examples/speech_recognition/new/infer.py -m --config-dir examples/mms/asr/config/ --config-name infer_common decoding.type=viterbi dataset.max_tokens=4000000 distributed_training.distributed_world_size=1 \"common_eval.path='/fsx-wav2vec/androstj/exps/wav2vec/mms/v4/finetune/xl1b_d5_dfls_0_0.3_u300k__ft_on_d5_127_dbeta1/ft_smax_adp_common.seed:1__dataset.max_tokens:2880000__optimization.lr:[0.001]__optimization.max_update:4000__merged_ckpt/checkpoints/checkpoint_last.pt'\" task.data=/fsx-wav2vec/androstj/dataset/v4/fl/fseq dataset.gen_subset=\"${lang}:${lang}/dev\" common_eval.post_process=none\n"
  },
  {
    "path": "examples/mms/asr/infer/mms_infer.py",
    "content": "#!/usr/bin/env python -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport soundfile as sf\nimport tempfile\nfrom pathlib import Path\nimport os\nimport subprocess\nimport sys\nimport re\n\ndef parser():\n    parser = argparse.ArgumentParser(description=\"ASR inference script for MMS model\")\n    parser.add_argument(\"--model\", type=str, help=\"path to ASR model\", required=True)\n    parser.add_argument(\"--audio\", type=str, help=\"path to audio file\", required=True, nargs='+')\n    parser.add_argument(\"--lang\", type=str, help=\"audio language\", required=True)\n    parser.add_argument(\"--format\", type=str, choices=[\"none\", \"letter\"], default=\"letter\")\n    parser.add_argument(\"--extra-infer-args\", type=str, default=\"\")\n    return parser.parse_args()\n\ndef reorder_decode(hypos):\n    outputs = []\n    for hypo in hypos:\n        idx = int(re.findall(\"\\(None-(\\d+)\\)$\", hypo)[0])\n        hypo = re.sub(\"\\(\\S+\\)$\", \"\", hypo).strip()\n        outputs.append((idx, hypo))\n    outputs = sorted(outputs)\n    return outputs\n\ndef process(args):    \n    with tempfile.TemporaryDirectory() as tmpdir:\n        print(\">>> preparing tmp manifest dir ...\", file=sys.stderr)\n        tmpdir = Path(tmpdir)\n        with open(tmpdir / \"dev.tsv\", \"w\") as fw, open(tmpdir / \"dev.uid\", \"w\") as fu:\n            fw.write(\"/\\n\")\n            for audio in args.audio:\n                nsample = sf.SoundFile(audio).frames\n                fw.write(f\"{audio}\\t{nsample}\\n\")\n                fu.write(f\"{audio}\\n\")\n        with open(tmpdir / \"dev.ltr\", \"w\") as fw:\n            fw.write(\"d u m m y | d u m m y |\\n\"*len(args.audio))\n        with open(tmpdir / \"dev.wrd\", \"w\") as fw:\n            fw.write(\"dummy dummy\\n\"*len(args.audio))\n        cmd = f\"\"\"\n        PYTHONPATH=. PREFIX=INFER HYDRA_FULL_ERROR=1 python examples/speech_recognition/new/infer.py -m --config-dir examples/mms/asr/config/ --config-name infer_common decoding.type=viterbi dataset.max_tokens=1440000 distributed_training.distributed_world_size=1 \"common_eval.path='{args.model}'\" task.data={tmpdir} dataset.gen_subset=\"{args.lang}:dev\" common_eval.post_process={args.format} decoding.results_path={tmpdir} {args.extra_infer_args}\n        \"\"\"\n        print(\">>> loading model & running inference ...\", file=sys.stderr)\n        subprocess.run(cmd, shell=True, stdout=subprocess.DEVNULL,)\n        with open(tmpdir/\"hypo.word\") as fr:\n            hypos = fr.readlines()\n            outputs = reorder_decode(hypos)\n            for ii, hypo in outputs:\n                hypo = re.sub(\"\\(\\S+\\)$\", \"\", hypo).strip()\n                print(f'===============\\nInput: {args.audio[ii]}\\nOutput: {hypo}')\n\n\nif __name__ == \"__main__\":\n    args = parser()\n    process(args)\n"
  },
  {
    "path": "examples/mms/asr/tutorial/MMS_ASR_Inference_Colab.ipynb",
    "content": "{\n  \"nbformat\": 4,\n  \"nbformat_minor\": 0,\n  \"metadata\": {\n    \"colab\": {\n      \"provenance\": [],\n      \"gpuType\": \"T4\"\n    },\n    \"kernelspec\": {\n      \"name\": \"python3\",\n      \"display_name\": \"Python 3\"\n    },\n    \"language_info\": {\n      \"name\": \"python\"\n    },\n    \"accelerator\": \"GPU\",\n    \"gpuClass\": \"standard\"\n  },\n  \"cells\": [\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"# Running MMS-ASR inference in Colab\"\n      ],\n      \"metadata\": {\n        \"id\": \"Rhm7khm6GskV\"\n      }\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"In this notebook, we will give an example on how to run simple ASR inference using MMS ASR model. \\n\",\n        \"\\n\",\n        \"Credit to epk2112 [(github)](https://github.com/epk2112/fairseq_meta_mms_Google_Colab_implementation)\"\n      ],\n      \"metadata\": {\n        \"id\": \"83HXBIFeJzR8\"\n      }\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"## Step 1: Clone fairseq-py and install latest version\"\n      ],\n      \"metadata\": {\n        \"id\": \"2GfxksHDGyJv\"\n      }\n    },\n    {\n      \"cell_type\": \"code\",\n      \"execution_count\": 7,\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"id\": \"Cj2x80SegRzr\",\n        \"outputId\": \"00f9f833-3ff1-4736-e170-136875b88299\"\n      },\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"fatal: destination path 'fairseq' already exists and is not an empty directory.\\n\",\n            \"/content/fairseq\\n\",\n            \"/content/fairseq\\n\",\n            \"Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\\n\",\n            \"Obtaining file:///content/fairseq\\n\",\n            \"  Installing build dependencies ... \\u001b[?25l\\u001b[?25hcanceled\\u001b[31mERROR: Operation cancelled by user\\u001b[0m\\u001b[31m\\n\",\n            \"\\u001b[0mLooking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\\n\",\n            \"Requirement already satisfied: tensorboardX in /usr/local/lib/python3.10/dist-packages (2.6)\\n\",\n            \"Requirement already satisfied: numpy in /usr/local/lib/python3.10/dist-packages (from tensorboardX) (1.22.4)\\n\",\n            \"Requirement already satisfied: packaging in /usr/local/lib/python3.10/dist-packages (from tensorboardX) (23.1)\\n\",\n            \"Requirement already satisfied: protobuf<4,>=3.8.0 in /usr/local/lib/python3.10/dist-packages (from tensorboardX) (3.20.3)\\n\"\n          ]\n        }\n      ],\n      \"source\": [\n        \"!mkdir \\\"temp_dir\\\"\\n\",\n        \"!git clone https://github.com/pytorch/fairseq\\n\",\n        \"\\n\",\n        \"# Change current working directory\\n\",\n        \"!pwd\\n\",\n        \"%cd \\\"/content/fairseq\\\"\\n\",\n        \"!pip install --editable ./ \\n\",\n        \"!pip install tensorboardX\\n\"\n      ]\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"## 2. Download MMS model\\n\",\n        \"Un-comment to download your preferred model.\\n\",\n        \"In this example, we use MMS-FL102 for demo purposes.\\n\",\n        \"For better model quality and language coverage, user can use MMS-1B-ALL model instead (but it would require more RAM, so please use Colab-Pro instead of Colab-Free).\\n\"\n      ],\n      \"metadata\": {\n        \"id\": \"cyk4JvZOHSw3\"\n      }\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [\n        \"# MMS-1B:FL102 model - 102 Languages - FLEURS Dataset\\n\",\n        \"!wget -P ./models_new 'https://dl.fbaipublicfiles.com/mms/asr/mms1b_fl102.pt'\\n\",\n        \"\\n\",\n        \"# # MMS-1B:L1107 - 1107 Languages - MMS-lab Dataset\\n\",\n        \"# !wget -P ./models_new 'https://dl.fbaipublicfiles.com/mms/asr/mms1b_l1107.pt'\\n\",\n        \"\\n\",\n        \"# # MMS-1B-all - 1162 Languages - MMS-lab + FLEURS + CV + VP + MLS\\n\",\n        \"# !wget -P ./models_new 'https://dl.fbaipublicfiles.com/mms/asr/mms1b_all.pt'\"\n      ],\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"id\": \"3uZ9WG85gZId\",\n        \"outputId\": \"3b13f908-aa8a-4207-9147-60c443ced571\"\n      },\n      \"execution_count\": 2,\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"--2023-05-25 23:53:33--  https://dl.fbaipublicfiles.com/mms/asr/mms1b_fl102.pt\\n\",\n            \"Resolving dl.fbaipublicfiles.com (dl.fbaipublicfiles.com)... 13.227.219.33, 13.227.219.59, 13.227.219.70, ...\\n\",\n            \"Connecting to dl.fbaipublicfiles.com (dl.fbaipublicfiles.com)|13.227.219.33|:443... connected.\\n\",\n            \"HTTP request sent, awaiting response... 200 OK\\n\",\n            \"Length: 4851043301 (4.5G) [binary/octet-stream]\\n\",\n            \"Saving to: ‘./models_new/mms1b_fl102.pt’\\n\",\n            \"\\n\",\n            \"mms1b_fl102.pt      100%[===================>]   4.52G   242MB/s    in 20s     \\n\",\n            \"\\n\",\n            \"2023-05-25 23:53:53 (230 MB/s) - ‘./models_new/mms1b_fl102.pt’ saved [4851043301/4851043301]\\n\",\n            \"\\n\"\n          ]\n        }\n      ]\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"## 3. Prepare audio file\\n\",\n        \"Create a folder on path '/content/audio_samples/' and upload your .wav audio files that you need to transcribe e.g. '/content/audio_samples/audio.wav' \\n\",\n        \"\\n\",\n        \"Note: You need to make sure that the audio data you are using has a sample rate of 16kHz You can easily do this with FFMPEG like the example below that converts .mp3 file to .wav and fixing the audio sample rate\\n\",\n        \"\\n\",\n        \"Here, we use a FLEURS english MP3 audio for the example.\"\n      ],\n      \"metadata\": {\n        \"id\": \"3p5-TQvKHXjO\"\n      }\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [\n        \"!wget -P ./audio_samples/ 'https://datasets-server.huggingface.co/assets/google/fleurs/--/en_us/train/0/audio/audio.mp3'\\n\",\n        \"!ffmpeg -y -i ./audio_samples/audio.mp3 -ar 16000 ./audio_samples/audio.wav\"\n      ],\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"id\": \"cnim4bokprbB\",\n        \"outputId\": \"f63ed14f-0bde-4517-ee7b-200ddcc45e5f\"\n      },\n      \"execution_count\": 3,\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"--2023-05-25 23:53:53--  https://datasets-server.huggingface.co/assets/google/fleurs/--/en_us/train/0/audio/audio.mp3\\n\",\n            \"Resolving datasets-server.huggingface.co (datasets-server.huggingface.co)... 50.17.173.235, 44.197.252.161, 3.216.183.114, ...\\n\",\n            \"Connecting to datasets-server.huggingface.co (datasets-server.huggingface.co)|50.17.173.235|:443... connected.\\n\",\n            \"HTTP request sent, awaiting response... 200 OK\\n\",\n            \"Length: 20853 (20K) [audio/mpeg]\\n\",\n            \"Saving to: ‘./audio_samples/audio.mp3’\\n\",\n            \"\\n\",\n            \"audio.mp3           100%[===================>]  20.36K  --.-KB/s    in 0.09s   \\n\",\n            \"\\n\",\n            \"2023-05-25 23:53:53 (238 KB/s) - ‘./audio_samples/audio.mp3’ saved [20853/20853]\\n\",\n            \"\\n\",\n            \"ffmpeg version 4.2.7-0ubuntu0.1 Copyright (c) 2000-2022 the FFmpeg developers\\n\",\n            \"  built with gcc 9 (Ubuntu 9.4.0-1ubuntu1~20.04.1)\\n\",\n            \"  configuration: --prefix=/usr --extra-version=0ubuntu0.1 --toolchain=hardened --libdir=/usr/lib/x86_64-linux-gnu --incdir=/usr/include/x86_64-linux-gnu --arch=amd64 --enable-gpl --disable-stripping --enable-avresample --disable-filter=resample --enable-avisynth --enable-gnutls --enable-ladspa --enable-libaom --enable-libass --enable-libbluray --enable-libbs2b --enable-libcaca --enable-libcdio --enable-libcodec2 --enable-libflite --enable-libfontconfig --enable-libfreetype --enable-libfribidi --enable-libgme --enable-libgsm --enable-libjack --enable-libmp3lame --enable-libmysofa --enable-libopenjpeg --enable-libopenmpt --enable-libopus --enable-libpulse --enable-librsvg --enable-librubberband --enable-libshine --enable-libsnappy --enable-libsoxr --enable-libspeex --enable-libssh --enable-libtheora --enable-libtwolame --enable-libvidstab --enable-libvorbis --enable-libvpx --enable-libwavpack --enable-libwebp --enable-libx265 --enable-libxml2 --enable-libxvid --enable-libzmq --enable-libzvbi --enable-lv2 --enable-omx --enable-openal --enable-opencl --enable-opengl --enable-sdl2 --enable-libdc1394 --enable-libdrm --enable-libiec61883 --enable-nvenc --enable-chromaprint --enable-frei0r --enable-libx264 --enable-shared\\n\",\n            \"  libavutil      56. 31.100 / 56. 31.100\\n\",\n            \"  libavcodec     58. 54.100 / 58. 54.100\\n\",\n            \"  libavformat    58. 29.100 / 58. 29.100\\n\",\n            \"  libavdevice    58.  8.100 / 58.  8.100\\n\",\n            \"  libavfilter     7. 57.100 /  7. 57.100\\n\",\n            \"  libavresample   4.  0.  0 /  4.  0.  0\\n\",\n            \"  libswscale      5.  5.100 /  5.  5.100\\n\",\n            \"  libswresample   3.  5.100 /  3.  5.100\\n\",\n            \"  libpostproc    55.  5.100 / 55.  5.100\\n\",\n            \"Input #0, mp3, from './audio_samples/audio.mp3':\\n\",\n            \"  Metadata:\\n\",\n            \"    encoder         : Lavf58.45.100\\n\",\n            \"  Duration: 00:00:06.88, start: 0.069063, bitrate: 24 kb/s\\n\",\n            \"    Stream #0:0: Audio: mp3, 16000 Hz, mono, fltp, 24 kb/s\\n\",\n            \"Stream mapping:\\n\",\n            \"  Stream #0:0 -> #0:0 (mp3 (mp3float) -> pcm_s16le (native))\\n\",\n            \"Press [q] to stop, [?] for help\\n\",\n            \"Output #0, wav, to './audio_samples/audio.wav':\\n\",\n            \"  Metadata:\\n\",\n            \"    ISFT            : Lavf58.29.100\\n\",\n            \"    Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 16000 Hz, mono, s16, 256 kb/s\\n\",\n            \"    Metadata:\\n\",\n            \"      encoder         : Lavc58.54.100 pcm_s16le\\n\",\n            \"size=     213kB time=00:00:06.80 bitrate= 256.1kbits/s speed= 398x    \\n\",\n            \"video:0kB audio:212kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.035846%\\n\"\n          ]\n        }\n      ]\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"# 4: Run Inference and transcribe your audio(s)\\n\"\n      ],\n      \"metadata\": {\n        \"id\": \"44UvHjmMI28Z\"\n      }\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"In the below example, we will transcribe a sentence in English.\\n\",\n        \"\\n\",\n        \"To transcribe other languages: \\n\",\n        \"1. Go to [MMS README ASR section](https://github.com/facebookresearch/fairseq/tree/main/examples/mms#asr)\\n\",\n        \"2. Open Supported languages link\\n\",\n        \"3. Find your target languages based on Language Name column\\n\",\n        \"4. Copy the corresponding Iso Code\\n\",\n        \"5. Replace `--lang \\\"eng\\\"` with new Iso Code\\n\",\n        \"\\n\",\n        \"To improve the transcription quality, user can use language-model (LM) decoding by following this instruction [ASR LM decoding](https://github.com/facebookresearch/fairseq/tree/main/examples/mms#asr)\"\n      ],\n      \"metadata\": {\n        \"id\": \"82Xpxot2wFid\"\n      }\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [\n        \"import os\\n\",\n        \"\\n\",\n        \"os.environ[\\\"TMPDIR\\\"] = '/content/temp_dir'\\n\",\n        \"os.environ[\\\"PYTHONPATH\\\"] = \\\".\\\"\\n\",\n        \"os.environ[\\\"PREFIX\\\"] = \\\"INFER\\\"\\n\",\n        \"os.environ[\\\"HYDRA_FULL_ERROR\\\"] = \\\"1\\\"\\n\",\n        \"os.environ[\\\"USER\\\"] = \\\"micro\\\"\\n\",\n        \"\\n\",\n        \"!python examples/mms/asr/infer/mms_infer.py --model \\\"/content/fairseq/models_new/mms1b_fl102.pt\\\" --lang \\\"eng\\\" --audio \\\"/content/fairseq/audio_samples/audio.wav\\\"\\n\"\n      ],\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"id\": \"J8N1RKtBiw5V\",\n        \"outputId\": \"db5d3575-bd21-470d-bb4d-e080e8cece50\"\n      },\n      \"execution_count\": 4,\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \">>> preparing tmp manifest dir ...\\n\",\n            \">>> loading model & running inference ...\\n\",\n            \"2023-05-25 23:54:02.330426: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.\\n\",\n            \"To enable the following instructions: AVX2 AVX512F FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.\\n\",\n            \"2023-05-25 23:54:04.144981: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Could not find TensorRT\\n\",\n            \"===============\\n\",\n            \"Input: /content/fairseq/audio_samples/audio.wav\\n\",\n            \"Output: a tornado is a spinning colum of very low-pressure air which sucks it surrounding air inward and upward\\n\"\n          ]\n        }\n      ]\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"# 5: Beam search decoding using a Language Model and transcribe audio file(s)\\n\"\n      ],\n      \"metadata\": {\n        \"id\": \"0j2t8MI4WBiy\"\n      }\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"Since MMS is a CTC model, we can further improve the accuracy by running beam search decoding using a language model. \\n\",\n        \"\\n\",\n        \"While we have not open sourced the language models used in MMS (yet!), we have provided the details of the data and commands to used to train the LMs in the Appendix section of our paper.\\n\",\n        \"\\n\",\n        \"\\n\",\n        \"For this tutorial, we will use a alternate English language model based on Common Crawl data which has been made publicly available through the efforts of [Likhomanenko, Tatiana, et al. \\\"Rethinking evaluation in asr: Are our models robust enough?.\\\"](https://arxiv.org/abs/2010.11745). The language model can be accessed from the GitHub repository [here](https://github.com/flashlight/wav2letter/tree/main/recipes/rasr). \"\n      ],\n      \"metadata\": {\n        \"id\": \"Yfigq1nIWJR6\"\n      }\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [\n        \"! mkdir -p /content/lmdecode \\n\",\n        \"\\n\",\n        \"!wget -P /content/lmdecode  https://dl.fbaipublicfiles.com/wav2letter/rasr/tutorial/lm_common_crawl_small_4gram_prun0-6-15_200kvocab.bin # smaller LM \\n\",\n        \"!wget -P /content/lmdecode  https://dl.fbaipublicfiles.com/wav2letter/rasr/tutorial/lexicon.txt \"\n      ],\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"id\": \"sNTd1OCuV8jG\",\n        \"outputId\": \"396583b9-400f-4b68-aa20-898f0194da6e\"\n      },\n      \"execution_count\": 10,\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"--2023-05-26 00:16:03--  https://dl.fbaipublicfiles.com/wav2letter/rasr/tutorial/lm_common_crawl_small_4gram_prun0-6-15_200kvocab.bin\\n\",\n            \"Resolving dl.fbaipublicfiles.com (dl.fbaipublicfiles.com)... 13.227.219.33, 13.227.219.70, 13.227.219.10, ...\\n\",\n            \"Connecting to dl.fbaipublicfiles.com (dl.fbaipublicfiles.com)|13.227.219.33|:443... connected.\\n\",\n            \"HTTP request sent, awaiting response... 200 OK\\n\",\n            \"Length: 2627163608 (2.4G) [application/octet-stream]\\n\",\n            \"Saving to: ‘/content/lmdecode/lm_common_crawl_small_4gram_prun0-6-15_200kvocab.bin’\\n\",\n            \"\\n\",\n            \"lm_common_crawl_sma 100%[===================>]   2.45G  27.5MB/s    in 94s     \\n\",\n            \"\\n\",\n            \"2023-05-26 00:17:37 (26.8 MB/s) - ‘/content/lmdecode/lm_common_crawl_small_4gram_prun0-6-15_200kvocab.bin’ saved [2627163608/2627163608]\\n\",\n            \"\\n\",\n            \"--2023-05-26 00:17:37--  https://dl.fbaipublicfiles.com/wav2letter/rasr/tutorial/lexicon.txt\\n\",\n            \"Resolving dl.fbaipublicfiles.com (dl.fbaipublicfiles.com)... 13.227.219.33, 13.227.219.10, 13.227.219.70, ...\\n\",\n            \"Connecting to dl.fbaipublicfiles.com (dl.fbaipublicfiles.com)|13.227.219.33|:443... connected.\\n\",\n            \"HTTP request sent, awaiting response... 200 OK\\n\",\n            \"Length: 4965720 (4.7M) [text/plain]\\n\",\n            \"Saving to: ‘/content/lmdecode/lexicon.txt’\\n\",\n            \"\\n\",\n            \"lexicon.txt         100%[===================>]   4.74M  5.02MB/s    in 0.9s    \\n\",\n            \"\\n\",\n            \"2023-05-26 00:17:39 (5.02 MB/s) - ‘/content/lmdecode/lexicon.txt’ saved [4965720/4965720]\\n\",\n            \"\\n\"\n          ]\n        }\n      ]\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"\\n\",\n        \"Install decoder bindings from [flashlight](https://github.com/flashlight/flashlight)\\n\"\n      ],\n      \"metadata\": {\n        \"id\": \"8HKmVaRfhHIk\"\n      }\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [\n        \"# Taken from https://github.com/flashlight/flashlight/blob/main/scripts/colab/colab_install_deps.sh \\n\",\n        \"# Install dependencies from apt\\n\",\n        \"! sudo apt-get install -y libfftw3-dev libsndfile1-dev libgoogle-glog-dev libopenmpi-dev libboost-all-dev\\n\",\n        \"# Install Kenlm\\n\",\n        \"! cd /tmp && git clone https://github.com/kpu/kenlm && cd kenlm && mkdir build && cd build && cmake .. -DCMAKE_BUILD_TYPE=Release && make install -j$(nproc)\\n\",\n        \"\\n\",\n        \"# Install Intel MKL 2020\\n\",\n        \"! cd /tmp && wget https://apt.repos.intel.com/intel-gpg-keys/GPG-PUB-KEY-INTEL-SW-PRODUCTS-2019.PUB && \\\\\\n\",\n        \"    apt-key add GPG-PUB-KEY-INTEL-SW-PRODUCTS-2019.PUB\\n\",\n        \"! sh -c 'echo deb https://apt.repos.intel.com/mkl all main > /etc/apt/sources.list.d/intel-mkl.list' && \\\\\\n\",\n        \"    apt-get update && DEBIAN_FRONTEND=noninteractive apt-get install -y --no-install-recommends intel-mkl-64bit-2020.0-088\\n\",\n        \"# Remove existing MKL libs to avoid double linkeage\\n\",\n        \"! rm -rf /usr/local/lib/libmkl*\\n\"\n      ],\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"id\": \"Kao8FS-GjR94\",\n        \"outputId\": \"e9d0da1e-266d-4b46-aba4-32f25350fe2b\"\n      },\n      \"execution_count\": 37,\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"Reading package lists... Done\\n\",\n            \"Building dependency tree       \\n\",\n            \"Reading state information... Done\\n\",\n            \"libboost-all-dev is already the newest version (1.71.0.0ubuntu2).\\n\",\n            \"libopenmpi-dev is already the newest version (4.0.3-0ubuntu1).\\n\",\n            \"libsndfile1-dev is already the newest version (1.0.28-7ubuntu0.1).\\n\",\n            \"The following additional packages will be installed:\\n\",\n            \"  libfftw3-bin libfftw3-long3 libfftw3-quad3 libfftw3-single3 libgflags-dev\\n\",\n            \"  libgflags2.2 libgoogle-glog0v5\\n\",\n            \"Suggested packages:\\n\",\n            \"  libfftw3-doc\\n\",\n            \"The following NEW packages will be installed:\\n\",\n            \"  libfftw3-bin libfftw3-dev libfftw3-long3 libfftw3-quad3 libfftw3-single3\\n\",\n            \"  libgflags-dev libgflags2.2 libgoogle-glog-dev libgoogle-glog0v5\\n\",\n            \"0 upgraded, 9 newly installed, 0 to remove and 35 not upgraded.\\n\",\n            \"Need to get 4,289 kB of archives.\\n\",\n            \"After this operation, 24.0 MB of additional disk space will be used.\\n\",\n            \"Get:1 http://archive.ubuntu.com/ubuntu focal/main amd64 libfftw3-long3 amd64 3.3.8-2ubuntu1 [313 kB]\\n\",\n            \"Get:2 http://archive.ubuntu.com/ubuntu focal/main amd64 libfftw3-quad3 amd64 3.3.8-2ubuntu1 [673 kB]\\n\",\n            \"Get:3 http://archive.ubuntu.com/ubuntu focal/main amd64 libfftw3-single3 amd64 3.3.8-2ubuntu1 [756 kB]\\n\",\n            \"Get:4 http://archive.ubuntu.com/ubuntu focal/main amd64 libfftw3-bin amd64 3.3.8-2ubuntu1 [32.2 kB]\\n\",\n            \"Get:5 http://archive.ubuntu.com/ubuntu focal/main amd64 libfftw3-dev amd64 3.3.8-2ubuntu1 [2,211 kB]\\n\",\n            \"Get:6 http://archive.ubuntu.com/ubuntu focal/universe amd64 libgflags2.2 amd64 2.2.2-1build1 [78.0 kB]\\n\",\n            \"Get:7 http://archive.ubuntu.com/ubuntu focal/universe amd64 libgflags-dev amd64 2.2.2-1build1 [96.6 kB]\\n\",\n            \"Get:8 http://archive.ubuntu.com/ubuntu focal/universe amd64 libgoogle-glog0v5 amd64 0.4.0-1build1 [51.5 kB]\\n\",\n            \"Get:9 http://archive.ubuntu.com/ubuntu focal/universe amd64 libgoogle-glog-dev amd64 0.4.0-1build1 [76.4 kB]\\n\",\n            \"Fetched 4,289 kB in 1s (3,516 kB/s)\\n\",\n            \"debconf: unable to initialize frontend: Dialog\\n\",\n            \"debconf: (No usable dialog-like program is installed, so the dialog based frontend cannot be used. at /usr/share/perl5/Debconf/FrontEnd/Dialog.pm line 76, <> line 9.)\\n\",\n            \"debconf: falling back to frontend: Readline\\n\",\n            \"debconf: unable to initialize frontend: Readline\\n\",\n            \"debconf: (This frontend requires a controlling tty.)\\n\",\n            \"debconf: falling back to frontend: Teletype\\n\",\n            \"dpkg-preconfigure: unable to re-open stdin: \\n\",\n            \"Selecting previously unselected package libfftw3-long3:amd64.\\n\",\n            \"(Reading database ... 124889 files and directories currently installed.)\\n\",\n            \"Preparing to unpack .../0-libfftw3-long3_3.3.8-2ubuntu1_amd64.deb ...\\n\",\n            \"Unpacking libfftw3-long3:amd64 (3.3.8-2ubuntu1) ...\\n\",\n            \"Selecting previously unselected package libfftw3-quad3:amd64.\\n\",\n            \"Preparing to unpack .../1-libfftw3-quad3_3.3.8-2ubuntu1_amd64.deb ...\\n\",\n            \"Unpacking libfftw3-quad3:amd64 (3.3.8-2ubuntu1) ...\\n\",\n            \"Selecting previously unselected package libfftw3-single3:amd64.\\n\",\n            \"Preparing to unpack .../2-libfftw3-single3_3.3.8-2ubuntu1_amd64.deb ...\\n\",\n            \"Unpacking libfftw3-single3:amd64 (3.3.8-2ubuntu1) ...\\n\",\n            \"Selecting previously unselected package libfftw3-bin.\\n\",\n            \"Preparing to unpack .../3-libfftw3-bin_3.3.8-2ubuntu1_amd64.deb ...\\n\",\n            \"Unpacking libfftw3-bin (3.3.8-2ubuntu1) ...\\n\",\n            \"Selecting previously unselected package libfftw3-dev:amd64.\\n\",\n            \"Preparing to unpack .../4-libfftw3-dev_3.3.8-2ubuntu1_amd64.deb ...\\n\",\n            \"Unpacking libfftw3-dev:amd64 (3.3.8-2ubuntu1) ...\\n\",\n            \"Selecting previously unselected package libgflags2.2.\\n\",\n            \"Preparing to unpack .../5-libgflags2.2_2.2.2-1build1_amd64.deb ...\\n\",\n            \"Unpacking libgflags2.2 (2.2.2-1build1) ...\\n\",\n            \"Selecting previously unselected package libgflags-dev.\\n\",\n            \"Preparing to unpack .../6-libgflags-dev_2.2.2-1build1_amd64.deb ...\\n\",\n            \"Unpacking libgflags-dev (2.2.2-1build1) ...\\n\",\n            \"Selecting previously unselected package libgoogle-glog0v5.\\n\",\n            \"Preparing to unpack .../7-libgoogle-glog0v5_0.4.0-1build1_amd64.deb ...\\n\",\n            \"Unpacking libgoogle-glog0v5 (0.4.0-1build1) ...\\n\",\n            \"Selecting previously unselected package libgoogle-glog-dev.\\n\",\n            \"Preparing to unpack .../8-libgoogle-glog-dev_0.4.0-1build1_amd64.deb ...\\n\",\n            \"Unpacking libgoogle-glog-dev (0.4.0-1build1) ...\\n\",\n            \"Setting up libfftw3-single3:amd64 (3.3.8-2ubuntu1) ...\\n\",\n            \"Setting up libfftw3-long3:amd64 (3.3.8-2ubuntu1) ...\\n\",\n            \"Setting up libfftw3-quad3:amd64 (3.3.8-2ubuntu1) ...\\n\",\n            \"Setting up libgflags2.2 (2.2.2-1build1) ...\\n\",\n            \"Setting up libfftw3-bin (3.3.8-2ubuntu1) ...\\n\",\n            \"Setting up libgflags-dev (2.2.2-1build1) ...\\n\",\n            \"Setting up libfftw3-dev:amd64 (3.3.8-2ubuntu1) ...\\n\",\n            \"Setting up libgoogle-glog0v5 (0.4.0-1build1) ...\\n\",\n            \"Setting up libgoogle-glog-dev (0.4.0-1build1) ...\\n\",\n            \"Processing triggers for man-db (2.9.1-1) ...\\n\",\n            \"Processing triggers for libc-bin (2.31-0ubuntu9.9) ...\\n\",\n            \"Cloning into 'kenlm'...\\n\",\n            \"remote: Enumerating objects: 14147, done.\\u001b[K\\n\",\n            \"remote: Counting objects: 100% (460/460), done.\\u001b[K\\n\",\n            \"remote: Compressing objects: 100% (319/319), done.\\u001b[K\\n\",\n            \"remote: Total 14147 (delta 152), reused 399 (delta 127), pack-reused 13687\\u001b[K\\n\",\n            \"Receiving objects: 100% (14147/14147), 5.91 MiB | 15.20 MiB/s, done.\\n\",\n            \"Resolving deltas: 100% (8032/8032), done.\\n\",\n            \"-- The C compiler identification is GNU 9.4.0\\n\",\n            \"-- The CXX compiler identification is GNU 9.4.0\\n\",\n            \"-- Detecting C compiler ABI info\\n\",\n            \"-- Detecting C compiler ABI info - done\\n\",\n            \"-- Check for working C compiler: /usr/bin/cc - skipped\\n\",\n            \"-- Detecting C compile features\\n\",\n            \"-- Detecting C compile features - done\\n\",\n            \"-- Detecting CXX compiler ABI info\\n\",\n            \"-- Detecting CXX compiler ABI info - done\\n\",\n            \"-- Check for working CXX compiler: /usr/bin/c++ - skipped\\n\",\n            \"-- Detecting CXX compile features\\n\",\n            \"-- Detecting CXX compile features - done\\n\",\n            \"-- Could NOT find Eigen3 (missing: Eigen3_DIR)\\n\",\n            \"-- Found Boost: /usr/lib/x86_64-linux-gnu/cmake/Boost-1.71.0/BoostConfig.cmake (found suitable version \\\"1.71.0\\\", minimum required is \\\"1.41.0\\\") found components: program_options system thread unit_test_framework \\n\",\n            \"-- Check if compiler accepts -pthread\\n\",\n            \"-- Check if compiler accepts -pthread - yes\\n\",\n            \"-- Found Threads: TRUE  \\n\",\n            \"-- Found ZLIB: /usr/lib/x86_64-linux-gnu/libz.so (found version \\\"1.2.11\\\") \\n\",\n            \"-- Found BZip2: /usr/lib/x86_64-linux-gnu/libbz2.so (found version \\\"1.0.8\\\") \\n\",\n            \"-- Looking for BZ2_bzCompressInit\\n\",\n            \"-- Looking for BZ2_bzCompressInit - found\\n\",\n            \"-- Looking for lzma_auto_decoder in /usr/lib/x86_64-linux-gnu/liblzma.so\\n\",\n            \"-- Looking for lzma_auto_decoder in /usr/lib/x86_64-linux-gnu/liblzma.so - found\\n\",\n            \"-- Looking for lzma_easy_encoder in /usr/lib/x86_64-linux-gnu/liblzma.so\\n\",\n            \"-- Looking for lzma_easy_encoder in /usr/lib/x86_64-linux-gnu/liblzma.so - found\\n\",\n            \"-- Looking for lzma_lzma_preset in /usr/lib/x86_64-linux-gnu/liblzma.so\\n\",\n            \"-- Looking for lzma_lzma_preset in /usr/lib/x86_64-linux-gnu/liblzma.so - found\\n\",\n            \"-- Found LibLZMA: /usr/lib/x86_64-linux-gnu/liblzma.so (found version \\\"5.2.4\\\") \\n\",\n            \"-- Looking for clock_gettime in rt\\n\",\n            \"-- Looking for clock_gettime in rt - found\\n\",\n            \"-- Configuring done\\n\",\n            \"-- Generating done\\n\",\n            \"-- Build files have been written to: /tmp/kenlm/build\\n\",\n            \"[  1%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/double-conversion/bignum-dtoa.cc.o\\u001b[0m\\n\",\n            \"[  2%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/double-conversion/bignum.cc.o\\u001b[0m\\n\",\n            \"[  3%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/double-conversion/cached-powers.cc.o\\u001b[0m\\n\",\n            \"[  5%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/double-conversion/fast-dtoa.cc.o\\u001b[0m\\n\",\n            \"[  6%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/double-conversion/fixed-dtoa.cc.o\\u001b[0m\\n\",\n            \"[  7%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/double-conversion/strtod.cc.o\\u001b[0m\\n\",\n            \"[  8%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/double-conversion/double-to-string.cc.o\\u001b[0m\\n\",\n            \"[ 10%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/double-conversion/string-to-double.cc.o\\u001b[0m\\n\",\n            \"[ 11%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/stream/chain.cc.o\\u001b[0m\\n\",\n            \"[ 12%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/stream/count_records.cc.o\\u001b[0m\\n\",\n            \"[ 13%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/stream/io.cc.o\\u001b[0m\\n\",\n            \"[ 15%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/stream/line_input.cc.o\\u001b[0m\\n\",\n            \"[ 16%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/stream/multi_progress.cc.o\\u001b[0m\\n\",\n            \"[ 17%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/stream/rewindable_stream.cc.o\\u001b[0m\\n\",\n            \"[ 18%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/bit_packing.cc.o\\u001b[0m\\n\",\n            \"[ 20%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/ersatz_progress.cc.o\\u001b[0m\\n\",\n            \"[ 21%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/exception.cc.o\\u001b[0m\\n\",\n            \"[ 22%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/file.cc.o\\u001b[0m\\n\",\n            \"[ 23%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/file_piece.cc.o\\u001b[0m\\n\",\n            \"[ 25%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/float_to_string.cc.o\\u001b[0m\\n\",\n            \"[ 26%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/integer_to_string.cc.o\\u001b[0m\\n\",\n            \"[ 27%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/mmap.cc.o\\u001b[0m\\n\",\n            \"[ 28%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/murmur_hash.cc.o\\u001b[0m\\n\",\n            \"[ 30%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/parallel_read.cc.o\\u001b[0m\\n\",\n            \"[ 31%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/pool.cc.o\\u001b[0m\\n\",\n            \"[ 32%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/read_compressed.cc.o\\u001b[0m\\n\",\n            \"[ 33%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/scoped.cc.o\\u001b[0m\\n\",\n            \"[ 35%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/spaces.cc.o\\u001b[0m\\n\",\n            \"[ 36%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/string_piece.cc.o\\u001b[0m\\n\",\n            \"[ 37%] \\u001b[32mBuilding CXX object util/CMakeFiles/kenlm_util.dir/usage.cc.o\\u001b[0m\\n\",\n            \"[ 38%] \\u001b[32m\\u001b[1mLinking CXX static library ../lib/libkenlm_util.a\\u001b[0m\\n\",\n            \"[ 38%] Built target kenlm_util\\n\",\n            \"[ 40%] \\u001b[32mBuilding CXX object util/CMakeFiles/probing_hash_table_benchmark.dir/probing_hash_table_benchmark_main.cc.o\\u001b[0m\\n\",\n            \"[ 41%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/bhiksha.cc.o\\u001b[0m\\n\",\n            \"[ 42%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/binary_format.cc.o\\u001b[0m\\n\",\n            \"[ 43%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/config.cc.o\\u001b[0m\\n\",\n            \"[ 45%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/lm_exception.cc.o\\u001b[0m\\n\",\n            \"[ 46%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/model.cc.o\\u001b[0m\\n\",\n            \"[ 47%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/quantize.cc.o\\u001b[0m\\n\",\n            \"[ 48%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/read_arpa.cc.o\\u001b[0m\\n\",\n            \"[ 50%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/search_hashed.cc.o\\u001b[0m\\n\",\n            \"[ 51%] \\u001b[32m\\u001b[1mLinking CXX executable ../bin/probing_hash_table_benchmark\\u001b[0m\\n\",\n            \"[ 51%] Built target probing_hash_table_benchmark\\n\",\n            \"[ 52%] \\u001b[32mBuilding CXX object lm/filter/CMakeFiles/kenlm_filter.dir/arpa_io.cc.o\\u001b[0m\\n\",\n            \"[ 53%] \\u001b[32mBuilding CXX object lm/filter/CMakeFiles/kenlm_filter.dir/phrase.cc.o\\u001b[0m\\n\",\n            \"[ 55%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/search_trie.cc.o\\u001b[0m\\n\",\n            \"[ 56%] \\u001b[32mBuilding CXX object lm/filter/CMakeFiles/kenlm_filter.dir/vocab.cc.o\\u001b[0m\\n\",\n            \"[ 57%] \\u001b[32m\\u001b[1mLinking CXX static library ../../lib/libkenlm_filter.a\\u001b[0m\\n\",\n            \"[ 57%] Built target kenlm_filter\\n\",\n            \"[ 58%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/sizes.cc.o\\u001b[0m\\n\",\n            \"[ 60%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/trie.cc.o\\u001b[0m\\n\",\n            \"[ 61%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/trie_sort.cc.o\\u001b[0m\\n\",\n            \"[ 62%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/value_build.cc.o\\u001b[0m\\n\",\n            \"[ 63%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/virtual_interface.cc.o\\u001b[0m\\n\",\n            \"[ 65%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/vocab.cc.o\\u001b[0m\\n\",\n            \"[ 66%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/common/model_buffer.cc.o\\u001b[0m\\n\",\n            \"[ 67%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/common/print.cc.o\\u001b[0m\\n\",\n            \"[ 68%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/common/renumber.cc.o\\u001b[0m\\n\",\n            \"[ 70%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm.dir/common/size_option.cc.o\\u001b[0m\\n\",\n            \"[ 71%] \\u001b[32m\\u001b[1mLinking CXX static library ../lib/libkenlm.a\\u001b[0m\\n\",\n            \"[ 71%] Built target kenlm\\n\",\n            \"[ 72%] \\u001b[32mBuilding CXX object lm/CMakeFiles/query.dir/query_main.cc.o\\u001b[0m\\n\",\n            \"[ 73%] \\u001b[32mBuilding CXX object lm/CMakeFiles/fragment.dir/fragment_main.cc.o\\u001b[0m\\n\",\n            \"[ 75%] \\u001b[32m\\u001b[1mLinking CXX executable ../bin/fragment\\u001b[0m\\n\",\n            \"[ 75%] Built target fragment\\n\",\n            \"[ 76%] \\u001b[32mBuilding CXX object lm/CMakeFiles/build_binary.dir/build_binary_main.cc.o\\u001b[0m\\n\",\n            \"[ 77%] \\u001b[32m\\u001b[1mLinking CXX executable ../bin/query\\u001b[0m\\n\",\n            \"[ 77%] Built target query\\n\",\n            \"[ 78%] \\u001b[32mBuilding CXX object lm/CMakeFiles/kenlm_benchmark.dir/kenlm_benchmark_main.cc.o\\u001b[0m\\n\",\n            \"[ 80%] \\u001b[32m\\u001b[1mLinking CXX executable ../bin/build_binary\\u001b[0m\\n\",\n            \"[ 80%] Built target build_binary\\n\",\n            \"[ 81%] \\u001b[32mBuilding CXX object lm/builder/CMakeFiles/kenlm_builder.dir/adjust_counts.cc.o\\u001b[0m\\n\",\n            \"[ 82%] \\u001b[32mBuilding CXX object lm/builder/CMakeFiles/kenlm_builder.dir/corpus_count.cc.o\\u001b[0m\\n\",\n            \"[ 83%] \\u001b[32mBuilding CXX object lm/builder/CMakeFiles/kenlm_builder.dir/initial_probabilities.cc.o\\u001b[0m\\n\",\n            \"[ 85%] \\u001b[32mBuilding CXX object lm/builder/CMakeFiles/kenlm_builder.dir/interpolate.cc.o\\u001b[0m\\n\",\n            \"[ 86%] \\u001b[32mBuilding CXX object lm/builder/CMakeFiles/kenlm_builder.dir/output.cc.o\\u001b[0m\\n\",\n            \"[ 87%] \\u001b[32m\\u001b[1mLinking CXX executable ../bin/kenlm_benchmark\\u001b[0m\\n\",\n            \"[ 87%] Built target kenlm_benchmark\\n\",\n            \"[ 88%] \\u001b[32mBuilding CXX object lm/filter/CMakeFiles/filter.dir/filter_main.cc.o\\u001b[0m\\n\",\n            \"[ 90%] \\u001b[32mBuilding CXX object lm/builder/CMakeFiles/kenlm_builder.dir/pipeline.cc.o\\u001b[0m\\n\",\n            \"[ 91%] \\u001b[32m\\u001b[1mLinking CXX static library ../../lib/libkenlm_builder.a\\u001b[0m\\n\",\n            \"[ 91%] Built target kenlm_builder\\n\",\n            \"[ 92%] \\u001b[32mBuilding CXX object lm/filter/CMakeFiles/phrase_table_vocab.dir/phrase_table_vocab_main.cc.o\\u001b[0m\\n\",\n            \"[ 93%] \\u001b[32m\\u001b[1mLinking CXX executable ../../bin/phrase_table_vocab\\u001b[0m\\n\",\n            \"[ 93%] Built target phrase_table_vocab\\n\",\n            \"[ 95%] \\u001b[32mBuilding CXX object lm/builder/CMakeFiles/lmplz.dir/lmplz_main.cc.o\\u001b[0m\\n\",\n            \"[ 96%] \\u001b[32m\\u001b[1mLinking CXX executable ../../bin/filter\\u001b[0m\\n\",\n            \"[ 96%] Built target filter\\n\",\n            \"[ 97%] \\u001b[32mBuilding CXX object lm/builder/CMakeFiles/count_ngrams.dir/count_ngrams_main.cc.o\\u001b[0m\\n\",\n            \"[ 98%] \\u001b[32m\\u001b[1mLinking CXX executable ../../bin/lmplz\\u001b[0m\\n\",\n            \"[ 98%] Built target lmplz\\n\",\n            \"[100%] \\u001b[32m\\u001b[1mLinking CXX executable ../../bin/count_ngrams\\u001b[0m\\n\",\n            \"[100%] Built target count_ngrams\\n\",\n            \"\\u001b[36mInstall the project...\\u001b[0m\\n\",\n            \"-- Install configuration: \\\"Release\\\"\\n\",\n            \"-- Installing: /usr/local/share/kenlm/cmake/kenlmTargets.cmake\\n\",\n            \"-- Installing: /usr/local/share/kenlm/cmake/kenlmTargets-release.cmake\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/bit_packing.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/ersatz_progress.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/exception.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/fake_ostream.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/file.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/file_piece.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/file_stream.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/fixed_array.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/float_to_string.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/getopt.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/have.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/integer_to_string.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/joint_sort.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/mmap.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/multi_intersection.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/murmur_hash.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/parallel_read.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/pcqueue.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/pool.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/probing_hash_table.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/proxy_iterator.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/read_compressed.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/scoped.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/sized_iterator.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/sorted_uniform.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/spaces.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/string_piece.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/string_piece_hash.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/string_stream.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/thread_pool.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/tokenize_piece.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/usage.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/double-conversion/bignum-dtoa.h\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/double-conversion/bignum.h\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/double-conversion/cached-powers.h\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/double-conversion/diy-fp.h\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/double-conversion/double-conversion.h\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/double-conversion/double-to-string.h\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/double-conversion/fast-dtoa.h\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/double-conversion/fixed-dtoa.h\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/double-conversion/ieee.h\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/double-conversion/string-to-double.h\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/double-conversion/strtod.h\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/double-conversion/utils.h\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/stream/block.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/stream/chain.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/stream/config.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/stream/count_records.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/stream/io.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/stream/line_input.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/stream/multi_progress.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/stream/multi_stream.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/stream/rewindable_stream.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/stream/sort.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/stream/stream.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/util/stream/typed_stream.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/bhiksha.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/binary_format.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/blank.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/config.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/enumerate_vocab.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/facade.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/left.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/lm_exception.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/max_order.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/model.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/model_type.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/ngram_query.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/partial.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/quantize.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/read_arpa.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/return.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/search_hashed.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/search_trie.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/sizes.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/state.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/trie.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/trie_sort.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/value.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/value_build.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/virtual_interface.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/vocab.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/weights.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/word_index.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/builder/adjust_counts.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/builder/combine_counts.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/builder/corpus_count.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/builder/debug_print.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/builder/discount.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/builder/hash_gamma.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/builder/header_info.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/builder/initial_probabilities.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/builder/interpolate.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/builder/output.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/builder/payload.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/builder/pipeline.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/common/compare.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/common/joint_order.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/common/model_buffer.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/common/ngram.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/common/ngram_stream.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/common/print.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/common/renumber.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/common/size_option.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/common/special.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/filter/arpa_io.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/filter/count_io.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/filter/format.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/filter/phrase.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/filter/thread.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/filter/vocab.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/filter/wrapper.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/interpolate/backoff_matrix.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/interpolate/backoff_reunification.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/interpolate/bounded_sequence_encoding.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/interpolate/interpolate_info.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/interpolate/merge_probabilities.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/interpolate/merge_vocab.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/interpolate/normalize.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/interpolate/pipeline.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/interpolate/split_worker.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/interpolate/tune_derivatives.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/interpolate/tune_instances.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/interpolate/tune_matrix.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/interpolate/tune_weights.hh\\n\",\n            \"-- Installing: /usr/local/include/kenlm/lm/interpolate/universal_vocab.hh\\n\",\n            \"-- Installing: /usr/local/share/kenlm/cmake/kenlmConfig.cmake\\n\",\n            \"-- Installing: /usr/local/lib/libkenlm_util.a\\n\",\n            \"-- Installing: /usr/local/bin/probing_hash_table_benchmark\\n\",\n            \"-- Installing: /usr/local/lib/libkenlm.a\\n\",\n            \"-- Installing: /usr/local/bin/query\\n\",\n            \"-- Installing: /usr/local/bin/fragment\\n\",\n            \"-- Installing: /usr/local/bin/build_binary\\n\",\n            \"-- Installing: /usr/local/bin/kenlm_benchmark\\n\",\n            \"-- Installing: /usr/local/bin/lmplz\\n\",\n            \"-- Installing: /usr/local/bin/count_ngrams\\n\",\n            \"-- Installing: /usr/local/lib/libkenlm_builder.a\\n\",\n            \"-- Installing: /usr/local/bin/filter\\n\",\n            \"-- Installing: /usr/local/bin/phrase_table_vocab\\n\",\n            \"-- Installing: /usr/local/lib/libkenlm_filter.a\\n\"\n          ]\n        }\n      ]\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [\n        \"! rm -rf flashlight\\n\",\n        \"! git clone --recursive https://github.com/flashlight/flashlight.git\\n\",\n        \"%cd flashlight\\n\",\n        \"! git checkout 035ead6efefb82b47c8c2e643603e87d38850076 \\n\",\n        \"%cd bindings/python \\n\",\n        \"! python3 setup.py install\\n\",\n        \"\\n\",\n        \"%cd /content/fairseq \"\n      ],\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"id\": \"5LjIgBfzhQ4w\",\n        \"outputId\": \"5d1023c5-f6ad-46b1-9326-b51965c722c3\"\n      },\n      \"execution_count\": 38,\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"Cloning into 'flashlight'...\\n\",\n            \"remote: Enumerating objects: 24032, done.\\u001b[K\\n\",\n            \"remote: Counting objects: 100% (150/150), done.\\u001b[K\\n\",\n            \"remote: Compressing objects: 100% (123/123), done.\\u001b[K\\n\",\n            \"remote: Total 24032 (delta 41), reused 111 (delta 24), pack-reused 23882\\u001b[K\\n\",\n            \"Receiving objects: 100% (24032/24032), 15.30 MiB | 2.64 MiB/s, done.\\n\",\n            \"Resolving deltas: 100% (17089/17089), done.\\n\",\n            \"/content/fairseq/flashlight\\n\",\n            \"Note: switching to '035ead6efefb82b47c8c2e643603e87d38850076'.\\n\",\n            \"\\n\",\n            \"You are in 'detached HEAD' state. You can look around, make experimental\\n\",\n            \"changes and commit them, and you can discard any commits you make in this\\n\",\n            \"state without impacting any branches by switching back to a branch.\\n\",\n            \"\\n\",\n            \"If you want to create a new branch to retain commits you create, you may\\n\",\n            \"do so (now or later) by using -c with the switch command. Example:\\n\",\n            \"\\n\",\n            \"  git switch -c <new-branch-name>\\n\",\n            \"\\n\",\n            \"Or undo this operation with:\\n\",\n            \"\\n\",\n            \"  git switch -\\n\",\n            \"\\n\",\n            \"Turn off this advice by setting config variable advice.detachedHead to false\\n\",\n            \"\\n\",\n            \"HEAD is now at 035ead6e AdvancedIndex fix\\n\",\n            \"/content/fairseq/flashlight/bindings/python\\n\",\n            \"running install\\n\",\n            \"/usr/local/lib/python3.10/dist-packages/setuptools/_distutils/cmd.py:66: SetuptoolsDeprecationWarning: setup.py install is deprecated.\\n\",\n            \"!!\\n\",\n            \"\\n\",\n            \"        ********************************************************************************\\n\",\n            \"        Please avoid running ``setup.py`` directly.\\n\",\n            \"        Instead, use pypa/build, pypa/installer, pypa/build or\\n\",\n            \"        other standards-based tools.\\n\",\n            \"\\n\",\n            \"        See https://blog.ganssle.io/articles/2021/10/setup-py-deprecated.html for details.\\n\",\n            \"        ********************************************************************************\\n\",\n            \"\\n\",\n            \"!!\\n\",\n            \"  self.initialize_options()\\n\",\n            \"/usr/local/lib/python3.10/dist-packages/setuptools/_distutils/cmd.py:66: EasyInstallDeprecationWarning: easy_install command is deprecated.\\n\",\n            \"!!\\n\",\n            \"\\n\",\n            \"        ********************************************************************************\\n\",\n            \"        Please avoid running ``setup.py`` and ``easy_install``.\\n\",\n            \"        Instead, use pypa/build, pypa/installer, pypa/build or\\n\",\n            \"        other standards-based tools.\\n\",\n            \"\\n\",\n            \"        See https://github.com/pypa/setuptools/issues/917 for details.\\n\",\n            \"        ********************************************************************************\\n\",\n            \"\\n\",\n            \"!!\\n\",\n            \"  self.initialize_options()\\n\",\n            \"running bdist_egg\\n\",\n            \"running egg_info\\n\",\n            \"creating flashlight.egg-info\\n\",\n            \"writing flashlight.egg-info/PKG-INFO\\n\",\n            \"writing dependency_links to flashlight.egg-info/dependency_links.txt\\n\",\n            \"writing top-level names to flashlight.egg-info/top_level.txt\\n\",\n            \"writing manifest file 'flashlight.egg-info/SOURCES.txt'\\n\",\n            \"reading manifest file 'flashlight.egg-info/SOURCES.txt'\\n\",\n            \"reading manifest template 'MANIFEST.in'\\n\",\n            \"writing manifest file 'flashlight.egg-info/SOURCES.txt'\\n\",\n            \"installing library code to build/bdist.linux-x86_64/egg\\n\",\n            \"running install_lib\\n\",\n            \"running build_py\\n\",\n            \"creating build\\n\",\n            \"creating build/lib.linux-x86_64-cpython-310\\n\",\n            \"creating build/lib.linux-x86_64-cpython-310/flashlight\\n\",\n            \"creating build/lib.linux-x86_64-cpython-310/flashlight/lib\\n\",\n            \"copying flashlight/lib/__init__.py -> build/lib.linux-x86_64-cpython-310/flashlight/lib\\n\",\n            \"creating build/lib.linux-x86_64-cpython-310/flashlight/lib/audio\\n\",\n            \"copying flashlight/lib/audio/feature.py -> build/lib.linux-x86_64-cpython-310/flashlight/lib/audio\\n\",\n            \"creating build/lib.linux-x86_64-cpython-310/flashlight/lib/sequence\\n\",\n            \"copying flashlight/lib/sequence/criterion_torch.py -> build/lib.linux-x86_64-cpython-310/flashlight/lib/sequence\\n\",\n            \"copying flashlight/lib/sequence/criterion.py -> build/lib.linux-x86_64-cpython-310/flashlight/lib/sequence\\n\",\n            \"creating build/lib.linux-x86_64-cpython-310/flashlight/lib/text\\n\",\n            \"copying flashlight/lib/text/dictionary.py -> build/lib.linux-x86_64-cpython-310/flashlight/lib/text\\n\",\n            \"copying flashlight/lib/text/decoder.py -> build/lib.linux-x86_64-cpython-310/flashlight/lib/text\\n\",\n            \"running build_ext\\n\",\n            \"-- The CXX compiler identification is GNU 9.4.0\\n\",\n            \"-- The C compiler identification is GNU 9.4.0\\n\",\n            \"-- Detecting CXX compiler ABI info\\n\",\n            \"-- Detecting CXX compiler ABI info - done\\n\",\n            \"-- Check for working CXX compiler: /usr/bin/c++ - skipped\\n\",\n            \"-- Detecting CXX compile features\\n\",\n            \"-- Detecting CXX compile features - done\\n\",\n            \"-- Detecting C compiler ABI info\\n\",\n            \"-- Detecting C compiler ABI info - done\\n\",\n            \"-- Check for working C compiler: /usr/bin/cc - skipped\\n\",\n            \"-- Detecting C compile features\\n\",\n            \"-- Detecting C compile features - done\\n\",\n            \"-- Performing Test COMPILER_SUPPORTS_RDYNAMIC\\n\",\n            \"-- Performing Test COMPILER_SUPPORTS_RDYNAMIC - Success\\n\",\n            \"-- -rdynamic supported.\\n\",\n            \"-- The CUDA compiler identification is NVIDIA 11.8.89\\n\",\n            \"-- Detecting CUDA compiler ABI info\\n\",\n            \"-- Detecting CUDA compiler ABI info - done\\n\",\n            \"-- Check for working CUDA compiler: /usr/local/cuda/bin/nvcc - skipped\\n\",\n            \"-- Detecting CUDA compile features\\n\",\n            \"-- Detecting CUDA compile features - done\\n\",\n            \"-- Performing Test CMAKE_HAVE_LIBC_PTHREAD\\n\",\n            \"-- Performing Test CMAKE_HAVE_LIBC_PTHREAD - Failed\\n\",\n            \"-- Looking for pthread_create in pthreads\\n\",\n            \"-- Looking for pthread_create in pthreads - not found\\n\",\n            \"-- Looking for pthread_create in pthread\\n\",\n            \"-- Looking for pthread_create in pthread - found\\n\",\n            \"-- Found Threads: TRUE  \\n\",\n            \"-- CUDA found (library: /usr/local/cuda/lib64/libcudart_static.a;Threads::Threads;dl;/usr/lib/x86_64-linux-gnu/librt.so include: /usr/local/cuda/include)\\n\",\n            \"-- CUDA architecture flags: -gencodearch=compute_35,code=sm_35-gencodearch=compute_50,code=sm_50-gencodearch=compute_52,code=sm_52-gencodearch=compute_60,code=sm_60-gencodearch=compute_61,code=sm_61-gencodearch=compute_70,code=sm_70-gencodearch=compute_75,code=sm_75-gencodearch=compute_80,code=sm_80-gencodearch=compute_80,code=compute_80\\n\",\n            \"-- Will build flashlight libraries.\\n\",\n            \"-- MKL_THREADING = OMP\\n\",\n            \"-- Looking for sys/types.h\\n\",\n            \"-- Looking for sys/types.h - found\\n\",\n            \"-- Looking for stdint.h\\n\",\n            \"-- Looking for stdint.h - found\\n\",\n            \"-- Looking for stddef.h\\n\",\n            \"-- Looking for stddef.h - found\\n\",\n            \"-- Check size of void*\\n\",\n            \"-- Check size of void* - done\\n\",\n            \"-- Checking for [mkl_intel_lp64 - mkl_gnu_thread - mkl_core - gomp - pthread - m - dl]\\n\",\n            \"--   Library mkl_intel_lp64: /opt/intel/mkl/lib/intel64/libmkl_intel_lp64.so\\n\",\n            \"--   Library mkl_gnu_thread: /opt/intel/mkl/lib/intel64/libmkl_gnu_thread.so\\n\",\n            \"--   Library mkl_core: /opt/intel/mkl/lib/intel64/libmkl_core.so\\n\",\n            \"--   Library gomp: -fopenmp\\n\",\n            \"--   Library pthread: /usr/lib/x86_64-linux-gnu/libpthread.so\\n\",\n            \"--   Library m: /usr/lib/x86_64-linux-gnu/libm.so\\n\",\n            \"--   Library dl: /usr/lib/x86_64-linux-gnu/libdl.so\\n\",\n            \"-- Looking for cblas_sgemm\\n\",\n            \"-- Looking for cblas_sgemm - found\\n\",\n            \"-- MKL library found\\n\",\n            \"-- CBLAS found (include: /opt/intel/mkl/include, library: /opt/intel/mkl/lib/intel64/libmkl_intel_lp64.so;/opt/intel/mkl/lib/intel64/libmkl_gnu_thread.so;/opt/intel/mkl/lib/intel64/libmkl_core.so;-fopenmp;/usr/lib/x86_64-linux-gnu/libpthread.so;/usr/lib/x86_64-linux-gnu/libm.so;/usr/lib/x86_64-linux-gnu/libdl.so)\\n\",\n            \"-- Could NOT find FFTW3 (missing: FFTW3_DIR)\\n\",\n            \"-- Found PkgConfig: /usr/bin/pkg-config (found version \\\"0.29.1\\\") \\n\",\n            \"-- FindFFTW using pkgconfig: FOUND=1 LIBRARIES=fftw3 LIBRARY_DIRS=/usr/lib/x86_64-linux-gnu LIBDIR=/usr/lib/x86_64-linux-gnu LINK_LIBRARIES=/usr/lib/x86_64-linux-gnu/libfftw3.so\\n\",\n            \"-- FindFTTW using pkgconfig: INCLUDE_DIRS= INCLUDEDIR=/usr/include\\n\",\n            \"-- Found FFTW3: /usr/include  \\n\",\n            \"-- FFTW found\\n\",\n            \"-- Found OpenMP_C: -fopenmp (found version \\\"4.5\\\") \\n\",\n            \"-- Found OpenMP_CXX: -fopenmp (found version \\\"4.5\\\") \\n\",\n            \"-- Found OpenMP: TRUE (found version \\\"4.5\\\")  \\n\",\n            \"-- Looking for KenLM\\n\",\n            \"-- Looking for lzma_auto_decoder in /usr/lib/x86_64-linux-gnu/liblzma.so\\n\",\n            \"-- Looking for lzma_auto_decoder in /usr/lib/x86_64-linux-gnu/liblzma.so - found\\n\",\n            \"-- Looking for lzma_easy_encoder in /usr/lib/x86_64-linux-gnu/liblzma.so\\n\",\n            \"-- Looking for lzma_easy_encoder in /usr/lib/x86_64-linux-gnu/liblzma.so - found\\n\",\n            \"-- Looking for lzma_lzma_preset in /usr/lib/x86_64-linux-gnu/liblzma.so\\n\",\n            \"-- Looking for lzma_lzma_preset in /usr/lib/x86_64-linux-gnu/liblzma.so - found\\n\",\n            \"-- Found LibLZMA: /usr/lib/x86_64-linux-gnu/liblzma.so (found version \\\"5.2.4\\\") \\n\",\n            \"-- Found BZip2: /usr/lib/x86_64-linux-gnu/libbz2.so (found version \\\"1.0.8\\\") \\n\",\n            \"-- Looking for BZ2_bzCompressInit\\n\",\n            \"-- Looking for BZ2_bzCompressInit - found\\n\",\n            \"-- Found ZLIB: /usr/lib/x86_64-linux-gnu/libz.so (found version \\\"1.2.11\\\") \\n\",\n            \"-- Using kenlm library found in /usr/local/lib/libkenlm.a\\n\",\n            \"-- Using kenlm utils library found in /usr/local/lib/libkenlm_util.a\\n\",\n            \"-- kenlm model.hh found in /usr/local/include/kenlm/lm\\n\",\n            \"-- Found kenlm: /usr/local/include  \\n\",\n            \"-- Found kenlm (include: /usr/local/include, library: /usr/local/lib/libkenlm.a;/usr/local/lib/libkenlm_util.a;/usr/lib/x86_64-linux-gnu/liblzma.so;/usr/lib/x86_64-linux-gnu/libbz2.so;/usr/lib/x86_64-linux-gnu/libz.so)\\n\",\n            \"-- Found PythonInterp: /usr/bin/python3 (found version \\\"3.10.11\\\") \\n\",\n            \"-- Found PythonLibs: /usr/lib/x86_64-linux-gnu/libpython3.10.so\\n\",\n            \"-- Performing Test HAS_FLTO\\n\",\n            \"-- Performing Test HAS_FLTO - Success\\n\",\n            \"-- LTO enabled\\n\",\n            \"-- Configuring done\\n\",\n            \"\\u001b[33mCMake Warning (dev) in CMakeLists.txt:\\n\",\n            \"  Policy CMP0104 is not set: CMAKE_CUDA_ARCHITECTURES now detected for NVCC,\\n\",\n            \"  empty CUDA_ARCHITECTURES not allowed.  Run \\\"cmake --help-policy CMP0104\\\"\\n\",\n            \"  for policy details.  Use the cmake_policy command to set the policy and\\n\",\n            \"  suppress this warning.\\n\",\n            \"\\n\",\n            \"  CUDA_ARCHITECTURES is empty for target \\\"fl-libraries\\\".\\n\",\n            \"This warning is for project developers.  Use -Wno-dev to suppress it.\\n\",\n            \"\\u001b[0m\\n\",\n            \"-- Generating done\\n\",\n            \"-- Build files have been written to: /content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310\\n\",\n            \"[  1%] \\u001b[34m\\u001b[1mCreating directories for 'pybind11'\\u001b[0m\\n\",\n            \"[  3%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/set/Hungarian.cpp.o\\u001b[0m\\n\",\n            \"[  5%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/sequence/criterion/cpu/CriterionUtils.cpp.o\\u001b[0m\\n\",\n            \"[  7%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/sequence/criterion/cpu/ForceAlignmentCriterion.cpp.o\\u001b[0m\\n\",\n            \"[  9%] \\u001b[34m\\u001b[1mPerforming download step (git clone) for 'pybind11'\\u001b[0m\\n\",\n            \"Cloning into 'pybind11'...\\n\",\n            \"[ 11%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/sequence/criterion/cpu/ConnectionistTemporalClassificationCriterion.cpp.o\\u001b[0m\\n\",\n            \"[ 13%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/sequence/criterion/cpu/FullConnectionCriterion.cpp.o\\u001b[0m\\n\",\n            \"[ 15%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/sequence/criterion/cpu/ViterbiPath.cpp.o\\u001b[0m\\n\",\n            \"[ 16%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/audio/feature/Ceplifter.cpp.o\\u001b[0m\\n\",\n            \"[ 18%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/audio/feature/Dct.cpp.o\\u001b[0m\\n\",\n            \"[ 20%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/audio/feature/Derivatives.cpp.o\\u001b[0m\\n\",\n            \"HEAD is now at 9a19306f bump version to 2.2.4\\n\",\n            \"Submodule 'tools/clang' (https://github.com/wjakob/clang-cindex-python3) registered for path 'tools/clang'\\n\",\n            \"Cloning into '/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/tools/clang'...\\n\",\n            \"[ 22%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/audio/feature/Dither.cpp.o\\u001b[0m\\n\",\n            \"[ 24%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/audio/feature/Mfcc.cpp.o\\u001b[0m\\n\",\n            \"[ 26%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/audio/feature/Mfsc.cpp.o\\u001b[0m\\n\",\n            \"Submodule path 'tools/clang': checked out '6a00cbc4a9b8e68b71caf7f774b3f9c753ae84d5'\\n\",\n            \"[ 28%] \\u001b[34m\\u001b[1mPerforming update step for 'pybind11'\\u001b[0m\\n\",\n            \"[ 30%] \\u001b[34m\\u001b[1mNo patch step for 'pybind11'\\u001b[0m\\n\",\n            \"[ 32%] \\u001b[34m\\u001b[1mNo configure step for 'pybind11'\\u001b[0m\\n\",\n            \"[ 33%] \\u001b[34m\\u001b[1mNo build step for 'pybind11'\\u001b[0m\\n\",\n            \"[ 35%] \\u001b[34m\\u001b[1mNo install step for 'pybind11'\\u001b[0m\\n\",\n            \"[ 37%] \\u001b[34m\\u001b[1mCompleted 'pybind11'\\u001b[0m\\n\",\n            \"[ 37%] Built target pybind11\\n\",\n            \"[ 39%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/audio/feature/PowerSpectrum.cpp.o\\u001b[0m\\n\",\n            \"[ 41%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/audio/feature/PreEmphasis.cpp.o\\u001b[0m\\n\",\n            \"[ 43%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/audio/feature/SpeechUtils.cpp.o\\u001b[0m\\n\",\n            \"[ 45%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/audio/feature/TriFilterbank.cpp.o\\u001b[0m\\n\",\n            \"[ 47%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/audio/feature/Windowing.cpp.o\\u001b[0m\\n\",\n            \"[ 49%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/common/String.cpp.o\\u001b[0m\\n\",\n            \"[ 50%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/common/System.cpp.o\\u001b[0m\\n\",\n            \"[ 52%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/text/decoder/lm/ConvLM.cpp.o\\u001b[0m\\n\",\n            \"[ 54%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/text/decoder/lm/ZeroLM.cpp.o\\u001b[0m\\n\",\n            \"[ 56%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/text/decoder/lm/KenLM.cpp.o\\u001b[0m\\n\",\n            \"[ 58%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/text/decoder/LexiconDecoder.cpp.o\\u001b[0m\\n\",\n            \"[ 60%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/text/decoder/LexiconFreeDecoder.cpp.o\\u001b[0m\\n\",\n            \"[ 62%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/text/decoder/LexiconSeq2SeqDecoder.cpp.o\\u001b[0m\\n\",\n            \"[ 64%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/text/decoder/LexiconFreeSeq2SeqDecoder.cpp.o\\u001b[0m\\n\",\n            \"[ 66%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/text/decoder/Trie.cpp.o\\u001b[0m\\n\",\n            \"[ 67%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/text/decoder/Utils.cpp.o\\u001b[0m\\n\",\n            \"[ 69%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/text/dictionary/Dictionary.cpp.o\\u001b[0m\\n\",\n            \"[ 71%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/text/dictionary/Utils.cpp.o\\u001b[0m\\n\",\n            \"[ 73%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/text/tokenizer/PartialFileReader.cpp.o\\u001b[0m\\n\",\n            \"[ 75%] \\u001b[32mBuilding CXX object CMakeFiles/fl-libraries.dir/flashlight/lib/text/tokenizer/Tokenizer.cpp.o\\u001b[0m\\n\",\n            \"[ 77%] \\u001b[32mBuilding CUDA object CMakeFiles/fl-libraries.dir/flashlight/lib/sequence/criterion/cuda/CriterionUtils.cu.o\\u001b[0m\\n\",\n            \"[ 79%] \\u001b[32mBuilding CUDA object CMakeFiles/fl-libraries.dir/flashlight/lib/sequence/criterion/cuda/ForceAlignmentCriterion.cu.o\\u001b[0m\\n\",\n            \"[ 81%] \\u001b[32mBuilding CUDA object CMakeFiles/fl-libraries.dir/flashlight/lib/sequence/criterion/cuda/FullConnectionCriterion.cu.o\\u001b[0m\\n\",\n            \"[ 83%] \\u001b[32mBuilding CUDA object CMakeFiles/fl-libraries.dir/flashlight/lib/sequence/criterion/cuda/ViterbiPath.cu.o\\u001b[0m\\n\",\n            \"[ 84%] \\u001b[32m\\u001b[1mLinking CXX shared library /content/fairseq/flashlight/bindings/python/build/lib.linux-x86_64-cpython-310/libfl-libraries.so\\u001b[0m\\n\",\n            \"[ 84%] Built target fl-libraries\\n\",\n            \"[ 86%] \\u001b[32mBuilding CXX object CMakeFiles/flashlight_lib_audio_feature.dir/bindings/python/flashlight/lib/audio/_feature.cpp.o\\u001b[0m\\n\",\n            \"[ 88%] \\u001b[32mBuilding CXX object CMakeFiles/flashlight_lib_sequence_criterion.dir/bindings/python/flashlight/lib/sequence/_criterion.cpp.o\\u001b[0m\\n\",\n            \"[ 90%] \\u001b[32mBuilding CXX object CMakeFiles/flashlight_lib_text_dictionary.dir/bindings/python/flashlight/lib/text/_dictionary.cpp.o\\u001b[0m\\n\",\n            \"[ 92%] \\u001b[32mBuilding CXX object CMakeFiles/flashlight_lib_text_decoder.dir/bindings/python/flashlight/lib/text/_decoder.cpp.o\\u001b[0m\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:16\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/text/_decoder.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/internals.h:\\u001b[m\\u001b[K In function ‘\\u001b[01m\\u001b[Kpybind11::detail::internals& pybind11::detail::get_internals()\\u001b[m\\u001b[K’:\\n\",\n            \"\\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/internals.h:194:28:\\u001b[m\\u001b[K \\u001b[01;35m\\u001b[Kwarning: \\u001b[m\\u001b[K‘\\u001b[01m\\u001b[Kvoid PyEval_InitThreads()\\u001b[m\\u001b[K’ is deprecated [\\u001b[01;35m\\u001b[K-Wdeprecated-declarations\\u001b[m\\u001b[K]\\n\",\n            \"  194 |         PyEval_InitThreads(\\u001b[01;35m\\u001b[K)\\u001b[m\\u001b[K;\\n\",\n            \"      |                            \\u001b[01;35m\\u001b[K^\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/usr/include/python3.10/Python.h:130\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/common.h:112\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pytypes.h:12\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/text/_decoder.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/usr/include/python3.10/ceval.h:122:37:\\u001b[m\\u001b[K \\u001b[01;36m\\u001b[Knote: \\u001b[m\\u001b[Kdeclared here\\n\",\n            \"  122 | Py_DEPRECATED(3.9) PyAPI_FUNC(void) \\u001b[01;36m\\u001b[KPyEval_InitThreads\\u001b[m\\u001b[K(void);\\n\",\n            \"      |                                     \\u001b[01;36m\\u001b[K^~~~~~~~~~~~~~~~~~\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:16\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/text/_decoder.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/internals.h:194:28:\\u001b[m\\u001b[K \\u001b[01;35m\\u001b[Kwarning: \\u001b[m\\u001b[K‘\\u001b[01m\\u001b[Kvoid PyEval_InitThreads()\\u001b[m\\u001b[K’ is deprecated [\\u001b[01;35m\\u001b[K-Wdeprecated-declarations\\u001b[m\\u001b[K]\\n\",\n            \"  194 |         PyEval_InitThreads(\\u001b[01;35m\\u001b[K)\\u001b[m\\u001b[K;\\n\",\n            \"      |                            \\u001b[01;35m\\u001b[K^\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/usr/include/python3.10/Python.h:130\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/common.h:112\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pytypes.h:12\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/text/_decoder.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/usr/include/python3.10/ceval.h:122:37:\\u001b[m\\u001b[K \\u001b[01;36m\\u001b[Knote: \\u001b[m\\u001b[Kdeclared here\\n\",\n            \"  122 | Py_DEPRECATED(3.9) PyAPI_FUNC(void) \\u001b[01;36m\\u001b[KPyEval_InitThreads\\u001b[m\\u001b[K(void);\\n\",\n            \"      |                                     \\u001b[01;36m\\u001b[K^~~~~~~~~~~~~~~~~~\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:16\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/sequence/_criterion.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/internals.h:\\u001b[m\\u001b[K In function ‘\\u001b[01m\\u001b[Kpybind11::detail::internals& pybind11::detail::get_internals()\\u001b[m\\u001b[K’:\\n\",\n            \"\\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/internals.h:194:28:\\u001b[m\\u001b[K \\u001b[01;35m\\u001b[Kwarning: \\u001b[m\\u001b[K‘\\u001b[01m\\u001b[Kvoid PyEval_InitThreads()\\u001b[m\\u001b[K’ is deprecated [\\u001b[01;35m\\u001b[K-Wdeprecated-declarations\\u001b[m\\u001b[K]\\n\",\n            \"  194 |         PyEval_InitThreads(\\u001b[01;35m\\u001b[K)\\u001b[m\\u001b[K;\\n\",\n            \"      |                            \\u001b[01;35m\\u001b[K^\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/usr/include/python3.10/Python.h:130\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/common.h:112\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pytypes.h:12\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/sequence/_criterion.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/usr/include/python3.10/ceval.h:122:37:\\u001b[m\\u001b[K \\u001b[01;36m\\u001b[Knote: \\u001b[m\\u001b[Kdeclared here\\n\",\n            \"  122 | Py_DEPRECATED(3.9) PyAPI_FUNC(void) \\u001b[01;36m\\u001b[KPyEval_InitThreads\\u001b[m\\u001b[K(void);\\n\",\n            \"      |                                     \\u001b[01;36m\\u001b[K^~~~~~~~~~~~~~~~~~\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:16\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/sequence/_criterion.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/internals.h:194:28:\\u001b[m\\u001b[K \\u001b[01;35m\\u001b[Kwarning: \\u001b[m\\u001b[K‘\\u001b[01m\\u001b[Kvoid PyEval_InitThreads()\\u001b[m\\u001b[K’ is deprecated [\\u001b[01;35m\\u001b[K-Wdeprecated-declarations\\u001b[m\\u001b[K]\\n\",\n            \"  194 |         PyEval_InitThreads(\\u001b[01;35m\\u001b[K)\\u001b[m\\u001b[K;\\n\",\n            \"      |                            \\u001b[01;35m\\u001b[K^\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/usr/include/python3.10/Python.h:130\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/common.h:112\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pytypes.h:12\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/sequence/_criterion.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/usr/include/python3.10/ceval.h:122:37:\\u001b[m\\u001b[K \\u001b[01;36m\\u001b[Knote: \\u001b[m\\u001b[Kdeclared here\\n\",\n            \"  122 | Py_DEPRECATED(3.9) PyAPI_FUNC(void) \\u001b[01;36m\\u001b[KPyEval_InitThreads\\u001b[m\\u001b[K(void);\\n\",\n            \"      |                                     \\u001b[01;36m\\u001b[K^~~~~~~~~~~~~~~~~~\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:16\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/text/_dictionary.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/internals.h:\\u001b[m\\u001b[K In function ‘\\u001b[01m\\u001b[Kpybind11::detail::internals& pybind11::detail::get_internals()\\u001b[m\\u001b[K’:\\n\",\n            \"\\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/internals.h:194:28:\\u001b[m\\u001b[K \\u001b[01;35m\\u001b[Kwarning: \\u001b[m\\u001b[K‘\\u001b[01m\\u001b[Kvoid PyEval_InitThreads()\\u001b[m\\u001b[K’ is deprecated [\\u001b[01;35m\\u001b[K-Wdeprecated-declarations\\u001b[m\\u001b[K]\\n\",\n            \"  194 |         PyEval_InitThreads(\\u001b[01;35m\\u001b[K)\\u001b[m\\u001b[K;\\n\",\n            \"      |                            \\u001b[01;35m\\u001b[K^\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/usr/include/python3.10/Python.h:130\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/common.h:112\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pytypes.h:12\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/text/_dictionary.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/usr/include/python3.10/ceval.h:122:37:\\u001b[m\\u001b[K \\u001b[01;36m\\u001b[Knote: \\u001b[m\\u001b[Kdeclared here\\n\",\n            \"  122 | Py_DEPRECATED(3.9) PyAPI_FUNC(void) \\u001b[01;36m\\u001b[KPyEval_InitThreads\\u001b[m\\u001b[K(void);\\n\",\n            \"      |                                     \\u001b[01;36m\\u001b[K^~~~~~~~~~~~~~~~~~\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:16\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/text/_dictionary.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/internals.h:194:28:\\u001b[m\\u001b[K \\u001b[01;35m\\u001b[Kwarning: \\u001b[m\\u001b[K‘\\u001b[01m\\u001b[Kvoid PyEval_InitThreads()\\u001b[m\\u001b[K’ is deprecated [\\u001b[01;35m\\u001b[K-Wdeprecated-declarations\\u001b[m\\u001b[K]\\n\",\n            \"  194 |         PyEval_InitThreads(\\u001b[01;35m\\u001b[K)\\u001b[m\\u001b[K;\\n\",\n            \"      |                            \\u001b[01;35m\\u001b[K^\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/usr/include/python3.10/Python.h:130\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/common.h:112\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pytypes.h:12\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/text/_dictionary.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/usr/include/python3.10/ceval.h:122:37:\\u001b[m\\u001b[K \\u001b[01;36m\\u001b[Knote: \\u001b[m\\u001b[Kdeclared here\\n\",\n            \"  122 | Py_DEPRECATED(3.9) PyAPI_FUNC(void) \\u001b[01;36m\\u001b[KPyEval_InitThreads\\u001b[m\\u001b[K(void);\\n\",\n            \"      |                                     \\u001b[01;36m\\u001b[K^~~~~~~~~~~~~~~~~~\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:16\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/audio/_feature.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/internals.h:\\u001b[m\\u001b[K In function ‘\\u001b[01m\\u001b[Kpybind11::detail::internals& pybind11::detail::get_internals()\\u001b[m\\u001b[K’:\\n\",\n            \"\\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/internals.h:194:28:\\u001b[m\\u001b[K \\u001b[01;35m\\u001b[Kwarning: \\u001b[m\\u001b[K‘\\u001b[01m\\u001b[Kvoid PyEval_InitThreads()\\u001b[m\\u001b[K’ is deprecated [\\u001b[01;35m\\u001b[K-Wdeprecated-declarations\\u001b[m\\u001b[K]\\n\",\n            \"  194 |         PyEval_InitThreads(\\u001b[01;35m\\u001b[K)\\u001b[m\\u001b[K;\\n\",\n            \"      |                            \\u001b[01;35m\\u001b[K^\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/usr/include/python3.10/Python.h:130\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/common.h:112\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pytypes.h:12\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/audio/_feature.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/usr/include/python3.10/ceval.h:122:37:\\u001b[m\\u001b[K \\u001b[01;36m\\u001b[Knote: \\u001b[m\\u001b[Kdeclared here\\n\",\n            \"  122 | Py_DEPRECATED(3.9) PyAPI_FUNC(void) \\u001b[01;36m\\u001b[KPyEval_InitThreads\\u001b[m\\u001b[K(void);\\n\",\n            \"      |                                     \\u001b[01;36m\\u001b[K^~~~~~~~~~~~~~~~~~\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:16\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/audio/_feature.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/internals.h:194:28:\\u001b[m\\u001b[K \\u001b[01;35m\\u001b[Kwarning: \\u001b[m\\u001b[K‘\\u001b[01m\\u001b[Kvoid PyEval_InitThreads()\\u001b[m\\u001b[K’ is deprecated [\\u001b[01;35m\\u001b[K-Wdeprecated-declarations\\u001b[m\\u001b[K]\\n\",\n            \"  194 |         PyEval_InitThreads(\\u001b[01;35m\\u001b[K)\\u001b[m\\u001b[K;\\n\",\n            \"      |                            \\u001b[01;35m\\u001b[K^\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/usr/include/python3.10/Python.h:130\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/detail/common.h:112\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pytypes.h:12\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/cast.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/attr.h:13\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310/pybind11/src/pybind11/include/pybind11/pybind11.h:43\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[K/content/fairseq/flashlight/bindings/python/flashlight/lib/audio/_feature.cpp:8\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/usr/include/python3.10/ceval.h:122:37:\\u001b[m\\u001b[K \\u001b[01;36m\\u001b[Knote: \\u001b[m\\u001b[Kdeclared here\\n\",\n            \"  122 | Py_DEPRECATED(3.9) PyAPI_FUNC(void) \\u001b[01;36m\\u001b[KPyEval_InitThreads\\u001b[m\\u001b[K(void);\\n\",\n            \"      |                                     \\u001b[01;36m\\u001b[K^~~~~~~~~~~~~~~~~~\\u001b[m\\u001b[K\\n\",\n            \"[ 94%] \\u001b[32m\\u001b[1mLinking CXX shared module /content/fairseq/flashlight/bindings/python/build/lib.linux-x86_64-cpython-310/flashlight/lib/text/flashlight_lib_text_dictionary.cpython-310-x86_64-linux-gnu.so\\u001b[0m\\n\",\n            \"[ 96%] \\u001b[32m\\u001b[1mLinking CXX shared module /content/fairseq/flashlight/bindings/python/build/lib.linux-x86_64-cpython-310/flashlight/lib/sequence/flashlight_lib_sequence_criterion.cpython-310-x86_64-linux-gnu.so\\u001b[0m\\n\",\n            \"[ 98%] \\u001b[32m\\u001b[1mLinking CXX shared module /content/fairseq/flashlight/bindings/python/build/lib.linux-x86_64-cpython-310/flashlight/lib/audio/flashlight_lib_audio_feature.cpython-310-x86_64-linux-gnu.so\\u001b[0m\\n\",\n            \"[ 98%] Built target flashlight_lib_text_dictionary\\n\",\n            \"[100%] \\u001b[32m\\u001b[1mLinking CXX shared module /content/fairseq/flashlight/bindings/python/build/lib.linux-x86_64-cpython-310/flashlight/lib/text/flashlight_lib_text_decoder.cpython-310-x86_64-linux-gnu.so\\u001b[0m\\n\",\n            \"[100%] Built target flashlight_lib_sequence_criterion\\n\",\n            \"[100%] Built target flashlight_lib_audio_feature\\n\",\n            \"[100%] Built target flashlight_lib_text_decoder\\n\",\n            \"-- -rdynamic supported.\\n\",\n            \"-- CUDA found (library: /usr/local/cuda/lib64/libcudart_static.a;Threads::Threads;dl;/usr/lib/x86_64-linux-gnu/librt.so include: /usr/local/cuda/include)\\n\",\n            \"-- CUDA architecture flags: -gencodearch=compute_35,code=sm_35-gencodearch=compute_50,code=sm_50-gencodearch=compute_52,code=sm_52-gencodearch=compute_60,code=sm_60-gencodearch=compute_61,code=sm_61-gencodearch=compute_70,code=sm_70-gencodearch=compute_75,code=sm_75-gencodearch=compute_80,code=sm_80-gencodearch=compute_80,code=compute_80\\n\",\n            \"-- Will build flashlight libraries.\\n\",\n            \"-- MKL_THREADING = OMP\\n\",\n            \"-- Checking for [mkl_intel_lp64 - mkl_gnu_thread - mkl_core - gomp - pthread - m - dl]\\n\",\n            \"--   Library mkl_intel_lp64: /opt/intel/mkl/lib/intel64/libmkl_intel_lp64.so\\n\",\n            \"--   Library mkl_gnu_thread: /opt/intel/mkl/lib/intel64/libmkl_gnu_thread.so\\n\",\n            \"--   Library mkl_core: /opt/intel/mkl/lib/intel64/libmkl_core.so\\n\",\n            \"--   Library gomp: -fopenmp\\n\",\n            \"--   Library pthread: /usr/lib/x86_64-linux-gnu/libpthread.so\\n\",\n            \"--   Library m: /usr/lib/x86_64-linux-gnu/libm.so\\n\",\n            \"--   Library dl: /usr/lib/x86_64-linux-gnu/libdl.so\\n\",\n            \"-- MKL library found\\n\",\n            \"-- CBLAS found (include: /opt/intel/mkl/include, library: /opt/intel/mkl/lib/intel64/libmkl_intel_lp64.so;/opt/intel/mkl/lib/intel64/libmkl_gnu_thread.so;/opt/intel/mkl/lib/intel64/libmkl_core.so;-fopenmp;/usr/lib/x86_64-linux-gnu/libpthread.so;/usr/lib/x86_64-linux-gnu/libm.so;/usr/lib/x86_64-linux-gnu/libdl.so)\\n\",\n            \"-- Could NOT find FFTW3 (missing: FFTW3_DIR)\\n\",\n            \"-- FindFFTW using pkgconfig: FOUND=1 LIBRARIES=fftw3 LIBRARY_DIRS=/usr/lib/x86_64-linux-gnu LIBDIR=/usr/lib/x86_64-linux-gnu LINK_LIBRARIES=/usr/lib/x86_64-linux-gnu/libfftw3.so\\n\",\n            \"-- FindFTTW using pkgconfig: INCLUDE_DIRS= INCLUDEDIR=/usr/include\\n\",\n            \"-- FFTW found\\n\",\n            \"-- Looking for KenLM\\n\",\n            \"-- Using kenlm library found in /usr/local/lib/libkenlm.a\\n\",\n            \"-- Using kenlm utils library found in /usr/local/lib/libkenlm_util.a\\n\",\n            \"-- kenlm model.hh found in /usr/local/include/kenlm/lm\\n\",\n            \"-- Found kenlm (include: /usr/local/include, library: /usr/local/lib/libkenlm.a;/usr/local/lib/libkenlm_util.a;/usr/lib/x86_64-linux-gnu/liblzma.so;/usr/lib/x86_64-linux-gnu/libbz2.so;/usr/lib/x86_64-linux-gnu/libz.so)\\n\",\n            \"-- Configuring done\\n\",\n            \"\\u001b[33mCMake Warning (dev) in CMakeLists.txt:\\n\",\n            \"  Policy CMP0104 is not set: CMAKE_CUDA_ARCHITECTURES now detected for NVCC,\\n\",\n            \"  empty CUDA_ARCHITECTURES not allowed.  Run \\\"cmake --help-policy CMP0104\\\"\\n\",\n            \"  for policy details.  Use the cmake_policy command to set the policy and\\n\",\n            \"  suppress this warning.\\n\",\n            \"\\n\",\n            \"  CUDA_ARCHITECTURES is empty for target \\\"fl-libraries\\\".\\n\",\n            \"This warning is for project developers.  Use -Wno-dev to suppress it.\\n\",\n            \"\\u001b[0m\\n\",\n            \"-- Generating done\\n\",\n            \"-- Build files have been written to: /content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310\\n\",\n            \"[  1%] \\u001b[34m\\u001b[1mPerforming update step for 'pybind11'\\u001b[0m\\n\",\n            \"[  3%] \\u001b[34m\\u001b[1mNo patch step for 'pybind11'\\u001b[0m\\n\",\n            \"[  5%] \\u001b[34m\\u001b[1mNo configure step for 'pybind11'\\u001b[0m\\n\",\n            \"[  7%] \\u001b[34m\\u001b[1mNo build step for 'pybind11'\\u001b[0m\\n\",\n            \"[  9%] \\u001b[34m\\u001b[1mNo install step for 'pybind11'\\u001b[0m\\n\",\n            \"[ 11%] \\u001b[34m\\u001b[1mCompleted 'pybind11'\\u001b[0m\\n\",\n            \"[ 15%] Built target pybind11\\n\",\n            \"[ 84%] Built target fl-libraries\\n\",\n            \"[ 88%] Built target flashlight_lib_sequence_criterion\\n\",\n            \"[ 92%] Built target flashlight_lib_text_decoder\\n\",\n            \"[ 96%] Built target flashlight_lib_audio_feature\\n\",\n            \"[100%] Built target flashlight_lib_text_dictionary\\n\",\n            \"-- -rdynamic supported.\\n\",\n            \"-- CUDA found (library: /usr/local/cuda/lib64/libcudart_static.a;Threads::Threads;dl;/usr/lib/x86_64-linux-gnu/librt.so include: /usr/local/cuda/include)\\n\",\n            \"-- CUDA architecture flags: -gencodearch=compute_35,code=sm_35-gencodearch=compute_50,code=sm_50-gencodearch=compute_52,code=sm_52-gencodearch=compute_60,code=sm_60-gencodearch=compute_61,code=sm_61-gencodearch=compute_70,code=sm_70-gencodearch=compute_75,code=sm_75-gencodearch=compute_80,code=sm_80-gencodearch=compute_80,code=compute_80\\n\",\n            \"-- Will build flashlight libraries.\\n\",\n            \"-- MKL_THREADING = OMP\\n\",\n            \"-- Checking for [mkl_intel_lp64 - mkl_gnu_thread - mkl_core - gomp - pthread - m - dl]\\n\",\n            \"--   Library mkl_intel_lp64: /opt/intel/mkl/lib/intel64/libmkl_intel_lp64.so\\n\",\n            \"--   Library mkl_gnu_thread: /opt/intel/mkl/lib/intel64/libmkl_gnu_thread.so\\n\",\n            \"--   Library mkl_core: /opt/intel/mkl/lib/intel64/libmkl_core.so\\n\",\n            \"--   Library gomp: -fopenmp\\n\",\n            \"--   Library pthread: /usr/lib/x86_64-linux-gnu/libpthread.so\\n\",\n            \"--   Library m: /usr/lib/x86_64-linux-gnu/libm.so\\n\",\n            \"--   Library dl: /usr/lib/x86_64-linux-gnu/libdl.so\\n\",\n            \"-- MKL library found\\n\",\n            \"-- CBLAS found (include: /opt/intel/mkl/include, library: /opt/intel/mkl/lib/intel64/libmkl_intel_lp64.so;/opt/intel/mkl/lib/intel64/libmkl_gnu_thread.so;/opt/intel/mkl/lib/intel64/libmkl_core.so;-fopenmp;/usr/lib/x86_64-linux-gnu/libpthread.so;/usr/lib/x86_64-linux-gnu/libm.so;/usr/lib/x86_64-linux-gnu/libdl.so)\\n\",\n            \"-- Could NOT find FFTW3 (missing: FFTW3_DIR)\\n\",\n            \"-- FindFFTW using pkgconfig: FOUND=1 LIBRARIES=fftw3 LIBRARY_DIRS=/usr/lib/x86_64-linux-gnu LIBDIR=/usr/lib/x86_64-linux-gnu LINK_LIBRARIES=/usr/lib/x86_64-linux-gnu/libfftw3.so\\n\",\n            \"-- FindFTTW using pkgconfig: INCLUDE_DIRS= INCLUDEDIR=/usr/include\\n\",\n            \"-- FFTW found\\n\",\n            \"-- Looking for KenLM\\n\",\n            \"-- Using kenlm library found in /usr/local/lib/libkenlm.a\\n\",\n            \"-- Using kenlm utils library found in /usr/local/lib/libkenlm_util.a\\n\",\n            \"-- kenlm model.hh found in /usr/local/include/kenlm/lm\\n\",\n            \"-- Found kenlm (include: /usr/local/include, library: /usr/local/lib/libkenlm.a;/usr/local/lib/libkenlm_util.a;/usr/lib/x86_64-linux-gnu/liblzma.so;/usr/lib/x86_64-linux-gnu/libbz2.so;/usr/lib/x86_64-linux-gnu/libz.so)\\n\",\n            \"-- Configuring done\\n\",\n            \"\\u001b[33mCMake Warning (dev) in CMakeLists.txt:\\n\",\n            \"  Policy CMP0104 is not set: CMAKE_CUDA_ARCHITECTURES now detected for NVCC,\\n\",\n            \"  empty CUDA_ARCHITECTURES not allowed.  Run \\\"cmake --help-policy CMP0104\\\"\\n\",\n            \"  for policy details.  Use the cmake_policy command to set the policy and\\n\",\n            \"  suppress this warning.\\n\",\n            \"\\n\",\n            \"  CUDA_ARCHITECTURES is empty for target \\\"fl-libraries\\\".\\n\",\n            \"This warning is for project developers.  Use -Wno-dev to suppress it.\\n\",\n            \"\\u001b[0m\\n\",\n            \"-- Generating done\\n\",\n            \"-- Build files have been written to: /content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310\\n\",\n            \"[  1%] \\u001b[34m\\u001b[1mPerforming update step for 'pybind11'\\u001b[0m\\n\",\n            \"[  3%] \\u001b[34m\\u001b[1mNo patch step for 'pybind11'\\u001b[0m\\n\",\n            \"[  5%] \\u001b[34m\\u001b[1mNo configure step for 'pybind11'\\u001b[0m\\n\",\n            \"[  7%] \\u001b[34m\\u001b[1mNo build step for 'pybind11'\\u001b[0m\\n\",\n            \"[  9%] \\u001b[34m\\u001b[1mNo install step for 'pybind11'\\u001b[0m\\n\",\n            \"[ 11%] \\u001b[34m\\u001b[1mCompleted 'pybind11'\\u001b[0m\\n\",\n            \"[ 15%] Built target pybind11\\n\",\n            \"[ 84%] Built target fl-libraries\\n\",\n            \"[ 88%] Built target flashlight_lib_sequence_criterion\\n\",\n            \"[ 92%] Built target flashlight_lib_audio_feature\\n\",\n            \"[ 96%] Built target flashlight_lib_text_decoder\\n\",\n            \"[100%] Built target flashlight_lib_text_dictionary\\n\",\n            \"-- -rdynamic supported.\\n\",\n            \"-- CUDA found (library: /usr/local/cuda/lib64/libcudart_static.a;Threads::Threads;dl;/usr/lib/x86_64-linux-gnu/librt.so include: /usr/local/cuda/include)\\n\",\n            \"-- CUDA architecture flags: -gencodearch=compute_35,code=sm_35-gencodearch=compute_50,code=sm_50-gencodearch=compute_52,code=sm_52-gencodearch=compute_60,code=sm_60-gencodearch=compute_61,code=sm_61-gencodearch=compute_70,code=sm_70-gencodearch=compute_75,code=sm_75-gencodearch=compute_80,code=sm_80-gencodearch=compute_80,code=compute_80\\n\",\n            \"-- Will build flashlight libraries.\\n\",\n            \"-- MKL_THREADING = OMP\\n\",\n            \"-- Checking for [mkl_intel_lp64 - mkl_gnu_thread - mkl_core - gomp - pthread - m - dl]\\n\",\n            \"--   Library mkl_intel_lp64: /opt/intel/mkl/lib/intel64/libmkl_intel_lp64.so\\n\",\n            \"--   Library mkl_gnu_thread: /opt/intel/mkl/lib/intel64/libmkl_gnu_thread.so\\n\",\n            \"--   Library mkl_core: /opt/intel/mkl/lib/intel64/libmkl_core.so\\n\",\n            \"--   Library gomp: -fopenmp\\n\",\n            \"--   Library pthread: /usr/lib/x86_64-linux-gnu/libpthread.so\\n\",\n            \"--   Library m: /usr/lib/x86_64-linux-gnu/libm.so\\n\",\n            \"--   Library dl: /usr/lib/x86_64-linux-gnu/libdl.so\\n\",\n            \"-- MKL library found\\n\",\n            \"-- CBLAS found (include: /opt/intel/mkl/include, library: /opt/intel/mkl/lib/intel64/libmkl_intel_lp64.so;/opt/intel/mkl/lib/intel64/libmkl_gnu_thread.so;/opt/intel/mkl/lib/intel64/libmkl_core.so;-fopenmp;/usr/lib/x86_64-linux-gnu/libpthread.so;/usr/lib/x86_64-linux-gnu/libm.so;/usr/lib/x86_64-linux-gnu/libdl.so)\\n\",\n            \"-- Could NOT find FFTW3 (missing: FFTW3_DIR)\\n\",\n            \"-- FindFFTW using pkgconfig: FOUND=1 LIBRARIES=fftw3 LIBRARY_DIRS=/usr/lib/x86_64-linux-gnu LIBDIR=/usr/lib/x86_64-linux-gnu LINK_LIBRARIES=/usr/lib/x86_64-linux-gnu/libfftw3.so\\n\",\n            \"-- FindFTTW using pkgconfig: INCLUDE_DIRS= INCLUDEDIR=/usr/include\\n\",\n            \"-- FFTW found\\n\",\n            \"-- Looking for KenLM\\n\",\n            \"-- Using kenlm library found in /usr/local/lib/libkenlm.a\\n\",\n            \"-- Using kenlm utils library found in /usr/local/lib/libkenlm_util.a\\n\",\n            \"-- kenlm model.hh found in /usr/local/include/kenlm/lm\\n\",\n            \"-- Found kenlm (include: /usr/local/include, library: /usr/local/lib/libkenlm.a;/usr/local/lib/libkenlm_util.a;/usr/lib/x86_64-linux-gnu/liblzma.so;/usr/lib/x86_64-linux-gnu/libbz2.so;/usr/lib/x86_64-linux-gnu/libz.so)\\n\",\n            \"-- Configuring done\\n\",\n            \"\\u001b[33mCMake Warning (dev) in CMakeLists.txt:\\n\",\n            \"  Policy CMP0104 is not set: CMAKE_CUDA_ARCHITECTURES now detected for NVCC,\\n\",\n            \"  empty CUDA_ARCHITECTURES not allowed.  Run \\\"cmake --help-policy CMP0104\\\"\\n\",\n            \"  for policy details.  Use the cmake_policy command to set the policy and\\n\",\n            \"  suppress this warning.\\n\",\n            \"\\n\",\n            \"  CUDA_ARCHITECTURES is empty for target \\\"fl-libraries\\\".\\n\",\n            \"This warning is for project developers.  Use -Wno-dev to suppress it.\\n\",\n            \"\\u001b[0m\\n\",\n            \"-- Generating done\\n\",\n            \"-- Build files have been written to: /content/fairseq/flashlight/bindings/python/build/temp.linux-x86_64-cpython-310\\n\",\n            \"[  1%] \\u001b[34m\\u001b[1mPerforming update step for 'pybind11'\\u001b[0m\\n\",\n            \"[  3%] \\u001b[34m\\u001b[1mNo patch step for 'pybind11'\\u001b[0m\\n\",\n            \"[  5%] \\u001b[34m\\u001b[1mNo configure step for 'pybind11'\\u001b[0m\\n\",\n            \"[  7%] \\u001b[34m\\u001b[1mNo build step for 'pybind11'\\u001b[0m\\n\",\n            \"[  9%] \\u001b[34m\\u001b[1mNo install step for 'pybind11'\\u001b[0m\\n\",\n            \"[ 11%] \\u001b[34m\\u001b[1mCompleted 'pybind11'\\u001b[0m\\n\",\n            \"[ 81%] Built target fl-libraries\\n\",\n            \"[ 84%] Built target pybind11\\n\",\n            \"[ 88%] Built target flashlight_lib_sequence_criterion\\n\",\n            \"[ 92%] Built target flashlight_lib_audio_feature\\n\",\n            \"[ 96%] Built target flashlight_lib_text_decoder\\n\",\n            \"[100%] Built target flashlight_lib_text_dictionary\\n\",\n            \"creating build/bdist.linux-x86_64\\n\",\n            \"creating build/bdist.linux-x86_64/egg\\n\",\n            \"copying build/lib.linux-x86_64-cpython-310/libfl-libraries.so -> build/bdist.linux-x86_64/egg\\n\",\n            \"copying build/lib.linux-x86_64-cpython-310/libfl-libraries.so.0 -> build/bdist.linux-x86_64/egg\\n\",\n            \"copying build/lib.linux-x86_64-cpython-310/libfl-libraries.so.0.3 -> build/bdist.linux-x86_64/egg\\n\",\n            \"creating build/bdist.linux-x86_64/egg/flashlight\\n\",\n            \"creating build/bdist.linux-x86_64/egg/flashlight/lib\\n\",\n            \"creating build/bdist.linux-x86_64/egg/flashlight/lib/sequence\\n\",\n            \"copying build/lib.linux-x86_64-cpython-310/flashlight/lib/sequence/flashlight_lib_sequence_criterion.cpython-310-x86_64-linux-gnu.so -> build/bdist.linux-x86_64/egg/flashlight/lib/sequence\\n\",\n            \"copying build/lib.linux-x86_64-cpython-310/flashlight/lib/sequence/criterion_torch.py -> build/bdist.linux-x86_64/egg/flashlight/lib/sequence\\n\",\n            \"copying build/lib.linux-x86_64-cpython-310/flashlight/lib/sequence/criterion.py -> build/bdist.linux-x86_64/egg/flashlight/lib/sequence\\n\",\n            \"creating build/bdist.linux-x86_64/egg/flashlight/lib/audio\\n\",\n            \"copying build/lib.linux-x86_64-cpython-310/flashlight/lib/audio/feature.py -> build/bdist.linux-x86_64/egg/flashlight/lib/audio\\n\",\n            \"copying build/lib.linux-x86_64-cpython-310/flashlight/lib/audio/flashlight_lib_audio_feature.cpython-310-x86_64-linux-gnu.so -> build/bdist.linux-x86_64/egg/flashlight/lib/audio\\n\",\n            \"creating build/bdist.linux-x86_64/egg/flashlight/lib/text\\n\",\n            \"copying build/lib.linux-x86_64-cpython-310/flashlight/lib/text/flashlight_lib_text_dictionary.cpython-310-x86_64-linux-gnu.so -> build/bdist.linux-x86_64/egg/flashlight/lib/text\\n\",\n            \"copying build/lib.linux-x86_64-cpython-310/flashlight/lib/text/flashlight_lib_text_decoder.cpython-310-x86_64-linux-gnu.so -> build/bdist.linux-x86_64/egg/flashlight/lib/text\\n\",\n            \"copying build/lib.linux-x86_64-cpython-310/flashlight/lib/text/dictionary.py -> build/bdist.linux-x86_64/egg/flashlight/lib/text\\n\",\n            \"copying build/lib.linux-x86_64-cpython-310/flashlight/lib/text/decoder.py -> build/bdist.linux-x86_64/egg/flashlight/lib/text\\n\",\n            \"copying build/lib.linux-x86_64-cpython-310/flashlight/lib/__init__.py -> build/bdist.linux-x86_64/egg/flashlight/lib\\n\",\n            \"byte-compiling build/bdist.linux-x86_64/egg/flashlight/lib/sequence/criterion_torch.py to criterion_torch.cpython-310.pyc\\n\",\n            \"byte-compiling build/bdist.linux-x86_64/egg/flashlight/lib/sequence/criterion.py to criterion.cpython-310.pyc\\n\",\n            \"byte-compiling build/bdist.linux-x86_64/egg/flashlight/lib/audio/feature.py to feature.cpython-310.pyc\\n\",\n            \"byte-compiling build/bdist.linux-x86_64/egg/flashlight/lib/text/dictionary.py to dictionary.cpython-310.pyc\\n\",\n            \"byte-compiling build/bdist.linux-x86_64/egg/flashlight/lib/text/decoder.py to decoder.cpython-310.pyc\\n\",\n            \"byte-compiling build/bdist.linux-x86_64/egg/flashlight/lib/__init__.py to __init__.cpython-310.pyc\\n\",\n            \"creating build/bdist.linux-x86_64/egg/EGG-INFO\\n\",\n            \"copying flashlight.egg-info/PKG-INFO -> build/bdist.linux-x86_64/egg/EGG-INFO\\n\",\n            \"copying flashlight.egg-info/SOURCES.txt -> build/bdist.linux-x86_64/egg/EGG-INFO\\n\",\n            \"copying flashlight.egg-info/dependency_links.txt -> build/bdist.linux-x86_64/egg/EGG-INFO\\n\",\n            \"copying flashlight.egg-info/not-zip-safe -> build/bdist.linux-x86_64/egg/EGG-INFO\\n\",\n            \"copying flashlight.egg-info/top_level.txt -> build/bdist.linux-x86_64/egg/EGG-INFO\\n\",\n            \"writing build/bdist.linux-x86_64/egg/EGG-INFO/native_libs.txt\\n\",\n            \"creating dist\\n\",\n            \"creating 'dist/flashlight-1.0.0-py3.10-linux-x86_64.egg' and adding 'build/bdist.linux-x86_64/egg' to it\\n\",\n            \"removing 'build/bdist.linux-x86_64/egg' (and everything under it)\\n\",\n            \"Processing flashlight-1.0.0-py3.10-linux-x86_64.egg\\n\",\n            \"creating /usr/local/lib/python3.10/dist-packages/flashlight-1.0.0-py3.10-linux-x86_64.egg\\n\",\n            \"Extracting flashlight-1.0.0-py3.10-linux-x86_64.egg to /usr/local/lib/python3.10/dist-packages\\n\",\n            \"Adding flashlight 1.0.0 to easy-install.pth file\\n\",\n            \"\\n\",\n            \"Installed /usr/local/lib/python3.10/dist-packages/flashlight-1.0.0-py3.10-linux-x86_64.egg\\n\",\n            \"Processing dependencies for flashlight==1.0.0\\n\",\n            \"Finished processing dependencies for flashlight==1.0.0\\n\",\n            \"/content/fairseq\\n\"\n          ]\n        }\n      ]\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"Next, we download an audio file from [People's speech](https://huggingface.co/datasets/MLCommons/peoples_speech) data. We will the audio sample from their 'dirty' subset which will be more challenging for the ASR model. \"\n      ],\n      \"metadata\": {\n        \"id\": \"1ejR32MNbyf9\"\n      }\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [\n        \"!wget -O ./audio_samples/tmp.wav 'https://datasets-server.huggingface.co/assets/MLCommons/peoples_speech/--/dirty/train/0/audio/audio.wav'\\n\",\n        \"!ffmpeg -y -i ./audio_samples/tmp.wav -ar 16000 ./audio_samples/audio_noisy.wav\\n\",\n        \"\\n\"\n      ],\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"id\": \"LCB_t3-fbcM6\",\n        \"outputId\": \"3a61229b-e4c9-4055-ac1c-c0f8159a3f00\"\n      },\n      \"execution_count\": 12,\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"--2023-05-26 00:26:41--  https://datasets-server.huggingface.co/assets/MLCommons/peoples_speech/--/dirty/train/0/audio/audio.wav\\n\",\n            \"Resolving datasets-server.huggingface.co (datasets-server.huggingface.co)... 34.200.186.24, 3.216.183.114, 44.197.252.161, ...\\n\",\n            \"Connecting to datasets-server.huggingface.co (datasets-server.huggingface.co)|34.200.186.24|:443... connected.\\n\",\n            \"HTTP request sent, awaiting response... 200 OK\\n\",\n            \"Length: 386924 (378K) [application/octet-stream]\\n\",\n            \"Saving to: ‘./audio_samples/tmp.wav’\\n\",\n            \"\\n\",\n            \"./audio_samples/tmp 100%[===================>] 377.86K  1.07MB/s    in 0.3s    \\n\",\n            \"\\n\",\n            \"2023-05-26 00:26:42 (1.07 MB/s) - ‘./audio_samples/tmp.wav’ saved [386924/386924]\\n\",\n            \"\\n\",\n            \"ffmpeg version 4.2.7-0ubuntu0.1 Copyright (c) 2000-2022 the FFmpeg developers\\n\",\n            \"  built with gcc 9 (Ubuntu 9.4.0-1ubuntu1~20.04.1)\\n\",\n            \"  configuration: --prefix=/usr --extra-version=0ubuntu0.1 --toolchain=hardened --libdir=/usr/lib/x86_64-linux-gnu --incdir=/usr/include/x86_64-linux-gnu --arch=amd64 --enable-gpl --disable-stripping --enable-avresample --disable-filter=resample --enable-avisynth --enable-gnutls --enable-ladspa --enable-libaom --enable-libass --enable-libbluray --enable-libbs2b --enable-libcaca --enable-libcdio --enable-libcodec2 --enable-libflite --enable-libfontconfig --enable-libfreetype --enable-libfribidi --enable-libgme --enable-libgsm --enable-libjack --enable-libmp3lame --enable-libmysofa --enable-libopenjpeg --enable-libopenmpt --enable-libopus --enable-libpulse --enable-librsvg --enable-librubberband --enable-libshine --enable-libsnappy --enable-libsoxr --enable-libspeex --enable-libssh --enable-libtheora --enable-libtwolame --enable-libvidstab --enable-libvorbis --enable-libvpx --enable-libwavpack --enable-libwebp --enable-libx265 --enable-libxml2 --enable-libxvid --enable-libzmq --enable-libzvbi --enable-lv2 --enable-omx --enable-openal --enable-opencl --enable-opengl --enable-sdl2 --enable-libdc1394 --enable-libdrm --enable-libiec61883 --enable-nvenc --enable-chromaprint --enable-frei0r --enable-libx264 --enable-shared\\n\",\n            \"  libavutil      56. 31.100 / 56. 31.100\\n\",\n            \"  libavcodec     58. 54.100 / 58. 54.100\\n\",\n            \"  libavformat    58. 29.100 / 58. 29.100\\n\",\n            \"  libavdevice    58.  8.100 / 58.  8.100\\n\",\n            \"  libavfilter     7. 57.100 /  7. 57.100\\n\",\n            \"  libavresample   4.  0.  0 /  4.  0.  0\\n\",\n            \"  libswscale      5.  5.100 /  5.  5.100\\n\",\n            \"  libswresample   3.  5.100 /  3.  5.100\\n\",\n            \"  libpostproc    55.  5.100 / 55.  5.100\\n\",\n            \"\\u001b[0;33mGuessed Channel Layout for Input Stream #0.0 : mono\\n\",\n            \"\\u001b[0mInput #0, wav, from './audio_samples/tmp.wav':\\n\",\n            \"  Duration: 00:00:12.09, bitrate: 256 kb/s\\n\",\n            \"    Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 16000 Hz, mono, s16, 256 kb/s\\n\",\n            \"Stream mapping:\\n\",\n            \"  Stream #0:0 -> #0:0 (pcm_s16le (native) -> pcm_s16le (native))\\n\",\n            \"Press [q] to stop, [?] for help\\n\",\n            \"Output #0, wav, to './audio_samples/audio_noisy.wav':\\n\",\n            \"  Metadata:\\n\",\n            \"    ISFT            : Lavf58.29.100\\n\",\n            \"    Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 16000 Hz, mono, s16, 256 kb/s\\n\",\n            \"    Metadata:\\n\",\n            \"      encoder         : Lavc58.54.100 pcm_s16le\\n\",\n            \"size=     378kB time=00:00:12.09 bitrate= 256.1kbits/s speed= 846x    \\n\",\n            \"video:0kB audio:378kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.020161%\\n\",\n            \"Trancript: limiting emotions that we experience pain in our childhood which stop us from living our life just open freedom i mean trust\\n\"\n          ]\n        }\n      ]\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"Let's listen to the audio file \\n\"\n      ],\n      \"metadata\": {\n        \"id\": \"Iq_IWIpqc7hK\"\n      }\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [\n        \"import IPython\\n\",\n        \"IPython.display.display(IPython.display.Audio(\\\"./audio_samples/audio_noisy.wav\\\"))\\n\",\n        \"print(\\\"Trancript: limiting emotions that we experience mainly in our childhood which stop us from living our life just open freedom i mean trust and\\\")\"\n      ],\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\",\n          \"height\": 93\n        },\n        \"id\": \"IrqHRS0Sc_Oo\",\n        \"outputId\": \"a1ac89d9-30c0-4889-c3bc-1fa336cf0c79\"\n      },\n      \"execution_count\": 16,\n      \"outputs\": [\n        {\n          \"output_type\": \"display_data\",\n          \"data\": {\n            \"text/plain\": [\n              \"<IPython.lib.display.Audio object>\"\n            ],\n            \"text/html\": [\n              \"\\n\",\n              \"                <audio  controls=\\\"controls\\\" >\\n\",\n              \"                    <source src=\\\"data:audio/x-wav;base64,UklGRobnBQBXQVZFZm10IBAAAAABAAEAgD4AAAB9AAACABAATElTVBoAAABJTkZPSVNGVA4AAABMYXZmNTguMjkuMTAwAGRhdGFA5wUAfv9b/x3/C/8G/+7+/v40/yn/4f7j/jD/Q/8O/xH/YP+W/5P/kP+R/3//hf/D/+//2v/Y/xsAVwBlAGsAYAAmAPr/IwByAIwAUwD5/9T/8f8DAPP/AAAYAO3/uv/k/y8APQAtACsAGAD+/wkALgBYAIkAmgBzAGAAiQCXAGoAZwCoAK4AYABUALoA/QDZALQAsQCNAH0A2AAnAegAnwDdACgBBwHnACQBUwFAAUYBaQFHAf4ABQE4ASUB/wAlAUcBDQHjABYBFwGeAEEATwBIAAQA+P80ADcA4P+d/6T/rf+C/2X/jP+s/4H/Sv8+/yT/9P4D/0r/Z/9X/2H/jf+8/9b/wP+N/4n/tv/W//L/HgAqABMAIgBFACAA4P/2/zcAJwDf/8n/2P/F/6z/uf+v/2L/Mf9L/0H/7f7L/un+xv6C/rj+HP/z/n7+dv6v/qn+n/7n/iv/Gv///h7/Rv9X/2n/ev+B/6z/AAAsABkAGwBJAEYA/v/X//3/FgDx/9D/8P8dAA0A2P++/7b/h/9P/1r/m/+0/5H/bv9q/23/df+Z/8b/yv+q/6P/zv/4/wIADgApACkACwAJAC8ASwBYAIEArgCbAFkAPQA+AB8AAwAyAHQAaQA8ADoAOAATAAoAKwAgAPL//v8uAC0AJwBbAIEAaABsALYA3QC7AKoAxgDHAKkAswDnABgBRQF7AZMBgAFyAYcBlQF4AUQBJwEtAT8BOQEgAQ4BAgHZAJcAWwAwAB4AKwAkANX/g/+U/8b/kP8u/z3/i/9o//P+6P5M/3n/Vv9s/9L////L/7T//P8rAO//w/8jAKoAsQBgAEgAZQBTACYANQBoAGsASgBKAHYAqQC8AJcAXQBSAGYASgAgAFwAygC6ADkAAQAwAC0A4f/J//D/5f+g/3b/cP9p/3f/mv93/wH/vf7r/hn/+v7n/hb/Kv8D/w//av+j/5//vP/h/5z/L/9M/8b/4P+l/6P/uv+E/1b/lP/U/7X/n//W/+n/s/+n/83/vf+h/+T/OgArAAcAPACEAJUArADWALoAaABLAFAAIQDi/+D/5//B/6z/z//c/6b/Z/9P/0f/Nf8W//3+Hf+E/+b//f/h/77/jf9h/2j/if+M/5z/9P9JADoA9//h/+X/0v/S/wwAQwA7ACIAPgCHAMUAzgCuAJoAuADxACABTQGEAaQBmAGGAYMBYgEVAdcAtgB4AB8ABAA1AFAANwAsACIAwf87/xT/L/8P/+D+HP95/2f/Kv89/0r/7/6z/hH/g/+B/2H/ef+R/5z/4f80AC4ABAAcAFEAdQC6ABABBwG9AMIABwEUAQkBNgFUAR4B/AAxAWABXAFxAYoBRwHkAOwAKgEPAcIAwQD5AAIB1ACfAFAAx/8f/53+dP6a/sz+3f70/iX/Lv/u/sP+7P4N/9P+k/6+/ib/UP9F/2n/v//p/9H/zf/1/wAA1//O/wgAPQBLAGUAjQCDAGAAhgDkAPoAowA7APv/3P/y/0kAkQCAAFwAiwDWAMEAYgA2AEMALAAAACwAlQCyAIAAggC/ALUATwDx/7f/dP9N/3z/wv/E/5P/YP8n//z+Bf8X/+7+tv6w/rT+lv6Y/uT+K/81/zj/Tv9Q/0H/Xf+q//L/FwAjAEEAmQAAARsB9QD5ACAB9wCXAKkANQGIAWEBNwE8ARgBrABMACkAEADa/6b/l/+b/4b/YP9i/4r/hP83//j+7/7Z/qD+kv63/rH+bP5O/oT+0/4n/4//3v/f/8L/zv/w/wEAHABUAHMAYABdAJYA0gDNAJYAZQBSAFAASQAyABMABwARABwAIwA5AEcAIQDl/+v/OgByAGgAUwBYAGIAegC4AOUAwQCDAH4AlACRAJoAxAC/AGkAGQANAAMAwP90/1T/Sf8r/wP/5/7E/m3+4/12/Wn9mP3I/Q/+gf7L/rz+vP4f/3j/U/8I/yn/r/84AK8AIwF7AZQBggFyAYYBtgHMAa0BkgGuAdkB6gEDAioCHALLAYMBXQEmAdQAkQBQAO3/lf+D/5X/kP9k/wf/cP7t/ef9QP6B/pH+rf7S/tT+y/7H/nj+r/30/Pf8r/2R/l3/JQDLABUBGQELAd0AdgAUAA4AWACwAAMBSQFRAQYBqgBzAD0A2v9s/y//JP82/23/xP/9/+j/qf98/1//J//k/tH+7/4N/zP/oP9NANIA7gDGAJAAUwAXAPr/DgBGAJMA8wBoAeYBOgI1AvkB5AEYAl8CmQLFArECKQJ4ASEBKQEsAfYAhwDq/1//TP+g/8X/Zf/G/kv+Jf53/in/xP8BACsAsACWAZoCewP6AxMEKgSUBCAFdAWNBYYFXAU0BVQFnwWZBSIFkgQbBJ4DIQPIAnEC1wEGAUAAov8x/w3/Mv9G///+e/4A/qX9XP0b/d38svzO/F79Mv7T/vf+uv5q/kP+Tv51/qT+/P60/9kANAJgAwEE8wN9AyQDJQNVA4IDuAP9AywEHgTLAy0DSgJRAW4Aj/+d/r/9Of0e/Tf9Nf3Y/Bj8LPth+uT5qvmI+Wr5dfnp+bj6fPvX+737YvsQ+xP7hfs1/PP8zv3Z/uD/kQCoAPX/hP7i/Nj72vvb/H/+NQBfAb0BiQEEAS8ADP/S/b78C/wJ/Mz82f1o/hP+9/xq+9L5mvgE+A/4rPjM+TX7dfw6/ZH9u/3o/Tr+0P6w/88AJwKqAxEF+gUwBsoF/AQGBEAD6QL/Al0D7AOCBL0ESgQzA78BLwCt/mX9fvwS/Cz8n/z3/MX8/fv3+h36tPm++Qb6Yfro+tX7Ef0Y/lz+yP3X/Er8tfwu/lQAmQKiBGkGBAhgCUUKkwppCg4KzwnsCXEKKQuwC64L7wp+CaIHuwX8A18CzgBW/y/+k/2B/Z79W/1o/Pn6oPnf+NP4Nvm3+UX6CPse/Fz9Z/76/iD/L/+A/zwAVgGvAisEoAXFBjwHzwasBWMEiANcA7sDVQT1BJgFRAbSBugGQAboBD8DtwGUANr/X//w/mf+pf2M/BD7UfmZ9zv2c/VR9cP1ovbF9wD5Hfrt+nD74vud/NX9ev9YAUgDQwU0B88IqQmDCY8IYQePBlQGfAaxBrQGdQbvBQ8FvwMLAi8Ahf5G/W78yPsd+1z6k/nE+M73jPYT9dHzTvPI8/n0TfZO9+D3Jfgw+PL3b/f39iP3cvj8+mL+DwKDBWwImgruC18MCQw9C3UKKwqdCqYLxgxkDRUNxAumCQkHNwR3AQn/IP3P+wr7rPpy+gv6LfnF9xf2m/Sl8z7zQPOu88T0tfZI+cn7ff0k/iP+Lf7L/hUA1AHHA8gFyAeuCTkLCgzGC1AK7wdFBR4DIwKpAooEFgdLCTsKlwnRB8AF7gNKAncAdf7e/Gb8Fv0S/iT+nfzG+Y/26PNQ8tjxbfIE9IH2iflw/G7+Ev+Z/uj9Dv6l/4YCAwZmCUMMbQ68DwoQUw/UDfwLSQozCRUJ/wl1C3kMDgzfCYMGBwM6AED+wvxn+wz6qPgb90f1P/Ni8SDwr+/i71bwzvBp8YHyQPQ+9o33b/ca9uL0bfV2+EH9OgIyBhcJkAsADv4PxxAYEJUOYA1LDVoO3Q/vEPcQ3Q/iDU4LOQidBKwA/vxP+v34rviK+N33gvbP9C/z1/HQ8B3w0+8L8OXwgPLd9Kr3QfoC/MD84vwU/cn9GP/gAP4CPwVEB5gI+QiICJ8HkQaPBcsEigT4BOsF4wZbBx4HTgYmBc4DSQKVALn+0vwi+/T5Z/k4+dX40fdL9tr0CvTi8wT0KvRz9DD1gfYx+Pf5uPt0/Rr/hAC3AQoD6gR1B1YKCA0rD50QVRFIEXYQCw9XDa4LSAoyCU0IUAftBQgEzwGC/yD9cPpi92b0PfJQ8U/xivGl8eXxuPIJ9D712/UN9nL2V/dE+G/4n/eg9tP2IPlE/ewBogXMB/8IWQpnDI8Oqw9CDz8ORA4hEPsS+BTOFLUS1w8JDR4KhgZOAnP+KvzT+4/81/x8+2L4efQL8eTu7+2X7ZHtRu5l8Pjz//cA+yf82ftM+5v7Pf0TALsDrwc2C40NRg6EDeALBAp0CIcHbgcZCDMJQwruCv0KKwomCNUEvwDu/FD6GvnC+IL40/d89m70vPHW7nrsWeum6xrtV+9G8vb1Qfqi/nMCSQUzB6sIZAr4DHwQTxRaF80YqRiMF+8VrxNbEP0LYgeSA/oAOf+i/dv78Pn299P1X/Oj8ObtgOvJ6SfpCOqS7F/wl/RV+Bn7z/yb/ZH9pvzE+iP4rfUV9SH4Uv/wCKAReBb3FhUVWxO7EjgSiBDgDRUM4wz9D8sSFRJHDJUCJvgN8IjryelE6TrpDuos7Mbu+e9+7k/rZemX62fyw/vPBPALWRHrFdYZTRxvHGMapxc9FkwXHhpOHCobcxUvDN0Bvvii8S3s8Och5Tbk+OQ35nbm+uRT4hDg7N/04v7otPBE+Gf+9QKPBqoJEAxMDZkNHw4fEMUT0xd0Gm4a1hfIE60PgwyLCmYJlAj5B9sHTwiZCFwHugNe/lf5n/al9iD4Rfkh+fb3jPZa9VT0SPNS8vnx5PJe9ef4SfxA/l7+Y/2l/AX9a/5DAC8CGASRBYIF7gIy/nD5YfeA+Q//xQVdC8UOKhA5EGUPtg0pCzMI7gWBBR0HcAk/CuUHfQKn+zL1APAl7MLpbema67XvG/Qa9xD4rfdY91P4PvsOACsGtAzVEgEY3Rv5HdAdLhupFo0RMA1FCrMI3QffBrQEfwAd+onyieuk5lbkKeRy5cTnyerZ7R/wLvFs8cfxEvOU9SL5Xv3SAe8FLwk/Cw4MtguFCigJnwiuCSoM4g6AEJYQzQ8VD6UO5w02DKQJ6AbGBIcD8QKAAqcBBACe/fP6pPjs9nr14/NA8kHxh/EI8wr1rPZs90X3lfYQ9o/2jfiM+xn+wP4//cb6GPlH+T77Rv7UAcUFCwpFDrIRcRPpEjQQUgzPCOYGpgbrBkgGFAScAHf84vfq8hXuk+qO6Ufr1+7U8in2cvjq+Sf74Pye/2kDxgcjDFAQcxR1GJ4b2RxvG48XMhKxDFEI7wWMBQ4GpAXdAqD9LPcI8QLsEugS5VHjX+Nl5czoe+xo7wDxUfEQ8VrxI/Og9jD76P87BAoILgsuDZsNrQxgC8oKaAv5DPoOAhG3EqoTcxMKEswPJg1HCkMHbARSAlEBHAHmAOr/2/3h+nH3PPQh8svxMfN89Zv3//jP+Vz6oPpN+kr57Pep9sD1SvWc9Uv3r/ph/1AEXwj4ChUMDQxVC2kKoAn3CCkIGgcTBnEF8QSRA0cADfsn9U/wle3x7LDtI+/n8NHyx/TA9rv4qfqI/Jz+hAHFBTMLzhBrFYcYZxp5G6cbbRqFF2cTGQ+XC1UJIwg9B5AFMQIB/eP2KvGn7DzpY+YL5M3iReNH5drn4unT6tPqh+rM6ofsRPDP9SP8AAKeBvAJRAzWDdAOhA9xEOURvhOeFVAXzBjYGc8ZBhh2FOkPdQvVBycFNAO0AVAAm/5L/Hz5mvYD9MTx0u9o7v7t3e7E8BbzRPX99ur3n/f49aTzEPKZ8qn1jfoHAP4E0whYC7IMMg0fDXUMDAsJCSsHawYfB4AIHgncB5cEBgAj+8L2f/O28XDxV/L98xv2h/jo+qT8Q/3v/H789vz//rECsgdJDV4SvxWoFkUViRKWDzANtgtOC+gLBg2/DTsNLAvVB6ADyv6Y+aH0rvA87ibt4Ozo7OrsgOwo67ro2uXD43XjDeXx543rxe+w9Br6ZP/uA3kHPAq4DIMPGhOIFyIctx9PIcggzB4cHP0YXRVXEW4NOArgBxIGVwRZAuD/yPwg+V71NPIa8Arvre7K7ljvOPD/8Dfx0PA/8Cbw7fCw8mz1Afn+/J8AOQOtBGYF0gX5BaQF6wRhBKcE0wVIBywI+wfKBicFuQPuArECdgKlASwArP7//XT+jf91ALQAeAA5AEkAsgBfASkC0AIMA9cCmgLeAswD+gTNBf8FvwVeBQAFpARXBCUE5gNAA/kBRACO/vz8SPsl+b/2qvRY87XyavJe8sfyvPPo9Mr1S/bf9hD47vkT/B7+DgAhAnEE1Ab8CK8KvwsSDLwLGwulCooKkApZCsgJAgkiCP4GZAV2A7ABfQDd/4L/Of8O/xH/EP+2/un96fwW/JP7Q/sC+9P6xvrc+g37Z/sC/Mj8af2Y/Vr9+Py1/JD8bPxZ/JP8L/3d/ST+zP0f/aH8p/wr/fD9wv6L/0kA/gCiARkCPwISAtwBFQL/AlwElwVHBncGcwZQBtsF9ATdAxUD3AL2AgED3gK2AqQCfgIOAl8BxAB1AGEAUQA2ACgAIgDt/1z/m/4J/s39rP1U/c/8gvyx/CL9V/0W/Zj8Qvw2/Ef8SfxF/GT8svwl/bz9hv51/0IAnwB+ACcA7v/4/zwAsQBcAS4C8gJ4A70D6gMIBPADgAPlAo0CvwJNA7sDtANDA6kCEgJ8AeUAaQAtADoAfgDtAIQBLAKlAqwCOgKPAfsAoQBuAD8AAQCv/0L/sf71/RH9D/wI+yn6ovl3+XD5RPng+IH4dvjS+GH58/mJ+kv7Pvw//Sr+A//i/74AfAEeAuIC/QNPBW0GBQcwB0cHdweRB1YH0gZVBhYG+AW7BUMFsAQZBHIDrgLyAXIBIwGjAJT/EP6c/Kb7HfuS+rX5qfjQ91/3O/cm9/72zPao9rH2Dvfl9zD5sfoW/C/9A/6w/kf/0P9mACQBDALxAqkDPATWBIoFKQZvBkMGzwVHBbYECARCA5kCQQIwAiUC5gF3ARUB9gAlAYMB4QEbAhcC0gFcAdQAUgDZ/2P/9P6g/nr+f/6P/oH+Nv6u/Qr9cPzw+3D70foc+o75XPlx+XD5F/mV+Gz48vjw+db6Sft1+9P7rPzj/Tb/igDmAToDTQQDBZEFVwZ7B7kIpgkdClkKqAoRC1YLMAuVCqwJqwi6B+wGNAZdBSkEhQKvAAr/y/3N/MH7hPoz+QL4//YZ9kz1svRq9Gr0kfTJ9CP1r/Vh9hj3zveu+O75l/ty/Tj/xQAkAnQDvwT7BRMH+wewCDkJoAnjCfMJxAljCf0Iwgi3CKQIPQhpB1cGWAWaBAUEXgOIApoBzwBKAP7/w/96/x3/rf4S/ir96/uD+j/5VfjI93X3S/dY96L3Avgv+Af4sveH98f3c/hq+Zb65vs5/Vf+Jv/X/8YAGQKNA7MEZAXqBasGtQerCCcJHwnlCMwI5QgKCSIJMgk6CRMJhQiNB2MGRwU3BPcCYQGd/xL+BP1X/KP7kfoe+Zb3VPaH9SD1/PQC9TL1lfUd9qr2HveA9/j3sPir+cP60fvX/P39W//SABsCBwOmAy8EwgRRBccFPgb0BgYIOwkkCnkKWAodCgUK+Qm6CTQJlwgfCMkHUAdsBg4FXwOPAa7/uv28+835Bvhr9v30zPPu8mPyD/LR8ajxt/Ek8vfyIvSb9WH3ZvmA+4H9YP9AATsDNgXlBhcI6AipCZUKlAteDL4Muwx+DCMMrgsfC4IK3QkjCTkIIwcIBggFCwTDAvYAw/6X/Nn6pvnR+Cr4qPdd90D3IffR9lT22vWT9Yz1vPUx9hj3i/hi+j/8y/3x/tj/oAA8AY0BmQGpAQ4C3gLfA78EVgW/BSUGmwYSB3UHwAfvB+oHkgfjBg0GXwUIBfwEBQXtBJwECgQvA/UBSwA+/v/70fn29472kPXT9DT0sPNi82Dzn/MA9Hr0KPUn9mT3n/iv+bb6A/y3/Yv/DQEXAvsCJgSlBQwH4gciCDYIgwgECWsJjAmVCcwJNAqECnYKDApwCaoIjwcIBk8EzAKqAbIAjv8v/tj8v/u/+oL5+feD9qf1jvXv9WD2vfYp98b3jPhi+U36Zfug/Mv9u/6O/4sAxAHrApMDrAOiAwgEFwWVBiYIoAkPC3QMnw1TDoAOSw7iDVwNwgwlDJIL8AoFCp8IwQaXBD0Cqv/P/Nr5Jvf39Ebz1PGA8GbvuO587oruzO5h73jwBfK981319PbR+B37mP3J/3MB0QJVBDAGGAiQCVUKmQrQCkoL9wt9DIMMAAw9C5sKRQoMCo8JkAggB4UF8QNZApAAjf6D/LH6Mvn19+X2C/Zy9QL1fvTE8/jydvJ78vfyo/NV9CP1SPbc97D5dfvo/P791f6g/4EAeAFjAhcDlQMdBAMFaAYUCJ8JxQqLCxcMbQxnDO4LKwt3CgsK1AmRCRYJYgh7B0cGmARhAs//Nv3Y+s34F/e19Z30tvPm8jPyzPHi8XzyZfNd9EL1HvYY91b46/nM+8f9j//0AAwCJAN3BPAFPwcwCOMInglxChwLWAswCwELGwtxC74L1gvJC6QLMQsVCjgI+AXlAz8C0QBP/7L9OvwK+/L5qfgq98T1v/QT9IHz9/K28gHzyfOw9HD1KvYu95X4FfpU+0P8HP0L/vn+v/9zAGwB5gK4BIAGAwhbCbkKCgz5DEMNBw2lDFgMCgyBC7QK1gkTCU0ILwd4BTQDpgAB/jz7MPjc9JjxA++x7cjt1+4V8OnwRvGW8TTyEPPK8zb0pfSY9T33P/ks+/78F/+wAW0EjgaoBxIIhwhmCV0KzwqLCggK/gnJCiwMlw1+DokOlQ21C0MJuAZwBHkCqQDn/k79Avzu+sP5NvhD9i30TPLj8BnwBPCa8J/xvvK/86r0qfXL9vb3Ffk7+oL7wPx8/Vf9k/wd/Pr8h/87Ax8HggpEDZ4PrRFQE1MUtBSuFJMUjBSLFEcUXBNvEWIObwogBgACUv72+qX3VPRf8UrvS+737XbtJ+wt6mboxOeW6GPqc+x17rHwivPs9jb6u/xV/nn/1wDhArMFOQlFDX8RVxU7GPIZtBrjGqoa6hmPGOkWjRXLFD0U7hIMEI0LMgbtAC/8yfdp8ynvp+tu6VLoW+eB5YXiQ98S3eDct94E4h/mmeoc703z6Pb++eX87/8/A/QGWgukEEwW5hr4HD4cHhqZGLYY4BnrGoMbZBwiHuof0x9+HGUWgg+7CcIFPAOeAXsAIv9h/D737e/o5+jgtdsg2PbVn9Wc12/bXt+V4aPh3eBe4ZTki+o98k36mwGMByUM1A8HE8oV8ReyGeQbXB/rIw4o+Cn3KOslTSL4HuMb6RhjFsoU5BOaEtoPbwvzBfn/n/kG893sCOij5Kfh+N3C2YvWqdXJ1jXYrtjC2C/aBd6V40DpCO4p8k72pfrs/jMDBgi+DcUT8hiaHCAfViF5IwQlaSW6JHIjwCF8H74cRxrUGBMYkxb9EnUNigfZAsr/uv3w+xb6xvcZ9EPuwuaF35HaXdjE15HX2deb2RTd6+BH46njgePc5K3obe4b9SH8KQNqCdMNEhBBES4TwxZLG0gf5CFhI0skgyRoI80ggB2qGsUYUxd/Fe0SxA80DC0IowPl/m/6a/aG8l/uEOoV5rzi198Z3bPaXtmp2VTbgd2G34ThFOR/52nrPe/f8sn2f/v0AIIGYQslD/MRVRT9FmYaaR4iIlEkLCTvIZ8eLhvuF9cUMxK9ENcQqhFaEWAO3giSAnD9NPo9+IX2k/Rt8vPvn+wc6ALjtN5t3GXc7t044Nbih+XK5wHpNel96Wzr0+8f9tb8tAJOB9IKgg2dD6YRUhT0F/IbGx+mINAgZyDDH28e3xttGFMVhBOvEncRuw6JCuQFtAEa/rn6XPcm9DbxU+4o67zng+T94Vzglt+x37zgfeJc5NTlEufl6PzrI/Bu9Cz4kftc/9cDYAgEDIwOxRC+E7sX9BtBH/YgFiH5H+QdABuPFwkU/BDcDssNcA3mDBoLhwfDAjz+JfuQ+ZH4Q/eU9fjzhfKQ8G7tYOmj5W3jAOPK4z3lQufM6ULswu0T7izuiu/u8tb3Kf0qAqcGfgpNDfMOLRBTEiAWxxpxHr0f4R5KHT0c1htDG8kZcBfNFEgStw+ZDKoIPAQWAOT8vfoC+cf2jPOk7wLsd+kV6EXnbuaK5QjlOOXl5ZbmMOc16FPqr+2s8V/1QfiA+rT8aP/UAt0GPwufD5sT3hY1GZYaKhtTG5kbVBw3HTQdGRuYFtQQzwsHCXQIrgggCB8GFQPZ/+v8Q/qe9/L0l/IS8aPw6vDv8L7vOe1g6qnoxugZ6k7rpuuY6zPs7O0x8C/y4vMs9uD5uf5xA88GrQj3CcsLpg42ErsVgRgaGnca+Rk/Gb8YbBjKF3cWkhSOEpAQLg7YCpoGQAKx/hT8uvnl9ovzUfDQ7frrTOp26LvmpuV45fPlo+ZB59vnuegy6n7sju/58jv2E/m2+3v+ZQEfBHwG4AjoC6UPQhOxFa0W/BaTF58YgBmYGdsYhBdyFTES1A1vCW8GVAUlBVwEQwJa/3j8zfn89gT0wfE38Vjys/OI80nxE+6q6xHr7+sy7Rjupe5D7ybwGvHc8XjyUPPW9DX3TfrL/UMBSgSSBiwIlgl+C0gOshHuFBQXrBfqFo0VdhQtFJYUBxW4FDsTqxB3DQ4KxgbpA64BAgBo/jr8LfmX9SPyRe/+7Cbrwun36LzotOh+6CfoJOjx6KTq9uyH7xDyZ/R89m/4nvph/bwASgSZB4YKOQ3NDxcS1hMPFRkWSBeTGJIZ3BlMGf8XJhbbEx4R8g1/Ch8HSAQ2AqMAz/4O/Gb4r/T38brwjvCW8Dzwe++r7hbu0+3b7SPupe5b70jwe/H68qb0Tvbf94L5cfur/ej/3wGfA30FqQfhCZsLnAxDDT4O4g+9Ee4S3xLAEV8Qfw9WD3kPQg87Dl8MCAqyB6gF3gMFAur/uf3a+4H6XPnS96H1P/N58bfwlvBW8Jzvx+517tLuY++Y73Dvle/K8DrzRPb/+Ov6Tfzp/U0AVAM/BmQIugnTCkEMEA7PDxYR5xGEEg0TUxMdE3MSkBGTEE8Pgw0jC2wIqgUGA4AADf6h+zb50vaf9NjymfG68PPvLu+g7pLuFO/17//wKfKA8/X0W/ah9/D4jPqG/Kf+mgAxAnwDrQTxBVMHtgjhCaIK9woUCy4LSws/C/EKfQoaCs0JVwluCA0HeQUKBPACKQKRAfgALQAa/939s/zF+wH7SPqo+V75j/kC+kT6Fvqo+Wb5mPk3+gf70Ptr/Mf89/wx/aH9Lv6D/nz+bv7l/ggATAHzAdABdwGeAWECOAOeA5gDjQO8A/MD6wO0A6YD7QNHBEUEzQM5A/0CKANPA/QCAALXAAIAxf/z/ycAHADS/2v///6M/h3+1/3W/QH+F/7u/aX9fv2K/ZH9VP3f/IT8hvzX/DD9Zv2M/cv9Lv6e/g//if8SAJUAAgFhAdIBVQLEAv0CDAMYAzIDPgMjA/UC3gLhAskCaALYAVoB/gCOAND/5v43/gL+Ef7t/WP9rvwu/AD87vvF+5b7ofsB/Ij8/PxP/aL9E/6S/vz+T/+z/0oACgG/AUQCoQL8AmoD2wMtBEUEHgTCA0YDzgJ9AloCNQLGAe4A3P/v/l/+Hv7w/bL9Zf0P/aP8GfyU+1T7efvf+0j8mvzp/Er9qf3w/S7+mf5H/w8AuABEAekBuwKAA+AD0AOcA5YDxQPtA+wD1APHA8ADnwNdAxMDxAJLAo0BsQAMALz/gP8A/zT+a/3q/Jb8J/yL+wb73/oO+1P7hfu1+/T7J/wm/AH8Bfxz/D/9If7n/o3/GwCDALkA2gAaAYwBCwJlApkCywIHAysDGQPqAtkC9gIXAwQDuQJgAhMCzgGGAUoBKAEDAagACwBl//f+xv6X/jn+u/1U/Rv9AP3s/Ov8C/04/Uv9Qf1M/Z/9L/6z/u/+8P71/i7/kv/1/zsAaQCXANUAIAFlAYgBhAFyAYMB0gFBAoYCcQIaAs0BvgHZAeEBtgFyAUUBPQE9ASYB9QC7AIEARQAIANb/uf+k/4T/Uf8Z/+7+3v7v/hz/Sf9S/yj/8P7r/jT/pP/4/x8AOwBvAK8A1ADWANYA7QAUATUBSgFaAV8BRgEcARQBTQGbAa0BaQEaASABgwHlAe4BoQFNAScBHQECAdEArQCpAKkAfwAjALv/bP9D/zT/Nv9E/1X/Xf9d/2X/ff+Q/3//UP8t/0H/hv/U/wYAHQAvAEIATwBSAFIAVwBjAHwApwDZAPQA3QCqAJYAywA2AZgBwAGyAZUBhwGLAYwBdwE/AeYAhgA7AA4A8f/O/5n/VP8I/8H+lP6X/sj+A/8X//X+vv6n/tH+KP96/6D/qP/E/xAAaACIAGUASACAAPwAWgFQAQYB0gDJALIAYAD8/9D/6/8VAB4ACgDu/8L/ev8q//b+1v6h/lH+KP5b/r/+5v6i/jr+Ev44/m/+hf6G/pL+p/6+/uX+Lf95/57/of++/xgAgwC7AM8ACwGFAeIBuwEuAc8AAwGNAdUBkwENAbMAoACXAGAADQDX/8z/yP+j/2H/Kv8e/zD/O/8i/+f+qv6K/o7+n/6d/oL+af51/qP+yv7B/pj+jf7H/in/dv+P/4//oP/I/+z/9v/n/9L/yP/g/yEAdACiAIMAKwDY/7T/s/+y/6X/lP+I/47/tf/6/y8AEwCp/0P/NP9o/4f/a/9S/3b/rv+a/yv/wP6u/tn+7v7e/uL+Gv9Z/23/aP99/6v/w//C/9//NACCAIQASwAsAEUAWwBAACQATACfALkAdAAiACIAZACKAGIAHAD1/+3/5//o/wgAPABWAEsATQCIANoA7ACWABEAr/+Q/4v/b/86/xj/Lf9j/3X/O//c/rL+3f4U//r+lf5Y/p7+N/+r/8X/x/8AAGkAvwDjAOwA6wDSAJsAbwB2AJ0AqQCLAG0AdgCLAHYAOgAVADkAlQDpAAUB6wC4AIYAWAAgAOT/zP/5/00AcgA5AOP/3v81AHAAJwCN/zz/eP/u/zMASQBtAKMAsACQAJQA5gAzARQBpQBmAIYArQCUAIAA4ACHAcUBQwGIAFQAvwA8AWEBUAFHASoBvAAjANj/EQB6AJ8AbgA2ADMAWwCBAI0AhgB+AJEAzQAUASwB+wCwAIgAhQB+AGsAcQChANcA9QAdAW8BuAGgAS4B3wAJAWUBawEPAcMAzQDrAMkAkAClAAIBNQEKAd4ABgE9AQEBXwABAE0A1gD1AJ0AWQByAJkAbQAUAAQAXgDNAP0A6gC5AIMAagCnAD0BvQGUAb8A4/+i/+7/OwAxAP3/+P8sAFIAMQDM/1v/Hv89/6L/+f/z/57/WP9p/7v/BAAjACgAGQDs/63/iP+L/4n/Xf8w/0r/pv/s/+z/4P8LAEEAHACY/zf/W//B/9v/k/9j/6P/CgAMAJv/Of9Y/9X/LwAgANj/rv+6/8X/lv85//v+I/+m/yoAXAA5AP3/2P/N/9f/9P8EAMf/LP+c/p/+Mf+z/6T/S/9N/77/+P98/6v+TP6U/v7+G/8R/zD/Uf8b/6T+bP6k/uf+1P6n/tT+RP9u/zH/Fv93/9T/bv9t/uT9gP6p/z0A7/90/3H/uP/H/5n/nf/8/14AcgBTAEMAOAD+/6P/fv+w//L/+//p/wEAPgBHAPj/mP94/4D/Y/8c/w3/dP8MAFAAGwDC/6X/xv/u/woALQBKACkAuv9c/43/UwAWATwBxwBHACkARwAzANb/gv9//7P/0//N/8P/wP+V/yn/qf5c/lv+jf7h/lP/v//m/8n/x/8nAJsAgwC1/9L+l/4M/6H/BQB/AEwB+gG8AXEACP+4/sD/GQFWAf3/Ev5E/VL+JACvABb/vfwC/L79bwD7AekBeAG1AT4CDgL0AKP/lP6s/Qn9Y/0V/ygBIgLNAXMBCAK7AgUC4P8R/gn+Nv/w/6v/bf8OANkAfgDw/q39+f1l/2IAJABn/2n/agBnAT0B2P9A/p79R/6g/9QAgAG6AbEBdwElAfMA/wAhARQBzAB0ABQAhf/j/rf+YP9bAJcAuP+u/qj+mf9HAOf/N/+G/+kAAQKlAVkArf9cAIoB7AFKAYoAcwDeACAB9wC8ANAAKAFxAW4BHAGrAGoAqABPAbQBHAG1/77+VP/6ANkBxwDM/hz+eP86AUcBrP+P/n//jAGJArwBmAC1ANsBegK4AVUAjv+//1UArACKAAEAX/8r/7b/gQCEAGL/FP7l/fT+MgDMAAsBgAHzAbwB7ABZAF8AVwC2/xz/ev9xAIoAQv8T/qL+cQBYAUYAm/5R/oP/mACEAOn/zv8zAG0AWQBeAGoA6//y/pP+gf/UAAQB8v8h/67/1AAQATkAmf8NAPkAXAEvAQIBxQDm/6v+YP6a//sAoACg/iP9vv16/yAACP+4/bT9p/4r/9X+mf47/zIAawC2/9n+gf6g/tr+Cf8b/+X+bf4//tb+1P80AJv/9v5a/4AA9gAAAKX+f/65/+cA4AAgAO7/lQASAZoAu/+a/2UAHAHxAEgADABeAGwAo/+O/jX+0f6L/4n/7v6c/hz/DACoAKAAPwDo/6//hP+F/+7/qAA0ASQBowBQAIsACQEuAc4ASAAEAAEADAA1AKwAPQFQAbUAIgB5AH4B1AGZALv+J/6F/1QBlQEfAK7+sP6g/+3/I/9q/uv+PQD5AHsAlf9t/y8AHAGMAW8B+gBSAL7/tf9jADoBawHVACsADABPAGwATgBVAIwAdADN/zn/jv+vAH0BHgHu//v+5f6X/8oAJALyAmcCuABg/6f/8ABdAUAALv/v/+oBuAI/AUj/Of/+ADYCUwFu/53+VP9QAJwAkgC7AMAAKABw/47/fAAjAewAfwCRAJgAof8W/pH9vf42AD8AAv8w/p7+TP8M/1X+kv4lAOwBwAKVAuoB6QC8/y3/CgDMAb8C2gHy/6v+pP5V/0MAbgFZAsgBTP+a/Db8oP6FAUMCuAD3/qX+VP+z/2//Yf8qAEMBqAEBAfn/jv8gABYBWgF+AF7/XP+0AOkBWwFZ/wX+5P4IATwCtAHTAC4BdALwArgBtP9v/n/+Yf9kACgBaQEGAV8AOgDYAGkB1QAZ/379Qf1C/kL/Rv9+/tP91/1R/qL+Z/7E/Uj9lv3U/k0AwAB6/1P9Tfy2/akArgI7AloAfv+9ALECWAOEAscBIQKjAugBQABw/1sA0gEhAiUBHQDI/5z//f5D/g/+LP4D/t79nP4HAHkA9v7v/M780/6TAAgAJ/53/aj+5f+g/8P+L//rAPkBCQEt/2P+KP9CAH4A4v8R/2f+Cv5E/jT/VADdALMAbgB4AIYAKwCD//7+u/6a/rv+Yv8/AGUAWf/d/TH9sP2a/ib/Tv9a/zj/vv5K/oP+h//LAN8BxAJEA6kCwwDc/rH+QABwAX0AUP55/fv++AACAQ//W/2k/Uz/agAOAPv+fP4S/zIA5ACFAFH/Zf7g/rQAcgKnAmUBJgAoACgB6gG/AR8B3gAgAUgBtABu/zL+6P3m/osAoQFoAVEAk//x/wYBuwFUAfL/Qv7+/J/8Jv34/Tj+jf2c/HH8dP31/uL/yf8v/wb/4v97AdwCKANvArYB1gF2AnYCgAG+AHMBFAOQA8UBKP9X/h4AhQIOA1YBKf9U/vX+4/8qAL//K//s/i3/rf/k/3z/zv6r/nn/qQBLAQ0BcQASAAEA8v/B/4r/W/8v/yr/jf9LANsAvwAWAIL/ff/5/6YATQHWAR8CFwLoAcQBhgHQAKL/k/47/or+5/7+/hn/gv/v/9j/V/9N/2oAOQJMA4cCJACZ/XT8QP1A/xcB2QGMAc0ADABH/3f+AP5Q/in/nv8O/wD+u/3t/vEAfgLlAoUCCgKtATsBuwCmAFwBggIVA0ECJgDd/af8Cf2F/goArwA1AAz/+f2Z/Qb+1f59/77/qP9M/5T+k/3e/Dv9vf51AEYBBQGOALUAbgEuAr8CTAOrA0QDAALtAEsB9QJDBNgDHgKXAPb/kv/R/lH+AP9MAEgA8/3R+ob58fpH/Tb+Yv1b/GL8C/04/dz8Ff2C/hMA7f9z/Sz6hfjB+QX9QADiAeYBcwGvAeQCiwT2BeEGdgfqByAIuQeCBuYE4AMuBF8F0wUgBKoAi/2R/E/9p/1A/BD6+/hU+Xr5Ovi59kL3P/pf/S3+7vwe/GH9v/9VAdMBfgLrA/kEigR6A+IDXgYCCXoJqAd4BVoEzAOlAhkBgQBVATMCbAEP/9r8JfyE/K78R/wh/ND8kv0k/Wz74vkK+tv71P2h/mf+W/5f/zYBBQM8BNUE+ATTBNYEsgWXB4sJ7An2B5YEjAHd/1f/Y/+w/8D/lf7K+xD5fflV/tkEUwjNBhgDiwE4A1AFLwWnA1EDawQLBAYAaPrH9yT6j/41AB/9dffY8mnxMfP09sH6bPzl+oL3UPV09nP6Jv/1AoAFlwbdBQ0EsgM7Bx4OpBQxF3gVGRKZD4IOPA5vDq4OcQ3VCPYAzPjc8wLz8/PZ88rxte6p6w7pVud15/jp7+1k8Q7zVPOU89L0MPde+uP9CQH2AngDmQMCBYIIMw0pEfcSkRL1EFMPmA5KD14R7BNYFRMUeA8QCGP/pvdO8+vzY/h7/Ej7kfP/6QHmR+sF9hP+PP5/+EHz4fKb9gT7Lv6BAE0CUAJj/9r6BPgU+Q39zAC5AT7/f/q59aTzFvYh/PkB1wNeAcn9evz5/ZkATgOTBl4Kuwy2C3cIBwdGCrAQ1RXCFj0U6RBqDvEMmwygDfIO8Q3LCPoAbvq796T3t/YF86DtwOhf5RzjyuEW4l7kmef+6dXqKeu17E7wd/Uq+5gAKwVQCL4JJgosCz0OJxPtF2MaExqXGPoX0BgIGmQanBnwFy0V5hDoC5YI2Qh0C/kLQgZP+t3sKOSw4xbqCvJ09UXx+ueY4LXh9usK+c4AJwD/+sP3b/ko/r8CMwZKCdILxwuuBy4BcPyy/HgB6AbACFMFnv71+C744Py2A7AH6gXP/+P5I/hT+xYBPgbWCKgIsAaEBPkDbgauC2kRShRbEtsMrAdrBo4JHA4qENkNOAjNAZf8Sfmj99X2jPVs8iTtG+ek4kPhtOJ55Rzo3+mx6hjrOexK73j0ZPop/wgC8wNWBrAJaQ3FEG0THxV5FYcURRP8EvkTLRVSFTMUiRLgEAoPsgwHCn8HRAVBA34B2v8+/eD3Wu955hbi/eS/7PLyVPJG66TjLuJS6Wr1m//6AhIA/vv5+yYBSwhRDcMO+A19DGoKcgfIBLwECggSDI0MRAc8/lX2vvMv95D9EAJWAfD7FvZ+9Ij4SP9fBMkF0gTJA4sDqgNQBL8GiAvJEB4TqBAACxYGGQU3CK8MzQ5IDLgFRv6O+fr4t/pa+834tPNK7izqkOc25mTma+iB67rts+027PHrQu8M9rD9HwMpBSsFswV/CGANsxKfFiYYcBeDFbkTGxPQE/8UUxXaE5wQhAzFCD8GGAWjBMUDtgGt/rX7qflF+Fn2+fJ97lzqKOiW6BzrLO7778HvtO5n74zzAvp//5kBGgEQAZUD2QdlC7cMRgw8CwsKlggOBwIGeQW3BBEDtABA/vX71flw+ND4Cvtc/Yb9Qvvf+AP5+vug/8wBWQK0Av8DDQYGCFsJAAohChkKZQo1C+wLjwvqCQ0IMwc4B4gGwwNJ//X6ZPis94r3kPYR9Gnwt+w46nHpvune6UHpsuiX6YPsrfDQ9Fz4n/sA/2kCiQVmCGQLvw4gEsMUBBbUFdMU+hP5E5QUuRRWE14Q5wxACuYIUQimB10GRwRUAa79G/rp9wf48Pl7+wv6dPRN7HDlr+MQ6K/vfPXY9VvxcOwD7NTxUPudAxwHzQX1An0CHAZCDIIRLhMOEfkMJwnVBjEG5AY9CPwIfQfWAhD8G/YU9N72Ivyw/5j+mfm59BX0ifgc/8IDvAR7A5ECPgMFBRAHJQkvC3wMMQyGCusItgjJCeUKCAsxCrgIkwamA5AAb/6f/QX9Bvs59+LysO9E7vvt2e1T7W7siutV64bsTe/s8iv2dfhU+sT8EACWA4YGtQiVCokMfA4UEBkRmRHJEd4R9hEKEukRWRFHENUOMw2LCwYKwAiFB7cF0gIp/wT8rPop+wL8VvtE+Fbz7u1+6Trn2ucb61fvLfI58oXwFfCN88L6eAK+BgkGgQJYAJICwwiFDxET5BF9DfUItwYQB20I3AiGB/4EVgIAAL79ifs2+rT6jfym/R78mfg19rP3hPwIAeMBIv8A/Mr7Gf/WA1YHRgjyBp8E1QLMAr4Edwf8CA8IQwVuAgQB/QAyAZwADP/o/Jn6XfiA9lT11vRp9D7zHPHM7qPteO7x8L/zmvUp9ir2xPas+Lr7I/8IAgQEYwXZBuoIZwuKDaoO3g7bDiIPeQ9OD4kOwQ15DVMNWgwlCn8HrQUGBYME1ALR/7H80/pd+i36EPnv9q30+vJy8SjvF+zb6YXqZe4R8yf1dvOS8NDwVfbg/pQFIAd5BL0BhwIdB6gMzw9BD00MfAmCCCUJyAn+CM4GfQQhA4kCqwEUAKb+mf7V/6QAXv9O/Kr5gvnI+3r+ov8G/wf+Hv65/z4CtwQ+BjsGzwQxAyMDcwXTCJ4KJQlaBQACGwE5AkIDtwLoABf/5f3y/Mf7m/rf+WH5YPic9u70hPR89aL2p/aI9Yj04fSk9uf4yfob/DL9dv45ALYC4QUdCX4LkAzdDGwNsQ4REJ4QLxCFD1wPhA8yDwYOiwxzC5oKGAlkBisDrgBo/4P+2/xa+h74Nvdj90T3pfWN8hvvluy565zs2e6P8Yvz7vMN84ryRPTG+Jv+QQMABT8ELAMUBKgHfAwYENIQ8w5vDE8LLAzQDUsOhQwBCVkF7wIAArcBFQG+/wb+Yfzy+qT5p/h++HT5/frj+1n73vkD+Qr6vPye/0QBcAHyAKgA3gB+AXsCuAOfBEwEegIvACr/WADnAuoE+wQ4A9UA9/4O/uv9Cf6t/S78m/kP9wj2+var+Dv5APgy9qj1+fYQ+YL6C/uD+6j8TP7R/yEBxgIQBYIHRgklCrEKiQueDF8Neg0pDb4MNQxnC38K4gmTCeoIQgfdBNEC5AGfAb0Ai/6k+zr5zPfe9tb1y/Qq9L/zjvLy78nsIOtk7ObvPPNK9BPzufG08tj2rfyLAZUDEQM8AogDpAfVDEUQWBD7DcwLzgvEDacPow+jDQsLIAnTByMGdQNoADj+YP36/Jv71fjU9Wf0SfVb95P4yffB9XD0RfX39+H6cvxg/LL7zPtW/dj/LwJxA4wDQANyA2sEsAWJBroGpgbDBgYH+AZVBmkFqQQDBNkCwwA8/lT8nvuR+xH7nfm49z/2dfXw9FL04vMz9G71Hfe5+Df66fvu/fv/yAFsAzgFLgfrCCQKGAtJDMcN/w5MD70OAQ6fDWkNyAx5C9YJSQjJBusEgwLn/5T9pvvh+Rj4a/YG9dLznvJ/8dTwuPCp8P3v0O4+7m/vUvJ69Wb37vdt+Gr6Lv6OAgEG3QesCJUJeQtkDokRvxM6FCkTqBHmECUReBGYEA4OlwpxB0AFswMPAvD/gv0d++D4w/bf9H/z1/K68rDyb/Il8mHymfO89Sv4IPo8+9L7qPxR/qwA7gJNBK8ExwRmBbkGHAjBCIQIGgheCGQJSArnCfkHbQWzA30DGAQHBEwCSv9j/ML6ZfpJ+nH5w/cC9v705/RO9an10PUC9o/2kvfl+Ej6nfsE/cn+GwHHAz8GCggtCS0KeAvnDNQN0Q0jDYAMRAwUDEULoAmVB7gFNATCAigBf//1/W78lfpZ+C32tfQr9Cb0/PNT81byg/FO8eDx+fIC9G30QfQ/9E71hffs+Vn7uPtL/Hn+SwJJBt0I2Al3CvoLWA5sED4R9hCPELgQLxELEaEPBw3xCR0HywSeAv3/r/xI+dD23vXn9af1W/SP8pvxMvKa82r0EvSA8y/0nPbR+WL8vf19/o3/KwHXAgQEugR/Bb4GSwh3CaUJ2gjgB7cHvQg2CsMKigkMB8sE9ANUBJAEeQMfAaH+Bf1Q/LT7e/qw+Pn25vWA9Wr1UPUw9UX1vfWQ9o/3nvjb+Xv7gv2f/28B5QJlBFUGkwhpCjcLHQvvCmkLcQwrDdEMYQuTCSwIagfwBigGtQSvApMA+P4a/pv9yvxE+2r5DPip9+v3Efi29y/3FveX90L4j/hf+Ar4AviB+H/5wPrk+5b85/xv/ej+ZwEeBBEGFAf+B7MJFgwTDscOag4BDiUOYA7BDfYLmQl0B6gFrQMXASf+lfvm+Qr5hPji9wT3Ival9dj1ovaG9w74U/j7+If6oPxA/q/+T/5J/ln/CAE2AlIC6gH6AdQC1gM1BOQDlQP3AwYFIQayBqEGQAbhBZcFRAXMBCcEZQOWArkBwQCf/2H+Lv0j/C37Gvre+MH3NPdl9wb4jfi4+Mr4S/l4+gr8cv1k/g//9P9tAVgDLwV1BhYHeAcMCN4IdglTCWwISQeKBlEGMAamBZkEYQNlArYBFwFFADP/A/7o/An8dPsP+6L6A/pG+a/4Z/hG+PP3Tfec9kj2a/a99vT2HPd39x340/hm+QL6Gvvi/AD/3gBAAn0DEgUTBxkJqQqZCxcMVwxiDCEMhguMCisJYQdHBRoDGAFS/7H9HPyV+i35/vca95b2a/Zo9kb26PWM9Z/1SPY89/r3T/iJ+B35JvpG+wr8ZvzC/I791P40AEEB5wFxAjEDLgQfBbIF4gX1BTgGpAbkBqgG8wUYBWEEwgP0AssBZAAA/7H9Tfys+u/4bvdx9vD1qvVp9TD1I/Vm9QP29PYt+KP5Tfsn/Sz/RAFEAwMFeAa1B8UIkgkICj4KcgrKCh8LJAu6ChQKfQn5CEEIGgefBS0E+QLfAZQADf+L/Vj8fPu5+tT5yPjC9/T2ePZR9m72sPbv9hz3RfeM9wP4nvhM+RX6FPtn/Bv+MACSAgsFSwcaCYkK6gt4DQcPGRBSENMPGg+EDvMN8wwwC8IIFgaWA3IBn/8B/oz8Q/s3+nX5/Pi++Kz4w/gC+Vn5q/nq+TH6tvqG+2n8EP1g/Zr9Fv7x/vb/3QCSATkC9AK5A2ME3gQ/BaUFGwaRBuoGDgfsBowGDgabBUAF1gQqBCoDAALjAOb/8P7c/an8bvtF+kP5fPgE+ND3uPeS9273kvc/+Gn5xfoL/Dr9hP4LALcBVAO7BOYF2QaYByMIhwjOCPII3wiGCO0HIAcoBhgFGQRVA8gCMwJQARkA2P7g/Tj9oPzU+9X62/kZ+ZL4MPjq98f3v/e295r3hPes9zX4Cvnr+Z76GfuB+xL8+vxC/sj/YgECA74EpgaPCCEKIAuyCzcM4Qx1DXkNswxdC+cJhAgGBysF7wKaAH7+tvw1++r52/gN+Hb3Afem9nb2ivbw9pv3Z/gh+bD5K/rS+sv79Pzy/Y7+9P6R/54A4QHsApADCgSnBFkFvQWGBd0EQAQFBBoENQQtBB0EKAQ8BBoEnAPeAisCtwFyARYBZABY/y3+Iv0+/Dv70PkU+JD22/UU9sf2ZPfS94L44vnS+7n9F/8LACEBugKkBEoGRAeoB98HNAiYCLwIaAiuB+YGZAY2BhkGuAX5BBYEWQPIAiECLgENABX/bP7P/dr8g/sv+kr5yvg6+ED3CfYg9ej0RPXJ9S/2jfYx9074zvlm+8r80/2Y/mL/dADSAT4DcgRsBXIGtgcUCSUKoQqsCqgK2AomC04LJwu4ChMKMQn5B2MGhgSDAn0Al/7s/Hr7IvrF+Hj3ePbu9b/1mfVT9RX1NvXg9ej2Bvgc+T36gfvS/AD+8/68/4QAZAFXAksDMAT9BK4FQwatBs4GjgYEBnwFRgVuBawFsgV8BVAFWgVgBfEE4AOGAnQB5QCGAM7/ev64/OD6LPmh90D2G/VS9PjzFfSv9Lz1F/eM+AT6lPtY/UD/EQGbAu8DRgW2BgsI9ghTCU8JNAkvCTMJFwm8CCEIagfCBkYG3AU9BTAExwJeAUUAbf9z/g/9Yvvh+d/4OviP95z2hvWp9D/0Q/SV9Cv1E/ZL96r4//k6+3T80v1P/7YAvwFRAp0C+QKiA4kEcgU4BvoG6wcCCegJSwo9CjUKlAo2C4cLDAvaCWkICQeQBZYD/wAt/rb73fl2+DD37fXb9DT0A/Ql9Hb08fSv9b/2E/h++dP6Bvwp/VX+f/98ACgBkwEFAr0CswOiBFAFyQVLBvkGrgckCDwIGgjuB8UHgwcXB5sGLAa3BQMF6AOSAl0BgQDa/wr/3v17/Dz7UPqT+bb4n/eK9tr1vPUD9l32qPYT9+f3Mvmx+g38MP1S/rX/XwENA3UEjwWOBpsHpwh2CdsJ5QnICakJgAknCYUIqAe1BscF4QTyA+oCywGjAHz/Vv4s/f371/rG+c/47Pcc93T2E/YC9iX2VfaF9tT2cfdi+Hr5hfp7+4n80v08/3sAVgHmAXwCUwNZBEoFBQa0Bp0Hzwj5CbcK5grJCr0K3ArnCocKoQltCDUHCwa/BBID9gCh/mT8dfrX+Gz3Hvb09Bf0qPOo8/LzWfTS9HP1VfZx96b42PkL+1f8tv0E/xoAAAHiAecCAwQKBeUFqgaIB4YIdgkSCjEK3Qk9CXcInAe3BssF3gT8AzgDnwIiApMBugCP/0b+L/13/P77evu7+tX5B/l4+An4cveQ9pr1BvUq9fb1A/f199L48PmZ+7H9zP+LAfICTgTWBXUH4gj1Cb0KYAveCxIM2gtHC4cKvQntCA4IKQdKBmwFbgQnA48Byf8T/qH8ffuE+oT5ZvhN93z2G/b/9dL1ZfXp9MX0K/Xk9Zf2LPft9yr51/qM/PD9Ef9MAN4BoAMxBVAGDAebBxcIdwiuCM8I+Qg5CX4JqgmvCZAJWwkYCcwIbwjrBygHGQbGBEMDmgHF/739jftS+Tb3XvXm893yPPLy8ezxL/LI8rXz3PQX9lz3tvg0+sT7Qf2Y/tH//AAUAv0CrgM6BMMEXgUGBrcGdwdDCPUIVwlKCeYIWAi6B/4GFAYEBe8D5gLbAbMAaP8U/tv82PsW+4z6HPqZ+ej4I/iL90v3Qfcf97f2M/bu9RL2evbm9lX3B/g2+cn6ZvzK/f7+PwC1AU0D2AQ4Bm4HeghPCd4JKgpACiMKzAk2CXgIswf3BjQGTwVBBBoD7QHAAIr/S/4T/fv7EftO+p757vg9+J/3Lvf59vP2AvcV9zz3lfcr+PH4zvm++tL7Gf2G/v//bwHcAlME1AVOB60I4QnKCkcLRwvtCn4KMAoBCswJfwk4CSEJNglACQYJiQj/B5cHUQf7Bl4GYgUWBKUCMgHJ/1b+u/wF+3v5b/j599n3u/eS96n3S/hf+Xn6Rvvg+6785/1Z/6IAoAGLAqYD4gTuBYsG1gYmB68HWQjoCD4Jdwm3CfkJBgqmCdMIvgejBpwFkgRdA/MBfQA1/zf+ZP2H/Iv7k/rY+XH5PfkI+b34cPg/+Cr4F/jy98H3nfeW96n30vcX+In4K/nt+b/6oPuf/MT9//4xAEABMAIbAxwENQVEBhYHiQejB5AHdQdMB+4GPQZQBWAEjwPBAr0BcAAE/7P9jPxq+yr63/i899/2M/aT9f30jvRZ9FH0WfRv9Kj0DPWM9Rj2uvaX97v4EPpy+9D8Lv6G/8QA3AHlAvcDAAXEBRkGGQYJBgsGBQbSBYkFdAXCBUQGmgaRBlAGIwYgBhIGtwUEBSUESANoAlgB8P82/lj8k/oL+bz3k/aP9c70fvSl9Br1pvU39vT2Bfhf+cv6G/xR/ZD+6P88AW0CfgOQBLUFzwavB0QIsQgrCcwJgAoYC28LewtJC+sKZwqsCacIWgfwBZ8EdQNOAvcAc/8F/vL8PPyf++P6H/qn+az5+fkn+vv5o/l5+aD55fkD+u/53PkA+l362Ppi+wz84vzW/c7+yv/oADcCnAPlBP0F/Ab+B/kIxQlGCoYKoQqiCnQKAgpJCVkIRAcdBvwE8QPvAtYBjAAi/8D9fPxO+yT6DPkq+JT3Nffo9p32YPZD9kD2UPZ39sX2PvfZ94r4W/ld+or7yvwI/kP/gACtAbYCpQOgBL4F2QamBwMIFgghCCwI/gdkB3UGjAXwBKEEawQhBL0DTwPiAncCDwKjASQBggDB//b+Jf40/f37hPr/+Kb3hPaA9Y/02/Oc893zc/Qs9f31+/Y0+In50fr6+xb9Ov5p/5UAvQHrAiMETgVEBvEGYQe8ByUIpAgnCZcJ4gn9CeMJkgkYCYQI4AceBycG7AR5A/IBdgAO/7L9X/wm+yL6XvnT+Gn4D/jO98D3+/d6+BP5l/n3+U76v/pO+9b7N/yB/PH8sv22/sL/sACQAZACwAMBBRwG+waxB2gINAkCCqkKCAsgCxULBwvsCpIKzwm1CIYHdwZ+BWwEMAP1AeUA8P/Y/oL9JvwX+2n65flQ+bj4X/hn+Kj45fgU+WH55vmF+g37evsC/Nn89f0c/xYA4QCeAXMCcAOOBLMFvQadB1kICwm8CVUKtgrOCqMKNwqACXQILQfZBZ4EgAN1AoQBxAA9ANv/gv8r/+f+uv6W/mb+Kv7t/az9Uf3N/Cj8ePvE+gD6Lflr+OH3o/er9/T3ivhy+Yv6nPuG/F79T/5k/3YAXwEeAtgCqwOEBDQFlwWxBacFmAWLBXMFRwUVBf0EEAUyBSsFzwQrBHgD5gJoAsYB1ACc/07+F/37++X6yfmy+ML3F/e+9qb2rPa69tz2OPfi9774ifkU+mX6p/oA+2v7zvsa/F38tPws/cP9bf4c/8f/cAAdAdMBgwIbA5QDBASKBCYFrgXnBawFBAUdBDsDnAJWAjsC5AH2AG3/rf04/FD7zfpa+rz59Pgi+F33rvYg9s31y/Ub9pr2DPc39wz3wPau9hj3+PcG+fX5rPo9+8X7WfwR/Qn+Rv+TAKwBdAIYA9cDuAR/BfkFNwZzBsMG9gbHBi4GaQW5BCMEcQNsAhYBsv+e/hr+Gv5M/lT+Gv7e/fv9gP4g/3n/fP9t/5D/1f/o/47/6f5S/gr+Bf4K/vT92P33/Yj+iv+6ALkBWwLOAm8DcgSuBcUGhgcRCKAIPQnCCRQKUAqdCu8KEAvjCpgKfwquCucK2wp/ChAKxwmMCQsJBQiKBvEEjgN8ApQBpACZ/5j+1f1j/SH92/yE/EL8RvyV/Ab9bP3B/SH+nf4Z/2f/b/9E/xT/A/8g/2f/zv9QAOYAhQEWAoICxQLyAisDgwPwA1cEpgTfBAQFBgXRBGME2gNZA+ECTwKEAYEAbv92/qL91vzs+9n6uvm/+AH4affL9hz2iPVJ9WD1jvWP9Wr1a/XL9Wz2+vZH93f30/d4+ED5/fmp+lr7FvzM/HP9Hv7n/sr/oABBAakB6wEkAmMCqwLvAgkD0gJHAo4B1gAgAEH/Hv7f/NL7J/vQ+p76d/pf+l/6ePqv+hb7r/tR/ML87fz5/BP9Lv0T/aP8CfyR+1T7LPvx+rH6qPr6+pP7RvwA/c39s/6l/40AYwEnAtkCdwMHBJEEDgVnBZIFqgXaBTEGjwbJBt4G+wZBB6AH6wcHCAEI7gfJB3YH5QYjBlMFjgTcAzcDkgLkATMBmQAxAPf/y/+V/2f/av+q//X/CgDh/7z/2/8vAGQAPADe/7T/CAC5AGgB1AEUAnICHAP2A70ESwWzBSkGygaBByQIlQjcCA0JLwk6CSwJEAn5CN8IoAgcCFcHdAaZBckE5QPQApMBWQBS/4/+8v1S/Z386/tg+wL7tfph+hn6DPpM+rP6/foT+x37V/vT+238A/2b/Vb+P/88ACUB7QGhAlMDDgTVBJgFNQaJBpAGdgZvBnQGRQavBc0E7wM8A4cCkQFiAEz/jf4K/nH9p/zl+3L7TPs2+wn75vr/+lP7pfvB+6z7k/uO+4z7bvsl+7X6Mfq0+V75QPlG+U75WvmZ+TT6Efvd+2L8vPwy/dz9h/71/i3/av/N/zEAYABZAFsAlwD9AFEBcQF3AZAByQEMAjsCQgIWAqsBCgFWAL3/S//n/m7+3/1W/ef8g/wK/Hf77vqW+nj6ePp1+mf6VvpE+iP66/ms+YT5f/mR+aj5zPkZ+qD6Sfvu+338Ff3Z/cX+rf9mAPUAhgE3AvwCswNEBLMECwVOBXYFhwWJBYUFgAV8BW8FOwW2BNIDvQK9AfcASwCG/6r+8P2D/UP95fxH/Jj7FPvC+nD6//mQ+Vv5b/mp+er5PPq2+lL79/uo/Ib9pv7q/xsBJgIvA1IEdgVkBg4HmgclCJMIrwh3CC0IFQgqCC0I8AeBBxAHrwZFBrkFBwU+BGUDhwKxAe4AKQA//yz+Hv1P/Mb7Wvv1+sX6DPvP+7n8b/3i/U3+4/6R/yAAeQC3AP8AUAGKAZwBkAF5AV8BTAFPAXUBrQHXAesBBAJCApsC2gLZAq4CjgKWAqsCpQJ6AksCOAI4AisC/gHAAYkBXgEwAfAApwBtAFAASABEAD0AOgBCAE4ASAAjAOj/tf+h/6T/mf9Y/9n+OP6a/RH9lfwT/JL7Nvsl+2P7wvsP/EL8gvz7/KD9Mv59/pX+v/4r/7//NwByAI8AxAAfAYEBzgEUAnAC6QJhA7oD8gMSBBwEAgS/A2MD+gKBAu4BTgG7AD4Aw/8x/5H+Bv6b/TP9r/wd/LP7h/t0+z/75fqq+sv6PPuw+/T7Hvxw/A392/2p/lv//P+iAFYBDQKwAiQDagOhA/kDegT1BCIF+AS6BLgE9gQlBfcEegQCBMsDuwOKAxgDjAIcAsgBXAGuAMr/5P4g/oL9Av2d/F78Tfxr/LL8Gv2N/fP9Rf6Y/gT/if8HAGMAqgD5AFUBkwGAARsBpQBlAGcAfABzAE8AQQBtAMQAEgE1ATUBMwFJAXIBmgGuAaoBmgGRAZcBmgF2ARcBkQAbANr/wv+t/5D/lP/q/4YAIwGDAagBxgH8ATMCPwIdAu8BygGRAR0BbgCt//z+T/6Q/c78Ofzw+9b7uPuK+3H7ifvC++/7Bfwd/Ev8hPyu/ND8CP1n/c79Iv5v/uH+g/8jAI4AywAXAZcBKAKFAp4CpQLMAgYDGQPqApcCSwIFAqcBJQGeADMA3/95/+f+Nv6B/c/8Gvxr++D6iPpV+i/6Gfov+nf6zPr9+gz7K/uI+xT8nPwB/V792P1v/vP+RP99/9r/dQAvAdUBXALcAmYD2wMRBAUE5gPkA/YD7wOxA1QDAgO9AlgCsQHbABAAdv/+/of+Df6s/YD9f/2P/Z/9sP3C/dP96v0f/nr+2P4H///++v4u/4H/lv83/6L+Vf6L/vn+Mf8d/xP/Zf8AAIcAxADfAB0BjAH6ATwCWQJpAnICYwJCAi0CJwIJArIBRAEPAUEBrAEGAj8CiwIMA5QD2QPOA7gDzgPzA90DfQMUA9kCqwIxAlABUgCT/xb/j/7Q/Q39m/yJ/JD8bvwx/Br8RfyR/NL8A/0//Y/95f1A/rj+Vv/z/1UAeAChAA8BswE/AokCvgIpA9EDcATCBNME5QQfBV0FZwUzBeMEkAQoBJEDzwIFAkcBhwC0/9z+JP6Z/R/9lvwA/Hn7Gvvf+r36tfrQ+gX7Ovtj+5X77vtq/OD8Nv2D/QD+xf6n/2MA3AA9Ab4BZQL+Ak8DVQNIA2MDqAPiA9cDfwMLA7YCkwJ7AjUCrQEJAYwAVwBLACQAs/8P/3b+EP7D/VD9lfy9+yL79/oR+xb73vqe+rP6QvsP/Lr8Iv2C/Sb+GP8OALoACwEwAV4BkwGhAV4B2wBSAP7/7f/+////1/+m/6D/zv8DAAIAvv9t/1X/gP+s/5H/N//p/uH+FP9C/0f/O/9Z/7v/OQCaANQADQFjAdIBNQJkAlMCFQLSAZwBbgE2AecAhwAsAOb/pv9N/9z+ef5I/kP+Qv4o/gD+8/0S/jr+O/4V/vr9Ev5V/qD+3f4V/2D/y/9BAKwABAFVAaoBDgKKAhEDgAO+A90DAgQ6BGYEVgQABJgDWgNDAxIDmgL7AXABCgGsADIApv8x/+7+x/6d/nX+af54/oX+iv6g/tr+If9Q/1//d//A/yUAZABeAEYAXgCiANoA7wALAWIB7AFkApkCqwLbAjADbQNpA0cDPwNUA1YDIgPOAoECPQLeAVgB1QCEAE4AAgCh/2v/g/+y/5v/LP+8/qn+6v4Z/wD/2P4A/33/9v8jABYAGABLAJEAxwD0ADQBegGgAZ0BlQGgAZ4BaQEYAfgALgF5AXcBGwHBALgA4ADLAEsAof80/xb/Af/A/m/+VP6A/sb++/4i/1j/pP/3/0wAtgAzAZgBuQGoAaMBwAHLAYoBDAGdAG8AYgAvAMj/cv9o/43/lv9r/0D/Q/9k/2f/Lf/W/pT+cf5N/h3+//0B/v/91P2U/Xv9n/3a/fX95/3v/UL+w/4h/0H/Wf+d/wEAVwCJAK8A7QA+AXABXwEjAeYApQBJAN//l/+E/4f/ev9T/yz/Kf9A/0P/Kv8p/2j/vP/h/9D/tv+6/9T/zP91//b+qf63/uz+C/8P/xD/Iv9N/4f/sv/F/9X/8/8gAFoAmwC7AKIAcwBcAFcAPgAKANr/zf/t/xkADwC+/2j/SP9J/z3/JP8Z/yj/S/9v/3T/Vv87/zf/PP9G/2v/n/+4/7P/vv/s/ygAUQBQAC8AJQBdAKkAvACSAGwAagBzAG4ATQAaAPf//f8IAO//x/+0/67/oP+c/7X/3P8BACQAPQBKAGIAgAB6AEgAHgAfAC0AJwALANf/l/9n/1H/N/8W/xX/O/9n/4z/tf/V/93/3//s//j/BgApAFMAXwBbAGcAfQCAAHUAYgBAABoACwACAOP/wv+//8n/v/+p/5z/lv+Y/6T/n/91/1H/WP9r/2L/Sf86/y7/HP8F/9n+n/6C/pn+uP6//sr+7v4W/zn/Yv+L/6n/0f8PAE4AjADZAB8BMgEhASEBOgFGATcBGwEAAf0AGgEoAfkAuQCwAN8ABgEEAeMAvwC9AOwAFgEGAdQAuAC1AKgAfwA2ANH/eP9b/3D/hf+F/3b/Wf9F/17/lv+r/4f/U/9G/3b/2P8xADQA7P+7/+X/SgCcAKwAgwBiAJgAGwGIAZoBcwFeAXcBrQHLAaYBTQEOARABKgEmAQAB0ACpAJwAnQCCADMA1P+M/2H/TP9G/zb/D//v/v7+MP9a/2L/Sf8u/z7/g/+//7T/c/9L/2X/rv/y/w8AEwA2AJEA9gApASsBIQEfASIBJwEyAT4BRAExAfoAsgCDAHUAYwA4ABIAFAA3AFYAWQBMAEgAUQBDAP7/pf96/5L/tv+t/3v/Uv9g/5r/0v/r//n/HQBcAJ8A2QAFAR4BHQECAeMA0ADHAK8AhABfAGEAggCcAJAAbABWAFkAXQBFABcA8//n/+X/3v/Y/93/7P/z/+b/0P/L/+L//f8HAAQABAAAAOn/wf+Y/4H/hP+U/5b/if+I/6D/vf/L/8j/tP+T/3H/U/8w/wT/3v7A/pb+X/4w/hf+Gv42/lH+SP4j/hH+Kf5I/kb+IP7j/az9lP2S/Yn9ef2C/ab9zf33/TT+cv6U/qP+tv7V/vn+E/8E/9L+uP7Y/gH/+v7S/rr+v/7Q/tz+1P7D/sj+4P7g/sT+wP7g/vD+0/6q/pX+jv6H/nX+VP5H/m7+oP6j/o/+rP78/j3/Wv9p/4H/pv/I/8f/of+Y/83/AwD//+j/AgBDAHcAgABcACMACQAhAD4ASwBlAI4AlAB1AGcAcQBhACYA6P/Q//X/RQB2AFEAEQAaAF0AfABcADwATwCbAAABQQE3ARQBGgE0ATMBLAFEAWQBdwGWAccB6AHnAcwBlAFZAVcBigGgAXwBXgFxAZYBrwGyAZEBXgFUAX0BogGwAcMB1wHKAa4BpgGdAXYBRAEVAeIAvwDNAOkA3wDDAMEAzADMAMwAywCxAJAAjACOAG0ARQBCAFIAWABeAGUAZgB6ALIA0ACaAEIAGQAlAD4ATQBEAC4AQgCYAOIA1QCYAHoAgQCSAKAAnQCHAIkAtQDMAKEAYQA/AC0AFAADAPr/5//b/93/0P+v/6j/wv/N/73/vv/f/wEAEgARAPz/8P8MADUAMgAaACwAZQCEAGoAMgAJABIARQBYAB8A2//i/x8ANAAFAMX/sv/e/yQAPAANANf/2f/1/+b/q/9z/1r/YP95/5H/mP+f/7b/xv+5/6P/lf+C/27/eP+e/7D/nv+I/4//vP8CACsAAQCp/4r/xv8TACMA7/+j/37/pv/u/wAAxP+D/3//t/8AACcADQDa/9T/BAApABYA3v+s/6b/1/8TABoA7f/F/73/w//I/8b/uf+o/6z/w//S/9T/0v/I/7P/pf+t/8f/7f8WAC0ALgAwADsANgAQANX/nv+F/5D/pf+Y/2r/R/9O/23/hP+D/23/VP9F/0L/Qv9E/0b/PP8i/wX/+/4U/0T/cv+I/4j/gf+A/4//qv/A/8P/u/+5/8//AgA4AEgALwAZACEAMQA1ACkACQDg/9T/6v/0/9j/sv+Y/43/nv/F/9H/pP91/3v/qP/L/8v/qP98/3X/mP+x/6P/kf+c/7X/xv/K/8T/wf/R/+//BwARABEA/f/X/7z/xv/p//r/2/+j/4z/rf/a/+D/wf+j/6L/v//e/9n/tv+k/7H/uP+v/6//uP+4/7z/1P/w//z/9v/d/8T/1/8QACUA/f/S/9n/BAAyAEMAIwD7/w8ARwBNACkAIwBAAFYAagCJAI8AdgBmAGgAaAB/AKkAmwBHAB4AYAC6AMkAjgA6AAoAKQBnAFYA8v+5/+X/KwBKAFQAWwBcAGkAiACVAH4AaABiAFMAPAA+AE0AOgAKAPL/AQAOAAMA8f/t//b/BgASAA0A//8EABQAEAD0/+H/5f/2/woAHQAeAAwA/f/7/wEAGAA6AEYANAAqADkAQgA9AD4AQgA5ADsAXgCDAJEAlgCWAIwAmgDPAPMA2ACoAJoAoACjAKQAjwBYADMAPwBLADIAGwAfAB0AGgA/AG8AbQBKAEIAVwBsAIQAmgCVAIMAkwC4AL4ApACdALEAwAC3AJsAbgA6ABYABgD///7/DAAbAB0AFgAOAAAA8f/z/wEACQAQACIANwBEAE8AUwBAACkAKQAtABMA6P/O/8j/z//r/wsAEgALAA4ACgDz/+j/9f/z/97/2//m/9//2//t//T/2v/O/+T/8f/v//3/EwASAAwAGwAnAB0AFAASAAAA3//K/83/4P/q/9L/pv+Y/7H/x//B/6z/k/+J/6b/xv+r/27/XP9t/2n/Wf9c/1//Wf9p/4T/g/+G/7j/6P/k/9L/1v/W/9H/6f8CAPb/5/8FAC0APgBOAGUAYgBRAF4AgwCXAJcAlACLAIUAkgCqAKoAhwBbAE8AbwCZAKIAkQCJAJEAmACaAJMAggCAAJkAsQC0ALsA0gDZAMQApwCTAJIAqwDIAMwAzADdAN0AuwCoALoAygDSAOoA/QD3AAIBKgEyARYBFwEzAS0BEgEQAQcB3QC/ALIAhQBPAEgASAAdAPf///8AAO//AAAfAAoA4v/s/wYACQAdAFIAawBbAFcAYwBbAE8AWwBjAFIASwBjAIAAhwB6AGYAWgBfAGcAZgBhAFoASgA2ACgAHAAYACUALwAhAAoA+f/k/8//z//X/8r/sf+d/4f/df99/4f/cP9d/3b/kf+A/2T/X/9X/0P/Pv9B/zf/MP87/zb/Gv8V/zP/Qf8m//7+4/7Y/tb+zf6y/pv+mP6X/oD+X/5N/k7+V/5b/lf+VP5d/nL+i/6i/qr+ov6h/qz+sf6y/rz+u/6l/qD+wP7W/sv+yv7c/t3+z/7Y/uv+6f7u/g//Kf8s/y3/J/8I//T+Df8x/z3/Of8w/yX/Lv9P/1v/Sv9D/1H/Wf9q/5z/x//H/7n/uf+6/8L/2v/f/8D/s//U//b//P/4/+7/3//o/wsAFQD+/+//6P/O/73/0P/e/8b/rv+z/7n/uP/D/83/xP/A/93//f8CAAEAFgA9AGEAcgBuAFsATgBZAHcAjQCHAG4AYQByAJEApgCdAH0AbgCLALcAxQC3AKYAngCnAMMAxgCbAHgAigCgAJQAjQCXAIAAWgBlAIsAkACIAJMAiABiAGcAjwCDAEgANwBNAE4ASQBXAFQAPgBLAGsAXAA7AE8AcwBrAFsAagBvAFQARgBLADcAGwAlADYAHQD2//L/9v/j/9T/3f/f/8r/v//V//X//f/3/wEAHQA0ADoAMAASAPP/AAA4AFIALgAFAAUAEgARABMAFQADAPf/EQAzADYAMgA4ADAAGwAfADEAJAAKABQAMQA0ACcAJAAfAB0ANwBVAEIAFQAXAEMAWQBNAD4ANQApACsAPwA+ABkA/f8IACMANwBOAF4ATwAsABgAGQAWAPf/vP+E/3b/j/+i/5//kv+B/3n/h/+Y/4v/e/+T/7v/wP+0/8f/8v8QABoAHQAbACIAOwBRAEoANgA7AFMAVgA5ABUA/P/z//3/CgAJAAoAHwAxACcAGAAfADUARwBUAFMAPQAjABsAIQAcAAgA/P8FAA0ACQAOABgACgD4/wQAFgAUACIARgBJACYAFwAkACoAKAAiAA4AAgAXACYADQD1//n/+//5/wYABgDg/7z/t/+w/53/o/+1/6L/e/9+/5//qP+e/6L/nP97/3T/m/+6/8D/2f/7//v/+v8aACYAAwDq//f/CAAcAEEAUwA+ADMASABZAFUARwA1ACwAQABbAGIAYwBwAHgAcQBfAEMALQA3AFQAVQAwAAwABgAPABwAKgArABoAEQAiAC8ALAA5AFIARwAkACkAUQBhAFMARQA4ADQASQBZAEEAJgAzAEMAJgDy/83/uv+u/6j/qv+v/6z/nv+U/5f/nv+m/7D/qP+J/4H/o/+8/7L/uP/f//f/7P/n//X/+v/4//7/+//o/+P/7v/i/8T/w//b/9f/sv+W/5v/sP/F/8z/wv+2/7z/yv/I/7H/mP+U/6P/tP+4/63/m/+Q/53/vP/O/8D/oP+I/4n/pP+//73/pf+Y/6L/sP+x/6n/mf+B/27/ef+T/5P/eP9r/3H/b/9w/33/cP9G/zf/UP9Y/0P/PP8//zj/SP93/43/fP92/4v/nv+z/9b/7//v//j/FQAkABgAEAAWABsAHQAkAB8ACwALACMAJwASAB0ARABAABoAHgBGAE4AOwA8AEEANAA8AF4AZgBPAEsAXQBdAFIAWQBmAGEAVwBbAGEAXQBWAFAATgBRAFgAWQBQAEgASwBZAGkAcQBsAF0AVQBlAIEAhgBrAE8ARAA9ADIAKwAiABEABwAKAAkA+//1//3/BAACAP3/+f/v/9z/2P/6/yYAMgArADoAUwBcAGYAegBwAEwARQBgAGkAXQBfAGcAYwBhAGYAXQBOAEgAPwAuAC4ASwBcAEgAMQA1AD4AMwAqADIAMAAcABYAGgAMAP7/BwACAOP/1//k/9n/u/+9/9b/3P/X/9n/2P/b//L/BgAAAPL/9P/3//L/7f/t/+f/0/+1/6D/oP+o/6L/kv+C/3n/ev9+/3j/bv96/5n/ov+R/4//sP/Z//D//P8DAAMAAgAQACgAOQA7ADcAOABAAEwAYgB2AGgAOgAjAD4AVwBMAD8ARgBBAC4ALAA8AE4AbACNAI0AdwB3AIsAmACeAJ0AhwB1AIIAmQCVAIMAgwCJAIEAfwCaAK8AmwCDAIsAjgBzAGcAcQBhAEcAUgBbADoAJwBAAEYAJAAOAAsAAwAAAP3/5v/U/9z/3v/a//H////d/8X/4P/p/8P/sv/H/9L/0//v/xcAIAAVABEAEAAEAP7/CwAUAAcAAAAKAAkAAAAMAB0AEgD8//L/8v8GACsAKQD///X/EQAbABwAKgAbAPT/8v8JAAkADAAZAAYA4f/a/9v/z//U/9//zv+//8f/uv+j/7D/uv+V/3j/if+Y/5j/qf+6/6v/i/97/4D/iv93/0z/NP80/yf/FP8X/xr/Cv8F/xH/Gf8i/zL/M/8m/yH/JP81/1v/ev+F/5T/nv+F/3T/kv+s/6P/qv/G/8D/p/+x/9P/5f/m/9v/0f/T/9j/2P/d/+L/2v/Y/+///v/6//z//v/v/+X/8v8EABUAJgAcAP//9v/7//D/7v8OACcAIgAjADYARABIAFMAYgBkAFgAUgBlAHkAdgBxAHkAbQBFADEAOAAwAB0AGAAHAOD/0//s//7//f///wMA+v/0////DAAMAAsAFQAoAEAAXABzAHoAdgB9AJEAlwCKAIQAhgB8AHIAggCYAJMAjACbAJgAcQBhAH8AiQBqAF8AagBYAEMAWQBuAF0AVgBhAFcATwBrAHUAXgBqAI4AfABXAGkAfgBfAEwAZQBuAGIAbQB3AFkAPQBJAFYATABJAEwAQgA8AEgASQAyAB8AEwD5/+H/3f/S/7L/pP+w/6n/mf+v/8b/pv+G/6T/zv/R/9X/6P/k/9T/5/8IAA4ACwAWABoAEgATACEAKgAjABoAGwAfAB4AHwAkACYAKAAqABoACQAbADYAJwAWACwANAAVAA8AKQAlABIAHQAlABIADgAaAA8AAAAFAAIA9P/8/xkALwA1ADAAJQAnAC8ALwA0AEQAQgAxADUARwBKAE4AWgBZAE4AQAAYAOP/2v/s/+H/0//o//D/zv+9/8f/u/+q/7//yv+y/7b/4P/t/97/7v8RAB4AIAAsADUAOgA9ADUAJQAaABcAJAA8AEIALwAoADIAMAAnACoAMQAxACkAGgAQABQAGQAhADkAPQAZAAcAHwAjAA0AEwAgAAsA+v8AAPb/4//i/9b/wv/P/9v/uP+j/8P/0P+0/6v/sP+a/4z/o/+1/7L/tf+y/5X/bv9J/yz/LP82/yL/Cv8S/xT/+P7y/gT/+f7p/gj/Jv8Z/x//Sv9a/1b/dv+Y/5D/iP+a/6v/t//A/7L/nP+b/57/mv+l/7H/o/+c/6f/nv+R/6X/v//H/9H/0//A/77/0v/O/8j/6P/9/+z/6v/6/+3/4f/7/woA9P/u/wIACAABAAQACQAEAAIABgAEAAQADgATAAIA8P/4/wwAEQARABgAHAAkADUALwAJAO//7P/b/8X/xf/D/6j/mf+m/6j/lP+P/6j/wf/B/7f/wv/e//T/BgAfAC0AKwAzAEMAOQAiAB8AHgALAAQAGgAtACoAJgApADAAOgA+AD0ASQBZAEoAMAA3AEgARQBIAFgATgA0ADUAOwAsACkAMQAjAB4AOwBEACYAJQBFAEgAOQBBAE4ATABLAEgAOQAuAC4AMAA3AD0APgBFAE4ARgBFAFcATgAoABgADwD0//L/DAD+/9f/0f/Q/7n/vv/Z/9j/y//Q/9H/2v/5/wEA+f8dAEUAOgA5AGIAagBTAF0AZgBJAEMAWwBVAEYAUgBUAEYAUgBaAEIAPgBSAEgANQA/ADwAKwBGAGgATAAsAEMASgAiABMALAAzACAAHAAoADYAQwBHADwALwAqACkAKwApACIAGwAVAA0ACAAMAA0ADAAUABcACwAKABcACgDd/7n/qP+V/4b/iv+P/4X/dv9n/1n/VP9d/27/eP9t/2D/cP+Q/5r/mP+0/9//6P/W/9D/1v/R/8n/1//n/9b/uv/H/+P/2P/F/97/+f/t/+H/6v/o/9z/3v/d/9T/1f/W/8v/x//F/7j/s/+7/7b/sv+//73/q/+z/7//rv+x/9H/y/+2/9T/6P+7/6P/xf/G/6H/rf/U/8j/qv+7/9L/yP/M/+z/6v+8/6D/o/+V/3v/gv+L/3P/Yv9z/3j/Yf9Z/2T/af9w/4P/lf+q/77/vf+0/8X/6/8IABMAFQATAA8ADAATACIAJAAPAAkAIAA0ADUAOABEAEcAQgBIAF8AawBaAEwAXQBiAEcARwBhAFIANgBLAF8ARwA/AFIAUABXAHsAfgBkAHQAhgBmAFkAhgCWAHoAdQB+AGsAWABbAFwAVwBiAG4AbQBvAHYAZgA8ABsAGQAaAAYA9P/3//P/4f/f/+v/5v/L/7T/qv+y/8b/0P/T/+v/GAArABoAGAAzADQAIQA1AFkASAAtAEUATQAdAAIAFAATAAwAIwAlAAYABgAXAAQA9/8PABMACAAZACYACgDy//z/BwD+//f/AgAPAAgA/P8HABIA/v/3/w8ADAD0/wEAGAAEAPX/CQAPAP3/+f/6//L/6//o/+z/9f/0//D/+f/y/8X/nv+P/3n/bP93/3X/bv99/3r/XP9b/2r/Uf9A/2D/eP+B/6b/xf/A/8T/1//X/93/+f8GAAIAAQDt/83/zP/T/8n/xP/R/+H/9P8FAAUA+v/m/9P/4v///+7/0v/o//7/6v/t/xAADgD1//L/7f/r/w4AJgAUAAkABADm/+X/FQAlAA8AEwAYAPf/8f8dADYANABEAE8ANgAiADcAWABfAEsAOQA2ACAA8P/b/+n/3v/A/8X/1P/C/7n/1v/h/8H/rv+2/6//qv/W/xIAIAAYAC0ARwA7AC0ARQBVAD4ANABHAD4AGgAZACsAGwAOACEAHAACABgAPgAkAPr///8DAOv/6v8EAAgA/P/0/+z/5//o/+H/3//o/9r/yf/l/w0ACwD5//P/2/+8/77/yP+//8L/3f/3/xMAPABaAFMALQD7/9n/1v/k//v/EgAOAOf/wP+l/33/SP8v/0b/cv+J/43/ov+0/57/j/+z/83/vf/D/+3/DQAsAF8AewB6AHgAZABLAGEAjACZAKEArwCfAH8AeQB4AGoAZABiAFgAXgB8AJoAowCgAKsAvQCzAJoApgDJANAA0gDrAOoAxACzAMMA1ADjAO4A6gDjAN4AzgDNAOkA8wDcANYA3wDXANsA8ADdAK0AnQCbAIoAjwCjAJ4AkwCPAGgALQAXAA8A9//z/wQABwAEAAcA+//h/9D/yv/L/9v/8//9/wQAHQA7AD0ALwAzAD8AMgAlADEANAAiACIAIgAGAPL/9f/f/8D/0//y/97/w//I/7z/mP+V/6n/oP+R/6X/uP+x/7T/v/+v/5v/nP+S/3z/hP+b/5X/jv+n/7b/l/9u/1r/Tv9J/1//gv+G/2v/Wf9U/0X/O/9Q/2P/V/9Q/17/V/8//0D/N//6/sr+4/4K/wT/9f71/uv+1f7W/vX+DP8D//r+Fv81/zb/Sf96/43/hv+Z/6H/h/+K/6j/p/+j/8P/1//N/9T/3//O/8L/xv/G/9H/6//o/8v/xf/Q/8//0v/b/+L/7P/w/+P/5f8CAA0AAAASADEAHwABABIAMwAyAC8AQwBIADAALQBIAFIASQBeAHsAbwBlAIkAlgByAGwAjACNAHgAewB+AGUASgA5ACIACQAAAA0AGQAOAAcABADp/+b/GQAnAAQAEgBCADwAPAB1AIYAbQCCAJMAdQBxAIUAdABrAIMAdQBZAHIAgwBhAFEAVwA/ADIASQBFAC0ANQA7ACgAKwAvABIACQAaAAcA9f8YAB0A5f/a//r/8f/k//f//v/5//L/2f/L/9f/0//O/+7/6f+0/7j/2f+9/7T/3f/T/6b/sv/U/9H/x//J/7r/n/+F/3b/g/+S/3//bv94/4D/fP93/37/i/+O/4j/g/+I/6b/1P/y//P/6v/Z/8r/1v/n/9r/2/8EAA8A+/8HABcAAADu//z/BwAIAA0ADAD7/+//7//v//T/BQAPAAMA9f/0//X/+P8EAAwACQAPAAwA/v8SAC0AGAADABMAGAAMABUAIQAcAB4AHwAPABAAKwA2ADMAMQAwAC8AIAAVACwANgAZAAoACADo/8P/wv/E/7//xP/C/7z/zv/Q/6//qv+1/6r/sf/Q/9v/5/8JABsAEQAUACcAKQASAAgAHgAwAB8AIQBHAD0ACwAWADsALQAmAEcAPgAPAB8ATAA2AA4AIgA0ABsAFwAxAC8AIgApACUAFAAYABgAAAALADIALwAcACgANQAwACQAHQAhABsADQAeADoAKAARACcAHADm//z/NwAUAOT/CAAkAAAA4f/k/9r/rf+C/4T/pP+n/6T/z//i/7L/qv/U/8L/of/T/xAADgAVAEQATgA3AEEAVQBCADMATQBnAGUAcwCUAI0AYgBgAIEAfQB3AK4AygCOAHcAswC0AHUAjQDGAJwAfgC8AL8AdQCAAL4ArACKAKkAuQCgAKMAtACpAJ8AoACXAIoAhgCFAIYAjgCTAI4AhwCGAH8AawBcAF4AXwBRAFMAaABkADwAEwD3/+f/4//h/9X/xf+9/8L/0f/W/7j/lf+W/6H/nP+u/9n/2/+//87/7f/f/83/4f/g/7j/tv/i/+3/2f/n/wIA8f/b/+///f/s/+3/AAD3/+f/7f/s/9//3v/i/+P/5//h/8z/xf/F/7X/tP/B/7H/mv+o/7b/n/+I/4f/if+J/5P/mP+P/4j/hf9+/4b/oP+l/5H/j/+i/6r/qf+j/5P/kP+a/4T/Xf9Z/1v/Qf80/zb/Kf8e/yf/Pf9I/0L/O/9G/1P/Wv90/43/g/+P/8f/1f/E/9r/5f/H/8z/8//8//b/9P/p//T/EwAHAPL/GgA0ABAADgA2AC0AFAA5AFsAOwAoAEgARwAmAD4AZQBNADAARgBTAEEAOgBQAGYAVwArACEASwBUADUASABoAE8ARABgAG4AfgCOAG4ASABTAGYAbQB9AHIAXQB5AG8AGQAKAD0AIADr/wMAGgD6/+T/6v/t//r/CAD9//n/CwAKAAMAGQA2AEYAVgBWADsAOABfAGEANwBBAGcASQApAFAAYwA8ACcAKgAkAC0AOQAbAPz/DAAnACwAIAATACEALQAXAB4AQQAqAAQAFAAcAA4AJwA7ABQABQAiABoAAwALAAcA//8TABcACgALAAEA7//2/wEA9f/p/+X/2f/V/+b/9f/0/9n/qP+M/43/h/+B/43/hP9e/07/Y/9s/13/X/9n/07/Q/9g/2b/Y/+O/7D/ov+t/9T/yv+3/8j/wP+u/8n/x/+n/8T/5v/E/6v/tf+r/6H/rP+l/6b/zv/U/7X/v//L/7H/rv/A/7f/sv/N/93/0//U/9n/yP+4/8T/3v/p/+L/3//o/+v/6P/3/w8AEAD+/wAAFQAaAAsAAwAAAP//CgAOAAwAHAAaAPX/6v/z/9j/x//h/83/l/+t/8//oP+R/8n/zP+l/8L/6//V/8X/7v8NAAoAGAA3ADwALwAyADgAJAAXACwANAAkAC0APQAgAAIAEQAeABMAFwAZAAoAGAA8ADAAGAAzAEIAHgAVAC0AFwD7/yMAPQAVAAoAKwAeAAkAKQA0AAYA9f8OABIACwAWABYA///r/+v/AAANAPT/3P/t//n/6P/o//7/+v/l/+L/2P+9/7P/uP+p/5L/jf+O/33/Y/9c/3H/fv9y/3b/j/+D/2T/fv+5/8T/uf/Q/+b/5P/z/wcA9f/c/+X/6v/a/+H/CAAVAPv/8P8DAAsA8//b/+f/DAAbABAAEgAjACIAFQAUABEADwAiAC4AIQArAEoAQwAqAC4AOAAyAC4AKQAjADgATQA8ADUAUQBQAC4ALgBDAEMASQBgAFcAOQA/AEwARABbAIEAVQADAPX/CAACAAUAAgDU/7T/wf/C/73/4v/2/9j/xv/B/7//3/8KABgAKQA+ACwAEAAcADUARABVAFEAOQBBAFoAWQBVAFsAVgBEAD8ARwBPAFcAZQBwAG8AagBkAFoAVABaAGAAVwBLAEoAVwBoAGsAXQBXAFYAUQBSAFIASQBOAFUAUQBiAHQAVQAyAEoAYQBFADoAUwBKAC8ALwAqAAkA+/8jADwAAQC8/73/uP+M/5j/yP+m/2z/f/+S/3H/ef+f/43/b/94/3//hv+p/8v/1f/R/8f/uv/B/9b/4f/l/+n/5P/d/+n/AAAFAPX/8v////3/+P8HABIAEAASABkAHwAjACMAKgAvACEAGwAvADcALAA3AEcAMgAgADQAQgA9ADwAOQA0AD8AWABwAG4AVQBOAFcAWABjAHkAcwBiAHQAdQBQAFkAfQBmAEsAVQA2AAAACwApAAYA1P/Q/9X/0P/f//f/8f/W/87/4v/o/+L/9/8VABAADgAxAEcAMAAjADUANwAlACcAKwAWABIAKAAdAPb/8f8BAPj/8v8DAP7/4v/c/+n/9/8CAPn/3//V/9z/3f/M/7v/vv/S/9v/2f/R/7L/j/+b/7X/of+V/6//p/+R/7L/zP+j/4L/lv+k/5r/lv+a/6P/p/+V/5D/q/+u/5D/g/91/0b/Mf9T/1j/LP8j/zz/Mf8Q/xr/Nv8t/xL/F/83/0b/Qf9P/3H/ff95/4v/of+c/6L/xP/G/5//mv+9/8r/x//a//P/7P/X/9z/9P/3/+X/3//w//3/BQAMAAMA+P8DAAcA8//k/+P/5P/v//7//v/+/wQA8f/Z/+v/AQDu/+T/DAAtACAACAAMABsAGQAOAAsABAAAAB4AQgA3ACUAOgA/ABoADQAUAPX/1v/k/+n/3P/l/9n/rf+0/9v/yP+w/9z/8v/I/8n/+P/7//P/GwA6AC8AMQBRAGAAWABWAF4AXgBJAEAAXABsAFUAUgByAHIAVgBdAGsAVQBPAGwAbgBaAF4AYwBOAEYAVwBaAEoAQgBCAD0ANQA0ADQAIQAJAA8AHgATAA0AKAAwABIADQAdABEAAQAMABMACAAJABAACgAMABwAIQAXAAMA5P/H/73/tf+m/6P/p/+S/3L/dP+D/3X/Zf96/4j/d/96/5P/jv+A/5r/tP+1/8r/7f/m/87/1//l/9n/z//Y/+L/5v/l/9//5f/t/+X/4f/u/+n/1f/m//z/6v/f//X/9P/g//L/CgD2/+H/7v///wkAEwAWABgAFQAFAAUAHwAnAB0AMgBKAD0APABYAFEAMwA3AEEAMAAzAFUAXwBVAFoAWQBBADMANQAlAAkA//8CAPn/7f/v/+//6P/u/wMADgANABUAIwAuAEEAVABZAF8AdgCLAJkAqwC2ALYAyADZAMEAqgC1ALsAsQC7AMQAsACvAMoAyACyALMArACNAIsAnwCYAIwAnQCqAJwAkACLAIwAmQClAKMApACkAJUAjgCVAIYAcgCGAJwAgwBsAHoAdwBcAFwAaQBTADQAMgA5ADQAMAAwADEALgAWAPD/1P+6/5n/jf+X/4H/WP9U/1//Sf8//17/af9P/1D/cf+D/47/rP+8/7j/wv/b/+v/9v8EAAsACQAIAAgADAAQAA8ADAALAAEA+v8FABAABwAAAAAA7//k//P/7f/Q/9b/7//i/9H/3v/U/7z/2v/+/+r/4/8KAAUA1f/T/+T/zv/L//T/+f/T/9D/6P/m/9j/1//I/7H/s//I/9b/2P/R/8b/w//B/67/lf+F/2z/Qv8s/zL/NP8r/yL/Ev///v7+B/8F/wX/Ef8a/yL/Lf8y/zj/Sv9a/2H/bf93/3P/ev+T/5n/iP+B/4D/gf+R/6T/pf+n/7H/rv+e/5f/lP+T/6D/pv+b/53/qf+b/4r/nP+n/5H/l/++/8D/r//P//H/2f/H/+H/3//C/9f//P/u/9//AAAaABIACwAAAO3/8P8JABYAIgA6AEYARABIAEQAKwARAAIA+v/4/wAAEQAcABMAAgACAAcA/f8AAB4ALwAnADMAVABgAFkAaQCJAJEAhgCLAJ4AqACrALYAuQCqAKUAsACrAI4AgwCXAKkApQCeAKAAnACPAIsAkgCUAJIAmACgAJ4AlwCUAJQAnACoAKQAjQCHAKIAsgCfAIoAhQBzAGAAawB+AHMAZQBrAGQASQBAAEEAKwAWAB0AHAAIAAkAIAAaAPr/5f/H/4v/Z/90/3P/Vf9X/23/V/88/1H/V/8z/y7/RP85/zb/Zf+C/3f/iP+p/5//lP+z/8T/sP+z/9L/1//L/9f/6P/d/9f/6//1/+b/4//0//j/9f8EAA8A///z/wAADwAVAB4AIAATAA0AFgAjACwAMwA3AEIAUQBKADoARwBjAF4ATgBZAGIAVwBpAJMAlgB7AHQAfAB/AIkAkwCTAJsAoQCQAIcAkwCLAHEAZwBfAEYAMgA6AEgARgA9ADwAPwAyACUANwBJADwAPwBeAGQAXwCEAKYAlQCKAJ4AlgB8AIgAowCjAJYAjgB4AFgAWQB1AHcAYgBhAFkAMgAkAEMARgApAC0ANgAaABEAJAAWAP//BgAFAPf/BQATAAUAAQAAAOb/3v/h/8X/uv/e/93/sP+s/8L/tv+w/8H/s/+U/5H/lP+L/4//mf+U/4f/dv9e/0j/Mv8T/wr/HP8d/w3/EP8a/xD/Bv8T/yH/I/8l/y7/O/9V/2z/dP+B/53/rP+u/7T/sf+f/5//sf+3/7r/yv/E/6r/rv/J/9D/x//F/8X/x//R/+H/8P/v/+H/7P8MAAgA8P8BABsACQD9/xQAFwADABIAMwAwABwAGAAVABMAHwAjAA4ABAAWACIAIQAyAEIAKwAVACIALAAiACgANQAnAB8AKAAMAN7/1P/R/7v/sf+w/5j/jf+i/6L/i/+Q/5v/kv+U/6j/s//D/+P//f8MABsAIQAeACMAKgAhABUAGwApAC8AKAAfAB8AJQAkABkAEQAXACAAFAD7//3/GQAiAB0ALQA3ABUA9v8GABgADgAKABMAEgAIAP3/8//0//v/7v/j/+v/5P/R/9//+P/v/+n//f////f/DQAjABcABAD9/wgAIQAlABEADAD7/8n/uP/T/8n/q/+8/7v/i/+G/53/if+D/6f/oP+C/5z/tP+n/8r/BAD+//H/EgASAPT/DAAxABUA8/8JAB0ADAAFAA8ABADu//P/BgAIAAMACAAIAAAA/v8CAAkAFAAaABkAGgAWAAwAEQAkAC4AMgA4AC4AIQApADMALwAnABgABwANACAAKwAvAC8AJgAgAB0AEwAbADUAOAAxADoAMAAaACkANAAJAN7/1v/L/7//yP/C/7b/xP/F/63/tv/M/8D/u//S/9f/zf/f/wMAKgBQAFUARgBSAGcAZQBrAIYAiwB4AHAAcgBuAG4AcABuAG4AdwB5AHEAagBzAIEAgAB7AHsAegB4AHcAdgB4AH0AfAB4AHYAbwBmAG4AcgBmAG0AhQB/AHEAewByAE8ATQBsAG0AWQBWAFIARABLAFUAQgAxAEkAYABIACsALwAaANz/w//U/8D/lf+Z/6X/jf+G/47/cf9d/3X/c/9S/1r/bv9X/0//gv+f/4H/cv+Q/57/jP+R/7H/rv+a/6//xf+k/47/qf+u/5r/rv+//6D/n/++/6v/mP+8/73/jv+Y/7j/mv+K/6z/mf9s/4P/k/9o/2T/iv99/2f/fP90/1P/Z/+E/3P/bP9x/1f/U/99/4L/av93/3//av92/5D/iv+Q/6v/nf+A/3//bf9K/0z/Tf8w/yz/PP8z/z3/af9y/1T/TP9Q/1X/dP+R/5b/p/+//77/xv/t/wAA9v8BABYAEwAJAAoAEQAcABsADAALAB0AJgAiAC0AOQAvACUALQAuACcAPABYAEkAKgAzAE8AVABNAEkAPgA2ADUAPwBiAHcAUwA5AGAAcgBHAEIAcQBvAFEAZwB9AF0ASABfAG4AXgBWAGQAagBlAHEAfQBbAB8ACwAWAAwA/f/3/+P/1f/j/+3/6//0//T/3//f//P/4//Q//r/KAAjAC0AYwBwAE8AYACQAH0AWgCAAKMAggBxAJIAkwBzAHYAhQCCAIcAggBnAG8AhwByAGQAiACKAGMAawCEAG0AXwBvAGQAVQBgAGAAXABrAGoAWQBhAGgAVgBVAFwASgBBAEcAQgBFAE0ARgBHAEYAKgAhAD0AOwAlADoAPQAFAO3/9//H/4//ov/E/7H/kv+Z/6z/nP+A/4n/nP+L/3z/lv+h/5X/sP/U/9D/1v/y/+r/1P/r/wgA+v/w/wUACQD3//z/DwAPAAkADgAEAOj/6/8TACEACAAHACEAGQD8/wQAIAAWAPn//f8JAPv/8v8CAAUA8f/v//3/8P/g//D/AwD6//D/7//h/9b/5v/5//j/7f/g/93/6P/0//P/7//w//z/AgDm/7z/wf/X/77/rv/Q/8b/k/+k/9X/vP+a/73/0P+s/6n/x//B/7//8/8eABIADQAmACQACgAZADsAMQAhADIANwAjACEALAAnACsAQgBHADEAJQAlACUAKAAvADAALwAwADIANQA0ACkAIAAqADIAIAAWACQAFQD0/wUAIwAPAPr/EQAfAAkA//8NABgAFgALABcANgAxABoAIgAiABEAHgAoAAkA//8JAOX/w//O/7b/iv+p/8j/pP+i/8b/qP99/6D/wf+b/3v/k/+u/7n/2P8MACYAFAALAB4AEwDr/+7/DQAHAPb/BwAaAAsA/P8EABAABQDg/9X/9P8BAPH/+f8MAPL/0f/e//b/+f/y/97/y//Y/+z/7v/0//r/7f/h/+3/+P/x/+3//f8IAPv/7/8CABQADwAmAD0AEwD1/xwAMAAiADwAUAArAA8AFAAHAP7/BADr/9n/6v/g/9b/7v/i/8H/1v/j/77/wP/p/9v/wP/Z/+r/6f8NADUAPAA7ADAAHQAmAEkAVABGAEEARQBAADUANABGAGEAZwBWAEQAOgA2AD8ASgBLAEQANwAiABsAJgAiABQAIgAyABQA9f8AAAAA5//u/w0AEQAEAAYADAAFAPn/+f8CAAsAEAAPABUAKAA7ADMAGQATABEA+v/3/xYAHQAHAPT/3f/A/67/pv+h/5f/h/+C/4v/hv97/5H/qf+Y/4f/if+D/4//t//V/+//BgD8//D/CwAbAAQA/P8IAP3/+/8RABIACgASAA4ABAARABkACwALABsAGQAWABsAGgAiADcANQAxAEgAUQA9AEEAVQBOAEkATAA/AEcAYABMADMATQBPACQALABXAEQALgBPAFsASABPAFoAUQBNAFoAagBpAFoAWQBjAFUAOwA3AC0ADwAFAP//4P/h/wYAAADc/9z/6P/d/9H/3//y//L/8/8OACsALwAsADcAOgAyADMALwAYAAwAFwAdAA8AAAAMABoAAQDr////AADe/9z/+//+//H/9v/0/9//2f/i/+P/3//b/9//5f/Y/7//s/+w/6v/tf/K/8j/qf+a/6j/nv+B/5P/vf+y/5j/sP/G/7H/rf/C/6//iv+N/5z/mf+U/4n/bP9M/zv/Mf8k/xj/E/8Q/xH/Cv/3/vj+Hv8w/xv/Hf9B/0n/Sf94/57/jv+M/6n/qv+s/9n/7//R/8v/5//h/8j/1P/j/83/wv/c//j//f/1//X/BwAEAOX/6/8IAPf/4/8GABgA+P8CACgAHQATACYAFQD+/xwAMQAdAB0APABLAEYAQQBCAEcAPQAgACAAQgBPAEkATwBVAEUAKwArAD4AOgAjABoACgDr/+H/4v/Q/8T/zv/R/9D/2//a/9L/4f/k/9P/4v8BABAAHgAyAEkAZwBpAFEAXgCFAHsAYwB+AIoAXwBdAIUAdQBHAFUAbgBOADcAUQBGABQAIQBPADkAGgA0AEEAIwAeADAAKwAkADMAPQA6AD0ASABZAGUAagBzAHgAbgBvAHsAdgBuAHoAgABuAF4AYABfAFsAYgBhAE4ARABLAEEAHAAQAB8AAwDM/8//7v/T/6b/qv+0/57/nf+1/7L/pP+s/6j/lv+v/9z/3f/Y////HAAHAPX/DQArACsAIwAoACcAJwBBAFQAPAAmAC8AIQACABkAPQAxACcAKQAYABIAFAAAAAUAIAAEANb/8v8MAOD/0f/+/wEA3v/j/wEAAQDm/+v/EwASAPT/CQAwACIACQAfADIAJQAnAD4AQwAyACAAMQBUAEwANQBIAD4A8f/H/+L/5f/F/8T/1f++/6H/sP/I/7X/lv+i/7v/qf+b/8b/7P/h/+L/CAAMAOX/4f8PACIACQD//woAAgD1////EwAeABsAEQAQABkAFQAFAAkAGAATABEAKQAxABIAAAALAAMA5f/p/wEA8//b/93/1f/E/9H/2//R/9f/3v/M/8f/3P/l/+T/5P/Q/8T/1f/U/9j/FAAzAAUA6f/5/+n/1v/+/xMA2P+j/6n/q/+X/5P/l/+J/3P/Yv9a/2n/hP+P/4H/Zv9Z/2v/iP+S/6r/1P/F/43/kv+2/7H/tP/Q/8r/sv+4/7//wP/k/woA/f/n//f/EAAXABMAFAAbABYAEQAkADwASQBNADwAJQAbAAgA8/8DACIAIQAdACsAIwAGAP//AgADAAwADwADAPH/5/8DACIABwDx/xwAKgD4//b/MgA6ABwAJgAtAAQA3//d/+v/7P/d/9n/0/+5/7n/2f/Q/6r/uf/b/8r/wv/n/+7/1f/g//b/9v8AAAYA5P/L/93/3v/K/9r/8f/X/7v/y//a/9L/1v/k/9v/y//R/97/5/8BACMAFQDk/9v/9v/+/wwAKQAkAA0ADgANAP3/EgA4AC0ADQABAP7/DAAlACcAMABFAC0AAwANACQAFQAKABwAJQAjACwAMwAxAC4ALQAxACMA+//m/+//6v/a/9j/1//L/8f/1//w////AAD7//D/5f/r/wwAMAA/AEgAXQBwAGoAWQBoAIQAZgAxADsAXwBXAEsAaQCAAGoAWABnAGkAUwBaAHIAYgA9AD8AWABrAIAAigBsAEgAOgAyADwATwBHAEIAUQBMADsAPwBCADcANwA5ADEAOgBCADQAPwBfAFEALQAnACIAFAAZACsAPgBWAE4AGgD8/wsAAgDg/+P/8f/W/7z/wf+4/6X/s//D/6//oP+u/7z/zP/r//j/6//k/+z/AQAbACcALwA8ACYA+f/z/wgACgARACkAIwAHAAUACwANACMANQAmABcAIQApACwAOwBAADAALgA2ACkAHQAvADQAGwAPAA4ACQAXACYAGQATABoACADz/wEADAAGABQAHAAEAP7/CQAHAAIA+v/z/wUAEQD+/wAAHAAQAOn/3//b/8T/vP+6/6n/mf+L/3//f/9x/1//cf+C/3D/bP+K/5r/lP+d/7P/v//I/83/zv/Y/97/0f/C/7//vv+z/63/s/+1/7z/3f/u/83/uf/T/97/zf/V/+D/yf++/9j/4P/N/8v/0v/J/8r/3v/i/83/vv/C/8r/zv/R/9v/6//1/+3/4v/W/8X/x//n//n/9P/x/+f/4f/s/+z/3v/2/xUA+v/h//T/4v+u/6//uP+T/4r/rf+p/4X/gP+H/3j/c/+D/5L/ov+1/7r/wv/d/+7/5P/o/wsAHAAPAAcABAD1/+3/8//y//L/+P/5/+z/2f/a//v/DgD1/+L/8P/z/+v//P8NAAYACwAYAAwA/f/+//n//v8hADcAJAAWACYAJAADAP//DwD6/+f/AQAVAAkABAAFAPb/7v/y//T/AgATAA8AEQAUAPT/8v8pACsA/f8FABMA5v/J/9f/zf/J//D/8P+8/67/uf+q/6j/xP/N/8X/zv/j//H//v8GAP//+P/+/w8AKAA3AC0AKAAyACcAEgAcACgAJgA+AFUAPgA7AGUAYQA3AEoAYgA8ACkARABCAC8APQBIADcANgBEADQAFgAZADEAPAA/AD8AMwAgAB4AJQAnADIAPQAxAC4AOAAmABMAHwAiABUAIwAwACIAJwA8ACQA/P/6/+7/w/+6/9r/3v/B/7X/u/+8/77/yP/M/8v/0v/X/9T/3v/8/yEANwA1ADcAPQAoAA8AJQBJAFcAZABkAD4AKgA9ADAAGwA/AFkASQBVAGoAVgBVAHAAXgA4ADsAQQA5AFgAgwBxAEEAKgAoACoAMAA9AD0AHwAIABkAJgANAPr/BQAGAPP/7v/x//D/BAAiABsABgAGAPz/7/8PACgACwACAB0A+/+7/8X/0/+h/5n/yf/E/6T/rf+r/4P/bv9+/5X/qf+6/8P/yP/J/8v/4f/5//z/+//6//b/AQAQAAUA9/8BAAwA9f/V/9v/8f/o/9r/4f/a/7r/tP/B/7n/wv/y//3/2//X/+b/1//L/9n/1f+6/7n/yP/G/87/6v/o/9H/4f/4/+H/y//l/wIA///6/wIAAgD1//b/EwAsABsABgAWABQA8v/2/wwA9f/c/9r/tf+D/4r/m/99/2H/XP9C/yr/N/9D/zz/Qf9V/1j/TP9U/3D/g/+T/7L/xf+6/7D/vv/b/+3/7P/n/+T/4v/t/wUADwAFAAkAJAA3ADwAQQBDAEEANgAoACsAMgAsAC8AOAAuACQAIQAVABIAJAAlABIADwAMAAIAFAAlAAgA/v8hACMACQAUACkAGAAMAC0AQwApABgALAAxACoARgBqAFcAMwAsABsA8//m/+z/3//P/8T/wP/Q/+H/2v/X/+L/3f/Q/9////8OABAAEwAWABQABgD5/wYAHwAhABQAFgAiACIAHwAlAB4ADwAdADgANQAtADcANwAsADAAPQBDAEMAOwA1ADwAQQA4ADoASwBHAC8AKQA5AEgASwBBADEAJgAiAB8AGgAeABwADwAfAEIANQATACYAQgAwACUANAAlABAAKQA2ABcA/P/h/7r/uP/O/8f/u//D/7v/ov+l/7L/q/+y/83/y/+7/9L/8v/4/wUAIwAjABIAGwAfAAoADAAeABQAFwAwACUACwATAB4AEwAHAAYADgAdABoAAwD7//P/3f/r/xkALAA6AEwANwAXABwAGQD2//P/DQAHAP//JABAACwAHwAsAB8A+v/6/xcAGAATADsAXwBNADQAQQBMAD4ANQA7AD0AOgA+AEYAPAAYAPD/3//c/9H/yv/G/7P/nP+a/5f/h/+K/53/o/+v/7n/pP+U/7b/zP/C/97/AADc/8D/5f/w/8j/vf/N/7//sP/L/+z/9P/4/wgADgD4/+j//f8NAAoAHQAvAB0AFwA5AEoAPwBBAEEALQAxAE4AUwBIAEkAPwAtADgARwAyACAALQArABEAHgBFAEYAPgBHADYAHgAmACoAGwAgACUACwAFAB8AEwDe/7f/n/+K/3//e/+A/37/ZP9b/2j/W/9N/2v/gf9w/4H/tP+3/6f/yf/r/93/0f/f/+n/6v/v//z/DQASAP//4//b/+P/4v/j//z/FQAIAPT/AAACAOH/3v8FAAgA6P/u/wIA9f/2/xYAGgAEAAEABQAHABUAGgAOABQAFQD1//D/DQD//+D/8//6/9X/1/8EAAoA9P/4//n/4v/a/+n/7//n/9r/y/+y/5j/jP+J/4j/kv+T/37/dP+D/4r/gf98/3H/W/9g/37/jf+U/6f/uv/E/9b/7//z/9b/wf/N/9T/zP/e//7/+//n//L////v//L/HgAyABcAAAAGABAAHQA/AFYAQgArAC0ANABMAHEAbwBYAF8AYgBIAE8AcABrAGsAlgCPAFMATQBxAG0AWgBfAFUALAAiAEwAbwBbADQALwA3ACkAKAA7ADAAFAARAAAA0v+//8D/r/+x/8n/tv+U/6n/wv+u/6T/qv+Z/53/1v/1/93/4/8PAB4AGwAxAD0AJAAjAFsAgwBsAFMAVQBFAC4AQABWAEsASwBpAGwATwBFAEoAQgBEAFcAUwArABoAPgBHACIAJAA/ACoAHwBTAFYADQALAEMAMQAdAFQAVQAKAAwASwBBABkAKgA2ABIAAwAbACsAKwAsAC0AKwAaAPb/4//w/+3/z//J/9z/zv+2/8X/0P+2/6j/t/+0/6H/qv/D/8z/z//n/wwAIgAsAEgAYgBIACUAKwAjAPj//v8uAC8AHQA1ADQA/v/z/xIABwDq//H/8P/O/8r/8P8AAPP///8YAAcA3//a/+j/3P/X/+7/7//c/+3/CQAJAA8AIAAQAPP/+f8BAO3/7P8KAB0AFgAGAP///v/5//X//P/8/+f/2P/n//3/7//D/6X/m/+C/2P/c/+I/2v/Zv+Y/5b/Zf9r/4L/Zf9c/4T/i/+C/6z/2v/w/wgABwDy////DQD4//n/FQADAOj/CgAsACAAIQAwACAACgAOABgAJQA+AEgAPQBBAE8ASwBGAE0ARAAiAA4AFwAtAEcAWgBZAEMAJAAKABAAMwBAADAAIwAPAPP/CAA9AD4AIgAlABoA8P///zgAOAAfACsAJAD5//P/AwDu/97/6v/X/7T/wf/U/77/vP/a/8z/qP/B/9//v/+r/8z/0v/C/+r/GQAVAB8ASABJACoAKgA2ADQAPABFAD4ANwArABwAKAA2ACAAEgAoAC8AFQANABwAHgAXAB0AKwAsABMACgAiACAA+f/x/wIA+f/8/x8AHwD//wgAHwAVABEAHQAQAPr//f8MABEAEQARAA4ACwAKAAIA9f/2/w4AHQATABIAFQDt/8X/2f/f/7L/pP+5/6D/gv+n/8X/pf+Y/7L/pv+G/5X/u//A/77/3P/z/+X/5P8JAB8ABwD3/w0AHAAUABIAHgAkABkACAAEAAUA9//z/xEAKAAbABYAKwAxACUAJAAjABcAFAAYABYAFgAbABcAEQAeAC8ALQAkACQAIwAiACwAJQAAAOz/BgAUAAAA//8VAA4A+P/+/w8ABQD1//7/CAD4/+j/9v8CAPb/6v/i/8j/sP+v/6n/m/+g/6P/lf+j/8f/yv+8/8L/yf/L/+L//f8IABwAMAAlAA8ABAD//wkAJwA/ADwAIwAVACYAPgA/ADMAKgAXAA0AJgA9AEEARgA5ABwAIgA3ACkAIgA4ADAAGgApAC0AEQAdADMACwDz/x0ALgAYACoAOQD5/77/2/8JAAgA/////+3/2v/t/wcA8P/J/8j/y/+y/6z/yf/G/5L/cf9s/0z/Lf9O/3D/Q/8O/yD/Mv8Z/yr/YP9W/zD/QP9W/1X/dv+m/6b/n/+q/5T/hP+r/7//r//A/9T/vP/K/wgADgDy/wYADADm/wIATwBVAD8AYAByAFcAZwCYAJ4AnwC+AM0A3AAWATgBHAEQASMBGgETATIBTAFZAXYBhgFyAWkBcgFwAXYBhgGBAXABagFqAX0BkAF8AVsBWAFLASoBOgFUAR4B2ADOAMcAqwCuAL8AtACtAL4AwwC6AKkAhQB0AJIAqQCZAJgAuADHAMAA0gDkAMAAkwChALoApwCcALEApQB/AIQAkABoAEgAUgBMAC0AIAAbAAwADQAUAAIA6v/c/7j/jf+U/7H/ov96/3f/eP9N/y3/Pv83/wL/5/7v/uL+1P7l/uT+v/6l/pz+k/6W/pb+gv5w/mr+X/5X/lT+Pv4o/jL+L/4C/uD90v25/a/9u/2Z/VH9Pv1c/WH9V/1m/XH9Xf1U/Wv9f/2A/YH9j/2Z/Z/9tf3c/e794v3p/Q3+Hf4Z/jH+Sv4s/hT+O/5g/ln+Yv6G/o7+kP65/tX+xP7B/uP+9/71/vn+/v76/gv/Of9b/1f/Vf9z/5P/k/+N/5v/rf+1/7//y//N/8r/4f8MABkACQARACkALgBDAIUAqgCQAIAAjwCXAK8A0QDHAKUAqAC6ALwAzgDoAOMA3wDvAPIA7QABAR0BNgFUAWYBZAF2AaoB2wHxAfYB9AH6AQQCBAIHAhQCEwIHAggCEAIRAh8COgI6Ah4CFwIrAi0CHAIRAgIC6wHuAQ0CFAL9AewB4AHPAdwB+gHpAbIBlwGTAYABdQGAAW4BOQEpAUEBNQECAfgADgH3AMsAyQDIAKkArADSAL4AiACJAJ4AgABdAF8AYQBQADYAFAAEABUADADT/7H/tf+p/5f/q/+8/5//hf+L/47/iv+b/7D/rP+W/4//qP/E/7r/lP+K/53/mv+H/4r/l/+Q/4n/if94/1z/Yf+G/5b/gv93/43/nf+N/4T/kP+N/4P/j/+K/2D/V/+B/4//dv91/4H/cv9r/4f/mf+M/4v/mP+W/5P/rP/B/7X/sf/O/9j/vv/C/+3/9v/V/8b/z//L/8L/wP+0/6P/mP+I/3j/ev+C/37/dP9t/17/UP9P/17/cf94/3L/ev+N/47/lv/M//v/7v/p/xMAFgDl/+n/HAAfAAsAJgA+AC0AMgBWAGAAUwBSAE0AQAA+AEEATABlAGQAQABDAGsAZABEAE8AVwAzADYAZABPAAoACwA5ACwABgATADUAMwAqADEAMwAwAEAAUgBEACsAMQBAADAAIQA1AEQAKQANABQAHQASAAMA8f/K/6D/mv+x/8H/u/+w/6j/kP97/5X/x//G/5j/gf+E/4H/jv+6/87/uv+x/7f/qf+f/7//4P/R/7v/xv/L/7n/vf/g/+j/0//X/+f/0//A/9v/+f/2//n/EwAgABgACgD3//f/FQAoABkADwASAAwAEAAoADIAMwBEAEEAIQApAGAAeABqAHAAgQCDAIsAnACiALAAygDOAL8AwQDJAMcAzQDLAKkAhQCAAHsAYwBWAFEAMgAHAPn/BwANAP7/6P/U/8n/y//S/8z/v/+8/7n/o/+T/5T/gv9Y/0f/Sf83/yf/Mv8o//j+5v4C/xH/Af/p/s7+yv7x/hT/Bv/r/uP+0/61/qL+l/6A/m7+bv5x/mP+T/5K/lP+UP5E/kL+O/4d/hD+Kf4z/h7+Jv5H/jz+Ev4P/ij+K/4j/in+Lv4m/iT+LP4v/if+Hv4h/iT+DP7u/fT9Ef4T/gL+DP4l/iD+Ef4o/lb+Y/5S/kz+Vv5m/or+w/7u/gT/Hv89/1L/ZP93/4X/mP+1/8n/2P8BADkAVABTAFEAVgBmAIYAqQDDANMA1wDSANkA8wATASsBOAE9AVcBigGpAaIBnwGyAb8BvQG5AbwB2AEIAiQCJAIwAkgCVgJkAmsCWgJdApMCuQKwAr0C5gLmAswCzgLVAs0C4gIDA/MCzQK8ArECpwLAAuYC7QLdAtICxAKuAqECqQLAAskCvQK8AtUC4QLgAv0CIgMPA9kCwgLEAsoC3ALvAuYC0wLJArgCmQJ+AmUCTwJJAkACIQIPAhsCHQINAg0CCALcAb4B0gHWAacBiAGIAWUBMAEwATsBEQHqAOwA0ACNAHkAjQBuADIAHwAbAP//6v/j/8T/mP+B/3P/Yf9W/0r/M/8g/xL//v7f/rX+gf5k/mr+Yv46/iD+Iv4b/g3+E/4b/hD+CP4N/gv++P3q/e399P38/RD+L/48/jH+Jf4Z/hD+LP5g/mT+N/4l/ir+Ff4J/iz+Rf4+/kr+Xv5J/jj+V/50/nH+dv6L/pr+sf7O/tD+yP7a/uj+2/7d/vj+AP/1/vv+Av/v/t7+7P4G/xX/IP8u/zj/P/9I/0z/RP82/zT/Qv9Y/3D/kP+1/8j/sv+H/3T/c/9l/1b/X/9c/z//Pv9m/2//Sv86/0//Xv9r/43/qP+t/73/3//8/xAALABMAGcAgACTAJgAkgCEAHUAbwB4AIkAkACGAHMAYgBZAFkAYABmAGcAbAB0AHYAdgBzAGYAZACMALoAuwCpAK0ArwCcAJQAmgCBAFkAWAB2AIcAkACeAJsAfgBjAFgASwA+AEMAUgBXAFkAYwBlAFMAOQAlAB8ALwBBADQAHQAdAA0A1P+v/67/jv9d/2f/gP9a/y//P/9E/yH/Jv9P/1L/UP+G/77/u/+p/67/s/+2/8H/vv+n/5f/kf+H/3n/c/91/33/g/91/1z/Vv9s/4j/nv+u/6//n/+U/5f/kP96/37/l/+L/1//VP9o/2D/Q/8u/wP/zP7R/gT/FP8I/xL/Ff///gX/LP83/z//ef+1/7b/n/+P/3P/Yf94/4r/cP9c/2X/ZP9a/2X/av9K/zD/NP8r/xz/Mv9N/zj/HP8l/y//Lf9C/1v/VP9Y/43/yP/h//D/+f/w/+7//P/5/+X/8f8cADgANQAeAPr/3v/j/wQAKwBUAHsAjgCLAIkAkQCaAKQAvADRAM0AxQDUANoAvACfAJYAdAAvAPz/5P/P/9f/DQBCAFkAcwCXAKgAtgDaAP4ADwEXARYBBQH2AOwA3QDRAMgAowBdACUACADw/+H/4f/W/8L/0/8HACoAPABkAJMAmwCPAJgAqACvAMYA6QDsAMwAugC6ALIAsgDNANoAuQCKAG8AaAB/ALgA6wDwANIAsQCfAJoAkwCBAHUAfQCGAIMAfABlADEAAQD6//z/4f/Q//b/MQBWAHIAeQBHAPz/6f8JACEAOwBuAIgAaQBGAEMAQQA2AD4ATQBQAFsAdwCGAHUAWAA/AC4AIQAGANv/vP+y/6j/lf95/0b/B//s/v3+A//u/un+//4Q/xn/LP84/yz/L/9Y/4T/oP/M/wIAEwD8/+f/3f/R/9n//f8XABgAGgAhABgABgAAAAYAEQAdAB8AGgAiADQAPwBDAEMAMQAdACgARgBKADkAMwAkAPP/xf+3/6//rv/R//v/9//g//P/JQBIAGAAdABpAEoAQwBSAE8AQQBHAFUAWwBiAHAAcgBjAEsAJQD7/+D/2P/f//v/IAAyADMANAAiAPv/7f8OACsALAAsAC4AIwAsAF4AewBWACYAHAAiACwAUAB5AH8AegCKAJIAegBhAGMAZgBgAF0AXQBVAFAAVgBcAF0AZAByAIcAoQCsAJEAWAAGAJX/MP8c/13/wP8tAJIAwACyAKkAwwDaAPEAMAF8AZUBfwFVAQcBlAAwAOT/i/8v/wP/Cv8V/xf/Df/t/sL+rv6+/uH+Gf9q/8r/KgB1AJAAfgBZACcA5v+0/6n/r/+1/83/6f/X/6L/ef9c/z7/Uf+r/w0APQBSAFsASQA2AEcAVgA2AAkAAAAEAPH/w/96/xT/t/6O/o3+nP64/uf+H/9V/3L/aP9J/zT/M/9I/3//yP/+/ygAYACPAJkAlACRAHMARABCAG4AhgB7AGoATQAdAAcAGAARAN7/tf+0/7r/uf+z/5D/SP///sz+nf5s/lD+Uv5n/n3+g/52/m/+hv60/vb+Rv+K/7L/2f8NADEAQABaAHUAawBVAFsAZQBSAEAARAA9ACoAMQA/ACQA+f/6/yAARgBtAJAAjQBkADgACgDL/5X/jf+w/9//+v/u/8f/q/+s/7r/xP+9/6T/oP/q/3kADgF7AZ4BQgFoAG7/qv41/if+l/5M/+f/TwCQAJcAdAB6ANcAVQHAAQ4CKwIEArQBUAGxAMD/sv7T/Un9Gv0o/Tn9Kf0C/d/83vwb/Zj9Qv4U//z/ywBjAdUBKAJGAjoCKgINAsYBdwFHASIB8QDEAIQA+f87/7D+i/66/iz/vf8lAEgAWAB2AIsAigCGAIIAdgBoAFsAPAACAK7/Qf/B/kD+0/2S/Zz96f1O/rX+Gf9j/4j/uv8iAKoAMgG1ARUCJwINAgIC/gHRAYgBPQHqAJcAdACEAJsArADHANQAsABrAC0A/P/X/8j/yf/H/8H/uf+k/3X/Lv/X/o3+aP5l/nX+o/7r/in/Uv98/6v/1P8LAGUAugDeAOMA2QCnAFMAEADu/87/uf/L//j/KwB2ANMACgEEAewA6AD0APcAywBGAGv/gP7X/Zn9x/1B/t7+h/8pAK8AFwF+AfIBbgL2AncDsAN1A+QCJgJGAVwAhf+t/rj92fxi/Ff8hfzI/Pf89fz3/GD9QP5R/1gAPQHsAV0CnAKeAlACzQFZASEBGgERAc4APACC/9X+W/4o/jb+bP7B/kv/AACnAB8BcwGwAeMBMQKSAq0CRgKIAb4AEACT/0P/4v5C/pj9N/0n/UH9cP2p/eD9LP6m/jL/n//o/ykAcgDDABMBTwFyAZIBvwH3ASsCPQIVAskBjQF2AXgBiQGaAYkBWgE4ASkB/wCrAE4A8/+f/2r/Uf8b/63+N/7k/bH9ov3A/e79//3w/dD9pP2J/bb9Pv71/p3/BAAPAM//cP8g//z+Gf95/xEA1wC5AY8CPgPCA/kDqAOyAi4BRP9M/dP7Svuz+9v8hf5bAAMCYQN0BBwFNQXoBHwEGwTQA5UDNwNzAkIBxf8M/hv8Hvpq+GH3Svci+Ib58/oV/O/8xP3h/loABwK7A1gFvQa9BywI1geZBq0EpAL8AOX/VP8X/9z+dP75/Yr9Hv3B/Lj8R/17/i0A9wFKA8oDnQMkA54CFgJ/AdIAJACn/3P/WP/9/i3+Af3a+yL7C/uB+1D8Qv0s/gD/sf8fADIAGAAxAL8AzQEpA2QEAgXZBB8EGwMHAiYBuQDUAGEBLALQAtsCKQIMAQIAZ/9W/63/GwBlAH0AbwA1AL//BP8f/kb9s/yF/LP8E/1v/az92/0d/nv+7v5m/8r/AAAVADAAZwC6ACABegGHASEBbwDG/4P/5f/nABYCzAKRAk8BTf8Y/WD7svpG+/38fP89ArQEewZaB04HfgY+BQMEQwMtA4UDsgMAA/YAov22+TL25fMo8+LzmPWw97z5k/sq/YP+w/8dAbECgQRyBkYIpglOCiAKEQkjB4YErQEq/4D94PwO/XX9kv08/bz8hPzc/Lv95P4VAC4BJgLzAm4DXwO7Ar0BwAADAJT/T//2/mH+mP20/LX7nPqY+f/4JPkv+vP77P2H/4UACQFbAa8BDwJhApACrALPAvYC8AKMAs0B9wBtAHMABQHmAc4CjQMTBFcEPASnA6cCiwGrADQABgC+/+/+f/24+w/61Pgg+N739Pdl+FT50vqu/IX+9//AANcAcQDz/8n/RwCGAUQD3QSVBfQEEgOdAIz+rP0+/u7/DQLgA+sE+gQTBGQCQAAd/nr8wvsj/G/9Jf+qAIABegHSABsA+//ZAKICygSABgQHCAbJA+QADP7K+136uPmh+c/5//kB+sX5YvkH+fH4XPl/+nX8MP9gAngF0gf0CM4Iwwd0BmkFzQR2BBIEbgOGAncBUAAJ/5j9IvwC+6r6YfsT/UX/PwFQAgcCYgDg/W37Hvq7+lz9PgEDBVEHbweUBbEC5v8D/kr9jP1n/nf/UAB/AJ7/kf26+vT3RPZk9m74yft1/2gC8wPyA80CVwGAAPgA3QKkBUwI2gnPCV4INQYWBHACVAGhAD8ALwBeAHkA/v+M/j78ufne90j3+vdt+fb6KPzy/Hr95v1J/rb+TP8lACUB7gESAmoBRgBN/xb/yP8LAUoCCQMXA4ACdAE4ADb/7/7L/8UBSQRaBgEHwwXLAtj+8foj+Ez34vi9/AICTQclC5QMiQvMCJ0FJwMMAjYC9AJAAzUCbf87+4n2d/Lb7wXvyu/C8YD0k/d6+rH86v1V/qr+0f9XAhYGNgqdDWcPNw85Df8JTQbwAo0AZf9E/5b/vP9Y/27+Rf0t/GL7G/ug+zL9yv/QAigFlAVYA8X+QfnU9FTzofUv+zcCWgiRC/gKFgeUAXb8Tfmu+Cb6jvyU/jL/9f0U+1n35/P38YPy/fUU/KQD7wocEO0RVxCYDLgIkgbvBjcJ3wtGDX4MiQkZBRwAafup91r1v/S99b732/ku+zP7+PkU+HP2AfZb93/6qv6NAtIEzATiAlcAnf55/qr/MQELAssBugBw/1z+lf0P/ej8gf02//kBKAXCB+QIQAg9BskD9QGJAcACHwWLB50IMwcEA+v8qvY08uLw6fJw9wD9JgLZBaIHlAcxBkcEuAIrAs8CRgTFBWMGZAVvArn9EPjA8jbveO6g8Mf0ZvkT/Rf/nv9l/0j/6f+XAU8EtwceC5YNSw7iDKoJeQVIAeP9wPsH+5b7+Pxx/j3/8v64/Sj82fr/+XX5Jvlt+QL7av5lA8UI+wzbDiMOdQvXBzcEHgG1/uL8Xvve+TL4aPa/9IDz1PLF8m/zHPUX+FT8JgFuBScI/gh1CIkHGAeDB6cIGQpaC+cLSwtQCTgGxQLq/1H+DP6o/oH/GQAzALj/sf5O/fX7IPsQ+577Ufy0/JX8D/xP+3P6pPlB+cz5iPsO/loAaQH7ANX/Of/3/9kB2wP4BOAEDQRAA/MCIANvA4UDLQNlAmkBsQDBALIB2ALlAsEAlfwn+A72F/gM/q0FBwwfD9YOiAzeCccHOwayBMUCewAj/gL8G/or+Nf18/LL7zftVuz87RXygfea/B4A1wGZAosDWAXZB2AKTgxnDbUNOw3PC0QJvQXDASD+h/tY+pL64Puv/Uj/EwDi/yf/xv6S/74BpAQPB9YHXQbKAtn9pPhr9GDyWPNe93D9rQMBCAgJpgYNAiP9qvmU+ML5P/yy/uP/IP9p/HD4bPTD8aDxk/RN+p4BxwgLDlUQoA/7DBAKZQi2CLIKMg3QDn0O4gtiB+EBefwr+LD1RvWY9sj4tPpi+3L6SPjq9Y70FPWt98X7MACOA8wEigNZAIj8ovnA+Bb67PwMAFACEgNHAm8AWv7y/PX8pv6gAfcEmgfNCGkIxQZwBPkB9/8D/4v/dQHhA3EF+wRLAlf+uvrW+Dj5k/sf//0CVwZiCH4IjQYpA33/svxe+1X7+fuk/N78UPy4+hr4BPWW8gLy1vOY9wv86/+ZAicEAAV5BcAFCQajBsoHWAmtCggL+gmdB24EAAHZ/YL7h/o8+1T92/+cAeMB4QB1/4T+dP43/6AAiwKUBMEFrwR1AKX5h/Ig7pruB/Ri/LAEZApGDIgKXwZ3AX79pvtA/JD+JgGIAtcBD//X+jn2c/LX8Hbylvcz/ysHFQ1wD04OIAvWB+oF6gWLB/IJ/QuSDO8KDQewASD8jfeo9KDzZPTA9iv6kf2C//L+E/xz+Df2yfYF+mv+KgIqBFsEUwOsAcf/+P24/JL8w/35/2YCJgSsBOQDHQLo//n9C/2c/aL/dQIIBWUGDwYdBAsBg/1G+in48vcG+hr+LwPvBz4LoAxADLoKyAgSBwYGrwWeBf4E+QIz/w/6h/S573Ds/epc617tsvDE9L74yPt3/RX+gP6w/y0CzgXTCUsNbw/PD2kOlwsGCJEE/AG1AKkAWQEbAmsCHAJUAWoAvf+e/0kAyQHjA/4FSAcCB+IETQE5/cj5z/eI95H4KPp2+9T7/Pon+Q33qPXL9bP33/pI/uQAGwLzAd4Adf87/pn93v0r/1ABzAP0BUMHlwcrB28G0AWfBQoGGgeYCAsK1Qp7Ct8IVAZqA7oAs/6C/Qr93fxe/Ar71/he9pX0OvRW9T73DvlD+uj6Xvvn+4D8Fv3D/c/+XAAeAnsD+AOaA9UCHgKQAf8AYgAdAMQAfwKqBBwG9wVaBF0CWwEEAvQD+gXIBpQFXwLi/VT5DPYT9cT2n/qD/zAEtQedCdIJeQj6BRQDvACu//n/2QAdAdL/uvxX+Jnzj+8v7TDtwu9D9Ez5Qv00/1z/6P4b/4YA4QKNBR4IdQpcDDQNMwwKCXcEDQBh/Rz9tv70ALUCbQMnAzQC8gDD/xr/Xf+qALgC4wR3BuUG5AV2A/b/GvzT+PD2tvav9+74kfk4+Rv40/YI9jX2k/cR+j79ZQDKAgkEQgTuA4IDJQPEAl0CMQKYAqMD7ATKBdUFPAWfBJUEPwU/BhIHZQcoB2AG/wT9AokAJP5k/Jn7lfvP+8P7Qft1+rH5Nfke+XD5J/o0+2n8f/0u/lf+Dv6X/UT9Xf0L/kr/5gCCAroDUQRDBMgDKgOrAnACggLZAlkD1AMVBPEDZgOaAtgBbwGOASUCzQLhAsQBR//2+wD5tffW+CX8hgCXBF4HmgikCAQIGwcbBh8FPgR7A6kCcAF5/678Xfkl9rnzmPLo8mH0cfZt+Nz5pvoe+8z7HP0j/5kBBAT1BS8Hpwd4B8sGywWiBH0DjwIQAigCzAKlAysE8QP1Ar8BEQFnAZwCBQTjBOEELQQsAxQC1ABQ/6X9NvxU++76hvqT+fD3CfaR9Bb0sfQY9uH3ufl1+/j8Lv4W/9D/mwCvAR8DzQR5BtEHkgibCAsIPAekBpMGAAeVB+oHzQdEB2kGMAV2A0IB+v5E/Zb8z/w7/QX9zvvp+RH45faQ9uD2kfeM+NP5Tfu0/LD9HP4m/iz+hf5T/38AzAHsAo0DaANsAt8AVf9//tP+UgCHAroENgaRBtAFZQQDA1QCpAK8A/cEjwX1BPECq/+V+2X3B/Rl8hDz6fUb+nf+AwJYBJ0FPgaeBgQHqwe4CBEKLgs2C3IJ0QUPAWP83fj09nX20/Z89wf4LvjW9yT3jva69ir44PpL/ocBzAO+BH4EfANEAlMBBAF4AYwC1wPNBPkEMwS5AhwBAADe/8cAYAIJBC4FigU/BaQECgSTAzwDBAPxAu8CsgK8Abr/2fzP+YH3dvaD9v72Ovf29mP25fW/9Qv22/ZV+Jr6hv2dADQD2ASNBcEF+wWPBn8Hnwi5CacKRQtpC+4K0Ak5CHwG+ATyA28DLQO6AqYBxf9W/eb6A/nq93H3PPcH9832rva69uD2F/eK95H4ZPrO/Cz/0QB/AYwBlAH6AaQCLwNbA0QDOQNjA4wDWAOlAsMBRgGPAYsCygPlBMYFhwYbBxAHxQXyAhr/dPtC+QT5Hfo4+zX77vlQ+LP37fjI+zz/NwJFBKgF2QbsB3UI9AdzBqoEgQNTA5sDWQPfAV7/tfy/+rP5MPnK+JD4Avl2+pj8df4x/7z+8P3s/S//NgHjAlwDowJ9AcUAywA4AXcBQgHPAJAAwQA7AZ4BsAGTAacBNAIuAzoE9gQ1BQcFkwTsAwoD8AHFAMn/FP90/oX9/vsE+in4Dvf29pP3RfiR+Hf4YvjG+Mf5JvuA/KP9qv7V/0wB+gKkBBIGMgcQCMIIVAnKCR8KRgolCpwJmAgpB4oFBATMAuoBOAF/AJD/W/7x/Hv7MPo6+av4c/hu+Hz4lfjF+Bz5m/k0+tj6hPtE/Cb9Jf4p/xEAxgBHAakBFAKvAoUDegRIBaYFdAXcBD4E9gMZBGgEggQnBGkDkwLsAYUBPwH3AKwAgACEAJMATABM/2398vp/+M32XfYz99H4c/pz+5v7QfsO+5j7FP1J/8sBNgROBuYH0wj3CGsIjgfeBp8GngZOBjIFPgPlAMf+Rf1V/LD7JfvC+q365Poj+xv7wfpq+pv6nPs8/eP+9/84AN//Z/86/33/FQDMAHkBCgJ3ArYCvAKVAmYCYwKqAiwDrAPmA74DUAPkArICvALMAqQCJQJlAYwArf+1/o79S/wx+4r6afqP+pX6Pfqo+UL5dPlS+pP7xvye/R/+gf7//rL/lACbAcMCBAQ8BS8GqAaiBlEGBwYCBkAGjAacBkIGfQVqBDMD+QHOAMP/3/4l/oL93PwY/DL7SvqQ+TX5Svm3+Uz63fpT+7P7E/yE/BT9yP2k/qH/pAB8AfcBBQLHAYkBiwHbAUwCmQKcAnACVQKAAukCTQNiAwoDcQLoAbABzAEIAhsC2QFDAXUAj/+l/sL99/xb/AP86fvx+/P73Pu8+7/7EvzC/Lj9wv6u/2MA5ABIAaYBFAKcAkMDAAS4BEEFbQUhBWoEegORAtsBXgH0AHIAw//+/lH+5v3A/bv9qf1s/RL9xPyr/NP8JP15/bb92v33/SP+Zf65/hr/kP8kANoAmgE2AoICaQIHAp0BcAGkAS0C0gJSA4QDaQMiA9cCmwJmAiQCxwFYAekAgwAYAIv/yP7a/fL8SPz4++/79fvW+4f7L/sK+0r78vvk/Pb9Cv8dAC8BOQIoA+8DjwQbBZkF8gX1BX8FoQSrA/8CywLgAswCMAISAen/Tv+N/2sAQwF4Ad8A0P/d/nD+if7a/gn/7v6S/hH+eP3F/AX8Wvvt+s363fru+un66Poo+9b77vw4/nb/hABlASwC4QJ4A+kDQQSjBCsFywVKBmUG/wU8BWgEwANMA90COwJXAVEAYP+g/gf+dv3l/Gz8LPwq/EL8Q/wb/Ov75fsh/IH8zfzj/Nb83fwh/Zr9Hv6J/t7+O/+5/0gAvQD8ABwBVAHTAZACSgO4A8IDjgNlA3sDyQMbBDkEFATEA24DHwPEAj0ChQG3APj/Xv/V/jr+e/2t/AT8qfua+7H7vvut+4/7ifu0+xD8jvwb/bH9Rf7M/jD/bP+M/7H/+f9tAAMBowE5ArMCAwMdAwEDwwKIAm4CdQJ/AmMCFAKlATsB7gC0AHYAKADY/5//gv9t/z//8P6b/m3+ff63/vD+Bv/9/vT+CP85/3L/oP/C/+P/AwAWAA0A6f/E/7j/yf/e/93/wf+i/53/u//n/wQAAgDs/9b/y//F/7j/pf+Y/6D/v//o/wYADAD2/8v/m/98/4H/r//2/zgAWABOAC8AGAAZAC8ASABUAFEARwA6ACsAFQD5/9z/yP/I/+L/FgBSAHsAdQA7AOn/qv+i/83/CwA3AEUAPwA4ADUALgAiAB0ALgBZAIgAowClAJwAmwCgAJoAfQBZAEwAYAB9AHcAOADa/5P/g/+d/7f/t/+k/5r/ov+o/4//Wv8t/y7/Yv+o/9n/7v/7/xYAOQBIADYAFQALADEAegDEAPcAEwEmATgBQgFCAUEBTAFhAWQBOQHiAIMAQwAlAAoAzf91/zD/LP9n/6//yv+r/3j/Yv+A/8P/EwBmALUA5AC4AAgA9/4D/sX9g/7u/0sB8AG0AREBvQAqATECNQOWAykDRQJ7ASMBJgEjAckAGwBi/9z+hP4b/nf9vfxQ/Hj8GP24/en9q/1u/a79hv6L/ywAKQDM/6b/EgDxAM4BRAJGAhQC8QHsAecBwwGHAU8BJwH2AJoADQB1/wf/1v7J/rT+iP5d/lb+e/6r/rv+nP5t/l/+jf7n/kL/ff+Z/7D/1/8IACkAJwAEAN7/1v/9/00AsgAUAWABjQGdAZkBlQGoAd8BNgKRAs4C0AKZAkMC8wHCAawBkwFTAdoANgCH/+j+Yf7p/Xb9Dv2//Iz8a/xF/Bj8+vsO/GT85/xu/eL9U/7k/qL/bAAKAVwBfQGxASkC0wJqA6YDfgMjA9cCsQKTAk8C1gFIAdUAkgBnACgAwf9J/+3+yP7M/s7+q/5l/iX+Hf5b/rr+//79/rz+c/5h/pv+BP9i/5P/ov+1/+b/KQBYAFsAQQAwAEQAdACgAK8AqwCuAMgA7QAFAQoBCwEbATUBNQH9AJMAJgDo/+b///8BAND/fP8l/+X+uf6U/nD+Vv5R/l/+cv6B/o7+qP7a/h7/Zf+h/9H///82AHUAswDiAPcA7wDRAKoAiAByAGIATQAxABUACAAPAB0AHQAGAOX/0v/a/+z/7f/O/5r/cv9p/3n/hf9+/2//dP+c/9P/8v/c/6D/bf9w/7D/CwBPAFwAOAD//8//uP+9/93/EABEAGIAWAArAPj/4P/w/xQAJgASAOH/tP+p/8H/6f8FAAoA/f/u/+n/7/8BABkAMgBDAEIALwAWAAkADQAYABYAAQDl/9z/8v8XACwAGwD0/9v/6/8fAFMAYQBAAAcA3//c//f/GAAmAB0ACwACAAsAJABEAGAAeACJAJAAiABuAFEASABiAJcAyQDbAMcApgCSAI4AgABQAAYAyv/E//b/NABLACoA8P/R/+j/HwBKAEwAKwAEAOr/2P/A/6H/j/+Y/7D/t/+Y/2D/OP87/2H/g/+N/47/qP/r/zkAZQBdADgAIAAmADgAOAAhAAsAEAAqADUADwC5/1r/Jv83/3j/uf/K/6L/ZP9E/13/nP/M/8f/l/9t/3b/sP/y/xAABQDz//r/HAA+AEcAOwA3AFIAhQCxALsAnwB2AF8AZQB6AIUAdgBTACkABADk/8n/uv/C/97/+v/6/9r/uP+0/9X/AAAWABYAHAA8AGgAegBdACcA/P/n/8//m/9Z/zz/X/+p/9v/0v+k/4r/p//p/ysAWgCCAKUArQB+ACEA0P/G/wEARwBYAC0A/v8AADIAYQBiAD4AKgBNAJkA2ADeAK4AcgBQAFEAWgBOACEA5P+0/6z/2/8yAIsAsAB9APv/av8i/1T/4f9oAI0AQwDW/6j/1/8iACgAx/9E/xP/Zf///2UARgC//zn/E/9h/+7/cwDCANUAwgClAJ0AuADqAA4BBQHPAIoAVgA1AA4Azf92/xz/yP51/ij++/0I/kD+Z/5F/uP9lf2w/Tn+3f40/x//3/7Z/jv/5P+KAPUAHQEdARUBHgFMAaIBCwJcAmoCLQLJAXYBVAFdAWYBRAHmAF8A1/95/1j/Zv+A/33/TP/2/pn+Tf4e/gb+9v3m/dj90/3e/fz9Kf5c/pH+yP7+/jD/XP+J/83/NAC0ACUBYAFgAU8BZgG7AS4CgwKTAmgCMAIPAgwCEgIJAuIBmgEzAboARwDy/8P/qP99/yr/tf47/tn9oP2R/aD9u/3R/dL9yP3P/QP+Zf7R/h7/P/9R/3//1P8yAHIAjgCkANMAFwFSAXABhAGuAfcBNwJAAg4CzwG7AdYB7QHJAWYB8ACUAFwAKQDn/53/Yf82/wn/x/56/kD+LP4x/jb+Of5M/n/+vv7f/sz+of6U/sb+IP9u/4j/ef9y/5v/8v9KAG4ASQD1/7P/v/8eAJkA3AC/AGkAMwBdANEAOgFVATkBOAGCAdEBhwFDAGL+5vy7/Nb9Ev8H/1D9Gvth+kj8/P8lA7kDqgEE/zz+OQChAxIGCwbyA3oBLgBnAHUBbALBAk4CFQE+/0/9Ifxf/OT9mv8vAA//3/wT++T6efzb/qEA4AC7/z7+p/2e/sQA/AInBNwDmwJlARIB0gEuA1gEpATSAysCZABJ/0//SQBzAeIBIAF7/9f9G/2b/d3+7f////L+Zv1I/C788fzW/SD+l/2k/PL78/us/Mr95/6v//j/z/+B/4T/MAB0AdECrAPCA1QD8gIQA7wDrgSABeAFqQXxBAMEUQMsA4QD3gOlA5oCDAGe/9T+uv7j/r3+9v2r/Fb7g/qA+iX76vtC/Pr7YfsH+0/7KPwn/d/9L/5D/mT+xf51/14AUwEWAnMCaAI1AjMCkgIuA6wDxgN7AwwDvAKnAsEC7QIRAxQD1gJMApUB8wCZAHkAQgCf/4T+Q/1a/Br8avze/Af9v/xG/Af8T/wO/en9ev6f/pD+rv4//zgATAEiAoYCfAI3AvUB5AERAl8CjgJkAtUBFAF1ADIAPwBSAB4Ajf/K/iH+0P3i/Tb+lv7O/sn+l/5n/nT+3/6W/1gA3AD8AMsAkACVAPcAiwHyAd0BTgGkAFUAiQDuAAEBiQDY/4v/8f+4ADQB+QBHAML/1f9GAHgABAAZ/0H+3v3e/ej9w/2B/VD9Pf0n/fP8t/yr/PT8ff0K/mz+mv62/vH+c/9CADUB/wFmAnUCeALDAmYDIwSkBMcErASDBF0EKATYA3ID/AJhAowBmgDf/6r/7f8wAO//Ef8C/lf9Qv1c/fb8vvsY+uz49vgQ+i37F/uE+ZD3CPfv+Hr8jf9xAGD/Xf5w/8gChgZkCK4HvwWvBIAFbAfOCJgIAgcIBX4DkgIAAoYBCgF6AKz/ev70/Hj7g/ph+vL6rvsA/K77Ifsb+x/86f2R/0AA7f9a/23/bgDeAQMDewNgA/wChwIsAiYCpgKEAzMEIAQxA+gB9QCvAOYAKQEgAakAw/+Z/o/9Jv2Q/Vv+qf7t/Xr8U/tD+y/8OP2G/f38LPy4++b7lvyI/Yf+Y//q/xcALQCVAIYB1QIbBAQFewWTBW8FQAVOBccFgAbrBn8GPAW6A60CTgI8Au8BLQEdAPz+5f3q/Dn8+/sO/Pb7UftN+p754fn8+in8n/w0/GL71Prw+sL7F/2T/rL///9s/4f+Iv64/gYASwHjAaoB7wAzAPv/tgCDAtkEmgbMBoIFDQQNBAsG5girCiMKvgcmBegDWwSTBSEGCAVEArr+sfsa+gX6ofrK+tD52Pei9f/zaPPy81v1F/ds+ND4b/g++F35Hvyd/2IChwNdAwoDhwP4BMUGMAjECGsIXwceBlEFdAVlBl0HbwdBBlIEmQLSAQwCuQIWA5ICGAEj/5D9EP2U/TT+yf3i+zP5FPdv9hr3IPig+Gz47/ew9/X3xPgJ+pf7IP1P/hb/0v8GAeICBwXWBuoHaQjPCHkJYgorC2sL+AoHCg0JbwgvCNwH6AYpBQ0DSgE4AI3/rf5R/c/7uPo9+vv5Z/le+Ej3r/a/9i33d/dB94D2e/W79Nn0H/Yw+BL65/qz+pD63fsT/zoDlAb8B8cHfAeTCFYLrA73EDYRow9sDckLKwsMC3cKxQgMBuoCDADM/TD8EPsv+jj50/f29Rn0C/NZ88v0dPZk91n35Pbv9gn4G/qM/Kn+/P+CAK4ALwGDAoEEUgYBB0QG2AQLBL4EtAa6CIkJrAjMBiYFqgRaBVMGeQY6Be8CjwDp/hn+jP2S/Pb6GPmJ95f2KPb09cr1ofWJ9ZH1zPVX9kr3pvhS+if89f2K/8EArgGyAksEnwY0CS8LAQzmC7sLPAxVDSsO0A0FDGsJDAeyBWoFkwVBBc4DRgFy/lb8hfuy++77Zvv3+S34uPbp9Z/1k/WM9WX19vQ59ITzifPe9F/3CfqP+1L7+/km+Vz66P17Au4FvAY7BYoDGwTHB/oMzhBBEcsO7QsiC+0MoQ/jEIEPFAw8CE4FoQO5AtwBfABS/mn7Ifgk9SjzhPL38rTzxvOp8rrwK+9e79HxkfWs+KP5pviR93r4BPznAPkE1wayBtgFkQVoBiQILwrcC4sM3wsUCh0IKwfqB+wJ1AssDEoKywZEA08BgAHpAqEDGwJb/gT6G/dx9hb3P/fM9Rvzg/A173vv3fCt8mj0vPWR9in3Kfg4+m79HAE7BCsGFAevB7QIcgrBDBcPtBDuEKUPgQ2oC+wKLAtzC78KywgdBocDmAF8ABgACwCe/wf+APtV94z00/P29Gf2bvaB9Lfx6+9i8OXy+PXt9wz4FPeu9i74dvv7/vEAxQCg/3D/SQGbBNUH1gm2ClYLWAyUDYAO5A4ND14P0Q/wD0cPwA2hC1UJNgd0BfkDYQIrADD97PlA97v1DfVL9M7y2fBn70jvZfDi8dfyDvMT87HzVfXN93H6n/wn/l7/1AC8AqgE2wUIBswFRwYRCIgKMAz6C0IKmQiCCDYKfAylDcYMRQpvB4QF6gT8BIgEowJd/8T7I/kH+NX3W/fi9b3z7/Eu8V3x1PEl8n/yVvPP9JH2LfiX+Tn7ev1RADgDkgUZBwcI5wg1Cv8LzA3cDrEOgw0wDJQL2AtDDNcLKAq1B3MFBARCA38CHwEN/7v8w/qE+e74i/jS94r2/PS78yHz9fKd8snx5PDa8D3ypPTg9ur3xfeB92b4+/qi/g4CKQTIBMkEeAWzB0AL5g49EakRyxDyDxEQDBHnEaER8w9jDboKcAh3BngEKAJ6/6D86vmS95/15/M78q3wke9B77jvgPAG8RrxH/G58T7zaPWK9x35KPo4++n8YP8oAoQECgb5BvgHYgnHCiYL5wmzB1IGawcICz0PXhHyD+EL1wdLBrYHSgpTCzUJfARK/7j7UPrj+aT4tPXS8bXune1b7obvt++27qDt9O1d8DP0Bvi9+kz8l/2e/6kCFgbcCFUKuArjCqkLMQ3fDuAP1g8gD4QOeQ6+DoMOEg1uCm0HKgU+BFAETAQwA8QAvv0s+575xfjM9yf2HfSG8vzxOvI/8i/xLe9t7WDtle9B87/2vPgd+fz40flR/Pb/awORBUcGewZjB4sJbwzkDvwPuw8KD/UO2A8QEXQRPhCqDdUK8AhaCFwIsAeABQwCeP7t+7n6HPr6+MP26vOA8VjwY/DW8NvwS/DF7yTwwPEb9EP2j/ck+Nj4hvpa/a4AkANzBYkGXwc4CLwIWAj/BpEFbAVqBxsL7Q4rESIRgA+zDcYMqgxuDCILqgjPBYgDFgLCAGr+hvq69YbxPO8Z7yvwCPHX8Mzv1e7Y7gzw9PHg84L1HvdE+T78sf+/ApIE+gScBJAEowXVB2YKZQxeDZINog0BDpAOvA79DUsMNAp5CIcHKgezBokFlQNQAVj/7v3C/EX7J/mW9hz0LPLb8PLvOe+57rLuXe+18HjyX/RI9jj4K/r2+1b9Lf7B/qr/egFSBLYHzwrrDOINFQ4SDi0OVw5ODu0NWQ3lDM4M/AwCDVoMsQoaCAYFAgJr/0L9QPsf+dn2uPQi80zyDPLv8Y7x1/Am8P/vsfAc8sjzRvWJ9uf3yPlB/PT+VAETA1wEmwUWB6AIsQnaCSwJQAjRBz8IVQmACkoLpgveCywMZgwJDJ8KKggvBWwCVADd/qD9Nfx9+qX49PaT9Xz0kvPF8iby4fEa8tjyA/Ru9fb2jvhA+h78Mf5nAI4CYwSvBXMG6gZsByoIBgmiCakJFgk9CJMHWQdxB3sHHwdMBj4FSwSqA0QD0QILAuoAqf+a/uX9a/3g/AL8vfox+Zn3L/Ym9Zn0hvTH9DH1tvV19pz3Ovke+/H8bv6J/2QAKgHuAaoCTwPZA00ErgT5BC0FTwVxBbEFJQbHBmwH3QcBCPIH5wf/BxgI4wcnB/cFqQSRA8QCDQIcAcX/FP4//H/6/fi/97r24/U89df0xfQH9Y71VfZn99b4kfpd/O/9JP8VAPcA3wGuAjMDWAM2A/8C1QLIAuYCQAPlA8cEvgWfBkkHrgfDB4EH8gY1BnYF1gRXBOcDagPJAvMB3gCQ/xn+kPwM+6D5bPiV9zf3SPea9/33YPje+Jn5oPrd+yr9bP6b/7QAsQGFAh4DcwODA2MDPQM7A3MD1AM9BJwE/AR3BQsGjQbBBoIG3gUCBSEEXAO9AjcCowHWALn/Zf4f/SP8dPvb+hf6H/kz+Kn3rPcZ+J/4//g0+Wv52PmP+nf7Z/xA/Qr+3f7R/9oA0QGQAhIDgQMZBP8EIwZKBzMIwAj6CAgJCAkCCeUIkAjuB/YGuwVWBOACYQHV/zf+lPwG+6/5oPjW9z73zfaL9pT2Cvfw9yL5Xfpl+zP89/zz/Tn/lgCyAVgCoALTAiIDdAN8AwwDTgKwAZsBKAIbAxoE5wR1BdAFAAb4BZ8F6gTvA+YCDAJ/ASMBrADS/4j+Df22+6764fkd+VX4tfeD9+P3t/i2+Zv6RvvJ+1D8CP0H/jr/cgCBAVIC8gJ3A+cDKQQlBNwDdQMsAzIDkgMtBMEEEwUIBb4EagQvBPoDlQPcAusBDQF4ACEAyP80/1/+df2g/O77TPul+vT5RPmx+GP4evj4+LP5aPr0+mz7Dfz3/AT+4f5X/3X/fv+v/xIAjwATAaQBXQJHA1YEZwVXBggHaAeEB30HeweKB4wHTQeoBqMFawQ2AygCRQFzAIn/Zf4F/Y77P/pH+aj4Qvjz9733xPcq+Pn4Efo/+1L8Lv3V/WP+8v6I/wsAWwCCALUAMQH4Ab4CHgPwAnACFAItArgCcAMWBJ0EGQWWBfwFIQbqBWIFsQQDBHgDEwO3AjMCXAEyAN/+oP2W/LP71vr0+TP5zvjn+HH5PPoX++r7svxz/TL+8/64/3sALAG6AR0CXgKGApgCiwJfAiYCBQIZAmICwAIJAykDLgM8A20DswPfA8IDXQPlAp8CoAKvAm8CpQF0ADv/T/60/Sj9Z/xq+3D6x/mV+cf5I/pu+pT6rvr2+qT7t/zl/cD+CP/g/rX+6P6D/0YA7wB/ASgCEQMgBBAFqQXtBQcGKgZzBuEGVgecB30H4gbvBfAEFgRSA18CEAF7//L9vfzk+zb7efqd+cH4GPjP9/f3f/g6+f75vfqM+3/8if11/hT/ZP+P/8T/EwB3AO8AigFJAgQDgAOZA2EDCQO4AoICeQK5AlADFgTABBEFDwXmBK4ERAR4A1MCKQFTAOP/nP8s/3D+ev1w/G/7lfoF+tX59fk5+oX66/qQ+278Sf3Z/R3+Xf7x/vD/JAE8AgcDgAO2A7QDgAMlA7gCTQL/AeYBFgJ/AvACNgNFAzsDNQMlA98CTQKSAe8AhQA9AOr/ff8I/5z+Jv6L/cj8//tS+8X6Svrl+bn54flO+s/6Q/u3+0P84Pxc/ZD9jv2Z/er9iv5h/1wAfAG4AuUDzQReBcAFKAarBi0HgQebB48HcwdBB94GMwZBBR0E6QLEAb0Azf/c/tX9ufyj+6364Pky+aL4Rfg9+J34WPlL+lT7UPwh/a/9+P0a/jr+bv66/hv/o/9lAFUBOwLRAvcCywKPAm8CcQKGAqMC1AIjA4gD4wMKBN0DWQObAtEBKwHBAIMARgDi/03/oP4E/pb9Uf0U/b78TPzh+7H71fs3/J/86fwa/VL9qP0S/nn+4f5n/x8A+ADEAV8CzgIqA4ADvwPTA8EDrQOzA9YD/wMcBCkEJwQPBNIDcQP5AnwCAQKGAQ0BnwBAAOj/if8c/6b+J/6W/ev8MfyA++76ePoU+sn5tvn1+X36H/ur+wP8HPzt+4j7K/s8+wX8b/0P/4MAxAERA4oE9QXiBiIH9QbMBuoGPQeZB+kHJwgtCMMH3gbBBcME8gP9AqABAACW/q39DP04/P/6sfnE+F34Qvg7+Fn40fiq+aT6gvtD/AX9vP0l/iP+9f0S/rr+vf/FAKkBgAJcAx4ElASwBIcEHgRnA3kCsQF5AdgBYAKRAlsCFQIDAvwBpwH1ADkAx/+W/1b/5f5y/jD+B/6v/SD9rPya/Mb8wvxh/P77Efyh/C79SP0G/ef8P/3y/bv+iP94AIoBiQJTAxMEAQX5BXcGIQZLBbMExAQoBTYFqATbA0wDCQO5AhwCXAHNAIUASQDn/2v/+f6Q/g3+cP3x/Lj8m/xB/Jb79vrb+lj7Avxf/Ff8KPwR/BH8/vvH+4T7VftQ+5b7Vvyn/V//GgGEAo4DYAQXBaoFCgZCBn4G4wZzBw4IgAiLCAQIAQfZBegEMwRdAxUCfQAh/2L+A/5g/R38jfpc+er4C/ld+b/5Uvob+9f7OfxA/DH8Rfxs/IP8nfwG/e/9L/9pAGcBQQIlAxUE4QRUBV0FDAWEBPkDpAOeA7cDlwMOA0cCoAFIARUBxwBRAOj/u/+9/7r/lP9V/wr/sf5H/uP9nv1s/R39pvxB/D38nvwE/Qr9rfxK/C/8Wvya/PP8nv25/gQAGQHQAVcC2QI1AyoDxAJ6ArwCdQMdBE0EKgQ0BKwEQwVkBbkEbwMGAvAAYwBFADwA2P/h/o/9evwd/HL88/wV/bj8Jvy7+5f7pvvN+/v7Gfz8+4X7xfr8+Xv5ePkK+iP7n/xJ/vj/nwE2A54EogUlBkwGXgaBBqUGtgbaBkwH/wd8CEkIcQeABugFfAWmBCADVgHt/wH/AP5c/ED6d/im97L3APgq+FT40/i0+aj6YfvW+yP8V/xy/Jf8Ev0M/ln/lgCOAV8CNwMHBIIEdAQEBIoDQAMXA+sCsgKBAmgCYwJsAowCwwLsAs4CTgKUAewAjgB6AHkAQwCe/4r+T/1l/CX8fvz7/DD9G/0I/Sv9Uf0l/Z/8KPwx/L38bP34/Yb+aP+SAIQBzgGcAaoBiwIMBGEF3wWLBfkEsQTFBOoE4wSrBFcE5wNQA6AC/wGEAQgBSgA1/wX+D/1p/N37Kvta+r35mPnh+VT6wfot+7D7NPx//HD8GfyX+9z62PnS+H34cfmO+/b9zv8DAUUCIwRbBhQIyAjSCPcIhQkECsYJtQhpB5IGZAaRBrEGkgYmBmwFcgRsA4MClgE7ACP+ffvu+Bb3JPbW9dP17vU19tn2EPjk+fv7o/09/sn97vxn/F38bPxY/I38xv0zAB0DZAVqBlsGwQX3BBIEGAMVAhABKgDq/ykBTQSCCPgLQQ10DNcKVwl3BwUEtf7L+Bb0bfFa8BzwlvAg8qj0ZveT+Qb7BfyT/F/8fPvr+vT78f7TAhYGFQhSCZAK3guQDAUMOQqzByAFHgMoAmkCmQMuBdUGmwhxCqwLRgvSCBgFgQHp/g/9TfuN+WD4Mfij+OX4cPhR98H11POx8eTvEu9a7zrwRPGv8ub0kfdt+YP5bfgS+PX58v3AAoIHdwwTEt8XkxxEHwcgSh/tHHsYShLkC+IGfQOYAEn9EvpG+GD4Sflk+RP4+PX581jy7PDZ77nv9/Bd81P2ZvlI/Hf+Tf+l/kP9Pfz2++77pvuS+9H88/9HBHUImwutDcwOuw4rDWAKQQe0BCADqAKHA9kFAwmvC6kMvAtzCSEGfwF2+wP12e/47OLraesW637rJu2H74/x3/Iq9Cb2hvhz+u37PP6hAsYI3A5JE/8V5BdMGWEZOBceE4MOsQrqB8EF+wPMAkYCAAJuAVwA4P7i/B36uvao8wryOvKL8xf1ivYK+G/5CfpJ+Xv3lvVO9JHzAfO68mHzgfUG+W/9KQKcBgUKwgv8C7UL1gsNDPAKfAdbApn9Fvt1+2/+sgPwCjITnxp4HzEhTyAsHVsXhg7KA5r5AvIk7aPpfuYZ5GrjZuS55RbmhOU55VnmKOlR7Z3yBflDAKYHcQ4qFF0YRhooGSEVgw8PCsYFmwI+APD+Wf+lAf0EAwiuCaoJIAhzBVACt/+M/hb/6gB1A1YGKgkcCwkLQAgVA5T8wvVK79vpbOa/5afn+ep07orxQvR39q/34PcI+In5x/ytAN0DPQYZCYQN3xI0F/0YWBiAFloU5RHjDqoLAwlQBzIGAAVwA48BX/+3/Kv5v/aN9DvzgfIx8ovy2fPl9QP4rvns+v77z/zx/B78nvoF+bH3sPYL9gT28fbw+Ob7sP8eBLYIrgxaD54QwBDDDwwN8QebAFv4HPGm7D7sqPDd+YsGDxRtH7AmhSmDKAskDBzdECUEffgA8PzqJ+j+5QXkwuK14o/jdeTu5G/l9eZC6oXvl/ZM/0cJnhPSHFEjCiaeJEsf4BbHDM8Ck/rg9LLxs/Cn8Wf0j/hz/VkCowaZCUYK5AetAkn8TvcF9mX5zwB6ChoUZRt+HlMc4xRECVr7W+054V7YrtOq00jYk+CS6vjzT/uMAGsEVAf6CDcJ9gjeCeMMSxFPFZ0XFxggF5gU7A8qCcYB8fs4+ar5Pfyv/w4DvAVWB78HFAdsBZsCcv5H+TD0qfDC74fxCvX2+ED8b/5r/w7/Ff2T+Xb1VPKH8UHzpvau+uD+JwMtBz8Kzwu9C+wJtQVn/p301upJ5OniueYO7/P7oA1dInk1NEFdQkA6IS3lHhQRlQOk9rDraeRr4dnhDuRj5oPnnObD40XgRN6Q37Dk3uzo9gUCzg2PGcEjSyppK5Ym2RxaEH4DIfhJ72/p+uZN6ETtpPQ5/MkBPQT/A3wCPgFbAVIDGAcyDO4Rmxd+HGkfqR7NGO0NMwDC8ufnKuAm2+jYP9qv31To//Fz+mUAoAOXBCAETQMDA4UDgQTHBb8H3AqaDk0RTRFUDrYJMwXRAbr/5v5p/ycBkQP4BQMInwlpCn0JJga4AJv6avUP8q/wKPFh8/r2CPtP/gIAKABi/zv+yvza+lz4ofVE8/7xiPJx9bz6egHxB4cMxQ5eDwUPOA1/CDAA5PUC7Z3owOmy7175BgZwFBEipisGL0ssOiXIGzoRXQYG/CDzh+zk6GvoQepK7DPsO+no5KvhzODi4Vvk2+il8L37RAjcE0IdJiTNJ9gmtyDzFlMMygKn+uTzde+y7o3xEvbw+Sr89/yQ/Nv6cfgx9xn5kP46BmkOJhaiHE8gcR+6GcAQeAaj+znwLuX/3O3ZANw54Zznf+7K9ar8wwGTBAgGVwefCCEJtQhwCJUJKQzSDgoQJg9eDEsIqQNa/yr8b/oX+iX72f0jAgsH9wqnDOQLOAlIBaAA6vv492L1TfSg9Eb28fjD+5/99/0x/f/7gPpZ+ML1AvSW9Nf3sPybAaMFYAhKCZ8HEANN/NL0Mu616XLoZOs48+n/ORA4IZMuRzQ6MV4oiB5pFpIO6wMv9oLpDONA5L7pv+778BbxLvAq7rnqAOdx5c/n9+2y9h8B1wzdGCUjhSnpKnMnyR/AFLgHu/rW70XodOSM5Iboiu+N9//9JwHZAB7+lPoS+Fv4ePz8AyoN8hXPHM4gLSF9HTEWoQwhAjn3H+zv4fLaL9m63KTjoutt84j6IAD1ApwCiwBM/3cAkAMBB/QJAA3sEBgVbxf+FZgQAAmZAfv7mPhB97v3z/kW/QQBCAVpCBIKyQgrBIT9Z/cH9MTzYvWm94X6mv6qAxsIAAqZCK4Emv9q+uH14vJb8pf04/gS/hwDHwflCAUH7gDx9/bu0+jW5s/oZe7t958F0BVhJK4sxCznJosfYxlNE1IKzv1J8d7pvell7j7zefU39YjzbfB066vl5eGK4pPnNu9U+HwDNBGoH9gqUC+SLMokhRr6DoECFPbh6z/mEuYq6hbwovW9+Tf85PxM+2X3gfIm763v7fQg/rkJzBXYHyglcyRAH84Y5xL6CzUBo/Kx5OvcS90V4x3qa/BV9uz7nv/o/4/9UftV+3/9agB3A1YHngyKEkEXHRmHF+oSSgzhBLz9gfe68mLwrvHI9tf9zQOkBpgGHAXVAkP/TvqH9T7zfvRf+Dn9/QEaBrgI9gj6BjcEIgLbAIv/3/2Z/Hn8Cv3s/B77mffe8qjtR+mm5wLqru/G9nD+tQdmE3UfhCeyKG8kux7VGVcU3gvUAMH29/Cv74nwP/Ee8VPw0O5/7ATqlujy6N3q7e188ob5lAPTDx4cwiWLKsspsiRiHUYVXQxdAnb4N/FW7t3uH/Bf8PXvue8e793sUeke59bof+4n9q7+zAivFI8f+CQMI6AcYBYFEhkNngQp+d7unOm16XPsEe/G8D/y8fNq9Qn2Cvao9jT59/3iA3YJFg5PEp8WAhowGrsV3A2wBZr/nvt8+Oj1FvUM9wn7I/8PAscDcgRzAzsAufsq+CT3MPi6+SD7Mf2VAFAEXwbLBaMDzwE/AXEBZgGeABD/tPyN+Qb28PL18DHwf/AI8lr1zvoBAtsJDxGbFvUZ6xqDGeoVkBBPCksEbv/c+wT5XfYJ9JHy8/E98WPvd+zc6Sjp7uqz7tXzHfpjAfMIuQ8DFd0YhxvCHOgbyRgnFD0P3QoaB7sDxQBV/hP8CPlW9CPuz+cf4ybh4eHD5HzpDfBK+GsBTAryEaUXmxr7GbQVSA85CS8FnwKP//j6JPaF8xv0UvaC9272PvQf80n0Vfct+z//wwMRCdkO+xMSF08X9BQKEX4MhQfuAQv8A/cn9OTzl/U++Cf71P2l/w0AJf+2/WT8DPs5+Sz3Cfa89v74qvsD/k8ADAPyBfUHIwgeBvcBHPzN9T7xfPDY86j50f9/BSIL9xAKFtMYaxjvFAkPuweaAI37mvnt+Zj6a/rC+Vf5v/iu9q7yJO4r67/qV+wd7wbzdPhQ/9wGSg7xFOUZ6htnGk8WpRHpDS8LyQhqBmME7ALOAbcAa/9T/UX5i/I76gzjVN9b3/nhgeZo7dX2NAH5CbcP3RJHFMsTzhD/C4cHEwUwBB4DFgEV/07+av7V/ZL7MvgE9eLyHfIe81r2mPu9AZYHowzPEKUTXRTKEsEPQwyGCD4Ew/9e/Bn7qPvO/LX9W/7G/mL+s/xQ+oL40Pdx95X2yfV89iv5oPxR/wMBbAJ+A8sCNf/A+Sr1mvMf9W74kvxdAY8GTwvBDrIQTBFeEHMNzAi9A83/lP2s/KD8Vf2O/mr/6v7e/OT5nvY68xHwPu707jXynPbH+q3+QAPBCPkNQhEXEkgR6Q93Dg4N7QtRC/gKPwrmCFwH8QUNBIAAzPrc82Xtq+gP5n7l5OYc6sDuWvSM+s0ADQYjCdEJNAnPCCQJcwnyCOYHQgdOBy0HygUPA83/r/yl+XL2iPPo8TTyMvRE9yj78f9KBRMK8wxbDewL4QkhCNMGqAV3BIYDRQPDA20EfQStA28CUwFDAJL+5Pvt+Aj3+fZC+M35Dfs2/GH9z/1q/A75DfVH8svxafN89sT6VADVBi4NGBLfFIcVMBS2EBsLTQQv/ov6vvmN+lb7ePuA+/n7Ufwf+5D3ePLX7V7rj+sW7p3y+/inAGkI4A5OE8EVgBaaFSoT4g/+DHILNQtuC1YL3wpsCvkJoggRBZL+5/UU7UPmkOLH4SLjLObk6g3xovc2/dAAZAJ7AqwBlgAOAOUAOQM0BsoItApzDDoOGw+bDS0J8ALr/KD4ZPba9aL2j/h0+wz/9wKfBhoJgQmnB4AEkQHi/33/4v+6APwBkgMiBUAGnwYCBjAEUgFL/k/88fuf/Er9e/2Y/QT+Tf55/RH7sfeC9GTyuPGt8l71i/mC/oQDJAgRDKIO7A6eDJ0ImQTtAecA+wBkAXsBzwBX/4r9+PuU+pH4VfWF8dzuz+5f8Wb11/lk/gIDMwcvCqcLFwwtDDYMPAx9DGkNBQ+pEHcRDxGUDxINRQkKBPL9Ffhd8xnwPu7J7a3udPBM8o/zJ/Rl9I70wPQi9fz1gve8+af8UQCNBJEIOgvnCwULkwkmCJcGrgTVAuUBOgJYA3cEQwXYBTMG/AUCBacDkgLvAUABCwB7/kX99/yI/Zz+6P8/AVUCugIyAugASf+n/Rr8nPop+cf3l/b89X72VfgC+3z9+v6R/wwALAEPAz4FEQcLCAEINwdTBvcFKAYhBuMEGgJ2/hz7yfh497L2DfZj9cj0gfTu9FX2kPgO+z/9A/+yAK4CDQWeBzYKxgw4D04RwRJuE10TkxL8EIkOXQvMBzAEywDB/SD71vi69qr0sfL/8Lvv0+4Y7nrtKu197avup/A38x72Nfll/IT/UQKOBCsGYQd/CKYJpgoxCzcLBAv1CgwL5gofCsQITgczBnIFqQSAAwwCsgDE/y7/lf62/aX8wPtc+4T79/tl/Kj82fwr/an9Ef7l/cL8wvqt+Kr3jPgx+5H+cgFEA2cEmwUpB38IngjqBsYDdgBm/k3+uf9OAa8BWwD3/av7J/ok+cf3kvX38iDxGPEd8372KvpV/df/BAI4BHYGbAjSCdAK/gv2DcYQvRPDFfcVLxQAEV8NDgo+B58E1AHg/jL8PPr0+Lv3x/XE8h/v0OvL6YPpvurL7O7uzPCC8m/0y/Zw+fX7C/7B/3UBhAP5BYMIpQoFDKAMwgzHDNgM2AyQDPcLRwvLCpUKXQqwCUsIRAb8A9wBFgCR/g79bfvj+eT4wfhA+Zf57vgI9470svJo8uTzmvbB+cv8nv9eAh0FlQclCS8JkQf8BLYC3wGvAlEEfgVRBbYDNwFu/qv7+vhb9vXzJvJs8SfyRvQd97D5Vfsx/AT9df6HALoCqAR8BsUI3AtzD6QSbhRDFFwSoA8oDZgLygoLCsAI5wb2BFADzAHE/6H8Zvjd8zTwTe4u7gPvqO9z75Hute127fPt8e5R8EfyLPUe+br9LQKTBXQHFAhICOYIMArOC0QNgw7cD3YR4hJIExMSbg8gDAIJkAbVBJ8DqwK9AasAaP/t/RH8iPkq9lvyJO+07ZruWPG39KT3zfmG+zP90f4PALMA0QC0AK8AHwFQAjoENQYtB2MGGQRpAWT/Uf7I/WH9G/0p/Yb93P3b/W79sfzW+y/7PPtq/KP+PAF0AwIFKgZHB04I3QimCNEH+AbWBtYHwgnCC8YMMwxICugH1wUnBEoCuv+Q/Ij5cfeB9hr2L/UV8xDwNe2l68frL+0k7zrxcvPp9Zn4Vfvs/TEA/wFeA6MESgaDCOcKvgyjDd8NFQ6IDssOOw61DOQKtQmKCd4JsAlUCOUFCgNuAFn+tfw8+6D5xPfx9eD0QPX69v349/l8+Wn4F/ge+ej6Z/wU/TH9Qv2L/Qf+pP5A/43/K/8e/gz91fzO/V3/gwC+AG0AZgAeAU0CRQOdA4kDmwM9BFQFYgbnBroGDwY/BY8EFAS9A24DIAPrAuoCHQNdA34DbwM0A84CMQJbAWsAfv+Q/oL9SvwN++/51fh999T1L/QL86Py0/JU8wv0BPVH9s/3nPm7+w/+PgDpAQUD6gP5BD0GcAdPCOIIcwlMCnoLuAyODZQNvQxgC+4Jowh3B2EGdwW8BN8DZQIiAHj9BPsS+Xj3AfbT9F305PQ+9uj3U/ki+k76I/oX+nL6Hvvb+538lv3S/t//GABN/xz+df3J/bn+jf/r/x8AsgDDAdICHwNrAlgBAAESAjgEbQbaB1kIJwhnBykGzwQfBJ0E6gUGBz0HtgYBBlEFVwTUAhABmP+2/kH+6f16/cT8j/vE+bD36PXn9Mf0UPUY9qz2tfZV9i/28vah+I76Dfwv/YT+PgDTAZ4CtwLgAqoD4gT0BbUGgAePCIcJzwlQCagIjwgnCeYJIgqgCaUIlgeNBlAFsQPvAZ4AEgDc/wX/6PzX+ej2D/WA9M/0e/U89uj2Uvdp91r3gvcr+Gz5KPsQ/bX+yP9uADIBbgLGA2YE7wMPA/QCGAS1BXIGoQXSA0kC+AHgAioE1QRoBD0DKwLIAewB5wFFAUAAh/+T/0oALAG1AZcB1gDY/z//d/9IAPMA5gBUAPf/UAAgAbABfAGRAFf/O/59/SP9+Pyi/Or7Avt3+rX6nvuU/Pf8nvzo+277nPtq/F795f3H/Wj9gf1+/g8AawEFAg4CQQImA4MEmgXtBcIF2wWpBtUHpAiyCCwIWgcrBn0EsAKaAaMBCgKAAZX/XP1Y/NT8gv3e/LX6P/jK9qn2V/dH+EX5JvqU+nD6PPrE+k78K/5T/2H/8P77/uv/XQGiAm4D7ANaBK0EtwSRBJ4EDgV6BS8FCgTMAmwC+QJtA7cC6AAr/5X+Gf++/6v/3v7n/UL9Cf0o/Y39Gf6O/rP+jf5l/o7+HP/O/zMAAABc/93+DP/Z/5kApwATAIn/lv8eAJkApwBGAJ3/1v5D/k3+/f65/8L/DP9Q/iX+Qf70/UP9DP3a/Q3/jf9G/1f/igAUAmoCSAE7AOQA/AKZBGAE8gIDAmMCZQMRBEMEXwRBBDAD+gC4/u79/f6uAHoBEgFiADQAKgBF/1r9iPsf+yP8TP1v/bz8Ufy5/Ez9IP1R/Oz7jvyV/fD9iP1m/Vr+9P8aAW8BrQGMArEDJASeA/sCMgM2BAkF2ATAA34CuwGwATgC4QL9AhUCbwAK/7r+Uf/N/2z/c/7R/Rf+6f5m//r+2f3M/Jb8Y/2U/jn/5P4f/u39wP4KANcAwwApAIr/Gv8I/8r/jQF3A/UDYgIdAHv/UwH2A9oEQQPXALz/WwBsAboBTgHcAJoANgCt/4f/AgBkAKv/3P1E/Cr8gP0H/5v/D//0/fL8nfxx/Vv/QQGVAev/0v2I/aP/TAIeA6kB0v+q/0sB9QIVA7cBIABr/8j/0QD7AacCOwKnAN/+Tv6C/2kBNgImAVP/m/6+/6gBngL7AZwAw//L/x8AIwDT/2j/3P4o/sT9Z/7p/9oA1f9V/bH7yfzH/8gB3QAh/n/8lP00AO0BjAHl/5D+f/6v/34B1wKeArAAn/6T/ukAPAOrAiX//vuW/KIAQQTYA7T/o/tG+8L+4QImBNsBcf4I/X7+3gCkAWQA3P6R/hr/Mv/l/oP/QwEjAlQAOP19/KL/gQOWA2z/dPsF/H4ASAQUBN8A3f3g/Kf9ov+IAgIFiAQ1ADP7ivqb/6gFOAYkAEz5lviZ/voELAUk/wT5jvin/VMDNgVAA1MAh/6+/VX92P0dAD0DsAT7Aqz/7f0V/0YBvwEGADf+U/4LAG4BOAHO/0L+R/1l/Tf/aQLBBH4Djv6/+Zb5i/4vBHkFsQG3/Nn6CP3cAEIDsgK3/3v8oPtV/s0CSAWKA1P/y/xd/oQCmAU5BdMBxP3E+2b9tAEcBSUEOf8G+8T7RAAhAyQBAv2y+yH+mgAyAJb+Cf9PAQQC2//6/Zv/EAOFA5//5/tN/awC4AUlA4L9C/v2/dQCIAXbA0MBbP+L/j7+2/6kAHoCfgIvAE79Pvyo/QAALAFyANT+9v2m/jUADQEhAB/+E/2D/qQBxgPZAo3/wPzF/GH/YQLOAz4DcQFY/8v9rf18/30CrQQ5BD0B//3x/Fb+BgDb/1z+WP5aAe0EnARM/6r5yfk3ALEGsAaHAKz6Tfo+/sQBrgKgAhIDsAIDAN/8yvwdAAEDMwJV/7j+iwFCBDwDWP+r/I79hwDPAjYDBwKj/838mvsB/s0CbgV/Ahj8PviU+ncAFQSrAsj+k/xK/fn+xv/s/2wACAHBANT/4P9wAXkCjACU/On6jP7mBKgHkwNu/Df5qPyXAgUFlwIP/xD+Mf/R/0j/ef9iAfACmwFS/gT9yf/GAysE/P+V+9n7ngDSBAYEE//3+qL7UgCbBIgE7f99+ub46/yEAxMHaAQA/tH5Y/t5AO8DTgO0AFX/mP+c/5X++/0B/2UA/f/w/dz8av7kABUBV/6e+0X8TQA9BIsE+ACi/Cz7mv2sAQoEMgNmAP/9M/2c/X/+r/8EAbkBFwGf/7v+GP/2/3EA3QASAqMDwANnARD+gPwP/nABGQRfBGMCm//l/VT+SQDSAXEBmf8H/rj9Kf61/qn/NwEcArIArP03/Gb+GwIQAxMAyfxk/XcBeAQ6A33/b/25/i8BEwIfAdr/FP9f/rz9Yf7vAKMDfQOk/wL7vPkZ/SsCoQTLAtj+dvyB/awABwOpAkYAZf7r/ioBegIRASj+7Pzz/jgCKAOjAFj90PyP/7QCRAMtAdv+Y/6b/9gA5AAGAHH/+f9KASsCkgGa/4b9wPzf/VwA4QLMAwkCUP5r+zD8bABOBOsDg/+B+8b7rP85A6MDoAF5/1z+RP5J/1MB4gLjAaz+zfxL/0oEMwbwAfv6//ex+x4CPwUaA87+Y/zt/Mf+NgC+AHYAef96/un+YgEHBKoDc//Y+qz6wf9JBY4FLACy+q36s/8mBJEDNP8H/Bv96gC8A6IDnAG3/wP/V/8lAPYAWAH9AB0AlP8rAJYBXwIoAWb+ffyP/e4AUAMmApT+Wvyo/csAZwJdAYf/2f4i/yv/CP/0/wUCYQN6Aj4AG/8LAH8BhAExAF3/NgDZAXMCVwGp/wP/uP+LAC4A4P42/if/ngCjAOL+Wf3x/QUAFAHl//39of0i/9cAWAGwAJH/eP4H/h7/hQELA4cB8v0g/HP+kALLA7gA/fwC/cIA8gMCA+H+lfv3+1v/3gIfBK4Cr//F/FX7Kvw0/xgDYAXwAzz/4frd+nb/TgShBHcAyPzc/UgCjASTAXD85/rS/gwELwVyAQ39LPya/usACQEuADoApACL/1H9CP1LABUEzgNZ/9z7Uf0zAdABN/7Q++7+RgTMBB7/zPkF+7oAqAPwAEr9AP7HAQgD2/+J/J799AF+BMQCWf/y/Qz/aACdAG4AwwD9ABIAoP6K/l8AFAI6AVL+1Pwo/x8D3QPG/1P7XPzAAqMHIQWL/fv49/uNAq0FXAOl/1j+0/7S/rf+eQBOA4sDxP/W+538jAHgBJMCXf1j++/+BQQ4BZEBD/0D/N3+cAKeAzkCWgB5/9/+cP07/MX9LQJPBdYCOfx0+DX8gQOiBa7/vPi4+VsCEglJBlP9Lvi++/AC3QUCA1f/uP53/2T+evyj/UECIwXBAeH6Rvhm/bkEAQYXABv6yPq2AL8EyALu/ez7g/6hArEEyAPtAH39Qvtf/B4BIAa9BgsChvyH+4b/3QMhBJYAEv2P/L/+YwGiAtcBU/9o/Fr7x/17AmoFIAPD/An4DfrBASUI8QYp/1P4x/hD/8oEbQTt/5L85fz3/iUAYgD+AK0BxgBV/iL9cv+aAzEF+QHR/AD7ov5ABCcGPgJM/DP63P1DA/wEDgKA/gv+zP9SANz+XP7MAKcD8QLc/hn86v3bAeYC2P+k/E79KwEGBPsCMf9A/M/8ewAqBJQEbAEl/m7+sAFWA5UAg/x6/OYATARtAvn91fwEAIECpgB2/Sn+XgJQBOgAVPyW/IYBFQUrA4b+v/xd/7QC4ALu//X8gfyX/k8BdwIjAYf+F/0S/vT/OwCa/nL9m/6xAMgAcP6U/Oj9YQFDA1QBSf3v+of8+wD0BG0FAAKF/Qv8Lv8OBKQF9gGc/EL7b/+RBO0EDAA7+3T71f8fA0ACo/9T/0MBjAFw/qn7y/1wA+EFeQEA+0P6NAByBY4DMf15+mL+NANqAkr93/py/lwDZgPi/vP7iP6mA20FIQKc/Wz8Hf+HAoUDrwH6/ov9+f0m/63/j/8ZAM4B7wIpAfX8M/oo/EgBWgREAq392fuM/mUCXQN0AdH/PAAyAbwAff+S/y8BDAKlAKP+xv4FAU8CewA4/Qn87P1dAMIAjP8Y/z4AWQHWAHr/TP/EADMC9AGEAMf/wQCIAmUDlgLKAF//PP9FAIoBEgKaAYsAY/9Z/rn9Fv6P/wIB0wDk/j/9+P18APABjADr/TT9N/9rASQB+/4b/jkAKAMsA2j/S/sp+4r/VwToBNcAafz6+1z/PwItAWn9Zvux/T0C1wSBA+X/EP26/LH+rwEDBAcERQF+/cb7vf2uAfEDXAJW/oX7fPxmAK8DMwNA/6/7SvzHAKoEywPy/ij7SfzqAC4EIgNw//D8pf2GAD4DFQSCAjX/JPyc+z3+6QF4A8cBwP4//UL+UgA9ARYA3f2v/Br+jgE7BEoD3P6Q+lT6gP5qA/0EeAKZ/rn8BP4CAQsDUwJ4/1r9pf69AqAF2QOo/jD73vx2AakDSwGf/RL95f9cArYBVP9P/iz/lf8l/tX8cv5nAp8EPgJ1/XD7b/4PAyEEqwD4/G39agE6BMwCI/+O/Wf/3AHrASQAhv9OAUUDpAK8/7H9yf7TAZsDiAIwAFT/uwBoAu4BVP9D/Rb+BQG5AgYBh/3r+5/9KABAAAH+tPx8/lABZAEO/u/6vPu+/5sCbwEK/o78gv5EAZIBr//9/ooBBgU0BSwBDf2D/TIC0gVHBIb/JP2G/wkDuAKM/mD70vzoAMUCmwBr/ej8Df+lAG3/pfx/+579XwE9Aw0BWfyE+cb7gwFhBeUDe/+5/ZcABAQ1AwD/1fx6/1EDPAOb/8D9hAAeBCIDEP4w+57+xwSNBs0ByPvT+k3/7wMdBH8AVf2A/fj/owG9AFP+0Px6/T3/8P/A/iT9GP2f/rz/FP/s/Zj+KAHgAqIB+/56/hEBhgNzAtj+O/0GADsE1wTVAGv8HPzD/zsDVQPYAMr+4v5jAKIBnQFTAI/+u/37/qkBQgPQAXT+k/wH/vQAGwLdAKz/egANAusBCwAR/5UApQImAg3/v/ze/fAAQAKEAFD+o/4mAc4CzAGm/wf/VQB5AdMAWP8r/7cA/QEaAbb+bv3K/l8BSAJPAEX9E/yR/af/o/9K/T77Gvxs/wwCqQF3/73+zgBfA1YDqwB1/hD/SQEhAqsA8f7z/hMAYgCh/5P/JgG0Ag4Civ/X/aH+igAQAa3/M/5M/pD/egBhAN//pP+t/7L/s/+1/2z/m/67/br99v6xAMEBowHTAC8AMACpAAsB7wCAAEoAlgAGAQcBlAA4ADwAMgCu/x//ZP9jAMIAg/+I/cv8Bv7A/w4A4f7j/VT+ov9qAEUAAQBQAOoANgE/AX4B6AHBAaEATf8I/yEAbAF5ASYAxf6p/sD/zQDpAHEAUgC4AM4A7f+g/hz+1v76/3UAIwC3/7H/0f+w/3H/h//8/1AALQDf//D/ZwC8AI0AJAAsAOsA6AFWAtoB4QBMAJ0AewEIArYB0QAjABsAgwDsADIBYwFXAcsA1f8B/63+iv4M/lH9L/0h/nv/AwBY/2T+Qf7//rX/qv8V/6T+sv4Y/5H/5P/Z/1//6f5F/6gAEwIoArYAIP/x/i0AdQG3AUUBDQFFAU0B0gBYAGQAlgAiACP/t/6Q/8gAtwD9/iT9A/24/pAA4gCm/yb+hf3f/a/+lv+AAFEByAHAAWsBGwHyANgAsgCMAIAAlQCyAKkATQCQ/7H+O/6j/sz/8wBKAa0Awv8//zv/Mf+1/v/9rf0S/t7+eP+a/3v/gP/a/4IAYQFXAiIDYwPrAvcBEQGbAJMArACiAFsA2v8u/33+AP7W/eb9/P0S/lX+1P5C/y7/i/7l/eb9t/7P/30AhgBIAEoAxwCOAT4CkQKGAlMCNwJNAnoCmAKaAogCZAIkAtkBugHdAfIBcwFIACD/4/64/7EAqwB+/xr+e/2d/bD9Kf1p/DP8tPxN/VT91/yA/Nj82P0d/1YARQGOAdYAOf+P/fX88v0BAAsCNQNdA+0CagI7ApwCgAOGBC0FSAUfBf8EswSpA9MBIQDH/9cA5gFaARj/mPxH+xT73foB+iH5HvnM+TH61/lo+an5U/qE+jr6vvoY/XIAqwKoAqQByAG9AxEGFQfTBrMGhwdyCAsIKwY7BK4DfwRcBRIFogP0Ac0AIgBs/17+Pv2Q/HH8dfwT/Dv7WvrV+ZT5Rfnq+Of4d/kx+nf6RvpX+kP7xvwX/vf+CADpAUQE+QVbBuEFnQUxBnAHzgjUCSwKnglbCCIHqgbcBtMG0QUHBCYCUwDh/U36R/aA80DzTPUG+Jz5OPl+9xX2fPbd+N776v3M/sn/9QGIBHsF1wMcAd3/GwFpA74EnAQRBOgDowNqAoQANP9I/0QAMgHUAYgCQgM9AwACVAC6/+4AJgPtBHQF6gTRA2MCtwAl/zL+JP7R/sj/kQC0AOv/fv5b/W39s/4bAIIAy//b/nb+YP69/S/8bfqP+fb59vqC+xb7/vnf+Cr48PcV+Jb4mfk++1T9Qv9XAGsAMQDOAOIC7QWvCEQKygrxChIL6wpDCn4JUwnnCYEKSQosCcQHawbOBJECLQCv/on+6f6S/jH9j/tp+nz5F/hW9kr1s/Xl9lP3J/b18+HxcfCk7+LvIvK19i78GwAjAUoA4/9eAUAEKAd+CcYLbQ6pEPQQrg4YC20I9wf+CLAJ8wg3B44FNgRiAnf/HvzV+W/5TPok+0r79fpv+pr5bviZ9wr40vna+wP9YP3r/Rf/IAALAAT/WP4G/7wAZwJ7Az0EAgWIBXcFFAUeBeAFvgbqBk4GdwW7BLkD7gGK/2/9YPxB/EL8l/sN+gr4NPYL9aj00fRG9Q32S/fg+ET6DfuO+6j86v7jAZIEcAbNByUJZwoYCyULIwufC2EMrAwmDDALRAoxCWMH1ARtAjUBLwFOAXsAlv5j/J76Wfkz+PL20fUy9Tb1pPUa9lr2ZPZn9nz2ePYB9vj00fN48630aPfW+gD+dABlAjwELAYdCN8JXgunDOUNSQ/XECUSbBIaEX0OtwvVCdMItQebBcACJQBb/s/8gPpP92P0GvOz8yL1FfYT9pb1VPWU9SX20Paj9+v46fpr/br/+wD3AHUAoADnAZMDoAT6BI4FBwfKCIcJxgiKByIHqwcTCIgHdAbFBYUFtwSgAtb/rf27/FH8dPv/+Y/4h/eU9lD1+fNB837zVvRI9VH2xvev+ZT7Cv1A/tL/GQLJBEEHKQmbCtQL5QyvDRoOKw73DYQNzQzNC38K4Qj9Bv8EJQOlAX4Aev9S/uD8MvuB+QL40Pbj9SH1d/Tp85PziPPA8xP0bfT+9B723Peo+Zf6Ovoi+YL4LPkG+4L9agDlA7YH3wplDHkMfwymDakPPRGsEaERGhLTEkkSag/3CtoGNAR1Am4A2/2K+wL6oPhG9s7yZe9q7TPtC+4475fwQPLc88z05vTh9MT1/PcV+zr+6wAeA+sEUQZUBx8I7wjWCbsKkAt4DIQNYw54DmwNowsKCkIJDAmOCCwHGAUJA2gB5//y/Wr73vgD9wL2WPVk9PvygfF78CLwVPDT8ITxcvK783L1lvcH+ob82P7rAOkCDgVuB9kJAwy/DQMP0A8UEMMPBw88Dq4NUQ3CDJwLyAmKB0YFPQN7Ae3/fv4h/db7ofp6+UL40/Yt9ZDzY/Lp8R7yx/Kn84v0QPWk9eH1efbu90D60fzm/kAAHQGwAcwBRAGUAN0A8QJvBu8JNwwwDaUNLg6RDkMOVA2YDNMM3A2iDhEO2wuGCNYEWAFO/tj7//mp+Iv3SPac9InyX/Cp7untS+6Q70XxGPPq9Jj25Pem+Cf5Dvrg+4T+ZQHzAwgGtAfkCF0JIgmqCJ8IVgmXCu0L+QyIDXENlwwjC4YJMAgzB1EGVAU+BBMDmQF7/8L8A/rq95z2ovV89CfzE/KP8XPxYvFH8WfxEvJK89b0j/Z5+Jb6wvzS/ssA1wIGBSwHDAmaCv0LSA1RDtsO6A61DnEOAA4pDe4LpQqeCcYIswcXBhYEFwJeAMz+HP1I+5X5Svhh94T2afUP9MDyyvFO8UbxnPFF8jLzSfR29bX2EviS+Sj7yPx4/jsA6AEvA9UDCARbBGIFNwdqCWALyQywDTcOYQ4sDsgNhw2MDZ4NUA1uDBQLcAl0B+8E7AHc/kz8a/rq+FT3fPWK88nxYvBo7+fu6O5l71Dwn/FQ8zb19/ZF+Dj5Svru+yH+ewCZAnYEPAbrB0EJCwpsCsMKRQveC2gM4wxdDbANiw2/DIILLwrkCG4HqgXVA1ICKQHj/wH+hvv0+MT2/fRi8+XxyvBI8DTwLfAN8BjwqvDX8WbzJfUg92/59vtl/oEAUAICBLEFXwcRCd0Kvwx0DpwPBRDVD14P2A5KDqEN1wzwC+UKpAkeCFEGPwT1AZX/Yf2T+zH6//i290X21vSc86Xy3fE58dbw3PBk8VfyfvOc9Jr1oPYC+Pz5a/ze/u4AlwIaBJIFtgYrBxYHLgcgCNsJkgt6DH8MKAztC7wLPQteCnsJ8QiwCFAIiQdrBh0FigNvAcz+Gvz5+ab40Pfv9sv1lvSe8/byePIG8sjxEPIT86v0a/bu9yH5SvrF+7L92//sAbgDWAXuBm0IkwkqCjsKBgrOCa8JsAnQCQUKLQoTCp0J5QgXCDoHIwauBPkCYgE5AHL/rP5//dH72/n893n2Y/Wp9Dn0BPT68wX0DfQO9CH0bvQa9TX2wPev+eP7Iv4pANcBRgO0BEAGzAclCUAKQwtHDCMNjA1lDewMeQwZDIcLhAosCdcHsQaCBfID+AHq/yX+svxY++/5lfiG98r2NfaV9en0UvTm86zzsPMQ9Nz0+fUu91f4evmm+tX7+Pwi/o3/XQFlAzkFegYaB1AHYgd7B7QHIgjICIcJGwpLCgoKbwmjCMAH3wYZBoIFGAW9BEEEdAM7ApYAr/7I/Bn7svmC+Hb3j/bZ9Ur1x/RH9Ofz3fNH9B/1TfbO96P5rPue/Sr/PAAMAfMBJAOTBAUGQgczCOEIWgmUCXEJ3ggECEYH+gYaB0cHHQeOBtoFMgV0BFMDxwE2AB3/mf5S/tv9E/0j/DD7MPoN+eH38PZu9ln2k/YI96b3RPir+M/48/h5+Y36A/yP/RH/kQALAlQDSAT8BLYFoAakB48IVAkCCpEKxQppCpAJkAipB8kGvQWABFYDdwK+AcMARv95/dT7q/r1+Xn5EPnC+Jn4ifhw+ED4Cvjx9w34Yfjj+H75IfrA+lz7+/ui/Fz9QP5k/8IAKgJeA0oEDQXLBW8GtgZ0BtsFYAVXBa4FCQYeBvIFtgWKBVcF9gRjBMMDSAMKA/oC7QKrAgIC6gCL/yv+Av0U/D/7avqh+Qn5sPh8+ED47Peg95j3+fe3+KX5oPqn+8r8Bf4w/xkAtwA3AdMBmgJoAxEElwQZBaUFEAYfBtMFdAVWBX8FrAWZBVEFIAUvBUsFCAUtBO4CuwHeAEcAtf8F/0/+vP1K/cP87vvP+q353PiF+Iz4u/jq+Bn5WPmq+f75SPqb+ib7D/xV/cn+KgBLASsC3wKBAx0EtwRZBRUG9QbeB5QI1AiNCOkHMgebBiAGngUABUkEhgOzAr4BowBz/0/+Sf1n/Kr7F/uq+lL69/mS+S752fiP+E34JPg++Lr4h/lv+kL79vuj/Fv9I/75/ub/9wAkAk4DTQQBBVAFLwWrBAAEjgOaAx4E1ARrBc0FDgZBBlIGHgapBSsF6wQEBVEFhgVfBb0EpgM2Ao8Ayf77/EP70PnK+Db45PeQ9xL3ffYO9vX1O/bN9p73q/jz+V77wvzz/dv+gP8DAI8ASQE1AjgDMQQWBe0FuQZiB8IHzAeWB0QH6waVBlYGSwZ0BpMGRgZYBfQDhgJgAYEAuP/w/lD+/f3X/Xf9h/wP+3r5RPig92n3WfdM91P3kPf691z4f/hs+H/4JvmI+mT8Rv7l/1QByQJSBLgFuQZUB84HcwhPCSoKuwrhCqkKMAqKCb0I1AfdBuUF9AQGBBMDDQLoAKX/WP4f/QP8+Pr1+Qj5Uvje94j3IPee9jH2C/Yx9nf2v/Yp9/P3K/mO+rv7i/w0/RH+SP+xAAICFgMHBPsE7gWfBscGYAa+BWQFqwV8BmUH8gcBCMgHlQd3BzgHpQbXBS8F/QQpBTMFlgQ1A2IBkf/y/Wv80Pox+df3Aves9or2RfbF9UP1FvVv9TP2HfcJ+BT5cfoY/LH91v5z/9b/ZgBHAU8CSQM3BDoFVAZLB9kH7wfKB7sH5QcpCFMISwglCPgHuAc4B1IGEQWpA1YCOwFSAIH/pP6h/Xb8Pvsb+hn5LPhN95f2OPZG9p/2BfdI9273mvfw94L4S/k8+kv7e/zZ/WH/6wA9AkMDIgQZBUMGfAePCGQJCQqHCs4KxwpwCuMJNwl1CJwHuwbgBQUFBAS2AiIBg/8l/iT9X/ya+7z63/ko+Zr4EPhv98r2WfZE9or2CPeb9y/4vPhI+eT5pvqW+6T8uv3P/u7/HQFNAmgDZQRHBRAGrQYJBx4H/Qa/BnwGSAYzBj8GVgZMBgEGcwXGBB0EhgP8AoQCMwIcAicCEwKfAbQAb/8C/pj8UftE+nP5y/gz+Kn3PPf29sf2ofab9ur2rvfP+BX6YvvB/D3+rf/OAIIB/AGRAm8DeARqBSgGxwZiB+sHLAgDCIkH/waSBj4G7AWdBWcFTQUsBcwEDwQGA9cBrACk/8/+J/6Q/fH8Sfyf++36Hfow+VH4uPd894j3wPcc+Jn4Fflo+ZP5zflW+j77Zfyo/f7+ZgDLAQkDDwTmBKgFZgYsB/oHygiKCSYKhQqNCigKXAlYCF8HlwbuBT0FbgSFA4QCXQEOAK3+Zf1N/Gf7svo6+v/53vma+RD5U/ii9zj3MPd79/X3gfgT+a35TPrh+mr7A/zU/PH9Pf+LALsB0ALUA8MEjwUxBqsGBQdNB44HxAfLB3kHxwbiBQsFZwTrA3kD/AJvAtcBQQHBAFsA9v92/+n+jP6E/qf+kf4H/iv9Ufyn+xn7gvrq+Xr5Tvla+X35oPnC+ef5H/qG+jn7PPxn/YT+d/9UAD0BLALqAkMDSgNXA7kDcAQtBasF5wUMBisGJwbdBVgF0AR3BFoEaAR7BGUE/QNAA1UCbQGXAL//3f4T/of9Mf3Z/FL8nvvc+iH6bfnI+Fb4Ofht+Mf4Gvle+af5CfqF+gv7mPtD/C79X/6w/+UA5QHEAqMDhgRVBQUGpwZOB+wHYQiZCJ0IdAgWCHsHtQbhBRMFTwSYA/gCYwKxAbUAdf8r/hP9P/yd+xn7pfo2+sD5Sfnl+KP4dfhI+Cn4Rfi7+HX5OPrc+nD7G/z1/O/95v7O/7wAwgHXAtYDoARCBd8FhgYXB2UHZQczB+MGawa5BeEEDQReA9ECVQLqAZUBSAHnAG4A+/+0/5//qf+//9T/1f+h/yb/cf6i/dL8DPxX+7v6Pvrj+bH5pPml+Yz5Vfk8+ZP5bfqI+5D8ff2H/sv/GwEiAscCOwPAA2gEGAW0BTUGnwblBvMGuAY6BpkFBgWlBHgEXwQxBN4DcwMFA5UCEwJpAZIAq//s/nb+M/7b/Tz9Y/yM+9P6LPqL+RP57vgS+UL5V/lv+bb5H/p6+sH6MvsI/DL9aP6B/4cAhQFhAv8CdQP6A6IETwXlBXIGCAeQB9IHtwdoBxUHxgZkBugFZwXpBFgElQOiApYBggBu/2f+jP3s/HP8+vtr+9P6SvrY+Xr5MPkB+fj4Gvlj+cn5SPrY+m77+ftw/Ob8hv1r/n//ggBFAdoBcwIkA9EDVwS9BCgFpQUbBmUGewZpBjYG3AVeBcsELAR8A7YC6gEzAZkACQBu/8r+Nf7D/Xr9Vf1J/Uf9PP0k/RX9K/12/eD9O/5d/jn+6/2l/Yv9lv2i/ZL9af1D/TT9PP1L/Vf9Y/2B/cj9Pv7Q/l//3P9VAN8AdgH8AWICuQIiA6IDHgR4BKgEtQStBJgEeQRLBAEEoANJAyMDIQMGA6ECBQJyAQMBnAAgAKn/Y/9E/wb/cf6Y/bz8Bfxs++P6cvom+vv54PnL+bn5o/mN+Zn59Pmp+pD7gfx9/Zf+wv/NAKEBVAIEA6gDLQSpBEkFCAafBtEGtAaMBnAGNAa9BT0F9gTdBKEECwQ/A4QC8QFgAa8A5f8a/1X+kv3c/ET8w/s8+6L6B/qL+UT5N/ld+Z/53/kU+lb6yfpr+xb8tPxd/TL+K/8aAOMAlwFOAvkCfgPkA1AEzQQ2BWsFfAWWBb4FywWaBUAF6AScBEQE1QNeA+4CbAKxAboAsv/K/g3+cf3w/JT8XvxA/CD88/vA+5n7mvvV+0H8uvwh/Xz95v1o/ub+N/9e/4X/y/8hAFwAbgBvAHsAiAB6AEQAAADP/7P/n/+U/6T/2v8kAGYAmgDSABYBWgGYAeMBUwLYAjgDRQMPA8sCnAJ5Ak4CIAIBAvkB/AH8AfAByQF1AfoAfAAiAO//xP+I/0P/+v6d/hT+af3F/EL81/tx+xj74frW+uL68/oL+zX7cfvF+0L88/zD/Yz+SP8TAPcAwwE/AoQC7wK7A6wEVwWSBZgFqAW6BZwFRQXfBIwERAT2A6sDagMZA5MC3AEqAaAALwC0/zL/wf5f/ur9Wf3O/Gn8F/yy+0L79vrk+uf62/rQ+vj6XPvT+z/8r/w5/dH9X/7o/ob/PADrAH0BCAKaAhsDaAOPA8UDHQRpBHgEVQQpBP4DwwN+A1MDRAMUA5AC4wFsAUYBJgHBAC8AvP97/zv/4P6S/nf+YP4B/mn9CP0l/X/9k/00/bb8evyB/If8c/x6/NH8Yv3t/Vb+vf5G/9f/NgBZAHoA3AB4AQ4CbQKnAuQCGAMKA6kCMALwAfYBCQL5Ac0BogF0ASEBowAiAMP/hv9c/0n/Xf+P/7f/sv9//zP/5f6v/rD+6v40/13/Yv90/7D/8f8BAN3/u//E/+r/CgAiAEMAagB8AGoATQA+ADQAFQDd/6X/f/9l/0X/Ev/P/oT+Rv4i/g/+9v3W/df9GP6B/sv+1v7N/vD+R/+t/xgApABVAegBHwISAh8CcQLPAucCtgKFApACxwLzAuYClAITApUBVgFaAVsBCwF+ABsAHAA6APj/Qv+L/kX+Xv5l/hz+t/2K/aD9uv2p/X79Yv1Z/VD9Tv1y/cT9F/4+/kn+f/4E/6P/BgAcACkAbwDcACsBTAF1AdQBSgKVAq0CvALSAsQCewI3AksCngKwAjgCigE3AVIBXQHrAC4At/+7/+P/wf9Q/9z+j/5J/vD9pf2h/d/9Ev7+/br9kP2n/dr98P3j/ev9OP65/ib/Uf9Z/4j/AgCgABoBSwFKAUgBZAGWAcEB0wHTAd8BBwI2AkQCJwL+AeMBwAFqAe0AkgCAAHwAJAB5//L+8f5J/23/GP+d/nD+nP7P/tP+z/73/jj/WP9Q/1T/f/+h/4P/RP83/3X/tP+u/4X/lv/2/0cALADL/6L/8P9rAKAAewBHAEwAhgDLAPwAAAG+AEcA8/8hALAABAGnAOP/dv+7/z8AVADX/0L/Dv88/4j/z/8gAHgArQCpAJEAowDuAD8BTwEEAYUAKwA0AJIA8AAPAfsA4AC1AE0At/9Y/27/q/+L/w7/yv4b/4//dP/J/lP+lP4h/zr/yf5z/qn+Ff8f/7b+U/5X/rL+If+A/7//3f/9/2cALAHpASQC6AGyAcwB8QHNAYgBiAHAAbABIQGNAHoAwAC7ADwAv/+r/7n/Z//N/o/+/P6e/8z/cf8B/8/+yP7L/uf+JP9N/zP/B/8u/7D/FgAJAMz/7/+KAAkB2QAfAJj/xf9jAM4AswBWAB4AGgAMANv/tP+4/7f/dv8b/xT/hP/7////sv+q/xwAgwBbAO//BQDIAHABNAFVANb/NADcAAMBrACCANUAKgHtAEQA2/8CAFQAQQDH/2T/av+a/4D/DP+t/sb+Kf9A/8L+Hv4H/p/+Sv9m/w//7P5Y//z/VgBiAH0AvwDgALkApAABAZ0B4gGTASEBGwGIAQMCPwI1AucBTwGfAEgAgADrAPcAiwAPAM7/kv8Y/5D+aP6c/qf+Pv7C/cr9Vv7T/uT+yf7m/iD/Dv+j/lX+iv4R/3j/q//8/4sA7wC+ADQADQChAHMBuQFDAaAAYgCEAKUAqgDQACEBMAGhAM7/if8cANcAyADf//3+7f6F//3/+P/V/wkAbwCDABsApf+a/+z/JgD0/3H/9f7M/hf/yf+SAPUArwARAMj/KwDXACEB2gB7AH8AwAC5AEoA7/8dAJQApQAaAIf/jP8AAB4Aff+a/jf+e/7h/vr+5f4B/1j/pv/F/9r/CgA9AEUALQApAEwAbABcACUA+/8GAEUAmgDcAPUA9AD7AAQB1ABLALX/mv8WAJwAiQDp/2f/ev/k/x8ACwD5/x4ASAA4AP3/0P+2/4T/K//V/qv+t/78/on/RADTAOcAmABLAD4AVABfAGAAYgBQABkA9/8xALIADwEXARABMgE3AbsA9v+b/+P/IACj/7X+RP6p/jr/Sf8H/x3/lv/d/67/i//m/1kAKQBq/xL/wf/hAFcBywDy/5j/zf8PAAEAs/9p/1z/n/8RAFsANgDG/4b/tv8HAAQAsv+N/9//WwCIAFwAPABiAIgAUQDM/2r/d//E/+//3P/F/+j/LwBUAD0AIQBFAJ4A2AC2AF8AKQAzAFIAVgBSAHEArwDTALQAagAiAO//zv++/77/sv97/yr/+f4K/0T/fP+t/97/8f/A/2z/Uf+a//j/BAC9/4f/nf/W/+7/7/8IADIAOAAHAMz/p/+T/6b/JgAUAckBfQFNAFj/h/9wANUAKQA6/yX//v/jAC4BIgFKAZEBbAG6ABAAAgBqAKAAUgDN/33/XP8c/8H+sP4s/97/LgD8/7z/0v8KAOr/fv9r/w4AzwC6AMD/Bv+a/x0BAwJKAZz/k/4D/z0A9gCYAKP/8v7w/mz/6/8NALn/LP/Q/ur+Yf/f/yEAKwAnACsAKAANAOn/2//3/ygASABAAB8ACwAVACcAHQDu/73/tP/c/xoATABiAGIAYQBzAJoAwgC/AGwAy/8d/8X+/f6T/wYA/P+q/6H/HQCxALoAMAC1/8v/NABOAP3/yf8XAJcAswBkADAAaAC/AM4ArAC5APAA4wBiAM//nv+//8f/lf93/7H/HgBpAGEA9v8s/03+//24/gUAxQBfAHb/Hv+K/+3/uf9n/63/WQB2AKz/6f5H/6QAsgF/AXsA0/8SAK4A2ABkAMb/Z/9K/0//ev/X/y0AIAC4/4n/GgAhAaUBAwG2/9v+//6X/9T/n/+V/x0A3QA3AQIBmgBRACkAAADI/37/KP/9/lj/QwAmAUABfwCq/4X/AgBuAFUA5f+E/2P/gf/W/0UAhQBqACsAGQAXALz/Hv8A/+f/JwF2AYQAdv9+/00AhgCZ/4H+ZP4N/1L/zv5w/hv/QQCPALr/Cf/E/3wBcAKEAX//I/5N/kb/0P+M/yf/YP8XAIkASgDX/w0AEwEEAtsBnQBq/zr/x/8BAHf/+v6F/9QAlQEEAeb/l/9iAEcBZwH+ALUAegCw/2j+sv1R/pb/JwDF/5b/nQBiApADggOfAmQB1P8Z/gL9OP04/sT+cP4Q/mv+DP/+/mr+lv4bAMcB9wGkAHf/tf/DACEBbQDS/2cAwgFxArgBZQDb/4IAawFzAYIAkv+A/xcAZwD1/0X/IP+I/8b/bv/p/s/+D/8Q/6X+WP6m/lL/wv/f/xsApQD9AJ8A1v96/+//sQD9AK4AUABzACYBBwKWAn8CxQHRACwABgAIAMz/bf93/ycA/gAvAY0At/9a/23/Vf/O/l7+tf61/2wAJwBF/8T+9f4k/6H+3f3s/Qz/IwASACv/xP50/1AAMABG/9j+kf+yACQB2ACcAOgAVgFfASMBIgF+AeMBCQLpAXYBfwAp/yn+Pf5T/4EA7ACQAA0A5f8KACIA8v+T/1L/aP/D/wwA6v9m/+X+x/4R/33/0/8DABIAEQArAH0A1QDAABkAb/+S/5kApwHLAQEBIwDc////+P+d/1z/oP9EAMIAwQBbAOP/j/9Y/zD/Lv9//xoAmgCSAAQAev94/9z/AgCQ/+7+xf4w/6//2f/V//X/FgDW/0D/Af+X/5sAFAGIAH//3/4G/5r/GABOAEwAMwAjAEEAiwC6AHcA0P9O/3z/VAA3AX0BCwFbAAIAPADBAAsBxgAaAIH/Wv+T/87/1f/J/+H/DQAHALr/dP+V/xgAmgDIAKYAaAAhAML/VP8M/xX/YP+9/wgAMgApAN7/b/8h/x7/Sf9h/1b/Zf/R/4YAFwEUAXAAn/9C/6P/ZQDLAHUAv/9i/6T/HAA/AAQA2P/3/yIABgC4/5X/wv/+/wIA1v+j/3L/Nv8T/1H/9f+UAKoAJwB//0D/nf9NANUA6QC0AK8AGwGcAXwBhgBl/wr/qP+BAM0AfwAVANf/rf+Y/9D/RgBmAMb/+/4Z/1QAdQExAcX/wf4y/3UAJwHSADwAGQAvAO7/e/+E/ycAngA6AF3/Bf+M/0sAgAAqAMv/p/+U/4D/n//4/y8A9v+c/6v/HgBfACEA4P82AN8A9QAiACz/Df/K/4YAkwAOAID/Rf91/wEAkgCWAOD/J/9a/1kA6wBLAFb/h//lAMUB7wBW//P+PQCPAVQB+f85/8z/tQDHACMAxv8GAEQAAACa/7v/VgCsAEQAe/8M/zv/qv/n/+P/2//m/9r/nv9//+H/ogAEAX8Akv9b/zMAGgHiAML/Hf++/8MA1QDu/0//p/8vAOT/Ff/s/rn/bQAiAFf/Nv/v/4wAWwDK/5z/2f8AAPL/EABsAIwALQDT/yEA2wAgAZMA0f+b/+b/FgDs/8D/4P8bACAA/v8GAE0AiwCHAFQAIQD0/8L/mP+U/67/wP+6/7L/xP/t/w4ADwDt/73/q//Y/ycARQAAAJj/fv/S/zYARAAKAN//5f/n/77/mf+w/+L/3P+T/2P/lv/3/xUA1P+L/4L/m/+V/3z/nv8RAG8ATADK/4f/5/+RAM8AYgDN/7L/FwBsAEoA9P/0/2QAygC2AEUA8v///zoAUgAwAPH/sf+G/4z/0P8jADoABgDS/+D/DAD+/6z/fP+6/yUANwDW/3//sP9NAL8AqgBCAPv//P8UAB0ALABdAI4AeAAYAMH/w/8NAEEAKwDy/9X/z/+q/1v/Iv82/3r/nf+E/2D/YP9z/3j/fP+l/9//6f+y/4D/mf/h/wEA4P/H//H/NwBMADcAQQB/AKkAhgBJAFUArgDrALwATgAHAA4AKwAsABkAFAAWAP7/yP+h/6//6P8jAEIASgBUAG8AkACaAIAAVAA8AD4ANQAJANv/6v86AH0AYwAAALf/yP8QAEIARAA8AEIARAAoAP//8v8IAB8AHgAQAAwAEwAQAPr/3//F/6r/kv+P/6v/xf+z/3//bv+z/x8ARQD5/4j/af+w/wAABADT/8T/7/8SAPT/uv+1//L/KwAmAAUADgBOAIAAaAAVAMX/qv/H/wMAOQBEABwA6//q/x0ARwA0AAIA+v8vAF0ARwARABgAdgDVAM0AYgD6/+T/CgAaAPv/4/8CADgANgDv/7b/4/9YAJwAaAABAOb/NACQAKEAdgBaAGAAVwAfAOX/3v/1/+j/qP9q/13/bv9z/2//hf+w/8D/nf9u/2z/of/f//3/9P/e/9f/9P83AIUAuADFALoAngByAEYAQwBoAGcA+/9d/yb/kP8ZAB4AsP90/7H/3/94/9f+1/6m/2YATwCx/4H/DgCoAKEANAAaAH4A3gDWAKAAngC0AHoA6f+B/6b/JgB5AGQAIQD+/wAABQD5/+n/3P/O/77/vP/R//L/BAD2/9b/wf/M/+T/4v+1/3//b/+D/4v/a/9Q/3T/z/8ZAB8A///v//b/7//W/9X/AgAwACEA1P+T/6P//P9XAHAAOQDk/7X/0f8hAG0AiwB5AEcA/P+r/4D/nP/Z/+n/uP+P/7X/BAAaAOf/yv8IAFsAUADw/8P/EAB+AJIAVgA4AF8AcQAlAML/v/8XAE4AFgC2/5T/sf+0/33/Tv9r/8H/DQAzAEoAXABSABsA1f+o/5//q/+7/8T/vv+r/6L/s//M/8f/ov+P/7b/9v8IANP/jf92/5b/xf/r/xAANwBOAEkAQABRAGsAYAAnAPn/GQCCAOEA5QCPACgA9P/5/wwADgAEAAAAAwAEAAAAAAD9/+P/sv+Y/8n/PQCgAK0AeABWAHMAogCbAFUADQD3/xAANQBaAIgAsQC0AIQAQgAcAB4AKwAsACUAIAAVAPH/sP9n/y//Ff8d/0H/dv+e/5v/av8n/wL/Ef9I/4j/vP/k/woAMABJAFAASwBGAEUAPQAoABAABQALAA8A///X/6//pP/F/wEANwBIAC8ABQDv/wAAKQBDADMAAgDa/9v/AwAsAD0APABBAFMAYQBfAFkAYABrAGAANgAPAA0ALgBRAGAAXQBKABoAx/95/2b/mf/h/w0AHQAvAEQAPAAMANn/zv/q/w4AKwBLAGkAYQAgANL/u//m/xQABgDP/7T/1v8JAAsA1v+a/4D/hP+K/4//qP/g/x4AQQA/ACkAFwANAAcABwAWADQASAA2AP3/v/+n/8n/DQBJAFwAQgAVAPr/BwAvAEwARwAsAB4ALQBCAEcAQgBSAHcAigBkABEAyv+8/9z//v8KAAQA/f/3//b/BgAxAGcAfQBZABIA3f/b//b/AADn/8v/3v8uAI8AvQCRACQAvf+d/8z/FgA3ABUA0v+n/6X/rP+V/2v/XP+J/9z/HAAmAAgA6P/m/wIAKABGAE0APQAhAAkA/P/0/+f/1f/L/9L/4f/e/7L/cP9M/3P/3P9IAH4AfABqAGQAVgAnAOn/1P8BAEUAYAA7AAEA3//V/8j/qv+V/6f/3f8UACEA8P+Z/1T/Xv/D/08ArQCwAHcAQgA2ADoAKADy/7X/lf+e/8T/7v8EAPb/x/+J/1X/Pf87/0T/Tv9b/2n/a/9V/y7/HP9D/6j/IAB1AJMAkgCTAJcAiABkAE4AYwCUAKUAagD7/5z/h/+6/wQALAAbAOH/rf+u//H/UgCXAJwAbQAyAAoA/f8IACoAUwBiAEAA/P/I/8f/7P8MABIADwAWAB8AEADt/9j/5/8FAAkA7v/f////OgBWADgAAgDu/wkALwA5ACUAEQAOAAoA7//E/6n/uf/p/xYAHgADAOX/7/8rAHAAfQA1AMD/af9Y/2b/SP/x/qX+uf4y/7r/9P/V/6H/mP+8/+D/5v/c/+L/AgAvAFYAdQCSALgA8AA6AXUBcQERAXwABADm/xIAQwBBAA4A0/+r/53/rf/j/zcAgACHADwAxv9e/x3/+P7b/sf+0v4L/2n/0P8jAFEAXQBgAHYAngC4AKMAZQAuAB8ALAApAA8ABgAzAIEApgB5ABsA2f/Z//3/FAAZACgASgBYACcAwP9e/zT/Qf9h/37/pf/r/z4AagBBAMX/MP/S/uD+VP/x/28AqgCvAJ0AfwBVAC0ALgBsAMAA3QCZACEA0P/T/wkAMAA6AEYAagB/AEwA0f9Z/zX/bv/C//L/+f8DADcAiADGAMgAiwA4AP///v8jAEIAPwAqAC0AUQBsAEoA7P+V/4z/0/8nAEYAMgAhAEEAhgC9ALoAbgDu/2X/D/8h/6T/WwDeANoARwBt/7/+mP4M/9L/ZgBfAMH//f6S/qf+/f5G/4D/6f+gAGYBzQGgARMBkwBjAH0AuADyABkBHgHsAIIA+f93/xX/2P7A/tb+H/+V/xwAkwDbAOwA2QDBALAAjwA2AKH/Bf+m/pT+ov6g/qH+4v5u//X/BgCP//7+5P5p/yoApQCwAJgAxgBRAekBGwKwAd0AGgDQ/woAZgBrAPL/S//4/iz/nf/E/2L/tf5F/mn+B/+w//v/1f+I/3j/yv9AAG0AIQCi/3T/0v9jAIYA8v8H/33+wP6M/0EAcwBHAEAAvQCnAX4CwAJLAncB2ADOADkBmgGBAeYAHwCD/yX/6P69/sD+AP9N/1b//f6O/of+K/83AA8BMwGUAJr/1P6V/sj+Ev8o/w3/Bv9N/9j/XwCdAIcAOADR/2f/FP8C/1D/4/9uAKwAlQBYACoAJQBDAHoAuQDmAOYAtwCDAH0AtAAIAUIBQAEMAccAkwB/AH0AYgAEAGL/wv6L/vP+x/+JAM8AjgASALj/qP/O//7/EwDv/2v/Xf7G/AH7yPnQ+Ub7i/2F/2wAZABSAAoBigIKBMoE0gTiBJ8F3gawBzIHUgXYAr4AfP/a/lP+o/3z/I78dfw8/GP73flJ+JT3Qfj9+eH7KP3F/VH+af8SAagCXwPxAukBSgHdAagD6wW7B5sItgh2CAkIPAfcBSUEswL9Ac8BWAHM/wb9pvmY9nf0WPP98jfzC/SL9Yn3ivkL++f7h/yk/bv/rALLBVcI7wmoCtEKqwpKCqsJwQh/B+cFGQRYAuoA6P8w/43+5v1P/d78jvxJ/BT8Ivyn/J/9uf6e/zYAwQB7ATECIwKDAC79CfmN9dHz5fMK9ZT2h/hp+2P/vwNBBxoJfwljCaQJegqbC7QMlQ35DUkN2QqHBiABEvyK+Lr22fXW9CPz8PDU7kvtlezx7MDuUvJm9wz9GQLhBZII2Ao2DbUPFRJBFFMWPRhpGeAY6xWpEDMKEARy/6H8/fp0+SH3tPNg74Pqb+WV4ODcydu33gXmUPDf+vwCfwdjCesK+g3FEuQXhhu8HMMbNxk2FWEPvgd3/3f4KPRr8sfxwfAC72Xt+ewP7jnwEfPX9ib8/wIsCrwPUBIgEscQBxB+EGQRWBF3D9ALEwf1AfL8bfjc9Kjy7vFt8qLz8/TE9ZD1OPRj8m3xvfLM9rT8ogLqBswIgwjNBn8EhwLqAU8DNAaOCLAHLAJg+SDxhO1I8NX3nwCwBz8MPg+oEVETRhMtER8OEAxNDEwO5A+gDkEJaQA29jbtU+cs5QbmPej96QnqN+iE5bLjnuSD6Wry+v3TCXYTVhl+G2Mb4RoaGwcc6BwFHQ0cxxmxFTAPVQZx/LnzBO6o62zrievX6inp0OYa5G3h1N8g4fnmf/Gn/hYLABSUGPgZEho1GrMaRBt1G6Ya3RcKEtsIdf0t8mHpLuQh4vThpuL74zDmb+mj7bPyvPji/+8HIBBoF+UcFiDMIBAfVBufFkoSLQ/dDMcJYwSP/PzzHe2G6QfpNuq36xftk+5R8AHyTfNz9FH2nvkp/tICVQYsCMUI9whQCeEJhQovC+cLlAzXDCoMCArwBXL/l/aJ7OPj8N/r4k3sm/gyA/MIAgpRCVYKtA5pFd8bvx8lII0d6BjVEn0LBAP4+WDxYeqx5S/j3eFg4NTdldpL2CXZoN6f6H312AJ8DvwW2xurHf8d6x7YIVMm4ClcKSojbRhNDMsBA/os9AjvQOps5hbk9eJD4rzhHeKZ5MvpN/Gg+bwBfAj2DIMOZQ1XCxALmQ6KFbocCyAUHbUUXAqTAd/7avh29Qrybu5Z6/Pox+az5KLjNeV+6vDyhPzsBNQKSw5JEOgR4RNVFssYThrZGeIWtxFUC9sEHf+H+lP3ivXZ9H30kfOy8WLvy+0G7mzwdfQc+W795gBeA9wEawU9BdUE9AQbBv8HfwldCTkH/gNBAR4AjQCkAWYCSQIyATv/sfwV+tT31fWR8+/wJe9i8AX28P63B/kM5Q2yDJUMIw9eE+8WBRgzFuwRwAsyBBP8lvTK7v3qtug95y7mleWm5XvmFuic6nTuIPTT+/QEEw5yFQMaCxzLHHIdLh4+HswckRm9FHEOrwbp/Wv1yu7B6rPoZedE5tPl7Oa/6bjtO/Is95P86wFABiIJRwv4DZ4RERV8FvcUPhHiDNoI/QS7ABj83vfX9AbzofHR73ftZevW6p7smvDN9RT75f93BCYJtA1CEQ8TSxP6EvsSHxNQEp8PLAsLBmYBwf33+rT41vZw9aL0evTa9G31xvXC9eT1EvfI+WX9aACUAewAlf/U/h7/HgBUAYIChQMRBM4DzQKjAf4AHgHFAZwCgQNkBP0E1QSuA94BMwCB/x4AgAEzAlwA+/pV8xrtduwE8y3+tgh9DjkP4A2IDdYOQhBOEAkPYA1wCxQIRQKf+jLzwe1Y6sLnNuVc45fjbubW6hLvOPL29Pb4iP+gCMISoxsuIWEiyh89G+8WRRQQE7wRWA7cB+X+bPWz7QrpVed/53Xo0enE64vuB/Lw9Tz6LP/SBIoK+Q7BEHIP+wtNCGUGSAd3ChcO2A8ZDssIbQFA+hz1nvIj8mPyOfIp8YHvEu7P7WfvEfN8+Ob+QwWQCjAOMhAwEdoRdRLAElESCBETD5MMTAniBHP/8vnQ9RP0l/Qc9g33cPZr9Bzy8PDd8ej0Lflg/XUACgJhAgkCjwFqAfgBYQNpBWQHfggoCGQGtwPVAGH+5fzV/Hn+jAH5BBMHcwb7Ah3+Bfr792z3ffbr85/wYe+z8or6+wM/C4EOBA/CD7QSIhdOGsQZRBWsDjgItQJQ/QD3BvD46VjmIeXr5HvkIORn5Wbpe+/o9ZL7BgGOB2QP/xY8HCcefx23G6YZPxczFGEQnwuPBR3+Q/bY7zXs+up46nHpcegm6Yfss/HK9q76xv0yAYMFYQoZDyET9RXUFhoVBhHcCwwHKQO//yz8YPi99HXxXO5r6zvprugu6lTtcfE39r778QEpCIgNkxFeFCQW8Ba8FrUVGBTOEV0OfgnGA33+tfp9+A73rfVO9GLzPPPE87T06PVs90P5Ufto/Un/pwBLAV8BdwEeAjwDIAQ/BOQD2QNdBJ8EggPkAPX9Evx0+0H7z/qw+iD8j//uA3QH/QiUCO0GrQQ2Aqn/s/yH+Lbyhuwt6d3r3vSDAH0JxQygCwsKNAtIDwcU/BYCF0gUmA/NCaQDjf2L94Tx0uta5+fkX+Tc5KTl2eY36TPtv/LM+ZkC9Aw+F7wediHtH8ocoRr/GXsZXxf1Em8MQgQZ+0jyi+vT52jmsuX+5EzlD+hM7WDzvviL/QYDcQntDvUQ9g48CxoJKwpKDecPFBB0Db0I6QLd/G/3QvN/8Nru6e1k7SHtA+1C7bnuh/IR+ToB4ghMDjQRjxJfE+ATuhO9EiERNQ/oDN4J2QULAQj8oPeq9LDzgfQW9iH3B/da9kv2oPcj+gL9lf+fAQkDlwMYA7oBEgDN/m3+Qf9MAfAD2wXBBY0DxQBm/xgAmwEgAisB4/+J/+j/n//p/dT7Ufs1/ToADAIUAV/9M/h081nx9fPd+9IGRBAhFN0R2AyICesJdwwyDnsN3AqHB54DLP6h9gbupeaI4lHiJuV16cvtRvHJ8+n1oPjV/O0CmQreEi8awR43H4IbURVaD8wL6wr5CoMJFQUU/kv2ve+k6y3q4eoj7XHwVfRC+Lv7m/44AQkEBAdUCewJnAiUBroFDAefCR4LqAleBVMA1vyc+2j7Vvqu93j0cPJf8nfzRvRG9Hn0Y/Z4+of/zQONBooI+QoEDn8QFRGqD4QNCgx7C8MKkwicBNL/r/s3+Xf4q/jV+FT4Nfcd9tH1nfYh+Kv5zvqp+5/83P0c//j/TgBrANcA5wF2A94ETQVdBJgCYwH+AUMEVwbvBU8CO/3A+dD50fx1AOQCCgTcBJEF1AT/ABr6tfKd7mTwsfeAAQoK1g6sDwkO0wtHCs8JVgqJC7AMlwz5CVsEg/wo9BDtbei15qLnH+p+7Gbt9+zu7Evvm/Sf+6wCLQmHD5UV2hmTGrMXYRNTEJsPIxAFEAAOswkjA8X6IvLH68Lp7+v771bzKvVe9vD3xPkx+1b8W/4rAjEHnQvxDRcO+wxhC18J6gZuBI4CXQEPAKX95fmk9THyiPDj8MbyNvUh9/n3Nvgv+Rj88wBrBuEKlA3iDn0PqA9ED1oOTg1ZDBULzQhTBVMBvv3o+m/4AvYA9DrzFvQX9kP4y/lm+jX6q/mH+YX6wvxt/1kBBQILAmkCbANzBLsEJgQjAwcC1QCn/+3+7f43/wX/Vf5e/mcAJASJB30IqAZTA5X/GPsl9cXuROvw7fn2hgIkC5sNEAvOB+wHZwy0EvUW4RY1E48OyApLB/YBvPlb8FDp5OYh6LPp5ujm5VDjzuMc6CTve/eFABwKhBMTGyAfTx/3HDsapBhFGNIXeRXlDxQHhPyP8izr9eZB5SflTuay6OPr5O4s8YLzaPdo/TIEvglPDfQP6RLCFa4WlhSFEKIM3gkoB/UCOP169ybzSfAf7nvsGOyN7Wzwq/O19q/50/z0/+4CMgZYChIP5BJKFBoTmhArDiYMDwqZBxYF9wIvAUv/Af1n+s33mvVy9Ab1U/cV+m37b/oc+JH2OPfA+bj85P7r/xQA5v8TAFYB1AObBhcIWQfxBGECxAAXAM//qf/N/zcAfQBaADgA0AAwAk8DtwKs/6r6DvV+8KPuxvAK97f/oAf2C0cM1QrTCtQNnxJFFn0WNxNFDocJYgW/AH/69vL+65/neeZU5zvoBOgW5+jm2ehp7UH0r/z1BS8PGBc8HMIdPhymGSwYnxivGcgY9BNSC/cAkPfb8A/tSut36vbp0umD6m7sf+8r8+L2kfqb/lgDiQhaDeMQthLpEs0RpA+lDB8JhwU9Ak3/X/wA+SX1bPHa7hzu9e588PLxbfOZ9dD4o/xTAJ0D2AZECnENng+LEL4Q0RCtEKkPXg0gCpkGKwPv/yP9NPsu+m35R/jw9nD2Uve2+Pv4l/fo9QD2jvg3/Pf++P/6/yIAyQB8Ac8B7QFNAigDRAQ4Ba8FewWiBGEDJAJYAT4B4AEHAxcEBgS0AaT8gvUh7vDoRuiE7Rj48wR5DwMUYBIRDqcLWw29EWgV1RXEEoENagctAfn64vQV7/TpKOZS5F3kO+Wo5X/lIOZX6cjvePjLAa8KqhIrGUIdXB4bHSEb3Rl/GfMYwxYSEgsLxQK9+iX0b+9q7MXqUurK6obr9Oto7C/uaPKn+Aj/ywPDBg8JjAvwDYEPMBCVENAQChBZDfcIHgSy/4f7JfcP85rwePC78bDyj/IO8lry4fNo9uL5mv5RBKoJ+AyuDdQM9AvHCxIMbQy4DL8M2AteCY8FpQHQ/jP9Cfyn+iP58/cy94D2nPXc9Ov0H/Yu+HL6WPyX/TP+cf68/m7/hwCyAZwCSwMOBB4FVAY6B1UHZwaKBCgC3v9J/sv9dP4WAD4C/QPYA2kAoPmt8XTsWe3d9Ov/oQluDicOpwtbCtYLJQ8TEgITuRHlDhQLSQZVAHb5j/LX7ELp7+f/5w3oMefT5W7lYOfW6/jxDPkeATYKExNGGRQbWRklFy0XgRm1GysbHBehEF4JZAIw/Ar3IfNd8GruBO0M7FXruuqN6tXrie9m9an7TgDGAlIEtAaDCsoODRJ5EzcT2xHAD9sM+gg/BGz/rvuu+b/4Gfdv82XuYeqN6Q3sLvA+9O/36vtrAMIEJQiQCpkMpQ6VEDsSjxM/FGwTXhChC/wG6wMwAjsABf0t+SH2bvRE87Lx5+8Q7w/wpfLM9Yz4bfpu+/X7uvxU/pwAswLjA4AEhQVRB+wI+AgyB+UEtgMtBHAFOgbiBYIEigJIAKT9IPpe9Rzwu+wD7qv06v0eBYwHrgaWBvsJ3Q/rFNoWEBZVFIMSzw8JCyEEb/zC9UXx8u6b7aLrKej84zLhj+EY5U/q2++w9Xn8AwTECiIPFxFOEowUHxi9G7YdIB0cGl0VqQ+mCdwDyv7a+iz4TPYu9NjwXuw+6HDm2OeI65Lvn/K29L72ffkm/ZMBfgZoC48PShJ/E4oTsRLdEP8NpwrUBwIGdAS2Aez8vPbd8NjsG+sk61Lsb+6N8Xn1jfkX/fD/twJGBtgKog9BE7QUDRRNEo0QQA8BDhcMFAkzBSkBmf2f+tr3APVo8ubw/PAz8mjz7fMw9DX1VvfI+W77G/y9/Fb+2gA8A38EngRjBJMEXgV8BpAHYgjTCMsISAhZBwYGKwRxAXv9R/iw8pDuAu7c8aD4JP/TApUDlAP6BAYIPQtODVwOZg+zEDwRoQ+MCwUGowCE/NH5yvdL9ZzxL+2T6THo/uiM6q/r5+zH7+r01vpU/8wB5QOqB0YN2RJnFpkXjhdFF6gWDBU3EsUOmQsuCUcHDgWMAWf8evaP8SDvJO8o8KHwD/DM7iLtFesw6RfpnuwJ9Gr90wVMC60NFw7zDWwOGxCgEo8UWRSaEWsNKgkYBXoAJPtg9uzzGvRP9Y31RfSW8vjxDPOn9WX5zv0RAjkF6ga8B5AIkQkwCh4K6QlPChAL1gpyCCYEjP9K/Pn6JPvz+6/8z/wE/F76VfiH9nf1h/Xz9oP5Sfzu/bj9RPwX+2H7Mf3M/5MCUQXGB1oJhAlkCKQGxwTAAnwAiP7l/Qv/SgFMAzEEEAR6A80CHwKhAb8BrwIUBCgFTgVfBIgCFgB5/Vz7W/qG+i/7Y/uo+kX55/cG96f2p/YT9yv4D/pm/HL+j/+x/3f/qP+ZAA0ClQMNBY8GCggQCTkJrwgxCGUIMAnRCZMJawjaBl0FDASvAhoBU/+D/dr7c/pJ+TT4Dvfv9TT1OvUD9iT3IPjF+ED52fnB+v37fP0d/7oARwLFAx4FBAYvBs0FiwX+BfAGcwfSBlIF7wNMAyYD4gJqAkACsQJAAxQD3gEmALX+7v3O/Uj+PP8iABoAsP6D/N76k/pQ+yr8o/zt/E79lf1p/ej8qvwR/d79iP7m/k3/9v+bAMIAUgC2/3b/zf+jAK8BhgKzAhYCNwECAeEBQQMcBAsEmQN+A7oDsQMXA14CGgItAuIB2wCP/7v+ef48/pv93PyN/Mz8O/2S/ff9kP4S/wT/cv4G/kf+8v5N/xz/6/5O/woATQC7//T+5/7F/8wAIwGzABYA5f80ALcAGgEuAeAAUgDU/7r//f9AADcAAQD//1EAsADLAKoAjwCCADkAkP/s/uP+jP9RAH4A+v9C/9X+vv7H/uP+MP+t/xcANwArADkAbwCNAHkAfAD/AO8BrAKkAu4BMwHzAA4BAQGKAO3/mP+p/9r/0f93//v+mP5u/nn+l/6f/nX+Iv7P/aT9qP3I/ff9Rf7L/ob/SADWAA0B+gDWAN4AKgGUAdUBwAFnAQwB4gDiAOEAyACpAKMArgChAGYAGgD2/xMATQBnAEgAFAAEACsAZAB4AFoAMwA5AHAAmQB2AAgAn/+G/7v/7v/S/2P/1f5c/gP+w/2o/cb9GP5w/qj+wv7c/gj/Rv+a/x0A0QCIAfsBGwImAl0CsQLNAnkC4wFxAU4BTAEmAdoAnAB+AFUA8/9t/w//Bf80/1z/Yv9W/0n/Lv/8/sv+yf4I/3P/4/8/AHcAfgBeAEMAXACXAJsAJABa/8H+tf4K/0b/Kv/s/uf+Kf9w/4L/dP92/5H/pv+t/83/JACPAMwAzwDbACsBpQHvAdgBiQFHASkBEQHsAMYApwBsAPX/ZP8T/zj/ov/x/wIAAwAqAGAAYgAbAMn/t//v/zYAWwBbAE8APQAfAPv/6f/u/+//0P+b/2T/I/+6/jD+y/3S/Tb+lv6q/pL+qP4K/3L/jv9u/3r/9v+4AFcBlwGUAYoBjAF+AU4BDwHhANIA3QD2AAsB/wC+AFkA/v/K/6b/Yf/7/rn+3/5n//f/OwArAAEA9/8VAEAAYgB3AIIAhgCGAIoAiwB6AFEAIgAHAPn/zP9l/+L+kP6a/uD+E/8D/8H+gv5m/nH+nf7u/mP/5P9QAJUAvADYAPAA/wAFAQ8BJQFDAVoBXAFFARYB2gCeAG4ATAAnAPH/q/9k/yj/9P7E/p3+kP6l/tn+G/9c/5L/sv+8/73/0/8MAFUAhQB9AEUA///E/5v/f/9z/3z/mP+z/7v/sf+l/6j/wP/t/ysAcQCvANQA2QDLAMYA5AAnAXQBnwGNATwBzABoACgADgALABAAFAAHAN7/lf8+//j+1/7V/t3+4f7w/h3/Yf+d/7n/uv++/9n/CgBAAHMAoADDANcA2gDTAM0AwgCqAIcAZgBPADEA9P+X/z//Gv8z/2b/ff9k/zb/Iv89/3P/ov++/9n/CgBUAKMA3gD/AA4BEQEFAeIArgB5AFQAQwA/ADwAMQAWAOX/pf9t/1D/Tv9c/3H/j/+3/+L/CAAkADQAPwBSAHsAwAANAT8BQQEfAf4A8ADmAMsAnQBkABkAs/9C/+v+wv67/rv+sv6o/rP+5f41/4L/qf+p/6X/y/8mAJEA1ADYALgAlQCCAIMAngDLAOYA0ACSAFIAJQD+/87/mf9y/2P/Yv9Y/zf/FP8S/z7/fP+n/7L/sv/G//b/JgAwABoAEgA1AGkAfQBiADMAFAAQABoAFADs/7P/lv+n/8z/3v/U/77/rf+p/7j/4v8kAGgAjgCHAHAAcwCPAJoAfQBXAE8AXgBeADwAAwDI/6D/nv+8/9D/tP9u/yj/BP8C/xD/IP83/2L/n//a/wsAPABrAH4AcQBqAIkAvgDlAPkAAAHqAKQAPADg/67/of+f/5b/gf9q/2D/Zv93/5D/pv+o/5//t/8DAFsAiACMAIsAmACtAMkA8AAOAQwB5gCtAHAAOQASAPr/5f/H/57/Z/8v/w//F/8v/z7/Uf+F/9D/BgAZAB8ALQBFAGcAkQCtAKoAiQBaAC4AHgAyAE4ASAAcAO//1P+2/4P/Rv8O/9z+wP7T/hX/Zf+h/7z/wf/H/+D/BQAZAB0ALABLAGIAawB/AJ0AlgBlAEQAYQCKAHEADwCt/47/rP/L/8D/pP+3/wIARQBKACgAEwAWACAALAA6ADwAMgA8AF8AdwBqAFQATQA+AAcAv/+b/6r/yf/G/5T/V/9E/2P/jf+j/7z/8P8oAEUAUQBjAHYAhQCgAMcA0wCwAIMAbgBeADYACwACABMAFADp/6D/Xv89/zT/Jf8U/yj/Z/+W/47/df+D/7P/2//4/x4ASABnAHwAhABxAEcAKwAvADkALgAVAPr/3v/R/+3/JQBTAF0ASQAoAA0ACwAeAC4AOwBdAIkAjgBeADQANAA8ACMACAAUADcATgBZAGoAeQBwAEoAFwDx//X/IgBRAFsAQQAUANP/if9a/0//Rv84/1f/tP8GAAoA2f+5/7v/xf/L/9D/0f/J/7//tP+t/73/5/8DAO//x/++/9D/1P+8/5z/hv+F/6H/xv/P/8P/1f8NAC4AGgAFABgAMAAoABcAKABNAGEAVgBBADsATgBkAFoANQAiACsAHwDi/6T/mv+u/7v/yP/h/+7/5v/y/ykAXwBpAGAAbQCOAKsAuwC4AJEARQDz/7z/vP/5/z4APwD2/7f/u//V/8X/n/+Z/7P/0//y/wkA/P/Y/9z/FwBAABgAxv+l/9H/FQA1ACAAAgAIABsA+P+k/33/tf///wsA8//y//j/1v+u/7v/7v8DAOj/yf/c/ywAkwDPALwAhQBoAGYAWAA8ADIAMQAgAA4AHAA3ADQAFgD0/9D/p/+X/7H/0v/b/+T/CgBBAHAAiAB3ADYAAAAUAFIAVwAKAMj/2P8dAEsAPAD8/7f/mf+e/5X/cP9b/27/hP9//3T/a/9K/x7/If9Z/4T/gP+E/7b/9v8iAE4AhQCeAHwAPgAcACoATQBLAAwAwv+8//P/DQDs/9T/6v/y/8P/lf+i/83/7/8aAF4AjwCOAIUApADSANgAqwB0AGAAdQB7ADoAz/+g/83/AgD3/8v/tf+u/6//2f8fACYAzP94/5D/8f8zADMAJgA6AG0AkgCFAFUAQQBiAH4AYwAwABUAAQDc/8P/z//V/6r/Zf8v/xD/Fv9k/9X/+P+e/yf/D/9j/9f/GwASANb/tf/k/z0AbQBWAB0A8f/2/zoAjACXAFYAJQA5AFgARwAoACUAHwAEAAUAPABnAEEA7P+3/8P/7/8OAAsA//8gAG4ApACQAF4ATgBWAFgAVABKACIA6//m/wYA5/9v/x3/XP/n/zAAGgD5/w0ARwBuAGcATABKAFsASQAWAAsAOQBFAPf/p/+y/9//wP9e/yP/O/9y/4v/d/9T/1f/of/5/wYAxv+U/57/wP/V//D/IQBbAIgAjABLANn/i/+O/6z/t//Y/y4AcwBYAAMA0P/W/+j/4//R/9H/CQB4AM4AwQBxADoAMQArACcARQBqAFAA/f/E/8//+P8SABUAEgAjAFEAbQBLABkAMQCDAJcAQgDp/+r/KgBoAIcAdAAiAMP/r//v/ygADACv/1b/Pv96/93/FwAMAOT/uf+F/1v/bf+f/5r/X/9c/7z/GgAbAOT/uv+i/4v/if+r/9H/5v/7/x4AQQBNADkAFgANADAASAAhAAMAagAiAUgBfACE/1n//P+XAHoAtv/z/uj+sv+bAMgANACl/7L/HQBKAAsAwv/a/0AAZwAJAKL/1/95ALkAbABIALAABgGoAAEA7f+AAPUAvAASAI7/ev+i/7b/sf/J/wAAFQD6//f/HQATALT/af+L/8r/tf9o/1H/iP/Q//r////c/6j/lv+7//H/FgA2AFoAcgB2AGYARAAlADMAXABSAAUAz//u/yAAGQD+/wkAEgDe/5X/jv/C/+L/xv+N/2v/gv+8/9r/v/+p/9j/IgA2AB4AIgBIAFoASwA7AD4AUwB9AJ8AgQAsAP3/IABHACIA2//T/yIAgQCdAE8Ay/+J/8T/IgAnANj/n/+X/3j/J//s/hL/j/8UAEEA+/+m/83/awDTAIgA3f93/4T/sP+p/3b/aP/H/2AAkgAOAG//e/8JADgAr/8h/1T/JwDIAKwAHQDW/yoAmQCBAP7/v/8LAHEAkgCPAIQAMwCL/w3/QP8AAK8A1QB7AAoA9v9SALkAxwCRAHQAmgDeAAQB5ACJAEEASwBmABEAXP/+/lz/+P8jANf/iv99/5j/tP/F/9T/4v/X/5z/VP9h/97/aACaAIcAaQAyAMP/Wf9Y/7//KQBHABoAzv+M/1T/D//V/gD/nv8QAMr/Ov9Z/04AJAEgAZ4AYABfAPH/3/7z/R7+S/9fAKMAsAB7Ab8CMwNlAmgBUAHOAdQBAAHc/wf/vv75/oX/+v/q/z//VP6t/Xv9iP2i/QP+6/74/2cAEACq/9P/XgDaACkBRAEAAZUAzgAGAjMDywKkAIT+a/5+AMkCPgO6AdT/7/7q/tv+Sv5X/UH8ivsM/Cv+8QCRAg4CJQCW/pz+7P8JAbQAIf+i/SX9af2g/Y/9sP18/r7/swDrAPAAuAFXA7EEywTtAxgDrQJGApQBzgA/APT/4f8OAGkAngBCAFP/cP5i/jT/EQA8APH/5v8+AIAAZgARAJL/4P5M/m3+T/8oAC4AeP/h/gH/i/+4/1X/Av9K/9T//P/I/7n/0f+e/z//if/FAPkB8AGxAHT/Tf8qACYBhgFQAfsAzwC/AK4AkABPAAAACgCnAEcBEwEcAHH/qv8UALT/rP4H/lr+Hv9z/yD/rP6Y/tP+Cf9B/7b/QABfAAEAuf/r/zcAGQC3/6H/AwCKAOIA/gD5AOoA4ADRAKcAbQBaAJwAGQFmAQ4BEgAo/yH/5P9iAOT/AP/V/qL/kgDXAHkA9v+a/1L/B//k/iH/kv+9/3f/MP9Y/6v/j/8D/67++P6L/9r/xf+W/5L/wv8CACYAGwDo/6f/ev+X/xMAwQBeAcgB4AFdAUgAcf/E/wIBwgEXAcX/Rv/y/6UAQwAu/9L+1P80AX8BmAC8/9v/fQCgAA0Abv9a/8z/XACuAJoAOwDU/5z/nv/O/xUATgBVADQADgD4//b/DQAtADMAFAD7/wUADADX/4L/aP+4/y4APACc/8j+tf65/98A0gCG/2H+kP6k/0gA//+G/5r/9P/k/4T/sv+nAFMBrwBX//z+IABVASMB9f9b/+7/xwD/AMgAugDKAIcAFgAoANAADwEZALX+d/6n/74AbgBq/07/VgAgAawAnP8Z/0X/cf9k/6P/WgDIAEEAW/9b/3IAUQHZAK//W/84ABsB/QAxAKb/mv+f/4H/jP/r/0UALwC+/27/d/+O/1z/+v7G/ur+SP+7/yMARQADAKv/rP/3/xMA4//f/0QAgwD7/w3/3/7h/w0BFgEIAEb/uv+jAKIArP8e/9z/FAFfAYsAsv+t/xoAFgBz/+r+I//o/3QAYwAZACIAdACIAAwAV/8D/1D/7/9dAHwAogARAX0BWwGwACgASQDKAP8AuABZADEAFwDa/7f/CQCnAOMAXgCe/2n/uf/I/0L/2/5U/0sAmQDe/xD/OP8cAJsALQCJ/5j/MgBmAN3/aP/S/6YAqQCL/3L+nv7h/9QAgABg/7X+GP/y/14AJADS/+3/bgD2ADgBGAGbAO//cP9o/8r/SwCuAOkA8gCwAC0Ayf/o/2gAnAANADL//v6z/3QATQBa/5X+jf7d/gL/K//W/78A+gAyAFr/mf/AAHEB7AACAOX/dwB9AHn/c/6f/rv/fABMAOz/LgC6AKAA1P9V/9D/pwDEAP3/MP8J/0//ev+R//r/qgAIAa4A+f+b/9D/MQBAAPD/kv97/7f/CQAfANL/XP8y/4//OAC2ANEAqgBgAO7/b/9H/7//ewDAAE4Auv+5/zoAhwA1AKj/hf/l/1EAeAB0AG4AQgDB/y3/D/+a/20AAAEsARoB5QCFABgA7P8lAHcAbQADALD/3P9aAJYAPACk/3T/6f+RAL8AQACI/yn/Mf83/wf/9v5n/yMAewAfAI//ev/a/xEA1/+h/+D/PgAJAE//9P5+/0IANgBv/yL/AgAqASoB6P/X/jr/pACgAXABsgBZAIwAwgCiAE4A+/+p/2X/d//+/5cAuABXAPr/BgBGAEoABwDa//D///+1/zT/6f78/ij/KP8j/3H/GQCtAKwACQA3/9D+G//c/4gAxAC9APMAlQEiAt0BsgCC/1f/VACJAd4BFwHm/yX/IP+M//P/CgDF/1v/LP9x/+b/7f8t/yD+tv1U/k//lf/e/gT+Cf7p/qD/T/9C/pT9Bf4//04AkwA8AOv/HQDgANwBhQJvAq8B6QDYAJoBiQLaAmcCuQFiAVYBGAFdAHf/Cf9r/1EADwEbAXcAnf8Y/xP/Q/8+/+r+jf58/sb+L/9s/1n/Df/H/tn+bP9NAPQA6gA/AIr/Y//h/40A3QCyAGcAbQDQAB4BzgDl/xz/Rf9xAMABNgKwAfEArgDMALAAIgCW/3//r/+V/wT/bv5R/qf+EP9X/5T/zP/L/33/Nf9V/7z/w//+/tn9Sv3k/VX/wwCUAckBxgHaAQQCFQLsAaABZgFSAT4B7QBWALn/Wf83/xD/s/4o/pr9Jv3a/MP85Pwl/Vr9ff24/Sf+n/7X/s3+5f6G/7YAIAJsA4YEdAUiBnoGjQaTBqkGrgZrBtUFDwUsBBgDsAH//z7+q/xj+1D6PfkK+M/27/XT9ZL21vci+T36QvtV/Fb9/P04/mT+//5BAOsBewOPBB4FaQW1BQYGHQbNBUoFIQW2BdIGsAehB6IGRgUbBC0DJgLTAGT/Pf6X/Vv9QP3w/BP8e/pj+IL2n/X79R73XPiC+e/68vw5/wEB3gEyAskCCgSfBeAGawdSB8EGywV+BBkD5wH6ACgAV/+k/iH+hf1Y/KH6JfnX+Nn5R/sZ/Dr8jvzj/fb/oQEFAmsBBgHcAfwDoAboCGgKIQs2C7UKogkfCG8G0ARgAwoClgC8/k/8cPmw9tX0VfTV9Fz1FPUL9BrzEvMJ9H/1FPfq+FH7Lf7pAP8CYwRfBSwG2QaEB3QIxgkgC9QLdAsuCpQIEwewBUsE/wIlAvUBLwI6ApwBZQAX/yX+mv04/eb82vw0/Zr9Z/1Q/Nb64Pns+ar6Zfu1+7372/s9/NL8df0X/sj+p//KABoCTgMIBBwEogPUAtwB1QDY/+v+1f07/B76Lfh897v4q/tN/5QC7ARKBu8GKwc6By8HCwf1BlMHaAjSCXcKRQkZBvwBUf7b+3L6jfnl+Ij4bPg1+Hr3RPYl9cn0cvXn9tL4Ffuu/WAApwIdBOsEugUhBygJUgsIDfAN5Q3cDO8KfggeBkAE7wLVAYQAp/4e/Ab5zfUf85XxX/Em8lLzcfRq9Vz2ZPd8+Jn53fqe/CX/XAK0BWsIDwqzCr0KdgrsCSsJcQgGCNEHQgfABUIDbAAP/pf87vvX+zP86vy0/Tj+Zf6M/gT/xf91AOYATwHyAZQChgJMAT7/T/1E/CD8Vvxz/IH8xPxC/ar9pv1O/SX9q/3g/jUA/wACAYsAGgD4/yUAhADsAAsBZgC1/kP88fmx+BD5Gvt6/oQCQwbUCP8JXgrECnULEQw+DC8MOgwVDMUKgwemAoH9TflU9hb0E/JD8OruHe6g7THt7+xo7T/vpfIh9+T7XACNBLgIyQwnEC8S2hLREucScxMiFEYUQhPTEB8NqQgdBPz/aPw4+Uf2n/No8Z3v9e0S7ODp0+fN5sLnOuv88Pv3p/6VA0QGdwfECGcLTg8nE4gVDRZZFRMUDBKKDmQJlwOm/mv7iPkH+Er2afS+8m/xcvD2743wzPK39o/7PgAABLEGnggaCkILFQycDO8MCg2xDIgLRQnpBdMBuP1d+jP4E/do9rb1BvXA9CD13/WD9v/25PfO+Z38W/8GAX0BogGVArkEdQfSCT8LugtZC8kJdgY5Aej6KPWz8YfxlvTi+ez/LAWVCOsJrgmtCI0HuAaeBrEH8glqDFwNTwspBlf/3/gf9E/x4+887wLvAe8A78ruae5E7hLvmfFY9jL9OgXdDHsSKhU5FQEUDxM1EywU/BTFFDATQBAADHAG4f8i+UDzCu/B7DXs5+wh7hDvKu+E7s3t1e0s7yXyC/fk/fAFfQ2nEpkUExTBEt8RdRG/EDIPBQ2yCiIIeQTx/vP3OfGv7Bnrt+sw7bfuVvBd8tL0evdH+oL9ggFPBn8LUxD0E8sVyxVzFG8SGxB7DZUKuQc3BeACBAAR/EP3ovJO78jtwe2O7rnvUPGm8672qfmU+yr8avzd/SsBWAWTCLgJDAmrB38G2AW/BTcGGwf3Bz0Ingf/BRUDV/6h9w/wDupO6B7sbfRG/nwGcQuhDagOpQ9uECsQlQ6QDI4LPAyuDakN8wndAQf3puyk5fbid+NJ5VHnfOnw62Hua/BV8j71YvovAu8LARZuHo4jqCRDIr4dfRhZE7EOvQqKB6cEKgE+/Mb1fO6R507i0t+94MPkqOrs8KH2mvvW/wYD3QTIBQQHzQlRDnQTeRfvGEQXyhJwDF0Fpf4Z+UT1WPP/8lPzR/NL8q/wZ+9e7wzxcfRK+SD/NAWEChcObg/RDkMNAgzKC2oMCw3pDLwLfQkIBlUBD/yr94P1x/Vy90b5q/qL+7H7y/oM+Xf3JvdL+Br6rfvW/Pv9Y//MAKQBjQGoAKf/fP+/ACMDiwXvBi8H5AZzBpUF/gMyAkABhgEaArYBJQBn/kr9L/x8+XP0mO4s6xvt8fRaAHgLMRPEFpMXaxfiFjYVmhGIDK0HlQQ/A+MBGv6k9ofsoeLW21vZd9ri3Q7j/OkT8rj5cv9YAwUHDwyxEtwZLSCOJCkmdiSZH4MYcxBGCHwAn/le9AjxKO/Y7WPsj+qX6DTnq+c06/Hxf/reAtIJLQ/bEkIU7xK/D7gMbgusC9gLbQrwBrkBWfuF9E7u6ekf6PvoBuyd8Pb1C/vb/u0ArwE5AqcDYQbMCagM/g3LDdAMlQvSCfkGSgMRAKf+Tf8LAZMCCQMvAk4AJf6h/Dz8mPwF/XD9af4GABYBAQCI/Fr4oPUt9UH2yfdv+WL7oP3P/5wB5wKDA0EDVQJ/AWUB+AGgAhEDlwN5BGgFzgWJBf0EXwREAzMBgf5N/JT7Qvwt/cz8I/qX9TzxCfD281b8FgYNDi0ThRYqGX0aqBjVEqkKawOG/6r+HP7++oL0ROy35FffUdyT26PdF+N36yb1dv6TBjEN3BFAFC0VjBarGZ8d2R+CHv4Z+hNyDQ8GYv0s9Cjs5uYJ5U3mvOnd7U7xtPMC9nH5QP6MA2kIpQxbEBQT2BMuEr8O1gpXB1kEbQEf/j76GPZ88j/wc+9e72Pv9e818pL2/fvNADUEogaqCB4KVQo9CbkH2QbcBhIHmwZCBaEDhQInAvIBNAEDAFv/DgCvAdcCiwIvAdf/6f7l/XT8LPvp+qT7dvyn/F/8EPy6+yv7w/pL++j8vP7t/6oAtQH3AkIDxwFa/7X9mv0w/kz+2P2g/Sn+OP+EADcCYARVBg8HSAbbBOMDrAOoA0YDnAIgAuQBEwFN/tz4/fHx7Dbt5fOU/g4JUxANFGMV9hRwEsMNJAhpA48AGf+8/X77I/jt8z3vb+oO5ibjJOMP54Huefef/9AFXwrmDT8QDRHfEBgReBIlFIgU5RKcDxMLFgW4/T32cfAu7Qfskuw870T0N/p3/qX/F/9z/wECxgUiCZ8LwA1vDzQPRgtHAwb5y++96mPr5fCq+Pz/YwWuCOoJuwjvBH3/iPot+D755fw1ARYEHgQ2AaL8SvjC9dz12viP/gkGZQ2LElAU3hITD+AJXQQTAF3+PP8UAdsBnQDP/X36gPdj9X/01PQR9vz3sPoJ/uUAngGY/y/8l/ns+MH5afv3/Y0BKAUFB2YGfAQgA/sCXwOrAwkEsATqBJ0DrABU/Qz7XPr++q38YP/EAgIGLgioCNkGEAJG+mHxJetC67jy7P5DC/QT3xcnGDoWWBIQDBkEL/1o+kv80//FADX9k/aS75XphOSc4Hrf8OIq60P2gAGvCq4QSxM3E8IRTBC4D18QKRJPFCwV/RJEDVwFQv399ZPvfOpN6Ffq1O8U9qz6Kv2M/qb/iQA7ASwCpANIBaAG3geACScLTQutCLQDSv4h+qf3fvaG9vX3mvpo/Qj/u/69/BD6/feQ9xn5+vsa/50BUwN9BFkF6AUOBrkFFwW1BFAFNwe7CYULpAspCrQHnQT+AHz9WPtO+5z8rP3C/Y/91f0H/tf8Efoy9/H1fPae93L4Sfnq+lv93P+3AbMCygL8AaoAt//o/ycBtQL9A+IEQQWeBLsCOQA1/jb92vzB/FX9PP8rAsYE5gWnBekE7wPiAcX9rfck8YrsMOxk8ZD7Dwg9E2ga/xwJHJgYBhOmC9wDCP79+0r9Bv+j/YH3KO755JTeZtvF2vbcbeOx7oP81QjaEM8UuRbgFxcYHBe/FSYVUBXyFMISdw52CBkBwfhh8HXpQeVe5N7mY+yw86X6aP/YAY0DGAaECbYM8w5tEDcRRxAYDE4EifqY8fnr6Oow7mT0ZPs8AeEEKAYxBSkCyf2++QD4evlB/TIBSgOwAt//Ovxn+Y/4+Pkz/bgBNQcvDY8S1BXfFaESGQ3lBrMBsv4G/rz+ef9g/0f+Ofwq+WL1+vFZ8CHx1POf9wL8aAB0A6UDDAHk/b/8Iv5VAKYBQAJrA1AFXwYXBfIBD/8g/hD/nwDHAUcCHgIlAVT/Hf1K+5L6TvuA/dEAhgSOB8MIKQdYAgL7bvPz7lTw4fcaAyYO/hWEGQkZSRXpDroGNP5q90P0UvUM+U78JPy096/w9Omr5Wjk0OWt6Tjwd/lkBL0O3BUiGB4WSxJnD54OJQ+SD0cPcw7zDN8JcQQk/YX1Ae9R6hPoQelS7vv1bP1EAkQE4wSOBaAG4Ac2CW8KmwpqCGcDvvyP9qny6fFP9Bn5w/57AyYG7AaQBlQFzAL0/gD7v/gW+TT7T/0J/ir9YfuY+YP4kvgH+hX9swFYB+EM8hCqEusRIA/vCk0GlALaAPYAawG3ALr+k/wc++H56vdU9avzkPQe+Mb8egD/AWkBw/82/jX9U/wP++T5Ovrw/BUBhgTpBccFegWCBUoFbgRzA/YCtAL9AfsAvQDBAeMCbgIRAFH94vvl+/n7sPq198nzVvAm7+TxGfl6A1sOLBeOHFUe2hyfGF8SMgtcBPT+b/tQ+TP3m/MT7pvn6eE+3gfdV95Z4iDpQPLl/BAIexJkGi4eux0DG78YQxieGNMXoBQiDzEImgD0+JzxzOr45F/hyOET59jv+vjq/1MEdwcxChUMbQx+C2oKCwpXCq0KSAphCG4Exf7W+EH0q/Gj8MTwaPLn9Wb6Bv52/xH/Tv5L/i3/qACHAowEHwadBu8FjgTvAisBTv/I/V79mf5kAQQFXAhYCm0K+Qj0BigFpgMaAnMA/f7p/Qb9EPz++sf5H/jy9Rj0EPR+9jv6PP2P/vz+uv/jAKEBjgFGAX4BGAKEArQCMwMqBNYESQSAAngAVf+o/0EBVgOxBFAETwIPAA3/a//q/1L/hP39+tT3+/N+8NfvNvRt/b0ItBIZGWQbFhotFuoQiwvCBqAC9f6i+2342fSL8MfrTOe641fhheAa4tTmfO7g95oBsQpqEgEY5hpRGycaUBhEFjQUHRKID4YLjgVh/pj3MPLc7SXqzedt6J/s9vI7+Uv+bQIUBv8IrQopC94K9wlnCJIGQQW0BBIENgLv/iD7ufcG9SDzifLX8+P2uvpo/nkBrQOUBPsDhQJjAUoB8QGmAg0DFwOXAmEB0v/O/uX+w//IAOkBoQMFBkYIbQk6CRwIfAZtBBUC4v8o/sz8hPtQ+l75mPix98H2bvY99+b4tvpu/Ff+cwAOAoMCIQLFAbcBZwGAALj/DgBqAY0CcgJcAUEAmf8r/+H+LP9uAGkCewQyBkEHEgcYBcUBx/6+/ar+yv8a/9f70fbT8efuoe9g9Pz7dwRTDBQTehiUGx8byhbYD1UI2wEV/fP56vcC9kLza+8q62vnsuRB47njAudy7Tz27f9GCWMRUxc1Gv0Z0BcwFd8SuhB/DkMM/gkbB9MCBf1k9vjvyOrt52/oc+yw8ib5gf6aAqoFbgeAB00GIQUbBU4GDAinCZIKGgqRBwwDmP1x+DH0CPGP773ww/RC+vz+aQGHAWkARP/i/oT/0wAkAhQD5wMGBSQGOQagBAgCCADA/x0BYAPfBR0IhAmPCUkIOwbLA/UA2v1V+376jft2/cb+pf4Q/W/6c/cc9WP0fPWj9+z5HfyA/ggBAQPTA60DMQO2Ai0CugHaAcwCFQTkBNcEBgR6AgYA4PwA+pL4C/n6+rP9vQCiA8wF7wZmB7IHfgeNBQEBlPps9L/ws/Az9FH6lwFuCLwNNBHfEnESfA92ChYFQAGF/+P+8v0B/CD5h/Vu8Uzt4unl587nCurz7kv2vP5cBucLTg8nEd0RsRErEQERVhGGEdEQ/A4PDMIHqwEP+k/yMuzo6KfoCOta76D0rfme/T0AvgE3AtQBYQEvAuIEmwihC9wMaQzdCnEICAXAACb8B/gx9Vn0wvXR+Bz8QP7K/jv+Mv3o+6P6RfrQ+zX/FAPaBe0GsgbRBcsEBwTFA+oDLgSQBFsFlAaFBzEHTQWjAlMAw/6F/Tf8IfvK+jX75/t5/MH8iPye+1v6mvnw+Rj7bPyv/Rr/vAAoAt0C1gKHAlcCQgIZAuIBvwGHAeIA7f9e/7P/iwAaAQsBhQCO//L92PsP+n/5i/oZ/eEAcQXoCe0MNw0sCiwEWfxe9HnuF+2M8b/6cgVPDqcTeRVWFLMQ9AqkA8T7LPU68lj0SvpAAAkC5v2d9RTtseep5lrpnO6X9Z796QV/DRYTUBWwE48PlAvGCUcK5wt0DTUOkg3qCvMFE/9Y9yDwxOpW6HnpBu7I9Nr7nAFUBdQGDQZkAygAA/7f/aH/xgKlBhkKnAtDCoUG1AGT/Wb6TPgg9+/22/e0+er72P3z/r/+IP3r+qv5aPrY/AQAWAOdBkwJoApNCsMIpQZoBHgCYAGMAd8CmwS0BXYF6gOeARn/0fxS+/76gPsO/F781Pya/Rf+uP3N/C38PPy0/C/9hv2//fH9NP6R/vT+P/9h/3L/1/8BAbkC9gPQA5gCdgEaAUwBtAFXAh4DjgM7AysChQBR/sn7vPkz+cb6Lv5sAl0GSwnjCrMKEwjrAjn8pfXD8ATvlfFn+GgBcwlODo4P4g01CnkFqgCf/AP6X/ni+ur9+QA9AnEAu/vU9efwF+5N7Wbu5fER+O7/lgdIDfYPZw+YDJQJOAjgCIUK9wusDI8Megv5CJEEeP7m93vyQO957hLwsvNR+Iz8kv9WAdABywCs/s38kPxm/vIBiQY0C40OOw+xDHsHBwEI+6X2L/SQ88D0dfev+i39RP7r/UL80Pnx9y345Poe/7AD9weAC6MN1Q0UDOoIPQUcAl4ASACTAY8DHQUdBT4DSgBD/an6x/gw+DP5Nfs6/db+EwC+AHMATf/w/fD8g/yy/G39e/6M/0cAQwBa/yD+lf0w/oX/9gA4AvkC0ALUAb8ADQB0/7n+bv5i/40B+QN5BVAFgAPYAIX+Rf07/Vb+hAB3A6YGewkXCyYKvwWp/iX3Y/GB7urunvLL+Mz/AQZ4Cr0Mpwx/CgQHHwO3/7T9lP3w/roAyQEbAQb+5fhQ8wbvtOw37Lbtr/H793j/qAYuDAgPCA87DU4LYQqSCmkLQwyWDCsM/Aq3CMMEMf8j+fjzcfDs7tbvJvPk96/8jwDnAjUDiAEC/z39PP0h/2gCHQYhCa4Kfgp7CLsE8/9Y+8j3i/Xh9Bz23vj2+1P+pv/w/yD/jf0o/M77r/yc/mcBrASwB7kJTQonCYEGUgPHAGT/Cf+X/+kAWQILA8oC+gHBAP/+DP3I+7z7vfxo/mUALAISA88CjwGb/1b9V/sX+pP5rPl++vL7Vf0B/ib+VP6j/uz+aP9xAM0B7AKhAxEEJgS4AwADdAI+AjsCRAIrAsMBNAHpANsAdwCF/7H+x/7w//QBjQQCBxMI7QbYA5z/x/oE9oTyefFN84r3K/3NAiQHnQlRCl8J2AZgAy4ALv6Y/Ub+w//1AJoAe/6E+4v4svUT81jxRvEx8wr3WPwGAsoG9gmZC/oLZQtoCo4J9AiICHcIxQi3CGUHwAR2Af79hfqN9871cfUV9nX3gvnj+wb+l/95AHkAmv98/vT9d/4WAKwCjQWGB9UHywYLBbMCt/+a/CH6r/hj+HL5qPsG/nn/w/9L/33+t/1u/d394v5yAKcCLgUnB+8HkwdMBjAEsgGv/6b+ZP64/sb/ZQHMAk4D7QLmAU0AZf69/Lf7XvvE+wD9rP7z/2AAFABB/xX+EP29/P38Q/14/QH+5v6p//7/AAC8/yr/tf4D/zcA3QGJA/UEowUbBYUDfQF2/8D91Pz7/NT9zP7d/z0BpAKGA8sDtANaA9sCvAJYAz8EqQRZBHAD2gF1/3H8H/mw9bTyRPEw8kT1ufnd/vsDNAj+CmMMfQwiC30IbQXUAugAgv+O/sL9fPxz+g34xPW58yryqfGM8q307fdc/JsBsQbBCnsNvQ6DDksN8gvUCqAJIwidBigFdgNPAcD+t/s5+Af1RfNb87X0lfaT+F764PuE/bf/JAILBD4FLQYlBxcI6ghdCcUIoQZmAxYAO/3g+iL5D/hP96T2Z/YD91f4BPrn++/96f+9AZkDjwU1B/4HygfsBqwFQgQeA5ECTALgAXoBcQGCAUYBzwAyADj/Cf5S/V/9xP0n/pz+IP9e/zP/y/4p/h390/vr+sP6MvsG/EP9uf72/9AAdAHpARECDwIqAmcChQJfAvwBaAGRAHT/Kv7X/Kb7BPuM+439tgBpBPYHiApUCyYKfgcEBFEALP1j+z/7bfyA/vgA4AIcA04B9f3j+SL2CPSJ9Hj37vsfAV8G3QrFDX0OugyqCCwDt/3H+Rb4RPhq+cv64vtQ/Az8Qvve+dv37/U/9W72b/nH/aUCBgdKCnkMrA2eDR0MpAkJB7oE1QKnATwB9gBvAAUAz/8A/yf92vq1+PP2Gfa09lv4IvrN+7r9/v9DAjYEoQVRBkEGwAU6Bb0E/gPnArsBmQBl/yz+DP3i+4/6afng+P74mPme+g/8xf2X/4MBfwMtBQMGAgazBV8F8QSUBJIEngQqBFIDkALZAdIAiv9P/jH9MPyf+9f7rPyV/Vn+F/+x/8H/Qv+R/uH9Mv2//Mf8Kv2l/TH+2P55/+j/HQAdAOT/j/93/+L/pgBkAfEBQAIvAr4BKQGcAAkAd/8q/1//EQD8AAMCTAOxBJsF5wXyBYEF7gOqAc3/ev5y/UL9I/4V/2b/Vv+8/hT95Pot+TP4FPhA+ZT7bf6kARgF7gdiCV4J7gc7BfsB+v6K/M/63/mS+d/57fpd/Ff9ev32/Pn71Po/+rX6BPzf/WYAsAM1ByAK9QuODMELpwn+Bn0EPQI+AMz+//2s/fP9z/59/0j/W/4B/Tf7a/ln+ED4jvh9+XT7Fv61ACsDZQXWBhAHZwZLBbYDywEqACz/nP5x/q3+ov7L/dH8WPzn+0P7LvvH+0f8+/zy/rEBxwMsBYUGNAeEBl8FtgTuA3ECCwFhAPX/k//O/4QAvgBVAPD/kv/r/mv+ff6a/kv++v36/RP+L/5X/lD+9f1u/ez8r/zi/C/9VP3X/fD+0v8vAMEAewF3AeQAqQCaAC4A1P8HAHIA2QBbAegBbAL1AlMDawNzAzoDUQIzAawAjQBqAJEADAFKAUYBagF6ASwBzABUAEH/u/1i/Eb7XPoi+sj67vuD/Zf/sQFVA4wELgXDBHUD3QEOABL+vvyN/Kr8gfzU/PP9tP6V/o7+uf77/av8aPwh/Zv9MP7M/5UBlQKdAxgFvQUPBTgEowOjAn8BIAEkAbgAXADFADsB8ACgABIBbQG6AJj/zv7u/dj8nvx6/Rn+6P3g/YX+VP8hAA8BlQEiARwAU/8P/xD/8P6K/ij+Mf60/nz/PwC1ANYA4QDyAOgAsABjADEAQQCaACQBzwFVAmkCTQJpAlcCuAE3AUQBJwHBAPYAeAELAQ4Axv/n/5P/Iv/n/mD+ov1I/Sr9Cf04/Zb9u/0g/g//pP+Q/7b/GgDi/2f/iP/C/13/Af9R/8P/4v/u/+j/jP8z/1v/x//q/87/3P8kAHcA7wCzAWACgQJOAjwCKQLPAXoBggGdAWgBDgHeALQAQwC+/53/y/+3/0n/A/8O/w7/5/7Y/u7+DP8//5r/+/82AEwAdgDdADcBEAFsALH/B/+D/lP+Vf44/iT+Vv6O/r7+P//O/8H/XP9b/5D/dv9N/4n/+f9LAJYA8wAuAR8BAgE7AZgBdwHfAHsAZwBCADEAXABYABoAKABlAFkAUgCUAIQAFAATAHIAcgBHAHkAqQCaAMkAIwESAb0AnQCFAEwALwAKAHj/v/5q/lz+Pv43/p/+Lf82/83+w/4o/yP/wP76/qL/u/+y/30AYQFiAT0BmQGRAb8AGwAFAOj/t//Q/wQAGQBCAIkAvADlABYBMQE8AUcBNgEUARcBFwHCAFQAIQDi/0//4/4J/0T/GP/v/g7/zv4A/qD9/f0G/n39jf1v/vH+3P4g/7f/1P+2/wgAXwAdALj/0/8qAFQAiQDhAPQAswCsAP0AGgH8AB0BRgEFAd8ARgFrAeUArgAkAVsBJwEvAUYBCQEHAWsBfAE3ASQB8gBiAB4ALwDR/0L/Mf8X/3b+Fv5P/mP+Jf4b/iH+5P23/cf91f3m/RX+J/4N/hT+Uv6q/gX/Lf8f/0L/pv/o/ygAwwBWAXgBsgFPApgCTAI0AowCjgITAusBZALVAuQCAwNQAy0DcwLKAWwB2wAqAPH/CQDg/6H/m/90//T+df4H/nf9/fzO/K38qvwV/af94v3j/d39tf2a/dX9F/4V/kH+2v5j/7H/MwDjADcBOQF0AeABAwLwAR8CbQJeAiwCcgLmAs8CTgILAgEC2AGvAbYBuAF+ASMB1ACRADsAyP9V/+f+Y/7//fH94P2a/Y/9w/2Y/TH9Jv0Q/Yb8bPwr/bP9m/3S/YD+9f5K/9//SwBcAIMA1QAHASwBWgF5AbIBGQJKAjYCMgIZAsUBugEWAicC4gHuAR4C/QEHAmYCKgJLAfcAPwEUAX8AOgD9/2X/Df85/zH/tf5L/hn+3/2w/aP9d/0a/dH8tfyg/Kz8HP2//ST+bf7//pX/rP+d//v/hQDSAA4BVAF6AaUBCwJ7As0C/ALNAlEC/AHHAWIBKgFTAUIB4QDfACgBIAELATEB9AA/APX/FwC5//z+x/7r/pb+/P3S/dr9cf31/B79oP3A/cT9Qf7e/gj/B/9D/4j/p//f/1EA3wBjAaoBugH3AXwCyAKNAiwC/QHpAeMB/wERAtYBZwEfARQBAgGwADkA4f+r/3H/Rv85/wP/h/4n/hH+6v2m/Zr9lv1N/Uj96P1y/mn+ev70/i7/CP8g/4D/rv+9/xMAmgDrAPwAIQFvAYABLAH8ADgBagFrAakBDgIkAiACZgKTAlACAALQAU8BiQApADwAHQCy/4L/f/8w/+b+KP9j//L+ev6G/ln+u/2d/Qn+Cv64/dz9Pv5r/rv+N/9d/0H/SP9M/y//MP9C/z3/ZP/T/0YAtQA4AaMB6gExAkUCAwLfARACIgL6AQwCWgJuAisC0QGFAUEB1wAuAJ7/af8o/6D+Tf5V/jf+8/36/Q7+1/28/ff9Gf4j/nb+wf6s/rD+B/84/z3/kP8WAGYAigCgAL8AJwG0AeQBzgHgAewBsQGbAekBLgI2AioCBQLAAYsBYgEWAcMAkwBjABIArf9R/w7/3f6u/pH+gP44/r79h/2e/ZL9cP2a/eD96P3a/ev9/v0t/rX+Vv+v/9v/BAAcAEQAsAAmAVEBUQFPATQBJgF3AewB+wG/AacBmwFaATABVgFgATABQQGFAV4BCAEvAW4BFQGgAJwAbQDD/2f/hf9e//7+B/8s/9T+Uv4W/vH90f3r/SP+Of46/jf+Kf4z/nf+zv4M/zT/ZP+2/xUAZAC/ACkBTAE8AX4B6gHrAdEBJgJmAhwC3wH4AdcBhAFpATABnABRAGUAHwCm/7X/7v+o/1v/Zf83/8D+mv6m/oH+kv71/vL+pf7f/jz/6v6L/un+OP/D/mr+zv4t/w//D/9x/7v/uf/A/wYAdgDtAEkBaAFqAYwB0QEFAhMCEAIIAv0B5wG3AYgBcgEzAaEAKAAHAL//Kf/t/in/Qv8g/xz/M/9T/4r/qf+f/7H/q/85//T+WP+t/27/Pv9q/3j/YP90/3r/O/8N/zX/k//x/zkAiQDlAAoB8wABASsBBQHXAA8BRAEdAQMBDAHUAH0AUAAFAI7/U/9E/xz/H/9S/0f/LP99/97/3f/U/+H/lf9D/4P/yf+B/07/hv9z/xP/J/9i/yj/Af8y/xP/2f45/5//h//P/34AZQDk/zgAuACFAIsALwFRAdwAzQD8AN0AvwC5AIAAXQB9AH0AawChAOEA7ADxAM0AZQA5AFAAJQDp/wYA8/9U///+Zv+4/3f/MP84/xz/oP5Q/ob+uP5+/lD+mv4I/zL/KP8h/0L/fP+E/3T/vf8iAB8AGQCTAP4A3gDCAA0BSgE7ASIBHgEgASYBMQE/AVABWAFOATcBLwFEATQBrAAUABgAYQBQAEEAdwBQAMb/sf/3/93/nv+f/3b/Fv8P/z3/F//l/g//Lv/r/qz+tP7F/tb+I/+A/5n/n//R/+H/zv8UAGkAGQCv/wYAgABpAF0AnwCSAFQAWwBhAEMATgBAAP7/LgCjAIkAXQDEAPgAqQC3AAoByQBoAI4AmwA1APv/DgAEANX/p/90/0v/Kf8F/yL/k//S/6f/f/+X/7v/vf+x/8H/4f/f/9b/BAAsAAYA8v8YAAAAxf/n/xQA0/+j//D/MgAQAAIATQCPAHoAQgA5AFAARgA5AFsAfQBpADgACADn/+z/8P+//6L/xf/f/+r/DQACAML/u//M/4z/a//B/+f/nf+H/8D/zv+w/6//2P8JAAMAtv+b/9b/2v+s/9P/EADw/9X/CAAtACMAHgAYAAgACwAeAFEAjwB2ADcAVQBvABsADACIAJoAMwBIAJEASwABADQAVAAyAD0AWQBMAFoAbwA8ABEAKwAhAN//2v8YACQA8//x/zwAdABiAE0AYgBYABMA5v/u//P/2/+r/3n/bf91/2H/TP9c/17/Nv8h/yz/Qv9k/33/ff+A/4v/nv/c/woA5v/w/2MAWQDT/xQA0gCSAN3/GwCZADwA3f88AJ0AkABnAEcARwB5AHkAKQATAEwARAD+/wwAcACYADwAxv+z/73/fv9a/6r/4f+4/7T/2v+4/5z/4f8KAN7/0P/u/93/uf/O//b/AwARADgAZAB0AGYAWQBAAAkA7P8BAAEA5f/5/xsABQD4/yEANAAWAO3/yf/M/wIACwDP/8n/8f/C/37/tP8KAP//2v/l/9v/lv9r/5j/7f8WAAcAAwARAPb/x//K/+v/3/+n/5H/uv/W/7X/s/8LACwAyf+c//v/MgABAPj/MABGADoAQABlAKMAuABzADoASwA5AP3/GABfAGAAVgBtAE4AIABCAFEACwDt/xMAEwD4/w0ANABGAE0ANQAUABIA7/+U/33/t/+x/23/h//p//j/vv+z/9v/3f+t/6P/1//x/9r/7v8sAD0APQBtAHMAJQAeAHUAaAD2//P/MwDq/4z/8/99AE8ADgBaAH0AEwDV//P/6v/b/xQAJwD1/wAAOAAmAAgALAA0AP//9f8LAPP/1f/d/+H/4v/+/xQADAAKABMA///V/9P/CQAuAAsABABjAJQANgABAFwAiQBCACsAPADk/3H/av+W/7n/6P/o/67/qv/K/5D/VP+d/+r/w/+r//n/OAAvACwASQBlAF0AHQDk/wUAPwAnAPr/BAD5/77/zP8sAFgAPwAzADMAHwAaAC4AMgAlABUABgAQACsAKQAiAEMAUgAfAAEAJAAxAAgA9v8YADYAKgADAAUARwBrADEAAgAiAD4AMQA0ACwA7//R//X/BAD2/wgAFQD1/+7/DQD3/7f/p/+5/6L/av9L/1f/cP94/3b/gP+K/4z/p//o/xEA9v/F/7j/wv++/8X/AQBCADIA+f8LAEgANwD0/+//CQDn/73/4v8aABEA9P/x/+T/yv/d/xAAIwAfACQAFADf/8f/+P88AE4APAA/AEgAHADr/woAMQACAOj/MwBFAOn/3v81ADIA+f8lAFMABQDU/xoANQDt/8f/7v8UABwAHAAbACEANgBOAEcAEwDn/+//3P+T/4f/sP+N/27/yv/x/4T/hP8KAN//RP98/wYA1v+t/zEAXADP/5z/9/8VAPr/GAA1AA4A4P/F/6n/vf8NADIACgD4/x0AIgD0//P/MQBSAD0AKQAhABYAHQAtABMA9f8VACkA4P+r//H/LwDw/8r/JgBbABMA/v9JAEgAAQAJACwAGQA3AHgARwAOAGUAkwAdAN3/HQAdAPb/NgByAFMAUQBdAAYAwP/4/xoA2/+9/9P/vv+Y/5P/h/9k/1//jf+6/7j/ov+9//b/AwD1//v/7v/U/+7/FQASACIARQAUAND/AAAzAPX/6P9VAHIABgDn/0YAXAAAAOL/KgBBAP3/3f8PADcANgAxACIACgAFAPv/5v8IAEMAJQDv/zAAfwA8AMX/rP/N/+b/+f8BAAQAFwASAOL/2P8TADgAGQD3/xMAUQBhADIABgACAPL/y//H/93/yv+q/7n/3P/O/5L/b/+H/6v/vf/b//z/3v+s/93/QgBQAA8A9f8jAFEAPgACAOn/9f/r/+v/HwAlANX/wP8KADYAKgAlABYA//8IAP//5f8mAHsARgAGAEoAZwAJAAIAYgBHAOL/+/8+ABoA+v8qAEIALAA6AEcADgDr/yYAUQAeAPb/FwAgAPj///8mABsAGQBkAI4ARgDz//H/DAAKAOH/qP+g/9b/6f+z/5v/zf/g/5P/Pv9A/23/cv9v/6r/5//b/8z/8/8RAAMA7//d/+b/NQBqACQA6f8sAFwAKAAUADsAKgD+/xoAQgAyACEALQAvACoANgBJAFQAWABaAFQAQwAyACsAHQD7/+3//f/8/+z//f8cACcAMgAxAAIA6P8iAFQAKgAAAB8AMQAEAPf/MgBRACwAHQA4ACsABAAZADkADgDk//T/4v+j/6r/3P+//27/Uf9R/zn/I/8j/yz/Qf9m/4f/lf+f/8r/AwABAM//zv/t/8r/p//u/0gAVQBSAE8ADADI/+z/PQBYAFAARgAwABwAJwBSAHEAUwAfACMANgAGAOv/OwBuACcA/P8nACEA7P8UAG0AbwA+ADUAKwACAOv/8P/7/xYALgAaAPz/BwAaABgAIQAvABsACAANAOf/rv/g/04ASADx/9f/1f+u/7j/9f/q/6//pf+d/4f/x/8hAPL/lv+z/97/m/98/97/MQAjAAwADwD7/93/4v8AABkAGwD5/9X/5f8PAAEAz//X/wIA7v/P/wEAMgAUAAwARgBLACoAVgB2ACIA7v8lADUAAgD+/wcA1v/D//D/AQD9/xYAEgDl/+L/FwA3ADUAMAA4AD4AMQAqAFMAdQBOACoARQBUAD0AQQBJACsAMQBQABoAxv/K/9b/n/+M/7b/qf+C/6r/yP+B/1L/gv+a/4j/wv8lADMAHAA4AEoALgAlACoAHAArAFcAUAA9AGIAYwATAAEAOgAhAM7/3P8jAB8A7P/b/9b/y//h/xEAFADf/9D/FwA/AAEA4v8gAB0Ayf/q/2IAUgD7/xsATwAaAPv/NgBRAEUAYgB0AFIARQBKADYAQABjADEA3/8DAFEANgAIAB4ACQCs/5b/xP+g/0r/Wv+k/6H/f/+W/7L/qP+j/4T/LP8Z/4D/w/+4/+//SgA2AAgAKwAkANL/2f8dABIA+v8gABMA4P8OADUA0v+Z/wgAUgD9/7T/1v/2/+v/7f/t/9r/6v8YABsA9//3/wsA9//e/+L/3f/b/wwALwACAOz/NABZABcA8P8YAA8Awf/E/y8ASgDg/7j/DwAoAN3/3P8ZAAIA2f8CAA0A0v/I/8//m/+M/7T/kP9O/3L/nP90/2z/nP+q/7L/zf+u/3f/jf+9/8T/3v8MABAADgAWAPn/6P8YAB8A3P/W/wsA9v/Z/zEAgwA6AMP/vf8PAEcALwDs/9L/8P/6//L/JABeAEcAHwAwAC8ACgAzAIsAeQAYAP3/EQDy/+j/RwCYAGwAIgAaABYA+f8VAFIARQAaADQAVQA8ADgAaABpACsABwANABUAFQAMAPf/4/+//4X/d/+z/9f/pP9t/3//o/+P/2D/Zf+Y/6n/kP+V/73/yP/A//L/PAA2AAoALABXABUAzP8FAE4AQQBHAGQAHAC//9v/+//B/77/DQADAKv/oP/c/xQAMwATAMP/tv/5/xgAAQD//w0ADQAYAD4AXwBIAA8AGgBhAGUAIwAbAEQAOgAgACwAKgARAA4AEwAgADIACADA/9n/KwAjAP3/MABMAPD/ov/F/+//w/9//3T/hP+A/4D/m/+X/2L/X/+m/8b/rf+v/77/rP+1//n/HQASACIAMwANAO3/AQACAOj/BAA7ADEADgAWABwACAAYADkAJQAFABMAKAAmACoAJQARABQAJgAhACsAUQBIAA0A+f8TACQAMAA6ACcAGQA+AFMAHgDp/+3//v8PADYAQQAXABAAPAA6ABoAOABYACsAAQARAB0AFwATAO//yv/s/wgA2f++/8v/pP+C/8D/6P+c/2H/kv/Q/9j/yf+7/63/m/+c/9L/EAATAAoAKwA4AAsA8f8DAAoACgAVABsAHgAcAAcA9v/x/9v/1f8PADoAEADx/xsALgABAOr/DgAxABgA2v/K//7/JQARAPn/+v/k/8n/9/9WAGgADQDA/87/8f/2/wgAKgAuABcAAQD+/w0AEQD8/xAARAAaAL7/4f83ABAA0P/e/7f/Uf9e/7H/sf+d/67/k/92/6H/t/+f/8T/9f++/4n/v//v/+X/9f8UAP7/6f8BAAgA5P/G/9b/FgBbAE8ADAAMAEQAPwAaAD4AcABOACUARQBbAC0AEQA6AFcAMgAIACUAYQBmAEgASwBUACYA7//4/ykAQgAxABYAIwBWAFwAIgD0/+//9P8BACAAPgBMADkACgAJAEIASQAMAOz/4P+2/6//5/8FAPH/4v/Q/67/sP/X/+z/2/+0/6v/1P/j/7v/sf/S/8P/pP/F/+H/zP/b/wkA///W/8T/u//E//L/CwD6//z/CQD1//L/HwAqAPH/zf/7/zgARAA9ADwAJQAEABEAMQAoAAcA+f8JADwAaQBJAA4AGgAxAAwA/P8kAC0ADgAJAPv/0f/Z/xAAHAD6/+P/2f/S/97/AwAhABoA+//w/wgAHgAXAAYA8f/F/4j/cf+c/8D/j/9U/2z/mP99/1//gv+f/4v/f/+U/7H/wf+9/8r/CQBBADoAIgAXAPb/4v8LABwA5//a/xEAJAAXAC4AMQABAAQAOgAlAO3/BAAiAPr/+f8/AFAAMAA4ADcABgAJADwAPAAzAFEANgD2/x4AegBuACUAGAA0AEIANgAKAOr/CwBEAFkAXgBlAFMAJwAJABUANQA7ACIAIwA8ACEA3v/S//H/2f+M/3v/w//u/8H/lf+Z/5X/lP/F/9v/sf+7//P/6P/n/zEAMADa//L/RgAcAN3/EAApAPD/7v8RAPX/3P/3//v/7P8SADcAIQAPACUAJwD//+T/8P/8//L/+/8ZABsACAD//+//1//w/yQAHgD8/wgAIAAXABEAKAA6ADMAKQAeAPn/2P/6/z0AQgAfACQAKAAAAAAAIwAAANz/FwAmALv/nP/9/wcApf+R/67/ev9I/3v/pv9+/2H/if+s/6D/k/+g/67/wf/y/xYA5v+k/9b/TgBbAAwA//8iAP3/2f8YAEcAGAAEADIAPAAjACMAGQAOADcARwAHAPb/LgAiAOb/BABCADEAEwAkACsAJwBFAFEAMQAkACsAFwAHAB4AJwAHAAUAMAA7ABwAFwAtACsAGQAXABgAFAApAEoASwAsABkAJwApAP7/4f/2/+X/mP+T/93/3P+a/6L/yf+2/5//of+b/7H/1P+3/6L/6v8PAOT//v8+ABYA6P8NABoA//8ZAC8AEwAXACgABAATAGkAagAZAAkAKAAiABMAEgAXADQAQgARAPr/LAAsAPL/CABOADIA6f/1/yQAJAAaAA4A4P/P/w0AOwAeAAcAEgD5/9j/9v8ZAAsADAAwADUAGwAJAPH/3P/y/xEACwABAAoA+v/K/63/uv/K/63/bv9e/4b/jP9j/3L/uP+1/2z/Y/+Z/6n/pf/W/wsABADz//7/BQADAAgAAQACAC4AQgAJAOj/FwAsABgANwBeADEA9//1//r/BABAAF4AFADY/wEAJQD+/+f/EAAfAP7/CAA7ADQACwAiAEMAFADl/wUALAA2AFMAXQApAAYAGwAVAPn/GABBABsA8f8RADAAEADz/wQADADz/+r/8v/i/7r/kv9s/1H/WP99/5n/g/9T/1D/gP+P/3H/g//B/9P/z//0/x0ALgBEAE4ANAAZABEAGwBDAGEAQAAsAFAATwAvAEQASgAJAAkAXwBcAP3/2//2/w4AKwA5ABoA8v/c/+r/IwAuANb/sv8QAEwAJQAFAOn/y/8JAFcAKgD3/yEACACz/+//WwAtAO//IwArAOn///82AA8A8P8UAAUA1////zMAFQD0//n/2f+U/27/d/+k/8f/nf9m/4j/rv98/3X/3/8JALf/h/+1//H/HQAoAAEA/f86ADsA+v8UAGkARADe/+v/JQD4/9X/PACFACAAxP8NAFUAFQDd//v/BQD//zsAeABgACkADQD7/wgANABAACsAGQADAAYASwBxACYA7P8nAE8ADQDe/wgAKwAVAAkAJwA7AB0A8P/x/xMAFAD6/w8AQgA9ABsAIwAaAM3/ov/Q/+r/yP+2/6v/gP+K/9//CgDc/6z/p//C/+j//P8EABsABgDB/+D/WgBYAPH/DgB1AEkA4v/7/zEADgD7/zMARgAcABEAIgAMAPD/+//3/87/1/8PAAoA7P8eAEEA9//U/x0AIADM/87/CwD+/+//EADt/7P/8v83AAMA7P83ADYA5//2/zMAFwDz/xoAKQAIABQAMQANAOL/+f8aAAYA2P/D/8r/zf/E/8f/zv+2/6n/zv/Q/4j/bf+o/77/m/+Z/6P/mv+0/93/2v/3/0cAQQDt/+z/LAAxAB4AJQAcACIAUgBkAE0AUAA7APH/8v9IAFUAKQBLAH0ATwAjAFoAigBYAAwA/P8WABgA+v/1/xUAHQACAPf/AgAUADUASwArAAMAAQD7//j/LABXACgA8P/9/wwA/v8HAA8A8//x/xcAGgD8//b/8P/X/9T/3v+6/4H/df+Z/73/tf+B/1H/TP9m/57/+P8kAOX/hv9o/4r/0f8oAEYABADF//H/UABrAEEADgDS/6X/6P+AALgAawAmABcAGwBWAIwAOADK////VgA8AEwAnABWAMb/6f8vAMf/hP8DAFcAEwDr/wgACQAQADcAIADZ/8z/8v8UADwAYgBQAAkA4P8OAFgARgDb/6H/w//6/zQAZAA+AM//lv+v/7//rv+X/37/ff+c/6v/l/+C/3z/gf+e/8T/1P/N/6//jv+r////HwAAAPX/EAAuAEQALwDl/8D/2v/h/97/BgAXAPb/DABPADsA9//1/wUA8f8EAEMAVgA0ABkAIAA6ADYAAgDj/wAADgAKADgAXgApAO7/BwAnABAAAQASABsADQD0//b/HwArAAEA+v8tAEIAMgA1ADEAHAAzAFkAVgBSAEsABQC7/73/x/+l/53/qP+X/5H/lP90/3j/v//Q/5f/j/+b/3X/g//f//3/3v/x/xUAFgAgABsA4v/R/wEAFwAWACIABwDk/xAAOwAVAAgAGgDf/7j/FQBOAPL/sP/q/zAASwBGABUA5//v/wYANACAAG4A+v/z/2YAfQBNAHUAhQAPANT/LABQAAMA7P8lAEAAOQAzABEA5f/o/wsAIQAoABQA3v/K//X/+/+2/5L/q/+S/1L/a/+x/6T/hv+m/6H/av+F/8r/qv9w/5L/uf+0/9r/DgD6/+b////9//L/HgArAPP/9P9BAFgAKgAOAA0AEAAZACkAPABAAAwA3f8KADsADQDt/yIANAD9/+X///8iAFkAdgBKABoA9/+3/73/NQBoACUAIABHAA4A3v8AAOD/rv8WAHUAHQDw/1UAVQDv/wwASADt/6z/DwBTABsA7v/e/6z/k/+y/7//rf+6/9j/0P+2/8L/3f+//4X/kf/G/6z/b/+V//T/FgAKAP//5v/K/8j/2P8QAE8AIAC7/+P/TAAeAML/+f8gALT/kf8SAFEAEwAOAE4ARwALAPz/FAAhABIAAQARACcAGgAOAC0AQgAwADEAOwAcAAYAGgARAOP/7f8lADMALABDAEMADADt/wIACAD2/xIAVABfACUABQAtAFkAUQAkAOD/kf92/6//8f/l/57/df+G/6j/v//Q/87/of+E/7f/7f/a/9b/EgAcAO7/GwB6AGMAIgA+AE0AAQDg/xoAPQBNAHUAYAAMAPP/EgAYACoATQAzAAUAFgAWAOH/+f9MAEAABgAwAHEAXgBVAIEAYgDw/8n/EwBZAGMAXABVAD0AMABZAIsAcAAnAAgADQAVAEMAfQBpACYAHQA9AEUAOAANAMv/yf8HAAcAz//P/9z/ov+E/7v/1v/A/8b/x/+Y/4D/iv96/4T/0f/4/93/4v8CAPn/7f8DAAIA5//Z/87/1f8TADgA+v+u/63/yv/b/+z/9v/9/w4ACwDy/wIALAAmAAQACwAsADoAMgAfABQAEQD1/+T/IwBlAE4ARgCQAHYAuv9G/3z/wP/c/xcAQwAUAMz/yP8QAE4AEwCe/7D/LABNADoAeAB+AOX/kv/x/y0A7/+7/6P/gf+T/7X/ff9A/2v/m/+S/63/4P+3/2L/Z/+q/8X/u//M//j//P/T/9L/AgAAAN7/EgBmAFQAFQD6/9X/yf8uAIUATgAOABoABwDt/y8ATQD0/8v/AgAHAPr/PgBhAC0AJQA5AAIA6f8oABoAwP/l/1kAUwD8/9L/xP/R/xYARQAyACsAMAAFAOv/DwATAOX/4f8EABUAKQBAACYA6//D/6r/q//S/9n/mP9t/57/2//C/2T/Jf9P/63/y/+f/3D/Vf9L/3H/u//z/xMAIAAUAAkACADo/9P/EQBMABwA5P/7//b/tf+5/wgAKwAfACAADwDn//v/QgBNABMAAAA2AEsAEAD4/zwAVQAYACEAegBoAAQAEgBjAFEAFQAgAD0ANQAkAAwA//8YAAwAwf+2/w0ATABJADEA/f/Q/+z/AADR/9H/AgDZ/5r/yf/d/2X/I/96/7j/mf+I/4//cP9H/1f/nf/T/8T/p//S/wMA5f/Q/+7/yf9//7v/RQBoAEAAMwAhAP3/+P8LACAAKgAHAO3/KABKAPr/3/8tACIA5f84AIgAKQD5/2YAbQD3//7/SwAyAB8ASQApAPf/PQBzADsAPQCBAFMA5//x/zcAQAA7AFoAYwA+ACMAMwBQAEMAGwAZADcAUgB4AJUAawAsACAA9v+Y/5D/x/+U/0L/av+b/3j/nv8FANr/Zf+E/9z/xv+v//j/KgAPAPr/CQAlAD0AJgDv/+7/GwAsADsAZABPAPj/3v8UADQAMQAvABQA9f8fAGUAVAADAOj/DgAyAEoAagB2AFAAEADz/woAJQAWAPb/9f8TACEABwDj/9D/1P/v/wwADAD5/wsARABsAHcAdQBFAOX/wv8QAFsARgAjAD4ATwAfAPT/9P/X/4r/cv+q/8H/mv+d/8X/of9d/3r/rP90/0L/jf/Z/8f/1f8wAEEA5P+i/7P/3P8HADEAPwApAP7/3v/4/zcARgAaAP3/AAD//wkAJAAhAAUAAAABAPb/BAAqADQAKgA9AEgAFADN/8L/5//2/+3/AgAkAAYAyv/f/x8AEwDt/xMAOAATAPj/EwAhAC8AXgBfACoAKQBEABwAAwA/AEwA/P/k/wUA1v+L/5n/sP+G/4D/t/+z/4D/jf+x/4j/Wv+O/9j/y/+u/93/EQADAP7/NAA+APf/1/8BABYAEAAyAFgAPAANAPz/8//2/xgAIQD1/+H/BwAfABMAFgAjABcA/v/z/+L/0f/m/xoAOAAyABoA9P/S/+L/HwBGAEkAUABHAAYA1f8GAE0ASwAvAC4AIQAUAD8AWQAJALj/3P8SAPr/8/82AFgALgAQAA0A3/+Y/3n/gP+W/7f/vf+i/6f/wP+C/xb/Iv+R/7b/n//H//j/xf+H/7b/FwBOAFEAEwCx/6r/GwBlADYABAAOAB4AOQCLALUAWQDn/+z/KAAsAB8AOwBIABUA6f/7/yQALwAlACEAIgAhABsADgD7/+n/6f8DAC8AVgBjAE0AKwASAPL/yv/j/1EAkwBZABUAIQAxACAALAA7ABcADgBIAFkALAAaAPj/jf9x/+f/HADC/5j/xf+s/3X/s/8NAPP/r/+h/57/lP+h/6b/m/+7//f/AwDw//r/CADv/9n/8/8bABkAAAAUAFAAWgAgAPj/+v/0//H/HAA6ABAA4v/8/zcAQgAZAPf//P8MABgARgCFAHYAJgALAB8AFgATACcAAADb/zUAfgATALL/AQA4AO//7v9CABYAof+z/wsACgDe/9r/6v8LADsANQDx/7n/qf+q/6//qv+k/7L/uf+g/6D/wP+v/33/hP+o/6b/q//V/+r/5P8BAC4AOQAdAOb/wf/m/yYAIwD0/+r/+/8DAA4ADgDs/8v/zv/p/w0AKQAiAAgABQAQABkALAA+AEAASABYAFMASAA9AAkA1v8AAD0AEADM/+T/CQD7/xEARwApANj/2P///+v/0v/7/ykAIwAPAPn/zP+z/9f/AgD8/+T/5P/v//b/8P/G/4r/av9j/2T/hv+2/6z/hv+Z/7//vP/H/+D/tP+L/+3/bABTAP7/BQAeAAEAAwA4ADUA/f/9/y4ALgD9//D/FgAoABIAFAAwACoAEwAqAEsAPAAeAAQA0//L/ycAgQBxADgAJAAgACYAQgBKAC4AEwD9//X/FQA1ACMADgAZAAkA8P8pAHoAbAAtABoAIQAmADEAJQD///r/BgDn/8P/0f/g/9P/zP+0/3r/a/+X/5P/WP9L/2j/Zf9l/53/wP+N/1z/g//F/8T/n/+6/xkAWABAABUADgAMAPz/CQA7AGEAWgA2ABYAFQA3AFIAQwAjACgAWgB+AFEA7//H/+//AADj//b/MQAjAOb/6P/6/87/tv/l//D/wv/W/yoASAAzACsAEwDa/83/+v8dACgANQA+AEQAUgBUAEMAQAA3AAwAAAA/AGMALQAAAAsA5/+L/3H/nv+X/2v/f/+n/4v/b/+K/4X/Vf91/9T/1f+M/5v/+f8bAAYAFwArAPv/yP/v/z4ATgAtACkAQQBHADwAOwA7ADEAKgApAC0APgBIADkAMQBIAEcAJAApAEkAJwDp/wEAQgA6ABoANABBAP//x//k/xcAKAAvAC8AEQD0//v/CwAZAD0AVgAxAAYAIABEACkACgASAP//z//U//X/6P/Y//f/9/++/6v/yP+5/4f/hv+v/8r/zf+5/5T/gv+G/3T/VP9n/6z/6P/5/+X/vv+v/8z/4//O/8L/7P8ZABIA+v8EACIAMgAtABYACgAbACgABgDe//H/KABBADsAMAAhAAsA+f/v/+3/8//7/wIADQAUAAwA/f/6/woAJAAuACEAFgASAAEA+v8ZACcA/f/h/wcANQA7ACsADADw//L/+v/x/wEAIwALANL/xf/I/7T/sv+1/4j/bf+a/6j/d/+E/8X/tv98/5v/3v/e/83/4P/q/+X//v8YAAAA5P/1//n/xv+i/8H/7P/5/w8AIgD8/9H/4f/1/+P/6P8JAA4AEAAoABkA+v8bADQAAADy/zUAOwD8//z/JgAmAC4ATwBAABQABADz/+n/FQA+ADIAIwD+/7H/xv9KAGIA9f/Y/wUA7v/t/0sAaAAfAAsAGQDg/7b/3v/t/8L/qv+h/5r/sv+4/4n/jv/R/73/Yf9s/7j/p/9//8P/DADo/8n/DAA6AAkA5f8DAAEAy//Q/xIAIQAIACUATgAxAA8AJwArAPr/6f/6/+f/2v8FABcA+P8VAGwAZQAFAO//IgAWAOj/DABAABwA/v83AFQAGwAIACsACgDE/9//LQAqAPj/9P8aAEwAYAAxABAAVwCMADYA+f9BAE8A6//3/1QABwB3/6H//v/H/5v/1v/P/5b/vf/R/2b/R/+8/+z/vf/f/xMA0f+e//b/TgBCABwACAD3/wcANQBJAEkAVQBRACwAEQAbADQANQAWAAUACwDm/7j/+v9bAB8Apv/P/z4ALwDp/+L/5f/f/wcAMgAfAAgAIAA8AEsAWgBOAC4AMABAAC4ALgBvAJkAYAAfACgAPQAzAC8AKQAGAPD/+P/y//f/OgBdAOz/Xv9l/7v/tv90/2P/bP9t/5P/tf+M/2z/n//E/67/rv+7/5//sv8rAIQAUwABAAMAJQANAOv/GABJABwA7f8UACwA+//l/w0AMwBMAFYAKAD4/wYACwDh/97/CQAMAPn/GAAyAAcA2//v/xYAJQAlAB4AFAAYABQA+P/x/x8ATAA0APf/5v8BAAsABAAQABcADAAlAFIAPwAhAEQAUgAkACYATAAlAOv/7v/b/5//mf+l/43/m//L/7j/h/+A/37/hf+6/8r/lf+e//D/BQD0/wsABgDZ/wAAWQBXABkA+P/m/+n/EwAhABgAQwA8AMP/rf8tAEIA1//R/ygAPAAeABAABgAWADAAIwArAEYAHgAKAFYAZQAWABMAKwDl/+X/XgBZAPf/IABWAO//t/8nAGMAGAADAF0AkgBLAN//4P9IAGkAIQAYAFQAOQDr/+n/4v+h/7H/AQDd/3n/jf/O/6L/S/9D/47/4f/1/+H/1P+t/4P/z/9IACsA4v8lAEMAzv+5/zEATQASAAsA+v/H/+X/HQAIAAEALQAnAAgAGAArADMATAAuANv/2f8HAO7/4P8OAOz/qP/q/z4ADwD9/z0AHwDb/wcANQAeAC0AOgDv/93/MwBFABkAKAAyAAYAAAAmADQAJgAXACYAUQBMAAYA9P8cAPH/of+w/+D/zv+s/6v/pv+b/7H/2P/V/6v/ov/A/7L/d/+I/+r/BADF/77/BAAVAOD/1v8UADsAIwAEAAEADwANAP7/JQBbABQAmf/F/04ARgD4/xwASQAeAAQADAACAB4AVQBRADUALwAKAOj/CgAcAPv/EAA7ACIAGABFADAA3v/f/y0AQwAPAOL/6v8RABkA+f/v////9//u/xIANwAwABEA4v+9/9P/4/+c/3H/u//k/6H/gf+a/4L/dP+l/6j/g/+m/+n/7P/W/+X/BgAQAP3/AQBLAGcABADJ/wIAFQDs//3/HQAEAAQANQA7ABwAHwArACkAIwAQABgAYQCNAEgA9P/z/wcADgBIAHIAFwDD/wgAQQDz/8L//f8uAEAAXABDAAYA+v/y/+H/DwAgANT/vP/5/wYA7P8IACgALABAAD8AEwAIAA4ADAA2AEUA1v9u/5n/6v/n/8X/s/+T/4D/kf+T/4b/pP/N/7r/mv/D/+//0f/L/xcANAD3/+P/DgD//7v/v/8OADcALQA+AFIAFgDB/9H/JgA4AAgAAgAjAB4A/P///x8AIgAVAC8AXQBiACkA3f/R/w4AJAAAABQATgAyAPv/FgAoAPb//P8wACAADgA2ADMADQA4AIEAWgD1/+D/FAAnABAABwARAAQA7f/n/93/zv/I/7H/lv+e/5r/fv+T/8T/vP+S/4X/gf+A/53/vP/D/8r/yv/T/xEAVQBSACMAGwBBADsA/f/+/0UAUQA6AGEAWADq/+P/TwBGAAsASQBiAA4AFwBdAC4A9P82AHUAXwAtAOv/1v8mAEwACQAFAEcAJADX//7/RgA/ADMAMQDy/8j/CQBAACkAKgBSAFwASgAoAPL/6v8YACUAJwBeAF4A+f/W/wkA8P+i/5b/rP+4/8P/qf90/4L/r/+O/2n/nv++/3r/V/+b/9f/1v/o/w4A+v/G/77/3P8LAEcAXgA2AAcA+P8GAB8AKAAVAPr/7f/+/zIATwAuADEAdgBtAA0A3//p//X/FAAzACQA/f/f/8z/4P8RACQAFQDv/7D/pf/M/7f/s/8pAGcACADe/zcASQD1/+r/LgBAAAYAy//m/0MAdABqAFoAOgALAO//1f+s/5n/of+X/4T/fv91/3T/k/+q/5v/ff9v/3z/lv+m/6f/q//K//z/GQAUAA0ABAD1//b//P/0/wMALwAzAAwADQA1AFoAdwBhAB8AHQBJAB0A0v/4/z8ADQCw/7D/5/8BAAgAIAAzABMA2P/d/ykARQANAOv/DwAwADYARgA8AA0ABgAQAOT/5f9LAHMAMwAtAFwANgDx/wQALQAhAP3/5//1/woA7f/I/9T/3P/P/9//+//w/9b/x/+8/8H/v/+i/7L/4P/H/6b/zv/q/+7/NAB6AEoAAQATADcANABAAFcARAAcAAkADwAbACsAIQDl/8L/+v8nABQAKgBVAB4A2f8DADAA///d//r/EQAbABQA5f/e/x8AQAAmAB4ANQA7ACIA/v/q/+z/0v+e/7T/DAAaAOv/CQBDAP7/jf+v/zAAUAAEAMn/1v8FAAIAxP+7//P/0f9e/0X/hf+g/6L/w//f/+v/4f+r/5z/3P/V/37/k//6/wgA7/8aAC0A/v/0/wkA/f8SAE4APAAAAB4AUAAaANz/9f8FAOj/6//p/9b/JgB/ADIA0f8AADcAJwBDAHgAXwAvABgAAQAFAAYA5v8hAIoASgC6/8//NQA1ABkAIwARAPr/DAAmAEcAVQAcAPj/IgAdAM//0P8jACsA//8bADsA6v+F/4X/pf+V/5X/yf/W/7D/qf+t/4r/cP+B/6P/wv++/5r/p//0/yIAKgBSAFwAGgD4/xQADAAGAFUAigA9APb/NgB+AF4AQgBrAGYADADh/wYAEADy//v/FwAcACoAPQAdAOz/7v8CAA8AKwAjAN7/yP8GADUARABcADsA6f/d/+f/r/+z/xQAJwDv//v/EwDo//P/WwCLAF0AKAAUABYACgD0/wMAGQD4/8v/v/+j/3X/df+h/9P/8v+8/0n/Qv+o/9L/rP+s/+b/9P+x/5v/BQBaAC0ADABAADMA4P/t/zQAOAA5AFcAOwAEAAgAKgAdAO7/8f8nACsA5f/H/+v/4/+4/+j/RQBDAO//vf/e/xEADQABABcADgDa/8P/0f/x/ysASAAdAAsAHQDm/7T///9KAD4AOAA3ABwAOABuAEIA+v8IABUA9/8FAA8A0v+q/73/t/+V/3z/Vf9O/6//EADv/57/h/+I/4X/pv/O/8v/w//f//7/BAD0/9z/5/8cADUAGwASAC8APgA3ADoASwBXADkA6f/R/zMAcgAJAKj/+v9hADIA8P8IABMAAgAsAE8AEADV//P/FgAaACcALAAYAAEA1/+0/+f/OwBFACYAFwDx/83///9GADsAFwAfAB0AAAD3//P/xv+e/7L/0f/h/xoATQANAJj/i//D/8L/mv+i/8j/yv+U/2b/iv/L/8P/pv++/9P/xP/O//n/IQBGAFMAJADv//T/GwBFAFkAMAD6/wwARQBDAP7/0P/p/xYAKQAqACoAJgAsAD0ALgAKABIALAAdABsARwBMABQADQBcAI0AaQBEADwAEADo/yEAZwA8AN3/tP+8/+T/IAAiAPf//f8eADEASwBCAA4ADgAuACMAMwBsADcAy//h/wkAu/+X/9X/zP+L/5X/wf/K/9D/wv+R/5j/yf/B/63/3f8GAOr/zf/i//z/8v/I/7D/5f87AD0A+P/v/yEALAATAA8AEQAPACEAQQBcAF4AIwDN/9X/MABgAFkATAAaAOD/7P8mAEcARQAWANr/9v9FADQA+v8LACEAAQDp/9v/wf/K//D/CgA3AEoAAQDq/zIACgCe//L/fQA2ANH/HABQAAIA1P/M/5v/mf/S/8b/bP9K/5L/4P/G/33/mf/j/7b/eP/F/wIAvf+f/9T/z/+u/+T/HgD9/9b/5/8AAP//7v/l//j/DgAHAP3/DwAiABEACQA3AEcA7/+o/9z/DgDW/8f/MABoACQA8v8XAEUAPQATAAQAKgBOADUAAQAQAEoAMwDK/6v/AAA2ABwAHwAuAAMA+v80AEYANwA/AB0A2//4/0YAOgATACYAFQC9/4n/pP/V/8T/Zf82/4X/2v/D/5T/pf+x/4j/a/+B/6v/2/8LAA8A4f/X/woAEgDq/wQARgBBAAEAxP+5//3/PgAGAMz/GABCAAQAMQCNAB8Aiv/U/1YATwAwADUAEQD9/yYAQgBJAEAABwDY/+7/CAAPABoA/v/P/wAARgATANf/9v/4/8//7v8aAPb/7P80AEMADAAhAGoAUgAAAP//OABEACEA8P+2/67/4P/X/4v/nv/4/9P/XP99/wgABQCE/2f/vf/Z/7L/z/8XAPr/t//7/3QAWADs//3/VwA9ANv/6v9DAEkAJwBHAFwAJQAlAHUAbQAZABMAMQAVAA8AQABCAB8ANQBaAEcAKAAdAAUA8P8VAFoAXwAJAMH/zP/4/ygAZgB/AFAAGgAcADgANQD2/7D/0v8lABIA5P8YAEQAHgAQABwA8f/Q/+//CgAVAAwAtP9y/5b/nP9//8L/8/+n/5P/0v+Z/1P/sf/j/5n/w/89AC0A9f8aADEADwD+/+//7P8UAP//uP/K/+P/pv/H/0QAGQCl/wQAdAD0/5P/DwBOAOX/1P85AEEA+v/4/ycAMQAkAC8AUgBQABMA9f8mAD4ADADy/wwAIQAkAP//0P8MAHIAOADB//v/YAAoAOj/BQAMABsAYgBmAD0AZgBuAP7/5v9GACQAmv+Q/9z/1/+b/5L/sv+d/13/av/E/8L/UP8q/27/nv+9/+j/4//I/8j/v//G/w8AMADl/7r/7f/5/9H/5P8XABsAGwA1ACoA8//+/1kAeQA5AAoABgDw/+f/HgBIAC4ADAD7/97/3P8QADMAFAD5/ygAWQApAOb/9v8HAOP/CABvAE0Ayf/N/y0AKADs/+P//v8oADoA+//G/xIAZQAvAOb/CgAyAP3/u/+3/8f/t/+P/27/gP/W/wkAtf9Z/4j/xf+P/2//vv/Y/4j/eP/K//3/7//g/+z/8f/X/8v/3P/e/+f/GQATALb/q/8NABYA5v8rAGQA/P+v//b/MQAZAA4ADQDx/wkAVgBjADYAKwAcAMz/rv8sAKUAYgDu//L/GQAOABkAQwBEACMAFAAoAF8AfAA/AAQAJQBWAFcAUQBMADkAMQAtABsAEgAPAOf/uP+5/8j/tP+H/2T/b/+M/5L/n/+7/6//jf+W/7r/0f/f/9v/y//y/0AAUQA4ADUAJgD+//7/LgBQADQA+f/t/xAAFwAPADAANgDs/9L/HgBDAB4AFwA1ADQAHAAnAEoAQgApAEcAXgAdAPD/KgA5APT/BwBCAAMAzP8VAEsALgAbAA4A7//9/xcA9v/l/wgAIwApAP3/ov+d/+z/7//P/wEAEgC+/6b/0v/J/9P/9P+a/z7/lf/s/7f/tf8LAPD/l/+w/8X/ff+G//3/KAAHABIAFADr//7/LAD+/9b/JwBhACoAAgABANr/2/9AAHIAMgAVADMAAwDA/xkAogB0APD/+f8uAPD/6P9sAH8AAwD0/zgAFADd/wsAJQD2/9//7P8RAE4ATQAbABYAFgAEADIAZgA/AB4AMgAOAO3/LwBCAAcAAwDw/6f/w/8cAAQA0v/c/6z/Zf+S/7n/if+Q/6v/a/9L/5L/vf+z/83/9v/2/+r/+P8mAFgAUwA3AEYAUgA8ADwATwBXAFgANgD//w8APAD+/67/0f/0/+f/FwA9APj/4/8vACsA/P88AF4A6f+0/xYARwAjAC4ASQAqABgAMAA2ADIAMgAUAPb/BgAYAP//6/8EADEANQABAPT/QABQAO//z/8IAPf/yv8DACUA6P/h/+r/kf+A//f/9v92/3v/1P+p/1T/cf+t/7H/lf95/4z/y//h/8v/4v8iAC4A6/+y/9r/KAATANX/EwBfAAAAmf/f/yQA2/+k/9v/+v/A/57/zf8IAAUA5f/o/+z/2//9/z4AOgAXADAASgAeAOr/7/8bAEMAOgAZACwAPwAGAOz/MAA6AOD/w//y/+v/2f8KACQA///0/w0ADQAOACQAHwD7//P/CAAMAAAA+P/h/6r/h/+q/9v/x/+E/2D/cv+Y/7j/wv+9/7b/qf+c/7D/2//0//7/AgABABYARABNACEADgAtAD8AMQAdAAkAAgAUACsAMgApACMALQAzAB4ABAD6//H//f81AEoAEADx/x4AQQBGAEsAKADP/5P/qP/5/0AAFwCk/6f/EQAUANr/CwBJAAkA2P8dAEAAEQAhAHEAdwA9AEAAbQBWABkAGQAkAPf/5v8UAP//p/+p/+j/v/9r/3n/r/+v/53/qP/E/9v/z/+3/+X/IADq/57/0/8gAAQA9P89AFkAIwAQACkAIQACAP//JABIADYADAAbAD0AJQAfAEAADgDI/wsAXgA3ACcAbQBlABgAFAAkABUAKwBGADgAOgA0APT/2f8HABAA+P8TADMAMQAdAOn/0/8LAA0A1v8VAG8AGQCq/+7/QwAYAOD/zP/D/+n/BwDi/8b/2f/m/+X/2v+6/6L/oP+b/77/7v+f/zj/jP8AAMT/fP/C/wEA4P/R//z/DgDq/8b/4/8tADQABAANADkAPwA+ADkACQDt/ywAYgA2AP7/BQASAPr/7P8SAE8AWAAcAN7/zP/R/+j/IgBKABEAxP/a/xIAAQDl/+r/4//t/x0AGADs/xkASAABAOH/MAA/ABcAPgBhAC0ADQARAOj/0P/6/w0A///2/9b/wv/O/67/eP+P/8D/sP+Z/7z/3P/K/6P/of/f//7/x/+9/wEAEgD//yoATgAoAAoAEgAOABgAJQD//+3/IAA1ABEABAAKAPr/9v8XADMANgAtABgA/P8BAC0ATQAqAOH/vv/P//j/GAAHAOX/8v/6/9v/5v8IANf/pf/7/14ALADQ/9P/BgAcAA8ABQAWACAAIgBKAGoARQAaAA4A6P/B/+H/8//B/7j/6P/x/9f/uP+K/2f/Yf95/8X/DgDa/2X/Wv+e/8r/BQBCACUA1/+0/7f/0P///x0ADAD3/wgAIwAdAA4AQACIAGcAEAAZAEMAEgDt/zUAcABSAEUAWwAaALH/3P9kAGUA/P/2/yAA2/+s/xkAYgAVAOn/JQBAABwAGgBAAEMADQDV/+T/IwAyAB4AKwApAPL/4/8qAGsASQAAAPj/BwDS/5r/uf/Y/6n/jf+h/4b/bP+i/7z/iv99/6//yf+4/73/5f/x/9f/8f9EADAAuv/K/zgAEgDL/x0AUAAAAPT/OQAjAPT/GAAmAAsAGgAqABwAMQBQADQA7P+w/8n/OgBxABcAuP+7/93/BQBBAEIAEQATACsACgDZ/+L/EAAgABoAOQBkAEgADgAoAEwADADn/zEASQADAP3/PQA8APv/2v/r/wQA+//P/8D/1P/G/6L/nf+h/53/oP+Z/5n/xP/W/5P/bP+t/9n/vf/L/w4AEwDk//H/LQAhANr/3P8rAEcAFgAJAD0AWwAzAPX/6f8RACkAJgBEAFEAAQDQ/xwANADQ/9D/QQAaAJf/0P9cAC0AqP+o//L/EQAuAFUASgAYAAYAJABLAFkATAAgAPX/DgBPAEkABgAGAEYARwAKAO//AQAbACIABADb/9j/9P8JAAsA9//K/47/av+V//H/6f9t/1j/0v///7v/of+p/4v/nf/z/wwA2//N//b/IwApABcANQBcADgAJgB6AJEAJwASAGUAPgDN/+H/OQBJACIA9f/l/wUAFQD3//v/FQDt/9D//f///83/4/8iACEABAAHAAwABAAIABQAFwD4/8j/2v8dAB8A9v8DABwADAAYAD0AGQDT/9P/+P/5/+P/4v8LADYAJgD+/wcAGAD2/87/uv+P/2r/g/+l/7P/zP/R/6r/rP/h/9f/kf+N/8P/zf+4/87//f8UACEAOwBDACoAGgAbAAkAAAArAEAACgD0/ygANgAkADYAMQAWAEYAZQD6/8L/IQAYAKj/9v+PADoArP///2oAGgDR/w8AMwAFAAQATgBtADkAGgA5ADgAFAAzAFIA8/+c/+D/GwDp/wQAewB3ABQA/v8EAOX/BwA4AO7/p//S/7r/Tf+G/xcA2/9Z/5r/6P+D/0L/jv+c/2n/pv8PAA8A6P/z/wUA8v/b/+b/CQAUAPf/6v/8//b/4v8EAFEAaQAcAMz/6P8aAPj/4v8PAAkA3f8LADEA9v8BAEoAHgADAGsATwCh/8b/egBdAPP/PAB5ACMA/f80AEIAGQD//wsALwA5ABMA8P/l/+r/OQCXAGYAAwAkAEUA6f/V/10AjAAeAPT/HwDy/6D/sP/H/5T/h/+//8L/l/+X/4j/U/93/9b/1/+a/5f/xf8AACMA9P+9/wEAUQAmAAEAMQA/ACcALQAnABMAJAArACMAUABGALn/k/8zAJYAagBEAB8AzP/E/ycAYQA9AA0AAAANAAgA6P/+/zYALAAZAD8ALQDb//H/TwAxANP/5v83AE4AMwAtAGkApgBqAOv/1/8SAAQA3/8ZAFwAOwDh/63/uP/I/6j/if+X/5v/h/+r/+n/y/9+/4L/uP/R/9v/6f/H/3T/bv/y/1kAIADZ/w0AOAAEAAMARABCACkARgA9APv/7f8gAFIAYAAzAPf/BwAqAAkADQBXAE4AEwA2AGEAHwDU/+//PwBhABsAvv/c/xQAxf+a/wQAIADS/xYAnABwAAoADAD6/9T/GQBvAHEAXAA1APv//f8OAOX/6v8yACMA+/8+AEEAq/9j/57/rP+l/9j/x/97/6f/8/+b/yX/Qf+C/37/iv+//9P/zf/O/9X/8/8VAAEA+/9JAFsA3v+u/zEAdAAQANL/9v8CAAAAGAAKAPH/JgBhADwA8v/h/xEAUAA9ANz/wf/r/9D/yP9KAJcAJADM/wkALwANAA8AKQA+AHEAgAA3AAoALQA7ACYAOAA9APn/1/8bAE8AFgDe/xkAWwAqAPX/LQBbAA4As/+//+r/wv9d/zH/eP/D/6f/gf+j/6T/Zf9r/8T/6v/D/47/gv/e/18ASwDi/wsAbgAdAJz/1f8yAP3/4f9NAG8A7f+m//r/MAAFAAkAUgBbACQAFQAfAAwAAAAVACMAKgA8ADUAFQASAB0AAwDY/9//IABVAEYAIAAnADQAGAAcAGAAbQAiAP3/HAAfAP//BAAdACUANQBIADMACQD7/xEALAAjAOr/yP/p//3/zP+s/7b/kv92/8//GQDA/2r/pP/L/5j/rf/2/9H/mf/d/zkARwBDADsAEwANADQAJQDi/9P/CQBBAE0AOAAzADIABADh/xwAbQBiAB4A+P8DADoAXAAtAAMAKwBEABsAGABDADYADQAaAC0AJwAsACoACQD6/xEAJwA3AEcAMwD6/9z/+f8oACwABQDt//f/+f/x/wsAPABMAC4ADAAKABQA/v/Q/73/vv+o/5L/pv/G/8n/vv/I/93/u/9i/0b/l//b/77/kv+h/9L/GABbAGUAPgAOAOX/7/8uADgAAwANADsAFQDt/xsAJADp//H/LgArAAkAAAD3/xcAZgBiAB8AOwB6AEUABgA0AEAA8f/r/zIAJwDt//j/BQDU/9P/HwAoANX/rf/P//H/BAAKAOr/xP/W/wUAIgA1ADgADgDl/xEAbgB/ABwAsf+h/87/9v8EANr/fP9c/6b/y/+F/17/hP+O/4//zv/t/6z/h//R/zYAWQAsANr/xP8FADsAKQD5/9H/xv/2/0cAXAAkAPH/+/8dACgALABHAEUAEQABACgALwAZACsANQAKAAQAMQAkAO////8xACsABAD+/xkALAAfABAAHwAhAPj/7P8KAP7/2v/q/wwAGgA3AEEABwDf/w4APQA6AD0ANwD+/8j/xf/O/8L/uv/A/77/sP+g/5H/gP+H/7r/zf+I/17/oP/Z/8b/xP/Q/5b/cf/C/xcAJwAwABoA0P/I/xAAIAALADIAOgD//xoAewBnAAUADgBkAHoAYABaAFoARQAwAD0AUgA4ABEAKQBcAFcANwAqABUADQAuACUA4f/W//r/+/8cAHAAWQDb/77/AAAYACEAOgAVAOb/FQBCABcAEABWAF8AKgA4AGIALgDI/6j/y//X/7D/iP+J/53/lv+D/5X/u/+s/2P/Rf+C/8L/vv+3/+L/CgAOABMAGAADAAMAQQBlACEA0//t/zYAVQBkAG8ANQDn////TgBQABoAAQAIACoAWQBGAPL/0P/z/xwAPQBHABkA8P8EABAACQA0AE8AAAC5/+f/NgBCABwAAgAUADIAJAANACYALwAKABYAQgAoAPb/9f/+/w8ARQBBAOP/sP++/6z/pP/N/6//Vv9p/8j/xP+E/4//tf+e/4f/qP+7/5H/cv+W/9n/HABKACAAu/+//zoAaQAUANj/9/8WABcAIwA6ACsA7P/d/0oAqgBpAPj/7P8JABcASgBaAAQAx//j////HABCABoA0v/3/zYADgDj//f/+f/1/xgAKgAeABkAFQAoAFwARgDc/8b/BwARAAsAMwAuAPv/+v8eADoAYQBjAA8Awv+8/8f/zP+0/3T/cP+9/9D/mf+O/5D/Y/95/+v/BQCV/z7/cv/5/zkA9/+//+f/BAD6/yoAXQAYALz/zP8WAE8AVAAYAPr/NQBTACUAHQA/ACYABgAcABgA+/8BAPb/3v8eAGYAIQDB//X/UgBNADkAVgBCAOf/xP8LAEwAQgAiABYAFQArAE0ANgDt/+L/JABBACEAGQAhAPb/z/8NAGIASADz/9r/4//X/9r/0/+J/17/m/+5/37/jP/d/6//P/9j/8//u/9n/3P/vf/r/wUAEQADAPf/BQAYACIANAA2AAsA6P8DACcAHgAOABcAKgA/ADwAEQAGADYAKQDq/xoAbgA2APD/MABMAP7/BABEABEA4P8pAFIALQA6AEQABwANAGgAYQAPAAcAFQAFACgAUwAUAMb/6v83AFMAWgBFAPn/yv/9/0wAYgBGABYA7v/3/x8AGwDg/6L/ff+D/7b/0v+j/3L/if+x/7r/zv/s/93/sP+i/8v/EQAwAAIAxf/D//P/JQBBADkAGQABAPH/6P8GACIABADs/yAAWwBQABUA5f/y/zgAVAAnABwAKgDz/9T/LgBtADIACgAoACAAEgBFAFEA+/+8/9n/GgBAADEA+v/j/wkALAAqAB8ACgDr/+3/JABSAEEAEAAGACkAQwA1ABEA9f/i/83/w//h/wAAyP9r/3D/q/+Y/2j/cf92/3T/uP/s/67/if/C/87/wv8hAGYAAQCu/wMATAAVAOX/+f8KABoAPQA7AAgA8f8BAPn/7f8ZAE8ALgDn//n/SgBaACQA+P/n/+D/5P/6/yMAQQAoAAQAHwA+ABEA+f8rAC0A+P8JADsAIwAIACMAHQD8/xAAIAAKABsANQAEANz/BgAlABcAGgAZAPn/5f/O/6X/pv/E/6T/av9v/4r/i/+F/23/ZP+f/8L/g/9i/6r/1//H/+P/DwD4/9X/5v8VAEIAOwDw/77/3/8OACUAPAA0AAkAAQAUAAkACAAcAAkA6/8QAEkAPQARAAgAFQAZAA8ABwAIAAYACwAXAA8AAQANAAUA0P/H/wIAFgACAA0A+P+2/8z/HwAfAPv/CwD4/7v/4P8/AD4AAgDq/+T/5/8BABEA///h/8T/rv+i/5P/gv+E/3r/Yv+A/8X/zf+R/2j/f/+m/6n/rv/n/xcA+P/m/zAAWAAcAP7/JAA2ADIAOAArABcAGgASAAYALgBKAB8ADAA3AEUAGQDu/+n//P/7/+r/DgBWAEYA+f/8/yYAFQAJACIAFQD+/xoANgAwADMAMwAjAC0AOgAsADQAPgAZAAEADgACAP7/OwBeAD4ANAAxAAYAEQBTADIAvf+c/9j/9//a/7//yv/L/4z/XP+d/9z/sv+e/9T/0v+s/9//HgD+/+X/EgAnAB8AQABZADUAEQAlAEAANgAjACMAEwD6/xQARwA2AA0ALABDAAIA6/82AEgA+v/j/xwALQAUACEAPAAlAPz/AAAsAEMAOAAzADwAPQA0AB4ACAATAC4AHQAEACsATAAYAN3/4//2//n/CAAfACwANgAmAAQAEAA9ADUA///Y/8D/tP/F/87/rP+S/6L/p/+P/5D/q/+z/6r/uf/X/9j/wf/A/+P/DAAZAA0ABwAeAEAASAAyAB8AFAADAPH/7v/7/xwARQBKACEACgAbABUA9f8CACQABQDf/w8APAALAOz/IwAyAP3/BwBAADcAHwA3AC8AAwAcAEoAJAD6/x4AOQAhABwALgAlAAkA8v/l//j/GgAcABQAIQAaAPL/4v/7/xMAFAD1/7//p//A/8j/qP+P/5D/mP+j/67/s/+x/5f/b/97/7T/x/+9/9j/9//x//r/GgARAAAAGwAcAPL/9f8SAPj/3P8CABsA/f/6/xsAGAD5//r/EwAYAA0ADgAbABcACAAdAD4AIADp//b/GAADAPv/NABGAA4A+v8iACIA9P/r/wwAFgALACgAUwA6APX/6P8RAB4AFAAZABMA+v/2/wEACAAWABIA6v/h//j/1P+W/6D/rf96/3T/uv/F/4f/gv+x/67/jv+b/8D/wv+s/7P/1//o//L/GAAoAAcABwAqAAsAz//u/yQABgDn/woAJAAYABgAGgAPAAwAAQDs/wIAMAAyACEAJwAlABsALwA1AAkA9/8mAEQAKwAcAC4ALAAHAPP/CAAjADIAQQBMAEMANQA3ADkAMgA7AFMAVgA2AB8ALQBCADcAKwA4ADIAAADe/+f/5f/M/7j/o/+M/5v/vP+//67/pv+f/5//qf+o/6v/yP/Z/9H/6v8cACUAFQAfACwAIAAUABsAKgA0ACoAGwAmAC8AGgAYADUAMAAKAAsAKAAoABoAGwAdACIAKgAgABQAFwAOAPX/9v8QABcACgAJAAkA+//1/wYAGwAbABkAIgAbAAAACQA4AEEAGQAMAB0AFQAMACkARgA6ABkABQARACYADQDL/7L/w/+v/4z/l/+b/2j/U/+L/6v/gP9f/2//dv9s/4X/sf+4/7H/1v8EAP//7P/2//v/7/8EACkAGADu//v/KAA0ACwAKwAeAP7/6v8CAEAAbQBTABoADQAcABYAFQAyADQAEAAHAB0AFAD3//j/BQAJAB4APwBBACEAAADu/+r/+P8KABAAFQAlADAAKAAbAB0AIAAQAAIAGABAAFUAWgBTADgAHgASAPP/zP/U/+7/1f+7/9j/3/+r/5b/sf+t/53/uP/I/6b/lv+x/8z/6P8LAAMA3//m/wYABwABABcAHAD5/+f/BwAmABMA7//9/ywANQAPAPf/BQAXABkAGgAkACQAEgAGABcAMAAuABkACQACAAAABQATACIAKgAjABgAEQD9/+H/4//5//f/8/8VADIAHgALABkAHAAEAPb//v8FAAAA+/8MACcAIgD///L/8//M/5v/ov/C/8D/r/+v/6//o/+Z/5r/o/+v/7D/pP+h/67/wv/W/+v//P8GAAoACQAEAAEAAAD6//T//f8QABMAAgD9/xAAHAAaACEAJwATAPz/BwAXAAsABgAhAC8AFwARADEAPgAmAB0ALQAmAAkADAAxAEIAKwATABsANAAuAA0ACQAmACkAFQAiAEAANQATABQAKgAuACcAJgAmABsACwADAAMA9//e/9D/x/+t/5j/o/+0/7D/p/+k/5//nP+e/6n/x//o/+b/2P/r/wYACQATAC4AMgAnACoAKwAfACQALgAnADIATAA2AAQACQAyADAAGAAhADAAJAAWABYAFgAPAAUA+P8BACMALAAKAPL/CgApACUAEAAOABkAFAD///3/FgAmABYABQAZAD0APQAgABMAHAAUAP3//f8XACYAHQAYACQAKQAIANz/0P/Q/6//i/+a/7P/qv+l/7T/qv+O/5T/p/+n/6z/vv+0/6X/wv/t//r//f8RACIAHgARABEAHQAgABQADgAQAAgABQAQAAwA//8NACMAIAAbAB4ACgDz/wAAEQASACIANAAkABEAGwAdABEAFwAqADEANQAxAB8AFgAdABkADQASACAAIwAeACAALQAyABoABgAYAC4AJwAsAE8AUwA0AC0AOAArAAkA5P/H/8D/w/+2/7L/y//S/7T/n/+d/5H/i/+c/6r/p/+o/7L/wP/f/wkAGgALAPz/AQAOAAwABAAJAAwAAgACABkAKgAnACYAKwAmABgADAAKAA8ADQABAPr/AAAOABsAHAATABIAEgABAPn/FAAoABQACQAbAB4ACwADAPn/5v/q//n/+f8AABsAIwAYACAAMgAtAB8AJwA6AEIAPQAwACUAFgD+/+H/xf+s/57/oP+o/6z/p/+U/3r/cf96/3z/eP+H/6j/vP+4/7b/yv/i//D//P8FAPr/8f8DABoAIAAmACkAFgAJAB4AMQAnAB8AJwAvACwAHQAEAP3/CAD+/+f/8P8GAAEA/P8PABkACAD3/wAAHAAvACoAHwAhACEAEgAMABMAGAAeACYALQA8AE0ARQAyAD4AUgBGADIAMQAyADEANQA0AC8AMAAjAPb/0P/F/7L/lf+R/57/nP+M/4L/hv+R/5j/mf+d/6f/sf++/9D/3//0/w0AFAAMABEAFQAOABkAOQA/ACoALABBAEEAOAA7ADsALwAxAEAARQA7AC8AJQAaAAwA/f/2//v/AQAFAAwADgAAAO//7v/7/wAA+//5/wEACQADAPf/+P8FAAwABgAGABIAGgARAAYABwAIAAEA/P///woAGQAgABcADAAJAPP/yf+0/7r/sf+X/5T/o/+l/6L/pv+m/53/l/+U/5j/q/+7/8D/0v/6/xQAEQAHAAMA/f/2//n/BwAUABEA///3/wcAFwAWABUAHgAdAA8ABQAMABoAHwAXAA8ADwAUAB4AMQA6ACgACgD3//P//P8NABYADgAEAAUACgANAA4AEwAYAB0AIwArADcAPwA+ADsAOgAyAB0AEQAVABAA+v/u//n//v/u/9b/vv+j/4z/j/+m/7f/t/+w/6n/ov+a/5L/jv+P/5L/l/+f/7D/y//n//r/BQAHAAAA+f/5//7/AQABAAIACAAUABoAEAADAP7/+v/3//3/CAAOABQAHwAnACUAHgAYABYAFAAQAA4AEAANAAMAAgANABEADwAUAB4AGgAIAPv//f8HAA4AEAAWACMAKwAvADcAPAAvABUABQACAP//9//z//f/+v/y/9z/wv+r/5X/gf94/33/hP+J/5H/n/+k/5v/j/+O/5X/nv+j/6r/vP/Z//H//f8FAA0AEgAYACoAPgBGAEIAPgA9AD8APQA3ADMANAA2ADEALAAsACkAHQAOAAMA/////wEABQAEAP3/9//7/wcAEAAPAAgABAAIABQAIgAqACsAKQAqADEAOwBDAEgATABPAE8AUQBUAFEAQwAuABkACAD+//7/AgD5/9r/sf+U/4r/iv+G/3v/bf9g/1n/X/9y/4T/hv98/3r/if+h/73/4f8JACsAQgBXAHMAjQCRAIMAdQBzAHUAcQBjAEwAJwD6/9n/0P/S/8f/rv+Z/5P/kv+P/5H/nv+r/7L/t//F/9n/5//w//z/CQAPABMAJQBIAGwAgACFAIsAmACkAKoAqgCkAJUAgQB2AHUAdABmAE4ANAAaAP7/5v/W/8v/uf+Z/3H/Sv8t/xj/C/8D//z+8/7s/uv+7/72/gL/Fv80/1f/fv+m/9D/+v8nAFMAeQCXALAAygDiAPAA8gDrAN4A0ADHAM0A4ADwAO4A2gC+AKIAiABzAF8APgADALj/dv9L/zL/H/8T/xT/Hv8o/zL/RP9c/3X/jP+q/83/6v/6/wgAFwAYAP3/0f+x/6//v//V/+7/CwAjADMARABWAGQAZwBuAIoAswDNAMkAswCaAIEAaABVAE4ATABJAEcATgBaAF4AVQBFADQAHwAIAPr/+v/7/+n/wP+R/2n/Sv8w/xj/Af/r/t/+6P4D/xr/Gv8B/+H+zf7M/tn+6v71/vj++/4N/zX/a/+l/9r/DAA+AHgAvAACAUABbwGQAaMBqgGqAawBtgHFAdQB4QHpAekB3QHHAaYBdQE0AfEAwACiAH8AOwDR/1f/5/6V/mb+T/40/gT+yf2h/Zz9sf3Q/fD9D/4k/i3+Of5Y/ov+vf7f/vL+/v4R/zr/hf/n/z0AbAB7AIgApADIAOsACgEhASkBIQEXARUBHgEuAUsBdwGlAcMBzQHSAdgB1wHCAZoBZwEvAfgAzQC2AKoAlQBqACoA2v+A/yr/6f7D/qr+hv5S/hz+9/3w/Qn+Nf5c/mz+Zv5g/mv+gf6O/oX+av5U/l7+lP7t/k3/nP/a/xUAXgC4ABgBcAG0AeEB/wEXAjICUQJ2ApsCtwK/ArkCtwLFAtkC2wK8AnkCIgLJAX0BNQHdAGMA0f9D/8z+Zv4E/qH9Qf3l/I/8Sfwb/An8DPwj/Ej8cvyW/Ln88vxK/bb9JP6R/gb/gP/z/1EAlgDHAOwAFwFYAa0BAwJKAoYCxAIAAygDLwMbA/0C4ALTAtwC8gL7AucCuQKDAlECJQL+AdkBqAFZAewAdQAPAMP/iP9K//T+ev7i/Ur90vyE/FD8J/wF/Pn7EPxL/Jz86vwb/Sb9F/0E/f38Bf0a/Tr9Y/2V/db9MP6r/kT/5f93AOQAMQF0AckBNAKmAgYDUwOiAw0EmQQvBaQF2QXOBaQFfQVkBUkFFgXCBFME0QNJA8ICPAKsAQcBQwBh/2b+Yv1p/Iv7xvoM+mD52fiT+Jj41/g3+Z/5APpW+q76E/uI+wb8kPwu/eH9mf5E/+T/iAA7AfcBrgJMA7wD8wMCBAgEHQRDBG8EmAS5BM0E1ATTBNIExgSbBEAEvQMtA60CUQIZAugBlwETAXcA8f+g/3H/Nf+9/v39Ef0w/Iv7MfsT+xn7O/t9+9v7QfyV/ML8wvyf/HH8Vvxj/J38+Pxd/bL97f0Z/lH+qv4d/4z/4/8mAHcA9gClAWUCCgOAA+ADVwT7BLYFTwaWBnwGIQa5BW4FTgVIBUYFOwUkBfsEsgQ9BJADpwKLAVQAI/8W/jL9b/y3+/T6F/of+Rr4IfdH9qT1UvVn9ej1vPa/99H43vnc+sf7oPxu/Tn+FP8QADMBaQKPA4kEVwULBq4GMQd6B3cHMwfWBo8GdAZ2BmkGLwbKBVQF3gRjBNADGwNJAnEBrwAYAKv/Xf8h/+v+rP5R/tD9M/2S/AX8lPtA+wj78/oJ+0z7sPsj/JP8+vxa/bH99P0X/ib+QP6D/vL+aP+u/6H/Sv/Z/oX+bP6B/qn+1/4P/2D/zf9BAKEA2wD9ACoBiwEwAgQD3AOJBPEEGgUmBTcFWAV7BYIFXwUeBd4EtQSfBH4ELwSkA+0CLgJ6AcoABQAc/xX+A/37+wX7HPo7+Wb4rvco9+L24/Yx98P3gvhC+d/5Ufq8+lj7SvyI/dz+DgAKAeoB2ALbA8YEWwV8BUgFCAUEBVQF1QVMBogGfwZBBuEFbAXjBE8EugMyA7sCVQL4AZoBMQGyABoAdP/a/mz+M/4c/vX9lP3r/Bf8UfvP+qr63PpG+8r7Vvzl/HD96v1A/l/+Sv4i/hj+Uf7E/jX/Uv/m/gL+AP1N/C78lvw6/cb9Gv5N/pj+Gv/G/3EA/wB+ASECGQNuBOsFOwcRCE8IEwioB10HXgefB+UH8QenBxkHcAbABfwECATjArUBuAABAGL/gf4c/UL7Xfnw9zz3EPfs9lz2SvUM9CLz4vJL8x/0JfVI9pb3Ffmu+jD8cv12/mv/kwAaAvMD2gVzB3sI8AgJCRQJSQmrCRcKWApICt4JMwltCKsH8wY2BmAFdQSHA7IC/wFcAakAxv+t/nv9cfzT+7j76fvy+2r7O/q/+I33HfeF93z4lPmA+jD7vPtC/Mj8Q/2y/TL+8f4FAEUBUAK+AmoChgF/AMD/ff+o/wQASAA/AN7/S//M/p7+1f5T/+7/hQAUAZkBCQJVAoACrAILA74DtQSvBVIGXQbTBf4ERATvAwIESQSJBKoEqAR7BPwDBQOdAQYAo/6//WH9Rv0C/TX8wfrk+CL3A/bG9UH2BPen9/73IPhE+JT4Jfn2+QL7SfzL/Xr/JwGFAk0DdANJA0wD3gP8BEYGNwd9Bx0HYAapBUUFRwWEBa4FggX3BDgEgQPuAnkCDwK3AYYBhAGbAZwBZQHuAEwAoP8H/4j+Fv6U/fj8WPzl+8D73vsM/B/8GfwZ/D38gPzF/PD8/vz2/OD8v/yW/Gb8K/zg+4/7UvtK+3z7z/sf/GH8q/we/dD9wP7m/zEBhQLCA9gE0QXMBtgH3wi5CU4KqwrwCjMLcQuPC2YL0wrLCW8ICAfhBQoFTARPA+MBIgBS/qv8L/vG+Vz4/PbG9dD0FvR087byvfGr8O3vCPA48TTzUPXu9uj3ovi8+Z/7Nv76AEQDsAReBd0FxgZGCPIJHwtpCw0LqQq1ChwLUgvQCoMJ1QdgBoUFMAXuBDsE4AIiAZX/tv6Q/rn+pf4O/hr9Mvy1+8X7Ovy3/ND8Rvw8+zj60vlR+m77i/wm/Sv98Pzr/GT9Wf6K/5sARAFyAU4BGAH4AN0AmQAUAGb/uf4f/oz96fw3/I77Evvh+gv7ivs7/O/8j/0+/kD/swBlAu8DCwXIBXAGOwciCPUIjwntCR4KJgr+CaIJGwlzCK4HyAbCBaQEewNNAiAB6v+S/vn8JPtW+ev3DPdy9pX1IfRR8tPwQfC98OnxTPOe9N31H/dv+NL5VfsH/e/++gD8AsMEKQYrB/AHtgiZCXQK+gr4CpAKFQrICZsJUAm6COUH9Qb3Bd0EpQNpAlEBaQCc/9L+D/5p/ej8gfwq/PD78fs4/LH8JP1S/Qn9Pvwv+1/6XfpZ++r8QP6q/hL+Df12/On8aP5VAMgBDgIiAb//6P4s/ycAywA1AGz+U/z4+sH6RPu5+6v7QvsJ+3D7dvyu/aj+Uv8OAFwBVwOBBR0H1AcFCHUInglAC5UM+QxXDCUL/Ak8CewIzwiFCLcHRwZqBIkC8ACU/yP+Ufwm+v/3UvZe9fb0lPSb88jxgu+/7XXt4O5N8YfzuvT+9DP1S/at+P/7bv8tAt0DugRyBbEGogjBCkEMqgw1DJwLfAvjC2MMdQzgC9AKnwmSCKYHmQYiBTgDNwGp/9j+jP4w/lH9BfzO+ib6KvqV+g/7aPue+8b79vs1/Hb8ifxK/NL7kfsH/FD97P4RAEAArv8d/0z/bgACAikDLgMLAmwAQv8K/2z/ff+K/rv87/oB+gr6YPo6+mH5Vfjb9274+/kF/AH+pf8EAXECLwQxBh4InwmtCpQLnAy1DXcOfw7ADYYMOwsoCmQJ3QhdCJMHOgZKBAoC2P/k/Rf8P/pM+GH2tPRt847y8fFD8SfwfO6v7K3rU+zD7ibyL/X09ov36/c9+Rz8NgB3BKoHNwmCCaEJlgqQDM8OShB6EKkPlw7dDY0NTA2pDGELgAlYB1YFvwN6AicBdP90/Zz7XfrF+Xz5E/lh+JX3CvcE95H3hfiP+WT69vp7+zb8If3U/d/9Sv20/Oz8Rv5WADgCOAM+A9ACpwI8A20EjgXQBdYEBQNHAU4ABgCs/4L+c/wm+mn4nfeH96T3n/eG9673b/jl+df71/2U/xYBsAKnBOIG+AiPCqoLjwxtDRwORg7JDd4M7QtAC+IKqQpXCp4JOQgSBmEDmwAw/kT8r/op+Xz3nPWo89zxefCN79bu4u2D7Bzrgepq69vtH/E/9Jn2MfiL+Vn7Ef6sAZsFCAleC68MnA3ODmUQ6hG+EqMS3BHiEPsPFg/vDU4MNQrnB74F7wNfArUAp/5N/B76kvjB91j37PZQ9qT1J/UG9Vr1K/Zj97/49vnz+vn7Wf0I/3kA/ABcADT/m/5v/7QBfgR4BrwGfQX0A4sDywTfBicIdwf+BA4CAQA4//r+N/5g/MD5IPc79VL0JvQ39C/0N/Tj9L/2t/n4/Hz/1gCTAcUCIwVzCLYL7Q3ADqoOgw7YDogP5A9OD8UN8wujCg0KmglkCPwFvwJ+/9T8y/oN+U/3ifXg83TyT/Fw8M7vVO/Z7jzufO3V7Lbsoe3n71rzP/ef+uX8Tf6//xkChgVmCc8MJQ9fEN0QIBGTEVUSJBN4E+MSdRG1DyEOpgy1Ct4HXQQBAX3+5Pyr+zT6Ovju9cTzPPKy8Rvy8fJ982bzDvNH85r0zvYo+Rj7pPwt/vf//AEJBOsFUgfIB/4GTgXDA3YDsgSuBiIIPwgaB3MFDgRPAx0DBwOHAlQBoP/5/dH8B/z4+ij50fbN9OHzG/Te9If18PV69qH3n/lT/Fv/PAKRBD0GjgcFCeYK8QyKDjUP9w48DnUNxAwKDBALvQkjCHUG7gSlA2oC2ACs/h38xvkv+FX3sPa19Uv00fLF8WLxm/E68gDzsvMz9Lf0t/WQ9/r5Bfy7/P772/rl+hP9DAFiBYgIxwmSCR4JgwkMCwwNdQ6rDgsOlw0KDhEPaw/vDZsKvQYIBEcDyQPpA0gCv/5m+sf24fSf9Az1CPUC9FXy//Du8FXyjvSR9rz3Qvjn+FL6gPzT/qEAwwGkAtwDpwWwB0wJ7Ql8CWYIXAfoBh8HnQfMB0cHDgZ0BN4CjQGRAMf/7f7L/WD89vr0+Yb5dfld+R35+fhK+RH69fql+z38G/1l/sH/sgAcAV4B5AG1AoIDEwR+BOIEGQXdBDsEuwPSA0wEWgRrA9kBpgB8AA8BeQEtAV0Alf8N/4r+1f0f/c38/fxe/YT9Sf3X/Gv8MvxU/PH87P3W/jL/7/6F/oH+/v6f/xMAbwD5AKoBGwL9AYYBNwFAAUsBAAGYALgAoQG2AvkCFwLMACkAjgBhAcYBeQHcAFwABgC0/3v/rP9YAAYBCAEmAOj+I/5E/gH/rf/O/17/q/4Q/rv9qf21/b79xP3v/Wf+I//j/1UAXQAbANX/xP8EAJAAPgHFAeABjQEaAe4ALQGeAeIB0QGRAVgBNAEGAbYARwDM/1b/Cf8m/9b/0wBnAfQAlf8y/sf9h/7E/5gAsQBkABkA1v9o/9/+nv7o/m7/jv8L/2T+X/4u/zAAkgAmAIj/Z//R/zoAJwCz/1//fP/j/z8AeACzAAMBLwH2AGwACQAzANMAZAFvAfIAUgD5////OABgAEwA9v+B/yP/CP8j/zv/L/8v/5P/YgAZARQBQQBZ/zf//P/gAP4AQABr/zr/pv8NAAoA4f8OAIgAwgBgAMj/xf+VAIoBtwHoANX/Vf+K/+X/5v+c/23/gf+g/47/b/+N/+b/GADN/y//wv7c/k//rf/I/9z/OQDhAHoBnQEjAT0AW/8C/4H/owClAbYBqgA7/3b+yf6f//3/e/+g/kn+0v7H/2UAPgB6/57+Of6f/rT/3wBTAbMAif/7/tD/owErA1kDQwLvAEoAbADMAPwABgEWARoBywAWAEr/wv6A/kX+AP4D/p3+o/9tAHAAv//w/o7+tv48/wAA/AD+AY0CPwItAfv/Y/+c/0YAyQDKAE4AoP8a//3+U//V/xUA1v9T/x3/kf91ABcB5ADm/7b+Av4X/sz+tv9rALIAkwBUAEUAfQC/AKoAIQBx/w3/KP+P/+3/HgAyAD0AMgAHAOL/8f8qADsA6v9w/1n/7f/QAFEBIAGdAGMAmgDaALsAVwAhAEUAZAAFADr/qf7k/s3/uAAeAQcBzQCfAF8A/P+u/8D/LQCVAKYAZgAJAJr/BP9r/kz++f4JAIAAyv96/t39nv4IAKsA2v9Z/o39Iv6L/8wAaAGIAWkBBgFtABMAdQBbAcwBBAF0/4b+NP/kAPABQwFu/wv+KP5n/5cA5wBzAMj/Qf/q/tT+Kf/n/68AEQH/AMwAsgCEAPj/MP/L/k3/hgC3AUMCHgKPAbAAbv8F/jX9uv1x/z0B6gFCAS4Axf9DAPwALAG8ADYAGwBnAMEA9gAYAT8BNAGgAHH/E/4q/Qv9h/0t/rT+I/+A/4z/4P53/RD81/t1/U8AxAJhAxgCRQCD/1gA5AHYAqACsQHZAHsAdACTANAAEAHgANb/Qv5H/en97//RAQsChQCy/jH+VP/4ALQBCQGV/1L+4f1Y/nf/vwCCATsBBwDI/nr+Uf+FABQBvgAtAC4A0QBuAV4BqgDv/7r/GACxAC4BbAFoARwBjADn/3f/dv/l/5EAJgFEAZ4ANP+H/W/8jvzC/SX/r/8I/8L91/zl/Nn9Iv8qAKQAlgA/AP7/GgCNAAIBHwHqAMgAAgFfAU4BowD1/ykAeAEKA6gD3gJVARYAi/9Z/xj/9f5w/40AlAG3AeQA0P8v/wn/6/6c/mr+wP6O/0MAUwC4/+f+c/7A/uj/mgEHAzYDtgEu/wD9Qvzt/BT+4f48/4D/1P/8/8r/hP+p/2wAhAGQAmMD3gOuA4ECmwAB/6v+iv9+AG8Aa/99/m/+5v7f/u79z/ya/JP97/6t/47/F//c/gD/Xv/0/9YAwgETAlwBDwBe/ysAFgKtA64DMgKWADYANgGFAvgCVgJUAakATwDE/9n+D/76/YL+4P6P/vf9DP4d/1IAdwBZ/x7+Kv6t/2wB+wEPAZ7/yP7R/jL/X/9U/0//T/8J/2D+xf3o/Qf/nwDYAT4CFgL0AR0CSAIHAlMBpQB4AMIA/gC1AAMAeP+K/yMAxQAJAdUAPABL/yn+Sv1D/Tz+pP+SAI8A8v9s/1X/iP/P/y4AtQAdAdsAmP98/Rj7RvlI+XX83gLGCSIMLwad+RbuJexB9i0GrRGqEqYLsQQdBIgJHw8dD3YIS/+D+X36kQDOBbcDDPhe5/razdp652T5ywUxBn78AvFs7Ezykv9JDTsVexXxEN4MBQ0nEY4VSRZrEs0MmgnLCmAOxA9SC0cB+fUC72HvVvWJ+8D8Zvds7gPnHOUg6SXwFfYy+Jj2+fOt80r3Vf1TApcDhgE0/6n/MwNIB+8IVAdDBHkCiQMHBzQLGQ6BDoEMmwkXCI0Jeg03EbkR5A2HBxQCDwA6AeUCFwLN/bz3CPP78Yj0hvhu+wj82/o/+ST4mPdA9wD3Lvcs+Pj5D/yl/fX9ePwr+QL1KPJg8yb6nwRGDe0NvAQu93Hv+/QWBmkYzyD0GzIQTAc3BlYKqw3DDJ0IFQTUANf+vv0R/WT7svbe7qrnreYB7gP5Wv8p/J7yVesO7Yv3sQTiDV0QtA2LCU8H6QgYDlMUABjrFisSUg1FC4YLqgqcBbT8wvMb7zTwiPR896r1Re/5523kFeeG7m32kfqj+fn1uvPh9TD8gwMnCIgIMAZYBDcFVwhPCxsM2ApWCTQJfQr/C6QMPAw5CxoKTAk7CQEK0QohCucG1wEe/Z36Vfqc+sv5ovct9aXzoPMS9YT3FfqJ+/T6m/j+9bz0RvXG9lP4Dfr3/JwB0AbWCd8HIAA29czs7Ozj90oJLRfvF34JQfSB5r3qEQCaGt0roSzEIIkSEgo/CIYIsgaXAr3+o/wm+3j4mvQN8U7u7+ru5W7hjuGo53jvcfLP7qzq4e43/t4R9R6/H6MXAw8hDLgP2RYTHpwiRSJvHJQTaQz5CVEK+weR/67zx+rj6LvrK+1N6ejhSNxC3FzhJehi7QHw3fCN8Ynzqveu/Q8Exgi7CqUKegq/C0oOdxC0EOMOiAyPC7cM9g5PEGkPmAyJCfAHWQjvCS0LywpkCKEE5QB8/rH9iP2Q/DL6N/fx9NnzMfMS8rzwlvDI8tv2zPqO/In78/jj9gf30fln/isDXQaYBhcDK/zw83DuBPD6+QsIyRFiEJIEOPcP81j8mA0RHOkfGBnsDZ4F1gO+B6QNSxHmD3AJzAD9+Tf3NPdu9nPyO+xi5/fmyOp17yvxy+4I64bqLvCT+p4EcglfCHEF8AXxC+4UWxxYHyAesBrgFtYTShI4EhcSRA80CHH+7fW98XbxyvG57wHrv+U34lvh/OJ/5gTrRu898h30XPZF+oL/UQRIB6QIvAliCxYN2w1/Dd0M9Az7DUsP4A/oDi8MbwhEBVQE/AXKCGsKdwlXBpgCif+N/X38J/w+/Bj8Afvw+Lb2MvVm9KDznfI38qbz/faf+nn80/vv+eL40Pk5/M7+wABDAt0DcAUBBncEpwC6+8L31PYj+jABQgnyDY8LcgJs+Mr19v7jDwUeLiDYFUoHev5Y/yYGNQx/DScKLQRJ/fr2LvMq86j1DveR9Cnvx+p86qLtGfHf8t/zPfaX+mv/6AKkBHgFXAb1B+EKaQ91FF4X5hXDEM4L6QpjDoASoRIKDc8Dv/qn9DPyefLe87X0uvO08KnsQenE55vofuve7/D0qvkT/eX+xP/IAM0CCwYYCu4NDhA8D6wLjAfZBQ0IoAwCEFgPqQqvBLUAXQDkAvgFPAehBf4Biv5Z/cv+KgHvAc//uPsG+Jz2h/cl+YP56Pdm9ST0uvXQ+Sz+VwCR/1P94/ti/Cb+2v/hAJABTgL+AmUDwgN/BDEFXATBABr7ZPYG9iz7hANQCjwLRQXt+6b11PexAl4Qghg8FsILlgDb+2T/JwfADM4LTQQi+rHyu/Hp9qv9HgBd++Xxt+m/51bswfOT+br7Cfu/+d75UPynAGEF0ghkCgkLMwxADh8QoBDgDxkPHw9vD+MO+Az9CTsGkAFS/A74kfbo97j5Hvlm9aDwku1f7ULvEfI89VL4R/oV+jP42fZK+Mb8VAKCBiIIhQe0BeQDaAMvBa0Iiws8C34HHAPHAc0E2wkMDTQMUwg5BAoC/AHtAqoDjQNPAs//Tfy7+HL2P/aY9+n44vig94P20PZ1+Eb6Vvvf+6z85v3K/r7+Tv6n/hwAoAERAsgBUwJoBIIGGAZRAjr9IfrZ+pn+HwNNBtsGdAQ/ADj9xf6mBScOQRKJDnIFgP34+/kAJAhnDDkLPQU7/en2f/W4+WQAvgOl/2/1gutn6KPt2faj/XP+afp+9Wvzr/VX+9QBQwYBB8AEKwILAjoFGwoODnIPjw7mDLwLNgtwCnQIPQUCAmYACAGiAtsCNgB++zH3dvV09nz4mfny+Pn2zvSU8wL0/vVn+KL53fgL9072MPhA/G0AyQL7AjECAgJnA2MGLgqADRQPag5CDDMKgglCCnULAQxqC+AJ2QfQBSUE7wLIAQIAQP3v+Qf3XfUs9Sb2tfcC+Rb5gfcK9YDzUPQo9yL6dfv2+t75XPmy+af6XPwd/3MC8wRjBQwEjwJHAhID0APoAwIEHgU4B+8IqAgIBocCqABGAgAH8wtmDZwJqAJI/VX9mwLgCBQL9wZ3/jX2tPLA9Tn92wNaBF/9QvNG7cnvafjp/1kA3vn68Z7u4vGY+bsBywb2BrUCJ/3v+gn/1AeTD+gQeQtFBE0BngQsC98PkQ/ACnAE8P8V/2IBTwTFBFYBkvsL93/2jvkT/db9IvsP94b06PRI93j5x/kk+PP19fQZ9vT4GPwR/ln+qP1+/RH/UwLiBQsIPQiSB9IHuQk0DHQNyAxKC60KbQtgDPgLzwnZBmIEBgOSAmgCvgHL/0f8Gfgk9dn0vfaX+F34Ffat8//yJvTF9Zv2n/am9lr3z/jZ+lD92f/HAZQCkwLZAjQERga9B40H2AW8A2QCbQLbAzgGhghoCfwH4QQwAgUCogT/B1UJVQcZAzH/uf0K/8kB1AOFA40AOPzB+OX3rvlX/J79bfyG+cT2rPWP9pD4Tfqv+or55fd+93/5T/24AKMB///7/Sb+IwEqBbUHogfbBSgErQNyBOsFkgf0CI4JBgmUBwQGFAXWBL8ETQSYAxkDDAMRA30CBAEC/yX9zPvA+o/5GfjD9hT2KfaT9sz2uPam9uD2V/fZ94v47PlN/Er//QG9A5UEDwWaBVIGPwdwCLkJeQr/CUsIUgY7BV0F/QUfBmkFPAQWAxsCOQFuAMD/Bf/x/Yv8Tfuw+pT6VfqL+ZX4N/i++KP5Hfro+Xb5Yvny+fr6Ifwa/br9If68/vb/tgFBA9QDbQPiAhgDMgSRBY0G/wYgBwsHtQY4BvIFGAZTBvwF0QRIAxYCdQEIAWYAkv/Q/ij+Tf0W/OT6UfqF+vH63vo8+sb5Uvrr+6/9iP4a/g39evwJ/Xj+5v+BABQAEf9A/lT+if90AR0DjgOVAhEBWwAnAeACKQQWBOgCrAE9AZ8BQgKVAmECsQG8AOP/j//Y/1QAYwDT/x7/7/5r//z/7/8c/wf+a/23/d7+awCpAe4BCwGX/6j+A/9xAOkBZgKzAXIAgf9Y/9T/awCLAPr/Av9A/if+i/7I/lv+dv3T/AH92P2l/t3+g/4O/u79R/7y/q//QgCUALYA1wAcAYQB7QE5AmECZQJKAh8CCQIaAjICGQLJAYwBsgEjAmsCMgKiASkB9QDBAEIAm/85/z7/Qf/F/s/98fyx/BD9pv0W/kL+Jv6//TD93Pwq/Qz+Af+L/6r/uv/2/0AAbgCVAOkAWQGJAUwB9wAQAakBTAKAAlUCMgI+AjUC1wFVARUBJAEXAZYA1/9o/4f/5P8HANb/kf9m/z7/AP/S/vP+Vv+Y/2D/yP48/gX+B/7+/dL9pv2d/bz99v1S/tX+Yf+9/9X/1/8CAGMAyAACAR4BSQGZAe8BHwIjAg4C6gGpAUIB0QCNAJUA0AAAAewAlgA2ABsAawD5AFYBJwF+ANb/o//e/wsAv/8V/5b+pP4m/7P/+f/t/6P/OP/g/uP+V//r/xoAuf8m/+v+Mv+v//f/5P+T/0D/If9e/+7/fgCtAGsAEwAJAEUAYQAmANr/9f+IAB0BNAHEAC4Ay/+l/5T/iv+S/6v/t/+b/1n/B//A/qj+8P6l/4YAHAEUAYgA4/+J/53/AQBvAJcATQC7/0n/RP+S/+H/DwBFAKIA9wAFAeIA5gA3AYsBjQFXAVMBoAHXAX8BpgDj/8D/LQCiAJ8AGgBo/+n+uf64/sX+5P4c/z//Cf+C/h3+UP75/nD/Pv+n/ln+p/5B/7H/3P/v/wEABwAUAF8A4wA/AScB3QDsAHYB8QHDAQMBXQBVAMcAMwFOASoB6ACDAPz/j/+O/wEAiQCxAFgAwf9I/xb/E/8T//z+zf6a/on+tP79/hv/5/6e/qr+Hf+L/5b/d/+8/4IANwFQAfkA1QAYAU4BHgHcAA4BkwGuAQMBFwCu/+D/JAAhAAsAHQAhAMX/NP/7/ln/5/8ZANr/iv92/5b/tP+0/53/j/+q//H/JgD2/2n/Af8y/8n/DwCq/xv/J//a/3EAUQDC/4j/4/9PAEsACAAjAMIAYQF5ASYB5wDuAO0AoQBBADcAiQDNAKYAJQCX/zD/Af8q/7v/aQCjACMAQ/+m/o7+v/75/kj/yf9JAGwAKADf/+f/GgAQALT/dP/I/6gAgQG2AS0BWQDW//L/gwAaAVYBEwFsAKX/E//2/kf/sv/U/5D/IP/Z/uX+Lv95/5L/bP8v/x3/WP/D/xoAOwAyABIA5P/A/93/VQDrADIB/gCPAD0AHQAFAOf/4f8LAEYAWwA4APT/s/+N/4//u////0YAiQC3AK0AVQDf/7P/BQCFAKcAOQCb/1b/nv86AMYA+gDGAGIANQCFACABeQEpAVAAaP/T/qT+wf4I/07/ZP8//xP/JP+A//b/PgAvANT/Z/83/2P/vf/y/+T/vP+k/4z/Xf9A/3n///9/AMYA/QBPAXUB+ADc/8z+gP4c/zAAIQF7AQIB6P/f/qv+YP88AHIAAgCe/8P/OwB9AFEA4v9s/xz/K//R/+oA2wH9ASwB7P/9/tf+cf9bABABTQEtAfIAtwBpAAEAs//E/0YA+AB1AWEBsQDK/1b/s/96ANMAYACw/4//BwBTAOT/Gv+//gD/Ov/u/nb+lf5p/yUA6//M/sf90v31/lcAKgFUAUABJAG6AMv/2/7i/kIAHwL+AhwCEAAy/oj9NP6n/xoB9gEGAnQBlwC3/wb/uP7j/kj/ZP8B/5/++P4bAC4BRgFkAF//8f4c/4X/AwCbAAcBwAC4/8L+3f4NADMBPwFgAL7/EQDNAPYAeAAuAKQARAEqAXIAKADBAFQBvAAw/yD+dv6W/1oAfgCGAJUAKQAv/5j+Mf9TAHcAOf/+/Tb+gv9IAOH/W//N/7IApgB5/53+R//IAGgBnACT/5T/ZADUAGwA4f/h/ykAJAD9/2wAdAEGAisBR//G/bL96f6bAPsBdAKmAdH/Ff65/fz+0ADeAasBoQBp/33+NP6k/mf/z/+g/1X/eP/0/0gATgBbAKIA4ADXALQAugDAAHEA///9/4wADAH+AK0ApQDDAGkAnf82/5f/7v9H/x3+8f0+/5sAbAD7/hr+vv7R/8f/v/5T/lj/qwCtAHL/vf6p/x8BKgGY/2/+dP/JAdICVQEC/1j+t/9BAW4BxgCjABoBDwEqAJP/WgDJARoCngCK/qH9c/4iAEQB2gDu/sb8KvzF/T4AawGiAE//Bv+R/5v/3P6h/uf/vwFYAkYBAQALADgBIALYAckA9//i/zUASQDk/3T/nv9fANIAIgC1/gH+2f5VANkAFABM/4//SwA9AFT/zf5k/0QAPQB6/zL/2f99AD8Arf/y/wIBggGmAGT/PP9AABcB2QAkAPb/PQAnALD/2/8kAWwCKQJjALr+eP41/8n/8/9lAFAB1AEtAeX/Sv/f/+EAUgH8AEkAlP8Z/yr/7P/RAPcAPwCZ/97/nwCuAMD/7f5B/0gAlACZ/2H+MP7//r7/y/+i/+v/fwC9AI4AeAC5ANYAYAC8/5z/4/+3/9r+Uf4V/4gA+QDY/5f+0P4bAJsAlv+P/kr/WgGLAocBYP8q/qr+3f97AEkAAABBANgA9AAFAI/+9/0S/+UAagHq/xb+F/7W/xgBbgAF/9f+7P+NAP3/if9bAGwB3gDq/u79Tv9yAdQBRwAI/7T/VgHnAe4Auv92//H/UwBXAE8AeQC+AAYBQAEpAXAAT/+J/p/+M/+G/3T/g//v/xkAS//b/RX9zP1R/yoAu//r/gD/HwAvATABSQBu/zf/cv/H/z0A8ACBAVcBdgC7//j/+AC7AZEBzQA1ABoAKgAOAM3/k/9a/w3/3P4b/7r/LQADAID/T/+g/+n/p/8x/1r/UwA9ASABHQBJ/2v/NADUAA0BOwGKAZAB7gAGAK7/NgAJAVAB2AApANT/6P8IAPf/3v8MAH8AygCKAO3/nf/5/5EAmgDn/xf/yP7U/rj+dP6i/oT/bAB3AKv/Af88/xUApQBrALr/T/+Z/2QACAH6AFcA5P82APUAOgG0ACUAYQAlAWMBpwCy/27/uf+4/yb/xP5S/44AewFqAYwAjv8C/xb/j//1//3/zf/B/+v/AwD0/wUASwA6AG7/nf4O/9AAJwJ4AXX/ff6z/44B2wGDAHj/AwAyAV4BcAC8//v/YQAOAHb/oP9pAHgAI/+a/Y79Ff+SALQA3f9L/3f/2f8AABIAJQDX/w7/l/5K/6YALQFWAF//n/+pAOYA7f8b/4z/igDBAE0AYQAZAQYBg/8x/vb+GAHVAQUAzP3R/eD/dgEyAUUALwCOABMA2/53/qH/GQE8AQ4A+v77/rX/RAA+ANH/Xf86/47/DQAjAKn/Nv9j//D/IwDi/+z/owBIAewA3f9n/yIAFwECAfX/LP9i//b/7f9N//P+UP/X/9b/Y/8b/y7/Lv/p/uv+xv8FAXIBhQAz/9X+jP85AA4Aj/+b/xIADwBy/0b/PQB2AXoBPQBN/8T/2AD7AAIAUf/n/woBUAFyAHr/U//K/yUALAA3AHQApACYAH4AhgB/ABYAbf8f/4X/RQCvAIQAJwD8/+f/lP8m/y3/4/+wANAASgDj/xEAWwAmAK//yv+XADAB2gAaAP//mQDiADkAZf+E/3kABwFzAGv/Av9e/8r/1v+9/73/pf9K/wn/V/8CAFwAHAC//9X/SACZAI0AXQA9AB8A9//4/0sAvgDwAL0AVQDs/5f/df+z/y0AZgAUAKz/4v+pABIBcwBk/xr/2/+fAHMAtf9v/9z/LwD2/9f/hwB6AXYBXACJ/woAIwFQAWQAwP9PADcBCQHK/9j+//6D/1f/sP6k/pb/pQDWADMAj/99/93/PgBKAOP/Nv+1/sL+Qf+s/7n/p//P/xcAHwDW/5j/tv8RAFkAVwAGAIf/I/8q/43/1//G/7T/CABoABcAOP/8/gcAPwEMAZ//7P4EAIIBdQEiAJz/rgCXAZ0Avv52/jcApgHKAL/+Lv6//24BYQEuAJv/GABzANf/+f7w/rH/SAAxANb/tf++/6b/dv9z/67/+v9AAHsAggAoAK7/sv9uAEQBYgHIAEQAWwCVADgAaP8K/4L/FwDh/xn/3v6+/+YAHQFJAH//p/9rAM0AdAD//xQAfwCGAOv/Rv9H/9b/OgAQAMr/DwC2ANUA+v/5/g//OwAJAVYA5f6K/tH/OAERAar/3v6m/+cA+wDL/8n+A//8/4oATADm//z/awCWAC0AmP+S/1cAMwEZAd7/oP6W/pj/SgDu/1//yv/nAFQBlQDR/xsA2gCuAIT/yf5m/3wAlACF/3v+bP4p/+T/DQCO/9D+mP5i/5cA5QDm/+r+Xf/KAFoBYABA/2n/SwBrALz/rP+7AJMBBwHu/9b/nACzAKb/5f6U/7wAugCm/wj/dP/H/yb/c/75/moATQEXAagAsACjAOb/If99/9UAqQEBAar/Kv/u/+sA2wCN/wr+ov3E/nkAMAFJAMf+Lf7L/p3/x/+h//b/0QChATgC5QKMA3cDbQJZAToBvwG3AbYAnf9D/1X/Af88/qz9h/0//X38zPvZ+378+/wA/f78dv1f/l7/OQDsAHUB1QEeAk8CSQISAgQCbgIVA2EDHgPCAsQC+ALeAloCzwGEAVEB9wCGACcAwv8l/2P+0P2e/an9vv3F/bT9dv0d/e38G/2J/fz9ZP7M/hz/Lf8t/4H/NQDCAL4AewCgAEMB2wEPAiUCaQKUAkwC4gEHArcCDAN2ApMBYwHbAfkBOgFRACcAjwCVANz/E//z/kb/Qf+d/t/9pf3y/Ur+UP4T/ub9Cf55/vD+G//m/pD+b/6e/vv+Y//J/xsAOwAtADAAgQAFAVoBRwEBAesAIwFsAYABVAERAeIA2AD1ACwBVwFQAREBxACbAJgAjgBcABMA5P/X/8H/gv80/xH/Iv8t//3+rv6J/qn+3f7n/s7+xf7m/hj/Ov9K/1r/cv+I/5b/of+x/87/+P8lAEIATABXAHgAmQCTAG8AaQCkAOoA4wCJADQALABWAGkAVABAADsAIwDj/7D/yP8eAFwAQADm/6H/pv/k/xMA8v+G/yL/G/9j/5X/b/8x/0v/vP8JAOH/jf+S//T/OgAWAM3/xv/8/xQA8P/V//j/MgA8ABoADwA5AG4AhACCAIYAkACRAIcAfQBuAEsAJAAeAD4AVwBCAA8A7v/x//v/8P/R/6r/gP9h/2b/nP/d//L/z/+f/4r/iv+J/43/qv/V/+D/uf+K/4n/sv/O/8D/qf+1/+D/AwAOAB8ASABqAF0AKAABAAcAJgA4AD0ASABXAFgAUQBkAJ8A2QDXAJoAUwAoABMACgAcAE0AdABjACwACwAKAO7/mP9E/0f/k//J/8H/v/8FAGIAfABXAFEAjACzAIAAOABbAOMAPQEJAZUAZwCDAHwAJADY/+z/MwA8APT/s/+w/7v/k/9W/1n/pP/Z/6r/Ov/2/hT/bP+4/9v/5P/m/+n/9P8NACYAKAASAAQAHQBTAHkAcwBbAFgAbABxAEcAAADE/63/vf/y/0QAhwB7AA8AlP92/8z/MQAyAMz/a/9x/9r/TgCCAGsANgAiAFIArADhAK4AJQCo/5P/2v8hAB4A4f+v/7b/5/8RAA0A1/+P/2D/Y/+H/6f/s/+9/9f/8f/p/7r/jf+N/7H/yP+6/6z/0/8gAEQABgCX/2j/sv8uAF8AHACt/3L/gf+w/+D/EwBCAE8AMQAVACUARgA1AO//v//c/xYAFADU/6b/vv/v//z/+v8nAHYAhwAuAMf/zf88AJAAcQAfABAAVwCSAH8ARgA5AFgAYQA9ACkAWQCkALEAawAXAPD/4P+5/5D/rv8cAHUAVwDh/5f/xv8zAGkAOgDT/2z/G//r/vv+UP+2/+v/4v/N/9P/6//5//7/BAD7/83/kP+B/77/EAAnAO//nv9x/3T/j/+q/73/xv/I/9j/BQBLAJYA2AAFAQYBxABUAPr/7/8gAEcASQBPAH0AqwCUADsA9v/7/xEA4f9z/zj/dv/l/wAArv9X/1n/k/+k/4H/hv/w/3wAsQB/AEwAagCrALMAdQBEAE0AXAA1AAAAHACJAMcAZACX/xD/Ov/L/ygABgCi/2f/ff+5/9X/sv9u/07/hf/9/2MAbAAiANz/5P82AI4AsQCaAGgANQAUABUAOwBzAJYAkgCAAIMAmgCVAEcAv/9H/yn/bv/a/xwACACq/0T/H/9d/9D/FADp/3f/M/9q/+3/PgASAJT/Mf8u/4D/7/9JAHcAeQBtAHwAvAALASgB9QCRAEQANQBTAG4AYAApAOn/xP/I/9//5f/J/5r/dP9k/2H/Zf92/43/k/94/0n/Kf8p/0D/aP+w/x0AeABvAPf/dv9z/wAAnAC1AEEAvv+g/+D/KABEAFEAbACAAGYALQATADQAaAB7AGYARgAqAAYA4f/c/wEALwBBAEcAawCpALwAawDc/23/Xf+V/9z/DAAiACUAHgAaACAAIwAQAO//5P///yIAJgASAA8ALgBIAC4A6/+x/6n/zf8FAD8AaABgABwAxf+n/+P/RwB8AFcA+f+g/2//Zf94/6j/8P8tADYABQDB/5//sP/N/8n/o/+H/5//4v8gADMAKAAhACwAPQBRAIIA4ABDAV8BEwGcAF8AfgCsAI8AJwDS/9z/IwA6AOv/dv9J/47/AAAyAPr/j/9K/1z/q//2/xYAEAABAPT/5v/b/+3/LgCDALgAqQBpACsAGwBGAJQA0QDEAFsAzv9//53/9f8lAPf/lP9C/yD/Iv81/1r/hf+N/1T/8/61/tb+S//J/wEA2/+E/0f/VP+p/xgAbQCEAF8AIQD6/wYAJwAYALX/Lv/p/hb/gf/J/8v/uf/R/w4ANwAnAPf/z/+//7r/yP8CAG8A1wDrAJkAKwAHAEMAjgCGACkA1P/Y/yAATgAtAOv/2f8HADEAGQDV/7n/9v9bAIoAWgAAANb///9LAHAAWAAvAC4AWwCGAH4AQwAEAPD/CAAeAAQAv/+N/6b/AgBPAEAA3P+A/4H/0/8cABkA5//d/ysAowDzAPcAzwCqAIwAWAAKAMf/uv/d//v/7f/H/77/7f83AGcAYgAtANb/c/8n/yP/fP8HAG0AegBGABIAAgABAO//3P/2/0cAkgCNAD0AAQAzAL4ALgEgAaoAPgAyAGsAjQBjABUA6v/4/xUAFwABAO//5f/G/4n/WP9n/6z/1/+d/xL/of6m/hf/kP+x/2z/+v6c/nH+fv7G/kf/6v9+ANQA4AC+AJ8ApQDPAPQA4QCLACYA/v8mAFkAPgDT/4X/v/9kANIAiACy/wT/Af92/8z/tf9w/1z/c/9e/wP/w/4J/7f/LgAGAIv/av/n/5UA4gC+AJUArwDXALEATgAkAHcA8QADAZAAFgAVAHkAuwCKAB8A4v/i/9b/nf96/7X/HQAiAIb/v/6T/jz/IgBvAOj/Fv+t/u3+jP8eAHAAgwBnAC8ACAAkAIUA5ADhAGAAs/9c/6X/YAAHASEBoADt/5j/3v90ANIAsABAAOf/xf+Y/yv/tv61/lb/IABaAMr/+P6s/i//IgD4AH8B2AEfAjEC5wFfAeYApAB0ACQAvv+A/4X/mv9//0P/RP/K/54AKwH9ACgAOv/E/vj+lv81AI4AnQCPAIkAjAByACkA0/+5/wEAegCvAFAAef+v/nX+5/6d/wAAwP8R/4b+mf5K/xoAbwAZAHH/E/9T/wcAtwAFAegAmABKABIA5v+0/3T/LP/3/gL/Zv8CAHwAdwDg/wv/gf6k/mf/VgDnANsAawAVADAAqQAdATwBCgHAAH4AMAC+/0z/Iv9X/6n/vv+G/0T/Q/+D/9L/DwBHAIAAmwCEAG4AtwBkAegBmwFzACv/mf7f/mf/pf+x/woA0gCDAYMB4wBnAMIA2QHbAv0CJgLoAAIA5f+CAFUBqwH/AFf/Tv2w+/D65foI+9n6JfoV+SH46fff+NX63/zy/cn9Tf3l/T8AtwPYBpUIBgkeCcUJHQuIDD4N5gzJC4UKgwmlCGwHewX4AmsAQ/6D/N36FPkp90j1pvOG8jDyqfJu87/zWfPx8qHzx/V/+Gv6F/tv+8L8Yv9hAo4ErAWDBvIH7wlzC0kLJgk9BssEnQZAC5YPww+KCikDW/+nAvQK4hHiEbMKQAFr+537sf9NAxYDef5290jxlu7l7yLz+/Rg8x/vHOvQ6WXrJu5o8O7xg/PN9b749Psw/0gC9AQWByoJDwz8D9QT4RWGFSsUSRQ4F9kbRh8BH8kavRTGD4oNSQ10DJgIOgE5+GzwmOtu6TToTOZB48Hf9tzh2/nc6N+f4/Lmcem969juDPOq99j7jf+EAzIIAg3YEDoT2hTnFu4Zex2VIGgiZiI6IOcbEBbwD9UKmQd2BgIHAwhtB2MD/Ps49H3wH/PS+cr+Hf3O9ALr/uVu6KbvA/Yv9+Tyluy06LHpuO6K9MP39vZr8xjwp+/c8lP4lP22AHQBKQHJAYkEHgkADoYRAxMdEysTPBR6FkYZuBsiHTkdEBwJGrgXoBXrE0ES8w97DNwHnwJk/XD4pPPj7mzqv+YT5ALi0t9A3eva+9k321neNuKJ5cPnWOlp6wbvY/SJ+un/igPaBVgINQw7ERMWlxnPG48dUh++IEIh6CAsIA4fmRzFF9AQnQmNBNgCwAMJBSYEmP8J+IjwEO2j7xP25fpw+fbx4+l355jsS/Ue+0D6DfRt7ffqAu5P9Nn5dPuq+O7z5PDa8Tj2Qvtm/hj/uf4J/9QA5QOyB7YLSw+ZETESnxFIEXQSVhXaGE8bXhvXGOwUoBGFEH0RlhJmEe4MZgY+ADL8Lvqu+Aj2i/HQ607mdeLH4HfgG+AC3+/dY9724Kjk7OdV6vTs9PAW9un6bf4oAXcE9gjqDSsSShWkF5oZNBtxHI4dnB4NHyMe5hsqGV4WjBJiDIIESf5T/aoBpgZKBl7+ofL/6VTpAvCx+CX9Rvr98f3pEegH7gL46P6t/Vb1T+xr6a/uK/hm/yoA+/r+8+nvQfFF97P+zgOdBBkCS/8Q/ysCKgfmCxEPmxAREQgRGhEDEjwURRd3GewYBhVbDwQLfAqLDfMQlxC5CrABU/oZ+CX6/vth+dHxzui+4nXhUOMi5drkseJ14AXgO+Km5vrr0vBw9Br3tfkM/UkBBwaqCp8ObxHxEqATjhSiFrEZaRxoHYMc8RoLGu0ZNhk+FoUQNAltAhT+zPyL/fX9nvvI9XPukOlS6njw2/cZ+6H34+/K6VnqyvE/+1kADv7q9gXxR/Gv94L/EQP6/7f4g/KE8SP2Qv23Ag4EvgFp/un8qP4WA0wIMgyPDX8MVArvCMgJHA3CEb0VUhf2FZ4SSw8ADokPqhJ2FBYSBAv7AVr74/lz/Lr+kfw39c3r6eRO40jmdeop7LPpW+SE34LeWeIM6SPvUfIC853zR/ZT+34BRQe/C4cOjQ9kD4gPnxH3FeQa7x3nHc8btxnjGP8YyBj/FtQSIwwNBDv9iPpr/J//Jv+e+PbuhujU6anx3vks/Ov2He5W6ADqUPLb+1sAHP309Cfuue3R8/D7qgCb/5v6zPWP9J/3LP04AlYE+QLO/8T9Jv/6AwMKYA6ODzYOZAwPDA4O4BECFo8YCxhDFLgOEAqrCCELog+3Ei0RSgrbANf56/g3/VcBc/869kvqceL/4XbmTerI6WDlVeC/3fPeleMa6iXwh/Pb80bz9/RY+tIBXwg7DOoN/Q59EKoSnRVNGdwcoh6aHbMaQRjXF8sYAhnmFmQSWgy2BZz/vPtq+879Uv8M/Hfz6Omj5a3p2/IJ+sj5ufL96jHpJO+S+Kj+X/1o9pXvWO7c85X8HgMCBLr/1vlX9kr34/tlAe0EGQW2AiQAxf9+AkAH6wu+DiwPyA28C2QK9grSDc0RbRR/E/gOaglNBngHtguPD5IPlwqqAvP7BPoM/T4BagEn+wPxmugC5qjoQ+yq7Azp9uPY4ILhaeWT6grv6PF989b06/Ya+h3+bQKKBhAKxAzRDtUQjhMnF98acR3+HawchRq6GOAXnBffFn4U6g+uCVkDzv4Y/Xv9hf2J+s3zzOsA55rok+/M9rz45fNF7Fzo+est9cD9AAAD+w/zN+7t7/H2rf6UAvsAv/vT9sT1n/lVAAoGugdKBX4BvP+dAS8GJgt7DkEPvw1RCwgKewtZDzwTcRQvEhEOfArcCF8JkQtpDsgPNw1DBg7+ePnN+kX/OwEp/X/07utg53znIupU7M7rBOi54l/f0ODM5tvtHfKT8qPxjfKl9tn8RwOhCEkM9Q0IDgAO3A9kFAwa6x0SHicbzRd6FqkXuRk4GnAXThFaCRACvv1E/VD/zACf/uz3Ie/F6HnoMO7C9Zr5w/ZY7zrpsOk68f36cwBo/kr3AvFn8Ov1xP3iAkgCv/w59lLzVfaX/YgE/wY9BEb/Ufy0/awChgicDKsNKAzWCecIrQqnDrUSkBROE9MPCgzECf0JcAx8D6sQGQ4HCCQB9PxA/Y4A7QKvAC/5kO+m6Frnb+qL7eHsPejc4nbgceJo58nskfAL8uPx5vEt9JX5rwClBpEJEAppCkgMhw8AEwEWihiCGlAbjBrNGFUX4xb8FkwWlRNuDowHygCQ/Fj8Ff8mAav+0vZF7fXnlupC81z7a/xV9ZTr/+Zs6371e/2x/dv2E++p7InxfPoHAiEEYQDY+RT1Z/XU+g8CxwasBu0CGv96/uMBkgepDBUPjQ5fDHEKNgodDH8P3RJhFNQSnA70Cb4HaAmfDf0QXRAeC6IDwP03/K7+twEGAaz61/Bw6Gvlwee56xPtPOoD5cfgDOAz46/oE+508Yzy5/K99DT5cv9WBSQJrwoyC0kM6Q7rEjUXXxqIG90abBlmGFkY8hgwGd8XLRRFDoEH4AHg/n7+J/+J/vP6kfTa7YvqCO3t8yr6lfpi9FPsDel+7Wf2Kf02/WP3uvBh7g3yRfl2/xMBxP1w+Cz1fvbE+8sBGwVPBAcBrv71/78ERQpyDW4NBAyZC/AM+A56EFQR6RHvEXUQRw3TCT4IhQmXDA8PpA5tCpQDMP2b+sn8twBKAZD7mPHN6FrlB+cy6kDrDene5CHhQeCY4z/q/vBi9MPzIvKJ81D5EQEnB+oJdwrzCp4MgQ8dE9kW6xmLG5kb3hpgGl8aJBq5GKQVDhGEC/AFnAGw/xoA+wCm/8L61fOF7vDtDPJT9zf5kfWB7hnpr+lm8MT42vzg+Yjy8OzI7Z30f/wyACr+Evkc9e30aviB/Y0BswL2AIb+bv4eAvUHmQwEDjMNtwzlDeMPNxGxEUESSxPDE0YS2A5EC8cJPwtQDhQQ+A3ZB5cAMvxq/Pz+e/9F+6zzZ+w06DDn2eet6J3o5eap48vgFeGs5XjssPFL863y8vL19Tj7GgFNBigKcgyaDesOqhGuFUQZ5xroGuUauxt1HJAb3RiYFbcStg+PC4gGeALqADIBrQAq/Q/3SPH37vDw/vRs97f1ePAm67Ppiu0t9Mz48Pd08hLtoewG8nb5xP2n/Db4l/SL9Ov3ufzYAPICqQLYAJ//OQENBusLtQ8PEHAOew2IDtsQ5hLZE9gTOhP4EQEQwQ0oDAMMNg1uDr8NBgoSBGz+avsi+0L7MPla9JTuR+p06GPoo+ge6HTmB+QB4vnh3+T26RrvYvKv85j06/Ys+2wASwUBCbEL/g16EEgTGxZ0GPIZkxqxGsEa8BrmGucZWhdCE0gOVAkkBTUCwABdALn/L/1a+Bnze/D78bn1w/d49ebv4erk6YftTvN993n3ffOy7jTt+fDr91v93P0O+rn1XfSr9vf6Of9BApUDQwM+AlIC6ASWCT0O0RDxEMsP4A4ND3QQoRKOFPQUNxMHEPMMMAv4CtAL9QxPDYsLFQcvAXT8nfrB+hP6mvbn8ELrf+fm5cPlPeaN5gLmnOSb48Tkpeiz7Y/xOPPb83T16/ia/VkCjgZBCpYNkBA9E78VBxjFGbkaDxswGzMbuRphGTcXdxT1ED4MmQa/AeL/cwHiAycDOf1B9EXtNuzM8Mf2Nfn49RfvQOmR6LjtNfWx+Qn49vHP7CLtC/N2+sn+UP60+gD3p/W597X8hwJTBncGHQR+AvoD+wfbC74NHA6cDvQPWBHKEVIRyBDHECIRKREiELMNTwpoB6IGMwgPCjwJhgTY/bj4PPdd+BT54vae8Ubrg+bz5DzmYeg76RPoI+Z55UXnDutN77vyHPUv9/L52/1gAlQG8AinCs4MQxBpFL4XZRnoGWMaJxuGG9oaWxm0F/UVRxPUDukIIANq/7b+HgAlASr/ZfkB8hDtmu348uf4ivoY9kjuXehR6AbubfV++eH3hPL87f7ts/L2+O/83Pzz+S33F/c6+u3+sAIPBLYDtAN+BZsIRQtbDHsMKA0GDy8RQRLREb0QOBC6EMwRfxL4EdIPcwwICeoGjAbjBhIG8wIr/qb5/vYo9pT1kfOw7wXrQedz5XjlTubi5sbmdub+5izpwOxy8P7yaPQj9rH5Ev+nBLkI+Qp6DGkOIBFSFJcXehpAHEsc8hqNGTgZnhk4GeAW0BIPDlYJ8wSFAfD/KQBVAPn9a/jj8cXt1e3k8PrzkvQM8tHtb+oo6nHtS/KG9TD1MvKG76/v1/IQ9x36Avtd+r75j/o0/bQAbwN8BIkENAV1B50KBw22DTAN3AyuDW0PDRGTEdYQmQ/+DqYPBBGmEVcQNw28CXwH4gbrBgkGYANb/0P7PviA9jH1NPMh8KzsA+rG6IboROhw52HmAuYL53/pvOzm727yYvRe9hj52Pw5AWsFvAgKC9UM7A7XEV4VhRg/GkoabhnCGKUYehhuF1EVmxKlDy4M4wdHA8T/hf4X/2X/P/1J+Ify8O4a7wLy4PRZ9SXz7+/Q7djtqu8Q8r7z9/Po8rbxz/HQ89n2Ovny+Zb5uvlz+3T+ewFwAycEXAQiBTIHVwppDRwPIg+JDrUO8g8dEeQQQQ+NDSYNHQ5GD1gP7w2SCyAJTgddBvsFTgV2AzsAYfwh+S/3H/bE9C/yiu4E6+nolegv6Wrpsuij53Tn4+i16xLvLvKv9K/2tfh5+2P/+gP/B3sKuQsJDWwPjxJFFdoWrhd8GFIZkBm2GPIWxBRlErsPuwyKCVAGLgOMAAv/vv53/nL8IfhD86PwhvFO9N/1a/Tj8NHtFO2k7hnx/fKe8yjzZPJS8pPz5/VF+K75E/pc+on7yP1qAJkC8QOWBPIElAUVB7IJ0wwuD8cP9Q4qDpAO0g93EIMPhw0NDPsLuwzmDJ8LMwmcBrEEswNRA9sCjwEd//z7NvmI97/24fUY9GLxhe5u7Jnr3uuG7LTsAOzu6q7qLuw7753yKvW89ir4XPqI/TgBzATjB10KVAwUDv8PNRJqFBwWEBd6F7YXzxd0F1AWWRTDEbsOVwuyBx4EFwEG//n9b/15/EL60PZW84zxT/Ki9C72F/Wn8TTuPu1U763yxPR+9ObyBfIL83318fdf+cf53Plf+sD7B/68APYC5AOgA3MD5gRVCFwM5Q7vDmINNQy/DLoOqhAbEaYPIQ0CC1IK8gqbC94KVggRBbYCFwKIAosCIgGD/rX7ofl5+Mf32/Yo9Znyuu+N7d7sf+0+7ufteOxQ6/brp+4V8qH0z/V+9uj3iPr4/ZkBDgUeCHkK8QvoDDoOeBBAE3gVUBb+FXIVXxWaFVwVBBSPEXAOHwvNB3wERgGI/sD8IPws/Lv7r/ns9cbxQu+T7w7ykvQi9WDzvvBE7xXwvfKz9X73m/e09hH2rPaE+Kz6F/x//KD8iP2W/xsC9AOJBEIEKAQJBfwGaAl/C6oMzQxODN4LEAztDNoNAg78DCoLfgm7CNUI9AgjCCAGoQPMAUUBpQHHAagAKv4Z+4f4EfeT9lL2gvW8803xEu/77VfukO+S8LLwOPAS8O3wqPKV9ET28vcy+jv9owC7Ax4G7QeGCTcLEw39DrgQ/RGqEuwSJxOOE90TgxMrEhYQ1g28C40J1gZ3A+j/6vwQ+2H6Tvrx+YL44fXo8vrwA/Gn8m/0/PQe9OPyivJ28wb1S/bJ9qj2dPbS9kD4vvqR/YL/z////qf+FQARA/IFHwd6BmcFdwUdB4UJegtQDCIMdQvaCq8K+ApPCxkLDQqaCKQHswdjCJ4IgwccBVACMQBO/3H/yv9g/5/9yvry90z2Nvbb9t32ffU480LxcvCm8CfxafFx8ZXxF/IB80T0xvVc99n4SvoY/LT+EgJ+BRcIiAlHChkLbgwgDsgPLRFYElMT9RP+E0kT6xEmEEMOdwy5CqwIzwXwAZz9Dvpj+Ln46flF+sr42PXn8nrxGfID9Mj1QvZT9enzSPMj9Br2Dvj9+ND4ZPjX+JP66fyW/sb+yf3p/HD9pP+OArUEQAWJBMYDGATEBRsICQrOCmYKfgkACXQJkwppCwgLWglaB1oG5AYzCMIIjAfiBCgCuQDoANcBKQL+AHr+oPuS+cL4rvhS+AT3AfUv80nyRvJ48jzyiPHb8MbwiPH48q30J/YK93D3BPio+bf8mQAkBIoG9QctCcQKqgx3DvoPSBFfEvYS2xJSEuURthE0EbMPUA33CmoJNgj6BdIBkvxn+B33jfia+sf6A/hv84rvi+7f8Nz00vfh9031P/Ig8cnyB/a8+JL52PgH+If4s/q1/SEA3gD6/8D+6/5JAd4EfgeKB2AFJQMDA2wF6QhmC9MLpgo5CbIIXwmxCqYLYwvPCb8HdAaXBowH2gdzBq8DEgEFAKMAsAGpAfD/I/2H+hr5/Ph7+Yz5a/gT9kjzKfGA8DzxevIe857yb/G08GfxkPM89jv4H/mX+dP6dP0MAYQEFgfKCC4KogsCDf4Nlw43D0QQqBHREh0TTRKpEMAOEQ3WC+8K8AlCCGMFPAFw/FX4WPYE9z/5q/oq+Z/0X++r7DbuyfIg92n4U/YO83rxEfMM9yf7Qf24/L/6gPmF+oX9kgCiAU8APv7C/ej/ogO/BqkHbgZtBEkD9QNUBlgJfwuvCw8KDwhlB5IIbAodC84JZAehBY4FpgZnB58GWgTGAVcAuAA+Aj8DNgIA/yf7wvi4+Pv5dvrh+ML1x/JD8UHx4vFH8iPyovEi8Rnx8PGt88D1W/c6+P34mfpY/YMAHwPuBJ4G9gjsC5oOExA0ELsPrw+yEKMSnBRcFfgTjxBzDG4JjQhaCR8KBQksBTL/9/jJ9Dn0/fa3+ib8Y/l58+ftLewx76b02fhp+b72Z/MY8uLzu/dx+zv95Py9+4D76vwx/8QAsABq/2b+5f79AJgDRwVBBesDogLdAh0FZQjNCusKCAn5BqYGcAjgCt4LagpfB7oEHwSwBQQIIgnVB4sEFwFm/w0A0QGkAkoBRf42+2b50/h4+Gf3lPWy84TyRfKZ8t/ynfLL8dvwd/AH8WPy+vNT9XH2u/eX+RH86f7QAYoE9gYSCQsLHA1MDzwRZxKpEn4SlhIhE5ITIxONET8P7Az9CngJNAj0BjwFWgL4/c/4qvRH8+b0wPcM+f72MfJb7YDrz+3E8jn3mPio9ovzEvKt85f3sPsi/nr+mP3X/CT9l/6HAAACYwLiAV8BugEQA6MElAW1BaoFMwZsB7MITwkZCZcIiwheCdMKGAw4DLwKJgjJBe4E1QVqBxYI6QY7BEgBRv+w/ir/yv+S//v9Yvvo+KH3rvcQ+JH34PXN82vyDPIk8gjymvE48ULx0/Hq8oL0YPb89/L4m/n4+r79bwGoBH8GewcHCeMLRA+TEfMRBBE3EI4Q+hGcE2EUeBO1ENAMRAl7B7YHrghnCJYFYQAq+sH0vPHm8bT0/vfo+Nz1HfBN69DqG+9U9Y75rPmb9j/zVPLW9K/5ff72AE0Ayf3u+5P8b/95AtMDbQPCAhcDMgTMBC0ECgPQAiwEcQZNCOwIbwiKB/MGGwcdCKUJ4grlCk4JwgaSBN8D0wSLBqMHAQd3BPUAI/5f/a3+gADFAHz+mfo39+P1b/ZR9xr3i/V/8+rxGvHI8KPwqPD88KzxoPLN8z719/bU+Kv6jPy5/lgBJASSBlkIzwmcCxIOvhC/En4TJxNvEgYSJRKREsgSNRJnEGkN9gksB8kFhgU4Ba8DggAf/Fv3FPM08I3vMfHH8/P0CPPA7iTrVev173T29/o++y/4BPXj9LT4nv5MAzsEegGs/RP8Bv74AegECwUuA6cB+AGcA/AEAQVHBNADGgTdBLEFeQYkB3MHTAdBB0MIhAq/DAsNoArDBtwDewM+BVsHCAiEBjcDXf+F/ND7G/3H/sv+ZvzU+Db2ofVI9oP2fvXK823yvPFF8afwJ/Bb8HnxKPPk9GD2fPcz+MX46vlm/DYAPgQaB2MIEgmHCi4NMxBpEloTXBP1El4SwBFwEbIRIBKvEYMP0AvRB9YEVwPeAnwCOQE//i/5yPIu7e7qGu0C8vf13/Wf8Ufs5umo7FzzXfoR/jL9hPl89t/27fpPAOgDHwTgAaj/bP8vAVIDMASCA2sCQgJcA8UEMAUeBGQCjAGiAkkF4AewCEoHBQUYBNsFnwkPDfUN7guaCDIGxQWiBk4H5AacBSQEwwI+AWz/t/3J/NX8Qf0U/b77cPni9tf00PPc84D00fT68+vxnO9u7iHvRfGv82/1Yvb79rb33PiR+u/82v/oAqEF2gfHCaULbA31Dk0QsxElEx4U8BOLErMQZA/yDs0OIw6HDA8KCAfaAy4B0P/o/0cA0f4f+gXzd+yR6Vnr+u8N9Nz0HvIX7ijsle7Q9J/7Q/9L/sf6rPiL+nz/DQRRBUADZwB+/yoB0AM6BWoELgJPAC0AygHSA54EhQN+AXMAqgGhBGgHRwggB3EF9ARGBpgIfwr/CgYKQQiaBq4FewV4BRUFQQRlA9ICLgKvAAn+Efs5+UH5YPrT+mP5ZfZi88Tx2vHf8snzBPSY8+/ygvKr8onz8/SU9h/4dPmm+t77RP3//iwBzQO0BosJ8AucDYUO7w5rD4oQZhJaFE4ViRRXEt0PIw40DS8MLgoyBx8E5QGmAKb/B/5++274YvWX8gHwvO1T7H/sZu4w8VnzxfO28srx2PJ79n77rf9oAcoAcv82/9EAfAOvBVIGdwUbBEMDMQNVA/oCCQInAR4BBwIbA00DOQKPAJz/VACWAj8F7gbrBp8FTQQ0BLAF8weSCYQJ2geaBfsDjAP4A2oEMQQiA5sBLwA9/7P+If4i/bz7ZvqP+Sj5ofhx9631BfQu80zz5PNa9HD0XPSF9DT1afbh9zX5HPqw+nr7EP2J/1cCvQR8BvwHzAn7CwkOeA9IENsQZxGtEUURHxCkDlYNXQxwCyoKTwjqBTMDdwAG/h78zfru+Sv5APjL9SXyg+2D6UXo5+pJ8Gv1fPf39RzzMvIU9fT6IgEHBb8FYQT9AjEDIAV9B5EIngeEBQYEMQRZBawF6gO0ACX+D/5qAFYDmARQA4MAQ/4r/lQAZgOfBRoGVwWtBBMFVQZfB1EHWgZ1BWgF+AUlBiIFDAPMAFX/9/5J/4L///6U/az7CfpO+Xj5z/l5+TH4jfZv9Tz1f/V19dv0PPRs9LX1efe1+N34X/hR+Jv5PPxO/7YBAgO4A9YE/gbiCZAMNw7SDhQPsQ+7EI0RaREeEDEObAxDC5MK4wnKCCkHCQVsAlb/BfwU+UH34vaD9+731/an8wfvtOqr6A/qZu7D8833KflG+AP3XPci+o7+8QLjBQwHEwfrBh0Hige+B38HEAf8BnwHEAi3B7QFTgLK/qX8ifzz/ab/iwBFACr/6P0r/WT9rP6xANICeAReBZkFXQXVBCgEqgPDA5EEmQX6BREFAgOwACD/zP5k/yUAWACv/1D+n/wI+9P5I/kD+WH5+flM+tL5WPhN9pX0AfS69Dv2wvfY+Hv53Pkj+nP6Fftw/Ln+qAGYBPUGpQj6CV0L7gyBDtQPvBArERYReBBqDyYO7QzUC7YKUQl4BzgFxwJaAAz+4Pvc+R34yfbo9UD1ZPTr8sTwU+5X7JTreuzx7lfyuPUt+FP5kPnx+ZD70f4LA+UGPAnkCZwJXAmCCacJMgkaCAcHwAZSB98HOgfmBJYBuv6F/Rf+h/+TAH4Acf82/pT91v3A/tv/2AC0AY8CcwM5BKwEugSMBGMEYwRvBDwEhgNFAscAgP/G/pD+df7+/Qv98Ps3+yf7fPuf+yr7Pvpg+fz4Afn6+In4yPc/93P3cfi++bj6Cvvf+rT6+frP+xL9jv4xAAcCEQQtBhoIqQneCusLBA0zDkUP5w/SD/gOkg0GDLMKsAnACHUHhQUJA3UAUf7Z/OD79frC+T34p/ZS9Wn02vNq887y2PGU8F/v2e6Z78bx4vT69zT6Yvsa/Ef9bP9NAiYFVAfWCC4KzQuHDZkOSA6WDF8Kzgh8CP8IPQk6CM4FswL9/2L+3/3i/dH9af3R/Fr8Lvw0/DP8FvwQ/ID8of1P//4ADAIhAmkBdgDa/9P/KgB6AIAAUwA/AHoA6QApAd4A+//X/vf9uf0R/pL+rv4J/rT8JPv1+Y356PmX+gn75vo6+mP5x/ia+NX4aPlZ+sD7l/2S/0YBcQJAAzcEzgUMCHkKcwylDToOog4dD3UPMQ8DDiIMNArYCDEIywfwBigFiQKe/wH9AfuB+SX4ovbx9FHzGvKF8Yrx3fEW8ubxQPFk8MTv3e//8DDzKfZr+Xb8/P79AL4CkASYBrAIhgrjC9MMng18DlcPvw83D58NXws7CdIHMwfZBgEGMgSGAZ3+Mfyx+hP69fnv+c/5pPmb+cX5B/on+g363/n8+b/6NfwL/rT/wAAUAfQAvQCvANAAEAFnAegBlwJRA84D1gNvA9wCbwJDAjEC/gGZASgB4QC/AHQAnP8R/hz8VfpA+QH5S/mg+Zr5Hvld+Kv3YvfD9+j4vfoB/V3/iQFlA/oEYQawB/MINQqEC9sMCw67DpQOgA3LC/0JjgiaB94G8gWSBMMCuwCs/qv8vPrz+Hv3evbn9Yf1E/Vq9Kbz/fKH8ifys/Ev8fjwnvF982j2sPmC/HP+v/8YARoD0AWnCOcKPwwIDfcNdg85EVYS9hH+DzkN1gqRCTQJ0wiNBzYFagL7/0T+5/w7+/n4mPb79Lj0k/Wb9tj2BvbF9Bv0ufSK9tn45fpl/Jf94v5oANsBxALpAo4CUAK/AvoDmAXuBnwHOgeNBvwFzAXaBb0FIAUKBN4CCgKwAX4B6wCU/5L9bPvC+en4wvji+OP4m/gc+JH3Hffj9hT37feV+er7ff7GAHICkgOKBL8FTwcICZIKrwtcDLkM2wyxDBQM8QpkCbIHJAbdBMYDoQIzAWT/W/1k+9H5wvgX+ID3tfau9aj0+/PU8xT0afSZ9Lz0L/U/9tb3c/l2+qH6Uvpa+nf71/33AAAERwarB4UIUAlGCkYLBAxXDGMMgAztDJMN/g2gDSgMugneBjMEHgKbAFr/AP5q/K76AfmD9y/28PTM8/TysfIx81z04vVb94P4Ufnw+aL6nPv0/Kf+mQChAosEJAY/B8IHsgc8B64GYQaQBjcHCQiVCH0IrgdlBv4EugOdAoUBXAA2/0L+lf0J/Ur8HPuO+QH47PaL9r/2MPeP98v3Cfh0+BL5w/lq+hX7//tp/V//pwHWA4oFnQYsB4QH7geQCGEJMwrVCh8LBguPCsoJwgiFByYGxAR/A2UCYAFAANj+I/1M+5j5P/hK95z2Fva39Zz14PV39i/30PdK+MT4d/l++rX70vyZ/Qj+Wv7Z/qz/zQAaAnsD6gRgBr4HxwhGCTQJzQh5CIgICgm6CSMK4gnUCCMHKwVDA5cBHgCw/jz91/uv+t75SPmm+Lz3m/aq9W/1MfbE96D5Pfti/Dr9D/4I/wQAxQAzAXoB5gGkApsDewT9BAsFwwRSBNQDXAP+AuICJAO1A1IEoARjBKMDnwKjAeIAZAAXAOT/t/97/xb/cP6F/Wv8T/tj+s75ovnS+Tr6qfr0+g37Dvsi+3P7CfzZ/NP99f5DAKkB8wLfA00EYQRzBNAEiwVwBi0HigeGBzwHxQYoBmQFjQTLA0MD9QK5AmEC1QEkAWsAt/8B/zz+b/2z/Bz8ovsn+4z6zfkE+VX43Pek96v38Pdm+O74WfmE+Xf5cPnB+aT6EvzO/Y7/IQF7AqMDpQSQBXUGZgdtCHgJZAoPC2gLcws7C8AK/Qn2CMEHgQZNBSEE4gJ1Adn/KP6C/PX6fvkj+Ab3WPYw9mv2vPbf9sv2svba9mf3Svha+Xn6qfv5/Gj+0P/2ALEBCwI6AoMCDgPbA8sEvgWVBjQHhAd8By4HwAZaBg8G3wWyBXAFAAVNBEYD4gEsAFL+mvxK+3n6//mR+ff4Mvhz9+z2u/bi9mX3SviU+S776vyO/u//AAHZAacCjQOPBJQFfgZDB+0HfAjWCNMIYgieB74G9wVfBfMEnwRGBMgDCQMJAuMAu/+j/p/9tvz6+2377/pN+m/5cPiL9+r2lvaF9qz2BPeF9yv4APkQ+kv7kPzH/QD/WwDUATADKwSyBPcERgXLBXsGIweIB4gHLgetBj8G+AW9BWYF9ASMBFUERgQ3BP4DhgPIAskBqwCi/9P+L/6C/bX84fsr+4z61vny+AX4V/cZ90z31PeK+Ef57vmI+kn7XPyn/dn+tP9TAAsBEgJAAzcEtwTSBMwE3AQOBUkFbwVyBVoFQwVFBVUFRwXqBD0EdwPbAnsCLQK6ARQBUAB//5j+lv2W/MD7GfuF+vn5nfmh+ff5U/p9+or6uvoo+7T7Qvzh/Kz9kP5X/+n/ZQDwAHwB4AEfAnMCAwOuAzMEgAS3BPcEKQUtBRAF+wT4BN4EkAQsBN4DlwMRAyQCCAEVAGD/tf7p/SD9mvxY/Ar8c/uz+i/6K/qX+i77tfsT/E78gvzW/GH9C/6k/g7/Zf/e/48AVwH5AVMCdwKYAt8CSAOgA7YDiANKAzMDTQNyA3cDUwMVA8sCfwI4AvkBuAFuASUB9wDnAMwAcgDN/wT/SP6r/SH9qfxR/CT8F/wN/O/7tPti+wz72/r9+oj7Xfw2/df9S/7U/pn/bgAAAToBbgH8AdsCpAMMBDIEXgSbBLMElgR4BIEEhQRBBMgDdQNuA2cDBQNLAosB9gBvANr/UP/w/pz+G/5s/cP8QfzQ+1b75/qq+pr6nfq7+hb7ofsW/FT8nPxA/Sb+3v4r/1f/z/+VAE8BxwEfAosC+wJAA2ADhwO7A8IDegMYA/ECFwNKA1ADMAMNA+ECiAL/AXcBHAHgAJcAOADm/7j/kP9C/8z+V/75/Zn9F/2N/Dv8NPxC/CP83vu3+9z7Nfyb/BL9tP1u/gP/X/+6/1cALQHrAVMCbAJpAmUCXQJMAiwC9QGnAWQBTgFVAUIBBAHZAAMBaAGoAZYBbQF4AacBpAFNAeEAqACcAIoAXAAmAOv/if/0/lf+6/2v/Xn9Pf0p/WH9xv0R/ib+LP5T/pj+zv7g/uv+Iv+U/xYAYwBfACcA+f/2/wkADgD///f/EABEAHgAnAC1AMYAyQDFANcAHwGZARMCVQJeAl8ChgLPAgMD+AK4AnICQQIbAuIBkQE1AdQAYwDa/0//5v6u/oz+Uv7q/Wv9Af28/IX8PPzx+9/7Lvy1/B39NP0f/SP9U/2T/dX9Of7L/l7/u//v/z4AxQBVAcABHgKmAkEDnAOcA48DygMxBF8ELQTkA9ED2QOgAwQDRgKyAVgBEAG3AEAAqf8F/3n+Gv7K/Vz93/yl/Nr8Pf1e/SH91vzP/AX9P/1w/b/9Ov6x/vT+HP9q/+3/bQC4AOYALAGMAcYBuAGVAakB7wEPAssBUgEJAQ0BHAH7AMAAnwCLAEwA5f+u/9v/KwA4AAMA5/8EAAQAo/8t/yP/dP+B//7+av54/h7/q/+w/3X/Z/96/1//Gv8I/0f/if+U/57/8/9tAKQAhABhAGwAawAqAN7/2f8GAAkA3//t/1gApQBYALn/jv8XALcAzwCIAHUAqQCiACQAr//a/3AArQA4AJr/jP8QAIEAaQACANP/CQBXAGYAOgAZACwAXAB5AHYAbABnAFMAHwDm/87/2v/d/73/qP/b/0sAngCIACAAuv+K/4z/q//e/xAAGgDy/8z/5P8uAFYAKgDb/8j/BwBSAFYACwCs/3z/jf+//9v/x/+Z/4T/n//K/+H/6f8KAEsAhQCeAKwAxwDRAKcAbwCHAPoASAH2AD0A3/8zAKQAcACs/zb/nv9nAKgALgCj/5//6P/m/33/IP8Z/x3/0P5k/l3+0f42/x//yv7F/ib/fP+H/5D/5P8/ABoAhf85/6n/WQB0AO3/pf9EAFcB1QFfAZ8AaAC8APYAqAAcANb/+/9CAGEAWABMAEcAPQAxAD0AZgCEAGkAHgDh/+H/+//v/7r/rP///3kAoQBRAOX/wv/R/7b/Xv8l/0v/j/+K/0v/Qv+X/+7/7f/J/+v/PgA2AK3/Rf+t/6gAOQHSAPX/iP/I/y0APgAIANL/pP9n/0b/iP8bAIAAYAAAAOb/LgBzAGUAKQARAB8AHQAJACUAfgC2AHEA4f+P/67/1/+h/zr/Iv91/7v/l/9O/2H/0f8cAAIA6v9KAO4AKAHLAHgAwgBOAS8BLAA2/1v/eABJAd4Aq//0/lf/MwCHACUAw//5/44A3wDBAKAAxwDlAIUAwv89/0z/mf+0/7b/CgCkAOUAcQDF/5T/2v/l/2n/Bv9x/2QA3gBnALD/rv9dAM8AUQA9/3r+ff7w/kH/Qf8r/z7/df+g/6f/ov+1/97/+P/y/+n/AAApADoALAAwAFYAXgALAJP/ev/a/yUAyP8B/67+Pv8nAI4AVQAlAHgA7gDVAB4Ajv/W/8EAZgEsAW0ABwBfAO0A4QAdAF//Yv8BAGYAHACa/57/HQBFAJH/k/5c/j//YwCxAPj/EP/c/mr/CgAkANz/x/8lAIYAaQD6//j/rwBmARwB3v/V/vL+x/8wANb/jP8RAPkAQwGyABcAJACRAKMAPQAAAFIAyQCvAO7/Pf9R/w0AmgBMAG3/9/5z/0gAZgCb/9L+3P5i/5H/fP8SAIkBpgIwAq0Ayf8mAKgAPQBV//z+J//0/mL+gP6p/68AjwALAGsATAERAaX/Bf9DAHcBRACq/S798f+5AiQCTv9A/k4AZQKdAUX/tv5uAJ8BgADO/vr+kQAlAQkAFv+d/3AA8f/A/sv+KQC0ACv/SP2K/bv/HAEMAC3+Jf4TAIIBxwAv/xj/qwCgAWsAc/5G/jMA4gGKAU4AdwASAtACYwGA/4H/AgF2AfP/pf6i/7sB9gG9/7b9Gf7T/18Aav/y/gQAKQG7AGT/Fv8iAOAANAAd/yH/HwCqABwATP8t/5X/yf+r/7j/JgCMAHMA3P8r/8n+5v5X/6L/ev86/4T/UgC9ACAAF//d/sj/5ABAAfUApQBmAOT/TP9R/yIA9QD/AHEACQD7//X/BACgAKUB+QHuAH7/Vf+dAJYBwADD/oj9zP2A/pL+ef48/5UA/wDS/3L+sf5oAIkByQBX/0z/xwCyAawAGf9T/zsBIgKKAJH+Q/8nAmUD8QCv/df9NgFCA0MBCP7y/d0AbQJGADz9G/1W/0AAr/6H/RT/YAEaAaz+vv3V/wECJQGF/vn9ZABxAkgBbf6B/Vv/PQHaAEj/Lv8fAQMD0QLLANf+Yv5E/2kA+ADeAH0ADgB5/9L+qv5X/woAZv9u/TH8jP18ANcBIwCt/cD9fQDIAm8C4ADuAOECOgQqA9gAp/8vAPsAwwDi/2n/mf/X/6//Sf8F/wH/Jv9H/z7/CP/l/hP/cP+c/4D/dP+z//T/5f/M/zsAHQGbAS8BcwBkABIBjgE9AaMApQBKAbgBXAGWACEAHQAFAHX/rv5A/mP+wv7Z/oX+Gv4G/lX+pv6m/nr+j/4N/5r/0v/G/9X/IwBtAHgAcwC3AEIBsgHIAbQBxQH2AfsBvQGEAZcB2AHqAagBTQEfAR0BDwHaAJYAYAA7ACMAGwAVAOb/ff8J/87+y/6//pT+iv7T/i7/Lf/Z/rn+G/+c/7T/dv9s/8L/BwDo/7r/9v9qAHQA9v+V/8z/PgBIAPv/8f9TAI0APwDj/yIAzQAVAasAKQAvAI0AqwB0AFoAjwC0AHcAGwAOAEgAWAARALr/mv+V/27/LP8J/xL/F//+/uf+9f4W/yD/EP8N/zX/fP/B/+f/6//n/wAAQAB9AH8ATQAmAD0AeACTAHkAVABQAGkAfQB+AHgAegCEAI4AiwB1AFUASQBaAGcAQADk/5n/mv/K/9b/mv9Q/0P/cv+i/7T/wP/f//v/7v+9/5X/k/+j/6r/q/+w/63/kP9q/2j/mP/M/9T/wf/M/wUAPgBSAF4AiwDNAO0A4gDbAPQABQHoAMIA1gARAQ4BoQAmABIAVwB2ADIA1v+//9v/1v+j/4r/rP/N/67/ZP84/zr/Pv82/0H/a/+B/1f/D//+/j//nP/b//f/EAA0AF0AegCDAHUAYQBqAJwA0gDZALMAkQCTAKIApQCfAJ0AiwBZACwAOQBvAHgAJgC9/57/xv/f/7v/hv9y/2z/Rv8L//D+B/8p/zz/U/9//6r/uP+6/9D/9v8NABYAKwBPAF0ATQBTAI4A0ADQAJ8AnQDxAEgBPwHuAMoACAFcAV8BGQHmAPsAKgEpAeoApACAAGwAPQDw/7T/tP/Q/7v/Wf/y/uf+N/93/1X/BP/z/jr/df9P/+3+vP7i/hf/FP/t/uX+FP9M/2X/bP+I/7//8/8RACoAWgCgANUA2QC1AJoAqQDUAO0A3QCzAIkAZABAACgAKQA3ADEACgDl/+b////7/7//cv9U/3P/mf+K/0L///77/jL/Z/9s/1X/Vv+B/6v/qv+N/43/vP/2/xYAIQArADIAJQASAB4ARgBhAFIAQQBhAK0A5gDaAJAALADQ/5r/of/V//z/6P+0/6L/yP/1//j/2v/F/8T/w//A/8f/zv+4/4//hv+0/+T/0/+Q/23/mP/k/w8AGAAhACcA/P+f/1f/aP+6/+//1f+Z/47/w//7//r/0f/H//T/IwAZAO///f9iAMYAwgBdAAsAFgBLAFkAOwAqAC0AFADX/8H/AgBYAF8AHgABADoAeQBgAAsA4v8FACQAAQDC/7P/2//9//P/2f/d/wwAUACCAIQAVQAgABwAPgA7AOv/kv+d/xEAdwBoAAUAyP/q/zQATQAfANT/mf+B/43/t//3/zcAWgBEAPP/lP9p/4j/uv+3/37/Uv9Z/2z/Vv8i/wj/Gv8w/zX/TP+Q/9n/8//u/wYASwCCAIMAfwC/ADgBkQGPAVMBHwEHAfYA4gDaAOsA/gDxALgAbgBBAF4AvAAZASUB1ABgAAoA0/+c/2v/bf+k/8f/h/8A/6b+yf43/3f/Rv/f/rL+8f5a/4n/Y/8s/zT/e//B/+H/8f8PACQACQDa/+H/NQCOAJwAegCIAO4AXQFyAS4B6QDaANgAlwAXAK3/qv8OAIAApABjAPf/pP96/2D/Sf9G/1z/X/8r//D+C/+Q/w0ABQCM/zv/gP8aAHQATwD3/9P/6f/4/+H/w//M/+3/9//Q/5n/i//D/ywAlQDYAO4A5QDIAJQASwALAAEAPwCeANYAvwBwABgAyP9l/+7+n/67/jj/tf/c/7n/mP+i/7n/uv+z/77/zf++/5L/a/9K/wH/jf5K/pf+WP8CAEMATwB8AK8AiQACAJ7/2P+LACEBQAERAeMAuwBuAAsA5f8mAIcAiAAGAG//Wv/w/8EAOgEvAewAwgCsAGsA9v+U/4v/zv8RACUAHAAWABYACwD//xQAUgCQAJUAVAAGAPz/VwDbABcB0QA/AMn/nv+R/3D/Tf9l/7z/CAAHAL//V//e/lj+/f0j/t3+xP9JAEUACwAEAEcAkgCfAHAARABUAJ8A6AD6AM8AgwApAM3/o//z/7oAaQFXAYYAxP/V/40A/QCFAIj//f5g/0cA7gD6AJ0AIACF/7L+2P1//Q7+R/9mANYAxwDjAHEB5wGOAWUAMP+o/sz+Lv+h/1QAQwHeAZYBlwDE/9b/ogBMASsBbwDZ//X/lgARAeoAOQB0//T+xf7V/h3/e/+i/1T/xv6H/uP+gf/D/4D/Ov+B/1MAHwFfAQABSwCX/xr/9f4x/7D/MQB8AIwAfwBkACQAo/8L/83+R/9OAC4BTQG7ACcAJACaAAEBAgHEAJEAbgAyAOn/4f8/AK0AmwDZ/9r+Sv5t/vL+Z/+x/xAApgAyAUYBzAAuAO//LQCQAKoAWgDR/17/O/91/+7/bwDEANIAlgAWAHX/Av8K/4z/GQA7AO//n/+Z/6b/UP+E/rv9gf3r/ZX+Gf9l/6n//f9KAHAAgAC7AE4BFAKQAlYCcgFwAOr//P9EAGMAYgCIANoA9gCGALz/Kv8g/1j/Y/9C/2H/+v+cAJYAuf+f/gv+M/6r/vr+Bv/2/tT+iv4s/g/+ff5O//z/IgDm/9P/TQAtAeMBAgKbAScBEgFpAeMBIwLyAVIBjAAkAI0AuwEGA58DQQNcApABEwGsADAAzv/I/wQAEwC0/xz/r/5+/jX+jv29/EL8U/ye/K/8f/yD/An9xf0g/vj91/1Q/jX/x/+r/3v/IQCyASwDhAPTAkMCxgIXBA0F4gTlA/kClwKLAoICkwLxAk4D7AJzAYT/O/4B/iT+rv2A/GT7DvtP+2r7C/ul+tj6oPth/Kf8t/wz/Vz+x//gAIsBKgIKA+0DSQTuA0kD+AI0A7sDOQSdBAIFbQW8BdoFwgVOBTgEcQJ7AC3/6v4s/+n+i/1++8b5GPlb+ez5QfpB+iT6LvqM+kr7MfzI/Jz8yvsn+6/7o/1BAGwCqgNfBB4F7gVLBtoF4wQHBJ8DfANJA/YCrgJ5Ag8CKQHs/+r+nP7l/ir/5P4g/mb9Mv2N/Sv+zv5y/yoA4wBuAa4BrwGHAT8B5QCrANgAgQFjAgUDHwPUAokCeAJuAu4BswAQ/9L9k/0l/pr+Dv59/Nv6N/rI+r77Evxz+3j66vkS+qj6T/vx+6P8Wf3u/Wr+Ev8eAGEBdAIwA90DygTOBVkGKwa+BeEF1gbtByUIJweRBUQEkQMgA48C+AHFAR8CtAIWAx8D6wJuAlABWP/o/O/6NPqz+ov7l/sX+hb3cPOM8LbvXvGy9DH43PoB/cf/wAPzB18KkQnlBV4BUv4W/noAJQRXB7kI+QfuBfIDyQIAAnsAxf3X+mn5c/pi/bYAPwOjBOcE3wODAZv+uPwN/VD/9AGZAzEEpgR+BQ0GKQV3AvL+LPw1+yD8OP5PAPoAG//q+oL2/fRN+JX/qQdgDaAPbw88DlwMDQnCAxv9sfYf8jjw0vDb8pn0TPQ68Xrsnegb6LnrOPJv+c3/4QTaCMILTg1FDfILKQoACVsJfgu1DnIRDxLaD7ALfgcABcMEIwYPCMMJ6wpiC/0KkwkhB8IDtf+D+wn4Hvb39c72Vvez9hD1U/NC8tvxa/EO8CDtgejh4vPdJ9yM33Po7vTGAT4MQBM8FxYZWRlHGFsWcRRfE2MT9BMPFKYS9Q7aCBwBdfkP9H7y6PTo+Vj/ZQNFBS8F3gMNAj4Asf6D/c78q/wh/ev9Sf4l/bH5N/R67iLrS+wR8kn6twH7BdMGwQWYBDoEfQQDBfYF0wekCoMN+w79DYcKpgXtAMn98/wi/gwACgEEABD9NvmG9Wzy1+/s7Vftuu7c8YH1N/hP+S/5zPgC+WH6RP3FAWIH7AwLEQ4TSROUEo4RUhDXDmgNhQxcDGMMjwsQCe0EJgBN/Lz6yfth/ngATQCi/fL5Rveg9lz3B/jD9/H2lvZF96f43fkm+hj5ffY38nvsJubk4OLeL+LE64z6EQuqGN4fgSCzHYAb5xvFHXcecxxlGPITvg+8Cm8Du/mW7xPosOUJ6XrwvfhX/lT/c/yy+Eb3Zvmx/ZcBYgMFA0kBkP6j+pL1ePAq7RjtivCx9iz+WAV5CkQMxArLByIGxgePDFUSbBYvF5UUsQ/hCUkEr/+B/OT6yPrk+4j9hf54/bT5EvTZ7nzs9e0V8k32Uvhc90304/C97sHuBfEP9Tb64P+LBaIKbQ5mELwQdxDpELoSVRVIFz0XwhRcEBQLEAZMAmYAQQDlAOsAd//c/GP6Rvm6+c/6Kfvo+Sj33vNd8bXwLfII9eb3kPmt+bL4CPdO9KDv7ug+4mDf6uOh8FgCQRMGHrAggx1TGWsYBhzQIaklXySHHVwT3Ai+/9b3P/Ax6bHkR+Wb6wn1q/yD/mb6afQs8uj2EAFEC8gPDQwDAon2Z+7U69ztvvEL9SD3E/lN/PwAtgWgCDAJ5QhBCrQOPhXkGqgcbRmBEp4KUAS/AHT/+v7Y/Yb7qviR9hT24fa593/3Jfab9Njz6PPw8wzzO/F17/DuNPC08jv1x/ZV9wf4ffq3/ywH4A6OFA0X7xbdFUMVahWEFXwUxBGgDfgI4wQuAvYAngBEAHX/iP45/sX+eP8X/+/8ivlo9vj0l/VN91/4X/cw9FXwL+4573nymfQv8uHqvuI14LvnR/iMC90Z+x5cHI4XHhb2GXMgjiRtIvgZtQ4aBU//5/uf97zwHOkW5e7n2vAm+2wBSAHG/JL4lvhx/VIE/gh0CKQCPvrt8ivvCe+78FTyWPPo9Hn4V/4cBaQKig0qDlEO7A+YE/8XhRrlGNQSeQpBA7n/7/+FAX8Bcf5s+RD1iPP19G73e/jg9nLzW/Bx79nwBfMZ9HvzTvJn8qD0EPjb+ub79Psc/R8B5QdkD+8U7Ra+FUgTnRGlEa4SCRNSEWcNcggFBAoBW/9C/lP9zPwi/UH+QP/3/un8yPkS9xX2GfdB+RL7OvsX+cj06e5V6Bbigd063M3f1Ogk9rEEoBAkFxcYIBYRFXUX4hw9IsAjah8gFvAKIQFz+q/2ivT08tnx1PFU8/D1kvhS+k/7tfzM/6kEmQn3C9wJkgOU+wn14fHh8TbzBfSv8wXzd/Py9VX6rf/lBG0JVw31EEsU0xbCF6gW2BNKEPkMOQqSBy4EiP/n+VL0IvBh7kzvJ/J29ar34vda9j704/L48ib0b/Xo9WD1dfQY9Ob01PZn+UH8h/+zA+cIYA6pEo0UEBSWEu0R6hK/FJUVAxQfEGMLfgcTBWgDSgFU/oP7jPpU/Nj/egKwAfD8VPZm8cPwYPSY+e38G/wU93nvW+dx4Cnc/dsw4dvr9vmXB6oQTRMoEYsOww8yFjgfvCVXJRwdGhBkAwX78/c3+NH47vfG9ePzmvMK9U33fPmP+0b+PwL3BqQKIwtoB3EAAfkx9K/zwPa6+qr8NPtw9yv0DvTd9wT+wAMFB9kHEAjKCbANYxJ0FS0V1RFpDREKfAh1BwUFOwAq+jz1YPOB9IL21fZw9JHwze0T7j/xP/Wt94b3wfVp9AL1i/fI+nP9Sf8RAbADOwfICjENDQ75DQ0O6g5AECIRzhA3D+8MnQqKCJ8GwgQjAyQC6AH9AYYB0f/z/ND5dfdM9tT1JfXN8zjyNPEI8ffwy+8Q7fTp5+gV7Lrznv03BtEKPwvjCfwJUQ3uEskX3RgpFT8OFAcXAu//iP82//X9+PtM+u/5BPuz/NP92v1m/cn95f9AAxEGdgbVA2P/Y/uf+UP63Ptu/O76BPin9bj1l/jL/BAAJAHUAGYBrwRyClEQfRPJEngPNgwRC/QL2wxlC7UGGQAU+mr2zvRG8wHwKOv/5hzmQemg7j7zPfUk9ST1Mfd++4EAQwTOBb0FmAWYBrMIpAr8CnAJWAfKBugIzAwHEG8Qug2qCbMGTQYsCLAK+wvwCp4HKgMu/+X8c/zT/JX84foA+AP11vKQ8WTwV+4e66/nD+Y26KDucfcz//sCjAK7AHIBvQYfD4QWFBm6FbUO7AdwBLoEsQZFB5IEOP/o+Xr31/hk/GH/GAAA/wb+sf7cAP8CkQM2Atv/5/1A/dD9rf7A/n/9XvuS+Tn5ePpU/H79b/3k/Ej9if9aA2AHGgrUCgcKBAkOCXYKQgzCDMkKrAYfAuH+Vv0y/Kf5CvWQ73/rg+qP7PrvwvLf89TzMvRZ9mr6D/9rAoQDGQMVA/UEeAjLCwwN8wsNCm4J7Qp1DfEO+w3sCokHpwXmBWAHdggJCDMGCQSPAtUB9gAN/0z8G/rt+aP79fy/+mzzy+ih3wHd/uIF7x37dgEGANz5MPVD99IAaQ08Fp0WDA/DBCD+af7qA4oJhQqgBa79XPfz9V/5o/48Ap4CEwFhAG0CqgabCvILfwo+CHoHqQjsCbAIAQSb/bn4oPfj+av81PxP+Q/01/Cn8on5SwJ7CGwJBwYaAn8BVQVKC2wP9Q7+CQoDF/3K+cr4e/hC95j0NvGD7ortV+4a8PDxmPN39fX37vrg/YIAHQMiBmsJAAy5DD0LbQjsBSYFfwYuCaoLhAxAC7YImgZUBuQH3wmUCnAJVAeYBbUE4QMBAvP+6vt6+iP7ofyN/AD5JPKj6m7mWejs7yz58P5v/m75JfVu9hX+IAigDt4N1gZZ/rP5MvvZAPAFTwYzAb/5wPRN9bD6LwH+BO4E0QKFAYsCOQXWB1AJ8gmxCvoLLQ0sDVYLLggHBRADWwK4Aaf/xvuL92b11/bp+qb+TP+M/Ob4wvfS+tEAfQbZCAwHmwIb/oL7EvuJ+zz7WPlh9qrzN/IO8n3yBfPi87D1kPjJ+2b+KADHASkEUwc2CpILJQv7CYYJaQr4C9YMIwwyCkIIeQf4B78IdAiDBrsDxAHHAVwDtQQTBE4BBf4t/Dz8nPwe+yv3sfLS8EDzlvga/Y/9z/kj9ezzRPgvAMQGrgdqAtP6XfYE+A/+cgPGA6P+zfcW9K/1yPpe/3QAHP79+hL6kPxWAQsG2wiaCZoJagp9DMwOwA+nDk8MMAr2COIHuwVYAhz/xv3B/p4AWwEvAC3+Nv1I/rUAzAIxA8MBjv/3/cD9ef64/hj9XPnS9Hjxc/A18RHytvE+8N7uye5g8D7zz/aX+h7+6wDQAicEoAWnBxgKfAx5DukPoRBjEE0PHg7HDXYOMQ+dDlIMTAkFBxMGxQX5BB8DYAAM/VX5vPVn83bzwvVp+Ar5xPYu8zPx2/LL94/9OwEmAdL9q/mw94v5Of5nAroCc/42+CD0rfTx+J39pv9a/nn7rfnR+vb+igRDCX4LOgsICsMJIQtODf8OqA+gDxYPXQ2mCW8E4f9M/gIA0wLIA5QBiv1c+gj6lPxNAO8C3AL+//z7Y/nu+QH90/+G/5T7T/b58gPzCPU69uH0pPHJ7lfur/CD9OL3hPmR+W75r/rd/Q4CvAUhCMkJvQs2DjAQfxAvD8YN+w0fEL4SvRP0EQMO0wlNBwYHtQfhBqsCpfsY9e/yhfb5/PIAv/6I97Lwve/09Vv/sQXxBP/9ufVe8QLzZfjI/F387vby7/7rfu0g8wX5sPt0+pj3Xfaf+MD9fQO+B+4J+wozDBcOGRBnEeERLRLbEoQT+BJ/EN0M6gnpCC4JhggwBa//r/oC+VP7bP++Aeb/bvqA9LfxmPNn+FL8Gvx09znxVe307RLyafbo99n1KPLj7wLxIPXq+ez8Xf2K/Jb8pv4cAngF5AfGCeYLNA6/D/EPiw8aEDwSqhQuFboSiQ4jCyMK3QrmCvMHlQGv+ZDzFfK/9eP7+f+v/qr4gfJv8Rf39P/mBdMEsf2V9dfxWvSF+lT/3P7h+O/w3utw7Hnx+vZc+Q34evWn9NP2IvsFAHsEFAhSCsMK2Ak2CacKdA7pEo4V7BRdEY4Mlwg4ByIJHw0UEMMOkQjTAKz81P7zBFsJuwedALD4xPQn9j769Pyq+6H2bvBA7OnrrO6w8RjyT++L6+fpzOv+7yP03/aM+CP6BvwF/ioA7AJ4BhkKxAw0DjQPsRC4EpcU0xWVFhAX5xaVFVoTNxGJDxgNIgjPACT60/ec+hj/eADI/Jj2j/Ja87j39/sB/Vb65fWB8iPyt/T698v4gPWB74nqv+kj7brxSvQC9Lby0fJK9Vv5r/14AZQEMAeTCQwMwA5wEa8TaxX+FmwYwhjDFpMSdg4wDSkPfxFpEPoKXwQhAfECFQfhCKsFsP6g967zqPP59eP3Afeh8mzsoefh5gjqHO6/7wfuG+sB6unreO+B8hj0FfXR9s35ev34ANgDRwbACKELww5hEZ0SbRIbEm8T+BYPG+kc5xr2FZ4QyQyJCtwIKgehBVMEfwJO/y37+/eC97D5cvxZ/Wv7jfeX8ybx+PCz8tL0LPVI8trs0edt5p3pGO8S8z7zf/AH7s3udvMi+un/3QI3AwMDmQTpCNwORBR9F18Y1BfYFv0VshVyFjUYzhlbGdkVahC9C+oJuAr0C1MLCQjmAlv9tfjN9c30x/Th85fwQus/5iPkdOUq6HrpMOhy5XrjwuNG5hHqHe7B8b30M/eb+XT87f/cAwwIZQyoEDoUhBa7F/8YWxuRHgwhPiHsHhcbyhZrElAOZQuRCjALywoOB1cA//mJ93L5vvyw/dj6pPWe8IDtxOwP7k7woPEq8NDrBuc45cnnrOwq8CzwyO3R60bsLe948z/49/wOAQcEJAZ9CPkLTBA1FNIWWRhoGe8ZXhnhF90WoBeSGUAapRdaEiQNVgrGCWQJiAdKBLsAcf0/+h73q/Rh85ny4/CR7arpCeeW5n3nMejw5yrnu+YH5/vnk+n760PvFPPx9oT6qv1MAIUC8QR8CH8NBxNUF1IZlRmuGZIaxhsoHDYbVRn7FhoUrBCODRIMagzDDJAKGAWR/ln67vmr+338tPoe97vzt/HL8Crwgu/27nbumu0y7Lnq8ekZ6rTqMeul67Lsre4p8WPzL/VF94n6Cv/IA5AHCwoBDIYO6hFnFc8XnBhjGFEYHRlwGiwbVBrSF3cUUxEDD2sN9gsHClQHAwSOAIL9HPsa+eP2DvTJ8Mjtr+uM6tLp7OjA58Hmbubf5rjnh+gl6cXpyOqF7DHv0/Ir97j77/+dAwsHvArqDjMT3xZ0GR0baRyyHaoekh7kHNYZSBYmE8sQ4A63DNQJPAZhAtv+EfwU+qX4b/c59v/03vPq8hfyRPFX8FDvT+6G7THtee1R7mrvY/AH8X3xJ/JS8wT1Cvcv+Vf7d/1//3YBjwMJBucIwgsDDl4PFBC6EKwRvxJzE2oTtxLAEeQQPBCdD7sOYA2HC2YJTwdsBZcDdwHh/h38vPkc+A73/fWA9LvyOvFq8DPwHfDA7yHvn+6d7jjvPvBn8YzyxfNW9Xr3MPod/bv/sAEcA4UEbQbZCDYLzwxqDYANyw2aDn0Psg/gDm8NIwxtCw4LcwpMCdMHfAaGBdcEMQRmA2cCMgHk/8T+Ef6w/RD9nftj+S732PV89U/1cfTQ8jHxbPCm8FXx5/FD8rPyePOh9CX2APgN+vX7bv2f/hwAUQL7BFIHwwh5CRoKEgs3DCINvA1ADtUOQA8qD5EOzw0rDYgMmAtVChIJEggvBwAGVARcAmAAXv4p/Nb52feL9q31jPS78pLw2+4K7t3tzO2p7cXtfO7D70XxzPJ19G/2rvj++kb9nv8XAoIEkwYsCHsJtgrdC8IMWQ3ODUwOvA7hDrIOfA6KDrgOhQ6aDTkMBQtOCrgJkgiQBhEEuAHN/xD+HPzW+Xf3NvUQ8/Lw8u5W7VHs2eu+6/Lrkuyu7SPvtvBl8mz08/a6+Tr8Mv72/yQC6wTBB9sJ+QqjC5MM8w1GDwgQOBA7EDwQ9A8YD98N6gyKDE0MaQuVCVoHegUXBKoCswBf/kv8wPpX+YP3RfU68+vxOPGN8Jnvp+497oTuNe8P8CvxxvLL9Mj2Y/jP+Zn7Ev7vAIsDeQXSBgQIZQn3CnkMkQ0BDtMNZA05DaMNdg4lDzUPkw6NDXcMcQtoCkcJ/AduBngEEwJ1//388fpK+b337vW18zvx++6A7Q3tZO3z7UrugO4K7zjw4/Gt84T1vveX+rb9WwAiAoIDUQXUB14K/Qt9DKMMVw24DhEQqxB2EOsPYA+7Dr0Ndww2CyMKDAmtBw0GawTaAhwB8f5//EH6j/g999H1BPQP8nTwje9Y74vv1O8E8C3wk/B/8fryvfRl9tT3QPn5+gz9RP9uAZADvQXTB3cJbgrvCoALfgzBDcwORw9DDwgPug5HDqAN6AxLDLALvAovCTUHQgWVA/MB9P+D/fn6uvjO9vD0+/Ic8Zjva+5R7SvsROsf6/vrk+1Z7/Lwc/I49IX2R/kq/Nn+OAFmA4sFrwe5CYsLHA1jDk0P0Q8PEEwQqhD+EO8QTxBGDyYODQ3XC1QKigi0BgMFeQPyAUgAaf5Y/C/6G/g99pL0+vJr8RfwSO8V7zvvV+9M71/v8u8e8ajySfQC9gX4Y/rc/BT/9gDOAukELQckCW4KKQvJC6QMrg2oDmQP0g/WD1IPaQ6PDRgNywwODJ8K/gjcBzIHJAb9AxkBnf4q/Rv8SPpm93L0n/IC8ozxPfA07nTszess7Pns3O3/7qHwqfK/9L722vhK+/P9dwCnArsEDgemCRcM3g3UDkIPlg8SELoQchEGEioSnhFdEK8O6gw9C6YJKAjDBlAFdQMBAU7+EPyV+mT5s/dY9Qvzm/EJ8Zbwru+V7gTuRu707o3vFvAD8Y/ye/Rp9lH4cfrg/F//oQGcA3EFIAeBCJcJtwo2DPANTg/SD6YPaw+MD8cPgw+GDkMNWQzmC2YLUQqnCNYGJAVbAyUBjf4I/PP5PfiX9uT0Q/PB8TLwhe4Y7XXsuexj7eftVe477+rwCPMB9bv2rfg7+y/+AwFzA6wF5wcLCt0LYA3NDjEQRxHLEeMRAhJWEn4S8BGREOIOdg1kDDYLdwklB7AEggKeALD+bvza+T334PTe8i7xuO9q7j3tQuyx68TreuyK7aju0+9N8THzO/Ua9+v4Lfsm/msBMQQQBlUHiAjLCeIKxQvVDF4OBxALEQMRYhDzDwQQIRCmD24O6QybC6oK2QnKCD8HLQW3AhgAjf0z+wD54PbN9NfyEPF67wvutOyG67PqgOoM6y7slu0S77TwnvLE9O/2EPlo+0n+sAEnBSQIbAoaDHINsg4FEHYR1BLDEw4U5hOwE40TJhMFEiEQ9A0IDHYK7AgRB9YEbgIVAOD9uvtw+db2+vM58QvvpO3P7B/sWOub6j7qfepQ633sx+0k78bw6fKV9X34QfvD/T0A8ALaBbgISAtoDfgO1w8jEGIQKRGBEsETNBTUE0YTAhO6ErERlA/hDGgKkAgsB9UFPgRCAtH/Df1R+vn3AvYR9N7xne/R7bvsCeww6wbq+eik6D7pc+rV61HtLO+O8Sz0kPap+Ar7Uf5vAooGyAkbDC0OiBAEEw8VZRZJFwsYnRi0GD8YfxeiFn0VyxOTEScPvwxDCokHnQSwAcv+z/u2+LP18vJZ8LftJ+sY6dDnEedg5qXlUuXf5Tfn1Ohe6g/sW+5v8QH1rfhL/On/hwMEBz8KSA1BECETjRUSF4EXKxemFmkWexaVFm0W5BXpFGcTXBHuDlMMmQm1BsoDTQGY/1v+sfz2+X72S/MM8YnvFu5x7PLq9ulm6e7ofOhU6KToSuks6oPrqO2J8IjzE/Yv+F36/vz3//YC5QX1CD4Mgw9aEoEUBRYfFwMYwxhQGYUZRRmPGHoXFxZmFGUSGhCRDcsKxgeYBGcBS/4++0H4dvUD88/wf+7d6zHpHOcA5qPlceUY5dHkHOVE5izogeoF7bvvzPI/9tP5Jf0XABIDrwYNC4QPLhOyFXQX5xjgGdIZnxj+FucVrxXQFYoVgxTIEoMQ1Q33CjQIoQUKA00As/3B+5T6lPnz92n1d/Lb7/Xtpuys6/fqn+qf6rzqqepb6ivqrupD7LvudfHd8+b1+Pdy+k39NADnAncFFwjoCuEN3xChE9oVTRcPGHIYwRj3GNwYTRhgFzEWsBSyEiYQNw03CnMHDgXoApwAv/1I+rL2kvML8bXuN+zC6eTn1uY05oDlyOSS5DnliuYO6Kbplusc7h/xY/TW9337Of+6AuAF8ghZDCgQ9BMtF4kZCxvFG7Ib0hpeGcQXaRZoFYYUWBOXEUMPjQyXCWMGAgPL/zT9ZfsM+qX46/b49Pry+/AC70jtJOyv657rlOuA657rFOzB7GrtD+7x7lzwbfIK9ev3t/oz/XL/xgFfBAwHawlrC20NyA9EEkIUaBX3FV8WqRZ3Fp4VcRRjE3sSVxG0D7gNowtyCfYGMwR4AfX+ePyy+bn2EfQe8qvwFe/17Ifqdeg659Tm3uYE50Hn1+cL6eDqIe2S7yjy/PQd+HL71/40AoAFsgjLC+sOMhKAFVQYGBqbGi8aVRlPGBgXpxUjFLwScxEYEGsOQwyXCZAGhQPJAGf+JfzV+aT35fWc9GTz3vEn8LHut+3/7ErsvuvD627sWe0Z7rjuiu+t8PDxN/PM9Aj31vm0/EH/mQH/A2oGiQhCCu8L8Q0uECESZxMiFLQUQhWMFUMVZRQ2EwMS4BCsDzAOTwweCtMHlAVWA/EAYf7k+7356fcY9v7zpPFc72/t6uut6pzpt+gN6LPnxud06N7p/uuQ7jfxvfM79gD5O/y3/wcD7gWlCJMLyw7kEV8UIxZ2F4gYKRkCGf0XYBaNFMsSTBEwEE8PGw4BDAEJwgX0AqUAVP6s+/n41fZ59Y70lvNd8vzwl+9M7kntu+yk7NrsP+3t7fruNPA48enxoPLY86f1x/f8+Vz8Cv/hAYYEzQbUCLoKXgyTDYQOng8XEZgSihOuE0sTwhIqElMRIxDHDoANZQxYCy4KxAgBB9UEVwLN/4T9l/vV+fr38/Xt8x7yevC47qbsferQ6BvoXOgj6QDq2urZ6yHtvO7D8GrzwPZ6+hf+SAEeBNcGlAlaDEYPfBLOFZQY9hmCGXcXpRQYEsEQBRFUEj8TXxJ1D6ELbAiDBnIFYwTzAjEBK//D/P/5OPfE9Jzyg/CG7gHtGexc6yfqdegI57jmpuc66d3qfuxr7svwb/MK9of4HPsl/ugBVQbdCqcOHRF3Ep4TaRXjF0oazBszHOYbShtSGqsYTBa8E6kRQRDnDqwMGQmSBAYANvxB+bz2H/QT8ZztEOoD5+7k3+Nm4/vifeI/4qjizeOF5brniOr27cTxi/UZ+Y38HQDiA9gH/AsrEBUUXhf4GSkcKx7GH3Qg4x8qHoAb/hfjEwgQmA33DO8MWgv4BtIAnvuY+af6Z/wb/MT4v/OB75/tve0s7oTtv+v76TnpbenE6bPpqumg6v3s8+8e8tfy9/JB9Nn3Mf1vAvwFwAcICT0Ltw69EkwW2RheGhYbQxsuGwsb0Bo4Gg8ZURcEFQISOA4hCrsGtgSVA+oBj/63+bH0t/AH7grsGeoE6PvlTOQ/4wXjiuNz5Gnla+bB543plOug7f3vTPPC96f80QCyA9gFVAi+C80PxhMVF3wZ9hqxGykc9Rw5HjQfox6/G/UWnxEQDdkJyAdUBt4EwAKH/3X7n/dF9bX08/SE9LfyHfDy7Rzttu0x76DwDfH279ztLOw/7Cvur/Bb8sHyg/J28hfzwvTy96/81QGCBbIGcwYjB0oKRw8CFMgWYRe9FgkWIRZaF04Z0xqcGkIYphQjEWQOJwz4CckHqAU1A9n/o/ug9+30h/NC8vzvt+xj6eXmguUf5Z3lreaR55Pn3Oab5v7nBOuO7pTxIfT49nv6SP7oAXYFWwlyDesQMhOwFGQWuRgJG2ccrhyKHHwcJByYGk8XrxLJDdgJugdhB2cHnwXJADb6RfWb9Hf3Afqb+CXzBO0T6nvrLO/q8cjxNO9M7FHrHe2B8CDzXvPK8Y3wSfGh8wT2sfeE+Yz8UwAaA/gDPQRRBioLGxFKFSgWlxTnEvwSIRUNGNAZFRkcFqoSohBUEDEQYA6jCowGsAMHAi4AOv3J+Sr3rPU/9L3xRu4k63bpOumN6ZnpEekl6E7nM+da6KTqPe1Y7xTxZfPr9hH7lP71ABIDJgZRCmEOIBGKErUTkxUcGI8aMxy5HBwcdBr+FwoV0BF0Dk4L+gimB2YGogPK/ob5qvaH9zr6GPv19yfyUO067MDuUPId9Pzy1O/P7P3r/+2E8Rn0//OY8Rbvse4F8fj07fjb+4P9NP6u/hIATQM2CEoNsBCrETIRGxGvEtoVUhljG9wa2hf7E4oRxRGZEzYUWRFlCzAFnQE3AfUBKQGn/WP4T/Pk72PuBu6w7Zbsr+qk6FLnJOfh5/fo9umq6gjrOevT67btWfEe9ov6dv0X/+AAJQTwCAAO2BHTE2kUuxTcFTMYLBt1Hcod5xu8GJsVEhOnELUNZQqPB6UF3APYADn8ifcz9VH2Rfmm+vH32vEO7HTq+e2k8+H2L/Ug8PbrCewb8Nn02/Zo9ZryM/FT8g31yPe++Tf7t/xS/uT/rQFPBBAIJAwMD80P/A59DhcQ8xNXGMoa3Rk2FigSFhDDELoSUhOiEPUKpQRwAH7/mQAiAf/+Dvoo9LzvIO687pTvy+7562Ho8OXX5c7ne+p27CXt5uy47KjtSPBT9K/4B/y7/XH+pf+KAhYHEgwOEFwSWxMDFDQVOBeVGVIbihsYGr4XixXeEwYSBg/LCpEG1wPfAjEC6v+W++T2VPT29EL3Kfih9ZDwT+wL7A7wRPWc91z1mvB57bLuXPPk9zr5Mvc+9P3yNPS+9hv5vPr8+z/9ev6N/8wA6gI3Bg0KFg1UDhAOyA0cD20SVRaWGNoX2RTGEXcQ5hBvEWsQiw3DCSwGMQO/AM/+a/02/Fv6S/eJ83fwL++F7yjwue/G7f/qs+gQ6G7pB+xO7hLvjO5Q7vnvs/Md+J77w/1V/1IBDAQ3B2sKWg2qDxMR0RG2EnkU2RayGBAZIRjwFjkWphUnFPwQYQx6B6EDmwHuAO3/4fy196byr/DH8o/2F/hg9Trwr+x+7evxnvZx+Kj2F/Of8DXxpfSz+K76fPl49lr07/TU9zX7lP21/hT/Hv81/yIAxgL+Bh4LGw19DAYLOAsgDnkS2xWXFrwUwxFyD8oOdA/6D9gOsAugB1IEmALyAVEBFwA7/sb7oPgN9QXykfCs8AbxKPDm7YzroeqU643tTO8X8AbwvO8P8KPxevTM94T6Ifwp/an+LQFWBFcHvwmyC4YNXQ8yEQUTzhQ/FuYWoRbsFXcVXhXWFMISsg5vCZUEnAHlAF0B/gAf/t34ePPu8IHyUPaB+G/2G/GG7F7s3fCl9qT5Vviz9Czy1vIH9kf5dvpK+Tr3LfYR92P51fth/d792/0I/uT+yADXA6cHCQuXDOkLVwovCtsMhRGXFb4WrRQqEY4OBw7tDnoPLw72CiwHgQSOA0oDAwIB/zX7LviI9n71FPRh8lLxTPFi8VHwGu5I7F/sPu468NfwOvDK77Hw1PI89SP3k/gT+hH8k/5SAf0Dbwa4CPQKHA0CD5EQBhKxE3kVtha/FqgVPBQ5E5ISlBGfD5oMxgiWBMwAa/7Y/dn9Efw29xXxu+3Y77r1MPr++Mnypuy36+XwXfj3/Ef8D/hb9Dz0qvf2+xv+/fz9+Y33S/ce+c77H/5h/2n/i/62/Tz+5QADBa4ILgpnCfgH7wdJClwOVhJYFJET1hA9DqgNKw/FEA0QYgyUBzwEWQOWA8EC6P/++7T45fYS9iz1p/PU8XPw7O8A8BHwxO9a72HvCPDf8Ffxe/H58WDzavU992X4Y/kj+/L9LAH2AxkGGAhxChANaA8SERoS1hKIEzgUvxTlFHkUaxPiESIQWQ5vDAQKpwZFAor94fma+KH54/qW+cX02u4m7CTvz/Xm+ln67vSp73Hv3/Tk+1n/Pf0J+Fv0H/V0+cr9+P6u/Ej5hvdi+NT6Qv3c/rP/BADr/83/ngAtAxEHnwolDG0L+AnDCb4LKw8wEhETUREXDosLRgv0DGcOUg1LCS0EhgB7/wwAKwBv/vX6Ffdv9PTzUvUA9y73HPXP8VzvRO9L8cTz7fQw9FXy2/D28OPyufUI+Ov4y/ga+RT7sP61AtMFmAdvCAQJ3glkC9MN3RB6E3wUjhOqEV0QexByEdgRlhC+DWIKpAe4BawDSgCC+wb3IPV29uP48fgK9VrvT+yw7vT0Yvof+3f3gfNy8/n3yv2LAIb+8/np9un3+PvP/7gAk/5r+3f5h/kG+/b8s/7u/2wALgDM/1YAngJgBjIKWwwSDC8KvwiXCd4MyhDaEscRdw4xC7gJBQqaCvAJmQdTBEEBKf8d/pT9zPw6+/L4n/YV9bz0S/Xy9dn1ovS48ijx7/Ap8tvzufRR9GjzI/Pp8zT1Z/aK9wX54vq7/Hf+rgDtA6oHYQoLC1wKPArvC+0OlRHTEt0SjBJbEicSrRHaEJ8PxQ00C1AI0QURBIUCBgDM+172nvGy70bxkPRG9k308O8x7UrvcfU/+6b8tPla9o32rfqX/+IBwAAR/jr8Rfyn/TT/BQDL/8v+nP3M/KD8LP2N/rYA/QIcBEoDZwG/AAMDZgfvCh8LSQhaBUEFcAiwDBoPSQ4bC8sHRwbqBl4IrgjIBksD7f8D/pn9vv2L/br8cvvn+Vz4Svcl9873ePhK+CX3rPWg9EX0cfTm9Gv1qvVJ9Wz07vPG9A33uvmG+yT8ivwH/hIB7ARPCGkKSgusC2UM7A0hEGQS3xPuE4gSWRBwDpQNpg2aDTsMKwlNBRUCSABM/7j9nPpw9sbyIPHD8WnzEvR/8lbv9uzN7UjyJPgI/DD86flo+AL6P/50AiEE8QKoAGv/BQCTAaACeQKBAWsAWv8C/pX8RPxN/lQC+gWqBigEKAEDAZUEYgngC5IKCwczBNEDlgX3B48JvgmXCJ8GlAQkA5UCqgLRAnICKwET/+f8v/s5/Kz9df5b/cL6WfiC9yn4I/l/+TL5k/iy93P2KPWO9AH1+/WV9ob2ZPbj9hj4oflY+3H9+f92AlQEnAX0BtEI4wppDAMNFQ1SDR8OUw9wENoQJBBYDhAMEQqaCDcHYAVBA5cBvAAIAF/+Wfum91r0G/Id8YDxF/PF9LT0CfJ67pXtsfFY+f//0wH9/mL7E/vr/jgEXAfEBrUDyQDB/44A8wHdAgoDtQLlAWkAhP5W/TH+MAGkBDYG6AQaAnMAogEIBV4IjQkmCGAFBANAAh4DuATiBd8FugQgA9oBWwGTARoCYQLnAX4Ahf7c/GP8Qv2T/u3+gP3d+rD4Z/j0+bz77PsN+mL3tPW59Z32Efem9gz2Gvbl9tT3g/g4+YD6fvzP/gAB8gK7BGAG1gc8CcgKawywDSUO7g2zDfANaA5fDmYNygtNCmYJ2AjvBxwGdQPFAAb/j/6f/tv9ZPun9wP0pfHQ8BvxF/Jm81/0OfT68hvym/MD+Gb9xACnAFz+ofwq/Yj/IALIA2gEYATmAw4DLQLTAVQCYQMvBAEEsQLiALT/BgC8AbADmAQoBEYDDwOmAy0E3wMHA6oCUQNfBLME1gN2Ar4BSgK2A/YEEgXHA6wB0f8B/zL/o/+e/x3/mP5R/v79N/0Y/Dn7+foM+9j6LPpq+QH53/ib+P73P/e29oP2mfb49q33mPh0+TP6N/v//I3/OQJMBKYFywZGCBoK1QsBDXsNYA3qDF0M/gvtC/wLxAv6CrEJRAj+BuEFuQRYA7YB9P9A/sv8q/vN+un5n/ih9vjzK/Er79vucPAW8131OvbU9V/1GvZP+Dr7y/18/4kAdgGKAqQDiAQvBcUFZQbnBvYGaQZ+BbIEWwRaBE8EBwSpA3cDawM0A5ACnwHKAGgAggDrAGQBrwGhAVABHgFrAScCvAKoAhUCuwESAr8C8QJOAk8BpABqACgAf/+t/jz+Sf5h/vv9D/0O/G77RftG+/r6C/qU+Dn3y/aK98b4Yfnz+ED4bfi6+T/7+vv2+zX8e/2C/2YBuALOAyAFoAbgB68ITwkDCqUK5QrBCpEKlQqlCnUK/Al3CQMJdAiYB4oGkQW2BKkDJgJPAIr+CP2f+xr6iPgi9+n1n/Qk88XxBfER8Y/x9/Ej8nPyb/NC9ZP3zfmP+/D8Zv5WALwCKQUiB4gIjAlTCrYKhgrxCXsJbwltCbcIBQfvBG8D7ALfAnYCdgFzACUApgBXAXQBwACj/8b+jf7p/n3/6P/2/63/Nv/G/oH+Z/5P/gP+cP3L/HT8o/w3/c/9Hf4f/vf9v/18/Un9YP3Z/XT+x/6w/on+x/51/x4ASQD7/6H/k/+7/8v/ov9p/0n/Pv8t/yT/T/+1/x4AUgBdAIIA5wBdAaABsQHlAYQCbQMiBEUE9gO9AwgEzASGBbYFRwWdBDEEJwQ3BPkDRgNDAjABJgAl/zj+e/3x/GT8lPt6+l75kvgl+Nj3dPcM9+32Vvc4+ED5Hvq5+kD7+/sU/Xv+/P95AfYCegTXBbgG8Aa0Bm0GTgYmBrUFFAWmBJkEjgTwA50CIgE3AAsALwAgAM3/h/+F/6j/sf+T/3P/Zf9b/0//av/e/6IAYQHFAb0BeAErAeYArwCWAKgAzQDKAHQA2v8+/9v+wf7O/sv+iv4A/lr92/yr/Kr8i/wh/Ij7CPvI+rn6v/rc+iD7evuy+7H7qfv4+8D8xf2i/i7/lf8gAPYAFwJ2A/YEXQZgB+oHRQjZCL0JiAq4Cj4KmAlKCVcJRwm2CLMHmQaLBU8ErALNACn/Av4X/fH7aPrJ+HX3cPZu9T70GfNs8m7y9fK385H0jvWu9tX36fj++UP7zvyD/j8A/gHMA44F+AbJBwwIDwgZCC0IIAjaB3MHDgeoBhgGPQUsBCMDYgIJAhUCYwKyArkCUAKJAaUA4/9X//L+q/6G/oL+h/52/k3+J/4Y/gr+1f1z/RP98/wj/Xb9vf3p/RH+Pv5a/kz+HP7y/fD9EP40/kr+Wf5x/pL+r/62/qH+cv44/g3+C/43/mz+c/44/uL9uv3z/Yb+Sv8aAO0AygGtAoQDOwTOBEoFzQV0BkcHIgjACOwIrQhCCOcHmQcgB00GMQUIBPgC9QHZAJz/WP4h/fP7yPq2+dz4L/hm90L22vSn8yLzZPMY9Nz0ifU+9iT3T/i9+WX7K/3g/mQA0gF1A3MFfwcBCZQJZgkLCe0I8wi7CBgIQweWBiYGuwUUBScEFgP9AeMA3/8q//X+LP9z/3X/Jf+9/m7+Nf7v/Zn9aP2c/T7+Cv+j/9D/m/86/+H+qf6Q/pP+wv4x/9v/iQDvAN4AbADY/0z/xP4q/pX9R/1y/fL9Xf5Y/tn9Iv1//BH82/vi+zb80vyP/TD+i/6X/mX+FP7S/dP9O/4B/wEAGgFIAocDsQSJBf8FVQbyBv8HPAkwCpMKdwoVCooJywjWB8EGpwV+BCsDsgFEAAz/9P22/Cv7gvkb+DL3rfZI9tn1XvXe9Ff01POO887zsPQF9nr34fhK+tb7g/0n/5cA0wH7AjoEsgVtB0YJ5wrkC/oLRQslCvwI+gcmB34G/AV1BaAETQOsAS8ALv+T/gf+Wv3D/J38+Px8/b/9o/1h/TD9Ef3p/Mv8+/yn/aH+ff/0/xUAKQBXAIsAnwCTAI8AqQDEAKYAMwCJ//L+rP7I/iD/bP9o/wL/ZP7Z/ZX9i/2E/V79NP1H/bb9T/6s/on+A/6I/YH9Av7C/mH/tP/h/yoAqwA/AbgBHwK3AsADKwWdBrAHQAhwCG4IQwjbBzIHbQa7BSMFhQS/A9AC0wHaANb/pv42/Zv7DPrO+BD4zPfE97D3d/dB90v3lffT96/3LvfC9vb2CPjK+eH7B/4VANkBDgOGA2QDFwMiA9YDQQUqByIJqgpiCz4LeQpQCdQHCQY3BOkCewKoAp8CvwEwAKr+sP0J/Sb89/op+n369Pu7/fL+b/+W/6X/Xv97/lL9xfxw/QD/eQAnASoBHgFPAXMBHgFQAHL/3v6O/kb+//3q/Sz+o/4U/2v/uv/y/8T//P7c/QL91vwh/V39X/2d/Z3+LQBaATkBz/8N/vj81fw3/bT9Xf6B/wcBTQK7AmMCAwJNAj4DPATKBBAFowXUBkkIQQk/CWgIQgczBkgFWgRkA5ACAgKiARsBFwB6/nX8dvr6+Ff4l/hu+WX6EPss+5P6NPkx9wL1bfMg80H0WPay+Or6Av0O/9MA3AHoAU0B0wA2AbsCJgX3B6QKsAy4DZUNagyJCkkI7gXBAxYCLgH5AB0BNwEWAa8A4P9t/lr8L/rG+KP4kPnj+ib8Xf2k/q7/2v/o/nf9o/wG/Tn+Sv+7/+T/bgB/AZgCIAMEA68CfQJXAtoByABH/739pPxv/Hz9x/+3AjsFbAYdBtYENgNsAU3/2vyX+jb5+vhp+bT5TvlA+Pv2BPbP9br2/vht/E4AqAPPBc4GPgeyBzcIZQj0BzoHEQchCCwKDwyNDEAL1AhtBroEqQPYAisC3QHzAd4BzgB9/ov7CPmH98X2I/Zc9b/0s/RE9SL29fZr9/f24vQN8cvsueoj7S/0ev2vBbwKswzlDFgMQAu4CXoInwieCr4NqBBWEmgSshD/DJIH2AEd/gH+BAG5BIUGaAUxAjz+Pfo/9njyqO+S7jrv6vDe8sD0afZ/96/3dfc6+Fb7twC6BnULLA5fD50PpA71CwwIlAT4AvcC5AKCAW3/Y/49/+8AtgEWAU8AwgAgAp8C2gBQ/cD5Q/dp9T3z2/CD7ynwNPIR9Pn0xPXh95z7uv/LAqcEWQa6CGYLPA2yDVoNFQ0HDaEMoAupCqkKsgu2DJcMSAvBCckI/Ac8Bv0C+v56+wr5Efex9Orxru/c7lDvGPCA8MrwuvGI83n1lfa49tf2HPjI+gL+qwBLAiMDcAPVAroATv0b+mP5yfw+BA0OvRcGH1siIiHQG/wT+AvnBdICWwI7Aw0ExwO6AYn9dPej8Afrhuj76cruLfUD+33+mP51+2v2lvHa7vzufvFc9d/5tf5uAx0H3Ai3COgHCwjmCQQNZxBtE+AVVBfLFlITGA2pBfX+F/oU96X18PUq+KT7mf5Z/7P9Cfvu+Lv3kva49JzyZfGf8ZfyKPP78t3yzPP59cX4q/vW/r0CPgdjCxkOHA8MD60ORA6lDcEM3gtBC8wKMgpzCf8IJwmICTIJdQeIBFEBkP5a/Fz6cPjZ9tv1SPWT9Fzz3vHS8NXw+PHN8+T1J/iu+kr9Sv/h/+b+M/0t/ND8G/9bAuQFYQlXDI0NXwslBYL8N/UV84/33wB3C1QUORr6HEEcbRfUDroEcPwq+Jv3wPjp+bT6OPu/+gP46PKU7UXrx+3/8wT7bQB5A04EyQKS/lv4c/Kg7yXxBvYx/EAC6wcADXQQ5BAkDvoJBwfWBvYI6QuLDmUQ2BCjDtsIdQBu+Orz5vPK9iv60fzd/kEAnv9F+3rzduu0577qV/OE/WwFXwmmCfUGlwEb+mfyf+3N7WPz+PuDBPkKug7NDz0OawrLBdMCkAP9B64NVREKEVINHgj2Aiv+wPmv9rr2xfp1Ab4H8Qo6CmcGqgAD+p7zHO/a7ebv5PMX+Hz7zP3Y/kL+IPyi+cD45Pq0/yUF0QiHCdAHGgVxAgEAuf39+2777PtH/Fr7j/nw+F37vwAtB7gM0xDUE5AV5xThEPYJ/wEE+zP20fO685z1xPgQ/Ez+wv6O/Y/7/fnJ+Sf7e/3B/xMB6gAZ/937//e89DPz4fOf9h77IwEgCLoOJRNAFGMS/g5kCwUI0QQQAqMAJQH8AlwEiwM7AMX7+ffA9dj02fQq9qn5O//9BD4IiAeoA6b+6Pl29Rfxse0e7XfwsfYl/YEBSwOLA14DBQNWAqUB4AGcA0EGfwiOCcMJywmKCS0IfgXaAk0ClgQ9CNMKBQtFCa0GqgMEAPr7rPg996v31vin+QL6gPpn+xH8ePtM+YX22vR49R34X/v4/db/2wGHBAUHswefBXQBAP35+Tj5xfoe/lkCOgZ9CCQIqARM/qD2m/Bq73j0Yf4KCsMULh1NInciJhz3D2cBCvXL7d7r5u2R8tT4Kf9SA2UDPv/n+HvzZfEo83z3d/y3AJwDlQTHAsD9rPZS8IHtP++f9Bj8pARnDcYUrBj8F5kTwA1cCDUEbgFPACIBdQPQBX8GpATIAHr8cPm0+FD6ev0YAREEPwV3Ayv+U/am7mDqVuvv8NX4igBmBoYJSQllBYD+i/Yu8Jnth+8e9aP8SwSfCn0OKA/EDLAIJgUABJYFuwi/C38Npw00DCIJlQRB/336y/cp+H77jQB1BY8IAQmyBuMBH/un84rtw+r56wvwEvW9+bf97wD5AlMDLgKQAKX/3f+/AGoBQgFlAI7/gf9qAMkBIgOKBCgGHQd+BSkAz/iJ89DzsvkzAjgKsxDpFVUZJRn4E6sKEgAL9xPxY+7G7ujx/vaC/JcA0wEJAIP8aPlb+GX5O/u0/NH9If9WAAcAHP1a+BD0U/LE8+T3Dv6PBScNFRMPFvsVmBOkD7AKmAWPAWv/Bf+R/3gAigFzAmECogBx/fr5gfe09qH3B/pL/VUA4AEwAXX+gPpA9ofyKvDo7xDySfaw+zIBwQVvCLEIpgYkA2P/kfyS+8z8/v9GBH4IwQujDQkO+wy+CvwHmAU0BNkDEwRSBC4EcAMNAiYA7f2c+3T53/dg90L4WvoJ/Yn/HAEiAU3/9vsf+P30XfN98031jvim/J4AqgOdBZoGWAYvBCgA3fuv+eL6pP4SA+8GEQpKDIsMdwnMAgL6rvFq7Bnse/HW+/gI3hWfHwMk1SFeGcMMeP+Y9Hzt9em26fzshvNj+3gBkgPWAR3+V/qz9+b2avgS/K4AkQRwBrUFQgKD/Ob1tvDt7gLxDvb//DEFyw0KFeUYkRgEFesPZQrrBBgA6vwG/BT9Bf/YAO4B3wFzAPf9Tfty+fn4CfqZ/DMAkwP1BEUD+v6W+Vr0uu8V7H3qQuyi8Sr5jAABBt8IMwlAB3wD6P4b+7f5pft7AJcG8Qs3D1AQ2A8/Dn8LyQcgBP8BLwIWBDwGbwddBzcGGgT6ABT9SPnU9oz2Rfjr+j39hP60/ub9+fvi+Df1M/Lv8KTxzvPl9rP67P7WApoF7gYQBzMGMQQdAd/92fvX+4n9GwAUA2YGxglFDLUMWgpQBav+YvjP9JP1n/pfAuEKqRJnGGsaMhfBDjYDofdd7pPo2OZ36b3vifcw/hECHQMEAmL/6PvM+GP3HPhO+hn9HwAbAxcFvQSwAUH9lfk4+Jv5kv2lA8AKLxFSFXsW3hTjEAALOwRO/rj6vvmO+lr8zP5gAc0CwQE6/sP5O/aK9Kj0cvbg+Wr+qwISBcoE8gEg/TT3kfEL7gTuf/Ev92z9AwM7B4QJigmIB1gEFwHG/ib+mv/cAvEGkQrODFQNNgy0CWIGPQNEAdwAnwHfAiEEIgVxBXEE1AES/kf6hPc+9kv2U/cr+bb7cf4+AO//Sv19+Vz2//Qs9SP2yve++ir/6AMeB8oHegaFBMsCSgHR/7X+u/5sAIAD7AZ6CWsKqAlOByMD4fxb9UDv/+1P85r9GQmBEpYYURtZGvgUhwsyAOT1j+6n6vHpIuye8BD23foJ/oD/nf/G/oX9lvyP/H79Hv8+AZgDPwXfBOYBav1q+TT30vYW+Hn7cAH+CLYPjBNWFEYTNhH2DUQJ4QMx/yH8rfps+gr7FPy6/E387Pp3+b34APk1+mf8c/+dArkE+QRRAx4Auvur9gryN+/v7vLwl/SC+V7/HQUDCdIJ3wfCBAkCWAC0/zQAEQIfBYUIHQscDHILtgm+ByoGHwVpBOwD2gNUBOQEkASuApj/Zvzz+Uv4FvdR9nP2z/cU+mT85/01/mP90fv7+VP4H/eI9rD2zPcC+jz9CAGkBDwHTQjhB3UGgwQ1ArX/uv17/bn/ywPLB9QJHwkCBlEBIvz695T29vi9/oUGzg5LFmwbThzEF3kOuQIK9x7tEeYB46/kfepE8o758v48ApoDFQPqAPf9fPtz+jb7hf2LAP0CswN5AikAx/2e+5r5V/g9+Tz9lwNdCg4QVhQuF8oXARW8DpUG2P4d+d71CPVL9ub4nftZ/dP9fP3b/EX8Dvyu/Gf+5gBZA+IEywSQAiP+W/jT8vzuSu1n7TLvFvM3+YYABQcWC2IMlwubCTMHGwXsA8IDPAQEBSwGwQcxCXgJLggWBnYE6AMBBBwEHwRIBGUEpANOAZv9ovmR9vT0tPSB9SL3Zvnn+wH+EP/F/lD9Pfsl+X33oPbc9ln49Po1/nsBIwS8BSwG1QVZBQ8FrgS1A0ACQwG7AZUDjwUvBsoEoAFd/ej4lfX39P/3Mf74BbsNgBSGGakboxkEE+IIff0086/rmefE5pToZOyn8aH3J/35AI4CdAK3AfoATQDV/xcAZAEXA+ID/ALGAC7+r/tH+Un31PYW+TL+AgXNCysRXBQ7FQkUIhG4DPAGfwDp+r/3VPde+CP5+vh++Hj4Avnj+Un7nv21AI8DQAXABXgFQgRMAUP8NfYF8QbuVu197kPxmfUH+4MABwUZCL4JKAqpCc4IIwjMB3EHxgbxBV8FLwULBZoE+gOjA+8D1gQIBiEHsQdJB7kFRwN+AL39APtA+O713vSa9bb39/lA+2r7Ofto+9r7v/up+kL51fgI+ij87v3P/nL/twCdAkcEAwX7BMYEggTJA3gCQAEYARYCEgOJAvD/NfwS+fH3UPny/GACJQmIEDYXYht3G+8WqQ51BEX6j/Eu64fnyOb16LHt5PPB+ZD9zP6T/pj+nP/5AMYBLAIwAzQFCwf8BokE3AB4/dj6ovjn9pz2wfhF/RsDGgmUDgITnxWlFe0SNg66CJoDff97/Dv6Tvig9oT1MfVc9YP1svW+9mv5fv3CARAFAwepB9UGLQTY/9P6RPa38izw2+5774TyWvd6/JgAhQPrBVMIkAoUDKQMlAxeDBIMPQtlCZwGiAP/AIj/PP8AAJ8BowNNBfMFeQVTBOoCIwGp/qj7Cfm498L3Tvhy+Pn3SvfO9qH2y/Z299H4z/pE/R8AUANFBtkHBQfnA97/l/zh+o76PfsP/VsA4QR7CbwMrg0BDKkH5ADQ+NPxxe448WH4xgEVC0MT8RkgHvkdOxjADXIBnvYx713rguoH7Gjv1fMK+MD6M/t7+Zb2MPT488f2I/yUApQIMg0BEJUQbA5gCToCq/qw9LrxKvJe9Tr6yf+JBQkLaQ9iETEQfgw6CFIFYAShBP8EBAWsBKIDDQFc/Ej2zPDt7WvudPGf9RD6wf60AxsIaQpvCWQF5P/X+lH3XfWZ9M30+vX390P6QfyR/Uv+/f5qABcD3wbsCjoONxDjEGUQrQ6eC4sHTwPW/6L9y/xB/dL+6ACOAgEDPQLfAG//9P1K/LL6xPnH+Tn6Ofpd+Qb43/Y+9iD2mfb+93z6n/2GAI0CtANBBBsE1AJlAM39pvzk/e8AHwQYBtgGZQdvCEUJEghyAxL8+fTp8df0dvwpBcILpw9oEjEV1BagFEkN3wKm+cX0E/T09C71oPR39CT1hPUf9Ozwtu3O7HDvKfWB/OcDMQqtDgkROxFfD6ELdAbTACz8pvlr+bL6l/zb/qcBsATVBvYGKgX6AjICcgPVBfMHAgkFCSsIRwYVA9H+Vvqq9mj0pfNE9B723vjF+9f9af6c/UD8OfvY+tT6w/qz+jP7w/wh/0EB+QHrAN7+Mf37/IH+UgHDBEAIVwugDcgOpA5DDe8KLQiyBR0EmwO8A80DWANlAiIBfP8v/VP6qPcv9lr2sPdO+aH6nftV/Jb8Fvzh+m35Pfig98/3H/m4+wz/1AH8AooCfwGrANL/RP5A/HH7kP2MAikImguKC6EIYgTq/9z7Dfm0+KH7bwGrCLMPQhU8GIAXghJOCp4BavsC+XH5nPr4+lD6Ivms95n1efJo7kvqlee+55brpvI3+xADqAi+C/YM7QzHC5IJ6wb5BK4ECAYYCK8JCQr8CL8GtANhAHD9gvsG+xH8Wf44AdEDVgVpBTsEUAIoACX+p/wa/Kv88P3+/vb+mf1Z++341/ZO9WP0FfRN9PT0HvYD+Kb6f/2v/7QA6wBEAWMCJQT9BakHYQlKC/MMlA3VDDsLsQm7CCkIiwe9BvsFeQUdBZQEmAMSAhgA9P0a/Of6Mfo9+V/3wfSD8tnxAvMh9R73m/gB+rz7l/3d/hD/UP4w/Vr8T/xY/V//0wHmAx0FsgU/BgQHfgflBvAEJwJ9/6/9HP3p/QkACgMUBmgI7AkdC0cM3gzYC8YIlQQRAY//3/+GAOb/WP16+Yj1d/Jh8MLuO+027MXssO+L9MP5xv0hAJgBHwPnBGwGUQfsB+IIXgrnC+MMFg2EDBILqQi5BVYDWQJmAggCFwD3/E36aPkR+gr7jfsW/Jf9JwCiAqQDvwKqAH3+7fwt/C38uPxR/VX9Y/yw+sr4GPe09cD0ufQ79lX5Rf3mAG8DzQRTBUkF5gSQBO4EggYsCRUMIA6QDl0NFgt3CAsGAgRcAikBlwCzABgBAwHk/+T9yvtI+lr5efhZ91v2H/a29nD3lfc49y73LPgF+uT7Lv0P/h//nQAdAvwCDQPSAgQD7wMZBYcFbwT0AVP/Nf57/3ICSQWGBi0GkgXwBTgHMwjAB+IFvgOnAjgD8wSBBlIGggOl/sH5AvcG90/4rPhq9/71Yfa7+PD6rvrd99n0RPS59qX6F/50AF0CZgRJBl8HdQf2BlgGwAVSBYIFswZ4CHcJcghzBe8Blv8G/5L/IgAvAOv/x//0/0QAVgDD/17+cvzF+hb6dfoR++T6svlQ+N/3yfhv+t77pfwJ/Xv9Gv7D/nD/VQCdARoDbQRiBRUGsAYfBxkHhwa6BT4FZwUVBt4GXgdeB9IGxQVdBNwCegFAAAn/vf2C/KL7Q/st+/b6WPp1+a34R/g4+ET4SPhl+Nr4x/n/+i/8Gf21/ST+jP7+/oH/HADVAKkBgwJBA8UDAQQLBBYEXgT4BLIFLQYoBsEFWQUtBQ0FhwRxAzYCkAHSAYsC4QJZAjwBQADD/3j/xf5x/en75vrJ+mL7MPzW/Ez9sv0L/if+0P0T/Uv88Ps6/PD8l/3i/fX9PP7w/s7/WwBmAEEAYwDZADEBAwF8AEQAzwDXAZkCnQIhArwBuAHSAbEBaQFwARACBgO+A94DegPVAhMCOwF0AAIA/P8YAPT/jf9T/6H/NABKAGb/4f2j/E78uPw4/WH9Vf1x/cj9D/79/ZL9Cv2X/FP8YvwB/UX+4f9EAQYCMAIWAvsB4AG7AZ8BsQH7AWICzgI8A5cDmQMOAzsC1QFgAoQDPQTSA54CngFNAQwB7/8K/qD82vxU/lT/g/5n/OP6Rfvy/B/+wf2C/OH7gfyf/Rv+vf1W/bf90/73/50A4QAeAWkBmAGiAcUBKgKVApsCLgLFAdsBXgLBApcCDAKhAYkBgAE0AcIAlADOAAYBrQC0/6r+Kv5B/nL+T/7v/cX9G/7F/lr/nP+c/43/hf9//3n/hf+y//H/HQAWANT/bP8H/9n+/v5j/8X/6//f//H/YAATAaABrgFMAdwArACtAJEAMgC+/4b/pv/o/woACAATAE4AkgCTADIAr/9v/6T/IACKALMAsACwAL4AvwCfAHYAdACwAAYBNQEZAboAPgDD/1L/7v6Z/lL+D/7O/ar9yP0r/qH+5f7g/sP+1f4o/4b/sP+h/5n/1/9dAOwAQQFEARQB3ADBAM8A/gAzAUsBOwEmAUYBrgErAloC+AEnAVYA7P/0/ygAPgA3AFQAuwA0AUYBqgCY/6L+N/5O/nz+Y/4J/r/90/1E/s/+JP8h/9/+jv5Y/kn+XP6N/tv+QP+m//P/JgBdALMAGwFjAWkBSgFEAXYBrwGoAVIB9ADlAC0BhgGlAZABhQGfAaMBLwEuAAX/Tf5P/sb+Iv8Q/7z+mP7d/ln/q/+0/7D/3/8vAE8AGQDE/6b/yv/n/73/Zv84/2D/tP/k/9D/mP9w/3X/sv8lALkANQFhATMB2QCXAIsAqgDXAPkAAgHzAN0AzQCwAFcAr//4/p7+0f49/13/GP/n/kb/AgBHAI3/X/4D/iD/3wCbAZEA0v5K/r3/2gF6AtEASf4h/Sr+EwDnAB8ADv9K/9kAKwLVARwAof6b/qb/YwAXAGD/Tf8YAP4ARwEWAQgBTQF2ASQBmQBlAKYA7QDZAI4AaQByAFwABQCz/63/xP+H/+b+Yv6D/jr/6v8JAJ3/If8G/1z/1v8UAPf/t/+w//f/OwAgALP/Y/95/8D/3f/R/wAAkgAdARcBgwDx/8z/6P/Z/5b/fP/D/ygASAAWAOX/8P8hAEUAVQBvAJ0AzADnAOQAsQA6AI//7v6N/mP+Tf5J/n7+/P6O//T/KwBfAKUA3wDxAPcAHwFfAXkBQwHcAI8AggCcAKUAeQAaAKn/Vv9D/3P/vv/y//P/yv+r/9X/TwDEALMA//83/xn/vf9lAFgAwv9x/8T/KgDy/0z/Bf9k/7r/V/+T/mf+Gf/c/+P/cv9r/wUAiQBpAAsALgDAAPUAeQD8/zkA3ADmAB0AhP8WAGkBDAI4Ab3/Cf+M/2YAkwARAKf/1/9AADUAmv8J/xX/lv/e/5b/Kv9E/+//hgCIADoARADFACoBAwGpALUAEAH4ABAACP/Q/l3/v/9k/93+D//p/3gALQCX/43/BwBEAO3/jv/D/0IAOQB9/+D+M/8zAMwAYACL/2z/WgBtAXQBPQDd/pT+gf+OALIAHADZ/20AHQHoAO3/Uv+//3QAVAB8/y3/GQBTAXIBXQBi/3f/GAArAJT/Mf91/7f/MP8z/tD9c/5l/8//v//Z/0gAiAA1AKj/fP/O/zoAegC1ACgBugEjAkQCOAIZAuQBmgFPARcB8gDMAIoADABF/4D+Q/7K/pL/wf8S/zj+Fv69/mn/dP8I/7v+yf7s/t7+tf6o/sL+9f5P/+P/jwAKAS4BFQHWAHcAHgAjAKgAPwFKAb4AQABSALMAwwBuADAASwBZAP3/kP+4/2AArwArAGn/RP+i/6D/7/5s/v3+PQDXADMAK//t/o7/JwAnAPj/QQDzAGMBNwHKAKYA3QAMAdMAOwCm/3v/2f9uALYAeQALAPD/OAB2AFwAIAAYACUA0/8a/5P+tv4r/zz/3P7G/nP/WQCJAO7/ZP+V/xsAIQCA/+7+//6A/+P/CQA7AIgAmAA6ANv/FQDdAHIBIwEdADb/F/+f/y8AXABJAFMAfwBwAPj/f/+e/0YAmwD4/+v+uP7M/wYB/gDD/9n+Tv9rAK0Avv/a/iL/OQDqAMcAfQCnAAABAwHcAA4BbwElAej/uP7b/lcA3wE/AmgBHwAp///+zP8OAWcBvP/i/HX7Pf3HAIMCnAAl/d/7A/4JAcgBBQBV/sn+jQA6Ae3/Sf5z/ooAkgK7Aj0B3//s//EAiAH4AN7/N/9A/2f/Nv/r/gz/rP9YALIAwgCxAHMA8v9i/yP/R/91/2n/Uv+H/wUAdQCrAMsA5AC0ACEArf/6/9wAUAGyAKD/UP8NAOIA3gBBAA4AoQBGATcBkwAQAP//BwDQ/3n/Uv9k/33/jP+l/77/uf+k/7L/0v+q/yb/0f42//j/FgA7/1r+kP6u/3MAOgDK/xIAtQCHAGP/rf6T/14BPAKGAXcAcwA+AYABqwCP/xP/Ev/7/vr+sP/nAFcBQwC0/m/+yv81ASgB+P8+/7X/awAzAEr/8v6x/5oAigCk/yP/w//ZACEBNQD3/pH+U/+HADYBAQFUAPb/XAAyAZcB7QCZ/9n+lP9LAWcCxAHk/23+f/6m/40AcgC8/zb/J/9P/33/vP/t/7H/Af+K/gr/SwAdAZsAO/9I/nn+XP8fAIEAvgDkAMcAjACnABsBHQEKAIL+BP4r/8kAJwH7/6T+fP5u/2AAnQBYAAkA4////4AAKQE8AUoAGf8I/1gAjAEVAVD/M/7r/mwAzQCv/6D+IP/gAEUCSQJZAYwAagCrAMMAewAWABoAvgBtARoBff/V/db9kP8LAX0An/73/Zr/kwE6Abn+Gv2K/oQBkAJwAJv9KP0p/8oA4v9u/Ub8zf2EANkB4AAR/47+8P/OAU4CDgF7/1P/2ACnAjEDNAKrAJf/NP9E/5v/EgA7ALf/4P6u/pr/3AAsAUQAQ/9i/4cAZgH6AJX/dv54/lf/GAAFAFr/+P55/4EAFwG9AAwA/f+1AF8BTgHeAMsAAAGxAL//Sv9DAM8B7gH3/7L9Zf0n/9AAoQAy/3P+Of+KABIBnADQ/x3/dv7s/e/9u/7j/6oAqgALAEv/BP+i//EABQLqAa8AcP8k/6H/GAA7AGkAuwCXAKX/vP4K/3MAYgGzADn/zf76/0wBMAHi//v+Tv/t/4f/Xf4n/vn/mwKEA4sBcv5L/UL/QAIZA+gA3P2i/Kn9Yv+gAJMBYAIOAv3/2P1V/p8BSgQMA/v+j/xT/usBMAM1Adv+vP4tANUAAAAQ/yn/0P8GAL7/m//q/38ADwETAcr/Zv3l+2b9EAEXAwEBLv1L/FX/GQK/ABv9YfwMALED0QLL/uz8Vv9zAhMC9v50/Y//jQLKAkUAMv7c/jkBhQJZAeL+nf0G/xkC7wOWApX/tP6DAcEExAN2/kD62ftdAWYE0QFP/Vj8Q/+GAUkAE/6+/pIB7wHT/WH5X/r7AOgGJQai/yz6M/tgAX8G+QX7AI78Xfye/5UCggLr/4T9V/34/kUAuv8O/on9cf8+As4C/P+f/Af97gG4BuQFTf/8+AX5F/8JBZUFeQGj/WT9n/9bAYMBSQGiAbsBXQAE/sz8Ov5nAY0DjQIF//L7BfwI/+4BzwHr/nb8N/2WADgDigJM/5L8jvyd/nUA2ADMAAsCZwQ3Bf0B6vsl+Ev7/QOaCgUIkP1F9Zb46gWcECUNwP1g8YL0YwNrDTMHevfV79X4XAhrDW0DWfa885/7BAPAAv7+I//XAlUDJ/6U+Vr8LgQMCGkDuPud+dz+BgVFBVD/uvgQ9277dgJHBwkH8QI9/3n/awOUB3gIAgV3/r33wfRc+KwAoAYgBI77m/Z++9wEgQchAN/3Cvn2ASYHOgIx+gX68gE0B88Cnvt2/U8IVw5LBY/1M/JnAZ4SwxAp/P3rbPM5CtYV4wjG8nTsqfo8Cm4Jt/zR9YX7CgN1Aer6vvqcAWIEQP2u9en5DgduDbwECvcA9Jn9UQcaB8QAUP68AbgDWv+4+S77sgPACakFffsy96D+gQn4CV/9lPEP9mIIihSlC732Fe0o+GUInQm2/M70UfxMB3YFxvnK9cT/WQm4BHf55vmMBxcPSQM28SPwPAIzEYoLi/pf9Aj/VAs8C5QCVf3C/eH8WPkq+8MFVA65B1b1Meou80wHkBFbCL/2yu5K9uACDgdRADX4//ixAo4LAQvHAjv8Tf17AqwEgwKgAHQBPAFt/PP2c/iQAUUJMAfc/Zf3PPpmAQMFVgL1/KX55vrWAKsIPwxCBm359/AH9tQEeg+fDOIAWvgj+Rv/ZgPrA0oCRv/l+rb3qvlNABkFUgJ6+iz2OvpgAt0GcwVsAqwB8wFqAE3+vP/3BCYISgS1/Cv60/86BjkEUPsA93f+YArMDDECE/b+9K39EgR4AR78Ev0sAzIFXP/r+A/6pwCEA1D/5vp8/ZQEbweQAqz7wfn9/IcAoAGYAY4BNQAb/VP77v3NAikE7/8x+0L8jAK3BmcD+fv7+I3+tAe2C0EHVf90+8/95AFSAt/+B/wl/XwApwEs/yv8a/zX/94C1ALOAOX/bAF9AyYDpP+L+6z6Tv46AzAEVf/4+Kv3Df2hA9kElQDL/Of9lQGKAt//CP5yALIExAWaAiv/G/+dAXADRQNfAsAB8ADP/6L//QDrARAAWvya+q38kP/d/on6W/c/+Yb+5gF9ALr8UftV/qADLQd4BjICqf1P/Mb+CQJXAn3/i/0lAJEF1weIA1L8Yflv/dkDLgZJA6D/Kf/eACEB7v7n/G79kf/KAIgAaQAuAU4Bcf8q/Zb9LgFtBIkD4v7A+qD6tv1xAL0A1v8OAK8BygLIAXP/Fv4B/1MBRAP7A84D+gIcATr+1Pvc+27+PgHZASYAG/5B/WD9q/0u/kH/PQAaAEn/lP9lAV0CKAA7/Pj6Yv4xA3wEjgFe/kz+WwCHAR8B2AA2AW4Axf36+x/+0gLtBMMB6vw7/NMAzwUmBjcCof60/lIBOQPoAoUBpwBRAHH/tP04/DX8Tf3P/er8HPx2/XoA1wFa/3L7FvvH/0oFlgbwAw0CTQN3BL4BEf1l/JAB7Ab1BYv/2vpd/LcAxAGg/gT8X/1sAMgA+f3C++r83P8uARcA+v7s/xEC2wIoAXj+Jf37/an/YQDN/zn/y//hALMAp/5q/Dz8YP7zAEwCsgI6A7sD5AJgAM79Fv1d/kMAwgHnAsIDpQMuAmwACwBVAbcCfQKqALD+wf28/bj9Gf0g/Ln7vvwN/08BBwI5AZkAngGfA3AE9gJpALr+Sv7//Tv9w/xk/ZX+MP8J/wL/i//z/57/MP+9/zgBbgKtAocCpAKHAlABaP9h/u3+1v+V/4H+Zf72/5cBWQGO/5P+8/98Ap8DSQLa/2r+sf7D/1kA5v+b/hH9FPxK/If9l/44/pP8ePuv/P3/IAP7A6sCQgGUAWUD0wQ6BKABkf7o/KP9TwAuAyYERQLM/nj8Ov1hADADkAMfAksBZgL9A3oDOAB3/Pz6KvwG/uT+Mv8rAHYBTAEe/wj9mf2bACUDCgM8AQIAuv+u/i/8NvoR+yj+kAC1ABQAnQCdAbkArv1y+8j8sQCMA2MD4QGdAZICWwKv/2T8kvs5/mACSwX/BXEFvAS7A4cBG/70+sn5qvrm+xf87ftK/YUAZwODAzMBTf/D/3oBFgJAAeoASQLAA8ACNv8M/Oz7Qf4GAEH/F/1L/Bj+2gDZAU8Adv5D//ICVQYhBuoC5QAYA3kH+Qh+BYQA7f4TAXYCYv+J+QP2fPeb+yX+ef1k+2f6Q/v2/C3+Sf6d/TT9+/27//wAegC5/qX9gv6cAF0CDgMkAxIDuwJKAqoCbAR3Br8GmATCAaEAowH0ArAC+wCj/xMA2QEnA3ICyP/P/IX7m/zS/hoAiP8h/oL95v32/Z38p/oA+nf7yf0Q/9X+R/6E/kP/cf/C/h7+df6b/5UAzwC9ADABYQLBA5EEhATLA8cCqQFVAJj+qPx7+0T8X/+sA0AH1giSCHEHUwadBUgF1gRrA6wAv/2w/DH+JgBi/xv7/fVC80/z9fPW80j0Rvdl/P4AQwPyA5QEFAUlBK4BgP8t/w8AOgAY/xH+kv41AFwBQAG0AAoBswIaBVUHogiNCA8HtQRhAssAGgDw/8j/bv9m/6kAjQO2BrkHSwW+ANf8FPuw+lf6EPq4+hH8gfwg+zX52vh/+pT8pf3X/Rr+qv41/+P/FQEZAkcBV/67+2P8JwCbAwkEtgIWAx4G2wg3CBwFkAO+BSAJNAlrBIn9O/hP9dPygu8e7e7uLPZKAN4IPw09DpEOqg8XECQNIQb4/TT59fmz/WT/Ofxj9tjyTPSf+I/7ofuq+zj/Aga2C1QMJgjsAp//xP0O++H2gPO88wz4Ef65ArkEDQWIBe0GYQifCJkHwgZuB/4IGQkFBqkAxfs1+Wj4xvcp9zL4BvxYAT4F6wUuBCMC4gDK/8396fo5+OT2S/f1+Or6JPw1/Kr7pPuv/B3+7f41/y4AfQL2BK4FSgR9AhIC+wL6A8cEeAaFCWsMMQ3dC0QKNAkPBx0CmvsV95P2gvg3+mr70P14ATYDzv/79x7wCuwm7MvuK/Oe+aIB8Ag+DS8O9AyDCvsGuAIg/879P/+FAhIGXwhBCF4FtwA+/IH5rvgb+XT6/vyiADwEJAZWBRICs/0a+tD4APo5/Kb9/P3D/kcBbgRIBf4By/vU9ZXy4PLj9sz+wAnOFCMcnh3mGe4SDAr2/yb2K+8Y7eHvj/W8+44AxgLvAf7+I/wg+5j7qPtS+s741Pj3+ab5UPbW8QrwuvIH+PX86ACmBf8LrBFNEy4QJguGB/kF4gRUA5wCmQQzCRgOyBBxEM4N9AmhBVoBkf2H+mL4k/e9+O779v/YAgID3/9m+cnvP+Tm2fTUGth74mDwJ/5LCpkU+RvdHYQYkA3mAWj6tPjz+n7+TgK5Bm4LaQ5xDW0IAQKy/V79UwBpBMYHuglMCmIJawbwAIb5J/Jn7eXsSvC39UD7BwD7A8cGQwchBFL90vQj7qrs3vFp/NIIaBMVGsQcJRxVGOAQLgaa+rLxHe4T8Lv1qfzWAqEG1wZtAxr+ePkO90T2k/WF9CP0O/Xd9hf3JvWD8o/xj/Mi+Dv+6wQ9Cw0QjhLTElgRMQ5QCb8D6v/c/zoDcwcdCuoKIAu+C38MZQx4Ch4GoP/n+CD1b/az+xgBPQN6AcH8Q/WD6gPeh9Q/043bJ+p3+uwJnhfSIXcllyCcFJ0F3fdi7ibr9+5d+HgDMgzhEEkSNxE1DUcGEP+l+7L9hALGBdsFsgRRBLgD/v88+F/v2ekK6iLvyfb2/k8GuQtzDmIOywu8Bmj/Nvf28D3vcfLC+CoA/QdBEMsX3hsMGmQSlAfw/J/0bu/D7fjvlPWH/MIBEAOXAHf87vjG9or1/fTE9U74ZPuG/EL6+PXV8vfy7PUa+gL/YAU3DZYU+Bh7GTAXRhPfDQUHPAAK/M37pv7aApAHogz0EDcS+g5wCH0BAPyw9+XznvH68ov4tf/5A90B5vip66TeidY+1pfd8ulz+JsHbxZuInMngCLNFKkDNvUk7f3ra/B4+OwBogofEagUoRRXECsI2P6h+FP47PyLAr8FyQXrA0EBwv0Y+b/zJO/57JXuZvRN/YMG2QyvDscMCgmlBKH/M/rY9bb06/e4/hoH3Q4jFJcV2xLqDKYFxP4x+Xn1VPQ89nj68/56ATgB5P6w+1D4FPWR8rjxJfN09k36Kv0k/lH9ivvZ+fX4Nvno+nb+/wOwCrkQOBRLFGIRsQx/B/MCDABp/wABIATSByELFw3YDCIKuQUMAUr9yPpv+Wv5LfuL/gYCEANO/wP23eiu2wvTVNJV2mTpivxjECgh2SqbKoogHRBj/r/vCufR5R3skffIA8UMZBHtElwS/A5mCAcBM/0L/yYECAiUCAQH1QQwAYD64fFh62Pqlu4j9QP8EwMCCsYOKQ9UC9MFFwHX/fL7w/t2/Zv/2v+V/RX7P/uF/t8CpAYuCjIOZxEPEesLnwPe+gbzVuzl59Dn7+wL9WD8vQCPAvoC9QHk/nH6sPZD9ef1UPfS+Mv6j/3AAO4DOQfmCokOMxFgElgSaRFTD9oLowfqA0wBb/8d/kb+IgFaBowLCA7cDPsIyAMr/vn4Z/Uq9C30z/IN7nzmK9+l2wHeWOY18yQCNxDDGiYg6B9LGg8Q3gLF9XPsbemm7ODzfvzmBEsMgBHQEm4P+wgIA4EAZwEvA3IDEgKSAL7/j/6Y+yL3W/NT8kP0+Pdr/GoBtQYqC0kNgwyrCTAGKAMQAen/Mv8A/sf7M/nu9zf51PyJAWYGJwtnD+4RTBH2DH8FB/wH8rbpweWM56jtpPTA+bv8wf4qAPT/fv32+Yv3bfcL+S77JP3W/lIA7wF9BIgISA3kEEISKxIYEggSThDQC9QF/wC3/kr+o/7w//wCTAfNCo0LNAmWBIn+3vc38qnv5fAH9OT1fvQH8PTpAuRz4C7iHusB+nMKsBdTH0ch0B3KFCwHYfgg7YvonupD8Tr60ANSDO0RbxMLETgM7gYEA5UBagLfAwIEIgIn/zf8YvkM9ofylvDw8Y72xfzxAmYI1QxzD1cPigwZCAoD1/0k+Xz2dPfw+8ABawYfCZkKZgvjCjYI0QN4/9H8HPxb/Eb8AftU+L/0ZvF571zvkPB28gX1Zvj6+1P+Yv6g/LL6+fmn+ib8Gv6mAPQDwwd9C4AORBBtEAYPmQzSCRoHvwRzAzwEaQejC4UOeg70C6cIsQXMAmL/9fsM+pn6n/x5/Y76/PJF6OTd+9eU2RPjAPJiAq4QwBppH8kdnRVjCMD5NO7r6FrqpfAK+SsBfAc/C1oMOwuvCMYFywPqA2gG8gkKDKYKwAUv//T4zvOo7y3tNe4e9ML9kwcLDg4Q4Q4mDEsI/wKu/CH3iPQE9gj7uQHJB1wLuQuBCSQG9QKiAGL/VP9RAJMB5wF3AGL9ZPk19XXxCe/+7qfxDvaT+iX+nQDxAZwBPf+b+4T4XPcs+Cj63/xqAJoEkgh7CzoNHg4HDoEMxAkTB6gFlQUnBjoHcAnEDIYPiQ9nDAYIrATfAl8Brf74+dXyTunw3kzXS9Z43RLruvt7DNoa3iN/JNwbqAzk+xju1eX34xvoVPBo+XoAuQT2BrAHcQaLA5MBsAMMCr4QCxOKD58IWQG3+kz0gO416y7ssfGn+lMFSg+cFUAW0BEqC+MEef90+rz2ovYt+ygCsQeJCU8IvQWyAnb/C/3v/F//pAKuBOEEwgNEAYD8hfWo7jHroOy08f33yv1MArIEJwTjAG78b/hv9T/zQ/Kj8/r3Uf7LBBwK9Q0tEFwQjw74CzEKuwmxCRoJGwiJB4wHQwfzBSAEJgPKA5cFYAcJCIEGlQF6+APsM99Y1jDVP90R7YIACBLhHBofChrHEPMF8Prp8Pzpq+i77dD2iv9lBNkE9gI+AfQAFwJuBAgIuAxREbkT8RFNCwAB2vVE7d/pSuzt8iL71gIxCdcN7g9ZDhQJ/gH3+xP5pvnN/E4B3gUFCY0JUAdgAzX/3/sp+gb7B/8fBWEKyAt5CBMC5vpJ9MPuQOsl6+fuEfUh+0v/QQF1AUsAKv7W+yz6d/l5+Rv6n/v7/WgAKAKdAwAGvwmDDVoPtQ7gDHcL3QpqCqUJuAjFB5IGMgWRBJUFigfhB+0DCfsl77fjRNxY28fhMe5s/foLWRcbHi4f3RntDkkB6/TD7K/pKutJ8Jf3mP5oAp0Bff0r+aL3P/qSAMwIORAVFOMSLA3lBAX83POZ7cnqpuzm8pL7OgQeC1gPbRBXDvcJAAUgAVL/5v+2AtcGPwqaChgHWAFF/On5bvrY/DIAwgOtBgAIIgf5A6v+xffU8E/sA+x670P0Jfi3+q/8Kv5v/mP9Vfy7/Gv+yf++/+b+jf4Q/9D/hQDCAQME0wZiCaALBw5gEHARTBCEDXMKvQcpBfwCcQIFBMsFZQQt/t307+vM5Sjjj+Qq60D3aAYWFDYcEh0uF1sMdf809L7tzOyB72PzO/fD+jL9Lf12+hb3EvYL+Wb/YAcpD80UHhbXEQkJs/6Y9d3u5erG6sDvHPl1A+YK8g3MDS8MrwlqBoIDxwLZBDoIlAqeCnIInASp/7T6iveG91H6Sf4eApYFfgiUCT4HeQF++hn1hfIi8uvyivTZ9v34xvkP+Tn45PhP+y3+FgDMAAYBWAGSATYBPwBP/0b/0QAXBIgI1gyBD84PVA5hDLQK8AiBBt8DjgKVAxEGewd0BUv/I/Yi7N3j/d944k7rHPhOBQgQ5RYvGTgWFg7lAoL4UPI68c3z7/f4+3j+9v3u+Rn08u948Eb2v/9yCvITxhndGe0TMwolACr4zvIK8HDwd/To+gIBlQSsBbQFdwWdBCQDfQJoBNIIbg2MDw8OmAllA7D83/Z381fzF/Z8+lf/uwOSBr4GDgTO/+r7bvkt+Kn32fe4+IL5KPmY9y/2g/bh+E78yP8JA+0FqAcaBwcEn//I+/X5pvqs/WACvweLDLIPkRAGD5MLhQeaBPADGAWMBhUHiQb7BJUBB/ty8ZHneOES4qPpMPaXBDkRnBjaGOIS+gl1AdH6GPZ989bzMfeU++v9bvz69yfzY/D88FT1DP20BsIPhRV9FucSNgxLBAn9Lvjc9vv4Ef3wAOUCjwLUAAT/1f08/Uj98v6IA9UKEBJJFX0SMwvkAvf7pfaV8qrwaPK89yD+ZQIqA1QBkv4N/Gz6Ofp/+0L9CP41/Xz7yPke+BT2P/Rh9M/33f1ABNUIwwoaCjUH7QLk/tX8Sv1s/00C2gUfCu8NOg8pDXoJFgdGB8UIlwk6CXsIZwdBBBL9H/Kg5gbffN6I5R7ykgDtDGcUWRbhE5sOsgcrAKz5PfbH9t75Yfys+273rfEs7d/rYO5T9Mn8TQbyDsEUbxbnEzcOCAcPALT64vfV9/H59/yO/9kAogAq/xP9efvq+6v/pQbiDlYVkhcRFS8P+gcAAez6/vWo8qPxV/Mk91z7K/7M/vn9MP1r/XP+Uv89/xT+Mfz8+b/3tfUb9DDzU/MR9d34cv50BPIIhAorCUAGjANMAsQCbgR6BkgInQl7CtMKaAoaCVEH9AXgBT8HVgnqCr8K8QccAqH59O+j54/jiuUf7Yj3JQGAB0wKlwonCewFDQEo/L/5Cft3/sQAt/+v+7T2b/J570vu4+/x9Jr8pAQHCxEP5xByEGkNZwhVAz8Awv/bAB0CxgKmAowBU/9z/Bf6ZPnS+kP+ZgOQCUwPlxInEl4O7wiHA/b+e/tO+Yv4vPj1+KD4+fee99H3afhX+d36Bv0y/2EAEwCU/oL8P/oE+Ff2BPaT98f6wv5tAtgEcwVjBLMCwQFFAtEDgQUGB8sI7gp8DAoMQAmKBRQDGQMgBZ8HIwnPCD8GUgFH+gryY+rG5aDm+u09+lQHphC8E2IRQQxyBn0Acvp29Zbz2vW1+r7+Jf+Y+xX2LfGT7uvuTfJk+DAA/Af+DR8RJhFtDrUJUwQrANf+dQBbA0EF8gToAmYAIf4C/P/5+fhr+jD/igZJDt0TjBURE4gNtgY0AOj6H/f+9LD0FvZi+Fb6A/th+in5KPjW92f45vkG/O79iv5h/Qb7qfgr97v2R/cG+Tb8YQAoBCMGFQYfBboEcwW8Bt8H3whJCi8Mkw0NDRsKyQUDAjcAhgAYAvUDfgU5BngFgAIX/QH2Bu956mnqpe/x+DkDAAtTDqkN1QooB6gCNf0E+F/1mPZY+mv9YP1g+nj2a/Oj8QvxOPIi9rr8SgSYCnkOFhDbD7QNsgkKBcQBKQGhAmIEFgWSBBUDcQB0/Af4TvU39tz6ewHlB9kMARAoEe0PQwzrBjEBNvyX+Iz2BfaL9jz3T/er9uv1wPVo9sP3sPkD/Db+cv85//D9ifyc+xn75vp7+339qACPA8EENgRcA7ADagWrB6AJLgt7DDsNyAzZCuUH0wRpAisBXAG/AkgEdARVAkL+Zvm19Knw+u0i7m/yW/o9A/UJFw1PDdkLCAmIBMT+avlD9sb17fZS+CL5Evnx99L1gfNe8ljzOPYI+h/+fwIbBzALog0EDvgMcwvdCSMIcAZgBUMFZwV5BLoBwP0A+r/3j/d5+Tz9QAJ/B+MLvA7HD8sOgQshBuf/qfqZ9332LPbL9Wn1g/Uv9gH3l/cA+JT4jfny+qT8VP5l/z7/Af69/Jj8qP3e/jv/D/+d/5sBPwQgBskGKQdQCBcKTwszCzoKcAkzCQIJWghoB5YGvAUiBGcB8v1R+l32ovHJ7B/qDezI8qr7OwPZB1UKGwwiDQIM6QcOAvj8Xvr0+SL6oflI+Iv2tfTT8jDxcPAf8U/zufYu+5YAZwZrC2QOCA9HDm0N+wyADHEL/QnJCAsIBQe1BOAAdPzN+NX2tPY6+DT7WP8MBG8ItwtjDTINHAt6BxoD9v6o+yj5K/ej9dD0wPT89N30OvSj8+zzefUB+Nn6Wv0Z//b/KgAkAC0AJACx/97+YP4J/wIBmgMIBiEIJwoADOcMKgwaCu4HrwZdBlUGTAaWBmsHMQjWB8cFSgLR/V34//Hi61roXunW7p32Nv54BIEJYQ0/DwkOwgn0A7b+Xvv6+cr58fna+UX5L/i59gP1KPN78a/wp/HZ9OL5vf9qBVQKJg6JEEERhRASD6wNqAzjCyQLSAoKCd0GVwPI/kX69PZV9UT1j/ZN+XH9RQKKBjgJEwp4CbgH1QTmAIL8nPj09ar0XPSO9Oz0TfWi9fv1b/YF96/3bPht+fn6KP29/0MCSwSBBbMF7ASkA50CbwIgA1gE4wXrB34K/gxKDq4NkQsiCVIHOAZ1BegEyAQYBUAFUwS7AYj9Qfi48hTuset97EbwxPWE+8oAegVACS4LZQocB8AC+P6K/Dr7evoJ+tr5tvk0+RX4g/bg9Irz1fI48yf1s/hL/RcChgZ4CugNlRAhEncS5BHIED8POA3LCkMIxQURA8//Ivzc+AD3+PZS+Dr6IfwO/kMAtALWBOEFYgWXA0ABCv8b/R37z/h39rv0DfRF9Nv0cPUO9uP27fcI+Tn6wPvC/QIADQKmA+QE2QVLBvQFDwVlBKkE1gVKB4MImAnYChIMfwx9C04J+QZ6BQ0FNwVOBdQEeQMKAYf9R/nl9B7xru5A7j3wZfTD+Rj/ggO1BpoI4AgqB64DdP/L+2X5Ffhj9yn3lPeT+Ib5o/mq+CH35PWQ9U72F/jo+rX+OgP7B2QM+Q9hEmgTDROQEWQPDQ35CmUJSwheByMGKwQ9AW79F/na9KrxkvAs8jL2m/s/AXAG0wrHDTcOTAtuBWz+Z/hx9CzysfC477vvIPFy84/1pfbc9iH3TviN+mr9SgDNAu8E5gbaCJgKhQsDCxcJtQYmBQIFrgULBqkFQgXlBbkHvwnJCqAK/gl7CbEIoAbTAun9//jE9F3xG+/Z7lXxGPZe+0//WQE8AsQCxQJ0AbH+pPvh+QL6NPsq/Fv8QPxy/Nn8vvyY+6f5xffH9g73h/jo+t79KAGhBDYItwuoDmkQpRChDyUO5wwXDFULIApLCBkG+gMtApUA2v7W/ND6YvkB+ZH5hfpd+w/83/zd/aX+tP7t/bD8b/tQ+kH5UPi695T3nfeF91/3ofeZ+P35Qfs6/Fr9Ev8uAe0CywMHBEYE2AR+BegFOAbNBqYHQgg1CLAHUQdqB6cHiwcZB9EGBAdQB/0GuQXlAxoChwDh/tj8bfrg93b1d/NT8nny9/NQ9uf4jvuG/toB2ARcBtIFygOJAff/Av8J/rj8bfvT+i77GPzV/OP8P/xT+6P6ePrI+l37M/yc/f//TgPLBngJ4gpxC+ULegylDLYLrwlgB68FwgQEBN0CUgHy/zH/B/8R/wX/2P6U/in+hf3J/Dz8B/z++9D7XPvH+j76t/n++BH4RvcH92r3HvjQ+Iv5qfpW/D3+vP9xAIsAjgDWAFQBxgEXAoACVQOzBGEG9gcjCeEJXAq9Cu4KqgrICXgILwdEBqsFGwVwBM8DYgP5AhQCRgCC/f/5Avb38avuK+0W7v7wtvRb+PH74//hA5cGxAaPBJEBaf9k/p/9avxB+z77wfzi/ksAewAEAKn/df/Y/oP98/sX+4D7F/11/0sCXwVLCIkK1wtwDK8MggxrCyAJKAafA0kC8QHBAS8BfQBMAMwAdgGAAY0A2v70/Ev7Cvok+Xr4/vfK9w/4z/i1+UH6RfoZ+kD6y/pE+0X7CvtN+378P/6//5EA+gB7ASoCpgKYAiICuwHKAWwCmQM2BQQHlgiJCcsJlgkbCTwIxwbgBCEDLQItAsACYgPcAz4EhgRgBE0D/ACP/ZD5rvV38jbwCO8I72XwPPNQ99371/93AqsD8gPNA0IDBwIaAB7+Cf1c/bz+UgCUAYoCbAMRBPYDxwLLAKj+1/x8+7b64/pa/PT+AgLbBEcHWQnqCoUL5gpfCY4HvQXIA7IBFAC1/6sAHwIXA2EDfwO7A5cDSgK6/7f8Pfqh+J339/bd9ob3svi9+S36BvqW+Qb5T/iJ9xX3W/dr+Pv5vfuh/cD//QHmAwUFRAUNBesEDwU5BRMFpwRnBMIErwW1BmoHxwcLCEYIQwjNB/8GLQZ9BcsE7gMGA1gC+wG2AU4BvgALAAH/O/2X+m73U/Sl8ZXvbu6k7lzwJPNP9pr5QP01AZ4EUwYZBvwETwRXBDYEKQObAcEASwGqAroD5gN5A/wCfwKmAToAhP4d/Yb83vzg/Q7///+wAIIBxwJGBFEFcgX3BKsEAQWcBb8FEQXcA5ECTQH4/7X+8f3x/Xj+Af9W/8H/lwCiASUCewG5/5r94vuz+pL59vfs9SD0VfO+8+T0KvZg99b43fpR/ar/bQGIAjsD1wOHBEsF+QVRBjIG0QWpBQIGlwbaBpwGXwbLBt8H1gj4CFcIqAdjB0UHvwalBUcE4wJXAXX/fv30+wr7YPqN+bD4PvhJ+Cn4Ifcz9TDz5/F58Yjx7/EI8zj1Yfjo+zX/CAJdBDMGhAdhCNoI0ggUCL0GcAXqBEsF6wUDBn0FAAUaBYYFXwUMBN4Bw/9u/tj9iv03/QT9RP0d/mP/ugC9ASMC2AENARoASP+b/vH9Rv3e/Bj9Ev6P/yEBeQJ7AygEdwReBN0D/wLLAU0Aqv4g/e77K/vI+qr6t/rW+uj60PqW+lr6PvpM+oD65vqZ+6X8+/16//wAVQJQA8UDuwNwAycD9wLUAsIC9QKjA88ENgaLB6MIcgnrCfMJcwlwCAYHZwXKA10CJgH+/8H+dv1H/Ej7Wfpj+Yf4//fE93/3/fad9vn2JPhZ+cD5Yfke+Z35c/q1+jD6zPl8+iL8yv0D/4wAUgMMBzAKiQt8C4ULcwx4DSINDwtqCMkGpQYXB+AGnwX6A9QCYgL6AboAZ/6u+5T5jvgs+Kf3xvYV9kz2hfcr+Yr6V/uw+8r70/v5+2L8/PyN/Qj+zf5QAIYCwARMBhQHiwf9ByoIogdiBuEElwOeAtoBRQHmAJkAFQBB/07+Zv1m/CD7zvkJ+SX5xPk8+mv61fry+4n98f7T/20AEAGiAdEBoQFuAW8BeAFuAbkB4gLBBGAG+QbSBugGrwd0CDUI0wYyBSkEmQPCAkcBmv9r/uD9gf3F/Ij7EPrB+OP3fvde90H3JvdZ9yD4Tflf+g/7oPt4/H79L/5f/qD+p/9NAZcCyAJLAkACIQM3BHQEvwMLA0kDbASbBTAGTQZ8BgAHngftB78HMAd4BqoFqwROA5EBx/9u/sf9lP1f/fb8j/xZ/Bb8TPvj+WP4ffda95L3uffX90X4Jvk++jj79vuZ/E/9M/5F/2sAfAFrAmUDpgQYBkMHxAfJB+gHXwi2CEoIGgfTBfUEPAQYA5EBXQD4//z/lP+I/nr9Dv0d/QH9cPzI+3D7Svv++pj6ivoA+437svuO+7r7g/yB/SL+Yf6y/l7/LgDOAEMByQFbAp0CXQLqAd8BlgL2A5kF7QZXB4oG9ASRAwQD3wIiApsAY/+d/+wAlQFpACv+qvyY/Nz8KPzE+kH6a/tA/Sf+6P3I/cj+SgDiACoAQf9d/1IA5ABwAMP/DwBlAY8CfwKdAVIBYgLwA2QEIQMqAfb/zf+Q/zT+Jfzp+lr7q/xo/Uj9c/3m/vIA7QFLAWsA4wBpAg0DoQFW/2T+dv8IAW0BxQB8ACcBzwF0AYkATADaANgARf///NX7TPwV/e78ZPwR/Vn/ugGXAikC/gHXAr4DcgMiAjEBZwENAvoBEgExAOf/2v+F/xj/J/+5/yMA8v+M/6f/VAD5ACsBLQFhAZEBIAHq/4j+nv0e/Yf8tvsu+3/7l/zd/df+df/S/+D/i/8B/6b+wv5N/xQA/AD4Ae8CswMdBBUEjQOLAlgBbgAhAFAAkACrANIARwH1AYACqwKLAi0CVwHd/yn+F/0g/b398v1p/dX8FP0p/j//pv93/zT/Cf/B/lj+Mv6O/hL/OP8Y/23/owAtAgIDsgLFAfEAYADN/y7/1P7p/jD/Zf+z/3MAjQFvAr0CuwLlAjEDFgNbAn0BJgFaAXsBDwFDAIv/Av9k/pr94vxw/BP8fPvL+nv6y/pr+/D7ePyD/TH/6ADvAUcCngJoA0YEhQQKBHEDQQM/A8sCvAGlAB8AJgBGAEoAbgDhAF8BeQEmAdMA0QD0ANAAQQCH/+j+bf4F/rX9h/1g/Rz90fzO/DT9s/3n/er9Wf6l/3QB4AJOA+8CXgLmAVIBawBu/+f+Dv+G/8T/qv+j/xMA1wBeAUABpwAXAOb/BQA1AFQAWAAxANb/df9d/57/zP9g/17+f/2G/XD+bv/F/43/if9JAIwBkALTAnkC+gGjAW4BNAHjAHYA+P+Q/4T/8P98AIgAy/+2/hb+RP7J/uv+gv4g/l7+OP8VAHUAXAAnABMACADS/2P/7f65/vj+oP95AEQB7AGFAhQDaANAA5UCqQHDAPX/NP+i/pH+Kv82AEMBEQKlAvwC2QL5AXkAzf5e/T/8Vvu1+qD6LvsX/PL8jf36/UH+Qv73/br9C/4L/1AAXwE0AiYDSAQXBfIE3AOKArUBdAFhATkBKAFzAQICbgJsAgcCcwHKABIAbf8Q/wL/CP/d/n7+K/4T/g3+vP39/B/8s/sV/CD9YP58/2UAIwGOAWQBtwACAMn/EgB0AKMAzQBEAe0BPwLfAQ0BYwAqADIANQA5AHYA7wBXAWYBJAHYALgAuQCqAHAAIgDu/+n/8f/T/4r/U/9m/63/0P+h/1j/U/+a/9j/t/87/6T+F/6X/Tv9OP2f/S3+j/7A/gr/n/9WANMA7ADBAI4AdQCCAKsAzQDAAIMAUgBuAMwAHAEgAfEA3AD/ADYBVwFnAZAB1wELAvkBqwFiAUgBNgHaAB0AXf8c/3D/2f/K/0n/5P79/k3/Qv+3/hX+w/2v/ZP9b/2K/fH9Sv5M/if+Qf6n/vz+Ff9K/wkAOAFCAsIC2wLbAr0CQAJgAXMA1/+c/63/FADcAM8BdwKOAj4C5QGWARcBQgBb/9f+5P45/2T/NP/S/oX+Y/5D/vr9k/1S/Xf9Bf7B/mz/6v9AAHgAlQCdAJcAegBHABoAJgB3AM0A2wCpAKIAHQHqAXYCZwIBAs8B/AEdArUBxwDV/1P/Of8x/wH/wf6a/ob+Zv48/jj+cP69/vH+HP+D/zMAzADTADUAXP+4/lz+D/6y/W79hv0d/ir/gQDTAbMC3gKAAhIC2wGrASoBXgC5/53/8/9bAJ8A2gAnAWQBVwH5AHkA9v9o/87+Wv5H/oz+5f4j/27//v+1ABgBygAHAG3/Yf+w/93/xP/B/zUACAHCARUCHwIoAjIC/gFuAbMAEQCO/wj/gf40/kz+qP7y/vz+1/6z/qT+pf6n/pX+X/4Y/v/9UP75/pL/wP+N/2X/qf9QAPwAUQFGARkBDgEyAVwBXQEwAf0A7AAFATQBZQGCAW4BDwGBABAA+f8nAF4AigDSAD0BbAHkAJj/AP6p/MP7Ovsb+6H74PyR/j8AlQFnAo0C9wHsAPz/lf+l/8//+P9sAHEBzgLlA0UECgSfAzkDoAKKAQMAf/5z/fv84Pz3/E399f3C/l3/mP+R/2//Jv+k/ib+Kf7h/uv/rQD7ACsBggHOAacB/wAwAJb/Of/9/uH++v5K/7b/MgC+AD8BfQFnASUB3gB9ANX//f5R/hD+I/5Z/rn+Z/9LABMBgwGuAbMBhQECATgAYP+g/gz+0v0v/hX/BwCQAMcAGQGaAdYBaAGQAOP/l/9r/z7/W/8CAOoAkQHfAS4CnQK/AiQCAgECAHP/Ev+Q/g/+5f0T/kv+aP6a/gL/av+L/3L/b/+k/9T/vP9l/x3/IP9v/9r/KAA1ABIA9v8EAB0AEQD1/yMAxQCJAe8B0wGBAToB6ABeAL3/XP9d/5b/5f9WAOYASgEwAaYADgCn/1v/B//C/r3+6v4V/zP/cv/j/1UAkACfAKwAqABTAKD/0P4m/qf9Sv1G/er9Lf+bAMQBkgIkA28DSQOsAssB1wDi/wf/hf6B/s/+K/+a/1UATgEBAvEBKwEoADb/Rf5P/a38v/x7/XP+Yv9dAHsBegLpAqkCBAJSAaQA6f8t/6j+gP6q/gD/dP8EAJwABwENAZ8A6P8u/6T+XP5W/pb+EP+S/+v/JAB+AAgBYAEZAVkA4f81APwAYgEfAb4A0QAsASsBmADr/6L/pv+W/2L/T/93/5D/Xv8I/+P++v4S/xD/If92/wYAoAAbAWABXwEjAeAAtwCDABYAlf9u/7//HQAYANf/2/8zAFkA8f9l/1P/sP/U/3H///76/iD/1f4k/tL9Yv5m/xUARgB5AAIBmwHZAbQBYwH1AFkAsv9W/2v/wP8oALEAbQErAqMCxQKdAgICvQAR/8P9XP2X/dP9/P2R/sT//wCQAX0BSwEcAX0AMP+y/bn8W/wv/Bf8jvwE/j8AiQJXBHgF4gWYBckEtQNiAq4AyP5c/fn8Z/3y/Tz+jP4d/6P/tP9p/zP/Hf+6/tz9Cf3W/C39jP3f/Zf+5f9NAUQC5QKWAzcEJQQ1Aw4CWAHrADwAZv8f/67/YwCCAEYAcwAjAYkBCwELAE3/5/5Y/nf9zvzP/C39Tf0r/U398/27/jP/dv/s/6gATgGUAZMBgQFiASQB4QDFANwAGQGDASgC4gJiA5QDtAPkA+EDVgNqApsBCQE+AOX+cf2w/Mf8Bf3Y/Ib8r/xU/cv9q/1S/Ur9f/1p/fH8qPwS/fr9zf5n/ywAVgGKAj4DWQM3AxwD4wJWApYBDgEBAVQBuAH3AQ0CDAL5AcIBSAGDAJX/wf4y/uX9wP24/dL9Cv5L/on+0P4f/1r/b/96/6n/8v8GALr/Rf8J/xn/LP8U/w//cf8mAL4AAAE4AcYBiQL5AsoCQALKAXYBAAFHAI3/IP8J/yT/af/w/7EAbQHnARYCCAK1AQwBLgBe/7z+Lf6b/Tb9Tf3h/Zb+E/9R/37/r//O/9H/zv/L/6n/Vf/8/uT+HP9t/7L/BQCJABcBWAEjAa4AOQDF/y3/gf4G/vj9T/7o/rD/mgB+ASwCogIPA4ADuwN6A8cC8QEvAW8Akv+z/hD+xf23/c79Ef6G/gr/a/+h/8X/2f+//2//H/8T/0//mv/I/+7/MACPAOcAJwFXAXMBWQH6AIYAQAA4AEIAOAAvAFMAqwASAVwBcwFRAfoAjQBCAC4AGQC3//3+P/7M/ZT9S/3a/Ir8tfxg/UD+E//N/3EA6QAZARMBAgHqAJwAAwBZ/wP/Kf+S/+r/HwBdAM4AXAHLAfEB1wGgAXIBYAFpAXwBiwGQAZABjAF2ATUBtgABAEH/s/54/n7+lf6s/uD+Uf/Z/yYADgDF/5z/m/+H/0z/MP95//3/RQAXALL/bf83/7f+3f0L/af8sfzx/Gf9WP7R/20BswKOA0EE6QRNBSYFewSRA4wCZQEhAPb+Hf6d/U79E/33/A39WP27/Qb+B/63/U79Hf06/Wj9af1R/XH98f2r/nf/dQDYAYEDDAU7BiwHCwixCNAIXwijB8wGtgVCBKUCOgEIALf+GP19+1r6ufk++bD4O/gl+Gn4zvg7+cv5i/ph+zT8Fv0Q/vn+m/8DAHMADAGdAfMBJwKPAlIDQwQhBdUFagbbBhQHDAfTBmgGvAXMBLUDmAKDAXkAi//G/hn+Zv2+/Fj8RfxG/Av8k/s0+y/7Z/uR+5X7mPvE+xr8iPwN/aD9K/6g/iX/9P8PASgC3wIaA/8CvAJTAqoBsQCC/2f+wf3e/bf++/9dAdwCogSmBoIIwwk+Cg4KSwnrB/QFogNCAQP//vxk+3b6PPpu+qf6uvq3+qT6Zvrg+ST5ZvjU94P3jvcc+D351vqu/Jb+gABrAkkE+gVPBxoIUwgrCO8HxweTBxgHQAYwBR0EJQNVAsIBgAGIAbkBAwJzAgkDhQNwA24CdwDO/c76xPfm9FzyRvDK7h/uiu4s8N7yM/a2+SX9dwCvA6gGDgmVCi4LHAvGCnoKRQoNCsIJcwk5CRUJ4AheCGkHBAZgBLwCQAHx/8b+v/3w/Gv8IPzl+4v78voW+gP52vfM9gL2j/Vu9Z31L/ZC9+H46foQ/QL/iACXAUwCyAIXAykD/wLBArcCHAPuA/AE0wVdBn4GOgabBasEggNHAi0BbgA0AI0AaQGcAuQDAgXABf0FrwXYBH4DsAGI/zz9FftZ+S/4mfd497L3QPgi+UT6aftB/Jr8gPwx/PT76fsP/Fv83Py1/Qb/xwDIAskElAYOCC0J5gkpCugJJQn4B4EG4gRAA8QBmQDY/3n/WP9G/yb/7f6Z/iD+bf1w/DP73Pmi+LH3HPfp9hr3tve4+Aj6f/v8/Gv+vP/eALoBTgKyAhgDqgN3BGoFXQYtB88HSginCNkIwghBCFEHFAa6BGQDGALYAKz/of7D/RD9hfwf/ND7cvvg+g/6KPlq+P734/f+90H4uviD+aT6CPx8/c7+4//IAJwBcAIpA5EDkANPAyIDQAObA/oDPgSGBPsElQUEBukFFgWqA/sBZQAl/07+0f2i/c79e/63/0kBuQKZA8cDdAPcAg0C6ABW/3H9g/vn+ej4qPgN+cz5jfot+8r7i/xf/fP9//2U/Rr9/fxm/TH+KP8zAF4BuQJDBOAFVwdiCNcIwAhUCMQHEwcoBgYF5gMIA3oCEQKdARIBcQCX/zn+KPyP+ev2wvRg89TyGvM69Dz2F/mb/GEA1wNkBqcHrgfXBnwFtwN+Afr+sfxJ+x77E/y+/bL/qQF9AxAFTgYiB2wHBgfpBVsE3wLnAYoBlQHTAUQC/gLuA7YE3QQSBEwCxv/l/CD62fc99kf19PRr9d72MvnY+wr+R/+S/0X/sf7v/QX9EvxU+xL7g/vN/Of+hQEhBD4Gtwe6CG8JtAkhCXIHzgTIARr/Vv2+/Dr9cf4GANcBCASlBkIJBAskC4kJ1AbZAwsBX/6t+xP5A/f59Sv2Zfcc+aL6efuM+yz7uPpC+pD5dvg39232p/YR+G76Yv2bANkD4waNCbcLQA3uDZENQQx2CssIkgetBtIF4gQNBJMDgwOgA4MDzQJJAQb/UPyE+dP2KfRn8bruuOwL7ALtYe+i8lH2N/pB/ksCCAYICeAKWAubCjwJ6gcMB4sGCwZiBc8EwwRrBW8GIQf3BtoFJwRaAsMAV//j/Vf8BvuC+jD75/zz/o4AYQGcAZ8BgQH8ALT/p/1G+z35E/jl93D4Vvlf+pL7Ev3g/rgAKQLXArQC/wEWAUEAmv8a/7f+f/6d/kT/ggAmAsAD1AQSBXIELQOOAc//EP5v/Cn7nvo3+yb9OADiA3IHXwpjDHANiw20DOoKQAjtBFsBDv5/++H5Dfmk+FL4BPjM97D3f/fr9sn1O/Sn8pHxXvE48gL0ffZ6+fL87gBBBWwJywz1DvUPKRD1D4YP3w4DDggNFwxcC/UK1QqoCusJMgh6BSsCwv5y+x34pfQ/8Wrupewe7JDscO0p7nXuiu787lPwl/JR9QL4rPrV/fAB1QayC6YPSBLLE50UBxX7FDUUcBKvD2QMSgn0BlkF3APdAU7/uvy/+n35lfiV92X2TPWx9N705fWS92v58Pr0+8D8wP0A/wQAQwC2//D+of4H/+D/wQBrAdYBGgJfAswCXQPCA5ADqAJzAY4APAAzAP3/f/8G/+P+E/9d/53/3v8qAG8AmgCvAKwAVwBg/8X9D/z2+tz6l/vU/IL+ywClA58GJQnYCqwLrAvfCmcJjQeSBXsDLgHR/t78wPtV+wD7Nvry+Ib3J/a/9Dvz0fHk8KrwHPE68jb0OvcP+xz/1AL8BZgIpgoRDPAMig0bDpIOwg7BDu8Ogg8cEAkQ4w7mDJcKKQhgBfEB7P20+cD1b/Ib8P7u9O5s78bvxu+f74HvPu+O7pTtBe2t7eDvavP792b9fgPYCdAPyxRhGEMaORpoGHUVSBJvD90MTQrQB9wFxQQ7BHsD5gFr/2b8Q/lT9t7zF/II8Zrw3vAq8sj0bfgm/O3+WQDEAMYArABvAAUAjf88/zv/tf/aAKgCsQQ7BsIGZQajBc8EwwM1Aj4AcP5k/VL9//0K/xkA4wA3ARcBtwBDAKX/q/5n/Vf8BfyE/Fn9+f1D/oL+9f6D/+H/7v/V/+r/dACfAXMDsQXXB10JEQovCgMKhglgCFUGngPMAFb+XvzI+nv5Z/h194P2hfWN9Kzz0vLr8R/x2/CO8VPz5vXr+Cn8g//bAgUG5AhvC5YNMA8bEHEQjRC+EAQRGBG6EOUPxA5wDcoLlQmgBukCq/5b+oH2f/NY8cbvge6N7SPtXe357Xruju5T7knu/e668HvzA/cE+0b/pQMCCCUMsg9OEs4TURQgFIATjhJbEf4Pnw5SDQMMfgqNCBoGNAP6/438Dfmk9ZvyWPA471zvlPBx8oD0ffZS+AH6ffus/H39/P1d/ur+4/9VARIDyAQyBjIHyAf1B60H7AbCBVQEywJPARIAS/8W/1z/0v8tAEEABgCC/7j+uP2l/KX72Ppf+m36Mfuq/I3+YwDTAcACJgPuAvkBUwBY/pL8f/tq+3X8lv6LAdcE7AdeCvgLmgwjDI8KKwiDBRgDIQGY/2/+ov0X/YL8kvsl+ln4VPYm9O3xB/D/7jLvkPC/8nL1iPjk+z3/NQKYBGgGvQesCF0JKQpvC0UNXA9BEa8SjBOvE8QSmBBfDaYJ6QVTAuf+yvtD+Xj3QvZO9Vz0T/MM8oXw6+607U3ttO2M7qDvO/HV82j3Jvv+/WD/nf+P/xcAwQGjBGUIZgwfEHETjxZmGTcb8BoSGEUT9A1SCbMFwgIRAHj9BPvQ+PH2Z/X58z7y+e+H7dPruOtU7Q7wKvNN9nD5jPxv/+sB9AN9BVIGUwbSBYkFCQY2B2wIJAldCWMJRgm6CHQHhAVBAwYBD/+a/eD82fwd/Sv94PyA/Fb8TfwP/Hj7yvpt+pL6L/s9/MH9lf9OAXgC9QL6AqwC7QGfABP//f3z/ff+pACgAsoE+Qa+CJoJaQl7CC0HnAW/A8UBJQBD/wv/Cf/H/gv+xPzu+qr4UfZX9PvyMPLk8UHyhfOn9S74ifp9/Cb+pf/yAAoCJQObBIwGwQjzChMNIQ/TEI4R5RAGD6UMYwpnCI8G1gRsA28CqAGtADD/H/2N+pr3iPTO8eHv7e7E7i7vHvCo8bnz+PX292/5Ufq2+ur6ePv8/K7/JQOhBqQJPAymDsYQExIaEvsQWw/fDcIM3wvxCsEJKQgZBqsDEQFs/qb7ofiL9ebyNvGW8K/wF/Gt8ZPy4/OA9Sf3pfjy+TL7nvxu/rMAOQOcBYsH+Aj+CaAKsQoSCvQIzwf8BnUG7wU5BVoEaANQAuUAJv9b/eL76Ppb+hD69vkM+kX6hfq7+vv6bvsw/Dz9fv7a/zABVQIIAw8DUQL7AHj/Tv7U/Qr+rv6R/8cAgwKwBMEG8QfWB7sGZAV8BCkEIgQKBMEDYQMDA5gC5wGvAMf+NPw/+Wn2R/RA81HzF/QP9ez1uvar98z45vmx+jL71vst/Xz/hgK/BaoIDgviDB4Otw64DlIOxQ0uDXsMjQtdCgcJoAcVBjUE3wEs/3P8DPoa+H32APWZ83jy1PG68fvxWfK68ifztfN29I31Kvdr+SH83/5CATgD5ARKBhgH/wY6BrIFgQYTCcQMPxBkEuYSPhIQEY8PbA1KClcGdAK1/43+X/7S/cP7Efio89fvgO2z7O/sn+2S7gjwbPLT9aT5yvxj/nv+HP6Y/o8AjwOTBt4IZgqNC40MLQ39DMULwAmPB+wFRAV1BdUFkwVHBDQCCABP/hX9BfzW+p75yfi7+H75pPp++4f7yfrl+az5hvoj/ML9zP41/1P/eP+z/+X/8f/Q/4//av/b/2QBDAQTB0cJ3AkGCcQHCAcBByMHxga2BVIEKAOBAiQCbgG///P8kvmP9rX0M/SY9ED1u/Xy9Rb2ZfYB98v3bvir+Lz4Zvlx++z+9QJSBlUITQkGCgoLPwwwDYoNVw3aDFoMBAzSC4ILpgrsCHIGwgN3Acz/ev4K/TD7B/ns9kD1JvRo86byrfG88HHwRvEa8zX1x/Z+9633+Pfs+ML6Yf1kAEYDowWCB00JXQt6DekODQ8VDvUMqwxoDWsOmQ5bDfsKWQhABtgEmAO+AfD+kPuF+I72vfV99RL1JPTs8vXxufFc8qLzFvVM9in3AfhT+Vj7wv3q/1oBLQLqAhIEswVuB8QIaglnCQMJmQhmCGgIYggICDwHJwYRBSgEYQOOAoMBNwDK/nH9bfzs++T7Efwb/ND7TPvb+rn65/os+077OPsJ+/f6J/uX+yn8wfxj/S3+Mf9XAG8BWAImAwEE7QSwBQUG5QWdBYkFxQUQBgoGiAWwBMwDDANjAqMBogBa/+n9jPyA++36w/rG+qj6PvqX+fv4tvjs+IT5QPrv+o37PPwf/TL+Uv9mAG4BfgKYA6MEhQU7BtsGbQfaB/wHyAddB+kGfgYIBmsFnwS9A+ECFAJHAWYAZf9I/h/9BvwU+1z62fl4+Sb54Pi5+MP4A/lg+cD5I/qm+m37d/yV/Yv+P//R/3sAWAFLAhoDowPyAzMEggTZBCEFSQVaBV4FVAUmBb0EGwRcA6QCCAKDAQQBgQAAAI7/Lf/S/m7++P11/fL8fvwq/AT8EvxO/KX8BP1d/aL9z/3o/Qb+Tv7O/mv/9v9TAJYA8QB7ARkClQLHArMCdgIpAt0BoQGCAXgBZwE0AegAqACPAIkAXgDr/0b/s/5r/nL+of7J/tj+4/4H/03/mv/K/8//vv/B/+v/JABEAD8AOABgAMMAMAFiAToB1ABvADIAEQDy/83/vf/a/xEAKwD//5b/J//Z/qf+cf4v/gT+HP53/uP+Lf9P/2//tP8VAGEAcABPAD8AfQAGAZcB5wHnAcIBpwGXAXQBOAEHAQQBGQEEAagAMwD2/wYAIgD7/4v/F//p/gX/Nv9J/zr/KP8v/1b/lP/W/woAIgAkACYAPgByALYA8gALAfQAtQByAFIAWgBnAEoA+v+Z/0r/Ev/d/qf+iP6Q/qz+uf6o/pH+kP6h/qT+hf5U/jb+TP6Y/gj/fP/U/wYAIgBMAJkA+gBNAXUBegGAAaoBBQJ+AuoCHAMCA7ACVwIkAiICNwI9AhkCxAFSAeQAkQBPAP//iP8A/5T+XP42/un9Xf27/Eb8Hfwu/Ff8ivzR/Df9uP1F/sf+Kv9k/4X/sP8IAJIANQHSAVoCyQIaAz4DLAPsApYCTAIZAvABrgFDAc8AkgCjAMcAkADI/7X+5/21/fb9Nv4k/tP9jP2B/bL9Av5a/qv+6P4K/xz/Pf+R/ysA9QC1ASICIwLsAd4BNQLLAjkDQAP3AqQCZwIvAuMBjwFGAfcAcgCl/77+Cv6w/ZL9b/0U/YD85fuM+6T7FvyS/N38Cv1h/f/9sf41/5n/KgD8ALMB3AGJAVgB1gHiAtUDKATwA58DgQODA3YDUQMrAwUDvQI6AokB0gA2ALz/Wf/6/on+Af52/RP96/zo/OD8wvyl/KP8vfzd/Pr8I/1o/cT9Hv5h/pH+zP40/9r/qABrAfABJwIuAi8CRAJrApsC0QIDAxwDCQPUAp0CfAJlAjUCzAEqAXcA8P/D/9//8v+n//7+YP46/oP+wf6L/v/9nf24/Sb+hf6z/tv+Fv83/wn/qf58/sr+bv8MAG8ApwDZAAUBGgEZARQBCgHgAI4AMgD6//D/8v/f/7z/q/+//+X/+f/o/7n/hP9c/0n/SP9d/43/1/8bADAADwDr/wQAXQCuAK8AaQAuAD8AkADiAA8BIwEuASoBFAEDAQwBFgHxAJ4AZQCDAM0AzwBZAL3/ef+f/8X/jP8X/9b+//5M/1r/J/8J/0b/vv8TAAgAtv9j/0D/Sv9a/1D/Mf8f/zb/bv+b/57/hP95/5P/u//O/8b/uP+1/7n/u//I//f/RACLAKAAewBAACoAXwDWAEsBcwE7AeYA1gAoAZMBsQFnAfcAsACvANUA+gD4AK8AEwBd//L+AP9C/0H/4v6L/qL+Av8j/8f+SP4n/m/+rv6Z/mn+iP78/mH/a/9E/03/pf8SAFgAeACXAMEA7gArAYwB+wEzAhACxwG5AQYCawKLAlQC/QG5AYcBRwHoAHMA/P+b/2X/Vf89/+n+X/7v/eT9Lv5z/mr+KP7v/d792v3M/cz9/P1Z/rj+//4+/47/6f84AHUAswD+AEMBaAFoAVcBRQE3ATIBQAFWAVkBNwEJAfwAFQEgAeIAYgDn/7P/wP/J/5H/Hv+x/pD+yv4o/1//T/8h/xn/Sf+H/6H/pf/L/ysAlQDMANQA7gA4AYMBggExAd8A0gD7ABEB6QCbAFQAIgD0/8X/rv/C/+j/6f+j/zH/1v7H/vD+Bv/L/lr+Hv5f/u3+RP8e/8f+xP4z/6n/uv+D/4b//P+OAMEAkABvALEAKQFkATgB7ADYAAoBRAFLARkBzwCaAJoAyQDzAOAAjwBHAEUAdQCGAFAABgDr//j/7v+5/5D/pP/L/7f/Xf8M//z+EP8N/wb/PP+i/8P/Vv+7/qf+SP8AABsAqv9f/6n/JwA4AND/hP/A/zkAVADu/4L/jf/4/0IAIADL/63/5v83AFkAPwAdACIATwB5AHMAPwAYAEIAvQA3AUwB6gBtAEYAkgADATIBAwGwAJEAwgAGAfEAMADa/or9Jv1S/sgAMQPUA/sB4f4g/YX+IwKoBEEDdP4N+qr5RP0oAZgBXv7A+h762fx0AD4CiQGT///9sv2y/nEABAKRAgYCVQGdAecC8AN5A7YBLAAgAEsBRAIMAvEAAwDg/zQARwDA/9r+CP6h/cr9c/5M/8z/lP/P/if+Mf7R/lb/Nf+m/mn+8P7S/ywAj/93/tn9Qv5v/6kAXwFuARIBtwDQAH8BTQJgAkoBr//r/tb/1gFKAwUDTgGI/+D+aP9OAMgApgBCAAUAFwBjAMgAKwFyAXIBCgFiAPT/KQDEAN4As/+j/Sf8hvx0/i4AJAB+/uv87/x6/icAswAKABr/5P61/xUBIAIVAuEAXP/C/qb/RAEWAkUBi/+E/hb/jABcAcIAbf+i/tb+Uf8w/4P+NP7Z/uH/MQCK//v+rv9nAYoC3gEHAPH+w/+gAaoCCwK0ACIAxgDNATYCzQEKAXAAPgB1AL8AdgA6/7j9a/0J/0ABtwGg//r8l/zj/kEB7AAz/if8Ev3l/5EBmgCX/gv+a//aAKgAWv/b/gcAqwEFAtQAkf+0/xMBFwJ2AY7/Gf6H/p0AlQKzAuYA6/66/p4A5AJ5A+cBuv/q/vj/mQENAsAAsP5z/dz9Xf+EADIAnv46/Wb9//5fAAcAVf5M/Wv+3AAyAhEBvP68/Q3/EAF4Aeb/QP5o/iMAfgETAYX/lv4o/3gANgHuAEYABgBLALAA5ADpANYAtAClAOwAmgE0AgUC5wCl/0z/FQAXATYBVQBn/03/2/8XAH7/qP6S/mT/NwAiAFb/2P5C/woANACM/9n+0v49/1H/2P6P/iv/UgDkAEgAI/+W/vj+nv/Z/8r/AACWAAUB8ACuAL4A/wDXADYA9f/UAEMCvwKNAb7/Df/W/7gAWQAp/9L+CwCRAaABHAC0/t7+JwDqAFoAV/8o/+H/cAAIABT/mv4L/+3/igCOABEAV//B/rb+R//v/xMAwf+6/3IAWQFxAZMArP9//53/Ev/z/Zr9/P46AW8C1QGEAN7/3P+A/7D+qv47AEACpwLsALv+3/0v/jz+qP3N/bb/PwI0AwoCkQCTAIYBagGx/zb+7/5bAQQDbQKbAH//m//c/33/GP+M/4YA3gAkAC//8/5U/5b/kP/Q/4cA9ABPAOL+1P3T/X7+Kf+9/3kAKQE0AY0A//8wAK4AiQDM/7v/NwFPA/0DYQLF/zD+S/4O/0//Ef8f/8b/bgBvAMv/BP9v/gr+2v0O/rf+hP/7//j/xf/A//3/SABtAHoAvAB7AZQCSgPEAu4A3v4G/tj+SgDtAGIAjv9Z/6n/vP9D/8v+6f5///z/IAAlAC4A+/9h/7/+q/4x/8j/CgAwAJcADwEMAXwABwA2ALUAvQA+AAcAtgC8AfQBBwHo/7j/hABRAVABpgANAPL/JwBIAB8Awf9x/3H/zv8xACIAl/8m/2b/KACNABIAPf/+/of/FADr/zr/tf6c/oX+Jv7n/VP+Tv8cAEcADQDb/6v/Of+s/pf+QP8sAKUAiQA8AA0A7f/f/z8AQAFWApcCygG1AEIAiAD5AEUBmQH0AdQB6gDZ/7D/igA+Ab4AeP/Q/lD/+P+b/3b+3v13/m3/qf9Q/3L/WgDoAPz/Iv4+/Wz+rgABAoQBQQDJ/2sACwGUAD7/Q/6D/qz/sADzALcAiwCDAEUAwf+C/wYA7AAvAVIAGv+6/nf/YQCHABkA9/9eAJIA//83/1r/mgDPAb4BcAAI/3f+xf6A/1gAEAFHAcsAGQDz/1IAOgD8/ln91/zn/UH/eP+8/nX+Sv9HAEQAj/+E/6EAzwHWAQEBnwAtAboBTwFfADIAHQH/AaoBUgAz/xL/lf8GADQAXAB9AFQA3/+C/4X/p/+E/zP/M/++/3gA0wCkABkAZ/+1/kX+Wf7Q/i//Ov9e/yUAUgHlATQBxv/W/gT/2v+WAAcBZQGhAUsBRAAX/2z+R/4z/hf+ev64/0cBAwJbAeH/v/6z/qz/HAFpAhADwgKVARoACv/I/jT/4f9wALsAzgDMALMAQQAt/6/9rfwU/dH+swB8AQcBNAC8/3b//P6W/hv/wwCMAigDVwIHASUAsv82/6/+rv53/4QAGgEaAeMAjAC3/1n+UP2t/V7/+QAVAbn/Mf6Q/bH92f3y/bL+ggCeAp0D3wIgAaj/HP8//6b/RgAtAf8BGgJLARYALf/I/rH+5f66/0IBxQIpAxACOwDI/jT+U/74/jIAwQG8AkECgACw/sn9of1+/VD9z/1M/+oAZgGIAEb/jf5V/iv+Q/5K/zgB6QJDA38CwgGVAVYBYgBL/0n/mQACAjQCOgEcAHT/5f4l/tL9wP6rADACPgIfAdb/zP6m/VP8rPuO/Kr+ngBXAfsAZQAHALH/PP8E/3P/awBOAaEBXgG+APL/MP/U/in/AgDIAPsAmAD0/1H/wf5T/i/+Z/7e/m7/HAD2AMYBEgKXAbMAJwBpADwB/wFCAg8CsgFbAQcBqgBZAD0AZAClALMAZQDc/17/EP/T/ov+Xf6R/iv/uv/G/1X/4/7I/tb+u/6Z/vX++/8PAVoBuADl/7L/LAC7AOIAtwCZAKoAuACMAB0Aiv/9/q7+xv4o/3L/Wv8N//7+XP/P/+n/tv+w/x4AvwAdAREB0ACPAFAAFgAIAEEAjQCYAF8AQwCDANoAywBFAL3/nP+//7H/Uv/7/gP/SP9o/0T/I/9R/77/IQBTAHQArwAFAU0BYwE5AeEAjQB0AJQAkgAEAPb+D/4G/uH+6/9oAEgAFgA7AJAApwBVAN3/jP9e/yb/8f4T/9D/+gAGAnkCQQKhAekATwD9/xYAhQDrANEAHAA1/6b+jv6U/mr+Rf6W/mL/DQDt/wr/Gf66/fH9Y/7t/q//lgAsARIBiQA7AG8AuQCWAC8ALgDYAJYBjwGjAIb//v4s/7f/YQAuAQoCjQJZAo4BswAzAAwAEAA8AKMAEwETAV0ARP9v/jb+W/5v/mL+gP7u/lb/Pf+d/gH+/P2M/jj/rP8TAL8AlAEDAqQBwwAdACEAlwAJAU4BhwGwAX4B0gAXAOv/bAABAQcBgADv/5v/PP+F/sD9nP1X/ln/wf9I/2z+0/20/eT9Qf7a/qz/fwADAR8B8ACpAGwAWACMABgB3AGcAhMDBwNnAmcBggAtAHUA9AA+AUQBLwH2AEcADv/S/Vf9zv2h/h//Qf+D/xAAWwDF/3v+cP1t/U7+Tv/c/w4AMQBIABMAhP/3/t3+UP8JAK4AHwFkAX0BVAHcADsAt/+C/5r/2/8vAJQA+gAlAdYAFQBL//H+M//U/38ABgFSAUIBuADX/wX/o/68/hn/kf8WAIQAigD7/yP/mv6z/jn/u/8NAFYAsQD0AOQAewDv/3j/RP92/xUA3ABJARABbADh/7X/u/+9/9P/MwDGABkB4gBVANv/of+H/4L/uf9AANUAGwEKAe8A9wDvAJkADQCv/7H/2//b/6X/Z/83//f+lP49/jn+nv5C/9//RQBkAEQACQDT/6//lf+S/8z/SwDHANgAaADP/3D/Uv87/x3/Mv+b/yMAdACEAIQAdwAdAG7/5f4S/+j/uwAEAegA1QDZAKEAHwDN/xoAzQA9AR0BxgCdAIoAOQC2/23/mf/0/y0AUwCjAPMAxwALAFj/UP/T/y0ACQDX/xwApgDFADYAff85/2v/ov+u/8n/EAA0AOj/Zv8v/13/ff89//L+Lv/x/5AAhAAKAML/5P8XAA8A//9GAM8AFgHLAC8Auf+I/1z/GP/+/lz/FwC0ANAAewAMAMf/s/+8/93/HwB3AMMA1gCcACcAqf9R/zX/TP+G/+P/ZQDuAD0BHQGSAN3/TP8S/zb/nP8WAHEAkQB9AFAAHgDo/7n/rv/X/xcAOwAyACAAKgA8ACYA3f+Z/5f/0f8KABgACgAAAPX/zP+O/3X/rf8bAHIAfABHAAcA6P/t//7/BgACAAIAFAApABoA1v+L/4P/1f87AFUAFgDN/8D/3v/i/7T/g/99/5X/qf+///D/LAA0AO7/mf+I/7v/5//l/+b/JgCAAI4AMgDH/7L/8P8nACgAJwBiAMcACgEFAdcApgBvACwA+/8EAD8AcwCBAIAAgwBxACQAuf99/5T/yP/N/6f/lf+s/7P/dv8U/9z+5P74/vD+8v4x/5n/0v+z/3j/c/+q/+D/9v8OAEwAmAC7AK8ApQC5AMQAmgBWAEMAdACjAIIAHgDJ/67/qf+N/3D/h//S/wwACwD4/xMAUQBbAAgAn/+L/9P/HQApABsAQACMAKsAcwAnACcAbgCbAHIAJwAQADYAVgA/AAoA6v/g/9L/wf/O/wIALwAuAAsA8v/u/+f/1P/U//b/EgD7/8L/qP/D/97/wP+B/2v/lf/J/9P/w//E/9D/w/+k/6z/7f8oABcA1//O/yEAewB/AEEAKABcAJYAhQA+ABIAHQAsAA8A2v+1/6T/kP+C/53/2v8AAPH/2//0/ykANwATAAYAQACGAH8ANQAOAD0AdgBgABgADgBiALAAkAAmAOj//P8SAOj/q/+2/wMANwAiAPz/DgA8ADoA+//K/97/EQAkACAAPgB8AIgAKgCf/1f/dP+s/7f/o/+o/8X/wv+G/z//K/9I/2r/hP+4/xsAiADDAMIArQCgAI0AXgAkAAwAIAA9AD0AJgAXABEA8/+u/2j/Wf+H/7z/zf/A/77/z//Q/6v/f/95/5v/uv+9/8b///9cAJ4AogCNAI8ApACgAHgAVwBeAHQAbwBXAFwAggCOAFAA+//o/yIATQAnAOL/4f8lAEoADwC0/5z/wv/C/3b/N/9d/73/1v+E/zD/QP+O/6j/c/9T/5j/DQBFACgABwAeAEMAMADz/9X/9/8lACUACAAIADQAVwBCAAIAzP+4/7L/ov+K/37/i/+u/9j/+f8FAP7/9//8/wEA+f/3/ygAlwAMATwBEAG0AFwAGQDj/8f/2v8WAEwAXQBUAEwAOgADALD/ef+L/9D/CgAaABIADQAKAPv/5v/g/+X/4//a/+X/FABDAEAAAACr/2n/Q/83/1P/pf8XAG4AggBfADEACwDh/67/iP+P/8b/CwA2ADsALAAgAB4AFwD9/93/2f8GAEgAZQBBAP3/z//G/73/o/+a/8//MABwAGUAPAA5AFkAXgAvAAMAGABXAGsAOwAHABMAPQAvAN3/n//F/ykAZABOACIAHgAwAB0A3/+y/73/5f/4//n/EABCAF8AQgAKAPb/HQBSAGIATAAuABUA8f+7/4r/d/98/3//ev+J/77/AAAcAPv/tv91/07/Pv9N/4b/4v82AF0AWgBTAFcATQAcAN7/z/8KAGYAoAChAIkAdwBiADAA5/+4/8T/AAA7AFQATAAyAAwA3f+z/6P/t//g/xIARQBvAHwAYAAuAAcA+v/0/+T/4P8KAFkAlwCYAGcANAAZAAoA+P/w/wIAIwA3ADMAJwAaAAEA0v+l/5n/sP/L/9X/3P/1/xQAFQDm/6f/iP+W/7b/xv++/7H/rf+v/6f/jf9x/3D/nP/o/ywASwBFADQALQAqABoA+f/Y/8j/yP/M/9X/7P8QAC0AMwArAC8ARQBTAD4AFAD+/xAAMwBDADcAKAArAD0AUABeAGoAdgB8AHkAbgBdAEcANQArACUAEADm/7f/nv+g/6n/rv+3/9X/AQAfACEAFgATABwAGwAFAOX/z//J/8v/z//W/+P/6//l/9n/1f/c/93/zP+5/8T/7v8QAAAAyf+j/7P/3//z/9r/t/+w/8L/zf/C/7P/u//d/wUAGwAaAAsA+//0//P/6v/W/8L/v//P/+X/9P8BABAAHwAlACUALQA8AEYAPwAzADMAQwBOAEoAOgAuACUAGAAJAAoAIgA+AEYAMwAdABUAGgAaABEADAAUACQAKgAiABUADwALAPv/2P+r/4b/ef+O/8D/9P8HAOv/uv+Z/5T/mv+e/6r/zP/0/wgAAgD8/wQADAACAPT/AwAxAFsAYgBNADIAGADu/7j/l/+f/8b/7P8HABsAJgAWAOn/vP+v/8j/7f8MACsATQBhAFEAIwD3/+z/AgAiADoASwBYAF8AVgA9AB8ABwD7//3/DAAoAEQAUABMAEMAPQAwABQA8//l//j/FwAoACUAGwARAAAA4P+6/57/j/+K/47/nv+0/7v/q/+T/4r/lP+j/6//vf/T/+r/9f/2//j/AAAJAAoABQAGABMALABFAFEARAAlAAgA//8KABcAHgApAEMAYABiADsA///P/7//y//m/wsAOABgAHAAYAA8ABcA+P/Z/7v/sf/P/wkAOwBLAEMAOQAyAB4A9f/M/7//0//4/xwAOgBSAF4AXQBSAEIALQAWAAwAGwAzADMADwDc/7P/k/9s/0H/Kv81/0//X/9g/2H/Zv9k/1X/R/9L/2P/hv+t/9j/BAAgACYAIwAnADIAOgA6ADkAOgAyABkA/v8CADIAcQCRAIYAagBeAGEAVgAyAAoA+/8GABYAHgAoADYAOwAlAP//5v/q//z/BgAIAA8AHQAoACgAIgAeABsAGQAfADIATABeAGEAXgBZAE4AOQAjAB4ALAA+AEQAPQAwACEADgDz/9P/t/+n/53/j/96/2n/aP9y/3T/Zf9Z/2f/jv+0/8T/x//Q/9//5f/h/+X/+v8OAA0A/f/4/wgAGgAcABUAGAAmACoAHQAMAAoAEgASAAYA/P8CABMAHgAhACQAKgArAB4ACgAGABsAPABTAFkAWABYAFMAPwAjABMAGgAsADkAOAArABkAAwDr/9b/w/+0/7H/wv/j/wAACAABAAQAFwAiABIA7//U/8n/wf+0/6v/s//G/8//yf/E/8f/yf/B/7L/qf+s/7X/u//C/9P/7P8CAAsABwABAAAAAgADAP//+f/6/wIABwADAP7/AQAPABoAGAAPAAwADAAGAPn/8f/1/wMAEwAjADEAMAAcAAoAEAAnADAAIAAKAAwAKQBDAEIAMQAlACQAJAAdABIAEAAdACoAJwAfAB0AHgAcABcAEwAZACIAHgATABMAFgAJAOn/x/+6/8j/1P/D/6P/kv+S/5b/kP+G/47/rv/M/9T/0P/U/+L/9P8DABIAKAA7AEAARQBOAE0ARAA8ADIAIgAYABkAGwAeABwADgAEAAkACwD6/+X/3f/m//L/5//L/8X/3v/y/+n/0f/F/9z/DgAvADIAMQBAAFcAagBsAFsAVQBgAGEATgA5ACoAHgAPAPX/5//4/xIAGwASAAMA+P/6//z/6//U/8H/ov+A/3D/cv+E/5n/mf+H/4L/jf+Q/4X/ff+G/6P/wf/R/+L/+/8QACcARQBTAEwARwBFADsANAA2ADwATABfAGAAVwBQAEEAMAAtACYADQD+/wQACAAIAAkAAgAFABcAGQAIAAYADwAIAP3//P8EACAAOQAxACIAKAAnABYAEgAZACAALQAxACQAIAAjAAwA8P/x//3/BQAOABAADAAPAA0AAQD1/+n/1v/C/67/mv+V/6X/r/+l/5X/if+I/5H/m/+h/6n/u//P/9f/2f/k/+3/7P/w/wEAHQA1ADwAMQAkABYA///z/wEAFAAYABgAGgAgACYAGwAIAP3/8v/3/yAARAA9ACYAGAADAPj/AwAEAPj/+/8BAAEAFAA0AEcASwBEADYALgAoABMABQAaADMALwAiABgAEAAUACgAMwAtACoALQAkABUADQABAOj/y/+s/5X/nv+t/6L/lf+X/43/g/+O/5b/if+C/4j/iP+L/5n/tP/j/w4AIgAzADoAJQAYAC8ARQBEADsAKwAYABcAHAAcACYAKwAVAAYACQAAAPj/DgAoACUAEgAPABkAGwARAAQA/v/7//v/CgAkADUANQAyADEAKQAdACsAUwBnAFwAWABhAGIAWQBPAEcASQBTAFIASgBRAFkATgA0ABsABADu/9T/s/+c/5z/nv+R/4z/kf+F/2//dv+P/47/gP+Q/7P/xf/U//X/FwAkACIAHQAbACUALgAjABIAFAAgACIAHAAQAAMAAAD7/+D/x//R/+r/AAAUABcABgAHACUAPQA8ADcANQAoAAoA8f/z/wQABwACAAwAJwA8ADcAIgARAP3/7f8CACAAGQARACYALwAhAB8AIQATAAgABAD//xEAJAAXABYAKQASAOH/zf/P/8//zv/G/77/vv+3/67/t/+0/5P/iP+d/6j/uv/g//j/+v/+////+v8GAB0AIgAcABkAGAAaAB8AEQD3//f/CwAIAPn/CQAeABcAEQAdABkACgADAPj/9/8LABAADAAfACcAFQAUAB8AGgAkAD8ALQAQAB4AIAAIABAAJAAZAAgADQAeAC4ANQA4ADwANAAQAPb/AQAPABEAFAAWABIACgD0/9f/v/+g/3v/bP97/4//k/+P/4r/f/99/4v/lv+a/6X/sv+8/9r/BwAeACEAKgAoABoAGAASAAsAGwAmACIAMwBAACgAFQAWAP7/4v/s//P/8v8TACUADgAPAB0AEAAPACUAIwAeADMANQAmAC4AKgAPABMAJQAeACQAMAAQAOn/5v/o/+7/EQAnABwAIQApABQADgAgABQA9f/u//f/BwAgACIACwABAOn/tP+k/7z/sf+H/3v/kP+r/7X/qv+c/5X/hv+E/6j/vv+t/67/xP/U//H/FAAZABQAFAAJAAoALgBAACsAHgAcABoAIQAhABsALAA8ADQAMQA0ACMAEQAJAPn/9/8cADMALQAwAC0AFQAOABIABwAFABMAFAAUACIAIAALAAUABAD5//3/CQAPAB4AKwAdABMAIQAeABIAJQAyAB0AHQA2AC0ADgAIAPj/yP+r/6v/pv+e/6P/pv+d/4j/fP+I/5L/gv97/5T/qf+x/77/zf/e//j//f/2/wsAHgATABoAPQBOAE8AVABHADIAKgAYAAEACgASAAIADQAmABUAAAAQABIA9f/s//L/9P8FABYACwACAAcA+v/s/wEAHAAYABEAGgAWAAcACgAYAB8AJAAvADsAPQA1ACgAIAAlACYAFwASACAAJgAlADMAQAAuAAgA5//M/7z/rv+S/4P/jv+X/5//rf+o/5j/l/+W/43/kP+Y/6X/zf/y//P/AgAYAPz/5v8JABcAAwANAB8AFAATACMAKwAxADEAHgAZACQADwD5/wQA///w//7/CwAIABQAKgAtACgAKwAlAAwA+f8EABgAFQASAC4APAAdAAYABwAIABYAIQALAP3/DAASABEAIwAzACEABAD//w4AGQAdACYAKgATAPP/5f/T/8T/y/+//6X/s//G/7P/pP+h/5H/iv+Z/67/yf/Z/8T/u//g//D/4//z//3/6P/q//v/AwAdADoAKQD+//T/CgATAAgACQAaABsADQAUAB8ADQAAAAoACQADAAUA/P8AABcAGgAPAA0AAwD6/wEAAQD2//z/BQD//wMACgD4/+r/6v/p/wEAHwAaAB0AMQAkAAcA/v/+/wUAGwAkACAALQArAPv/0//L/8D/rf+c/5r/sv+//7b/t/+2/6D/m/+u/7n/vf/C/8r/6P8TAA8A6//r//3/AgAMABcAGgAZAAsAAAAUACUAFgASACoAMQAcAAsAAwABAAkADgAHAAUADQAKAP3/AwApAEAAJAACAAIADAAUAB4AHAALAP7/BgAeACwAHQABAOz/5//7/xUAEwAOACwAPAAdAA8AHQAKAOX/5P/8/wsADwAWABQA7v+0/5z/pP+l/5//pf+s/7P/wf+5/57/nP+o/6//w//T/83/z//k//v/CwAMAAIAAgALAA8AFAAdABUABAAFAAkABgAQAB8AHAALAAoAIwAtABEAAAAKAAIA+v8OACEAJgAwAC0AHQAjAB8A8//x/yUALQARABMAHQAgADEAMwANAN7/zP/j/xAAJwAgACIAJgAQAAMACAD+/wEAGwAaAAgAFAAmABEA3/+2/6T/nf+X/6T/wv/C/6H/m/+w/6z/n/+2/9D/wP+i/6r/1//1//7/DgAZAA4ABQAOAA0A8f/f//T/FAAdABoAHQAcAA8ACQAHAAEABgAZABsAFAAWABEABQAIABEAEgARABQAHgAnABUA8P/i//H/AgAQABQABwADAAIA7v/z/xUAEwD+/xEAIwAGAPL//v8JABkALQAjABMAGwARAPv/BAAcACIADQDc/6n/lP+W/6H/sf+w/4//ff+K/5D/jf+I/3z/hv+t/8v/2f/l/+7/8f/o/9L/0v/4/wUA8P8DACQACgD3/x0AJwAAAPT/DgAfACUAKQAiABoAEwAIAAYABgD1/+3/9P/w/+X/7P/3//H/5P/p//v/AADy/+z/9f/7/wAAEgAWAAQAAQAOAAoA/f///w4AJQA3AC4AEAAEABkALQAtACwAMAAmAAgA7P/e/9//3//R/8D/xf/E/6P/j/+i/6z/nf+Z/6H/nf+V/6L/v//Z/+v///8OAA0ABgAAAO3/4P/3/wUA5P/X//f/DQATABwADwD3//H/8f/w/wQAHwAiACAAJAAhACgAMgAiAA0AEgAhACwANAAxACIADwALAB0AKQAgACAALwAnAAQA+P8AAPj/8v8HABgACQD4/wgAHAAIAPr/HAA2ACoANABTAEwAJAAIAPP/1f/F/87/1P/I/7D/oP+d/5r/mv+h/6n/t//B/7T/tv/j/wQA8f/s/xUAIwD8/+3/FgAzAB4AAwADAP7/7P/0/xEAHAAkADEAKwAnAD8ATQA6ADoAVwBSACsAKQBFADsAHwAuAEYAKwAOACcAOwAWAPb/CgAnACQAFQAXACAAEQD8/wQAFgAUAA8AHQAoACMAEwD9//T/BwAcAB0AIgAyADEADADd/8r/yv+6/6T/o/+e/4r/if+d/6P/m/+W/4z/if+l/83/5//2/wcAHwA5AEUAOgAXAPX/+P8PABQAFgAqACsAEQALABoAEwABAAEAAgD9/wUAFgAgAB0ADgAEAAYAEwAkACoAHwAVABQAEwATABkAIwAuADoAQgA/ADgAJwAVABUAHQAVAAoABwABAPT/+P8UACoAHgADAPT/5f/Y//L/JAAvAAUA2f+//67/qv+y/7f/sP+h/5X/kf+O/4j/h/+V/6f/sP+y/77/2P/w//r/AQAPABkAFAAKAAwAGAAbAAcA8//4/wwACADn/9L/3v/r/97/3f/6/wsAAgAIABoACADf/9//AwAWABcAHQAmAC4AOAAvAAUA5//1/wEA+P8SAEUAQQAMAPn/CgAFAPn/DwAuACgACAD1//v/DwAcABYACQADAPb/6P/z/wUA7//F/77/y/+8/5z/jf+L/4r/lP+d/5D/gf+P/6P/nv+W/6//1v/m/+X/7f8AAAwACQADAAUAEAAaABkADAAGABUAIQATAP3/+v/7//f/CwAuACgABwAOADgAOAANAPf//v8BAAkAGwATAPT//f8oACgA+//v/xEAJQAmADcASQA6AB4AHAAuADoAOAAtACAAHQAeABQADgAfACwAEwD0////HQAWAPT/3f/P/7X/n/+l/7H/p/+W/5b/l/+P/47/mf+W/4n/lf+4/9D/3v/4/wwABQACABwALgAlACYAPQA/ACQAIAA/AFIAQwAwAC0AKQAiACUALQAgAAEA6f/g/+T/9f8DAPf/8P8OACkAFQD+/xgALAANAPr/GQAkAAAAAAAxADsAEgAJACoAPABAAEUAKwAAABIATgBUACkAHwAqAA8A9/8XADMAGQD//wYA8/+//7H/zv/A/4H/af+S/7n/uf+2/7j/p/+M/4X/hf9+/4n/rv/M/+f/GQA/ADEAGwAoACkA///u/xgALgAQAAwANQAzAO//zf/2/x4AGwATABQABgD4/wkAIAAgABwAHgASAAIABwAQAAkACQAYABgACQAHAAoABQAKACQANQAyADMAPAA/AD8AQAA2ACAAGQAwAFIAXAA/ABsAEgAaABcADgAPAAkA6P/J/8X/xP+r/47/gv90/1b/RP9T/2z/dv+B/5P/mf+S/5//wf/K/7n/w//x/xMAHgAyADkAEADi//D/IgBAAEgAQAAaAPT/8v8DABUAOABIABEA1v/u/yUALAAqADwAIwDe/8f/7f8MABMAFwAPAPv/+v8FAAYABgAQABwAJgAuACUAFwAaACAAFQAbAEAAUQA2ACEALgA2AB8ACAALABMACQD8//n/+P/o/9b/0P++/5H/b/+D/6b/nP93/2z/cf9s/3X/ov/I/8r/yP/X/+P/7f///wUAAwASACIAEQAEABwALgAXAAgAGQAaAP7/8P/+/w0AFgAaABQADQAQABMAFwAlACcACQDu//v/GAAlACwAMAAYAPr/CAAlABUA+P8QAD0APgAqADYARgA1ABkAFgAqADsAMwAgACsATABEABgAEQAwADQAHgAdACMADgDx/+L/3v/c/8//rP+X/6v/t/+R/3P/k//E/8z/rf+O/43/sf/g//3/CAAKAAcAFAA3AEEAIQAJABEAFgAGAAAACgAIAAIAEgAjAA0A6//z/xYAFQDx/97/5P/q//P/CQASAAIA+/8NABMAAQD7/xEAHgAPAAYAEQAOAP7/CQAqADUAKwAsACwAHAAXAB8AHQAbACYAJAAXACgAOgAWAPD/HABUAC4A3v/G/8r/sf+g/7P/uv+e/5X/q/+y/5//lf+T/4j/jP+m/7P/tf/Z/woACADq//H/FwAtADIANAA4ADsALwASAAkAIwAqABMAFwA2ADYAJwA2AEAAIQAPACYAOQA4ADcALwAhACsAQgA8ACUAIQAoACIAGAAcACYAIgAOAAIADQAgACsAOwBJADEABwAEAB8AIgAbACkAKwANAAAAEwARAPf///8iABgA4v/A/77/t/+m/5T/fv90/4H/kP+V/5//mv9y/1v/hP+w/6n/o//C/9H/xf/d/xEAHAD+//D/+v////3//f/9/wAAGQA5ADcAFAAFABEADAD7/w4AKQASAPX/DwAtABwADAAMAPb/7P8WADAADwAGACgAHQDw/wUARgBJABIA+v8MABQABQD9/w4AHQASAAsAHwAnAAoA+f8SABwA+v/n/wQAIgAeAAsA+v/g/8n/zP/a/9T/v/+u/6D/kf+O/5v/rf/A/8b/sf+X/57/tf+7/8H/1//n/+3/BgAiABkA+v/r/+f/6f/7/xoAKgAjAA0A+P/z/wQAGwAmABsABgD//wwADQD3/+r/7//n/9j/6f8LABEAAAD+/wgAAgADACkATgA4AAoADQAuACgAEQAgADQAJgAiADkAOgAfABwALwAuACUALgA9AD4AOwA6AC4ACgDa/8H/xf/E/7L/rf+4/7T/l/91/2b/df+W/6j/rP/A/9L/v/+l/7H/0P/p/wAAEwAYABcAEQAAAPb/AAAJAAgADgAbAB8AHgAZAAsABgARAA0A/f8LACQAHQAXADQAPAARAPD/9/8EABQAPABXAEcAMgAzADQAMAA3ADsAMgAoAB0ADwARACMAHgAKABMAIAAEAPT/IwBEAB0ABAAyAE0AKgALAAgA/P/z//L/2//D/8r/uf+A/3L/mf+c/4f/pf/H/6//jv+R/6D/sf/K/9X/2P/o//T/7v/2/wMA9v/n//L/+v/0//3/CwD///b/GQBDAEIALAApACkAEwACABUAMAAwACMAMABQAFIALQAcADcAPwAbAA8AMQBCACwAHgAgABwAHAAiAB4AFwAfACUADADl/+H//f8KAAUAIABKADsABgD//xsAEgDv/+r/8v/W/6b/nP+1/8H/sP+k/6D/j/+B/47/lv+L/4X/i/+Y/67/wv/K/97//P8BAPr/BQD//+r/9v8SABEACgAaAB4ADAAIAAwABgACAAIABAAWAC4AMQAhABoAGgARAAQACAASAA0ADAAhACMA+P/h/wgAJwAWAA0AHAASAPH/8v8TACAABgDs//L/DgAcAA0A/P8AAAUA9P/v/w8AGADv/+j/FgAcAPD/4f/b/6j/g/+W/57/f/9s/3T/if+c/5L/fv+M/6j/ov+S/5L/hf99/7T/BwAiAA0AAgABAPP/8P8LABMA9//2/yEAMgAXAAMA/P/4/woAGgAHAAUAIgAZAP7/GAA7ACwAGQAgABoADwAXABgAEQAcAB4ACAAGACIAKwASAAMAFQAdAAMA7/8GAB4AEgACAAMABgATACAAFAAJABcAHgAOAAoAFwAcABEA9P/Y/97/4P+1/53/sf+n/3v/bf9x/3H/hf+V/4j/oP/a/87/lf+e/9L/5P/u/wwAFgAIAAQADgAUABUAFwAXAAwA//8PACIACgD3/yIASgAqAAQADwAcABoALQBAACkA/f/l/+b///8qAD8AIgD6//D/8f/t/wkAQgBGAAMA2f/o//H/6/8IAC4AKgATABEADAD1/+//EAA4AD8ALAAnADkARwBIAEgANQD//8v/vv/G/8P/vP+9/8D/uv+m/47/g/+H/43/kf+a/6r/sP+p/6P/sv/V/wAAHgAaAAIA9v/z/+r/7P/6//L/4P/7/y0AOAAyAD0ANAAPAAcAHAAkACYALQAxAEEAYABaACQAAQAGABEAEwAVABYAFwAXABMAGAAkABAA5//s/xwALAAJAOr/7f8BAA4ADAAIAAwADQAKABMAIAAWAAoAHgBDAFIAPgAJAMP/k/+M/53/sP+0/6D/hv98/3f/c/+G/6D/lP97/4X/n/+w/8z/6f/d/8b/0v/s/wMAKgA8ABEA4//t/wMAAQAJACYAJwAEAPb/EgAtADAALgAsABoABwAIAAUA9v8HADEAMQALAP7/FQAoAC0AJwAZAAkA9//q//z/FwAKAPr/GgA4ACEACAAGAP3//P8TABIA+P8KADwARwAxACQAIgAvAEUAQAAlAAgA1v+l/7z/8P/Y/5r/lP+f/4X/ef+b/6n/ff9W/3j/u//I/67/wP/x/+z/yP/Q/+3/9P8FACcAKAD5/9D/3v8WAD0ALwAEAOj/9f8xAGwAaQBCACkAHgAqAFEAZABMADQALgAdAA0AGQA2AFEAYQBbAEgAJgABABIAQgAxAAEAGQBHADcALAA+ABsA6f/2/woABAALABMADQAdACsAFAADAAoA9v/Z/9f/1v/W/9n/wf+b/3f/SP9H/5H/sv+B/3r/pf+R/2n/c/+E/6P/0P/C/7L/7P8FANj/9/9EABwA2v8HACsAAQD8/yMALAAeACAAMwBBADkANABEADQABwAmAHcAaAAlACkAPQAuAD0AXABCABAABwAWABwAHQAXAA8ACQAGABEAFQD+//r/EQAIAPL//v8LAP7/AQAUAAYA8P/7/xAAGgAYAA8ACwD+/+v/+v8EAMn/jf+b/7T/qf+x/8X/s/+i/6f/ov+i/6j/lP+R/77/1f/L/+f/FwAPAO//9f8AAOX/zf/m/w8ABgDu/w4AJwAMABsASQAkAOH/8f8LAO7/+f8qAB0ACQAvADcABwD9/yYAMwASAAkAJQAnABIAMABnAEYA+f8FADkAJQD5//n/BwAPAAwABAAMABIAAgAAABIADAADABYACgDw/xAAFQDQ/7v/0/+x/5n/yP/R/6H/mf+T/2f/bf+Y/5L/hf+a/7n/1//N/6X/uf/w/97/yf8MAB8A2f/n/zIALQAXAC0AJgAMACAANgAlABQAGAAvAFEAUwA8ADoALAAQACYANwAQAAcAKgAkAA0AGAAGANL/4P8SABUACQARABkAEwDv/8L/y//z/wcAIQA7AB8A9f8CABAAAQAPACEACwAIADAASQBFAEAAOAAfAP//7//p/8z/pf+q/8T/uP+z/8D/hv8+/2f/qP+b/5j/u/+q/47/vv/v/+X/3P/o//3/IQAyACwAMwAvABcAMABfAEwAKwBJAGMAVQBbAGYATAAyACwALwA0ACQADQAgAD4AJwAGABUAHwACAPf/CwAcABkA/P/k/+7/+P/x//z/DgD8/+f//P8kAEAAQgAcAPb/AgAhACgAIwAmAD8AXABLACEAHAAaAOL/wf/i/9j/mf+b/8v/xv+n/6b/nP9z/2X/h/+n/6X/nP+s/7z/uf/J//D/9//s//v/CwAOACEAIAD0//X/MQAzAAUAHgBaAFQAMQA0AD8AMwAlACoAPQA/ACcAKQBPAE0AKwAwADQACQACADUAOQAaADQAUQAlAPr/AAAOABcAIAAVAAgADAD4/9v/8/8cABMAAAAJAA0A9v/d/9//AgAiABoACQADAOD/uv/I/8z/mP+C/6T/sP+Z/4n/ef9z/5D/sv/G/9z/z/+j/6v/1v/U/8v//f8vACgAGQAuAEoASAAuACIAGwDu/9X/FQBOADsAOQBZADgA+v8IACEAAQDx/wAA+f8DADoAUwA5ACoANQAvABMAAgADAAgAEAApAEAALwAQAAwAEAAVADAARAA7ADgAOgAfAAIABwARAAsABQAAAA4AMAAsAAwADgARANz/rf+s/6f/qP/N/93/xf/B/7//n/+e/73/sP+R/6n/yf+1/6j/2P8YADQALgAlACgAHwAJAA0AHwAUAAEAFgA2ADIAHQAQAAcAAQD///n/9f/+//7/7P/m//n/DwAeAC0AMgAoACMAKwA1AD0ANQAXAAAABAAPABIAEQAFAPb/AAAYABcABgAHABAAEQATABYAFwAWAB8AOwBQADQAAwABAB8AGwD6/+f/4f/X/8b/sv+w/7z/s/+g/6z/sv+K/3j/nf+q/4v/i/+v/8j/2//w/+j/1//x/xkAFgD+/w8AOgBAACQAJAA4ADEAIAAvAEAAKwAUACMANwAuABwAHQAjABUA+P/k/+T/AgA2AE4AKgD//wIAEAAGAAMAEgARAAcAGgAtABMA6//r//r/8f/4/yIALgAHAAAAKAA3ACUAKQAuAAgA5P/9/ysALwAVAAsA/f/I/5P/i/+E/2P/bv+1/83/nv+N/6z/qv+J/5H/uf/H/7z/zP/6/xQA///h/+X//P8OACEANgA6AC4AIwAWAAUABAAUAB0AGAAUABAACgAIAAEA7v/p//T/7f/k/wgAJAD9/9//CAAqABYACwAWAAkA8//w//f/CAAbAAgA4f/d//f/EwAwADYAGgAUACUADQDt/xUARgAmAPn/DQAjAAwAEQBLAFcABACt/6L/tf+r/6H/sf+x/5r/mv+n/4//cP+G/7D/tP+k/6P/rP/A/+X/AQD9//P/+P8BAAwAGwAbAP7/4f/l/wIAFwAUABMAKgA8ADAALABJAFcALgD4//D/EAApADEAQgBXAFEANgAmAB8AGQArAEIAOgAnACAACgDy/wMAJgAhAAkACQAaACUAIwAKAOb/z//S/+T/9v8OADMAOgAIAOX/BgAYAOb/xf/Y/9D/rf+r/7z/wP/M/9X/u/+b/5//sf+9/9j/+f/0/8b/sv/b/wYA/f/t/wQAHgAdABkAEQDu/8v/y//l/wQAGwAjACUAKAAkAB0AEwD+//P/DQAoABQA7v/x/xEAHQARAAsAEgAPABEAMABGACoACQAPABkADwAWACsAKQAaABIABwAIACEAKwAXAAYABAD4//L/AQAKAP//+f8HABgADgDy/+r/+f/6/+b/1//G/67/sf/E/73/tP++/6r/hP+h/+L/1/+o/7v/5v/c/8z/5P8AAAkADAACAPX//f8FAAEADwAjABAA8/8AABkAFAANACMAQgBZAGEASQAjABYAHQAPAPj/DAA9AEsALgAcACkAOAA6ADIAIwATABEAIQA8AE4ARQAoAA8ABgAEAAsAJQBHAFMANwAMAPv/CQAUABAACwAPABUAEAD8/+v/3f+7/43/ff+I/4//nv+t/43/Vf9T/3r/i/+M/5P/i/+G/7D/6v/9//3/DAATAAMABQA4AGgAVQAdAAoAHAAiACYAQwBPADAAIAA2ADIACgAEACkAOAApACEAGgAUACgAPgAgAPb//f8PAPr/4f/d/9j/3/8AAAsA/P8KAC0AIQDx/9r/3//t/wwAMwBAADIAHAAIAP//EQAoACsAJgAlABMA7f/n/xIAJQDv/7P/sf+5/57/kv+6/9X/s/9//3D/f/+R/6z/1f/w/+j/2f/s/xEAHQAXABQABQDx/wMANABFADMAKAAYAPn//f8qADsAIwAZACYAKAAlACkAIAAOAAoAAQDt//j/HQAkAAoA+v/w/93/3v/8/w0A+v/h/+b/AAAFAOz/3v/q/+//8P8TADMAFADr/wEALgA5AEEATQAsAPD/6P8MACEALAA6ACAA1/+f/5v/rf+0/6//n/+G/3P/d/+Q/6r/qv+V/4X/hf+N/57/vf/f//H/7v/m/+H/4v/t//3/DQAcAC0ALAARAPz/BAAPABAAIgBIAFgAUABSAFUARAA7AEoASgAyACgAMwBAAE8AYABgAFEARgA3ABwABQAAAAsAGAAWAAMA/f8JAAgAAQAHAAYA+P///wkA6v/Z/wsAMQAQAAMALAAkAOr/8/8pABYA3//n////3P+3/8T/zP+0/6b/sP+0/7D/tP+5/7X/tv+9/8H/yf/n/xgAOAAyABsADQAKAAkABQD2/93/0//l//7/AADy//D/AwAcACwALQAmABsAFQAaACAAHAAYABwAGAAGAAUAJwBSAFoANwAIAO//7v/7/xoASABfAFAAOwA1AC4AJQAbAAEA4v/s/xUAKAAnACkAIAAMABgANAAnAAMAAQAXABkAAwDj/73/p/+q/7f/xv/U/8v/rP+T/4P/d/+B/5b/kf+L/7H/4//4/w0AHwD+/9P/7v8eABgADAAmACMA/P8VAGQAbQArAAgAEQAIAP3/GwA6AC8AJwBAAEMAEQDm/+v/+v/3//v/CwAAANj/zv/2/xQAAADo//3/FwAGAPP/FAA6ACUABwAgAEQAMQATACwAVwBTAC4AHwAqACsAIAAyAGEAbQA7AAoAAwD6/9f/u/+t/57/pf/C/8L/nP9+/23/VP9X/4n/sv+3/8H/0//Q/8//7P8GAAgACwAXABcAFAAsAFQAagBdADwAIgAVAAkAAQAEAAIA+/8QADwARwAiAP3/8v/2/wwAMABIAEYALgAKAPv/GAA+AD4AKwAiABMABwAiAEEAKwANACcARAAjAP7/FAA6AD8AOQAqAPz/1//u/xUAFAANACQALwAbAA4ABADY/6D/jf+Q/43/iv+H/3f/c/+J/5T/i/+Q/5P/d/9x/6H/w/+0/63/vv/F/9v/HABLADwAKAAtAB4A/P8EACcALgAoAEIAXwBOACcAIAA4AEEANwBBAGUAdgBjAEwARgBEAEAAOQAuACoAMgA4AC8AJAAVAPz/7v/+/xYAJwA5ADgADQDc/9f/8P/8//z/AQALABgAJgAiAAYA6v/n//r/CwALAAIAAwD9/8//lv+S/7v/0//N/7r/j/9b/2L/nf+i/2X/V/+X/8T/0P8EAEAAIwDf/93/+f/t//D/LgBUADYAHAAmACUAHAAsADcAGQD+/woAHgAgAB4AJAAvADUAKwAeACMAKQAVAAMACwATAAQA9v/2//f/AgAiADQAGADs/9//7f/6/wcAFQAQAPX/6f/9/xMAFgAcACsAJgARAAYA9//h//b/LwAzAP7/6//x/8X/m//M//f/rP9Z/4f/2f/M/6L/sv+//6L/pf/T/9H/pv+3/wgAQwBWAFsARQAZABgAQgBMAC0AJgAyABgA7f/n//f/9f/2/wsAEgD5/+X/8f8DAAcABQAEAPv/8f/8/xkAIwAXABUAJAAnACAALAA4ABsA8/8CAD0AWQA8ABoAFwAlAC0ANAA1ACQAFQApAEQAOgAlADsAVwAvAN7/xP/r/woA/v/i/9H/wf+n/5b/pP+w/43/XP91/8b/6v/U/8v/0v+w/4X/o//r/wgAAAASADUAOQAaAPT/2v/d/wUANQBGAC8ACgDx//D/9//x/+P/8P8ZADgAOwAtAA0A3P/G/+r/HwA4AD8ASAA8ABkADAAlADIAFwABABIAKQAgAA8AGQAvADUANAA9ADYAEQD5/w8AMAAxAB4ACgDw/97/9v8kACIA7v/M/9L/1v/F/7n/sP+W/33/e/9//4P/mP+v/7D/vP/m/+z/rP+F/6v/0P/M//D/QQBVAB8ABwAXAAUA6P8FAC8AJgAdAEMATwAbAPn/DQARAPH/7f8NAB4AKgBUAHMATwANAPb/FAA/AFgAUgA2ACkAMwA5ADEALgAwACwALAAuAB8AEAAlAEoARAAhABYAHAAJAPD//P8ZABcA+//e/8//4P8cAE8AOgDu/8D/zv/n/9r/s/+Q/3r/bv9w/4r/p/+h/33/a/+A/5v/oP+Z/5f/n/+3/9f/5v/o/wAAKgA2ABsACgAmAE8AXwBPAC4ABwDp/97/5v/w//v/FAA1AEcAQwAzABUA4/+3/7P/2P8CABUAGQAaAA8A9//t/wAACQD+/wcAKwAwABMAFQA3ACoA8f/d/wUAKwA4AEcAVQBFAC0ANgBPAEYAJQASAAwAAQAHACYALAD4/7r/sf/J/8j/of95/2n/df+T/7P/vP+q/5r/nP+J/2D/cP/R/yAAGAAAACAATgBFABMA7//2/xMAHgATABMALgBAAC4ADQACABYANgBAACUABAAHADAATQA2AAMA9f8ZAD0AQgA8ADoAOgBCAEoAOgAiAB4AHgAMAAIADgAOAAcAFwArABwABwAKAAkA9P/x/xQANwA9AC4AIQAdABYABgAEABcAGAD0/9z/7v/4/87/ov+l/63/iP9p/5T/2f/k/9T/6f/y/77/lv+9//H/9//+/xQAAgDj//n/FQDz/9P/AgA2ACEAAQAUACcACQDt/wMAIgAVAPD/8f8bADIAEQDp/+3/BwAOAAgADwAiAC8AKQAYABEAHAAiABkAEQARABAAFgAmAB4A/v/7/x8AKQAOAAIAFwAwAEQASgArAAIACwA5AEkALwASAAUACAAUABAA9f/h/9L/sP+U/6T/wP+6/6f/nf+A/03/O/9n/6n/zf/E/6//uf/n/wwADwADAPn/7v/q////KQBJAEgAMAAdACoATQBfAD8ACAACADgAYwBaAEYAPgAkAPP/3P/r//7/CQAgAEUAUwAlAN3/zf8UAFsAUAAbAAwAIAAmACMALwAvAAcA6f///yAAHAATACAAHAADAAUAEwD2/83/2f8AABIAGAARAOT/s/+o/6z/n/+S/5D/lv+2/+b/7//G/6L/n/+h/5T/iv+d/8T/4P/5/y8AWgA6AAoAEAAHAL7/pf/w/x8ABgAPADgAFwDQ/9X/BQD//+H//v86ADgA9v/R/+z////p/+7/IQAuAAwACgArACwAFAAOAB0APgBiAGAAPQBCAGAAPgDx/+b/HwBBADEAGgALAPX/6P/+/xwAEQD0/wAAGwALAPz/GQAQALj/hP+n/7b/i/9z/37/iv+t/9f/wf+M/47/rP+s/7z/7f/y/8P/u//r/wgA9P/l//b/AADs/+v/GAAtAAAA7f8vAGgAUQAtACYAGAAHAA8AEAD+/wgAHQASAAQAFAAUAPf/9f8QABcAGgBBAGcAVAAPAM7/xP/x/yEALAAlACMAHQAXACUAMwArACMALQAoAA0AFwBDAD0AAwABAEYAWgAnACEAVABIAPn/1f/h/9L/u//N/+D/2v/g/+L/qP9b/0b/V/9i/4j/0/8EAPf/2//S/8b/uP/G/+L/6P/t/w0AFwDw/+f/EgASAOL/7f8jABQA7/8mAGoAPgDu//7/RQBiAFAANQAjABQA8//X//f/OQBGADUAVABwAEMADgAWAB4AAwAAACIAPABHAEkAKQD8//H/9//0/wwAQgBaAEcALwAXAAIAEAAyACoADgAbAC8ADwDW/6n/gP9n/3r/k/+Z/6//0f/A/4H/U/9G/1L/e/+e/6P/yP8WACcA5f/G/97/3P/P//P/FAAAAPr/HgAZAOL/3/8iAEAA+v+v/8n/EAAIANT/7/8yACUA/P8VACsA///x/ygANAD8/+//KQBbAFUAHgDi/9b///8nADUAOQAvABgACgADAAwANwBWACoA4v/X//X/DQAjACkABwDt//X/8P/j//f//f/E/5v/tv/G/6P/jv+Z/4z/af9d/3P/jf+V/5f/tf/m//j/8f/9/w4A/P/z/xQAJwALAP//HwAwABEA8f/2//7/5//Z/wEALgAjABAALAA3AAYA4f/r/97/wP/m/zkAUgAuABMAEwAJAO3/5P8EACoAIgACAAoAPABaAEcAGwACAAgADgAJABMAKAAaAAAACgAWAAgAIwBwAIUATwAsACAA+P/W/9D/tP+P/5z/xf/a/9z/vv+I/3X/dv9X/2b/1v8KAK3/cP+r/9H/xP/n/xsAFAATADEAJAAHACYARAA1AEAAXwA+ABAAKwBSADgAFAASABAAEAAkACgADQABABMAFwAEAAQAIwA6ACUA/v/4/xQAJAAOAO7/5//3//v/7v/8/ycAMAAVAB0APQAqAAUAGwA+ACkAGgBCAFQAJAD4//z/CQAFAPf/5v/N/7H/r//V//H/1/+u/57/gf9T/2D/kv+G/13/h//a/+H/tf+k/7H/zv8AACAAHwAoACwA///h/xkAVQBEAB0ADADt/93/FQBRADIA8//w/w0AIAA+AFIAMgAJAA8AGQADAAoAQwBhAEIAGgASABoAHgAMAOz/6f8MABsA/P/g/+f/8//z//f/DAAoADUAIwANAAYA+f/k//L/JAA8ACQACQAJAB0AKQANANz/1f/t/9f/nf+T/7D/s/+k/5v/lP+l/9H/1f+e/4X/ov+v/6j/yf///xgAHQAYAPf/4f8BAC0ANAApACEAFAAVAC4ANAASAP7/FAAqACIAGgAtAE8AXQBJAC4ALwA6AC8AJQA+AEcAEQDc/+z/CQD3//D/EQAdAAoAFgAvABcA8f/6/xsALQAuACIAGQAkACUAFQAxAG8AZwAjABcANgAsABcAHAAGANr/2P/e/8j/1P/1/8v/fP9m/2X/XP+L/8b/q/+A/5//s/+N/5b/0//h/+L/HABGADIAJwAlAOv/vP/5/1IASQANABMAUgBvAFMAMQAfAP//0P+7/8//+v8iACoAEwAQAB8AAQDI/8T/3//i//r/OAA1APX/8P8eABcA9//9//j/3v/q/wAA8f/6/zMAQQAZAA8AGAAAAO7/AQAIAPf/+/8ZAC8AIwD2/8b/tf+m/5H/tP/5/+b/g/9b/23/Wv9U/6//BADo/6v/pf+w/7P/yv/l/+r///8pACkADgAkAFIAOADw/97/CgA/AGgAagAuAAAALgBkAEEADAAWAC0AKgA1AEgAQgBDAEwALgAQACwASwA+ADwAQwAbAP7/JAAzAA8AKABoAEsA///8/xEA+//6/x0AGgAGABgAIgAEAP3/FgAfABwAEwDf/7H/1/8MAN//h/93/57/tv+7/7j/pv+R/5j/tf/G/7//uP/O//b/BwD1/93/1P/U/+D/+/8YACQAIAAeACsAPwBFAC8AEgAUADIARAAyABQABAD+//3/BwAOAAUADQA7AFkAMwD6//r/IAAkAAAA8P8IABsAEQARADAAQAAkAAcADgAYAAwADwAxAEkAPwAtAB4ABgD1/w4AQABMACAA8f/x/w8AGQAFAAEAIQAqAOr/of+g/8D/sP+S/6r/zP+0/4j/g/+R/5L/nP+u/6D/ef95/63/4P/p/+b/+v8YACcAKgAyAEUAWABMAA0A1P/t/zIAPAAYABoAOgA1ABcABwD9//X/CAAjABYA/v8ZAFgAbwBCABIAGgA7AEMARQBRAD4AGQArAFEAMAAKADcAVwAYAP7/TgB9AFQAQABFAB8A/v8SABUAAAAgAE8AQwA2AFUARgD2/8n/yf+1/6//3v/0/8n/oP+M/27/ZP+C/43/fP+Z/87/zP+7/+X/DgD8/+7/+P/b/7//9f8xABoACQA+AEoABQDd/9//vf+j/9b/BgD7//T/+//m/+T/DwASAO3/DQBTAEAA+P/m/+//2//T/+r///8XACwAFADz/w4AMgASAPD/EQAtAAoA8/8bAEAAMgAhACsAMgAtADUAQgAwAAwA+v/7//7/BQABAOD/zv/r//3/zv+M/3n/jf+l/6f/kf+G/5T/jf9t/3j/qP+l/4T/ov/m/wMAEAAjAA8A7P/1/wAA6f/7/0IAXQBHAE8ATwAVAPz/LgA5AAcAFABYAFgAMwBMAGUAJADh//T/EQD6/+z/BQAPAAwAHQAdAPD/2v/6/w0A9//v/wAACwAYADAAJgD2/+X/AwAaABYABADt/+3/HQA/ACEADQA+AF8ALwACAAkA9v+1/6P/yv/Z/8P/tf+j/4X/fP96/17/YP+r/+H/w/+i/7H/uP/E/xYAYgA9AP7/IgBpAGkAQAAeAP///v8rAD0AFQAFACUAOAA5AEoAQgAPAAIAJQAgAP3/EAA5ADIAJwA+AD0AIwAtAD0AFwD+/ykAQAAXABAAPQA0APj/9f8hACEAAQD+/wQA+P8BACEAJwAZACEAKAAUAAEA/f/v/+v/EQAuAAkA0//R/+X/3P+//6//rv+4/77/s/+q/7f/t/+P/3j/oP/a//X/AAAGAPn/+P8dADwAMQAlADYASgBSAFAAKgDu/+r/JAA4ABAACQAxAC0A8v/h/xUAQQA3ABQABwAjAEQAOAAMAAMAGwAdAA4AIQBJAFgASgArAP//7/8aAE8AWQBMAD8AJwAYACoAJwDs/87/BwAzAA8A+v83AHEAYwA8ACQAEQALAAoA5f+z/73/5P/H/4v/k/+z/5H/Yf9y/5T/jf+E/5P/mv+k/9P//f/w/9v/6//2/97/1f/1/xUAHgAfACMAIwAbAAcA8//7/xgAIgAdAC0APAAfAPP/6//1//v/DAAdAA0A9P/9/w0AAgD2//f/7//z/yAAQQAhAPr/DAAlAA0A9/8SADcARgBOAE0APQA3ADQADwDw/xMAOwAZAO//GQBbAFkALQAIAOD/xf/a//H/zP+K/3L/ff+I/4v/fv9i/1//gf+T/4//pv/C/6j/j//I/xcAJAAXACsANwAyAEYAXQBJAD4AWwBaACwAKQBMAEUALQBUAH4AUwAVABUAGwD6//D/DgAXAA0AHQAnABcAHwAxAAsA3f8AADcAKwATAC0AQAAtACwANgAbAP7/CwAYAAsAGABAADwADwD9/wMA9v/u//3/+P/o/wUAMAAnAAgA+P/P/47/ef+L/47/nv/V/+r/uP+J/4f/kP+f/7P/qf+N/6b/4f/o/9D/6v8PAPT/2v8HAC8AEgD9/xYAHwAiAEwAVQALAOH/GAA5AAwA8v8BAOn/v//W/wEA8f/b////HwD8/87/zv/c/+z/FwA+AC4AEgAeACgAEQAMACcAKgAQAAoAGwAnAC0AMgAoABcAGAAmACQAEwAKAAsACAABAAAAAgAEAA0ADQDq/7//s/+6/7f/q/+a/5D/pf/Q/9f/t/+s/7z/uf+t/8n/9P/7/+7//f8aABQA/P/9/wwAGAAzAFcATwAZAPT//P8WADQAQwA3ACoAQgBeAEwAFwDy/wMAOgBdAEUAFAD+/wQADgAaACEAFADy/+L//P8nAEQAXABpAEoADAD3/xYANABGAGIAbgBVAC4AEQAAAAcAJgAyABMA7f/q/wcAIgAiAP//w/+d/7T/4f/Z/6n/lP+Z/4//kv+z/8H/of9//3P/cP95/4//nP+i/7j/0P/L/8P/6v8tAEEAHQD///z/9//8/xoAKwAYAAsAGgAtAEAARQAWANn/5f8qAEQAIgAKABgAJwAcAPz/2P/A/8P/6P8ZADIALwAcAAkAAQABAPn/8v/8/wUAAAAKACIAHwAQABkAIwASAAwAGgALAO//BgA8ADwADgD3//X/zP+W/6H/zf/B/5P/kv+n/5n/hP+G/3j/Zf+E/7X/tf+f/63/0P/j/+r/7f/k/+D//P8qADkALQAqACsAGwAVACgAKgAPAAYAFwAaABMACADo/9P/9P8eABwADwAUAAEA0//H/+X/8//f/9H/4P/2/wIACwAMAAEAAAAMAAcA9v/9/xIAFAAYACwAJgD///H/DwAvACwAEQD//wAA/P/8/yYAVgA3AOf/yf/M/6b/d/9//53/n/+k/7z/uf+S/33/if+O/5X/xf/y/9n/uf/l/yAAHwANABYADgD0//z/HwArABwADwAPAA8ABAD5/wIADgAKABAALgA1ABEA8P/r//T/BwAbABQA+P/1/xkAOAAzACEAEwACAPv/GAAvABcAAwAfACYA/v/5/x0AGwABABwAQQAxABYAGwAfABsAMABLAD4AGQAKABcAJwAyAC8ABwC//5f/pP+z/67/t//M/9T/0f/K/7D/kP+J/5T/nf+m/7T/zP/v/wgADgAQAA8ABAAHAB4ALAA0AE0ASAAMAOn/DQAoAAgA8P8MABoAAAABADgAUgAsABkAOQA9ABsAHwBDAEMANQBIAFkARgA1ADcALAASABEAMQBDAC4AFwAeABUA4v/W/xQAPgAcAPr////5/9f/0P/w/wMA8//s/wQAFgAKAPX/2/+u/5X/s//S/8H/qv+s/6z/pP+m/6j/pf+v/8P/zP/K/8v/zv/Q/9z/AgArACkABAD5/w8AGgAbACQAGAD6/wIAIwAcAAQADQARAPX/8v8kAEEAGADk/9v/1v+//83/DgA0ACIAFgAcABAABAAWACMAIAAkABoA9v/z/xgAIAADAP3/GAArACwAJwAeACAANgBDACsACQAOACYAGwAJAC0AWgBAAAYA6v/K/4r/Zf9z/4r/mf+q/6n/kP99/4H/hv93/2L/YP9t/3r/mP/Y/wwAEgAIAAcA/v/0//r/BAAJAB0AMQApABgAFQAfACkALQAnAB4AFQASABsAKwAmABUAFwAoADEAMQAyADAAKQAaAAsABgALAA4AGgApAB4ADQAkAD4AMgAoADgAMwAOAAAAEgAlADcARwBDADYAOwBGAEMAPgBIAEwAMgATAA0ABADc/77/xf/P/8v/0v/Q/7b/sP/B/7X/mv+j/7j/qf+R/5P/pP+4/8n/z//b/+3/7f/j//X/FwAgABEACwAIAO//0//c//n/+v/n/+z//P/8////EAARAAcACgAOAAoAGAAmABgADwAfABwABQAIABUACAAAABIADgDi/8v/4v/2/+z/9f8pAEQAJgASACAAFQDy//3/JQAgAAQAFQA5ADkAKwBEAGoAUAAFAOb/8v/S/5z/sP/f/8f/oP+2/7z/ff9d/5P/xf+6/6r/wf/i//T/BQAXAAwA5//e/wIAKAA8AEUAOgAcAA4AHwA3AEMAQAA0ACoAIgAdACkANwAkAAMAAgAQAAwACAAQABAACwALAPz/3//f//j/AAD5//7/BQD+/wEAGAAgAAoACQAtAC4A///3/yQALgAOAAkAFgAFAPD/+v8PABwAHgAGAOP/0v/D/6P/kv+h/6n/mP+M/5H/kP99/3T/jP+e/4r/df+B/5n/tf/k/wEA7//p/wgAEAD8/w0AOAA2AA0ABAAhACoAFQAVAD0AUwA0ABMAFgAgAB4AIgAjABEA+P/p/+3//v8AAOL/0P/o/wEA/P/7/w0AFQAKAAYAEQAWABYAKgBJAEkAJwAPAAcA+//6/wsAEAAHAA4AHQAZABAAEAAAAN7/zv/c//D/7f/W/8f/yv/J/8b/xf+y/5L/iv+T/4n/gf+Q/5X/kf+y/+D/4P/T//b/JgAiAAYAEwA5ADgAHQApAFAATgAtACIAHwAMAAgAGQASAPz/CAAqADsAPgA5ACoAFwAIAPr/+f8MABkAFwAXAB8AHAALAAAACAAZAB4AGAAYAB8AHQAYABgAEgD8/+r/8/8LABAAAwAEAAkA9P/l/wMAJgAoAC0ARgBAABIA9f/v/9n/sf+X/5j/pP+r/6v/r/+x/6P/kf+N/5X/nv+o/7j/0f/n/+L/1P/Y/9n/zv/f/wgADADs/+T/+/8OABEABwD8//z/+f/p//T/HAAkABMAJAA+AB0A6P/s/xUAJAAYABMAGQAeAB0AGQANAP7///8ZAC4AJgARAAsAFwAgABYACgALAAIA4//f/xUAQQAzABcAGQAdABEAEAAcACEAKABCAFYAPgAMAOj/3P/T/8n/w/+6/7P/sf+s/6T/q/+9/8f/y//J/7n/tP/S//X/AQABAPz/9f8AABsAIQASAAIA8v/p/wIAJAAjAA8ACAAKABAAGwAhABoAGQAgAB0ADAD8/wAAHAA5AEQAQAAxABYACQAXABwABgDz//j/CwAlADUALAAiAC8APgAzABwADgAGAP//9//1/wgAJgAwACoANQBIADoAFQAIABgAGAD7/9//zP+1/6b/sf/A/7X/nP+T/5v/nP+N/37/g/+Y/6v/uv/E/83/4v8CAAYA6//j//z/CwABAPv/AwAMABAAEAASABkAFQAGAAAAAwD///3/BwADAPP/9v8GAAYA+f/2//3////x/93/3v/y//f/7P/z////7v/V/9j/7v8BAAQA+f/2/wkAFwASABUALAA1ACAAAwDw//L/CAAkADEAMwA1ADIAJAALAO//1v+9/6b/mv+Z/5j/jv+K/5f/qv+1/7z/vP+v/6f/v//o/wQAEwAbABwAJwBFAFQAPgAmACkANAA7AEcATgBEADoARQBXAF8AWQBPAEUAOgA1AD0APwAtACMAOgBMADgAGgASAB0ALwA5ADQAKgAnAB0AGAAxAEMAJgALACcATABIADgAOQA2ACgAKgA4ADIAEAD1////HQArACkALgAuABoAAQDw/9f/uP+n/5z/iv99/4D/hP99/3f/ef98/3r/d/99/5L/pP+j/57/sP/U/+//+f/7//f/7v/p/+n/5f/m//T/CQAPAAQA/v8KAA4A+v/t//r/AQD1//X/AwD///L/9v/8//v/CQAWAAIA8P8EABoACwD8/xIAKgAbAAMAEgAvACMA/f/1//7/7f/p/xkAPAAdAPr/CgAVAP7//f8fACQAAQD4/x0ALgAFANP/wv+5/6D/m/+2/7z/mv+M/6f/uP+h/4r/lf+z/8f/zv/b//n/FQAfACoAPQA2ABwAIwBLAF0AUwBTAFgARQAuADMARQBAACcAGgAoADQAKAAgACwAMQAhABcAHwAhAB4AKAA1ADUANQA6AD0AQABCADgAJQAbACEAMAA8AD0AOQA5ADcALAAoACsAHQAJABAAJAAfAA0ADgAVAAQA7P/o//P/7//W/8L/wf+4/5r/fP9u/2b/af+E/5n/jv96/3v/fv9y/27/fv+a/7b/yP/U/+j/AgAHAPb/7P/u/+z/5P/o/wUAIAAVAO3/2f/j/+L/2P/q/wIA9v/m//3/FgAGAOn/3v/X/9L/3v/7/w4ACgD8//r/BQAEAPX/+f8TACEAFQAOACAANAAyACEAGQAdABUABQAPADAAOQAjABUAEQAEAAIAHQA2ADYAJQABAND/uP/G/8z/vv+9/8v/xP+0/8H/3v/U/6n/m/+4/9L/4/8EACUAGgAEABUANgBAAEYAWABTADgAMABCAFUAYwBlAEkAJgAtAFEAXwBQAEMAPAAqAB4AOQBoAHAATQA2ADoALQAOAA0AJgApABoAGwAkACEAGQAYABoAGgAZABoAJgA3ADYAJgAaABEACwAXACcAGwAAAPz/AgD+/wAAEAARAP//9f/y/9v/rP+E/37/jv+M/3H/Y/9z/4P/f/94/3n/gf+K/4//kv+l/7//xv/K/+z/FAARAPf/8f/z/+T/0//U/9X/z//V//T/DwAPAP//9f/t/+7/BwAiABcA/P8AAAsA+v/v/wcAEgD3/+v/AQAEAPP/AwAiAA8A3f/Y/wMAGAARABwALwAUAOP/4/8GABMADQAQAAwA+P/4/w0AGAAaAB8AEQD4/wAAHgAXAOr/z//I/7n/qv+y/8b/z//K/8n/zP/I/7n/r/+p/5z/k/+o/87/6v/5/wkAFgAaABMABQACAA4AEwAGAAYAGAAXAAcADAAUAAAA6//4/wsACQAMACIAMAAnAB0AHAAaABEADQAXACUAKAAgABcAFAAdACsAKwAjADMAVABWAD8AOQA4ABcA+f8QADgANwAiACIAKgAhABYAGAAYAA4ADwAlACwADADd/73/qv+n/7j/wf+p/4v/iP+K/4P/jP+e/5b/gf+I/57/nv+a/7T/2v/q/+f/6P/p/+P/6f8DABIABQABABEADwDu/+H/8f/w/9z/5P8DAA0ACAASAB4ADgD0//P/BwAKAPX/7v8IACIAJwAuAEAAOwAgABsALgAxAB0AEgATAA0ABwAUACAABwDe/+D/DQAgAAkA/v8NAAYA6//z/xsAKQAaABMAGQAPAO7/zP/E/9z/6//O/6P/mf+n/6n/oP+c/5j/lv+k/8D/1v/e/+f/8P/o/9r/7f8XACAACgALABoADwAHAC4ASwApAA4AMwBOACsADQAeACcAEQAXAEcAXwBKADYAQQBUAF0AXwBYAEMAMwA1ADUAKwAsADcAMgAfAB4AKQAdAAgADgAiAB4ABADz//n/CgAaAB0ADwD9//r/BgAMAAQA+//9/w0AIAAgAAAA4//p//7/9//d/9X/2f/P/8L/xv/J/7X/n/+n/8b/0/+//6v/tf/X//z/GAAZAPz/2v/N/9v//f8iACAA+v/u/wkAFAAKABYAGgDp/7v/1/8QACQALABCAD4AFwD//wMABAD//wwAIgAmACMANgBKADgAFQARABwACADr//f/EwATAAYABQD+//X/CwAlABYA/v8HABEAAgD8/xAAEgD5//b/DQAGAMv/jP92/3b/aP9W/1b/V/9H/0r/ev+k/5n/g/+W/7b/v//D/9X/5//z/wcAHwA1AE4AVwA2AA0AFQA6AEUAPwBGAFAAQgArABwAGAAeAB8ACgD3/wYAHAAPAPr/BgAXAAoA//8XAC4AHQAHAB8ASgBPADUAKgArABwADQAWABoA///p//D/AAAMABkAGAARACAAOQAxABoAGQAYAAIA+f8LABkAHAAWAPP/wf+5/8P/oP94/43/rf+i/57/v//G/6n/qP+5/6P/hv+h/8//2//k/wQAFQAGAAgAJgAvABsAGAAnAB0AAwALACIAGQAHABQAFQDq/9X/AgAtAC8ANABIADwAHAAdAC0AKQAgABgAAgD7/yAAQAA2ACYAGwD2/93/BgAuAAYAzv/U/+T/z//P//z/DQDw/9//7P/2//v/BQAAAOr/3//s//X/7P/k/+r/5//M/7H/qP+a/37/c/98/3r/dP+E/5r/mf+X/5z/jv+H/7b/7P/r/9f/5v/3//b/CgAkAAoA5P/8/y0ALwAWAA4ACQACABUAOAA+ACMADAAGAAoAGwA5AE4ARgA1AEAAXABdAEAAKwAlAB4AIgA5AD8ALgAmACAAAwD6/x8ALwAJAPr/HwAxACkARgBuAGMASwBYAGMASAAyADQAMAApADEAMQAVAPH/0v+7/7r/yf/L/8D/wf/K/83/0f/b/9//5f/s/9//w//E/+3/GgA2ADsAJAAAAPT/CQAdABcABwAFABEAFgAXACsAQgA3AB8AJwA2ACMAFgAtADkAJgAoADsAKwARACQANQAbAA0AHgAWAP//GQA+AC0AEAAYABoAAwADACUAQABHADoAEwACADEAXgA/AAAA6f/d/8D/wP/s/woA+//t//3/BwDq/8H/sf+x/6H/jv+S/5f/g/9y/3j/df9X/z3/P/9O/2j/iv+k/7v/4f////H/xv+s/7v/5v8CAPT/5v8BABMA8//h/wUAGwALABoATgBiAGAAcABoADMAHAA3ADQADgANAC8ARABSAFkALwDt/9z/9P/7//j/AgAGAAAAFAA7AFMAVwBLAC0AFQAoAFQAZwBMABcA8f/6/yoAVABOAB8A8v/t/w8ANwBCACEA4P+z/8v//f/u/6f/gP+C/27/PP8Y/wr/FP9H/4T/o/++//T/JQA7AEoASQAwAC0AOwARAL7/uv8QAGAAkACxAKMAZgBCADYACwDu/xUAKwDe/4D/cf+P/6v/yf/X/7//tP/j/x4AKgAbAA4ABQABAAwAIgA8AFIASAAGALv/wv8jAHYAZgAdAOn/2v/q/xsAPgAfAPL//v8fAB8AJgBIAD8A+P+0/4z/gv/I/0cAdwAtANr/v/+u/5X/av/8/nv+d/7u/kT/S/9i/6T/5v8lAFQAOQDt/9D/4P/J/5H/jP+//+3/BwAuAGoAmgCiAH8ASQAiACkAUABdAD0ALABVAJEArwC6AMIAuwCoAIwAUwASAAMAHgAQAMb/fv9n/4D/v////xwAKgBEAFAARABKAHcAqADIAMUAiQA0AB4AXgCoALIAcwAkACEAjQD+APsAkQAcAMH/f/9a/0r/Pf84/zj/Jf8K/wj/F/8f/yP/Gv/5/vD+Of+f/7D/Yv8O//L+A/8i/07/lP/m/yYAVwCMAKgAiQBaAF4AjQDBAAIBVgGbAb0BxQGrAW4BNwEWAfEAzgDUAPMA6wCtAG4AQAD4/2f/s/48/jX+dP68/uz+5/64/rH+C/+E/7//x//U//P/EwAmACAABgDg/5v/OP8I/1D/4P9FAEQA6v95/1T/pv8aAD8AAwCw/6L/+v97ALsAnwByAGkAewCbAM0ACAE4AUMBDQGjAFAARgBnAHcAXAAdAOD/3f8RAD4AQwA3ABgAyf9M/8/+dv5A/hX+2v2V/YD9y/1Y/tn+MP+G//z/aACYAJgAiwB+AHkAhgCSAKEA8gCSARYCMQIrAlMCfQJcAt8BIQFwADoAfgCyAI8AbACdAAQBXQFzAR4BfQDx/6T/dv9e/3P/h/9Z/+7+ef4d/u796f3E/UH9nPxV/JT8Df1o/Yf9jf3C/Vz+OP/x/1AAegCrAO4AOgGTAfgBVwKWAp8CfAJwAqkC4gKxAiYCvQGwAdsBAgL6AbABRgHqAJQAPwAqAG0AkQANAPT+0/0t/R79TP03/c38hvy6/DH9iP2d/YP9Sv30/In8OvxT/Ov8uf1y/ib/DgAwAVsCWQMNBH4E0wQkBVgFRgXuBHgEEQTUA7wDpwNoA/ACWQLIAUIBqgDr/wz/Kv5n/dH8X/wS/O774fvN+7r7y/sM/Gf8wfwY/YH9EP6g/tb+h/75/Yj9R/0c/Qj9KP2g/Xb+e/9nAC0B8wG1AkcDsAMlBKoEAgUABbwEeQRtBIYEcAT2A1ID+QIgA50DFwROBC8EvAP8AhICPwGoADAApv8H/27+4/0//Vv8VPuR+mL6l/qq+lH6v/lP+Q/50/h++B/4z/ep9+D3wfhq+pr8xf5uAJYBsgIqBN8FVgdACLUI8QgPCQkJ5gjWCPsIKwkMCYMIwAfpBuYFnwQtA8cBhwBP/+n9Vvzu+g36wPnM+QH6SfqU+tT6/voB+8T6OPpn+X/4vvdQ9zL3U/fB96D47Plm+8b8Af5H/7IADQILA6IDEwSUBB0FiwX4Ba8G0wcgCSkK0gpfCwUMkQySDNULgwrVCMkGUgTDAb//qv5R/ib+1P14/UP9E/2R/Jv7Wfre+PL2dPTI8azvme5l7o/u6O7M75vxNfQS98f5QvyK/ncA4AHfAuYDVwUkB+cITgpzC7AMTg5DEDsSwhN1FCEU1xLREEEOOQvRB1AEKQGx/u/8tPvy+sz6T/sh/J/8Y/yA+zz6qPip9mD0XvI18evwBvE28cXxNvOM9Rj4FPoz+6b7svuE+1X7cfv2+7X8kP3c/iwBkwReCKkLJg4UEIsRIRJ6EfcPiw7LDWQNnwxLC/IJLQkGCRMJ8gh/CJkHAQaTA5IAhP2++h34UvVU8oXvae097NDrqetW67Hq+umy6UvqyuvC7cHvzPFv9CH4oPz/AHQECQdrCQUMgA5CEEIRJRKAEzIVoRZ+F/wXSRgPGLYWAxRQEBwMtAdfA5v/9vyZ+yn7NPuE+/f7KPyG+8v5Mvcr9AjxH+4G7F/rN+zg7YTv5PBU8vzzaPXs9WT1ZvTD8wL0QfVm9zv6b/3GAEYEFQgGDGcPbxHvEYMRDBEbEc4RChOQFNcVMxZjFeoTkhJ7EdoP3QzYCDEFFANEAnMBpv8F/UX6lfdy9I/wdOz/6GXmFeSt4cffft9C4VbklOeM6qntWvFG9ZX41Pp9/Jv+7AFkBl0LHxA0FHgX7xmtG80cYh1lHbscVhteGRoXqhTYEVIOEgqfBdABO//d/SL9VvwH+0H5bvfz9c30fPN68dzudexN677rIu1V7qfuY+5t7lnvz/Df8erxWPFI8ZryTPXF+Ij8YwDyA30GrAdHCNMJEg0ZET8U5hUCF7MYrxprG9cZjhY4EwAR7w+JD38PnA9fDx8Oqwt2CPgEEQFK/LD2M/EK7arqZukI6MHlu+LT3/Ldd90r3qDfpOFj5B/oxezP8Xr2PPoc/bD/tQKZBjoLFxCeFGcYOBsWHUkeMB/bH+Ef0B7CHFoa7RflFD8Q6QlrAwT//P3C/2sC7AMGA7P/E/vU9hH0fPLJ8Djuoeuy6hjsjO7j7+PuA+yn6CDmaeU656LrW/Ef9jj4+fdx94r4dfv3/gMC2wSKCJkNYBN8GLQbfhweG6AYkhY8FqoXmBmPGiEa8xiOF5EVNhKDDXwIMATSAAz+t/vN+ab3AvRL7qLnJOIH37rdAd2J3P/cz95l4dXj4+UB6Izqe+3X8AD1LfrM/9kEvgi6C2MOBBGqE24WaxlxHA8f9SAOIhcibSCbHCAXZhHbDBUKzAhNCMwHjAY0BBYB5f3z+vL3rvTE8TvwR/DJ8FPwj+5f7Lfqwuk56TrpUeqe7FHvR/Ea8nHyP/Pf9OP2yfiy+lX9JgGVBUgJQwvsC7MMqw6LESQUsBVfFrEWpBbsFcgUDBQiFEQUKROBEHINYgtdCgUJFgbHAY/9nvrK+OP28fMF8Pbrp+ib5urlQubb5szmz+XI5CvllucY6xHu5u+N8WT0ufig/RUCygXWCDAL+QwkD+0SQBj7HI4eoBy9GecYdhqoG3QZrhNHDXwJ4AgxCd8HgQTKAFP+6fwh+1D4Z/Wz8y/zn/I58abvAO837yjvSO6Z7Xru3/A781P0jfQq9an2ZPil+Zb6zvt0/UD/FAEbAzsF2wadBwkIDwnYCn4MEw26DGcMtwxODYANLA3ODL4MwAxNDDMLuAk7CMsGOgV0A7wBZQBg/w/+zPuc+Fj1+vLC8S/xsfBA8BfwEfCo77Xu9+2b7hnxlfR096X4hfia+Fr63/2/AUgEIwWqBXQHngqyDUUPYQ8YDwoP4Q5GDr8NEg7zDgQPWg2pCoIIiQfrBocFRwPyAAj/Uf2E+/D5E/nC+DD41fYT9cbzXvOd8x30yPS29cv2xPeN+Ez5Dvqe+tn6Ffv0+7T91P+MAYMCAwNxA9MD7gPBA6AD3QNqBPoEUQVlBUUFBAXKBMME4wTmBKAETARHBIUEgQToAxQDrALHAsYCIQISATIAqv8Y/0f+nP12/Yn9LP1O/Kr7v/sQ/Lz7wPol+rT63ftJ/G77O/oa+nn7c/26/sf+J/7p/ab+AAAGATIB+wBKAU4CPANSA+MC9QLeA7sElQSxA0MD6wPzBEgFuATeAxYDGwLLALz/n/9MANIAjgDT/1f/Sv9H//P+Z/7n/YT9KP3T/KD8ovzS/BT9NP0L/cD82vyx/dD+Pv+p/vn9Xf7L//oA/gBnAGgAMwHSAaIBPgGIAUECUgJlAYgA1wAIAswCcwKaASoBOgE9AeYAbAAIAML/vP8zAPEAHwEwAMz+T/41/2wAfgA5/8z9Zv0g/i7/wv+M/77+9/39/Qb/RACNAK7/vP7R/qH/7P87/57+V/8lAWgCAgKVALb/MABeARECvAHQAC8AbgBZAQMChQHv/27+O/5M/1IAKQAk/6b+fP/xAJwB7ACq///+Sv8BAHQAdgBBAAAArP9T/zX/hP8FAD8ACgDK//n/hADRAIYABQDp/yoAIgCU/z3/BQCoAbcCJAKIAG//h////8r/Ev/k/p7/WAAQAAH/W/7D/oT/if+5/hD+Xf5L/9j/i//4/vr+o/8qAOP/GP+5/j//EgA7AJj/Df9q/2IA6QCTACoApgDRAW4CyAGkAFUAEwHCAYUB9ABAAWcC+gL4AVIA6/8uAWQCzAHT/4H+4f7K/6P/m/5Q/m3/oABbAP/+W/4z/zAAs/8W/kH9LP6d/8b/nv7g/cX+cQAJAfH/ef44/kH/RAA4AH7/OP/d/7oA4QBHAMT/DADdAFQB/gBXAC0AmwDyALEASwCZAKABRwKpAV4A6//aAOUBhAHs/9T+Qf89ADkAOf+5/oL/cgABAGj+Xv3J/Zz+bf5//Wr92P58ALYAnP/D/i3/KABuANL/UP+f/2IA2ADxADwB6wFrAh0CMgGKAL8AgwEDArIBwQDf/6D/DgCjAMoAdQAnAFEAswCiAOz/Nf8u/6z/1v9C/33+Vv7o/qH/BAABALH/L//Z/jL/MQD2AKsApf8f/7T/oQDXAFoABwA1AEQAvv8t/1b/+v8VAFD/j/6+/oD/qf/Z/gf+Qv5Z/yEA8f9k/4P/aAAmAfAAHACv/xYAqgCcABUA+/+jAE0BJwGAAGAADwGeASkBKADg/7YAqAGgAdAAUACxAFsBcwHhAEgAJABPAE4A8f+A/2L/nv/M/5L/H/8I/33/7/+p/9T+YP7b/qr/v//s/hH++f1z/sr+y/7f/j3/ev8c/1j+9P1+/sb/EgG3AYUB3wBuAJgAKgGYAZ0BfAGUAdQB5QG8AakB1gHjAWYBhQDd/7//5f/y/+z/9f/W/z7/dP4//ub+of+C/7H+Nf6A/uL+r/5r/gP/NgCWAIH/Qv6F/hkALAGyAK7/o/+NAC4B9gCVAKYAvQBeAAcAhwCIAdcBGwF1AOAAtgGQAUQAMv9m/00AnQATAI//uP8lABAAbv/x/h7/p//O/1L/0/4Z//z/VwBo/wv+8v2A/wwB1wBP/4L+Zf+yAMoA2v8z/y3/7/5J/l7+xv8gAbcAFP+G/vr/pQGMAVAALgDCASUDowIBAT8A3AB3AfkABwDi/54ANQH+AGoANABhAGAA3f84/xL/kv8uAC0AdP+2/rT+Vf/F/3f/1P6j/g3/i/+5/73/vv+A/9/+Zv7R/gAA5QDGABoA1P8fAEYA2v9b/37/MQDHAOQA2wAYAYcBxAGYARMBZADX/8X/MgCIACcATP/v/nP/8v9x/27+af6v/5sAw/8s/iH++f9aAV8ATv7x/br/NAGBAOv+3v5vAGQBkABi/5j/xQA0AYoAAABSAMoAvwC1AEEBwAFfAbcABgH2AbsB8//P/ioAcwJWAl//+vwO/hQBKAIoAN797/12/9H/mf76/Uf/4gB8AFr+Gf1L/ogATAEPAK7+6P5AANcA3/+H/mX+g/93ADgAUf8I/7j/jACtAEEACgBVAMQA8AD4AC0BewFaAYEAd/8+/zAAYAFlAQgAyf46/wABDgIoAXX//f73/58AwP9b/jX+av90AFgAtf9//6X/qP+r/x0ApwCCANb/rv9HAHIAaP9j/hr/AwGhAfn/S/4p/8IBxgLuAOL+jf/vAVACdf+n/J39hgHVA9oBAv6//CD/8wEOAgMAwf6E/5UAIADS/qf+6P+7AM//S/41/qP/ugBPAHX/xP/5AE0B/f9x/mX+r/+XABoAIP8a/xwA3QBwAGf/Bv+v/5kA8wDeAPYAQQEkAW0A1/8fANkA4gD4/0X/3/80AaMBiQAh//P+9f+6AEkANP++/lL/MQBwAPD/Wv9G/6D/4//a/+f/VgCxADkAGv+R/l7/kgCSAFL/hv5U/7UA8QAVALj/dgAAAUAAO/+Y//wAZQEkAAX/sf89AX0BMwBK/+v/5gCrAKn/ef9FAIgAdP81/jP+B/9Q/+n+DP82ACIBlgBh/2X/8QAjAlcBZv+Y/r3/MQEUAbz/K/9LAKcBWAGa/5T+hP8WASIBjP9h/hb/mwDsAND/CP/A//EA8gDo/5T/ugDoAUwBQP///fP+CAEFAhcBaP9+/qL+Gv9e/4H/qf+n/1f/+v7e/vz+NP+z/5IAIQFdAIb+i/37/sAB9AJVAfX+xP7mAKkC/QHQ/4D++f4+ACQBagEnAWIApf/r/zEB4gG1ALz+Xf4bAKQB0ACL/qf9Nv9QAakBSgAV/zv/GQBQAGT/L/4I/mv/KgFPAWj/r/3J/iQC4QNrASf98vsI/2AC7QHR/ob9rf8WAnEB4f4e/jEASQLkAQ0AZ/9OAM8A+f9Q/1YABgIcAkIAjP6x/vn/iQDj/yn/Qf/D//T/8v9CAKgAUAAX/wP+JP5F/yYA5P/t/pD+nP9sAVQCTQFG/1/+hP8kAQgBS/9W/pv/WgHuAKD+lv2G/y4CTgIQAKr+3v/KAf4B5ACNACsB7wBu/97+xwAfA6QCfP9M/XL+8wBqAZn/Xf5+/2ABcgGW//L9F/5i/zIAwf+m/hT+0P59AKYBFAFO/0n+H/+TAK0Aa//D/tT/PQEfAc7/Q/8cALsA2P+Y/uD+WQDTAJf/o/63/4YBdwGY/87+pgDZAnsCQABr/7wAKAG7/m78Tf7dAvUDQ/+g+sX8ewOBBRf/KPh9+jwEbQl9Ax76M/krAeYGCQOV+/z6pgEEBkwCF/zP++4AzQNEAZb+hQC4AxwC1/wq+4//hgPwAFv7HvseAUQFGwKd/L386wFxBCgBrv0t/1kCGQGz/Bv8lQDcAk/+RvmP/J8FtQhbAX35y/t1BIEGc/5m9zL7iATHBsb/Bvom/bQDNgT5/nT8GwDYAw4CA/42/hACCgMx/4D8xv/kBGQEff43+x//hgQDAxn7H/aE+rYD0AdTA478WPsZAH4E1gNRADn/swF1A94AP/wo+w//HwNcAiH+KvzK/ggClgEJ/yT/NgIUA/z+zPrl/HQDqgWq/9T4e/rjAvYGTgH2+YT7SARYCPwBmPkP+hICvgbsAiv9Cf2RAP4A6P0t/ZYAhAJW/yf8Kv8SBfoE9f14+b39SARjA6r8kPpqAFYF0AEo+zD7GwEgA2n+M/w9A5sLtAgG/Oz0ZPznCC8L7gHp+R78HANjBK7+EPoZ/DIBfQK1/sb6Avs+/g0Ah/6k/Ff++wI+BckBjPyn/NoCewdABEH9//swAvkGSgMz/Pn7RAO8B5QCXfr7+V4BggWP/xf2SPS++5YDXgRMAGL+8QDpA0cDRgBJ/yoCwwUpBRb/Dvhz9tH7jQKRA0v+mPmt+4YCSwboAuz8rvtSAN0EJAQnAAX/xgKWBvEE4P4Q+639PAP+BGkBx/3o/pYCuAIK/mX6AP0UAxAFgwBR++D7yAD9Ajr/A/qL+S3+2QKRAyEBl/53/WX95/3j/vv/xACBAXQCsQIQAY7+I/7vAO8DQgNy/zr9b/8vA7ADpABw/hwAVAOuAzwAQ/wi+zf9ggCTAq0B9/2R+n77pABNBGMBzfoe+Y7/owYjBYj8uPfc/DEFSgb0/7r7Nv+/BE0E+/6x/D8AuAPqATT+Ev/wA7oFVAFp/H390gL2BOEAfvvE+qr+lgJeA4oBE/+W/U/+MAGKAwECLP0f+m38JAFVAhX/s/wg/y4D9wI+/gj7oP0cA1YFfwKI/q79yP9ZAfL/u/wv+3/93AG1A8cAlPzU/NYBGQWfAaH70vsuA00IwwMS+wD6HQK0B6wBE/e29gUDiQ3rCED64vLH+iYHqwiJ/o72PvviBj0LYANX+RT5lgEEB5gCRvuz+y0DiAb5/7j3pfi0AL0DTf3E93X9vgi2CgsAiPa2+uQGAAsNAu336/hmAgcIAwSc/HD6kv58A2UEWgHw/cf9QQGIBBcDf/3O+T38QQFPAkv/a/7oAXUD9f1D93n5ewM9CGQA0vUr94kDFgtyBCz5PvjyAb4IVASx+/755P8BBWQENgGW//z+1P3n/RYBPwR2Auz83frG/58FYwQ1/V/5Dv5kBUMGIQAq+z394QLRBJEBMP6U/qEAXQAn/vL9/gBjAz4Bevz9+hX/5QMBA6P8L/is+zYE0gi+BP78W/oD/18EigOv/Sz6Wv2XAw8GkQJI/Xb7Fv6zAXMC1v8R/ar9YQHtA+EBZv3z+/L+egGU//X8/v+/BkAHuP3u9KD5zAdHDaABRvOU9VMGgg+XBKrzrPIlAjwNMgbM9xb1mf9VByECwvjt+PYBGAdAAuD71/1DBS8HnwDQ+h/+RAZFCJ0BhPsF/gYFUAbg/3H68/zxAmEDsP0W+hX96QC9/rT5mvolApkGZAEw+Qn5xwBCBVYAt/nn+yMFvwlJBIz8W/ycAhwGrQLH/bP9HwFhAvD/lP0A/kr/4v7g/dr+JAFTAX/+I/x6/f4ApAKEAYoAeAELAtv/9fyL/XsBiAN6ACz8rfylAWIEBgEA/Pj7oQB0AwABeP1b/sECFAXtArT/J/+UABwBWAApABABbwGfAC4ACAFhAWX/uPzr/E4AtQKIALH7m/mZ/CgBXQK2/zL9EP4sAS0D7QIvAlICRgLNADL/tf+nAZQBMP4B+wD8zP8rAVj+t/u5/XcCZQQBAk3/cv+NAL3/T/5x/zICDwIM/lH7Sv7hAwwFSgDI+0j9ygJ/BVcCLP2X+7j+zAKnA8YAVv3M/GH//wHrAeT/uf4+/4T/ev4c/jgAtgIEAsz+3f0tAT4EPQJ7/bf8UAGmBEAB3vqv+TP/eAS/A7X/kP4iAa8CvQCp/g0A6gJ0AlP+jPu2/Q4CSwObACf+1/6LAPX/Av52/pABnwKs/v35X/t5AvEG6QIr+zf5uP6lA6QBnPx2/IIBaQQ/ARj9Df4mAscCCP/w/Nr/CgP/AEb8HPynAfEFvwO9/r/9EgERAywBQ//ZAFgDYgIT/3X+YgGUApj+u/mR+oIAJwRVAaf84vy7AcoEiAJk/h/9hf4r/z/+Nv4aAI0BkgDI/u7+ugCVAboAFADUAJcBDAFMANMArQHuADX/+P5WAIkAiP5w/eT/OQOvArf+0vyB/1ACogD+/EL9MQFjAnH+lPt7/6wFFAXF/Rr6/P9LB4wEtfmz9Ir8PwcFB7f8Qfas+yUFuQY+AL37jf4KA1ECNf5F/XAAawKgAPf+2wBWAwoC5f6B/7kDwARy/0r6t/zgAwcGYwAf+2D9+QL4AhX98fko/qgD3AKB/W37Ff/aAugBl/7P/eT/ZwEDAbMAoQE6AhsBTv96/qj+Hf/W/64AewDJ/nn9ff6fAN8A+/7v/U//1wA6AAv/HQCaAgUD1ABo/6MAywEKAEP9Yf1SADcCSwH4/08A1QCz/1j+DP+5AIYA0v7g/j4BUAL1/1r9RP4bAVkBxf6+/RcACAJgAOT99v5JApkCEf8A/b3/OgMNAtL99/wcAZoE0wLL/lf+fwHwAk4AqP0e/48CtgLz/lD8Zf5kAhEDzv/u/J39HQATATcAuf8zAPH/e/4o/nQAuQI3AeT8DPtJ/pMCmQId/7r9vADbA4sCaf6T/FD+DwB1/6v+GQDzAf0AIf6o/dYArANkArT+Sf1k/70BhgHY/03/NADZAHcA8//s/8r/OP8d/zoAiAFRAaj/r/7o/w0CdwJ1ADf+Dv6L/1UAh//R/rL/6QA6ACL+rv0OAG8CvQEl/3P+cQDRAVUAWv4u/+ABsQLWAHz/gACNAT8AWf7l/t4AiwDd/T/9ngB6AxAB7PsI+/j/ewQiA37+1PxY/6EB2gBE/5f/oQDX/w3+Xv4iAQADmQHB/tL9Xf8PAQEBpP+S/rv+5f8SAUQBhwAeAO4A2QHxAIn+d/1Y/+ABswEm/+n9tv+9Ac0ALP7Y/ZkAtAI4AUr+HP70AM8CEAEn/iv+RAGAAxgC6v7T/cD/8QHcATcAd/9OABIBegB8/7L/zgADAb//mf7y/t//nP9d/h/+if+jAKX/0P3l/TAA6wEFAen+XP6u/6cA8f/W/hT/WQACAYgA4//E/8//qv/H/2cAzQBFAG//hv+GACIBoQDX/8r/PABNAPL/1/8UAAYAkP9y//n/UQDO/0H/1f8TAUUB+v/g/mn/tADjANf/Pv/0/9EAjgCu/3n/9v8YAKn/lf8zAIkA8/90/zwAlAGhASEABv/R/28BrgEqAKL+kf6W/1gANgCL//7+Dv/g/9oA2wCW/2X+5P6zAKYBmQAM/xn/hwAvASIA5P4g/0oAnQDD/yL/lP80AOv/Kf8z/zkAIAETAWkA2/+l/7D/BwCFAKAAIgDI/04AHAHdAID/of5Z/4wAfABs/0D/fgBPATsAp/7v/tcArgE+AK3+V/89AXwBqv+G/uH/1AGEAVz/b/4AAMYBWgGX/yH/iAC5ASQBvv81/5X/xP+D/5j/JABCAI3/+/5t/zoADgDz/lj+B/8LABMAQv/d/nr/UQBvAOz/mf/Z/0IASQDu/5z/rP8LAGAAZwA0ABYANwBpAGIAJQAAACAASwA0AN//n/+q/+L/BwAOABQAKAAuABIA6//k/wEADgDc/4j/af+v/x0AQQD4/5f/jP/w/34A3gDnAJ8AOwAEACMAbACHAFwAKgA1AGIAcABTADsANAAVAM//lP+O/5z/kf90/2T/Uf8n/x//h/8lAFcA6/+D/7r/PgBKANf/tf9GANEAkgDn/83/YQCvACoAiP+w/2IAmAAIAIb/x/9lAIwAHQCz/7f/8v8TAB0ALwAxAAgA1//Y//7/EgALABoAQgBMAB0A8/8NAEkAVgArABQARwCUAKoAeQAwAPr/3v/a//T/HQAoAPv/uP+i/9L/GgBCAD8ALgAZAPD/rP91/3D/hv+C/2T/cP/N/y0AGACK/xD/J/+n/wIA9//Q/+H/FAAdAPP/3v8NAFUAdgBrAGMAbgBnACwA1/+l/7L/1v/T/5n/WP9P/47/7P8yAD8AFQDO/6P/wv8eAF8AQQDy/+f/SACyALQAYQAmACsAJgDg/5b/nf/j/wYA6f/R//j/OgBPADEACgDv/+P/+/9MAK0AyQCSAFwAcQCrAK8AYgAAAMb/w//y/0EAdgBMANf/kP+5//X/wP84/w//jf8YAPL/Pf/L/hL/sP8VADgAYQCOAHkAGwDL/77/v/+X/3b/rf8hAF8AQwArAGoAvwCuADcA4P/9/z0AIACx/3X/tf8lAEkABwCm/2f/YP+Y/xQAnwDYAJkAPQBAAJwAzQB3AOj/vP8fAJoApQBEAPj/GgByAHIA4f8s/wP/lv9aAKMAbAA2AD8AIwCL/+H+6v6k/yEAvf8R/zX/OQD4AIoAav/C/gT/mf/f/97/6P8IABwAKgBAACkAt/9L/4T/XQD3AKwA+v/f/3oA3ABdAJT/hf8uAIIA1//W/pP+Mv/S/8z/e/+i/1gA+gD+AIYACwDC/5T/ff+b/+n/KQAvACAANQBdAFsANwBLALUACQHCAAgAov8LAMoA/ABmAL//v/88AGUA1P8Y/wP/qf9OAFQA9//q/2UA3QC3ABUAov+4/wEABQDN/7n/3f/c/4P/L/9P/7f/wv8+/8r+Fv/4/5AAYQDt/wAApgAiAeQARAACAFkAxAC8AFUAAADh/8D/hf94/8//OAAmAIz/+f70/mj/5P8vAFsAagBBAP7/AwBxANMAqAAcANn/FwBSAA0AjP9u/7T/wv9d/yv/1P/0AHUB5QAPAPT/iADYAFYAkP9v/wwAowCRABQA3f8gAGIAMAC6/4X/s//s/+n/2P/5/yAA7P9m/xD/O/+Z/6v/c/9f/53/3f/Q/53/l/+2/7T/jP+Q/+f/QwBGAAMA1f/a/+D/0//q/0gAqwCyAF4ACQDv//X/7//p/wQAJwAUAMv/r/8dAO8AjwF5AbUAvv8b/wf/bP/8/1IAKwCz/3n/7P/EADEBwQD//+b/sACGAYMBvAAIAOX/9v/C/3L/h//+/z8A5v9I//f+EP9F/2//sv8CAAYAm/87/4H/VwD1AM0ANADm/yAAaQBLAN7/iP9v/2z/av+J/9L/CgAAAOD/7f8QAOn/dP89/7z/oAAXAdMAZwB+APIACAF+AN//wP/x/9b/Vv/+/jv/uv/d/4f/Mf9B/6T/FwCAANkA7wCeAC0AGAByALMAagDg/7X/6//S/wv/Tf6v/jIAlgHEARIBuAArAZQBBwHR/x7/cf8OAAIAYf8b/63/hgC6ACIAcv9Z/77/BADO/13/Lf9W/3j/PP/d/vD+tP+iAO4AXwCL/yr/YP/K/w8AKgA2ADAAIwBBAKEA+ADNABMASv/5/in/iv/s/1cAuQDIAFkAu/90/7b/MQB6AHMAQgANANX/mv97/5b/2v8JAPH/o/+A/+f/zwClAbkB9AANAOH/jwBDAR4BJwBG/0P/8/+EAHYAEQDj/wUAFQDd/6n/5v9/ANsAigDD/x7/7/4B/wL/9/4i/5D/AwBJAIUA2gADAYgAef+m/sz+n/8OAJH/3v4K/xUA3ACDAJf/Wv8sABcBBgESAEn/X//1/zEAvf8R/+X+hf+dAHsBlAH0ADkABABeAMsA6QDVANcA1wB/ANP/V/9e/4P/Hf88/tT9qP5IAHQBeQHfAJoA3AABAYIAp/8S//P++f75/jj/8P/IACABzwBVADUAYQBsACEAr/9X/yv/Ov+e/0MArgBrAKv/Mv99/y0AdQAPAH3/Tf90/33/Qv8c/2T/BQCuADcBogHKAW8BowD1/9v/GQD5/zj/d/6R/o//jgCrAOT/6v5d/l/+y/57/ycAVwDM//3+1/7G/yUB2wGCAcIAgQDjAE8BSwEBAeQAAQH5AJcAKQAWAE4AXAAHAKP/mf/M/8L/Yv9A/+r/CQGIAbsANP8v/kT+2f7w/lH+s/3W/bD+mP8WAE4AmwAHAUABFwHMAMwANAGiAZQB3wDg/zb/P//K/zwAHgCT/zP/Zv/v/zgADADP/+r/JQDo/xv/eP6+/rj/ZAAnAIf/d/8iALcAiADn/7n/QwDZAK8Azf/n/pb+4f6A/zEAvADoALIAdACOAOkAFAHrAN0ATgHiAdMB8wAGAND/IwArAJX/A/8a/6P/5P+4/7f/OQC2AHwAwf9l/6r/s/+6/kP9pfxY/Wn+1/75/un/vAEPA6IC9QC2/77/PAAEACD/n/4a/wMAkAC+AP8AQQHRAHD/8/2G/Vz+kP8/AHwA6AC0AVQCRQK3AVgBfQHLAaoB6ADR/8L+5v1q/bn9NP9tAeoCLwJo/9j8/vzw/8UCVQKc/hL7LvvF/kACcgK4/x/99fzN/sYA2wFfArUCewJXAe//d/9HAHABwgH9AM7/9P60/vf+iv8UADsADgAQAJIAHwHqAOT/+f7+/pv/u//9/lD+4P6uAHAC0gJ/AR//vvxV+4X7T/3u/08CuAPtA/gCOgG//73/FAG4Aaf/x/vS+VL8FgH0Ap7/qvq1+e394AL/A94BxAC5AgUFOwQbAb7/JQJxBXUF3wF//oX+4AD2Af//t/z1+qn7if3p/jD/xf5I/hb+Jv4v/iT+iP7W/3gB4gFyAMj+Rf/oAbkDMALA/oz9XQAWBEgEqABm/eT9pwCfAZ3/qv2x/ooBqwL5ACL/yf/1AY0CrADb/pP/6QG4ArEA5/0n/av+MwDd/xr+vfzj/CH+T/+k/x//Zv5K/g7/CwBFAJj/Av+A/9kA8wFMAnsC+QIMA7UBgP96/s3/8wEvAs3/Kv0T/ZH/BwJFAtEA3P+UABQC0AJlAqQBSwE2AboAdf+T/Yv70fnC+KD4mfm/++D+SgLwBCIGRQZyBigHjAdcBrgDgQGNAZgDZQX8BH8ClP9p/aP7TflB9kXzCPF571fu/O0t7xXyzvU0+Sz8x//iBNQKtg86EvwSvhNMFYUW0RU+E5EQFA/LDZMK3QSQ/ub58vYK9H/ww+1p7afuAu977Q3sWu118f/1T/lS/KcAtAXqCAAJyAcXCE8K6wtVCmgF9v7a+E70kfKj9Of59f/fBF0JlA9rFxcdahx9FSsNhAhGCC4JNwiLBS8DzgG6/xP7CfSH7Orlu98M2cjSHND10+PdsOma8l334frBADEJxRByFDMVLhc1HcAlhiyWLlgs9ifWIgIdSRbrDjsHY/8C+FbyE+8z7bLqveaN4sbfe96i3UfdNN++5KHsC/TV+Zb/9AaFDqISaBEQDZ4JuwiWCOQG8wNBAoQD7wZfCoEMXQ1gDa4MTAseCVMFeP5E9HXp4OJ941/pgO8v81f3XQFcEhsksC1+KzgizBnRFWoTOg4OBs/+hfvU+gr5i/Tt7sbp4OPQ2vPOmcSwwM3E584t3ArrdvqnCL8TdxsDIfgkQCb3I/sfXR6eIfIn3ixwLTUqICVtHoEUuAZX9xjq+uAe28zWFdTk1G7aC+MK68zv6PEr9Ij4Qv4hAxIGKQj4Cm4O0hDEEKYOvAtnCPsDa/5e+f723PeW+pz9wgCTBH0IUgrgB98ARfcm7lToa+dA6xXyNfq7AzAQch9FLVMzwy5dIyMYmBBACioB7fXD7Y/sPvDs8gnx9+ur5m/hf9pZ0m7NSNB02qXmP/AS+MsC5xLzJCYyVjYDM9os+yYQIZMZ9BDbCWoG8AWrBaMDNQCw/AL5lPOb6/fiJd093HffpuS06hbyFftYBLkLFhDoEQ0SnxBeDdEIZAQ4ATr/qP00/Dn76fq8+vr5ofh790j3L/j++bP8bgDaBOkIRAv0CsQHSQLW+y72y/I18iP0e/jm/+wKJRjBI4MpxyelIPMXBBBgCHj/VfU67LXmUuVn5vjnYekB66Hs3+yZ6r/mOeSk5Tbr7PLJ+qICpQtdFmshMyqGLrsthSguIBQWeQuBAS75XfOg8NvwBvOE9RX3f/dA96z2lvXo82HyVfKK9Ij4Iv2WAesFOQrkDdQPZQ/sDDYJygTb/+D61/a09KT0C/ZM+Er78f5zAmQE9QMNAsUAhgGhA9kEagN//8D6tPbO8+jxNPFl8gr2IfxhBGkOIxkpIoEmyyStHpcXtBEkDJMEbPob8O/o9+Vw5RXlhuT95AvnYelJ6uPpaerv7UH0RftfARYHKQ4yF2MgtSY0KEMl6h8QGj0Usw2ZBSv8JvPt7P/q3exl8Hjzg/Vq9wT6y/w+/p79APxl+7n86/4/AGYA9QCXA+IHSAtPC80H5ALc/i78yvn19pb0d/Rf9xr8cAD2AuoDfgSKBe8G9QfcBwoGCgLj+630kO6w68Xsw/AT9jz8IwRsDqoZbyKhJfMi/hzGFhQRVwoOASX2s+xh50TmO+dE6BfpiurX7A3vOPC78BDyKfV4+cv97wEEBwkOORZBHRYhgCGpH28ccBfSD8EF5/pw8cnqUefu5m/pUO5k9D/6Ef/9AlwG2AhsCYcH9wOLAK3+WP57/kj+Av6E/h8ADgIFAzUC1f/J/P75C/gw94n3C/l/+4z+4gFZBdEI9Av9Dc8NdgrjA3D7jvOJ7irtV+5X8L/yOfcDADMNUxsOJe4m9CGJGpgUVBCwCvoADPQB6NjgYt9X4RnkCecw6wbxHvcv+0P8kfs1+1f8wP7pAfsFbQvpEQEYMBzzHZwdQRtDFjMOCQQM+kHyEe2o6ZTnuOdV60HyXPrzALsEVQYbB58HYge6BccCd//b/J374Ptl/Y//kQHWAloDhwOgA1QDDwK0//L82PoZ+s76wvzM/6ADbwfWCW8JmQXq/hD3NfAe7Grrbe0F8eb1CP1jB+oT+R53JBcjgx32F0UUUhCNCAX88O0x42ven94t4bPkoelf8J739PwR//v++v51AAgDiwW1B3IKxA54FAAaZx1hHbgZDBNtCgYB6Pfp76/pzOXF5Mvmb+uf8R/4F/5PA9wHlwvaDcMN7AoJBuAAX/1l/Dn9Rf6W/qH+j/+qAagDugNlASj+LPxQ/KX90v67/3oBngSuB9oHXANS+zPzRe5k7fLu3vDF8mv2D/4ACmsXpCESJa8h2hqMFCAQngsgBBX5Te3R5MDhFONG5rXpee0u8n33D/za/hEA2QAwAkQErwYFCSgLPg2gD5US0RUCGDoXWRJBCncBNvrA9LrvR+qZ5Tbkm+ez7rz2h/3EAj8HNgu6DZ8NywpwBiECzP6P/ET79vrh+wr++QDGA3kFnQWbBIADIwNsA3kDowJDAT8Atf9m/tb6I/WB74fsBe2470PzA/iM/x8KFhVlHPMdVBsKGAEW5xPoDtwFpPqP8MjpS+YK5X7l6edY7Mfxmvbi+Rb8i/4lAngGFQqzC0AL/QmjCSQLEA4AEZgSRxI1EKcMowctAbr5VvI+7GXoPufJ6Jjs4/G/94v9DwMTCN4LVg3vC3UIqQThAQwAN/4D/GD6qPoV/VQAwgLvA8YETAZzCC8KdQrBCNwEn/6V9qjulOkD6SjsmvDq9C76mgJYDgoa2yBsIL0aNxTAD5wM7wcEACT2be076LDmY+cb6bXrju9y9Dz5m/wY/mf+xv76/+oBDQQwBscIdQwvEfAVLxnQGbMXghMODtIH5wBT+Wjx/uls5CLi6+NQ6brwVvgU/9YEtwlIDa8Okw2qCj4HGAQaAfL9CPtt+cX5fvtX/bn+VQA4A0UHwwp+C2IIHAJ1+kzzEe6r61nsnu+f9On6sQL9C3UVcBy2Hm4cBRjNE7gPpwkmALX0DesM5oHlCefl6IrrYfBQ9wD+wAHrAUYADv8B/2T/m/9bAAoDLwi3DsAU5Bi8GlcarxexEp8LIAP1+c/wo+jk4gnhi+Nj6a3w7Peh/skE8QkaDY0NmgtsCAkFtwFX/jT7O/lQ+Xv72v5eAnkFLwiLCiQMGAxxCbIDYftL8g3rz+f86BrtOfLE98j+PAj3EqUbLx9XHc4YhhT4EBcM/QNo+YDvP+k/5wDoAeoY7cjxqff2/Nf/8P+I/j790fwe/QX+//+uAx0Jdg9sFc8ZwBu6Gq0WIBACCDT/Qvav7W7m4OEW4QzktenS8Kf40gCYCJ4OnBFbEeEOiwv4B+EDCP8u+vn2w/aI+eT9PwLkBfIISAurC1kIzAAF98nuFusH7C3vPvJ49Tf79wTLEBYaKx1bGm8V9hEZEO0MxAUU+zfwrei+5X3md+ni7V3zFPmz/UkA7QBtAHv/Uf4t/cr8Nv4VAhQIEQ+VFVQacRy1G5EYpxMmDaUE+vlb7m/k3d6D3hTijefx7Yr1gf6aB48OyxGLEUsPOQxmCHgD3P34+Ev2dPYW+XT9xQL1B34L4wusCM8CIvxE9vPxN+/67X7uZ/Fe93IAbAuxFTMcOx2kGUkUwg9QDOoHfgBE9gTsI+VF46PlN+pl75r0yfmt/qQCEAW/BfcEZQP1AZkB7QLtBQ0Kjw7TEkMWIBiTFw0Usg1SBRL8B/Mf6yrl1eGT4XfkNuoR8tT6DgOSCfgNfBBlEXwQWw1ICJIC5/0p+xL6/fna+hH9cQCWA70ETQNMACr9RPrq9vfyBvCe8P/1zv4VCHEPMhStFggXHRVWEeUMvwhsBHj+VPak7VPnQeXr5l3qKO478vL27fskAP0C2ARTBmcHpwdWB8gHMQosDtMRhhNnE80SThK/EGwMLwXr/OL1zvDd7GPpH+eF5/3qP/B79fX5L/6lAsAGPQl4CQ0IKgaQBFsDjAJcAt4ChwN8A2kC3wC0/xj/e/5V/d773fra+sT7V/2W/54CCQbjCGMKoQpNCqAJ6gdVBCn/+flf9pf0hPMV8nvw7+9P8UT0sPfS+sb99wBkBJMHHgoJDH4NYA5qDp8NgQyfC/4KGQp9CD8GzwNnAc7+xvuQ+NT1F/RO8xPzLfPI8xv1Cvcp+SH7+/zv/gcB+wJlBA4FBQV9BKkDpgJvAer/Ff5I/D37svvR/fkAMwThBgEJwwoCDDcMCQu4COwFGAM0ABP95flD96b1+/S99Ir0ZfSO9CL1EPZX9xb5VvvU/TUAcwLwBO8HDAtkDWEOVQ4aDhUOvw08DGwJNQasA/8BVgDL/Xb6Zfeh9UX1kPW/9b71EvYu9/z49/qY/Kz9VP7d/pP/owD6AUMDBgTwAwoDwQGmACAAOwCnAAUBNQFzAR4CSwORBFoFaAUUBekEBwXqBOEDxgEm/7784vps+TH4Zvd29374G/q++yT9Zv6f/6wAXAG8AR4CuAJjA80D6QMBBFQEqAR1BHUDBQLWAEUAEgC8/wf/I/5k/fb88vx6/ZT+3v+aAEMAKv9O/oD+mf+lAM8AIgBY/w//Pv96/4z/pP/7/2kAeQDb/73+pP0H/Rb9xP3g/iEAOQEEAqACPQPKA+ADMAP2AeQAfAB/AC4AJP/d/UH9sv2l/kD/Sv9W/wcAQgFHAokCQQITAkYCcQIBAvIAzv8Z/9D+m/5b/lT+v/5e/5//Qv+o/mr+rv4A/9z+Qf6r/Xr9kP2S/X39vv2+/k0AuQFsAmoCLAIJAucBgAHVAD8ADgAwAE8AQQBAAKYAewFfAuMC6gKxAngCNwK8AfsANgDG/8n/CQAvAA4Au/9n/y7/Bf/L/mP+x/0U/Yf8Yfy7/Gb9Bv5W/mP+g/4I//z/EgHjAS4C+AFzAd8AZQAMALj/SP+6/kn+RP7S/rn/iQD0AAsBHgFXAZIBjAFKAR8BXgHtAVQCMwKjARkB7QADAQMBvQBVAPz/nf/5/gb+Kv3n/F79Kf6+/vX+D/9W/77/BwAbAC8AfwDxACMB1wA3AKr/Zf9M/zb/NP95//n/UQAkAI//G/8p/4n/rf9X/+7+D//g/90AagF6AZQBJQL3AlsD4wLXAewAkgCcAIgADwBj/+r+1P79/h3/Cv/U/qv+vf4W/5L/6v/j/4j/I/8C/zD/dP+Z/67/5f8/AF4A3v/P/tb9rP1//sj/wgATAfsA/gBiAQcCmALKAn8CwwHJAOP/Z/9q/7D/3f/G/5r/o//2/1oAiQB1AE0APwBGAD8AGgDt/9P/wv+f/2v/Vf+K////bwCiAJoAiQCLAIEAMwCc/wP/wv76/nj/6P8bACQAOQBzALkA1gCrAEoA5f+q/5n/if9J/9L+Tv78/QD+Tv60/v/+Ev/x/rv+pv7a/lv/+P92AMAABQGCATcCzQLpAoQCAgLOAfABAgKcAcAA2v9L/xT/5/6O/ij+Af46/q3+G/9x/8T/IABrAIgAfwB+AJ0AxADCAI8AVwBLAG0AkwCfAJUAiwB9AFMADQDQ/8D/zP+z/0v/vv5r/pL+D/+A/6P/jP+E/8H/NwCyAPwAAQHHAGgAAwC0/3z/S/8S/+D+1/4H/1b/m//E/+j/IwBsAJ8AoAB+AFgAOwAcAPn/7f8VAGEAnQCkAJAAmQDRAAEB5AB2APj/qv+F/1P///62/rX+9v43/0X/PP9k/9H/QwBlACwA4//a/xgAZwCeAM0AGwGEAdEB0AGCAQ4BkwARAIL/9v6L/kz+Mf4z/mj+5v6f/1wA5wA+AXoBpQGcAToBjgDb/1v/E//i/rf+rP7f/kD/m//Q//P/KgB4AKkAkwBFAP7/6f/y/+f/uP+O/5z/7P9OAI4AmgCEAGEAMwD2/6//b/9C/yX/HP82/4b/AgCDAN4A/gDxAMwAnQBhABwA2v+n/4T/bv9r/4n/0f82AJkA4gALAR4BGwH0AJsAFwCM/yD/5f7T/tr+9P4s/4j/+/9sAMIA+wAdASsBFAHNAFwA4f9//0H/Hf8D//b+Bf8y/2r/i/+D/1//Ov8n/yz/R/96/8z/OgCzACQBfgG5AdABvAF8ARkBpwAzAL//T//p/p3+dv51/pj+3/5K/9D/VQC9AP0AHgEuASkBBAG6AGIAGADp/8v/sP+a/5f/q//F/9H/zP/G/8j/x/+2/5v/jP+W/7H/y//h/wMAPgCHAMsA+QASARkBDgHwAMMAkQBeACkA8//E/6b/mP+N/3b/UP8l/wT/9/78/gv/If89/2P/i/+r/8H/4v8gAHYAuwDFAJcAXAA3ACYACgDe/73/wP/W/93/zf/E/+D/EgAuACQAEwAkAFgAhgCOAH4AdwCHAJ8ApQCQAGkAQQAkABoAHgAeAAkA4P+2/53/mv+j/7P/yf/h//P//f8IAB0AMwA7ADYANgBMAG4AgQB4AFkAMgAHANr/t/+q/6z/qv+e/5//xP8AAC8APAA5AD0APwAiAOH/ov+G/4X/e/9c/0r/Zv+n/+X/BQAMAAcA8v/E/4z/b/+G/8P/BQA1AFQAcQCVAL8A4ADjALwAeQA9ABcA9v/A/4P/cP+j//v/OgBIAEUAUQBbADwA9v+9/7//7v8aAC4APgBfAH8AgwBxAGkAdgB6AFgAFQDS/5//ef9i/23/of/a/+//4v/e//7/JAApABAACgAqAE0AQQAOAOr//P8xAF8AfwCfALsAtABwAAgApf9Z/xf/2P6x/rT+0v7q/vf+Gf9p/9T/MwB0AKUA0ADcAKkAQQDY/6P/pv+9/8f/zf/w/0EAnwDQALQAZAAaAPX/1/+X/zz/Cf8v/5j//P89AIEA8gBuAaABZQH9AL4AqABrANr/M//e/vn+QP9q/33/rv8HAFUAaABPAD0AQQA8ABIA2P+7/8j/4v/o/9n/z//h/w4AQQBZADgA2/9k/wP/xP6L/kH+/v36/Un+xP43/5r/EQCpADcBigGbAY0BdAE+AeQAjgB2AJ4AwACWAC8A2v/L/+H/0P+E/zD/F/8+/3j/ov/H/wAASgCBAJQAkwCYAJ4AjgBtAG4AtgAgAUsB8gA4AIP/G//2/t/+yP7S/hb/eP/F/+r/BAAsAFoAgQCvAPsAUwF3ATwBzACCAIoAswCkADsApP8e/8P+jP50/n3+nP64/sv+7/48/5n/zP/A/7P/+v+YACsBQwHMAB8Ao/95/37/jv+w//f/VQCfALoAsQCXAGUACACV/07/Y/+6////AgDw/xUAfQDaANUAbQDu/5f/a/9Q/0r/c//I/xkARABeAJQA3AD3AL4AWwAgACoARQA4AAkA8f8YAG0AyAAIAR8BAwG8AGsANwAjAA0A4P+p/37/Uf8G/7P+l/7W/jn/bP9i/1//kP+4/3z/4/5u/oT+9/5F/zv/Lf+D/yoArQDGAKkArwDcAOAAggDy/5P/kP/B/+r///8mAH0A8QBPAWwBSgEOAdUAmQA9AMH/Wv9E/4P/1v/8//D/2P/G/6P/ZP84/1//3v9rAMUA6AD2APYAzwCDAEYAQgBiAGwATwAtABcA8/+t/3b/lv8IAGsAbgArAPv/+f/r/6b/YP9u/8//JgA0AB8ALQBbAGcANgD1/8z/nP8s/5b+Ov5L/pj+2f4U/4b/KACZAJAARAApAGUArQC8ALIA1gAaARYBkgDX/2T/Xv96/2j/Nf8q/2X/vf/2/wEA/P8QAE8AqQDnANkAhQA3ADgAfACxAKYAigClAOgA8QCNAAMAu/+8/6z/Y/8s/2f/8v89APP/YP8Y/0n/pv/W/9//AwBbAMQAEgE6ATsBDwHBAH4AaQBiAB4Ah//i/oj+kv7T/iL/gP/x/1MAeABdACcA5f+G/wr/pP6U/tn+OP97/6X/0P/7/xsAOABeAHAAOQDB/3H/rv9TANEA0wCjAL8AJgFLAc0A+P9w/3P/pf+h/3r/hf/U/xUADwD1/yYArAAmAT4BBAHMAMIAxgCfAEMA2/+a/5j/xP/u/+3/zv/L/xEAfgC7AJoARgAMAPf/1f+R/2H/g//d/xEA8P+x/53/qv+M/yv/1/7h/jD/Yf9K/yv/UP+p/9r/vv+Y/7j/EQBOAEAAGQAcAEUASgD+/5P/ZP+T//b/WgC9ADwBygEfAvIBUAGYACUA/P/X/4X/KP8I/zT/Zv9W/xX//v5L/9b/RABpAGQAXwBVADUAFAAlAHQAxADUAKoAiACOAJUAaAAPAMz/yP/n//P/3P+4/5r/gv9//7X/LgCzAPEA3gDCAOIAFQHpACkAJ/9w/jr+P/4p/v39Cv53/hP/lv/2/18A0gAOAeAAdwBAAF4AegA3ALb/hv/3/6oA9ACYAAQAvf/J/8X/fP8u/y7/dv+///D/OwDAAEMBcgFMARoBAgHLAEAAk/8y/zf/Vf9H/zz/gv8FAEwAGAC1/4n/hP9E/8r+of4w/x4AsQC5AMAAMQGqAXQBkADi/yoAHwHWAeIBsgHCAd0BawFZAEr/0f7O/sf+rv7w/r//lQCsANj/rf7Z/Yv9ff1+/aX9H/7i/qz/NABaADMA/v/5/y4AcQCQAI4AjwCTAHAAGQDR/+j/QgBjAP3/Xv8r/6z/ggAfAUwBOAEiAR0BHAEZARcBKAF5AS0CDwN/A+wCdgHT/4D+QP2r+wf6QPnW+Tz7ivyv/WH/3QEfBNsE+QO2Ah0C4wEZAa//tf4R/1wAYgGIATQB/QDYAGAAkP/R/mf+Nv4z/rL+8/+KAaAC5wLnAjkDngM7A60Bmv8J/kn9y/z1++H6Ofp0+lr7RPzH/Bz95P1v/z8BVQIwAmUBBAFmAcsBXgFpAB8AKAHEArADpAOBA/YDgAQZBLECbAFfAXQCuwOQBPEEyARnAwEAlPoh9DHuTeqs6cjs+/K2+ncCggmGD8gTLhVbE18P5grbBiwDyP86/QT8yvul+yP7X/oM+Tf2n/Hj7HjqNeun7TXwZfMc+a0BtApoEW0VeBhyGwwdpBu6F4UTThBNDWAJ/wSKAfz+kfsF9ozvvere6PnolumI6pfs7e+881L3yfpA/hMBiAIQAxwEbwYECTAKjglcCOsHKQgACMEGzwT6Aq8B5gBrAN3/hf6u+3D3BfMe8Mjv4/GW9Tv65f8YB8UPaxhxHs8fqBwpF4cRUwzVBuIAo/tK+H32qvTR8XTubeuW6EvlJuI94SLk+elS8Nz1rfuJA0QNWhYVHLcdfRwYGmMXVBSZECwMoAf6A/MBFwHT/838Nvie81HwSO7R7Pvrx+zu7+D0R/ow/1kDhwYuCAAIkQbuBLkD4QI+Av8BUwLoAisD7wJ7AvABBwGv/5T+if55/04ALQCG/33/gADOAYsC1AJaAwEEaAMpAG36KPTC76ru//BO9jT+JgiiEgYbtB7kHFEXyxDsCloFcP8b+kX3Qvej93z1n/C068vo0uZq4+3eKt164dXqA/Vv/YMFiw9jGqkhZiJaHuMZVxduFSASxw2YCqIJSQn4BqEBUPrH8jTsIef440zjs+V96zX0K/7vBskM5g+rEcISNhLmDowJnQT3ASMBPAAm/l37qvjj9XPyqu7366rr+u1K8vH3TP5cBPoIpAvJDAsNngyVC4wKSgqjClcKcwimBYwDvwImAosARP6W/J37rvla9aLvYuuP6qbsNPBF9VX9tQiVFH0c3x3uGQoUqQ4FCmEF2ACC/QL8afvb+TL25fBc66bmCOO14HbgTeNk6ajxpPq0AwYNZBY/HlgilSEoHeUXShT4EpsSLxGHDQEI/QF8/DX3HvET6s3j1OA44oXmUuvD7yn1/vyWBkAPpxS1FukWQhZUFIQQigsxB3EEPgKZ/r34FfLk7CnqC+lT6CjoD+oj7432Bv7JA+AHYAuuDuwQJRGZD5EN8guHCsUI6Aa6BVsFxwTwAhMAh/0t/I37rPqG+Sv5N/qk+3D7ffi181bvXO2I7qTyPvnlAbML0BTFGr0b4hdrERELLQZhAhD/sPwk/NH8Rvxy+CDyeuy86fro3edH5jbnhO1H+FYDZQvTEPAVJRvwHeQb5BW0D2kM4Au4CycKTQcaBLgAXvyC9sfvyulB5iXmS+mN7nT0BPoL/5wDcgcFCkIL1wt+DB8N/AyxC8AJzQeZBSgCJf2x95XzkvHb8Evw0++A8CnzU/eH+4r+PABoAQEDeQWBCDELiQwMDB0KqweCBd8DqgLlAcUBUwJBAxsEpgTWBHwENgPbAOP9PPue+RH5Hfll+QD6M/vP/NH91vw0+Qf0FPA38Fv1zP2cBtwNaROkF+MZpRh2ExsMWwWoAE/9GPoR90r14/RJ9Mrxs+0p6tboVelY6v7rPfCY+N4Dqg4wFica7BtUHN8a8BZHEc0LEgguBv8EOgM+ACn8jfcC89XuIuta6KvncOrc8C75nwBcBZ8Hzgi/CSYKlgmRCDYI9QgHCkYKRwlTB4UEewAq+7H14vG48IPxvvK98zP1Efj9+z//TABp/5b+2f92A9MH/wpCDDsMtQuyCr4I9AVTA9EBYwE1AdIArwBTATYCAQIZAIj99/vL+7P7R/rR9xL2XfZR+I/6Uvzx/eL/1AH2AsICJwEb/rf5D/V08hb0FPo+AvMJFxDuFFgY5hgvFccNXAW2/tH67/gW+OH39vdk9y/1ffG+7W/r4OqB60ztcvE5+RMEHg/QFn4ZbBhhFhMV3RPvEMsLVgY1Aw8DnAPEAa/8d/bg8arvi+5z7Tztle/C9Ar7hQDlBOAIOAxIDfwKzgbpAw8EzwUqBuMDnQCu/kr+aP1M+sD1gPKY8p/1avks/Lz9+/54AMUBFwJIAScAx/+NAOoBBAOKA9sDWgTLBIkEXQPyAUMBnAFVApcCVQJEAv8COAT0BHsEBgOHAb8AiAD//2L++vsW+vv5pPuo/Yf+LP7n/c7+VgDTAGX/Hf3m+3n8qf3F/Tr8s/kC96D0UfOb9L/5EALWCksRmBS1FYUVrBNvD1sJaANn/5f91/zU+8P5R/Z98Wrs3ugq6N7pUuzM7r3yOPoWBRYQVBeJGaQYShc3FlIU2BCzDHwJjAeQBQcCw/zR9kTxjOzz6EXneeiS7C7yhPfZ+97/gQRrCegMbw1HC3UI9wYLB0AHMgbzA60BDABw/tf7XPhg9Tn0+vTL9i35XvxcAOgDMgWiA78A7v5P//wAXwL4Ap0DHgUBB8MHWAZPA3wAgv+gALYCXgQVBVYFuQX/BT8F+gL3/6z9w/xq/En7HPkI90H2o/YB97T2hvaz90b61vwV/lT+Qf8TAjoG1glnC/IKrQm0CPcHOwYWAlL7ifNi7dfqEOzs75b1Nf3MBq0QwhfIGUAXwRJ+Ds0KLQcbBPoC8AOOBHgBpPms74/nW+Mt4lzi6eN46Prw5vv1BZgMmQ+cEFERPhL2EhkT6hICE3UTWxMxEeALlwPQ+Y/we+mC5enkd+dl7GryJvi8/BUAjQJ0BOMFBwc9CNEJgQtwDLELAwkRBekANP3W+V/28PKe8NTwGvRw+eH+3AIPBQwGaAZHBrUF+wRnBN8DDAPyASAB8gDaAMr/jP1o+wv7yvxP/xIB6wHRAkkEiAV4BSoE2wJxAnMCywFNAPn+of7C/iX+cPy0+iL6m/rn+lH6rvl/+j39uQA8AwUEqgMoA+QCkALNAbMAzf+7/8kAxgICBXUGBgb4Al79UfbD76/rJuv27UDzd/qSAxIO7Bf5Hf8dlxjjEEMKJwb3A6gC4wGHAXsA0/yK9Q3sqeMz3y3fJ+K75uHsMfUn/4cIzw5AEV8RZBFDElITsROkExgUAhWYFKkQvwiz/hr1Ue1i54XjA+MN58ruJvcK/cD/AgG0AgEFyAaMB10IlwoNDtYQ9xAVDmIJOwQK/6H5OfTl7+Ttse6l8X71F/nj++D9Vf+YAPEBlQOWBc4H3wlNC7ML0Qp7CKsE0v8Y+/33Z/fm+A77sfzM/Sn/NAFTA4IEegQABAQEnQQCBXkEGgOUAVIAEv9H/d/6h/gu91b3wvjD+sb8m/5JAKgBQwK4AUUAyf4f/mL+9P5J/4j/OQBoAUsCDwLbANH/9f82AacCoANcBHwFFAeECA4JUwgTBtUBVPuB89bsKurV7NPzovzwBI4LKhCVEowSGRDoCy8HQwMiAQ0BLAKrApEAH/uL81HsgeeK5avlW+cS637xBvp9AosIfQubDLMNbA8cEQwSfRIyEycUGxSRESgM3QQY/df1x+/F66nqXuyH73nyqvTk9gX6uP3JAKwCXARYB9sLRhBsElgRyw0sCVgEdP+Z+kX2JPOe8bDxDfM19YH3UvmG+p77Tv3Y/9UCqwUXCC4K4gvEDEwMXwp0B0gEcQE8/7X9t/z1+zv7tPrU+tb7R/1S/ov+e/4k//sAVwMABUEFYwQwAxwCDQHP/4X+jv0S/dX8jvw//CL8Rvxr/FX8LPxk/Dr9YP48/4D/Z/9g/6H/FwCtAH8BngLWA7oEBwXTBEoEXAPXAeT/Qv7k/T3/7AECBXYHSgiUBtUBpPru8kPtiesi7in0QPwSBSoN5BLuFCUT0g7xCRkG/QOdA5kEGgatBrEEWv9n99Puq+co46zhS+MJ6G7vG/gNAJoFXAg5CZ8JoAqRDDUPERKUFCIWHBYMFMoPnglAAtL6o/TJ8Kzv0PAS8zj1f/bQ9pD2RfZc9kH3ePl2/SUDeQmdDtkQow/uC30HtAP2APf+gv3K/AL9yP0t/lr9Mvtf+Nz1jvQg9eb3j/zxAXUG+wiCCeUI6QerBvkEGQPqARsCVgNkBDcExALIAOP+Hf1g+xv6I/rJ+0L+NQDhAKUAWgBFAOv/4/6T/e/8c/2h/o3/1P/S//b/EgCa/3j+cv2A/df+pwDdARECnAH2AC4AFv/L/eH84Pyy/ar+Mf9I/2v/6/+OANwAvwDAAJABTwNWBa0G2AYdBjIFlAQ8BOMDZQPNAvQBPQDr/PL3ffKA7pftGPAi9W37/AEfCAsN2A8EEPcN1QrUB6sFmwSuBKMFjgboBW0CNfzf9I3ujOrx6E/pheuj7xf1Y/rt/Uf/mv+oAGIDZgewC5EP3hJzFb8WDRYgE24O0wggAwP+F/rG9/D22fam9vv1GfVe9M3zOPPX8oLzHvbC+nQAvgWLCYcL7gshC4UJiQelBTIEPQOEAogBxP/x/Gj5LPaA9Br1m/fW+qz9w/9zARADYATSBCwE+wJHAsYCXQQ6BmcHRAfBBUwDqACW/nj9I/0f/Sj9Zv0b/iH/4v/q/2H/7P7+/mb/k/84/5b+Lf44/ob+uv6Q/gT+Sv3A/MH8a/1y/lL/r/+k/5X/yP80AJ8A6gAnAWYBkQGFAUYBEAEkAYEB4gEFAuYBtQGMAUEBnACs/+P+xf6I/woB+QLqBDgGBQaxA3j/i/pa9snzAPPw87L2P/vYAAQGWglgCqsJNQivBm4FuQThBO4FTgfvB9wGyQMw//v5IPVt8X7vmu978UX05Pa2+OH5APt0/A/+gv/zABEDYAaKCmYOxRAtEe4PrA3qCgMISgUWA5cBrgD0//X+Zf1J++b4ivZu9Mby7fFc8kX0SPeQ+mz9t/+oAVADdwQDBVgFFAZbB5UI9QhECP0GnwUDBI4BEv5g+uX3kfcf+Wj7VP2P/lv/7P8ZALX/E//n/qr/GwGSAqsDggRBBaQFOwUQBNACJgIEAsgBCAEPAHD/QP/z/gP+jvxA+7z6MPtb/M39Dv+3/6b/H/+i/oz+4P5r/xAAxwBzAcQBawFvADr/WP4d/oL+QP8SANAAYQGoAYcBDgGIAEgAXACKAKQA0ABaATQC1gKwArsBfQB8/9z+kf7F/rv/QQF2Al0CqgD//Vj7Z/lx+J34Cvqk/PD/QQP2BaUHCggeB0YFVAMeAgICtQKIA9wDYgMaAjEA2v1Q++f4Gvdo9v32e/gm+lj71vvF+2r7Gfs9+zv8Hf5xAJgCVwTxBaoHUAlPCkkKbglMCFIHmQYMBpEFAwUlBK4CewCu/aP63Pfa9er0BfXf9Rj3ZPiH+Ur6oPra+oD75fzT/sUAbALgA0cFawbTBkIGCgXMA/wCqAKgArsC6wImA1QDPAOXAjwBXP+K/Vr89/sT/Er8dvyp/OX8E/1B/bL9jv6S/0MAfgC2AHQBtALhA24EVQTzA4cD9gIZAgoBGwB//x3/vP5C/sz9kP2i/dn96/2u/Tz95/zj/B39Yv2k/Q3+wf6m/3wAGQF/AbQBqAFVAeUAlgCCAJQAugACAXIB3QEJAvoB7wEKAh0C6wGOAWIBgQF8AcoAZ//j/cv8LPzQ+8T7YfzT/aj/IAHRAfIB9gEWAjICNAJLAsYCsQOoBBsFuwSxA20COgERAMj+cP1b/MH7fPst+6v6NPoU+kT6fPqi+v/65/tF/an+w/+uALoBAANOBGsFVAYeB8QHJgg7CBAIqwfuBsUFVAToArYBrQCT/0P+yvxn+2j6/vkU+lL6WfoM+p/5VvlF+WP5vPl5+qr7Hv2S/vP/XQHKAvIDjASnBJ8EuQTnBO4EvgR9BEwEDQSKA7QCtAHCAPb/T//P/oH+a/58/pn+q/61/sv+//5R/6P/2/8AADEAgADNAOIArgBQAO7/if8T/5b+Of4L/uX9oP1N/TH9bP3W/Sj+Vv6Q/gL/nP8rAJUA4gAhAVEBdAGjAfIBTwKEAmgCAQJ2AesAfQBAADkAUgBgAFEANwApABkA4v+I/1D/h/8qANsAKwEAAZgARQAbAOf/cv+8/gL+i/1u/Yj9p/28/eH9Nv65/k3/3P9pAPcAegHiATUCjQL5AmEDlwOBAykDpgIAAjkBXQCL/97+Yv4H/rD9Q/2+/EL8BPwg/Hb8yvwE/VH95/29/oT//f8/AJgAMQHaAUQCXwJgAoECvgLsAvUC7gLnAssCeAL0AXYBKwH/ALEAHQBl/9D+ff5R/hj+yP17/Uj9L/0k/TX9dv3c/S/+Sv5N/oj+I//m/2oAfgBUAEcAegDEAOwA6QDhAPYAIQFJAWMBdgGJAZIBhwFyAXMBmgHVAfwB+wHeAcABqQGFATcBwAA6AL//Uf/p/on+Qv4h/hn+C/7s/c39yf3j/Qj+Kv5S/pP+6v44/2L/a/9r/3b/kP+0/97/CgAqACsAEwACACEAeADeABoBDQHVAKsAsQDNAMcAiwBAABkAJABBAGAAlwD8AGcBjgFWAf4A2ADyAAcB2QB/AD8ANgA8ABoAz/+A/0f/FP/Z/qv+r/7o/ir/R/86/yf/J/8x/zD/Lv9Y/8r/XADBANAArQCfALkAywCeAEMA+f/o////GQA8AHsAuACiAAwAPP+4/sb+LP97/4T/e/+i//X/NgA/ACYAGwApADMAHgDy/8r/s/+n/6X/tv/g/xQARQB3ALIA5ADoAK0AUQANAAAAHQBMAIYAxgDyAOwAvgCcAKYAvgCmAEoA4v+u/7L/sv90//b+a/4R/gb+PP6L/s3+//5A/6r/LgChAOIA+wADAQMB+gDvAOgA1QCTACcAzv/D/+3/8v+d/yn/Bv9a/+T/TgCOAMwAFwFEATEB/wDuAA8BNgE8ATIBRQFwAW0B+wAlAEn/yP63/tn+2P6S/in+2f23/az9of2x/Qr+pv42/3X/df+T/wkAqwAbATUBKwE3AVcBWgEuAfEAxQCjAHgASwA5AFMAgACcAJkAhgB8AH0AegBdACgA/f8FADcAVgA0APT/6f8rAHAAaAAkAAMAHwAiALX/D/+7/uT+E//J/jf+Bf6D/jj/ef8x/+D+9v5b/7L/2v/6/ywASwAzAAEA+f80AIAAmwB6AEwAPwBZAHgAfwB3AIkAyQATASIB2gB0AEoAcgChAIMAGwDL/9v/KQBSACkA5v/a/w4ARQBNADEAFgD+/87/i/9m/4P/wv/i/87/s/+8/9f/1/+w/4v/kf/N/yYAgAC0AKUAYwA1AFQAnACtAGEACAD//yoAGgCs/0n/Wf+x/8b/a/8M/yD/if/Q/73/kP+N/6f/tf/J/w4AcwCvAJ0AeACEALgA2gDKAJsAWgD9/5P/Vv9p/6b/y//P/9//AQAAALv/b/9t/7T/7P/m/9L/7/8rAEYAMgAnAEgAbQBlAE8AdgDjADoBHAGUAAYAxf/S//v/GAAXAOz/k/8q//D+Cv9X/43/hf9l/3L/wP8eAFAAWgBqAJoA0QDuAPYAAwEMAeIAbQDX/13/Dv/Q/pf+gP6r/gj/Zv+d/6H/e/9F/y//Vv+d/7//r/+1/xQAmADBAFsAyP+L/6r/xf+j/4L/s/8oAIcAnQCFAGoAUQA6AEQAhgDYAPMAwgB6AFEASgBJAEcARQA1AAMAyv+7/9j/4P+l/1X/RP+B/8L/zf/F/+3/PQBpAEoAEgAJADIAXgB5AJwA1gD/AOcAlAA/ABwAJgA1ACIA2v9v/xf/Ff+A/xgAbQA+ALn/Tf8//3r/uv/W/9v/4P/o/+X/2//k/w4AQABSADoAGwAbAD4AXgBUABYAuP9X/wz/5f7o/hj/cf/a/yYAKgDt/7H/uP/+/zsAPgAxAGUA6gBuAZMBUAHsAKUAgwBwAGEATQAiAN7/pf+l/9T/9f/d/6X/g/+J/57/sP/B/8r/tP+E/3P/s/8qAIsAsgDCAOEA+gDrAMUAsgCcAD0Ak/8Z/z3/yv8RAMH/TP9S/8n/FwDn/5n/r/8RADsAAQDW/y8A2wA1Ae4AWgD6//L/GABFAGgAWwD4/2//Pv+s/1sAnAAyAIz/Of9R/5L/0f8XAFcAUgD3/5r/m//q/ygANABUALEA9gC5ACUA2f8TAEcA2P///qL+O/88ALIATgCf/0z/dP/G//v/EQAcACIAIgAgABcABgD5/wEAEAAAAMv/m/+L/23/AP9u/kD+xf6Y//7/wP9e/2//8v9gAFgA9P+O/2L/df+z//r/HQAOAP3/JQB6AKcAewAyADAAeACnAHMAEgDv/yIATwAZAJb/Kf8Y/1L/q/8QAH8A4QAUARQBBQH3AM0AawD7/9H/CABOAD0A0P9w/3D/tP/h/83/ov+U/6f/y/8LAG0AxADYALIAoADKAPMA1ACQAIgAyADkAIkA/f/G/+3/9P+K/wb/8f5J/4f/Yf8o/03/xv8iACEA7f/F/6//lv+S/8n/KQBtAHIAWwBXAFsAOwD4/8n/3P8fAFEASAAUAOX/3//3//3/1/+h/5j/z/8SACEABwANAFoAvQDnAMAAdgA4ABUACQASAB8AFwD7//3/PQCSAK4AeAAiANn/of97/5T//P9WACQAe/8W/4f/cwD1AK0AJAAJAE0AXwABAJ//rf8OAEcAGQC6/3j/ZP9q/3n/jf+T/3//bP99/7D/2v/b/8H/sv+6/9H/7/8JABAAAQD3/wcAFgDu/5j/a/+v/zAAbAAtAMn/sP/f/+3/pf9Q/1T/sf8KACgAMwBjAJsAhAAFAHD/N/9y/9v/LQBfAIcAmgB5AC8AAgAaAEQAKwDP/4//tv8OACQA1/+F/4f/w//m/+b/EgCHAOYAwAAzANv/GQCeAM4AdQDp/43/bv9k/2b/hv+0/7r/f/88/z//jv/l/wUA9P/q/wcAOwBmAIIAlgCYAG4AGQDQ/8n/+v8LAL3/P/8S/3X/EQBTABgAz//q/1MAoACgAJEAoACWACkAiP9Q/8z/gwC5AEMAr/+T/+3/SABhAFoAZwB0AFAACADj/wwAVwB2AE8ADgDv/wYAPQBxAIcAewBcAEAAJgD+/8n/pv+v/8z/zP+n/5f/zv8sAFkALADb/6//r/+4/8r/EQCSAPUA0gArAGz/+P7U/sn+wP7S/hf/g//7/2sAuwDOAJ8AVgAlABUADAABAA4ANAA+AAQAsv+n//f/RwA9APn/6/9CAKsAwwCRAG4AhwCjAHYABgCa/2z/ev+f/8H/1v/d/+L/9f8SABUA4v+V/2v/iP/R/w0AJQAkACAAJwBDAHMAlgB5ABMApf+D/7P/8P8CAAEAIABQAEoA9P+h/7D/CgApALz/F//j/lb/+f8yAPX/uP/O//r/1v9v/0X/n/8dAB4AjP/2/ub+P/9//3f/gP/p/3cArgB8AE4AgQDgAPYApwBOADoAUQBDAP//xv/O/wUANwBMAE8ATwBLAEIAOAAoAA0A7//g/+L/2v/A/7r/8P9LAHgASQD0/9z/IgCFALgAqgCBAFcALAAFAP3/HQA4ABMAtP9g/1n/j/+6/63/iv+N/8b/CAAqADoAVgByAFYA7P90/0f/cf+l/5z/Zf9D/1H/bv+G/7X/BgBDACwA3v/H/xsAfgBwAPH/jP+t/ykAfgB6AFkAWwBmADcA2f+u//3/jgDXAIgA5f+C/67/IwBdAC8A7/8IAHgA0wDIAG8AGADb/6H/af9h/5z/7P8aADIAZACnAL0AkgBnAHgAmwB8ACAA7f8fAHEAdQAqAPD/AAAoAB8A7P/M/87/vv+E/1H/af/K/y4ATQAZALz/eP97/7n/9P/5/+T/8/8oADMA2/9a/yr/bf/L//H/8f8SAFMAbAA/AAkABgAUAPL/sf+x/xIAdQBtAA8A1v8JAGcAhgBgAE4AgwDCAKYAKgC1/6f/6f8KAMj/Vf8V/yr/Y/+N/7T/8f8uAD0ALABCAJEAvQBvAOL/tf8kAK4AsAA1ANT/4f8NAPr/1f8OAJUAxQBBAIP/WP/h/2AAIwBR/7b+2f55/+z/1v9q/yH/O/+P/8X/tf+O/53/5f8ZAPv/t/+y/wgAXQBUAAMA2f8IAEcAOwD0/9r/FQBdAGAAMwAyAHEAmwBjAPn/0v8RAFwAVAALAOH/+/8ZAAUA4//6/0UAcwBcADwAWgCeAKcATgDZ/6L/rv/A/77/xf/v/xkAGQAAAA0AYQDOAAkB6gCKACoABQArAGkAawAQAI//Q/9O/3j/hP92/3v/n/+3/6r/pP/g/1UApQCDAA8Auv/T/zMAaQA1AMv/jv+e/7//tP+R/6D/7/86AEgANgBKAI0AxADLAL8AvgClAFIA7//S/wIAKAAIAOH/BwBWAF0ACQDU/yAAnACtAEwAFQBwAPcA/QBtAOD/yP/x/+T/mf9x/6j/AAAVANT/hv9//9D/RwCYAJQATgAEAOr//P8bADkAXQB1AFoACQDF/8n/9f/q/4n/H/8I/zj/WP9A/yz/Vv+h/8L/sf+4/wYAXABOANL/Y/+B/xgAigBcAMb/ef/S/3AAqQBSAOb/3P8XACgA//8CAGkA2ADMAF0AJABuAMcAkwDh/1n/bf/Z/xsAFQARADYATAAVALD/cP98/6//3/8MAEoAkgDIANcAxwChAG8APwAiABkAEgAAAOn/5P/5/xYAKAApAB0AEQALAA8AEgAGAOH/rP9+/2D/Tv84/yH/Ff8g/zj/Tv9g/4P/x/8XAEsAUgBFAEYATgA5AP3/xP+//+b////m/7//xv8NAGsApQCeAF8ACwDQ/9H///8lAB4A+//v////+/+//3P/Z/+2/ysAewCKAHAATQA1ADMASwBsAHkAZgBGAC4AHQAAANP/sv+1/9//GwBRAHMAgACCAIYAjgCQAIMAbgBSABwAu/9L/xL/NP93/3z/K//b/uf+Rv+V/5D/XP9S/5b/+f89AFMAUgBOAEMAMAAmADQAUQBhAFsAVQBnAI0AqQCjAIUAYwBDACAAAQD4/wEA+v/N/5T/hP+p/9b/5f/p/woARgBqAFcALwAbABAA5/+k/4H/p//0/y4ASgBrAJ0AuACXAFQALAA6AFQARQAFAMX/wf8MAHcAsACEABAAo/92/4L/n/+8/+L/BQABAMj/iv+F/8L/EwBAADYAAQDB/6b/z/8dAEAAEADI/8L/AAAsAA0A2//l/xcAEwDH/5T/yf8uAEkABwDP/+r/HgAKALT/f/+j/+j/AgD3/wgASwCNAJUAZwA3ADcAcAC9ANoAmQAVAK//tv8SAFwAUAAKANL/x//b//n/HwA5ACQA3f+c/6H/5v8dAAYAsv9q/2T/nP/f/wQAAADp/97/6f///w8ADwD6/9D/pv+m/+P/KwAmAL3/Rf8t/4L/6P8IAOz/yf+n/23/Nv9Q/8v/QwBKAP3/5v9FALYAswA+ANv/5v8pADwADwDz/yEAeQCtAJsAXAAiAA0AGQAeAO//jP8+/1b/zf87AEUAAgDU/+z/GgAiAAwADwA3AFcAVQBOAGgAiQBzABMAnf9U/1L/if/h/zcAUwAhAN3/6f9SAKYAcADH/0j/Zf/u/04ANQDX/43/cv9q/2j/hP++/+j/0v+M/1X/Vv92/3r/V/9C/3P/4/9MAHYAdwCGAKEAgwAGAHr/Xv/C/x8A7/9f/xz/h/85AIQAOgDO/7b/9P89AGQAcQBxAGcAYABrAHEAOwDF/2n/gv/8/2IAagBCAEQAeACZAH0ARAAhABQAAQDn/+P/AgAsAEoAUABAACAAEwBBAJkAwABtANX/hP/B/yoALwDB/2T/e//F/7T/PP/z/lz/MACfAEEApv+y/5AAZQE8AR0ABf/a/nb////2/7b/2/9eAKYAVQDI/5r/5/80AB0AzP+1//r/SABGAPX/p/+X/77/7P/9//X/5//h/+j/9v8BAP//7P/Z/9n/8/8RAB4ALQBlAMEA9AC7AEgAJACJAAoBAwFwAPP///9CACEApP9+/wQAjwBAADf/l/4g/0MAxwBOAKf/tP9RAKoAXgDm/9L/BgAGALr/mP/s/1MALQBr/7r+tf47/6L/if86/zX/jv/j/+D/qf+k//X/VwBxAD8ADgAYAEAAMQDO/2L/WP+7/yIAIQDQ/6n/7f9KAEUA6f+7/wcAbgBoAAUA1P8TAEsAAgCC/4D/FgCCACoAff9y/zYA6QDBAAgAq/8BAHkAfwA4ACQAVQBjABMAr/+P/6H/m/99/4z/4P8uACoA8//i/xMARAA3AAYA9P8QACQABgDR/8T/7f8TAPT/k/83/x//Rf97/6r/6f87AGwAQgDW/4//tf8eAGAAVgA2ADkASwA5AAgA6f/q/9z/pf+D/8n/XQC3AHcA4f+c//r/owAIAf0AzACyAI4AKgCs/4f/5f9VAEcAyP98/9L/bQCUABcAjf+Q/wEASQAkAN3/z//w/wgAGwBUAJMAfgAKALH/4v9oAKYAawAnAEQAjACAAA8Aqf+a/6r/f/8m//r+GP89/zT/Kv9j/9D/GgAWAPn/CwBMAH0AdQBHACoAQACAALkAugB6AC0ADQAWABEA4v+z/77//P8pABsA7P/L/73/sP+i/6P/pf+Q/23/cv+v/+H/vP9c/zn/mv83AIsAbAArACkAdADSAA4BFAHlAJgAXwBvAL8ACAEHAcoAkQB/AH0AawBTAEcAMADf/2P/FP8z/5P/u/9z/wP/1P7x/gz/9v7k/h3/h/+7/4X/Mv8l/1j/af8q/+/+Kv/Y/4IAwgCdAFkAIgD///f/EwA/AFQASgBIAGIAbwBKABYAFQBDAEgA//+9/+//dQC1AGMA2f+b/6j/nP9f/1L/r/8VAPX/W//1/kX/EAC3AOQAuwB+AFUAXgCwAB4BOwHCAPn/ef+D/9D/+v/7/woAOgBYADwA+//N/9b/CwBBAD8A9f+u/+P/pwBWASoBKQBE/0z/9/9PAO3/c/+R/woAEgCB/x3/iv9kALwAVwDn/w8AiwCqAEgA6v/y/xcA5/99/1z/sf8RAA4Axv+w//X/SABbAEIAPwBXAFUAJQD5/wwATAB1AGIAMQAXACIALgAaAOL/pf+O/63/5v8BAOX/vP/E/wIANwAxAA4AGQBfAJsAhwAyAOn/z//J/7b/pv+8//H/IAA6AFoAhwCXAFkA4/+D/2L/Yf9M/y3/PP+U//3/JADs/4z/Tv9P/3H/i/+d/77/8f8SAAEA1//L//T/JQArABcAHgBMAGwAXQBJAGgAnQCXAEsAFAA2AHQAWwDh/3X/Yv9v/0j/DP8k/5n/8//b/5j/tf89ALQAvwCGAGQAZgBYACwACAAAAPP/zv+u/6v/s/+0/9H/MgClAMUAfAAyAEAAdwBsABcA2f/q/wcA7f/E/97/GwALAJf/QP9v/9n/4/98/zn/f//3/woAsf96/7v/JgA8APL/p/+Z/6f/pv+s/+//agDRAN8AlQAzAPj/+/8cACUA9v+r/4n/v/85AK0A3QC/AH0ARAAmABcADgAfAGIAuwDTAGoAs/8//2n/8v9NADkA/v/7/zgAcwCDAHoAbgBeAEkATABrAHwAXAAqACYARQAwAML/V/9k/93/NQAHAIv/Q/9h/6j/1//g/9D/ov9m/1f/n/8MADAA5f99/2j/q//r/+P/vv/X/0gAwQDdAIcAEQDU/9v/4P+v/3L/ff/c/zQALQDh/7b/0v/3/+j/1f8OAHkAnwBOAPH/CQCAALUATQCj/1T/gv/M/+T/3//r//j/1v+g/7D/JQCmALsAYAAOADEAtgAhAR0BwABZABcA7v/Q/9T/CwBUAG4ARwAUAAoAFgACANH/x/8IAFQAUQAOAPf/QACSAGoAvv///pz+lv60/tv+E/9S/3n/gv+R/8D/BQBNAJkA3wDzALMATwAlAEwAeQBiAB0A+f8MAC0AQgBaAG4ARwDT/2z/eP/g/ysAKAApAG0AoABNAKH/VP+j//D/mf/u/tP+gf8vACQArv+a/w0AWgAcAM3/EwC8APsAigAHABYAhACsAGoAQQCGAOAAwwA4AMv/0P8KAB0ABQD8/w4AEwD+//b/BwD1/4n/8f6j/tL+Nf9m/1X/SP9q/5r/pf+X/67///9RAGUATQBcALkAHwEcAZgA///S/yAAeABvABsA7f8dAGcAXgD2/5D/hP/E//3/AwDu/93/yP+e/3b/ff+6//b/CAD8//n/BwAKAP//DAA5AE8ADQCU/1n/qv9FAJkAYwDx/7z/5f8vAFUAVgBSAEsANAAZACsAeQDLANIAggAdAOP/zf+y/5b/sP8OAFwANACd/xX/Cf9Y/43/bv8v/xD/B//4/hX/q/+NAAYBnwDT/53/TgAdARgBRwCU/6L/GwBIAAsA6P8zAJcAjwAeAMX/3P8zAGcAWAAvABIAAQD1//f/BQAJAPf/4v/l//n////m/8P/rP+e/5D/if+Z/7//6v8HABEAAgDd/7n/vv/5/0IAYABHACAAFwAqAD4ASQBWAGYAagBVADMAFgD9/+H/0//q/xUAGQDV/3X/U/+I/8//0f+N/1r/ff/c/yIAIADy/8X/q/+h/7n/CABxAK8AmwBiAEsAVwBGAPz/xP/z/3AAxACqAGMAYQCqAMsAcgDU/3X/jP/T/+f/u/+W/7L/+v8pABsA7P/U/9//5v/H/5X/h/+v/97/5f/V/+v/MgBhADYA0f+R/6X/4P8JABwAKwAoAAUA5/8GAEEAKQCj/y//Wv/0/zoA3f9x/6X/RAB1AOP/Kv/7/jj/Tv8l/z3/vv8VALr/E/8B/6T/GwC4//7+/P7v//EAIAGpAGIAoQDvAMkAWAAhAFEAkACJAFAANABQAHEAXAARANH/4f9BAJwAiAAFAJn/zv94AMYAMgA9//b+rf+EAHwAvv9g/+//rACPALX/Q//V/6gAqADz/6j/TgAPAeQADACv/0AA5wDDACwAHwC4AAEBYgCO/4z/PgCDANb/A/8F/63/9/+E/xP/Xf8RAEYAyf9X/5X/NgBtAPz/ef+G/w0AcQBUAAkAHQCaAOYAiADY/7f/cAA6AR4BQgDP/2YAOwEWAQQASf+n/1MALQBi/yn/+P/ZANAANQAKAHAAkgASAKb/7f9wAF0A6P/1/50A4wA8AIb/xv+KAIkArv9g/2MAewEPAZL/B/8nAEUBoQDr/lH+d/+jADkA7v6n/s//4gCeAJ7/Tv/2/5IAVACN/wr/D/9P/37/hf9i/yf/Hf9y/9r/1P9q/1n/GAANASkBRABt/57/gADaACIAKv8Q/9v/eAAeAEr/Gv/i/7cAkQCg/xf/p/+NAIwAkP/a/lL/UQCAALj/Of/o/wEBIwE6AIz/4P95AFMAsv+q/1cAlADB/+f+V/+nACIBJwAb/2//lQDXAOD/M//i/+MAlQA3/6/+zP8EAZ4AOf/5/msAnQHMAPP+h/4NAFwBkwC3/kj+1f9AAbIADP+V/sv/0QAiAKv+eP7p/0IBCgHm/4H/SwAVAdkABACx/ykAsgC0AF4ALgA1ADEADQDw/+v/5f/e//7/RgB6AHMAYwCBAKMAcwD+/8X/EgCDAH4A9/97/3b/wv/2//X/9P8YAE8AfQCdAKQAfAAzAPz/+f8HAPv/4P/c/+D/vf96/2T/lP+y/3r/PP+J/1QA0QBzAKz/YP/C/yQA/v+Y/4f/0P/6/9f/vP/n/xwADgDm//j/MwA6AAUA+f85AFAA2v9G/2D/LAC3AFcAkP9t/xMAnwBeAL3/m/8YAIUAYQD8/+n/MgBmAEMAAgDw/wYACgDm/77/uv/Z/wUAKAAzACMADAAFABUAMgBMAFQANwD8/+L/KQChAKoA8f8V/xj/FwDqAIQAWf/l/rX/lAAeAKj+7P3I/h0ATABI/4D+5f7N/xIAnv9L/4j/4P/g/83/EQBpAEkAzf+t/x0AYgDm/zz/bv9qAOMAEwDw/gb/XgBbAcgAdf8k/zsATgH6ALX/IP/y/xcBGQHx/wL/Y/+VACUBZQAw/97+sv+aAIoAuv9O/8v/cABEAH3/RP8QAN0AgABd/xL/UQC9AZcBDgAm/yEAzQEFAnQAAv9T/7sAOAEmAP7+S/+bAC8BUAA5/1j/XQCsAJj/Y/6j/iIADAFDAMv+hv7A/9wAcAAj/8P+2//4AKcAbP8W/0QAgQEpAZn/u/6N//AAOAFPAJf/8f+tALEABwCt/xUAlQB5ABAAJAC3AO4AVQCe/7f/bwCiAM//5v4h/1cADAFZACn/HP9lAGgBwAAe/4T+wP9IAR0BWf8k/gr/AwGuAUYAlP65/o4A4wErAVP/g/6J//4AFAGx/2r+kP7D/5gATgCG/0b/rv/3/5n/CP8L/6b/EADN/2T/oP9eAJ8A4v8A/yT/MADLACcAJf9A/38AUQGNABn/4v5pAAECxgHp/3r+/v6xAIEBeADF/k3+hP8BAS8BDQAS/2b/lgA6AboA/v8zADUBrwHMAGT/DP8xAIoBmAFRAAj/3f6a/z8APADh/7z/7f8xAFIAVgBRAEoATQBxAKEAjgAIAF//Nf/E/3MAXwBf/1/+fv7H/wQB7wCW/1v+g/7e/wUB4QDM/xn/lv+wACwBhQB//0P/EwAAAfkA9/8J/yT/FADJAJcA9v/X/3EA/QDEAAwAwf87AMQAgACV/wz/kf+cAAwBdgCS/1b/6v+ZALgAVQD4//P/HgAvAB8AIgBMAHMAYwAhANX/nf98/3v/r/8LAEsAKgDK/6L//P+UANwAlwAaAN//+v8XAPb/r/9//3P/Zf9M/0z/gf/M//H/1v+e/4H/m//Y/wsACwDT/5H/fv+p/+z/FAAPAOf/q/9z/3P/0P9UAHUA8P9B/z//FADfAKAAef+q/ij/dAAuAagApv9d/wUAtgCZAOX/e//K/1QAYgDk/3X/nP83AK0AmwAvAOz/GQCEAL4AiwAaAMr/z/8FACQACwDe/9D/8/8mADkAGwDo/9H/9P81AEsAAwCL/1T/nv8jAFIA8v9o/0v/t/8oABwApf9L/2X/vv/m/77/h/+A/5//sv+4/9P/CQAhAOz/lP+B/+b/egC4AGAAvf9c/5b/RwDoAPgAWQB6/w7/f/92ABYBwQDB/w7/Uf83ANAAkQDi/4f/x/85AGkAXgBmAIUAawD4/4//sf9RAMwAlwDm/3f/x/+KAPUAkAC1/z3/p/+OAAQBhQCM/yX/2P8NAaQBFgH6/1P/jP8rAHEAEgBh/9z+xf4P/4D/2P/v/8b/iP9m/3b/sP/5/zUASwA3ABIAAgAPAB4AFAD8//P/+v/0/9L/uP/X/zAAjACzAJgAVgANAN7/5/8yAJEAuACAABkA5P8XAI4A8gD5AJsADgCs/7f/JQCTAI4A/v9S/x7/l/9aAMcAhgDK/x3/+P5w/ysAoAB8AOX/Zf96/x8AzwD5AIIA3f+b/+//hgDYAJwA+f9m/0n/s/9IAIoANQCB//n+BP+L/xIAJwDF/0X/Af8O/0X/gv+///T/BADd/6n/tv8gAJcAogAsAK//u/9TAOAAzgArAIf/VP9+/7T/2v8RAFYAaQAiAMz/0/8+AI4AWQDN/37/tv8zAIcAmQCWAI0AVQDr/6H/yv9IAJkAbAAAAND/CABfAIYAewBwAG8ATQD1/5r/i//W/y8ANgDf/4H/f//e/zQADwBw/9r+1f5l/wMALwDn/5H/gf+v/+//KwBXAE8A8/90/07/yP+IAOIAhgDW/3L/kv/u/ygAJAD2/7H/Zv9E/33///9pAGUAAQCk/6j/DACEALoAiAANAJ7/kP/0/30AuwCDABUA4f8YAIcAzQCvAEAAz/+l/87/FgBDAEYAPwA8ACEA1f98/2j/vf9HAK4AzgDAAJ0AZwAuACAASQBmACQAlP8z/1v/1/8fAPH/i/9J/0H/W/+S/+//QgA1ALj/L/8V/23/yf/X/7L/rf/i/ycAYACTAMIAwgB4AA4A1f/p/xIAEQDm/8b/0//4/wkA6f+m/2r/bP/A/z8AnACrAIIAUQAnAP3/5f8DAEwAcQA/APj/FQCiABEB2AAgAJz/s/8WADkABADT/+j/HgA3ADsAUQBjACsAq/9U/43/JgB5ACcAhv9F/67/YgDDAIoA/f+R/4P/tf/k//P/7//i/7v/a/8Y/wr/Vv+4/9D/jv8//zv/hf/r/0UAjgC0AJYANwDg/9X/AAAMANf/pf++/wYAIwD8/+b/JACCAIgAHACw/7T/HQB4AIAAVQAzABoA5f+j/53//f+HAMkAkgAmAPb/NACkAOAAsgBCAOv/6P8mAF8AWQAZANL/vP/n/zMAZABSAAoAzv/X/yoAjgDHAMQAkgBAANr/g/9x/7P/DwAxAP//r/+E/4H/ef9a/0b/af++/w0AIQD//+D/BwCAAP0ABAFhAHv/Fv+Z/5YALAHlACMAov+x//7/GwD6/9P/w/+0/6D/sf8LAIkA2ADQAJUAXQA3ABkAAwAJACoASABIAC4ACgDe/6z/kf+0/w4AVQA/ANX/df91/8j/CADk/2//Bf/5/k//zv80AGMAYABFACwALwBWAIwAqQCRAEwAAADR/83/7f8XACUA/f+n/13/XP+o//j//v+s/0T/FP81/4X/0P/v/9L/h/89/x//Lv8+/zT/Nf97//r/WABQAAUA3/8JAEsAVwArAAUACwAmADMANAA7ADwAJAANACsAggDGAKwAUQAbADwAdwBzAC0A+P8EACUAGwDx/+7/KgBfAD4A1v+J/5r/6P8YAAYA3v/d/wYAKgArACAAKgBFAEQAEgDW/9H/CwBCAC4A1P96/1j/Yf9t/3X/lf/U/wAA7f+w/5H/tP/u/wgAAAAEACoATQBIACMABgD5/+b/yv/U/ycAmgDQAJcAJADV/9T//v8iADQAPQA3AA8A0/+w/8z/EgBDADwAEQDz//n/EQAlAC4ANgBCAFIAZwCEAJwAlQBdAAsAzf+//9T/6P/r/+v/8//z/9b/sf+z/+7/MgA8AAIAxf/F//j/GwALAOn/5/8AAPr/tv9c/zP/Tv+A/5r/nv+1/+z/JgA0AAwAzv+q/7r/9P84AGIAYgBEAB4A/f/i/9L/4f8RAEEAOQDn/4H/Vv+H/+L/GAAHAM//o/+Z/6v/zf/4/xwAJAAIAOj/6f8PAD4AXQB1AJoAwAC9AH8AMQAVADkAbAB1AFoASQBZAGcATQAWAPb/BwAlACEA///1/yMAYABmAB8AyP+r/9f/DgARANj/lP9z/3f/fv9n/zn/EP8E/xT/M/9S/2n/dP9y/2j/Y/9p/33/oP/T/xIASQBaAEUAKgAqAD0APgAiABAAMQBzAJYAfABTAFcAdABdAO7/cf9T/6n/GAA9AA4AyP+Z/37/bP9u/4b/mf+N/3r/kf/g/zQAXQBmAHIAfwBiAB4AAQBOAN8AOQETAakAcACRAM8A2wCmAFwAJgAVACoAUgBjADgA3f+S/4z/sf++/5r/cv9w/3v/YP8j/wv/SP+v/+H/uP9y/2T/nv/l/wQA/P/7/xcAOgBGADsAOwBaAIEAggBPABQACwBBAIUAmABxADUADgABAAUAGAA0AEUAMwAGAOP/3//i/8v/oP+D/4X/kv+c/7v/BgBZAG4AMADn/+P/IgBdAGcAVwBTAFIAQQA2AGIAtQDVAIoAFADp/yMAYQBGAPP/1P8RAFUARADx/7X/vf/Q/63/Xf8i/x3/Mf81/yf/H/8k/yv/Lf83/1X/e/+W/6P/rv+9/9D/5v8JAEEAgACrAKsAhQBbAFIAfADCAPQA7ACyAHcAZABxAG0AOADk/6b/nP+4/9L/1P/F/7n/sP+Z/2v/PP82/2v/wf/5/+r/ov9j/2L/nf/f//v/9P/u/woAPgBtAIMAgABuAFMANwA5AHIA0wAbARABvABrAGAAigCgAG8ACQCj/1f/IP8A/w//TP9//2b/B/+0/rb++v4w/yP/8f7c/v/+Qv+H/87/FwBPAFYALAD7//T/HgBQAGMAWgBgAJkA8gArARkB1gCnALQA1gDLAIEAMAATACkAPAAmAPX/x/+m/4f/aP9e/3L/mv/I//X/GgAgAP7/0v/O////PQBYAFEAUgBwAJQAowCmALoA3gD1AOkAxwCjAH0ATQAeAAEA+v/3//T/+f/5/8r/Uv/D/nn+lf7S/s/+gf44/kX+of4N/1f/ev+J/5L/p//Y/xwATwBZAFAAYACUAMwA7QD/ABYBJwEbAfwA8wAOASIBAQG3AHcAWAA+AAoAzv+o/5b/gP9l/2L/dP9n/xr/uf6e/t3+Mf9V/1X/af+e/8n/2v8BAGkA5AAdAQMB5gABASkBAwGGABYADwBfAKwAxADAAMYAyQCoAHEAVQBsAI8AjgBjADYAJQAjAA4A3P+d/2f/RP8t/x3/Fv8d/zb/V/9t/2v/WP9O/2D/if+2/9X/4//g/8//vf+//9//DQAqACkAGwAdADEAQwA/ADIAQwCPAAMBYgFuASABugCLALIA/gAiAfcAmAA9AAoAAgAWAC8AMgAHALv/ff96/63/3v/a/5z/S/8M/+7+7v4J/yz/Pv8y/yn/U/+8/zQAeQB1AEcAGgD9//b/FwByAOMAGQHmAHUALQBAAIEApgCZAIMAegBcAAQAkf9b/5T/FACKAMkA3ADNAJAAIgCr/2X/Xv9y/3//fv9w/0X/+f65/sX+Hv9u/2f/I/8O/2D/3P8aAAYA7f8bAIUA5QALAQEB6QDQALEAhQBRACsAOQCSABEBVwEdAZAANQBYALMAtQAyAJz/gP/r/2EAdAAtAOD/xP/F/77/pf+O/4P/fv90/1r/Jv/m/sL+3f4v/3v/k/+C/3z/nf/L/+H/1f+4/5n/hP+I/7D/6f8KAAoAGQBrAPMAWwFQAdcAQADd/8L/0P/d/9P/uP+o/8n/IAB/AKUAewA0ABcAOgBrAG8AQgASAAgADwDt/47/Kv8f/43/KwCBAGMAEQDp//j/9f+y/17/SP9z/5P/e/9o/67/OQCPAFkA2v+j//j/kAD8ABAB8gDTANUAEgGMAf0B7QEsASgAm//S/18AjgAqAJr/Wv94/6L/kf9F/93+av4A/tT9F/6w/jf/Sf/u/p3+z/6Y/44AIAEEAWYAwv98/6T//v9FAGQAagBfAD0ACADt/ygAxwCLAQ4CBQJ8AcgAUQBJAIwAwQCsAGcAOwBPAG8AUADx/67/2v9RAJAAPgCT/yT/SP/M/zYARQAXAOj/yf+n/4L/e/+n/+r/CADd/3z/JP8S/2P/9v9tAGcA1P8j/+7+bf82AKIAdgAKANr//P8fAAQAzf/D//T/HAADAMn/wP8KAHQAuADBAK4AlgBoABgAw/+g/8L//P8KANf/hv9V/2b/tP8YAFoASADa/1X/Kv+d/3gAJwErAYYAsP82/1P/4f+GAPAA+gC3AGgAUwCHANUABgERARMBCwHHACwAhP9N/6v/IQADADb/ZP5X/in/IwBwAOH/Af+F/rv+cP81ALYA0gCQABIAjf9F/2b/5v92ALMAbgDi/4T/mv/x/xMAw/9R/0r/5//AACYBygALAJf/vP8eACYAtP9V/6X/jAAxAdsAyf8R/33/qgBZAbgAOP8X/in+IP8QAGMARgA6AGgAhAAzAHv/x/6L/uj+m/82AG8AVgAxAEIAlAAPAZ4BKQJ3AisCGAGc/4v+l/61/x8B8QHUAQ0BFQA5/5r+Y/7F/p7/VQA9AEP/I/7V/aP+3P+DADwAkP9I/5//HwA4ANz/gv+o/1oALwGbAVABawBt/+z+Lv/n/2gAKwBQ/4r+iv5s/5wATgEOAQoA6v5l/sL+rf93AJsAKACv/7b/SAD2AEoBKgHNAHEAJwD3//v/RgCuANUAhAD9/8n/KQDEAPwAjADX/3j/rv8sAIMAmACgAL4AyAB7ANv/Rf8d/2b/u/+q/xX/Uf7l/Sf+Av8CAKIAqgBMAPL/7P89AKkA6QDIACwAMf8//u39k/7k/wIBLgFyAJj/dP8gAPMALgGjAL3/B//B/t7+Pf/A/zYAXgAjAMD/of/8/5kABAH0AIUAEwDs/yUAoQAlAW0BRQGvAO7/YP83/17/k/+f/3j/Nf///gP/Yf8QANIAWwGLAYkBjQGcAYUBHQF7AOb/k/96/3n/g/+c/7z/u/+B/yz/9P7u/vH+1P6p/rX+H//C/10A4AByASsC0AL6AoACqwH1AJcAYgABAFD/eP68/UX9Ef0G/fv8zPxt/P77u/vV+038Bv3l/eT+AAAjATUCMAMhBAEFqAXmBbwFWwX2BJMEFQRvA7gCCgJkAbIA9f9G/7H+IP5+/en8pPzJ/Bf9LP3x/MH8B/2+/WX+gf4Y/qP9l/35/X7+7f5Q/9H/dAARAYoB5AE1AoACsAK4AqECewI+AtABIQE4AC3/FP4C/RX8fvt4+zn83v1NAC4D/gVMCOUJwQrJCr4JfAdKBOQABf7s+2T6MPlr+Ff43fhq+V35oPi+91b3hffq9yn4Wfjz+F/6rPyd/98CIgYWCWkL7QyrDcENQQ0wDKsK/wiKB3EGgwVYBKECWwDM/V37XfnX9572hvWm9F/0DfWt9tH48/rb/KT+aQD9AQsDZwM/A+YCgwIKAnMB5ACVAIsAkgBwACEA0P+h/5b/qP/g/04A5wCAAfsBWQKnAtMCrwIlAmYByQCIAKIA9QBvAQ4CtwIuAzcDzAIdAl0BmgDG/9/+//1E/bL8NPyh+9b6vPlt+D33qPYE9034NPpx/Pz+6AEWBRQIVAqEC5sLrwrLCAMGrQJi/8P8Mfuw+gL7x/uW/Bb9Jf3p/KL8bPwx/OD7s/sb/Gb9d//dATgEdQaoCLYKPAzIDCsMmQqGCGEGZQSWAtAA8v4G/UH73fne+An4HvcV9iz1svTR9JD17fbl+Fb77/1VAGACHQSYBaEG5QZBBvkEiwNOAkcBSgA//0L+hv0y/VL90v2A/iD/kf/4/6YAyAErA1IE4ATcBJgETwTyA1wDlQLmAZIBkQGVAU8BuAALAJT/fP+6/xsAagB+AFIA9v+G/xf/rv4z/mX95ft3+WT2lvMw8s7yKvVx+Bj8QwBNBecKwg9JEsoR+g5UC+8H3gSTAcb9APpB9zH2lPZ79//35Peg98n3cvgS+Rj5m/h6+MD5z/wZAaQFyQl5DdsQxBObFccVIhQLERoN0wiSBKEANv1q+iz4W/bi9Ljz0PIM8lvxz/Cx8GTxNPMv9hP6Zf6lAoUG6gmzDIoO8A6ZDb8KDAcxA4v/Lvw4+fr20PXF9Y/2zPdT+Sf7Pf1b/z0B2QJfBPcFiwfOCIAJkwkbCSYIugbwBA0DbgFRAL7/if9+/4L/kP+n/7f/mv8s/2r+dP14/JH7yfoy+v75X/pP+3b8Wf2W/Qn9ufvD+Yb3x/WB9Vn3J/sWAEUFSgoGDw8TcxVAFVESig0uCO8Cwf2D+MfzwfBa8EnyLfWT9/348/kt+6z8r/2P/Zj8BvwZ/R4ARgRuCP0LDg/UEe0TdBS0EtEOsglhBHP/Fvtx9930sfPn8wv1hvbo9/f4l/nH+bj5yvlU+nL7Cf0O/6ABywQjCMcK2QsOC80ItgUcAvf9Xvnv9LLxevBY8aDzfPZ5+Z78BABjAxMGfgedBw0HngbFBmIH/gc5CAMIhwfwBkEGYwU7BMgCOAHf/xv/Dv95/9r/0/91/x//CP/m/jD+rfzF+jL5Z/hC+Gf4xPiw+XT72P0gAI0BwwHFALr+1vuc+AP2GvVr9qb5/f3aAiIIxA0LE40W+BYYFAIPRAnDA3D+Bfn786LwIPBe8vT1Q/me+3L9Uf8DAZgBfgBT/pn8h/wl/owA5wInBb0Hvgp4DdcOLQ6PC5kH8gIa/o754PWc8wfzCfRO9mP5rfxu//0AHwFAAB7/SP7Q/Y39nP2L/t0AWwToByIKTwrACFIGgwMiAM/72vZ68hvwWPCb8rr16/gm/LH/ZgOFBkQIhgj8B48HqAf9B/oHZQeXBioGagYIB0oHlAbaBKgCsgBQ/1D+Uv1E/JP7xPva/Bv+hP6Q/aT7tvmB+AT4sPcd94/2y/Zv+Fn7qf5ZAfMCugNGBMkEvwQ7A7r/0fof9njz0fPP9jn7CwAVBbMKxRARFrMYfxcCEzwNFQgOBEMAz/sl9/jzwPND9qD5z/s3/Nj7+/vM/EX9W/w7+k74F/gJ+mH9+AAjBNoGNgn8CqULyQpwCAQFHAFc/WH6pPhN+B/5r/qy/AP/WwEWA3IDLgLu/9/93fzb/D39qf2A/l4ALgPUBfcGGwb5A6oBjv8P/ZT5kfWD8s3xhvN59lb50/ul/l8CdQZ4CUwKKQljB0MGCwYLBpEFqwQMBEYEMgUMBiQGYAUyBB8DVgKkAcMAp/+P/tj9rP3a/eb9Wf0j/Kf6fvn/+AH5GPkH+f34Y/lm+sT7Dv0U/gj/LAByAW8CtAIkAu0APf8h/b76n/ih92r48vqZ/sECNQfvC4IQ4RP2FIcTcRDpDHQJpQX4ANP7nven9ff1P/cE+Nv3ivf29xX56vmV+UP4GPcp96P43Pol/Wf/+QH8BAEIUgp2C3ALfArHCG4GugMpAS3/2P30/Fv8QPzo/Dj+if8dAMX/Ff/Y/mD/SwADAVYBmwE8AjQDAwQlBHQDJwJ4AHb+Ifyu+Yn3D/ZQ9Sf1hPWT9nr4Cvuz/ef/hAHPAhIEQQULBkkGQQZ2Bi4HKQjgCP0ImwgNCHwHxgawBTkEowIwAe7/wv6g/a/8H/zp+8T7YPu4+hX6yPnW+fH5x/lW+f/4OPkp+oT7x/yc/Rn+nP5u/3gAVQGpAXQBDQHIAJwANABd/2b+EP7+/igB2gNLBjII0QltC8kMOg1EDCUKrQeMBccD5QGc/z39dfub+lr6Dvp4+fX4Cfm1+VX6Pvpj+W/4Hfif+Iz5cvpJ+2j8/v3R/3ABrQK8A9oE8QWaBpEGDAaHBT8F9AQyBOoCkQG8AIwAmwB3ACUAGwCtAJsBOwIWAlgBmAA4AAcAiP9//jb9MPyp+2H78/pB+on5Ivkq+YD5APqz+rX7AP1e/pT/mgCUAaQCwQPABIMFDQZ2BskGBAcqB0kHZQdaB/YGKAYiBTYEhgPrAh8CDgHt//z+N/5T/RT8nfpk+cn4wvjw+P748/gR+Xj59fk1+iP6DPpc+jv7cvys/cD+vf+5AKQBWgLeAmEDEQTaBGoFfQUjBbIEdgRzBG4EQQQEBPMDIwRjBGsEGQSNA/cCYgKzAdUA4v8M/3H++/1//fH8b/we/AD87/vH+5H7cft++6b7wfvE+9H7Fvyg/Ef91/0//p/+Kf/y/+QAzgGHAv8COAM9AyID/QLiAtYCzAK1ApECegKPAtgCOwOJA6ADhQNVAycD9QKcAv0BJAFCAIz/Df+c/gD+Kf1E/Jr7Sfst+/76nfo3+h76ffoo+8b7HfxF/Ir8I/0C/un+o/8uAKgAKAGtAS0CrgI2A78DLgRxBJsE3gRSBdkFLAYhBs8FcgUlBccEHwQmAyECZAEEAcgAZADK/zP/2v68/pf+L/6M/ej8b/wO/JH74vor+qj5c/lv+Xf5i/nL+Un64vpg+7P7DPyw/LT95v79/94AqwGTApwDqASYBW0GOgftB00IIgh3B5gG2AVPBdMEOASLAwMDwgKfAjwCVQH+/4v+Sv1J/Gj7lfrs+aX52Plh+v76hfv9+4f8Lv3V/Uz+f/6E/o3+wv4r/7f/UADvAJUBQALiAmMDswPPA70DhgMlA5gC5wE5AbwAigCSAKUAlgBcABEAzv+N/zH/rP4a/rH9mv3J/Qr+M/4+/kP+Uv5a/jz+8/2i/Xz9mf3p/VH+xP5R/wEAxQB2AfgBTwKRAswC+wITAxsDKwNTA4gDrQO1A60DqAObA1oDwwLiAfQALQCI/9P+7f34/Ef8DPwj/Cz84/tj+wb7Dftc+5X7fPs3+y37oPtr/CL9dv2F/bn9Y/52/5gAegEgAskCqAOiBGcFvAWwBY8FmwXUBQcGAgbDBW0FGwXABDwEfwOkAtQBJwGLANz/C/8q/lX9lfzc+xf7U/q4+W75gfnZ+VP63vp9+z78G/0A/tP+g/8OAHsA1QAjAWoBqgHhAQwCMAJWAoQCsgLQAtICvwKqApcCdgIoAqIBAQF4AC0AGAANAOX/nP9S/yj/Jf8s/x7/8P62/on+dP5q/lf+L/4A/uP97P0Z/lf+k/7N/hf/hv8YALEAMQGKAc8BGwJ0AsEC4gLPAqMChgKDAocCeQJSAiUC/gHUAYoBGgGaADEA6P+l/0T/xf5K/vn9yv2S/Sv9pPwy/P37+fv3+9r7t/u7+/X7RPx1/H38hPy//Dv93f2D/i7//P/+ABQCBgOyAygElgQOBXYFngV1BRgFtwRnBBcErAMlA5wCKQLLAWsB8wBlANX/UP/R/kz+vv0z/cD8cvxN/FD8e/zJ/C79mP30/Tj+ZP6A/pj+uP7p/iv/ef/L/x0AcAC/AAABJwE3ATwBSAFfAXQBdAFZAS0BBAHpAM0AmwBDANL/Zv8S/9f+o/5s/jz+JP4v/k/+cP6G/pP+nf6j/qL+nP6e/rX+4v4X/0X/bf+g//P/aADvAHAB6AFeAtgCRQOMA6UDpAOoA70D0QPPA7ADhwNqA1oDQQMCA40C6QExAYAA3v9C/6L+AP5r/en8bvzx+337K/sD++76yvqS+lj6M/oj+h76NfqK+jD7EfwG/fz9Af8dADkBLgLsAocDHgS6BEwFwwUYBksGWAY/BgcGugVbBeQEWgTKAz4DtAIlAo0B6wA2AGH/dP6U/eX8afz/+5L7Ovsr+3j7/fuH/AX9kf1B/gD/nP/5/ycATQB+AKsAuwCrAJQAmQDJABQBXAGMAaQBrAGoAZIBXwESAbYAWwANAND/o/+C/2v/Yv9t/4D/ff9I/+X+f/5E/kD+Wf5q/l3+M/78/df95v04/q3+FP9c/7X/WwBIASoCsgLnAhgDewP2A0gEWgRVBGEEcARYBBEEvQN0AyADlgLUAQgBZQDr/3T/4/46/pD98vxb/MP7J/uS+hb6v/mU+ZD5rfno+Tf6f/qo+rj64vpX+xX87vzE/bL+4f9CAYICYgP5A5cEYgUnBpkGqQaQBoUGiQZsBg0GcQW5BAYEcwMGA6ICFQJIAVsAgP/F/gX+J/1T/M77rfu8+8L7xvv2+1/80fwh/Vz9t/05/qf+yP6z/rb+BP9//93/AgAZAF4A3ABjAbYBvwGXAWwBVgFOATwBEwHZAJkAUwAIAMD/jv95/3f/e/9//4L/ef9U/xn/6/7l/vH+3/6r/on+rP4C/0b/Xv9//+T/fQD5AC8BWAHEAXYCGwN0A5YDuAPgA+MDtAODA4ADkwNzAwADaALtAaABZAEfAckAWQDA/wv/df4p/gP+qP3r/Ab8Vfvn+oL6/Pl8+UX5TflB+fD4nvjJ+KX53/rx+6P8Pf00/rj/gQENAw8EpwQ1BfMFugY0B0QHIQcUByMHGAfQBl4G3wVBBV8ESANKApIB7wAOAO/++P2B/WT9Jf2K/N37lvvV+0z8o/zM/Pr8Vv3b/V7+sv7B/pj+cv6P/vv+d/+7/8X/1v8iAIoAwwCxAIEAcAB/AIEAWQAVANH/l/9j/zv/Jf8Z/wb/8f70/hr/S/9b/zv/Af/N/qz+ov6+/gH/Vv+Y/8L/9/9TAMYAKQFvAa4B+wFKAo0CywIQA0UDPwP6ArACkwKQAmoCHgIBAlMC3wIiA94CWgIHAuoBqwEKAToAmP86/+H+WP66/Tr91PxS/Jr72fpR+gT6vvlZ+fb43/g/+e35k/rz+iz7pvu4/E7+5v8HAbABVQJXA5sEpwUpBjUGGgYHBgoGLQZ7BtEG3AZgBn8FkgTIAwcDKAI4AVUAef+I/p39Bv3k/N/8hfzf+3z7xvt+/Aj9Nf1z/SX+BP9h/wb/g/6K/iP/u//f/8D/3f9ZAN8AEwH6AN0A5gD6AO0AuQB7AFAAQAA+AC4A7f90/+r+kP6G/q/+0P7O/sH+zv74/ib/PP8+/0j/cf+y/+v/AQD8/wUAPQCZAO0AKAFkAbYB+gH5AcUBxQE+AuYCIAO4Aj0CZQIyA9sDrQPLAvQBpQGjAXIB+gCTAHIAXwD//0H/Y/6Y/ej8TfzZ+5n7cPs3++/6tvqL+kj65Pmf+cP5QvrC+hf7jPt//Nn9Bf+b/9P/SwBZAb4C+QPJBEUFogX/BWMGyQYjB1kHXwdFBxwH3QZwBtYFIQVQBEkDCgLOAN//Pv+j/tj9Av1f/On7Y/vB+lj6cPrK+t76kfp3+ij7dvyF/bj9XP06/bf9gv4g/4P/7f+DAB0BmAEEAnACqwJyAs8BMwH9ACABOgEWAd0A0gDzAPcAqAAfAKn/f/+V/7D/mf9G/+L+pf6v/uv+KP8//zX/Lv9Z/9L/jABPAdYBEwI9ApkCKAOaA6kDbQM+A0gDXQM/AwAD2wLXAqoCHwJmAeAAmQA2AHj/nv4p/kT+kv6b/jn+lP3Z/B38e/v++nb6j/lb+Iv36Pdx+UT7h/xB/RD+Jv/m/7P/1/5O/qv+mP98AFgBrAKHBDEG2gZ8BsYFOAWxBOkDGAPVAmcDXwQHBQAFYgRxA2MCZgGnACoAw/9W/w//MP+o/wsA//+e/0f/GP/Q/j3+o/1+/ef9a/56/gH+aP0d/Tf9hf3a/Sj+Yv56/nz+nv4S/8L/UABlAAAAgP9H/2L/fP84/47+zP1G/Qn96vzI/Lb80PwO/UH9T/1H/Ub9Yv2z/WL+ef+2AMIBmgKuA08FIgdaCKYIqghDCWkKIQulCl0JbAhYCH4I+gfDBpMF0AQDBIICVAAf/lD8uPof+dD3QfdD9wD33/U69OLyFvJK8RfwE+9x77zxKvVA+Bz6G/tJ/Ej+uQCSAiYD6AIxAxoFaAiiC2ANlA1wDQEOAw88D9YNSgvvCMMHuwcFCM8HwgYaBVwD5QGSAND+PPw++fP2QvYI9zb4zPil+Fz4iPgr+cr56/mE+Q35Nvlg+i/8u/1S/jH+VP5t/xwBTgJtAgICFQIEAy4EswRvBAIEDASGBNcEdwRYA+QBpgD9/+P/6v9+/2L+//wQ/Of7C/yo+3/6Rfn++PD5Yvt+/E39l/6+APwCJQQZBCUEkgX8B5kJPgnaB3EHtwgyCvwJDwg3BtUFOQahBXgD+gCF/+3+8/0j/Hj6//lb+i761fgV9+71OfXy88/x+O/l79Hxk/Tl9on4Efr3+xH+2v/xAFkBhQEvAusDkwY1CeAKjgsUDAoN5g2HDY8LAQlUBw8HfgeXB/MG2wWmBF8D8wFgAKj+vfy++jH5svhQ+Vj67frk+sT6APtY+zD7bfq6+db5uPqh+wn8P/wA/XP+3f9tAC8AAwCYALIBjQLcAhsDyAOjBO0EZwS0A40DxQNqA/UBAQCm/jT+8/0Y/cL7ufpr+nf6SPrm+dT5W/ow++f7ifx9/fX+sgBaAtsDWgXUBv8Hmwi3CKAIlAiXCIoIVQj7B5YHNwfEBu0FdwSWAucA3P8x/zP+oPwe+4v66/o3+3L6t/gL9y721fU49SH0L/Mg8xH0j/Uv99n4lPpI/Nv9V//PACcCLQPuA9cEVAZbCGEK0gt6DIoMRAy2C7gKGwn3Bt4EngOlA38ECgVnBLcC0wBN/+v9IfwA+k/4vvcw+O34cvnL+TX6r/oR+2X73Ptk/I78I/yr+w78j/1Z/08ASgBHAEAB+QI1BBAEBgNmAvECJwQEBScFFQVaBbYFWgXWA5cBbv/R/bH87fuQ+4j7dvsC+2b6Rfrc+pL7pvs9+2r77/w5/+MASAE1AekBoANkBUIGTQZRBsEGXAeyB6cHSwd+Bi0FvwPkAr0CgAJSAW7/FP4n/hv/gP+e/iH9Nfw0/Gb88vux+hH5d/cW9i/1J/Us9uH3ofkW+2L8wP0V/wMAUwA+AEkA5AAtAuwDuAUwByMIjQhjCIkHAgYvBL0CIQI5AmwCQQK5ASUBwQCOAIAAjwCQACsAIv+5/Zz8RvyP/PD8Lv2U/XL+jP8yAP3/TP/U/tz+/P7N/pD+Af9vADgCZgO6A+YDlwR5BX4FLARpAqcBRQIVA6gC7AAw/5r+0/6D/uX8lPqu+Ir3kvZd9X308PTi9kX5s/q1+hr6KPqV+x/+7ABJAyEF5QbzCAALKQzACxUKWgieB+0HbwhmCNUHNwfEBicG9QQuA0YBuv/H/mv+c/6G/j7+dv1n/FP7EfoN+P70jPEg7+/uGfG/9Mj4mfwRABADLQXlBR0FYgPEAVIBkAI/BXMI9grAC2gKSQdSA3D/G/xZ+Ub3ZfYp9yj55vrn+hX55vb49Y/2s/fJ+K36yf4WBWML/A4aD4kN2AwFDvgP+xB9EFUPnA6UDoYOfw0GC1kHPwOk/w/9Qvtk+cb2qPMM8bTvMe8q7rnre+gv5inmL+jO6szsN+4a8FPzqff/+zj/DgFDAhkEZAfZCzoQVhMsFecWkxm5HHseUx2pGZEVzhJMEY0Pewx5CL0E4gFj/2r8vfjb9GjxzO487cXsI+3H7VXuCO9P8NzxbvIA8UXup+xg7n/z3Pkn/+ECRgZ0Ct0OqhGRESQPcQxeC1YMQg56D9gONAwxCKsDHP94+pf18/Dh7bvtiPBl9Lb2OvYs9CXzrfTz9/T64fwk/9wDZguaE3QZfhuFGksY3xVkEwQRhg+jD/YQ6BHXEEEN0gd+Adn6PvRX7grqwuf85qjmAOb65Obj4uLj4T/h7eH35I/qsvHH+KL+/gI3BrgIugpjDPsN6A9+EscVZhmcHIgejx6mHEgZGhWhEEsMlAjpBT0E3QLnAAX+tfq39z/12vIo8JXtMOzC7A/vB/KS9Bv2d/aS9YrzIPHX70Hx8fX6/HUEpQrFDv0QxhFxERoQ/w2yC/QJPwleCV4JEAjLBPH/t/pM9hXzq/Cd7iftCu2p7lPxnvOE9D30CvQt9Sb4v/yVAl0JmxBGF/Iblh08HBkZ6xUSFPgTDRU7FoYWcxX5EiMPyQm6Akr6svG86sfm0+Vs5qDmP+WE4qPfyd1o3V/eouCM5IPqMvI8+tsA8wS4BlwHIAioCREMag/NE/oY6R0RIUkhiB7VGZMU1Q83DO8Jxwj7B38GuAP9/0v8Uvnh9mH0zPH7797ve/HU88D1qPZv9uf05fEf7qfr8ezX8pr7/AOpCaQMdg43EH4RPBFND+gMfgtICx8LmAlFBtsBaf1/+Qz2wPKI79HsbOsS7Kju0/GH85Py2u/17UzvSPRM+2MCyQjaDsQUpRkgHLYbYxnkFpQV0hU7FwYZIBpfGREWixAJCsMDJv7t+Pbzuu/L7PTqFukl5jvint6h3Jrc9t094MLjJuk68IP3F/35/88ATQEBA24GEQv+D4cUdhjNG04eQx/aHf4ZzRQYECQNyQvMCiEJvAY2BNQBH/+I+zP3EvMu8Abvie9b8dHzzfUK9gT0p/Dj7V3tae9H8yX4v/3rA9IJ/w1rD3kOyQzsCz0M5AzRDKMLqQlFB4oEXgHG/fH5F/aE8tfv5O7/71fyN/RK9LDy4/Bv8OHx1PTO+Mr92wOWCv4QFhZTGYUapRkFF7ATTREvEUkTCBZVF/IVCRKnDMsG4wD/+lz1mvBj7drrUeun6v3oR+ZH4xDhaeB+4QPkhufK68bwVPbL+xUAYgIHA54D/AXICuAQPRZ3GZsapxpYGogZmxdoFKkQgw2pC9cKFwp+CMUFSwKg/hz73PcC9e7yIPLM8oX0HvYY9n3z1u5g6vroKezW8hT6b/+9ApsFKAlyDFwNDAtHByUFYQbfCb0Mygz/CfkFQAIc/9v79/f180PxJPGV8//2FPlR+B/1ovFR8E/y1/YU/LEAvwQtCV8OWBNMFicWlhOfEDAP5Q/pEb4TNxT+EoEQew1LCqIG4AEQ/HL2wvKq8ebxLPEq7pjpYeXV4t3hv+FT4ijknuct7Lrwh/Sn95b6n/3DABQE5Ad4DJwRkhZ3Gqsc+hyMG9cYkxWJEjwQpA5ODdALIQp2CMUGkAROARr96fjq9ar0xvRc9aD1CfVY88PwP+467ZTu0/GF9Z34SftV/r8BWgTyBL8DZQKBAk0EvgayCLsJ5AkWCREH8gNlADT9tvra+Kr3gfeM+Cf6DPtW+mb4uva59pr4cfs+/uEA8QPDB7sLrw7jD4oPXQ7uDIILawocCroKsQsSDHELLgrYCE4H1wQcAdb8UPk59xL2x/S28hPwdO1E66bpteio6KLpj+su7j/xmPQN+F/7Uv7ZAC8DtQWjCMULiQ5tEGwR+RF7EtYSjBJTEW8Pcg22CzMKxgh0B0gGCgVbAx8BvP7L/Jf79fqI+gL6HfmW92H1+vJR8Sbxc/J99Hj2J/jU+cn73/2C/zcAHADn/2QAzAGbAwgFrQWxBWEFugSLA+gBVgBZ//f+x/58/jT+K/49/v79Qf1u/Cr8u/zi/T7/rwBLAhcE4AVhB14IqAgkCPEGiAWABCoEZgTTBCoFVAVFBecEJQT9AnoBsP/N/Sn8E/uH+g/6H/mM97/1Y/Tk8yf0rPQC9Tb10/Vc97T5CPx2/eP9Ev7j/nkAOAKNA30EbwWLBpAHPAinCAUJPwn/CDcIVQfcBsoGoAb8BQgFMgSfAxIDTwJ+AfMAzAC/AGsAof9n/tX8Avsn+an37/Yf9//3JflA+kL7TPxj/Un+pv5j/uP9v/1M/mP/rQDwARID3gMKBJID4wJ0AjYCoQFqAAX/QP5d/sn+y/5Z/gr+Qf62/tz+qf6o/lj/oAADAi8DOQRDBR0GYAbdBdYEzwMtAwADGQM5AzwDIQPyAq0COQKLAbYA3v8R/0L+cv3B/Er8+fuU+wj7dvr6+Xj5yPgU+NH3R/gp+dv5Jvpw+kD7k/zp/dn+e/8tABQBCgL0AuUD5gS9BSIGHgYZBmIG0AbtBn0GyAVKBT8FcwWIBUsF1wRvBDoEFwS2A+MCwAGkALv/0f6U/f77a/o/+Yb4FPjg9xv44vgA+hD72PtX/I38bvwh/Cb8+fx//gkA/ABwAfcBzQJwAx4DrQHE/0z+vv3+/af+Xf/d//z/r/8h/57+Zf6P/hL/0P+1ALsB6gIwBEsF4wXXBWUF8ASjBGgELgQaBFIEnwSOBO8DHgOgAoMCUAKdAYkAi//W/i7+Tf1J/Gj7vfoP+kX5ovh/+Nz4Vvma+bz5DPqw+nr7K/y1/DP9t/00/p3+D//L//8AhQLbA24EGARfAyED2AMlBTMGhAZSBh0GCwbPBS8FWwS2A2EDJQPcAqUCogKoAlcCjQGNAKn/3/7u/cb8sPsC+8z62Pr++kb7vftO/Mf8Bf38/LL8Rfz9+zv8N/3O/pIACQLiAvsCZQJoAWoArv85/+7+zf7n/h3/Gv+j/vT9nf3n/Y/+GP9i/8b/mQDCAeACugNkBP8EdwWbBWgFDQW2BHAEQQQ9BGoElARsBNAD6QL9ASUBRgBI/zb+Pf2Q/FD8dvy0/Jb82vu/+tf5fvmF+Xr5O/kj+aj52PpQ/Iz9Pf5W/gX+r/3M/Yf+kv9lAMkADwGjAYICOwNxA0kDNQN3A+cDQARwBJwE4AQpBUkFHAWhBPsDZgMRA/YC1AJxAtEBMAGtACMAVP82/vn80/vq+mv6m/qS++78Af5k/lD+TP6V/uT+2/6E/kj+iP5E/zAA6gAjAbQAv/+v/vv9w/28/Yf9Hv3Q/Of8YP39/Yb+4v4M/xf/M/+g/3AAawFDAtwCYAP+A7MESwWPBWQF1AQfBLMD5gOVBBoF0gTGA7ICRQJtAnECtgFXAP/+O/4M/gr+z/07/Xv83PuN+3f7T/vm+mT6LPp5+iD7xvtC/LL8NP2z/Qb+Ov6L/hr/xv9hAOwAiwE/As0CCQMIAwQDGwM2A0kDcgPPA0IEgwRoBAwEpwNJA9sCTQKuARkBoABTAEkAgwDUAOQAcQB1/yv+9vw+/En8A/3u/Xn+d/5J/mr+6f5b/1z/8v50/iP+Bv4i/on+Jv+B/xn/9/3Z/Ij8Gv3b/RD+qf01/UL91P17/tj+9P4p/8L/tACjATkCcQKSAuYCbgPyA0wEjgTSBPwE0wRQBLkDYANKA0QDNgM3A0gDIQNzAmABbwAEAOX/g/+n/rD9Ff3f/LL8XPwX/Cv8efyJ/BT8V/vN+qv6uvqy+pj6vPpa+1P8SP31/Wj+7/6+/7kAkQEdAooCGQPJA0YERwTpA40DbQNnA04DPQN0A+cDHgSyA9YCNgI9AqgCzgJWAncBnADo/zn/df7C/WD9cv3w/ar+Tv94//z+Lv65/RD+9/6p/5H/1f4u/j3++/7A/9j/Ev/q/ST9Jf2p/QT+y/09/fv8Yf0v/s/+6P6h/mv+lv4u/wgA8AC5AVsC9gK3A58EYwWkBUIFewS2A0sDYgPxA6sEDgW1BLoDtwI8AjcCDAI+AQYAG//0/lD/ev/p/p/9Cfyv+vb5/fl5+tf6nPrg+Uj5ePly+or7B/zO+4L74vsg/a/+yP8ZAAkAVQBYAcAC5QNeBEYEAQTkAxUEqgSUBYEG5AZrBmUFjwRdBI4EgQTgA9ICkAEDAA3+Evz5+mj7Cf3J/sT/7//T/8//xP92/wT/1v4k/6r/6f+Y/9T+2/3Q/MH73vqA+sz6X/t7+6r6Q/k7+E34WfmU+lv7y/t8/Mv9hf8vAYUCkQNvBDgFKwajB5cJRQuWCzcKJQj5BncH3wioCfkISQe+BQwF9wS8BMsDHwIkAGP+Nv2N/Of7q/q2+Jz2UPVP9SL2s/ZD9hv1R/Sg9AD2dvc1+Ff4rvjf+bz7hv2+/pv/uwB6Ap4EkwbeB1oIRgg5CNwIcQpiDIAN6QzmCssI2gcmCIkInwfmBAoBZP01+wr7evxM/hL/G/4D/FL6S/rl+9T9sf4m/iP96fze/R//Qf9+/Wj6i/dZ9iP36/gc+p35lvdO9UD0DPUK9/L4B/q++jX8+f5XAvkEOwbaBjsIFgvCDsoRFROFEtAQ7w60DYcNNA7nDpIOrQyfCWkGzwPYAQwAG/4t/Jj6Y/kp+Hf2OPTM8bjvX+7j7TDuA+/376Tw6/Ah8eDxhPPU9Sn49/k7+1n8s/1p/30BAgTtBtIJ8QvbDO0MHw0XDokPhhBxEI8PrQ5BDgkOYg3fC3QJOgZWAkL+/Pqo+aH65fyO/i/+6/th+Vn4afmX+0j9iv2k/JT7E/sE+7b6mvnQ9xj2RvWO9UT2R/bn9KDy6fAh8XPzufaA+UP7qvyw/o0BjATbBnEIGAqaDP4PdhPvFcMW8BUPFBUS+hAzES0SchKYEH4MoAcHBJYCQwIJAcb9NPkn9dfy6fES8XHvTO2F66PqaupW6jbqWuow6+vsbe9g8kr1tPds+cH6Xvy//sgB7gTGB1wK3wweD4kQ4xDLEFoRCxMMFd8VtxRHEiEQRg9KD8EOWwy8B5IBS/ux9kD1MPfe+nD91fyL+WP2KPYm+eT8X/6r/IH5afdm91z4efgL9/30yfMH9Pj0OfX+88bxHPCB8D3z9/af+SH6dfn0+Uz95AJHCFELDQyBDKEOeBJFFjgYBBjOFusVwxXkFaUVoBShEpQPxAvyB/QE7QIWAXD+xvrn9tzz7fF88MTupeyj6kPpmuhs6JXoH+kP6kLrmuwx7jzwt/JN9a737Pls/Gr/wQIZBlYJiwyTD9cRyRKfEm4SUBNiFY8XeRiLF0oVxxLJEHAPMw4cDC4IJgI4+9r1RPSJ9hz6kvto+VD1xfIC9Bb4ufsM/OL4uPSa8tXzHve2+Yj5qvY+87bx3/JO9b32KfbD9Kf0nvY8+Vz6i/nO+M36JQCPBtgKtQvKCgwLIw44E+YXIRp6Gf8WXhTyEiATLxSqFF8TPhBUDN0INQbMAwYB//1E+/H4Yvbs8t3uc+u46XnpfenD6G7nauZt5mfn7+jZ6jXt1+888hT0y/U6+MH70f+IA58GlQncDA0QNBLvEgoTzhOvFdoXAxmUGAgXPhW+E5gSnRFiEAcOkgkHAz/8HvhT+IX75/0d/BL2Oe/t6ybuHvS8+Yb7zvjk82Dwt/Cl9GT5q/sZ+jr2NPMw87H1T/gV+Sr4Qveo9/L4xPmh+bv51vtbAJ4FKAnTCdEIrghMC28Q6xUpGeQY8hWqEksRcxK9FNIVMxRLEPQL3ghBB/wF1gOkADr9a/os+Lr1lfIu757skuuS61Hr0OlM5yrl3uTF5tXpbuyb7crtZu658Pv0MPrl/iUC9gMuBdQGfwkUDecQHxQnFu8W5BaqFr4WPxffFw0YRhdkFc4SLRDcDXEL/gcEA0z9uPjb9nv3fPiL9y70U/C97pXwV/QI96723PMk8fPwufOi9wf6Vvkt9uvyCfJP9D34JftA+xv5E/dU9xj6s/1IAHABOwLGA/wF0werCCsJoQqXDRsRhRPsE98SvhGAEQASVBKnEdAPUA3rCigJAgjkBgwFLQLG/s774Pmp+D/3DvV18mPwVu/R7uHtKuxc6pjpWOr661XtyO2y7Q3umO9V8qn11vhp+2j9Qf+GAY4EKwi4C4cOahDOEUcTAhWUFnYXkBdLFwkXmhZWFekS7A+ZDaUMTgyxCl4G2P+Z+Ub2i/Zr+L74yPWu8KPsW+zZ71z0bvaO9FjwV+1W7jLz2PiH+6z5KfX28QrzFvjS/bEAqv/C/Br7RPxM//sB/gLUAvsCVAR6BmEIfAkrCiwLxgx+DoIPYA9nDnoNcQ1pDoIPWg8gDXQJLQbxBLkFpwaSBfUBfP2V+kb6Yvux+/L5yfbk82jyIvIP8nTxXPBO777uzu5t72nwd/FH8s7ya/OY9GT2TvjK+e76fvwq/7gCGQZeCKcJ+wo7DTsQ6BJPFHUUNhRtFDYV7RXAFUcUvBHXDmUMvwpxCV8HowOG/qz5+/bz9gP4n/dm9HHvlOsk6xjuIvKF9CL0EvKW8FnxXfQm+OP6pPve+gT6ffqh/IL/oQEOAhoB/f/W/9YATQJnA9wD/QMzBJAE4gQjBaYFywaGCDYKHgsGC3kKTQr1ChIMwAxEDJMKWgh6BnIFDwWbBGYDRwHJ/sr84fvk+wf8f/sj+of4cvcn9zH31/bR9ZD01vMJ9Nz0mfW39TT1gvQc9D/04/Te9Qf3Q/iK+ez6g/xk/oQAuwLdBNgGuwijCp8MpA6JEA0S7hIME4USsxHsEEQQeg84DmUMRAooCCEG4gMjAQ3+Rvt5+a34KPj09r/0PPKv8O/wrPKh9If1C/UE9L7z8/RL97H5NPu4++f7jvzr/YT/lACtAA0AXf8v/5j/QgDRACsBgQH+AZQCCQNEA34DHgRXBeAGGgiICEAI4AcWCA0JOgrDCiQKowgXB0MGNgZEBp4F/QPpAUIAjv+O/4H/xP5W/cP7qvo6+h76zvkJ+f73IPe/9rz2pvYU9gD1zvP88sDy9/Jm8/7z3PQI9kz3XvhK+Yz6tPzW/1YDVwZqCNMJNgv3DO8OoBCvESMSPhI6EiQS7RF9EbgQhA/YDdULuQm4B8wFwQNkAbP+2vsT+ZX2jPQh81zyDvLh8ZDxJPHw8EfxN/J987z0v/WP9lz3VPiS+Qb7dfyC/eH9lv0N/eL8cv2a/s//jAC/ANYAYgGnAmgEHgZhBzYI+wgMCngL9gwlDs8O/g7VDmgOrg2dDDkLnQntB00G2gSXA2cCGgGd/xb+x/zO+wj7NfpL+X/4Avi19zH3Mvbv9Onza/Mx86fyifEx8FPvXO8q8EXxXvKA8+T0pva9+CT76P3zAOwDaAZWCDAKiAxmDw0SkhOwExATsBICE6ATyBMKE4MRmg+tDfULiwpLCb0HUgX2AVf+afuO+TL4cPYP9Mbxg/Bv8NTw6fCm8Lnws/Fo8yf1c/Zs94L43fku+wT8PPwO/MH7ePtA+z37nPtZ/Cn9wv0q/sL+2P9XAdgCHwRfBQQHLwmJC48N/w71D5oQ7BDQEFMQsw8RDz8O4AzZCn4IWgazBFoD6gEsAFH+u/yr+wP7Y/p++Vb4Nfde9sr1M/VY9C/z3fGG8D3vI+557XTt/e2+7nrvU/Cl8Z3zBPZ9+O76iP12AJcDmgZRCdALNg51EFcSxRPSFJgVAxbtFVQVbRR5E4YSbhEMEGgOqwzrCgMJqgasAyIAc/wg+Xf2d/T18tTxEfGZ8C/wnu8C79Hude/p8Lvyd/QB9nT3z/ja+Wj6k/qm+tL6EPtR+6f7KvzA/DH9cv3Z/c7+WwASAnQDfwStBYEH+AmDDHoOpQ9aEBkR/BGLEisSwRDiDkkNHwzkChIJyga0BDYDAgKKAMb+Rf1s/Nv72/pI+c/3HPf/9qP2ivUR9NPy0vGP8Ofuhu027eLtpO7O7rPuL++b8Izyi/S+9pL57/wiAKsC5QSaB/oKPQ5uEGIR0BGCEqMT0xStFQMW0hUnFTkUWxOkEr8RMBDpDWsLOgk4B7wEUAFA/VP5E/Zh887wOu7/65fqKepw6gfrvOuz7Djub/Ah89j1Nfg2+hL82/1B/97/qP8V/6v+gP4//qn9+PzA/Gz95v63AGkCxwPeBPEFVwdLCa0LAw7HD8wQVBGqEcQRSxEGEDQOWgzJClMJkQdiBSkDdwGBAOX/Bf+Y/e37kvrN+Wb58PhC+JL3Hvfa9m/2jfU29LryefGr8FPwQfAo8Nrvee9470Tw4/Hy8wj2FPhE+rn8XP8YAgMFIwgnC4MNBg81EMwR5hO+FXYWChZSFQwVEBWRFBYT/hADD3AN/wtaCnoIaAbfA3oAU/w4+AH1tvKS8PztXOvP6fvpSutx7Lbsm+xS7Y7v7PJd9hf5B/uZ/CP+k/+XAOwAmgDx/1z/Lv9y/+//WQCaAOwApAHYAkAEbgU8BvYGIQgICm8Mqw4GECoQXQ9aDtAN3w3oDQoN6QoVCJoFDAQCA5YBZv8U/bj7wvuG/N/8PvwL+wz6gfkB+RT42/bn9Yj1YvXL9I3zH/Id8aTwTvDU74Dv3e8U8bXyRPTL9bj3L/rH/Af/EQGMA8IGFwqNDNgNvA42EG0SmxT1FW8WhRZ2FvUVtBTrEjARzw+CDuAM3wrKCMoGqAQEAsD+Bfsa91TzK/AJ7uTsF+z06pDpzOh46Wnrn+1e7+bw//Ln9ej4K/uv/Eb+hwD5AmYEFgSHAgIBdADHADgBKgGpADUAQADwACwCyQORBVAH7giPCmUMTg6sD94P+Q7xDbwNRw5ZDr4MiwkbBsIDmAKsAUUArP6z/Z79yP1j/Vz8Vvvm+gP7Jvvb+h76MPlM+HL3ZfbS9KbyS/CC7tLtEe6a7gPvfO948BHy+PP69UL4APvv/YoAwAIjBTUIqguwDt4QnxJyFBcWyBZFFj4VhxQTFC0TjBHHD4wOpw1NDC8K3AfUBbcD0ABP/W/6BvlV+Ln2gPOj74/sr+qA6dboRukg633tBe+O72TwuPIk9jz5WvtO/Q8ANwNcBcQFMAXFBKwELwQDA+IBqgFHAvYCYQP/Az4FvAa1BwYITggECc0JEQrjCe4JcQrJCj4KEwlBCDgIPQhYB5YF/wNJA/YC8AHc/4P98/t9+7L7Efxr/Kn8hvy3+0j6sfhz9732YPb89Uf1PPQo82Ty6PFB8Rnw1e5m7ljvOvEi88v06vY6+m3+XgJDBXUH1wnIDNQPWxInFFIV6BUFFgwWXha7Fj0WVRSXETwPxQ10DFQKfAfiBAADLgGF/hf70Pc39enydfBP7k/tUu0T7a7rAOrl6R3sb+8c8sPzbPXV9276PPxQ/a/+3QAMAygESASJBIcFfAY/BuEEyAMaBHMFbgY8BnAFKgXUBd4GiQemB4kHfAd3B0EHxwY5BuEF5AUYBhAGewVmBCsDFwI4AYIAFQAOADMA+P8b/xP+oP3o/UP+Cf5c/d38tvxC/OP65Pgl9wX2CvWw80byiPGK8ZDxHfG/8F3x5fI79Lb0NfU+9yD7d/+5AtsEGQdICt0NtxBzEpkTtRS9FVsWbxbyFbcUsxKLEFYPdA/MD4AOogocBRkAjf0R/mIAuQE7/0b4ru8D6pzpSeyS7XfrYOjo51DqWey7643q8+zT8y77gf7T/Tb9h/8nA6gEmQMlA9sFSgraDEIMsAqCCjoLtwq6CIkHwgi9ClwKDwfJA30DigWVBrEEkgFPAKgBUgPIAv3/B/3D+2L8/v3C/zQB4gFyAR4Ayf5N/uD+HQCOAdoCrwO0A8kCHwEB/7P8qfqR+b/5cfoa+tn3mfRi8lvyqPOC9Cr0h/PR8w/1Pfa59iD3hfgy+3b+mwGmBOUHBQsUDZwNgQ1bDtsQ7ROtFToVeBPoEQMR3w+aDbsKzAiACJoIBAcOA1L+Ffv2+Xj53fcz9R3zrfLN8hzxdOxx5l/is+JO5+jt3fOv93H5P/pm+6j93QA+BBwHbgmJC1sNGw78DDQKFQcZBdgE7gWQB+4INgnKB+4ECwK4AEoBkAIuAwQD4QICA2gCDgBx/Hf5sPgC+hP8tv2i/hf/Yv/e/+sAkAI6BEIFqwUJBpYGwAbuBX4EdQM4A/cCqwFg/xT9dfs5+uT4pfcB99f2R/bY9DPzZ/KW8tbydfLb8enxzvLm88b03fXe98j6Cf5mAVoFPQpjD24TmxVjFsQWHhcPF0oWMhVgFMQThxLyD0wMqQjeBcYDpgEs//D83fsR/GD8EvtV9yvy2+1D7Gjtcu8r8IzuD+vO5r3i9d864FXlNu/6+psEHArfDH8PlBJAFBgTnxD4DxoSQhTXEmAN4AZQAr7/dv1C+xv7Xv49AwwGCQUEAg0AHgChAO7/Vf5q/d/9lP7J/cP6UvYx8hHw1/A+9BH5Gf72AtoHcwxrD3oP9AzsCX4IEAlTCtQKKAqnCGkGGwPL/oH6u/cl9wP44fjj+En4tPcZ96T10fJw70DtXu0+707xj/I+8wf0BPXx9TD3//lG/2kGiw0CE08W2RcnGKUX3RZcFkoWUhYLFjAVWxPmD6cKxARJAF/+Ff5O/e361fe49Sn1KfVq9KDyofB8777vO/Ew84L0I/SA8bzssOYH4UreJeGy6hX5Fwi8E6Ya7x0NHywe2RrhFa4RaBCsEZYSRBBgCiID8fxN+EL0ofAj78jxOvhT/7IDlATFA/4C8AFf/5r74fgF+ST7a/zq+kr3tPPA8cbxwvPi9wT+LAUADJ8RpRWEF3QWcxLyDBoISQVrBJkE7gSmBAADpP82+x33dvRg82LzNfTJ9a737/i0+On2FPTA8HbtGevJ6gLtCPFx9U75ofzG/9QCvwXLCHUMyhAjFasYAhswHCIcgxo/F/kS0w6gC1YJPQeuBLUBAf8u/Qr8t/qb+B32L/QY8xLyffA37xDwnfP991T6lPlu91r2CvcF+GL3bPS273vqd+be5YnqmfQ0ArEQ6B0sKJ8tnSxwJSsbGBLNDKwKIQkpBqMBrPwf+NrzTO+Y6jznYOc47LH03P3YBJEIoQnLCAUGKwFO+7f2NPV/9nX4+fi69zH2Fvbd97T63P3QAc8HEBCjGIYe+h+WHeUYcRLSCbD/1fZk8vXyCvac+Lr5Zvpb++X7EPtK+S/44Pjz+gz98P3w/O75gPX58KTt1esj66zrsO439UX++wbXDJQPqRBUEasRfBE8EacRrRJKE4USPxANDZMJUAawA+ABmABh/zn+l/2L/SL9Fvst96vyR+/g7UPu6O968qn17Pin+3f9KP6c/Rj8l/pc+sv7w/1c/oD8w/jV9GfyhvKc9Z/7FgQpDroYcCKxKewsNCvCJMYa2Q6sAgT4k/BJ7bPtBPDt8cDxQe/f6//pfetW8Nb2RP1LA0UJUg7ZD8cLPANI+pv0o/I28sDxH/JH9Y/73AJqCAkLuQtvDHIOlhGjFHUWuhanFeMSNA3YA0j4LO7X6Mro9utU8Jz1N/wmA90HdgiJBXwBMP7S+5z5Nvf+9FfzMPIl8e7vr+4t7p/v3/OB+u4BsgiODvkToRgNGwoaMxaPEZ0NTwoCBxAEyALiA2IGNAjMByMFdQE+/k/8VPso+uf33vRV8kDxZfHw8b/yi/Sx91H7Iv7l/3sBVQNiBP4C8f4P+r72HfaU98n5mftZ/Nf7gvp8+Sv6k/32A8oMvBbKH74lCCdaI5gbXRGDBrL89vSI7zDs2uqT69ntRPB48XHxmvFR86P2pfrG/hoDWQcxCkYKtAcUBNMA8v27+mD3ZPVK9ir6oP/oBOUIaAv4DFQO5A9cERgSzRGvELoOLwtGBX79yfUd8P7swusI7GDuS/MF+qgAbwWFB94G4wOC/x77yPd59X3zpfGs8D/x6vKS9OX13/ei+woBtwZVC48OyRBaEjwTMxMEEp8PZgxDCSgHTwYnBg0G7gXtBaQFTgS6Abv+SPxn+k74ofUX867xivHt8SryT/Lk8lX0yvYi+sf9ogDbAcEBmwFZAp0DaQSLBNoE1wV2BrwEvP+0+FjyGO8L8P70E/1CB34Sbx0jJkkqTyijIJIVtQlt/hX0bOsN5iPl0OeI6wzu2+7M7tHui++18Rb2p/wfBL4Kdw8gEpESMhCxCvgCDPv19Nnx6vHR9N35EgBMBoAL5g4kEKUPow5bDuwOJw/DDZsKeQbHAQT83fR07frn/+Vu51jrNvHZ+FkBrgjXDDcNsgqjBvIBFv1w+HX0qvGc8J/xVvSb90b6PvyF/v0BagbRCqYOHBIwFeAWzRWvEdYLJAbAAb/+w/yp+6f7DP3K/xcDfgXGBfcDVAH1/pD8FPmG9KnwbO/P8OvyKvTw9M72Xfpn/jgBXwLVAsEDWwXuBpcH+QaCBSUEowPDA0oD3AAj/Az2MPAy7InrVO+192cDKxDSG60kNSn4J5wg1hTKBwj8UPJ46hXlkONi5sPrr/A588zzMfTM9d74+/zLATIH/gyBEmkWIBe1E7EM9AOD+3T0D+/I657rRO8n9on+iQbeDNAQCxLqEJkOdAwGC9IJJQjBBaUCfP7i+ETyHewT6P3m+OgI7iH2SwBICpAR2hSJFLUREQ3SBl7/w/d58b3tBu3G7rPxlvQf9+b5c/1nAd0EbweeCe0L9A2oDogNJAtfCJUFqwLV/9P9Vv1w/q0AdwMnBuEH+weWBpAEkwJYAB/92PiK9IHxVvDj8OPyNfaI+iH/LAMtBvkHYQgsB2QEeAAX/CP4zfVh9l/6oQChBtQJ6Aj8Azf8i/OZ7AzqZe1E9tgCyxCqHeEmNirfJgUe3RFOBK32rOrK4h7he+Ue7V70+vjw+pj7JfzY/Ej9TP20/fL/yAQXCy8QpREAD50JGwNE/Hn1sO9/7AztRfEc+EAAXwgAD9YSbBN0ETYOwwqzB1MFpQMrAiUAOv3b+bz2H/Td8T7wVfAy88H4lv/oBY4KKg2vDRQMWAi7AuX7B/Wx7yftk+3r7+vyIfbz+Zr+bgNXB8MJDwv0C9wMsw0VDoUNqgu8CKMFWAMHAgEBxv/p/oT/uwEmBP4EzQOiAa3/6P1d+433VPNg8N3vrPGz9Nf3rvp0/UsAuALoA5MDaAJWAYMAOP8W/Rv7/vp1/V8BwgR1BoMGKwUsAm79JvjB9GX1g/rNAkYMLhUeHN0fgB/BGjsSQQeF+8Pweei74yLjlOb17CP0xvml/EL9F/0m/Wb9nf1Z/roAOwXiCsgPRhKgEe0N0wd6AGH56fPd8H7w0PKZ9wz+wwRYCgQOqg9xD4wNdQr1Br8D8AAt/jv7WfgE9oL0yPO280P0dfVb9wb6Yf30AP8DAgYWB5MHXgfQBYUCGv7m+fH2XfXR9DX10PbF+b79IQJnBiQK4wxHDkoOQQ2UC4kJWQdMBZMDGwLCAK//SP+w/3EA0AB7ALT/4v4R/vj8a/uR+cb3afbJ9Rb2RfcY+Vz7Bv7sAGgDjQTwAzoCrAALAAwAzv/h/rv9Uf0//jYA/QERAqD/Ovup9uXzAvQV99L8AwUNDzYZ2iDEI38hSxvgEioJS/6j8r/nIeDW3Qrhu+f37rL0qfi9+4P+qgCvAfEBugIoBSUJeg3QEGMS7xE2DwEKkwIV+l/yRe3a6w/u4/L7+Fz/pgWkC7cQ0BMeFNQREw4VCloGpQKW/kD6NPYW8zfxhvDL8Ozx//ML98f6qP5LArkFGwkMDG0NGQzmB+oBtPtU9iDyNO/v7djuJfJy99z9QgSJCegMPQ4SDjQNKAwAC6gJQAgLBx0GKgW6A5wBJP/+/Lb7Yvuu+0b8Lv2T/j4AVgHoAMr+2vtH+Zz3mfbt9eT1Gvey+fX85P//AWkDWQSrBAgEcwKNADr/DP/2/3AB0gKAA+8CtgDf/Fn46PRd9In30P28BfINmRXkG6IfhB//GsgSYghL/aDyfulI4zvhdeOO6Ebu3vL/9Xj4Ifv8/VUAtAGZAkQEmQc9DLQQUhMxE2AQcQsIBcr9ivZn8Ivs1Ot57u7zD/uKAkgJoA42ErwT+RIKEJ0LxgZ8Ahn/Vvy8+Sz3B/Xa8+Hz2PQ/9sb3hfnG+6f+3wHRBM4GWwdfBjQEfAHN/mL8HPrr9yj2lfXQ9sb5pP1gAWoE2gYPCRoLjwzmDAMMYgrCCJMHrgaKBbQDMwGN/nr8dPto+8X75vuG+/T6vPob+7n79/uK+8r6YPqj+k/7xvuu+0P7Hvu5+yz9Pf+lASgEggZTCC8JwQjWBmADi/7p+H3zb++U7UPulfG/9+MAUwwCGAQhGyUDJGQfQhlxEm8KxgBu9sLt4egL6H3p8epT6y/ruOuK7U/wdfP19l37IAH4B/AO7xQkGRMbWxqwFiQQcgf8/WT1De+162LriO1b8SD2VvuaAHEFOQlrCwMMnQsbC/4KDguWCv8IQgbMAhD/Q/t29+rzJvG47+XvlvGB9Fz4zfxAAeQE9wY0B/kFAATnAeH/0/24++T57Pg9+cD62/zU/lgAoAErAzQFdQdmCb0Kpwt8DEQNhQ2jDGwKSwfgA4MAN/0U+p33iPYP95v4Kvop+9f7yfwD/rj++f2++yn5t/cQ+Kb5Yfuq/Mv9Zv+oAQgEvgVsBkMGrAXRBHkDPwHl/ZH54vTY8I3u0e7j8X33I/9OCDESYhv1IVEkJSKeHIEV7w34BVr9oPRW7Q3pCOj76Bjqdup96hzruezx7lTxNfSV+DP/tweuEFUYbh2AH4weuxpbFBcM/gJW+kjzo+697HLtIfDp8/P3wvsz/0QC3QTTBiEIAAnCCYoKMQtcC7cKEgllBs0Cof50+uT2TvS08ujx3/HK8s30q/fB+mX9Tv+jAKsBcQLOAqoCNgLFAYABSQHxAIIATgCcAF4BMQKvAscC0AJAA1cE7gWJB5QItAjtB5sGNAXvA6IC9wDZ/qn8Dvtx+qX6CPsD+3D6nfny+KH4pPjs+IH5f/ry+9X9EAB6Ar4EWgbMBuEF2wNdARr/l/0N/WH9HP5//tb9+PuK+cL3tPfC+Z39uwK7CEYPqRWvGhQdORxtGJESdAuXA3L72PPZ7T3q++hR6U/qY+t47LLtOe8t8cbzQve6+wEBuwaKDAUSlRZtGdcZoRdEE5UNVQcAAQj7HPb+8hXyEfMj9Yb36vlN/Jv+gwC8AV0C3QKqA7wErQUmBjwGRgZzBoIG9gV+BCoCP//5+4n4TfXh8t/xc/I49IX24vg1+379hf/YADYB7ADAAGkBBQMGBaMGZgdiB/wGigYcBpYF8ARQBOsD1QPpA+gDowMaA2oCsAHsABIAFf/6/cz8mft1+oL53/iL+FT4+/dw9/L27fad9+v4lPp9/Mf+egEoBPQFJwbTBN8CaQH9AF0B+wGDAuQC6gL8AYP/tPvW96b1OPZk+TD+uAOgCbQPQxUMGe0ZqBf0Et8MLQZX//X45/Pd8Lnvhu8975zuMe6S7pbvd/C98APxrvLI9hL9JAR+CngPQxMqFu0X3ReVFXkRhgytB2QDuf/A/MH6/fk9+sf6vvq8+Q74c/aO9Yf1HfYH91D4VPpm/WABjAX3CPMKbwvVCpwJ7AeiBawCVv8//Pr5sPgU+LT3RffH9lb2D/YG9nL2pPfg+Qv9qgAbBPgGOgkQC4oMdQ2HDbAMPQunCUkILwcyBisFEATjApgBFQBW/ob86fqu+dn4Vfge+D/4rvgw+XP5VfkY+TH56PkU+0H8I/3d/df+QwDXAQEDYAMZA7ACkwLUAj4DmwPXA9YDTAPcAXT/kfwg+gD5lvnI+0D/qwOlCIINTREXE3YSug+yCzAHtgKB/sv68fdJ9s71/fUO9mf17vML8knwEe+c7jHvPfEl9dT6ewHYB+EMOhAqEgUTwhIhETwO4AoqCL4GSQbgBdQEOgOVARgAUP6g+w/4ivQ48pDxGPIH8yn0/vUH+QP96AC6A1AFVAZ4B70IhAlCCRUInAZTBScEpQKLABD+pPt4+W/3cfXI8w/ztPOV9Rf4rPoy/eT/5QL0BY8IXApwCyYMwgw0DT8NygwDDCgLNwrNCHkGLwN1/x38uflJ+GT3qvYf9gX2gPZR9/33MPgD+OD3L/ge+ab6pvzc/tsAKwKWAm4CVwK8Am4D3QPCA38DrgNCBDgEVQJ0/g36Vvex98n6Kv+fA/gHfQzdEN8TQBTQEasNPgk3BW8Buv2W+tP4j/jN+Cz4J/Z08yDxcO+47YPrnenW6XHt3fP++uIAKQXGCIMM2g9xEaQQdw7cDAANSA4ADwEOqgtQCc0HqgalBPQAEfxX9/HzIvJd8fnwwvD+8ALy0PP99f/3hvm2+hP8Jv4WAYEEsQcECjwLewsJCxkKxQgUBwAFdAJv/zj8c/nb9673Z/gU+R35yfj6+FH6jPzB/kEARAGtAiEFSggVC5MMvAxMDPMLrAvRCtYI5AXFAj8AiP5K/Rv84/rM+fj4SviK96j21fVV9UX1mfVT9pn3kPkR/I/+YQA4AVsBZwHMAXsCCgM1Ay0DdANGBC8FQwXnA38BXP/H/gAAFgLOA8gEvQWOBxIK5guRC+sIZAXKAsQBcgGIALb+3/wC/Az81vta+rr3GvVt86XyDfJY8SnxZ/Il9Wf4CPvY/Kn+RQFmBNgGtgdvB3oH+gijCwgO8Q51Dr0Nuw0qDscNjAuwB4cDZACJ/iP9LPtj+Hr1ZfOC8mXyXvIq8iry8vKo9Nb2yvg1+l770fzP/hABBwNeBDMF3wWOBhIHGweaBtYFJwWfBP8DCwPhAfAAlgDGABoBPgFAAWkB2gFRAm0CKwL4AUUCAAOOA14DggKqAXgB2wElArIBgAAb///9K/1G/B/76vkD+Y/4bviA+Nn4k/mJ+lv7zvsV/J/8lf2q/nz/FgD7AI8CigQeBqsGRwZ4BYEEIQMXAdD+X/2j/Xj/4gEEBN0F+wd0CmUMigx5ChsH9gPqAbYAoP90/sX9JP49/9r/2/4s/Mj4yvWW89fxUfB07w/wZ/K29bP4qfoE/MH9RADgAnoEvgSRBFAFlge+CpwNkw/oEB4SDBPZEskQHg0MCdUF4gOjAkEBUv8I/c762fgN9zn1W/Oy8ZLwMPCD8FrxlfI59F725Phg+1j9r/7K/zEB+AKbBHoFjAVyBdoFygacB7QHIgeCBkQGOAbgBSAFcgRXBK8EyAQeBPUCEgLuATkCOQKaAb0AMwAUAN7/B/+R/QL81/oU+mD5f/if9yn3V/cA+L/4TPmn+Qr6rvqj+8P82f3I/qT/mQC3AdgCtQM0BIoEEAXJBSUGQQWhAsT+Ffsf+Yr5wft9/t0ABAO1BToJqQxWDjoN7QlQBgsEWAMrA4UCeAHWAPkAEQHU/8780/go9VTy9e+87UTsqOw87+jyCfbt91T5X/sm/o0AkQGRARsCZwQqCPALnQ5TEOoRnBOJFI4TlRDbDOIJJwjlBhYFmgJOABb/y/44/iD8XfgI9JPwsu4M7uftDe757ijxWfSE97b55frk+4H9tf/DARwDCwRlBZMHBQqgC8sL6grqCUsJvQikB98FDAT7AvsCnwMmBBAEYwN8ArQBJQG1ADcAov8X/8/+3P4R/xf/sf7j/eL82PvM+sP53fhO+CX4QPiB+Aj5Gvq++4b91/5w/6z/GADbAJcB4AHNAecBlwKwA5oE6wSpBAQE3QLdAAL+Efs9+Vj5S/tb/tgBdQUECfwLjA0pDRILOQiZBaUDQAInAVQA+P8eAGsALwDM/iP8q/gn9TXyE/DE7mTuN+9W8Vj0ZffS+ab7a/1w/0cBMQIhAjAC1AN9BwMMkQ9AEbERIhLyEjQTuxF0Dp8KogfNBUMEDwIo/1n8QPqQ+Ff2C/Mx7wjsguqc6pjr0exY7sbwc/Tn+Az9/f+zAecCSwThBRUHhweYBxoIdAkWC/MLfgsjCsQI0wf+BsYFMgTZAi4C/QGrAe4AIQDO/wUASwAlAJz/HP/e/q3+PP6o/WT9tP1M/pX+UP7O/YL9af0K/Qj8o/qR+Vv57PnE+oH7L/wb/Wv++v95AagCbAPHA9MDvwO+A+ED/QO8A8oCDwHM/pj8LfsQ+0r8af7hAHwDWwZ8CUsMzQ1uDZcLZQmwB2MG1gTHAswAuv+a/2n/7v3W+u72U/OL8HHu4uw17PHsHO8F8tT0Pfec+WD8d/9QAm8E4wU6BwgJgQtjDjIReRP7FKoVjBWQFJASgA+pC6AH/QP1AFX+3PuE+XT3pfW+82PxqO4k7Hnq5Ok+6mXrd+2R8GL0MPhh+//9jgBkAzkGYgh+CdEJ+wlkCvwKcguGCx0LKwqtCMoG2wQ0A+kB1QDm/zz///4N/wr/vv5g/l/+2P5h/2f/xP7o/WL9Xv2e/d/9Jf6Q/gL/G/+g/sr9Dv2h/ET8nvvE+kz6vfoJ/Ij9jP7v/hr/lP+VAOQBHgMFBKUEMgW6BegFFQW7Av3+1fqW9x72evYy+O76sP5kA2IIgAzUDlcPvw7IDZwMAAvmCLYG9AS6A6gCRAFj/x79fvpY94rzVO9k64noXOcS6HzqFO4q8ir22vlT/aIAfgOABbUG5wcYCqENyhFYFZYXvhhnGaYZ0xg6FuURtAy3B3YD2P+H/Ff5UfaF8wDxzu7/7IrrT+pQ6d/ofelw63vuGPLu9Qz6oP6DAxYIpQvXDcoO0g5HDnINngzyC1ALYArnCAYHEwU3AzoB3P5K/DD6NPlr+U36NPvh+4T8Zf2J/rT/pgA9AXoBbgFEATgBdAHvAWcCkgJHAncBKAB0/q78SvuR+lX6G/qY+RD5H/ka+rX7S/1w/ij/mP+t/0D/kP5k/n3/3QGeBJQGGwdEBm0E3QHe/gb8J/rX+RP7gP3pAGEFswroD4cTiRQFE+gPAwyLB4sCo/0T+sf4YvlO+u/50ffJ9PPxqu9u7bnq5Ocy5vjmpup48Ab3M/2xAsMHjwyvEF8TLRR2EzoSdBGGETwSJhPsE0QUyxMZEgEPtgqYBen/0fmu8zXuMur/52Tn5uc46Tvro+3Y723xqvJ19IL3mvvS/38D4ga1CiIPQRPBFfsVVhSnEWQOlwp2BrYCFACX/n79DfxV+gn5n/iv+HD4q/cn9+73Ofoz/cb/ogFqA9wF4Ah5C4YMrwugCXMH7QUTBVcEEwMBAU3+bfvP+Kv2DPX083LzlvNg9MX1vfc2+vD8Yf/vAE4ByQAcAPD/dABiAVcCQgNiBP4F5AdCCfEINgZ3AUj8l/iB98L4XfvU/qgDWgrzEb0X6xjrFAAOewcRA+3/Ufzm91L0X/Po9LX2jPYv9DLxAu9m7RzrzOcX5W/l7+l18cX5hgHsCJoQGhioHZAfuh3ZGRYWjRPlETkQMw4+DMgKbwkEB4YCFPz89L3u8+km5q3iyN/L3ibhI+dz7/f3B/8uBOgH3QpKDQYP5w8MEOAPyQ/LD18Pqg0VCsgErP7E+IXzxu536knngeb26Dru1PRR+ycBfwZgCz0PfhFFEmwSsRLzEngS2BCADhEMcgnABVkA8flb9CjxcPAE8bvxc/LO8xn2rvh3+vv61Pod+3z8sf7vAJICggMWBLwEnwWSBisHEAdIBkgFnwRjBO8DRQLO/ub5o/Qu8DjtGOxR7czxP/odBhQTxB17I7ojOyBvG6oWhRHqCroCYfrV8/Xv5e346yTppOVb4uXfd95z3sfgYOYu7+75AgWID3MZliK/KRgteit6JQYdDBRzC0cDnPsX9YDwAO7h7BXsAuvZ6Ufp+OlP7HDwWvbo/bAG0g/sF2Qd9x5qHL0WpQ+UCBkCFvyW9kXyAfDy7xTx5PGZ8cfww/By8oT15fjQ+3/+zAEuBgALvg4IEIwOMQtlBzIExgG6/7n9+Psb+7D7vv2wAKADwwWkBkIGAAWEA10CuwFZAc4A+v8n/7j+tP6j/uv9Uvwx+ir4yfZT9tn2WPiw+qP94QAfBA4HOwkSCjIJxgaIA0oAiv19+3/6KvvF/XgBSAQ5BMgAZPt99gz03/Ty+P//Uwk2EwMbeR5SHW4ZDRWvEKYKEAFe9PvnN+A635bjpulK7qXwsPGV8p3zl/Tr9fD4Bv9ECP8SnxwEI1IlxCPtHjUXAA0bAfH0Weoa41/gUOLl5z3vZfY0/KcAXASiBxgKNwtDC3QLAA3NDyoS/RFcDhIIuQBf+T7ylut/5pPkoube63Py7PgF/w0FtwrADuYPKg74Cv0H3gUBBIEBOv7s+oP4WPcn94n3XvjK+e37tv7sATsFOgh5Cq4L0gsHC1kJqwYCA+T+WftN+e34ifk++rf6VvuR/Db+Xf8a/1D90/q8+Kr3lPc9+LH5JvyD/xMD4QVtB/AH6wd7B0QGGQSYAeL/iv+7/6r+I/u89arwRe6z77H0UvyOBSEPRxc1HDcdSBsoGK4U7Q9aCNj9qPIT6v7ls+Xk5tTngOjn6Yzs7+9v81f3xfxoBH8NKRbAHMMgdCLBIdId4RV4CsH9d/Jk6snlDuTE5O7nXe0K9GL6Sf/fAiYG8AkWDrIRARTaFF4UVhIyDrMHj/849/XvS+pP5oPk/eWF61j0Ef4HBvkKjg0tD2kQhxCCDl8KcAVKAYH+Y/zo+c724vNK8qnyzvQd+B38mwBjBfYJkw2ND64PRg7tCy8JSwZCAxYABP2Q+kr5cPnA+pf8Uv6i/5AAOgGDARIBnv9W/ff6bPk6+S36kPvN/Oz9cv/CAY8E7QYDCMUH+gZyBhgG2QSBAfv7uvXU8JLur+4M8CzyAvYW/aEHbxPJHN4gsx/JG8gXNhRPDxwH1/tb8DToEeXH5ajnv+gF6b3p9+vB75n0UvpBAZUJihKAGuEf8SHUIOQcNRbZDJQBLfbP7Pjm3uS15YTouOwN8hr4JP5mA4cHsgpEDW8PKRFYEuYSiRKJEO4LPQQj+ojvx+ae4ZrgTeP46PbwkPqeBHINZxOlFX0UFRGnDO8HLQOF/lH6Cvfp9LLz6vJR8iryD/Nx9Tn52P2oAjkHTguSDncQaRAyDjIKRAViAFv8tPmo+B35pvqp/Lj+vgDaAu0EWwZIBkcExQDX/IP5OPfn9YT1TvZ0+In7gP5lADUB6AGGAxoGiQiGCa4ItwaMBEICDf85+kT07u5D7H3tn/LX+uYEMw/AF6gcGh3xGSMVRxB0C5cFAv6p9c/uU+st64TsPu2e7I3rkuuf7cnxy/eC/7EIZBLUGikgdyEVHwoaJRO0CgUBBvdG7kfowOVt5nrpEe6A8yb5Zv7WAnoGqAmxDJgPFhLUE30UmhNyEGIKiwFE98PtF+cz5Mbk5Ofe7Hzzg/sYBLkL2RC5EroRBQ/BC4cISAWzAa39k/kP9q/zk/Jl8sry1fMY9ib63v8lBmgLhg5pD78OMg3fCpAHawNH/0D85vrd+lr77PvM/GD+hgBuAkMD3QLBAXIAzP5A/LH4CPXU8ijz2fW8+aX9IQFLBBsHCwl9CWkIcwZbBD8Cmf/o+1f3zvJm7/ztNO+h84T7DgYIEYYZfR32HMYZ8RUcEnEN8gbo/g/3WPF67pjtNe1m7Errlerx6s3smfDJ9mP/ewlPExYb0h99IWQghhynFQIM5QBr9oTuEerL6OXpquyg8DT1m/kp/df/XQKjBfMJqQ6gEu4URxXAE00QmwqDAq/4zu4S5zLjsePU5z7usfVk/dEEUAvxD98R8xDxDS0KuQbYAw4B1P0z+tn2ivST87jzp/Rl9kD5Xf1RAkwHiQujDm8QpRDpDkMLigYsAlP/G/6l/f38BPx2+xr83f3A/54ACQBt/ob8xfo9+QL4cff396T5/PtL/iQAhgGpAqoDfAQGBTMFzQRvA8EA2fxj+E/0U/HV70TwVfOi+cYC2gwmFaEZGBroF5YUmhBzC9kEov1z93LzZ/EZ8Ijuv+x/61LrH+yt7WjwSvXf/FYGqg/ZFgQbbBx7Gw0YzRFDCUoAOflU9Qj0pfPs8vzx0vEV82X12/cT+p/8YgCIBScL1g+YEjYTzBE9Dk8IXgDh9wPxf+2g7Ujw6vOb90r7GP+SArEEsATrAu0AaADwAX8ELAaMBZYCe/6v+gD4ePbi9Vj2Ovi1+18ARwV0CUYMgA0TDRAL1Qc3BEYBvv+P//P/CgBv/1n+Rf2K/Dr8Sfyt/E396v00/hD+uP2I/Z/9yv3N/cL9Ev75/iEA1QCtAAAAjP+O/0j/jP37+cD1C/Oh88T3Rv6XBaUM3xKqFxYaWBl+FZoPFAncAjT9L/gv9MLx+PAJ8cnwm+8F7kPtX+6L8VH2M/z2AmIKyRHsF3obrhuUGOgSyQt4BCX+o/kZ9wT2mfVJ9f/05vQT9YT1ZPY7+KP7rQCSBvwLtg8lETUQCw3yB5cBOftN9sDzgvPH9Lv2Cvmq+1z+ggCUAbkB0QG9ApgEjwaJB/QGAQU/Ahz/0/u7+IL26vVO9136SP4wAnUFugfYCOwIYwjOB4sHfQcxB0UGtQTDAqsAe/5H/GP6V/l5+Z/6PvzU/Sz/NACjAP3/DP5V+/v4DfjV+M/6N/2i//oBEgRkBUwFgANEACf8wPfJ82zxHPK79qn+uQdaDwoU2xWeFakTmw9FCcQBVPvh94T3eviM+K/2dPMe8I3tC+zq6+ntwvI9+uQCwwqTECcU3xXgFf4TYhAODHkIdwaIBUoEqwG//Xf5sfWh8iLwde6C7jfxnfZ8/ecDPAjMCecIdQaSA0kBUQDSAFcCDAQpBTUFAwSJAd/9f/lo9d7y1PJd9Z35Mf7PAbADtQNUAlwAqP7D/cb9fP62/24BkgOvBfcGxgY8BVUDQAKKAs0DLAUPBmcGWAa9BTIEmQF9/tP7Qfq0+Z/5qPn6+eP6O/xM/Wv9q/zf++f77/xq/sD/6QBZAkgELAb1BtIFzwK+/qb6V/dt9Xn16/er/McCwghGDb4PWxCZD80NFQulB/IDjQDL/Zj7lflb97r0yPHp7snsMuy87XPxv/ar/FUCNgccC/ENqQ9YEEUQ0A8tDzwOsAxVCjYHgANX/9r6W/aE8ifw0O928YP0J/ib+0L+sP/S/yP/nf5F/4MB2wQxCHgKIQsjCqQH3AMu/2X6ivZ19Fn0u/XM99f5aPtI/Hb8QfxI/Db9Uv9IAlkF0gdjCQEKrQlYCCgGsAPIAQ8BeAFmAjADmQPMA/ED1AMAAzQBu/5V/M36gfo5+0X8zPww/GT6DPg/9uj1Pve0+XX8Cv+GARYEcAbBB0UH9gSrAXz+A/wh+of4Vvc198L45vvK/2MDJAYlCLwJ+AqMCyYL0AnvB+oF2AOEAbf+dPsC+ML0DfI38IrvNPAn8hP1lPhh/FMAQwTsB/MKIw2FDkwPog+MD/EOvA3lC1wJFgY0AiX+kfr/94b21vWJ9W31jPXs9W729Paw9yv57PsEAN4EggkJDeoOBg+TDQgL+wftBA0CMv8q/BX5ZvaD9Gbzq/IZ8gzyUPNp9v368/8vBDMHLQlxCg4L4goBCu4ISghOCJoIfAh8B6EFUwMJAR3/z/1F/YP9Sv4l/5v/Xf9P/oP8MvrT9xH2lfWu9hT5Efzg/goBegJQA7cD2APkAwkESARRBKID1AH4/q375/iD9/j3Mfqs/aYBWgUoCMEJKgqkCYUIGgemBWoEiwPlAuoB2/9K/Jf39vLR7/nuPPCx8nX1MPgB+wr+IAHtA1gGqgg/CwcOYBBtEacQKg6NCngGZQKc/l/78fh+9/H23/ah9pz1nPMg8U/vdu9M8nD3lf04A3EHJwq4C2IMGQzICrgIiQbMBJYDZAJ2AE39AflO9FbwLu5r7tPwgfRt+Pv7JP8fAuYEKAeiCI8JjgoVDOgNLg8QD1UNdgosB/4DNwEW/9/9l/3A/YT9Uvxt+sv4XPhI+c762fvL+9D6l/nD+Jr4Fvkb+pz7iv3A/wQCHgTXBeUG2wZQBUICWv7U+vz4e/n8+2b/dAJeBBUFCwXPBLcE2AQgBXYFwAXbBY0FjQSkAtD/ZfwL+YL2TfVo9VL2X/co+Lr4bPmN+iz8MP6PAGEDuAZWCpoNvg9KEGIPsg0BDLsKvQmLCLYGJwQKAZD9ufl89Sbxje3L65Dsmu/I88r34/o2/Wb/9wHtBOsHfQpSDDMN8Qx1C9kIbwWdAb39Ivor90P1ofQH9db1d/bS9mD3vvgr+1n+vwH5BOkHfAptDGANNA07DAsLCQohCfYHSwZIBEwCggC9/rb8gPqo+Nn3QPhJ+fr5pvlz+Eb3J/eY+FP7gP41AeQCgwNnAwcDuwKgAqECmAJuAg8CXgEqAF3+RPye+lP64Pvp/lkC/AQ+BmUGMQYyBl0GQgaUBY4EwwOEA2gDcALQ/737iffh9Kb0VPZp+JP5mflX+db5Yvtr/Tb/rgB0AioFoAi5CycNaAwoCsgHbwZhBvgGLAclBp8D6v++++f3AfVU8+DygfMF9Rz3Rvnz+tX7K/y1/Dn+5gAaBLkG4wd6BxoGjgQ+AwoCoAD1/mf9c/w5/Fb8Nfyg+/j67vrs+8D9z/+YAQYDTgSKBY8GIQdIB10HtAc6CHAIzQcyBgcE6gFMADz/f/7A/bP8J/sg+eT2//QO9IH0YfZH+XH8B/9qAIsA+f+Y/xMAZAHpAuAD9ANeA5ICyAHTAGP/Wv0G+xD5PvgT+YD7uf6AAdoCwgI+ApwCZwTzBvMIjAnzCAkIYQe2Bj4FkgIw/yj8TPqe+Wr56vjS92/2ZfU/9SD2vvef+Xf7YP2v/4gCiQX3B00JuQn1CZkKhQviC9gKQAjUBLIBpf/C/oD+JP4x/aj7/PnF+Fj4mfgf+aP5RPpV++L8bP4z/+L+8f1U/br9Av9mAB0B9wBbAOb/8/9tAAMBbQGrAQQCywILBFoFDAa5BaMEmwNZA+EDfgRlBGQD/AHkAG4AYgBVAAQAcv+6/vv9XP0Q/Sj9bv2L/WP9TP29/cT+yv8MAFn/UP7h/YD+0f8TAccB6QGuASgBTQBJ/5v+x/7f/1ABMAK9AcH/tPyg+c/3NPjU+pf+4gGiA/YD5wNqBJ0F5AakB9wH9gcpCCgIZgefBRUDSwCx/YX77/kE+Zr4Pvh+91j2XvU/9T72BvgM+gz8GP46ACcCbgPjA+MDDwTIBO4FCQeiB3wHmQYoBYQDHQJLARgBNgE7AdgA+/+3/jj9y/vY+qb6F/um+8j7Wvu8+nP6sPpB++r7tvzn/Yz/RQF+AusCxAKVAs4CgANtBDgFkQVLBXoEeQPAAogCkwJlAr4B2wA8ACEAUABVAP//hf86/yj/FP/K/l7+Af7E/Yr9Sv00/Yf9Nv7f/ij/Jv9D/7f/JADw//P+wv0v/YX9Rf62/p3+YP59/vD+Sf9J/0D/vf/qAE0CGQPOAoABu/8t/nL98v23/zgCfQS3BdAFZAUkBTgFQAXgBDoE0wP3A04EHQTxAu8Ao/6W/CP7ffqr+mD7APzy+xr7CPqA+cr5f/oR+2n79PsO/YP+pv/p/2T/zf7X/q3/8QArAhkDsAMLBFsE0gR0BQAGCQZPBQsE1gI0Ah0CFAKmAcAAlf9g/k39g/wh/B/8QvxL/DT8RPy8/Hv9C/4a/uD95f16/nH/WgDzAFEBswEeAlECFwKfAVoBgAHiAScCJQIAAvIBCwIkAhACzgF7ASMBwQBxAHEAzQAxASgBiACr/yD/Kv9v/1H/lP6r/UP9lf1B/rb+s/5g/gj+xP2B/Uz9dv07/lH/DAAOAKr/jf8MANUATQEvAdkA2QBBAYoBNwFjAJr/Pf9C/2n/jv/G/yEAeAB/ACoA2P/s/1IAqQDIAOgATAHjAVgCXQLfAQEB7P+3/o/91/zg/H79Gf5K/i/+If5Q/qP+5/4D/xr/ef84AAIBXwEsAbYAZQBnAJgArQB8AC8A/v/d/5n/SP8//5T/9/8nAFQA0gCgAVYCiQIzAr4BkAGkAaIBbAFBAUkBSQH7AHgAAgCo/0f/1f53/mf+vP5E/4z/Vv/t/uL+a/83AMkA4ACYAEAADwDn/43/I/8d/6X/VgC0ALUAkABLANb/Wv8//8r/uABJAeMAxP/j/vP+rf9HAF8AMQAdAFEA0AB1AQQCTwJQAhsCzwGuAfEBawKTAgMC2gCs/x3/b/8sAGwAsf9p/nT9S/3J/ZD+Q/+j/6X/g/94/43/r//N/9r/zv/D/9P/6P/Z/6L/Uv/s/ob+Xf6Q/uH++v7i/tn+/v5E/6H/DwBzALAAxgDEAL4AxQDRALYAZgAVAOv/t/9B/7n+gv6n/uP+C/8s/07/YP9f/2b/lP/8/4oAAAEuASkBHQEEAdMAtADKAOIAsABNABQADwD2/7D/g/+y/x4AWQAYAI//T/+d/wwACQCv/5f/+/9sAIEAWQBWAJ4AAAEiAckAHACR/3D/k/+w/7j/uv+z/6b/qP/D/+v/GwBCAC4AyP9j/2v/2P9BAHEAhgCfALMAxADaAOEAsgBMAOH/xP8zAPEARQGoAIz/+f5j/0UA5wAQAeUAjQA4ACAAWQC4AOYAkAC3/+P+wv5h/xgATgASAMX/lP+G/57/1P8RAFcAnQCiADIAlP9J/3f/0P8LACcAPgBgAIgAlQBwAEUATgBuAFUAFgAdAG0AhAARAGf/9f7I/rT+sv7i/k7/w//p/5n/L/86/7r/GQD//8H/xP/o/+b/y//D/8L/rf+Y/6b/zP/g/8D/bf8q/0v/v/8FANb/i/+X/+v/MgBPAEkAEwC0/3n/kP/K/+D/xf+b/4H/iP+d/4r/Q/8a/1T/w/8XAFIAlgDJAMIAkgBeABkAwf+N/5b/o/9+/0P/Nv9y/9f/DwC///f+Vv5o/gb/pv8KAE8AgwCcAKsAwgDRANAA2ADbAJ8AOAAVAG4A2gC9AOj/x/4Q/i7+zP4i/+X+rP4H/63/CAAgAHMADQFmASEBjABPAMMAgwG2AfwA/f+n/x4AugDyAMsAegAnAPn/+P/v/8H/r//8/3gAuwCuAIwAjgDHABQBLgHpAIYAaACYANsAEgEyAf4AXQDA/6//DwBUAEwAQQBgAHEANADD/43/5P99AIsAtv/B/r/+pv9kAEIApf9J/3D/3P8xACkAuP8Y/4n+J/4J/k7+4v52/9v/GAAWALz/Wf9l/9P/EADq/9H/JQCsAO8AyQBzAEQAVgBiABEAk/9y/8b//v+3/0j/Jf88/0L/Ov9S/5P/5/87AIcA0gAyAXgBOAFsAMj/8/+lAAsBxAAiAKD/cv9+/3r/Qv8h/3j/IACLAJAAiACuANIAygCrAIwAcwB4AKMAwwCiAEcA1/9q/zj/gv8PAD0Ayv84/yH/gv/i/97/Z//U/rv+Xf9LAOMABAH2ANIAkQBnAJwAFQFpAUgBsADw/5T/7v+bANIAXwDP/6H/zP8ZAGwApACWAF0APQBOAG4AfwB1AE0AOAB0ANQA3ACCAE0AgACqAFUAuP9f/4P/4f8PANf/e/+I/x8ApAB7AM7/Pv8V/zj/g//g/yMAOQA/ADgABQC7/6f/0v/q/7v/bv80/yP/Vf/L/zgAQADp/3r/K/8o/5f/QgCQADcApf9s/6D/9P8jAAcAnP8q/wT/If85/z//Xf+V/8P/5/8WADcAOQA8AEsANwD4/+X/IgBMAAIAeP83/4j/QwD0ABQBigDg/7r/GgCOAMkAvABcAMb/Yv9z/6r/ov9+/6L/FgB5AHQADgCt/8z/YQC2ADwAZf8n/7D/QQA+AM7/eP+K/+3/QgAuALv/XP9c/5///v91ANMAvwBDAN3/2P/7//n/yP98/yj/A/85/6X/+/8iABkA0f9p/0f/n/8lAHsAmwCjAJwAlwCpAKcAUADU/8b/UgD1ABQBkADP/1//k/8bAEcA4v93/4v/7/8pABsA5/+h/2n/hv8BAIUAzQDyACMBUQFFAdwAOQDg/0QAGAFlAcUA8//N/yIAKQC8/2n/j//n//v/w/+q/wUAjACXAAMAhv+0/x4A/P9i/wP/F/8q///+4P4P/1X/Uv/6/qv+0v5n/9n/vP9d/1L/pf/+/1YA2AA/AQEBOwC0/97/WgCHAEAA1P+f/6//yf/M/+X/JgAiAID/yP7p/uP/qgCAANj/jv/c/1IAdwA5AOr/5P8gADwAFADv/wQALwBBAEAAIADH/2T/Y/++//L/uf9p/2H/m//h/yAAXACaANsACwEDAcIAaQDk/xb/Z/6j/vv/lgF3AmECqwGyAMb/Nv8Z/y//Kf/r/pP+cv7F/lD/df8L/7D++/6v/x4ABwC0/4v/yf90ADgBpwGqAX4BQAHcAGcAIAAVAB8ANgByAMgABwEHAbEAEACR/8D/jQAzASIBnwA2AAIA2f+5/8P/5//f/3X/yf5r/uD+4P9jANn/7P6v/kv/CgBfAGUAbwCZAMEAugCMAHoApwDLAJQANQAmAG4ArgDDAN4ACQEQAe8A5gAPAS8B9gBQAIz/K/9c/5r/UP+r/m3+xP4Q/+P+pf7i/nL/u/+S/3H/xv87APL/sv6P/eD9fv/UAOMAcgCvAGwBhgG3ABQAlwC7AQ4C9gCS/3D/kABnAekA1v+A//L/KwC4/yj/9/7l/qH+iv5B/6AAgQHcACX/CP6J/sf/LQB6/+z+dv+jAFEBBgE6AKr/pP/e//P/5P/3/ygAJADn/+b/WQDJAJsA3v9I/4D/bAAoAc0AfP9a/k3+Cf+z/xIAhQAKARMBXQB7/zv/t/8mAMD/y/5t/kP/gADiAEMAkf91/7D/1v/z/zEAZwBWACQARgDxALABswG5AH7/Bv95/ygAiQCnAKMAYgD+/+H/OACTAHMA7P+P/83/igAxAUABtwD3/03/6v4Y/+T/jQAIAH3+j/2W/uQAUAKNAY3/fv59/2YBNgJRAQ0Azv9RAFsAjf/M/t/+eP+y/0P/zP4Q/+n/VgC0/6P+V/4s/10AFAEkAcoAQQDV/+r/ogCSAQECdQEqAPP+i/76/rz/fQAxAZ4BWwF+AL//of/Q/7X/W/9e/xYA/QAdASAA1f5q/h7/CABFAOz/r//l/1kAsQCrAC8Ae/8s/7D/swBLAdcAuP8e/+L/ggF9At8BPADo/p/+Nf8xACgBlgEKAbv/oP6g/pv/WwC//wj+yvxF/QH/TwAcAOL+7P0o/pr/ggHIAqECKgF9//H++f+XARgCxQDV/j3+fP8NASoB0P+Z/tb+JQAMAa8Aqv8m/2j/sf+H/3D/+/+oAGIAEv8O/rX+vgBVAtwBnf9//SD9b/4jADIBbwEVAW0A3v/l/5EAUwF/Af8AXQAjAEAANgDc/7L/MwALAWIB8gBQABMAEgDA/xb/t/4x/0IAAwHZACYAzf8fAHsAHAAb/2j+3v5oAOYB+QFLACX+ff0L/2QBSALQAFT+C/3V/XT/CwAt/yP+QP5o/3oAswAyAHH/z/6z/n//GgGUArkCTwGc/1b/4ADbAowDjALTAIP/Bf8t/5//9v/j/3L/Gf9B/9D/NwAUALH/qv8kAI4AWACu/zX/Of+H//b/kwAgAfwA2f90/hj+SP8NAckB0wAr/37+l//FAZgD5gNrAvP/C/76/Zn/UQGFAREAPP5p/d/93v6E/33/9P5C/tj9Iv4P/9P/kP92/sv9jv5JAJgBrgH5AFQADwD//ykA2wDwAXsCqgHt/7z+Bf8uAOcAvgBkAIoA7gDMAOr/8P65/n3/tACNAXUBXQDM/rX93/0c/0cATgBT/4r+3/79/7UAUABG/7v+Wv+6AMYBswGoAJD/Vv8qAF0B/AGpAeAAZgB+AMAAqQAnAJb/WP+L/xUAtAAOAcoA3v/D/jX+mv6a/2MATgBs/2j+Af5y/kr/0v+x/z//JP+Z/x8AFAB0/+n+Ev/W/5kA6ADTAKAAcwBUAGMArwDzAMgAOQD3/5kAygF4AgEC7QBQAJIAIgFNARIB7QARAS0B5QBHAKn/O/8B/wP/QP95/03/wf5m/r/+iv/8/7L/G//Z/vL+8P63/sr+i/+VACIBBwHYAAoBTQEbAZsAfgD/AGkB9gDi/zf/iP9GAHcA3f8Y/9L+Gv+a/wgAMgDq/zn/qP7e/tD/jQA3AAr/Mf53/nT/IgAKAJf/X/92/5b/nf+t/9//HwBlAMYALQFFAeEAYABjAAsBvAG7AfoABQBg/zH/ev8+ADwBvgEqAdL/1P75/tT/UgD//2r/Q/91/2v/Av/F/iP/yP8IALb/VP9Z/7L/CQBIAJIA0wCxABQAbf9H/6z/JwBYAEYAGwDO/0//5f4C/63/UwBXAMH/M/8v/6X/LQB1AGcAAwBr/wv/YP9hAEgBMwETANr+mf6F/9UAjQFRAYwAAQAuAOsAhAFEASsAGP8N/yoAbwGwAb4AhP8D/1z/6P8bAAoAFQBGADwAs//y/pD+7f7U/7UAGgHyAIkAPQA5AHEAvwACARUBwwD4/wL/if4C/yQACAHoANj/rP48/rn+rP9tAJUAKACH/zX/d/8cAKYAxQCfAI8ApwCkAF4AHgBMAOgAeAGLAScBpQBCAAYA+P8lAGcAWQDO/y//Iv+3/zMA5f8G/37+y/5h/2X/y/5j/sX+gP+b/8v+1/29/aD+s/8eANj/jf/Q/28AnACx//v9rPzp/LP+yQCyAQ0Bz/89/9H/HAF8ApcDPQQmBEsDTQIwAlUD4QRwBWIEXgKeANP/0f8JABUAwP/r/pr9Hfzy+nj6uPpo+wz8GPxC++r5Fvm5+b/7+v0e//r+h/7o/loAMgKsA4AE2ATsBN0E1wQMBYUF/AUMBoIFjwSbA/oCpAJJApYBlgCv/zv/Ff+z/s/9y/xL/GT8bvzD+5r63fkk+gL7g/s1+5r6hvpR+6X8AP4c//X/qABqAXsC3AMjBcYFsgWFBfkFJQdTCLMIGwgeB3kGeAbTBuwGJQYpBCABvP32+pf5v/nH+or7CPsO+Yv2IfUH9gv5ivyW/mP+yvyF+9r70v1uAHACCQMpAm8A7f6m/vX/JwLOA7EDwgE9/8b9Lf7p/60BdgInAlABkwBdAOcANQLXA+wEuQRjA/sBowGKAsgDOQR0A/wBqwACAPn/OwBvAF8ABgCG/xD/uP5y/iz++v39/TD+Sv7r/fX8wfv2+hb7+fvS/Lj8dPu5+Zv4m/hb+SP6p/ok+9z7rfxZ/Qz+UP9YAZoDNgXZBQYGegZ0B5UIZgm/CbQJUwmjCNUHQAcZBywH9wYLBl0EWQKpAMX/kP9U/0b+QPz4+XD4FPh9+Pb4IfkK+br4APi+9lL1evTH9Cj2+Pdu+Q/67fmr+Tn6R/yz/4QDiAYaCHoIegjpCCQK6At5DfcN+AzsCusI8AcdCKgIbgi9BrcDNwBX/d77yftQ/Gz8ifvd+Sr4MfdT93T4BvpC+5n7Mvvk+or7Of0q/3sA8QDmALcAdwBBAIAAkwElAzME9QPBAssB/wErA1EEpgQmBEYDYwKMAc0AWABMAGYAEADc/u789vq5+Xz52fkR+qP5p/iy91/37vcx+cb6TfyK/Xz+Y/+kAH4CxwT5BpMIbwnRCSQKqQpVC+ML/gtvCz0KrgglB+MF8QQkBDoD/QFgAJH+5PyY+6369PlL+bv4Q/it97H2a/V/9KT06fV990T4sfcl9pn0DPQP9Zn38frd/T3/6P4S/qD+wAHQBqMLDg6GDYoLbwqdC5cOfxF/EusQbA1sCVEG6AQHBYAFswSnAeX8Q/iW9Vz1jPaT93b3OfaP9F/zbfMD9aT3Ivpn+1T76/pv+1f9CQB+AgwEpASTBDYE7gMTBMgE0QWuBvsGsAYUBnsFIwUhBWMFsAWyBR8F3wMiAk4A3f4V/tf9mf22/O/6qvis9pX1ePXo9VH2V/b89aP13PUU90D5vvu3/b7+Mf8EAAACEwVKCIAKQAsRC/MKegtfDOUMnwzDC8YKzgmbCAAHOwXAA7QCuQFQAGD+T/ym+q75Tfke+ZX4TPdf9ZnzBfMM9PD1TvdE9z72jfU29i34ifpV/CX9B/1X/Lb7GfxP/jsCbAbiCKIIrwZ2Be8G/wqODx8SohECDzsM6gpjC7oMdA1hDDcJwARuAIj9WPwL/Ef7I/m89RXyfO/N7v/vIPLT8yH0KvMn8o3y9fSZ+Of7uP0d/jL+If9FAQsEjQZGCEwJ9wlzCqUKcAoACrkJ2wk6ClcKzQmiCDsHDAZJBd8EjgT/A9oC8wCK/lH8APu8+tz6afrq+Mb25/T68wn0qPRh9e71LPYm9iz20faB+AL7ff0q/wgA6QCkAk0FIQg8ClILtgvmCxYMOQw/DCwM8gtjC2IKDwmxB2gGCwVsA58B+/+z/pX9Qfye+gn59fd49zz34PZW9tL1dvUy9QP1I/XY9Qr3I/iR+GP4Yvhk+Yv7HP4lADoBpwH5AXkCHwPjA/oEngajCFEK4QolCt8IRwgkCRwL5QwpDXwLpwgOBrcEqQQIBckEWQPkABX+pvsC+iT5sfgs+DL3rPXi82ny5vGr8mL0GvbR9jz2J/X99LT2/Pl0/cf/sAAHAdoBhQOVBWYHuQi0CXMKzgqYCu4JMwm8CJQIlgigCJMILwgdB1EFWwMbAgQCkwKnAmoBAv9e/HL6jPlM+Qn5MPh/9iD0wvFc8JTwLvIW9Cv1IvXF9Ej1V/et+ln+aAFcA1sEDwVUBrUI6wvmDnwQUhAkDysOEA5vDlQOLQ0/C04J3gfUBrgFNwRhAoQA2f5o/Rn81PqP+U74GPf69f/0LfSG8xPz2vLi8inzpfNI9Pn0pfVN9h/3ZPhM+rn8Ov9CAYACFwOPA4oEaQb9CIMLBA39DNwL0goFC6sMzQ7/D2MPOA2GClwINAfVBpYGtgW8A7oAXP2M+tb4BPhW9yT2VfRT8qjwr++V72Tw4fF985f0B/VZ9WT2efga+3b9OP/AAJMCuASuBhEIDgkqCo8LwgwKDS4MtwqMCUsJ5wnFChULQgpLCNwF/ANYA7QDCwRLAy0BTf6c+6j5bfia9+P2CvbX9DbzePFI8DrwP/Go8rDzI/SB9IL1gvdI+kj9AAA9AhsE3gXCB8oJsgsdDdYNAQ76DQoOLQ4hDqUNqwxZC+0Jjgg7B8wFFAQSAgQAT/4w/YL81fvF+kf5q/dS9mn11vRe9NrzS/Pf8tnyaPN79L31zPaV93P46Pkj/MD+CQF2AgUDLwOUA6UEcQaUCFgKEAuVCoUJ5QhkCc8KMAyRDKgL8AkzCP4GaQYoBsEFvATiAmsA8P0J/NT65Pmk+N/28vRs86Hyd/Kc8tTyFPNx8w/0FfWY9nn4Z/oS/Hv99f7aABkDLwWOBhUHKAdWB+gHuQhuCcIJrAlJCcYITAj8B9sHzgekBzkHgAaIBWQEKwP0AdUAyv+r/kX9jfu8+Sf4APct9m71o/Tz86jz6fOO9Ej16vWQ9on3Bfnv+vb80P5sAO4BhQM8Be8GaQiICU0K1Ao5C4MLpQuNCzYLrQoJClIJeghpBxYGlAQCA3UB7f9m/un8lvuC+qH5x/jK96/2rfUH9dz0EvVx9c71IfaF9iD3DvhY+en6k/wT/jL/5v9iAP0A/QFlA/IERQYfB4IHrQftB3EIMAnyCXMKiwo/CrgJHgl/CNEHAwcYBhgFAgS+AjcBdP+e/dv7N/qj+CD30/Xp9G30N/QX9Ab0LfS79K712vYV+Fj5uvpF/OH9a//YADQCkgPmBBIG9QaLB+QHEwggCAoIywdmB+4GgAY0Bv0FsAUaBTAEJgNKAskBiAE9Aa0A1P/a/ub9/PwI/AD79PkD+T/4ovcf97L2a/Zd9pP2C/fH99f4Uvot/Cr+7/88ASAC7AL3A1kF2gYmCP8IYgluCUgJCgm9CF4I4wdBB3gGlwWuBMEDygLLAdUA+f8v/1r+Zv1o/Iz77Ppy+vX5Zfnf+I/4fviN+KH4vfj++Hn5H/rP+nb7Hvzb/Lv9vP7N/9IAqgE8AowCvQL9AlwDxgMdBFYEgASxBOwEKAVgBZ0F7QVQBq0G5QblBqsGSAbEBRoFNQQEA5IBBgCL/jP97/uv+nj5bviv9z33A/f59ir3nvdD+Pb4qvl3+oH7yvws/nf/mgCYAW4CCgNqA68DAgRqBLgEwgSWBG8EegSnBL0EoARqBD8EIgT0A6cDUgMRA9kCgQL2AVYByQBHAJ//sv6o/cP8HfyG+8f65/kr+c/4yvjm+Af5RfnD+YH6Vfsn/P/8+P0O/yIAIAERAgoDAgTYBHcF6gVOBqgG4QblBrsGeQYmBrcFLQWgBC4E0QNgA7wC7QEeAWkAv/8A/yv+Xv21/Cr8mvvy+kT6vvl5+Wv5bvlk+U35R/mD+SH6FPsn/Bn9z/1k/gz/4v/WALwBdALzAjkDQQMVA9UCsQLEAv8COwNeA20DhQO4AwIEWQSyBAUFPgVJBRsFtwQrBIIDxgIBAjkBYABZ/xL+pvxR+0j6kvkR+af4W/hM+Ib49Ph1+fr5kPpG+xz8Bv38/f3+/P/dAIMB7AEyAnYCxQIeA3wD3AM3BHMEdAQzBM4DdANGA0gDaAOKA6EDpQOXA3sDVQMfA9ECYgLPAR0BUABo/2P+SP0l/A77FfpB+ZT4Dfi095f3w/c5+On4v/m2+tH7EP1b/o7/jgBiASUC6wKuA2EE/gSKBf4FQAY+BgUGwAWQBXUFUgUVBcQEcQQhBMkDYQPvAm0CxgHlAOD/7/5C/sz9Tf2R/KL7t/oB+oX5MfkF+RT5YvnU+UP6rfoz+/X77vz3/en+u/9wAAYBewHXATICkALVAuICuwKXAq8CCgN4A84DDQRaBM4EVAXKBScGgAbgBiQHFAeSBrIFpwSQA3ECPQHt/4r+HP2x+1v6MPlD+JX3Jff49hT3bffm92P46via+YL6h/t4/EL9A/7q/vz/DwHrAYEC7wJfA+QDcwT7BG8FywUOBj0GWgZoBmMGRgYZBuYFqgVPBcQEDwRSA6UC/gE4AUAAJ/8R/hT9KvxM+4j67/l8+Rf5sPhZ+Dr4ZPjD+DD5mPkH+pb6VvtK/GT9h/6L/1gAAwHBAbUCyAO6BF8FywU3BsIGTAehB6wHiQdSB/4GcgawBeIELwSWA+kCAwLsAND/1P7//Tv9cPyV+7D63vk++eX4y/jO+Nb45fgV+Xf5APqU+ij7x/t//Er9Fv7T/of/PAD1AKIBLQKMAscC9AIvA40DCwSNBPUEOgVpBZIFuQXVBesFCQYzBk4GLQa9BRcFZQS2A/MC+gHCAF//7/2B/B/72/nI+O/3S/fY9p32ofbY9jP3rvda+ET5Xfp/+5L8ov3J/gYALwEZAsICTQPYA2AEzAQPBTYFVgVyBYUFkQWkBcMF3gXbBbEFbwUlBc0EVgS9AxgDfwLtAUIBZQBe/1D+Vf1s/If7q/rv+Wb5Cfm/+Hj4RPhA+H749PiO+T76Bfvp++X87f30/vP/5QDHAaACegNZBDMF8AV9BtYGBgccByAHGAcFB+IGngYqBoUFyAQNBFsDogLMAdUAyv/C/sX91fzy+yH7Yvq5+S75z/ig+JX4mPij+Mj4Ifm1+XX6TPsz/Cj9GP7q/pX/NwD6AN0BqAIYAyED9gLkAhMDdAPhA0AEkATYBCIFdAXOBSkGcgadBq4GrQaWBlAGygUEBQ4E8AKkASgAnf4z/QP8+Prp+dL44vdU9zX3XveV97/38fdP+O/4zPnQ+uP78Pzw/ef+3P/IAJsBRQLIAjEDkwPuAzkEawSKBKQEygT8BDIFVgVbBT4FDgXYBKEEXQQBBIcD8QI5AlsBXwBh/3v+p/3F/MX7v/ro+V75E/nj+Mb40/ga+Yf58flP+sP6dPtf/FX9MP7x/rL/gABMAQsCwAJ8AzsE6gR8BfYFXwatBswGuwaTBm8GRQbyBV8FnwTdAy8DiwLaARUBQwBq/4f+n/3F/An8ZPvB+hf6gvkn+RD5Hvkt+Tb5Vfmo+TT64/qg+2P8Lf38/cn+iv84AMsAQAGZAeQBNQKaAhEDkQMQBIoE/gRrBdEFLwaGBtYGEAcgB/EGgwbxBVsFygQbBCMD0QFNANX+kP12/Gj7XPpl+aD4Eviy93j3bvee9wb4mfhP+Sj6IPsk/Bv9A/7o/tr/1gDHAZsCTAPeA1UEtgQNBWAFqAXOBccFoQV3BVgFNAX2BKEETwQPBNMDfgP/Al8CrgHoAAQACP8O/i/9avyr++r6PPq8+XH5Svk4+T75Zfmn+fL5QPqm+kP7HfwX/Qf+2v6c/2MANAEIAtQClgNPBPkEjwUUBpUGEAduB48HZwcPB7EGXwYHBoQFxwTkA/8CKAJSAWwAd/+F/qb91vwI/Df7bvq8+Sn5tvhl+Dz4Ovhb+Jj49vh5+Rv60vqd+4r8nf2//sL/kABCAQgC9QLfA4gE2ATtBO8E6QTJBIgEQgQXBAkE/gPlA8kDwAPJA8kDrQOCA2MDVANBAw0DsQI0ApQBzADj//L+Df4r/S38DPvu+RD5jPhO+C34HPgz+JD4Mvn4+cT6j/tp/GL9df6J/4QAWwEbAtQChgMYBHIEkwSdBLcE8QQxBVYFUQUyBRQFAwX4BOQEvAR+BC4E1gN6AxADgQK/AdgA6v8L/zj+Xv14/Jf70foq+pv5K/no+Nz4+Pgi+Vj5qvkn+sL6YPv8+6X8Y/0h/sj+YP8SAPQA6gG8AlYD2gN3BDAF2wVZBrEG/AY3B0cHGQfDBmcGBAZ7BbwE3wMNA04CgwGTAI//n/7S/Q39NfxV+5r6G/rG+XX5HfnU+Lb4y/gK+Wz58PmM+jT75fuw/Kn9wf7M/6YAVQEDAskCmQNJBL4E+gQPBQQF2gSaBFgEIgT0A78DfwM/AwcD1wKtAo8CjQKjArQCmwJPAukBiwE2AcgAGgAv/y3+Qv15/Lr78Poi+nf5FPn4+AX5IflN+aP5MPrn+qT7U/z8/LX9jP55/2gAQgH3AYEC7QJTA8YDOgSOBK0EpwSoBMUE5wTjBKoEXwQvBCQEHQTzA6IDRAPwAqICPAKoAeoAHQBc/7P+G/6G/ez8U/zK+1v7Afur+lD69/mz+ZX5nfnG+Q36dvoF+7b7dvw2/fL9s/6K/3sAeQFvAkwDEgTLBHsFFAaGBtAG/wYWBwoHyAZUBsQFLgWNBNYDDgNNAqIBAQFOAIv/0f4z/pz96vwX/Eb7o/ox+tz5lvlp+Vv5XPla+Wb5rPlF+hD72PuE/DP9Cf4C//f/zACIAUQCBAOzAz0EoQTlBAkFCQXqBLwEjQRbBCUE8wPVA8UDqQNqAwwDswJ9AmoCXAI3AvUBnQE1AbcAIgB6/8X+/v0c/Sj8Q/uT+iD61Pma+XX5dfmg+eb5OPqa+h77wvty/B79yv2J/l7/PQARAdABdALwAkMDhQPXA0AEnATABK4ElQSeBMAEzwS0BIAEUAQkBOkDmANCA/AClgIkAqEBJQGzACoAb/+R/sP9If2a/AL8VPu0+kr6F/r5+dj5vPnH+Qz6gvoR+6n7SPz2/LX9fv5H/woAygCNAVMCEAO0AzUEmATrBDQFbgWMBY4FggV5BW8FTQX6BH8E/QOQAysDowLiAf8AMACO/wf/bv6s/c789/tI+876fvpE+gv62PnD+eL5LvqJ+uH6Qfu/+2L8Gv3U/Yr+Pf/m/4QAJgHeAaMCSgOzA+8DMQSQBO0EEwXxBKYEWAQXBN8DpwNqAx4DwQJqAjQCIgIQAtkBhQE7AREB7gCpADYAqP8V/37+5v1X/c/8N/x3+6r6F/rl+fb5B/oA+gz6X/r0+pr7NvzY/Jj9Z/4n/9D/dAAhAcIBQQKhAvYCTAOUA78D1wPvAwgEFwQXBBMEDAT1A8UDjANlA1ADMQPvApYCQwL4AZcBCQFiAMn/Rv+8/g7+SP2W/Bb8vvtt+xr72vrN+vX6OPt1+6f75PtF/Mz8Yv3y/X/+Gf/E/2gA8ABbAcMBNAKhAvcCMwNqA6kD7wMxBGoElQSkBIwEVwQhBPkDzgN+AwADbwLtAXoB/wBsAM7/Nv+j/gf+YP3A/Dr8zftq+wf7qvpm+kb6Rvpg+pL65fpk+wn8vvxn/QD+m/5O/xMAygBdAdoBWQLfAlUDpwPfAxkEXASSBKAEhwRYBCAE2QODAyoD3QKYAkkC6gGNAUsBJAEDAdMAmABqAFIAQgAbAM//av8J/7X+Wv7X/Sb9avzQ+2v7K/v5+tT6x/rX+vz6NPuI+/z7fPzw/GH99v3O/tD/vwB1Af0BfQL/AnIDxQP9AygESARWBFIEQQQkBPcDvgONA3UDZwNAA/MClAJBAvkBpQE1AbMALgCo/xX/eP7e/Uz9uPwf/JT7MvsA++v64frp+g/7S/uJ+8z7MfzN/Ij9Nf6+/jr/xP9YAN0ATAG4ATECpwIBA0ADgQPXAy0EYQRsBGgEagRpBE0EFQTZA6gDbQMGA3ACyAEsAZgA7v8m/1j+qf0g/aL8GPyH+w37wvqk+qD6qvrJ+gv7cfvq+1/8yfw1/bX9T/7x/oX/AgBwANsASgG2ARwCewLSAhoDTgN1A6AD1wMMBCYEGwT6A9MDqQNoAwUDiAIFAowBHQGyAEsA7v+d/1T/DP/F/ob+Wf5A/jL+H/4B/uT92v3k/er91v2t/Y39i/2W/Yf9UP0V/QP9JP1Z/Yb9sf3z/VH+tf4N/1v/sf8SAHYA3ABNAc8BTAKmAtYC8gIWA0UDbwODA38DbQNSAzADCgPeAqsCaQIYArwBXgEDAaoATADg/2f/7/6G/i3+0/1o/fL8lfxo/Fn8QPwN/OL76fsk/Gj8lfy8/Az9lf00/r/+Lv+Z/xIAjgAAAW0B4gFaAsECDwNSA54D8gM5BGUEegR/BHUEVwQfBM0DZAPnAmIC5gF5AQ4BjgDw/0D/lv4F/or9G/2u/ET86Puk+3r7ZPtc+2H7dvuk++z7TPy7/DD9p/0f/pL++/5c/8P/PQDHAE0BvwEcAnICywIdA1EDYQNcA1sDawN+A3gDTQMNA9UCrwKFAjUCuwE4AdIAjgBSAAMAoP86/9/+j/5J/gn+yv2L/VP9Of1I/Xj9q/3J/dD91v34/UD+oP7z/iX/Qv9u/7T//v8vAEoAcgC1APsAIAEbAQUB+AD4AAIBDAEHAeIAogBnAE4ATQBIAD0AQABSAFUAMQAEAPf/CQAUAAsAEgA/AG8AdQBjAHQAsADVALMAcgBbAG8AaAAjAM3/ov+d/47/a/9P/0T/LP/9/t7+5/71/tv+r/6x/uz+Gv8F/9X+4f46/5r/vf+t/6D/uP/2/0oAnwDYAOsA8wAeAW4BvQHvAQ4CJQIeAuwBugG8Ad4BygFZAdgApQC3AKwAUwDk/6H/dv8n/7f+af5g/m7+XP44/jj+af6f/rf+vf7J/tb+3P7s/h3/Z/+i/7r/vf/F/9n/9P8TACcAJQASABMAQACCAK0AuADDAOQABwEXASMBQAFWATsB+ADMANcA6QDLAJIAhgCvAMUAkQA8AAsAAADr/83/5v9AAIEATADK/3z/nP/Y/9H/mP+C/5f/f/8K/4b+Zf6m/tf+rf5g/lL+jf6//rz+sP7O/vr+/P7m/gv/ev/Z/9f/sP/p/5IAGQEJAa4AtwBMAdMBxgFaASwBaAGiAYoBUQFGAUoBCgGWAFsAhQC1AIkAKAD+/xkAGQDI/23/Vv9i/0H/+P7d/gn/Kf///sr+7f5W/43/V//+/ur+Hf9T/3L/nf/q/zcAYQBvAHgAegBsAGMAdgCaALMAxQDrABcBCwGvAEIAGAAsADoAMABIAJcAzwCWAA4Auv/X/xEA8P9y/wD/7f4p/2n/fv9r/07/Rv9f/3v/Z/8Z/9L+3P4z/4X/mf+Q/6//AgBVAHgAcQBaADkAGAAUAEkAoADXAMQAhABYAF8AfgCGAGcAPwA6AGQAmQCdAFQA5P+c/7D/AQA4ABYAt/98/6X/+v8HAKr/Vv+c/2sABgHgAEsAEQBxANkAvQBdAGQA3QATAY0Awv95/8j/DADh/5r/mP+f/zb/gf4x/o3+/v7d/l3+Q/7G/j3/FP+k/sT+pf+KALYASwAHAFQA2QADAboAZwB0ANcAMQEyAeAAhQBwALUAJgFyAV8B9wB+ADUAIAAJAMn/gf9y/57/tf9s/+X+g/5y/oL+e/55/rb+If9f/0r/Kf9U/7n/9//m/8b/8v9qAOAAEgEGAQEBRQHRAU4CUALXAWoBiAH6Af8BPwFSABAAggDlALIAOAD+//H/lP/U/j3+Kf5K/iX+z/28/f/9L/4M/uf9Iv6e/vj+H/9W/7T/9//3/+r/CgA0ADIALAB7ABEBbwFXASsBXAHCAdkBiwFKAV0BewFGAd8ApgCkAI0AVABFAHsAiQAPAFn/B/84/2r/RP8I/xD/Kv/t/oX+mf5N/+P/of/b/o/+Ev+i/3L/y/6j/kz/EgA2AOf/4f9cANYA4gDHAP0AYgFjAeEAegCyAC4BJQF3AN3/6P9JAFwAIAAgAHoAiwDp/yz/Pv8QAJoANgB5/0z/pv+3/zn/3P42/9T/5P9j/xn/aP/H/6P/Q/9Z//X/cwBsADIAOgBoAGMAOwBdANwAPgEdAagAWwBmAJUAsACxAKIAhgBxAHUAfABLAN//hf96/5r/nv+B/3b/ev9R//r+y/70/in/Kf9P/ykAagH5AUQBOgBHAHsBPAIZAZf+yfwn/Q//cQD4/1X+dv1q/i4A0AC+/4D+1f51AHYB2wDj/ykARAFoATcAiP/IAKYCowKJANz+fP83AZoBUwBW/9v/wAB3AFT/5P6L/xYAtv8k/1P/8f8IAJz/mP86AJwAHwB//77/kwDBAOP/Af8i//f/dAA4AMv/rf/C/87/6P83AI8AsQCsAKoAkQAzAM7/6P+HAPgApADl/5P/6v9QADUAzv+r/+D/9/+f/yD/+f5J/67/sP87/7j+tf5M/+z/4/80/7n+Nv9iAB8BvgC8/yf/df87AMsA3QCJAAcApf+6/1wAHAFIAZsAkv8C/2f/cgBGATMBWwCn/97/tAAYAXsAmv+I/zkAjQDw/z7/iP9wAJQAkP+t/h3/QgCeABQAEQBAATQCTAE8/2j+qv8RAZYACf/p/q4A0wFPALD9Sv20/9YBCAGs/kj+nACLAmwBz/51/h8BWgMBAnr+8vz//sABtwEg/z39Bf7+/6UAo/++/jD/OABlAG7/Vf4t/iT/iwBVAeUAsf8G/6D/oACRAH//I/9jAJoBnQAm/on9UACYA2gDCQDr/cT/wwJjAr3+lvzf/pICywJq/x393P79ATACg//8/bX/BAKFAfj+BP7t//cBeAF6/+X+SgB5AQYBIQBPAPAAiQB2/3v/wQAvAY7/uv0r/kIABwF2//793f6+AMIA2v7W/RX/fwD3/8r+g/9nARQB8P0K/KP+7gJUA1r/xvyb/yIE2QPC/rr7/v4hBCIEH/8L/Ob+WwMWA5/+P/wO//0C/QLl/3X+FgBJAYL/O/0V/hUB5AFN/z79IP+1AiwDAACz/U3/GgLIAdn+1/2OADID0wEs/kj9QQCfAsUAMv0M/d8A4QOJAvz+gv2w/pz/6f6B/sL/wwBp/1/9Hv5uAfsCcgBc/XD+rAJFBLUAfvwO/UsBLwM7AL/8kP1GAXQCd//D/Jz+JAPOBKsBuf2Q/b8A2QI2Aej9xPy7/i0BagHP/+T+//+oAZwB0P+P/nj/VgG5AUAAGP/j/1sBLAF5/93+ngBrAkMB0/0m/I3+dwKEA/IAYP4E/6sBhgIzAF/9Q/2x/7IBcAEXAIb/ff+C/g39x/2HAZsEdgIp/LL45vyWBKsGWwAl+ar5zABzBaICgP1l/XkBpwKh/pT7xv4fBKoDpP0T++0A+gcGBlf8+fbw/K0G+Qft/3n5e/wBBBUGLwHt/Jj+ZAIPAiD+ifyK/4gCAgEb/Vf8pf80AmMAzvyT/FcAlAOMArX+WPx5/WEAWwJPAscAAP9o/tr/UgI8A0MBef5F/g0BbgOPAun/JP/5AF0CIAEg/0n/+QD0ALz+4P2cAJ4DEwLo/H36Gf7rAkkC//yG+rL+MATEA0X+U/uW/s4CiwFr/K76uf6wAu0AKvyg+6sAtARZAuj81fuVAM8EEQPw/Uf8PwAEBV4F0AHU/tj+JQBGAEr/3f6I/0MANACm/zD/6/7R/jT/JQD+ACsBFgGEARgClAHa/7f+s/+qAeYBzf8G/hr/4gHJAoUA5/0y/t4AaQIEAcH+i/5XAJQByAA0/7D+M/95/yf/Df+D/8P/Xv8p/9r/dABb//D8vftq/WsA0QHmAMf/SQCkAfcBHwGsAEQBnwGdADr/M/9mAPYAHwBr/0gAlwETAcT+VP2B/qMA6wA3/wP+pP5+/8D+e/0x/uEAigJAAfP+yv6xAJIB8/9E/mj/bgKpA8EBkv8rAKQCcAM+AZL+P/7k/woBsQAtAJkAHgGLAH7/nf//AKoBKwC4/dH8NP4HAD0A9v4W/uD+ngCiARcBo/+F/oD+Xf9BAFwAif9w/vT9av5O/9v/xP9W/wD/9/5O/xAADgG0AYUBxQBmAPoA8wFCAqcB9wD5AF0BPgFuALP/qP///xsA+/8DABAAkv+c/iT+v/6h/53/5v7j/hEABgFLAIX+uv2P/m//7f7r/WT+hQBLAjUCLAH7ALgB7QEAATQAwgD0ARgC2gCt/8v/vQBRAT0BJQFMASwBegDJ/73/BgDG/9P+Av4Q/q/+Af+3/mH+if7k/pL+Kv1n+6X6nPud/Sz/hP9p/zYAKALzAzUEIwNdAhsD3AQPBr4FWAT4AkcCFQLCAeEAe//4/bj8zPsN+2v6BvrS+X/57fic+Dv5sPr7+2L8c/xh/Wj/WwELAsIB6wF9AyIG0Ai7CoULLwtECtMJjwrjC2wMhAv2CcgIxAfTBbgCkP9g/aL7CPlt9SfyUPBc7xDucOzX6yDtb+9k8fTySPXE+Pv7Pf2//Jb8c/73AXQF5wemCU4L0gzRDWkOGQ/iDyUQhw+TDhoOFw6rDSoMvAm2BuAC7/3C+Gj1a/Ue+Pv6v/sf+oX3kPX49J/1Gff0+MX6Qfxa/Q/+Jf5F/X/7tPkm+Vz6dvy7/S/9lPu2+nz71vzg/DD7rfnG+tT+igMkBuUFagTmA2IFiAhLDG8P4RBdEPYOZw5sD9wQzBCXDn0LFwmoBx8GkwNEAAz9Uvrj95P1nfMv8gjxxO9u7oLtTO2I7cPt9+2T7vDv6/EK9O71gPfo+IH6u/y+/xMD0wV5B3QIuQmuC7AN6w5yDzQQvxFPE3kTwhE9D3kN7QywDLAL2QnkBz8GjAREApH/NP2k+3D6qvi+9b/xLu3J6L/lmOVK6QTwFPeH+078+vpO+vL7Xv/bAmUFfQccChENrw5DDf8INASGAccBiAOlBBIELgK5/+78tvlr9v/zS/Np9Mf2nfk2/PT9hv5Z/pb+WwC9A7UHBws2DYYOSA9gD5EOCg2CC7sK9wrACxcM8QrhB4oDRP8Y/PH56Pd39SDzxPFq8ffwUO+U7CTqfukb61bu/vH79Lz2a/fg9xr5gfu8/jICpwUpCYoMLA+BEJgQEhClD8wPshATEhsTtRJ8EE4NoAobCRUIkAaMBPICRgLQAUgAFf2T+Efzae2I5zvjfeIP5oTsJPO797/5GfpD+n37Tf5PAoUGEAq7DLUOyQ8zD34MeQj9BH8D3gOIBOIDcAHm/Un6Fvca9A3xRe7e7P/tu/Gm9qf6evyC/EH8K/3m/1UE4QmLDyMU5Rb3FxkYuheZFoAUGRKNECcQrw+IDVcJRwSk/5f7kveW83Lwr+6l7SHsxulb58blJOUy5STmg+gw7Arw/fIh9XP3ivoC/kIBXQS6BywL7g2nD+gQXhLOE2cUFBTNE1MU+RRGFL8Rgw74CzgKUgi8BRADFQG3/z7+W/xb+kz4dfUq8ezrXecK5XnlaOha7XHzEPll/PH8Sfzo/AEAsgRRCS4NtRD5E7QVKhQWD24ICAN2ADAAiAApAKv+HfyN+DD0qe/r673pk+nI63bwxvaL/Fz/pf6l/OL8MQFICC0P+hMRF7cZFBzSHMMadhb9ETUPYg5RDpkNhgsWCHIDzv2g98XxJO0t6sHodejF6A/ppehR58flX+UP56bqGO9w81r31PrB/Q4AEAJnBFYHfgphDewPPxISFMEUJhQLE3ESgBKGEvYR/RDiDzcOQgsvB00DyABo/wX+Efwn+vz4Rfgm94D1JPSQ8wDzQPFU7r7rCutu7BrvePKc9mr79v82Ax4FnAZdCBIKGQuxC94MGw9nEQ8SMRBdDMkHUgNr/4T8+Ppp+qz5pPc19DDwlOws6tPpV+yB8XT3u/tw/QH+kf+uAicG9QilC2IPChTvF50ZRRkLGGsW6BNQEIYMrgnoB1YGPgSUAWv+avpa9Q3wFexy6rvqp+sr7PDrJOtH6hjqJetA7bHvNvJ79RX6Lv/XAgEExwNLBH4GdQn1C/INJhCQEi0UMBQKE9QRChFNEDIP1w1zDNoKsggWBnsDGAG2/kL8Ofoc+bL4LPgo9yf2yfXI9Qf1sfIX733rV+m96Rzt2PIl+eL9LgAmAa8CZgURCEwJgQmpCvMNCxIgFJ4Sjw5QCjQHygQqAlH/Av2n+9P6xPn79zr1hfGs7YXrzOxQ8aL2IPpn+1f8qf75AYcEpAWdBjUJlw0xElQVfRYVFowUCxLoDtoLogmCCB4IpwcwBiYDw/4L+hH2KPPt8APvme0A7f3s2Owd7Bzrj+rv6kzsnu7k8d712vkI/RT/XwCjAWsDxQVlCAULsQ2YEHwTchWAFb0TkxGWEPsQbxGEEBgOJQuJCFMGTASFAhcBoP+N/fP6r/hs98j2x/UN9EbyTPEj8QLxIvBk7l7sL+sU7KrvKvWl+n3+vgDNArEF5AgVC84LBQwADfYO5RCJEWAQ1A3KChEI9gU/BIACmwDN/kP9rPt5+Yv2hvNo8dbwzfHO8yb2L/ib+bD6B/zp/ff/rAEoAzIFTwjtC7oO0Q9pD18ORA0ADE8KYgjkBlwGnAa8BrQFHANt/6P7ffgX9h/0avIz8dzwZfE38nnyvPFn8Hzv0O9j8YjzsvXx94X6Kv0q/0cATAFWA6gGbQq3DVwQkRIaFFUUMROcEaQQXxAMEB8Pwg09DFwKzQe9BLIByP63+7X4zfbQ9gb4lPhk9zv1vvOU8/Pz0fPu8qXxOPDi7lDuc++S8sf2uPq2/ff/9QHhA64FUgfOCCgKggsQDbMOvA9oD7gNfgtvCXAHFAWZAvYAtgAgAdAAE/9b/JP5T/fV9W71O/bL90b5PfoM+0H8w/3k/jv/NP+t/x8BUwO6BdAHLQmDCcUITAfCBbQEUgRxBMgEHAU6BeIEywPUAS//Zvwa+qr4IvhL+Mb4APll+M/2xPQn84XyzfK980n1bve3+Wf7L/yZ/HL9//4CAV4DVAbcCS0NTg8NEAoQyA8fD9ENUgx0C1MLFgvwCQcIGwZwBJ8CbABU/uz8Cvz8+oL5Jfh791n3E/da9on1JPVV9QD2B/dC+FP5v/lP+TH44/YQ9nv2kPjZ+xX/QQGKAuUDswUmB1UHiwYjBg8H4wiICmoLpgtSCzYKXQh1BjsFtgRdBOMDegMtA2cCkgD7/br7k/oz+sP5APmB+OX4Dfoo+4L7CftD+tf5LvpT+wf99P7QAGECZwOpAxgD9wHNACsAXQBDAWYCSgPEA/MD8AOYA8gCvAH/ANkA8wC8AAcAKf9X/kz9vfsD+vX4C/nh+bP6M/uP+9775fuV+3f7N/zh/dL/egHfAkMEiQVQBpkG5gaNBzoIWwj8B88HRgjuCNkIngfABRgEHQOpAk8CuAHRAMD/p/5p/cT7wPns9+b2n/Zo9tL1UPWZ9ZX2VPdK9yX3Cfgk+nL85f1n/nz+av4x/jL+I/8tAXED5AR2BfoF+AYECGwIKwjWB9cHFAhhCMUIKwkhCUsI8Aa7BeQE7wNyAr4Ag//a/hP+jvyB+rz40fei96z3ffft9jL2yfU29oT3IPlU+vj6i/ub/CP+p//GAJUBcwKVA8kEmgXCBXgFYwUCBicHEAgnCIoHxQYPBh4FrgMKAskAKQDi/4n/9v4l/gj9svuI+v35AvoA+o35+/gD+e35Ofs3/Lj8If3r/S7/ngDLAXACuwIsAwkE6AT8BBkELANZA6UEzgWlBVIE9QI/AtwBOwFyAAAA8//O/0//0f7F/vv+3f48/nr99vyc/Ev8Pvy//H39p/3m/Oj7tvuG/J39Rf6Q/hD/9P/KABsB/gD2AFkBBAKYAt4C6wLwAgUDFAP9AroCcgJSAlMCLgKeAbQA3P98/5D/qf9m/+X+rf4e//P/fgBaANv/o//j/yoA+P9o/wf/G/9N/yH/o/5f/qv+PP96/yj/j/4V/tj9vv3D/QX+iv4e/3P/Z/8h//H+IP+w/1sAywDtAAkBZwHrAR8CugEBAZYA3gC0AZkCEgPaAvgB3AA2AHUASwHyAQACyAHLAfEBtwH4ADoA6v+u/+7+2v1p/SH+Sv+2/x7/Sf7e/av9QP3Q/OP8X/2D/fP8WfyW/KT9vf5t//f/kwDdAHUA3P8SAFEBrQIsA+gCsALnAiYDDgPdAvsCQgMuA6cCMgI4AmkCFwIDAaT/pP4//jT+HP7b/a/95P1V/ln+bv0F/FX7FfyL/UH+s/3i/P386f2M/mf+SP4g/6oAygEBAv8BjwJ6A94DWQN8AhMCZwI4AyAEuwSuBO0D4gIFAlMBdwB+//3+Qf+r/0n/Dv7s/Kf8+PwP/a78SPw8/Gr8ufxc/VP++/62/ub9sP2Y/tj/dACBAN8AzwGKAm8C8QH8AagCLwMIA4UCLQL7AacBTAEtARcBgwB8/9L+DP+h/67/O/8S/2H/Rv8l/tv80fwd/lP/X//i/hf/8v89AHP/o/4C/z4A9ACYAA8ATAALAWoBQwFFAcMBOQIsAv0BRwLFAoUCOwHS/1X/tP8EAMH/R/8P//v+sP5B/hL+L/4z/ur9rf3g/WT+xv7j/vT+E/8b/xL/Wv8eAN0A7gBtADsA2gDCARMCwAGPAfoBigKDAtsBMgH5AAUB7wCfADQAuv8t/63+a/5j/l3+NP78/db91f0S/qL+V/+3/4v/Tv+4/8QAjwFqAcUAoAA7AcwBogEHAbYA1gDxANIA1gApAVMB3AAsABcArgALAYQAnv9M/6D/y/9q/yP/ov9yAGkAMv/H/Uz9xf1Y/oT+lP7m/jz/GP+B/g7+N/7g/p//MwCZANkA9wARAUsBmwHDAZwBUgE0AV0BmwGvAYUBNQHkAK0AjQBdAPr/ff8//2H/g/8U/xf+UP19/XP+Uv+E/1P/Vv+W/6f/bv9j/+X/oQD3ANcA1QBIAb0BjgHXAGoAwwBeAWYBywBTAIgA/gDeAAgASf9k/yUAqQBpALv/Pv8W//b+vP6o/un+RP9j/1j/ev/N/+f/iv8a/yX/l//d/73/u/9PABEBJgFoALD/x/9sAMkAoQCOAAIBjAFrAZgA0/+p/9n/1/+V/3f/rf/i/7r/Tf8C/w//T/9//4H/SP/T/lD+Iv6N/lH/0f/F/53/+//WAGkBJwGAAGYAHwHqAQECjwFYAZMBrAFBAdEA/wCDAWwBfQCb/5v/HAAfAHz/Dv9c/9L/qv8V/93+Gv8Q/2/+8f1U/if/Vv+w/jf+t/66/zMA2v9U/0T/qv86ALgA7wCzAEQASgATAfsBHAJ5AfIACgE3AcUA7v+C/7j/+//q/9v/HABDAMX/9v7A/lr/6P+w/xv/GP+2/xcArv8H/wP/pf8iAPD/a/9a/wQA8wBtASoBkgBXALgANwErAZkAMwBxAOkA4wBdAPj/BAAMAKr/Rf+I/0MAfwDK/+r+3v6U/xYA1/9Q/y//bf+G/03/H/8//3H/Wv8K//D+V/8WALAAuQAsAIn/g/9WAHEB7wFzAXkAxv+7/zQA5gB5AYkB2gDK/zD/jP9mAMEANwBj/x7/e//P/5v/J/8d/6f/OwA9ALj/SP9d/8H/7/+7/4L/pv8NAFIATQAxADAAMAAOAOv/EAB9ANwA6gDHAL0A3wAAAfEArgBPAPX/v/+x/6D/aP87/3//PgDiANQAQQDp/yIAaQAbAGL/+P4e/1T/If/F/sv+NP93/0z/Dv8i/2n/g/94/6//SADYAPUAwgCzAOAA2gBHAHn/Nv/a/9oAOAGJAGj/2f46/+//MADq/6v/yf/9/+3/v//d/z0AXAAIAL//DgC/ABkB2wCNALoANAFRAdUAOgAYAH8A9wAKAaUAGwDS/+z/HgADAJj/S/9s/7j/rf9E/wb/Sf+q/5j/J//5/lf/yv/F/2f/Pf99/9P/9v8CACAAKgDu/6D/rv8dAGoAMwC7/5v/BACQAMYAnABbADwAPQBDAEYAUABfAF0APAAPAAMALwBqAGMA9f9d//3+8/4Q/yj/Sv+V/+v/EAD0/8X/qP+a/5f/uP8GAE8AaAB2AMIAOwFiAekANwACAHYADQE1AfYAtACOAEYAx/9p/4f/+P8xAOj/Yf8Q/xb/RP9w/53/0f/u/+P/3P8UAHQAogBxACQACwAKALr/Jv/4/rX/6QCAAfYA8f9p/4X/rv+L/3j/0f89ABcAYP/U/vb+gf/d/+H/zP++/5r/df+b/xEAXgAsAN7/GgDQADcB1AAtABsApgD8AJIA2P+e/wYAcgBeAAAA6/9PAMEAwQBEALP/d/+T/7//xP+8/9v/HQBJAEAAIAALAOT/i/81/03/6P+HAKMARQDr/9j/1P+m/3z/pf8QAFUARQAeACwAXQBrAEQAFwAEAO//uf9z/07/U/9j/2T/Zv+D/7X/2v/i/+b/BgA8AFcARwA6AF4AhQBUANz/uv9JAPUA2QAWAN7/zQDIAUMBi/+q/r7/TwEuAXT/Xv4x/34AQQC+/v390v7d/8T/Iv9a/1EArwAaAMT/egBFAesA5v+9/7YAbQH0ACoARwDvANkA4/9Z//H/tAB/ALb/mv9NAKMA8/8V/xn/xP8NAKz/UP9e/2L/+v6e/u7+n//S/13/CP9q/wcAAwBM/67+zv6J/1IA1QAYAToBSQE8Af0AkQBBAGgA5wAaAZwA//80ADUBygEDAYT/yv5L//X/v/8L//D+l/8IAKP/Ef9A/wMASwCz/xj/Xf8sAHQA5f9e/7n/qgAuAd8AWgBSAKgAxQCFAGAAqAD/AN0AUgD4/xUAPAD+/5f/pP8tAIIAHQBh/xb/Yf+s/4b/OP9D/53/z/+n/3H/Z/9f/yX/6f72/jT/T/9Q/6b/ZwACAe0AZwAmAFsAgwBCAPP/EwBrAGIA8f/E/zIAoQBOAHT/Dv+M/0sAiQBnAIMA3gDOABAAX/+I/0cAlwAYAI3/xv94AKkADgB6/7D/XQCMAAIAi//n/8wAUgEdAakAewB8AE8AAwD5/0EAbgA7APH/+/80ABgAjf8V/x3/YP9h/zL/VP/L/+//W/+z/un+4f9lALb/m/51/oH/lgCyACAA2P8cAFMAIQD6/10A+gAPAXcA5P/z/3EAtQBxAOL/Z/8r/zn/hv/a/+f/rP+L/9D/QwBqAC8A+/8bAGUAfABUACYAEQAKABIAOQBhAEoAAQDw/0oAnABbALr/iv8hAM0AtgAFAKT/AQCQAKQAUgAdAB4A/f+t/6L/HwC0ALwALACB/wz/xf65/jH/FwCwAFkAdv8d/7j/ewBtAK//Rv/F/5wA4wB3APX/3/8PAB0A5f+V/1r/Rv9l/73/IgA9AOf/WP/9/hX/gf/p/wsA6v/L/wAAhgDuALcA5f8k/yf/6/+9AAYB2wC4AMsA1wCqAHYAegCWAHMAGQD7/1MAtQCQAPz/rv8GAH8AUQCD//P+RP8UAH0AHwB7/zP/Yf+m/8P/x//R/9n/1P/X/wAAPABQABcArP9W/1X/sv8yAH8AawAkAAAAHQA/ACMA2f+p/7z/7P8DAPP/1//E/8X/4f8IAAQAtP9P/0D/pf8iAEQACgDR/9j/DQBLAIIAkQA4AID/9f4h/8z/IgDG/1b/pv+cAFEBQwHqAPIAPgEuAaAAMwBgANMA5wCWAGwArwDwAKkA+f99/4j/yP+5/0D/uv6O/sv+M/98/5L/jP+D/2z/Pf8d/0r/uv8EANT/bf94/y0A9AANAXcA8v8NAIcAtQBnAAwADwBUAHYAWQA9AFgAjQCdAHUAOAAPAP//+v/z/+z/5//i/9b/uv+X/33/dP9m/zr/+v7W/vX+Q/+G/57/mv+e/7b/3P8IAD0AbQB7AF0ALwAjAEoAgwCjAKYAsADVAPcA4QCWAFwAfQDjACoBDQGyAH8AmwDLALwAbAAdAP7/AgABAPj/AQAdACcA+f+W/yb/3P7J/tj+3P7C/qT+sP7u/jb/X/9s/3X/dP9R/xz/Gf9x//X/UQBrAHQAjgCkAJcAhACWALoAswB4AFQAfgC/ALUAXAAWACgAXgBXAAwAzf/J/9b/wP+b/6X/3/8JAPz/1//Q/+z/BwATAB8ANAA8AC8AKABCAGoAcQBQADUAQgBfAFYAHQDp//L/LQBgAGIAPQAXAAMAAQAKABcAFQDq/5z/W/9b/5j/2f/t/9r/yf/N/9r/4P/j/97/vv+B/0//Xv+o/+3//P/l/9j/4P/k/93/5f8FABwADQDy/wAANgBdAE4AJAAPABAACwAFACEAVwBpADAA3v/H//P/IAAeAAoAEQAhAAoAzv+u/9L/GABGAFMAXABhAEUABwDb/+7/JgBDAC4ADQAMACUANQAsABkADwAQABYAGgARAPb/1v/K/9j/7//6//r//f/7/+D/sf+V/6b/1f/3/wAABAARABQA8v+8/57/rv/R/+D/1v/H/8P/xv/M/9//BgAxAEgARAAxAB0ADQAAAP3/CQAXABUAAADy////HgAwACcAFwAWAB4AEgDq/8v/3P8SADUAIADw/+b/HABnAIUAYwAoAAkAGAA7AFYAYQBgAFcARwAvABYAAADu/+D/2v/d/+X/7f/y//n/AQAAAO7/1v/R/+3/EwAZAO//sP+J/4j/mP+o/8T/8P8TAAAAuf98/4f/0v8TABEA3v++/9H/9//9/97/v//E/+j/DAAaABgAFgAbACIAKwA7AFMAZgBlAE4AMwAqADgATwBZAE8AOQAiABcAFwAdABgA///c/8j/2P8EAC0AOwAuABsAEQAMAAAA8f/q/+7/8v/q/+D/5f/7/wsA/f/Y/8P/3P8aAFEAXwBFABsA+P/o//H/CgAWAPn/tv97/3b/oP/H/8H/mv98/3j/f/+E/5f/xP/2/wUA8P/g//v/MQBPADsADgDx//L/AQAWADkAYwB2AFwAKQAIAAcACQDw/8z/yP/u/xYAGQABAPT/AAAOAAoABwAgAEkAWgBJADgARwBcAEQAAgDU/+//NQBZADcA+P/Z/+H/8v/9/xEAMgBBACoABgD+/xcAJwASAPD/6P/4//j/2v/A/87/8v/4/9H/pf+g/7f/wf+p/4P/aP9V/0H/O/9b/57/2//y//L/AQAlAEUATABNAF8AdQBqADUA+P/g/+//AAD4/9z/xP+9/8n/6/8lAGcAkgCNAFoAGgDw/+z/BAAaABMA9f/m/wAANwBaAFAALAAUABYAIgAsADsAUQBjAGUAYgBsAHsAcwBMACAADAALAAgA//8DABAACQDg/7j/vP/m////5v+6/6z/wP/P/8L/rf+r/7L/qP+Q/4r/pP+//7j/kv93/4X/r//S/93/3v/o/wAAGgAsAC4AHQD6/9b/y//o/yEAUwBlAGAAWQBJABcAwf97/4X/2/8sADUACQD5/ysAbgB7AFMAKgAZAPv/sv9s/3b/1v83AE4AMAAvAGMAiQBgAAUA0//v/yEAHwDw/9r/AwBAAE4AKQAGAAcAEwD//9H/s/+5/83/1//q/yAAZAB4AD4A7v/V//z/GQDs/47/Tf9Q/3L/e/9p/2H/fP+h/7L/s//F//H/GAAaAAQABAA0AHQAiQBhACUACgAVABsA/f/P/77/1//5/wgAEgAvAFUAVgAgANr/wv/i/xAAHgANAPn/9P/6/wcAGwAvACkA+f+6/5v/t//z/yEALgAoACoAOwBPAFQAQgAVANr/qf+c/7n/6/8QABkACQDv/9z/5P8NAEUAXwA6AOr/qv+i/8X/5v/s/+f/5f/a/7v/nP+h/8j/3v/B/4z/f/+v/+7/CwAOAB4AQQBTADwAHQAoAFQAZwA8APT/zP/U/+n/7v/v////EQAMAPv/BgA7AGgAVQAMANr/9/9HAHgAYgApAAYACQAUAA4A/v/0//L/7v/q//L////4/8z/lP9//6L/6P8iADkAOgA+AE4AYABkAFUAPAAmAB0AIwAwADkAMwAaAPD/wP+T/3T/bv+F/63/zP/I/6X/hP+O/8X///8LAOL/tP+z/+P/GgAwACMACQDx/9v/yf/I/9X/1v+0/4j/iP/L/yMARwAnAPv/+/8kAEIAOgAkACMAMgAwABcABwAYADgAQwA0ACkAMAAyABwAAAAAABYAEgDZ/5T/hf+0/+b/5P/A/7f/3/8OABgABQAAAA4ADADi/6//p//K/+X/0f+s/7b/AQBWAHQAVwAyAC0ANgAcANT/j/+J/8j/EQAlAP//0v/Q//D/AwDw/9P/1//3/wMA5v/L/+3/QQB5AFQA9P+z/7r/0f+t/1X/H/9E/57/2P/a/9r/DgBjAJUAigBpAGQAcgBiAB0Axv+S/43/nf+r/8D/6/8kAE0AVABGAEEATgBdAFYAOQAaABAAJABIAGMAYQA9AAUA0v+6/8L/2f/q/+3/8v8IACMAHwDr/6T/hf+m/+T/AgDu/8n/vv/M/9L/v/+s/7L/yP/Q/8X/xf/j/wYABADb/7v/y//7/x8AIwAiADQASwBEABwA9v/w/wAAAwDq/8X/q/+n/8D/9/83AFAAHgDA/47/yv9UAMIAzQCNAFkAZACTALAApgCLAHQAWgAtAPb/1v/j/wYADgDj/6D/gf+h/9//+v/Z/6b/pf/k/zIAWwBoAIUAtAC0AFUAz/+e//r/hgCqADwAsf+O/9L/AADC/0//Hf9F/2n/M//N/rT+IP+2//j/1/+2/+v/UQB1ACoAw/+1/w0AYgBWAPf/o/+Q/5X/df88/zb/hf/p/wYA2f/C/wcAawBqANz/N/8Z/6T/YQDLANIAyADlAAoB/AC4AG0AMgDw/6D/c/+g/xQAbgBkAAcAqf96/2H/QP8r/1T/uf8QABYA2/+w/9T/OQCjAOoACwEGAckATQC6/1X/Rf9u/5X/mv+N/3//Yv8e/7/+gP6R/uD+MP9k/6P/HgC8ABoB9QB+ACwAQgCLAJsASwDb/53/p//f/zQApQAQASQBswAKAMD/IgDgAFwBVwESAeUAygB3AN//Xv9T/6v/9v/w/8v/3f8rAGAAPgDw/9j/GQB5AKgAnAB7AFsAHgCv/zX/+/4W/1P/dP+A/7b/LQCjALMASwDM/6//DwCSAM0AnwA5ANT/hP9O/z//Zv+i/7j/jf9X/2T/wv8yAHIAigCqANEAvAA/AJP/LP89/4L/m/+A/3f/p//V/7D/Q//2/hr/k/8EADkAQgAwAOb/Xf/q/hz/JwCTAaAC8wLOApMCPwJvAf3/Uf4P/Xz8VPw0/Bn8TPz5/PL97/7e/9sA2gGMArICfAJgApACugJqAq8BHwExAaMBvAETAQIAL//S/pH+Hv6z/dL9lf6B/w8AQAB3AM4A4gBTAFj/nv6I/sf+1/68/gP/AwBJAfgBrwHdACQAnf/c/rH9ofxt/EP9iv6Q/0oAPwG9AloESAUcBSAE4wKvAX4AWP97/hH+4v2E/ej8jPz4/BH+Ff9Q/9D+SP5R/uP+jf8RAJgAYwFdAioDigOJA08D2wIRAv0A8f9G/w3/Cf/9/uj++P5S/+z/kwAJAR0BwAARAFz/9/4K/4H/GgCcAPMAMgFuAZ0BjgEDAef/eP4q/V78I/xT/PD8Qv6PAJcDZwbIB+0GygP1/lD50fN970ftxu0L8bX2OP7mBsEPaxd6HBYeQRySF68QLAjl/jT2mO/s6wHrA+wy7i3xi/R49/z4xPiI94/2xfZd+ED7kf+GBccMIhQOGosdYx63HHkYkhF4CG3+CvWN7aLoq+bo5ybsTfKV+Hb9fwBDAnIDHATmA9YCyQH0AfADPAevCkoNkw5ZDlsMUwhiAkP7A/SV7aro4uXn5RLp+e5h9s79NgQ3CcEMsA7QDjcNgAqRBygFmwP0AiUDBAQkBd4FoAVQBE8CGADd/Y37L/k892/2Rvec+cn8EQABA2gFIAfoB40HFgbVA0kB+v5N/Vf8ufu6+sD4xfV28tPvpO5B77rxDPYX/G8DWAv8Eo4ZRh5PIAYfdBp4E1sLJgNU+yP0CO6n6Vnn4ear51Pp0+sf79DyTPZY+Uj8oP+PA+MHfgyGEfsWIByJHwcgfh3OGN8S4wuWAx76jfBp6Mji7t+k38ThP+bD7Iv0mPwLBD8Ksw4UEYMRsxCJD3YOOw1GC10I0gQmAYj9xfmr9WfxkO3Z6tPpx+q07VPyN/je/sYFRgySEe8UGRZgFU4TIxDQC3cG4ABD/Hf5b/iJ+E75xvoG/aH/wQHWAhIDDQMPA84C1gEFAH79Qfo79s3xI+6u7AzupvFy9hH88wJRCx8UQRvhHo8eHBuSFYQORQZ9/TT1We5P6R7m0uSE5ejnJOs97sXwDfOp9c74TfwFAEMEgQnWD6QW1xxlIa0jgCP9IG0cKRaLDgYGR/069cXuZer+5xnnSudc6C3qjexQ73nyLPZ7+kb/XwSwCRMP9BNNF0AYxRakE6cPzwqHBJb85fMh7Krm3uNd48vkKOhq7QX0Avt/AQ4HnwsvD74RXRMxFDgUQRMuEUUODQvYB3UEiQAt/CP4T/Ue9GX0yvUa+Cz7mf7GAUAE9AX2BioHRgYbBKYA4vu59ZHu7ecq5Cfl5uqn82H9JQfqEDsaaCFoJG4ihxyRFOEL+wJh+hvzNu7f61Hrvevw7OPu5/C58bLwvu7B7ffuG/I39iT7zQHiCoIVdR+4JqkqqSv0KTolYh1dE90IR/8V90XwIOst6Gbnzuca6NDnleda6FXq+OzQ7zfzDvjM/vcGZQ/hFoIcnR+6H70cEhd/D8gGj/199HLsX+bg4grimuND58Dsl/Pr+rIBGwfnCmcNMQ/AECcS/hKrEt8Q8Q22CtgHXgXIAsn/wfyG+qf57/mw+nP7SPxz/eH+DABmANX/uf6C/Uf8w/qi+OL19/Kr8M7v3vDZ81L4wv3PA0MKwRCGFn0atBvXGWAVYA/6COQCMP2X9wzyI+3R6aHoHekY6rjqOuuj7J7vuvPi94r7RP8dBHAKbhHaFwAd4yCTI6IkXiOGH5EZRxJBCvoBLfrI80XvJ+xl6X/mGuRb47HkU+cP6oHsY++187D5lwBvB68NLxOqF4AaDxsnGRsVbA+PCAcBkPn78s/tJerz52zn9ui67C/yO/jW/Z8C4AYRC0QP9xJWFcEVLRQhEWYNjAm7BeIBHP72+jT5T/kT+6v9HAC/AXECZgLZAdAAMP/u/Fb6APh89t/1lPXI9CPzMvEe8NjwefNq9xD8VAFqBykOnRRhGW0brBrfF/QTZg8eCtADg/zf9A/uRuki50vnqugb6i/rZOyW7ibyiPa3+iX+SAE8BboKYhHkF/kcNiAGIu4i1SIHId0caRaIDmkG9P6N+CbzeO426jjmq+IQ4OjeXd8g4dDjdOeD7GPzvftnBAoM6hEkFi0ZFhtVGzgZmBQgDvoGLAAy+hP1xPB57afrseud7fvwHfVu+aL9sQGqBYUJAw2wDwcRuhD+DoQMBwrFB10FWQL4/lL8mfsT/cr/VwL4A+4EyQV7BjcGKgRcAL77fPc/9BHypPCp7+3ua+5x7qHvf/Lm9u37kgCQBIMIFA0EEgwWzhfnFicUvxBQDaYJOAXS/975JfRy70HspOpF6qjqguvs7DbvcPIx9t/5Nf2GAGUEBgkADqESexaaGTUcOx4rH24ewxt2FzISlQznBhIB3vpN9MjtB+ix4wvh6N/23xDhZOMv52jsi/LN+Hr+UgOCB08LuA5OEYgSMhKhEGoO4QveCBQFnAA7/PH4TPcQ9433Sfhe+Tr7Ev6HAdYESwelCBwJGwnkCF0IJAfkBLkBVv6++8b6ovvo/eoAGAQlB9YJygtqDCMLyQfYAk79MPjx81rw/uz56SfolOh/6wHwrfS/+KX8YgFeB8MN9xK1FcoV+BNJEXgOugvWCGcFRQHY/BH5xfbU9Qv1//Ji74HrU+nl6Zjs3+/B8qf1xvnO/yUHUQ4VFCcYCRtMHfUedB8sHgMboBYNEg4OlgriBiICPvz69V3w6utb6CTlN+JF4EXgoOLQ5rXrVfBx9IH4Iv1sAqwHwgvkDS8OmQ0qDTINGA37C40JZAZ4A04Bo//c/cv7B/p++av6Lf0JAGgCGwSGBQoHfwgsCUQIkAW5AfX9YPtq+tP6C/y//f3/9gKHBvgJMQxMDCIKbAZHAnT+4/rv9jDyOe2L6bDoJOvw71H17/me/R0BGAVUCbEMDQ4wDQUL7gjDB0cHiwbVBE0C3P9Z/sX9RP3L+wr5rvXo8o3xmfFe8jjzKvTs9VD5iP7NBL4KPQ8iEisULxZDGJEZDBlkFmISSQ7dCusHsQTCAHH8fPhV9cryUfCl7RfrPOlr6H7oHekp6uzrzu7i8qv3W/xOAFsDxQXaB6IJ1AoaC2YKDwmpB7UGXQZoBnMGPwboBdkFcwayBw0JugkyCYAHLQXOAp4AdP4d/Lz50/f89ov3afk0/HT/uwKiBcUH1AisCFcH9QSpAaj9VvlN9S/yX/Dj74bwKfLn9On4//1uAyQIOAtkDAUMvQoCCekGWgRkAWr+BPyu+on6P/sj/Hn8w/v6+Zf3UPW08+3y0fI88130qPZ0+p3/egU4C0wQjRT9F3YaoxtLG5EZ8hbqE6QQ/QzXCG0EQgDD/PP5bffI9P3xau+D7Wbswusd6zzqZ+k+6VXq3uyM8Mr0CvkG/bkAKwQ2B4EJsgrBChMKSwnXCLgInwhYCBQISgg8CZkKowu8C+MKnglqCDMHZQWMAvD+kftt+cD45vj2+J74XPgA+eH6hv0KAMsBugIYA+sCywFK/4n7b/dA9OfyjfPK9S35lv0HAyUJ5w7cEuATvhFNDekHqwL3/aL5fPXR8WXv9e6Z8Ivzjfac+HH5cvko+cL4Efj59uX1yvWe97r7ogFbCAMPHBVzGsUelyFrIg4hvR35GEcTHA35Bn0BQ/2H+vr47/fH9kr1n/P58U3wX+4L7IfpU+f45cPlxub96Gns+PBb9vn7IwFZBXMIhgqvC/gLbwtJCvEI5QeDB+QH5AhBCroLHw1KDhgPUg+yDu8M7AneBVUBDP2j+WL3QPYX9tH2aPi/+oD9HAD2AYgCeQGx/nf6jvUn8X7uVO6o8OX0XPqlAH8HXQ4iFHgXkRe7FDEQQwuABqMBPfyC9n3xau7X7UbvlvHJ83L1ivb+9oP28fS78gPxCPFf85j3nPyDASsGIwsGEcMXbB6kI04mCSYrI2YeYhieEZUK7gNz/sL68Phu+ET4m/cV9tvzQ/GB7orrTugI5U3i2uA84Zvjw+dN7b7zh/oQAcgGRgtcDgIQPhAoDw4NjAptCFEHWwc6CHMJxQo5DNMNQQ/TD90ONAxUCBgEOwAP/Zb6zvjg9wP4OPki+yL9mP4Y/3n+xvw0+ib3I/TH8Z/wEfFR82D38fxgA7gJ9w5gErITIxMYEeoN0An1BKH/Q/pi9YPxCe8k7rnuYfCG8pj0PPZJ96z3Vfda9jP1y/Qe9pn5s/4pBNQIcgy/D7sTrRixHTMh8iHJH6AbthbVERgNTQh5AxH/rvub+ZP45vfi9in1wfLr7+rs5enz5kPkMuJF4fnhhuS66BDu8/P3+e//tgUCC1sPTxK+E/YTfBO2Er8RhRALD5sNnQxIDGQMaAzSC34KrAizBq4EYgKA/w/8kPjG9TL0tfOj80bzb/Kg8arxAfNa9eT38vmK+1H98v9sA/wGrAkTC5YL7AtcDGAMFQsSCOMDvv+e/J/6EPkt99P0l/Iz8e7wbvEl8tXyv/NI9Y73PvrZ/CH/PgGXA3IGvwkkDToQuRKHFKcVKRYaFnkVPRRXEskPvQyECXcGywN+AWD/Ov3m+ln4nPXC8uvvO+3O6qvo0+Zb5YXkruQW5q7oHOzz7/jzM/jC/JUBVwaUCv4NiRBREmoT0ROGE7cSvxHzEG0QABBoD4oOfA1lDEUL7QkiCNQFJQNDADT90/kI9gPyTu6R6zrqS+p763jtL/C78yX4H/0GAiAG+QiKChcL4gr/CV4ICgZTA7sAqf4y/SH8Oft9+iL6Vvrw+nn7d/vQ+uH5N/kl+Zf5Pfrt+tv7dP0DAGcDIAecCoYN1g+nEQETuxOZE3cSZxCvDbYK3QdlBWADtwFHAPj+x/2v/JL7LvpC+Lv1y/LN7w/tterK6G/n6OZ75zfp4Osa76byg/bI+l3/4APXB/kKXA1GD+QQGhKqEn0SzhEAEVQQvw8KDxcOBw0YDF0LpQqiCS8IbAaNBJECLwAQ/TL5CPVJ8YPu2+wo7ErsXu2c7wHzF/cY+17+uABpAsUD0wQ2BYIEpQIQAIP9nPuN+iz6O/qo+oz7+Py7/mwAogE0AkcCJgIDAuABpQFWASEBTgEMAlUD+AS6BnEICQppC20M6QzFDAgM1ApRCZ4HygXhA/QBFQBS/rr8Wvs6+l/5vfg2+Kf3+fYt9lb1h/TI8wrzMPIk8fPv1+447oruHfD28tX2UfsTAOEEkQndDVkRmBNnFPAToRLyECwPZg2zC0cKYgkiCWIJzAkMCgQKxQlRCW8IuQbnAw0ApftN93vzVvDa7QrsEesj61Hsdu5F8XL0zvcy+2j+JgEvA2wE8gTwBIUEsgN4AvUAcP9A/qD9mf0P/uL++/9JAaoC8QPqBHIFhAUuBXoEdgNOAk4BvwDNAG4BbgKKA58ErgW3BpcHHAghCKcH0QbGBZcEOAOnAQUAhP5O/WT8ovvm+jD6m/k4+fP4mPj39xX3PPbJ9eH1Y/YL96z3S/gh+Vv65fuD/QT/XACdAecCQQSKBZYGaQceCLMICwkPCaoI3wfqBiMGqAVaBRoF2gSDBAwEjQMbA6MCAgImAQoAvP5s/VL8hPvx+nn6BvqZ+U75RvmL+Q/6uPpr+xP8qvwo/YT9wf39/VX+0P5c/9T/GwA7AFgAjwDjAE0BuQEIAjcCYAKOAq0CqgKQAm8CTgIwAg4C3wG7AcwBIgKcAgYDMgMRA88CoQKFAkECtwH2ABwAX//6/t7+rf4u/or9AP2d/Ff8L/wf/Cv8cPwB/b39W/61/uH+Ff90//L/cADWABEBJwFQAbMBIQJQAkECEQK1ASwBtABwADkA///q/+n/t/9Q/+3+jv4m/u/9IP6E/t3+SP/m/4gAAwFtAcgB6gHOAacBiQFhATIBFwEHAecAwAC7AOAAEwE5AU4BQAH5AIYAGwDS/5H/S/8P/+f+yP6x/qn+qf6y/tj+F/9G/0v/L////sP+i/5V/g/+w/2S/YD9kv3j/W7+9f5o//b/lQD6AB4BPQFaAVoBZQGRAY8BLwHGAJkAgQBjAGcAegBTAAoAAgBGAIgAowCgAH4ARgAgACAALAAwADEAPQBhAKoACQFiAaYB0AHcAdcBwwF9Ae4AOwCe/y3/5P67/pn+XP4F/q79cv1z/cb9Rf6r/uf+Gf9O/3r/mv+m/4b/Q/8W/y7/h//z/0EAYgB3AKoA+gBMAYQBiwFcASgBEAHrAJoATQAyACgAGAAnAFsAdwBwAH4AtAD1AC8BVgFCAe4AhgAgALj/Yv8x/xL/9v7u/u/+2f7F/uT+KP9n/57/w/+5/6b/2f9IAJQAjABHAO3/r/+7//D/BwACAAkAAwDc/83//P8uAD0AUABwAGoARQA/AFUATwAyACsAOAA+AE0AcQCJAHoAXwBjAIIAjwBvADkACADa/6P/cP9G/xP/1P6i/pf+wP4b/3z/pv+h/6X/vf/I/8r/z/+3/4P/ef+p/8r/xv/W//T/8f/z/zEAbwBpAFkAcgB7AE0AGgD1/8T/pf+7/9b/2/8MAHMAsgCwAMEA9AAOARYBLwEnAcoAVwAOANf/mf94/3n/ev+G/8D/EgBNAG8AlAC+ANsA1QCeAFAAGwAKAP//5v/L/7b/oP+H/3//nP/F/8r/qf+g/8j/7f/x/+b/wf9m/w3/Av8c/wz/8/4V/0r/Z/+Z/+z/GQAZAEUArwADARgBDgEGARgBVwGRAYABQgEfARUBCAELARkB9gCYADcA7P+t/4z/kf+M/2T/QP8y/yb/Gv8M/93+mv6C/qn+7/5Y/+n/XACHALAA/gAbAdUAgwBeADAA1/+L/3L/ev+e/+D/KQBdAHkAgAB2AGAAOAAGAOf/1f+l/1X/If8U/wH/9f4n/4b/zf/z/xUAJAANAPL/9v8YAFAAiwCdAIUAegCPAJsAjwCIAI0AhABrAFIAPQAyADIAKgAQAO3/v/+L/2//Zv8+/wb/B/8r/x3/CP9D/4X/aP9O/7D/KAA5ADsAgwCwAJIAmgDnAAUB8QAVAVsBWQErASgBJQHcAIUAZwBmAGAAZABuAFQADQCu/0v/A//p/tr+sv6H/oX+sP70/jj/YP9p/3v/rv/c/+X/4f/n/+X/zv/J//T/JQAfAPf/+f8nAEAAQgBVAFkAGgDm/xUATgAeANP/yf+m/0T/Qf/N/yQABwAsAK8AywBsAE0AcgBGAO3/5f/u/7L/rP8pAIQASAD8/xMAPgBMAH8AzQDGAGIAEwAOABMA9f/Q/73/pP99/3X/nv++/6v/pP/X//3/5f/h/xoALQDn/7j/4v8IAOz/1f/4/yUAPABUAHEAdwBiADsACwDd/7L/jP+B/5z/qf+H/3L/jP+Z/3r/dP+d/6P/ev+A/87/AgDs/8T/wf/U/+f//f8jAFkAggCHAHYAZgBOADUAQwBuAHcAVQA6ACsAEwAPACsALAD+/97/1f+8/6n/uf++/7X/+P90AJMAYAB9ANMAsAA+ADwAhQB1ADcARQBOAPH/pf/O//v/2P/P/xMAPAAcAAkAIgArABYABADj/5v/Wf9T/33/of+g/3P/N/80/47/+P8AALf/mf+//8H/jP+N/93/EgAaAFUAsAC1AIQAmwDHAIoAMgBUAK0AoABWAE0AbABbADEAJQAYAOH/pv+l/9f/7v+w/2H/b/+1/7f/kv/V/2gArACRAHAAPQDm/+L/WwCkAFgAFwBiAMwA4wDTAMkAqAB2AGEAWQAxAPP/t/98/07/PP86/0L/Zv+S/5b/ff99/6f/4f8SACAAAwDe/9P/zP+0/7D/1v/1/+b/x//E/+v/OQCFAIgANQDl/+7/LgA5APP/rf+v/9P/3//z/y8AUQAvACMAUgBEANL/mv/h/w0A1v+8/+P/2f+0//b/XQBBANv/0f/0/8b/if+5/xkAOAAvAD4AUwBWAGQAjwDFAOsA6wC9AHsATQBOAIMAvgCkACUAuf+7/+z/6/++/4T/O/8C/xz/c/+r/6X/lf+s/97/+//j/7P/pf+2/7z/v//b/+r/1P/J/9j/sf9h/2v/3/8tACkARACJAIMAOAA2AIwAtgCHAFYASAAwABMAIgA2APv/m/+f/xUAfACPAH8AXwAIALD/rf+8/3D/Ef8s/5L/yP/h/woAAQC//7v/+f8BAPz/ZwDfAKYAFgD//0AATgBQAIQAgwAmAAEARQBlACQA7f/f/7H/X/8l/wb/8P75/hb/Ev/u/tf+2v4E/3X/AABHAGQAxQBHAU8B5gC8APMA9QCVAFMAUgAhALv/qP/v//v/zv/4/00ACABY/0D/zf8RANT/s/+6/37/S/+s/z0ATwAYABoAHwDK/1n/N/9t/9//XwCJAD4A9v8PAEwAYgBwAJcAwgDzACMBCAF6AOr/yf/j/8D/a/9S/5f/8P8dACQADAC8/1P/Qv+j//T/2/+n/5//i/9W/2f/0/8VAPL/zP/e//z/FAAmAP7/mf9q/7T/FAAaANT/jP95/7j/FwAnAOP/4f9dANAAwgBwADoAHQATAEYAoADBAJ0AowDvAPwAdgDM/4j/n//O/yUAmAC5AGgAJgBOAJAAoQCyANoA1gCkAJcAugCoACwAjf83/1L/kv+F/yH/2P7m/hL/OP9n/4D/df+s/1QAyQCBAPj/zf/U/9X/JAC8AOsAbgDX/3//N/8e/5f/YQDFAKQAfACIAI4AcQA4ANb/Tv/7/jL/xv9GAJQA1wD3ALMAMADf/8z/mv9D/yL/U/+U/8H/3P+1/zz/0P62/pz+PP4G/of+nP+nAD4BRQHHABsA2v9BANwAIQEbARsBFQHFAFIAEwD//+H/1v8IADYAPQCCAB0BbAELAXYAGgC6/1L/b/8xAO4AJwHtAFYAaf+V/lD+cv6W/sj+QP/T/xoA8f+V/2z/r/82AKUAzACtAFkADgAbAHQAuQDZACsBtgEBAtIBdAEVAX4Anv/K/kX+D/4y/sb+if/s/7T/Mv+1/lD+Qf7w/j4AVAGSATgB3QC+AMwA5ACyAAAAG/+P/nr+k/6l/qb+m/6q/gz/u/93ACUBxQErAjgCFgLZAVABbACU/zf/Yv/f/2oAqgByACEASADvAGsBHgElABn/Z/4a/iD+b/7f/kT/nP/3/zcAPgAbANb/Tv+g/lD+uv6y/8QAjAHPAaIBVQERAbQASgAlAFgAmADAAOAA2QCMADUA+P9o/yz+t/yz+zL7D/uN+938c/55/7X/fv8+/1P//v8HAc4BKQK6AgUEkgVnBh8GFwXVA6oCtgHgAAEAPv8M/6v/2AD6AX0CCQKmALj+0fyD+zv73/vW/Kv9hf6R/4MA3ABqADr/lv0v/K77CPy0/Gj9Cv4s/mb9HPxO+6z7Nf1l/4gBOAPDBLsGAgmoCtsKnQmjB9kF8wQABVkFJgUGBB4Cx/9w/X778flU+FD2RfQD8wbzHPSq9Qz37/ef+Lj5bftY/Rn/1wDrAl8FAQiXCusMvg7dDycQmg9gDs0MDgsVCcwGYgQyAmgAxv7R/FL6oPdm9Q70g/Nk81bzM/MT8ynznfOH9O71svd/+QH7OvyH/Ur/hAHLA7IFNwetCEUKuguUDJ8MIQyhC2gLJQs4CmQIHgYnBP8CnQJiAlIBvv7u+h/3xfSk9Fz2ovgw+tv6mftj/QYAMAKbAikBFP8L/uj+AAHBAgIDxwH1/2v+Yf1h/MX6bfgS9uf0tPUn+Or6f/xg/Gv7L/ua/Dz/0QFyA1wEmAXaB7UK6Ax4DYkMQAvcCtwLvQ10DyMQlw80DnkMigoLCH4E4f8B+wn3pfRz80fyIPAK7R/qlOi16NPpGutY7AbuqfA69BP4bfv9/RYARQLKBIUHIQpJDMMNjQ7gDgYPJA8zDyEP9Q7IDpwOPQ5NDZkLUQnrBswEDwOXATQArv6Q/Dv5bPTd7kzqhegx6lruIfMO9+b5UvzD/r4ARwH8/8T9dfye/WYBXQZaCssLhQqaB2oExgGs/9b9bfwa/Ff9lP8xAYMANv2/+HX18/Qi96X6IP4mARUELwf4CXQLAQsBCcMGtQWVBg4J/AsXDp8OmA2SCyEJeAZ9Az4AO/02+4X6l/ov+jv4nfQ08EjsvunO6DLplOq97IHvnfKm9TD49vkS+w38uf28AA0F0wnaDVsQdhHjEUESlxKBEsQRnBB5D3oORg13CxsJuAbMBFED0wHu/8n98fvW+lr68Pkj+fn34/Y59s719/QS8zbwe+197FLuq/Lc9/n7MP5C/6cADwOzBSsH+wZSBhoHHgoFDj0Q/A6yCo4FvQHu/0r/m/5w/Tn8gvs7+7P6RvkG99v0BvRO9X74ePzl/woCIwMEBE4F7gZeCFMJGgo2C7MM6g0NDu8MMguhCXQIQAeOBXMDbgHK/zP+Afzx+Hr1cfJk8Efvt+5c7h/uCO4t7rHuxu+N8efzhfYo+dr7xf7eAcIECwe0CCoK4QvrDfAPlhHEEoATohPHErYQxg3CClwIrgZJBbcD3AHz/zT+pfwu+8n5k/im9w/33/Yx9wv4LfkQ+jr6hvkt+ID2v/Qx81/yAfN49Vv5gf2uAFQCywLfAjcDCgREBc8GowijCnIMeg0iDSILvAfPA4AAqv5e/tv+H/+V/ln91Ps0+lz4Xfbk9P70OPf5+rz+JAHvAQICiQIEBBMG/AdXCUMKBQucC6wL2AokCRUHagWkBKcEygQ8BIsC5v/n/B76wvfE9ST0E/O28tfy4/Je8lTxZ/BJ8D/xDPNN9df3oPpq/a//+QBsAdsBOwPsBW4Jygw8D4oQ4xCIEKIPYA4NDfwLUQviCloKbgn2B+AFLAMHAOb8avoL+cj4KPmJ+YP5CvlO+Ir3+vbi9oj3/Pjo+of88/yf+7/4ZPUi81zzd/Z9+4sA6AMPBdQEjgT0BLUFJgY3BrIGXgjtCtkMewxoCd4E1wCe/h7+Xv6B/kz+7f1m/V38efrv96X1yPQU9kb5H/0RACYBmACY/2n/fgBeAk8EIQY1CMQKOQ1uDqQNOgtbCPcFDAQRAuX/Ov7l/cX+kP/L/iT8yPhu9u31svZ493f39vbL9mb3UPiI+G73afXI8+DzGvak+QT9M/9FACMBmgKfBIcG3Qf/CMQKfg1gEP0RdBEvD4wMuwr0CZQJ5Ai0Bz0GqQTNAmgAkP3W+vX4VvjJ+KD5Fvq2+ZT4Pfdk9oL2l/c9+dz65Pvo+7f6g/gB9j/0L/Qb9nf5M/1UAGECYQOiA3wDSwNuA0AE7gVaCAwLSA0+Dl8NugoiB94D+QGyAWoCKwNBA3UC4wCx/hH8b/l999v2tPeT+ab7Mf3Z/bX9L/3X/C/9cf5sAKkCsAQ9BjEHWgd4BpAEPQKMAFMAigFEA0oE8QNjAlAAV/60/Gj7ffoi+nr6Wvs5/Gv8jPvN+ev3zvb99lP4J/rR+xH9AP61/gL/p/7R/UT99v1FAJEDlgZPCKEIRQgUCFwIywjkCJAINwhcCBEJxwmtCUcI3AVFA1gBXADz/4T/u/61/cL8Cvxs+7L60Pn7+Hz4efje+G/57fk3+kz6Ofrz+Uv5FPh29iH1DvXS9hX6qP1XALwBZAImA1QEjwVjBusGxgdwCZ0LUQ2lDXwMfwqLCBIH+AXuBNYD0wIPAnIBlwAJ/6b84fmo99L2hfcA+R36LPpx+dD48fi3+Yb6CPuU+9b8BP+GAWUDGATWA0MDzAJuAv8BkgF9Af4B9ALlA1kEIwRpA3kCowEbAeoA5wDMAGYAwP8V/5P+JP6L/an8r/sB+9/6L/uQ+6z7dfsY+9H6yPoT+837Dv3N/s0ArAIaBAsFsAVOBg0H6QfJCJUJNAqDCk4KegkwCNMGxAUXBYsExQOkAkgB2f9I/mH8Jfr492/21/Xq9Q32zvU89cT0vvQh9aL1CvZ49kL3p/iF+ln8jv3z/fb9cP4LAKkCZAU4B9cH6AdhCJAJ0go8C6AK0wnfCfwKQQx8DEMLQgl7B1oGbwUNBAQCzP8E/uP8GPwh+7f59/dK9iP1vfT19F/1lfWQ9bT1cfbK90H5T/rt+p374/y2/oQAyAGQAmADmQQFBgUHMwfKBm4GmAY0B7oHpgffBsEF0ARWBDEE6wMdA9EBgwC+/5H/b/+m/gr9MPvv+Z750/nd+X35HPlR+Tr6W/sR/C/8HPxq/Fb9qP77/wkB0gF7AisD5AOGBOUE+QTpBPYEOAWGBYoFGAViBMYDbAMYA3UCggGdACEAAQDN/yX/Hf4t/bn8tPzD/Kn8fvx4/Jf8rfyW/GP8QvxO/Hr8svz+/Hr9Gv6Z/r3+ov6h/u3+Wv+Y/5H/i//p/8gA2wGpAvsCBQMYA0sDgAOjA8AD7gMnBFQEYgRTBD0ELAQBBIUDqQKhAbUADACb/0H/0/42/nv91Pxp/DH8CPzU+5T7Yvto+7j7LPyD/Kv80vwn/av9N/6q/gL/ZP8HAPsA+QGaArQCfgJUAnQC3QJeA7gD1wPkAwUEHwT5A4gD/AJ5AvkBYQGxAAwArP+q/87/q/8R/1D+1f2u/ZP9Q/3H/FH8D/wA/AH89vvz+x38VvxR/P37u/v9+8P8r/1w/v/+jf9HAB8B0gE5ApQCSQNeBGkFDQZMBlwGUQYgBsgFWwX0BKwEdAQZBH8DzAIrAnoBdAAs/xT+fv1N/ST9wfwj/IP7Gvvg+pX6Kvry+UL67/qC+8H72PsN/Hz8Dv2Y/fH9K/6E/iP/6v+3AJEBcAIcA3kDwgNIBA8F0QVOBncGdQaYBgoHfgdcB10G1gRNAwYCBQEtAEz/OP4T/TP8wPt8+xP7Yfp/+bv4hvgZ+SL6C/uU+/37ifw2/d79bf7a/jX/sf9tAEIB+QGUAiwDqwPfA9gDygPHA7gDoQOWA4gDWwMRA7cCPwKvATIB2wCCAA0Asf+i/7X/l/87/9L+hv5i/ln+M/7D/Tb9A/1U/c79D/4W/hb+G/4b/hn+D/7w/dj9Af54/hj/2P/GAKwBIAIGArgBmQHDASYCrAIpA30DvQMDBBkEswPkAhUChAEgAdkArgCJAFIAGQDz/7n/Rv/K/of+a/4v/sP9TP3k/Jb8evyD/Hj8TPxQ/L78T/2W/Y79hf23/Sv+xP40/y7/0v6p/gL/o/81ALgASQHeAW4CFAPXA4cECAVyBdwFQQa1BkcHpwdUB0gGBgX0A/gC3wGtAIP/ev6o/QH9Ofwm+xj6ffk9+en4bvgx+H74Ofkk+g770Ptn/AH9sf0+/o3+9v7V//UA3QF2AgQDoAMiBF8ESgTsA5ADqAM/BNsEGAUdBS4FJAW7BP8DMgN0AtYBbAEdAakACwCC/xn/hv6m/b38/vtS+6r6OvoV+gv6//kF+iP6Qvp/+gv70fuF/Cv9Dv42/1wAYAFnAnADRQTdBFUFrwXYBfMFHgYkBsMFLgXIBJQERgTHAzkDowIAAnsBMgHvAHcA3f9J/5z+vv3p/Fb82/tB+6r6Uvoz+i76UfqY+sn60Prw+k/7vPsO/Gf82vw7/Yf9Dv7z/uz/swBOAdkBVQLoAsYDygSVBSUG3gbjB9sIcAmVCUcJgQh1B2gGSQXdA0AC0gCj/3r+T/1W/Jb76/pY+vL5k/kb+dX4GfnD+Wb66fp8+yj80fxy/fj9JP7w/db9Qv4U//D/yQCxAXwC9AIoAzQDBAOgAlICSwJqAqYCNgMRBLcEvQRDBJcD1wIkArUBiAFaARcB7ADHAEIAMv/W/Wj8/PrU+Uv5Ufl4+ZL52vlu+h77v/tI/Kz8//yv/RD/wwARAs4CZAMaBM0ETwWJBWwFDwXUBPMEKwU0BTwFhAXFBX8FsAS+A/ECVwL0AagBMAGMABIA2P9j/0b+tvwo+8v5rvgF+Ob3E/hS+KT4//g/+Xj5Bfry+tz7kvxX/Vr+Yf8mAKAAywCdAFMAWQDLAGwBKwIkAzQEBwWfBVUGPwcXCLIIIwloCWoJQQkDCW0ILAdjBYEDqgHN/xL+uPyq+6H6oPnX+Ev46/fS9wT4PvhY+Kf4ePmM+mb75/s3/Gn8lfz0/JP9Mv66/nD/eQCNAWQCEgOvAwsEDwQABCoElgQ4BQgGvwb2BroGhwaNBnEG3AXsBOUD5wIOAmUBrgCc/0v+Ff38+7j6Xflj+AH49vf19+337Pcb+Mb46/kB+4b7w/t0/Nv9j/8RAR4CpQLTAg8DigP9AycEPgSXBCMFowUVBogGxQaSBgsGdgXvBIQETAQfBJIDjgKHAd8AYgCs/6P+a/0q/Bv7ePog+qz5C/mg+Kj46vgt+YD5+vmW+l/7avyK/Wj+Av+V/xQALADN/1z/N/98/ykAHQEBApkCIwMJBDwFUAYdB9UHmQhTCeQJHgqyCYII7gZlBegDRwKdADb/Gf4Z/SX8PPtM+mj52fi4+Ln4nvif+Av5z/mc+kj7wvv3+wX8Ofyn/BD9Xf3W/bH+w//KALUBewIGA20D7AN9BOUEIgWABRUGmgbLBrAGYAbsBXcFGgWYBKYDZgJNAYoA4f8b/0H+Zv2X/O/7dvvv+i36cPkf+Tj5bfmc+eD5RfrG+mL7BPx4/MH8S/1j/r7/zQBqAeIBgAJVA0EE+AQ+BTYFWgXVBUgGUwYTBtcFrwV5BSAFowQGBGID1wJCAmIBRgBQ/6L+5v3T/In7X/qQ+S35H/kY+dv4kvik+B75r/kk+qz6g/um/Ov9GP/s/0oAYABnAGAASABaANQAlgFXAhcDBQQRBe0FdgbSBjQHtwdnCBoJdwlGCagI1gfLBmQFqAPBAdn/If7K/NH78/oV+mP5/Piw+E346/fC9+j3WfgK+dD5bvrf+lz7+Pt+/Mr8Cf2A/UH+P/9hAIABbgIeA5kD3APwAwwEbwQPBbkFXgYKB5cHxQeMByUHqwYRBmQF0QRdBNUDCQPsAYIA3v4o/Yn7EvrX+An4vvfL9/H3FvhC+Hr42Ph8+Vf6H/u8+3f8mf35/iUA4ABHAZ0BFAK5AmAD1wMoBJ8EYwU6Bs8GCgcTBwoH6gaSBvQFPQW/BJQEZgTIA70CmgGHAFr/+/2L/Cv71vmc+MX3hPep99T31PfG9/H3cvgo+dX5bfok+yr8df3O/v//0wAlARcBDgFIAZgBvQHdAVsCUQNtBFQF7QVYBroGKAehBwcIQwhaCGgIcghQCLQHbgasBOkCbgECAEf+WPzL+gP6xPmQ+TH5w/hp+Cr4C/gZ+Fr40/iH+Wn6Tfv2+0z8bfyb/P/8gP3q/UH+0/7c/zoBhAJsA+0DNwSLBCEF9gW7BikHWQerB0oI7gggCaoIsAd8BjsF6QN2AuwAfP9l/rz9TP2w/J77QPog+Zv4f/hX+BP4Jfjj+AH63vox+zr7XPu++0/8/vy+/Xr+Jv/d/8QAygGhAhgDaAMABPsE8wWEBsUGEweEB8sHpAcvB7EGLQZxBXAEZwORAt4BEwENAOr+0v3M/Mv70frv+Sr5gfgT+Aj4XvjJ+AP5H/l3+T36P/sj/NL8jv2V/sT/sQAgAUkBlwEoAqUCqAJDAg8CnQLQA/EEZgVRBVwF8gW+BhUHswb+BYMFZQVMBdsEAgTsAr0BhgBW/zP+DP3T+6765fmO+XT5WflE+V/5n/nB+br53/mK+pX7d/zq/D396f3s/sv/MABJAHUAzwBDAecB4wIPBPMESQVdBa0FUgbrBhkH3AZtBu8FYgXJBDcEnAPDApcBUwBE/2v+i/2S/Lr7L/vT+nX6Jfob+lz6p/rJ+s/67PpD+9b7j/xG/cz9Ev5D/qX+Uv8ZALMAFAFyAfQBjQIcA58DEwRgBHoEoAQOBZwFzwV6BfoEwgTJBKIEBwQaAyUCUAGaAPf/Tf9y/l79XPzZ+9372vtE+1D6yfki+vT6lfvd+xn8ffzy/Gz9Dv7b/pH/9P8bAE4AqwAUAW4BxQEoAncCjAKDAqYCAQNCAxwDrwJRAh8C/AHoAfwBDwK9AQABZgBqAMYAwwAwAKH/p/8SACYAkv/N/n3+sf7g/qP+Hf6p/WL9Mv0V/RP9D/3g/Jz8i/zS/E/90f1H/qf+4/7+/hn/Xf/Z/4UAUQEqAv8CwANhBNkEHQUXBbwEJwSbA0oDIgPyAq0CaAIVAo0B1wA/APT/y/+B/xn/xv6T/l7+Gv7t/e399P3G/WL9A/3d/Nn8wfyW/Jn87Pxh/cD9D/5v/tP+Ev89/5L/HgChAOkADgFFAY4BvAG1AZcBmAHLARQCSAJbAmACYQJMAgwCrQFTARkB/wDoALgAdwBRAF4AZQATAG7/5f7J/u7+8v7C/pn+nf6u/qr+ov6x/sH+qP52/nj+2f5d/57/kf+Y//X/aQCQAHIAeADJABQB+wCXAE4AWgCZAMUAuQCBAEIAHwAeACUAFQDk/7D/ov+7/8v/pv9n/2X/xP9EAIkAjACbAPAAYAGOAU0B2ACaAL0A9QDSAD8Anv9U/1T/Q//y/pD+b/6g/vP+Lv9A/zf/Jv8e/zP/df/S/xoANwBBAFkAcgBkACgA5f+3/5P/a/9R/2D/jf+z/8P/0/8DAE0AjQCsALsA4wA2AZsB4QHtAc8BsgGtAawBggEmAcsAoACMAEkAyv9e/1H/d/9N/5j+wf1k/af9Ev4l/uD9uf3//YD+yP6e/kD+D/41/o3+6f5O/+j/wQClAUQCeAJkAksCUQJgAkUC3QE8AaIAUABSAG8AaQA/ADcAjgAmAZUBkAEkAZ8ASwBDAH0AzADrAK4ALwDB/5n/kv9q/xr/3P7S/tb+sf5r/j3+PP4//if+F/4+/or+wP7R/vj+YP/e/xwABwDg/+v/KwBvAI0AcwAkAND/2v+YANcBzwLJAtcB2QChACUBmAFTAXoAxf+4/ykAkACWAE0A5/9w/+n+hf6N/gL/fP+P/0D/9f7x/hD/Fv8P/zb/iP+3/5v/f//K/2wA5ADcAIgAUwBXAFMAKgAZAGQA7gBLATABxABwAHgAwADuALsAPQDh/wMAiQDzAOIAbgD1/6P/YP8o/y3/hv/h/87/Uf/r/v/+Y/+s/7X/rv+4/73/uP/a/0QAtwDTAI0APQAsAEkAWgBQAC4A1v8x/4T+W/79/gkA3wAsAQwBvgB1AGoAvQAdAesA7//U/pP+SP///8T/uP7L/Zz97v08/nH+0v50/xEAbQCWALYA1ADpAP4AFQEMAcoAggCHANgACgHPAGcAUwCvABYBJgH7AOsAAgH5AKEAMgD6/wUAHwAlACsAQgBPACIAvf9Z/yn/H/8H/8v+m/60/gn/Sf9D/zD/av/Y//H/bP/G/sX+ff8nABcApf+4/44AXgFdAbsAVgCJAM4AkQAAAMz/OQDTAAABpgAjAOP/DAB1ALcAfwDt/4r/sv8NAPD/Tv/l/kv/DAAyAJD/DP9q/z4AfQDZ/x//IP+1/yMAFADc/9b/9f8FAP7/8P/V/7X/0v9RAN8A9ACIADIAYwDDAKwAGQCx/+D/UgCCAIEAvAAzAVkB1wAUAMD/BgB+ALkAjQD0/wj/O/4p/tH+VP/a/rj9NP36/UD/x/9m/x3/o/+IAPcA5wD4AFYBZwHIAA4AGQDYAFEB5AAeAPL/hAARAQkBsACVAK4AdACw/9r+kv7w/o//BgAuAAkAsf9p/37/3/8BAHr/s/6k/rz/NwHJAQMBx/8+/6b/QwBrAEAATwC5AAsB2AA7AKn/a/9w/5H/xv8VAG8AuQDtAAsB+gCVAOX/OP/s/hr/e/+z/6T/hv+j//z/LgDI/63+Pf0m/CH8sP3DAEIEPwZABdgBm/7e/V//mwDJ/wP+z/3I/6wBKgHi/o39Zf6V/9/+9fzd/AQAFAR2BWADfQCW/6sApgE5AQ0Acf+4/1kA7ABqAakBTwFnAJP/Yf+3/x8AaQCaAHsAs/+H/uP9Uf4h/yn/Qf6T/R/+dv9EAO//J//Y/iH/g//L/0IADgHcATwCCgJPAREAmf6y/Rv+n/8YAZwBaQFiAc4BEgKaAawA/f/V/+3/EQBcAMsA8gB2AJb/5P6V/mj+R/6F/kD/5P+9//z+rf5u/44AxgDG/5r+dv5c/ysA6f/b/jn+4f5cAEQBwQCg/5T/OwERA+wCmABr/sf+TAEqA0oCnP/T/WP+SgCoAbYB+QAuAMP/9f/AAIgBiAHeAJgARgHkAQgBCf/+/R//5QC6AEr+F/x3/Mv+dQATAMf+Sf68/hD/3P7a/oP/HQCt/1/+aP2W/Y/+e/8AAEoAfQCaAMgAWAFRAi4DSgN9AjkBMgDx/5IApAFXAhcCFAEgANj/GQBgAHMAcgBTAMn/3/5T/uT+PAABASwAQP7d/Cz91f5uAMUAxf9c/rD9SP6w/9cA6gAGABH/8P7P/w4BvwFTAQgA2/7X/igAzAGDAg4CZQF3AQsCJAJcAVMAtP9V/8n+XP7D/sP/CADX/mj9o/2R/wYBTABv/vT9lv9RARUBaP+K/mT/fwA/ABn/yv7a//4A8QAKAHr/rP8cAH4AGQHYAeYB0ACW/7T/JQEXAgkBq/4g/aD9W/+3AAABpwBTADYAMgAnAPf/j/8k/yT/xP+zAGoBsQGSAQkBCgDv/mf+vf52/+j/EABrAA8BYQHtAA4AZf8C/5b+Y/4y/xIBqwJ1AoMAfv7O/U7+7/4o/zL/Q/9H/2H/CQA8AQ0CmAE+AEn/Yv/x/yEA9//q/+b/hf8h/8P/jwHxAi8Cof+K/Zz9Of+IAKoANwD3//D/6f8UAJQA5ABWADH/if7l/pb/yf+9/0YARQGMAW8A5f5w/kr/SQCDAGMAvgBxAY0BuwC//33/3f8kAAYA6/8pAIAAiABHABUAEgAdADwAmAD4AKUAS//H/Yv98/6XAK0AFv+a/fT92v9dASEB0/88/xkAVwFtATIAA/8t/4IAogF6AUEAC/+j/vP+X/99/1z/Pf83/zT/NP9v/xQA7gBrAS0BjQBUAN4AmQGhAc0A8////+YAtQGbAbQAzf+P//D/TADw/6r+J/2a/Lf93P9oAS8Bjv/o/UL9qf25/jUAxgGqAkYCCgEyAGMA8wDvAHwAnACcAX4CMQLsAMX/Sf8U/8j+rP78/kr/Hf/u/p3/+ACZAbIAWv9G/3UAGAHt//H9Gv3x/Sf/Zv+6/gz+9P2X/vb/mgE7AsoAKv70/MH+FwLWA8ICwQBmAOoBRgPdAiMBof8Z/yb/OP9G/5L/KQDGAPsAfwCT/w7/k/+TAKkAV/8G/of+pQAgAlkBWf9m/gb/gP9m/pz8G/xj/Sb/QgAAAfwBxAJwAiwBOQBMAMcA3QDLAFIBTQK9AjUCfAFjAZcBHgG//0X+cv1H/ZD9aP7M/+4AuQAM/wf97fsd/Dr95/7LACQCFgK7AG7/g/+6AF8BHQCl/T38mv0RAfQD/QOGATr/R/8JAeUBhACB/lv+LACLAcsAS/+V/8sBSgMiArv/D//KAHACgAGF/lb82vxE/1cBpQF0AAT/eP4N//X/HQBi/9j+gv/rAJsBAAE5AHMALQHhAEj/8f06/nr/CQCQ/1//TgBbAQ8Bo//W/qD/7AD/AJ7/Nf4f/kz/qABWAWEBYAG4ARgCrwETAAH+7vyC/cz+Tv/T/p/+sP9fATQCrwGdAMn/Mf+//vn+MQB5AWYB//8E/8X/YAHpAf4AIgByAP4AIwAA/pL8Sv1n/wIBNQGeADMAMQBGABUAc/+O/h/++/4HAdMC6gJ2AQMAgv87/zv+L/3e/a8ApANrBPkCYQElAYgB1wDM/vn87fyA/iwAtAArAH3/UP9+/4T/Pv8a/4P/MgBcALf/A/89/00A9wBOAOf+Kf6X/kz/VP/2/jz/cgC5ARoCjwHAACUA4v8kAA8BFAL/ATgAwv2L/Ij9vv9AAfkAdf86/pL+rABZA6oEVgMWAGP9X/2+/woCGAIeADP+8v0R/y8AiQBsAEYA/v+C/3j/ogBwAvkC7wCe/R78If7SAX4DgwED/nj87v04ANIAs//l/rj/UwEOAokBxgCMAHIAu/+S/uP9F/6U/pz+Wf6j/uD/XgH6AUsBBABC/5H/kQBzAboBcgHkAD8Ap/9l/57/2/80/3P94ftp/Hz/KQO5BFYDtgAp/1L/JACiAOEAQQFpAcMAnv8b/63/TACr/wH+8vyc/Uf/YwBxAF4AAQHoAQICHAEZALn/sf89/1T+1f2O/lIAGALQAgYCMACX/qL+nQAIA68DyAHq/nT9E/5W/7X/ZP+T/1cATgCn/tD8If3z/8wC3gIWACr9zPw3/10C9gMnA64AJv4X/RX+PACvARYBzP6m/G78fv6YAdYD6wPtATn/ev1w/Yb+k//u/7X/UP8Q/1X/cAABAscCzgHn/zz/6gBxAycEOAJ1/wz+NP6s/uj+mP/jAGUB6/+w/Xz9MgA5Az4DLQBk/cn9hQBGAjIBy/7E/eH+gADSANP/7f4s/0YAIgH5AOn/uf5R/hj/jABrAaUAfP6l/Pf8mv+XAoQD3AGc/0r/RgFJA8wC0P8F/fL8Sf9FAa0AGP4h/JL8x/7AAEcByABYAIMAJQHrAXkCQgLgAN7+v/2X/qsA7gEnAUv/VP78/hcAOQBo/7f+sv7e/vD+lf9uAZUDGgQrAk7/1v19/u3/oAB+AGIAlwCAAMX/Hv+J/+8ABQKdAd//Gv6I/VP+uP/YAFkBVQH0AEUAk/+E/4YA7wEiAhIAqfxS+rv6R/3m/zgBegFsARIBDAC8/k/+Xf8BAbgBAgHU/3//fgA4ApUDlQPhAUH/Yf2L/U//vwBdAKL+df0d/hUA1AFfAuQBDAEmAB7/EP6W/WD+XQBMAoUCkAAT/nv9eP/lAekBJP9H/Cn8uv5fARYCYQHzADYBGQEIAAb/Wv+1AIIB8gABAB0ARgEgArkBrgBNAOgAeQHoAGL/Q/7K/sEAaAK4ATD+vPmW96r5rP7jAlkDewCB/T/9mf8mAs0CgAGY/1j+ZP4EAOsClgXiBQoD5/5s/L78Zf59//b/2gDxAY0BIv/y/L/9JQGAAxACXv53/Db+UAFRAnQA7v3+/Nb9Rv9wACkBUQHIAPn/xP97AEwBMQFBAMD/xgD2ApwEGgRVAfz9VfxL/Yr/swC0/8f9Bv0s/hUAUAGKAUMBvgDi//3+2/7V/ycBpwHrAH//L/6F/c796v4GABMA+P7z/VT+/f+kAWECSwKQAff/+/1x/bX/MwM/BC0BvPxE+8/9RQFuAm8BiQCuAN4AfACCAJcBbAJCAYv+tvxD/UP/DAEyAgAD+gJ1AVz/r/62/xUA5P3g+sv6mf7ZArsDZwEl/+v+iv9U/7r+If8/AHIAkP+c/+IBjQR6BCYBdf1i/Or92//IABUBawFoAWkA5f4U/n3+ev9XAC8BTQIZA2EC6/9C/Xr8Ef5MAPIAmf/9/Qf+tf87ASMB0f+p/kT+Hf7//cf+GAG/A24EaAKj/73+DgB5Af8A2f7R/FH8gf3H/ygCUQNOAtH/H/7r/kgBlwKAAWH/XP7A/jD/+P4h/6YAigLAAuAAA/9R/0gBKQIyANj8ZfuI/ZIBNATKA7UBdADEAPoAZP/E/M77AP6NASADiwEO/6L+jABEAqABSf+x/SD+dv/R/73+fv2H/Rb/JgFVAtsBHgCG/mz+t/+vALj/X/08/Ff+swLyBYcFGQKW/k79M/7D/98AbAGcAWQBxgAiAMz/gv/N/tL9Xf3j/dj+bP+y/3EAxgGPArgB3v/u/gUADQLpAr4Bsv97/qr+c/+9/xr/8/0x/aP9Xv96AbcClwK0AeYAWQDH/1r/t//3ACkCOwJDAVIAKgCCALcAjgD7/6X+c/x1+lf6fvw4/30AOgAvAHQB5AKQAkQA5/1v/fr+HAFvAnwCmwGKABUAgQAYAbUAJf+m/bD9Wf9LAUYCMwK5AUEB1AB+AFEADwBp/5P+J/41/gb+Q/36/ID+WwEhAxoCbP/r/dL+nwA7AXsAwv/M//P/o/9v/xIAAAH4AOT/Nv8CAGUBlQE8ABD/0P82AkUEWgSOAj4AqP4p/mX+yv72/t7+qP5o/hb+3/1D/of/FgG7AdIAIv8y/tP+bADDASQCqAGsAIP/nP6H/m7/pAAhAYoAqP+a/5UAmgF2AQ8Aiv4j/t/+iv8h/wX+m/2v/oUAswG2AVkBfQHoAagBZADZ/gr+Qv4g/ykA7wDnANP/iP6d/qcAAQMRAyYApfzE+0L+ywGYAyMDBwK1AfgBsQF4AAb/Uv6i/m//6/+n//r+7P5CAF4CUQOqAUT+1/tD/Jv+RgAGACv/mP82AQwC3gDR/gH+8f4YAPf/5P5O/sr+jf/O/9v/VADaAGAA4/4L/nn/pgIhBQ0F5wKQAAH/q/0C/N36mvs5/gMBSwIFAlYB7gCFAN//j/8eAO0AvwCC/9v+UAAtA+QEqwNUAFv9h/zI/QsATAK0A38DkwEk//P9kv66/8f/kP5s/W/9PP7U/g//tv85AdECQQMqAnMAZP+d/60AdAHoAOv+nvyh+6X8s/4ZAAsAN/+3/tL+//7d/rz+HP8LAC0BNgIBA10DCQMRAu8AKQDp/wEANgBOAA0Acf/2/kH/VQBQAUABIgDM/vD9oP3d/fn+7ACDAh4CtP+C/fP91QA+A6MCr/9//SH+ZwCAAUYAYf4Y/pr/8QCKABj/rf4lAB0CmwJTAdb/kv9EAKYAQADx/6QABgLlAnQC0wCP/lf8K/sO/Mv+eQEZAt4AEgA1Ad8CbAKC/9L80vyy/p7/p/77/cb/9gJcBKMCx/9G/gn+MP1q++r6fv29ATYEPAOiAGL/VgDBAa0B7f/m/Rj9GP5vANoC5gMLA1oBgwDqABIBc/+r/CH7Tfzv/pQAhgBgAKsBoAMJBBACXP8g/sD+1P8mAO3/AQCdAFcB9AFxAmICCQGM/pT88Px6/wQCkwJcARkAwP+U/5z+Rf3g/Mj9w/6D/lb9y/zc/eD/YgGMAZMAHf/P/Wj9oP5cATMESAX7A58BQwDAAA8CfwJnAY//Qv4k/vT+BgDRABgB4ABaAMP/Nf+m/in+Ef6c/pT/XwCYAG0APQAKAKb/Wv/X/yYB4gFZAMf86fmq+gP/kQOoBM8BEv4G/aT/uwMVBgUFdgER/j/9cf/VAuEEWAT2AUj/Kv2e+7r6APuA/DT+8f7+/gsAGgOvBsgH4AS+//j7t/sI/isAUQAF/z3+R/+QATMDqAIcAD792/t7/Ej+DwAxAbEBnQHTAFX/mf01/Fb71PrX+iD8LP8kA/4FMwZGBFoC/AGpAq8CawE5AN8AdAMpBiQH/gVlA9j/iPtj91T1vfa/+qz+UgCs/zX+Hv2K/Ev8mvy3/T7/bgAeAfsBxgNrBg4JngpICrQHegNp/8T9cv/vAlgF0ATRAT/+kfsO+mz5i/lj+qP72Pzd/c3+hv+C/2r+mfzj+ub51Pm0+nr8nP4KAB0Ag/+y/yoBmwJfArwAGgBrArEGngngCIkF6QI8A7YFnAffBqIDt/8o/Q398v77AO4A5v1H+ej15vUl+cf9xgH3AwYENwKa//j9vf6YAYIEiQWPBB8DqQIZAz8DKQLS/8f8rvlG92n2hff6+Uz8LP1R/Gn6dfhe9933N/rZ/XYB4wPmBBEF9AS2BHEElwSRBS8H3wh2Cl4Mrg5dEPsPUQ3QCRIHLgUAAxcAmv3c/FP9uPxb+f7zBe8R7OTqhOrD6jfs9u4S8oj0VfY4+KD6Sf3r/90ChwZsCiENhA3QC1wJewevBuMG8Ae+CekLrA0vDgENZwpXBx8FtQTuBXcHyAdnBiQEFAJfADf+6fqh9h/yAe6/6kfp7+oy8G73Vv04/xv9w/mK+P36JwCeBToJOQpZCSIIyQdHCFMIaQZDAnT9ffrz+jD+rgHRAqUAPfyd91v0GfPs87b26Pom/8QBHgJfAaIB6QMFB6QIlQcIBZ0DSgX5CcMPJhRKFdkSPA7nCc4HBgjVCEkIzQVGAtj+5fso+WP2efMe8Prrd+cO5ETjLOU46KrqEOwt7cPu+vDz80z4WP73BN4JmQseCwALBA2gEPETrhX4FY8V1hTLE4gSRhH4D1UObgzZCv8JYgn3B1QFLAJ2/0v9+Pr/94j0svD96yTmk+BW3s3hM+qh89D5F/sf+Sv3xvd3++YA6QXzCCUKBAvQDOEO9Q51C28FEQAH/m3/MgIkBEoEpAJu/x/71/YW9LvzcfUy+Cz73v2j/+H/+/6h/ogAgwRiCAsKpAlTCeEK6g2CEE0RiBA+DxMOKg22DOIMBA2HC0wHJgGH+1X4NPch9o3zqe+p61DojeU446bhNuHE4fHi4+RD6DftufJl9/P6jP5TA+gIrA2FEP4RcxNjFf8WZhfXFmsWsxYcF8MWjBUgFPASoBGYD9oM/wl1BxUFkgL6/3L9fvrz9RPvyOam34bcwt5T5UHtEPOn9LDyYvBd8dz2pf7kBGsHUgePB/sJuA0hECUP1QpWBZUBngExBX0JmwpnBmj+2/Zc8zv08Pbs+LL5Qfow++v70vth+8z7rf2TAOADdwczCw4OpA7pDOUKFgv0DVsRrBJMEdYODQ0YDNcKfQhVBRYC9v7I+5X4mfWi8uruFOok5Qbi0+Gv45HlJ+bh5TXmLui86yrw2vR/+f79XwLCBjELXA+wEtcUDxbnFrgXhRhUGU0aRxtuG8oZaha6ElsQdA96DsYLXgfzAjUAO/+I/kr8avfn7/jmL9/h2xrfcef/74PzgvC46kHow+yi9oUAoQUwBYcCDgKoBV4LIw8+DpEJ5gTTA84G4AoQDHcIhwHM+nT3Vvit+3r+o/5c/Nr5XvlE++D9Wf+Y/0oA+AI7BwQLZgweC4QIhgbGBgsKmw/kFI8WBxNUDPkGOAYmCZYL+wl3BCf+6fn+95n2D/Qm8MXr8+dh5VTkbeSi5AHk2eL+4lPm1ew99MT5cvyw/cr/7QOACf8OPhPhFRUXJxdyFocVIhXPFXMXKxnFGYYYmBXPEfINXQo/B/gE2QOAA6UC+P8u+xb1pe5H6IPiAd8L4CbmNu7c8rvw2+mU5JLmRPCz/KcFMAgFBlADSwNkBpoKUQ0yDQgLAQnCCMYJmwktBhYApPoq+QL8HwCqATD/i/rt9j32IfgU++P9JgDNAdACcwN3BHkGFQnhCqgKwwgeB6YHowpwDtIQlxAwDh0L6AhMCOMIPwmtB1wDPf2S9zL0+fLb8bzubOnO4zDgZN964Afif+Nd5TzoH+yT8DT11flL/koCwwUTCa4MZhBaE8YU4xTRFIcV8hY+GMgYoxgnGEQXlhUKEy0QqA2bC6cJewccBYICOv+5+hX1KO//6VnmzOTt5ZXp6O3T753tP+mK5xrsxfVK/80DxQK4/6L+6wBYBecJIQ0pDsIMwgn+BuEF/AV3BU0DqwCX/2AAAgFw/w78XPk8+SP7Hf0e/rL+l/+OAAkBjQFrA+MGHwqyCiYIpQT0AiQEQwfQCscNSQ9RDqYKFwbLA3kFQwnsCpkHgAC5+XT2TvYl9jjzde0u5wXjDeJr40blOOZH5t3moukD74717/rg/Ur/fwEYBlcMmBGGEycS9w/tDw8TqBfGGq0aJhiNFZwUAxUDFUQTDBDFDJEKWgkxCDQGFQPf/qD5f/Mk7czn3OQB5Zjntuoe7Mbq7Oeh5qTpAfGW+Ub/HwDR/Sr8CP5oA8oJHw6fDpcLIgcDBPgDbAbLCKIIyAVxAu8AbwEdAmQBn/9t/p7+V/9K/17+r/03/uP/HAKcBEsHbwm8CZoHMQS6AboBHQTGB4ULHA4dDtwKAQZUA68FogvPD3cNEgUT/Oj3NPnY+zX7I/YJ7yLpFeau5cTm7ecD6OnmFeax543s9/Ic+Mr6ovw/ADQGMwxJD9MOHg0uDQ4QNxRDFwcYMxdPFlQWHBfKF4YX8RUcE2oPgws0CBoGHQU4BO8BPv089h/uvOYB4l7h8OS66hfv7e5i6nrlUOXi6xL2+f2e//378fc7+B7+3QbjDb4PMAxLBokCuAPJCIkNCw4CCtcEUQIbA5sEDARmAf/+t/72/6AAlf/G/fH8yf2z/9YB1ANIBUoFPQMzAMn+8ACmBWcJPQmOBb8BHQEZBFMI5Ap7CrEHFQQrAeD/GwCEADD/Hvti9XHwD+7B7XztyOsf6Sbn5+YG6Krpseu07vDylfdg+8/9mP/cASYFGgn2DBYQDRKsEksS9BHgElwVNBiBGVoYvhW2E2QT/ROXE/4QrQw2CNoEvQIIAXb+2fnV8sbqx+Tr417oOe7970DrW+Mf30HjWe4E+ur/O/5I+KjzifR3+04FAw2oDjEK1QMRAU8E8QqxDzQPigqGBRgDTANQBLMEVQSsA+0CCQIYAV4A9P/Q/zAAiwHBA4YFKwVdAvj+vf3q/wsENAdsBw4FHgKUAC8BcAMvBhwIKwgWBtECRAALAAsCKASsA2D/n/he8vrul+5o70nvUO0n6lnnauYr6FDsb/Gj9cv3eviL+Yf8RQEmBqQJkgvbDEQOwA/cEKMRtBKHFMgWdhirGDYXuhRKEssQXhAhEK8ORAuLBkcCzv+9/iL9EPln8knr0ubm5pnqbO6b7hvq9eNj4bjlXu+y+Fj8eflM9K3ym/cvATsK+Q08CygFCgGaAiIJ4Q+1EVANPQbBAV0CGAbRCBsI0wSVAS0AmQDbARcD0wPVA0cD8AKeAx8FAgbvBEAC8P+2/0kB3QJAAwkDhQPHBGkFawTGApQCjATcBuMGBgRgAJH+Ev/f/5L+g/oL9TXwcO0R7UDuLe8T7uDq9ueH6HrtCvQU+Bf4t/YP+I39twTYCXkLHgsuC8kMfA9NEmgUKBVjFP4SrRJhFOUWpRc7FQkR9g14DT4OsQ2ICqAFpQB1/Of4pvW18jbwDu4K7CHqaugD5z/m6ua/6WDu8vJc9Sj1JvT69On44/5WBOwG7gXBAk0ARAH3BZML/g1VC9QFAAKuAqoGLQphCm0HlgMTAdIAkQJABUUHMwfzBEECVgHUAiQFEQbpBNwCcwEmAYgBNQIZA9wDygO6ArIB/AF4A1QE6ALF/1/9eP0t/8f/if1W+aP1CfQO9Af0vvI38E3tCutJ6mXr3O1e8KrxvvET8l/0+/h0/scCFAUmBoAH/AlBDUkQNxLaEqsSkxJxE3cVsxeQGA8X2hPfEK8PERBGELIOPws3B+gDhwEu/7T7m/ae8JfrgunP6lDtae0/6SzjhuAG5ezu1vcE+kH1BO/d7U30N/99CFYLTwdsAIL8MP8ZB64OeBCLCzoEPwDqAcsGjArNClwIhAXtA/EDKAXLBtgHgwf/BYYENQTdBE0FygTuA8EDRgRbBCMDQgFCAOkAZAJBA94CvwGxAAAAkP9n/6//PgBfAGL/Rf22+mf4ivbi9EHzvPF/8Invue4P7srtMu5J76/w+PEc85/0L/f5+l7/TAMPBsgHOQkdC6gNcBC5Eu8TGhT/E50UNRa9F5QXHhWwEZEP0w8kEeUQmQ0+CEMDSQDG/sD8uvgf8xTuxeuD7C7usO3B6ZHkdeIx5hXu4fQP9szx5uzN7Cjzp/zBA94EvwC4+4X69f6sBuwMJw6TCr4FhQMyBf8IAQxlDE0KPgcEBckEZQZiCPcIjwdnBWYELQWMBu0GDwYCBZcEVARVA9IBKwE+AhcExARoAzABAQCEALEBCwIGASj/Qv3W+xj78/rb+ur5j/dQ9IPxH/DV737vae4e7cPs3O3M73/xf/JR8+D0rPdv+2z/6wKNBWQH4wiwCj8NXxAuE7kU4xSjFB8VaRZFF24WJRQoEvIRDRNhEzkR7AxoCEwFmQMKAjf/c/oQ9IbtNekB6VbstO8y70jq+eSG5G3qs/Jh9931CvFk7kfxifj4/60DlwLT/iP8af2ZApEIZgudCWsFwQLQA2kHigpKCyMKxwhACGIIoQjXCBoJNAm6CKEHewbiBdEFtgUkBUUEiwMSA4wCxwEKAcoAEAFPAf8AOACH/yv/o/5P/Xn7YfoC+7b8cf2Y+6n35fM88qTydvM388rxHPAE78buYO/G8KfyWPRr9Vn2OPiA+1n/XQIMBD0FEgfKCb4MTw9kEQcT/xMmFPMTLBTnFDkVRRRkEt8QaxBBEAYPcQyICUgHZwW4Apr+ofn09FjxEe8r7kTuLO567BzpMeaZ5iXrUPEi9ZH0N/Hk7ofwJfYN/cQBPAIs/7r7Y/tN/y0FHAnpCO8FpQNhBIEHiQqYC8UKYAmICHsI5QhUCWQJ7whCCP0HbAgCCckIegf4BWoF0gXpBYMEFAJxAOsAwAK6A2ACfP9b/YD9Nf9TAF3/yfxa+mb50fls+hP6dPgJ9rnzX/JF8snyqvIa8cTudu2N7pDxmvQv9oz2KPcW+S/8nv/NAo0FrAcPCTEKDAwDDxoSwROWE+oSKBMOFAgUYhJyEAgQAhE1EQ4PpguFCX4Jggn9BuIBqPxK+RH31vMT7+/q6unu6yfuwu2g6l/nA+eI6jjw5fQc9u7zJvFs8VD2uf1kA3kE9AGf/44AmwQDCSkLsQomCTUIYAgrCfkJkwr9CiML3QokCiwJPQiABw8HDQePB0kIawgtB7IERQJbAQ4CzQLTARr/kPwe/I/9sf63/TT7g/k7+pH8Nv6q/XP7U/mn+In5D/v5+1z7PvnV9s31w/Zq+Jj4dfaD80Hys/OI9qT4PPlD+Qj66vtl/u0ATwNYBa4GTgfuB2wJzgsaDlgPnA/ND34QRxFdEZ0QuQ9YD1kPCQ/8DXAM2wpICVUHwgTeAUL/K/0j+1v4efQf8KrsTuso7Pzt7e7I7Qjrx+hh6aTty/N3+DH5qPZq9An23PuQAhYGRwW+Ah0CpQR4CPAKOwuhCqIKYAvzC7wL/QpJCtAJdQlACUsJRwmECLoGrQSjAxoEIAUwBaQDQwFn/7v+wP5u/i39Wvv1+dL50frP+4n71/kT+P73CPqu/L39avwe+iP5jvpU/WT/eP/4/U78lvvc+1L8Gfzv+lj5NfgU+L/4bfmP+Wj54vmk+1v+8gCSAlMDAAQ0BecGwwiaCl8Mpg2/DYwMLQs6CwYN3Q6CDrILtQgCCGAJ4wkoBzICi/5q/kMAjwCz/X75t/by9W312PMe8vfxQfPT8y7ypO8K73Px8PTE9lr2j/VK9on46fqL/MX9L/+/AC4CsQO4BQMIjgnJCXoJ+wmaCyYNVw01DOcKOAreCToJUQijBy8HTgagBMQCqwFcAd4Ae/++/cf81fzj/PX7VfpF+Xj5UPqp+h76Rvnd+Az5pvmh+gP8cP04/hX+p/3p/R3/cgDhAD8AXv8m/7v/ewC2AE4ArP9V/4D///9nAGYABACb/47/7/94AMsAyACWAHcAngAiAewBsQIOA9kCVQIDAiUCgAKrAogCVwJaAn0CfwJUAjUCQAI8AtoBKwGhAI8AwgC+AFUAzP9z/zX/wv4c/rT96P12/qv+Jv4//aL8ifyb/Hv8S/x4/An9cP0g/Uj8uPsS/Br9Af5B/hf+H/6X/jT/nv/o/2YAHwGvAcEBkAG+AZACiQPdA1MDmwKjAqUD3gRTBbcEtAM8A6wDeQSuBMQDGwK8AHwARgEaAusBiwDT/tf94f1E/h7+Pf0w/KL7sPv4+x38F/wY/Dz8fvzd/Ff91v0s/lP+iP4J/7v/LQAhAOH///+vAIcBAAIWAkMC2gKbA/0D1AN9A2QDiQOTA1ID6gKRAjcCqQHsAFIAFgAKAMH/F/9j/iP+c/7u/g//pv70/Wz9Wf28/VH+w/7i/sH+n/6q/t3+Gv9d/7n/KQB7AHsAOAD//wsATACQAMQAAwFYAZEBewExAQsBOQGDAYQBJAG5AJsAwADPAIgAAQB9/yX/Af8V/2P/wv/l/5//LP/2/iv/hf+l/3//X/99/7//6f/6/ywAlADzAPcAoABHADgAZQCOAI4AfQB3AHQAXwA/ACgAEgDY/3X/Jf8u/47/8/8RAOz/wf+v/57/c/9M/2X/yf8yAEIA4/9S//D+8f5G/6//8P/1/+D/5v8bAFMASgDp/2b/F/8o/4D/5/8wAEYALgD+/9//8P8pAGAAfACKAJ0ApAB3ACMA9f8oAJUA0QCpAFwAQQBGAAgAbP/v/iL/7/+RAGMAlv/0/v3+cf+7/6P/af9R/1H/Rf82/03/h/+v/6r/o//G/+v/yf9l/yz/ef8eAJ8AyQDkADMBhwF+ASUBCQGCAS0CRwKZAbsAYgCQALcAfwAtACsAXQA/AJH/rv4f/vr97P2+/ZH9iP1x/QT9afw3/Mr8xf1i/k3++f0d/u7+AwDVADwBbAGeAeIBMwKJAs8C6wLaAsICygLoAuICkgIUAqEBUAEQAdQAnQBfAO3/NP9w/g/+Nv6Q/qT+W/4K/gD+Jf4p/vP9xv3j/Tn+hv6y/t7+G/9A/zD/IP9s/xgAqwC/AIwAwgCvAb8CCgNVAmUBNwHwAb4CwQL1ARcBxQDbALwAEwA8/9X+Df91/3X/4v4e/rD91/1t/hv/k/+r/1//5v6d/s3+Zv8AAD0AIAAFADIAiACvAIQAPwArAFIAhwCwAOIALAFnAV4BGgHcAMwAxQCbAHgAwQB/ASAC/AEcAUUAJQCQAMEASACL/zn/bf+W/zz/nP5Z/qn+EP/0/l7+8f0q/tf+SP8I/1D+zf0C/t7+zf8yAOX/Uf8Y/4D/QQDWAA0BKgF8AfIBLgIFAroBpgHNAd4BsgGFAaAB5QHYATcBVgDP/+b/VgCsALsAoQCDAGYATgBFADsA/P9q/8j+if7I/g//y/4C/mb9pP2k/qT//P+5/2z/gf/p/04AgQCNAJQApAC+AN0A7gDRAIMANQAsAG4AqQB/AO//Y/9A/37/rf9r/87+S/5B/p/+B/89/2f/0v+OAEcBkgFVAdIAYQAnACEAUgC7ACsBRgHiAFkANwCVANoAYwBO/3T+e/4h/5X/XP+2/iP+7P1S/sX/TAKlBMAE4QEe/uz8lP9yA38EsgEt/qj9JwAfAuQA/P0o/aH/bAL8Aar+bPwi/iECLQRUAt3+Sv1s/iQAfQDO/43/7v/K/7j+Bf78/rYAwAAa/t36N/ru/IQA9QHEAAL/q/6x/60AywBxAEMAOgAQABIA3QBGAhADNgJPADD/CAAFAjADfAK/AJ//xv9oAGwArP/y/ub+Uf97/xL/ef49/nb+xP7X/sb+1v4Q/zj/IP/1/hP/lv8uAGMAEACG/0r/tP+yANkBogK2AjkCwQHkAZMCAANLAn4AyP5+/sn/ZAHOAb8AVv/T/kn/sf86/zP+m/3y/bf+IP///rj+f/4L/jz9ufxo/Sr/gAD0/9v9TfwN/Zv/twHSAbQAXQCXAQ0D/wJrARMAYwDiAfACxgIbAuEB8gGBAZUASQBRAbMCoQKmAFb+iP00/qb+0/3E/Ef9ev9uAWYB4//0/pz/qQBoAPr+S/6w/yICQwPzAUv/Hf35+yv7UfpE+g/8Rv/4AXMC4QAF/3n+Yv/HAM4BhwKLAx4FwwaPB+UG5gRoAnMAqv/6/74ALAG/AG7/lv3G+2n6lPkp+TP5BvrU+wT+S/+y/q789PoH++X8Uf9DAcsCcAQABo0GswVoBB0EGQUjBgIG/wR8BBsFzAUSBesCBQHUAPABkQKmAev/zv6r/nr+PP00+3n5ofg0+In3tfZP9mz2YvbC9Tj1C/aQ+H77Gv0Q/dj8Lv5CAZMEkgYrB5wH9ggBC58MAg1jDKILfgsfDCsN+Q3BDf8L6AhsBYQCYABg/gD8oPke+LT3g/eB9sz0svM/9O71F/ex9mj11PTR9dD3vPku+3/86P3//jH/eP5Q/Sj8OfsH+5H8bgChBckJCgvbCa0IkglGDK0OOQ+BDmgOuw8FEdQPJwudBD7/G/3O/f/+QP7H+sH1Q/Gv7tXtbO1+7IHr/Ov57rTz6Pet+UD58/g3+34A4AbNCyUO2g65D6YR9RM8FasUqRJTEJAOeg1qDIEKOgfSAjP+cfoJ+JL2HPUJ85Pwiu6I7WvtjO157WDt5e2H7yXyCPVi99v41fkg+2b9qAA+BF4HoQkjCzoMJg0QDh4PYxCgEVASGBI8EWYQ7Q9WD8UNDwsdCCIGTAVyBCECBf4x+RL1PvJZ8P7uaO4M77DwMfJk8jXxwu9r78bwc/PD9j36k/1fAEQCYANsBDAGuggxC2IMiQumCHIEPACw/SD+fQHwBeII/ghQBzkGDgfTCFkJqAcdBRAEdAXiB9YIywYlAov8vfff9E30c/Xd9u/2FfVX8njwUPAt8eLxY/L+89H3M/3rASkEPgRCBCUGAApLDl8RtxLwEuMS8hLoEjkSPxCRDHEHCQLt/QT8uftM+zL5RvXa8KDteewV7Xfuve+f8Gzxs/LJ9Gf30Pl4+7f8tf5cAiwHPAupDEALwAhTB8EH+ghiCW8IBQdiBuMGzwcmCIgHVwY7BZsEggS4BOYEtATtA54CAwFP/4f9pPvK+UL4Mvdq9pr1v/RH9K308vV795L4/vg2+e/5j/vX/RUAigHNAQMB2P81/8v/uAF5BBsHhQjBB20EPv84+vn3MfpAAE0HGAw0DdULbQp0CkwLPwuCCTgHfwZgCI4LFA1oClEDLfp68rDu6O4W8aPyH/Ll717ttOsm62nrf+z87mbzbPnJ/wIFWgghCk0L0AwiDyQSQhW6FwkZKRlmGNMWBBSDD6UJxgNU/4X8Dfpe9kTxOuz/6PvnB+jf55HnZ+h061nwj/W++bT8Kv/WAd8E/AfYCigNlQ7uDmYOjg2+DKkLuQnqBh8EZgLNASwBSv9D/Kv5Mvks+1X+/gBQAo8CcgKCAvkC3APrBIIF8AQsAx0B4/+z/4r/OP6/+4P5/fg6+tP7S/xu+z76u/n1+Vz6tvpt+978kf5//yD/B/5P/Yj9Xf5A/yMALQHiAQUB4/25+Wj3RPnz/osFFArsC8sMgA7lECgS7RD8DZ4LfgsZDTYOmwx+B7z/Nff/76Prauof69vreut46jbqROud7N3sRewy7SHyGvsrBbAMMhAnERkSRBT3FtUYVxn4GGMYvRe8FvgUBxKGDXkH1AAh+0r3kfQp8RnsjuYC4+XiSOXo54fpDOs47pLzuPnM/jUC3gTtB3sLrw7BEJMRaRFXEEwOhgupCBoGfQMQALH7Yfec9Ar09/QJ9oj27fZH+Cn7Jv80A3oG0QixCqIMtg5mEOcQzQ9sDaUKNQgpBu4D9gBN/aH5yPY19c30C/U79cj0l/M98sfx//LA9fr4e/vI/D79dP2X/XT9/Pyo/DT9Ef8FAkMFqQcaCPQFrgEf/dX6kvwLAg8JFg/bEqkUSRXoFA0TgQ8ICx4H9wS3BHAFnwXMAyD/8Pfl71Hp3+WU5RPn/ej56mntLvAq8kDy5fBd8BDzcvmaAeII+g1jESYUbxaJFwAXchUPFHkTUBPJEnARMQ/WC/wGxgB0+t71A/Qf9D30x/KR74Lroeex5KHjtOXO60f1xf+CCPgNXBC8ENMP5Q1wC4QJHwklCi0LcAr2BgIBpPkz8iPs4OhN6SLt8fL5+CH+JgIFBZYG5gbfBigI8Qu1EVMXcBoIGsUWFxIXDS4IeAMw/7j7WfkM+HP33/Z+9c/yKe/H6yHq6uqZ7fDw+vOJ9uj4Jvva/JL9aP0p/dv9EgCIAz8HGQp4C2gLKQqRByQDF/1Z9zT1JfmLAmwN/xTxFpEUABFeDqMM4goWCWcIxAmJDKsODA6YCYYBJfe37ADlCuLB49PnXusD7VjtZO0c7cPrvuls6YXta/ZhAZsKLRDhEn0UrBXWFaMUBBN9EpcTbhWrFpAW7BRiEXELZgP9+n70D/EC8N/v+O+l8CXyqfPx88ryjvHw8W/0Hvjo+6T/rgOoByUK3QkmB+YD7AFvATcBLABv/uv8Dfwz+4f5KfdS9Uj1SveP+jj+BgIjBl4K5Q3cDzYQzw+rDx4QsxDBEAoQrQ7ADB8KtwbgAjH/+vsO+Tb2yPN/8pnyLPO/8r3wRO5G7bbuovEy9If1afYk+OD6V/07/qT9C/3Y/TMANAP0BT8IQQriC50M4QtpCU4FOAC6+zP6g/0+BSsOIxQEFRsSlg6JDGwLagnhBVkCCwGWAj0FNwanA5D9dPV07Yjn5eR75f7nwuro7Lzu1vDy8vzzY/Na8l3zMPg8AOQIiA9FE/4U7BVpFvkVSRThEe0PYw9VEOsRzBK7ERgOMAglAWP6+fRB8RvvXO4D7/HwivO+9ZT24fV09JzzV/TH9kP64v39AFUD0AQzBSwErAFI/hv7SPlR+db63vx3/jv/XP9b/5b/HQDZAOABmAN4BoIK+Q6VEj4UqBN+Ed4OrAwnC/8JwAgiByEF2AJPAHX9SPoE9yX0LvJJ8SvxWfGM8dHxUfL/8pfz+PNd9Cj1ePb/92f5uvph/KL+OgGQA0UFhwbNB1sJAws8DFgMsQoRB0cCTv5n/WsA2QXKCjANXg1IDUIOlg9TD3UMEghqBPQCUQPnAysDYQCa+4n1be+t6groFOe/5qfmnOeR6hDvBfOI9NTzSvNN9S/6NgCBBaoJfg2IETsVkxckGFsX2RX/EyASzxB3EJwQ4g8uDb0I7wPg/2v8s/iQ9CLxyO+18LDyPfTW9O30CvUv9S71Q/UN9uD3WfrJ/NT+hwDQASsCEQG9/kX83vr4+iL8rP09/8YAJwIRA2IDZwO2A7sEgAbOCGAL4A3PD60QUBARD4EN+AtoCqYIvAblBEEDpQG8/1T9f/qB97L0bvL78Gbwb/DC8Dvx8vH08v/zq/Ta9PP0iPXP9oj4Yvpx/Ar/OgJ3Bf4HfAlHCvEKqAsJDHoLpQnIBq8DhQFbAX0DEQdxCkQMagzdC5ALbgt8ChEIwwQZAkMBFQIoA+8CswDQ/D347fNl8K3tiOvu6U/pWOoz7f7wGfRY9fr0iPSX9Z343PxEAVoFSAk8DeAQdhNoFLYT9xEOEMAOYA6nDtgOMw5xDN4J8QbOA0IAPfxH+Fn1MPS/9Df2pPd2+Jr4Ovh393P2cvXa9AH1CvbZ9yP6d/xG/gL/a/7M/Of6j/lE+Qn6lvuq/RkAtAIpBR4HZAgcCZ0JPwo5C5gMSA4GEFsRwxH9EEAPHQ0ZC04JdgdOBdsCZAAU/tL7Z/nR9k70GvIz8IXuNu227FXt0u5t8IjxM/IB82b0SfZJ+Er6ivwx/+kBJAS3BRkH0gjTCmwM8wxNDMYKlwjrBVYD+AHFAoUFxAj+CtsLKQyaDMkMqAvSCDEFSALtANkARAGbAYUBgwAP/jX63vUs8pLvt+1R7Mrr0OxG7/XxkPP08zv0g/XV91n6gfyv/qQBgwWRCeYMIw9nENQQaxBaDzcOjw1YDQYNNQwpC14KvwlvCKIFhgFK/R/6ZPiv94337/fZ+O/5hvor+gb5lfc79ir1ovQJ9Yn2r/iZ+pr7t/tk++n6M/pB+Yv40/ht+uj8fP/FAfQDUQa5CK4K7Qu2DHwNbA5eDzQQAhHMESMSVREWD+MLnQjEBSsDcwCq/UD7c/nv9yv2EvQi8t/wQ/Dj74nvfu8r8IzxMfPA9Fb2Q/iB+pn8F/4D/8//ywDkAd8CxgPnBHIGLginCZsKEAsOC18KvAhGBrYDAwK9AbcCTATmBUsHgQhyCcUJBgkNBzUEQQH9/tz9z/1h/uv+zf6v/aT7Ifmt9oT0kfLG8IDva+/k8H/zPPZM+KX5yfoY/HP9k/6O/90A1gJCBZIHYgmyCpcL5AtXCxYKxwgZCC8IlwjRCLkIXwiiBywG6QNbAVT/PP7H/WL93vyP/MD8M/1C/YL8NPsA+lP5EfnY+G346Pd09xf3t/ZR9gn2BvZY9gn3OPgU+pX8Uf+yAWgDpwTuBYcHPgmcCmALvAsYDKQMIw0qDX4MOwuyCR8IlgYOBYAD7gFbAMv+Tf31+9T65PkU+Vb4uPdP9yj3L/dE91X3fPfr97j4uPmS+g77S/us+238Z/01/qj+Bv/F/wsBhwK9A3kE4QQiBTwFHwXpBNIE1wShBO4DAQOFAuECxQN7BLwE+AS3BdIGaQe7BuUEuwL6AMf/7/5b/iD+Fv7G/df8ivuC+hT66Plx+af4H/hd+Dr5Dfpq+o369vrB+4v89PwO/UD9xf15/iP/yv+rANsBGwMaBMMEQgW5BRQGNQY0BlsG2AZ8B9wHsgcSB0wGmwX1BC8ENgMrAkcBqAA2ALn//f70/bn8ffts+pz5BvmO+Cf43vfh91P4JPkF+p76zPrH+vH6jPuQ/MH96v4DABsBNAIuA+ADOwRgBJIEBAWxBVsGsAaSBjAG5QXjBQoGAwaSBcwEAAR6A04DSQMaA3kCVAHl/5X+tf1C/er8Yvys+wv7qfpa+s/59vgl+Mz3D/iq+Dz5mPna+TH6wPqP+5r8xv3o/uj/5AAaApoDCQXTBawF2wQQBN4DXwRDBSEGtAbxBu0GwQZxBt4F3AR1AwgCIwEeAdEBsQI5AzQDuALyAQAB7f+6/lv9zPs6+gP5eviQ+M34tvhD+OH39fdy+Pj4SfmV+Tr6XPvA/BP+OP87ACkB/QHHArYD3QQFBscG+QbYBs0G7gbtBnIGkgXIBHkEkwSmBFMEmwPAAvgBPAFuAIn/sP4I/p39Xf00/Rn9A/3m/LH8ZfwV/M/7ifsm+6X6PPo0+qb6UPvM++779PtE/Pv81f13/tz+XP9KAJwB+gIcBAIF0wWbBj8HsgcJCFYIfwhUCNAHMge4BlIGqgV9BO0CXwEZAAj/+P3j/Pf7WPvs+nT60/kr+bT4iPiW+L74+fhL+bb5MPqy+kL75Pua/F/9I/7X/mz/0P/5/+7/zf/D/wEAqQCyAewCHAQlBQgGxQZLB4YHhAd/B68HGAiACKsIkAg9CK4HxQZtBbcD0AHb/+f9APxM+vz4Ffhy9/D2l/aF9rf2CPdS95v3B/it+IT5dPqC+778Ef5B/ykA3QCLAU0CEQO4A0AEwAREBa8F4QXcBb8FiwUpBZkECQSqA4EDZAMnA8ICUwLiAUsBbQBp/5f+LP4K/vP9w/16/SP9v/xB/KD75Pos+pX5N/k3+bH5ifpl+/f7Pvx2/OP8o/2i/qX/iQBkAWwCvAM0BYYGYAelB44HeQePB64Hmwc/B68GEAZ7BewESwR/A3oCQAH9//7+bP4Z/qn98vwc/G37/vqn+i76l/km+RP5TPmM+aj5nPlv+TD5Bvkv+dP53voH/A/9+f3s/ur/wwBHAY4B7QGvAs8DEAU9BlAHQAjpCCoJEQnGCGgIBwivB2cHLAfxBokGvQWGBBcDmwEMAGD+ufxP+0X6o/lU+Sr5/PjF+Jj4hvig+O74ZPnk+Wz6Evvb+7X8iP1C/tz+Wf/H/0AA3wCxAZwCZgPqAz8EjQTUBPEEzwSMBGMEbwScBMEEygS9BJsETASyA9QC3wH5AB0APf98/g7+6P3D/W397fxa/NH7avsZ+8j6kPqs+hP7gvvp+2f87/xK/YD9x/02/sj+hv9gAB0BtgFfAh0DsQMCBDgEZwSGBLIEDAVtBaAFoQWGBU4F+ASNBPsDMANUAqEBHAGsAEEAzf84/4H+t/3f/Ar8WvvX+mr6Hvod+k/6afpO+hn65PnT+R76xvqP+2T8aP2G/nD/DQCCAMoA2ADjADYB0AGXAoUDfwRKBeEFawbUBtoGhAYZBsMFhgVmBVQFIgW+BD4EpwPgAuoB1QCk/2H+Pv1d/LD7F/uH+gP6lPlM+Sr5Evn8+AT5PPmW+Qf6nfpd+zn8Gv3q/aT+ZP9CACYB5QGDAiMD3QOhBEgFowWoBYYFZgU9BfUEpgRwBEYEFQTUA28DxgLnAfsADwAl/2X++/3R/bn9rf2o/YT9Kv24/E784ft5+0n7aPuw+/n7Tfyz/B79hP3i/Rr+G/4m/o/+Sv///5AAKQHjAZ8CPgO3AwMENQR9BN8EHQUeBRwFPQVNBRQFngQDBEoDggLJARsBZwC9/yn/kP7j/UH9vvxF/M37ZfsS+9b6xvr0+kH7i/vE++37DvxV/Nv8a/3H/Q/+i/5B//3/kwDlAOEAtwC1APAARgHBAYECYgMdBLMETwXeBSIGEgbaBZwFdAV/Ba8FuQVpBc0E9QPLAlsB6v+l/nL9QPxC+6P6P/re+Xb5Dfmr+HX4lPj2+Gf58vnA+rf7lPxM/fv9lf4G/3b/FgDeALIBjgJkAxQElwT1BBwF/QTABJkEkQSRBJsEtgTQBMsEiwQKBFwDowLlAR0BZgDs/63/gf9E//P+n/5a/hT+lf3N/Af8iftG+xj7/fr/+h37WPuk+9n79vsz/KL8CP1T/cD9bf45/xsAGgEBAqICLQPWA3gE+QR1BdYF1gWSBXAFZgUYBYsE/QNcA4oCugEaAYQA7P9//y3/tf4v/uD9pv0s/Xn8zvtI+/L63/r7+hr7Pvt3+6P7rfu1+8v75fsl/L38lP16/mz/WAAHAYMBDgKMAqwCngLUAkoDxQNqBF0FOgaoBtEG0AZ0BuQFkAVkBfMEWwQOBOIDWANzAnUBTwDz/q/9sfzK+/D6Yvoa+sr5cvlU+Wn5a/lS+V/5uPlb+jb7Hvzb/GX96/2V/lT/+v9rALgADAGJATMC+AK3A0gEowTYBOgEwQR2BDoEJAQhBCUEKAQXBOQDkwMYA2QCkgHVADoAt/9S/w7/yP5p/v39if0I/Y38L/zU+2z7J/sw+2r7tPsZ/JP88vwp/WP9tv0a/qL+W/8UAKIAIgG3AUkCtQIPA24DxQMGBDgEWgRhBFEENwQOBMcDbAMYA88CdwL5AWUB3wB5ACAAvP87/5n+5/1O/dz8b/z2+5P7YvtH+yj7D/sN+yr7dvvk+0T8gPzE/DL9sP0n/rH+Y/82ABcB4QFbAnsCgwKcAqwCrwLbAkADtAMnBJsE6gTwBNsEzQSZBBwEmANFAwgD1ALIAsUCZwKjAcgA7v/q/s394fwv/JX7KPv6+sL6RPrF+Z35tPnS+RD6kvot+8L7dPxI/fj9b/71/qP/OACfABsBzAGJAkED+gOFBLUEuwThBAIF1wRxBBQE0QOcA3gDWwMlA8wCVwK8AfYANQCs/1z/Jv/q/qD+Yf5G/i3+4v1w/Q39tPxK/O/7zfvV+/n7U/zF/AH9Ev1V/c79Of6i/jv/2f9IAMEAcwEaAoUC5QJPA48DsgP4A0UEVAREBEwEQATwA4gDKwOqAgICbQHuAGAA4v+b/1j/4/5f/ub9X/3e/Jv8g/xd/D/8TPxh/FX8P/wr/BH8Gvxp/M78Fv1k/dv9V/69/hj/ZP+o/w8AnQAUAWwB5wGAAuoCFwM1A00DYwOrAyMEdASLBLcE9wTtBJcESAT5A3YD9gK3AnMC5QFHAbgA7f/h/v39Tf2C/L37XftC+wv7zfrG+tf66Pov+7f7Lfxy/Mb8Rf3M/U7+3f5j/8T/HQCPAAkBbAHAARoCdgLBAvUCEwMlAzQDOgMnAwgD+AL9AgcDCAPtAqcCTwL7AZUBDgGMACUAvv9L/+r+ov5V/vj9gf3r/GL8IvwX/AX87fvq+//7Ofyk/BX9Zf2+/UX+wP4T/3f/AwCCAO4AcAHzAUQCeQK7AusC9QIVA3MDzAPiA9ADwQOjA3ADUwNHAwkDkQIpAt4BbAHQAEMAx/81/6T+Mv64/SD9oPxV/Bf81vu++9n79fv2++f74Pv2+zP8i/zu/Fn90/1i/vz+iv8AAHcAAgF+AcgB9AEpAmMCjQK1AuwCJgNeA54D2APjA70DkQNiAxUDxAKcAn8COgLnAawBbwEUAa8AMwCA/7r+Hv6U/fr8efw4/BT86/vI+6z7kvuZ+9j7Kvxl/Jr88vx6/Rr+rv4h/3L/uv8jAMIAaQHdASQCYwKUAqoCwwLpAvsC9QLvAtwCtQKpAsUCywKWAkQC6wGRAUcBAwGqAE0ACAC2/zr/wf5n/hj+1P2q/Xj9LP31/On81fyw/LP87Pwp/VP9hv3X/UT+wv5J/8b/GwBPAJQA/gBeAagBEwKaAu8CBgMhAzcDFQPnAuoC6wKzAnwCcwJWAgYCwgGhAWAB7QB6AAwAhP8B/8H+o/5e/gD+x/2t/Yn9aP1X/Tr9Cf3q/OX84vzy/Cz9d/22/fX9Q/6a/vj+Sv91/5P/0v8oAG8AsQACAVQBqAEXApMC9gJBA34DnQOeA6wD2wMJBAcEwQNQA9YCXwLqAXwBCAF6ANv/Ov+O/t79VP3s/H38EvzU+8H71/sk/Hj8l/yt/Pf8Uv2g/Q3+jP7b/if/uv9QAKAA8wB2AdQB/QE3AnACcQJ6AsoCFwMhAxoDHAMAA8wCpgKEAkwCAAKlATcBwgBXAPL/i/8g/7D+R/7y/aL9UP0S/f78/vzv/Mz8sPy5/Oz8Mv11/a/95v0w/pf+Cv9y/9v/SwCgAM0A7wAhAWgBzQE/AogCpALAAt4C2wLLAsMCogJhAjoCMAILAtoB1AHRAYIB/wCMACcAxP+L/3T/Jf+H/v/9xP2N/Tf9Av35/N/8yPz1/DX9Pf1L/ab9CP5B/pf+Ev9X/3D/qv/z/y4AiQABAUoBcQG1AfYBHgJqAtUCEQM3A4cDxQO3A6MDngNYA+ECmQJdAtMBIwGgAC4AoP8S/47++P1g/f/81Pyn/FX8Cvz5+xT8Mvxi/MD8Jf1w/br9Af4Y/iL+dP79/nP/0P8wAIkA3ABEAasB7wEgAlYCgwKpAtMC8wIFAxwDJAP1AqwCfQJbAh4CyAFfAeYAdQAkANj/df8D/6D+W/4t/gv+8P3l/eL9z/2w/Z39nv2m/a/9tv26/cn9Av5w/vX+Zf+z//T/MQBoALEAHAGLAdwBJwJ9AsAC6QILAxID6QK0ApMCbgJGAisC9gGRATIB7QCQACgA3f9+/+v+gf5j/jX+4f2u/Yf9L/3m/Ov89fzR/MP88Pwl/Vz9q/3z/RP+I/5T/rf+Pv/A/zMAowD+ADMBdQHtAWYCwAIpA5kD0APkAw8EJQT9A9MDvQN8AwkDjgL7AUEBmgAYAIP/3v5a/uf9bv0d/f380fyL/F38TPw4/Db8Zfym/M/8+fxQ/cf9Mv6U/gb/av+X/7v/EgB5AMgANAHIASwCSQJ2Ar8C4ALoAg4DKQMDA9ECvgKTAjkC5wGwAWkBFgHRAIEABgCD/xf/r/5N/h3+FP73/cb9rf2b/Xr9gv3A/dv9zv0E/nv+wP7i/jH/bv9q/57/NwCgALsADAGBAaMBsAELAlkCVwJnApYCdwIpAhwCJALuAaoBeQEoAcYAlQBsAAUAiv81/+7+qv6G/nL+Pv71/cb9rv2K/WX9af2H/Y39i/24/fv9H/5L/qP+6P4J/2b/AQBhAHsArADiAO0ADQFbAXUBWAF8AeUBOQKAAtEC7QLbAvcCLAMgA/UC5wLGAoYCcQJxAh8CjAEDAWcAoP8J/8T+bv7e/WH9Ff3W/Ln82/z3/M/8qfza/Dz9kP3V/Qn+Dv4O/kr+pf7d/gb/Q/9//8H/MwCxAAMBSAGkAesBHgJ6At0C7wLLAroCrwKiAsUC9QK9AhYCaAHeAG8AKwAJAMj/Tf/J/m7+Rf5A/kv+Uv49/vz9s/2m/dj9F/5V/o7+p/6w/u/+Yf/A/wQAQQBoAIoA4QBWAa4B+gFFAlUCKgIOAv0BzQGxAcsBywGQAV4BNQHYAGUAEgDB/2D/G//5/tb+tv6l/pL+ff5s/kn+Ef7o/cn9rP3H/TT+rf4K/2j/t//T//b/VQC2AOMAAwEqAT8BVQGJAaoBiAE+AfUAsQCCAHYAZQAoANj/mv9u/1T/WP9j/07/Kv8u/1b/eP+b/9P/9v/i/8X/wP+n/3n/gf+7/9T/zv/o/w4AGgA5AIIArACZAH4AcQBUADsASQBsAIkAowC8AMkAxACqAHkAOADw/7D/jv+I/3//bv9j/1j/S/9M/0z/Lf8Y/zD/TP9Q/17/av9L/zj/bv+t/8L/7P82AFQATQBxAKsAwwDjAB8BNQEZAREBMwFXAWkBZAE9AQIB0wC3AK4ArQCTAF0ALgD4/5//T/80/yX/DP8O/x7/B//n/uX+zf6R/nb+hf6J/pX+yv70/gH/N/+N/7H/s//k/yYAPwBXAIcAkAB1AJoA/QA0ASsBLAEzARIB9QATAS0BCgHtAAAB/gDMAL0A1gDEAIsAcwBiACgAAAAJAPT/q/+G/4f/av9A/zP/F//g/uD+Gf8t/w////7w/r3+of7F/uv+6v73/h//Kf8W/zL/ef+Z/5D/pv/a//7/MwCZANcAsQCIAKcA0QDrAC4BdAFoAUQBXwF/AXIBeQGSAWIBDAHzAPgA6gD9ACgBAQGhAHoAeABRAC0AHQDN/0//GP8j/xT/8/7o/sb+f/5j/oX+o/6f/pL+e/5V/kn+dP65/uj+8/7r/ub+8/4c/1v/mP/D/+//LAB0AMIAHAF0Ab4BBQJAAlMCSAJAAjECBgLaAbMBbwEWAeAAwQCHADcA6v+J/xH/u/6c/ob+Zf5M/jr+Kf4w/mP+pf7S/uH+3P7L/sX+4v4n/4H/2/8vAHoAwgAYAXgBwAHhAewB6QHhAfcBKwJFAi8CFgIHAu0B0gG+AXcB3wAyAKD/G/+u/mr+MP7n/bP9qP2t/a39mv1b/Qr95/z9/DD9ff3T/RH+Vf7c/oX/CwBvAL4A4gD1ADMBkQHYARACRwJgAlgCWAJiAmACVgJFAhICzgGqAaYBoQGQAWIB+gBuAPj/rf98/1r/Q/8n//v+zv6y/p7+Z/4C/o/9N/0N/S/9p/0p/mT+bf5//pj+vf4W/5H/6/8sAIcA5QAkAWoBygEQAiUCLQIuAhsCIgJgApUCjAJhAi0C5wGpAZQBgQE/Ae4AtABuAAIAmv9K//D+o/6d/rv+p/5h/hj+u/1L/SD9UP19/YD9j/2y/cf97v0+/mn+R/4w/mX+y/5T//z/iADJAPgARQGSAcQB6wEBAvIB4AH3ASICPwJKAjoC7wFzAQYBzACzAKUAogCTAFQAAQDN/6f/ZP8l/xD/B//6/gz/Lf8R/8L+h/5s/mX+nf4b/4X/rv++/8H/pv+a/7v/2P/Y/+f/CwAcACgARgBSADcAIAAdABQAHgBqANsAMAFdAWIBMQHlAMcA4AD/AAUB/gDkALQAhABcACUA1f+V/4T/kv+k/5z/Wf/W/lP+F/4x/o7+C/9x/5X/kf+X/6n/v//p/yIATgB+AM8AIAFCAT0BKAH5AMgAxQDvABEBGgEQAeMAjQA8ABEA+f/r//H/+v/m/7b/eP8i/7T+Wv4y/i7+Qv5p/oD+af5B/jr+T/5v/qr+9/4y/2v/zf8+AIMAoACwAKgAlACsAOkACAEHARYBLAE0AU0BeAF5AUMBBwHIAGsAFADp/9D/s/+s/6z/hP9G/yX/Iv8n/0j/gf+g/6H/sf/V/+z//P8bADUAQQBkAKUAzwDKALgAogB9AGcAdQCGAHwAegCOAJQAggBzAF8AOQAiADQARwA2ABcA8P+v/27/V/9Y/1D/UP9k/27/bv+J/7L/vP+t/6P/mP+N/6v/7/8ZAAsA5f+0/4j/l//5/2cAlwCDADwA1/+W/7b/EQBUAGUAVAAkAPb//v8vAEUAMwAeAAoA/f8bAGIAlACWAIMAXwAhAPH/9v8PABoAJQAtABQA8f/8/y0AWwCGALEAvwC0AMMA5wDoALsAfAA1APL/3P/z//j/1/+//8D/x//Q/9j/tf9q/zn/SP9w/5H/qv+g/2L/H/8A//T+8f4Z/2r/uv8HAGcAwwD3ABEBEAHWAG0AEADK/3r/IP/d/rr+0v5T/y0A/ACDAcsB3wHGAasBowGKAU0BEAHVAG0A0v8r/4v+B/7O/eb9Cf4H/vH90/2l/Y39uv0b/pL+H/+q//f/AwAFABUAKgBWAKgA/gBEAZkB+gE5AlMCbgKLApoCtALhAvECxQJzAvsBUAGZAAwAoP81/9L+f/4e/rf9dP1W/UT9Tv2K/c/98P31/ev9xv2j/a390f3q/Qj+R/6N/sT+/v5A/33/2f99AEwBDQK1AkADjgOkA7EDwwO/A60DlgNWA9ICLAJ+AbsA+f9u/yP/9P7Q/qn+Wf7x/cP97f06/nX+lv6W/oH+gf6V/nz+JP7b/eb9Rv7p/qP/IgBCADUALQArAEQAqQBRAfYBZAJ9AigCigEMAeAA4wDzAAYB/QC1AEcA3f+J/2f/mv/1/xUA4/+X/2H/VP90/5n/gv8//yP/SP98/5f/lP9z/1b/fv/t/2AAsADlAPIAvQBmACIACAAzALkAZgHNAcMBawHvAHMAKgAbAA4A5//H/7f/of+G/3j/ZP9J/1D/hP+2/83/5P8DABkAKwAxAAEApv90/5z/9P88AFAAJADe/9j/LACEAIwATgADANr/9v9GAHcAVQAUAPD/5v/f/93/2f/L/8r/2f/A/2L///7d/gb/ZP/V/xEA8P+p/4n/nP/Q/xgARgAvAPP/5v8jAIsA8gAZAc0APQDp/xYAnAAhAU8B5gAFADD/z/7l/kn/x/8XAAkAyP+l/8D/FwCTAOwAzgBKAMD/ev+H/93/TgCQAJEAdgBLAPj/kP9O/0v/g//o/0oAbABYAFYAdgCGAGEADgCr/37/yP9dALQAdgC+/+P+QP4h/nj+7P46/3P/pf/C/8n/0P/a//f/SwDSAFABnAHAAbQBWgG3APn/S//n/vv+XP+U/13/4/51/k7+jP4L/3z/xv8VAHAAlQBPALX/DP+2/vj+pv80AFMANgA7AIkAAQFUATMBuQBvALkAcgEoAn8CUgLIAUcBDAHoAI0A7f8p/3r+P/6+/tr/IQEaAl8CwgGQAH//GP9c/+f/LgDB/6n+b/2b/Eb8RPxp/Jb80vxU/Tj+Rf8zAOkAYwGYAZ8BpQG9AeYBHgI7AvIBLwFQAM//6P+LAFUBuwF5AdQASwAjAGQA6QBeAXIBGQF6ALn//v53/iD+x/1h/Sn9Xv0O/gD/t/+w//P+OP5U/p7/uwHDA54EpgMNAab9a/pD+MP34vgV+7P9OgBXAvYDPgVJBhIHrQdACLgIugjpBxUGZgNxAAH+lfwl/Gb8+/xv/V/9svyi+6/6g/qN+379Zf9WAP//t/5A/VH8GPxC/H78zfxX/TX+ZP/AAA0CMQNIBGQFcQZVB/wHOgjVB7kGAgX3AhYB4f93/2z/M/94/lD9QPzt+5L8xv3a/lz/Ov+r/vz9S/10/Gr7c/rm+dr5JfqN+uf6QfvY+8v88/0r/5AASgJKBDwGsQdfCGwIUwhtCJYIcAjJB60GRQW1AwMCPQCu/tT92P1G/mv+5/3y/Cv8Ffyc/Bv9Af1J/FX7iPoP+uz5Cvpm+gb7z/uF/Br9z/3e/isAVwEMAkkCegIiA0kEWwWzBSgFHgQtA7wCugK/AoECGgLMAbcByAHOAZgBHQGVAEUAQgBrAHoAIQAz/9z9fPxh+7P6hvrn+tb7M/22/vL/pwAFAXgBJAKcAiMCQwBO/W/6APmm+fr78v6QAVsDggSSBfEGjQjqCWQKgAlHB18EpQGa/yP+vfz5+vT4ZfcS9yb4Avqr+1b85vv8+pj6aPtc/ab/LQEwAdD/CP72/BP9AP78/or/1P9tAK8BZgMcBZgG8Ac/CVQKxQpPCjUJDQgjBxwGWQSvAbP+Wfw0+wj7GPvo+qP6yfqT+7D8kP3Q/XT9u/zd+/X6LPrE+dj5KfpI+v75lvmw+cX6vPwO/z0BNAMSBdYGPAj+CCgJIAlBCXIJNAkbCEAGMQR/AlsBjwDc/0H/9v4Z/3n/tP98/8/+6P0T/X/8L/wH/Nv7gPvf+gb6Lvmk+K/4evn5+t/8ov60/9P/TP/l/l3/6QAIA+ME5QUUBuYF0wX6BRcGpQUIBMcA9PuU9p7yIvIC9hP9ggR3CcUKcAmuBz8HZAgVCvkKRwr0B18EDgCi+9P3RPU89JP06vXu91v6zfyk/lL/0f7U/Wb9N/4hADcCTgOaAgoAXvz4+Ff3YPjB+///TgOzBJ8EdARcBW0HvwlKC6cLEwvrCT8I8wUtA3oAeP5V/cD8OfyD+6v61fkS+Y74t/gP+pf8bv8vAdoAn/7A+6f56vgQ+Sr5rfjU91b31Pd4+fT7vv5XAYcDagVPB2EJXwukDKAMXQuWCTwIsgeIB9gGFwWKAh0Atv6u/rT/FwEkAmICsgFZAOX+3v1w/Uj91vzF+zv6r/iG99b2hfaG9vP26vdf+SP7Dv0M//UAagL7AocCgAG1AMcAwwEkA0kEzQSjBPoDLgO5Au4CfwNJA/IAOPzf9iH0o/ZN/uAH2Q5fEP8M/QfkBEEFCQi0CvkK7Qc4ApT7DfYn8zHzGfUW9973iPdU93L41vog/cj9fPyM+u35qvsJ//sBiQIiAAf8nPgL+Bn7rABjBukJSQp0CJwGvAZZCT4NWhAOEQQPJwvhBkMDlgCA/oP8g/rv+G/4Rfnf+gT8q/va+dT3SvcO+VL8Ff9y/+/8wfj/9Evz8/P49d73r/iR+J34E/pv/f4BRgYICRwKbgojC5kMGA50DhQNfQrzB6AG4wYtCGQJcAmzB2YErgAl/u/9zv8RAp0CZAA0/Bf40/W59bL2SvfK9nj1GvRg86zzHvWX95P6Of3O/jr/IP9P/yEAYwHGAkkEEAbHB38IXgeeBNIB2QBuAo0FTwhkCcQIFwelBB4BdPzR9171zPbk+2UCZAcECUYHngP9/xD+z/4WAlMG5gh7B7YB3/mk867x4POx90H6cvpO+bD4i/lX++j8qv0d/jD/RAG1A0gFCwX7Ag8Avv1J/Rv/hQL/BeoHdQcnBZ4CpgEiA3IGyQkjC3IJNQVDAMX8Dfzj/cMA0gL4AmIBKv9+/en8Mf29/R3+QP5L/kP+5f3T/Of6e/hX9kz1sPUa96D4YPkc+Vn4DPgH+Y37Ov8zA4IGbgjYCFsIDAjLCJUKcAwkDT0Mbwr4CIEIhAjhBwUGkQPDAUUBegECAfb+p/tJ+Pn1DfU/9TL2qPc/+UP6FfrQ+HT3LPdN+Af6Lvtd+0j77PuD/UL/PABpAMQAYwJpBdcISQvJCwsKNAa3ALP6IfY59Rr5rwD/CMcOWBBNDtUKPQjdB8IJ2gxbD1kPqQvCBMr8f/Z980fz1/NR82nxUO9v7iTvqfAJ8hjzgvT+9oH6Kv7iAAgCtgGQAHb/R/+TAEMDdAbUCHgJkghrB30HcgmyDOIPyhHqEYAQIQ5vC/II+AZiBYsDnQBA/C73EvOa8V/zZ/em+xn+zP0s+5v3tvSZ82/0ZvYH+Pb3svX98Yfu++wb7mvxt/Xv+bn9UgH8BJQIrQsIDuUP1hEnFHMWxhdIF9oUOhGQDcEKFAlDCMMH/wZ9BfoCnv8T/En58Pf996H4zPjS97X1+fI88Afu1ewb7RXvZPIC9rj42vm++Xz5J/oi/PX+sQGJAy0E6QN1A6YDAwVlB/AJjQuhC4sKZwlJCX0KVwyeDTkNowokBssARPxI+qz7ov/WA7MFEgQKACj8kfqT+6z96v5l/qb84Prq+cT57/nz+a35PPnv+DT5avp9/Jn+df84/lv7o/j49wP6pf3TABkCiAFkAPf/pwDyASYDBQTTBOIFKAc/CL8IiAjWBxYHpAadBsUGnQagBZwD9QCK/j79d/3d/o0AmAFyASEAI/4k/Lj6HPon+mH6U/rI+d742Pfg9uv17/QZ9N7ztvS/9pf5ivz4/qUAvAGkAsUDYgWHBwIKaQw4Dg8P7w49DoMNFQ3bDG8McQvRCdMHygXcA+wB1P+a/X77zvme+MD37vYL9jv1t/SW9LT03vQC9UH1yvWv9tn3J/mQ+hb8ov33/tb/PwCGAB4BQgLBAyMFCQZmBnUGcgZiBikGtwUwBccEjQRaBPMDSAONAg4C8gEeAlECZQJoAoQC0wI9A5EDrAOOA0wD5wI+AiUBm//b/UT8E/s3+mT5Svjh9mj1O/SZ84zzBfT/9IL2gfjB+uH8oP4CAFEB3AK0BKsGfQj8CRsLxwvXCycL0Qk1CMwGzwUeBW8EowPjAnUCYQJbAvgBFAH7/y7/+v42/2v/Nf+R/sn9IP2Q/NP7qvoh+Yn3QfZ49ST1GPUi9SL1EfUX9YT1sfbE+IX7dP4RASMDvwQfBmEHeghICcgJHQp+CgkLoAvyC6cLoQoYCZEHlAZdBrYGDgfTBsoFNASUAlABagCU/4H+LP3O+576mfmN+Ff3CPbX9O7zU/MG8x7zw/Py9GH2n/dr+O34l/nC+mP8Gf6H/5YAdQFKAgoDjgPUAx4EugSvBasGTweJB7cHUQh/CfQKJQy8DM8MtAytDKgMUgxkC9cJ3gevBVcDzgAh/n/7EPnO9o/0S/JI8PPuh+7S7mzvFPDh8BPyuvOi9Yb3UPkk+yv9Xv+BAUoDjQRLBasF6AU2Bq4GSAfnB3EI0wgICRIJAgnuCN4IxgiQCD4I6QelB1gHyQbVBY4EJAOsAQ0ANP47/FL6h/i19sL05vKV8RvxTPGx8f3xTfL48jL05vXb9+/5Efwp/g4ApQEBA00EqAUTB3YIrQmKCuwK4gq1CrYK9QowCxwLtApACvEJpAkECe0HnAZhBUYEBgNlAXT/g/3K+0L6zfhk9yD2FPU69IfzDPPr8kDzDvQ89Y/2t/dy+MP4DfnK+Sb70vxK/kb/3/9eAO8ApQGcAvsDvgWSBwkJ/gmzCokLpQzcDeoOoA/kD5YPog4ZDTULHAnIBiMERwGE/hP82/mK9/n0Z/JT8B3v0u5J70/wq/EU8zz0B/Wr9Zr2Lfhq+v78af9EAWkCAQNuAyAEUwX1BqkI+gmWCnoK8gluCT8JZAmTCXEJ1AjZB8MGygX8BEgElAPLAuUB5QDV/73+mf1h/Av7ovlE+BL3JvaA9Qn1qfRZ9DD0TPSy9Er1/fXa9hb40/n3+zP+QgAUAr0DTgXCBhUISglgCjsLtQvJC5ULOQu3CgQKMwlxCNsHUgemBswF6AQFBPACbgGX/+D9rPzi+w/76/md+ID3qPbW9d30/fOw8y/0N/VJ9h73yfeC+G35jPrU+zT9jv6//7oAhwEzAsECPgPPA58ErwXWBuwH9QgIChQL2Qs0DFoMogweDWoNEg39C38K7whOB2EFDQN/AAH+tvug+cX3NPbk9LLzi/KX8RvxL/Gk8UHy/fIB9GD1/Pap+F76I/zf/Vv/gwCUAesCngRUBpMHKAhDCDcIMwg7CEoIZAiCCIYISgi+B/gGIgZsBe8EmgQ0BIIDfAJbAVcAbP9b/v78hPtB+lT5jfi59+b2Tvb59aj1KfW19Mj0o/UB91r4cPl4+sr7e/1f/z0B+AJ3BJkFWgb4BskH5Qj7CZYKhwoCCl0JyghQCOgHhAcBBzMGEwXWA70CzAHIAH//Af6R/F37X/qF+dL4SPjQ90T3rPZF9kv2sfY798P3Xfgl+f/5rvoh+4/7Kvzi/H/9A/7C/gQAmwEDA+0DkQRsBbMGLgiOCcoKAwwpDeQN6g1QDXAMiQuLCk0JygcgBk8EKgKU/8j8R/px+Ev3jPbq9Un1uvRe9Fr0zPSn9a32h/cQ+H74PPmY+nj8av7v/88ANgGMASwCMANoBIMFTAbBBv8GKQdOB3QHjAd0B/wGDgbTBKkD4QJ9AioCigGHAGj/mP5L/lb+Vv4E/mH9ovz0+2H75vqV+oP6nfqW+jD6hPkD+Q75lfk1+qb6Cfuy+7v89P0o/2EAvQEoA2QEYAVlBsMHWAmMCuoKjAr1CXYJ7QgfCBcHEgYhBREExwKGAaEA+P8D/3v9z/vJ+q365vql+rz5tPgt+EX4rvgY+WH5afkR+X/4Nvio+KL5V/ol+kf5rfgo+dD6IP12/1oBigIaA5ADpwSoBgIJyAqhCx8MAg1FDhQPxA6DDRcM9gryCbUIQge+BfkDigF//qz7AfqG+Uj5V/i49jz1ivSF9Ln0+fR19Tb29fZy9933mfiy+dH6vvvH/Fn+UgDyAawC3wKOA1kF2QcCCg0L/gpeCskJpgkXCtgKPQuNCqgITQacBCkEigS2BNQDuQHk/ib8NfpX+ST5vfhw91T1RfMq8jXy3vJ+8+XzT/Ts9LD1jfa194D5+vu//kMBQgPYBEIGoQf/CHEKAAx2DWUOfA7jDSwN1gzXDKkMxwseCgQI6gUEBFACtAAT/0n9Q/sw+YT3q/aR9o726PV59N/y7fEA8szyxfOd9Fb1CvbG9qX30Pg7+mz7yvtJ+8v6lvs9/hAClwW4B3gI1Aj5CYAMIRDKEyQWUBZ+FOoRARBiD3cPCg8rDcUJgwVZART+7vtm+oL4iPW58T/uRuwL7NHsqu047qTuIu+3737w3PEn9C73Pvq8/KD+QQDPAT0DmgRCBnYI1AqIDCANEA1ADRwOLg+3D2UPbA4ZDZELCQrdCC4IdAfEBckCUf/C/M77z/tg+5L5kvZb8/Xw7e8r8AvxovFT8U/wj+8Z8C/yJvX+9xb6dPuL/OX93/+AAlcFvgdWCWMKjAssDfYOTBDqEAsR/RCxEO4Pvw6KDY8MgwvOCTQHIwRNARH/Uv29+xH6HPi59QPzjPAR7+Huge8L8Pjvg+9T793vI/Hs8hD1dffh+fT7Yf02/u3+MwB6ApIFgggBClsJLAc7BWIFNwiKDBUQ9BDgDncLVglwCpUOPhMXFVwSTQxlBsoD/wSeB0QIBQWV/pv32/KO8cnyLPR38wzwXuvo52rnyelc7UjwtfH/8STyCPMd9Vj4Q/wrAF8DhQW/BpQHqwh9ChENyg+iEc8RdBC/DhUO/A6cEF8RIxAMDV4JmQaFBbsF8wXVBN4Bxf0J+u73lPfx95b3tvWi8oDvi+1a7ZXuL/Aa8fjwWfBN8JbxJvRA9xn6VfwR/qP/XwF/AxcG+gi1C8sNCA+yD1gQZxHVEhsUjhTPExgSHhCWDrkNGQ32C8sJnQbpAlL/V/wm+ov4AfcI9Yfy/+8r7mvtae1t7f7sTuwR7Ovs8+6b8RL0zvX79lv4pfrG/dQA1QK3A3gENQb9CJ8LqQyzC7cJXgjeCE4Lnw4cEUcR2A5OCz8JhwqXDnISyxKeDhgI+wK8Aa4DlgUvBJb+9fbv8P7uxfBy8+/zD/E07Bfo5+YQ6Ubta/HE89/z5PLk8nL1b/oRAFUEeAZJBxoIlwmWC7QNyA+mEcsSoBIoEU4POQ5mDkYPtg+9DgsMHggrBKEBPQFAAqMCigDZ+3/2AvOQ8if0f/XC9MfxBO6J66brHe5L8U/zWPMy8pPxxvLR9an5CP0r/xcAfABYAW0DtQZHCgENbw4RD7EPjhBMEaARyBEiEnYS6RHrD/oMUQrECAAI8wbYBMQBXf5G++P4Yfef9gL2tvRi8rLv7e3Y7f/uFvAo8GLv0e5v72fxHfS59rH4Cfo/+/T8f/+dApMFsgfXCIoJeArPC/cM/wxwC/wITAfkB8wKKA5hDzAN7QjEBT0GHgpqDqcPdwyFBhgBtP6D/4UBDwJ7/yb6Q/SS8JLwT/PK9Qz1gPCh6j3nk+il7Rvz8vWW9fHzmvPn9Ub6Bf+QAlUE2gRABYgG9gj2C5gOPBDjEOoQmxAaEKMPpQ9ZEEMRQhFWD40LJAfHA3sC8QKvA+kCo/+C+pz1IvOr8431FPax80nveet56nbstO8B8jDyqvAH7yDv+vEC9zP8Uv+X/17+Fv5YAMIEgQnSDCIOCw6uDQ8OsA9CEqYUhhVXFOIRpw+aDm4OCQ6ZDBIK4wZ3AyIAWP16+2L6Pvk390n0X/GD7/fuJu9M7xPvmu4m7v/tfu7071Hy+PQd92X4MvlM+k38Pf+WAnwFIAdUB+IGRwehCaUNlBF3E30SYw+/Cw4JPgiLCToMZw7EDVcJ5QJF/pH+aAPgCGoKWAYL/+/4Jfd7+QH9WP7m+5f2G/Ey7g/vn/Ii9un2JvSa74Tsbe1S8pv47/yb/bT7Kvp6+9z/SgUrCTwKOgn6B/gHfQnWCxEOig8CEHwPQg7qDBcMCgxSDAcMewrBB6kEJwK0ABgAov+b/qz8DvqH9/310fV39rr2qPVk8x/xKvAA8QHzCPU39ln23fWO9Tf2KPjc+i39Ov5B/or+RwBzA9QGKglDCuwK6AsxDT4O0g5NDxQQ7hAVEQQQBA75C5EKugnFCP4GNgTVAJ39NPvC+d34z/cc9uDzsvE18LDv9O+P8AbxEPG88H/w9/CA8t30YPdp+d/6GvyL/WL/hwG+A7cFHgfKBwMIgAjvCUwMqw6/D7sO2gtICJIF+ATMBgcKgAwRDD8IEgMTAKEBwwZyC5ELMQZ1/i35Jvki/QgBCAFB/Bv1b+//7dzwevVJ+PX29/Fu7B7q1+wj8075FPzp+iv4MPfR+UL/4QQ6CJ0IRwc/BuAGKwkiDK4OKBBpEJIPEQ6uDEMMDQ1HDpQOGA05CjQH9wRhA50BKv9k/BX6qfjS9/j20PWF9Hbz6PLo8k3zu/PD8zbza/Ib8sjyQPS79Yz2uPbw9gT4TPp9/c4AYQO0BBIFkgV3ByULlA/rEuYT6BKYEXkRpBLaE68TshGbDooLLgl9B/0FOgQCAmj/sfwr+g34X/YE9djzwvKr8X7wNu//7T3tVO1k7iPw9fE487LzyvNx9Iz2LvpD/jIBFgKcAZoBjQNKBw0L6AxUDJYKxgk+C6YOGBI4E7QQXQsPBgkEjAaEC6EOhQyVBfb9hvoc/RgDbwduBlIA2/iE9Gr1D/p6/vn+lPq083ru6e3L8e72fvm49w/z8e5R7r7xTPcX/Dj+0v2q/Lb8zv5GArcFEQg0CaMJ4QknCpUKZAvIDIUO5Q8gEPYO3wyvChkJYQhUCFMIgAc3BawBGf4H/B78a/0C/nv8E/l79YXz0/N69cf2ZfY49HDxxu9W8MvyhvXN9iv2yvSA9Er2mPnx/Db/bgB6ATkD7AUoCTEMYg54D7cPzw9gEIERnRLvEiMSkxDgDmoNFAyLCpkIQQaqA/sAYP4E/PX5F/g+9l/0mPIM8b3voe7M7WntjO0J7pvuKe/n7xfxwfK79OT2PfnB+zL+OwDNAUwDQAXHB2gKbgx5Db4N4A2ADuEPlhF6EjkRWA0cCDcEAgRzB6ILsQy9CIoBYfv6+cn9rAMhB1QF8/6n96fz7vT0+bX+df9H+6L0je/N7hvylfbn+JP3x/Na8M/vtvJ+97H7t/3F/Vz98v3b/2MCswSTBk0IDgqLC1EMUAwIDB8M3gwEDvkOGA/xDY0LnwhZBrwFtAbmB4IHpgQwADb8hvpa+zH95/0y/IT4s/Sz8jbzLfWT9ur1VfNr8O7ugO9g8TjzNPRy9Kn0gfUv94f5MPzS/jgBaQOiBR0I0QpkDXcP+BArElITVhTQFG0UTBPzEekQPBB1D+gNPwvFB0cEkAHa/6H+/vxc+vD2kPMg8fbvxu/u7+jvdO+l7sztbu0B7pXvpvFk81D0qfQ/9cv2X/ln/Cz/VQEDA5YEWgZsCLoKCA0ID24QIBFEESgRFBEeER0RuBB5Dw0NjQmrBXsCzgCVAMYA+f9q/Zv5JvbC9Cj2cvmF/E/9J/ta92b0QfTx9nn6Wvxh+3j4z/Up9af27fhZ+jv6K/lw+Pn4xvoL/d/+7/+lALEBXgNMBcsGgQe1BwgI4wgfCjALmgs9C1sKaAnOCLkI5QiwCHkHLQV4AmgApv8CAKAApADE/1P+8Pwg/Bf8pvxG/VT9b/zK+hD55fds9zn3w/bV9bH0x/Ng84Hz+vOX9EX1J/aM97H5evxo//QB/APcBQkIigroDJcObg/BDwEQZRDVEBIR2xABEHkOgQyKCuoIgwfbBZUD5wB7/tP8zvvN+kz5Vvdk9enz/fJn8t3xOvGM8BHwHPDW8A7yR/Mh9Lb0i/UN9yf5U/sm/a3+TABJAowEyAbFCHcK3wv1DLoNSA64DvwO5w5jDooNhQxVC9kJDAgoBnwEFgO+ATsAov49/Tb8afuc+tD5O/n6+OD4pfg++Of31vf19wH45ffU9xD4kvgT+Vr5efm4+Un6Kvs+/Gv9m/6v/5YAaQFgApQD0wTEBTsGYgaKBtkGOgeAB5cHeQcaB20GkQXKBEgE6QNgA4wCrwExATEBZQFjAQYBeQD6/5//Xv83/zL/Pf8Z/5D+qP2i/ML7Fvt9+tX5F/lW+K33RvdC96T3Mvim+PT4a/ls+gL8y/1S/3oAfQGSAp8DYwTVBEUFBAb/BsAH4wd1B+kGpQa3Bt4G2AaWBi8GwQVSBdoEUAS4AyADlwIQAmIBYwAb/8/90/w4/L/7D/sU+gf5Mvis91/3N/dK96f3NvjA+DT5vvmV+qn7qPxQ/bv9S/5G/5YA4AHZAnsD7ANQBK8EBAVMBYcFqgWsBZcFfgV0BYIFqAXfBRMGHQbeBWYF9QTFBMcEowQABNkCewE+ADr/P/4W/bj7TPoB+e/3Fvd19hL29PUY9nT29vaI9x/4wviM+Y36u/vz/BP+Ef/6/+IA3QEAA1gEygUQB9gHEggACP4HLAhJCAQIYAfBBpUG5QZFBzEHggaOBdoEqATLBMYEKgTeAiwBf/8T/sr8Ufto+Sn39/RD80Ty4fHb8ffxKfKX8obzKPVx9w76i/yj/l8A9wGRAxgFXwZPBwAIkQgOCWsJnQmtCaoJkQlYCf8Imgg7COYHjwcjB5MGywXDBIoDRwIgAQgAzP5I/aD7IvoC+SX4QPcw9iH1Z/Qr9Ez0kfTj9Fr1HfZA97L4S/rX+yj9L/4U/x8AdgHzAjgEAAVVBYMF1QVXBtsGJwcnB/MGxQbfBlwHDgiYCLAIXAjsB68HqweTBxcHKwb+BLwDaALtAEH/cf2T+7z5BPib9q31MfXv9LP0e/Ru9LL0QvX/9dD2tvey+LD5nvqP+6v8Av57/+sANgJhA30EfQVBBskGOwe+B1gI+giSCQsKUwpYCgwKgAnmCGwIDgiqBzEHogbyBQIFvgMuAnoA0f49/ab7APpr+AT3yvWx9MTzIPPf8vryTPO681b0QfV09sf3Gfll+r37Of3b/pIATwICBIoFxQa5B5AIYwkuCtkKTgt8C3ALOgvbClIKswn/CBAI1QaDBWoEpwMNAz8C7QAq/2T99PvO+rH5ffg89xn2QPW99Gj0F/TC84bzkfMR9Av1SPaE96b40fkz+9b8kP4nAIkBzAIFBDAFQgYlB74H+AfaB44HXwebBzoI0Aj1CKsIRQgNCBYINggrCNsHaQfpBjAGFAWhA/YBJQBG/nX8s/r2+EX3rvU69AnzP/LX8bjx6vGN8pXzyvT89Sb3Y/jG+Tb7fvyW/bv+JwDGAUEDSwTnBF0F4gVpBtUGMwehByYIqwgXCVUJZglcCTcJ3AhSCMgHTQe3BvAFAAXjA5MCLwHb/5j+Uf31+2/61viK99X2gfYS9lT1hvQM9CP0v/SV9WP2N/c3+Gr5t/oZ/Jf9L//RAGcC5ANDBXgGeAdCCOcIawnFCfUJBwr/CeIJtQluCQcJoQhRCOUHIAcSBvcE5QPQAqwBaQAR/9r92/zO+2n60vhr92z21/WO9VD18PSX9JX0APW49ZX2c/c6+A75NPrB+3z9Hv+DALAByALoAwUFAAbEBk4HpAfVB/cHKgiRCCEJjwmOCTEJygiaCKsI0wi+CDMIXgeIBrYFwASgA1ECrACu/pT8mvrY+GX3OPYR9dfz1/Jc8lryqPI58/nzyPSq9bj26fcr+YH64fs8/ab+PgDfASkD6QNQBMoEowXKBuAHpAgdCXYJxAkECikKMgo0CjAK9wlpCbYIFAhtB5MGdAUFBDwCSwB5/tn8Zfsq+g/5zvds9kX1f/Tr83vzWfOT8yH0/vQB9uz2z/f1+Gb64PtA/Yn+sf+2AMQBBANtBNgFGgcLCLQITwkACqMKAgsFC8cKfwpSCjIK+QmECaoIUQeuBSwE9wLjAbYAP/9x/ZD7Cfrt+Pr3Ifd79uf1OfWe9FL0T/SF9Pf0gPX49Yn2cveO+Kj56Pp1/CP+uf8vAX4CpgPPBBcGTwdICAoJnAnkCeAJtgl9CTUJ1ghQCKIH6QY8BpcF9wRqBPEDjwNKAwoDpgIeAooBwQCR/xj+m/w2+/v5/fgO+OX2pfWv9BL0rvOh8/3zkPQ69Rj2IPcq+Ff51vpz/Ob9Rf+9ADUCmAPzBCgG/wZ4B7IHuAeoB8UHIQh2CIwIZwgtCAAI6wfPB4oHJAe1BjoGrQUEBRsE3QJkAdn/W/4g/Tn8R/vl+Tf4tPaR9db0hvRt9En0QvSp9Gj1PvY792/4oPm4+vX7Y/3F/hwAjwEFA0cEYAVZBhUHsweACHUJOwq4ChULXwuEC3MLFgtrCqAJ8AhZCLQH3ga9BUYEmQLoAFj/+/22/Eb7mvkH+M721/UC9VX0xPND8wXzKvOQ8yj0E/Ui9vL2oPet+Dj67/ug/TP/igDPAV4DIAWoBuIHAgnyCX4KyQoDCxEL0gpVCqQJxQj0B1UHtgbfBeYE8QMIAygCWgGlABQAq/9P/+f+cP7f/Rj9Jvw0+136rfkq+aH4yPfB9gP2wfXa9T/20/ZO97D3ZPiQ+ez6UfzO/Tf/ZgCUAfICSARpBXEGTAe0B8UH4wceCEUIVghVCCYI0geRB2IHFAeqBkkG5gVoBdcERwStA/wCIwIXAe//zP6r/Xz8Q/sA+q34Xvcv9iL1WfQW9E/0qvQO9bH1lPaE94P4pPnN+g38q/2F/x0BTgJXA0YEBwXLBaQGPwd5B6sHFgiWCA4JbQlzCQ4JnAhrCEkI8QdXB3wGXgUtBB8DJAIIAar/C/5Z/OL60vkP+Wj4yPcw97T2aPY19gf2DPZn9uf2Wvfo97j4svnE+vH7CP3l/cX+2//2AAECPQOdBK4FVAbiBnsHAQh1CMIIqghHCAcI6weBB6MGnQWfBK0D4QI0AmQBTwAc/+v90fz8+3/7I/ut+if6x/m2+ff5Wfqp+uf6Kvt1+9P7Wvz2/HX92P0y/m/+mf7v/nX/4f8gAFwAjAChAOEAcwHzAQsC6wHSAcEB0gEgAmECUAIrAjcCSQJDAlkCkgKhAncCUQJGAkoCYQJ6AmsCQwI8AkMCDAKAAdcASADg/4L/AP9R/pn96/xI/Mb7hft/+5j7svue+177UPu2+0j8s/wL/XT91P0w/q/+PP+r/xoAlADfAAoBkAGBAlgDyAMDBCoEPARpBMAEAAURBSYFOAUHBZ4ERQT6A4oD8QI6Al4BfQDc/4L/L/+z/g7+aP3y/K/8bvwL/J/7SfsS+w37Qvuh+x38pPwA/SD9YP0G/r3+Hf8+/2f/rf8hAMgASgFgAU4BcAGxAe8BUgLIAvYC2gLKAtsC7gITAzoDBQNcArABUAESAcAAVgDN/zj/0/6y/qX+i/5h/hT+oP1N/Wn96/11/qX+c/49/l7+xf4u/4j/1v/1/9v/uv/A/+n/MAByAHEASQBxAP8AgQG4AccBsAFmATwBdwHKAdUBsAGXAZMBrwHqAfcBsgF1AXwBdgEuAeQAvABtAM3/GP+c/nX+iv6W/nH+S/5X/mT+H/6k/Wf9tf1Z/sn+pv42/hr+of6L/1cAjwAiAKL/wf98ACwBawFYATQBRQG8AWQCwwLDAqsChgJLAjgCZQJkAuoBRgHKAGEA9/+r/3H/I//W/rH+sf7X/hz/Jf+j/vL9v/0R/lP+J/7I/bf9Lv7n/mb/e/9c/zv/KP80/2j/nP+Q/zf/1f7d/oX/VwCbAD8A4P/t/1YA9wCqARcCDwLjAfcBWwLeAh8DsgLCAToBogFIAjkCdQGyAHcAuwD4AI8Ai/+8/qj+0f53/pD9sfxe/KD8Bv0S/dD8tPzj/PL8nPw8/Gf8Jf3V/eX9mf3L/cz+9/+LAJQAtQBqAYMCTgNbAxsDSgP1A5oE+gQqBSYF5wSXBD8EqQPZAhkCfwHpAEkAmv/N/iv+I/6H/p7+H/53/RX9B/03/Xr9iv1B/cT8Xvxe/Pb84v10/kX+uP17/dH9ef4S/33/z/8LABwALACbAHsBUQKhAmgCCwIHAogCOQOYA5YDcQMuA7sCZQJ/Ar0CjgLSAd8AMwAuAKMAyQAmAEL/4P70/uD+YP7C/YH90v1S/k7+sv1X/df9rP7O/gH+Dv3u/Nv9HP/C/5b/Iv/0/jj/3//IAKYBCQK1AQABsAAsAdUBrwGmALf/xv+4AJoBeQFDAPH+hP7u/mb/fP9V/yz/Hv8//2n/bP9o/5T/xP+5/73/OwACAWkBCAEhAIr/CABlAVcC7AGwAPX/QQDfANkACQA0/yf/0f9qAGYA3v8n/33+JP5s/mD/bwCyAN3/zv7A/tP/3QDTAOH/Bv8A/6r/NwAgAMP/xf8RABUAxP+k/w8A1wCBAYkB3wAtADwAAQHMASMCDwLKAaEB1AFKAqQCpAI8AnIBlwBAAKYAQQFLAYcAW/9w/iz+fP79/k7/K/93/nf90Pz5/L79c/6O/hP+h/1g/Zb93v0k/mf+ef5L/kf+z/6n/z4ATQAGAOH/PwAAAaoBFAJ7AuUC+AKhAj0CAALWAcQB6gEcAv4BcAG+AGMAkQDLAFkAVf+9/hz/pv80/8f9mfyz/L39Zv70/Qv9w/xR/QX+U/5w/tf+jv8FAMH/F//g/nv/XQDLAJ0ATwCEAFYBDgLkASEB4QCmAacCzgL7ARkBIwEVAtoChwJ0AbgAugD4AOYAcgC+//T+W/4w/m3+yP7o/qn+P/7v/af9NP3W/Bn9Bf7s/jf/EP8O/2X/r/+T/17/o/9iAAQBPwFpAdwBaAKaAmQCRAKjAjYDPgOIAsQBnQHoAQgCsgEPAXwAUACcAAMBGQHHAFIACAD0/77/8f64/QH9ef2p/mP/A//s/RP9K/0h/ir/av++/tj9sf2t/iQA8gCgAOT/s/8mAJUArgDwANkB9gItAyIC1gCNAF4BSgKFAicCrwFJAcYAIACj/4L/bP/y/kL+/P1V/sX+uv4s/nv9Cf0H/Wj97v1S/n7+k/7Y/nL/HwB4AHoAkgD1AFcBZgFQAXQBzwH4AbsBbAGKARACZQIVAlcByACwANkA4QCVAPz/SP/D/qz++P40/+r+KP5//WL9sv0C/hH+6P21/ar97P18/h3/cf9O//z++v5r//T/RgCIAPwAegGjAX0BegHjAXACngJeAiACMwJYAi0CzgGsAccBkAGwAKT/NP94/8P/if8h/0v/GACdAOz/O/7T/NX8G/5m/5f/tf7Q/eX97/4PAHsANgDR/6X/j/9r/3v/BgDGABkB0ACDANQAjwHmAXwB5gDtAIcB9gHYAZgBuAH8Ab0B7wBXAJQAQQFfAYoAbf/w/jH/iP9s/wj/0v7e/tn+i/4t/hH+MP4x/vP92v1n/n7/VAAqACf/Rv5i/mH/awDdANYAzwDvAPIAqAArAJv/+v6T/j//ngHXBIkGvwQnABT8u/s2/1UDbQSaAYH95/tW/qQCyQSBAnb90flp+kb+1QF6AqEAhf6m/dv9ZP4J/8v/TQAnALH/yv+kAGcBPwGDADYArAAuAREBlgBVAEEA1P8N/6T+CP+w/9n/k/+T/x8ArwDVANkAHgE0AU0Aif5F/az9RP9gAPT/q/4V/vv+pACVAfkAXP84/qf+VQDBAasBTQAC/9z+tv+qACABHAHoAMUA6gBTAYcB9QDd/2r/XAC+AbQB0P/2/U3+kgA9AoEBW/9A/ib/qwAhAYQAEABhAM4AnQAOAM7/1/95/43+Af7N/ooAogEOAZr/BP/7/00BVQH4/8H+B/9TAAwBcABw/27/igCMAWQBUwCK/9j/5AB1AYwAdP7X/G39FwB1Ag8CFf91/Mz8kv/qAQACuwDx/+3/kP9n/nn9wv3t/iAAOgFlAtACQwFe/gn9av+6A3YFRwL8/N36I/6yA1MGvANn/t76p/uB//4CkwNaAVb+e/yG/DP+vQDiAiMD/wD//b38VP4YAWACPAHj/uT87Ptl/Nz+oALWBM8CtP2D+vP84wIxBkUD7Pwy+UD75gByBesFuQJ+/v77ePwJ/4gBXgKpAX0Ah//x/h//eQA9AoQCbgCq/dX8Zv4/AIcAu/9k/7L/yf/C/6QAAAJqAdH9RvpV+zYBgwbiBSAAR/vr+6sAhQRPBCMBRv7s/eL/MgKzAqgAf/3h+339oAGpBcAGngP8/Yn6mf3FBbgKoARy9v3t9/U+CBoSkgjO9Vzu1PmQCkkOCwNX9yn3zf7JAu3/v/2rAVoGeQOr+tX26P1BCKUJiQDl92r5/AGMBjACOPsa+hj/kgNkAyoB4gD7ATYBhv6m/XMAtANLA9n/v/0C//EAlQAR/3j/ogEfAoj/J/1t/pwBtgGp/Zb6Tv1cA0gFz/+Q+Pz3lf/7B9EIdgFM+en31f3XBK0G5QJR/lP9gP8QAe7/Hf7K/ukB+AMyAvb9bfs3/fMBoAXxBMj/q/mq9y/8wwP3Bp8BUfjp9Cn8rgf/C7EELPmz9Nr69gQHCkoH8AB9/Dn8JP/gAtAEDQM3/g36d/og/xgDGwKh/Tb7rv2OAY8Br/2W+3P/QwYDCeoEbf6w+7z9rQBgAbcA8wAQAjACrADe/h3+gv7h/yoC+AOHAjL9RPh0+aoAiAY9BNT7TPZg+WwBdAYbBcQADv4H/gv/zf/6/3z/Df+MAHkEaQffBMj9iPnL/YMGgAmlAnD5HPhO//EF4wQA//X7C/6yAFAAOP8AAekDrAKb/DD4V/sWAycGMACv96L2ff44BhUFEv1f+AX96QVfCa4EXf5V/c4A0wLNADz+1/4eAe0A2P33+z7+ZQLiA2UBv/0d/Ev9ZwARBBoGOQT2/vD6rvz3AlQHQwUy//j65fq3/Kb+0AEyBlwHKwFO9+jzNfzJCHEM8QII9qHy5/pGBQ8ISQMu/qT90v+IAPX+cv1n/ej9Sf6r/3gCDwRuATL8LPpb/isEdATg/gr7xP7qBVAH5QDC+o38WQPgBUoBw/wa/wgF3gXV/5r6ifzrAVwCovxw+Nn7GwOdBf4Ao/tB/N4BtgWHA+392/o6/XoCqQVQBI4AeP6G/xAB4v+b/CT7jf02AUkCwQDx/2ABjALOAFf9d/sW/Gr9rf4iAVsEigRa/wb56fhFAKoHZwd9AK767voR/9sCZAVUB9kGkAE4+kH4a//kCWwNFQYM+vLyGPU4/XcElgVHAL35Fvl/AIYJhwpVAdr2BPaK/wgJoAiR/8P3W/jb/pkDqgLs/jr9lf7u/83+3fzz/cwC5gbNBLf8hPUo9mX+LAf4CX4GBAEY/bf7Nf3UAWoHEAncA5H7BfjX/CYFvwizBHL9CvlM+Rz8gf9DA7QGDQf2AaT57vRp+bMEwAznCIP7OfGX9HsCwAxYCfH85/QG+GkAgwRvAnH/v/6y/fv5OPej+rsCkwdLBD79ovry/isFtQf6Bb0C6f8W/nn+IgIjBwgJlQW3/z38e/y7/aH9A/3K/bv/AAEUAVkBlgJ5A1oCjv/W/DX7m/p2+7z+gAPcBVICjPoh9VP3b/9PBnwGFgGw+3f6Uv22AXMFBwf5BB3/svg99zv9KQavCf8De/rA9sv81wZwCxAH3v5n+uX7jv9RAXEBhgJ5BMgDqf49+TT6lwLjCl0KCQE4+Ev4j/8aBaEDqf5O/BL9yvxF+rz5Ff4TA/EB9Ppn9oT6XwOaB9gDCv4J/VcAVAKbAKT+HgC4AzgFBgOW/+T9nf7DACsDbAT8Ahv/C/xs/dECSwdCBkgAg/qr+Rr+EATDBssDK/18+Gz6lAGKBgIDPvnZ8vz2fALiCggJxP8P+Ab4NP6HBEwGdQN2/8/9Ov9oAYwBVf8i/Qv9S/6G/lX9Pf1fAAkF5AazA+H9A/qD+kj+zgIjBgsHyAQnAB/81Ps5/5ACKQKf/nL8G//sBIUITQYPAPD6Qvq+/NX+5f5//pz/kAHBAUn/vPxS/akApwJeABf8Jfty/5cElQTt/qf5tvpsAV8HSQfqAWz8Mvu+/hcE3wbpAxj8RfUa9gz/XQhqCVUCKvwd/rMEMAYl/x33VPdX//0F0AT1/rT7Kv1o/3X/Qf+FAaIEeASLAHn9Yv+kBHsHNwTQ/O72P/cQ/qAG0wnTA8747vL6+FcGMg5XCEX64vEc9xAEAwzACIr/k/kH+vf8cf5x/3oCpAWUA2H7mfQL+IME6w36CVr8KvM596ECvQgOBbH+kf2IAPMASv2S+5QAbAizCrIEhfzb+df9GAMDBKP/b/kt9rn4x/8dBqsGxgFv/fL+gQTiBvMB+vlk96/9ngdfDL4Hjv0b9iv3J/85BiAFM/yY84/zVfw6BosJTgVG/lz5lfj3+2UCswhuCtcFkf5q+n774f4EAVIBuQAX/5r8XvzKAWYKoA33BRT5JvN3+XAEoQhzAzf85vna+6D9Lf7a/7ECMAPn/x79zf9EBicJdwTl/Ef6KP6IAuoBD/7v/GYAYwM3ADP4S/PE9/4CNgvfCC3+RPWM9pQAkAnyCIv/Mvbo9Mv7cATeCC0I+QRdAfD92Puj/VkERAyWDrAHtfvO8+31Lv+gBrYF3f0r9m304/jd/6AFAAi+BfD++PYv9N/6wQfzEGMOrAH99MnxyvjMAhcIUQZCAEv65ffi+mMC2Qn7CiIDMffJ8BD2mAPHDtgOHQQc9xDx3PQo/iAGwAh6Bj4C8f5u/mABawahCaMGL/2C8yLyk/t7CJ0NpwaX+qf0KvkcAlgG3QJ6/Hn5eftz/wwCXAIXAdr+Vvw3+1r9fwJqBz8IKgRu/oL75Pzu/+MAD/9U/XH+XwFmAgkAff0I/zgEigeyBBH+RfqB/B4BgwLi/0f9uP3M/8gA2AD8AaYDjgLT/dD5cPt7AXUFmwOV/1D/0AJMBGYANvv/+qr/qgKN/+X53vh4/l8FUwd0A6j9vfn5+ED75P+WBKIFaQFD+yT5eP1JBFYHmQT4/3z+4gB3A9wC///d/pgBlwURBnIBk/vy+eD9FAM3BEYAFfsr+QL8xQEWB4AIAwRf+4z0YfVL/aoEWwSr/d74mfuqAqYG4QRXAS4AiQBX//n84/z0/2MCyQAp/Yb8LAAYBIMEjgK7AXwCDwKP//z9oP+OAev+fPio9dr7iAbhCgMEUvm+9pr/AwunDYgF7/r89g/7lgELBV4EcgHz/R/78vr0/hwF6Ad8A5r6yfTN9sz9zAJeAnj/s/6NALsBbQAU/+8ABwVyBg0C4/q79y/8xQQ5Cl0IgwFw+6/5SPts/e3+UAA1Abr/dfsJ+HP66QK5CksKjQHs+NL4tgDmBywHXQCM+8f9CwSGB0wFpQBT/i3/EQBn/lD7JPp1/EkARgItAeT+Of7x/xICEQJs/yD8sfoB/AH/AgLUA7cDVAGa/U77Qf3kAmQH3QUR/8H52/tjA8UHFgMe+b7zYPhiAnsIfwaHACH9V/4fAQQClwCZ/o/99P2u/wYCmQNzA1cC5gE4AnABiP7E+7L8jgH+BXcFRgBF+6D67/2DAYYCIwFe/+3+FgChAacBLv+f+/j5xfso/7sAV/8z/QL9DP+oAYQDGASAAiT+Sfnf+Ev/2QcYCiID1fnR98f+3wYICJ4CdP0o/REAewKcA5IEkwR5ASn8Zfld/OsBvAPz/237lfvo/0EDlAIFABL/4f/9/3v+Sf1L/twADAMJBCAELAO8ANP9qPzB/X7+Rfyj+F/4p/2YBB0HsAO//jL9F/++AOX/Av51/Uz+Bf9z/x4BbQTgBmEFEgDq+iL6Uf4fBFsHNwYuApj+Ov4yAZgEmATo/4f5hfZy+er/6wR1BYsCAf9i/LP6aPrR/LUBygVQBaYA1/xw/h8EtwfIBEn9MfdO9pj5CP4QAlgFgAaQAzH95vdN+CP+IwReBRYC5P5r/8kCNwVvBLABrf9Y/07/WP6o/af/aQQXCDQGtf4e93D1H/rV/2kBFf8s/ZD+7wFZBMoEDgRmAmX/IvyE++7+yQMSBgMFZgMHA/kBDf6F+Vj5Y/7qAhMBh/r19sH6qwEvBIkA4/sx+5f9Fv+J/o7++AAEBOkEhQPtAU0BEwEYAXwCaAVhB4wFaQDF+6/6t/yV/xMCCgR9BBUC8/0K/Lb+1wKAAiX8ZPUp9dX71AIeBHMAR/27/ZX/Rf8E/Yf8EwB7BaMICQjjBckEdwR/At791/jc9vX46PzN/9kAJAFcAcsA8P4j/Xr9GACeAtoCZAG6APUBcQMLA9YAs/6z/SH9Xvx5/M3+dwKOBGMDyAAnAJwCqwUHBv8C3v5s/Jr8Xf4AAEsA+P6j/G76UPmG+aP6Fvx4/X7+Bf9c/0IAOQLWBOwGagf/BScD/v8h/vr+fAJ3BusHjgUMAZf9K/00/2sBqQEs//n6cffx9uL5/v0LANX+Pfw0+9z87P9uAmsD7QJ2ARkAjwDrA9II2gtzCm4FMwCC/YH9pP6y/1MAVABc/2z97vri96HzD+7e6PDmL+pJ8mX9bQlXFAQcCx/dHXYaZBanEfQLlgbxA9QE+gbkBuwCHPxf9NrsPeah4fvfuuD/4aTisuM15+DtN/YJ/k4EggnPDigV2BwKJaErLS6wK5IlhR4/GFQSKgviAVT3Y+2Q5Srgttz02mLbl9445OvqgfHi92v+dQRmCJgJuAlAC2QOZBCIDmQJVQTFAeIAa//t/EH7AvyW/jEBAgOOBDgGbQd/B6YGjQVcBNkCdgFlAUYDHgYECMMHawVkAXD72fKk57zbLdO60sncsu6HAQgPlxa4HAklMC3ALjEmLReRCfwCjAOwBy0LYwrfAhL1UeVX2afT5NF60DnPdtG22ZHmKvTD/9UIfA+HE50VDhgMHRUkGipwLBIrtCdxIzgeGhj1ES8MnAW0/BzyIekB5bblwudx50PkIuFR4TvlM+o77fHtqe7d8bv3UP7HA+cHbwufDvEQLRLuEq8T0BMZEkYOjwlxBTsCG/93+833UfXi9Hf2LPm/+0P92v2n/rQAvgNvBvwHNwl/C68OlhDyDsoJrAOs/z3/gwH7A4kDvv1q8n3k6Ni105zVTdwG5e7u+/rICb0ZUScRL4YvgSklHwsTKgiFAasA4gNwBt4DnftI8fTod+Oo3g7ZXdTm0w3ZJ+Kp7J73TgMxDywZQR+GIQci5yK+JIMmmSb3I9IeaxjfEe4KMwL29sTqr+Dk2kvZlNr93XDjQurj8Ej2APsQACEFmQi3CbYJOQobC8YKnwgLBnkENQNAAEX7qvYc9bP2UPmB+xL+YwL/B44MGQ6nDKAJRgYcA1gAH/47/Cv64Pc09lf2r/hq/CQA1QJGBPcExQVcB6sJ2QvxDKcMcQv2CaAInwfQBkYFIAGy+FXsGd831YrRXNQ23ITnTvW4BCEU+yCPKF0pRCRTHBIVWhCiDUgLWwgEBWIBl/xT9VbrO+Db1t3Rh9I92O/gXOqB8+X8TwceEjwb7yCJI/MkhyaQJx4mPCE4GrITTA/xC14G3PsS7WjeDNX20sHVfNmi3AnhJukL9UMCCw7mFi8cSh04GrAUkg+rDBsLRghZAr/5pPB66fnlsObR6nDwpvXc+fP9AAPyCHkOJRJfE34SShCODc4K9wdoBJv/Bvon9W3yC/II84/0CPef+6YCbArzDw8RGQ6tCZEGrgXZBWkF4AMaAiMBGAEHAY//ifuL9Ijr5eJu3Yfcdt/O5IzsDfh+B5MX1CLUJRoifRySGPsVExLKCy4FKwE1AI7/yfvU87vp5ODE2+zaeN0F4nvnq+2A9U4AMA7PHB8o+ixvK2Qm2yCAG/wUfQx+A7/8hvlD+AL2N/H/6tDlLeOu4hHj9uN+5lPsF/aeAlsPoxnDH3Ihdx/qGpEU0QwfBIb7cPTL70Ltkevf6bboeenH7KvxoPZK+68AmgcND8kUcBejF70W1BScEGYJuwBq+SD1V/Ou8sXyY/T+97v8IQFTBF0GdgeVB8oGqgXjBIsEGgQfA6wBBwBF/or8iPsr/Hr+9QBiAX3+5fiW8pLt3Opa6n3rMu5z8578lwlYF/Qg9iJPHpQX7hKCEBMNEQbL/Gj12PIe9Hv17vNr7w/q7+Xz403kHOdG7Brz2/quA14OjxpaJaAqbyggIXIZQBRFEEEKLAG295/x7u9P8OfvLe6v7J/sW+2k7bLtbe+F9Lv8LQYGD3EW/Bu1HngdKRhCEOQHZwD3+V/0zO+X7Kfqfen66M3px+zO8bv3T/0jAncGXApmDT4PJxCPEEIQZA59Ck0FWQCr/EX6y/hn+Jv5S/xi/7oBNAObBGEGxQd9ByEFqwGT/pj8jvsW+yP7v/ut/J79u/6ZAF4DJQaHB8YGQgSwACr8ZfbY7zrqfedr6H7sIPNx/FIIsxSmHeIfgBsIFGsN9wgrBVkADPum98P3PPrQ+7752vOF7N7m2uSM5sjqbvBe91IAoQv2FzkiOSfSJbIf8hfOEIkKXAQg/tv4x/X49Cf1r/S18ovvU+xg6qvqZO3i8Tj3D/3bA+ULBhS8Ge4a1RfnEpMOEAt/Blz/lfYs77DrM+yJ7mPwF/Gd8TrzV/Zr+rT+zwKyBkcKIw2kDmQOhwyuCYsGiQPaAL3+kf1y/d79+/1v/fP8yf1zAPYDfQbUBj0F9wITAdf/CP9x/vz9iP0E/c/8rv0JACYDeAXlBcAESgNLAkYBOv/m+w74gvQ78c3thuqz6JTpTu1C80H7tgUfEqYdOyS3I+4dEBfNEVANOgdH/0r4RfX59e/29/Q68JLrQun36A3pPelX61zxUfsvB4sS1xsmIoYkVCJDHHUULQ1OB1ACkP1Q+Uz2mvRM81/xuu4k7FLqVOkX6UrqXO5D9jIBigxYFRYaRht6GsQY8xUqERYKlwFa+d7yye7r7LTsku0U7+3w+/JC9eD3CfsA/+YDUgkeDtcQvxBuDlALbAiqBWYCqP6K+1j6W/ui/fH/tgEhA3cEkQX+BVwFjQO3AGH9fvoV+X35/PpR/MH8tPwx/dL+OAFaA1ME5gOEAvgA7f+K/1j/mP7B/Mj5+/XV8SHuPOzB7ZHz8PzBB6QRAhkqHe8dfxuSFkYQgQmHAor7hfUM8sHxIvNi89bwhOwK6SbomOlq7MDwy/ftAWwNYRfgHdogFSHOHtIZpBLfChUEl/66+Tz17vGl8ODw7fCk77Xt7uxZ7mfxAvUh+dj+xQa9D0AXNRsoG/0X3xKoDBcG+v/U+oP2mvIz7zPtc+2o7z3ylPNo8x3zrfQ3+UYAHAiQDgwSNhIGEBENbwobCGcFGQL3/jv9bf3n/nsAYwGaAWgB6wAbABb/LP6T/Tb95vyW/GD8Uvxv/N382v1f/9gAlgGZAcsBFwM9Bb8GPgbeAyoBXv/7/Tj7BvaP74fqB+kc63XvR/Ua/XAH1xLFGwEfYBwFF5USKhDlDYMJAwOq/JL4l/a89GPxxexy6M3lS+Xj5qXqnvBr+DIBCQoiEqAYixxaHXMb8hfAExkP+QnIBEMAsPx++er13PH67fDq+ehG6HDpD+3g8qj5QACJBvgMRxP0F10ZSRcHEygOQAkSBI7+Tvka9Unyq/DS70nvuO5A7sfudfF99pT87wHsBWQJLQ2SEM8RGBCuDJgJhQd4BYQCUf94/Zz9wP6Y//X/cAACAagAzP6B/LL7Bv0P/9T/7f6w/Xb9K/7R/gP/VP9BAFEBtgGEAccBGAONBHQEFwJy/v76H/gV9XPxKO7c7GruYPL39x7//geKESoZUxy0GnsWURIVD8QLXgd7AqT+Wfw3+mr2tvDI6obmZ+S14yzkw+ak7KH1///PCRUSixi5HOMd/Bs/GFoU+RBwDe0IvwMq//L7fvl+9m7yKe4e6xfq6eoP7Vjw8fTm+sABlQhkDnkSlRTcFIwTvRBmDLkGYgBk+p31W/Jr8GXv9e7z7m7vsPAg8/H23vtEAW8G1goWDucPPxBwD/UNBgx9CT8GuQK3/7T9cPxm+5/6yPpR/J7+VACYAN7/a/8FADEBxwEWAYH/D/6P/Qv+8v6W/6b/Uf8J/yD/hv/p/xAAGAAzADIAZf8M/Rz5gvSi8Ifubu4u8N/zBPrMAh8NihZtHKAd+xpzFpIR2QxPCEcESwFL/0X9A/ox9Znvauph5tjjTuN75bHqUvIR+7IDZQuNEYIVARegFokVgRRIEzARLA4EC2EIzwUIAmH8s/XS7w7sTeqQ6S/pmunx6/fwQPhBADsHOwyAD9IRbhObE2MRvgzxBqQBpP2R+qX3oPTw8SrwlO818AfyAPXn+E39uAHBBRkJjQsRDawNSg2+CycJOgbqA3sCOgFV/xP91vun/N3+lgChALz/p/8pAS8D/gP6AhABkP/f/lv+T/3F+2z68flq+ln7Jfyp/Fv94v5aAfsDmwWPBQcEfAH9/U75zvP77rzsB+5f8pj44//jB9IPFBYIGUgY8BSpEJcMJQl/BqoELwMPAXD9VPiC8tnsAOjB5CLktObi61HyBPnK/1sGlgtDDqUOpQ72D1AS3RNvE6sR6g9cDt4LgQfCAfz7DPfi8kjvmex/6y/sTu5i8Sv1c/nS/eMBpQVWCdkMYA/vDzcO0wqwBlsC/f3Z+XP2KvTl8l3yrvJF9CD3cPpK/Zz/LQJzBb0IxAoTC3sKEAreCfUIoQZRAywA/v3H/DL8Jvyx/K/9xf7P//8AdALGA1AE5wMYA3oC5AGOACP+avu1+Zv5cvoc+y/7LvvG+xH9rv5GALgB0AITAwACav+M++L2OPLZ7lvuv/GO+PUA5ghDD/QT+hazF1UVHhDqCTwFcQPhA50ECASzAfn9PPnN82DuNuqH6MPpeu3E8qv4M/5uAuIE5gVkBhkHLQhzCfUK4wwQD6sQwhABD8gLoQfQAo39afgv9GjxJ/Bh8CLyJfVu+ND6AvwC/fj+7gHHBIUGKQc8B+IGzgXvA54BEf8b/OP4h/ZN9if4fvrY+2z8pf00ACgDFwW+BRQG4AbRBwMIIQeeBQkEfQLgAFP/Lf6T/Vb9UP3I/TH/ggHmA0oFPwVNBEUDbwJ3ASwA+f59/rH+vf7C/bn7iPlE+HH4u/lc+738+/26/04C8wQOBmIEEwB4+h71P/HX76rxo/Zt/ScErwn7DQ4REhINEHgLqAYpBKEEeAZrB08GcgO5/837Bviw9B7yl/Bj8OTxOvWb+U39yv4u/lT9Jf69AIEDIgUrBkQI+Au0DyERYQ+gC60HaQSSAbf+7/vE+bv48vj++QP7Mftt+oD5b/mV+mn8Iv5u/3cAeAFXAroCRgLdANH+4PzR++X7lvwW/Rv9Mf0m/ikAeQIJBH4EhgQRBUAGHAePBocECAIfAO7+6f3I/Pj7GfxC/fX+oAD3AfYCvwOBBEsF3gXRBREFGARtA/8CJgJiAO39gfu3+b74fPjE+GD5Nfpu+1H9uv/ZAboCJAKuAAH/HP2r+vb3Nfat9ob5mf1zAWsEvQaxCAcKVwrJCSQJ7wjQCAwIhgbPBCkD6QBZ/Q75y/XK9JL1vva79xz5Rvth/TL+qf0S/Zn9F/+mAP0BtgMwBq0I4QlICZsH3gU9BCQCY//g/O373PyI/nL/L/+V/nD+cv6n/eP7R/ow+tX7Hf67/zIAzP///gX+9vzz+zD75fpD+1T81P1O/20AMwHfAagClgN+BBAFBAVoBKoDNQPoAi4CxwBL/6r+KP8ZALMA5wBMAT4CZAMLBNoDIwOTApwCCQMiA1UC1QBy/7P+Mv4e/Uv7ivnO+DH5D/rn+sn75/wZ/hX/7f8FAWMCZgNEA80BkP9I/U/7tvnB+An5+/ou/nkB0wMoBSIGJgfRB6YH7gaFBrkG1gYVBq0EeQOlAlQB3f72+xP6wPkr+lv6ZvoA+yf85/yH/Iv7N/s3/Ar+uf/YAKUBaQL9AgUDfQLpAeUBkwKNA2YEBgV2BYoF8wTGA48CvgEWARMArP53/dj8bvyT+zj69/hP+D34l/hw+dn6bvyh/V7+If8/AH8BewI3A/gDuAQVBdsEQASBA5ACYQFCAJ3/bf9M/xb/Jf/S/+UAzQE5AjgC6wF1ASkBZgEQAm8C5QGiAFf/Uf5M/Sj8ZfuF+0z8+/xC/Xj95v1O/m/+ov55/8gAqQGbATYBWwHsAdQBawBn/h/9FP2a/en9Jf4S//4ANwOmBNAEIwR2A1wD0wNgBHgE9gNIAw0DYgOXA9cCKQGJ/97+BP8P/3f+pf0y/QD9dvx7+7T6r/om+3z7qvs9/Gn9mf4o/zz/k/+JALsBrQJuA1QEUgXiBagF3gQPBIQDFANpAl8BJAAQ/1X+0v04/W78xPul+yX8Af3t/dT+qP9AAIsAxAAuAa0B1gGFARsBCwE9AScBgQCb//P+p/50/jD+Gf6O/pj/zwC9AVYC7QKiAwkEjANLAisBzQCoALz/Iv46/dH9vf4l/iD87fo1/Mf+EgBr/5/+PP9xAH4AXv+0/kT/7P+X/w//0P+QAWICVQHX/8D/6wCbAeoAyf9y/97/LgD+/57/Vf8a/wf/VP/R/+r/g/9E/67/SABLAOX/BgDhAHkBBQE1AEUAMgGpAeQAtv9Z/8n/DgC7/2X/h//F/6f/c/+2/0QAaQAUABQA4gDJAcQB4gAsADwAiABOAKP/Iv/4/sv+fv5t/r7++v67/mD+n/5w/wcA6/+k//T/wQBAARoByQDYACMBOQEOAeEAqwAvAJv/hP/8/zAAd/9v/mn+qv/qAO4ADgCU//f/bgBRAAwARACtAHQAjP/F/pD+dP4N/t/9fv5l/5D/Ef8Y/xkA2wAtANv+2P6MACEC+AG3ACwAuAAOAWcAqP/h/6sA2gBSAA0AdgDOAHkAAgAuAL8A9ADZACMBvQGYAVAAEf8L/7H/ff9E/ov9SP53/7D/Ov9s/1kAiwBe/0z++P60AEYB8f9t/oL+t/9AAIf/r/6//ln/nv+D/5T/3f/t/73/2P9lALsAVAC4/+r/AAH9AQkCaQHxAO8A+wCvABsAgv8E/73+6v6o/6EANgEeAaAAOAATAAwACAAmAIsAFAFjATgBuwBPACMA/f+X/w7/1/4r/7P/5/+7/6j/EgDQAHABtgG5AYkBFAFrAOL/t/+3/33/+v6W/qz+Df9C/yb/D/9d//j/cACFAGAAUgBnAGsAPAAFAAIAHQACAJn/Qv9x/xEAjACCAEYAcAAGAWEBAAE2AMr/BgBhADEAbP+x/pD+BP+I/6T/Uv8A/yT/zP+aACQBXAFyAXsBYAEnARUBVAGgAYwBEwGZAFIAAgB0//L+5/4w/zT/xP5z/tj+sP8tAAAAp/+y/xYAdAC0AP4ATgFzAXwBugElAhUC/wBH/wv+//2//lL/Mv+l/lL+oP5w/zYAYADY/yL/3P4e/3T/h/92/4j/q/+U/03/Ov+S/xEAUwBKADIAKgApAEIAoAAlAWMBDgFZAK7/Ov/f/pT+gv68/ib/rP9NAN4AAAGXACYASgDqAE8BFAGnAI0AlwAtAEb/j/6C/tL+9/75/jb/sP8FABsAVwDwAHsBeQEOAcsA2QDdAKAAWQAyAOX/O/+c/qT+Ov+f/27/E/8F/wj/qv4w/mb+cv92AKQAQQAqAJ0ADAEQAfAAAAEGAZgA3P9l/2n/j/+D/2L/Wv9A/+j+nv7T/nD/4P/p/wsAxAC4ARYCpAEMAewADwHUAB0Ac/9M/4X/sv+s/5r/mv+V/4L/fv+q//v/TwCUAMcA2gC9AHoAPAAlAC0ANQAmAAQA4P/R/+f/HABaAIEAhgBzAFwARgAhANb/af8I/+3+Iv9t/4H/Tv8R/xP/Xv/C/w0ANgBHAEcAOgAwAC0AIgD3/7L/bv9B/yv/K/9H/3P/iP93/2P/fP+3/+X///9DAM0AUQFnARQB0gDiAO8AgwC//z7/S/98/1D/7f7s/nn/BAADAK//v/9lAAQB8wBYAPn/SwD1AFMBMAHcAKcAiABWABgA9v/0/+X/rv9r/0f/S/9h/4b/wv/7/wgA/f81AOoAxwEjArsB/QCPAJcArQB1APj/cf/2/or+X/6z/lz/w/99/9b+jv4L//j/sQDiAK8AXQAbAAAAGgBRAGsAPwDo/6//xP8ZAIsA/wBVAWABCgGKAFAAkQD3AOYALgBd/z7/7f+bAGYAZ/+s/hX/TQAoAfoATAAWAI0AAQHPACQAm/9t/1b/K/8j/2f/sP+e/1X/Yv/9/6wA1gB9ACQAGgAwADIARgCjAAsB9gBLAJn/cf+4/9X/f/8C/83+4v77/vv+Bv8s/0b/N/8p/1r/wP8JAAYA1//D/+P/JABuAK0AvwCGABMAqP+A/5b/u//E/63/h/9u/3n/p//P/8r/qv+4/xcAigCvAHcAOAA6AGMAZAAyABMAPACKALAAjgBBAO3/of9n/1L/ZP+K/7H/3f8MACoAKAAcACQAKQD4/5T/V/+V/zQAvgDmAL4AgwBNAB4ADgA2AGsAVwDd/0v/Cv8q/2L/Yv8h/9L+uf7//pL/KQB6AIIAhACrAM8AuQCDAHsApgCgACYAhP87/1n/bf8w/+n+/v5m/8b//f8+AKQA9gAJARMBUwGhAZABGwG8AM0ABgHaADgAmv9o/4r/t//e/xsAXQBwAE4ANQBMAHEAdABpAH4AoACAAAQAiP94/8j/AQDX/5D/p/8wAK8ApAAYAJP/gf/G//j/4P+o/4n/hP+F/6D/+f9qAI0AOQDH/6X/t/+F//X+kf7R/lz/af/M/kb+kv5w//T/qP8T///+j/82AGkAKADQ/7n/7v84AE8AIgDy/xMAhwDpAOQAhwAdALz/VP8M/zL/sP/n/2n/sf6r/nz/QgA1ALf/yv+nAG0BVQGyAGkAwgAzAUwBOAE2AQgBVQBw/y3/2f+6ANwAJABV/x3/cP/U/w0APgCKANQA6QDIAKsAvwDxAPcAnQAFAJb/m//x/zYANgAZABAAAwC//1r/O/+T/wwAKgDh/63/9/+kADoBZgEzAdAAZwAaABEATACJAG0A8v98/3b/0f8LAMD/Kv/w/nD/RgCzAG0A8v/h/0AAiwByADwATQCHAH8ALAAIAFoAqwBZAIj/Ef9n//H/zv8I/4r+8P7F/y4A9P+W/2//Vv8l/yv/t/9tAIwA9f9x/7//oAAeAb8AAQCb/6r/yv/F/7f/q/9t/wL/2/5E/9D/wf8N/5j+Hf83ANQAjQAOABcAhQCgAC0Arv+V/7L/nv9j/1r/jP+b/1//M/93//r/QQAtABEAIwBAAEwAfwD6AFIBBQFCAN7/RADWALcA8/9t/6z/NgBNAOj/j/9+/2j/I/8O/33/FQA1AM7/hf/K/0UAYwAqACAAdwC9AIoAIgAZAIEAygCFAO//kv+U/6L/if9//8H/JQBGABQA9P8yAIwAewDn/1X/UP/B/w8A3/90/0z/ff+s/5//j//S/1YArwCgAGkAagCTAHwA+f9v/3D/CACgAKIAIgDG/wsAvgBAAToB7QDKANMArQAvALf/u/8kAFkA/v9m/yr/av/F/+z/BABEAIsAjABTAEcAnAD/AAMBpgBKACoAMQA4AEIASQAiAMj/j//T/2QAmgAbAFL//f5T/+X/MQAlAPb/0P/L//r/RgBaAPb/X/8m/23/pP9B/5X+df4l//H/CACK/07/v/9RAEAAlP8Q/z7/1v8vABQA5P///0oAYgAkAOD/8v9JAG0ACwBl/yT/nf9kAKoAIwBa/x//mP8hAA0AdP8R/17/CABeAB0As/+u/xUAbgBZAPH/l/+C/5//yv/1/xUAEQDl/8n/BwCbACIBNwHgAIoAkADgAAwBuQAGAIH/sv+KAE8BOQFJAFr/PP/S/zwA7v9O/yD/iP/9/xgADQAsAEYA+f9s/1H/+f/WACEBzgB4AGsASwDL/2H/t/+qAEIB5gAoAAAAdwCfAOD/5/7W/tH/wgC+AB8A9v+NAAcBlQCe/z3/1/+YAJYA9/+h//H/TAAfAL7/5P+HAMgAHgAp//P+nv9HACoAg/8W/zr/l//M/+L/HgCVAAwBMQHSAAsAXP9P/97/TgD0/xD/nf4b/+v/GgCZ/zD/Vv+h/4n/R/9+/zAAnAA9AIj/Vf/T/2kAgwAeAJr/Rf9F/6T/MwCBAEUAwf+H/9P/UACRAIwAbwBDAPn/tf++/xEASQAZAKr/Xf9W/4H/4f+DAB8BHgFOAEr/7f5h/woAUQBHAFAAfwCHAEgACgAYAGAAjABxACcA3v+6/8v/BwA9ACsAzP9o/1X/nf8BAEsAbwB7AGsAOgD//+H/7v8GAPP/qP9T/z7/f//h/xUAEgAaAFYAjwBvAAIAsP+v/7j/fv80/1b/2P8VALT/UP++/84ATwGKAE7/Cv8NACcBKQFKALj/DgC8AOkAhwAnAAwA7/+d/3D/1P+EALUAEAA0/wn/pP85AC8A4v8TAL4ACAFtAJ3/rv+mAFsB6wDu/7D/gQBNARIBGQB1/47/yv+a/0z/e/8cAHwANACk/2j/l//Y//D//P8dADMAAwCR/y7/Lv+W//f/y/8J/1n+fP5o/zsAOwDB/7b/SwC4AGgA7f88AC4BegFpAOv+lf6q/9oA4QDw/yX/IP+A/6v/kv9//5D/o/+p/8b/DgBdAG0AHQCS/zj/cf8sAMwAuQAUAKb/8f+FAJcADACi/+b/gQC2AGsAMABjALAAlgAdALn/qv/N//H/FgA6AD4AKwA/AJUAzABzALb/Sf+L/wMACACu/6n/PQDHAIYAo/8Q/13/HAB7AEUA9v/z/xAA8P+m/5v/7v81AAUAh/9O/5//HgBTAEIATACHAJYAOgDK/9L/VgC6AIoACwDV/xYAcgCZAJ0AngCCADcADABgAPAA7QDy/6v+NP7Y/s3/LADr/7X/+f92AKQAZAAQAAAAJwApAMr/Qf8S/4D/KABdAOT/UP9g/x8AzgDEAC8Ayv/2/2MAhwBHAPX/2v/y/w8AEgD+/+v/5v/n/8n/dv8T/+P+//41/1D/av+v/wEABgC9/7j/cwCMAfYBHgGr/9b+Jv/7/2gANgD2/ycAnQDLAIUAOgBuAAIBRgHAAMf/Mf9r/wgAWAAwAP//HABhAIkApADoAC8B+wAoAEb/Df+M/yEAPADz/77/4v83AH0AnwCuALYAsgCRAE0AAADn/ysAowDcAIUA0/9G/yz/Xv+C/2z/Lf/0/vD+Of+j/9L/m/9S/3b///9QAPb/UP8T/1v/jf9F/+r+Gv/I/1MAZwBQAFIANgDB/03/af/x/xwAif/l/gj/0/9VAA4AkP+e/yUAcQAsALv/kf+e/47/XP9H/17/cP92/7T/TADkAPUAbgDN/5j/2/89AGgATAALANz/8P9KAKoAtQBIAKz/Uf9p/8P/EgA+AGUAoADOAKwAIgB0/x3/Z/8ZAJoAeQDc/2r/o/9eAOoAwgATAIn/kv/w/x4A8v/C/9r/EQAXAAQASQDvAFAB1QDg/4D/KgANAQEB9/8X/1f/YQASAdIAEQCB/0r/M/8//6//dQD+AMoAAgBW/0D/of8MAEAATwBkAJAAzQAUAVUBdAFQAeIATQDK/4P/ef+N/6P/t//P/+n/BgA4AI0A4ADaAEUAYf/B/sb+SP/G/+z/1f/Q/wAAPwBTAC0A/f/7/ycAQgASALH/ff+x/xEAJAC+/yz/2/7t/jX/h//V/xUAMAAhAAIA6P/I/6L/qP8CAIEAsgBnAPT/xP/V/9v/wv/M/yAAhACyALwAyQCtACQAcf9O//P/iAAWAOH+Q/4A/zwAkgDW/z3/rP+VANoAVwD6/1sA6gDQACkA2f8/AK0AUwBb/7T+7v6n/ycANAAdACgASQBhAHcAlACMACwAl/88/17/u//a/6P/gv/X/2QAfgDa//j+p/4h/8v/6P9w/xL/V/8NAIkAewA1ADkAigC4AHcA/f/I/wMAZQCTAI0AlgDNAPQAyQBhABoAKQBSAD8A8P/D//r/aACsAKIAggCGAKMAswC7ANQA7QDJAF0A9v/i/w0AHADu/9D/DgCIANgA0AClAI8AhgBsAFMAYQB+AF8A9/+f/6f/6/8IAPD//v9cAKgAZACv/zT/WP/C/9n/hP80/zn/Wf83/+D+uv7z/kT/U/8r/yz/kf8uAJoAiwAMAHD/Ff8e/1f/Zv8s/+7+Av9r/8//3P+k/3z/k/+8/6f/Qv/o/h3/DwBBAc8BOwECADj/Zv/x/9L/2/4G/lX+l/+cAI0Avv8V//L+8f6t/l7+lf6U/wsBXAL5AqECiQFWALf/w//m/5n/D//1/ob/JQAaAHn/A/8p/5H/sP+a/9n/iQADAa0A1f9x//f/1AAnAcsAYQBsAL0A2gC0AJcAmwByAPX/h/+p/zcAeQAOAHn/fP8RAGkAAABY/0r/6/9qACoAk/+F/zUA7wARAcwAwQATATwB2gBEABIAUQB5ADoA/P9NABIBiwEwAVkAz//k/zEALwDa/5j/sP8CAEoAZgBNAPr/gf8x/1f/3v9OAE8ADQD2/y0AWgAxANz/z/8zALQA3QCNAAAAjf9r/5//9P8WAM7/R//5/jj/3v9tAIIAHACI/yL/Lf+o/z4AegA2AMb/n//R/wcAAwDk/+f/AwAGAPT/AwA1ADkA4f9+/4D/0//w/6b/aP+x/zwAUwC//yT/K/+5/y4APgAuAEMAVQAsAPD/8v8hABoAyP+c//H/cwB9APj/ff+R/wYATgA3AAkAAgABAN3/v//e/xsAHgDY/6z/4P8zADEA2v+p/+b/PAAnALD/Y/+f/xYANgDc/3n/gP/l/z0AOwDy/6H/eP+G/8L/CgAsABIA3//Y/xQAYwCJAIgAiQCaAJIATwDt/6//uf/y/zMAaACFAHcAOwD6//D/JABrAJoAtwDVAN8AugCDAIMAzQAQAfYAmQBlAH4AiAAmAI7/Vv+0/zUATAAAANT/GwCWANEAqQBbACwAMABQAHAAdgBfAEoAXQCJAIIAJwDE/8f/IAA9ALz//P6z/hj/oP+7/3z/Xf+C/4v/LP+p/o3+9v56/6n/hv9t/5X/2P/q/7T/af9K/2P/hv+J/37/of/3/zUAEQCr/2r/cv93/zP/4f74/nf/1f+1/2n/dv/N/+L/gf8u/2H/2P/y/6L/jP8HAI0AaQDC/2v/zP9aAGIA+//L/w4ASAAKAI7/aP+3/w8ADgDW/8b//f9DAFwASQA5AFEAhQCiAHYADQCw/57/wv/P/7P/sf8CAG0AgQAmAL3/o//O//3/IABUAJAAnQB5AHQAvgAMAe8AagD8/wQAWgCZAKIAnACWAHoAVABfAKYA2wC2AGoAbgDdAEMBHgF9AOb/xv8aAI0AxgCrAG0AaADBACMBAwFMAJ7/oP8xAJAAUgDt/wwApgAJAcgAPAD4/wkAFgD3/+3/JQBmAFoACwDL/8//+/8jADkAMwAAAK7/gv+x/wIAAACC//L+1/4+/6v/pv87/+T+Af97/9r/w/9Z/xj/Uf/M/w8A8f/B/83/+f/1/8f/x/8PAD0A+v+K/3j/0P///6r/Of9N/+L/VgBNABEAAgD//8D/ef+d/xYANgCq/xX/Q/8IAG8ABQBu/2//4f8DAKj/af+0/yIAJQDh//D/XwCPACMAof+4/0QAfAAUAJ3/uP81AGsAJQDW/+b/JgAvAO7/q/+V/5z/rf/Q//X/5P+R/0v/bv/i/yoA9f+B/0r/f//o/zgAVQBGAB4A/f8NAFMAkgCIAD0AAwAWAFkAfwBiACAA7v/m/wQANgBnAIQAhQBzAFwARwA8AEgAagCEAHkAWgBXAH0AlQBqAB8ADwBWAJwAegACALX/6P9mALEAngBxAHMAlACRAFsAKAAsAFQAaABaAFMAcQCUAH8ALADh/+X/KwBfAEQA+//a/wAAMQAfAM3/hP9//6n/xP+2/5v/jv+N/4r/if+f/8T/3//p//P/CQAWAP//0v+6/8r/6f/z/+b/1v/H/6z/iv97/47/pv+i/43/kP+3/9v/0/+s/5L/mv+v/7v/wP/C/7T/j/94/5T/0v/l/6f/T/89/4L/0P/g/8H/tv/Y/wAADQAGAAEA9v/Y/8L/0//7//j/u/+H/6P/9v8gAPv/zP/g/yAANAADAND/1v/x/9r/nv+U/+L/NQArAM//kf+z//3/EgDh/7f/0f8bAFYAYwBXAE0ASgBGAEAAPQBFAFkAdQCKAIgAcgBkAHAAhQCCAGkAYwCIALUAsgB7AE4AWACDAI4AaABAAEQAZQBxAFsAQgBHAFsAXgBLADgANwBEAFQAaAB8AHkAVgAqACQAUACGAJkAhQBnAFIAOgAcAA4AJQBFADsAAQDO/9b/CQAjAAQAzv+v/6n/m/+A/3P/if+o/7L/qP+l/7L/t/+q/5//sf/X//P/9f/s/+b/4f/c/+L/+v8NAAEA5P/e//b//f/Q/5L/iP+8/+P/x/+Q/5f/5f8jAAkAvP+e/9D/EAAZAPr/8P8PACsAIAABAPL/8P/c/7P/nv+9//b/DgD0/83/yP/o/wgADwADAPv//P/2/9z/t/+k/7n/6P8PAA8A7//L/73/wP++/7D/p/+z/83/1//D/6H/jP+L/4//h/99/4v/tf/j//f/8P/n/+//AQAKAAQABAAaADkARwA5AB4AEwAiAD8AVwBdAFQAQgAyACoAKAAmACEAHAAdACYAOgBYAHcAgwBzAFYASgBaAHAAawBNADgARgBgAGQASwA5AEUAXQBaADMADQALACUAPQBBAEMAVwBzAHwAYgA1ABUAFgAvAEsAWQBUAEAAIgABAN//xP+4/8H/1f/j/97/xv+t/5//mP+P/3//dv9+/5H/oP+q/7//5/8QABwACwD7/wUAGwAdAAcA9////w4ACQDy/+P/6f/x/+z/5f/p/+z/3f/J/9H/9v8JAOz/wv/L/wQAJwAFAMf/uv/i//r/1v+l/6b/0//q/9D/tv/J//D/7/++/5j/qv/c//n/9f/w/wMAHQAhAAsA7f/X/9T/4v/4//z/4P+y/5T/k/+e/5z/kP+P/5j/nP+U/47/l/+m/67/tf/H/+D/6P/Z/8r/0v/v/wcAEgAYACIAKwAuAC8AMgAwACMAFAAVACMALQAqACkAOABNAFUAUgBVAF8AWQA7ACEALQBXAHMAZwBKAD8ATQBaAFMAQwBAAFAAYABgAEsAMgAuAEcAZABiADwAFwAYADMAQAA2ADkAXgCBAGoAJwD//xgARQBDABMA9P8CAA8A7f+2/6T/v//W/8//x//f//j/3v+c/3X/iv+v/6j/fv9x/53/2f/0/+//7P/3//j/6P/c/+v/CQAYABAA///3//v/CAAZACMAHAALAAgAGAAoAB4ABAD6/w4AJQAjAAwA/P///wkADgAPABMAEwANAAoAEgAaAAsA6P/W/+v/DQAPAOn/xv/N//L/CgABAO//7//5//f/5v/k/wcAOgBRADIA8P+1/5f/j/+N/5D/m/+p/6r/mf+I/4v/nf+e/4T/Z/9s/5f/xf/Y/9T/0f/W/9r/2//q/wsAKAAnAA4AAgAXADcAQQAuABYADgARABAACAD///X/5f/W/9P/4v/z//r//v8QACsANQAcAPT/4v/5/yMAPwBAADUALQAqACYAHwAcAB4AHwAaAA4AAwD+////BwAYACwANQAnAAsA9//7/xMAJwAiAAQA2v+4/67/u//Q/9j/0P/C/77/wP+7/7H/uP/Z////BwDt/9D/0f/s/wcAFgAgACoALwAxAEAAXgBwAFwANAApAEgAZABNABYA/v8eAEUAPgAXAAsALgBSAEcAGwAAAAgAGQAgACoARgBdAFQAMgAjADoAWwBgAE0APQA7ADIAFgD8/wEAIgA6ADIAEwD3/+v/7P/4/w4AJQAuACMADAD6//b/+//8//H/2f+8/6X/mP+S/43/h/9+/2v/Tv85/0H/a/+a/6j/jv9o/1j/Zv+C/57/tf/J/9n/4f/o//P//P/3/+D/x//B/9X/9f8OABUADQABAPn/9f/y//X//f8GAAgABAAIAB8APQBHADAACwD7/w4AMQBGAEEAMAAlACMAIQAaABcAIQA2AEYAPgApACMAPQBkAHAAUwApAB0AMgBIAEEAKgAkAD0AVwBSAC4ACwAFABIAEgDy/8T/qv+0/83/0//E/7v/zP/n/+z/2//V/+z/DQAcACIAPQBqAHoAUgAaAAwAKQA2ABYA9P8EADMAPAAMAOH/+P84AFIAKwD3//H/EAAoACgAJwAyADEAFwAEACgAeQCoAHgABQC+//X/gADZAJ8AAQCX/8L/RQCNAFoA+//e/wsALAATAPT/DQBJAFoAMAAKABkANQAcAN7/0P8ZAHAAcwAaALr/lP+K/1v/B//h/iv/wv8vABoAm/8n/yb/lv8OACgA5f+h/7D/AgBDADUA9v/N/9T/3/+//4n/fP+z//f/AQDU/73/5/8gABUAy/+l/+n/VQBuABoAx//n/1oAmgBfAO//v//w/zwAVwA8ABMA/P/v/9r/tP+Q/4n/qv/T/9f/rP9+/3v/m/+1/7//0v/s/+T/sv+l/wAAhgCoAD4A0//w/1kAYQDj/4T/x/9HAEUAvv9x/8T/LwAOAJv/k/8RAFoAAACU/9L/cAB4ALn/Mv+0/6wA3wAhAJD/+P+wAJUAuv9X/xAAAwH0AAAAa//v/9oAFAGVADoAgADsANwAbgBDAIwA1wDAAHUAWwB7AIsAawBIAEIAPQAaAPX/AAA3AGwAjwCsALIAcQACAM//DgBhAEUA3f/V/2YA4QCMALz/df8KAJsATwCS/3n/KACNAOL/1f6g/lX/1P9t/9b+Cv/T/x4AlP8W/2D/7P+///H+pf5p/1wAUQBm/9L+Qv8JADIAwf+A/8f/FwDx/5v/pf8PAEYABwDA/+r/TABLAMr/Z/+k/zMAXwABAK7/2/81ABcAg/8y/5z/TQByAO//dP+R/wgARwA1ADUAbACGAEEA5f/g/yUASwAvAB4AOgA4AN3/iP+9/1QAjwAjAKr/yP84ADQApv9a/9D/fgCJAP//u/8fAI4AWgDB/4f/2P8YANH/XP9U/8X/MwBNADAADQDr/9b/+/9dAJ4AcAAMAPn/TQCLAFEA5f/N/xkAWwBbAFUAiQDCAKcAUwA7AIkA0QCnADIA/f84AIEAaQABAMP/9P9gAKQAnwCAAHAAXwAvAPn/AQBdALoAsgBFAOP/5P8bAB8A4f/E/wkAZgBkAAQAu//R/wYAAgDW/9T/BAANALz/VP8y/1X/cP9l/2P/h/+v/7f/tv/N/+L/xf+J/3n/q//d/9r/xf/T/+z/z/+G/2j/lv/I/8L/uv8CAGoAZwDc/2T/i/8RAEIA8P+k/8v/GwAVAMr/u/8JADsA/P+k/7v/KwBVAPr/lv+q/wUADQCm/1//rf9JAJAAUAD0/97/+P/2/9r/5/8rAFYAJADA/5b/0v8uAEsAIwD7/wYALQBCADsANwBFAEUAEAC0/23/af+b/8v/0v+x/4n/df+C/6v/4P8IAAwA6v+6/6L/uf/z/zEAVABUAEEAMAAuAEEAaQCaALUAnwBfACwAQACRANoA3QClAHUAcwCGAIIAYAA7ACAABgDx/wEASACZAKwAaQANAOv/FQBUAGoAUAApABsAKgBHAF4AYQBKACQAAwD7/wgAFgAQAPn/6v/8/y4AXgBgACwA6//a/wwATABNAP3/mP9u/5D/xP/N/57/YP81/x3/Cv/8/v/+Ef8i/yz/Rf95/7D/wP+n/5b/tP/z/xsAFAD8//3/EQATAPP/0//U/+3/+v/y/+z//f8PAAQA4f/S/+7/GAAdAPH/w//D//L/JgA6AC4AGwANAAAA7v/l//L/EgApACEAAADe/9b/8P8gAE0AaABqAFcAOwAoACgAOwBVAG4AfAB8AHAAWwA5AAwA7P/s//z/+P/W/7T/t//f/wwAFADv/8D/sP/A/9b/5f/w//D/4f/T/+L/BwAgACYAMwBYAIAAgwBXABoAAwAiAFYAdQB1AF8AOwAaABMAKAA7ADMAGAAHABEAKgA+AEcASwBDACQAAAABADAAZQB3AGgAWABaAGIAVAAtABQAJQBNAGQAWgA1AP//zf+5/8z/8f8LAAkA8P/Z/9z/9/8IAPD/vf+V/5b/uv/Z/8r/mf+C/6b/2//a/5//Zv9d/3X/jf+b/5r/hP9h/0X/Qv9h/5r/z//h/9b/zv/Z/+H/1v/D/73/w//O/97/8//8/9//sv+m/83///8SAAQA7f/r/w8AOwAyAOT/mv+a/9n/GgAyAB4A+P/i/+X/9P8GAB0ALgArABsAEwAZAC4ASABQADcAEQAHACQAVgB8AHwAVAAqACQANQAsAAEA6P8KAEsAaABMABkA+f/t/+v/8/8DAA8ABQDf/6n/iP+X/8b/6//0/+z/5//x/w8ALgA5AD0AWQCKAK0ApwB6AD8AGAAWAC0AQgBKAEYAOAArAC4AQABMAEYANwAwADoAUwBkAFwAOgAYAA8AJQBHAGEAYQA/AAEA1v/l/xcANQAzACQABwDl/+n/IwBZAFgALgAIAPn/DgA4AEYAIQD6/wkAOwBMACMA7P/Z/+v/9P/m/+v/EQAbANf/cP80/zj/ZP+X/63/m/+B/3//gv9w/13/b/+k/9P/5v/p//D///8NABIABgDq/87/yv/c//H/AgAQABUACwD8//X/9f/1//H/6//p/+3/6f/W/83/5f/+/+X/pv+C/6P/9P83AEMAKAALAPv/9/8IACsAOwAeAO//1P/i/xUATQBaADcAFQAGAOz/zv/X////EgAPABkALgA3ACsABwDU/7r/0f/w//H/8P8CAPz/y/+o/77/6/8HABwALgAgAPH/1f/o/w0AKgBGAFsATQAbAPb/BQA3AGgAewBeACYADgAjADUAMwBDAG0AfgBcACUA/P/2/x0AUwBfAD4AIQAdACQALgA5ADUALQAyADEAEgD7/xwATQBHABYA+/8KACAAIAAHAOz/7v8IAAsA6P/d/woALwAAAK7/qP/w/yQAGwAJAAoA+P/L/6L/jf+J/5//vf+z/4L/X/9W/0v/Sv9u/5X/kf9u/0//Qv9V/4j/s/++/8v/7v/6/93/y//e//D/5v/Z/+b/CQAjAB4ABAD9/xIAGwABAOP/5/8AAA0A+//c/9r/AQAjABoA///+/w8ACwDx/+D/8P8XADUANQAtADQAPAAmAP3/8/8XAEIATwBKAFQAZgBiAEgAMQAnADEAWQCAAHMAQQA9AGsAegBLAB0ACADq/77/rf+9/83/0P/P/9H/zv++/6X/p//M/+f/4v/n/wAA/f/Z/9f/BQAmADQAUABiAEEAFQAXACoAHAACAAIAEwAiADQASgBNADMADQD1/+7/6//o//H/BgAVABYAEAD+/+L/0v/g/wEAGgAdAAgA+P8NADoASAAlAPn/5//1/xsAPQA3ABQABgAUABYABQACABYAKgArABcAAQAPAD8ATwATALz/n//A/+D/2v/H/8X/yv+9/6H/iv+C/4X/jP+L/4P/lP/I/+7/3//M/+D/8f/Y/8r/+P9AAGAASwAcAPb/7v/y/+3/+P8aACIA9//X/+n/AAD5//D/5v/L/8L/6P8JAPz/7P/4//L/xv+v/9D///8RAA0ABgD8//D/6v/s/+r/2//X/+z/+v/g/8j/4/8JAAAA7v8OACwAAQDH/+T/QQBrADYA5P+3/7L/tf+m/5L/nP/P//P/0P+F/2T/e/+N/4b/l//K//P/AwALAAcA6//R/9L/6f8OADkARwAyAC0ARQBGACwAMQBNAEIAJgA7AGUAXQAzACoAQwBSAD4AEQD6/x0AWwBwAGEAWABNACgACgAUAC8ATABuAHkAWQA1ACYACgDl//T/LgBEADIAMAA3AB4ABQATACEADQAEACMAOAAmABEABwDy/+P/+f8OAOv/rv+e/7b/vP+s/6L/kP9g/zf/N/9L/1n/bP+C/4T/ev94/3j/g/+z//X/FwAYABMA/f/U/8j/5f/7//z/BAAGAOL/wf/T//f///8CAAsA/f/e/9j/7f8CAA8ACADu/+3/EgAqAB0AGgAtABwA5v/T//f/HgAuAD4AWQBmAE8AGADt////PABbAEQALwA6AEIAMwAmADYAZQCMAHQAJQD7/x0APwAlAP3/+f/+/+j/yf+4/7H/rv+2/8H/vv+5/77/tf+Y/5j/xf/r/+3/7f/8/wMABAAUABkABAAIAD0AYAA/ABUAGQAxAEMAUQA1APb/9f8+AEgA+f/l/ycAQAAuAFgAggBCAOr/7P8FAO//8f8iACUA//8eAF8ARAD4/+3/AADs/+7/KABFAC0AMQBMAEEALAA5ADUADQAOAEEARQAWACIAagBsABkA+/8wAD8ACgDt//n/6P+6/6b/pP+T/4H/gv+P/6T/wf/H/6H/fP+V/93/GAAxADMAJgATAAsADAAWADIASQA0ABEAEgAeABQACwAYACIAJAAmABYA+v/7/w0A+f/S/+L/IAA4AB4AEQANAOX/u//O//n//f/2/w4AHAD6/9n/8f8nAC8A9P/E/93/BwD0/8n/yf/l//L/+v8RAB0ACADs//D/BgANAAAA6v/J/7H/v//d/9n/uf+g/5P/iP98/2f/ZP+d/+3/+f+8/43/lP+a/4f/lf/j/zEATwBWAEkAEADZ/93/7//o////TAB+AGUAPAAsACAADwATADYAUgBDABwABwAKABYAIgAnACsAPwBbAFcAMgAYACMARABeAGYAYwBSACoABwABAAIAAAAeAFMAWgAhAOL/zP/q/xsALQAeACAAOgBFAEUAUABKACQACwAVABEA3/+z/73/1f/F/6H/jf+B/3X/dP9r/0r/Q/90/6z/wf+//7z/wv/I/8H/wP/o/xkAGAD7//j//P/g/7//yf/z/wkAAQD+/wQA7P/H/8n/5f/m/+P/AwAhABQABAAaADcAKQD+/9//yv+7/9L/BgAXAAcAFAAmAP//2P/v/wkA+P/v/wQAFwAtAE8ATgAaAPD/8/8GABIAJQAzABoA7//s/wgACgD4//j/+v/p/9f/yv+u/5L/jv+V/5T/h/96/4r/n/+G/2P/i//g/wIA8//n/87/p/+1/wMAPQAvABEAGgAsACEAEAAOAAYA/P8cAEsAQQAIANz/4P8NAEAASwA5ADAAKQAPAPv/BAAdADsAWABjAFwAUgBOAFAARwAyADcAYQB3AFUAJAAKAAoAMQBwAIwAdwBGAAkA3//8/1EAhABlADAAMQBYAG0AaABiAEMABgDm//f/CwAUABAA3/+V/4f/v//2/wUA9//X/8b/3v8FABAA/P/q//T/EAAfACMALwA6ADcAOQA8ACMA///x//r/CQAaAC4ARQBQADkADgDr/93/6P8KAB8AFwAWABcA+P/e//b/FwAdAB8AHAADAPH/+P/5/+f/4P/t////BwD8/97/uf+j/67/1P/5/wwACwD3/+P/4P/U/8b/3/8MABQACQAKAPP/vP+l/7H/pP9+/2j/av92/4b/l/+q/7P/o/+I/3b/a/9t/47/sv/D/+X/HwAyAA0A8/8MADMAOAAtADcASQBFADAADQDq//z/RQBnAFEAWQBiABgA0/8HAFgAWgBJAFQAPgAXADIAbQBqADsAOwBmAGwAOwAGAO7/AQBBAHwAhAB0AHMAZgBGADwAOgAsADgAUwBKAEEAdwCqAIgANAD1/97/6v8LACgAPQA7AAgAuP+F/4L/lv+o/6r/nP+T/57/qv+W/3T/gf++/9n/wf/E/+3/AQAHABgAGQAHAAkAEQD5/9//5P8AACgAQQAuAAoA/v/4/+n/5v/k/8f/rP/M/xgASgA6AAoA5v/R/8X/yP/Q/9v/AwA3ADgABADN/7H/wv/5/woA1//C//r/LwA4AEAAQAAPANL/x//q/xIAGgADAOT/xv+s/6H/p/+5/9r/7P/N/5b/g/+T/5//j/9l/z//N/8+/0X/X/+C/4j/c/9k/23/l//I/87/wP/h/xMAFwAOABQABADq//X/DAD+//r/LQBXADkAEAAcACsADQALAFQAiABxAFoAWAA2ABIAKABCAC4AJwBGAFsAXgBcAEsALwAjADEATgBzAJEAkABpADsAOgBlAIUAigCKAH8AZwBgAGsAZwBeAGAAVwBJAFYAcgB0AFcAJwABAAMAIgBAAFIAQADz/5L/aP+H/8L/3P+9/5b/of/H/9f/0v/G/8P/4/8cAD0AOAAnAAsA5v/T/+H/CQAwACsABgD6/wEA5f+z/63/5v8pADsAGQDw/9P/uv/A//n/IQAJAOT/2f/O/7r/uf/G/9T/6P/+/wYA9v/N/7D/yP/w//L/4P/k//v/BgD+/+//7P/1//P/4v/O/8j/4v8QABoAAwD9//3/2/+z/6b/l/+A/4D/if+K/6r/6f8CANn/oP+O/6H/rv+o/6z/wf/W/+X/9f8FABwANAArABoAOwBxAHAAQQAoACwAMQAyADUAOAA9AEMAVABnAF0APwAyACoAGgAjAEcAXQBhAG0AcwBvAHUAcABTAE8AbgB5AFwASwBZAGAAUABTAGwAZQA4AC0AUABdAE4AUwBcAFMAXABwAFwAKQAOABQANQBhAGIAJgDq/8v/sv+b/5T/nv+w/8n/3f/b/8b/qf+K/2v/Y/+B/6n/vP/Q//X////l/9j/2P/R/+L/DwAaAPz/7v/s/9n/yv/H/7//xv/r/w0ADgD4/+L/1P/Y/+z/+//3/+b/3P/V/8P/uf/N/+v//f///+j/wP+0/8b/0f/j/wkADgDj/8z/3v/r/+L/0//G/8r/5v/z/9z/yv/Q/83/rv+Q/53/0v/5/+7/vP+R/5X/rv+Q/zv/Hv9k/7b/z/+8/4j/Sf86/2b/lv+s/7b/t/+l/47/lf/N/woAHQAqAF0AfwBhADMAJwAqACYAHQAFAOv///9DAHoAbgA7ACIAMAA7ADMAIwAVACQAVQBrAEoAOABWAHAAdACDAIoAdwBkAFYAOgAiACgAOgBQAHsAoQCPAEsAFQAVADcAXwCAAIMAWQA0AEIAZABtAGYAWAA5ACAAHQARAPT/4P/a/9b/zP+w/4//kf+j/5H/cf+E/7r/1v/N/8L/zP/g/+3/8v/v/+D/0//V/9b/1f/r/wsAEwALAAQA7P/O/9T/8f/7//H/8/8GABIABQDv/+j/5v/V/9D/7P/9/+r/2f/l//D/3v+//7n/0f/t/wEAFwAXAOP/q/+x/+X/EAAcAAcA4P/N/+b/FwA1AB4A4v+//9j/AgATABYALgBXAGUANgDs/77/sv+y/7r/wf+6/67/nv+H/4f/r//G/63/pP/K/+X/1//S/+j/+/8HACgATwBQADsARABYAEQAJgAtADgAKwAvAE0AWABOAFYAagBvAGYAVwBCACYACQADAB8AOQA5ADkATgBcAEsALAAZABwAKwA3AEMATQBIADYALQA0ADoANwAuACYAKQAtACQAGwAjADMAPgA7ACUAEwAgADUALAARAPX/1//K/8//vv+R/33/k/+h/4j/Z/9k/3X/d/9k/1T/Vf9l/4H/oP+0/7n/u//J/+L/4v/C/7n/8P8zAEsASAA1AA8A+v8KAA0A6//d//7/IgAqABwA9//F/6r/tP/J/93/+f8XAB4AEAAAAO7/0v+//8z/7/8YADcAMgANAO3/5f/r//r/BAD6//P/BgALAPT/8P8DAPL/xf/B/+f/CQAhAEAAUgBDACAA9//K/6f/mv+V/4//l/+l/53/kv+c/4//Wv9M/4H/nP95/2f/j/+5/87/6v8PACAAFwAJABAALgA+ACoADAAKABwAIQAYABUAGQAfACcAMwA4ADkAQABGAEQARwBRAFEASABBAEAASABYAFYANwAhACUAJgAfACYANAA5AD0AQgBBAEQAVQBXAEQAPwBPAEwAKgATABgAHgAdAC0AQgBCADwAQgA7ABgA9v/s/+z/4//M/7T/rP+n/47/e/+M/6X/p/+o/7b/r/+X/5v/vf/Z/+z//v/0/87/wv/m/wcADQAfAEMAUAA3AAwA3P/E/+z/MgBKACsABgDv/+L/7P8PACkAHgD4/+H/9/8fACMABgD5/////v8AABgAIgACAOn/BQAtADIAKgAtACUACQACAB0ANwA3AC0AMwBJAFgAUwBSAGcAdgBmAE8AQAAqAB0ALwAuAOP/j/+T/8//5P/R/83/1P/F/7H/tP/C/83/4f/4/wQACgAXAB4AGAAXACQAJgAWAAsAHQA5ADYAGgAMABQAEAD/////DAANAAoAGAAkAB4AIAAyADYAIwAXABgAFAASACIALAAPANz/vP/B/+T/FAAxAC4AGgAJAAIABwAXACMAIwAbABEADQAgAD8ARgAnAP3/3v/O/9T/7/8IAAkA///5//D/3//I/6z/lP+c/8L/2P+//47/df9//4b/a/9J/1L/fv+Y/5z/sv/V/9n/yv/U/+r/7//1/xMAIQAPAAwAKwA3ABEA7v/2/woAAwDx//v/IQA9ADIAEwD8//D/8f8IACoANQAmABsAIQAiABUACAAHAA0AEwAYACUANwA1ABEA8P/9/xkAEADs/+P///8oAEUASQAyAB0AGwAUAAAAAwAkAC8AEQD7/wwAHQADAMb/jf9v/2r/b/90/4T/n/+z/7H/nP9//2j/af+D/57/pf+e/5r/rP/X/wUAHwAjACAAHAAeACwANAAeAAYAEgAyADgAJAAYABoAGwAXAA8ABwALABMAAwDc/8r/3v/9/xYAKQAnAAgA8P/9/xsAJAAQAPT/6P/w////DAAnAEsASgAVANv/0v/y/xIAHgAUAP7/9v8SADsAPwAVAOj/5f/8/wMA+v/8//n/yv+H/2r/cP9t/2r/gv+S/3X/Wv92/6P/oP9+/3H/iv+9//f/FQAIAPT//P8WACYALwA5ADoAKAAUABsAOgBIACoAAwACAB4AMwA8AEMAOgAWAPf/BQA4AGEAYQBFADQANwA3AC0ANwBWAF4AQwA0AEIARQAnAAoAEQAxAFEAWwBSAEwAVgBZAEEAKQAzAFYAeQCFAG8ARQApACcAJwAnADUAQQAmAPH/1f/i//X/7//P/7D/r//P/+z/4v+5/5n/lP+g/67/wv/m/wkAFwAeAC8AMgANAOX/6v8GAA0ACgAVABsADQAJABwAKgAiABcACgDx/9//6/8KACMAKwAnABwADQD5/+X/5P/8/w8AAgDl/9X/0//P/8X/uP+q/6r/wf/k//v/AQD+//7/AgD6/97/wP+7/9X/+v8OAPv/0v/G/+T/+f/r/+H/7//o/7P/hf+J/6T/rv+o/6P/ov+X/4H/cf+B/6j/xf/P/9f/2//P/8L/0//4/xYAKAAxACwAIQAlADUAPQA0ACUAFwAUACkAUgBvAGcARwA0AD0ARgA1ABwAFwAeABsAHwBDAHQAjQCCAF8ANwAkAC0AOQAwACYAMQBHAFgAWwBEABUA8v/7/ycAWgCAAHwARgAGAPL/DgA9AGkAfgBlACsABwANABgAAADR/6z/n/+h/67/wf/I/7T/m/+d/7P/u/+1/7T/rP+S/4D/jv+p/8H/4/8JAAgA0/+X/4L/ov/k/yAAMQAYAPv/8//z/+r/2//X/+b/+/8BAAMAFAAfAAEAzv+9/9r/+v8CAPr/8P/j/9v/4P/u//n/+//0//T/BAATAAsA7v/b/+L/+/8QABYAFgAZABMA/f/x/wYAJAAjAAIA4//Y/9z/6P/6/xUANAA2AAUAw/+i/57/kf+I/6L/zP/W/8j/x//Z/+T/2P+4/5H/gf+g/+D/FgArACUAEgD8//b/DgA0AEQAOQA4AFYAdgB5AGcATwAsAAcAAQAeADgAPAA/AEgASgBCADkAKgAPAPj/+v8ZAEgAdgCOAIMAWAAdAPb/BQA/AG4AbQBNADIAKwAxADUAKgAZABwAPgBvAJgApwCPAFkAHgD2/+v/AwA6AG4AdABAAO7/p/+K/5n/tP++/7T/qv+j/5X/gf+A/6D/zP/e/9P/x//G/8b/yf/b//P///8QADEARAAoAPb/1//W/+3/FgAzACsAFgAYACMADQDj/9b/8P8FAAQABQAVABoABwD1//3/BwD3/93/2v/w////9f/f/93/AgAwADIABADg/+j/9f/m/9P/3v/x//H/6f/z/woAFAAIAPP/4f/U/9P/5v8FAA0A7P+7/6v/xP/n/+3/0f+q/5P/iv97/27/e/+g/7j/sv+m/6r/tf+9/8f/1//v/wwAJAAxADUAPAA/ADYAJgAkADEANwAqACEAMABEAEIANwBBAFoAZABUADoAJAAiAEUAdgCEAGMAQQA/AE0AVQBTAEUAKwAZACYARgBaAFUAQgArABMAAwAHABgAJQAtADkARQBCADUAMwA8AD4AOAA3ADcAKgAUAA0AFAAWAAYA6v/N/7j/rP+l/53/lf+Q/4r/hf+J/5r/o/+T/3n/df+T/7//4//6/wAA7v/L/7j/y//x/wkADAAEAPX/4P/N/8X/zP/g//v/CQACAPL/5//e/9P/y//M/8//1P/m//7/AwDq/8z/x//U/9v/2v/f/+j/5//e/97/6P/w/+v/2v/J/8z/6P8HAA4ACAASACwAOgAvABcA/f/o/+j/BgArADcAJAALAPz/8P/b/8b/vf/F/9T/2v/L/6f/iP9+/4H/gP9+/4f/oP/K/wAAMQBBAC8AGQAaACgALwAyADoASABVAGAAZgBbAD8AIQAQAAwAEwAlADYANwAkAA8ADAAcADIARABSAGMAegCHAHMARwAoACwAOAAoAAoABgAkAEMATABEADMAHAAHAAUAGgA4AEwATQBFAEMARQA4ABUA9v/3/woADwAJABcAOABBABYA0P+g/5b/o/+2/8T/wf+s/5j/l/+p/7r/uv+r/5v/mf+h/6T/ov+w/9b//P8NABQAHwAeAAEA4P/k/w4APABOAEEAKgAcABoAEgD8/+P/1//c/+z/AgAZACEAEgD3/+n/7v/5/wYAGgAuADMAIgAKAPj/7v/r/+3/6v/d/9P/3f/w//L/4v/W/9j/3//m/+//9v8AABYAMgA6ACQABQD3//T/7v/j/9j/zv/F/7//tf+a/3L/U/9R/2r/j/+z/8z/zv+9/63/qf+u/7b/x//l/wIAEQASABIAEgAVABwAIQAZAAwABQAHAAkAEwAmADUANAAxADQAMQAdAAgACAAcADMASABYAFkARgApABsAJgA7AD8AKwAUABcANgBRAE4ANQAkACsAPgBMAFUAWABFAB4AAgANAC4AQAA9ADgAOgA+ADwANQA2AEUATgA0AP//0v/A/7X/pP+b/6L/rv+z/7X/sv+q/6H/of+o/6n/pf+n/7v/3/8GABsAEwD5/+r/9P8GAAgA+//1//3////0/+z/7P/m/93/4//4/wIA+//0/+//4P/N/8X/xP+//73/yv/c/+P/5f/u//b/8//p/+T/6//y//L/6f/h/+D/4f/Z/8b/sf+w/83/9f8QABwAKgA4ADMAGgAGAAcAFgApADQAKAD//8j/lP9x/2r/f/+a/6f/rf+5/8H/uP+p/6b/sP+9/8v/2//t/wcAJwA9ADcAGgD6/+X/4P/s/woANQBaAGUATgArAB4AMQBXAHgAfQBlAEcAPwBLAFgAWwBVAEcANQAmABYAAQD2/wcAJwA4ADcAMwA1ADYANwA2ADEALAArACUAEQACAA0AKAA3ADUAMQApABkACgARAC4ASgBQAEQAOQA0ACsAHwASAPz/1P+x/6n/t//F/8z/zP++/6z/qv+y/6v/l/+X/7D/xP/L/9j/8/8OABwAHgAMAOj/xf+8/9H/8v8PACMAMwA7AC8AEgD9//7/BgAHAAUADAAaACIAGwADAOT/0f/S/9j/3P/o/wQAKQBLAFoATgAuABcAFgAeACAAHQAXABMAEQAIAOr/zv/Y/wQAKQAwAC0ALQAlAA8AAAACAAwAEgAUAB4ANABHAD8AFQDb/6X/fP9q/3D/h/+i/7b/wf/G/87/1v/L/7D/qf/J/+//+f/x//T/BwAeADEANQAjAAkA+P/y//T/AQAXACMAJQAtAD0ASABHAEQAQwBDAEgAUwBXAEUAHADy/+L/8P8NACgAQABQAEcAJgAKAAYAEAAdACsANQA5AEMAWgBkAFAAMwAiABoAEgAQABQAEgAMABAAHQAeAAsA9P/s//r/EgAhACAAGAAGAOj/zv/N/9j/1f/B/67/pP+c/53/q/+5/7v/tf+u/63/uv/T/+j/7//t/+z/7f/1/wMAFwAwAEoAUQA+ACgAIQATAO7/yP+//8n/1f/q/wkAGAAIAO7/4P/g/+r/AAAaAC0AMQAlAAsA7f/V/8//4v8GACEAJwAcAAwA9v/k/+r/AwATABIAEwAaABYADgAOABAAAwDx/+v/9f8IACIANAAoAAMA2f+8/7T/vP/F/7z/ov+I/3z/g/+e/7//yf+3/6D/lv+b/63/yf/p/wwANQBWAFgAQwAsAB4AGAAaACQAKgAoACEAEQD0/9//6f8MADEAVgB2AH8AYwA0AA4ABgAZADAANAApACUAKQAfAAQA7P/h/+f/AQArAFMAagBtAFgALgAOAA4AIwAxADoARABEADAAEwAGABEAIwAkAA0A8f/j/+H/4P/m/+7/5v/U/8z/y/+4/5b/gv+A/3//fv+K/5b/kf99/2f/WP9Y/3L/m/+8/9L/6f8EABcAGQASABMAHQAeAA8ABQASABgA+v/T/8//6/8GABgALAA8AEAAOwAwABoABwAQADEASgBKADoAKAAbABEAAgDy//L/AQAMAAkABQAIAA4AFAAZABgAHQA0AEwARgAwAC4ARABRAE4AUQBbAFIALQAGAPz/EwArACcACwDz/+T/z/+7/8P/5f/7/+T/sf+I/4b/o/+0/57/ef9x/4n/pf+3/8f/3P/7/yUASgBYAFIARQAuAAoA7v/v/wkAJwAzACQABgD0//j/+//x/+7/AgAdACgAHQAIAPn/9v/4//7/DgAgABkA8f/P/9L/5P/o/+j/+P8PABgAEgAGAPn//f8cAEEAUABGADAAFwD+/+v/4f/j//D//v8GAAwAGgAkACEAFgADAOP/xP+5/7n/rf+j/63/tf+g/4T/iP+p/77/s/+f/57/uP/Z//L/AgARABYACwD+/wUAIgA/AE4ATgBCADoAPgBBADUAMQBJAGEAUwAuABoAHgAkACUAIAARAAYAEQAsAEIAPwAmAAoABwAdADUARgBQAEYAJwAQABkALgAyACgAHwAWAAwACwAXACAAHwAZABQAEQATAB8AKwAsACUAHgAOAPH/1f/H/8T/w/+5/6L/kP+a/7j/wv+s/4j/a/9k/3z/pv/E/8//0v/X/+f/BQAeABkAAQDy//P///8YADgARgA9ADIALwAnABYACQAKABIAEwAGAPX/7v/6/xEAJAAsACsAKgAwAEAASwA+ACIAFAAdACYAJwAuADcAMQAkACMALAA1AD8AQAAsABEACgAYACYAJAAMAPD/7/8GABcAGwAgAB0ABwDy/+j/3P/G/7f/sv+k/4r/ff+J/6H/uP/J/9P/1P/M/73/pP9//2X/c/+i/9D/5P/i/9f/0//h//b/BAAKAAoACgAOABIACwD///3/9v/b/8r/5/8dAEIASwA5ABQA9f/1/wQACwAQABwALAAzACwAGgASACQANwAuAA8A+//+/wcABwD///f/9f/6/wYAFwAlADAAPQBGAEMAQgBMAFQATwBHAEEAMQAXAP3/6v/a/8v/tf+l/6v/t/+q/4z/g/+U/63/x//U/8H/n/+W/6v/yf/r/woAEgAFAPj/7P/a/8//4f8IACcALAAiAB0AHAARAAMAAwALAAsABQAFAAwAEwAUAA4ABQACAP//9//1/wAAFQAtAD4AQAA6ADoAMgASAPD/5P/j/+H/6f/1/+7/3P/X/93/6f8AABwALQA6AEcAPwAcAPr/8v8BABAADwAAAO7/3//H/6r/mf+V/5P/kf+R/43/gf93/4D/qP/Z/+n/0v+9/8P/0P/R/8n/wv/E/9b/8v8QACgAKwASAP3/BQAYACYAOgBRAE4ANwArACYAGwAdADkATAA8ACAAFQAYABUABwAEABkAMQA1ADQAQgBJADMAEAD+//7/CwAeACwAKAAZAAsABwAIAAUABAAZAEAAWQBVAEQALAAYABQAHgAmACwALQAcAAQA+v/y/9T/tf+t/6v/m/+N/43/kf+R/4j/b/9X/1j/dv+a/7j/x//L/9D/3P/m//f/GQAxABwA6v/F/8T/5f8VADgAPwA1ACoAJwAuADEAJwAcAB4AJQAmACIAFQAEAAkAHgAoACEAGwARAAEACAAtAFAAXABYAEYAJQAFAPH/6f/4/yIASQBRAEgASgBgAHcAZgAoAPH/7P8JACcAPQBIADsAJwAeABkACwD///r/6v/F/57/nP/D/+P/z/+b/3b/a/92/5z/yP/U/8H/sf+2/8n/6P8BAAMA+v/7/wAA//8CAA0AKQBZAHkAXQAZAPP/AQAWAA0A8f/o/wMAHwATAPL/7P/9/wQABQAOABQAEwAXACEAHQAIAO7/4f/q/wMAJABDAEwANgAiAC4ARAA/ADAAMQAyACAAFgAkADkAQAAyACEALwBbAG4ATAAeABAAFQAJAN7/pv+H/5H/pP+i/5H/gv93/3j/hv+L/4X/kP+x/87/3//y/wYAEwAmAEEASwArAO3/w//R//7/FQAYACUAOgA3AB4A///n/+n/DAArACoAGwAVABcAGgASAPT/0v/M/9z/5f/k/+L/5f/v//v/+P/w//v/FQAkACUAIAANAPH/5P/k/+r//v8bACEABgDs/+n/+f8MABcAGAAcACIAHQAMAPX/1f+z/6H/mv+V/6L/xP/R/7b/l/+T/6b/wP/R/8T/ov+P/5v/vf/d/+X/2//f//z/HQA2AEQANAANAAAAIgBNAFoAUwBGAEAARgBJADwAMwA/AE0ATABDADoAMgAtACsALQA4AD4AKQAIAP//DQAaACMAJwAnADcAYQB1AE8AEwD5//3/AQD8////FgAyADUAJgAmADEAKQAVABIAHgAmACkAKAAbAAoA+v/d/7X/mv+R/5L/pP/D/9j/0/+2/4j/Xv9Z/3f/l/+m/6z/sv++/8H/rf+l/9L/GQA4AC0AHwASAPX/3f/i////IAA1ADMAHQACAO//9P8QACEAEgAAAAcAGAAdABUA/f/f/9b/6f/3//H/6//y/wQAHAArACsANQBTAGEASgAqAB8AJAAeAPj/yv/G//X/IQAjAAkA7v/o/wcAMgA3ABgAEwA0AEsANwARAAAACwATAPX/wP+f/57/qP+o/5r/i/+Y/7v/xf+q/5n/q//L/+j/AgAUACgARQBQADUAFQAWACwANgAvACUAIwAjABcABAADABkALwA3AC4ADQDo/+X/+v/6/+n/9P8iAEkASwAnAP3/+v8eADwANQAcABAAFgAeAA0A6//l/wUAKAA1ADIAIgAGAPX/8f/o/+j/EABIAFgAOgAVAAUACAAPAA4AAQDw/+D/2//d/8n/l/9q/13/Y/93/6L/yP/C/53/ff9y/4b/sP/I/77/vP/j/w4AFgACAPD/5v/h/+L/8P8IABEA/v/k/9n/1//a/+r/9f/r/+D/7f8CAAsADwASAA4AAwDy/9z/0f/Z/+P/7P8CABcADgD0//P/DQAiABkA+//r/wQALAA0ABcA9f/k/+v/CAAeABAA7v/f//X/GgAwACgAGAAXABgABgDv/+T/2//X/+T/8f/b/7H/nP+p/8f/4P/g/9b/3P/o/+D/z//V//L/FwA2ADwAIgAOACAARQBMACsADgAdAEcAVgA8ACoAOwBPAE0APgAuAC8ARgBeAGEAXgBjAF8ATgBOAGIAbgBsAGgAXwBOAEgAUQBTAEwATQBbAGAATAAxADIARgBJADEAIgAlACcAIgAcAAsA9P/u//f/+P/1//n/AwAQACEAIgAAANb/v/+3/67/qP+j/5r/jf98/2X/Vv9d/3v/nf+k/4D/Tv9K/33/uP/R/8f/uP/E/+z/CQADAPX/9//8//f/6//c/8//0P/U/9H/2P/0/wYA9f/S/7//yv/n//3/AAACAA0ADAD7////LABYAFcAMwAVABUAHAAJAOP/1P/u/xEAHAAGAO7//P8pADkAFgD3/wgAMwBXAGcAXAA+AC0AMgAyACUAGwAQAPL/1v/V/9b/tv+F/3b/j/+e/4n/dP+B/53/tv/U//H/9v/4/xUANQAzACAAHgAnADAAOgBBAD0ANwA1ACoAFAADAAQAFgAuADkALAATAAgAFQAuADcAKgAkADsATwBEAC0AIgAaAAoAAwAQACUAMQAsACEAHAAZAA4ADgAjADgAPQBAAEAAJwAFAAwANwBSAEgAMAAdAA4ABwAPACEAKAAbAA0ADAAIAPT/2f/E/7D/of+j/6r/pv+Z/4v/gv+J/6b/vv+4/6f/qf/A/9r/5v/h/9v/7P8SAC0ALQAgABwAJgAnAA8A8f/0/xEAGgADAPD/+f8OABgAGAATAA4ACwASAB8AHAADAPP/9f/r/9L/1v/z//X/3f/j/wkAFgAFAP7/AgDz/93/4v/3//7/9v/7/xIAJQAlABMA+P/t/woANAA2ABAA9////wIA9f/m/8//rv+h/7L/uf+p/6j/uP+r/4b/hP+1/9j/wv+V/4b/mf+5/9//BgATAAcACwAzAFgAUgAxABsAIAA3AEkAQAAnABcAHAApADQAQABPAFoAVQA+ACwAOABTAFQAMwATABYAPQBfAFQALgAfADQARAA+ADkAQQBEADoAKQAaABUAKABTAHcAfABtAFwAPgAPAPf/EwA8ADoAGQD4/9n/w//X////9/+0/4H/kv/F/+b/2f+l/2//av+V/7f/sf+c/5T/jv99/2b/Uv9P/3b/w//7//D/z//V/+f/2v/X/wgANwAoAAIA+//8/+L/0f/r/xEAGwAUAAwA8P+4/47/mf/A/9D/yv/Y/wcANAA7ABwA9P/c/93/8f8SADIAOAAaAPT/4//r/wEAJgBTAGoASwAKAOT/+P8iADEAKwApAB4A9//Z/+z/GgA3AEcAVAA/APr/vv+4/8f/wf/D/+f////U/43/cv+K/6T/rv+2/8f/7f8cACQA6v+m/6n/7P8lAC4AIQAhADwAZwCDAHEAPwAgAC8AUABcAFAAOgAeAAAA9f8NADwAXQBWADIADwACAA0AIwA4AEYAUwBnAHcAcQBWAD4ANwAwAB8ABwD3//z/HwBGAEcALgA3AF4AWwAaAOn/7//y/8//vf/h/w4AHgAmACUA+v+//7r/5//6/+b/5/8GAAgA2v+m/43/hP+C/4n/kP+N/4D/b/9m/37/s//X/9v/6/8gAEYALwAIAAoAHwAbAA8AIQA5ACoABADi/7f/c/9E/2H/r//p//3/DQAmACwAIAAjADkARQBCAEgATgAvAPf/5/8bAFcAWQAlAPT/5P/b/7n/kv+b/9z/GAAjABgAIQA1ADEAHgAaACgANAA4ADMAHgACAP//FAAPANn/ov+T/4n/ZP9O/3T/sv/J/7X/lf96/3H/gv+U/47/hf+X/7n/4v8dAFEARgAOAP//KQBGADUAHgAVAAEA5v/i//L/+/8GAB8AJgAJAPL/BgAmACMADwAXADwAXgBzAHUAXwBCADgAPQA6ADQANgArABEACQAdACcAGwAeADUAOAAbAAcAFQAzAEQAPwAsAB8AJAAyAD0AQAA3ACcAIgAjAA8A8P/w/wcAAgDm/+D/6f/a/73/tv+6/7D/qf+w/6//qv/E//f/DwD8/+H/3f/1/xcAJAAQAPL/6//3/wIAEwAuADwAKgARABMAJgAuADEARABYAFQASABQAFYAOgAXABMAHAAWABkANgBBABkA5v/Y/+r//v8FAAUACAAOAAQA6f/f//H/AgABAAoAKAA9AD0AMQAWAPn//P8cACQAAwDl/+r/9//r/8n/rP+0/+H//P/O/3T/M/8j/yb/LP9L/4P/s//C/8f/2f/f/8D/oP+y/+P/+//4/+r/xv+d/6b/1f/r/+T/8P/+/+r/2v/4/xsAHAAiAEgAYQBZAEkALADz/8L/w//g//n/FAAuACYA/P/X/9L/2v/a/9T/3//9/wsA+P/m/wAAKwA0ABsACwAcAD4ATQAxAPX/w/+8/9v//v8GAP7/CgApACAA6P/R/wcARAA/AA4A4//I/7z/zf/2/yAAKwADAMD/qv/Y/w8AHAASAAIA7P/q/wcACgDe/9T/FwBXAFIAMgApADQASABhAGwAbACBAJoAjABmAFcAVQBQAF4AfQB5AEsAMwBLAFcAKwDl/8X/4P8WAEQAawCTAJwAdgBNAE8AZgBtAGcAYABRADEACgDk/8r/vv+w/6v/x//x/+//yv/G/+n/BAAfAGEAqgC5AI4AVgAeAOL/qf97/2z/f/+O/3z/Zf9Y/y7/8/78/k3/gv91/2H/V/80/xf/OP+A/7j/7P80AHAAcAAqAMX/f/9//6n/xf/I/8P/rf+G/3L/if+z/9f/+P8jAEgARAANANX/0P/t//3//P/1/93/zf/y/ygAGgDf/9r/AwARAAIA/f/m/6r/g/+Z/87/AAAkAC4AJwAsAC8AFQABABQAIwAaAC0AXQBaACMAEQAoABYA2//P/wMAKAAEALr/kP+l/9r/BQAZAAcAxP+I/53/4/8CAP//HQBOAGAAaACCAIsAdwBrAGoAUgA2AD8AUgBHADcARwBjAHIAcwBnAE8AQQBIAE4AQAAzAEYAcQCEAGQARABZAIoAmgCJAHYAYQBSAFwAYAA2AAMA9P/q/9f/8f8pAB8A4//x/0kAagBHADkARwAwAAUA/f8EAPf/6f/3/xIAGgABANf/uf+m/37/Sv8u/xz/9f7g/gj/RP9b/17/av97/5b/tP+t/47/o//r/wcA2/+s/5L/dP9s/5L/sf+k/5P/lv+L/3n/k//X/w4AEQDs/8z/z//n//H/+f8OAAUAxP+O/5//zv/t/wsAHwD5/7T/qv/h/wwACAAAAAoAEgAQABkAOABSAFsAaAB5AGAAHwAAABMACADH/63/1f/l/8X/x////yMAHAAXABoAFAAPABUAGgAZABkAGwAhAC4AJwANAA8ALAAoAAgACAAQAOT/sv/C//P/GQBRAIYAagAcAA4APABRAE8AZQB6AHEAawBoAEoALwBBAFkAUgBTAG0AbgBKAC8ALwA0ADkAOQAtACkAOQA+ACYAHwBCAGcAcABoAEsAHAAJACUANwAaAAEAGQA6ADEADgDz/9r/vP+4/9L/2f+9/7H/wv+9/6P/u//6//n/tv+W/6j/o/+P/6H/tv+j/4z/f/9P/xv/M/9u/3L/W/9r/37/c/91/3//Xf9G/43/8P8EAPD//f8LAAEAFQBFAEYAFgD8/wIA+P/P/5z/cv9j/3P/kv+8/+n/8f/I/7D/1f/7/+7/1P/V/+f/BwA0AEoAPgAzADkAMwAmADAAPAAmAAkACgAQAAEA+/8RAB8AEAD5/+v/5P/t/xsAYwCWAKAAkwB7AFAAIwAbACkAHgANACIAOAATAN3/2//h/7H/fv+K/7D/wf/e/xQALAAWAAUAGAA6AFgAcwCRAKoAoQBzAFYAaQB3AFsATgBrAHIAUgBPAGYATQAUAA0ALwA8ADwASwBOAD4ARQBhAGwAbwB3AGUALgAKABsARwBlAFwAKgD4/+7/9//3/wgALQAtAA0AEAAsABMA4//2/zAALwAGAAUAHwAZAAEA9//t/9//5v/x/8//kv90/3X/bP9l/4z/y//Y/6L/YP81/yj/Uf+z/woAGQAFABAAMAA0ABYA/P/5/wYACAD3//f/EAAKAND/o/+p/7P/vv/z/x4A5P+P/6D/5f/i/8f/9/89AEMAOABCACEA0f+x/9b/+P8JAC4ASwA0AAsA7//O/6j/qv/R/+3/5v/Q/7v/rf+t/77/6P8kAEkANAAMABAANgA7ABYA8//l/9z/0f/D/6b/e/9g/2r/jv+v/7z/u//C/9X/1P+x/6P/1P8LAP//yf+7/+D/BwAjAD4ASAA0ACEAHgARAPP/7/8LAB0AHAAjACoAGAAAAAQAFQAcADEAUQBPADEANgBYAFYAPABIAGcAXgBKAFwAcgBiAFYAbQB4AFYANQA1AEAARABGAEcAPgAnAA4AAAAFABkALwA/AEMANwAtADsAUABWAE4AOgAEAMT/uP/b/+H/tf+W/63/3v/8//L/xP+R/3f/ef+N/6r/tf+i/5v/x//4//v/9P8YAEoATAAkAAAA9P/3//L/2P+5/7X/0P/u/wIACQD9/+r/7P8KAB0ADADy//H/AQAHAAAA/P/1/9n/xP/Y//7/BADw/+3//P8LABoAHQD2/7v/p/+7/8v/2v/9/xkAEwD9/+//6//4/yAASQBRAD0AFwDr/87/yv/K/8P/wv+z/33/Rf8+/07/Tv9e/6H/6v/6/9z/uf+k/6D/qv+z/63/qf+//+n/AgD3/9r/x//F/8r/0f/V/9L/1f/x/xoANABDAF0AegB/AGYAPQAZAAMA+P/1/wAAFwAnAC8ANwAvAAQA2f/h/xIAQwBiAG0AWwBIAFkAbwBWACoAKwBQAGUAYgBVADYAFgAkAF8AhwB6AFcAPwAzAC4AMAAqABIAAQAZAEcAVAA2AA0A5//J/8v/7P/2/8//r/++/9f/2f/Q/73/m/+Q/7H/y/+9/7z/5/8OABcAIwA+AEcAOAAsACEACAD4/wkAHwARAOv/3P/z/wwADAD+/+j/wv+j/7D/3f8AABUANgBOADYABwD1/wgAHgAjAB4AEgD7/9z/z//o/wwADwD9/wAAFAAcABoAGgACANL/vP/V//v/GQAxACwA/f/X/9//4/+z/3j/cP+X/7H/nf9y/1//cf+R/6n/s/+q/4//if+m/7T/jv9l/3P/of+3/7n/y//r//z/9//s/+L/4////y4AQgArABMAGwAeAAYAAAAoAFAAVQBLADkADwDm/+//IgBCADsAJgAaAB0AKAAvADkAUwBwAHgAbgBqAG4AdQB+AIMAewBuAFsANgAQABoAUABtAE8AIAANABcAMABOAGUAcACAAJ0ArgCSAFsARABTAEsADwDP/7P/qf+g/6H/oP+N/37/g/93/1H/Vv+r/wIADgDw//L/GAAsAB8AHwBAAFgAQgAaAAkABAAAAAwAFQDo/53/jP/I/wcAEwD//+//7//6/wUACwAQAAcA6f/W/9//6P/h/+r/AQD7/9X/tf+l/5//uf/t/wIA7v/n//n////4/wwAMgA/ACkAAwDZ/7T/of+i/6r/rf+w/7v/x/+8/53/j/+U/4b/af9n/4X/oP+v/7X/nP9y/2z/if+I/1f/MP82/1D/Zf95/5L/o/+i/6T/zv8SADYAMQAzAEQAPAAtAEAAUwA6ACEANwBNAD0ALgA5AD8ANgA4ADsAJgANAAUABgAQADEAYQCBAIMAbwBPADMAJgAuAEgAXQBGAAwA6P/w/wAACQAhAEAAQQAyAD8AaQCIAIwAiwCSAJMAhwCDAJYAnwCFAGcAYwBQABEA2//Z/+j/6P/s//T/5P/K/9L/9f8OABoAJwArACAAGAAjADQAMQASAPT/+/8VABIA+v8DAC8AUgBbAFQAPwAfAAIA8//y////EQAYABUADgD///H/AQAmACwA+//A/7H/0//+/w8ABQD2/+j/2v/q/yIARwAkAOL/x//R/93/6P/u/9n/t/+w/8P/y/+5/6T/ov+z/8P/zP/Z/+T/2P++/7T/rP+I/2P/Zv9x/1r/Rf9n/5n/mP9p/0H/Mf8o/xz/H/9B/2X/cP97/7T/AgApACkAJQASANz/qv+p/8z/5//v/+//8/8AAAsAEQAcACIACADZ/7//wf/I/9n/AwA2AFgAZwBhAEsAOgA+AEkASgBOAGQAhgCgAJMAVwAZAAgAGgA3AF8AggB2AEUALwBSAIkArwC4AKoAmQCZAKoAwADLAL4AngCNAJQAiQBWACAABgD8//r/CwArAD4ANAAPAOX/2f/s//n/7//n/+r/5v/l/wEAMwBmAJIArAChAG0AKwD5/+7/CAArAEAASABEADgAPABbAGUANADo/7P/mv+g/8v/AQAbABgAEgAOAAsADwAQAAEA5//P/7r/rf+w/7z/x//U/9n/yv+1/7L/t/+0/6n/lv+D/4T/ov/B/9P/7P8KAAkA5//P/9n/9P8IAAAA1v+f/3D/U/9D/y//Af/L/rj+x/7R/tP+3/7j/tP+4/4x/4D/kv+E/5T/zP8PAD8ASgA2ABcA/f/u/+b/0f+t/5b/pf++/83/3f/0//3//P8OAC4APAAuABoAGQAyAFYAbABvAGsAYwBUAEUANQAhABcAIgAsACcAMgBXAGoAWQBKAGEAkQC9AMgArACWALAA1wDVAL4AxwDeANsAxwC6AKoAnACnALsAngBDAO//4/8CAAEA1v+8/87/7f8CABMAFwAFAP3/EgAlABYA+v/z/xAATwCPAKIAhABmAFwAUAA+ADcAMwAnABsAEgAHAA4AOABgAFwAPAAgAAoA+P/8/xYAKQAkABAA/v/y/+v/6P/o/9v/tP+E/27/c/91/2r/ZP9n/3D/f/+L/5L/pv/G/9X/0f/b//P/+//4//z/8v/E/5b/iv+F/3D/Yf9r/4L/mP+q/6T/f/9b/13/gP+Z/4n/ZP9X/2z/iP+X/5f/gf9c/0z/W/9s/3f/mf/X/wsAJAApABwAAQDz//3/DAAKAP///P8HABQAFwAcADcAWwBwAHoAfgBuAFQAUgBfAFQAPABJAHcAkACAAGAASQBCAEcAPgAbAP//EQBEAGkAZABMAEgAZwCJAIwAcgBWAEwAVgBjAFkAPgA8AFsAawBPACcAGQAjADAALwAYAPP/2v/d/+7/9P/m/9L/zv/Y/+D/7v8OACAA///R/87/6f/4//7/CgABANP/qv+k/63/uv/a/wcAIAAcABwANQBPAE4AOwAzADsARABJAD8AEgDT/7n/yf/O/7f/sf/I/8r/rv+r/9f/CQAhAC4AOgA3AB8ADwAYACMAFgAJAB0AOgA4AB4ACADu/8P/m/+K/4v/o//Y/wAA9P/b/+v/DwAWAAcA/f/v/9b/y//V/9L/sP+U/5//uv+v/3//WP9a/23/eP95/3r/e/+B/5L/q//F/9T/z//E/9r/EgA8ADoAGgD4/+v/+f8KAPX/xf+n/6j/t//O/+T/4P/R/+T/EAAXAP7/AgAkACgACgD//xIAHQAeACgAKQAMAPH/+/8OAAAA7f8BABwAEgD//woAEAD2/+3/FABBAFEAYgBzAFsAIwALACYARAA/ABQA1v+s/7H/zP/V/9T/2//g/9D/vf+9/83/4f/z//L/2P+//8n/8v8VACkAOQBIAE4AVQBlAG4AZABdAF4ARwAhACcAYQCFAGwASwBNAFgAWABaAGEAWQBFAC4AEAD2//b/CQATABIAHAAxAD8ASABWAF0AVABQAGMAeABuAEgALwAtACMA/f/Y/9j/9P8LABAADwAKAPn/5v/i/+r/4v/M/8z/8v8XAB4AFAAIAO3/vf+P/2z/Rv8m/yH/Kv8l/xr/Hv8n/yX/I/8x/0X/Wv98/6//3v/0//H/4v/a/93/5f/l/9D/pf95/2v/gP+a/6L/o/+x/8r/5f/+/wwABQD2//r/DQASAAgADgAnACsAEQABAAkABwDw/+L/3//G/6j/s//i//7/BAAUAC0ANgBDAG0AmwCpAJsAggBfAD0APgBaAF4AMgAHAAUAHAAsADwAUQBPACUA+f/n/9j/u/+t/8H/3P/d/9H/1P/k/+7/9f8GAB4ALAAxADkARQBEADEAHwAfADkAaACMAIgAagBdAG4AfABxAGAAXwBqAHcAfwBwAEMAFgAWAEEAXgBMACsALgBUAHYAhgCOAIoAcgBYAFoAbABpAE0AMQAaAAYABwAuAFcAVwBAAD8ARgAzABAA+f/j/8j/zf/2/w0AAAD8/xIAFgAAAPn/AgDk/6H/cP9f/07/Rf9b/3D/Xv9M/2j/jP+D/2j/Y/9b/zH/Dv8Z/z7/YP+A/5H/fP9i/3r/wf8CABoACQDe/7r/sv+w/5f/gP+M/6f/sP+4/9j/+v8AAPL/4//R/8T/0v/s/+v/yv+t/6j/uv/o/yAAMAALAOX/2//S/83/9v86AFMAOQAmACUAEgD5//v/AgDt/9T/3P/3/w4AJAA0ACwAIAAyAE8AQwATAO//4P/R/8v/4//+//b/3v/d/+L/zv+3/8D/2P/c/9H/2P/+/z0AeQCSAIoAggCAAHAAVABEAD8APwBMAGAAXAA7ACYANwBOAEYAJwAdADsAZwB+AHMAWABAADkAQgBJAEAANAA+AGIAhQCMAHQAWABNAEgAMwATAPb/4f/g//r/EgAIAOn/2//k//T/CQAcAB0AEwAVABUA///q//T/DAARAAMA8f/Z/7n/p/+k/5r/hP+D/6n/0P/J/6j/oP+3/8b/tf+T/3D/V/9M/1T/eP+3//D//v/l/8j/r/+a/6L/0/8GABsAJQAyACEA5/+o/4v/lv+y/8P/v//C/+X/CgAGAOH/xf/F/97/BgAsAC4ABQDf/+v/DQAEANj/xf/S/8//u//B/9r/3//X/+P/9P/0/+v/6v/u//r/DAAPAPb/4f/w/w8AHAAQAAAA+P/z//H/+/8BAOH/rf+g/8L/1P/E/8f/7P/+/+v/4v/6/xUAHAAfACAAFwALAB4ATwBuAFkANwA7AFoAawBqAGcAXwBNAEMASwBlAIoAowChAJgApwC1AKEAhAB7AG8ATQA1AEAAVwBnAHQAewBuAFwAXQBsAHQAbgBdAE0ASQBUAGAAWwBJAEEARgBAACUAEgAOAP3/5P/n/wcAGwAdACEAHgAEAOv/2f/C/7b/yP/Q/6H/ZP9Q/1j/aP+N/7n/tf+B/1//b/+J/47/if+D/3T/cf+b/+H////p/9n/7P/6/+3/3f/T/7z/pv+m/6f/m/+e/7r/zv/J/7j/o/+X/6//5v8UACkALwAiAAIA7//y//L/5P/j//f/BAD4/+X/6f8HACAAGwADAOj/zf/G/+v/HgAhAO//wv/E/+T/9v/v/+n/+f8PAA4A///6/wIAFAAnABoA5P/B/93/+f/Y/63/uv/i//b//f/5/83/lP+Y/+b/LwA1AAsA8P/+/xkAKQAxADcAMQAnADQAVgBwAHEAZgBjAGsAawBdAGIAjQCxAKYAiwCAAGsASwBMAGgAXQAlAPv//f8aAEYAZQBTABsA/f8RADwAaACIAIIAWgA+AEwAYwBPABoA/v8LABcACgD8//7/AgAKABYADADt/+X/+P/4//X/IABRADEA2/+o/6H/nf+d/6H/iP9U/zr/Sf9P/zj/Mf9Z/4v/lf98/3H/kf/L//7/DADm/7D/rf/a//b/6f/e/+z/+P/y/+X/2v/b/+r/9//+/woADADx/+b/FQBFADUAEgAfADgAIwABAA4ALwApAAYA+f8OAB4AGQAYACcAJgATABgANgA+ACYAGQAjACsAHgD9/93/4f8OADMANQAxADQAJgASACAARwBWAEIAJAAOAP//7v/X/9D/7P8LAPv/zv+2/7z/xf/L/9n/5v/e/8X/v//s/yoAOAAaAA0AHwArACIAGAANAAgAJABbAH8AewBWACAA9v/+/ywAUABYAE4AMgAOAAcAHQAsACMAHQApADoAPgA+AEsAVgA+ABQAEwA3AD0AHQAZADsARQApAA8A///y//b/DwAeABMABwARACsAPAAzABsAEgAcACEAHgAbABAA9f/l/+j/5P/F/5n/e/95/5D/pv+o/6L/nP+Y/57/sv++/7//zf/d/9D/yP/s/woA7v/O/+L/8//W/8v//v8qABgA/f8RACoAEwDs//X/GQAaAAQADwArACQABwAJACMALgAiAAQA3f/P/+r/AgD+//v/+f/V/7P/zv////3/7P8HACMACADm//n/GwAUAP7/CwAsADIAIQAbABkA/f/b/9X/1//B/67/u//B/6P/hf+H/5n/pf+d/3v/Xf9r/5D/m/+X/57/nP+L/6D/3P///wEADwAXAOv/tf/O/yIATgA4ABwAGQAMAPX/BwA/AEoAEgDt/w8APQBEADoAMgAdAAoADQAVABUAEwAOAAYAEQAsAC0AGgAmAEMAMgAFAP//HAAtADkATgBLAB4A+v8NADMALgAKAAUALABHADwAMgA3ACcA/P/l//D/BAARABAA9P/J/7H/q/+o/7L/0P/b/7X/fP9i/4T/yP/n/77/iP+T/8//AwAdACYAIwAkAC4AKQAMAAMAKABQAE0ALAAaACYAQABRAFgATwAuAAUAAQAoAE4AWwBTADgAFwAYADIAMgAYABYAJAAbABAAHwAnABIABgAOAAkA+/8MADUAQQAeAO7/2v/o//z/AwAEAAoACAAFAB4ARQBIACkAGgAiACcAKwA5ADIABgDZ/8//0P+0/4v/iv+3/9D/rv+E/5H/uf/D/7f/rP+W/33/lf/f/xQAEQACAA0AHgAbAAgA9//t/+z//P8bADAAJgALAPn/9f/9/xoAQgBdAGoAbABMABUAAwAkAD8APwBJAF0AUwA0ACgAMgAzACAADAANACEAIgAPAA4AJAAmAB4AOABSADQADAAWAC8AKAAhADcASQA+AC4AKgAkAB4AKgA6ACcA6//B/8f/zP+r/5X/qf+w/43/gP+m/8T/tP+Y/43/kP+n/9H/9/8KABAADQAEAAQACgADAPT/7f/w//r/FQA1ADAA/f/Y/+7/GwAdAPP/2v/z/xUAFAADAA4AJQAOANH/tP/N/+3/9v/5////9//e/9D/5/8OABUA9P/h/+v/6f/X/+H/9f/U/5//sP/y////0f+//9//7P/S/83/9f8PAPn/5P/u//D/0v+1/6D/h/96/3//dP9p/4z/vf+z/4j/fP+A/4L/nP+4/6H/e/+T/9P/9v/6//v//f8EABoALwApAA8AAQARACwALQAbABsAHgAAAOT/AwAyACcAAgALAC4AKAAFAAEAHgAvACEADgAMABkAKQA0ADMAIgANAAMABgAVACYAJQASAAQAAAD9/wYAIgAsAA0A7f/+/ywAPgAjAPz/7P/5/woAAwDg/8T/x//T/8H/o/+b/5X/cP9T/2z/lf+d/5r/rP+6/6//rf/P//X/+f/w/wIAHgAbAA0AJABKAEoANwA5AD8APgBRAG0AbQBhAGIATAAXAAMAJwBNAFoAWgBQAD0ALwAnAB8AJwBBAFEARQAoABMAHgA8AEEANABDAFoAQwAaAB4AOAA1ACoANgBAADUAKwAmABkACgAKABgAJwAlABIAAgACAP7/8P/v//3/9f/J/6D/mP+W/3v/Yv9s/3j/Wf88/1j/iP+Y/53/qf+Y/3j/jP/I/9v/w//J//j/EQAJABEANQBIADQAFgAMAA0ADQATABsAJwA7AEwAQQAnABsAFgADAPT//f8PABwAJQAlABUABQACAA8AKABCAEsARAA5ACcADgD//wsAKQAzAB4AHQBVAIMAWwAZABgAKgAUABgAVQBmADAAFQAoACMAGwBKAGwAMgDX/7L/uv/I/9j/5//Z/7H/mP+q/9j/AgAcABsA7/+7/8L/9P8MAAsAJwBSAF0AYAB0AGwANQAMABIAEwD6//r/JQA0AA0A/f8nADwAFQABABkADgDa/9b///8FAO//6//j/9L/8v80AEAAFAD0/+P/yf/M//z/GwANAAQAEQATAAcAFAAwACsAAgDg/9n/5P///xkAEgD+/wIACwD8//P/BQABANf/t/+q/5D/e/+F/5P/h/9l/zX/GP89/43/tP+h/4f/bv9b/3f/vf/q/+7/8f/8//L/4//y/xcAIAD6/9H/2f8GACUAKAAiABEA//8IACAAGQD0/+X//v8hACYADgACABYAIgAQAAkAGwAUAPT/9f8ZACMABQDy/wYAKwAsAAAA7/8mAFkANADw/+//GAAaAAcAHwBSAFcALQAfAD8ARwAiAB4ASABAAOz/t//X/wAA8P++/6H/pv+w/6j/rP/R/+D/sP+I/7H/9P/7/97/5f8MACQAJAAyAFMAXQA3AA8AGgBIAF4ARwAdAAgAEQAlADkASwBFABoA8//6/xEAHwAuADAADwD0//z/AwAFACcAPAAIANf/9v8bAP//7v8XADIAGgAHAAgA///u/+n/7P/9/yUAOAASAOL/6v8TACUAJwA3ADQADwAJADcAQgAIANv/2f/H/6z/uf/F/5b/Y/9o/4P/jf+S/5f/l/+g/6j/l/+K/6P/yv/e/+r/+P/9//7/BQANABUAGwAWABcAKwAtABIAEAA0ADoAFAANADcAQwAjACcAXwBrACYA7P/7/xUAEgAdADkAKQADAA8ANwA7ADQAQgA4AAwA+v8HAA4AGAAuACkABQD0////CwAYAC4ANwAqABYAEAAgAEAAUABMAFMAawBrAD8ABwDw//T/7P/O/8X/1//R/7T/w//1//n/1P/M/87/qv+N/7n//v8LAPD/8P8QAB4AEgAXADoATgA2ABEABAAVADkATgA4ABUAEAATAAIACAAxADkACgDk/+z//v8FAAcABQD3/9z/xP/S/wIAFADy/97/9P8LABoANgA6AAIAx//O/wYAMgA9AC8AFQAAAP3/AwAGAAUAGQA4ADcADgD//yIAMAD6/7X/ov/A/+H/4//P/7P/iv9a/2P/s//t/9b/o/+I/3D/af+a/9//8f/T/7X/sv/T/wQAFgAEAO//2//D/8r/+f8VAAEA7P/u/+3/4f/q/wsAHAABANb/wP+6/7z/2v8JAA4A6P/f/wIAFAABAP7/FwAlABQACQAgADkAHADZ/7r/2P8HADQAWQBRAB8AAAAMABwAKAA4ACoA/P/u/xIAMAAzADYAOQAqAA0A/f8KACUAIADu/7//uf++/8H/4P8DAOP/j/9u/6z/9v8CAO7/+P8NAAMA/f8sAGQAaABQAEMALQABAPH/JgBoAF4AEADo/xIAOgA9AGkApgBmANH/vP80AGkAOQA5AF8AKQDI/9X/LgA8AP//8v8mADoADgDr//j/CAD//wAAFAAYAAEA5//f//D/FAAsACoAJAAoACUAEAABAA0ALwBAACIA+/8AABMA9f+//6f/oP+M/4X/nv+t/5H/Yf9Q/27/kf+G/2T/Xf9l/2X/f/++/+f/5f/p//r/7P/O/9f/AAAYABkAFwANAPH/4v8GAEIAUAAfAOX/x/+9/8f/9P8oAC0A+v/G/9L/HwBWADsACwAJABQA///1/xIAIgAOAAcAHgA0ADoALwAWAAIACgAhADAAOwBOAFUANwAKAPb//P8FABoARgBTACMAEgBaAJIAYgAUAPT/2P+y/7j/z/+q/27/dP+s/8T/u//D/+D/7v/a/7j/r//K//D/BgAUACQAHgD5/+X/CQAtAA0A3v/5/zwASgAzADEAOwAvACAAIwA1AEYANAD5/+H/GQBIACIA9f8TAEEAQgAwACEAAADg/+3/EgAaAPz/1//J/9v//P8MAAcACAAZAB8ADAD7/wIADAAKAA0AGQAbABQADQD8/+v///8kABoA5//D/67/lP+i/+b/CQDL/3D/TP9e/3X/fv+B/4H/ev98/5z/xP/M/8z/8P8VAAkABgA+AF0AHQDZ//D/IwAcAP7/AAD2/77/n//S/xAADwD9/xoAQQA8ACcAKAAqAB8AEgD6/8r/qP+2/9D/0//a/wYAPgBRAD4AKgAaAPb/zP/T/wMAKABDAHEAgQBHAAkAGABLAGIAbQB8AHIAWABOAEAADgDp/wMADwC+/2j/iv/i/9P/df9X/3X/af9R/4P/xf+6/5z/vf/s/97/vP/G/+3/CAAZADAASQBdAF8ASAApADAAcACyALYAhwBaADsAIgAcACgAKQAbAA8AAQDZ/6n/nP/H/wkAGQDh/6T/nf+q/6L/qv/X//X/7v/n/+P/x/+0/9X/AQAFAAEAIQA9AC0AGwA0AEgALQAbAEgAfAB+AHoAmQCjAGwAMgA0AE4APQAGAND/mf9S/y//Yf+b/2v/AP/2/lL/jf+E/4b/nf+U/47/wv8BAAEA3//T/9n/5P8DACAACwDi//D/MABHACcAGwA3AD0ALgBLAJIAtQCeAHwAXgAyAA0AHABMAE0AAACu/7H//f81AC4AEgAIAAwAGAAyAEAAJQD///z/DwAGAPP/DgBDAE8ALAASAAkADgBBAIgAbQDt/8D/NQCfAHUAHwAVACEA+v/T/+H/+v/x/9L/sf+Y/5z/t//F/73/rv+Q/2n/fP/T//D/lf89/1b/j/+d/8v/MABSABUABwBbAI0AYAAvACEABADz/zgAmACVAD0AAgD1/+X/8f88AG8ANwDr/wUAVABrAFUAUwBLABoA/P8fAEYAJADa/7n/3f8dAEgARAAgABEANABjAGkAXABuAIsAfwBXAEQAQQA4AD8AZQB1AEwAKABEAGwATAD6/83/y/+8/5n/hv98/1v/N/87/1j/W/9G/0n/fP+0/7f/lP+N/7z/7f/4//P/8//3/wAAEwANAOT/1/8QAEkAOAAJAAAAAQDv//7/NwA8APH/xv/o//n/2P/a/wIA7P+e/5b/4f8KAO//1//S/7L/jP+d/9L/5f/R/77/uP+9/8z/4//5/xAAHwAbACQAXACWAJIAZABNAEYALwAhAC0AIwD5//L/DQDp/4P/WP+N/7D/jv+D/6r/qf9l/z//b/+v/7//q/+Q/3T/bP+Y/+n/IQAVAOf/4f8XAEMANgAgADUARwAfAPH/AQArADUAOwBbAFkAFADa/+r/DQAKAAQAGgApACcAOABPADYA/v/q//D/1v+r/6T/rf+a/43/uP/p/+T/2P8HAEUAUABIAGAAcQBMACoAOAA4AAYA+/9IAH4APwDo/+n/FAATAAQAIQA9ACIA9//o/9P/nv9z/2v/b/92/4//r/+9/73/s/+X/33/g/+Q/4T/jv/Y/yUAOQBGAHUAeQA1AB4AbACgAGUAGgANAPn/xv/M/xoAQQAsAEAAhgCTAE0AFQARABAAAgALACEAEADM/4b/ev+7/xIAMQASAPP/5f/K/7n/6/85AEIAEQD9/wkA/v/w/xIANgAZAOL/2P/u/wEAGgAxABkA3P/E/9v/5f/Z/+r/EQATAOT/t/+j/6b/vv/h/+f/yf+r/5j/a/8i/wT/RP+v/+T/yP+X/4//tv/h/+r/yf+l/77/JQCNAJMARAAIABUAMQAlAAsACAARABYAHwApABQA4P/D/97/EwAzAEAAXACKAJ8AewA/ACMAMQBGAFUAaABsAEEA4/92/y7/Pv+x/zgAXAAOALL/pf/j/0EAkgCbAEwAAgA1AMgAHgHlAFwA4P+O/2X/av+R/7D/r/+l/7X/2f/1/wMA///T/3f/Hv8I/yz/Vv9//7v/8v8IABgAMgAvAAcA/f8cAAwAzv/m/3AA0wC9AKEAvwCgAAUAgv+W//f/NABaAIMAdQAdANv//P9KAF8AMAACAA4APABSADwAFADo/7T/lf+z//f/IQAhAAsA5P+5/9L/SQC9AM0AnAB7AHAAZQBzAJEAdAAQAMf/vv+b/y//5/4s/8X/PQBtAGgAMQDX/6D/tf/c/8T/gP9o/4z/n/9j/wX/1/7z/kP/qP8CACkAFwDz/+b/+v8gAEUAYACGAM4AHAEZAZkA6P+G/6z/IgB2AF4A+P+p/7L/9/81AEkAQAA3AEcAWwBNACAACgAaABkA7//Z/wwAYACDAEUApf/g/nn+yv6J/x4AVABtAJUAsgCmAHoASQBDAJAAFAFqAT4BkgCY/4T+jP3v/N78YP1G/i//yv8XAFkAwwBSAe4BcwK5AqcCRAKbAasAi/+B/tf9p/3M/fz9+P3I/bv9Gf7a/sX/rwB9ARECVgJfAkQC5gEjATwAyP8FAHIAYAC5//L+af44/nL+EP/Q/4IARgEeApoCZALdAacByQHDAT4BSwAv/0r+7P0L/kv+cP6O/r7+6v4V/2j/+f+UAPEA9ADAAJIAggB1AD0AxP8d/4z+av64/gL/8/7Y/hv/k//g/ycA1gDJAXACkwJbAtsBHwGEAFkAYQAuAMb/ef9Z/z7/Jv8y/2P/of/U/+X/yP+Z/4b/kv+U/3r/cP+k/wAAPQAhAKf/+f5h/jX+p/6J/2gA4wDeAHgACgAUAMsAvAEiArQB6QBjAF4AqQDXAI8AzP/3/or+rv44/93/UgBUAOL/V/8k/2z/+/94AKkAiQBIAB8AJgA/AEUAOAA1ADoAHADL/3//ff+z/9b/xf+x/9T/JwBmAFAA2f9L/xn/b//6/zcAAQCs/6L/+/9yAK0AegDq/0j/7P7y/iv/Uv9H/xj/7v4E/4D/OwDGAMsAXQDZ/6P/8v+uAHQB2wHBAUkBqQAkAAwAggA2AZkBUQFpAEH/YP4i/mr+0v4l/3r/2v8bACYAMAB6AAgBnAHqAc8BaAHwAHgAv/9y/pX8uPq3+Sn67PtN/oYAHALmAiIDZAMkBEIFHwYlBiwFcgN7AcX/bf40/fn7Bvu1+v/6mftV/Dr9Vf6T/8QAtgFdAtwCRgNlA+ICqAEPAKX+yf11/VX9I/3k/Mf86/xe/Tn+hf8QAYMCpwN2BAIFVAVYBdUEpgMHAooAk//z/jr+TP2H/GP8A/0h/jv/8/9FAGwAjACSAGYAIADk/6f/Ov+H/rb9Df3M/AX9mf1d/j7/OgA/ASMCvwIDA/cCxAKgAqYCugKVAvsB6AC0//X+Df/d/9sAkQHyATcCiQKzAj8CvwAp/uP6nvcm9Tf0NfXe90n7WP5vANUBdAPyBfkITwvFCxMK+AaSA6oAWv5L/ED6avhN91P3hfiE+rz8q/4pAHoBEQMdBUQHzQgYCQoIDwa+A3MBP/8i/UT76/lC+Tn5qPmP+gr8GP5uAKkCiwQYBlgHGwj8B7wGkAQZAu3/NP66/E/7E/pb+Wf5N/qc+1r9Mf/RAOgBUwJAAgwC7wHOAV8BcgAa/5H9B/yX+nL58fhk+cz6yPzQ/oMAzAHHApoDXwQgBdoFZwaHBgoGAQW7A5QCwgFHAQ4B9wDeAJEA+v9F/93+Hf/r/7gA6ABIACv/Fv5j/SD9Q/3J/Z3+bv/N/4r/5/5T/tj96Pzk+u73N/VP9Av28fmu/hQDrAZ+CYELbww0DEALSAqGCWEI/QUrAtP9UPpf+KT3SPfq9vz2J/h7+jv9g/8HASoCbQPVBNoF5gXNBOACnABd/lP8qvqX+Un5v/nJ+iP8q/1q/3kBzQMZBuYH2AjXCAoIngawBGwCOgCp/gL++f3N/fT8ofut+ub6Y/yF/okABQLuAjsDxQKEAdb/WP5j/bv80Ptc+r/4r/ep9574LvoU/E7+5QCgAwMGnQdOCFwIOAgsCDAI+wc8B9sFDAQrAoAAJP8V/ln9+vzn/PD85/zm/Dz9Kf6E/8QAYAEkATQA1v5P/fj7RfuG+4T8gP2z/QT9MPwl/Bn9Jf7e/YL73fcd9ab1fPpiAlMKOw/VD1MNXQoZCdUJKQtECygJ/ASy/4D6k/a69PX0YPbP98f42Pnd+9H+kAHfAr4CcgI1A94E8wUdBWUCD/9o/OH6QfpQ+g37SPxj/ef9Nf5s/0sCLwZeCWEKMQkJBygF3gOuAiUBa//6/Qj9WfyV+8D6N/pf+lL73fyv/ncA3gGEAhgCmAB5/ov8g/t2+7f7T/vj+SP4Yfd8+DP7cv5QAasD2wXxB3oJFQoECusJAAqlCRwIkQUwAxACBwLSAWgAHf5F/Mv7VPzN/Kv8b/zm/CD+Wf/T/5v/VP9h/4X/TP+p/vD9Tf10/B37uvla+aD6v/yz/cz7UvfK8obxh/Uu/pUIIRFPFb8UDxHbDFMKKApAC3sLCwmoA8v8tPb58qnxtfEn8v/y8vRZ+Hr87v/HAVQCsgK9A00FdQZSBpgEhgGw/ej5Qvey9lr4OPu//RT/xf8/AWkEqghQDOgNVQ2kC/cJiQjBBgMEewAI/Xr68Pj09zf3EvdE+AD7X/7YAHABjAB6/yb/Ov+X/pz86fnS9wv3GPcD95j2xPad+Cz8RQCYA9kFyQcpCrYMWA42DpkMpgpACUAI0waCBNUB1f8M//z+vP75/U79gf17/ir/hv66/CD7//pG/Jv9uv2y/MP7Cvxc/Wr+8v3N+/n44vaf9pL4TfyZANkDtwTUAuT+M/oo9jX0xvWa+6cE3Q2eEykU4hAVDVkL5QslDX8NPAwZCbcDMPwh9GbuGe2s71PzlfVv9sX33/rL/nUBFAIXAnYDVwagCPYH9AN0/uD5hPdY9874aft8/vYA7wGcAXUBDwOsBtIKYA0qDbQKmwc8BdADkAKhAPn9cPv4+cb5Mfp1+n/67Pox/Ov9Gf8Q//z9cfyp+oX4Q/bm9Gf1h/e0+YH6MfqM+gP9HQH6BEUHcAjUCeYLmg2jDfYL0wlfCJUHrwZYBRAEWAPsAhoCwQCf/2j/0f/Q/9H+YP11/Db8wPtR+l74SPfz99X5e/vq+277GPu5+1L9Qf+wAPcA4P/t/TT8vvvA/Hj+9P/+ADkCXQRQB/kJxQpyCMkCM/vK9C7zNPj3AWMLfA/1DPUGTQKwAUcEZgcjCSQJhgfgA9b9XvbP70PsC+z07d3wtfSj+av+1AH/AYMAbQDZA+kJSg/VENENFAhQAmX+xPzi/NH9mf56/j39X/vh+bn5V/uK/qsC3wZFChIMugsnCfEEWQDv/M371PyM/gn/T/0f+mj30faL+Fj7pf2Z/lf+lP0D/RP90/3y/t3/JADa/4j/qf8yALgAEwG0ATUDigXDB6sIyAe9Bb0DtgLFAk4DYQNEAur/N/2h+yj8ZP6ZAAsBe/9e/Xj8O/17/sn+7P0M/V794P5XAJIAb//H/XH8m/sK+7z6GPtx/JP+5gADA9oEJQbbBaUCT/z29HrwIPIe+hoFQg5JEhERCA0UCfoGBQeHCEUKowogCEwCjPqn8yLwo/Cy8/n26fh3+aD5b/pW/A//6AEkBF4FrQViBYwE1wIMAL/8RvrC+RT77fwC/jf+eP6E/xsBdAJbA3UETAZPCBsJ7weFBVoDHgIyAbX/8v1K/aX+KgHBAvwBXv/I/Kz77ftP/Mr7U/qg+Gj3/vZY90T4gPnL+g38a/0m/1ABpwO/BUMHGAhcCFIIRwhUCDMIYQetBZcDGwLeAZoCbQOrA1EDqQKpAf//v/29+/b6kvu3/HH9of3b/Vz+jf63/Rb80Pqw+in79vq6+bf4kvl//NT/pwGXAfIAFAHaAbEBBv+w+ULzdO4Z7tLzyf5XC4sUHRewE1AOcAvgDAoRnhS9FCAQRgdh/OzyJe7W7mPyrvSi8w3xufB79FH6hv6A/zb/uACzBKIIcwmPBiYC0/5j/fD8qPza/DX+dgBVAt4ClAL3AuMEiAcMCUMIugUzAxECMAIvAtwAZf5H/Ov7Vf0f/9v/av/w/l//SgBBAG7+iPsO+aj3ovYR9UbzrvIq9Of2J/ku+hv7jP2uAd0FUQjfCOEIlgniCtEL4wt9CxILXgrUCLUGKgUMBagFOQXEAkb/3Pyj/J39wv0O/GX5nvfQ96P58/va/Qn/ff8s/xv+kvwC+7750Pg1+Br47vgL+1j+JgJPBa0GkwUiAir90PdB86/wZPFG9uv+AwkiEcQUAxRuEQcQ/xAmEyoUYxKZDaQGxv5l9+TxFu+k7iPvPO/h7lDvvvH19WD6ef0f/4AAsAJ8BY4HrAe5BaACiv87/RL8Q/y7/dv/kwEsAg0CmAL4BNYISwxADSALUwcSBKsCrwK4Ar4B0/+z/fz74Ppv+tz6PfwZ/nj/i/9I/lf8YfqO+Mj2OvVs9MH07/Un99X3JvjZ+Jz6mf2GAdgF1wmnDLANKw07DCgMSg2vDu4OYA2aCsEHhAXEAxoCewAx/07+XP28+1T51fY69QL14vUn92L4r/lc+1f9+P6B/9D+jP2P/AX8Sfu8+dn3P/dd+er9ygKqBegF3QRCBEwEeQNMADj71fYi9l36NAKmCrcQ0RI9EdAN/gqdCtIM4Q8RETQO5gbo/FPzJu2q67vtg/CQ8bbwFfD58Yb2ePtw/mX/jQC2A+0HHQo4CHkDW/9O/r//UgGrAZUBZALzA7wE/gMZA0EEzQc7C1ULTQemAfL9uv2O/84AGwAU/iT8BPt0+hL6FPoM+xP9Uf9zAJ3/EP34+Y33V/YM9ij2d/Yh9yj4KPnF+WT6OPw6AO4FXwuXDjkPpg6EDjAPrQ/6DiAN8wrvCL4G9QP/AP/+p/5i/8v/8f4R/RX7mPmX+Or3vfdW+ID5fPqp+jL67fmB+qT7Qfxk+y35AffE9pX52f5jBM4HHQhABtsDdAHs/RT47vAV7Gvt6vWVAnoO6hUeGHwW/BJ3D7kNCQ+6EnsVGRP0CQT9F/Jk7Wju8fA68SLvmO1A79DznPhb+yz8+vwy/0cCVwQTBOABQv9l/W38Cfxn/DX+jgEoBf4GLgZIBF4EWwj7DnEUTRUXEUoK3wMO/0D75/fV9Xf24Pn1/e3/w/4f/Mr6OPx5/08CFgObAYj+evrg9YDxnO4w7vrvgvJD9Pv0yvUX+EP8ZgE8BjQKkA2fEPsSvBNjEpoP3wxpC0ILXguICjgIyAQbATf+Av3n/VUAogLGAsz/xPoq9hH0pfRN9lD3Q/f99kf37vck+LT3efeU+C/7Sf6wABMCAAPpA4EEMQQYAxsCvQH8ANj9ffch8GXsPPC6+34KahZ5G8wZxBRHEIQOaQ9hEVcSbBCwCssBGPiY8B3tJe197kPvde+Q8LLzHPim+7v84PtR+/v8vwB+BLsFdwPQ/in6wveY+Bf8ggDeAwIFPwQxA7oDuAZeC6gPkBE1EDcMNQfWAgEAqv4r/tX9W/3Q/GP8H/zr+7j7pvv1+9P8Lf6V/0oAe/+8/ID4JfRS8e/wf/KO9Nf1PvbA9nv40PtJACQFygnBDXcQexH8EPMPeg/KD+4PnA53C3sHLQRSAnkBqwB3/z7+g/0q/Xz89vr7+Jv3lfeb+Ir5avlA+Ov2RfZr9tH2CvdV92H4fvoe/TT/KQBoAAoB1QKCBdMHVQgXBhABOfqS89LvavEF+YsEtQ9PFrQWwRJ2DjANkw9aEwwVQRL2CmYBrfgb8yvxlvFr8ljyafGt8DbxMvPT9Qv4Z/lY+sL7KP4YAVYDnAOUAVr+B/x1/PX/6QTDCLUJ6gdgBXkEUgYXCqgN+w5LDU4JoATTALv+PP6P/sb+Uf4w/d375fqP+sP6MPuV++b7OPyG/JH89/t++l74OfbF9Fn0tfRL9bL1Afa39l74Kvvs/i8DdgdJCz4ODRDBEMQQrBDLEOwQfhAGD4AMXAkvBmYDLQGA/0L+Tf1p/FT76/lV+P32TfZa9uL2jPcw+NH4afmy+U35Hviq9gn2Svez+mz/6AO9BikHEQXBAO366fSr8CXwPPQT/E0FOw0gEsATEBOFEXwQ2RCjErIU/BSrEYMKcAGG+QX18/Nk9D30xfLg8OnvevAj8hH01fWL9275Vfu+/ET99vwt/ET7kPq0+oH8RgASBfgIYgpbCbUHygfHCsIPTBQJFhYUQg8sCVwD9/60/Jr8uv2C/sv9q/tQ+QH4N/hx+cj6nvvf+6z78/qM+af38PX89Kr0R/Ru85HyjfLO8/z1f/g2+4b+xAKWB/wLDA+pEG0R9hFVEkASoRGzEIgPuQ3DCsYGzAIwAJb/ZQApAaIAjP6N+5P4TfYp9VH1cfaT96j3bvbP9Cn0KfU29/j4g/kn+Tb5y/q9/b4AlQIXA/gC1wLBAnECrwFJAA/+Rfsk+Zn5//2sBa8NYRLsEeINOQolCn8NGhGcERkOLQgpAnH9RPpt+Kz3j/dY92v28fTo80P0y/UO99b2p/WQ9RP4Xfy9/x0A8P3D++z7rv5TAucEyAW+BegFuQb3B0kJfApBCwQLXgm0Bi8E1wKxAr4C5wEFAP/98fwh/dj9Jf64/fD8Q/zF+0T7o/rz+VH5zfhh+Pf3evft9m32CfbE9dL1w/Yc+az8hAC7AxwGCgjcCZQLFQ1aDmkPJBBKEIYPtA0wC+YIpQdDB5YGqAS3Adb+rfz1+jT5lfe69uj2pPcj+Pv3ePda9xn4V/ko+hD6m/m1+X36Jfse+wL7DPy8/jkC7QSGBYIDU/9G+jr2C/XI9xH++wW1DPIPQQ9FDI4JAwn2CkkOHhGqEQkPuQlpAxP+8Prz+RD6FPpi+Rv4tPZy9Vz0gPMh85nzIfWi94r61PyR/bb8U/vd+iz8FP+3AvcF4wcrCGkHyAYzB8EI1Qp0DKoM/ArxB+IE+gJVAj4CHgLVAVIBWwDx/oH9dvzW+3v7b/uy+8T77voJ+cD27vT888jz9fMk9D30mvTG9cD31flq+8380P6rAbkEVAeRCdYLFg7KD54QxRCWEBEQ4g7YDEYK/ge9Bm8GEwadBP8BI//q/FT71/k6+M/26PVm9fn0pPTO9Lb1/vbb9+j3qPcY+Kf5svs7/fP9Z/42/1cAJwH2AHL/z/zm+Rz41fit/PUCxwnMDn8QOw8VDUcMjg3xD+cRSRJ2EEAMYwacAKP8zfrr+Zf4cfY69PXyEPP+85f0E/Tx8qfyH/S79gD5FPpE+lj65PpQ/OD+RgJ8BXUHCwgACEsIdQlvC4cNnA7aDYUL1wjnBscF5ATkA/ACQAK9AQwB3f8j/jv8yfo7+k/6VPri+SH5QvgM9y71APOH8ZfxAvO69M/1Qvbp9nv4z/om/R3/KwHqAygH7gmVC3wMkg1EDw0R+xGMERsQfw48DQ0MYgo/CFQGAQWuA2kBGP6k+vP3MPYc9ar02vRU9Yn1OPWH9MnzZfPP8yT10/YO+Lv4hvn6+tX8g/7l/zMBXAL1ArMCkQG+/9b9Lv0d/5EDqAgrDFEN4wwKDHYLfAtODLkN+A4OD1oN6gmEBWUBf/7B/E/7n/kh+Hr3Wvet9vP0A/Mh8qLyyfPO9Lj1IfdD+YL7/vyM/QX+aP+6AfkDTwUBBvgGcwioCbIJtQjOB+cHtwgACdkHwAU0BCEE0wS+BDsDIwGm///+hf6u/ZH8iPvE+j76x/kU+QT46/ZR9kj2U/Yh9gn2g/Z795L4u/k2+/b8m/4RAL0B1AMGBgMI6wnVC1UN5w2+DZUNug3JDVsNfwxPC5IJGwdPBNQB9/+a/pX9wPzI+236+fgE+K33Xfeb9qb1FPUK9UL1ofVV9lr3T/jq+Fn5Ffpp+zX9A/8uADIAGv+f/cX8Tf1j/50CDgaiCLYJjQkOCQ0JvgnMCsILVgx9DD4MhAsjCh8IzgWHA00B//7T/EL7WvqB+Rz4Q/aO9GLzz/Lx8vPzpvVm96L4Svml+Qn60Pox/PL9hP/AADICQQREBhwHnQbZBckFRAaPBogGrAY4B9EHAgibB6cGXwU3BJQDRwO6ArsBtADj/9j+Kf1Q+zf6APrf+S75Kfhx9zD3IvcX9yH3WvfI9274Pfn6+Yz6TfvD/Pn+YgF0AyIFnAbrB/wI4QnGCqwLXgylDGIMjQs8CrEIOwf7Bd0EtANbAtAARf8F/hv9LPzm+n35ePgI+NT3eff49pP2ffbA9lb3DviW+NT4FPmi+U76tvrt+n37rPw3/uL/yQHuA8sFzQYgB4EHXwh5CXMKQQviCxoMzQs8C4sKWQlgByMFZgMoAsMA//5d/UD8ZPtm+lv5gvjU90j3Jvem93H4A/le+ez5ufpQ+3H7gPsP/CP9QP4N/5r/EQB0ANoAdgFCAvwCkgM0BNYEJAUSBQcFSgWbBZEFFwV1BAIE1QOwAzgDWgJhAaQAKACk/+7+N/7C/YD9Hv2L/Bv8GvxX/Ev8mftp+lb5CPnJ+Tf7a/zE/I78pfxt/ZP+y/8nAZMCowMzBK4EaAUeBmkGWQZLBlkGWgZNBk0GIAZbBRYEDQOpAoMCHAKMARwBqwD6/yD/bf4E/r79aP38/Ir87Pvn+rr5A/nk+OL4s/iH+GL4Cfiv9/L3/fhp+vv7vv2G/woBXQLQA3oFNQfQCBQKxArdCo8K7wnqCJEHJAblBPIDOgNuAigBYf+N/Tb8lvuY++/7OfxL/FT8dvyL/H/8l/z2/Fb9cP1h/WX9h/2z/ef9NP69/ob/UgDaACYBZQG3AUQCKgMRBFsEBQS8A+IDDgSvA70CqAHaAGsAIQDN/3P/Df94/sH9L/3g/K38j/yV/Hv85/sN+4j6kPq++rb6p/r4+rH7cvwF/Z/9e/5y/0wAIQEqAlgDbQRoBWwGUge6B6wHnQenB1AHbQaDBfcEhgTsA1UD2QJHApsB/QBWAH3/of75/Xr9Ff3M/G/81/sv+6b6Lfq4+Uf5mfiI94r2IPYt9oX2Wveq+An6Wvvk/Jj+IwCGAfUCeQQaBuwHswkCC6cLiQumCn8JtwgZCPkGegVKBFgDFQKkAJ7/+P46/mv9A/0K/QT9pfw3/BX8GPz4+/b7dPwT/RT9j/xR/KT8Ef1Q/ZX9//1n/sX+RP/1/7IATwHKATcCggKRAoMCigKNAlcCCALvARACKAL4AWgBqAAdAOj/x/+O/1v/KP/F/kn+9v3A/YL9Tf0n/ef8ofyf/OL8O/2t/Ur+6/55/wcAlAAZAboBfQIsA8ADYwTgBPYE9gQ/BXAFJAXOBNoEyAQTBCkDogJGAp4BzQA/APT/lP/7/lb+0/1d/cv8IPx8+9P6H/qe+Yr5mvlM+ab4Lvgn+FL4f/jy+Oz5M/tR/DT9Lf5s/9AALgKHA+QEMAZcB4UIsQmSCtAKfArkCRoJFQgMBz8GlAXYBPgD2wJ/AUMAdf+8/rb9xfxt/Hv8gvyI/JD8UvzR+3j7Zftn+3v7ovuf+3D7evvx+6T8af0i/pn+1v4+////1QCGAQgCVAJ0AosCmwKQAo0CpQKeAmQCUgKAAm4C1AEPAYUAJgDQ/5z/kP9p/+r+Sf76/QT+6v1z/Qn99/wB/QL9Qv3a/Xv+6/41/3P/zf98AHkBfQJmAzwE8ARpBaYFrQWYBYYFXgX0BHgEKQTPAzYDpgIkAjEB9v9M/zf/2f4f/rj9iP32/Dv80fto+6X62PlB+bv4WPgy+AH4uvfL9zf4o/hW+bj6TPx2/ZP+GQCvAf0CPAR4BYwGqwfnCL8J8gncCZYJ0wjAB8wG1gWoBJoD5QInAjYBXwCQ/2r+K/12/Eb8JPwJ/DP8ZPwy/Mb7mvu5+8j7yfsP/If8x/zV/Cn90v1l/sX+Sf/5/3UAkwCeAPAAhgEJAj0CWwKRAoUC/AGIAa4B8QHGAZkB0AHSARMBIQCv/5z/dv8p/9T+lP5s/jv+6f2o/ZL9Zf0W/QP9NP1N/Wn97/2V/sL+sv4S/9v/pQB7AXkCVgPnA3AEDgWLBdQFAwb+BagFJgWYBPgDWgPSAisCUAGoAGUAHACC/+7+dv6y/dL8kPyy/C/8FfuC+ob6K/p5+VX5mvla+b34qfgz+d75qPqv+7z8w/3w/hsAIAFVAtYDLgVHBo0H1wh+CZUJqQmMCbYIawdcBqUF5QT2A/gC9QHWAJT/dv7O/W/97/xo/Ez8gfyZ/J38wPy4/FL88fvs+yD8ffwF/Vr9Pv03/cf9iv74/jL/i//o/xkATQDBAF8B0wHqAcYBngFtATEBIQFQAXgBZQEqAdQAdQBCADkAEgDa/9P/xv93/1z/sv/A/y//uv6t/l3+v/2O/b/9uP26/UL+8P5h/+P/awCYANcAvwG3AiEDpgOuBEQF/QTlBGEFWwVsBJwDfANhA90CWwIMAoABhQCZ/yH/z/5D/sn9qv1l/Yn8rft1+277E/vE+rr6X/qJ+fH40fig+GT4p/hN+d35jfrR+3r9DP9+AAUCrgNWBc8GFQhKCU8KvgqeCnUKTAqZCU8IDwcKBsIEEgOGAYcA2f8Q/y3+hv0s/cX8Tfw//Kf84Pyr/In8nPx6/Eb8jvwM/RT97PxD/df9D/4l/nz+x/7g/lD/MQDWABIBbgHpAfIBqQG+AR0CFQKsAWsBSQHZADsA2v+1/6H/qP/A/7j/kP9d//r+if6O/vr+Ef+q/m3+av4A/lL9Pf3H/Sn+Pv59/tn+9v4Y/7z/pABCAakBTgI4AwEEjQQYBZUFnQUuBdYEzgSwBEAEwQM9A3kCrQE2AcgA6P/w/nv+Uv7u/WL9/fyP/Nz7MPv2+g779fp++gP6w/l4+fH4jPiW+Mn4/fiO+aL62vsC/Tz+hf/VAFcC9QNdBaIG/QcjCdUJXgqtCjUKOwmjCDcIHgeoBYsEXgOxATkAZv+W/pz9C/2+/DT81Pv/+w/8r/uU++b78/vA++f7NfxF/IL8LP2z/dr9F/51/rL+E//N/3EAzAA9Ab4B7QHqAQ0CLAIdAiICOwILAqYBaAFAAfcAtwCiAIUAPgDj/4X/Rv9Y/5H/jP9B/wH/3v6w/mL+BP63/Zz9p/3A/fT9Q/6A/q/+Ef+U//D/UQDxAHkBwwFkAn8DSAR9BMIEJwUSBbUEsAS8BEwExwOlA20DrgLEAQcBVQCh/wj/hP4J/oz95/w8/PD7z/s9+3/6TvpK+q/5DPlA+af5Wfnx+EX53fk1+uD6QvzH/Qj/RACVAc8CGASqBVcHyAjJCTsKOAoaCvMJaAlpCFUHRAYNBdYD3wLiAX4A9/7Q/Rj9mfxF/Af8u/tv+177gvui+6n7sfvK+/r7Sfys/An9TP1x/Zf9Av7B/mz/uf/1/3QA7QAGAREBegH5ARgCAAICAvUBqwFuAYMBpQF5AR4B3gCvAGcAHgD+//T/zP+O/3f/nP/B/5r/E/9u/gn+A/4l/jn+Pv4y/gv+Av5f/gP/gf/L/yQAowA7Ae8BsgJhAwcEogTqBNkE6AQsBRUFjwQ3BBQEgAN8ArkBTgHAAPv/Rv+c/un9Uf3Q/D/8qfsi+6T6W/ph+lD66vm6+RP6XPom+uH53/np+Rf6yPrV++D88P0B/97/yAAgAn0DVQQPBTkGggd0CDQJxQm9CRAJNwiBB9cGAwbfBKEDtAIEAhMB8v8X/1v+Z/23/MP85vyG/Cf8P/xf/Ej8Xfyg/K38uvxE/Q7+hP6a/ov+bf5o/r/+W//T//n/DQBcANQADAHpAMAAswCFAF8AsgA5AToBzACQAH0AOAAAAA4A/P+i/23/av8+/w7/Mf9N/wD/qf6m/rH+k/6E/p3+uf7R/vH+HP9t/+n/VgCnAA4BbwGXAd4BmwJXA5MDqAP6A0AEQAQ9BEsELgTcA2sD5wKGAlwC7AHsAPD/Xv+9/uD9WP0d/XH8b/vk+sf6evoh+iT6Lvrj+a355/lC+nv6r/rg+gf7eft8/MX94/68/4MAdgGxAgYEMAUqBgEHkgfeByMIXggzCJ8HBAd2BqwFqQTAA+QCuQFPACL/Xf6s/e38fPyJ/K78ifxG/Dr8XfyR/Ob8Sf1//Zb9zP0b/l/+q/7v/uL+nf6l/hz/pv8lAKAAvABTAAcAVwDOAPQABgEpAQwBywDfACQBDgG/AK8AtAB6AE4AcABsAPX/h/92/1v/+f6//uj+Af/A/or+sP7f/sH+mP6z/tr+0f75/p7/VwCuAOwAcQEFAnMCAgO/AzoEbAS/BBgFAAWvBKgEpQQtBJIDLAOKAm0BfAATAKD/0P4W/pD90fzs+337fftE+6j6GPrM+Zz5hvmw+f35IvoR+g36WPr1+sv7uvyZ/Vz+PP93AOkBOwNWBFoFUQY5BxQIuwj+CPgI3wilCDMIqgcLBxUGywSGA18CMQENABr/MP47/Yf8N/z5+5X7J/vF+n76ivoI+7n7Wfzk/E39hP2z/RD+hf7S/vP+H/98/+z/LgA7AFUAiACSAIUAsgDkAKgAYQC4AEYBLgG1AKwA6wDhAM8AEwE2AcYAJwDg/+j/BQAXAOz/fP8J/7z+lv6y/gT/Hv/N/nr+gP6t/tX+JP+j/wYANABwAOQAcwHsAUcCpgInA7QDIgReBH0ElwSnBIoEMATUA6ADSQOTAtwBbQHRALz/wP4o/kn9BvxX+3b7U/uN+vL5q/kR+Vr4Vvi/+L34gviv+Bj5d/k4+nP7gPws/Rb+Z/+cAKkBAQOKBLgFkwaWB7sIjwkLCnUKoAolCj8JhgjmB8kGMwWvA1kC7wCW/4b+cv0k/BD7e/oF+o35bvmN+YH5lPlR+mP7Jvy9/HT9/v1H/tf+wP9hAJEA0gBGAaEB4gEoAjQC3wF8AVUBYgGTAdUB4AGQATIBAwHbAIUAFQCz/23/R/88/zL/D//S/qH+qf7X/uD+uf6x/uL+//7o/tj+2v62/oD+j/7k/ir/Nv8t/zz/b/+x//b/WgDtAIgBDgKlAkkDowOvA+QDaQTTBOwE7gTuBMQEdgQTBH4DuwL7ATUBUwCV/xX/Xf4+/Uv81ftl+8L6TvoN+on54vi1+Pf4Avm6+Jb42fhk+ST6GPsl/Dz9YP6O/8sALwKoA+sE5gXqBiEINAnOCRsKXApUCr8J+gh1COEHwwZhBTQE+wJeAd3/9P4x/gL9rfuu+v75iPlp+Wv5N/n7+CD5qPly+oX7mPwr/WT95P29/nX/CQDIAIgB4wH4ASwCfQKsAqsCoAKhAqYClgJgAhoC1QFoAcEANAAIAAQAyf9t/zr/I//1/s3+5P4S/wL/1f7v/kf/dv9v/3P/af8W/8T+9P6D/+D/4v+x/2L/LP9i/97/GwAeAEoAiACPAMcAogGaAuMCrAKqAgMDbgPUAxQE3AM7A8kCzQLcAooC/AF6AfEAKwBJ/5v+IP6A/Zn8r/sA+3j69vl++SH54vjD+Lj4qfiy+BP5yfmL+jv7BvwN/Tz+cf+bALIBxQL4A0sFjgaPB0EIsQj7CDkJcQmSCXsJCgk+CE0HbQaDBVUE6gKGAU4ALP8T/hX9P/x6+6/6+vmN+WD5Q/kv+U35lvnd+TX62fqn+0v8xfxL/d79df42/xgAwAAZAXcB8AE6AloCnwL9AhoD/QLnAr4CVwLvAbUBTQGIAO//8/8kAPH/gv8+/w//wP6R/sv+PP+F/6D/sf+7/7//zf/m////HwA6ACIA5v/f/yEAWwBmAHEAfwBkAEsAiwD/AD8BUQF9AbIBtgGuAeIBOgJxAnYCWwI5Ai8CPgI4Ag8C4QGbAQkBYwAYAPj/Z/9z/sX9gv0j/XX8zftK+776OPrt+cD5evlB+Uj5c/my+Tz6HvsM/Nz8rv2X/pb/ygAwAm8DUwQtBT0GRAcGCKAIFgkxCQcJ8QjmCIgI0AcCBxIG1AR5A00CSAFJAFn/V/4M/bf74Ppu+sX51vg7+Dz4b/h0+GP4ePjY+Ir5Yvoh+9z72/wH/gX/zP+ZAGEBAQKnAnsDNQSdBAAFigXcBbQFYwUgBakE7gNQA/MCfwLQASYBqAA2ALH/Ev9r/vr93f2//VD97vwY/Y/9yv3a/Qb+Ev7Q/cL9Tf7m/uv+sf7V/j//kP/j/10AugDLANQA/gAfAUABpAEyAnoCawJbAnICmwLNAvEC2AKQAmsCYgIXAosBIQHsAKYATAAIAKz/+v42/sr9pP1s/QX9g/z5+5X7e/uJ+4n7l/vk+0v8jPyt/Or8Y/0L/rj+Rf/L/4cAbgEdAn0C8gKtA18E0QQ9Bb4F/wXYBaUFqgWgBT8FwARpBB0EowP3AhQC9wDo/0//Dv+K/nb9NvxM+876cfrv+Vn5/vj5+BL5MvmI+RP6gvrN+mn7f/yI/RT+Zv4S/z0AiwF8AuECFQObA3wERAWsBdsFCQYzBjsGBQaNBREF2gTEBFkEhgPBAlAC8QFbAaAA1//p/un9Kv3H/HD86/tg+wP7z/qz+qr6mfp7+pf6Gvut+/H7KPzA/Iv9Hv6J/h//zf9MAKIADwGqAVYC5QI5A2YDpQP4AyQEJgQ2BFgETgQMBLMDSAPIAmQCIgKmAcMA+P/F/97/iP+e/q39K/0A/eP8zPzQ/Nz8xvyj/LP8/fxM/YP91f1m/gT/aP+k/wAAcAC0AOEAUQHpASIC9gH6AWsC1ALjAtQC2wLOApwCcQJXAiYC3gGiAWwBGgGqADMA0P+P/1b/+v6T/nH+nv6+/p7+cP5X/if+3P3J/Rr+gf6u/rv+7v5N/6f/0//E/47/dP+0/ykAcgBwAGQAfAChALwAzAC9AJAAeQCZALUAlQBnAGkAjwCxAMIAtgCDAFEATABXAD0ACQDi/9H/3P//////pv88/y//Zf9p/0D/TP+U/7j/pf+m/9H/9P/6//z/+v/n/+D/CwBNAGIAQgAvAGEAvQDtALkAVgAnADsARQAjAP//6P+x/2L/RP9T/zv/+f7w/jL/XP9C/zH/Xf+c/7T/o/+E/37/vf8xAIMAgABTADwATwB1AIoAdgBbAHMApACVAEoAQACgAO8AwwBYABwAJwBNAF8AQQD//+D/CgA5AB0A1/+x/67/qP+t/8v/2/+8/4r/b/9p/3X/mv/F/9n/7P8iAHAAtwDzACkBRQE7ASMBCgH0APoAKAE/AQ0B1wDrABEB7ACgAIkAjABHAML/Wv84/0f/cP+L/1D/u/40/hb+Sf5t/lr+Pv5l/tn+O/8n/8D+iP60/g7/aP+4/8z/gf87/3//IQB7AFoAKAA2AHEAvgAVAVgBcQGLAdABGQIoAv8BywGmAZIBhwFyAUcBCwG1ADcAvf+H/3H/E/9x/hn+Sf6T/oH+Iv7H/a/9+P2Q/hn/QP8i/w3/FP8t/2X/sf/M/5v/ZP9t/6f/7v86AHsAlwCTAI0AhwCBAJsA5AAmASoB/QDJAKEAiQB7AE8A9/+v/6j/sf+N/2X/df+d/6D/lP+e/6D/kv+1/yEAdQBcAAcA1//c/+z/7v/f/7v/jv99/6r/FgCJAKUAVAABAA4ASABHADUAigA0AZMBUwHAAEsANgCCANYArwD9/2H/Xv+3/+7/+/8hAFwAaAAuAO//+/9XAKsApQBkAEgAUQAkAKv/P/8Y/w7/Df9C/6b/4f/H/5H/gP+l/+7/MQBEAEMAggAFAWIBXQFAAU4BWAEiAdIAsQDCAMgAjAATAKT/hP+c/5D/Uf83/1r/YP8P/8T+7f5j/5X/Nf+c/oH+K/8GAD4A6f/p/5gAMgH+AGYARgC1AAgBzgA1ALb/nf/i/0MAjgDDAN0AtgBUAAgADAAkAP7/rf+U/+z/eACvAD8Ahv85/3b/m/9K//r+Gf8//9T+H/7l/Uv+r/6T/i7+G/61/sf/wQBHAXEBbgE1AckAegCSAOYACwHbAJIAdgCIAHcA9v9I/yD/uv9lAGkAAADb////zf8a/5b+Bf9WAJcBzAHxAAwAEgDMACsBmQCF/7H+ev7I/lH/yf8IABUABQDr/+3/GgA3AAYAuP/M/2gAHwFvASsBiwACAPL/TQC4AAkBYQGwAZwBDAFXAL//Lf+S/iT+Df44/or+/P5v/6v/m/9k/0L/Xv+q/+//DQAuAHgAswCBANz/K//X/gX/if/w/+L/mf+m/xIANACq//n+5f6N/3oAOgGfAbIBnQGSAZ0BpAGRAW4BVgFlAYoBfwEWAYQAGAC8/yD/Uf7K/eb9gv43/6n/wv++/+3/PwBVABUA3f/n//P/vv9z/17/cf9k/zH/Kv+b/2EA8wDzAK0ApgC7AC0AvP48/az8JP30/av+lP8cAfoCMwQNBOoCyQELATQAB/8+/qr+BAAXAfoA1/+a/vv96v3d/af9vP1z/mH/4f/x/xwAmAD6AOAAhQCSAFoBZwLPAg8CjwA+/9X+av9qAOsAZQBi/w//7f8cAVMBPACx/uP9bf7t/1EBtQEbAVEAGQCJABgBFAE4AA3/i/4U/+P/uv80/lP8nvug/Ev+F/+x/kD+3/5EAEcBYQEeAUAB4gGNAtECrQKGAq4CDwNRAzkDvwL0AREBfQBtAIMAKAA7/zz+x/32/VH+QP6Z/c38c/y5/Gr9PP7t/kL/NP8h/2j/8f9GACYA3v/4/5sASQFfAd4AfwDHAEEBDwEhAFL/af9MAFkBGgKGAq8ClAI6AuIB4QErAj0CugH8AKQArwBfADr/1P1O/RL+Pf98/4r+h/2d/Z7+Yv9d/zb/rP99ALYA4/+U/rz9zv19/i7/iv+h/5j/if+T/8P/4f+Z/wL/tf44/18AZwG8AYMBZAG5ASoCNgLyAfABVAKEAuEBjgA+/3L+L/46/mf+nv7B/sX+1f45/+b/PwCm/13+fv3f/TD/UgCEAPP/Uf8S/y3/gP8YAPQAqQGuARQBnwDuALEBDQKjAfwA4AB3ARsCGgJ5Ad0AvgDeALIABwAx/5L+RP4t/jf+aP7F/g//yv63/Vf8z/v4/IP/EwJQA/QC0wHYAC0Aff/d/gP/YwBNAjID0wEu/m35RfVO84H0vvhw/hsD6QQkBOEC+gJ9BDgGjgchCZcLKA4KD0MNugk5BqMDlQGP/9796Pwj/Fj6E/dV85DwPO/H7tLu7u+z8lv28Pg6+Tb4QfjS+lb/JQQzCIULYQ6NEI8RYRGPELkPRQ9xD0cQMxHpEE4OoQl+BH0A0f1z+4r4X/Xb8lLxJfCd7trsrOur66/sMu7y7/jxLvQ39tr3cfm6+zH/jQPwB20LgA0xDgQOvg39DcYOjQ+xDxEPCw7vDIgLSQkUBqgCQACH/+v/AACn/v/7PPmL9xj3HPfJ9hT2jfWo9UH24/Zp9z/4+vnB/Oj/8QEsAeH8hva08RjylvgoAgEKUA0hDYwMUA15DlMOAg2SDHoOmBH9EowQlgocAxX8lPb+8kLxrfAk8PvucO3l6+bpq+YG4xPi/eaJ8VT9QgXTB+wHcAmKDYwSuhZDGjMePCJiJPgiXx56GM4Sng2TCJ0Dyv6y+dbzl+1O6PfkD+Mz4RHfNd6L4BjmmuyP8Xb0//Yf+zkBBQjWDc0R+BPWFNoUPBT4EugQEg7vCi0IBgbUA5YAEvxk90H0hfOD9MP1dPYR9574avui/jIB3wJyBMkG1AmVDA0OBw4RDb4LNApFCN0FIQNIAIv9Mvt/+WD4VffZ9Qz0uvKU8m7zbvQJ9Zv13fbL+Fb6Jvq/9/Pzi/Cn7+3ylPq9BCMOJxSkFp8XBBnQGqob/BrVGV8Z7Bg9FvQPQQfI/gb4W/Kc7Pzm2OLi4C/gVN8G3irdsN3v31Pkyeuz9mEDfQ6OFQ0ZlRsKH/MiqiWOJngmEyaIJD0gtxg2D4UFnfyw9APuH+kE5rvjJuEq3rDbj9rd2o3cU+BA50LxZ/wDBsIMUxEjFb4YkBsOHX8dhR0EHfMaYhZzD1EHRP/+98Dx0uyP6QPosuf556joG+q77Hfw5fTV+ZX/YgapDfQT2hcUGZkYohenFksVGhMaEJEMiwjZA6T+p/mw9fjyJPHk70/vd+/p7/TvjO+Y7xbxCPR19476cv2kAOMDDwZfBn8FFgUtBlIIUgp5C8UL8QrqB7oBMPlI8aztSPAI+JABTAlZDRMOPQ1xDCwMEgz2C2cM/w0fEKUQQA1XBbj6dPAD6S7lSeQU5Xzm5Oce6Snq9+qb69rsa/Dz90IDkQ8RGcId0R75HqIfxh/CHb0ZwBVrE+wRpg7FB/z91vOj6zTmPeM34rXiMOQI5vHnMupS7Y3xxPba/OQDxwuyEyMaqh3IHTsbbBeAE8oP8guoBx0Dwf6U+u/1QfAV6i3lU+P75AXp2e2Q8hX3ePuM/08DRQcADD0RyBVrGOIYwBd+FQ0Saw1aCAkE/wCe/uP7kfhc9QXznvHW8Lvww/EL9Mv24/jo+Xr6iftd/Xr/SQGaApYDWATiBDoFbwVvBRAFewRjBHoFcwelCAEHogGm+XrxXetn6LzoQ+zq8in8dQaFD34VGhi4GDQZVhpAG1EavhZjEfYLUQd6An77gfEp5uLcctj32BLcGt8k4SrjZOb86mzw6Pa7/8ALiRmCJVYsTC1QKsklwyAkGxsVkw8LC38GHwA79zLtS+Tv3TraFtny2g7gUeeV7l30CvkM/g8EWQoDEDYVvRpXIBckzyMTH44XdA/TB44Aivlf88zuzOuM6VPnM+Xx41/k8+a361jyHPoIAisJ4A69En0UOxS+EkkRuhDNEFIQRQ6iCjQGxgGx/Sb6jvdg9qT23fdz+Rf7m/yW/Yj9d/wz+8X6jPv5/Df+5f4k/w//d/42/aX7gPpU+i77w/zI/uwApAJaA/MCFQKzATYCTQN5BJoFpAbTBqAE//7v9onvPuyR7mb1PP73BpAOfhQUGMcYARc3FOkRZxDEDuQLkAdWAof8rPU77enj+Nv51wDZ6N1W5Gbqke9H9P/4z/3QAooIrg8wGLAg5CbYKBsm4x8pGI4Q0QkSBEf/UPu999Dz/e6Q6cXkG+J/4vfl2usw89n6qwHGBgcKBQyHDfAOMxA5EQQSSxIeEV4N2gbb/nr3KPL37jbtiewx7U/vOPLJ9HX22Pcd+uH9tgKUB6ILew77DwcQpQ4yDFoJxAbJBHQDqwJHAg8CqAGyAAL/4vwQ+2v6Zvur/T0AEAKYAucBUwAq/sD7mflU+D74Bfnv+W76gvqW+hD7EvyA/Tf/HgEfAxgFvwamB24HJQZzBEYDEgN1A6oDWwPEAu4B9/+f+9/01e3V6SfrnfEN+/EEdg13E0oWGhY8FHYSgxF4EPgNBQoYBi0D8/+e+fvui+I22YbWFNqJ4N7mdexP8tr4EP/EA1UHtQuTEpYbUCTkKb4qDScQICcXbQ3cA3b7HfU68Wnvge4R7TnqW+Yn48Xig+b67UT3HQAWB/8LXg+gEbsSgBIzEZQPRg4PDeMKvga4ABj6X/Qx8ELtU+v/6kntOfIn+Lj8yv5I/yAAXwJ2BS8IDgp3C6EM0gz/ChoHiQIg/7L9wf1p/lX/qwBGAlQD/AJOAXT/3f4pAL4CQgVyBsIFcAM5APD8NPpV+GX3QPeL99X31fex9+D3wvg/+vr7zv0RABcDiAY9CQkKswg4Bg0EFQMsA4sDmQNpA5YDeQRhBYAECQDz99Puu+iU6DXu6vbZ/9gHBQ8HFV0YzBcjFAUQow3TDKkLywi6BJ0AOfzZ9YvsF+JL2hDYTNuR4YfoV+8B9hb8yQApBMcHiQ3EFZ4eWyUuKOwmWCJBG10SpAhc/6P3+PE/7hPs7Ooj6iTp8+d15xDpuO0x9Rn+mwY4DTERlBISEq0QTw9kDsoN+wxQCz8IiwOD/RT3bvF17W/rSuv+7IrwcPVf+s79JP9Y/zAAwQKTBjIKfgxiDVcNfwx5ChQHEAPj/6/+XP/HAMkBDQLzAcIBLAG//739Ufym/Kr+zgA+AWn/bPzk+Xf4ovfX9o320ffb+ln+eQCgAPP/CwBNAbQCQAMuA5UD4AQZBucFJAQoAmIB1wExAlMBov+T/vn+5P9B/7b79vVy8LztCu/q8xf7aAMFDOITeBlbG1gZ7BRYEAkNzQqbCOoF/QLH/wv7MPNl6KrdItf/1vzb7OKv6WjwAvgbAPAGXgtvDn4SuhjCH80k7SUiI4Ad5BXHDPwC8vns8hvu2Oqn6LvnVOjh6UTrKOzP7SXy1vlSA9kLixFyFMQVVxb9FSEUwRCUDFoIMASr/4L6A/Xr7+brU+lp6GXpauwj8aT2zPvt/xcDwgU5CE0KpAs5DGsMigxfDEYLzghNBcEBJ//j/b39Rf4o/y8AFQGQAYUBLwHlANAAzACmAE0A0v8j//r9IPzQ+c335fZa97L4LPpw+8X8hv6DAPgBUwL1AQkCaQOsBVgHGQfPBF8Bxv2B+u/34/ZT+EL8JQHMBPgFBAXnAvX/7Ptg94L0+PWI/BIGCg/xFGwXOhevFLIP7QhkAlH+WP0P/jn+XPwQ+G3x9OhC4GLaWdrX4FPr2fXx/dYD7wiKDXcQ8BBZEJoRTxbKHPwgpR/IGDIP3QXS/Xb2hu9M6sDoYOsp8O/z5fT287bz+fV1+nv/0AOWB4MLgg9iEtsSsRC/DBkIXAPd/h77rvh694321/RC8vfvW+/e8MzzJfeF+hj+6AFkBcAHrQiaCFMIWwimCMkIXAg1B3kFhAO1AUoAZP8a/4L/iADCAYoCbAJ4ASUA6f76/W79aP3x/a3+7P5B/gb9Ffzz+0H8MvyE++j6VvsX/X3/gwGTArICKgJEAU4Aqf+V//v/hQDnAPoAjQBn/7n9e/zy/Jv/ggPpBpAIPQgJBq8BNftP9H3w3PJj+2QGLQ9UE40TwxHfDq0KaQWdAP39tP00/qv9X/t79yzynOvw5KbgKOHC5j/vwvfi/s4Ewwn4DKMNqQyrDNEPjxXMGmAcYRkwE60LwQOb+9Hz4e1a66Hsg/Dm9O/31PgF+Mb2gPYq+AX8xAGuCJEPxBSoFpwUkw+OCUgERAAW/WL6UPgM9x72qvRn8ibwK+8N8G/yxvUV+pj/uQXFCg4NYQxGCqMIMAhHCAAIRQekBlUGqwWuAy8ANPxI+W/4nvkE/LT+FQHZAtQD3gPsAi4BHf9U/U38Kfyb/AL9uvyF+8z5j/jQ+Mv6rv0cAEUBeQGwAV4C8QKHAiYBCQBxAD0C2AO0A88Bnf9s/gD+3/z5+ej1n/IT8iL1dPvxAwUNzxSRGYkaWBiQFJsQDw3gCfsGaATMARv+F/iH7+/lFd5i2nrbEeAe5lXsufLQ+WoBUQhbDb0QFRTPGF0eOyL5IVsdbhZ1D/EIyQFS+bjwQOo85/7m5ecV6erq4O2f8WP1J/na/SsEWwueEbQVzhe7GHEY1RUyEJAIRgEN/K34o/Xs8QvuYuvN6gzsV+4s8Yv0lfg8/SkC0gZ7CngMrwzfCyQL/ArZCsQJhAf0BB8DIwIhAVf/Hv2v++r7iP1t/7EAOQFzAcABNAK4AiUDIgM8AkcAw/2k+5H6T/oM+jr5H/iN9wb4R/mV+nr7OfyJ/d//3wJsBVMGLgW7AmUARP9m/xYAvAB+Ae4CIgU0B6MHTgUuAHD5I/Op793wA/dGAH8JAxATE6UT0BKoEMMMqAcwAycBiAFMAiIBM/1D93zwoOmH49bfaeCy5ePtMfb+/JgC2weADDsPnA9JD9IQFRUPGmEcHRoBFDsMYgTM/I71je8y7B3sbO5V8Yjz3/Tu9Sf3ivgR+jj82f9eBfYLoRFMFCgTMw9XCvMFHwJN/nv6hfcw9hj23PWL9LTy2PHg8k/1H/gS+8X+aAPNBzMKBwqTCLAH7gdICJ0HFAbRBHAEPgQYA9kAj/5d/XT9Pf5N/7QAawLbA1EE2wNHAx4D1AJRAVb+B/vr+Hb4zfjr+Lv44fin+ZH6G/uT+8/8AP8kAfoBbwHRAGcB/gISBHcDsAGCADQBVwMgBdcE5wEA/aP3uPMj8/f2n/65BzoPGBM0E+UQtA2QCtkHyAV8BKoDfgL6/3/7JfWw7XfmOuGn34PiDulV8Vf5GgClBSkKYw37DlEPqA81EQIU0Bb/F5QWZhKwC/YCZvkS8SrsmutF7szxOPQf9Wf1IPaq98v5TPxW/z4DAAj3DAMRABNOEh8PawpqBQABa/14+vj39fWU9NTzhPN487fzcfTb9Sn4h/vy/+MEOgm/C/kLnQoFCRUIiwd+BoAENgK5AG4AjADz/23++PzE/PX9hv9jAIkA4QAVArkDrwRBBLoC4AAm/3n9v/s5+kL52fil+HP4fvgo+Xv6LfwA/uL/lAF8Ah8C5QD8/0UAZwFFAmACbwJrAyYFSAa6BasD8QC8/az5a/WE85/2nP7iBzcOThAvECAQ0w83Dc0HQQIOANABeAQ/BPL/J/nT8a3qHOTD3/nfcuX/7Tr2YvwpAdIFJwrODFANJQ1bDoIRNRWRF6IXXRXEEMEJ5gDg97nwpeyl6yDtZfCC9BD41PnU+Xn5Xfrv/GkA9gOKB2ULBQ8SEX8Qfw04CaMEBQB++7j3l/U89a/1v/Up9bb0PPXH9sj47fp4/bEAPgRABxIJzwn6CdUJKQm5B7sF0gOEAtsBgQEqAdIAmgCCAGMAHgDQ/8P/LwAKAQQCvALdAjQCtgCN/iL8+vlv+Jf3Wvet94v4x/n1+rL7DPyD/In9Gf/hALkCvAS+BtsHDQdaBEoByP9tAAcC1wIhAkYAnf3L+cj0PPAg73bzTPxhBrkOcRQIGH8Z2RewErUL9AVaAysD+QLpAMj8QPe68HDpd+Lu3cfdOeKo6frx+PlrAT0I2A16EfwSNRODE+MULxcWGc8YNxWKDh4GZv089SLu8Ojq5r/okO0u85L3J/qp+wD9c/7z/8EBbgQgCCIMRg+wEBkQgA31COUCePxA91r0x/OV9KH1OPZJ9kn26/au+HH7hP5LAdYDnAaNCZYLgAtGCVsGTwRNAysCDACc/XL8T/1S/+wAbAFUAWsB1QFIArkCegOSBGYFOAXxAycCbADQ/i39o/uM+u75Wvly+Hn3EveT98r4dvqw/Iz/ewJtBM4EHwRfA+YCMwLxAMf/wP/mAOkBfAHm/9b+i/9RAQ0CLAAF/Ir36fR19VT5nf+zBvEMeRFdFN0VghVjEm4MTAWB/4j8wftE+4H5AfYH8R/rVeVr4Rnhy+RM6/jyD/uLA8kL7hE1FNwSZBCaD1ERDRScFcEUgRFiDOQFpP6F937xRu1Y6wzsUe8p9OD4JvwN/rf/8wFcBPYFiAbvBhoI1Qn1Cn0KaQhRBacBmP2R+WT2rPQ29FH0u/Tn9UP4Wfvw/ST/Nv9N/3IA2QLnBZMI2gkxCfAGQgRUAlwBgwD+/i/9cfyz/WIA3gL+A/MDswPSAxUEFwTrA/QDPAQwBCQD9gAm/mj7Nvmu97r2MvYA9jr2D/eK+GD6J/y8/V3/PgEXA08EswTFBDwFKgbKBkYGgQQWArL/rv1B/N779fxX/wACigPwAgkAoftj93L1Yvce/ckEBgx6EQAVchbgFJMP1Qf2AM79HP7J/v38rfjj8+Hv0eue5n3htd+R4/TrbPV1/SsEsgquEBEUjhOTEGEOGw8JEp8U2hRuEhIOQggZAQv5aPHw69/pResO76DzqPe1+iL9YP9cAagCVgNjBOEGqgoRDjMPiw0kCkIGLwKG/Xn4TvRi8t7ymfRH9pD36fix+qv8Wv6Q/5EAwAFaA2EFhQcQCTEJpAcZBb8CPwFWAHn/uP7I/gkA0gHtAr4CzwEdAR4BhQHkASsCfQK1Al8COQGM//L91vw8/N/7dPvC+sv53Pht+LT4dPlb+pD7qP2+AMwDQQWDBK4CkQHnAckC6gIWAjAB3ACeAKb/Iv5i/XH+0QDJAtECmADV/LT4rvV29UH5qAB0CfYQrRWYFxoXGhSWDsQH3gFz/gP9qfsX+Zj1EfKJ7kvqfuUP4mTiKeez7qT28f31BNcLcREpFNETPhLHET4TXRUYFkkULxCSCs0D3vtB85Hr++bO5mfqju8X9GD3U/r5/SUCnQV4Bx4IywgqCrwLhwwtDPcKBgniBS0BmfvN9hb0ZPOq8x/07fSS9u34NvvQ/Oz9Of8WAUIDPgW0BocHsQdSB7cGGQYvBVoDhQC+/Z/80f1GABkCSAJwAeUAPgH9AWkCawJoApICpgJUAqoB0gCu//j92/sq+rf5fPqT+wz8wvtM+1n7K/yb/Un/rgA9AcgA1f9O/63/eADLAFAAmf9R/1n/8f7H/a/8Dv2J/2UDHAdhCYYJOgd5Agb8zPVU8mHz1PjQAO4IXw9FE0wUWRKuDUsHAAHG/LT7Sf2e/3oAhP65+Q7z1uuK5dzhZOK+59HwHfsZBGkK/g1XD/YOmw2VDEEN6Q8sE9sUfxMvDwgJGgID+1f0E+9Z7Lfsue8k9JH48fvb/ZH+xv4d/83/xgAwAoME6QeFC7INLg0fCssFWQEc/Rb55PWg9Kz18/ex+Qv6pPmZ+Sv6x/o6+178M/9zA2oHcQlpCYYIwwfmBiMFgAI2AJL/rQBWAi0DuQJsAQQA+/6I/rH+T/8CAHEAogDpAHcB+AHPAbUAGf/S/WH9kv21/UT9Uvx1+0/7DfxG/Uj+o/5+/m/+7/7q/9EAHwHNAFcARgC7AFIBcQHSAN7/lv/oAMcDvAaLB6YEff6E99zyjvKb9mD9wQQpC9kPoBJdE80R0Q38B9cBYv3e+9H8LP6s/Vn67PTz7sLpKubd5KLm1uu58478gQSKCnYOaBCYEK4P+A7EDy0SrxQjFVoS5gxJBpv/Fvna8s/taOtl7O7vEfRF92b5UPuT/cD/BAFYAeQBFQQ8CA8NhxA5EQ0P2gqhBTIARPuT95T1FvVY9ab15PVx9ov33/jf+X36ePvL/bgBVAYZCvkL/AvjClEJRweCBDkBYf4L/Xr91v7e/+z/Tv+x/l/+L/4a/p/+RQDMAgEFpwWUBMkCZQGbAM//if4m/WT8dfy1/Gz8oPsD+xX7j/vM+6/74Pso/Y3/NwIjBNYEeARhA8IBu/+V/dj7HvvX+yD+qgG6BUwJXwsmCzAImAJm+8b0avEV81D5iQHJCIYN8w+2EJwP5AvIBVD/Pfve+v38/f7j/lz8Ifjp8l7tyegb57Dp7+9099n9ZALfBfIIAQvxCvMIHAfXB5kLNhClEnARhw3dCH8ECgDm+pv1z/Hs8O7ycPbT+TX8dP2n/d/8eft6+i77OP76Au0HnQttDXQN4AuyCBcE6v6a+lP4Pfh1+cr6d/tS+3r6HvmV94/25PYU+ej8hgHlBSUJtwpyCqsIMwbyA2UCeQHpAK0A6ABsAYABcgBt/pr8L/xd/S7/jAA7AdABsgJ2A0MDyAGg/8D9p/w8/ED8r/x6/SP+5/16/H76LPlb+er6BP3m/lYAfwF2AgADtAJlAWj/i/24/HL9h/9BAugEKQfqCNYJLglEBjABLvso9uTzRvUD+rcAUgfsC50N1gzACjsIaAU6Akb/qv39/Wn/DQBz/p76v/Um8aLtw+ss7DTvNfSy+Wj+OgLHBRoJMwsoC7MJIglOC5UPEhP+EvwOAwlOA5T+OPre9WryQ/Hd8iH2R/kp+7n7evvd+jL6Efpj+8b+1AMeCfYMeQ7fDfMLSQn2BQAC9P3f+pP54vmd+n/6JvlO9wj22fWM9tj38vlU/e4Bqwb+Cf8KCgpLCLQGcwVPBFYD/AKAA1gEbQQJA4kAIv7o/A/9//0J/+3/yQCxAW0CnQIAAp0AxP73/NH7wfuz/Pv9qv4s/q/8//r9+R/6Uvsm/RL/ogCUAekB0QF4AesAKABU/8f+3P6c/7YAygHCAtgDQgW5Bl4HHgZ6AjH9O/jr9ZP3r/w5A/QInQwVDqcNdQuwBz8Du/91/l//+ABuAc3/NfxC95nxJOxb6Mvn+erQ8Fv3Nv0+AuAG5wpKDTwNZAvHCVIKQA3gENMSvBHvDcoIdAMx/tP4tfMU8EzvjPFY9Yb40fmh+UT5lvmF+sr7wv0qAQIG+gpJDh4PBw76Cy4JQwVzACj89vn6+ZH64fm095D1C/Ul9nn3+Pco+Jr5MP0TAmEGvghFCQQJ0gimCOoHTQZBBKICAwInAi0CSAFv/239S/yB/LL9Cv/p/zAAGgDo/8j/1/8aAFUAFgAh/8j9wPx4/J/8dPyp+9f69PpR/C/+aP+E/yL/TP99AEECqAMFBFAD/QGnAMv/nv8WAPwAFAIVA20DPgLe/rv5wPSC8pz0kvowAhUJ+A2zEHcRRhA/DRwJEwUaAlwAWf9t/g79nfp89qTwQepo5eXjHOYH60fxG/hN/2oGUAy6D0gQ+g6eDagNZQ/zEeMT6RNbEUwMcwXx/Qv36PFL707vSPEJ9HH26veS+Of4avmA+nj8ev9GAyUHPQoODKIMLAygCr8HswNh/w/8evpM+nr6Jvot+f73Ffe79hn3Vvh2+if93P8iAtgDEAXQBRYGCwYOBmcG4gbfBtYF2wOVAb//sv5f/on++f54/9n/HgB/ACUB0gHvASABx//M/sX+Vv+H/77+Vv0q/Kn7d/sB+1D6GvoC+9r8xP4CAI8A5QBZAcMB3AG/AeUBoAKfAw8ETAN0AWD/F/4r/n//bAESA5IDOgLh/k36TPYC9an3of22BKYKkw4WEeUSixOuEbwMJQamABj+7f3f/Q38V/jX83LvSuuL5zblr+Vx6XvvKPaC/HcC6Qf4C64NVA3CDPINLhG4FE4W9xRiEcIMnwfMAV/7ZfV38Y/wQvIG9Tz3NPhj+L743/mg+3r9Pf9DAfsDNgcWCrgL1Qu7CsIIDgbnAg0ATv6p/Rb9fPvs+LT2Dvba9t/3OfhV+Fr5uvu1/jsBCQOlBGIGzQdACM8HPwcUB+0GBgZJBIQCeQH9AD4A6P6x/af99P6dAGsB/gDn/+v+WP4T/gL+Nf6r/h3/M//G/vT97fzZ++j6ZPqP+nH7yPw7/nz/WgDDAN4AAgFzARACXgINAmIBAgFEAdEBGAIGAhsCnQLWAnIB0v0S+ZX1ZPXa+JX+mwSDCdEMnQ4QDz4OPQxbCSkGXAN+AZ0AJAAa/5H8I/g18vbrGucw5efmoevZ8Q/4iv00AvQFWQgpCSQJ6Qm/DFcRwhXLF28WOhJxDB0G2/9I+jT2O/Qr9Af1o/Vt9Zf0vPNc88TzOPUM+Fz8ngGUBuUJ/gpkCjYJLAgoB7sFAAS9ApACAgOzApEA5vwg+Y/2gPWA9Uj2Bfi/+rn9x/9cABQAFwAHAZwCQwTLBV4H1gh8CZUIJgYYA4QA//50/pD+IP8MABUBywG/AckAKf98/XX8i/yx/VH/qwA5AdgArP/0/Q/8hfrT+Rv6EvtH/H39o/6J/9T/Yv+n/nf+TP/RADMC0wKlAvAB8ADe/y//av+cABACuQL7Afj/OP1S+hX4s/c5+nv/rgV5CqsM2gxTDKALTAr+B2MFsQNWA2wDkAIGAPj76fZe8TTs1OiA6D/rtO889DD43vt6/3cCLwQABVYGYgnhDUAS3RQaFUsTERDqC0kHtgKo/mz7PPlW+KX4Vvka+Sn3KvTh8drxU/RR+Jf8WQA+Ax8FEgaLBgsHmwfKB1kHuwagBt0GMgZzA/f+ivrd9xP3Dffs9vf23vd/+dP6Ivvz+on7hf1cABwDdAWmB6sJxwo9CkkIHQbSBHwEXgTiAycDqQKEAjsCNAFV/y/9oPtC+xL8ev2+/nr/z//8/+j/J/+Z/e77S/s7/Av+Wf9V/2H+dP0S/Qv9FP1j/Wf+EQClAWACLgKbASkB8wD2AHQBuQJjBDEF0wMgAIb7P/jk94P6z/4QAyoGDwhXCWYK3gr5CYEHcwRyAmACfwMBBIQCBP+E+g32N/Jq7yjuve7N8HzzJ/bH+Hv73P08/6P/VgDrAqoH/QylEJMRcBCTDqYMbgqpB7oEXwLrAAcAHv/e/Tj8I/qv9131HPSt9O32zfkc/Fv97P2C/oL/2wBVAuQDqwWuB40JiArnCYQHAwR3ALr9/vv5+lz6Dfrr+aP57vj/94n3Lvjx+U/83f6cAYgEBQcZCFYHggUKBM0DeAQkBV0FXwVoBRQFugNFAZX+0Px1/CH9Gf7p/m//jP8V/w7+1/zy+5/7xfst/Ln8VP3M/eH9iP0E/bf84/yL/Y7+wf/0AP8BxAIjA98CpgF3//38Yft1+wX9DP+wAPYBbQNABdsGkQduBy0HWwe5B6EHzwaQBSkEWAK4/4D8jfmP9072FPW58/3ypPNp9Rv34/c++HL5KfzC/wMDTAXqBl0InAk8ChoKkgkJCWgITgeiBdIDVQIeAa7/s/1/+875HflI+bn58vnW+aT5s/k++lL72/yy/rgAzALABE0GMQdWB90G/gXrBNED3wIpAnwBaACc/kX8Afpt+Kz3hPfM97H4a/rP/Dj//gDzAXAC8gK/A9sEIQZSBxUIGQhUBxYGxwSUA2UCLAEbAIr/k//z/z0AIwCR/4z+NP3e+wf7A/uj+0/8jfxo/E/8kPwQ/YH90v08/uz+uf84ABgAXv9Q/k/9wPz5/A7+n/8JAd8BUgIAA0UE2AUNB4cHmAfmB7QIiwmFCQEIGAWaAZr+0Pww/PD7G/tN+Qz3YfUD9cj15va891X4PPng+iL9ff93AfkCRwS4BXAHNwmPCgELbwo9CQAIBwcYBrgEvAKHALj+i/2p/JP7MPry+F34iPgO+Xv5\\\" type=\\\"audio/x-wav\\\" />\\n\",\n              \"                    Your browser does not support the audio element.\\n\",\n              \"                </audio>\\n\",\n              \"              \"\n            ]\n          },\n          \"metadata\": {}\n        },\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"Trancript: limiting emotions that we experience mainly in our childhood which stop us from living our life just open freedom i mean trust and\\n\"\n          ]\n        }\n      ]\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"Run inference with both greedy decoding and LM decoding\"\n      ],\n      \"metadata\": {\n        \"id\": \"ZdVDTW_yduyQ\"\n      }\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [\n        \"import os\\n\",\n        \"\\n\",\n        \"os.environ[\\\"TMPDIR\\\"] = '/content/temp_dir'\\n\",\n        \"os.environ[\\\"PYTHONPATH\\\"] = \\\".\\\"\\n\",\n        \"os.environ[\\\"PREFIX\\\"] = \\\"INFER\\\"\\n\",\n        \"os.environ[\\\"HYDRA_FULL_ERROR\\\"] = \\\"1\\\"\\n\",\n        \"os.environ[\\\"USER\\\"] = \\\"micro\\\"\\n\",\n        \"\\n\",\n        \"print(\\\"======= WITHOUT LM DECODING=======\\\")\\n\",\n        \"\\n\",\n        \"!python examples/mms/asr/infer/mms_infer.py --model \\\"/content/fairseq/models_new/mms1b_fl102.pt\\\" --lang \\\"eng\\\" --audio \\\"/content/fairseq/audio_samples/audio.wav\\\" \\\"/content/fairseq/audio_samples/audio_noisy.wav\\\"\\n\",\n        \"\\n\",\n        \"print(\\\"\\\\n\\\\n\\\\n======= WITH LM DECODING=======\\\")\\n\",\n        \"\\n\",\n        \"# Note that the lmweight, wordscore needs to tuned for each LM \\n\",\n        \"# Using the same values may not be optimal\\n\",\n        \"decoding_cmds = \\\"\\\"\\\"\\n\",\n        \"decoding.type=kenlm \\n\",\n        \"decoding.beam=500 \\n\",\n        \"decoding.beamsizetoken=50 \\n\",\n        \"decoding.lmweight=2.69\\n\",\n        \"decoding.wordscore=2.8\\n\",\n        \"decoding.lmpath=/content/lmdecode/lm_common_crawl_small_4gram_prun0-6-15_200kvocab.bin\\n\",\n        \"decoding.lexicon=/content/lmdecode/lexicon.txt\\n\",\n        \"\\\"\\\"\\\".replace(\\\"\\\\n\\\", \\\" \\\")\\n\",\n        \"!python examples/mms/asr/infer/mms_infer.py --model \\\"/content/fairseq/models_new/mms1b_fl102.pt\\\" --lang \\\"eng\\\" --audio \\\"/content/fairseq/audio_samples/audio.wav\\\" \\\"/content/fairseq/audio_samples/audio_noisy.wav\\\" \\\\\\n\",\n        \"    --extra-infer-args '{decoding_cmds}'\\n\"\n      ],\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"id\": \"JlKzKBIlZqKq\",\n        \"outputId\": \"94da50cc-2672-418b-a941-24ea0db0339b\"\n      },\n      \"execution_count\": 39,\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"======= WITHOUT LM DECODING=======\\n\",\n            \">>> preparing tmp manifest dir ...\\n\",\n            \">>> loading model & running inference ...\\n\",\n            \"2023-05-26 01:01:58.415006: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.\\n\",\n            \"To enable the following instructions: AVX2 AVX512F FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.\\n\",\n            \"2023-05-26 01:02:00.361210: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Could not find TensorRT\\n\",\n            \"===============\\n\",\n            \"Input: /content/fairseq/audio_samples/audio.wav\\n\",\n            \"Output: a tornado is a spinning colum of very low-pressure air which sucks it surrounding air inward and upward\\n\",\n            \"===============\\n\",\n            \"Input: /content/fairseq/audio_samples/audio_noisy.wav\\n\",\n            \"Output: limiting emotions that weexperienced mainly in our childhood which stop us from living our lives in just open freedom and interust and\\n\",\n            \"======= WITH LM DECODING=======\\n\",\n            \">>> preparing tmp manifest dir ...\\n\",\n            \">>> loading model & running inference ...\\n\",\n            \"2023-05-26 01:03:50.066828: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.\\n\",\n            \"To enable the following instructions: AVX2 AVX512F FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.\\n\",\n            \"2023-05-26 01:03:52.190710: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Could not find TensorRT\\n\",\n            \"===============\\n\",\n            \"Input: /content/fairseq/audio_samples/audio.wav\\n\",\n            \"Output: a tornado is a spinning column of very low pressure air which sucks at surrounding air inward and upward\\n\",\n            \"===============\\n\",\n            \"Input: /content/fairseq/audio_samples/audio_noisy.wav\\n\",\n            \"Output: limiting emotions that we experience mainly in our childhood which stop us from living our lives in just open freedom and interest and\\n\"\n          ]\n        }\n      ]\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [],\n      \"metadata\": {\n        \"id\": \"dJUXy2dye8sH\"\n      },\n      \"execution_count\": null,\n      \"outputs\": []\n    }\n  ]\n}\n"
  },
  {
    "path": "examples/mms/data_prep/README.md",
    "content": "# Data Preparation \n\nWe describe the process of aligning long audio files with their transcripts and generating shorter audio segments below. \n\n- Step 1:  Download and install torchaudio using the nightly version. We have open sourced the CTC forced alignment algorithm described in our paper via [torchaudio](https://github.com/pytorch/audio/pull/3348). \n  ```\n  pip install --pre torchaudio --index-url https://download.pytorch.org/whl/nightly/cu118\n  ```\n  \n- Step 2: Download [uroman](https://github.com/isi-nlp/uroman) from Github. It is a universal romanizer which converts text in any script to the Latin alphabet. Use [this link](https://www.isi.edu/~ulf/uroman.html) to try their web interface.  \n  ```\n  git clone git@github.com:isi-nlp/uroman.git\n  ```\n  \n- Step 3: Install a few other dependencies \n  ```\n  apt install sox \n  pip install sox dataclasses \n  ```  \n\n- Step 4: Create a text file containing the transcript for a (long) audio file. Each line in the text file will correspond to a separate audio segment that will be generated upon alignment.\n\n  Example content of the input text file :\n  ```\n  Text of the desired first segment\n  Text of the desired second segment\n  Text of the desired third segment\n  ```\n\n- Step 5: Run forced alignment and segment the audio file into shorter segments. \n  ```\n  python align_and_segment.py --audio /path/to/audio.wav --text_filepath /path/to/textfile --lang <iso> --outdir /path/to/output --uroman /path/to/uroman/bin \n  ```\n\n  The above code  will generated the audio segments under output directory based on the content of each line in the input text file. The `manifest.json` file consisting of the of segmented audio filepaths and their corresponding transcripts. \n\n  ```\n  > head /path/to/output/manifest.json \n\n  {\"audio_start_sec\": 0.0, \"audio_filepath\": \"/path/to/output/segment1.flac\", \"duration\": 6.8, \"text\": \"she wondered afterwards how she could have spoken with that hard serenity how she could have\", \"normalized_text\": \"she wondered afterwards how she could have spoken with that hard serenity how she could have\", \"uroman_tokens\": \"s h e w o n d e r e d a f t e r w a r d s h o w s h e c o u l d h a v e s p o k e n w i t h t h a t h a r d s e r e n i t y h o w s h e c o u l d h a v e\"}\n  {\"audio_start_sec\": 6.8, \"audio_filepath\": \"/path/to/output/segment2.flac\", \"duration\": 5.3, \"text\": \"gone steadily on with story after story poem after poem till\", \"normalized_text\": \"gone steadily on with story after story poem after poem till\", \"uroman_tokens\": \"g o n e s t e a d i l y o n w i t h s t o r y a f t e r s t o r y p o e m a f t e r p o e m t i l l\"}\n  {\"audio_start_sec\": 12.1, \"audio_filepath\": \"/path/to/output/segment3.flac\", \"duration\": 5.9, \"text\": \"allan's grip on her hands relaxed and he fell into a heavy tired sleep\", \"normalized_text\": \"allan's grip on her hands relaxed and he fell into a heavy tired sleep\", \"uroman_tokens\": \"a l l a n ' s g r i p o n h e r h a n d s r e l a x e d a n d h e f e l l i n t o a h e a v y t i r e d s l e e p\"}\n  ```\n\n  To visualize the segmented audio files, [Speech Data Explorer](https://github.com/NVIDIA/NeMo/tree/main/tools/speech_data_explorer) tool from NeMo toolkit can be used.  \n\n  As our alignment model outputs uroman tokens for input audio in any language, it also works with non-english audio and their corresponding transcripts. \n"
  },
  {
    "path": "examples/mms/data_prep/align_and_segment.py",
    "content": "import os\nimport torch\nimport torchaudio\nimport sox\nimport json\nimport argparse\n\n\nfrom examples.mms.data_prep.text_normalization import text_normalize\nfrom examples.mms.data_prep.align_utils import (\n    get_uroman_tokens,\n    time_to_frame,\n    load_model_dict,\n    merge_repeats,\n    get_spans,\n)\nimport torchaudio.functional as F\n\nSAMPLING_FREQ = 16000\nEMISSION_INTERVAL = 30\nDEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')\n\ndef generate_emissions(model, audio_file):\n    waveform, _ = torchaudio.load(audio_file)  # waveform: channels X T\n    waveform = waveform.to(DEVICE)\n    total_duration = sox.file_info.duration(audio_file)\n\n    audio_sf = sox.file_info.sample_rate(audio_file)\n    assert audio_sf == SAMPLING_FREQ\n\n    emissions_arr = []\n    with torch.inference_mode():\n        i = 0\n        while i < total_duration:\n            segment_start_time, segment_end_time = (i, i + EMISSION_INTERVAL)\n\n            context = EMISSION_INTERVAL * 0.1\n            input_start_time = max(segment_start_time - context, 0)\n            input_end_time = min(segment_end_time + context, total_duration)\n            waveform_split = waveform[\n                :,\n                int(SAMPLING_FREQ * input_start_time) : int(\n                    SAMPLING_FREQ * (input_end_time)\n                ),\n            ]\n\n            model_outs, _ = model(waveform_split)\n            emissions_ = model_outs[0]\n            emission_start_frame = time_to_frame(segment_start_time)\n            emission_end_frame = time_to_frame(segment_end_time)\n            offset = time_to_frame(input_start_time)\n\n            emissions_ = emissions_[\n                emission_start_frame - offset : emission_end_frame - offset, :\n            ]\n            emissions_arr.append(emissions_)\n            i += EMISSION_INTERVAL\n\n    emissions = torch.cat(emissions_arr, dim=0).squeeze()\n    emissions = torch.log_softmax(emissions, dim=-1)\n\n    stride = float(waveform.size(1) * 1000 / emissions.size(0) / SAMPLING_FREQ)\n\n    return emissions, stride\n\n\ndef get_alignments(\n    audio_file,\n    tokens,\n    model,\n    dictionary,\n    use_star,\n):\n    # Generate emissions\n    emissions, stride = generate_emissions(model, audio_file)\n    T, N = emissions.size()\n    if use_star:\n        emissions = torch.cat([emissions, torch.zeros(T, 1).to(DEVICE)], dim=1)\n\n    # Force Alignment\n    if tokens:\n        token_indices = [dictionary[c] for c in \" \".join(tokens).split(\" \") if c in dictionary]\n    else:\n        print(f\"Empty transcript!!!!! for audio file {audio_file}\")\n        token_indices = []\n\n    blank = dictionary[\"<blank>\"]\n    \n    targets = torch.tensor(token_indices, dtype=torch.int32).to(DEVICE)\n    \n    input_lengths = torch.tensor(emissions.shape[0]).unsqueeze(-1)\n    target_lengths = torch.tensor(targets.shape[0]).unsqueeze(-1)\n    path, _ = F.forced_align(\n        emissions.unsqueeze(0), targets.unsqueeze(0), input_lengths, target_lengths, blank=blank\n    )\n    path = path.squeeze().to(\"cpu\").tolist()\n    \n    segments = merge_repeats(path, {v: k for k, v in dictionary.items()})\n    return segments, stride\n\n\ndef main(args):\n    assert not os.path.exists(\n        args.outdir\n    ), f\"Error: Output path exists already {args.outdir}\"\n    \n    transcripts = []\n    with open(args.text_filepath) as f:\n        transcripts = [line.strip() for line in f]\n    print(\"Read {} lines from {}\".format(len(transcripts), args.text_filepath))\n\n    norm_transcripts = [text_normalize(line.strip(), args.lang) for line in transcripts]\n    tokens = get_uroman_tokens(norm_transcripts, args.uroman_path, args.lang)\n\n    model, dictionary = load_model_dict()\n    model = model.to(DEVICE)\n    if args.use_star:\n        dictionary[\"<star>\"] = len(dictionary)\n        tokens = [\"<star>\"] + tokens\n        transcripts = [\"<star>\"] + transcripts\n        norm_transcripts = [\"<star>\"] + norm_transcripts\n\n    segments, stride = get_alignments(\n        args.audio_filepath,\n        tokens,\n        model,\n        dictionary,\n        args.use_star,\n    )\n    # Get spans of each line in input text file\n    spans = get_spans(tokens, segments)\n\n    os.makedirs(args.outdir)\n    with open( f\"{args.outdir}/manifest.json\", \"w\") as f:\n        for i, t in enumerate(transcripts):\n            span = spans[i]\n            seg_start_idx = span[0].start\n            seg_end_idx = span[-1].end\n\n            output_file = f\"{args.outdir}/segment{i}.flac\"\n\n            audio_start_sec = seg_start_idx * stride / 1000\n            audio_end_sec = seg_end_idx * stride / 1000 \n\n            tfm = sox.Transformer()\n            tfm.trim(audio_start_sec , audio_end_sec)\n            tfm.build_file(args.audio_filepath, output_file)\n            \n            sample = {\n                \"audio_start_sec\": audio_start_sec,\n                \"audio_filepath\": str(output_file),\n                \"duration\": audio_end_sec - audio_start_sec,\n                \"text\": t,\n                \"normalized_text\":norm_transcripts[i],\n                \"uroman_tokens\": tokens[i],\n            }\n            f.write(json.dumps(sample) + \"\\n\")\n\n    return segments, stride\n\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser(description=\"Align and segment long audio files\")\n    parser.add_argument(\n        \"-a\", \"--audio_filepath\", type=str, help=\"Path to input audio file\"\n    )\n    parser.add_argument(\n        \"-t\", \"--text_filepath\", type=str, help=\"Path to input text file \"\n    )\n    parser.add_argument(\n        \"-l\", \"--lang\", type=str, default=\"eng\", help=\"ISO code of the language\"\n    )\n    parser.add_argument(\n        \"-u\", \"--uroman_path\", type=str, default=\"eng\", help=\"Location to uroman/bin\"\n    )\n    parser.add_argument(\n        \"-s\",\n        \"--use_star\",\n        action=\"store_true\",\n        help=\"Use star at the start of transcript\",\n    )\n    parser.add_argument(\n        \"-o\",\n        \"--outdir\",\n        type=str,\n        help=\"Output directory to store segmented audio files\",\n    )\n    print(\"Using torch version:\", torch.__version__)\n    print(\"Using torchaudio version:\", torchaudio.__version__)\n    print(\"Using device: \", DEVICE)\n    args = parser.parse_args()\n    main(args)\n"
  },
  {
    "path": "examples/mms/data_prep/align_utils.py",
    "content": "import re \nimport os\nimport torch\nimport tempfile\nimport math\nfrom dataclasses import dataclass\nfrom torchaudio.models import wav2vec2_model\n\n# iso codes with specialized rules in uroman\nspecial_isos_uroman = \"ara, bel, bul, deu, ell, eng, fas, grc, ell, eng, heb, kaz, kir, lav, lit, mkd, mkd2, oss, pnt, pus, rus, srp, srp2, tur, uig, ukr, yid\".split(\",\")\nspecial_isos_uroman = [i.strip() for i in special_isos_uroman]\n\ndef normalize_uroman(text):\n    text = text.lower()\n    text = re.sub(\"([^a-z' ])\", \" \", text)\n    text = re.sub(' +', ' ', text)\n    return text.strip()\n\n\ndef get_uroman_tokens(norm_transcripts, uroman_root_dir, iso = None):\n    tf = tempfile.NamedTemporaryFile()  \n    tf2 = tempfile.NamedTemporaryFile()  \n    with open(tf.name, \"w\") as f:\n        for t in norm_transcripts:\n            f.write(t + \"\\n\")\n\n    assert os.path.exists(f\"{uroman_root_dir}/uroman.pl\"), \"uroman not found\"\n    cmd = f\"perl {uroman_root_dir}/uroman.pl\"\n    if iso in special_isos_uroman:\n        cmd += f\" -l {iso} \"\n    cmd +=  f\" < {tf.name} > {tf2.name}\" \n    os.system(cmd)\n    outtexts = []\n    with open(tf2.name) as f:\n        for line in f:\n            line = \" \".join(line.strip())\n            line =  re.sub(r\"\\s+\", \" \", line).strip()\n            outtexts.append(line)\n    assert len(outtexts) == len(norm_transcripts)\n    uromans = []\n    for ot in outtexts:\n        uromans.append(normalize_uroman(ot))\n    return uromans\n\n\n\n@dataclass\nclass Segment:\n    label: str\n    start: int\n    end: int\n\n    def __repr__(self):\n        return f\"{self.label}: [{self.start:5d}, {self.end:5d})\"\n\n    @property\n    def length(self):\n        return self.end - self.start\n\n\ndef merge_repeats(path, idx_to_token_map):\n    i1, i2 = 0, 0\n    segments = []\n    while i1 < len(path):\n        while i2 < len(path) and path[i1] == path[i2]:\n            i2 += 1\n        segments.append(Segment(idx_to_token_map[path[i1]], i1, i2 - 1))\n        i1 = i2\n    return segments\n\n\ndef time_to_frame(time):\n    stride_msec = 20\n    frames_per_sec = 1000 / stride_msec\n    return int(time * frames_per_sec)\n\n\n\ndef load_model_dict():\n    model_path_name = \"/tmp/ctc_alignment_mling_uroman_model.pt\"\n\n    print(\"Downloading model and dictionary...\")\n    if os.path.exists(model_path_name):\n        print(\"Model path already exists. Skipping downloading....\")\n    else:\n        torch.hub.download_url_to_file(\n            \"https://dl.fbaipublicfiles.com/mms/torchaudio/ctc_alignment_mling_uroman/model.pt\",\n            model_path_name,\n        )\n        assert os.path.exists(model_path_name)\n    state_dict = torch.load(model_path_name, map_location=\"cpu\")\n\n    model = wav2vec2_model(\n        extractor_mode=\"layer_norm\",\n        extractor_conv_layer_config=[\n            (512, 10, 5),\n            (512, 3, 2),\n            (512, 3, 2),\n            (512, 3, 2),\n            (512, 3, 2),\n            (512, 2, 2),\n            (512, 2, 2),\n        ],\n        extractor_conv_bias=True,\n        encoder_embed_dim=1024,\n        encoder_projection_dropout=0.0,\n        encoder_pos_conv_kernel=128,\n        encoder_pos_conv_groups=16,\n        encoder_num_layers=24,\n        encoder_num_heads=16,\n        encoder_attention_dropout=0.0,\n        encoder_ff_interm_features=4096,\n        encoder_ff_interm_dropout=0.1,\n        encoder_dropout=0.0,\n        encoder_layer_norm_first=True,\n        encoder_layer_drop=0.1,\n        aux_num_out=31,\n    )\n    model.load_state_dict(state_dict)\n    model.eval()\n\n    dict_path_name = \"/tmp/ctc_alignment_mling_uroman_model.dict\"\n    if os.path.exists(dict_path_name):\n        print(\"Dictionary path already exists. Skipping downloading....\")\n    else:\n        torch.hub.download_url_to_file(\n            \"https://dl.fbaipublicfiles.com/mms/torchaudio/ctc_alignment_mling_uroman/dictionary.txt\",\n            dict_path_name,\n        )\n        assert os.path.exists(dict_path_name)\n    dictionary = {}\n    with open(dict_path_name) as f:\n        dictionary = {l.strip(): i for i, l in enumerate(f.readlines())}\n\n    return model, dictionary\n\ndef get_spans(tokens, segments):\n    ltr_idx = 0\n    tokens_idx = 0\n    intervals = []\n    start, end = (0, 0)\n    sil = \"<blank>\"\n    for (seg_idx, seg) in enumerate(segments):\n        if(tokens_idx == len(tokens)):\n           assert(seg_idx == len(segments) - 1)\n           assert(seg.label == '<blank>')\n           continue\n        cur_token = tokens[tokens_idx].split(' ')\n        ltr = cur_token[ltr_idx]\n        if seg.label == \"<blank>\": continue\n        assert(seg.label == ltr)\n        if(ltr_idx) == 0: start = seg_idx\n        if ltr_idx == len(cur_token) - 1:\n            ltr_idx = 0\n            tokens_idx += 1\n            intervals.append((start, seg_idx))\n            while tokens_idx < len(tokens) and len(tokens[tokens_idx]) == 0:\n                    intervals.append((seg_idx, seg_idx))\n                    tokens_idx += 1\n        else:\n            ltr_idx += 1\n    spans = []\n    for (idx, (start, end)) in enumerate(intervals):\n        span = segments[start:end + 1]\n        if start > 0:\n            prev_seg = segments[start - 1]\n            if prev_seg.label == sil:\n                pad_start = prev_seg.start if (idx == 0) else int((prev_seg.start + prev_seg.end)/2)\n                span = [Segment(sil, pad_start, span[0].start)] + span\n        if end+1 < len(segments):\n            next_seg = segments[end+1]\n            if next_seg.label == sil:\n                pad_end = next_seg.end if (idx == len(intervals) - 1) else math.floor((next_seg.start + next_seg.end) / 2)\n                span = span + [Segment(sil, span[-1].end, pad_end)]\n        spans.append(span)\n    return spans\n"
  },
  {
    "path": "examples/mms/data_prep/norm_config.py",
    "content": "import os\nimport re\n\n\ncolon = \":\"\ncomma = \",\"\nexclamation_mark = \"!\"\nperiod = re.escape(\".\")\nquestion_mark = re.escape(\"?\")\nsemicolon = \";\"\n\nleft_curly_bracket = \"{\"\nright_curly_bracket = \"}\"\nquotation_mark = '\"'\n\nbasic_punc = (\n    period\n    + question_mark\n    + comma\n    + colon\n    + exclamation_mark\n    + left_curly_bracket\n    + right_curly_bracket\n)\n\n# General punc unicode block (0x2000-0x206F)\nzero_width_space = r\"\\u200B\"\nzero_width_nonjoiner = r\"\\u200C\"\nleft_to_right_mark = r\"\\u200E\"\nright_to_left_mark = r\"\\u200F\"\nleft_to_right_embedding = r\"\\u202A\"\npop_directional_formatting = r\"\\u202C\"\n\n# Here are some commonly ill-typed versions of apostrophe\nright_single_quotation_mark = r\"\\u2019\"\nleft_single_quotation_mark = r\"\\u2018\"\n\n# Language specific definitions\n# Spanish\ninverted_exclamation_mark = r\"\\u00A1\"\ninverted_question_mark = r\"\\u00BF\"\n\n\n# Hindi\nhindi_danda = u\"\\u0964\"\n\n# Egyptian Arabic\n# arabic_percent = r\"\\u066A\"\narabic_comma = r\"\\u060C\"\narabic_question_mark = r\"\\u061F\"\narabic_semicolon = r\"\\u061B\"\narabic_diacritics = r\"\\u064B-\\u0652\"\n\n\narabic_subscript_alef_and_inverted_damma = r\"\\u0656-\\u0657\"\n\n\n# Chinese\nfull_stop = r\"\\u3002\"\nfull_comma = r\"\\uFF0C\"\nfull_exclamation_mark = r\"\\uFF01\"\nfull_question_mark = r\"\\uFF1F\"\nfull_semicolon = r\"\\uFF1B\"\nfull_colon = r\"\\uFF1A\"\nfull_parentheses = r\"\\uFF08\\uFF09\"\nquotation_mark_horizontal = r\"\\u300C-\\u300F\"\nquotation_mark_vertical = r\"\\uFF41-\\uFF44\"\ntitle_marks = r\"\\u3008-\\u300B\"\nwavy_low_line = r\"\\uFE4F\"\nellipsis = r\"\\u22EF\"\nenumeration_comma = r\"\\u3001\"\nhyphenation_point = r\"\\u2027\"\nforward_slash = r\"\\uFF0F\"\nwavy_dash = r\"\\uFF5E\"\nbox_drawings_light_horizontal = r\"\\u2500\"\nfullwidth_low_line = r\"\\uFF3F\"\nchinese_punc = (\n    full_stop\n    + full_comma\n    + full_exclamation_mark\n    + full_question_mark\n    + full_semicolon\n    + full_colon\n    + full_parentheses\n    + quotation_mark_horizontal\n    + quotation_mark_vertical\n    + title_marks\n    + wavy_low_line\n    + ellipsis\n    + enumeration_comma\n    + hyphenation_point\n    + forward_slash\n    + wavy_dash\n    + box_drawings_light_horizontal\n    + fullwidth_low_line\n)\n\n# Armenian\narmenian_apostrophe = r\"\\u055A\"\nemphasis_mark = r\"\\u055B\"\nexclamation_mark = r\"\\u055C\"\narmenian_comma = r\"\\u055D\"\narmenian_question_mark = r\"\\u055E\"\nabbreviation_mark = r\"\\u055F\"\narmenian_full_stop = r\"\\u0589\"\narmenian_punc = (\n    armenian_apostrophe\n    + emphasis_mark\n    + exclamation_mark\n    + armenian_comma\n    + armenian_question_mark\n    + abbreviation_mark\n    + armenian_full_stop\n)\n\nlesser_than_symbol = r\"&lt;\"\ngreater_than_symbol = r\"&gt;\"\n\nlesser_than_sign = r\"\\u003c\"\ngreater_than_sign = r\"\\u003e\"\n\nnbsp_written_form = r\"&nbsp\"\n\n# Quotation marks\nleft_double_quotes = r\"\\u201c\"\nright_double_quotes = r\"\\u201d\"\nleft_double_angle = r\"\\u00ab\"\nright_double_angle = r\"\\u00bb\"\nleft_single_angle = r\"\\u2039\"\nright_single_angle = r\"\\u203a\"\nlow_double_quotes = r\"\\u201e\"\nlow_single_quotes = r\"\\u201a\"\nhigh_double_quotes = r\"\\u201f\"\nhigh_single_quotes = r\"\\u201b\"\n\nall_punct_quotes = (\n    left_double_quotes\n    + right_double_quotes\n    + left_double_angle\n    + right_double_angle\n    + left_single_angle\n    + right_single_angle\n    + low_double_quotes\n    + low_single_quotes\n    + high_double_quotes\n    + high_single_quotes\n    + right_single_quotation_mark\n    + left_single_quotation_mark\n)\nmapping_quotes = (\n    \"[\"\n    + high_single_quotes\n    + right_single_quotation_mark\n    + left_single_quotation_mark\n    + \"]\"\n)\n\n\n# Digits\n\nenglish_digits = r\"\\u0030-\\u0039\"\nbengali_digits = r\"\\u09e6-\\u09ef\"\nkhmer_digits = r\"\\u17e0-\\u17e9\"\ndevanagari_digits = r\"\\u0966-\\u096f\"\noriya_digits = r\"\\u0b66-\\u0b6f\"\nextended_arabic_indic_digits = r\"\\u06f0-\\u06f9\"\nkayah_li_digits = r\"\\ua900-\\ua909\"\nfullwidth_digits = r\"\\uff10-\\uff19\"\nmalayam_digits = r\"\\u0d66-\\u0d6f\"\nmyanmar_digits = r\"\\u1040-\\u1049\"\nroman_numeral = r\"\\u2170-\\u2179\"\nnominal_digit_shapes = r\"\\u206f\"\n\n# Load punctuations from MMS-lab data\nwith open(f\"{os.path.dirname(__file__)}/punctuations.lst\", \"r\") as punc_f:\n    punc_list = punc_f.readlines()\n\npunct_pattern = r\"\"    \nfor punc in punc_list:\n    # the first character in the tab separated line is the punc to be removed\n    punct_pattern += re.escape(punc.split(\"\\t\")[0])\n\nshared_digits = (\n    english_digits\n    + bengali_digits\n    + khmer_digits\n    + devanagari_digits\n    + oriya_digits\n    + extended_arabic_indic_digits\n    + kayah_li_digits\n    + fullwidth_digits\n    + malayam_digits\n    + myanmar_digits\n    + roman_numeral\n    + nominal_digit_shapes\n)\n\nshared_punc_list = (\n    basic_punc\n    + all_punct_quotes\n    + greater_than_sign\n    + lesser_than_sign\n    + inverted_question_mark\n    + full_stop\n    + semicolon\n    + armenian_punc\n    + inverted_exclamation_mark\n    + arabic_comma\n    + enumeration_comma\n    + hindi_danda\n    + quotation_mark\n    + arabic_semicolon\n    + arabic_question_mark\n    + chinese_punc\n    + punct_pattern\n\n)\n\nshared_mappping = {\n    lesser_than_symbol: \"\",\n    greater_than_symbol: \"\",\n    nbsp_written_form: \"\",\n    r\"(\\S+)\" + mapping_quotes + r\"(\\S+)\": r\"\\1'\\2\",\n}\n\nshared_deletion_list = (\n    left_to_right_mark\n    + zero_width_nonjoiner\n    + arabic_subscript_alef_and_inverted_damma\n    + zero_width_space\n    + arabic_diacritics\n    + pop_directional_formatting\n    + right_to_left_mark\n    + left_to_right_embedding\n)\n\nnorm_config = {\n    \"*\": {\n        \"lower_case\": True,\n        \"punc_set\": shared_punc_list,\n        \"del_set\": shared_deletion_list,\n        \"mapping\": shared_mappping,\n        \"digit_set\": shared_digits,\n        \"unicode_norm\": \"NFKC\",\n        \"rm_diacritics\" : False,\n    }\n}\n\n#=============== Mongolian ===============#\n\nnorm_config[\"mon\"] = norm_config[\"*\"].copy()\n# add soft hyphen to punc list to match with fleurs\nnorm_config[\"mon\"][\"del_set\"] += r\"\\u00AD\"\n\nnorm_config[\"khk\"] = norm_config[\"mon\"].copy()\n\n#=============== Hebrew ===============#\n\nnorm_config[\"heb\"] = norm_config[\"*\"].copy()\n# add \"HEBREW POINT\" symbols to match with fleurs\nnorm_config[\"heb\"][\"del_set\"] += r\"\\u05B0-\\u05BF\\u05C0-\\u05CF\"\n\n#=============== Thai ===============#\n\nnorm_config[\"tha\"] = norm_config[\"*\"].copy()\n# add \"Zero width joiner\" symbols to match with fleurs\nnorm_config[\"tha\"][\"punc_set\"] += r\"\\u200D\"\n\n#=============== Arabic ===============#\nnorm_config[\"ara\"] = norm_config[\"*\"].copy()\nnorm_config[\"ara\"][\"mapping\"][\"ٱ\"] = \"ا\"\nnorm_config[\"arb\"] = norm_config[\"ara\"].copy()\n\n#=============== Javanese ===============#\nnorm_config[\"jav\"] = norm_config[\"*\"].copy()\nnorm_config[\"jav\"][\"rm_diacritics\"] = True\n\n"
  },
  {
    "path": "examples/mms/data_prep/punctuations.lst",
    "content": "\t7355\tINVALID UNICODE\t0x81\n\t5265\tINVALID UNICODE\t0x90\n\b\t75\tINVALID UNICODE\t0x8\n\t31\tINVALID UNICODE\t0x8d\n\t3\tINVALID UNICODE\t0x94\n\t2\tINVALID UNICODE\t0x8f\n\u001a\t2\tINVALID UNICODE\t0x1a\n\t1\tINVALID UNICODE\t0x9d\n\t1\tINVALID UNICODE\t0x93\n\t1\tINVALID UNICODE\t0x92\n\t8647\tINVALID UNICODE\t0xe295\n\t6650\tINVALID UNICODE\t0xf21d\n\t6234\tINVALID UNICODE\t0xf62d\n\t4815\tINVALID UNICODE\t0xf173\n\t4789\tINVALID UNICODE\t0xe514\n\t4409\tINVALID UNICODE\t0xe293\n\t3881\tINVALID UNICODE\t0xf523\n\t3788\tINVALID UNICODE\t0xe233\n\t2448\tINVALID UNICODE\t0xf50f\n\t2177\tINVALID UNICODE\t0xe232\n\t1955\tINVALID UNICODE\t0xea7b\n\t1926\tINVALID UNICODE\t0xf172\n\t973\tINVALID UNICODE\t0xe290\n\t972\tINVALID UNICODE\t0xf519\n\t661\tINVALID UNICODE\t0xe292\n\t591\tINVALID UNICODE\t0xe328\n\t509\tINVALID UNICODE\t0xe2fa\n\t458\tINVALID UNICODE\t0xe234\n\t446\tINVALID UNICODE\t0xe043\n\t419\tINVALID UNICODE\t0xe040\n\t399\tINVALID UNICODE\t0xe2fb\n\t387\tINVALID UNICODE\t0xe32b\n\t381\tINVALID UNICODE\t0xe236\n\t374\tINVALID UNICODE\t0xf511\n\t314\tINVALID UNICODE\t0xe517\n\t296\tINVALID UNICODE\t0xe2fe\n\t293\tINVALID UNICODE\t0xe492\n\t291\tINVALID UNICODE\t0xf52d\n\t289\tINVALID UNICODE\t0xe2fc\n\t195\tINVALID UNICODE\t0xf521\n\t190\tINVALID UNICODE\t0xe516\n\t182\tINVALID UNICODE\t0xe041\n\t178\tINVALID UNICODE\t0xf529\n\t113\tINVALID UNICODE\t0xe2f9\n\t87\tINVALID UNICODE\t0xe2d9\n\t78\tINVALID UNICODE\t0xe32a\n\t76\tINVALID UNICODE\t0xe291\n\t74\tINVALID UNICODE\t0xe296\n\t66\tINVALID UNICODE\t0xe518\n\t52\tINVALID UNICODE\t0xe32c\n\t46\tINVALID UNICODE\t0xe2db\n\t41\tINVALID UNICODE\t0xe231\n\t34\tINVALID UNICODE\t0xf522\n\t33\tINVALID UNICODE\t0xf518\n\t32\tINVALID UNICODE\t0xf513\n\t27\tINVALID UNICODE\t0xe32d\n\t25\tINVALID UNICODE\t0xe32e\n\t23\tINVALID UNICODE\t0xe06b\n\t15\tINVALID UNICODE\t0xea01\n\t12\tINVALID UNICODE\t0xe294\n\t11\tINVALID UNICODE\t0xe203\n\t8\tINVALID UNICODE\t0xf218\n\t7\tINVALID UNICODE\t0xe070\n\t7\tINVALID UNICODE\t0xe013\n\t5\tINVALID UNICODE\t0xe2de\n\t4\tINVALID UNICODE\t0xe493\n\t3\tINVALID UNICODE\t0xf7e8\n\t3\tINVALID UNICODE\t0xf7d0\n\t3\tINVALID UNICODE\t0xe313\n\t2\tINVALID UNICODE\t0xe329\n\t2\tINVALID UNICODE\t0xe06d\n\t2\tINVALID UNICODE\t0xe003\n\t1\tINVALID UNICODE\t0xf50e\n\t1\tINVALID UNICODE\t0xf171\n\t1\tINVALID UNICODE\t0xe01d\n⁯\t71\tNOMINAL DIGIT SHAPES\t0x206f\n⁠\t3\tWORD JOINER\t0x2060\n―\t126545\tHORIZONTAL BAR\t0x2015\n־\t1028\tHEBREW PUNCTUATION MAQAF\t0x5be\n)\t98429\tRIGHT PARENTHESIS\t0x29\n]\t27108\tRIGHT SQUARE BRACKET\t0x5d\n⌋\t1567\tRIGHT FLOOR\t0x230b\n〕\t97\tRIGHT TORTOISE SHELL BRACKET\t0x3015\n】\t36\tRIGHT BLACK LENTICULAR BRACKET\t0x3011\n﴾\t14\tORNATE LEFT PARENTHESIS\t0xfd3e\n&\t170517\tAMPERSAND\t0x26\n།\t106330\tTIBETAN MARK SHAD\t0xf0d\n።\t90203\tETHIOPIC FULL STOP\t0x1362\n፥\t60484\tETHIOPIC COLON\t0x1365\n༌\t60464\tTIBETAN MARK DELIMITER TSHEG BSTAR\t0xf0c\n။\t51567\tMYANMAR SIGN SECTION\t0x104b\n/\t46929\tSOLIDUS\t0x2f\n၊\t38042\tMYANMAR SIGN LITTLE SECTION\t0x104a\n·\t37985\tMIDDLE DOT\t0xb7\n‸\t36310\tCARET\t0x2038\n*\t34793\tASTERISK\t0x2a\n۔\t32432\tARABIC FULL STOP\t0x6d4\n፤\t31906\tETHIOPIC SEMICOLON\t0x1364\n၏\t21519\tMYANMAR SYMBOL GENITIVE\t0x104f\n។\t20834\tKHMER SIGN KHAN\t0x17d4\n꓾\t15773\tLISU PUNCTUATION COMMA\t0xa4fe\n᙮\t13473\tCANADIAN SYLLABICS FULL STOP\t0x166e\n꤯\t12892\tKAYAH LI SIGN SHYA\t0xa92f\n⵰\t11478\tTIFINAGH SEPARATOR MARK\t0x2d70\n꓿\t11118\tLISU PUNCTUATION FULL STOP\t0xa4ff\n॥\t10763\tDEVANAGARI DOUBLE DANDA\t0x965\n؞\t10403\tARABIC TRIPLE DOT PUNCTUATION MARK\t0x61e\n၍\t8936\tMYANMAR SYMBOL COMPLETED\t0x104d\n·\t8431\tGREEK ANO TELEIA\t0x387\n†\t7477\tDAGGER\t0x2020\n၌\t6632\tMYANMAR SYMBOL LOCATIVE\t0x104c\n፣\t5719\tETHIOPIC COMMA\t0x1363\n៖\t5528\tKHMER SIGN CAMNUC PII KUUH\t0x17d6\n꤮\t4791\tKAYAH LI SIGN CWI\t0xa92e\n※\t3439\tREFERENCE MARK\t0x203b\n፦\t2727\tETHIOPIC PREFACE COLON\t0x1366\n•\t1749\tBULLET\t0x2022\n¶\t1507\tPILCROW SIGN\t0xb6\n၎\t1386\tMYANMAR SYMBOL AFOREMENTIONED\t0x104e\n﹖\t1224\tSMALL QUESTION MARK\t0xfe56\n;\t975\tGREEK QUESTION MARK\t0x37e\n…\t827\tHORIZONTAL ELLIPSIS\t0x2026\n%\t617\tPERCENT SIGN\t0x25\n・\t468\tKATAKANA MIDDLE DOT\t0x30fb\n༎\t306\tTIBETAN MARK NYIS SHAD\t0xf0e\n‡\t140\tDOUBLE DAGGER\t0x2021\n#\t137\tNUMBER SIGN\t0x23\n@\t125\tCOMMERCIAL AT\t0x40\n፡\t121\tETHIOPIC WORDSPACE\t0x1361\n៚\t55\tKHMER SIGN KOOMUUT\t0x17da\n៕\t49\tKHMER SIGN BARIYOOSAN\t0x17d5\n﹐\t10\tSMALL COMMA\t0xfe50\n༅\t6\tTIBETAN MARK CLOSING YIG MGO SGAB MA\t0xf05\n༄\t6\tTIBETAN MARK INITIAL YIG MGO MDUN MA\t0xf04\n．\t2\tFULLWIDTH FULL STOP\t0xff0e\n﹗\t2\tSMALL EXCLAMATION MARK\t0xfe57\n﹕\t2\tSMALL COLON\t0xfe55\n‰\t2\tPER MILLE SIGN\t0x2030\n･\t1\tHALFWIDTH KATAKANA MIDDLE DOT\t0xff65\n(\t98504\tLEFT PARENTHESIS\t0x28\n[\t27245\tLEFT SQUARE BRACKET\t0x5b\n⌊\t1567\tLEFT FLOOR\t0x230a\n〔\t95\tLEFT TORTOISE SHELL BRACKET\t0x3014\n【\t36\tLEFT BLACK LENTICULAR BRACKET\t0x3010\n﴿\t14\tORNATE RIGHT PARENTHESIS\t0xfd3f\n_\t4851\tLOW LINE\t0x5f\n$\t72\tDOLLAR SIGN\t0x24\n€\t14\tEURO SIGN\t0x20ac\n£\t2\tPOUND SIGN\t0xa3\n~\t27462\tTILDE\t0x7e\n=\t11450\tEQUALS SIGN\t0x3d\n|\t8430\tVERTICAL LINE\t0x7c\n−\t3971\tMINUS SIGN\t0x2212\n≫\t1904\tMUCH GREATER-THAN\t0x226b\n≪\t1903\tMUCH LESS-THAN\t0x226a\n+\t1450\tPLUS SIGN\t0x2b\n＜\t345\tFULLWIDTH LESS-THAN SIGN\t0xff1c\n＞\t344\tFULLWIDTH GREATER-THAN SIGN\t0xff1e\n¬\t5\tNOT SIGN\t0xac\n×\t4\tMULTIPLICATION SIGN\t0xd7\n→\t2\tRIGHTWARDS ARROW\t0x2192\n᙭\t537\tCANADIAN SYLLABICS CHI SIGN\t0x166d\n°\t499\tDEGREE SIGN\t0xb0\n႟\t421\tMYANMAR SYMBOL SHAN EXCLAMATION\t0x109f\n�\t192\tREPLACEMENT CHARACTER\t0xfffd\n⌟\t54\tBOTTOM RIGHT CORNER\t0x231f\n⌞\t54\tBOTTOM LEFT CORNER\t0x231e\n©\t2\tCOPYRIGHT SIGN\t0xa9\n \t40\tNARROW NO-BREAK SPACE\t0x202f\n \t1\tSIX-PER-EM SPACE\t0x2006\n˜\t40261\tSMALL TILDE\t0x2dc\n^\t6469\tCIRCUMFLEX ACCENT\t0x5e\n¯\t20\tMACRON\t0xaf\nˇ\t191442\tCARON\t0x2c7\nⁿ\t38144\tSUPERSCRIPT LATIN SMALL LETTER N\t0x207f\nـ\t9440\tARABIC TATWEEL\t0x640\nๆ\t6766\tTHAI CHARACTER MAIYAMOK\t0xe46\nៗ\t3310\tKHMER SIGN LEK TOO\t0x17d7\n々\t678\tIDEOGRAPHIC ITERATION MARK\t0x3005\nໆ\t430\tLAO KO LA\t0xec6\nー\t319\tKATAKANA-HIRAGANA PROLONGED SOUND MARK\t0x30fc\nⁱ\t137\tSUPERSCRIPT LATIN SMALL LETTER I\t0x2071\n৷\t11056\tBENGALI CURRENCY NUMERATOR FOUR\t0x9f7\n⅓\t26\tVULGAR FRACTION ONE THIRD\t0x2153\n½\t26\tVULGAR FRACTION ONE HALF\t0xbd\n¼\t4\tVULGAR FRACTION ONE QUARTER\t0xbc\n⅟\t1\tFRACTION NUMERATOR ONE\t0x215f\n⁄\t57\tFRACTION SLASH\t0x2044\n"
  },
  {
    "path": "examples/mms/data_prep/text_normalization.py",
    "content": "import json\nimport re\nimport unicodedata\n\nfrom examples.mms.data_prep.norm_config import norm_config\n\n\ndef text_normalize(text, iso_code, lower_case=True, remove_numbers=True, remove_brackets=False):\n\n    \"\"\"Given a text, normalize it by changing to lower case, removing punctuations, removing words that only contain digits and removing extra spaces\n\n    Args:\n        text : The string to be normalized\n        iso_code :\n        remove_numbers : Boolean flag to specify if words containing only digits should be removed\n\n    Returns:\n        normalized_text : the string after all normalization  \n\n    \"\"\"\n\n    config = norm_config.get(iso_code, norm_config[\"*\"])\n\n    for field in [\"lower_case\", \"punc_set\",\"del_set\", \"mapping\", \"digit_set\", \"unicode_norm\"]:\n        if field not in config:\n            config[field] = norm_config[\"*\"][field]\n\n\n    text = unicodedata.normalize(config[\"unicode_norm\"], text)\n\n    # Convert to lower case\n\n    if config[\"lower_case\"] and lower_case:\n        text = text.lower()\n\n    # brackets\n    \n    # always text inside brackets with numbers in them. Usually corresponds to \"(Sam 23:17)\"\n    text = re.sub(r\"\\([^\\)]*\\d[^\\)]*\\)\", \" \", text)\n    if remove_brackets:\n        text = re.sub(r\"\\([^\\)]*\\)\", \" \", text)\n\n    # Apply mappings\n\n    for old, new in config[\"mapping\"].items():\n        text = re.sub(old, new, text)\n\n    # Replace punctutations with space\n\n    punct_pattern = r\"[\" + config[\"punc_set\"]\n\n    punct_pattern += \"]\"\n\n    normalized_text = re.sub(punct_pattern, \" \", text)\n\n    # remove characters in delete list\n\n    delete_patten = r\"[\" + config[\"del_set\"] + \"]\"\n\n    normalized_text = re.sub(delete_patten, \"\", normalized_text)\n\n    # Remove words containing only digits\n    # We check for 3 cases  a)text starts with a number b) a number is present somewhere in the middle of the text c) the text ends with a number\n    # For each case we use lookaround regex pattern to see if the digit pattern in preceded and followed by whitespaces, only then we replace the numbers with space\n    # The lookaround enables overlapping pattern matches to be replaced\n\n    if remove_numbers:\n\n        digits_pattern = \"[\" + config[\"digit_set\"]\n\n        digits_pattern += \"]+\"\n\n        complete_digit_pattern = (\n            r\"^\"\n            + digits_pattern\n            + \"(?=\\s)|(?<=\\s)\"\n            + digits_pattern\n            + \"(?=\\s)|(?<=\\s)\"\n            + digits_pattern\n            + \"$\"\n        )\n\n        normalized_text = re.sub(complete_digit_pattern, \" \", normalized_text)\n\n    if config[\"rm_diacritics\"]:\n        from unidecode import unidecode\n        normalized_text = unidecode(normalized_text)\n\n    # Remove extra spaces\n    normalized_text = re.sub(r\"\\s+\", \" \", normalized_text).strip()\n\n    return normalized_text\n"
  },
  {
    "path": "examples/mms/lid/infer.py",
    "content": "import torch\nfrom fairseq.data.text_compressor import TextCompressionLevel, TextCompressor\nfrom fairseq import checkpoint_utils, distributed_utils, options, utils\nfrom fairseq import checkpoint_utils, data, options, tasks\nfrom fairseq.data import FileAudioDataset, AddTargetDataset, Dictionary\nfrom fairseq.tasks.audio_classification import LabelEncoder\nimport copy\nfrom tqdm import tqdm\nimport tempfile\nimport numpy as np\nimport json\n\n    \ndef subset_manifest(infer_manifest, veri_pair):\n    with open(infer_manifest) as ff, open(veri_pair) as gg, tempfile.NamedTemporaryFile(\n        \"w\", delete=False\n    ) as ww:\n        fnames = ff.read().strip().split(\"\\n\")\n        basedir = fnames[0]\n        needed_fname = []\n        for gi in gg.read().strip().split(\"\\n\"):\n            _, x1, x2 = gi.split()\n            needed_fname.append(x1)\n            needed_fname.append(x2)\n        needed_fname = set(needed_fname)\n\n        ww.write(basedir + \"\\n\")\n        for ii in range(1, len(fnames)):\n            x1, x2 = fnames[ii].split()\n            if x1 in needed_fname:\n                ww.write(fnames[ii] + \"\\n\")\n    print(f\"| subset manifest for verification: {ww.name}\")\n    return ww.name\n\n\ndef wrap_target_dataset(infer_manifest, dataset, task):\n    label_path = infer_manifest.replace(\".tsv\", \".lang\")\n    text_compressor = TextCompressor(level=TextCompressionLevel.none)\n    with open(label_path, \"r\") as f:\n        labels = [text_compressor.compress(l) for i,l in enumerate(f)]\n        assert len(labels) == len(dataset)\n        \n    process_label = LabelEncoder(task.target_dictionary)\n    dataset = AddTargetDataset(\n        dataset,\n        labels,\n        pad=task.target_dictionary.pad(),\n        eos=task.target_dictionary.eos(),\n        batch_targets=True,\n        process_label=process_label,\n        add_to_input=False,\n    )\n    return dataset\n\n\ndef resample_data(source, padding_mask, n_sample, max_sample_len):\n    # source: BxT\n    # padding_mask: BxT\n    B = source.shape[0]\n    T = source.shape[1]\n    sources = []\n    padding_masks = []\n    if B == 1:\n        return [source], [None]\n    seq_len = (~padding_mask).sum(1)\n    for jj in range(n_sample):\n        new_source = source.new_zeros(B, max_sample_len)\n        new_padding_mask = padding_mask.new_zeros(B, max_sample_len)\n        for ii in range(B):\n            if seq_len[ii] > max_sample_len:\n                start = np.random.randint(0, seq_len[ii] - max_sample_len + 1)\n                end = start + max_sample_len\n            else:\n                start = 0\n                end = seq_len[ii]\n            new_source[ii, 0 : end - start] = source[ii, start:end]\n            new_padding_mask[ii, end - start + 1 :] = True\n        sources.append(new_source)\n        padding_masks.append(new_padding_mask)\n    return sources, padding_masks\n\n\ndef resample_sample(sample, n_sample, max_sample_len):\n    new_sources, new_padding_masks = resample_data(\n        sample[\"net_input\"][\"source\"],\n        sample[\"net_input\"][\"padding_mask\"],\n        n_sample,\n        max_sample_len,\n    )\n    new_samples = []\n    for ii in range(n_sample):\n        new_sample = copy.deepcopy(sample)\n        new_sample[\"net_input\"][\"source\"] = new_sources[ii]\n        new_sample[\"net_input\"][\"padding_mask\"] = new_padding_masks[ii]\n        new_samples.append(new_sample)\n    return new_samples\n\n\ndef dict_to_nparr(dd):\n    dict_class = []\n    dict_idx = []\n    for ii, jj in enumerate(dd.symbols):\n        dict_idx.append(ii)\n        dict_class.append(jj)\n    dict_idx = np.array(dict_idx)\n    dict_class = np.array(dict_class)\n    return dict_class, dict_idx\n\n\nif __name__ == \"__main__\":\n    np.random.seed(123)\n    # Parse command-line arguments for generation\n    parser = options.get_generation_parser(default_task=\"audio_classification\")\n    # parser.add_argument('--infer-merge', type=str, default='mean')\n    parser.add_argument(\"--infer-xtimes\", type=int, default=1)\n    parser.add_argument(\"--infer-num-samples\", type=int, default=None)\n    parser.add_argument(\"--top-k\", type=int, default=3)\n    parser.add_argument(\n        \"--infer-max-sample-size\", type=int, default=5 * 16000\n    )  # 5 secs\n    parser.add_argument(\"--infer-manifest\", required=True, type=str)\n    parser.add_argument(\"--output-path\", default=\"/tmp/\", type=str)\n\n    args = options.parse_args_and_arch(parser)\n    # Setup task\n    # task = tasks.setup_task(args)\n    use_cuda = not args.cpu\n\n    # Load model & task\n    print(\"| loading model from {}\".format(args.path))\n    arg_overrides = {\n        \"task\": {\n            \"data\": args.data\n        },\n        # 'mask_prob': 0\n        #'max_sample_size': sys.maxsize,\n        #'min_sample_size': 0,\n    }\n    state = checkpoint_utils.load_checkpoint_to_cpu(args.path, arg_overrides)\n\n    models, _model_args, task = checkpoint_utils.load_model_ensemble_and_task(\n        [args.path], arg_overrides=arg_overrides, task=None, state=state\n    )\n    model = models[0]\n    model.eval()\n    if use_cuda:\n        model.cuda()\n    # Load dataset\n\n    dict_class, dict_idx = dict_to_nparr(task.target_dictionary)\n\n    infer_manifest = args.infer_manifest\n    infer_dataset = FileAudioDataset(\n        infer_manifest,\n        sample_rate=task.cfg.sample_rate,\n        max_sample_size=10**10,  # task.cfg.max_sample_size,\n        min_sample_size=1,  # task.cfg.min_sample_size,\n        pad=True,\n        normalize=task.cfg.normalize,\n    )\n    # add target (if needed)\n    infer_dataset = wrap_target_dataset(infer_manifest, infer_dataset, task)\n\n    itr = task.get_batch_iterator(\n        dataset=infer_dataset,\n        max_sentences=1,\n        # max_tokens=args.max_tokens,\n        num_workers=4,\n    ).next_epoch_itr(shuffle=False)\n    predictions = {}\n    with torch.no_grad():\n        for _, sample in tqdm(enumerate(itr)):\n            # resample if needed\n            samples = resample_sample(\n                sample, args.infer_xtimes, args.infer_max_sample_size\n            )\n            for sample in samples:\n                sample = utils.move_to_cuda(sample) if use_cuda else sample\n                try:\n                    latent = model.forward_latent(**sample[\"net_input\"])\n                except:\n                    latent = None\n                logit = model.forward(**sample[\"net_input\"])\n                logit_lsm = torch.log_softmax(logit.squeeze(), dim=-1)\n                scores, indices  = torch.topk(logit_lsm, args.top_k, dim=-1)\n                scores = torch.exp(scores).to(\"cpu\").tolist()\n                indices = indices.to(\"cpu\").tolist()\n                assert sample[\"id\"].numel() == 1\n                sample_idx = sample[\"id\"].to(\"cpu\").tolist()[0]\n                assert sample_idx not in predictions\n                predictions[sample_idx] = [(task.target_dictionary[int(i)], s) for s, i in zip(scores, indices)]\n\n    with open(f\"{args.output_path}/predictions.txt\", \"w\") as fo:\n        for idx in range(len(infer_dataset)):\n            fo.write(json.dumps(predictions[idx]) + \"\\n\")\n\n    print(f\"Outputs will be located at - {args.output_path}/predictions.txt\")\n"
  },
  {
    "path": "examples/mms/lid/tutorial/MMS_LID_Inference_Colab.ipynb",
    "content": "{\n  \"nbformat\": 4,\n  \"nbformat_minor\": 0,\n  \"metadata\": {\n    \"colab\": {\n      \"provenance\": [],\n      \"gpuType\": \"T4\"\n    },\n    \"kernelspec\": {\n      \"name\": \"python3\",\n      \"display_name\": \"Python 3\"\n    },\n    \"language_info\": {\n      \"name\": \"python\"\n    },\n    \"accelerator\": \"GPU\",\n    \"gpuClass\": \"standard\"\n  },\n  \"cells\": [\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"# Running MMS-LID inference in Colab\"\n      ],\n      \"metadata\": {\n        \"id\": \"Rhm7khm6GskV\"\n      }\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"## Step 1: Clone fairseq-py and install latest version\"\n      ],\n      \"metadata\": {\n        \"id\": \"2GfxksHDGyJv\"\n      }\n    },\n    {\n      \"cell_type\": \"code\",\n      \"execution_count\": 1,\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"id\": \"Cj2x80SegRzr\",\n        \"outputId\": \"c81e367d-ec5f-4b17-b375-6980d6291c43\"\n      },\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"fatal: destination path 'fairseq' already exists and is not an empty directory.\\n\",\n            \"/content\\n\",\n            \"/content/fairseq\\n\",\n            \"Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\\n\",\n            \"Obtaining file:///content/fairseq\\n\",\n            \"  Installing build dependencies ... \\u001b[?25l\\u001b[?25hdone\\n\",\n            \"  Checking if build backend supports build_editable ... \\u001b[?25l\\u001b[?25hdone\\n\",\n            \"  Getting requirements to build editable ... \\u001b[?25l\\u001b[?25hdone\\n\",\n            \"  Preparing editable metadata (pyproject.toml) ... \\u001b[?25l\\u001b[?25hdone\\n\",\n            \"Requirement already satisfied: cffi in /usr/local/lib/python3.10/dist-packages (from fairseq==0.12.2) (1.15.1)\\n\",\n            \"Requirement already satisfied: cython in /usr/local/lib/python3.10/dist-packages (from fairseq==0.12.2) (0.29.34)\\n\",\n            \"Requirement already satisfied: hydra-core<1.1,>=1.0.7 in /usr/local/lib/python3.10/dist-packages (from fairseq==0.12.2) (1.0.7)\\n\",\n            \"Requirement already satisfied: omegaconf<2.1 in /usr/local/lib/python3.10/dist-packages (from fairseq==0.12.2) (2.0.6)\\n\",\n            \"Requirement already satisfied: numpy>=1.21.3 in /usr/local/lib/python3.10/dist-packages (from fairseq==0.12.2) (1.22.4)\\n\",\n            \"Requirement already satisfied: regex in /usr/local/lib/python3.10/dist-packages (from fairseq==0.12.2) (2022.10.31)\\n\",\n            \"Requirement already satisfied: sacrebleu>=1.4.12 in /usr/local/lib/python3.10/dist-packages (from fairseq==0.12.2) (2.3.1)\\n\",\n            \"Requirement already satisfied: torch>=1.13 in /usr/local/lib/python3.10/dist-packages (from fairseq==0.12.2) (2.0.1+cu118)\\n\",\n            \"Requirement already satisfied: tqdm in /usr/local/lib/python3.10/dist-packages (from fairseq==0.12.2) (4.65.0)\\n\",\n            \"Requirement already satisfied: bitarray in /usr/local/lib/python3.10/dist-packages (from fairseq==0.12.2) (2.7.3)\\n\",\n            \"Requirement already satisfied: torchaudio>=0.8.0 in /usr/local/lib/python3.10/dist-packages (from fairseq==0.12.2) (2.0.2+cu118)\\n\",\n            \"Requirement already satisfied: scikit-learn in /usr/local/lib/python3.10/dist-packages (from fairseq==0.12.2) (1.2.2)\\n\",\n            \"Requirement already satisfied: packaging in /usr/local/lib/python3.10/dist-packages (from fairseq==0.12.2) (23.1)\\n\",\n            \"Requirement already satisfied: antlr4-python3-runtime==4.8 in /usr/local/lib/python3.10/dist-packages (from hydra-core<1.1,>=1.0.7->fairseq==0.12.2) (4.8)\\n\",\n            \"Requirement already satisfied: PyYAML>=5.1.* in /usr/local/lib/python3.10/dist-packages (from omegaconf<2.1->fairseq==0.12.2) (6.0)\\n\",\n            \"Requirement already satisfied: typing-extensions in /usr/local/lib/python3.10/dist-packages (from omegaconf<2.1->fairseq==0.12.2) (4.5.0)\\n\",\n            \"Requirement already satisfied: portalocker in /usr/local/lib/python3.10/dist-packages (from sacrebleu>=1.4.12->fairseq==0.12.2) (2.7.0)\\n\",\n            \"Requirement already satisfied: tabulate>=0.8.9 in /usr/local/lib/python3.10/dist-packages (from sacrebleu>=1.4.12->fairseq==0.12.2) (0.8.10)\\n\",\n            \"Requirement already satisfied: colorama in /usr/local/lib/python3.10/dist-packages (from sacrebleu>=1.4.12->fairseq==0.12.2) (0.4.6)\\n\",\n            \"Requirement already satisfied: lxml in /usr/local/lib/python3.10/dist-packages (from sacrebleu>=1.4.12->fairseq==0.12.2) (4.9.2)\\n\",\n            \"Requirement already satisfied: filelock in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->fairseq==0.12.2) (3.12.0)\\n\",\n            \"Requirement already satisfied: sympy in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->fairseq==0.12.2) (1.11.1)\\n\",\n            \"Requirement already satisfied: networkx in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->fairseq==0.12.2) (3.1)\\n\",\n            \"Requirement already satisfied: jinja2 in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->fairseq==0.12.2) (3.1.2)\\n\",\n            \"Requirement already satisfied: triton==2.0.0 in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->fairseq==0.12.2) (2.0.0)\\n\",\n            \"Requirement already satisfied: cmake in /usr/local/lib/python3.10/dist-packages (from triton==2.0.0->torch>=1.13->fairseq==0.12.2) (3.25.2)\\n\",\n            \"Requirement already satisfied: lit in /usr/local/lib/python3.10/dist-packages (from triton==2.0.0->torch>=1.13->fairseq==0.12.2) (16.0.5)\\n\",\n            \"Requirement already satisfied: pycparser in /usr/local/lib/python3.10/dist-packages (from cffi->fairseq==0.12.2) (2.21)\\n\",\n            \"Requirement already satisfied: scipy>=1.3.2 in /usr/local/lib/python3.10/dist-packages (from scikit-learn->fairseq==0.12.2) (1.10.1)\\n\",\n            \"Requirement already satisfied: joblib>=1.1.1 in /usr/local/lib/python3.10/dist-packages (from scikit-learn->fairseq==0.12.2) (1.2.0)\\n\",\n            \"Requirement already satisfied: threadpoolctl>=2.0.0 in /usr/local/lib/python3.10/dist-packages (from scikit-learn->fairseq==0.12.2) (3.1.0)\\n\",\n            \"Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.10/dist-packages (from jinja2->torch>=1.13->fairseq==0.12.2) (2.1.2)\\n\",\n            \"Requirement already satisfied: mpmath>=0.19 in /usr/local/lib/python3.10/dist-packages (from sympy->torch>=1.13->fairseq==0.12.2) (1.3.0)\\n\",\n            \"Building wheels for collected packages: fairseq\\n\",\n            \"  Building editable for fairseq (pyproject.toml) ... \\u001b[?25l\\u001b[?25hdone\\n\",\n            \"  Created wheel for fairseq: filename=fairseq-0.12.2-0.editable-cp310-cp310-linux_x86_64.whl size=9219 sha256=b6289e3715902d34fd7c54490679210a5be155dd4416754f0e8c376f193b5ac4\\n\",\n            \"  Stored in directory: /tmp/pip-ephem-wheel-cache-o62sj_ry/wheels/c6/d7/db/bc419b1daa8266aa8de2a7c4d29f62dbfa814e8701fe4695a2\\n\",\n            \"Successfully built fairseq\\n\",\n            \"Installing collected packages: fairseq\\n\",\n            \"  Attempting uninstall: fairseq\\n\",\n            \"    Found existing installation: fairseq 0.12.2\\n\",\n            \"    Uninstalling fairseq-0.12.2:\\n\",\n            \"      Successfully uninstalled fairseq-0.12.2\\n\",\n            \"Successfully installed fairseq-0.12.2\\n\",\n            \"Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\\n\",\n            \"Requirement already satisfied: tensorboardX in /usr/local/lib/python3.10/dist-packages (2.6)\\n\",\n            \"Requirement already satisfied: numpy in /usr/local/lib/python3.10/dist-packages (from tensorboardX) (1.22.4)\\n\",\n            \"Requirement already satisfied: packaging in /usr/local/lib/python3.10/dist-packages (from tensorboardX) (23.1)\\n\",\n            \"Requirement already satisfied: protobuf<4,>=3.8.0 in /usr/local/lib/python3.10/dist-packages (from tensorboardX) (3.20.3)\\n\"\n          ]\n        }\n      ],\n      \"source\": [\n        \"import os\\n\",\n        \"\\n\",\n        \"!git clone https://github.com/pytorch/fairseq\\n\",\n        \"\\n\",\n        \"# Change current working directory\\n\",\n        \"!pwd\\n\",\n        \"%cd \\\"/content/fairseq\\\"\\n\",\n        \"!pip install --editable ./ \\n\",\n        \"!pip install tensorboardX\\n\"\n      ]\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"## 2. Download MMS-LID model\\n\",\n        \"\\n\"\n      ],\n      \"metadata\": {\n        \"id\": \"cyk4JvZOHSw3\"\n      }\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [\n        \"available_models = [\\\"l126\\\", \\\"l256\\\", \\\"l512\\\", \\\"l1024\\\", \\\"l2048\\\", \\\"l4017\\\"]\\n\",\n        \"\\n\",\n        \"# We will use L126 model which can recognize 126 languages \\n\",\n        \"model_name = available_models[0] # l126\\n\",\n        \"print(f\\\"Using model - {model_name}\\\")\\n\",\n        \"print(f\\\"Visit https://dl.fbaipublicfiles.com/mms/lid/mms1b_{model_name}_langs.html to check all the languages supported by this model.\\\")\\n\",\n        \"\\n\",\n        \"! mkdir -p /content/models_lid\\n\",\n        \"!wget -P /content/models_lid/{model_name} 'https://dl.fbaipublicfiles.com/mms/lid/mms1b_{model_name}.pt'\\n\",\n        \"!wget -P /content/models_lid/{model_name} 'https://dl.fbaipublicfiles.com/mms/lid/dict/l126/dict.lang.txt'\\n\",\n        \"\\n\"\n      ],\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"id\": \"3uZ9WG85gZId\",\n        \"outputId\": \"93f456ab-7aa1-47ac-a054-c0e3417b2e5e\"\n      },\n      \"execution_count\": 5,\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"Using model - l126\\n\",\n            \"Visit https://dl.fbaipublicfiles.com/mms/lid/mms1b_l126_langs.html to check all the languages supported by this model.\\n\",\n            \"--2023-05-25 18:18:45--  https://dl.fbaipublicfiles.com/mms/lid/mms1b_l126.pt\\n\",\n            \"Resolving dl.fbaipublicfiles.com (dl.fbaipublicfiles.com)... 52.84.251.15, 52.84.251.114, 52.84.251.27, ...\\n\",\n            \"Connecting to dl.fbaipublicfiles.com (dl.fbaipublicfiles.com)|52.84.251.15|:443... connected.\\n\",\n            \"HTTP request sent, awaiting response... 200 OK\\n\",\n            \"Length: 3856229421 (3.6G) [binary/octet-stream]\\n\",\n            \"Saving to: ‘/content/models_lid/l126/mms1b_l126.pt’\\n\",\n            \"\\n\",\n            \"mms1b_l126.pt       100%[===================>]   3.59G   198MB/s    in 24s     \\n\",\n            \"\\n\",\n            \"2023-05-25 18:19:09 (155 MB/s) - ‘/content/models_lid/l126/mms1b_l126.pt’ saved [3856229421/3856229421]\\n\",\n            \"\\n\",\n            \"--2023-05-25 18:19:09--  https://dl.fbaipublicfiles.com/mms/lid/dict/l126/dict.lang.txt\\n\",\n            \"Resolving dl.fbaipublicfiles.com (dl.fbaipublicfiles.com)... 52.84.251.15, 52.84.251.114, 52.84.251.27, ...\\n\",\n            \"Connecting to dl.fbaipublicfiles.com (dl.fbaipublicfiles.com)|52.84.251.15|:443... connected.\\n\",\n            \"HTTP request sent, awaiting response... 200 OK\\n\",\n            \"Length: 882 [text/plain]\\n\",\n            \"Saving to: ‘/content/models_lid/l126/dict.lang.txt’\\n\",\n            \"\\n\",\n            \"dict.lang.txt       100%[===================>]     882  --.-KB/s    in 0s      \\n\",\n            \"\\n\",\n            \"2023-05-25 18:19:09 (183 MB/s) - ‘/content/models_lid/l126/dict.lang.txt’ saved [882/882]\\n\",\n            \"\\n\"\n          ]\n        }\n      ]\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"## 3. Prepare manifest files\\n\",\n        \"Create a folder on path '/content/audio_samples/' and upload your .wav audio files that you need to recognize e.g. '/content/audio_samples/abc.wav' , '/content/audio_samples/def.wav' etc...\\n\",\n        \"\\n\",\n        \"Note: You need to make sure that the audio data you are using has a sample rate of 16kHz You can easily do this with FFMPEG like the example below that converts .mp3 file to .flac and fixing the audio sample rate\\n\",\n        \"\\n\",\n        \"Here, we use three examples - one audio file from English, Hindi, Chinese each. \"\n      ],\n      \"metadata\": {\n        \"id\": \"3p5-TQvKHXjO\"\n      }\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [\n        \"! mkdir -p /content/audio_samples/\\n\",\n        \"for key in [\\\"en_us\\\", \\\"hi_in\\\", \\\"cmn_hans_cn\\\"]:\\n\",\n        \"  !wget -O /content/audio_samples/tmp.mp3 https://datasets-server.huggingface.co/assets/google/fleurs/--/{key}/train/0/audio/audio.mp3\\n\",\n        \"  !ffmpeg -hide_banner -loglevel error -y -i   /content/audio_samples/tmp.mp3 -ar 16000 /content/audio_samples/{key}.wav\\n\",\n        \"\\n\",\n        \"! mkdir -p /content/audio_samples/\\n\"\n      ],\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"id\": \"cnim4bokprbB\",\n        \"outputId\": \"89026a92-0518-49c2-9c84-98f0966caeac\"\n      },\n      \"execution_count\": 6,\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"--2023-05-25 18:19:09--  https://datasets-server.huggingface.co/assets/google/fleurs/--/en_us/train/0/audio/audio.mp3\\n\",\n            \"Resolving datasets-server.huggingface.co (datasets-server.huggingface.co)... 34.200.186.24, 44.197.252.161, 54.165.66.147, ...\\n\",\n            \"Connecting to datasets-server.huggingface.co (datasets-server.huggingface.co)|34.200.186.24|:443... connected.\\n\",\n            \"HTTP request sent, awaiting response... 200 OK\\n\",\n            \"Length: 20853 (20K) [audio/mpeg]\\n\",\n            \"Saving to: ‘/content/audio_samples/tmp.mp3’\\n\",\n            \"\\n\",\n            \"/content/audio_samp 100%[===================>]  20.36K  92.8KB/s    in 0.2s    \\n\",\n            \"\\n\",\n            \"2023-05-25 18:19:11 (92.8 KB/s) - ‘/content/audio_samples/tmp.mp3’ saved [20853/20853]\\n\",\n            \"\\n\",\n            \"--2023-05-25 18:19:12--  https://datasets-server.huggingface.co/assets/google/fleurs/--/hi_in/train/0/audio/audio.mp3\\n\",\n            \"Resolving datasets-server.huggingface.co (datasets-server.huggingface.co)... 34.200.186.24, 44.197.252.161, 54.165.66.147, ...\\n\",\n            \"Connecting to datasets-server.huggingface.co (datasets-server.huggingface.co)|34.200.186.24|:443... connected.\\n\",\n            \"HTTP request sent, awaiting response... 200 OK\\n\",\n            \"Length: 26361 (26K) [audio/mpeg]\\n\",\n            \"Saving to: ‘/content/audio_samples/tmp.mp3’\\n\",\n            \"\\n\",\n            \"/content/audio_samp 100%[===================>]  25.74K   116KB/s    in 0.2s    \\n\",\n            \"\\n\",\n            \"2023-05-25 18:19:13 (116 KB/s) - ‘/content/audio_samples/tmp.mp3’ saved [26361/26361]\\n\",\n            \"\\n\",\n            \"--2023-05-25 18:19:13--  https://datasets-server.huggingface.co/assets/google/fleurs/--/cmn_hans_cn/train/0/audio/audio.mp3\\n\",\n            \"Resolving datasets-server.huggingface.co (datasets-server.huggingface.co)... 34.200.186.24, 44.197.252.161, 54.165.66.147, ...\\n\",\n            \"Connecting to datasets-server.huggingface.co (datasets-server.huggingface.co)|34.200.186.24|:443... connected.\\n\",\n            \"HTTP request sent, awaiting response... 200 OK\\n\",\n            \"Length: 23877 (23K) [audio/mpeg]\\n\",\n            \"Saving to: ‘/content/audio_samples/tmp.mp3’\\n\",\n            \"\\n\",\n            \"/content/audio_samp 100%[===================>]  23.32K   105KB/s    in 0.2s    \\n\",\n            \"\\n\",\n            \"2023-05-25 18:19:14 (105 KB/s) - ‘/content/audio_samples/tmp.mp3’ saved [23877/23877]\\n\",\n            \"\\n\"\n          ]\n        }\n      ]\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [\n        \"! mkdir -p /content/manifest/\\n\",\n        \"import os\\n\",\n        \"with open(\\\"/content/manifest/dev.tsv\\\", \\\"w\\\") as ftsv, open(\\\"/content/manifest/dev.lang\\\", \\\"w\\\") as flang:\\n\",\n        \"  ftsv.write(\\\"/\\\\n\\\")\\n\",\n        \"\\n\",\n        \"  for fl in os.listdir(\\\"/content/audio_samples/\\\"):\\n\",\n        \"    if not fl.endswith(\\\".wav\\\"):\\n\",\n        \"      continue\\n\",\n        \"    audio_path = f\\\"/content/audio_samples/{fl}\\\"\\n\",\n        \"    # duration should be number of samples in audio. For inference, using a random value should be fine. \\n\",\n        \"    duration = 1234 \\n\",\n        \"    ftsv.write(f\\\"{audio_path}\\\\t{duration}\\\\n\\\")\\n\",\n        \"    flang.write(\\\"eng\\\\n\\\") # This is the \\\"true\\\" language for the audio. For inference, using a random value should be fine. \\n\"\n      ],\n      \"metadata\": {\n        \"id\": \"C2QcjRT-BArW\"\n      },\n      \"execution_count\": 7,\n      \"outputs\": []\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"# 4: Run Inference and transcribe your audio(s)\\n\"\n      ],\n      \"metadata\": {\n        \"id\": \"44UvHjmMI28Z\"\n      }\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [\n        \"import os\\n\",\n        \"\\n\",\n        \"os.environ[\\\"PYTHONPATH\\\"] = \\\"/content/fairseq\\\"\\n\",\n        \"os.environ[\\\"PREFIX\\\"] = \\\"INFER\\\"\\n\",\n        \"os.environ[\\\"HYDRA_FULL_ERROR\\\"] = \\\"1\\\"\\n\",\n        \"os.environ[\\\"USER\\\"] = \\\"mms_lid_user\\\"\\n\",\n        \"\\n\",\n        \"!python3 examples/mms/lid/infer.py /content/models_lid/{model_name} --path /content/models_lid/{model_name}/mms1b_l126.pt \\\\\\n\",\n        \"  --task audio_classification  --infer-manifest /content/manifest/dev.tsv --output-path /content/manifest/\"\n      ],\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"id\": \"J8N1RKtBiw5V\",\n        \"outputId\": \"09d3fe43-26a4-4f9b-c56d-d38b6d45cdab\"\n      },\n      \"execution_count\": 8,\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"2023-05-25 18:19:19.545731: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.\\n\",\n            \"To enable the following instructions: AVX2 AVX512F FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.\\n\",\n            \"2023-05-25 18:19:21.567795: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Could not find TensorRT\\n\",\n            \"| loading model from /content/models_lid/l126/mms1b_l126.pt\\n\",\n            \"2023-05-25 18:19:29 | INFO | fairseq.tasks.audio_classification | Using dict_path : /content/models_lid/l126/dict.lang.txt\\n\",\n            \"2023-05-25 18:19:29 | INFO | root | === Number of labels = 126\\n\",\n            \"2023-05-25 18:20:01 | INFO | fairseq.data.audio.raw_audio_dataset | loaded 3, skipped 0 samples\\n\",\n            \"2023-05-25 18:20:01 | INFO | fairseq.tasks.fairseq_task | can_reuse_epoch_itr = True\\n\",\n            \"2023-05-25 18:20:01 | INFO | fairseq.tasks.fairseq_task | reuse_dataloader = True\\n\",\n            \"2023-05-25 18:20:01 | INFO | fairseq.tasks.fairseq_task | rebuild_batches = True\\n\",\n            \"2023-05-25 18:20:01 | INFO | fairseq.tasks.fairseq_task | batches will be rebuilt for each epoch\\n\",\n            \"2023-05-25 18:20:01 | INFO | fairseq.tasks.fairseq_task | creating new batches for epoch 1\\n\",\n            \"/usr/local/lib/python3.10/dist-packages/torch/utils/data/dataloader.py:560: UserWarning: This DataLoader will create 4 worker processes in total. Our suggested max number of worker in current system is 2, which is smaller than what this DataLoader is going to create. Please be aware that excessive worker creation might get DataLoader running slow or even freeze, lower the worker number to avoid potential slowness/freeze if necessary.\\n\",\n            \"  warnings.warn(_create_warning_msg(\\n\",\n            \"3it [00:07,  2.61s/it]\\n\",\n            \"Outputs will be located at - /content/manifest//predictions.txt\\n\"\n          ]\n        }\n      ]\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [\n        \"print(\\\"----- INPUT FILES -----\\\")\\n\",\n        \"! tail -n +2 /content/manifest/dev.tsv\\n\",\n        \"\\n\",\n        \"print(\\\"\\\\n----- TOP-K PREDICTONS WITH SCORE -----\\\")\\n\",\n        \"! cat /content/manifest//predictions.txt\"\n      ],\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"id\": \"5f7FROqiC-2z\",\n        \"outputId\": \"3a28ceee-dbb7-4810-f9ca-d11b14a8340b\"\n      },\n      \"execution_count\": 9,\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"----- INPUT FILES -----\\n\",\n            \"/content/audio_samples/hi_in.wav\\t1234\\n\",\n            \"/content/audio_samples/en_us.wav\\t1234\\n\",\n            \"/content/audio_samples/cmn_hans_cn.wav\\t1234\\n\",\n            \"\\n\",\n            \"----- TOP-K PREDICTONS WITH SCORE -----\\n\",\n            \"[[\\\"hin\\\", 0.9931250810623169], [\\\"urd\\\", 0.005808886140584946], [\\\"snd\\\", 0.0005312535213306546]]\\n\",\n            \"[[\\\"eng\\\", 0.9989539980888367], [\\\"fas\\\", 0.00036296260077506304], [\\\"haw\\\", 7.031611312413588e-05]]\\n\",\n            \"[[\\\"cmn\\\", 0.9996059536933899], [\\\"bod\\\", 0.0002111078501911834], [\\\"kor\\\", 9.211552242049947e-05]]\\n\"\n          ]\n        }\n      ]\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [],\n      \"metadata\": {\n        \"id\": \"TzHHmno5DZC4\"\n      },\n      \"execution_count\": null,\n      \"outputs\": []\n    }\n  ]\n}\n"
  },
  {
    "path": "examples/mms/lid_rerank/README.md",
    "content": "# N-best Re-ranking for Multilingual LID+ASR\nThis project provides N-best re-ranking, a simple inference procedure, for improving multilingual speech recognition (ASR) \"in the wild\" where models are expected to first predict language identity (LID) before transcribing. Our method considers N-best LID predictions for each utterance, runs the corresponding ASR in N different languages, and then uses external features over the candidate transcriptions to determine re-rank. \n\nThe workflow is as follows: 1) run LID+ASR inference (MMS and Whisper are supported), 2) compute external re-ranking features, 3) tune feature coefficients on dev set, and 4) apply on test set.\n\nFor more information about our method, please refer to the paper: [\"Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking\"](https://arxiv.org/abs/2409.18428).\n\n## 1) Commands to Run LID+ASR Inference\n\n### Data Prep\nPrepare a text file with one path to a wav file in each line:\n```\n#/path/to/wav/list\n/path/to/audio1.wav\n/path/to/audio2.wav\n/path/to/audio3.wav\n```\n\nThe following workflow also assumes that LID and ASR references are available (at least for the dev set). We use [3-letter iso codes](https://dl.fbaipublicfiles.com/mms/lid/mms1b_l4017_langs.html) for both Whisper and MMS.\n\nNext run either Whisper or MMS based LID+ASR.\n\n### Whisper\nRefer to the [Whisper documentation](https://github.com/openai/whisper) for installation instructions.\n\nFirst run LID:\n```\npython whisper/infer_lid.py --wavs \"path/to/wav/list\" --dst \"path/to/lid/results\" --model large-v2 --n 10\n```\nNote that the size of the N-best list is set as 10 here.\n\nThen run ASR, using the top-N LID predictions:\n```\npython whisper/infer_asr.py --wavs \"path/to/wav/list\" --lids \"path/to/lid/results\"/nbest_lid --dst \"path/to/asr/results\" --model large-v2\n```\n\n### MMS\nRefer to the [Fairseq documentation](https://github.com/facebookresearch/fairseq/tree/main) for installation instructions.\n\nPrepare data and models following the [instructions from the MMS repository](https://github.com/facebookresearch/fairseq/tree/main/examples/mms). Note that the MMS backend expects a slightly different wav list format, which can be obtained via:\n```\npython mms/format_wav_list.py --src \"/path/to/wav/list\" --dst \"/path/to/wav/manifest.tsv\"\n```\nNote that MMS also expects LID references in a file named `\"/path/to/wav/manifest.lang\"`.\n\nThen run LID:\n```\ncd \"path/to/fairseq/dir\"\nPYTHONPATH='.'  python3  examples/mms/lid/infer.py \"path/to/dict/dir\" --path \"path/to/model\" --task audio_classification  --infer-manifest \"path/to/wav/manifest.tsv\" --output-path \"path/to/lid/results\" --top-k 10\n```\nNote that the size of the N-best list is set as 10 here.\n\nThen run ASR, using the top-N LID predictions. Since MMS uses language-specific parameters, we've parallelized inference across languages:\n```\n#Split data by language\npython mms/split_by_lang.py --wavs_tsv \"/path/to/wav/manifest.tsv\" --lid_preds \"path/to/lid/results\"predictions.txt --dst \"path/to/data/split\"\n\n#Write language-specific ASR python commands to an executable file\nmms/make_parallel_single_runs.py --dump \"path/to/data/split\" --model \"path/to/model\" --dst \"path/to/asr/results\" --fairseq_dir \"path/to/fairseq/dir\" > run.sh\n\n#Running each language sequentially (you can also parallelize this)\n. ./run.sh\n\n#Merge language-specific results back to original order\npython mms/merge_by_run.py --dump \"path/to/data/split\" --exp \"path/to/asr/results\"\n```\n\n## 2) Commands to Compute External Re-ranking Features\n\n### MaLA - Large Language Model\n```\npython mala/infer.py --txt \"path/to/asr/results\"/nbest_asr_hyp --dst \"path/to/lm/results\"\n```\n\n### NLLB - Written LID Model\nDownload the model from the [official source](https://github.com/facebookresearch/fairseq/tree/nllb#lid-model).\n\n```\npython nllb/infer.py --txt \"path/to/asr/results\"/nbest_asr_hyp --dst \"path/to/wlid/results\" --model \"path/to/nllb/model\"\n```\n\n### MMS-Zeroshot - U-roman Acoustic Model\nDownload the model from the [official source](https://huggingface.co/spaces/mms-meta/mms-zeroshot/tree/main).\n\nFirst run u-romanization on the N-best ASR hypotheses:\n```\npython mms-zs/uromanize.py --txt \"path/to/asr/results\"/nbest_asr_hyp --lid \"path/to/lid/results\"/nbest_lid --dst \"path/to/uasr/results\" --model \"path/to/mms-zeroshot\"\n```\n\nThen compute the forced alignment score using the MMS-Zeroshot model:\n```\npython mms-zs/falign.py --uroman_txt \"path/to/uasr/results\"/nbest_asr_hyp_uroman --wav \"path/to/wav/list\" --dst \"path/to/uasr/results\" --model \"path/to/mms-zeroshot\"\n```\n\n## 3) Commands to Tune Feature Coefficients\n```\npython rerank/tune_coefficients.py --slid \"path/to/lid/results\"/slid_score --asr \"path/to/asr/results\"/asr_score --wlid \"path/to/wlid/results\"/wlid_score --lm \"path/to/lm/results\"/lm_score --uasr \"path/to/uasr/results\"/uasr_score --dst \"path/to/rerank/results\" --ref_lid \"ground-truth/lid\" --nbest_lid \"path/to/lid/results\"/nbest_lid --ref_asr \"ground-truth/asr\" --nbest_asr \"path/to/asr/results\"/nbest_asr_hyp\n```\n\n## 4) Commands to Apply on Test Set\n```\npython rerank/rerank.py --slid \"path/to/lid/results\"/slid_score --asr \"path/to/asr/results\"/asr_score --wlid \"path/to/wlid/results\"/wlid_score --lm \"path/to/lm/results\"/lm_score --uasr \"path/to/uasr/results\"/uasr_score --dst \"path/to/rerank/results\" --ref_lid \"ground-truth/lid\" --nbest_lid \"path/to/lid/results\"/nbest_lid --ref_asr \"ground-truth/asr\" --nbest_asr \"path/to/asr/results\"/nbest_asr_hyp --w \"path/to/rerank/results\"/best_coefficients\n```\n\nThe re-ranked LID and ASR will be in `\"path/to/rerank/results\"/reranked_1best_lid` and `\"path/to/rerank/results\"/reranked_1best_asr_hyp` respectively.\n\n# Citation\n```\n@article{yan2024wild,\n  title={Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking},\n  author={Brian Yan, Vineel Pratap, Shinji Watanabe, Michael Auli},\n  journal={arXiv},\n  year={2024}\n}\n```\n"
  },
  {
    "path": "examples/mms/lid_rerank/cer_langs.txt",
    "content": "adx\nbod\ncmn\ndzo\njpn\nkhg\nkhm\nlao\nmya\ntha\nyue\n"
  },
  {
    "path": "examples/mms/lid_rerank/mala/infer.py",
    "content": "from transformers import AutoTokenizer, AutoModelForCausalLM\nfrom peft import PeftModel\nfrom tqdm import tqdm\nimport argparse\nimport os\nimport torch\n\nparser = argparse.ArgumentParser()\nparser.add_argument(\"--txt\", type=str)\nparser.add_argument(\"--dst\", type=str)\nparser.add_argument(\"--gpu\", type=int, default=1)\nargs = parser.parse_args()\n\nif __name__ == \"__main__\":\n    if not os.path.exists(args.dst):\n        os.makedirs(args.dst)\n\n    base_model = AutoModelForCausalLM.from_pretrained('meta-llama/Llama-2-7b-hf')\n    base_model.resize_token_embeddings(260164)\n    tokenizer = AutoTokenizer.from_pretrained('MaLA-LM/mala-500')\n    if args.gpu == 1:\n        model = PeftModel.from_pretrained(base_model, 'MaLA-LM/mala-500').to(\"cuda\")\n    else:\n        model = PeftModel.from_pretrained(base_model, 'MaLA-LM/mala-500')\n    model.eval()\n\n    txts = [x.strip() for x in open(args.txt, \"r\").readlines()]\n\n    with open(args.dst + \"/lm_score\", \"w\", buffering=1) as f:\n        for t in tqdm(txts):\n            input_tokens = tokenizer(\"\", add_special_tokens=True, return_tensors='pt').input_ids\n            if len(t) > 0:\n                output_tokens = tokenizer(t, add_special_tokens=False, return_tensors='pt').input_ids\n                tokens = torch.cat([input_tokens, output_tokens], dim=1)\n                length = output_tokens.shape[-1]\n            else:\n                tokens = input_tokens\n                length = 0\n\n            if args.gpu == 1:\n                tokens = tokens.to(\"cuda\")\n\n            with torch.no_grad():\n                outputs = model(tokens)\n                logits = outputs.logits\n            \n            log_sum = 0\n            for i in range(tokens.shape[-1] - 1):\n                past_tok, current_tok = i, i + 1\n                token_logit = logits[0, past_tok, :]\n                token_log_probs = torch.nn.functional.log_softmax(token_logit, dim=-1)\n                log_token_prob = token_log_probs[tokens[0, current_tok]].item()\n                log_sum += log_token_prob\n\n            f.write(str(log_sum) + \"\\n\")"
  },
  {
    "path": "examples/mms/lid_rerank/mms/make_parallel_single_runs.py",
    "content": "import argparse\nimport json\nfrom collections import defaultdict\nimport os\nfrom tqdm import tqdm\nimport sys\nimport subprocess\nimport re\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser(description='Example argument parser')\n    parser.add_argument('--dump', type=str)\n    parser.add_argument('--model', type=str)\n    parser.add_argument('--dst', type=str)\n    parser.add_argument('--fairseq_dir', type=str)\n    args = parser.parse_args()\n\n    langs = [d for d in os.listdir(args.dump) if os.path.isdir(os.path.join(args.dump, d))]\n\n    for lang in langs:\n        print(f\"python mms/run_single_lang.py --dump {os.path.abspath(args.dump)} --lang {lang} --model {os.path.abspath(args.model)} --dst {os.path.abspath(args.dst)} --fairseq_dir {os.path.abspath(args.fairseq_dir)}\")\n    "
  },
  {
    "path": "examples/mms/lid_rerank/mms/merge_by_lang.py",
    "content": "import argparse\nimport json\nfrom collections import defaultdict\nimport os\nimport soundfile as sf\nfrom tqdm import tqdm\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser(description='Example argument parser')\n    parser.add_argument('--exp', type=str)\n    parser.add_argument('--dump', type=str)\n    args = parser.parse_args()\n\n    langs = [d for d in os.listdir(args.dump) if os.path.isdir(os.path.join(args.dump, d))]\n\n    data = {}\n\n    for lang in langs:\n        ids = [int(x.strip()) for x in open(args.dump + \"/\" + lang + \"/ids.txt\", \"r\").readlines()]\n        word_hyps = [x.strip() for x in open(args.exp + \"/\" + lang + \"/hypo.word.reord\", \"r\").readlines()]\n        scores = [x.strip() for x in open(args.exp + \"/\" + lang + \"/asr_score.reord\", \"r\").readlines()]\n        assert len(ids) == len(word_hyps)\n        assert len(ids) == len(scores)\n        for id, word_hyp, s in zip(ids, word_hyps, scores):\n            if id in data:\n                print(\"Duplicate ID found\")\n                import pdb;pdb.set_trace()\n            data[id] = (word_hyp, s)\n\n    with open(args.exp + \"/nbest_asr_hyp\", \"w\") as f1, open(args.exp + \"/asr_score\", \"w\") as f2:\n        for i in range(len(data.keys())):\n            f1.write(data[i][0] + \"\\n\")\n            f2.write(data[i][1] + \"\\n\")"
  },
  {
    "path": "examples/mms/lid_rerank/mms/prep_wav_list.py",
    "content": "import soundfile as sf\nimport argparse\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser(description='Example argument parser')\n    parser.add_argument('--src', type=str)\n    parser.add_argument('--dst', type=str)\n    args = parser.parse_args()\n\n    wavs = [x.strip() for x in open(args.src, \"r\").readlines()]\n\n    new_lines = [\"/\"]\n    for wav in wavs:\n        # Read the wav file\n        data, sample_rate = sf.read(wav)\n\n        # Number of samples is the length of the data array\n        num_samples = len(data)\n\n        new_lines.append(wav+\"\\t\"+str(num_samples))\n    \n    with open(args.dst, \"w\") as f:\n        f.writelines([x+\"\\n\" for x in new_lines])\n"
  },
  {
    "path": "examples/mms/lid_rerank/mms/run_single_lang.py",
    "content": "import argparse\nimport json\nfrom collections import defaultdict\nimport os\nfrom tqdm import tqdm\nimport sys\nimport subprocess\nimport re\n\nmapping = {\"cmn\":\"cmn-script_simplified\", \"srp\":\"srp-script_latin\", \"urd\":\"urd-script_arabic\", \"uzb\":\"uzb-script_latin\", \"yue\":\"yue-script_traditional\", \"aze\":\"azj-script_latin\", \"kmr\":\"kmr-script_latin\"}\n\ndef reorder_decode(hypos):\n    outputs = []\n    for hypo in hypos:\n        idx = int(re.findall(\"\\(None-(\\d+)\\)$\", hypo)[0])\n        hypo = re.sub(\"\\(\\S+\\)$\", \"\", hypo).strip()\n        outputs.append((idx, hypo))\n    outputs = sorted(outputs)\n    return outputs\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser(description='Example argument parser')\n    parser.add_argument('--dump', type=str)\n    parser.add_argument('--model', type=str)\n    parser.add_argument('--fairseq_dir', type=str)\n    parser.add_argument('--dst', type=str)\n    parser.add_argument('--lang', type=str)\n    args = parser.parse_args()\n\n    if not os.path.exists(args.dst):\n        os.makedirs(args.dst)\n    lang = args.lang\n    dst = args.dst + \"/\" + lang\n    if not os.path.exists(dst):\n        os.makedirs(dst)\n    dump = args.dump + \"/\" + lang\n    if lang in mapping:\n        lang_code = mapping[lang]\n    else:\n        lang_code = lang\n\n    cmd = f\"\"\"\n    cd {args.fairseq_dir}/ &&\\\n    PYTHONPATH=. PREFIX=INFER HYDRA_FULL_ERROR=1 python examples/speech_recognition/new/infer.py -m --config-dir examples/mms/asr/config/ --config-name infer_common decoding.type=viterbi dataset.max_tokens=1440000 distributed_training.distributed_world_size=1 \"common_eval.path='{args.model}'\" task.data={dump} dataset.gen_subset=\"{lang_code}:test\" common_eval.post_process=letter decoding.results_path={dst} &&\\\n    cd -\n    \"\"\"\n\n    print(cmd, file=sys.stderr)\n    print(f\">>> {lang}\", file=sys.stderr)\n    try:\n        subprocess.run(cmd, shell=True, stdout=subprocess.DEVNULL,)\n        with open(dst + \"/hypo.word\") as fr, open(dst + \"/hypo.word.reord\", \"w\") as fw:\n            hypos = fr.readlines()\n            outputs = reorder_decode(hypos)\n            fw.writelines([re.sub(\"\\(\\S+\\)$\", \"\", hypo).strip() + \"\\n\" for ii,hypo in outputs])\n        with open(dst + \"/asr_score\") as fr, open(dst + \"/asr_score.reord\", \"w\") as fw:\n            hypos = fr.readlines()\n            outputs = reorder_decode(hypos)\n            fw.writelines([re.sub(\"\\(\\S+\\)$\", \"\", hypo).strip() + \"\\n\" for ii,hypo in outputs])\n    except:\n        print(f\"Something went wrong with {lang}. If {lang} is not supported by the ASR model, then this is expected and OK. If it is supported, then something else has gone wrong unexpectedly.\", file=sys.stderr)\n        with open(dst + \"/hypo.word.reord\", \"w\") as fw:\n            fw.writelines([\"\\n\"] * len(open(dump+\"/ids.txt\", \"r\").readlines()))\n        with open(dst + \"/asr_score.reord\", \"w\") as fw:\n            fw.writelines([\"\\n\"] * len(open(dump+\"/ids.txt\", \"r\").readlines()))"
  },
  {
    "path": "examples/mms/lid_rerank/mms/split_by_lang.py",
    "content": "import argparse\nimport json\nfrom collections import defaultdict\nimport os\nimport soundfile as sf\nfrom tqdm import tqdm\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser(description='Example argument parser')\n    parser.add_argument('--wavs_tsv', type=str)\n    parser.add_argument('--lid_preds', type=str)\n    parser.add_argument('--dst', type=str)\n    parser.add_argument('--refs', type=str, default=None)\n    parser.add_argument('--langs', type=str, default=None)\n    parser.add_argument('--confs', type=str, default=None)\n    args = parser.parse_args()\n\n    # split wavs into dst/lang/wav.txt and dst/lang/ids.txt\n    # uses lid_preds to create topk asr; 1 wav has k different lid\n\n    wavs_tsv = [x for x in open(args.wavs_tsv, \"r\").readlines()]\n    root = wavs_tsv[0]\n    wavs = wavs_tsv[1:]\n    lid_preds = [eval(x) for x in open(args.lid_preds, \"r\").readlines()]\n    if args.refs is not None:\n        refs = [x.strip() for x in open(args.refs, \"r\").readlines()]\n        assert len(wavs) == len(refs)\n        refs_filt = []\n    if args.langs is not None:\n        langs = [x.strip() for x in open(args.langs, \"r\").readlines()]\n        assert len(wavs) == len(langs)\n        langs_filt = []\n    if args.confs is not None:\n        confs = [x.strip() for x in open(args.confs, \"r\").readlines()]\n        assert len(wavs) == len(confs)\n        confs_filt = []\n\n    assert len(wavs) == len(lid_preds)\n    \n    topk_wavs = []\n    topk_langs = []\n\n    for i, (w, p) in enumerate(zip(wavs, lid_preds)):\n        if p == \"n/a\":\n            continue\n        \n        assert len(p) == len(lid_preds[0])\n\n        for l, _ in p:\n            topk_wavs.append(w)\n            topk_langs.append(l)\n\n        if args.refs is not None:\n            refs_filt.append(refs[i])\n        if args.langs is not None:\n            langs_filt.append(langs[i])\n        if args.confs is not None:\n            confs_filt.append(confs[i])\n\n    lang_split = defaultdict(list)\n    for id, (wav,lid) in enumerate(zip(topk_wavs, topk_langs)):\n        lang_split[lid].append((id, wav))\n\n    for lang in tqdm(lang_split.keys()):\n        if not os.path.exists(args.dst + \"/\" + lang):\n            os.makedirs(args.dst + \"/\" + lang)\n\n        with open(args.dst + \"/\" + lang + \"/test.tsv\", \"w\") as f1, \\\n            open(args.dst + \"/\" + lang + \"/ids.txt\", \"w\") as f2:\n            f1.write(root)\n            f1.writelines([x[1] for x in lang_split[lang]])\n            f2.writelines([str(x[0]) + \"\\n\" for x in lang_split[lang]])\n\n        with open(args.dst + \"/\" + lang + \"/test.ltr\", \"w\") as fw:\n            fw.write(\"d u m m y | d u m m y |\\n\"*len(lang_split[lang]))\n        with open(args.dst + \"/\" + lang + \"/test.wrd\", \"w\") as fw:\n            fw.write(\"dummy dummy\\n\"*len(lang_split[lang]))\n\n    with open(args.dst + \"/lid.txt\", \"w\") as f:\n        f.writelines([x+\"\\n\" for x in topk_langs])\n\n    if args.refs is not None:\n        with open(args.dst + \"/refs.txt\", \"w\") as f:\n            f.writelines([x+\"\\n\" for x in refs_filt])\n    if args.langs is not None:\n        with open(args.dst + \"/langs.txt\", \"w\") as f:\n            f.writelines([x+\"\\n\" for x in langs_filt])\n    if args.confs is not None:\n        with open(args.dst + \"/confs.txt\", \"w\") as f:\n            f.writelines([x+\"\\n\" for x in confs_filt])"
  },
  {
    "path": "examples/mms/lid_rerank/mms-zs/falign.py",
    "content": "import os\nimport tempfile\nimport re\nimport librosa\nimport torch\nimport json\nimport numpy as np\nimport argparse\nfrom tqdm import tqdm\nimport math\n\nfrom transformers import Wav2Vec2ForCTC, AutoProcessor\n\nfrom lib import falign_ext\n\nparser = argparse.ArgumentParser()\nparser.add_argument(\"--uroman_txt\", type=str)\nparser.add_argument(\"--wav\", type=str)\nparser.add_argument(\"--dst\", type=str)\nparser.add_argument(\"--model\", type=str)\nparser.add_argument(\"--n\", type=int, default=10)\nargs = parser.parse_args()\n\nASR_SAMPLING_RATE = 16_000\n\nMODEL_ID = \"/upload/mms_zs\"\n\nprocessor = AutoProcessor.from_pretrained(args.model+MODEL_ID)\nmodel = Wav2Vec2ForCTC.from_pretrained(args.model+MODEL_ID)\n\ntoken_file = args.model+\"/upload/mms_zs/tokens.txt\"\n\nif __name__ == \"__main__\":\n    if not os.path.exists(args.dst):\n        os.makedirs(args.dst)\n\n    tokens = [x.strip() for x in open(token_file, \"r\").readlines()]\n\n    txts = [x.strip() for x in open(args.uroman_txt, \"r\").readlines()]\n    wavs = [x.strip() for x in open(args.wav, \"r\").readlines()]\n    assert len(txts) == args.n * len(wavs)\n\n    if torch.cuda.is_available():\n        device = torch.device(\"cuda\")\n    elif (\n        hasattr(torch.backends, \"mps\")\n        and torch.backends.mps.is_available()\n        and torch.backends.mps.is_built()\n    ):\n        device = torch.device(\"mps\")\n    else:\n        device = torch.device(\"cpu\")\n\n    model.to(device)\n\n    # clear it\n    with open(args.dst + \"/uasr_score\", \"w\") as f1:\n        pass\n\n    for i, w in tqdm(enumerate(wavs)):\n        assert isinstance(w, str)\n        audio_samples = librosa.load(w, sr=ASR_SAMPLING_RATE, mono=True)[0]\n\n        inputs = processor(\n            audio_samples, sampling_rate=ASR_SAMPLING_RATE, return_tensors=\"pt\"\n        )\n        inputs = inputs.to(device)\n\n        with torch.no_grad():\n            outputs = model(**inputs).logits\n\n        emissions = outputs.log_softmax(dim=-1).squeeze()\n        \n        for j in range(args.n):\n            idx = (args.n * i) + j\n            chars = txts[idx].split()\n            token_sequence = [tokens.index(x) for x in chars]\n        \n            try:\n                _, alphas, _ = falign_ext.falign(emissions, torch.tensor(token_sequence, device=device).int(), False)\n                aligned_alpha = max(alphas[-1]).item()\n            except:\n                aligned_alpha = math.log(0.000000001)\n\n            with open(args.dst + \"/uasr_score\", \"a\") as f1:\n                f1.write(str(aligned_alpha) + \"\\n\")\n                f1.flush()"
  },
  {
    "path": "examples/mms/lid_rerank/mms-zs/lib.py",
    "content": "import os\nfrom dataclasses import dataclass\nimport torch\nimport torch.utils.cpp_extension\n\ncuda_source = \"\"\"\n\n#include <ATen/core/TensorAccessor.h>\n#include <ATen/cuda/CUDAContext.h>\n#include <torch/extension.h>\n#include <vector>\n#include <limits.h>\n#include <cub/cub.cuh>\n#include <iostream>\n\nusing namespace torch::indexing;\n\nconstexpr int kNumThreads = 1024;\nconstexpr float kNegInfinity = -std::numeric_limits<float>::infinity();\nconstexpr int kBlankIdx = 0;\n\n__global__ void\nfalign_cuda_step_kernel(\n  const torch::PackedTensorAccessor32<float, 2, torch::RestrictPtrTraits>\n    emissions_a,\n  const torch::PackedTensorAccessor32<int32_t, 1, torch::RestrictPtrTraits>\n    target_a,\n  const int T, const int L, const int N, const int R, const int t, int start,\n  int end, torch::PackedTensorAccessor32<float, 2, torch::RestrictPtrTraits>\n             runningAlpha_a,\n  torch::PackedTensorAccessor32<int32_t, 1, torch::RestrictPtrTraits>\n    backtrack_a, const bool normalize)\n{\n  int S = 2 * L + 1;\n  \n  int idx1 = (t % 2); // current time step frame for alpha\n  int idx2 = ((t - 1) % 2); // previous time step frame for alpha\n  \n  // reset alpha and backtrack values\n  for (int i = threadIdx.x; i < S; i += blockDim.x) {\n      runningAlpha_a[idx1][i] = kNegInfinity;\n      backtrack_a[i] = -1;\n  }\n  // This could potentially be removed through careful indexing inside each thread\n  // for the above for loop. But this is okay for now. \n  __syncthreads();\n\n  if (t == 0) {\n    for (int i = start + threadIdx.x; i < end; i += blockDim.x) {\n      int labelIdx = (i % 2 == 0) ? kBlankIdx : target_a[i / 2];\n      runningAlpha_a[idx1][i] = emissions_a[0][labelIdx];\n    }\n    return;\n  }\n\n  using BlockReduce = cub::BlockReduce<float, kNumThreads>;\n  __shared__ typename BlockReduce::TempStorage tempStorage;\n  __shared__ float maxValue;\n\n  float threadMax;\n\n  int startloop = start;\n\n  threadMax = kNegInfinity;\n\n  if (start == 0 && threadIdx.x == 0) {\n    runningAlpha_a[idx1][0] =\n      runningAlpha_a[idx2][0] + emissions_a[t][kBlankIdx];\n    threadMax = max(threadMax, runningAlpha_a[idx1][0]);\n\n    backtrack_a[0] = 0;\n    // startloop += 1; // startloop is threadlocal meaning it would only be changed for threads entering this loop (ie threadIdx == 0)\n  }\n  if(start == 0) {\n    startloop += 1;\n  }\n\n  for (int i = startloop + threadIdx.x; i < end; i += blockDim.x) {\n    float x0 = runningAlpha_a[idx2][i];\n    float x1 = runningAlpha_a[idx2][i - 1];\n    float x2 = kNegInfinity;\n\n    int labelIdx = (i % 2 == 0) ? kBlankIdx : target_a[i / 2];\n\n    if (i % 2 != 0 && i != 1 && target_a[i / 2] != target_a[i / 2 - 1]) {\n      x2 = runningAlpha_a[idx2][i - 2];\n    }\n\n    float result = 0.0;\n    if (x2 > x1 && x2 > x0) {\n      result = x2;\n      backtrack_a[i] = 2;\n    } else if (x1 > x0 && x1 > x2) {\n      result = x1;\n      backtrack_a[i] = 1;\n    } else {\n      result = x0;\n      backtrack_a[i] = 0;\n    }\n\n    runningAlpha_a[idx1][i] = result + emissions_a[t][labelIdx];\n    threadMax = max(threadMax, runningAlpha_a[idx1][i]);\n  }\n\n  float maxResult = BlockReduce(tempStorage).Reduce(threadMax, cub::Max());\n  if (threadIdx.x == 0) {\n    maxValue = maxResult;\n  }\n\n  __syncthreads();\n  // normalize alpha values so that they don't overflow for large T\n  if(normalize) {\n      for (int i = threadIdx.x; i < S; i += blockDim.x) {\n        runningAlpha_a[idx1][i] -= maxValue;\n      }\n  }\n}\n\nstd::tuple<std::vector<int>, torch::Tensor, torch::Tensor>\nfalign_cuda(const torch::Tensor& emissions, const torch::Tensor& target, const bool normalize=false)\n{\n  TORCH_CHECK(emissions.is_cuda(), \"need cuda tensors\");\n  TORCH_CHECK(target.is_cuda(), \"need cuda tensors\");\n  TORCH_CHECK(target.device() == emissions.device(),\n              \"need tensors on same cuda device\");\n  TORCH_CHECK(emissions.dim() == 2 && target.dim() == 1, \"invalid sizes\");\n  TORCH_CHECK(target.sizes()[0] > 0, \"target size cannot be empty\");\n\n\n\n  int T = emissions.sizes()[0]; // num frames\n  int N = emissions.sizes()[1]; // alphabet size\n  int L = target.sizes()[0]; // label length\n  const int S = 2 * L + 1;\n  \n  \n  auto targetCpu = target.to(torch::kCPU);\n  \n  \n  // backtrack stores the index offset fthe best path at current position  \n  // We copy the values to CPU after running every time frame.\n  \n  auto backtrack = torch::zeros({ S }, torch::kInt32).to(emissions.device());\n  auto backtrackCpu = torch::zeros(\n    { T, S }, torch::TensorOptions().dtype(torch::kInt32).device(torch::kCPU));\n  TORCH_CHECK(backtrack.is_cuda(), \"need cuda tensors\");\n  TORCH_CHECK(!backtrackCpu.is_cuda(), \"need cpu tensors\");\n  \n \n\n  // we store only two time frames for alphas\n  // alphas for compute current timeframe can be computed only from previous time frame.\n  \n  auto runningAlpha =\n    torch::zeros(\n      { 2, S },\n      torch::TensorOptions().dtype(torch::kFloat).device(emissions.device()));\n  auto alphaCpu =\n    torch::zeros(\n      { T, S },\n      torch::TensorOptions().dtype(torch::kFloat).device(torch::kCPU));\n  TORCH_CHECK(runningAlpha.is_cuda(), \"need cuda tensors\");\n  TORCH_CHECK(!alphaCpu.is_cuda(), \"need cpu tensors\");\n\n  auto stream = at::cuda::getCurrentCUDAStream();\n\n  // CUDA accessors \n  auto emissions_a = emissions.packed_accessor32<float, 2, torch::RestrictPtrTraits>();\n  auto target_a = target.packed_accessor32<int32_t, 1, torch::RestrictPtrTraits>();\n  auto runningAlpha_a =\n    runningAlpha.packed_accessor32<float, 2, torch::RestrictPtrTraits>();\n  auto backtrack_a =\n    backtrack.packed_accessor32<int32_t, 1, torch::RestrictPtrTraits>();\n\n  \n  // CPU accessors \n  auto targetCpu_a = targetCpu.accessor<int32_t, 1>();\n  auto backtrackCpu_a = backtrackCpu.accessor<int32_t, 2>();\n  auto aphaCpu_a = alphaCpu.accessor<float, 2>();\n  \n  // count the number of repeats in label\n  int R = 0; \n  for (int i = 1; i < L; ++i) {\n    if (targetCpu_a[i] == targetCpu_a[i - 1]) {\n      ++R;\n    }\n  }\n  TORCH_CHECK(T >= (L + R), \"invalid sizes 2\");\n\n\n  int start = (T - (L + R)) > 0 ? 0 : 1;\n  int end = (S == 1) ? 1 : 2;\n  for (int t = 0; t < T; ++t) {\n    if (t > 0) {\n      if (T - t <= L + R) {\n        if ((start % 2 == 1) &&\n            (targetCpu_a[start / 2] != targetCpu_a[start / 2 + 1])) {\n          start = start + 1;\n        }\n        start = start + 1;\n      }\n      if (t <= L + R) {\n        if ((end % 2 == 0) && (end < 2 * L) &&\n            (targetCpu_a[end / 2 - 1] != targetCpu_a[end / 2])) {\n          end = end + 1;\n        }\n        end = end + 1;\n      }\n    }\n    falign_cuda_step_kernel<<<1, kNumThreads, 0, stream>>>(\n      emissions_a, target_a, T, L, N, R, t, start, end, runningAlpha_a,\n      backtrack_a, normalize);\n\n    backtrackCpu.index_put_({ t, Slice()}, backtrack.to(torch::kCPU));\n    alphaCpu.index_put_({ t, Slice()}, runningAlpha.slice(0, t % 2, t % 2 + 1).to(torch::kCPU));\n  }\n\n  int idx1 = ((T - 1) % 2);\n  int ltrIdx = runningAlpha[idx1][S - 1].item<float>() >\n                   runningAlpha[idx1][S - 2].item<float>()\n                 ? S - 1\n                 : S - 2;\n\n  std::vector<int> path(T);\n  for (int t = T - 1; t >= 0; --t) {\n    path[t] = (ltrIdx % 2 == 0) ? 0 : targetCpu_a[ltrIdx / 2];\n    ltrIdx -= backtrackCpu_a[t][ltrIdx];\n  }\n\n  // returning runningAlpha, backtrackCpu for debugging purposes\n  return std::make_tuple(path, alphaCpu, backtrackCpu);\n}\n\nPYBIND11_MODULE(TORCH_EXTENSION_NAME, m)\n{\n  m.def(\"falign\", &falign_cuda, \"falign cuda\");\n}\n\"\"\"\nfalign_ext = torch.utils.cpp_extension.load_inline(\"falign\", cpp_sources=\"\", cuda_sources=cuda_source, extra_cflags=['-O3'], verbose=True )"
  },
  {
    "path": "examples/mms/lid_rerank/mms-zs/uromanize.py",
    "content": "import os\nimport tempfile\nimport re\nimport argparse\nfrom tqdm import tqdm\n\nparser = argparse.ArgumentParser()\nparser.add_argument(\"--txt\", type=str)\nparser.add_argument(\"--lid\", type=str)\nparser.add_argument(\"--dst\", type=str)\nparser.add_argument(\"--model\", type=str)\nargs = parser.parse_args()\n\nUROMAN_PL = args.model + \"uroman/bin/uroman.pl\"\n\ndef norm_uroman(text):\n    text = text.lower()\n    text = text.replace(\"’\", \"'\")\n    text = re.sub(\"([^a-z' ])\", \" \", text)\n    text = re.sub(\" +\", \" \", text)\n    return text.strip()\n\ndef uromanize(words):\n    iso = \"xxx\"\n    with tempfile.NamedTemporaryFile() as tf, tempfile.NamedTemporaryFile() as tf2:\n        with open(tf.name, \"w\") as f:\n            f.write(\"\\n\".join(words))\n        cmd = f\"perl \" + UROMAN_PL\n        cmd += f\" -l {iso} \"\n        cmd += f\" < {tf.name} > {tf2.name}\"\n        os.system(cmd)\n        lexicon = {}\n        with open(tf2.name) as f:\n            for idx, line in enumerate(f):\n                if not line.strip():\n                    continue\n                line = re.sub(r\"\\s+\", \"\", norm_uroman(line)).strip()\n                lexicon[words[idx]] = \" \".join(line) + \" |\"\n    return lexicon\n\ndef convert_sent(txt, char_lang=False):\n    if char_lang:\n        words = txt\n    else:\n        words = txt.split(\" \")\n    lexicon = uromanize(words)\n    pron = []\n    pron_no_sp = []\n    for w in words:\n        if w in lexicon:\n            pron.append(lexicon[w])\n            pron_no_sp.append(lexicon[w].replace(\" |\", \"\"))\n\n    return \" \".join(pron), \" \".join(pron_no_sp)\n\nif __name__ == \"__main__\":\n    if not os.path.exists(args.dst):\n        os.makedirs(args.dst)\n\n    txts = [x.strip() for x in open(args.txt, \"r\").readlines()]\n    langs = [x.strip() for x in open(args.lid, \"r\").readlines()]\n    assert len(txts) == len(langs)\n\n    cer_langs = [x.strip() for x in open(\"cer_langs.txt\", \"r\").readlines()]\n\n    with open(args.dst + \"/nbest_asr_hyp_uroman\", \"w\", buffering=1) as f:\n        for t, l in tqdm(zip(txts,langs), total=len(txts)):\n            pron, _ = convert_sent(t, l in cer_langs)\n            f.write(pron + \"\\n\")\n"
  },
  {
    "path": "examples/mms/lid_rerank/nllb/infer.py",
    "content": "#!/usr/bin/env python3\n# -*- encoding: utf8 -*-\nimport fasttext\nfrom tqdm import tqdm\nimport argparse\nimport os\nimport math\n\nparser = argparse.ArgumentParser()\nparser.add_argument(\"--txt\", type=str)\nparser.add_argument(\"--dst\", type=str)\nparser.add_argument(\"--model\", type=str)\nparser.add_argument('--lid', type=str)\nargs = parser.parse_args()\n\nmapping = {\"arb\":\"ara\", \"azj\":\"aze\", \"pes\":\"fas\", \"fuv\":\"ful\", \"lvs\":\"lav\", \"khk\":\"mon\", \"zsm\":\"zlm\", \"gaz\":\"orm\", \"pbt\":\"pus\", \"uzn\":\"uzb\", \"zho\":\"cmn\"}\n\ndef fix_code(x):\n    code = x.split(\"_\")[-2]\n    if code in mapping:\n        code = mapping[code]\n    return code\n\nif __name__ == \"__main__\":\n    if not os.path.exists(args.dst):\n        os.makedirs(args.dst)\n\n    pretrained_lang_model = args.model\n    model = fasttext.load_model(pretrained_lang_model)\n\n    txts = [x.strip() for x in open(args.txt, \"r\").readlines()]\n    lids = [x.strip() for x in open(args.lid, \"r\").readlines()]\n    assert len(txts) == len(lids)\n\n    with open(args.dst + \"/wlid_score\", \"w\") as f:\n        for t,l in tqdm(zip(txts, lids)):\n            predictions = model.predict(t, k=218)    # max 218\n            predictions = [(fix_code(x), y) for x, y in zip(predictions[0], predictions[1])]\n\n            try:\n                pred_langs = [x[0] for x in predictions]\n                idx = pred_langs.index(l)\n                score = math.log(predictions[idx][-1])\n            except:\n                score = -1000\n            f.write(str(score) + \"\\n\")"
  },
  {
    "path": "examples/mms/lid_rerank/requirements.txt",
    "content": "transformers\npeft\nprotobuf\nblobfile\nsentencepiece\nfasttext\nnumpy<=1.26.4\nlibrosa\nninja\neditdistance"
  },
  {
    "path": "examples/mms/lid_rerank/rerank/rerank.py",
    "content": "import argparse\nimport json\nfrom collections import defaultdict\nimport os\nfrom tqdm import tqdm\nimport sys\nimport subprocess\nimport re\nimport math\nimport numpy as np\nimport editdistance\nfrom sklearn.preprocessing import StandardScaler\nfrom multiprocessing import Pool\nfrom functools import partial\nimport random\n\ncer_langs = [x.strip() for x in open(\"cer_langs.txt\", \"r\").readlines()]\n\ndef select(w, feats, ref_lid, nbest_lid, ref_asr, nbest_asr, n=10, exclude=None):\n    assert len(w) == len(feats[0])\n    scores = []\n    for f in feats:\n        s = 0\n        for i in range(len(w)):\n            s += w[i]*f[i]\n        scores.append(s)\n\n    lid_correct = 0\n    lid_total = 0\n    asr_err = 0\n    asr_total = 0\n    text = []\n    lang = []\n\n    for i in range(len(ref_lid)):\n        if exclude is not None:\n            if ref_lid[i] in exclude:\n                continue\n\n        start_idx = i * n\n        end_idx = start_idx + n\n        cand_scores = scores[start_idx:end_idx]\n        max_idx, max_val = max(enumerate(cand_scores), key=lambda x: x[1])\n\n        cand_feats = feats[start_idx:end_idx]\n\n        lang.append(nbest_lid[start_idx:end_idx][max_idx])\n        if ref_lid[i] == nbest_lid[start_idx:end_idx][max_idx]:\n            lid_correct += 1\n        lid_total += 1\n\n        hyp = nbest_asr[start_idx:end_idx][max_idx]\n        text.append(hyp)\n        ref = ref_asr[i]\n        hyp = hyp.lower()\n        ref = ref.lower()\n        hyp = hyp.replace(\".\", \"\").replace(\",\", \"\").replace(\"?\", \"\").replace(\"!\", \"\").replace(\":\", \"\").replace(\")\", \"\").replace(\"(\", \"\").replace(\"-\", \"\")\n        ref = ref.replace(\".\", \"\").replace(\",\", \"\").replace(\"?\", \"\").replace(\"!\", \"\").replace(\":\", \"\").replace(\")\", \"\").replace(\"(\", \"\").replace(\"-\", \"\")\n        if ref_lid[i] in cer_langs:\n            hyp = \" \".join(hyp)\n            ref = \" \".join(ref)\n\n        hyp_words = hyp.split()\n        tgt_words = ref.split()\n        errs = editdistance.eval(hyp_words, tgt_words)\n        asr_err += errs\n        asr_total += len(tgt_words)\n\n    results = {\"lid_acc\": lid_correct / lid_total, \"asr_wer\": asr_err / asr_total, \"weights\": w}\n\n    return results, text, lang\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser(description='Example argument parser')\n    parser.add_argument('--slid', type=str)\n    parser.add_argument('--wlid', type=str)\n    parser.add_argument('--asr', type=str)\n    parser.add_argument('--lm', type=str)\n    parser.add_argument('--uasr', type=str)\n    parser.add_argument('--n', type=int, default=10)\n    parser.add_argument('--dst', type=str)\n    parser.add_argument('--ref_lid', type=str)\n    parser.add_argument('--nbest_lid', type=str)\n    parser.add_argument('--ref_asr', type=str)\n    parser.add_argument('--nbest_asr', type=str)\n    parser.add_argument('--w', type=str)\n    parser.add_argument('--tag', type=str, default = None)\n    parser.add_argument('--exclude', nargs=\"*\", default=None)  # exclude langs\n    args = parser.parse_args()\n\n    slid = [float(x.strip()) for x in open(args.slid, \"r\").readlines()]\n    wlid = [float(x.strip()) for x in open(args.wlid, \"r\").readlines()]\n    asr = [float(x.strip()) for x in open(args.asr, \"r\").readlines()]\n    lm = [float(x.strip()) for x in open(args.lm, \"r\").readlines()]\n    uasr = [float(x.strip()) for x in open(args.uasr, \"r\").readlines()]\n\n    assert len(slid) == len(wlid)\n    assert len(wlid) == len(asr)\n    assert len(asr) == len(lm)\n    assert len(lm) == len(uasr)\n\n    ref_lid = [x.strip() for x in open(args.ref_lid, \"r\").readlines()]\n    nbest_lid= [x.strip() for x in open(args.nbest_lid, \"r\").readlines()]\n    ref_asr = [x.strip() for x in open(args.ref_asr, \"r\").readlines()]\n    nbest_asr = [x.strip() for x in open(args.nbest_asr, \"r\").readlines()]\n\n    assert len(ref_lid) * args.n == len(nbest_lid)\n    assert len(ref_asr) * args.n == len(nbest_asr)\n    assert len(ref_lid) == len(ref_asr)\n\n    lengths = [len(x) for x in nbest_asr]\n\n    feats = [[s, w, a, l, u, le] for s,w,a,l,u,le in zip(slid, wlid, asr, lm, uasr, lengths)]\n\n    weight = eval(open(args.w, \"r\").read())['weights']\n\n    results, text, lang = select(weight, feats, ref_lid, nbest_lid, ref_asr, nbest_asr, n=args.n, exclude=args.exclude)\n\n    if args.tag is not None:\n        tag_text = \".\" + args.tag\n    else:\n        tag_text = \"\"\n\n    with open(args.dst + \"/reranked_1best_asr_hyp\" + tag_text, \"w\") as f_out:\n        f_out.writelines([x+\"\\n\" for x in text])\n\n    with open(args.dst + \"/reranked_1best_lid\" + tag_text, \"w\") as f_out:\n        f_out.writelines([x+\"\\n\" for x in lang])\n\n    with open(args.dst + \"/text.result\" + tag_text, \"w\") as f_out:\n        for k in results.keys():\n            f_out.write(k + \"\\t\" + str(results[k]) + \"\\n\")\n"
  },
  {
    "path": "examples/mms/lid_rerank/rerank/tune_coefficients.py",
    "content": "import argparse\nimport os\nfrom tqdm import tqdm\nimport numpy as np\nimport editdistance\nfrom multiprocessing import Pool\nfrom functools import partial\n\ncer_langs = [x.strip() for x in open(\"cer_langs.txt\", \"r\").readlines()]\n\ndef compute(w, feats, ref_lid, nbest_lid, ref_asr, nbest_asr, n=10, exclude=None):\n    assert len(w) == len(feats[0])\n    scores = []\n    for f in feats:\n        s = 0\n        for i in range(len(w)):\n            s += w[i]*f[i]\n        scores.append(s)\n\n    lid_correct = 0\n    lid_total = 0\n    asr_err = 0\n    asr_total = 0\n\n    for i in range(len(ref_lid)):\n        if exclude is not None:\n            if ref_lid[i] in exclude:\n                continue\n\n        start_idx = i * n\n        end_idx = start_idx + n\n        cand_scores = scores[start_idx:end_idx]\n        max_idx, max_val = max(enumerate(cand_scores), key=lambda x: x[1])\n\n        if ref_lid[i] == nbest_lid[start_idx:end_idx][max_idx]:\n            lid_correct += 1\n        lid_total += 1\n\n        hyp = nbest_asr[start_idx:end_idx][max_idx]\n        ref = ref_asr[i]\n        hyp = hyp.lower()\n        ref = ref.lower()\n        hyp = hyp.replace(\".\", \"\").replace(\",\", \"\").replace(\"?\", \"\").replace(\"!\", \"\").replace(\":\", \"\").replace(\")\", \"\").replace(\"(\", \"\").replace(\"-\", \"\")\n        ref = ref.replace(\".\", \"\").replace(\",\", \"\").replace(\"?\", \"\").replace(\"!\", \"\").replace(\":\", \"\").replace(\")\", \"\").replace(\"(\", \"\").replace(\"-\", \"\")\n        if ref_lid[i] in cer_langs:\n            hyp = \" \".join(hyp)\n            ref = \" \".join(ref)\n\n        hyp_words = hyp.split()\n        tgt_words = ref.split()\n        errs = editdistance.eval(hyp_words, tgt_words)\n        asr_err += errs\n        asr_total += len(tgt_words)\n\n    return {\"lid_acc\": lid_correct / lid_total, \"asr_wer\": asr_err / asr_total, \"weights\": w}\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser(description='Example argument parser')\n    parser.add_argument('--slid', type=str)\n    parser.add_argument('--wlid', type=str)\n    parser.add_argument('--asr', type=str)\n    parser.add_argument('--lm', type=str)\n    parser.add_argument('--uasr', type=str)\n    parser.add_argument('--n', type=int, default=10)\n    parser.add_argument('--dst', type=str)\n    parser.add_argument('--ref_lid', type=str)\n    parser.add_argument('--nbest_lid', type=str)\n    parser.add_argument('--ref_asr', type=str)\n    parser.add_argument('--nbest_asr', type=str)\n    parser.add_argument('--iters', type=int, default=10000)\n    parser.add_argument('--slid_scale', type=int, default = 100)\n    parser.add_argument('--wlid_scale', type=int, default = 100)\n    parser.add_argument('--asr_scale', type=int, default = 10)\n    parser.add_argument('--lm_scale', type=int, default = 10)\n    parser.add_argument('--uasr_scale', type=int, default = 10)\n    parser.add_argument('--len_scale', type=int, default = 1)\n    parser.add_argument('--num_jobs', type=int, default = 64)\n    parser.add_argument('--exclude', nargs=\"*\", default=None)  # exclude langs\n    args = parser.parse_args()\n\n    slid = [float(x.strip()) for x in open(args.slid, \"r\").readlines()]\n    wlid = [float(x.strip()) for x in open(args.wlid, \"r\").readlines()]\n    asr = [float(x.strip()) for x in open(args.asr, \"r\").readlines()]\n    lm = [float(x.strip()) for x in open(args.lm, \"r\").readlines()]\n    uasr = [float(x.strip()) for x in open(args.uasr, \"r\").readlines()]\n\n    assert len(slid) == len(wlid)\n    assert len(wlid) == len(asr)\n    assert len(asr) == len(lm)\n    assert len(lm) == len(uasr)\n\n    ref_lid = [x.strip() for x in open(args.ref_lid, \"r\").readlines()]\n    nbest_lid= [x.strip() for x in open(args.nbest_lid, \"r\").readlines()]\n    ref_asr = [x.strip() for x in open(args.ref_asr, \"r\").readlines()]\n    nbest_asr = [x.strip() for x in open(args.nbest_asr, \"r\").readlines()]\n\n    assert len(ref_lid) * args.n == len(nbest_lid)\n    assert len(ref_asr) * args.n == len(nbest_asr)\n    assert len(ref_lid) == len(ref_asr)\n\n    lengths = [len(x) for x in nbest_asr]\n\n    feats = [[s, w, a, l, u, le] for s,w,a,l,u,le in zip(slid, wlid, asr, lm, uasr, lengths)]\n \n    weights = []\n    for i in range(args.iters):\n        s_w = np.random.rand() * args.slid_scale\n        w_w = np.random.rand() * args.wlid_scale\n        a_w = np.random.rand() * args.asr_scale\n        l_w = np.random.rand() * args.lm_scale\n        u_w = np.random.rand() * args.uasr_scale\n        le_w = (np.random.rand() -0.5) * args.len_scale\n        weights.append([s_w, w_w, a_w, l_w, u_w, le_w])\n\n    num_tries = len(weights)\n    print(\"Total number of search points\", num_tries)\n    threads = args.num_jobs\n    pool = Pool(threads)\n    compute_fxn = partial(compute, feats=feats, ref_lid=ref_asr, nbest_lid=nbest_lid, ref_asr=ref_asr, nbest_asr=nbest_asr, n=args.n, exclude=args.exclude)\n    results = pool.map(compute_fxn, weights)\n    pool.close()\n    pool.join()\n\n    assert len(results) == len(weights)\n\n    wer_best = 100\n    best = \"\"\n    if not os.path.exists(args.dst):\n        os.makedirs(args.dst)\n    with open(args.dst + \"/results.all\", \"w\") as f_out:\n        for result in results:\n            f_out.write(str(result)+\"\\n\")\n            if result[\"asr_wer\"] < wer_best:\n                wer_best = result[\"asr_wer\"]\n                best = result\n\n    with open(args.dst + \"/best_coefficients\", \"w\") as f_out:\n        f_out.write(str(best)+\"\\n\")"
  },
  {
    "path": "examples/mms/lid_rerank/whisper/infer_asr.py",
    "content": "#!/usr/bin/env python3\n# -*- encoding: utf8 -*-\nimport argparse\nimport itertools\nimport os\nimport re\nimport sys \nfrom pathlib import Path\n\nimport whisper\nfrom tqdm import tqdm\n\n\nparser = argparse.ArgumentParser()\nparser.add_argument(\"--wavs\", type=str)\nparser.add_argument(\"--lids\", type=str)\nparser.add_argument(\"--dst\", type=str)\nparser.add_argument(\"--beam_size\", type=int, default=1)\nparser.add_argument(\"--model\", type=str)\nparser.add_argument(\"--mapping\", type=str, default=\"whisper/lid_mapping.txt\")\nparser.add_argument(\"--n\", type=int, default=10)\n\nargs = parser.parse_args()\n\nif __name__ == \"__main__\":\n    model = whisper.load_model(args.model)\n\n    print(args)\n    \n    wavs = [y for y in [x.strip() for x in open(args.wavs, \"r\").readlines()] for _ in range(args.n)]\n    lids = [x.strip() for x in open(args.lids, \"r\").readlines()]\n    assert len(wavs) == len(lids)\n\n    if args.mapping is not None:\n        # mms_lid_code:whisper_lid_code\n        mapping = {x[1]:x[0] for x in [l.strip().split(\";\", 1) for l in open(args.mapping, \"r\").readlines()]}\n    else:\n        mapping = None\n\n    if not os.path.exists(args.dst):\n        os.makedirs(args.dst)\n\n    # clear it\n    with open(args.dst + \"/nbest_asr_hyp\", \"w\") as f1, open(args.dst + \"/asr_score\", \"w\") as f2:\n        pass\n    \n    for wav, lang in tqdm(zip(wavs, lids)):\n        # load audio and pad/trim it to fit 30 seconds\n        audio = whisper.load_audio(wav)\n        audio = whisper.pad_or_trim(audio)\n\n        # make log-Mel spectrogram and move to the same device as the model\n        mel = whisper.log_mel_spectrogram(audio).to(model.device)\n\n        if mapping is not None and lang in mapping.keys():\n            lang_code = mapping[lang]\n        else:\n            lang_code = lang\n\n        # decode the audio\n        options = whisper.DecodingOptions(beam_size=args.beam_size, language=lang_code)\n        output = whisper.decode(model, mel, options)\n        result = output.text\n        length = len(output.tokens)\n        score = output.avg_logprob * length\n\n        with open(args.dst + \"/nbest_asr_hyp\", \"a\") as f1, open(args.dst + \"/asr_score\", \"a\") as f2:\n            f1.write(result + \"\\n\")\n            f2.write(str(score) + \"\\n\")\n            f1.flush()\n            f2.flush()"
  },
  {
    "path": "examples/mms/lid_rerank/whisper/infer_lid.py",
    "content": "#!/usr/bin/env python3\n# -*- encoding: utf8 -*-\nimport argparse\nimport itertools\nimport os\nimport re\nimport sys \nfrom pathlib import Path\nimport math\n\nimport whisper\nfrom tqdm import tqdm\n\n\nparser = argparse.ArgumentParser()\nparser.add_argument(\"--wavs\", type=str)\nparser.add_argument(\"--dst\", type=str)\nparser.add_argument(\"--model\", type=str)\nparser.add_argument(\"--n\", type=int, default=10)\nparser.add_argument(\"--mapping\", type=str, default=\"whisper/lid_mapping.txt\")\nargs = parser.parse_args()\n\nif __name__ == \"__main__\":\n    model = whisper.load_model(args.model)\n\n    print(args)\n    \n    wavs = [x.strip() for x in open(args.wavs, \"r\").readlines()]\n    if not os.path.exists(args.dst):\n        os.makedirs(args.dst)\n\n    if args.mapping is not None:\n        #whisper_lid_code:mms_lid_code\n        mapping = {x[0]:x[1] for x in [l.strip().split(\";\", 1) for l in open(args.mapping, \"r\").readlines()]}\n    else:\n        mapping = None\n\n    with open(args.dst + \"/predictions\", \"w\") as f:\n        for wav in tqdm(wavs):\n            # load audio and pad/trim it to fit 30 seconds\n            audio = whisper.load_audio(wav)\n            audio = whisper.pad_or_trim(audio)\n\n            # make log-Mel spectrogram and move to the same device as the model\n            mel = whisper.log_mel_spectrogram(audio).to(model.device)\n\n            _, probs = model.detect_language(mel)\n            result = sorted(probs.items(), key=lambda x:x[1], reverse=True)[:args.n]\n            f.write(str(result) + \"\\n\")\n\n    lid_preds = [eval(x) for x in open(args.dst + \"/predictions\", \"r\").readlines()]\n    lids = []\n    scores = []\n    for p in lid_preds:\n        assert len(p) == len(lid_preds[0])\n        for l, s in p:\n            if args.mapping is not None:\n                lids.append(mapping[l])\n            else:\n                lids.append(l)\n            scores.append(math.log(s))\n    with open(args.dst + \"/nbest_lid\", \"w\") as f:\n        f.writelines([x+\"\\n\" for x in lids])\n    with open(args.dst + \"/slid_score\", \"w\") as f:\n        f.writelines([str(x)+\"\\n\" for x in scores])"
  },
  {
    "path": "examples/mms/lid_rerank/whisper/lid_mapping.txt",
    "content": "en;eng\nzh;cmn\nde;deu\nes;spa\nru;rus\nko;kor\nfr;fra\nja;jpn\npt;por\ntr;tuk\npl;pol\nca;cat\nnl;nld\nar;ara\nsv;swe\nit;ita\nid;ind\nhi;hin\nfi;fin\nvi;vie\nhe;heb\nuk;ukr\nel;ell\nms;zlm\ncs;cez\nro;ron\nda;dan\nhu;hun\nta;tam\nno;nob\nth;tha\nur;urd\nhr;hrv\nbg;bul\nlt;lit\nla;lat\nmi;mri\nml;mal\ncy;cym\nsk;slk\nte;tel\nfa;fas\nlv;lav\nbn;ben\nsr;srp\naz;aze\nsl;slv\nkn;kan\net;est\nmk;mkd\nbr;bre\neu;eus\nis;isl\nhy;hye\nne;npi\nmn;mon\nbs;bos\nkk;kaz\nsq;sqi\nsw;swh\ngl;glg\nmr;mar\npa;pan\nsi;sin\nkm;khm\nsn;sna\nyo;yor\nso;som\naf;afr\noc;oci\nka;kat\nbe;bel\ntg;tgk\nsd;snd\ngu;guj\nam;amh\nyi;yid\nlo;lao\nuz;uzb\nfo;fao\nht;hat\nps;pus\ntk;tuk\nnn;nno\nmt;mlk\nsa;san\nlb;ltz\nmy;mya\nbo;bod\ntl;tgl\nmg;mlg\nas;asm\ntt;tat\nhaw;haw\nln;lin\nha;hau\nba;bak\njw;jav\nsu;sun\n"
  },
  {
    "path": "examples/mms/misc/get_sample_size.py",
    "content": "#!/usr/bin/env python -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nUsage:\n    $ python misc/get_sample_size.py <input_file> > <output_file>\n    \n    <input_file> contains list of wav files\n    $ cat <input_file>\n      /path/to/audio_1.wav\n      /path/to/audio_2.wav\n\n    <output_file> contains list of wav files paired with their number of samples\n    $ cat <output_file>\n      /path/to/audio_1.wav    180000\n      /path/to/audio_2.wav    120000\n\"\"\"\nimport sys\nimport soundfile as sf\n\nif __name__ == \"__main__\":\n    files = sys.argv[1]\n    with open(files) as fr:\n        for fi in fr:\n            fi = fi.strip()\n            print(f'{fi}\\t{sf.SoundFile(fi).frames}')\n"
  },
  {
    "path": "examples/mms/tts/infer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport re\nimport glob\nimport json\nimport tempfile\nimport math\nimport torch\nfrom torch import nn\nfrom torch.nn import functional as F\nfrom torch.utils.data import DataLoader\nimport numpy as np\nimport commons\nimport utils\nimport argparse\nimport subprocess\nfrom data_utils import TextAudioLoader, TextAudioCollate, TextAudioSpeakerLoader, TextAudioSpeakerCollate\nfrom models import SynthesizerTrn\nfrom scipy.io.wavfile import write\n\nclass TextMapper(object):\n    def __init__(self, vocab_file):\n        self.symbols = [x.replace(\"\\n\", \"\") for x in open(vocab_file, encoding=\"utf-8\").readlines()]\n        self.SPACE_ID = self.symbols.index(\" \")\n        self._symbol_to_id = {s: i for i, s in enumerate(self.symbols)}\n        self._id_to_symbol = {i: s for i, s in enumerate(self.symbols)}\n\n    def text_to_sequence(self, text, cleaner_names):\n        '''Converts a string of text to a sequence of IDs corresponding to the symbols in the text.\n        Args:\n        text: string to convert to a sequence\n        cleaner_names: names of the cleaner functions to run the text through\n        Returns:\n        List of integers corresponding to the symbols in the text\n        '''\n        sequence = []\n        clean_text = text.strip()\n        for symbol in clean_text:\n            symbol_id = self._symbol_to_id[symbol]\n            sequence += [symbol_id]\n        return sequence\n\n    def uromanize(self, text, uroman_pl):\n        iso = \"xxx\"\n        with tempfile.NamedTemporaryFile() as tf, \\\n             tempfile.NamedTemporaryFile() as tf2:\n            with open(tf.name, \"w\") as f:\n                f.write(\"\\n\".join([text]))\n            cmd = f\"perl \" + uroman_pl\n            cmd += f\" -l {iso} \"\n            cmd +=  f\" < {tf.name} > {tf2.name}\"\n            os.system(cmd)\n            outtexts = []\n            with open(tf2.name) as f:\n                for line in f:\n                    line =  re.sub(r\"\\s+\", \" \", line).strip()\n                    outtexts.append(line)\n            outtext = outtexts[0]\n        return outtext\n\n    def get_text(self, text, hps):\n        text_norm = self.text_to_sequence(text, hps.data.text_cleaners)\n        if hps.data.add_blank:\n            text_norm = commons.intersperse(text_norm, 0)\n        text_norm = torch.LongTensor(text_norm)\n        return text_norm\n\n    def filter_oov(self, text, lang=None):\n        text = self.preprocess_char(text, lang=lang)\n        val_chars = self._symbol_to_id\n        txt_filt = \"\".join(list(filter(lambda x: x in val_chars, text)))\n        print(f\"text after filtering OOV: {txt_filt}\")\n        return txt_filt\n\n    def preprocess_char(self, text, lang=None):\n        \"\"\"\n        Special treatement of characters in certain languages\n        \"\"\"\n        if lang == \"ron\":\n            text = text.replace(\"ț\", \"ţ\")\n            print(f\"{lang} (ț -> ţ): {text}\")\n        return text\n\ndef generate():\n    parser = argparse.ArgumentParser(description='TTS inference')\n    parser.add_argument('--model-dir', type=str, help='model checkpoint dir')\n    parser.add_argument('--wav', type=str, help='output wav path')\n    parser.add_argument('--txt', type=str, help='input text')\n    parser.add_argument('--uroman-dir', type=str, default=None, help='uroman lib dir (will download if not specified)')\n    parser.add_argument('--lang', type=str, default=None, help='language iso code (required for Romanian)')\n    args = parser.parse_args()\n    ckpt_dir, wav_path, txt = args.model_dir, args.wav, args.txt\n\n    if torch.cuda.is_available():\n        device = torch.device(\"cuda\")\n    elif hasattr(torch.backends, \"mps\") and torch.backends.mps.is_available() and torch.backends.mps.is_built():\n        device = torch.device(\"mps\")\n    else:\n        device = torch.device(\"cpu\")\n\n    print(f\"Run inference with {device}\")\n    vocab_file = f\"{ckpt_dir}/vocab.txt\"\n    config_file = f\"{ckpt_dir}/config.json\"\n    assert os.path.isfile(config_file), f\"{config_file} doesn't exist\"\n    hps = utils.get_hparams_from_file(config_file)\n    text_mapper = TextMapper(vocab_file)\n    net_g = SynthesizerTrn(\n        len(text_mapper.symbols),\n        hps.data.filter_length // 2 + 1,\n        hps.train.segment_size // hps.data.hop_length,\n        **hps.model)\n    net_g.to(device)\n    _ = net_g.eval()\n\n    g_pth = f\"{ckpt_dir}/G_100000.pth\"\n    print(f\"load {g_pth}\")\n\n    _ = utils.load_checkpoint(g_pth, net_g, None)\n\n    print(f\"text: {txt}\")\n    is_uroman = hps.data.training_files.split('.')[-1] == 'uroman'\n    if is_uroman:\n        with tempfile.TemporaryDirectory() as tmp_dir:\n            if args.uroman_dir is None:\n                cmd = f\"git clone git@github.com:isi-nlp/uroman.git {tmp_dir}\"\n                print(cmd)\n                subprocess.check_output(cmd, shell=True)\n                args.uroman_dir = tmp_dir\n            uroman_pl = os.path.join(args.uroman_dir, \"bin\", \"uroman.pl\")\n            print(f\"uromanize\")\n            txt = text_mapper.uromanize(txt, uroman_pl)\n            print(f\"uroman text: {txt}\")\n    txt = txt.lower()\n    txt = text_mapper.filter_oov(txt, lang=args.lang)\n    stn_tst = text_mapper.get_text(txt, hps)\n    with torch.no_grad():\n        x_tst = stn_tst.unsqueeze(0).to(device)\n        x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(device)\n        hyp = net_g.infer(\n            x_tst, x_tst_lengths, noise_scale=.667,\n            noise_scale_w=0.8, length_scale=1.0\n        )[0][0,0].cpu().float().numpy()\n\n    os.makedirs(os.path.dirname(wav_path), exist_ok=True)\n    print(f\"wav: {wav_path}\")\n    write(wav_path, hps.data.sampling_rate, hyp)\n    return\n\n\nif __name__ == '__main__':\n    generate()\n"
  },
  {
    "path": "examples/mms/tts/tutorial/MMS_TTS_Inference_Colab.ipynb",
    "content": "{\n  \"cells\": [\n    {\n      \"cell_type\": \"markdown\",\n      \"metadata\": {\n        \"id\": \"okQdUOf2ovBS\"\n      },\n      \"source\": [\n        \"#Running MMS-TTS inference in Colab\\n\",\n        \"In this notebook, we give an example on how to run text-to-speech inference using MMS TTS models. \\n\",\n        \"\\n\",\n        \"By default, we run inference on a GPU.  If you want to perform CPU inference, go to \\\"Runtiime\\\" menu -> \\\"Change runtime type\\\" and set \\\"Hardware accelerator\\\" to \\\"None\\\" before running.\"\n      ]\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"metadata\": {\n        \"id\": \"XK2jXLmEpgK5\"\n      },\n      \"source\": [\n        \"## 1. Preliminaries\\n\",\n        \"This section installs necessary python packages for the other sections. Run it first.\"\n      ]\n    },\n    {\n      \"cell_type\": \"code\",\n      \"execution_count\": 1,\n      \"metadata\": {\n        \"id\": \"vGyb3dGWpmks\",\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\",\n          \"height\": 1000\n        },\n        \"outputId\": \"9825fea8-d247-48d9-b33b-dbff36e905fa\"\n      },\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"Cloning into 'vits'...\\n\",\n            \"remote: Enumerating objects: 81, done.\\u001b[K\\n\",\n            \"remote: Total 81 (delta 0), reused 0 (delta 0), pack-reused 81\\u001b[K\\n\",\n            \"Unpacking objects: 100% (81/81), 3.33 MiB | 2.44 MiB/s, done.\\n\",\n            \"Python 3.10.11\\n\",\n            \"/content/vits\\n\",\n            \"Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\\n\",\n            \"Collecting Cython==0.29.21\\n\",\n            \"  Downloading Cython-0.29.21-py2.py3-none-any.whl (974 kB)\\n\",\n            \"\\u001b[2K     \\u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\\u001b[0m \\u001b[32m974.2/974.2 kB\\u001b[0m \\u001b[31m27.1 MB/s\\u001b[0m eta \\u001b[36m0:00:00\\u001b[0m\\n\",\n            \"\\u001b[?25hInstalling collected packages: Cython\\n\",\n            \"  Attempting uninstall: Cython\\n\",\n            \"    Found existing installation: Cython 0.29.34\\n\",\n            \"    Uninstalling Cython-0.29.34:\\n\",\n            \"      Successfully uninstalled Cython-0.29.34\\n\",\n            \"Successfully installed Cython-0.29.21\\n\",\n            \"Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\\n\",\n            \"Collecting librosa==0.8.0\\n\",\n            \"  Downloading librosa-0.8.0.tar.gz (183 kB)\\n\",\n            \"\\u001b[2K     \\u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\\u001b[0m \\u001b[32m183.9/183.9 kB\\u001b[0m \\u001b[31m15.8 MB/s\\u001b[0m eta \\u001b[36m0:00:00\\u001b[0m\\n\",\n            \"\\u001b[?25h  Preparing metadata (setup.py) ... \\u001b[?25l\\u001b[?25hdone\\n\",\n            \"Requirement already satisfied: audioread>=2.0.0 in /usr/local/lib/python3.10/dist-packages (from librosa==0.8.0) (3.0.0)\\n\",\n            \"Requirement already satisfied: numpy>=1.15.0 in /usr/local/lib/python3.10/dist-packages (from librosa==0.8.0) (1.22.4)\\n\",\n            \"Requirement already satisfied: scipy>=1.0.0 in /usr/local/lib/python3.10/dist-packages (from librosa==0.8.0) (1.10.1)\\n\",\n            \"Requirement already satisfied: scikit-learn!=0.19.0,>=0.14.0 in /usr/local/lib/python3.10/dist-packages (from librosa==0.8.0) (1.2.2)\\n\",\n            \"Requirement already satisfied: joblib>=0.14 in /usr/local/lib/python3.10/dist-packages (from librosa==0.8.0) (1.2.0)\\n\",\n            \"Requirement already satisfied: decorator>=3.0.0 in /usr/local/lib/python3.10/dist-packages (from librosa==0.8.0) (4.4.2)\\n\",\n            \"Collecting resampy>=0.2.2 (from librosa==0.8.0)\\n\",\n            \"  Downloading resampy-0.4.2-py3-none-any.whl (3.1 MB)\\n\",\n            \"\\u001b[2K     \\u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\\u001b[0m \\u001b[32m3.1/3.1 MB\\u001b[0m \\u001b[31m101.7 MB/s\\u001b[0m eta \\u001b[36m0:00:00\\u001b[0m\\n\",\n            \"\\u001b[?25hRequirement already satisfied: numba>=0.43.0 in /usr/local/lib/python3.10/dist-packages (from librosa==0.8.0) (0.56.4)\\n\",\n            \"Requirement already satisfied: soundfile>=0.9.0 in /usr/local/lib/python3.10/dist-packages (from librosa==0.8.0) (0.12.1)\\n\",\n            \"Requirement already satisfied: pooch>=1.0 in /usr/local/lib/python3.10/dist-packages (from librosa==0.8.0) (1.6.0)\\n\",\n            \"Requirement already satisfied: llvmlite<0.40,>=0.39.0dev0 in /usr/local/lib/python3.10/dist-packages (from numba>=0.43.0->librosa==0.8.0) (0.39.1)\\n\",\n            \"Requirement already satisfied: setuptools in /usr/local/lib/python3.10/dist-packages (from numba>=0.43.0->librosa==0.8.0) (67.7.2)\\n\",\n            \"Requirement already satisfied: appdirs>=1.3.0 in /usr/local/lib/python3.10/dist-packages (from pooch>=1.0->librosa==0.8.0) (1.4.4)\\n\",\n            \"Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.10/dist-packages (from pooch>=1.0->librosa==0.8.0) (23.1)\\n\",\n            \"Requirement already satisfied: requests>=2.19.0 in /usr/local/lib/python3.10/dist-packages (from pooch>=1.0->librosa==0.8.0) (2.27.1)\\n\",\n            \"Requirement already satisfied: threadpoolctl>=2.0.0 in /usr/local/lib/python3.10/dist-packages (from scikit-learn!=0.19.0,>=0.14.0->librosa==0.8.0) (3.1.0)\\n\",\n            \"Requirement already satisfied: cffi>=1.0 in /usr/local/lib/python3.10/dist-packages (from soundfile>=0.9.0->librosa==0.8.0) (1.15.1)\\n\",\n            \"Requirement already satisfied: pycparser in /usr/local/lib/python3.10/dist-packages (from cffi>=1.0->soundfile>=0.9.0->librosa==0.8.0) (2.21)\\n\",\n            \"Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.10/dist-packages (from requests>=2.19.0->pooch>=1.0->librosa==0.8.0) (1.26.15)\\n\",\n            \"Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.10/dist-packages (from requests>=2.19.0->pooch>=1.0->librosa==0.8.0) (2022.12.7)\\n\",\n            \"Requirement already satisfied: charset-normalizer~=2.0.0 in /usr/local/lib/python3.10/dist-packages (from requests>=2.19.0->pooch>=1.0->librosa==0.8.0) (2.0.12)\\n\",\n            \"Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.10/dist-packages (from requests>=2.19.0->pooch>=1.0->librosa==0.8.0) (3.4)\\n\",\n            \"Building wheels for collected packages: librosa\\n\",\n            \"  Building wheel for librosa (setup.py) ... \\u001b[?25l\\u001b[?25hdone\\n\",\n            \"  Created wheel for librosa: filename=librosa-0.8.0-py3-none-any.whl size=201378 sha256=c299b7ae3d6d527a4889716009ab27ca4018546d04f0e4de1019ea919311c0dc\\n\",\n            \"  Stored in directory: /root/.cache/pip/wheels/bf/b7/85/2f8044306ccec014930aea23ad4852fca9e2584e21c6972bc6\\n\",\n            \"Successfully built librosa\\n\",\n            \"Installing collected packages: resampy, librosa\\n\",\n            \"  Attempting uninstall: librosa\\n\",\n            \"    Found existing installation: librosa 0.10.0.post2\\n\",\n            \"    Uninstalling librosa-0.10.0.post2:\\n\",\n            \"      Successfully uninstalled librosa-0.10.0.post2\\n\",\n            \"Successfully installed librosa-0.8.0 resampy-0.4.2\\n\",\n            \"Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\\n\",\n            \"Collecting phonemizer==2.2.1\\n\",\n            \"  Downloading phonemizer-2.2.1-py3-none-any.whl (49 kB)\\n\",\n            \"\\u001b[2K     \\u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\\u001b[0m \\u001b[32m49.0/49.0 kB\\u001b[0m \\u001b[31m6.0 MB/s\\u001b[0m eta \\u001b[36m0:00:00\\u001b[0m\\n\",\n            \"\\u001b[?25hRequirement already satisfied: joblib in /usr/local/lib/python3.10/dist-packages (from phonemizer==2.2.1) (1.2.0)\\n\",\n            \"Collecting segments (from phonemizer==2.2.1)\\n\",\n            \"  Downloading segments-2.2.1-py2.py3-none-any.whl (15 kB)\\n\",\n            \"Requirement already satisfied: attrs>=18.1 in /usr/local/lib/python3.10/dist-packages (from phonemizer==2.2.1) (23.1.0)\\n\",\n            \"Collecting clldutils>=1.7.3 (from segments->phonemizer==2.2.1)\\n\",\n            \"  Downloading clldutils-3.19.0-py2.py3-none-any.whl (1.7 MB)\\n\",\n            \"\\u001b[2K     \\u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\\u001b[0m \\u001b[32m1.7/1.7 MB\\u001b[0m \\u001b[31m84.8 MB/s\\u001b[0m eta \\u001b[36m0:00:00\\u001b[0m\\n\",\n            \"\\u001b[?25hCollecting csvw>=1.5.6 (from segments->phonemizer==2.2.1)\\n\",\n            \"  Downloading csvw-3.1.3-py2.py3-none-any.whl (56 kB)\\n\",\n            \"\\u001b[2K     \\u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\\u001b[0m \\u001b[32m56.7/56.7 kB\\u001b[0m \\u001b[31m9.3 MB/s\\u001b[0m eta \\u001b[36m0:00:00\\u001b[0m\\n\",\n            \"\\u001b[?25hRequirement already satisfied: regex in /usr/local/lib/python3.10/dist-packages (from segments->phonemizer==2.2.1) (2022.10.31)\\n\",\n            \"Requirement already satisfied: python-dateutil in /usr/local/lib/python3.10/dist-packages (from clldutils>=1.7.3->segments->phonemizer==2.2.1) (2.8.2)\\n\",\n            \"Requirement already satisfied: tabulate>=0.7.7 in /usr/local/lib/python3.10/dist-packages (from clldutils>=1.7.3->segments->phonemizer==2.2.1) (0.8.10)\\n\",\n            \"Collecting colorlog (from clldutils>=1.7.3->segments->phonemizer==2.2.1)\\n\",\n            \"  Downloading colorlog-6.7.0-py2.py3-none-any.whl (11 kB)\\n\",\n            \"Collecting pylatexenc (from clldutils>=1.7.3->segments->phonemizer==2.2.1)\\n\",\n            \"  Downloading pylatexenc-2.10.tar.gz (162 kB)\\n\",\n            \"\\u001b[2K     \\u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\\u001b[0m \\u001b[32m162.6/162.6 kB\\u001b[0m \\u001b[31m24.7 MB/s\\u001b[0m eta \\u001b[36m0:00:00\\u001b[0m\\n\",\n            \"\\u001b[?25h  Preparing metadata (setup.py) ... \\u001b[?25l\\u001b[?25hdone\\n\",\n            \"Requirement already satisfied: markdown in /usr/local/lib/python3.10/dist-packages (from clldutils>=1.7.3->segments->phonemizer==2.2.1) (3.4.3)\\n\",\n            \"Requirement already satisfied: lxml in /usr/local/lib/python3.10/dist-packages (from clldutils>=1.7.3->segments->phonemizer==2.2.1) (4.9.2)\\n\",\n            \"Requirement already satisfied: markupsafe in /usr/local/lib/python3.10/dist-packages (from clldutils>=1.7.3->segments->phonemizer==2.2.1) (2.1.2)\\n\",\n            \"Requirement already satisfied: babel in /usr/local/lib/python3.10/dist-packages (from csvw>=1.5.6->segments->phonemizer==2.2.1) (2.12.1)\\n\",\n            \"Collecting colorama (from csvw>=1.5.6->segments->phonemizer==2.2.1)\\n\",\n            \"  Downloading colorama-0.4.6-py2.py3-none-any.whl (25 kB)\\n\",\n            \"Collecting isodate (from csvw>=1.5.6->segments->phonemizer==2.2.1)\\n\",\n            \"  Downloading isodate-0.6.1-py2.py3-none-any.whl (41 kB)\\n\",\n            \"\\u001b[2K     \\u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\\u001b[0m \\u001b[32m41.7/41.7 kB\\u001b[0m \\u001b[31m6.3 MB/s\\u001b[0m eta \\u001b[36m0:00:00\\u001b[0m\\n\",\n            \"\\u001b[?25hRequirement already satisfied: jsonschema in /usr/local/lib/python3.10/dist-packages (from csvw>=1.5.6->segments->phonemizer==2.2.1) (4.3.3)\\n\",\n            \"Collecting language-tags (from csvw>=1.5.6->segments->phonemizer==2.2.1)\\n\",\n            \"  Downloading language_tags-1.2.0-py3-none-any.whl (213 kB)\\n\",\n            \"\\u001b[2K     \\u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\\u001b[0m \\u001b[32m213.4/213.4 kB\\u001b[0m \\u001b[31m29.7 MB/s\\u001b[0m eta \\u001b[36m0:00:00\\u001b[0m\\n\",\n            \"\\u001b[?25hCollecting rdflib (from csvw>=1.5.6->segments->phonemizer==2.2.1)\\n\",\n            \"  Downloading rdflib-6.3.2-py3-none-any.whl (528 kB)\\n\",\n            \"\\u001b[2K     \\u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\\u001b[0m \\u001b[32m528.1/528.1 kB\\u001b[0m \\u001b[31m57.7 MB/s\\u001b[0m eta \\u001b[36m0:00:00\\u001b[0m\\n\",\n            \"\\u001b[?25hRequirement already satisfied: requests in /usr/local/lib/python3.10/dist-packages (from csvw>=1.5.6->segments->phonemizer==2.2.1) (2.27.1)\\n\",\n            \"Collecting rfc3986<2 (from csvw>=1.5.6->segments->phonemizer==2.2.1)\\n\",\n            \"  Downloading rfc3986-1.5.0-py2.py3-none-any.whl (31 kB)\\n\",\n            \"Requirement already satisfied: uritemplate>=3.0.0 in /usr/local/lib/python3.10/dist-packages (from csvw>=1.5.6->segments->phonemizer==2.2.1) (4.1.1)\\n\",\n            \"Requirement already satisfied: six in /usr/local/lib/python3.10/dist-packages (from isodate->csvw>=1.5.6->segments->phonemizer==2.2.1) (1.16.0)\\n\",\n            \"Requirement already satisfied: pyrsistent!=0.17.0,!=0.17.1,!=0.17.2,>=0.14.0 in /usr/local/lib/python3.10/dist-packages (from jsonschema->csvw>=1.5.6->segments->phonemizer==2.2.1) (0.19.3)\\n\",\n            \"Requirement already satisfied: pyparsing<4,>=2.1.0 in /usr/local/lib/python3.10/dist-packages (from rdflib->csvw>=1.5.6->segments->phonemizer==2.2.1) (3.0.9)\\n\",\n            \"Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.10/dist-packages (from requests->csvw>=1.5.6->segments->phonemizer==2.2.1) (1.26.15)\\n\",\n            \"Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.10/dist-packages (from requests->csvw>=1.5.6->segments->phonemizer==2.2.1) (2022.12.7)\\n\",\n            \"Requirement already satisfied: charset-normalizer~=2.0.0 in /usr/local/lib/python3.10/dist-packages (from requests->csvw>=1.5.6->segments->phonemizer==2.2.1) (2.0.12)\\n\",\n            \"Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.10/dist-packages (from requests->csvw>=1.5.6->segments->phonemizer==2.2.1) (3.4)\\n\",\n            \"Building wheels for collected packages: pylatexenc\\n\",\n            \"  Building wheel for pylatexenc (setup.py) ... \\u001b[?25l\\u001b[?25hdone\\n\",\n            \"  Created wheel for pylatexenc: filename=pylatexenc-2.10-py3-none-any.whl size=136820 sha256=e99eecd0f55e1827ac73565fc43f5565f432aca243434ea921e0a31c5827331d\\n\",\n            \"  Stored in directory: /root/.cache/pip/wheels/d3/31/8b/e09b0386afd80cfc556c00408c9aeea5c35c4d484a9c762fd5\\n\",\n            \"Successfully built pylatexenc\\n\",\n            \"Installing collected packages: rfc3986, pylatexenc, language-tags, isodate, colorlog, colorama, rdflib, clldutils, csvw, segments, phonemizer\\n\",\n            \"Successfully installed clldutils-3.19.0 colorama-0.4.6 colorlog-6.7.0 csvw-3.1.3 isodate-0.6.1 language-tags-1.2.0 phonemizer-2.2.1 pylatexenc-2.10 rdflib-6.3.2 rfc3986-1.5.0 segments-2.2.1\\n\",\n            \"Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\\n\",\n            \"Requirement already satisfied: scipy in /usr/local/lib/python3.10/dist-packages (1.10.1)\\n\",\n            \"Requirement already satisfied: numpy<1.27.0,>=1.19.5 in /usr/local/lib/python3.10/dist-packages (from scipy) (1.22.4)\\n\",\n            \"Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\\n\",\n            \"Requirement already satisfied: numpy in /usr/local/lib/python3.10/dist-packages (1.22.4)\\n\",\n            \"Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\\n\",\n            \"Requirement already satisfied: torch in /usr/local/lib/python3.10/dist-packages (2.0.1+cu118)\\n\",\n            \"Requirement already satisfied: filelock in /usr/local/lib/python3.10/dist-packages (from torch) (3.12.0)\\n\",\n            \"Requirement already satisfied: typing-extensions in /usr/local/lib/python3.10/dist-packages (from torch) (4.5.0)\\n\",\n            \"Requirement already satisfied: sympy in /usr/local/lib/python3.10/dist-packages (from torch) (1.11.1)\\n\",\n            \"Requirement already satisfied: networkx in /usr/local/lib/python3.10/dist-packages (from torch) (3.1)\\n\",\n            \"Requirement already satisfied: jinja2 in /usr/local/lib/python3.10/dist-packages (from torch) (3.1.2)\\n\",\n            \"Requirement already satisfied: triton==2.0.0 in /usr/local/lib/python3.10/dist-packages (from torch) (2.0.0)\\n\",\n            \"Requirement already satisfied: cmake in /usr/local/lib/python3.10/dist-packages (from triton==2.0.0->torch) (3.25.2)\\n\",\n            \"Requirement already satisfied: lit in /usr/local/lib/python3.10/dist-packages (from triton==2.0.0->torch) (16.0.5)\\n\",\n            \"Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.10/dist-packages (from jinja2->torch) (2.1.2)\\n\",\n            \"Requirement already satisfied: mpmath>=0.19 in /usr/local/lib/python3.10/dist-packages (from sympy->torch) (1.3.0)\\n\",\n            \"Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\\n\",\n            \"Requirement already satisfied: torchvision in /usr/local/lib/python3.10/dist-packages (0.15.2+cu118)\\n\",\n            \"Requirement already satisfied: numpy in /usr/local/lib/python3.10/dist-packages (from torchvision) (1.22.4)\\n\",\n            \"Requirement already satisfied: requests in /usr/local/lib/python3.10/dist-packages (from torchvision) (2.27.1)\\n\",\n            \"Requirement already satisfied: torch==2.0.1 in /usr/local/lib/python3.10/dist-packages (from torchvision) (2.0.1+cu118)\\n\",\n            \"Requirement already satisfied: pillow!=8.3.*,>=5.3.0 in /usr/local/lib/python3.10/dist-packages (from torchvision) (8.4.0)\\n\",\n            \"Requirement already satisfied: filelock in /usr/local/lib/python3.10/dist-packages (from torch==2.0.1->torchvision) (3.12.0)\\n\",\n            \"Requirement already satisfied: typing-extensions in /usr/local/lib/python3.10/dist-packages (from torch==2.0.1->torchvision) (4.5.0)\\n\",\n            \"Requirement already satisfied: sympy in /usr/local/lib/python3.10/dist-packages (from torch==2.0.1->torchvision) (1.11.1)\\n\",\n            \"Requirement already satisfied: networkx in /usr/local/lib/python3.10/dist-packages (from torch==2.0.1->torchvision) (3.1)\\n\",\n            \"Requirement already satisfied: jinja2 in /usr/local/lib/python3.10/dist-packages (from torch==2.0.1->torchvision) (3.1.2)\\n\",\n            \"Requirement already satisfied: triton==2.0.0 in /usr/local/lib/python3.10/dist-packages (from torch==2.0.1->torchvision) (2.0.0)\\n\",\n            \"Requirement already satisfied: cmake in /usr/local/lib/python3.10/dist-packages (from triton==2.0.0->torch==2.0.1->torchvision) (3.25.2)\\n\",\n            \"Requirement already satisfied: lit in /usr/local/lib/python3.10/dist-packages (from triton==2.0.0->torch==2.0.1->torchvision) (16.0.5)\\n\",\n            \"Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.10/dist-packages (from requests->torchvision) (1.26.15)\\n\",\n            \"Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.10/dist-packages (from requests->torchvision) (2022.12.7)\\n\",\n            \"Requirement already satisfied: charset-normalizer~=2.0.0 in /usr/local/lib/python3.10/dist-packages (from requests->torchvision) (2.0.12)\\n\",\n            \"Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.10/dist-packages (from requests->torchvision) (3.4)\\n\",\n            \"Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.10/dist-packages (from jinja2->torch==2.0.1->torchvision) (2.1.2)\\n\",\n            \"Requirement already satisfied: mpmath>=0.19 in /usr/local/lib/python3.10/dist-packages (from sympy->torch==2.0.1->torchvision) (1.3.0)\\n\",\n            \"Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\\n\",\n            \"Requirement already satisfied: matplotlib in /usr/local/lib/python3.10/dist-packages (3.7.1)\\n\",\n            \"Requirement already satisfied: contourpy>=1.0.1 in /usr/local/lib/python3.10/dist-packages (from matplotlib) (1.0.7)\\n\",\n            \"Requirement already satisfied: cycler>=0.10 in /usr/local/lib/python3.10/dist-packages (from matplotlib) (0.11.0)\\n\",\n            \"Requirement already satisfied: fonttools>=4.22.0 in /usr/local/lib/python3.10/dist-packages (from matplotlib) (4.39.3)\\n\",\n            \"Requirement already satisfied: kiwisolver>=1.0.1 in /usr/local/lib/python3.10/dist-packages (from matplotlib) (1.4.4)\\n\",\n            \"Requirement already satisfied: numpy>=1.20 in /usr/local/lib/python3.10/dist-packages (from matplotlib) (1.22.4)\\n\",\n            \"Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.10/dist-packages (from matplotlib) (23.1)\\n\",\n            \"Requirement already satisfied: pillow>=6.2.0 in /usr/local/lib/python3.10/dist-packages (from matplotlib) (8.4.0)\\n\",\n            \"Requirement already satisfied: pyparsing>=2.3.1 in /usr/local/lib/python3.10/dist-packages (from matplotlib) (3.0.9)\\n\",\n            \"Requirement already satisfied: python-dateutil>=2.7 in /usr/local/lib/python3.10/dist-packages (from matplotlib) (2.8.2)\\n\",\n            \"Requirement already satisfied: six>=1.5 in /usr/local/lib/python3.10/dist-packages (from python-dateutil>=2.7->matplotlib) (1.16.0)\\n\",\n            \"Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\\n\",\n            \"Collecting Unidecode==1.1.1\\n\",\n            \"  Downloading Unidecode-1.1.1-py2.py3-none-any.whl (238 kB)\\n\",\n            \"\\u001b[2K     \\u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\\u001b[0m \\u001b[32m238.3/238.3 kB\\u001b[0m \\u001b[31m18.9 MB/s\\u001b[0m eta \\u001b[36m0:00:00\\u001b[0m\\n\",\n            \"\\u001b[?25hInstalling collected packages: Unidecode\\n\",\n            \"Successfully installed Unidecode-1.1.1\\n\",\n            \"/content/vits/monotonic_align\\n\",\n            \"Compiling core.pyx because it changed.\\n\",\n            \"[1/1] Cythonizing core.pyx\\n\",\n            \"/usr/local/lib/python3.10/dist-packages/Cython/Compiler/Main.py:369: FutureWarning: Cython directive 'language_level' not set, using 2 for now (Py2). This will change in a later release! File: /content/vits/monotonic_align/core.pyx\\n\",\n            \"  tree = Parsing.p_module(s, pxd, full_module_name)\\n\",\n            \"\\u001b[01m\\u001b[Kcore.c:\\u001b[m\\u001b[K In function ‘\\u001b[01m\\u001b[K__Pyx_InitGlobals\\u001b[m\\u001b[K’:\\n\",\n            \"\\u001b[01m\\u001b[Kcore.c:16766:1:\\u001b[m\\u001b[K \\u001b[01;35m\\u001b[Kwarning: \\u001b[m\\u001b[K‘\\u001b[01m\\u001b[KPyEval_InitThreads\\u001b[m\\u001b[K’ is deprecated [\\u001b[01;35m\\u001b[K-Wdeprecated-declarations\\u001b[m\\u001b[K]\\n\",\n            \"16766 | \\u001b[01;35m\\u001b[KPyEval_InitThreads\\u001b[m\\u001b[K();\\n\",\n            \"      | \\u001b[01;35m\\u001b[K^~~~~~~~~~~~~~~~~~\\u001b[m\\u001b[K\\n\",\n            \"In file included from \\u001b[01m\\u001b[K/usr/include/python3.10/Python.h:130\\u001b[m\\u001b[K,\\n\",\n            \"                 from \\u001b[01m\\u001b[Kcore.c:16\\u001b[m\\u001b[K:\\n\",\n            \"\\u001b[01m\\u001b[K/usr/include/python3.10/ceval.h:122:37:\\u001b[m\\u001b[K \\u001b[01;36m\\u001b[Knote: \\u001b[m\\u001b[Kdeclared here\\n\",\n            \"  122 | Py_DEPRECATED(3.9) PyAPI_FUNC(void) \\u001b[01;36m\\u001b[KPyEval_InitThreads\\u001b[m\\u001b[K(void);\\n\",\n            \"      |                                     \\u001b[01;36m\\u001b[K^~~~~~~~~~~~~~~~~~\\u001b[m\\u001b[K\\n\",\n            \"/content/vits\\n\"\n          ]\n        },\n        {\n          \"output_type\": \"execute_result\",\n          \"data\": {\n            \"text/plain\": [\n              \"'/content/vits'\"\n            ],\n            \"application/vnd.google.colaboratory.intrinsic+json\": {\n              \"type\": \"string\"\n            }\n          },\n          \"metadata\": {},\n          \"execution_count\": 1\n        }\n      ],\n      \"source\": [\n        \"%pwd\\n\",\n        \"!git clone https://github.com/jaywalnut310/vits.git\\n\",\n        \"!python --version\\n\",\n        \"%cd vits/\\n\",\n        \"\\n\",\n        \"!pip install Cython==0.29.21\\n\",\n        \"!pip install librosa==0.8.0\\n\",\n        \"!pip install phonemizer==2.2.1\\n\",\n        \"!pip install scipy\\n\",\n        \"!pip install numpy\\n\",\n        \"!pip install torch\\n\",\n        \"!pip install torchvision\\n\",\n        \"!pip install matplotlib\\n\",\n        \"!pip install Unidecode==1.1.1\\n\",\n        \"\\n\",\n        \"%cd monotonic_align/\\n\",\n        \"%mkdir monotonic_align\\n\",\n        \"!python3 setup.py build_ext --inplace\\n\",\n        \"%cd ../\\n\",\n        \"%pwd\"\n      ]\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"metadata\": {\n        \"id\": \"KuBzieKbuJKN\"\n      },\n      \"source\": [\n        \"## 2. Choose a language and download its checkpoint\\n\",\n        \"Find the ISO code for your target language [here](https://dl.fbaipublicfiles.com/mms/tts/all-tts-languages.html). You can find more details about the languages we currently support for TTS in this [table](https://dl.fbaipublicfiles.com/mms/misc/language_coverage_mms.html).\"\n      ]\n    },\n    {\n      \"cell_type\": \"code\",\n      \"execution_count\": 2,\n      \"metadata\": {\n        \"id\": \"UtEeQcmwuUaG\",\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"outputId\": \"2adfb7eb-b9a2-44c3-8571-72fbc4b60aff\"\n      },\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"Download model for language: eng\\n\",\n            \"Model checkpoints in ./eng: ['G_100000.pth', 'config.json', 'vocab.txt']\\n\"\n          ]\n        }\n      ],\n      \"source\": [\n        \"import os\\n\",\n        \"import subprocess\\n\",\n        \"import locale\\n\",\n        \"locale.getpreferredencoding = lambda: \\\"UTF-8\\\"\\n\",\n        \"\\n\",\n        \"def download(lang, tgt_dir=\\\"./\\\"):\\n\",\n        \"  lang_fn, lang_dir = os.path.join(tgt_dir, lang+'.tar.gz'), os.path.join(tgt_dir, lang)\\n\",\n        \"  cmd = \\\";\\\".join([\\n\",\n        \"        f\\\"wget https://dl.fbaipublicfiles.com/mms/tts/{lang}.tar.gz -O {lang_fn}\\\",\\n\",\n        \"        f\\\"tar zxvf {lang_fn}\\\"\\n\",\n        \"  ])\\n\",\n        \"  print(f\\\"Download model for language: {lang}\\\")\\n\",\n        \"  subprocess.check_output(cmd, shell=True)\\n\",\n        \"  print(f\\\"Model checkpoints in {lang_dir}: {os.listdir(lang_dir)}\\\")\\n\",\n        \"  return lang_dir\\n\",\n        \"\\n\",\n        \"LANG = \\\"eng\\\"\\n\",\n        \"ckpt_dir = download(LANG)\"\n      ]\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"## 3. Load the checkpoint\"\n      ],\n      \"metadata\": {\n        \"id\": \"zexlezYiSWMb\"\n      }\n    },\n    {\n      \"cell_type\": \"code\",\n      \"execution_count\": 3,\n      \"metadata\": {\n        \"id\": \"Sxi3CXmGqH6r\",\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\"\n        },\n        \"outputId\": \"24710ada-6f04-4f29-c5f2-000458784ed8\"\n      },\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"Run inference with cuda\\n\",\n            \"load ./eng/G_100000.pth\\n\"\n          ]\n        }\n      ],\n      \"source\": [\n        \"from IPython.display import Audio\\n\",\n        \"import os\\n\",\n        \"import re\\n\",\n        \"import glob\\n\",\n        \"import json\\n\",\n        \"import tempfile\\n\",\n        \"import math\\n\",\n        \"import torch\\n\",\n        \"from torch import nn\\n\",\n        \"from torch.nn import functional as F\\n\",\n        \"from torch.utils.data import DataLoader\\n\",\n        \"import numpy as np\\n\",\n        \"import commons\\n\",\n        \"import utils\\n\",\n        \"import argparse\\n\",\n        \"import subprocess\\n\",\n        \"from data_utils import TextAudioLoader, TextAudioCollate, TextAudioSpeakerLoader, TextAudioSpeakerCollate\\n\",\n        \"from models import SynthesizerTrn\\n\",\n        \"from scipy.io.wavfile import write\\n\",\n        \"\\n\",\n        \"def preprocess_char(text, lang=None):\\n\",\n        \"    \\\"\\\"\\\"\\n\",\n        \"    Special treatement of characters in certain languages\\n\",\n        \"    \\\"\\\"\\\"\\n\",\n        \"    print(lang)\\n\",\n        \"    if lang == 'ron':\\n\",\n        \"        text = text.replace(\\\"ț\\\", \\\"ţ\\\")\\n\",\n        \"    return text\\n\",\n        \"\\n\",\n        \"class TextMapper(object):\\n\",\n        \"    def __init__(self, vocab_file):\\n\",\n        \"        self.symbols = [x.replace(\\\"\\\\n\\\", \\\"\\\") for x in open(vocab_file, encoding=\\\"utf-8\\\").readlines()]\\n\",\n        \"        self.SPACE_ID = self.symbols.index(\\\" \\\")\\n\",\n        \"        self._symbol_to_id = {s: i for i, s in enumerate(self.symbols)}\\n\",\n        \"        self._id_to_symbol = {i: s for i, s in enumerate(self.symbols)}\\n\",\n        \"\\n\",\n        \"    def text_to_sequence(self, text, cleaner_names):\\n\",\n        \"        '''Converts a string of text to a sequence of IDs corresponding to the symbols in the text.\\n\",\n        \"        Args:\\n\",\n        \"        text: string to convert to a sequence\\n\",\n        \"        cleaner_names: names of the cleaner functions to run the text through\\n\",\n        \"        Returns:\\n\",\n        \"        List of integers corresponding to the symbols in the text\\n\",\n        \"        '''\\n\",\n        \"        sequence = []\\n\",\n        \"        clean_text = text.strip()\\n\",\n        \"        for symbol in clean_text:\\n\",\n        \"            symbol_id = self._symbol_to_id[symbol]\\n\",\n        \"            sequence += [symbol_id]\\n\",\n        \"        return sequence\\n\",\n        \"\\n\",\n        \"    def uromanize(self, text, uroman_pl):\\n\",\n        \"        iso = \\\"xxx\\\"\\n\",\n        \"        with tempfile.NamedTemporaryFile() as tf, \\\\\\n\",\n        \"             tempfile.NamedTemporaryFile() as tf2:\\n\",\n        \"            with open(tf.name, \\\"w\\\") as f:\\n\",\n        \"                f.write(\\\"\\\\n\\\".join([text]))\\n\",\n        \"            cmd = f\\\"perl \\\" + uroman_pl\\n\",\n        \"            cmd += f\\\" -l {iso} \\\"\\n\",\n        \"            cmd +=  f\\\" < {tf.name} > {tf2.name}\\\"\\n\",\n        \"            os.system(cmd)\\n\",\n        \"            outtexts = []\\n\",\n        \"            with open(tf2.name) as f:\\n\",\n        \"                for line in f:\\n\",\n        \"                    line =  re.sub(r\\\"\\\\s+\\\", \\\" \\\", line).strip()\\n\",\n        \"                    outtexts.append(line)\\n\",\n        \"            outtext = outtexts[0]\\n\",\n        \"        return outtext\\n\",\n        \"\\n\",\n        \"    def get_text(self, text, hps):\\n\",\n        \"        text_norm = self.text_to_sequence(text, hps.data.text_cleaners)\\n\",\n        \"        if hps.data.add_blank:\\n\",\n        \"            text_norm = commons.intersperse(text_norm, 0)\\n\",\n        \"        text_norm = torch.LongTensor(text_norm)\\n\",\n        \"        return text_norm\\n\",\n        \"\\n\",\n        \"    def filter_oov(self, text):\\n\",\n        \"        val_chars = self._symbol_to_id\\n\",\n        \"        txt_filt = \\\"\\\".join(list(filter(lambda x: x in val_chars, text)))\\n\",\n        \"        print(f\\\"text after filtering OOV: {txt_filt}\\\")\\n\",\n        \"        return txt_filt\\n\",\n        \"\\n\",\n        \"def preprocess_text(txt, text_mapper, hps, uroman_dir=None, lang=None):\\n\",\n        \"    txt = preprocess_char(txt, lang=lang)\\n\",\n        \"    is_uroman = hps.data.training_files.split('.')[-1] == 'uroman'\\n\",\n        \"    if is_uroman:\\n\",\n        \"        with tempfile.TemporaryDirectory() as tmp_dir:\\n\",\n        \"            if uroman_dir is None:\\n\",\n        \"                cmd = f\\\"git clone git@github.com:isi-nlp/uroman.git {tmp_dir}\\\"\\n\",\n        \"                print(cmd)\\n\",\n        \"                subprocess.check_output(cmd, shell=True)\\n\",\n        \"                uroman_dir = tmp_dir\\n\",\n        \"            uroman_pl = os.path.join(uroman_dir, \\\"bin\\\", \\\"uroman.pl\\\")\\n\",\n        \"            print(f\\\"uromanize\\\")\\n\",\n        \"            txt = text_mapper.uromanize(txt, uroman_pl)\\n\",\n        \"            print(f\\\"uroman text: {txt}\\\")\\n\",\n        \"    txt = txt.lower()\\n\",\n        \"    txt = text_mapper.filter_oov(txt)\\n\",\n        \"    return txt\\n\",\n        \"\\n\",\n        \"if torch.cuda.is_available():\\n\",\n        \"    device = torch.device(\\\"cuda\\\")\\n\",\n        \"else:\\n\",\n        \"    device = torch.device(\\\"cpu\\\")\\n\",\n        \"\\n\",\n        \"print(f\\\"Run inference with {device}\\\")\\n\",\n        \"vocab_file = f\\\"{ckpt_dir}/vocab.txt\\\"\\n\",\n        \"config_file = f\\\"{ckpt_dir}/config.json\\\"\\n\",\n        \"assert os.path.isfile(config_file), f\\\"{config_file} doesn't exist\\\"\\n\",\n        \"hps = utils.get_hparams_from_file(config_file)\\n\",\n        \"text_mapper = TextMapper(vocab_file)\\n\",\n        \"net_g = SynthesizerTrn(\\n\",\n        \"    len(text_mapper.symbols),\\n\",\n        \"    hps.data.filter_length // 2 + 1,\\n\",\n        \"    hps.train.segment_size // hps.data.hop_length,\\n\",\n        \"    **hps.model)\\n\",\n        \"net_g.to(device)\\n\",\n        \"_ = net_g.eval()\\n\",\n        \"\\n\",\n        \"g_pth = f\\\"{ckpt_dir}/G_100000.pth\\\"\\n\",\n        \"print(f\\\"load {g_pth}\\\")\\n\",\n        \"\\n\",\n        \"_ = utils.load_checkpoint(g_pth, net_g, None)\"\n      ]\n    },\n    {\n      \"cell_type\": \"markdown\",\n      \"source\": [\n        \"## 4. Generate an audio given text\\n\",\n        \"Specify the sentence you want to synthesize and generate the audio\"\n      ],\n      \"metadata\": {\n        \"id\": \"fIiwaWl6SiVy\"\n      }\n    },\n    {\n      \"cell_type\": \"code\",\n      \"source\": [\n        \"txt = \\\"Expanding the language coverage of speech technology has the potential to improve access to information for many more people\\\"\\n\",\n        \"\\n\",\n        \"print(f\\\"text: {txt}\\\")\\n\",\n        \"txt = preprocess_text(txt, text_mapper, hps, lang=LANG)\\n\",\n        \"stn_tst = text_mapper.get_text(txt, hps)\\n\",\n        \"with torch.no_grad():\\n\",\n        \"    x_tst = stn_tst.unsqueeze(0).to(device)\\n\",\n        \"    x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(device)\\n\",\n        \"    hyp = net_g.infer(\\n\",\n        \"        x_tst, x_tst_lengths, noise_scale=.667,\\n\",\n        \"        noise_scale_w=0.8, length_scale=1.0\\n\",\n        \"    )[0][0,0].cpu().float().numpy()\\n\",\n        \"\\n\",\n        \"print(f\\\"Generated audio\\\") \\n\",\n        \"Audio(hyp, rate=hps.data.sampling_rate)\"\n      ],\n      \"metadata\": {\n        \"colab\": {\n          \"base_uri\": \"https://localhost:8080/\",\n          \"height\": 165\n        },\n        \"id\": \"mpSvjfSCGBDm\",\n        \"outputId\": \"142581f8-e9ec-4d17-d4da-413176e3cee3\"\n      },\n      \"execution_count\": 4,\n      \"outputs\": [\n        {\n          \"output_type\": \"stream\",\n          \"name\": \"stdout\",\n          \"text\": [\n            \"text: Expanding the language coverage of speech technology has the potential to improve access to information for many more people\\n\",\n            \"eng\\n\",\n            \"text after filtering OOV: expanding the language coverage of speech technology has the potential to improve access to information for many more people\\n\",\n            \"Generated audio\\n\"\n          ]\n        },\n        {\n          \"output_type\": \"execute_result\",\n          \"data\": {\n            \"text/plain\": [\n              \"<IPython.lib.display.Audio object>\"\n            ],\n            \"text/html\": [\n              \"\\n\",\n              \"                <audio  controls=\\\"controls\\\" >\\n\",\n              \"                    <source src=\\\"data:audio/wav;base64,UklGRiTQAwBXQVZFZm10IBAAAAABAAEAgD4AAAB9AAACABAAZGF0YQDQAwCv/87/NABYAJYAtADcAKoAm//+/j7/IQBxAGUAVABHABcA5f9+/5r+5v7+/3kA9v9k/3EABQGvAEEAdgC6ALgANAD4/mj+Mf/r//f/l/+F/6H/xf8bABwAP/96/qH+bP8+AKkA9v8C/8X+Hf/Q/4EAxAA3AQ0BHAAJ/3v/cwCQALwAXQEZAb0AwgDbAFMAgv8s/2H/aQDzAC4Agv9a//n+If4l/oP+MP8qAIYAGQAi/xH/KAB9AHMA1gAjAawAvf9n/3IAnQH0AXwBBwF+APMAvwD6/x3/rv8uAQsBZwDo/6b/sf5R/dH9PP8QALwAGwGNAML/Mv88/4n/lP+j/8v/3/8BAEr/0v6+/gUAJAGzABIACwARABoARQBGATMBXgB7AKMB0AFjAGj/pv6N/rX+ev8GAf0A2f9i/un9r/5Q/zX/4v6//qb/QADmACYBlwAM//3+0gBBAd0AiADGATUBkP+k/pb+EwCTAEAAXQBRAZkByf9m/gD/kABtAQ0BRgDW/+0ADAECAU4A/v+F/5T+Zf4YALsBdgKfATwApP9z/5b/zf4nAIgBJgCX/qb+3/9n/9b9w/ym/Vj/hQAvAVUALf8C/9H/mQGWAWcBHAGd//X+yv9fAFAAgf9e/1QAd/9k/6j/iQDJAE3/9f5w/kD/3P///zoAPQCJ/yD+lf6hAGIC8QKCAaj//P73//UAcAE7AZsAZP+p//YB0AEY/x79tf5mACoAFgBZANP/K/4L/Vj95f5vANIBsAITAkP/z/yB/UEAHQH+AEYBqQF/AeEA2P/E/tD+5P8AAL3/dQD1AKQAmgD2AD0BngBGAIkAVgA7/5X9+Pws/nf/ZgDv/+j+4v/yAGQADv89/tT+dQClAK7/mf8hAXkBh/8S/q7+Xv/2/rH/2QGVAoUBx//n/YP9RP7I/xkBDwJvAgMB/P+I/7X/vQCvAXEDFQOUAYsBDAJFAVj+rPx0/pD/LQE2AjwBZv8r/Yr9qv+XATYCXgEsAY8AEP7n/KL/XANUA64AMP5v/B/8afxu/kEACAHuAWMBOgH7/73+Bv9H/8T/8v86ALX/mv04/FL/KgJjAuEAtf+D/hX9f/5MAOgAYAFbAewAFwDh/9D+2v15/t8BcgQtAyYAwP1F/F77Tv1PAcEDjQPOAcL+OPxm/D3+lP9j/73/ZQElA/cBv/6w/RX+rQCCAokCrgEiABgCfgKgAJv/0QDzAx8E1wITAokBrQKjAZP/Kf87AWACTwG0AJcA3f8A/JX6y/y//2oBRf+s/Jf8y/7l/1H+sv24/u//iv92/jf/1P5E/jb+ZP8iAewAsf63/EX84f2J//UA/AJfA9UBef44+y/6+/wOAkMFdwXGAr0AMAAP/zH/HwFPAikCQQFgAGsAQgFOASQAQwACAnUC0gI3AucAMf9N/ncCiQS9BaUElAHl/8L+RgBrAl0EqQMFAIH9Iv2Y/u3+R/8n/pb9fP7J/gf+PPxa+0r7n/p2+4L+y//1/QH6DfmO/Jr/0f7p+/H6Sfzg/Rr/2P9+AMwA4v/EABgBVACj/6MA8wA7/yD/nP9ZAKIBewGhARQBywDI/yr9NP1EAc0F1AfRBdwExwTyApsBtgGTA6QEkQRyBPQDHgM5AgECxQJpA/YCDQJsAYkA9v71/I78Q/4AAOr+cv7V/mv+c/2n+nT6rfti/o/+Y/xP/NH8q/6Y///+q/2I+xj7+/vK/VX/zP+W///+7/3f/Ub/hwFPAksBYQE6AXMAQP/d/+wAcAFnAtAD8wIbArEBfQJ7A9oC4gCA/34AJwEeAtQCowHwAEcB7QPvBZsF0gK//4H99/xE/6QAdgHd//r9//3x/Sf+3/3f/LX9lv7a/t/+w/6P/X78Jv3f/vMAAgKTAaX/i/+w/rD+uf5o/hr+yf4kAEMBnQD//QT8v/sa/rD/sgC9//P97v2Y/nP/Lf+P/TH8av3UAOYDugQsAjkACgHqARoFGwYSBZkDzAExACL/GgCHARUC9wHvAV4AYv4N/Wv9N//1/4cAbv+P/+v+v/2S/fP++ADQAMn/+/41/84AUQGvAYsBrgEfAhMDOQI9AVEA9f/aAWIBIQCR/1X/jv6K/M/9gQAJAVz/9vzJ/OT9d/8/AOz/ff50/Ev9HgACA2cBMv8C/9MA1wHLAMcAPAGlAoQDEwL/AFn/3P2U/bj/CgPpA2IBef1C/Nv9CQCbAPD/zwHYAoECyQB8/+/+Fv5T/4QAaQFxAaoAYv8L/Z78LwAEAwUDzgDd/vr9FP15/on+BP4AAOUAtP8Q/Rr7y/oD/BH/mgDpABcBAACU/XL7R/xe/1oBiQHCAZgCEwOcALn9C/5E/9kBjQSaBcgDVP/n/Hv+zgGRAxECOv9Q/u3+vP+GAXwDugNyAYb/AP9KAF4APP8a/yL/IQG2AREBGv8O/ev8iv2DAKgDcQT4Adb+Dv4n/pL9V/5/AK0DCQR5AXD/Lf5R/S7+z/8yAs8CLQAL/Cf7Mf0w/6f/+//X/zD/n/7g/BL9Sv9hARMBDwBIASUCYwAN/rr+ZABcAS0B2AEdAksBbwGtAIwBggGVAHP/VP74/wEAtP8V/ywA9wHpAZUBdACi/qH9Of/aAhEFmwPt/+L9G/+vAMoBYAG9AJP/QP6u/SP+agDXAUUBm/9L/jT9Ov1I/b/9T/6i/4sA9QAdAL3+4/38/G3+VwCNAhEDnwDe/sb9gP6d/xwBiwIyAg0Brf/P/q7+Av/P/zgBeQHq/+7+of6b/28ASACsANsA+//d/hj/2/+z/9T/HAAGAKD/o/5N/6z/GABXAKL/+/+8/9X/5/8mATECugEAAfD/OgDRADkBEQHsANcB+wDU/qz90P7xAOMAxP8x/wX/8f7k/TP9Xv0F/or+6/6T/5v/C//J/uv+tP+C/0P+lv6M/+MAPgEUAjMDVwMIAy0Bq/+O/7MApgK0AyUDJQEF/0P+0f7Y/+sAPwHgAIUAvP/f/pr+kv8lAWUCkAJ/ATQAYf+x/hP/iwDKAbMBIAFUAekAwf7F/O78Ef8cAaUBvQDg/gL9Y/zx/Kv+cQCXAHz/0P3x/KD91v6XALsBXwE8AHr/Lv8s/9r/JwAOAb4Asv8O/zj/SwB9ANMAFQGTAB8A6v+d/1z/KgCtAKn/K/8B/7f/VgDp/8T/Gv8Y/9f/owAmAaYA6P9q/9cAAAIpAtMBcwHkACgAcwBYAWACjgJaAfn/+f7t/nD/KAC6AP3/2f7X/nr/qf/t/g7+2/5jAFgBswAr/9r+Hf9MAKcAngDWAJUBYAFT//P9Lv5Y/wcA5AAGAlkCPQEa/479ef3z/mkA7QB7ANz//f66/an96f5AAPEAewBzAIUAfwAyANT/fv/R/1AAiwDFAHMA4v/e/oT/9QDQAeMBeQA3/4r+iP9wAIsAcAA6AC4Aif8//1b/Zv9h/x//hv8vAPYAKwFtAKb/bP91/wAAygAvAT8Akf6F/QL+fv+tAP4AXgBs/+H+nP7R/rb/igCuAHQA/f+t/4T/d/+H/wMAhwAfAWEBcwGwAMv/jv8oAPgA1AEXAn4BRwAn/0X/tf8QAG8ASwAGAL7/bf9R/1P/tP9XAG0Ajv8N/2L/wP/j/1wAzgB9AGEAPQBmAJ4AjgBCAEkAYQChAGQAYQB2ACgADgDC/1v/Nv97/yEAawANAED/rP6o/h3/fv+V/3r/aP9h/3v/m//G/xoAXAB2AC8ATgB2AGUAggCYALAAfQCvAGsAIADQ/6X/s/+N/5n/4/8IACIA8P+z/2j/VP9d/7f/SQB6AE0Anv/v/sT+O/9RAAcBTAEwAb4AcAAOANT/df/o/60AsgCeAPD/U/9b/zT/vv9KAKMAgQDV/4v/IP9O/43/AABNAH8AOgCk/03/HP85/2z/v/9GAIMAZwDn/4P/iP+s/xoAcwBhAFcAQQADALr/j/++/zoA3gAXAb4AOQDt/wAA9/9gAMIA7ACqAEIA+f/8/28AcQCIAJkAYABPABkAHQAyAFMANgAnAFQAWQAjAMD/kP+s/+T/DQDs/8v/p/99/3P/jP+c/7H/mf+J/6j/vP+z/4v/Wv+J/8P//v/p/+L/r/+V/8H/3P8FABYACgD4/+H/DQAuAAwAAwAbAAcA/v8DACMA8v/I/7T/6f/u//H//P/W/7T/qv/E/+7/JgDr/+j/2P8IAP//4/8WACQADAAJADEAPwAiAND/4v8YABEA7f8ZAAwA+//e/+7/CgARAOn/0/+y/+z/7P8DAN3/6/8JANz/6v/3/xoAxP+6//r/NwA5APr/IQBKAAwAJgBRAEkAXABoAF8AJQA6ACUA8/8HAFIAXgBNAAwA6//T//T/9P/c/xEAOQAiANn/s//o/9v/1f/1/xsASAAjAPr/7f/d/8X/xf9iAJoAKABfAA8Awv/Z/+v/GAA7AP3/AADy/8T/vv/Q/+P/sf/F/4j/mP+E/5z/yv/l/8n/2v8qAMn/Zv9v/4b/0P8ZAHcAWgARACcAcwAyALL/oP8qAE8AeADTAJ8AHQCF/2b/Vv8m/z8AZwBUAEwAmgA5AGf+aP7z/9MBQAFS/+j+9P9HAWr/TP6K/5YABgGpABQAKADHAOj+Nv/fAGoB/gFGAVEAuv82/lX+LQAiAb4BFAEeAFYBk//9/Rz+EAAfA8YBBwAQAQr/OvzM+3D/WwO9AzkAsP34/lL/tf6l/iAAegFaASMBmv/W/67/RP50/o0AGwPrAuIA4/+y/+f/X//J/x8A/gAuABEAnwB8AQkA6f23/Ub/WgGXAbMAKwH3/ub+J/5v/ngBCQJYAhD/tPy6/Z8A6gCk/qn/xP/6/zwAVgDGAAwA5/2Y/bn+xABZAmACQf+m/Vr8Hv53AZwC9QBPANf+Pv+J/gD/eP9WAD0B/ADIAGcCFv+2/H78+P7FAk4DtAFcANsAQ/9I/dn9YwAFAusBBwVnA7H94vpx+vr8av90AKUF/QUnAuX8mPi1+g/8Rf7OAQAHWwv9BHL9r/gu+Rf8Tv4SAnIJAw2OCOD8s/SK9fb6CQCEAxEHnAqTBbj/xvSf9AP3Cf/IBSwGUwb3Av3+yPjU9YH5YAA3BjkFhAb2BEMB/Pqt+o3+Wv8m+8AASARpDH0HivpA+GL+JAPy/E71gfv0B7UMawVCAIz+hPy28w73NvxFBxMKrgUABWEBOQFQ+mDyyPkN/scCjgV8CWUREwIf8+HsF/aSCVwHTQH8AvEHzgR/+rH5qvzZ/mX8T/69BfcIsgSFAYv8+fIJ8WL88gmaEF0Gefls/Pf5cADT/H//6AKtAIsB0AOoAFT+4P0yAnT64PpAAPMEWgzZ+VL19AFkCywAlfIQ+koOdhIZ98LzUvwgBzb/6fv4CdkU+Aad8fv24f4IA+D51PzpAisGYQjQBY35k/AsAc0EjP0J95IFZA8jAdvtu/StDb8VifwR5brr/Q8iGDsIl/MW+IYFKQdQ93jyDwKgE/YLufgN8WD8Eg/3AXHut/M0EkUXWfuY5xD2DRWvBlvvBvLUDeYZY/6T8tD7pwCC9WX9IgbaB3EAWAbKACv0N/lL984LbA2T/3z69PjTBB0DKQNk/wX0NvkXAOwQbAyZ9cnvOQbJFPf8vets8U8NUhmd++j3oPbZA18JWPhv9yYGMQBcCbj7sfaEBswH0wiS+0jtHfdFB7sG9AnAA3r7SvSv+J0Kfgmb+lL9JwFYCJ4Blu9J/fIChgMaALL+aAikBXMACPJz7Jr7xBDuEIYDXPezBv4GqP8D7HHsQw05EEUB5/8/CCcD1vi98WHyZ/1YCsEOTwhJATr5f/yx8472Hf1fAn4DAwyTD5wCnvC/7TEC9gPC/44FkwdrEHQGH/P39FPztgHGBmcCkv2sCeUFkwH894n4vPso9ekDygQ3D7wCLP1g/nL4mfnE9b0DSf5uCX4Ig/y9/5z7tAMfCGD2Vfr7AKYChwnq/7QE9wKh+037bP11AOz80An3CXAHIPiE9IL5VwEkC3X6QQRAArUKmP4u8dTzmf9pDu4Cf/zSBMADdAHX/HL3ffzr/y8C/gWqBUAG3vj98A37TgUnB5sIpwEdAZ35QvdN9/j/7wlx/RUBHf9nBQIAVvwr/+8BR//e9nsBtA/gB4b6wvknAf/6afhF+m4LeQudA3L+f/3J9b4BdQDmAHEHugHZBMX8ugODA9/4o/Zl/Cv9LQohA8YFEARKAjz1pPmV+m//ZAJdAGQNSgCn/qz7gwQBAbb1GP1YAXcFrgdlAc/8V/4B/fP5SP6P/QMIjwRd/tUBUwHLArD+Mff4/OMKxAFnADn2GQFsBmP2UwNF+80Hf/xm+wEDaQeZBvb2K/UF9yMJKQp/AsL5QgM2BBf5SfQu+sADCAJh/a4GJAY7CF743fcqAcICUAGg+g4DqAYjCaj4e/fJ9+IFCf9RACD8IQqQB6b7JvrN8ccB2QYvAacEhwW2/Rb8gftlAoECtgS2+0f55AXxBXcCeAKD/JMCdflx+HIDtv3tAssCiAAp/q33LPxCBbv+CwDy/W4DW/+g/DICTAepBM7+/Pp09mv94QV8BNIDXf4p/YT7SQdiAzr/MPuS+lsH3QaRARwCgP26/Ef9KP0+BYv8Z/7rBisKZv889xf4kQFyB3H9tfmmAfcHxwG3/+ECqgC2+DX55P5BBVcDPwA7Ac39hAJxAGz3KgCd/LgBOgTMAYX+DP8jAp8B5P9p+n4FBf/RA577HgNXBOX2afwyAsUN9AA1+kT+2f6xA1v6CvsNAroHTAaj+Lr+Af4pAr79mfmWAzkCwAnC/hf9Cv6S/hcDUf/g+tf+1wOHBnP/GvuHBUcF4Pv/94L6uQe2Ak0BiAHYAyAEYfvU90gAmgEz++D+pf1RByQFYACl/qnzLv90/doHZP94/fcFEgjDAoj1zfpZ/JQIqgE4/u38Xwh1BXH9XfpY/zYA2gHXA84A1v+t/QAEoP6D/JH5KPmsBW8D4APx/c/7oP7K/RsB5gEs/TP7LP6R/8UIrQDg/9D/5P8rB6X67ff19E8FxAu+BNQBm/Zs/tMDkgPA+xj2tP7YCyAGAvqm+nMCIwjOAAr5d/ZOAMEI8QTX/5r8w//sBEQA9f7b+yj/Kv6iAvcBUgKp+0j92wGtAIP/Hfk3AagAqwhL/+n/e/6O/hcALgDAAwH9qf5r/lwBpAEBAGH9OP95ABIGq/6C/mb7ggL5/2L+S/28/8wCxgGYA6/7wgFNARICRv9H/SP/FP/2/vcCvv4a/Yj++wNJAwYAyf2C+hn+Tf6sAT7+YgDTA1UCuf8M/an7CQI6/U0CG/w2ArQC7wGYAHz7t/6c/+QBX/82AdQB/gOdAbX/5/yU/LsBVAADAp79jgBs/XwEhf1mAFX+Yf8OABH8EwPo/nEFB/9tAjb+xv4kAD38vQHP/4YAygGg/pUDs/yC/zD+NgFIBB8CgP9s/Tr+hAH+AncB6fu9/SoAXQXpAR3/jAC7/fL+Qv5JAAkBoABNAPD/yAA+/lj+YP80Ao8BuAADAiIBEwDNANICtwEwAG398v8oApsC4AH4AcQCvwHvAP/+vgCMArICFAFzAQgC8gEJAdEAqv8+AJ7/zf8TAKAAmAFaAOEAqv/V/lr/wP+n/3D+uf5KAOMAZQCM/7P+hv2Q/m//fgDJAMT/vv4l/mj9HP/A/wAAxv6y/qP/nP8k/6b+8f38/tH+7/+h/5f/of4b/8z+1/6y/6v/Sv90/g3/ff7J/hH/rv7P/q3+Kv+v/kf/CP///vb+XP4j/57/e/+V/3T/tf+D/27/AgD5/woA+v/x/yMA8P/c/1gAAADi/+H/IgChADsAz/80AEoAcwDv/wv/8v8LAKUAagCU/+r/QQBPABUApACSAGkAZABWALMAfQDy/x8ASACsAL0ARQDL/7H/CAApAMEAdAB3AEIASAAtACoAfgD2/yYABQBrANkApQCDAEsAvAC/AGAAPwB4ALUAigCyAEoBJAFRAFoAVwDBABABowCiAO8AAAFuAIwAYwB/AJsARQBzALAARwByAGMAGgD//2P/9v9IAFIA1P8gACIAKQC7/3T/xv/5/8P/M/8dAFQAogBYAA4A0v80AGX/wv/S/+D/OADh/1YAm/+D/5X/qACLAOv/ff/k/9H/0//J/2v/p//p/04AGgCr/7//7/99//X+sv8lADkAzP/z/4n/kf+i//D/EQDy/9f/qv8mAAkAtP+o//z/KAAMAAAA2//R/9H/6f8ZAIX/g/+i//H/VwD7/7r/ff+u/8L/2P/6/w0ADQDe/6//yf85AMH/v/9h/6L/RQA4AKX/xP+n/9L/zv9M/+r/9/90AKr/cP++/woAHADb/2f/6v/W/+z/5P+h/8b/8/8cABYAAAAZAN//zf+n/6v/sf8uAGQAMwAfALD/3P/9//L/CgDo/yMARQAMAOP/EgBBACgA1P/l/xMAVAAcAGf/m/9IAJ8AKwDh/x4A2f+0/4H/pf/B/+v/CgBiAO3/v//a//L/PQDl/+//nP/u/wMAOwDV/9H/SACC/1sAjf/H/+D/AwAsAMb/2f/c/9r/BQCGANz/bP+4//n/IQDW//D/HwAnAOD/5//z/wAAFgBKAD0AEAAYAMj/NQAjADkAUgDh/xoAJQAxABwA4//d/xQARwASAMH/DQBoABsAtv+k/yMAmABEAM//iv/g/wcAHQAWAC4AAQAHAMn/+//9/yEARgD0/0IAFgAlAE4AJABrAA8A3//7/zcASAA3ABwAGwApACMABQD4/wAABwADAPT/EQAOAAYAGQDz/8j/5P8VADsAGQD///v/HgAnABkA3//t/wEAFAA2AA8ACQAQAD4A/P/k/+r/SABeADYADgDZ/w0ATAAKANn/EgA3ABcADADk//z/IQDr/xkA7v/P/xsAIAD4/9//CwAcABMA9P///xYAHwAbAPr/7f/b/wUALAAgABgA+/8yAPz/1f/e//j/ZAAzAA0AFgAnADUA8P+7/wsASgBXABoA//8YACkAGwDX/9//4P8jAC4AJAAbACAA9f/8/9X/4P8LAAEAFADp/9v/1f/L//v/8f/d/+X/9f8SAAMA7f/H/9//BgD5/+j/0P/3/yAAEgD6/+7/CQABAP//zf/1//v/8P8hAOX/5//Z/+z//f/e/7n/x//+/xEA0P+0/8//6P/U/9j/3P/j//j/8v/w/+n/4P+5/8X/AwD5/8X/r/8aAAsA7f+v/8X/AwDX/9H/vv/y/w8A+P/d//n/AADk/9z/0////wgAFAABAAAA/f8CAPj/2//i/wgAGQAKAOz/2f8HAA8A6f/b/9z/7v8GAOn/CwAKAO3/7v/v/wMA0f/q/+//AwAdAPz//f8OABQA5//M/+v/8P9CAAAAHwAYABoALQDv/97/4/8rAEQANAD+/+v/RgAxAAgAvP/Y/ysAQQAQAOv/NgBNAPP/uP///z0AAgDL//n/HwBVAB8Awf8AAAAADwALAP//IgALABMAFwArAAcA9f/1/xcACQADAA4AFABSAC0ADQD8/yMAJAAxABIAJABPADIAKwDw/ykA//8/ADIA2P9MAP7/PQAsAPb/GgABAB4AIwAFAAsAJAA/ADkAKAAMAAIAHwA7ACcA7/8KACgAOQATAPD/GAD5/zAA5f/i/woA4f8yAAwAs/+r/+D/AQDh/8n/3/8SAPv/5P/T/+D/+v/s/9X//P9EAFkAHwDW/wAANQAiADAAGAAyAGIACgDc/+T/LwBHAOP/0f8AAEUAEwC//7v/4P8JAN7/uv/o/9v//f8GAMD/u//Z/+f/3f/k/6//7v/4/y0ABgDZ//7/+v8YABQAs//b/zsAKAAPAOv/8P/S/woA8//l/+j/8P/d/8b/0P+0/7D/vP/d/7r/sv+z/6H/zv+a/9P/AADh/8//y//4/w4A/f/0//7/7f/y/83/5v8HAAIA7f/K/+7/sP/g/+D/AADH/7j/4f/o//r/+v/w/+//IgBRABUAwP+r/+D/JgDd/+L/7v8FADsA9//5/+T//v8fABEA2//u/+3/9v/c/7b/3f8vAEEABgAFAC4ASQAGAMD/y/8FADgAHwDy//r/PgBBAC0A4//r/wAAEAAVAPL/3/8EAP//2P/U//n/IQAxAAUA/v8eADMANgD7/wAAEQA4ADsAMgAuABcARgA5ABUA+/8UADEAMwAFACsAWgBUABwAEQAoAEEAJgD+/9X/5P8eAPn/5v/x/woALgApAPj/8//z/93/sf/v/9//3v/W/8n/OQBDAB8A2P/w/yIAKwAAANr/BgABAA8AHQAHAD8AEwAkAPT/6f8RAPr/HgALAAwALQArABEA///7/wAA/P/z/xcAEAAEAO3/AAAPAB8ALwBKAEEABwDw/9D/z//b//T/DwAfACoAGgD4//b/yf/G/8L/4v8IAPz/BgDt/9f/3v/0/9z/7//x/woABQDt/+3/8P8GAAEA7/8UAEQAQQAKANL/7f8LAA4A9f8BACMAKgAJAN3/5P8EANf/1//k/+H/9P/Y/8L/tv/K/+r/5f/V//H/AgD4/9T/w//Z////QQBJABoABADm/+X/EQACAOT/zP/9/ywAPAAWAOr/8P8AACUAAgD6/+D/FQAeAL//l//X/ygAFwD4/9v/8/8JAO7/+/8kADYAEADi/97/AAAoADMALwA3AEkAMgABAOn/BwAnAB4A/P/3/+z/BAAjABgAJwDm//r/FwDn/9r/1v/L/9D/+/8WAPX/rf+8/87/1//V/9n/CADr/8v/sv/J/+n/2v/N/+r/FwA1ACYAGgD7//L/AAACAPH/PQCFAGMAXgBwAHYAfABaAHQAvACdAAUAqv8pAHwAPAAAABIAMgDp/4//j/+j/1n/H/+D/8j/gv9P/77/oP9s/3X/SwB3AMYAEQBtADEA+P+2AW0BfgEsARgBTwEOAZcACP/R/pT/F/+I/r7+nP3Y/Ib83/xn/Aj8oPux+5j7C/sR+xD7Efta/NP8uvxP/Tn+mwDFACQAjv/B/78AIwEcAZUBuQI0BHwETwXPBT0FGQWwBFoDHQPSBSAIvAllB7wFIgV2BSQFMQRfBIoEYwZ2BigFugT0A1sE3gMdAhcCBAJtAQQCnAHF/9X9TP1T+9D5v/ko+Eb3UvY99LHzkvPU9Cn2yvYk93X2KfaD99H45/kS+2L7B/sP/Bj9M/4p/2z/ZgAWAOz/gwBnAZoCDQMqAq0A5f+6/93/3P8GALL/Df8I/gr9Lv0A/hr/OgB7AWEDUASnBJMD5QG5ADwBDwLqAikFpgd1CAoICQecBvEGoQeMCAgJxQgvCW0Jugl2C3cOVhL+GPgkWTGnNuIxWibVGkYPXQVf/if8dPx6+kz1se956+3mQ9/21L7JQ8EXv/LDcM7x2rbmCe858xz1ofZ3+dn8C/8mAZwEFwp0EGsWOxkkF/gPCQVY+RTvG+d+4tHht+Nd5ivpbOwA8B7zdPR99Bv1cffU/OAEOA7yFzUhYihCK7IpLiUBH5kY3hHLC+4HOAXHAkMA0/yi+ef2N/Tp8Rbw9u808oH20fuPA8cNlRVqG4YfJSHcIUwcjhA0BCz5vPIh7/jtWe4f7tzsu+i45VbjteNj5c7lLOjA63Ty5PpkA3gIXwpiBrP+xPdK8xfzRfXH94T5APv1+zf9Dv8V/vT92vv/+pj+0gRGDugWlRyhGkMVLw0IBYwAOP+sADEBLQN6BmoO1RqAJX0sZizUJuwZXAjM/MoDJSWVUrZxCHkAcTViLUstKIsB5uSl1ljQLM7T1fznH/kU9yjeX77GpxOgtaMcsujKpumHA1sUPh8lJ4conRodAA7kDNRB1BbeHev78jD0OuyL3HTOYsXvwfnATcEPyMfXoe5vBwkbeiQSJMEbKRHbCAwH/QoCDwkSCBN8ERwQpwzCAz33yunn38zcwODe7O/9Kg23FmEa/hthHCYcBxy2GIEUaxPEEwgXmBtdHF4X8QpO+gDrMOIQ33rgquQs6ufvu/T6++IDoAkuDMsIbAPFANoCigqRFYogVCcoJsobMg0a/m/wLuWs3J/ZOdxq5JHwWfq5/14AmftF9aPybvSf+hgDCAjUCOcFFwHr+nPza+yW5bfhNOK95gLwV/rcAxgKHwwDDJsMLQ7hEAQS0w/7DgYOAA4gDuALEAj3AtYAZgEtB0MSfRwQI9QhXB4pHEgccSCWJW0qOC7bMZo4c0Z8V6Jdgk2NKbYBaOQ41Z3Rt9dk4ynqoeUq2FvMpsiMxnTB9bsgv4HP/+d/AjEWHiCuHQEP5fw377vqbuyz7orvK+757Lnro+iw4sfZys9UyIXHkM+d37TyHwOLDfAOrQzcCfIGQAfUCEAKxwxbDxwS1xQCFDcO7QNa9ynt5eji6zDzh/yLBUkKdw0mDmUNqg3yC+EJAwgqB/MIcgwSD6QO7guVBiIAYPxj+wP8aP2J/sj9C/zr+hr8Vf7l/zYCvgMCBecGlwjiCGQGbAIh/cX4JvlC/7kKcRekHb0azxH7BSD7ivM48Mfx6vRl+PH6Dfxy+4P4hfNf7q/r6O1A9cr/agg6C3UH2f5T9YPt5ugp6CXq6u1W8jD4IP7nAT0DHAFS/V38rv6wBfkOJRYkGU8XqhFRCs4EpQAs/QT9Wv4HAgYJaxAwFvIX2RV6EVQQPRPgGWclBS67MTQwhDKDQYRVUF2ETrox4hD38+HdSNIk1/Hi3ubR3s7UAdNu1hfVzMxLx1jLlNcC6gH+TA/sF04SrQLn8tzpf+hp6+Xtye2T7Z3sPurT56bj9N0b2dXW1trg5e70fwIMClYKiwRw/Hv3V/Vg9i76ovyfAKIFVQljDI0L5QZAAKz5jvYk+g0COgyeFV0a0xqjF40SRQ45C4UInwVqA9cBDQIkBBoGDgfkBd4BCP3B+o78YgF5BzAMIg5LDRMKjAYsBCwCnwE8AUUAHABg/039RfqE9tLz9PJ29UD6pv5NAtgEqQX8Bu0M9RezIwwpryIQE3gAAvFU52zkseaE61rwxPOW9bP2q/Yt9bzyj/BS8Xj2pv0rA2QD6/0f9cTsGugZ6G3sXPNB+Wn++wGWBDwFcAP9AXwA/gHGBzcP0hbnGYUW9A4uBX79E/la+N37s/6vA6gIHQzYEOgRQxF5EKsPehMyGfIhpypLKxooKyvLPJ5VLmK+V4U6ABdX8//WVMur0/Xl5e3I58jdOdjz1efP8sevxfHMN9uH7kwEDRYdHO0TswHm75XlqeSH69PyKfcd+CL0Ru1S5bbcINZV07bVRd7O6zT8FQlhDrMKUAAL9qnvje4i8/X69QPBCiINhQvVBtQAk/k69Lj0dPr6BLcQcRqBIDEgtximDXcDGf2L+77+igPEB/QJOQhqBEUAl/zH+nv6s/z4AWkJlxAMFhsYhRVcD4wIowN4AdQBgQMmBasEaAEx/az31vIN8A7vbvGG9QX6xP3V/+cAOALqBlIPehpSI6sjXxppC6P8YfHq6gjqeOy77zPyPvOn85f0B/VE9Hnz6PMa95r8UAEWAtn9gPZ17nzpR+mf7WD0v/qe/gIAKf/V/UD9b/1a/6cCbgdyDcYRcBZIF0wSwQzABKn+B/0T/rQC2wQ7BZUEhQISA7gGuAzqEtsX0RqLHMMfXyJaIGcb8Rw1LlNJ+Fs3W7ZHLyjTAJrcI8suz43eaehk6PzkkOFl3YHWL9BYzSfP6tWS5A/68g2OFvERpwST9E3p4eWZ6Rjy3Pj3+q/4UvOS7EjljN532ibaYOBo66P4ZgSCCZ4GkvwB8YLpdeiv7qz4eALFCekMkgtsBxQCW/33+j389AGrCnQTjRoPHhgcPxWrDM0E7f6W/Eb+tgGEBfkGmgW7Ahz+5PlG+Mn5Gf4eA8AIYw1gD6gPgw7TDGwKWwdzBckEjQXyBpsHvAUoAdf7B/cM9NHzQfVY98v46vgI+S/7zgAMCu0Unx07H7cY0g3JAxv9o/oT+8b7HPul93/xYuwY6jjqiezF8O71A/wYAvgFuAUrAZH5mvGJ7DjsWvBY9l/7w/1r/Fr4SPTs8SvzAfjP/kcHTg56EfkQ8w7ECl8JyAgjB/QGYQbNBe0E/AGG/sb5g/WS9b74PQLzDicZoh4dHKwXfhL5D6QSNhj/IEktszxQToZc2FoEQCoTbeqM1unXgeRN9E4BHAHr717X+cbjw57I2s1Q1nDnqvvDChYQrArB/FbspOHh4uLvGgCLCg0K0v7O7dzeRdYt1DfZB+NI7pb5IwGAA2T/H/YH65zjrORj7Vz6qwYuDIEKEAOU+YLzAvNJ96z/vwkvEoUXJxgaFZoPMgnkBEYEwQeQDYwS1xM+EN8Hz/7T9nnyKPTY+kYDMQreDTEOzAsqCa0Hugf9Cd8NEhJmFTkVFBIDDYAGrf/b+Tr3LPgr+l767Pgk96/0wPLn8vf0wfhM/s0D4QkdEdkXnxpTF1oOVAOz+4L5r/ql/Fr84fhQ8uDqK+af5ZzoTO4y9LP4Gvxs/lH+t/ve91z0oPLa8y/3gfsq/3MA1/5B+3n3WvX09UX6s/+6BXIL5A2UDUQKzgWcBJQFhAiGCYEIEAUsAFL90fr9/H0BXwRnCOQLUA/7EfsRfhCbDO4HYggDDb8TuRqjH8giZSfpMsRGoFcdU0k1DhFX92DsY+3j9XwBHAUO+I/fZcs8xZbHrsvb0MXaWeo2+RUALf6+9RrscuY66VP1HQUUEN8OhQGj7+fgtdn02THfRueB70z0cfVo8pXtS+iU46bj8Oiz8ln9vgNIBEn/Qviu8n3ytfjkARUKJRB8EsgQ1wxVCJUFQwbACKUNIxOSFW8UoQ5xBv7+VfmC+Lz7/QCxBr8J/AjwBOQAmABoAwsIfA2BEssUJRQ/EpUR5BEOEicRtw1pCDcDX/9X/BD5xfWC87fxG/Ar73rt5e0o8NTyqPYK/bwG3xB1F0sX+hBRCNwA+f1k/w4D2gR6Amf83PSH7lLraesx7h3ysvUy+fP6dPoX98/yFfGy8ZH00vga/H/8Svpj9p3zp/N+9pX65/0DACUBpgHrAbsBngLJA+4Gegp7C78N/A0zDOwJFwSoAIz9A/3P//gBCwaJCIEJigpxC8MNLA/2EAIVdBhRGz8gESVxJk4iXyL3LvhDF1NhS4AxFhQo/pv0t/NF+isBOP64747c4tBhzvTMVctTzU7XFeXk7qzywvAw6sfjIuOD6zf60gcuDX8HePqM7SHkpuBE4ozmRutZ7tXv0+5I62Pn+eN346/mzu1W9s375fw3+h72rPPj9Sn8sQIhCNkL1wy9C9sJogj0B3MImQxRElEXLxldGP0Ttg2WCfwIpgobDG8MWAtcCFwEggDL/Wn8cP3lABoGYgpcDFMMOQsQCu8JxAsJD3URwBGzD7EM4gjKBBgAvvu790zzr+8U7XXsY+3Z72b0HPmM/Gj96v0nAB0D5ARfBugIwQohCaMDx/xo99X0XfQQ9Yz26ffN94L1V/LJ7x/vx/BP9In4lfsd/fL8CvxJ+1T7MPwE/jwAfAHiAaUAdv77+8r62/us/n0CAAcgCbYJ3wgHCGoHOwXnBEADQAK5AooCqwPyAdECNAVNB8oLIg/uEQ4SexEnEpURIxNFFo0ZeRlAFp8b4C6NR6dTE0hzLlwVZgR3/zoFUxHfFagIHvJf3W3SXs7UzYHRutaE3BriTuU+4/ba39Ot1ZfhuvMtBWUOHAt0/WHvhegM6vzw1/iI/bP8gPb/7jDoRuNr4WvjIOng7530fvWV8Rjr2eXH5RnsF/cJAtkIEgohBjQB3f50AAkFJQsTEiAXFxgVFaAPkgphCHUKpw8dFAYVyhFMDFEGAwPBAnMFLQkwDPAMqQqyBnwD+wGEAvgEWQnvDRURPRHGDhALXwfoBOoD+AOEBIsDrQDZ/AP5EfYZ9KLzVfW++IL94gLfBoMGzwEM/JH5+Poj/oMBigNOAoj8y/R17/Ptfe8n8rz14PgA+uj4KvbY84ny2vNK9zj8PQAfAjQB+f1f+jn41fgI+x3+PwB1APH9GfpH90H3pfla/jsEhghcCaIHxgXfBC8E9gQBB1UIXQmCCi8M+gxwDDIMpwthC2kMNg+lE2oWmBWREigPfQ73D2oTihm/IuQwu0BsSEY+aCWCD8kIBw3+Eq8X+hg6EKr6XOMA10PV+dW61UrX0Noz3X/bINYbzxnLT84Y2tTqw/kKAgUAe/bI65PneOzF9k4AqwSNA9H93PVM7qDptegy6nrtQ/GH8wXyLu0M5zviUuE55qHv7fhs/sz+/vsh+Pv1LvhQ/o8Gqw6GFEQXXxYtE3IQ/w9MEu0Wghv8HZAcExjlEgMOmwpwCeILkg+hEbwPdwvgBekAwP4WAJoD4gauCFUIWwWAAZf+DP32+7r7W/11/wQA/v73/PP5KvYe9Ov15fogAW4GaQmQCQUIpwbyBMUCdAFlAqADMQN4ARH/4/rF9CnwcO/V8Yr0WvaY9nT05fDj7QjuXPAT9AT4yvra/H79h/3J/GX7rfrD+kT85P6bAHAAYf6x+5r6H/vb/QMBSwOZBIcEsAPRAvsCvQPzA0MELQZNCWQLUwvcCbYH7gWABcIHgQyJEHISnxGMD+wNQw1fDxYTdhY9GaEctSLrKJ0rKikyI8ocThgJFzcZ3Bv1GmYVjgyNBAb/1vu2+QD26fA866jnD+b85Lvi+d4X22DYG9g22kbdx96n3dvaCdm92Xbc79/P4m7k7uS85Zno6uwE8T3zi/SE9ev2mvn1/A8A1ABUAOz/yQBwAvoDiAQ1A5EA6v0H/aH9GP9w/5b+//y0+577ivxb/sH/jAAxAfsC6gU9CSMMDQ7bDmEP0xDKEyUXrBnHGnsajBmqGEoYBxg4F6sVVBOuEAIOhgsCCSEGzAKk/zD9d/sv+ub4bvfD9XT0P/Rq9UX37vga+n/6a/p7+m37wPy//Wz+Tv91AJIBpAJ0A24DOwKsAL7/i/+s/3T/kP7u/Mj6Gfnu93r3IPd39rX1f/Sy89DyGPJj8Y3w7++g7xXwOPFu8kLz2vN69FP1EPe8+Rv9FgAzAhQEVgYWCT8M4w7IEI8RlhHGEacRkhHHEC4PkA1ODNcMBA51Du4NfAwfC88JSQlXCg8MBA1uDSwPohPLGV8fAyN2I5shoB8dIPsiwiUOJgojKh6mGTAXfhYZFSsRyQkJAUP5Y/Rg8QXuBOmv4gjdNtkP2ADY4dYg06DN4cixxkfHH8nOyiTL+srSy8nOsdMC2RTdMt+T4Azjx+f+7R304PiM+1/9sP+mA3wIZAzeDTANiAuzCkUL5QxuDpIOkg1FDDMMXQ3NDjEPIg4dDCIK1QlxC0IObhBTESYR8hBvEd8SfBRNFfgU3xP3EpwS2xISE4ASFBEZD2wNXgyeC18KUwi9BRgDpQDl/uf9+/yL+975uvh6+Kb4vvhJ+PD2MPVA9Hn0e/WZ9mz31Pe192r3zPfx+Or5Xvpt+t76vfvp/PH9FP46/bz7vfps+sz6X/sl+w76Zfjx9iH2lPVQ9YL0o/Mi82rzcvRa9T725fa89/D4sfob/Vf/DQEpAnwDEgXSBnUI0QmlChQL3guVDFUNgA2jDckNAA68Dg0PQw+TDkAOjQ6uD1wRhBJxE40TURT9Fo4cdCJLJTokjSFkIFoheyRrJ+onkyMgHQwYHxYQFhAU5g7pBRb8nvTo8M7vQ+3G54ffUNg51CDTWdNM0tzOlMm7xWrFEMj2yj/M48vKytTKdM240gnYpdty3fje5eGa5pnsI/K99cn39Plp/V0CBQiGDNcOFQ8gDzIQSxLKFOIWVxc+FsYURxT0FJgVcxUuFDESeRAKEPEQNxKMEooR/A/HDsoOqA8aEQkS2RG0EE4Pvw7iDiIPyQ66DQYMOArqCDYIjwdEBm0EYQKhAHP/2v5G/kX9kPv7+fj4wfjp+Lv4E/jF9ov17/QB9YT1lfU49cn0v/Sp9Sv3z/jp+Qj65vnA+Yz6ofsz/N374voZ+nX5YPnA+YT58ffn9Qn0IvPM8gHzZfMl8/XyovKb8xj18/YI+dT6Jf0E/yUB/AIRBAUEiAPAA4IE+AVtB+wIDAlsCNYHRggnCfYJJAucC0EMQA13Dz4SjRTTFfMVGxaHF2Ab1iAgJjco1ybAJLwk2SabKTgsgCzCKa4lKCP3Ii0imR7BF6UPUQjEA8kB9v/G+yr0AetV40zel9tB2b3VsdBzywLITse9xzDHzsT7wTLAmcBXw2XHy8p9zFLNH88G03XYUd5v40jnX+oO7mDzd/n5/tQCMAUCB5sJng03EggW/Rc/GOgXAhg1GbAaahv4GsoZsRiOGB0ZxBl5GeMXzhXxE/wS+xIJE4sSPhGMD0MOyQ2vDYgNywxwC8MJQwhMB6wG2AWMBNoCFwHH/zL/2/5Y/o79WPz7+mL60fqp+5D8+vzU/O38R/3F/Vf+zf6b/rr92vyL/J386/wj/R/9z/ws/PD7HPxB/Nn74fp3+bj3fPaf9Rj1d/Rb88nxYfC971bv8u4C79zuSu7J7vjv8fHH8171Avc3+On5tPsj/gAA4wDvAGUBbwJDAy4EtASCBQEG8AZICJMJigpuCj8KiArAC/UMcg4LEFQRHRIiE94VFRrHHpAhtyJZIhwiFCPeJMInLSkwKdsnnybAJoQnhCcnJUIgJhraFFIR0A6SC8cGbAAM+k71uPK68MHsbeaQ3/fZTNaT1B/TXtAezP7HPMYzx+XIBMq8ydLI/cfqyCbMFtAX0+7Uttan2W/eOeQO6iruivB68m713/mt/qkCNQX5BhcJZAwmEKsT4BWNFmwWwxYxGO0ZGRsZG/cZwxiRGHgZXRppGnQZ/ReeFjQWfxarFvcVkRQ6E7kS3BLVEgwSOBDTDW4LgwlTCGQH1QVmA8kAqP47/Qb8xfrx+Lr29/Qj9D70E/Xa9SX2OvZK9tz24vfc+Db5+/jY+A357Png+o37nPv3+lP6Ovrp+rT7AvxA++H5DfkH+XT5Bvq5+qL63/lh+WL5A/kb+Cf3z/Wo9IP0evU79nj2R/aB9jv3pPgq+vz7Uv5cAI8CYATfBaYGYgeyCDcKpQpXClMKoQrxCooKKwqJCnsLxAtKC9UMsw/sERgU8BYgGlEaCRltGW0dYCLvJFUmiigaKqwosiWSI+EibCEoHiIa0RcGFuASJw0kB9sBJPxD9uTxRe/C68/mGuGK29PVntFrzwTO5Mz4yz3LJMoSyU7I/seSyHTK7M2o0W3VA9lE3MTewuB843TnveyU8c71yPkL/Y/+l//5ARwFFAiJCj8NTg//DxsP1w5pD4sPug+6ECYSxRLAEoASEhKoEBMPzQ6IEIYS1hORFCoVpxStE4cTvBT2Ft4YcBmiGN0XYhffFeET5RKJEjIRwA/MDocM9wekAtb+8vwH/OT6i/m19jvzZ/Ap7x/v4++Y8THz5fNN8z3zq/Q79bf0e/US+Br6pfo9+k/5+fbF9JX0svbV+Zf65ffc9GLzffIZ8b/x1vOF9Y31XvQM8xLyyfEF8xH2SPka+8r6Aft6+3n7zPzsAIUGZAqVCzgKGAg4B00IlgqaC8gMpA3SDR4NzgunDN4OmRDNEkgVKRdeFm8SOxAdEp8XshjQE5gVkyaUOsA7ISvIHGEbViBVJi0wDTobNR8enghqBWANLw7gBRT+afhx7k3h9NjU1GXNGsN3wmvNftSzzYnAVLjOtzS+8svx3GXlL98c1F3S19t16W70JvxDACz/gfxm/ND/4wJtBKQGYAqsDP8KkQX7/mr6wfkc/aIB4gL3/WD1Ne/q7rfzTfob//L/4P1Y++T7HQAzBk8LNg6AEKoSPBRnFaAWYhjqGZQcGCBAIhkh4xxXGF8V9BTWFt4XdBUHEL0JjQQ9AbL/nv6q+3f3MvO+7xftQOsz6u7pr+rO7JzvS/KE86nzDPXy+cQACAY5CFwI5QchCEAKag2gD18PnQ2XC9AJDAifBYkCGP8S/ML5dfcl9OfvSuxu6ifqA+px6avoWec55oLmq+ij65ruCvI39dD2e/hZ/DcChgbuCFwK+guIDosQqRHPENAOIg4AD/cPvQ9qEMQSxRPhEWQQphD7D0wNRQ4WFLIXTBYjGjssYTzmN4Ek7xrJJXQ0ejxGPpM6BS4ZG/MQ7hQAHDQaDA6e/i/xvuYg3/vXU9D7yyfKicdCwcG50bQbs+e1Hr6PyBDOuctxx2LIkdDH3L3psfNS+An4Cvdj+oAB4QhkDboOAQ+vDWYLfAioBj8HeQhrCaMH3AJw/Iz1e/KG8zD3vfks+Nf0yPGn8Rr1rPqdAM8DfARzBIUFpAhoDQ4TShg0GxEc/RtxHL4dPCCCI1Yl7iNpH1oaxhbNFA4U6RLTD10KzAP9/Yf5Jvad8+DwFe4960DpZefL5ZblKOfg6cHsEfCa81j21/jU+ykAfAQuCC8Llg02DzgQBBEjESgQcQ4kDCwJTAVFAeH9jvoc94vzUvBH7ULq+Oe+5p7mluY45tblPOYF6OzqBu588Sv1qPm+/QEBegMtBSkH7wm3DesQ+RAkD18O1Q9bEzcWoRj1GbUXGxWuEzIW1xkcHJMfzSDMH4wfCyj9N/s9DDTlJdEl8DCiN+01IjFtK1ofaRHODVATfxRLCBD3Yusa5KndD9hI1PXPn8ecv7W8Ub21vSa8UrzRv2/D4sWrx3vLONFO10jeeOZv7RbxdfJf9fH6+ADFBYkI3whUB7cF9wYqCoIMPgyaCaEG2QMQAs4B6wG3AbP/tfyF+uv55/o//LH96v6J/2n/UP9AAN4BUwQ+B0MK1QxSDjIPchCSEnQWbBp2HdceLh5SHKUZyBgfGnMbXhqkFTAQsQshCTwHeQSOAHz7Svay8b/uF+717cnsM+oB6KTnp+hQ6jDsJ+4N8OTxJ/TA9mj54ft+/hwBQgMtBMEDOAMpA64D1AMAA3wBuf7X+4j53fjj+BL4m/ae9NjyivE18VDyFPQF9qT3KPgS+Lz4yPpJ/r8AkgJfAxwE9QWUB5wKYg0XET4UshQkFT0VVBe3GSkehyTIJhIkuyJ0K7E4Gz06N78xUTKJNHk0fTb0OQ811CYjGf4VxBiqFkYOVQLa9UDq+OGk3i7cddbgzA/DAL0VvA++q78Ov9S8I7tzuxO/XsX2yy3RLNRP1+zbNOJk6W/vkvQ2+IP6gvzn/tUCJwa/B10INQlpCusKyQr5CvoKVgpvCcIIRQhxB60GNAYEBmEGHQfkB6IHHweyBl0GigaSB9wJmAtVDGQMdwwoDb4OkBG2E8kTSxLUEfcS3hSfFiQYSBiqFZERhA6XDSgNugpfBqwAUftQ9wX1jvMS8XDtDOks5ffitOKs4zPk8eOk4yHk1uXx6ErtSvGU86P0D/bd+Ez8cP+PAZMChwIyAnYCmQMfBRIG4wVWBOkB+f88/6z/NADT//T+3/2s/WP+Wv/U/zL/uf4a/8EA6ALNBKoFjgUCBfAFJAloDSYQ7g+EDywQ/hK2FrcbvyCgIWEg2iE/KmMyhjLmLWArQS1vLvEuczFFMfgonhsIFOoU4RXpEM8HP/0s8bflYeBW4Q/hptlnznvFdMEZwZHD/cZtx3fDEr9kvwLFfMw2077Xp9lV2hLdyON97IbzJ/dl+MH4B/qp/W0DbwjbCWgIqwaUBvcHWAqYDEoNYQtICG4GAgcfCdgKaQuHCrwIMgcCB8MICwtfDOMLeQqKCc0JcQtnDf4OUQ+zDs4Nkg3ADuMQ0xI/E8USzhEsEcQQRREgEr4Rhw9GDNcJ9wfDBbcCDv8q+/z2WPOw8P3uNO2i6pvnCuXh4x/kZuXW5rbn4+fb58boNOum7rPx+fPi9e73APoi/Gz+lAAKApMCyQIlA7IDNwSIBLUEswSVBF0ENwQVBAwEDAQMBMoDVQNWA/4DDwXIBSUGSwYXBl4FwQRfBQ8HAQm7CS0K4grbCzsN6Q4qEogV5xcyGkgekiRyKd4qdCryKpYsrS1+Ltsvpy8MK5EjIx5WHGca2RWWD4cIpf+t9evuwOub6GTiMtuw1fbQHc0ryxjLQsoXx3DEJ8TlxWjIPctYzqDQYtI51Y3Zmd7Y4hfmh+jC6pXtkfEa9v35LvxY/Zf+bQAVA+IFMwj2CDwIjQf6B6UJmQt2DcsOJw/MDoIONA97EK8RUxJKEuUReBGmEWAS+xINE6cSRRI5En8SzxLQElQSdxF0EK4PXg81D7MOew3YCyoKgwjfBm4FHASSAqoAcv5N/D76QfiX9nT1j/RN877xWPBl77vua+657jDvSO8G7xHvhO9X8F/xg/JN83bzbfPU88706fXQ9oD3EfiY+Cv51PmQ+k37BPyo/H79pP4SAKkBkAJpA2cEtQVBBzcIXwkbChAKfgn+CBwJignACawJqAmiCR4KhwotCxYMeAyQDHcMng3ED2MSMxbkG1YitybEKL8prirWKvUqSCyQLdws2CkjJ0IlQyMeIHkb/hS4DIsEOP6Q+fz0R++g6BHiFt0+2uDY6dac09vOEMq8xvvFPsd9yNzI+MgMynzMK9Bj1NbXatmt2YzaCd0A4UTlZOmf7BjvgfHG9Ov4kPzS/rL/SABfAR8DpQWQCFULmA2KD84RWBRAFl8XyheuF14XExdDF6UXGhijGHIZMRpzGlcayRnoGMMX2RY8FsIVURW9FOgTtBJYEdoPBw71C5kJCwdiBNsBrf/c/Sz8jvoS+Qb4aPe89ub1lfTw8qHx4PAf8dnxsvI+89Ty1PH38OPwFPH88KTwIvCl793vAfFp8mvzmPOV85jzRfSU9b72fPeY99L3ZviX+az7o/36/un/ggCQAc4CPwSYBYAGXAfKB4wILQllCVoJKgkvCRoJ5Ah/CEUIFgjfB6kHxQe2Bx8H1QadBzEKMw6DE/cYDh20Ht4fniKdJioq7iujLN0rxSraKk8sgC04K+Ql7h4SGc4UbxHaDUkIrQBs+IXyuO/p7drqt+Vf35XZqdUb1LHTs9E2zmrKo8gkyTvLW80nzqPNy8yPzTbQjtMp1mbXE9hi2WPcBuEv5mrqK+0O7zPxovTA+Kz8of+8AeADjwZRCmYODRJkFLwV5RY/GOoZdhs6HNIb7RqFGuMa1BvCHFcdMB2YHAsc2hupGysbKRqpGEoXFRYsFSwUxxILEdkOlAxRCjMI3wUrA9j/Lvzk+FL2tfQB9AD0DfRh8zLyH/Gn8MDwMPF+8VzxB/FD8WzyD/Sm9Zj21/aa9oL2Hvfq9334Zvjh90n3UfcQ+Cz51/nd+Zz5LvkH+S/52/kj+uX5jflv+SP6NPuy/Av+z/4w/5L/fgDKAbICywKVAqgCRwOHBKMFvgV9BLACBwLYAigEWgX/BPcDyQLkAjcFHwikClwLhAsPDdwRpBlFIvkmTybFIzQj4CbyK10wgjHrLWsoyiWpJ4AqTCneIigZ4A9yCrII/QemBDr9efTB7bLrc+zy61znzt8K2A3T4tHm0i3TR9BAy7nHicdFymDNwM7DzWHLLcoizL7QtNXI2CbadNt83rfjT+qN8KH0TvZi9xL6t/71A0cI2wooDD4NpA+ME28XoxmfGRYYwRbIFlMYIxrbGgkahRjHF50YTBqdG6obaRqTGFUXaRckGC4Y6xbfFOUSfRHvEIYQaQ//DMoJ0AaJBPMCPwH4/hP8OvlM90/2xPXV9EvzWfHz71/v9O/58IHxgvEX8U3xlPJk9PP1pvaX9n32y/bX92b5n/om+wb79vpb+zv8Vf3m/dX9ff00/T79k/2y/UL9bfzF+6z71fsy/Gr8h/x1/J/8av1q/j//fP+n/wgAaQDYAC0BsgHaAckBnAExAUgAbP88/+D/hgDTAPEA9wBXAYAC2ARIB8IIfAllCjwNMxLSGTkhDSVKJNgh1iLKJp8rqy5+LkYrnSYUJfwnHSsJKUghsheBED8MzQrvCU0FXvxA897uMe9o71vt9ucA4EfYQdSm1JPVbtPgzlnKG8guyeXMX9DC0HTObcwVzYbQ/NSl2KDalNsv3RPhGudX7WTxBvPX85z1CPmp/RICtgS8BcQGSglODZcRrBTLFSUVPBSjFGYWWxg7GbgYmRcZF8sXbRmzGp4aMhmOF2kWPxaRFucWJhZKFMQS2RGfEUcRfRDLDuULBQkMB/sFlgS6AkwA+/3f+4v6TPrx+bP4YvZw9JbzbvNX9AD2IvdA9/r2cvfN+Dj6uPs9/KT70fqL+kn7d/yS/YD9dfwT+3T6iPqh+nv6gvkf+ND2YPbZ9pH39feT99j25vZZ9xT4Svlu+bv4S/jD+BL6gPv7/G/9d/1c/er9Nv9EAAEBhQBN/+z+lv8eAfsCDARaBGME0AR5BpkIXArrCgcLJgsZDPgOVxRcG1QgoCK0InwiaiPcJXoqTyzVKssncCaAJwApmyp5KfYj8hucFbQSPxHVDbsHZwCT+QX1lPPl85zxWeto43Hdm9pY2fLXHdVJ0GDLr8i4yXLM483SzD/KK8hHyGrKWs3JzxLR4NHT0zTYe95a5GDowOqe7IbvB/Rm+TP+UgFDA24FEwnmDecSsxZsGKEYqRgZGnscgB4TH3Aeyh2zHdQeZiBhIaAgYB7sG0Ua6xmNGawYxxYvFCwS8BCSELwPCw5TC0gIwwUYBNwCGAHA/hL82PmG+K73KPdx9oP1e/QH9HT01fUc9733W/g1+Yz6xvsM/ff9av7y/nb/JAB0AB0ASP+U/tP9IP1L/NT6i/le+B34VviI+NL4Z/gB+BX4gfgQ+S/53vhZ+Cn4Sfgx+VX5Gfm2+Az4M/iP+Hb5jflp+U/5J/q3+zn9sP6M/mf+w/5j/1sA0QDpANQAbAE9A3MFmAcqCcAJ+wlQC4QNbQ85EPwP9Q5SD3YS/BbwG20fJyCdHxAgzyLyJXAmTySpIY0fNh/eIGsjwCQ4IfYbxhf2FRUUSxAWCxUEY/yy9vn0hPSD8gfuVeiY4/Hfct222qDWf9AdykLGDsZsx43I78j6yDfJDcrPzDfQU9LJ0vnSwNTF2KjehOR26YXtKPE99Vv6i/9yA30FMgZWBz0KTA7FEoQWBBmaGmkcqh6nIGYhEyDnHZEb8BmUGZcZghlzGGIXnxZXFuMV9BTsEqMPegwzClwJHAnZCCsImQdDBwMH2wZbBjcF0wKrAAr/mf7Z/vH+i/9R/3T/WP+d/rT9+vuV+nf4RPe99pb2SvY19kj3yvdY94b4E/2OANwAaf0e+Bf03fK584/1YfeW90X4vPhA+kn7cPlY+Rb33PVf9/b3x/ny+Gr3/Pfr+Fv7hv1B/OT7v/v/+qj79PuX/GD8rfzs/PD+9ABtAeECbANZBAwEgAPFAroAAf+X/jn//wH5BCkI2gtXD6QTvxV7GNwa3huLHdUfRyRmK582EkRETJ5Lh0jaRjxDhzkhLIkgBhYwCoj/U/sA+8H1hupc3zDYC9J2yZK/6LZHsJer5quXsiG9bMWBy53STNu+4zDpLe2N73TwZfIi93n/PAhKDssSVhXZF+AX8xTODw4HUf349GDvNOwS6krpuOlt6krsx+0K7yzuh+xu61LspO/I86v5XwEnCmMT9ht/I8oniyhvJwomKSTNIUAe8hp5GAUXoRaHFeESSQ3PBoMAAvsY9bXv4Otm6V/oL+qN7inzjvbi+Lr6sfyU/V396vxu/In88v2PATYFawguCo0KEwoEClIJrghRCBcJVgqzC8ANhQ/oEDYQmA3jCfUFGQIU/4f8FvsQ+6X6SvqT+jv6k/hF9t7yFO817O7qNOr86lPsQu6R8FfyvPS09KrzR/Ot8uzyf/QU90X6DP00AOwBmgRLB4IIkAaGAlr/l/sF+vr5IPpU/bYAiAYbDdAV/h1MI4IljyTuJmkpgS61MYI0Wz25SPNU6FqwV0BSSUf5NpslPhS2BIDzWOKk2CXVENO50LfMQMggwn+8Pbngtn+1/bM5t3+/Scw93UDtjPtIBMoKwQ+TEbIPdwonBNf8g/cm9fv1NPe79gr1UPJo75Hq3eSu3grYjdNd0kzV8tqo4/LsNffvAdALrhRqGxMfzB9lHxgfph9BINMg5SBmIAMgvB6vHG4ZnhOXCwQDpvs89W7wYu2864fsXu9o87v4e/2OAb8DWASpBcgFZgZDB88H6ggQCkUMwQ3eDl8OaAwKCR4FiAEo/Vf5q/Wu87b0Tfd6+1IAfgYjDEwQgBKQEpkR9g4GC8gFcQGc/gT9+PvG+1v8IP21/cP9e/zB+VD2HvLy7dfpY+bp5HrkN+X95pboMev37fTwIfKX88j1yfdq+jX9/QA3BlMJJwsbDFcLOQuiB98B5/sE9cTy1fPN9e35Ff5BBeoNwxVuHekilih2LPQt8DEKN80+Tki0UcxbSl+oW4VV8034RIE05R3WB7H0aeSr1WPIV78xud+1MbSCtfW4Qrqdu9O6prztwSjJ/9GL2m3kLPCh/fYKPxVbHMUfoR+1HCQX4Q+/BqT8zfGE6CLj9d/f3RPcS9tw20bc3twv3drdId9F4WXluutp88f8VwYEEF4abiRgLNMxIDQ2NNYxmS3IJ6ogBRnYEQcMVAbKASD+UfpR97/0GfLO77btzevS6RjpKuoh7Mruo/La9rz75wESCJMNJhGZE9wUuxRWFJ4SFg9DCwsImwVTBBgD3QLrAnsDOQQqBBsFsAUVBawD1wHz/7r+Zv2W+zX6PPqW+sn60Pti/Bn8rfo++Lf11/Pu8WLvG+6k7RTuXu8P8f/y4/RY9mr3xvgg+tD7Y/wi/SH+kP8iAusDBwTGA/YBgv9P/Y/5Bfa887rxm/KE9Tj6tgE2CTARahi8Hboj+imwLk8ztTc3PwBJHlNHXRhiwWCoWqVT70x5QTEvQxkbBILxtd/5z07Dg7g5sPSqvamBq7KtdbCpsSCz3rbfvALFTM0Q1hffU+qy98gFDxP5HB4kwiiuK98rdCmGIyMaYg9xBF76tPFc6ofjVt0k2bLXvteJ2MLY39jF2dHbkt8+5GTpQu9z9nv+IAjIEo8dtyZRLSUy7TW3OJM4KDUrL+Yn9B8VGK8Q8wnXApD89/eZ9D/yCfCG7X3qvOd/5S/kIeOB4rTi3+Mj5vnpS+/Z9UL8hwJvCCsO7xN+F1oZARrbGb0ZzRnpGXgZvRcdFbQSHxE8ECcOwwonB2MD4/+J/An5PfWu8ZfukOyC6wDrh+rD6aHpJOoI6ybs2exk7YvtCe4O74HwD/Ir87f0XPYI+V78Tf8mAsUErAZpCFgIJwc7BqkE6wL5AEsAjQGdAtcEqgfKChsPIBOhF7kbfB56ICciqSRdKcEw3TixPHw7aTvkPhZCbD/7N/Uv8CaiHAITAAugAbH0C+iF333aLNbf0dzNKMkCxNLBR8MixWDEb8LDwWrDw8aPy2XRRNYR2+vgWuj58I74zf44A7sG6wkYDXkPVhDXD1EOIg2gDJgMSgwVC60JhwhgCMIIpAjSB+gFrQPHAUEAm/6s/If6Kvnk+Mr5b/sW/bz+IwC5AbYDegVcBjUGlQVMBU8FdgVzBQcFsQSgBDUFUgYgB3sHTgccB/IGcAaVBSAETwKfAE3/Ov4G/b/7FfvW+gv77/v0/ET+Wv9bAK0B/wJJBCgFfQWiBdUFVQY6B74HwgeoB8sHQQiCCP4H0gZMBWYDQAFT/uv6i/fl85bw8u0R7Jzq4Ogp5xvm5eVS5sHm9Oby51rqtu3/8EX0QviH/IgAOQOfBBYGEwdIB5kGWgX9BM4FywYrCKoJtwvFDuoRfRUhGZYcdx9iIUYjJCe8LFUyMjZeONQ6Rj7EQchC/j8IO8E1DTAlKUUg3BZyDVcDL/lL8BPpRuLc2mfTAc0TyDHEKcHmvSW6v7ZatQO2TLeWuLu6qr4XxJ/KI9JT2rbiZOrj8Ub5fgACB/ILwA+yEnsVPhh/GvEbVhxcHLgcTR2WHegcaRtoGfIWNBTMELkMTwivA1D/afsy+J71OfNI8T/wHfDC8NXxD/Mx9Fr16fbo+OX6afyg/QD/rgCfAqMEuwaTCD4KsQuyDNEN/w78D/4P+A7oDSgNeQz7CocI0QVOA1gBxP9d/vL8mvv4+iv7BvzB/BD9d/1C/j//JQCVANAAvQBYABcAuf9Q/5z+yf1P/dX8Rfw9+wD6wfhV99P1LfSY8gLxZO8X7ijtseyn7MTsX+107v7vQvLM9J33xfrU/cwABgOxBG4GagfRB6wHZAf0B4kIIwnECb4Ktwz+DdQO+w+sEb4T8RQiFvIYPB17ImgnkytiLx0zBTdHOgA7+ziGNQwyOy5lKAghcRlsEiILNgMD/Nr15+8Z6frh69ux1r/Ricxix2TCMb6Pu0C6erkHudK5o7zSwOHFsMtF0jzZduDy55jvqvam/PABxQZHC0UPzBLVFRgYuxlOGy8d1B6NH0QffB6RHT8cJBprF0UUsBDWDA0JnAU+Atb+f/uK+Cb2RvTU8qDxiPDQ76nvBPCs8JHxzfJR9BX26/fa+Q38bv7vAEADMwU/B5AJ0guEDXsOYA8lEG0QKhBmD2YONA2uCx0KnwhIBwYG6QT8A08D/AIVA1MDRQP/AsoCqgJTAnQBFgCw/pb9zPzh++D6MPpj+ZP4yPcK9xz25vSt853yovF48ErvLe507STtIu2O7Xzuze9F8efy4fQu92H5QfsT/SD/pAE/BFkGMAjZCWkLlAzADCIMMQuFClYKKwoQCjoK4wrwC1YN4g7+D8cQdxGeElIUVxY5GbkceyAEJMUn6CsfL5UwcDCgL1UuxCuEJ68h3RpdFPcNjwcOAa76V/Sa7YrnAePD3jvZltJHzajJYMbUwo6/lL2ovIK83L3SwPTEcckyzsfTStox4QjoZO7z8+744/0SA+cHkgtWDjERWxQ4F1MZ6hoFHIAcohyJHEYcWxuIGUcX5hSHEjsQ0w0cCykIYwU5AyQByP5V/EL6hPgX9xv2jfUe9cb0ofTL9G/1efaG91v4X/n5+uL8dv73/+kB4ANNBXkG6AdbCTUKjArsCmkLnQufC4wLYAs6C/4KyQqXCmEKJgrkCaEJTgnQCBIIEgcZBhYF7wOpAjQBpv8y/r78KPtt+c73Vfbv9IHz+PGm8J7vjO6O7QXt4+wU7WvtLO5f77DwLvK28471rveS+Xn7tf33/6wB3wL7A24F3gabB5oHqgdLCNYIgAi0B2UHXwd3B8EHVwhTCYkKZgsDDN4MyQ2WDvoOUg9qEGcRjxLaFKwYDB1NIM4i5yWjKS4s3CulKXon/STZILUbtBanEdELvgWvACn8cfdz8mftnujs44jfvds22DvU/s8DzWrLIcqkyOLHcsihyfbKVc0H0erUT9gC3OvgaOZG62jvnPP89w381v+bAy0HLQrTDJoPVxKiFG0W1RfdGIMZ7RkwGusZ7Bh9FxkWrxTvEs0Qjw5ADAAKyAecBWcDRAFO/5z9Hvzc+sr5ufjg9333XvdW92T3sPdB+An5Ivpl+6785/0W/zoAZwGIAo4DYwQABY8FIQaRBtIG3Qb4Bn0H7QdaCO0IVgm4CesJFAptCoAKUwoOCswJKQnhBzcGhwSXAnEAYf5g/Fj6Vvha9pH06/KM8Znws+/+7pHuUO5v7m3uX+7L7orv/fDc8m702/Wu98v5gfu9/PP9uv/CAUoDHgTaBNkFkQbmBmcHZQfWBqAGtQYBBoAEHgS3BYUHXAgDCWkKYQwKDt0OmA+DEGsRvBG4Ef4SsBWZGDEb3x7pI0EnmCcmKE4q1CrHJtQgZR1MG2kWlQ5FCAsFDQHA+m71LfKY7lDpTOQV4Rze8tlz1WXSAtDyzD/KX8miySzJcsg6ylTOJtLP1PTX2Nzf4d/lt+lt7i3z8/Zk+p3+OgMLBwoKJQ1mEG8TChY0GO4ZBRulG/sbJhwqHJYbVRrGGEAXqxV8E4UQPA0iCkwHiwT8AZn/Sf3n+sb4Wfee9gf2PvW99OP0i/Ul9or2wPZK94P42fkp+6L8Q/7E/0sBpAKqA5YElgV6BrQGzQY/BwYIUgg3CGsIMAlCCvsKNAtHC9wLrAwtDXcNKw2zDMkLzQk8Bz0EZAFU/lH7G/ln96b1J/S48hfxnu+17gPuK+207OzsRu207S7uye7C7xjxqPLH9CX3Lvnu+r388v6kAP0BPAMPBPYE8AVQBnkGcwYBBkEFjQRgBLcE8gRrBXMG2Qd0CcgKAwy2DHgN2g64D0IQRBFaEgsUyRaJGkEfpiSjKUwsMC28LsIwyzAbLXAnjiI3HtkYqhJWDT8I7AGQ+3j3svQQ8FDqy+UO4xfgpNvs1vbS2M6AylrHIcYRxkPF9MSPxr/Jw82c0dLVZNpV32/kDulJ7bbwVPOf9dX4y/wwAB0DZwZZCvINTBHQFAcYQhrcG0odTx50HmMdpBuZGcwXAha6ExoRSw6ZCykJDQcKBXwCw/+F/RL8LPsw+tj4nfct9+/2nvZH9kH2e/bd9v73evm2+i/8F/5w/7sAtwHgAhYEtwSRBY4GzgdeCYMKlQuTDGYNMA72DhUPzw42DggNkAvKCZwHTAUjAwABu/5u/Fz6+Pen9YfzbvEE8IbuQ+0p7FTrSOvB69Psae5d70LywPXr95P3NvYt+Az6mfnb+DD5yPtM/R3+XP4T/h0A6AKLAhQAMwCWAhoFxQVMBFkDQgKnAAkBiAO6CGcNbhGHF50dtSNmJ80pyStPKT0nRSg7Kr0pBCnyMZpA2Ef3RVFBzT1/OMYuWSAZD3f8P+lT2HXKjL/KuOi0U7FjsAy21b5HxMHFiMd8y2vPUdOa2MjfJ+aO7I31AgEcDdQW+RrKG4Ab/xifEzQK8f4y8z3oIeFE3ZbbOds73FnfIOQZ6pjvW/O99WH4rfwPAgIIIA7VE+gZAyHeKCgvQTJ/MZ8tsyjMIdUYJw4GAgv3Iu+r6Vnn9eZf5yHp++sP8VT21/m+/Bn/TgGmA1AGjAnYC/ULrQzQDrIPCw5WC3UI2wQrAMb70Pm+9mj0i/Wf+JH+6AOVCSgO2hBaEv4RMRHoDuALbwhUBUkD3QBg/bn5xPZZ8yfvfeqg5cLgV92f23nca9+05H/r3fKS+sQA6wR4BuQFQgREAHf9ZvvV+gn8cf2WAEUDcAUxCMwFngCM/Sj8Afp1+KT6Zf/PBuIQyBrnJccvIzZyOJ42yTSAMs8vJC0ULIcyM0ART0NW61NPStA8NSwaFf/5Qd3Lwfitu6Plox6qD7KnvVfLxdha5N3t//Fu7WTnveWl6Q/uDPJP+D0Agwg7DuMQ2Q0pAVPwIt4Tz3PEbbuKt+O5PsIu0WviGvS2AiANrxP+F2MZkBdfFJIQ2A8/EmgX0x05ItgjfyJhHl4XuQ2uAUD1l+rD5Erl5+k48gv8zgaGEXgaIyB6IWUeHxeCDn8G1gBu/Cn6WfpB+4T9YP/A/4f8QvYL8HrpbuQ24nLjNeiE8IX7lAh8FYcfGiYPJ0wlBCF9GbMPRwTH+qn0hPH58PPxrPMk9iX4EPl2+Uv2b/KP7v7qUevm7NvwTPb8/MADBQnTCgAJXgOm+3jzOuuh5bbj8+U77D/z9/wRBVcJ+Ax0C9YHtwIN+1v4r/Rh97AAqgdREsgcHCbPLSMw6i97LDYolCNJJB4tADteT9lgymu8agtaTELKJE0Dkt98vpCrTKc2rgi7VssJ4Lzt4fQa9uv0qPBi5eXbX9op4bfro/goB4MSYhmpF+wNvf1O5grNLLlXrIKp7q9PvczQ9OUW+WcKrxMAFhUS7whIASD7h/lh/JYDtA2pFmUefyEiHvgUdwck92Lp399+3DbhFOzk++0MQB2nKa8vzC+IKm4izBb7C80Dyv5j/zcD4AikDEwNLQqAA+/7GPH65i7fs9to3znngPMtARoNOxXGGTgacxeqE04O5AcWAZD9pPwK/bj+lQDSAJb+lfvn9uvwz+r85c7jo+S+6Xzv8/U5/GMAZQJFAnX/pfpb9SnxBO2k64Ts5u5+88P2bvzUAWQFuAlyDE8O6wzlCrAEcfyt9ffwefLt+M4A1AoqFzkj+St6LzQuPiuMKRQq8ir6MIJCrlj/ac9wGWg4UuMw8Qgr4o7CZqxAox+oXLnr0Zbp+fokAmL/nPbR7Vno9+TQ5hnutvzCDxEgxCcQI8wSX/lu3NTBr61lonOfVqdpuUzSpeuM/64K4g3aCpkEzf7s+un79QDACWQVyx84JhwklhksCQ72nuX+2HbTw9Yj4EnvOgEpEs8eWyXRJXcgURneExMQLxGFEysXqRpMGnwXkRBzBl76oO1P44Teg+Ha5nfu0Pci/7kF+grXDHoM6ApQCIgGYQZWCZcOoBP3FIgRiQqrACL29uqb4RPbw9jg21DiN+uW8y75Wv1z/sD+rv4a/vz8SPzW+5r7YvyH+w/54/V+8dbumu9F8ffwbPFt8Z/0Ff2IA1sLqw/jDxMSIQ/hDksNXA6oFA0YySKDLYA4EULfQhdA+TiYNIE3kUNjUPxP3D+WJScO1vlY4v3LXr3huS2/Assa3vDyP/0m+bbwZO+F9Bz6ivzI/pAE4Qp/EX8UDxCAAJPoYdH4vyC5irgNvKbDLc6A2tfmHPHS9T/1qvGQ7gfysPocBvoRwhlaHUkdvRjyD6cDmPXE6Qbk8OXC7Vj4mAHzBrEKpQqZCScJdAdECHIK+A8mGLYghCcvKCUjqRlED/8Ek/tX8/Pt7O2E8W74qwBOB+gJyAfpAyf/p/wm/dH/DgNlBNEFdAZDBRIAd/dn7Xrj6t0x3DndzOD85ZXsCvOB9yz6ufjV9Tn0KPUF+Zb+GQPuBdQE6AEv/UP3rfEi7cHuQPTg/I8EUwZzBpsAx/wb/AT8YQInChIWWSHhKIgxSzKWL5st9Sw1MKs140PDWCZqymsDV7E1pRI99HTcK89k0G/ap+MV6anr8el84czSwsaYySnbF/bDD0EhjCaFILQSqgIt81fmpN0p2ojdOeUS7Cbrv+H30hTFz77IwVrO5uAO9cIFDhExFQMSxAnX/nb2UPRK+SYE1A5/FYkTPQqv/aPxeekM50fq6/Jl/l8JXBOqF28VoRGWDNkJBgy1EK8XkhzHHdAc4ha3DiYGhP7x+db5Ov3gAa8EqwQIAv/8oPhl9fP0gPhg/tkDIQeWB/IDRv1Y9XnuGumZ5qTmfufo6NDoT+fJ5Qbj6OLo43fn++yT87D59f2mABkCXwLSAeMDjQU1ByQICAc2BfMALP71/FYARwfsD8IW9Rm0G5QcwhsLH6wnETO2QQRRrGGiZ2hZkznqFt0CDf15/1EC5AU3BTD7u+uu2+XQ/sn4xpDN/eDE+/oP0hVNDRn/QvM77+j0l/7PBngKlwfz/yr08+Vn10vM8ccYzZLZAOgU8r/zK+0N5GXdBN5+5kHzMwDbCT0OgwyiBuz+mvYL8iLzhvlPAo4KSg3DCT0Dqfut9zX5Hv+ABzkP1hOlFh0XVRMSD98Kiwj3CjARORi4G3UZ2hImCQr/Ifk9+hj+ZgK9BNsCVP+e+m32+PRA9VH4PP1HAYoC+///+ezxLeqr5ZDk6uVt517obufJ5Fvh1N1b3cng9+cq8Wz3qvmB+EP48vYw+TT+pAM+DeMUiRo4GYwRQwtECxEVmSHDLsA7VEt3XLZhclX5PScndRkgEzMVmBrfG/0RKv086vXdm9is2ePfmOli9DH+kwEo/yL4SfIl8wf75Qj7Fb8bdBdeCo/6j+1d5lTkGOap6Ezpq+fZ4+zevdmE1fPVSNtj5BnuDfVD+P/2qvR89F/2DfuTADgFHwfdBVECXv3x+AT2sfY3+ur8p/9SAZ0B+wADAooEPQmzEX8a7x/4HDwVlQ5jCsEJwArkCo8I7gNl/Oz0zO897ZbunfIt+GH+awKsATn9e/p7+rP9sgDKAq0CZf6c9+7tHOaP4mDkIupQ7E7rS+e/423ileNM6CLuWPed/4cGIwuKCC8G8ASoCi4XFSeqNY8++Ui4UZZTckr0OT4taCVMJekmHiYfH9ILfvZG5iTgdeJT5zvrJ+yQ6m3nDeWx5EPmnewT+MIFShGAFl0UjAyWBKoBvQRfCjgOJwz4BFr65+4D5uDgQd8Z4Enhc+EJ4M/cWdm31+HZ++AR6rnzEPrw/Mj9y/2U/4kDtQnADmoSaRMxEUkNCAngBnIGyQpoEvkWghNGCXf/C/qJ+Z/+DAS9BTMD3fzs9WDvkuyK7vbxFPaV+YL6e/cW8zTwpvAC9OT4Dv0J/s36YfUW8NztDfAk9C73Aveg9FTwX+vw6eLqZvAd99b9swG//9f9GfpE/iIKOB2uMd05cD54RdBSLlwCVsRGtzp+N6M2cjPMLOMeWgoi9WLncOTF5Zzk6d+g2ajVJdXg1hPaHeDH6FLzIv5VBi4Ktwl9B+gGoAplEDATDBEmCVf/afZx8ITtS+t36WbmLeLe3SHZUtav1fHXet2X5KXrl/Cr8wL2Pvn2/hkFTgtOD3UR1RLdE+8VeRnyHYEf4xvNFGYQMQ6zC6wJPAZ7Aub9k/gh9FvxIPEX8tHyX/JT8d/vmO6P7hfwB/OP9Gf1KvXY83HxOe9975Pw5vKS9D7yGe1f6JXnbewn8NjyvfJ872HwgvM4+2MABQiGD4oS4hhoJztCZV0/ZldXOUCaMSEzrT67QyM/Oy/hGGwF1vmy9Nfv++qD58DlLOX/4OnYudDdzeDWlej7+Z8CxgCg+on2CvvLBZoQaxeLFqsQ5QkZBHgAHv0I+6D67Phh9FjuZeX63IPYsdmk3nvjweXv41ThTuG05vjvNPmeAd0HjQx2EI4USxneHH8fpiL4I0YjVB9cF30OTAYiALz8Ffop9e/uEeg245fgc+AT4szjTOUN5rnne+iH6XDrJO4v8sz2NfsC/Qr7Cvki+Yf8tQAXArEB4v/C/+ABKQLJAFgBkAaBCzgP4xVOJ4lBc1FFTO47WTAPMvI8zkSZQ7Y45CTBEM0E1QMmBj4BMvaS6v7i3ty01oDSrtCq09HaCeM46FnoueYb6Srxf/zTBP4H/AU+Aej+z/8IA9gFIQbjAy7/wvn488TvYOxl6sXqfurs6KjmYuRx5JXn8+0J9Fz30vc59135JQAbCfoPNxIQEo4TGRa5F1oYJRheFhQUwRGjDtMKDQb1AGX8DPkg9unyZO4t6VvkkeCA3RLc79zj3cndPd6f3kfgRuf77/H4pf8dAmsDfwQNCFQNtxSHGQodPCBIJbsy3UhYWdxTaDyIKLYsrT6vRjlA4y6BGHMDYPhx+/MAifxo7//jIN/L25HZstg42jffXOYU7gby3PGW8l32t/4DCOwNcA1CBkYAqf5YAP8C1wGw/bb2qu+J6w3p2uY35aDjLOKk4H7fT96w3vnhSeeQ7ZfyfvW99mz4Ffz1AagIuw2dEG4QlA55DXYO/Q86ECcP1AycCc4GLAR0AbH/uv1t+0T5jPaS8oPvre0z7KPqh+f85Irj3ePJ5R3pDuyO7370Evkr/cEAUQPgB+8NZxXjHesqq0CcVMlX8UhnO2s/P036VRdSm0PkL10ckA8sDfIO0AcV+KbmSdp/1APR0M5czdzN2s/+0ZDVQ9nE3lboOfPv/eQESgYABpAH3gqJDwkTyRLdDl0JwwRuAYn+Jft+9nDx6+um54TkaeHy30fg8+IT5iPnp+fc583qT/DR9qP8IwBuAvIDbwYbCg0OrRCEEIMOVwuRCFkHpgZZBc4Cqv1t98Hy9+9l7tfsPulO5Ifgk96c34DhdOLR40LlMOlb7ejzPvn5/JkCXAduDIgXPi7RSexXLlKCRYtCrEodVV5da17KUds6QCc2IHggQx4dFIcEPvJF4Q/X39K+0QzP7MokyCjG9MaxykjS19uT5lvwNfVZ+Db7hwBSCQ0R1hZLF/gSxA3ACpAL4wsiCkkEb/uN8jHrNeik5pzl8OM04t3gz94W3ybiEOfo7KDxx/Wj+AX7gv8cBcgK8Q4lEXMRvxDzEIgRaRHiD8UM1AdbAsr99vlR9mjxQuuY5angQ98d30XeMNw024fcId8g5THrZvDM9Wf7fwK5CjQZRzGlShVU4EkxPbBAB1OXYW9iClnrSKU13yfgJgErFiSLEb/7Wut84NnZWta+0I3KIsUZwzHDd8T2yLjQ6tru5J7rMO8N8XT1lf5tCIYQdRRVE8QQRA8yEfITFRQ5EIkIOgDg+ev2+/Ra8nfuFurL5mXj6OEn4ofkkufy6cDsfe4P8d30YPlc/8UEWQg7CvgLlw3IDyMStRIUEX4NLAlYBQ0C0v5C+if1Au+U6G7kRuGP3jPc5NrT2ojbr92S4KblcuzN9C/+ugmKGOYrID3kRdNEiD9wQlBRs2GIY8BUEUMvOdo1BzTAMPUnsxYaAdvwfulC5iLhEdmo0JbIHsSixU7K3M560rHXwt104o/mRes08gf7+APoCiwNrwuUCkwNixFPFJUT7g0TBwAA9Psl+//4LvZR8Dfpb+R34SfhueFu4ZDh5eFJ47TlM+n27HnxufYk+47/xwOiB1MLcA7tEGkR2BAgEL4PsQ6KDBEILwLg/Fn4ifUE8ufsW+e04+ziG+MS5WvnNeqo7YHzdf2kCk4a9yskNxg2fi+MMoRDwVPaVr9NUELHOZMz/jJxNGYvEyF5DJr9MPeh8mztI+Wk26/Sns3izYrPB9IG1KzVKtla3AHhf+Yl7NTy9fkzAIgDugVHCEwMqxAAE8ASTQ/mCvsGBQXgAxUBLv3n90ryIO2K6RTnQeTG4QbgTt/53wHh7eLa5cDoa+xa8Eb01fec/HMB7QU0CcoJ4AkjCgwLFgy1C5UJaQVaAU3+Kvvz99/zAvAe7r/tUu5E7qDuCfEo9nf8NAXJEOgeCivBLrMs0yyHNR5Df0owSEZACTmzNNwyczNXMSgoixlnC2gBnfui91jxqucb3XLWpdRr1cHVMdaD1kbWa9eg2rTfvuS06ezuBPNk9zH7Tf8NBJkHvgovDQANkwvFCaAIXghBB8wEfwDD+4b3TfT78WrvUOzU6PHlKeTv46XlAui96cXqvusL7nTxq/Uo+jX+kgC1AYECrgNBBcoGtgfTBnIEbgHh/nD9AvzU+e/2pvRQ86TzdPTu9H72Efph/sYEkg7VGXEj+CmVLKcrWixANBRBaEcVPwcyxSzELc0tLywYKa0frA/gACb8Gf2a+QnxYee834nam9pz3jLgT97g2rHZFtxA4CvlpemC6wftdO9E81b48vzpAMQCcAOqAyoEnwR/BMMDPgPjAm8Blf5T+iD3B/WQ8+nxAO+l63noLuck6BLqYezf7FnsG+xB7uvyyfch+5/8+P0B/7cAWwOuBrMIyQg4B74E2QJFAoICHAKy/538DfuZ+ij6n/oD/Df9EP9uAokGMgxCFTYihixNLT4o9ChWM7o9YD/9OlM0nS2PKNMniisWKt8dmQyCAVL+H/wI+MDwBueu3RXYr9k63j7f1tw82cPX49iV3d/j3ufo6TTrqe0W8jL3TPxSAN8BswLvA5cE9gQ5BYgFvATtAtsB5gDj/nD8j/lg98H0mfFp74rtv+yo7PXsve0i7uzurO9Y8Cvy7fTT9/757/sv/QP+Av9YAJgCCwRdBLoCzf8+/Zr7Yvvk+kj5rvdx9XrzIfMV9If2W/kX/YwAGANqCRkWRyVBLRgs9SmjLXs3/EC+RPhBWjoLMjouizCdNIsxFCSzE18IzwN8AX3+qfjP7ZXhatt+3UjiPOPY363bONjd18XckOP652PoFejj6VDtu/F09v/5f/sO+/76nPvj+3/86/wR/dz8wPtp+sD4Ifdc9hj2rPU59HDyKfEe8YbyhvRU9m/30PdE+Bb58vqq/VEARwICA7gDvwPiA6kEhQUoBqcFGwRzAW7+0ftE+kX5Ffds9OXxn+987SDtG+6H73DxPPWJ+qf+rwNDDDUZaSOYJdolAyklMKw2WTr+O0w5JzMvLZ0sYC/6LaAlCxn7DbAGAgMNAcv9BPeW7fHmROYE6UDrweoL6CXkt+Hy43Tpo+3l7n/u1u4k8KjydfZ/+U36LPn699f3CfjQ+Iz58vgf+NH3gPdY9ub0XPSW9DT0B/P58YfxYvEd8hL0S/a+9xv4evcv97L3F/kM+578yf1e/nX+nf55/9EATQKmA0EEKgMdARH/R/7a/qj/Pf88/X/6aPjP9+f3DfjN9zv3cPe2+BP74P7sBRQQUBgYG1waSxutIDYndiziL+8vlCuyJPAhhyUSKqko5B+dFBULmQTnAagCMgJz/DLzqOzg7Orwc/QR9oL0SfAz7FHsDfE39uf4PPne96f2x/Ys+bj7g/vI+eb3VPbf9Az0q/QG9Qj03fLY8jTzfvLq8LjvRe/E7wLxPvKl8sDyn/OD9cD3c/nC+hP7jvqC+rT73/1U/9n/JwDAAG0BAQKvAloDdwOpAr0BYwEuAbsAJgDK/5//Vv9j/in9LvzG+777evvZ+i/6l/mK+S76Hvw9/1UDuQgmDo8R8hHlEQsU5BchG2EcfxwtGi8VzBBsEGsS1hCzCjEDw/w5+MH1+vVW9uLz9O+Y7iTxCvYD+/v+cwDBANICqQcSDgcTqxWWFpsW5hYyGDsadBq9F4ETVw+3C18IbAVgAmz+8vlJ9pv0/POf8vvvSe1i61Dq8+lW6mDrB+y260brCewV7WTty+2y7ljv7u4t7hzuju4n7y7w+/G588T00vV198H5Nvxg/uT/zwCAAXYC5wOPBcgGJgeyBi8GKAYkBrgFHQVABBEDrwEGAbsATgCZ/0P/8v9HAXgDMQYMCKYHLwY+BWEFuAXsBekFUQQzAVj+ff0G/s39Tvzo+Q33ZfTI80f2uPlI/Db9n/5WAc4F7wteElMXnRnxGpIcFh/aIQUk8yS8I14h8B7pHL0aehebEyIPBgqcBTkDoQK+AkYCkADe/dD6lPjq9mL2nPWx86HweO3A6y3rYuvR6qLot+Tp4GrfCOCY4ZbiceKI4WjhwOPi6CLugPGo8uzyB/SO9rf6m/6jAMUAOgDtABgD0AWUB3MHxQUaBLIDvQQnBrYGzwUdBPACFQP6AxQFvgUBBmcG+AalB+UHYwelBjUGegaEBvwFjQTMAnYBOQFqAVkA7v0M+yX50vgP+tP70/yK/O77+/yl/+0COwV2BpkG+AajCIIL+g2kDkkOog16DfQNow5yDmsMmgn7BqkF1QRABOYDUAObA5AGzQywEQoSmg9HDV4MtQzgDsgQZg8ACnwFOgUQB6cGiAIM/K7z8+x667rtyO6R6xPnx+TR5V/pvu1C8EzuFup06Bfrqe/t8obz7/ES8FPwc/Oh9+L5/vjP9rT19Pb9+ej8bv4O/hP9Nv0C/5gBIgPmAlgBTADEAH4CvwQ2BtEGyQbwBvgHcgn+CooLdwv8Cl0KrgmKCa0JzglHCesHMwZ4BP0C6gFSAYwARP8C/g79k/xg/Bv8S/v1+Vz4KPet9n/27PWi9DjzHfKu8cDxNvKo8oTyjvLB8iD0zfVr97f5Nfxx/00EMA1cF8wd6x/dH2ghESS0J+ArJy4RLE4nvSW3JwQp0CbYIXoa0xFxC1cJHwnuBbP/6/kr90j2nfYn9+n0X+/g6eDnpugR6VLoeuaE5JTik+J55EvmWOYm5cvkEeXu5Xznj+n76ufrEO2H7tzv4PA38qLz2PRr9eH1c/bd9x/6Sv0mAJ4BkALaAwAGqwjfChkMvAsCC2wLPA2XD6UQARBGDpYMMgzSDGsNyAzMCnsIFAd0Bl0G7wVVBKEBzf60/Dz78fkC+Fz1m/Je8D/vq+6k7frrUOo06R/pu+mr6jLrx+u47bvwuvT0+EX8Mv/PAl8J1hMxHzcmoSf8JisokyzbM8s6yjxbOLIxCS8HMY0zXzKxKzggkxT+DrQPYhDmCxsDCPoe9CbzofZq+GjzO+n64BzfDuFP40bjYd9m2TDV4NYb3MrfTt843P/Zhdpn3vfjQOj/6FbnFOen6QPu0fFi89zypvGw8f7zsve2+on7Gvsd+/T8ygA5BeQIAwvzCx0NXA+qElEVexZQFoYVQxWTFTQWTxY3FeoSCBD+DbIMpQsUCv0HkwVZA68ByQA8AAT/1/wt+sv3vfUC9Dfy5e9+7V/rUOr06Z/p3+jr55Ln/Of66APqAet57BzuofBV9BD4gPob/A//UwQ5DFIWJCDlJT8mNCaeKpgydDlEPOA7zzi3NHU05zgwPEY3+ys5IXcaSxfIFe0TcA0YApX4N/b8+On5SfbK7mjmXuCM31vijeOv37nYtNM408DWttqP27rYhdQm00/VQNrO3lPgL98v3onghOWQ6p7tT+6n7ZbtDPAV9d/5Evww/GH8Rv69AWAGaQqpDP8MiQ0IELcTYRfqGTsbORufGhAbUBxZHe4cIRvCGJEWTBXfFH0U7hLmD44MugnbBz4GcQTXAST+avrF9z72AvU189rw9u0u633p/OjB6LPnDeYX5fPk/eWX58joL+ki6Znp2Op/7CHuCe+F78jwXfOu9lj5WPvo/Mn+TAKZCQkV6R5yI70kfifuLBUzczkuPg0+XTpIOOg6GT79PPc3rDASKIIgLh3oG9oWBw2XA6b+z/w7/E/7+vdP8TnqFufJ56bnduS43jHZctX81K3WzNbj09PPOc61zyvSdNRg1TvVjNW92IHek+Mo5n3n0Ol/7QDyn/bm+UP7yvsf/lQCPAYcCHoIpgjKCbUM5BAkFOwUQBR1FJcWwRl3HHIdXhy7Gncauxv9HJgcRBr2Fg4UaRKbEW4Qng3OCSUGYAN0AfX/Bf4R+3v3SPTo8SLwV+6H7Mrqa+l36BboXOjQ6O/okuj15/HnVuhp6ZnqUuue6wXsQu0Z773w7fGc8l3znfSA9pj4MPoZ++37X/0DAB8DCgZECOYJQwwpEXca1SRcK9osuSzILgczpjiRPgJBpj35N6A1rTcLOYo2LzAKJxYd7BatFjsWjRCSBtv9DPm/9nr3PPeH8k/pqeG/39bgQOE235PahdSU0FTRttQ51lHUFdG8zh7PatIt1xPaHNp/2Qfb/N4A5Hro6epF66TrLe6Y8rX2NvkV+mD6Pvvu/esBSgXoBo8H+giZCwMPqBK9FWcXPBicGTQcwx7hHx0g7x8DIA0gPCAbIMQewhy7GicZUBfGFBESVg/bDJYKVQjEBdsC8f9d/e36UfgN9Y7xkO6Y7Dnr2+n5577lweOS4jDiDeKM4ZDget94313g1OEi4+TjqOQa5jzosOrP7Gzu5+8P8tr0Ffgn+9z9MwB8AqUFXwmlDAIPEhFGEzYWiRllHY4hdSS5KJovRjdHO4w6jzl5Opg88T7WQO0/sjrFMz8wfjDwLkUp+SBHF5sO0wiKBgcE3Pzh8wDtculE6NznIOYY4QvafdUE1R/WbNUk073PIcwtyl7LQs46zzzNNssRyxbNZtAn1FzXztgp2pvdK+Pp6IHt+vCD81n2SPom/6sD5QajCBAKNgwNDw4SjBTEFfgVLRY4FxMZ3RrFG3AbnxpBGqEabxt5G4IaihiZFrgVlRUBFsYVvhR0E20SLxLOEUMRuA9wDeQKkwhuBiEEiQF3/iH7ifd09MXxKu+W7MrpdOdL5QLkG+OF4lHi7eHi4UHiFeP+45/kd+Vg5mfnR+hW6XDqhOuw7BHuse9v8UPza/Wc9wf64PzX/xgDAAaICBQLaQ1fEDkTmRULGIwZmRqiG9McwR4rIOAg/CBUIT4jFCeqLFMxIjNhMl4xCjPnNbs3MTcENO4u6ik1Jz0mSCPWG/sRxQjmAQD98fhG8+nqJ+LQ23HZU9i+1rLTqM9KzFLLC80Zz4bPTc68zPnM0c6y0d7TaNTu073TUtV52MLbCt6G3/bgW+NI5/HrgfAO9OX2vPlO/dUBcgYeCnAMEQ4WEJUSQBVcF3AYaxgUGCcY3himGdUZHxkfGHUXXBerF9wXsxfXFvQVuBXwFSUWnRVzFEoTOxKJEd0Qrw/aDTQLwAjwBkwFJgOfAHH9G/pj94f1ZfTg8vjwFe+a7RTtTe3r7RDuiu3k7NLsZe1c7hjvDu/A7jXuQ+4G78LvGvD07+HvE/C78NzxP/NX9FT1u/aw+Ez7Df7LAEEDTgVkB8sJYwzHDsEQHxI7E/cTnBQVFXwVWBWYFOMTVRMRE2ASqxEQEWIQ+g/ID2oQLhEJEgEUZBdYG3sdlh3lHbUeRyB/ITsiEiI0H3IbhRgbFyUVsxAsCwkFSv9F+oT2X/OO7jzo7OJk31HdV9ua2YzXvNR00sLRw9J705LTvNPN08fUpNan2U/cy93a3tTft+E15Brnzumh607tY+8b8jL1bfhp++T9XgAuA2AGegn/CwMOfg/LECwSuxMSFcAVuBVWFUMVaRWkFWcVpRTxEzYTyxKiEpESTxKOEegQohCZEIUQOhDfDz0PaQ53DWUMGAt5CdEHUgbIBO4C1gCk/mf8RvpF+HD2kfTT8mrxQvB27+PuzO4d74nvV/AU8erx+fIr9NL1UvfI+Nj5XPr4+tj7xfxb/Tv9yPxh/Cr8hPwK/W/9mP1v/bX9ov4OAJUBjwJAA7sDbgSrBRQHSggZCXQJzQkcCnYKwAqcCkIKjwkfCQYJAwlACfIIhQiAB90GYAdjCPkJPguBDG8NhQ7bEFIUxRe8GZsa0Rp3G2Ycmx0wHqscfRmfFbASYBCGDZQJ2AOI/V33u/KU7+LrY+cv4ondgtp72G/XHdYd1BPSAdHP0bHTUdWJ1nvXGNm02yPf8OIv5onogur97DzwovOR9s34mfpp/KH+TgH7AxQGfAewCEMKVQyDDmIQrRFtEhkT6RPrFNIVQhYfFoAV4BR8FCgUlhOjEmkRGhDUDrkNqgyICz0KyQhzB2sGsQUEBVgEtgMxA7sCVwIEAqkBIwGVAAcAg/8N/6H+U/74/Yn9Bv1i/LX7D/uc+k/6LvoR+gD6F/pl+g/7rvuW/Er9yv0r/ov+Nv97/3P/Cf9u/rH9yPw4/Mf7e/vL+tH52/gJ+Lf3mvfw90H4Zfhn+G/48PiL+Uj6yPro+kj7sPuJ/CL9qP1H/on+Nv/a/xMB9wEzAnYCjgJkA/8D0wRrBZ4FKQbHBjEIdAmpCuILtAwdDuwPqBJ+FREYuRo9HesfUiLbJBAnOihpKL4n6iZSJc4icB8VGwcWSRCSCv8EH/8Y+cbyquwG5/Hhm92Z2eDVydIi0EvOIs2PzH/MkMxMzb3OwtA0067VmNik28veNuLS5Z3pK+2U8PjzXvfZ+k7+uwEKBRAI5QqpDTsQlhKjFIAWNRihGdgawhtlHJ0ccBzPG9saoxk8GJsWxxTiEsoQcg4CDL8JlwdrBT0DYAHM/3z+bv3S/GP89/u2+8D7NvyX/O38KP0//Ur9L/1M/U79GP2K/ML78Prr+eX4sfeF9nL15PTM9CT15/UK94H4DPof/K7+zgHvBNUHcgpaDMQNSw6BDioO+AwQC+UHWARiADH8Lfjx85DwHO4b7Y3t9+558TD0xfbh+Mj6sfwX/qX+U/6K/YP8bPuV+u35L/kr+F73Ofe/99j4L/qQ+6r8iP3v/skA+AL1BHoG8QdgCQwLmQwUDqwPUBEYE9UURhdaGqgdoCAdI9glSihpKiAsiC1mLustmSytKkEo9ySZIF0bNRV3DrIH+wA3+krzk+wv5h/gv9py1vrSyM/MzGbK48gPyLzH58dqyC3JKcrNy+3NXNDC0kjVKthE2wLfQOPq57Tsb/Fx9rj7OgHMBjgMOhG2FdAZiB3QIHojWSVoJqcmSiaFJVgkmSInIDodARqbFgwTgg/VCzYIsASaAdz+ifxx+pz48vZr9Vf0sPNO8/Py5fI989vzkfSY9fT2Qfh4+cn6TvzS/R7/ZgCQAXgCEwN7A7cDlQMsA44CpgGkALb/Hf/b/if/8/8jAa0CkgS4BvgINAthDUsPexAcESQRaRCtDtALqAj2BF4B/P0K++j4u/ZM9Uf0TfQd9RD2Z/d0+DP5VPmQ+G33ePXI8unvCO0A6zzpbOiU6D3ppeoG7Gfu8/AR9GH3YvqF/eH/oAKmBHEGzgeMCFgJmwlkCl4LaQwqDvQPZRImFWQY7hyLIQUnwivPL6MzADfAOpc8Gz2NPFM6qTYJMZcrAyarHmsWLg2wBIr8yfQO7vXmauBb2i7V6dCvzJrJocZkwxzAWb0IvEu76rrMul+7Ob02wGjEvsli0K7XRN8v58/v1PiaAagJ1BDVFpQbmx/XIuskjCVAJUMkuiLrIEsf0h3nG6AZYRdZFSoTshADDgkLWgcgA7r+f/pQ9lry1O7g65LpNugo6DzpIevJ7VDxdPX4+fv+cgSPCXcNZxDOErkUiRVgFY4UAhOQEMgNTAtUCZEH4QVhBAUD7QEXAYoACAAu/0z+O/0W/P76BPpm+Zj4BPjm95H47fnJ+3j+jQH9BIkIGgx9DykS6BN6FPATQBKTDw8M0gchAx/+Ivlr9DPwnuxj6efmweQy4xDiXOFY4UThqeEv4ijjXeR55afnN+pJ7XjwhfNH92H6nP2dAFIDagZDCLMKmgynDtcRyxTSGLIbZB5OIacjMyd4KR0rFyxsLe0wJTRNN6c5XztPPMo6/DjANhI0ky/uJ+gepBSDC1YDbvsF85rpceGO2u3UFNCfy7/HJcNovmS6wbeWthe2a7Yrt5q4/7uwwWvJcNEU2i/jP+zf9M/8HgVSDL4RnBVAGKYaixyWHp4gwSH2IX4hDiF+ICkfJB3wGWEVag/OCIQCnvwX97/xMO2C6QHn5uV35h3o9um663ztje/N8Y/0mfeY+nb9XwBRBCsJ0A5ZFFAZZB0XIMkhZiIWIkAgvRwmGBoTOA7UCRIG4AK3/9v8aPoO+JT1A/Nd8GXt2ekF50/l5eT+5YHoLuwW8Eb1+PsOA/8JJhCSFYgZ8xuVHVQeER7LHAUbrxiFFTsSaw9jDLEIMwQO/z35A/P77G3nSeKv3QDag9dg1u3VddZE18vY8tpC3QLhvuRz6RbudPLm97z8WQL8BscKgA6fD60QKhH9EPIQqw8aD8MPDxGaFOkXbxyVINwi/STLJDAlviU/JpEnPignLEUzXDtPQEc/TDzyOMA0sS3lI48aPBJvCQn/M/Xi7hTrUub03i7WQM5Jx53AErrcs1evsqyFrJWuKLPYukPEfM3b1K3bQOO26nbxI/e+/LMCfgjIDj8VDRzeInQorSvyK0wq1ScXJKceZxgJEvwLYwaHARb+Ffsh+Kb0UPAG7Ero8uVF5NrineKp4zrmLepO75P1IvzsAUcGXgm2DA4QKhOZFd8XmhrGHPwepSDYITkisSBVHYYXWBFzC5AFzP/O+Qf1b/Fq7mvsW+qM6JjmYeSk4uLgW+BR4Z3jMeda63rxEvluAdoJLBG+F8sclyAJJIMmryc4J3EmsSVVJDwjMSIYIJob7BRLDbwEb/tl8kTqV+P83E3XNdT20grTftOp0wTUftRr1rDZS9064YDlZOp876X0GPtoAX8HKQ0VEUEUTxZvGDsZlRZkEqANdwlnBswEaAYbCEoJjAuEDDENQA2GDAkNRAttCtkL5w+wFxshiC+tPTxHi0lVQxI7dzNVLnUpcCMoH9gdlB5lHAAWVwzp/rjtA9sXyz7Ap7thu9K8db2wvBG9Zr48vwu+wLt+u1q+gcWz0OTe5+1g+hMDEAhxC8UO5RFeFK0VoBb+GMUcjiDuIq0iIB/CFxMOkARA/c34KvYE9Gfxa+8m7uvsLOvU6AjnP+W95AjnLOwA9P77ywI7B8AJ0wxVEL4TyhYrGXwbMh3MHhshbCI/InMf6BlGE9sMlQh5BW4CxP+U/Cn5Y/W58erutut76FHlE+Mi4xnlAemd7efwkPMd9dv2bflz/GAB4wU1C1gQ0hSRGQocDB78HTodAh0NHScfESHuIU4g2xqfExYM4AQm/y76g/Vo8fjsVulq5dfhr97D2hDYZdax1kXZp9wN4UHkNOZn6F3qhe0t8U312/rf/tkDQAdMCVkMeA3TD1gQ/BF2FAAV0BWhEskOjQlLBFcCoP9B/wwBUQKbBWcHDgpMDQsNcw0UC+UKSA4RErwasiMbMd8+RUJ/O3MujCYJJbUk7iXuJwErjChSHaYOyf/A81fp9d9/2V/VUtVz1OHOtcUbu660YbEvsiu4IcE1y7TRTdV411ja0d7m4z/rN/SK/xoLNhSeGsEcgRztGoAZjBkUHN4gVCMgIYAbXRQqDUoGdwDf+zj42PRE8oXvW+zB6brm9OLU3yDgp+Qj6zbxxPWi+Az6B/xR/6kETQulEdkWJhqsHBAf+CC4Ifggfx+HHfAbrRqSGXwXnhN1DuUHgwGF/BX5bvdr9bjycu9P62DomeZ15gro2eja6qnsqO748V/1Z/oH/+kC1wZmCggO3BB0E4oWsxmnHFsfASH2IFcfyxwdGqAWJBOqD24LZQUN/rj39PK071PsLehJ4zLfjtzl2v3ZyNmK2lPbz9x/3x/jqufR6l/tye488XX39v3rA7wGhwhqCm8LTQ6JES0WdBlJGe0VyxDYDc0M4Av1CJIFnAMMA1oE5wV0BwAJCgkQCNQFVQUkCXENcxATDvAKShCnHUovFTmqN4kxdijZIYMfsyTrLwQ1QjARInERAQYs/sP5Q/Ty7Svoi+G02hXSDctnxCK96rjTuIm+1sSqx4LHvsTMw1jGH84l2j/niPLB+BH7+PytAh0L2BMGG50fBiMBJLkjQiPCIfYfLRziF/EUTRPdEcgN3QYz/pf16++O7WvtVu1w6yHogeOg3wDf1+HY5irr0e6r8Qz0+vbI+sP/CwV1CgMQyBSxGAccIR6jHvUdgh1THiwfjh/JHhYcjBdKEosNdQk6BiEDJwAv/Pb27/Il75Psturg6RDqoOlc6jLrr+yy7gXx7/Qt+Af8gP+QAjoFiwdbC7cPiBVjGzYgjiHZHsMacRbuFNMVMhckFsgQzAhBAIP45vJZ72/tGOvg5tfhytw22Q7XPNbl1jLYl9oD3S/fiuA84eLjFeg87ejysPcc/ggE4gfHChMMyhAfFc0X8xhNFroVuBR7FT0XqxYNF1EWFBaWFtwVEBZXFfgSBBLqEIYSoRX7FjMaxx3uJW0tIix6JG4a6RnLHyok0yYZJbUhqhgDC0YCJv5s/tb8wfaO70/l7d2t10HR28yeyBnI98e3xjvFWMKfwPi/ecIvyJnPT9cu3JDfRuLU5nHu7/ezAkwK5w47EaoSWRV6GKQdOSIIJF0j4yB5HjQbEhimFTwTWRC6DP4IdQQK/7n5hvXD8vnwpe8F7pPrlOio5qjmouhL6wnulPDK8tb0CvdK+nX+3gJMB4wLMg/BEZATThVjF0QZJxvhHMEd4hzCGqwY0RbmFOUSrxDjDcIJ/AQJAa39A/ub+Or2R/WG8qPwze5t7pTtou0776fwX/KD86f1lPfa+aD+RAabDe8PUw1aCTQJFQ3NEgkXQxcYFEwPewtrCaoHEAakAzAAyvsC9z3zCO9S6vblduNA40bjH+Ny4R/fU90k3aDf7OLj5m3qzuwU7+XxR/eK/cQC0AURB0EItArgDu0SzhQAFAITBBSoFtIZuRvcG6EaQxnqGe0bVBzWGasVqBMCFNcU/RaCHDgldipwJrgcYBUpFigcViJsJXUkvx8sGGkQZwqGBxAHPAbKAlr8XvWa7n/mzd15183VRdcX18/TXM2oxbG/nL3HwIzGW8t4zcXMsMsszM7Plta93tPmpO0a83z3Nvv//nUDBwmsD5EWTxykHwggix4dHYMd7B+oIsQjCiLSHZ0YwxNQEAoOQgw5CpYH/gOO/6j6TfY+873xlvEE8h3yFfH77hTtkewO7tDw/PME93H5E/tO/H79Kf9aAYIEWAi+C84NnA6bDmgOaA5aDykR5xLJE1kTHRLdD2ENUQsQCvsJuQn6CK0GxwOuAJP9hfvU+6v+XQEPAaL9Q/kH9hj1U/eU+47/TgBe/ov7OPmX+LD52/zS/68Abf/i/OL5PvZS9KP0Lfd6+LL3XvXe8Zjvpu9x8x/4z/n491T1KfVI9zj55fkn++z9RwEWAwQDcAP2A4YE+wStBhwKcAyxDA0LLQqQCsAL8gxrDccNhg1WDTENBQ3ODP8LAAtPCi8KrArUCoAK6wlUCTwJ4wnuCt4LswuECqkJcgn0CRYKrgk2CWUInge5BroFlQT0AjEBvP91/m/9KvyS+pX4a/am9DjzLvIn8Qjw0+7D7ffsa+wE7LLrbus66z3rlesb7KvsHu1s7dztfO5w75vwsfGu8ofzWfQ69Uj2ffeP+H75V/ou+wP8tvxh/Rr+u/5e/wAAtACFAU4CDQOfAyAEowQyBdAFXgb3BqEHUAjfCEcJpAn1CTYKewroCmoL0Av4CxIMJwwmDCUMEwwuDCEMMQxPDE0M1QvICr8JCwmgCAgIggfhBisGFQXzAysDWAJ7AXsAy/83/5X+8v1c/dz8efwj/Av8HvwO/BT80Pux+/P7G/xj/J/86vwz/df8ePwy/DT8Wvwi/PL7jPv9+lL6jvn4+Gj48Pee92D3DfeP9hL2xfWn9bH12/Up9ob25PZN9933o/jH+Rn7YvxZ/SP+H/9JAMQBDgMzBDkFLwY4BywI+giqCRcKbAraClcLzAsADPULpgtSCy4LQQtsC2ELPQvYCk8K3Al2CTUJpQgbCMQHcQd3B6kHFQg+CNgHQwe0BlgGQgZFBlEGMgahBRMFjgQgBHIDtAIXAmoBiwCW/6v+nP1E/OH6o/mk+Ij3RPYE9c/zrfKC8WDwWu9B7intHux56zfrOetz67frt+uI64Dr1+t87GXtcO5574DwZPE68kPzdvTB9er2Dfg/+Z/6GPx7/cb+4f8EAUACpAMQBVQGbwdXCBMJ1wnACtQL6gzEDVYOog7rDkUPjw/DD9EPwg+YD0AP6g6tDoQOMw6SDeUMPwy8CzMLnQrTCdEI4wcIB04GqgUPBVkEfQN7AoMBwwAeAGP/r/4G/mf95/yE/Fv8Qfz2+4P7JPvs+sT6n/pw+mX6fPqk+tP6+vr3+tv6jvpL+kD6dfrA+t76yvph+u/5efkq+Rf56vjN+LD4g/hI+DT4R/h0+I74p/jw+Ff57fmZ+kX75Puf/IL9cf5y/30AggGUAo8DYAQ6BSQGCAf6B8YIgQkpCo8K8QpHC4kLygsFDDQMTgwqDOALhgskC/EKiAoXCmcJswgmCJMHIweSBvgFSgWXBLsD6AJmAvsBlAEVAXcA0v8t/4r+9/2V/TP93/yE/CX8v/tb+yX7Bfv2+t36mPov+tL5k/mI+Zj5sfna+b/5qfla+RL59PjW+N/48Pjk+LX4bfgv+AH4//cp+DX4Pfgs+Pr3q/dm90b3WPeN98L3Avgn+EX4Qvg3+Ef4h/jd+EX5nvns+S/6fvrq+mj7+/uq/F39+f2U/h7/uP91AGEBcwJkAx0EwARjBREGxgZ6BygI2ghvCdsJMApjCrEKBwtgC2sLZwtaCyoL8QrMCq0Kcwo2CscJJwmbCCAIlQcxB+sGrAY/Bq8FBAVFBJkD/AKTAjsCEwLrAZwBLwGgABgAov8///D+m/5O/uz9jf0l/eL8svyE/ET8E/zJ+2H73Ppa+h/6CPoI+gb6//nY+Vn5FvnU+Lj44fjs+Nz41vjE+KX4zvgc+WX5xPkR+nD6z/pL+9b7bvwx/Qj+t/6S/2EALgH6Aa8CpwOuBLAFrAZlB+sHVAiiCA8JdgnnCVIKhAqoCp0KfApJCg0K1glyCecIfgjuB20H4AZVBsoFNgWEBMMDCQNIAn4BxQAGAIb/+v5A/of97/xM/KX7O/v7+ob6SPoW+sr5dPkk+e346vgC+Qr5FPlE+U/5zfkY+nP60voh+5z78Ptb/Kf8Cv12/d/9bP7v/mT/e/+C/4b/y//A/8T/EQDo/7b/a/8a/73+X/4B/sT9jP0p/bf8Svzn+5P7NPvw+r36f/of+s35tfm/+cb54vku+mT6sfrt+ij7RPuL+wP8dPwU/dX9bf7H/jj/kv8oAO8ApQFNAvUCQQNxA70DDASKBBcFiQX7BUoGfwaiBqEGzwYNByYHGAcPBxIH6Qb9BvkG7AbSBpAGiAZSBigGTgbpBY4FmgUrBRsFGQXlBK0ElAR/BGcEgARuBPYDdQMgA+QCmgI4AhUCxwFgAc0AHgDK/1L/sP7f/TD9jvwH/F77lPrH+Qn5ofhQ+Ob3h/cl9+P2kvaU9sn26Pbc9uP2K/ea9wD4cfgP+Zj5Nfrx+pL7Z/w9/fr9s/5v/zAAIQEJAo0CBAOkA0UEyQRQBd8FWQaWBuMGBQf4BukG1gbpBtwG3Qb0BuQGygaJBmMGJAahBX0FKgXQBIYEAQTmA50DVANsA8YCoQJTAsYBUwECAX4APQCj/z//+/7P/nH+bf7D/XL9//0HAJoBhv/E+uX1RPby+Sb8x/p++A/6L/vn+5X7vPkE+cb54fpd+1n7cPuG+y38XP1g/lL/tf+M/7H/BQB4ADkBuAHMAfEBzQH2AUoChAJZAikC9gEXAh0CJAIKAg8C5gHeAZQBLQHOAJIAUwCt//r++/5zAAQDWANiAAX8uPqq+xn8Y/sl+1n72ftL++f6e/sj/Br8Svrp+Xr6Zvu8+5X7kvpV+238PPzs/M785v1y/uD9of0I/tP+yf7p/mP/NwC0AIMBpQFoAbkCOgPAAugCpQOvA4cDkgNVA+sDrATiBDkFmwPcAxQEIQXpA88CewMgA8MClAK7Ah4DKANDAxUC1AHNAWMCaALUAvsAXQBEAncDywK6AF8C0QJaAioBRv94/7f+H/+BAPX/MACg/Oz8UQFI/63/tQG1ARn+tPpO/Zv8bf73/aX85P24+aD61Pzo/Oj5Svnr++79q/s/+4L6xPutAQD7D/9s/tj+8/8R/2YCBgJvAu8FnwZkBgUExAKOCDINDw38CAYIIglLCJIFDAPJBqQKsg1wCLUB/gIjBTgKTgfeAn8FYf2zAfsAgwBCBHH/Ufuk/AcB+/6B/eT35/ew/Hb+U/+7/br5K/a89tf7Lf/V/fv88vco9OT4uv1p/Rr/AvuC+Rn6H/rK/8AAJPxh/Ib9EvuH+nACpArmBPn5z/Sg+g0HOgkWAq77wPjL/psEfwJh/8/4Nf49BEwC9fhK+jL/WwM/BnH9hf8k+asAtAR8//v+dvf+/F0GiAJY/hkAhQAVA7f8NfWf+PABDgcYC3oCi/fA+Bf3Vv45A+sELgHR/Gj+q/jH90j9RAWoAUP1d/UE/ToI0QXR/Dj6a/qf/3wB7v1oAJIC/wDuA8kAVAMABIsBfgKEAbABIQDF/Q8F5wYIDHkHIv3O+1X+JAwrCx3/BwIF/ggC9gdbAKgBogEdA9gFjP/U+wT+ov41BdsJ2QC6+0H1V/Y0BaYGZgLxAd76rPYH+KgB/gMo/+/+gwKpAAH5DPXEAHEAJQEKAbn8hwS9BLv7ovnt+WcEwgdTCagF+vyT96b63AitBe4DXQCZ+hcJIAi6/Hr7wvyECMsLngWj/lP33fnzAu4H7wMQ/2X9tAcpAob1q/Vs/BUNAg2B+jnyXfobCXILJQG385rzqQClByEHFwNu/qf9wf3L8W/z4Aq1FFQKTfts8EP6pQOjAYMA9P0xAv3/Lv/hC9sO5f618ZbuzAEkDjMLhQJBANX+bfqo/SQA+QIWBs0D/wUWANv3O/R2/iYL+wDY/IoFbwpdADHza+yc9PkC9AqzDYMEsPvr9WHvuPNuAfoIFApHBZj66+1y89X7pgU9DZsAffDs9A0BRgtSBkf2KvaI/qMISAu2/Y3+8P2P/XP8sP/bDPsRMguj+nDoEu5GCcYVhxRYBfz5lf1S9nDzh/5zBo4M1g+t/o/ucPcRBZQObQr39sPzxPSH/zcI9wyxDiwDwffa6qHriAP/FEsXkAF47ADqpPmaDtQUPAcb+Tbts/MyAO8L9wYA/ZkAJf4z9FL06/w2DbEMivkD7Vb2iwRlC6cF0/r88lrzd/wJBgcKTgXGAF38wfWU81z7wQtMB4b9SPhrAa8HOwY/BmMB4faU9GT+MQ06GMQOP/ad6bzu/vw0EaYUuBDuCovy3Ojf8B/9AhM3GHwG8PUx9V4AEgCZ+Ur4ZgeCFOUNbf3+8RLyJf/vBOEBCQd8CP8Es/4R9Or1lviBAZsL7Ar1BsX6pe9a8WL8gQsRD+8L2fya7sLunv6ADMwMrgH4+NT6CABYAJn+Cv9oA20FwQAc+JT58P0MB5QD/v3K/dMBawWj/E33NPqR/UkEEgRG/7gA3QN6/sf4SvXd+PABBgy9DF0Gyv0U9oX0ff3jA7gMBQ2/BFr9cvea+IL97ARhC8YKpwLQ+kz37/lR/zMCTQYqBtkB3v+6/VL7T/nq++kCEQh6BvP9YfoS/O39hP33/g4AJAMFBWT+vveM+PT9/wG/A3gCGgGy/Xr7dfti/awAoQMmBdkC2f4P/fb8xf3mACECIgMjAroAVwHtALP/Y/4i/vr+igE2BG0EJwGe/Ab6avt6/3sD6AT0A0IBrv1A/E/8A/9cAVACugFoAJ/+Av+lAL4AVAAkAJf/hP4X/5IA9QAQARwA1v4j/3//pP9+AKYAUwB6/8r/if7u/wj/0P7e/04AvADV/zT/pP/Y/in+pP5IABMBLwBQ/+H+B//J//z/AAHiAPf/t//7/5//M/8WANkA5ABBAesAYQAuAJ//1f/x/yEAowBaAHkAzQB4ALP/BwDB/zwApwC8/7v+MQCX/3n//v+Z/9D/PP9K/xkA1f+n/8P/uf6b/in/pv9ZAKQAQwBr//v+hP8DAEgA+/8Q/2j/sv9fAFUBMwHf/5P/hP+q/3gAZwBhAIkAWgAsAIr/vf8kAAQAZwC6ACIA3/86AAoAhP+///T/3ADBAOn/OwA5ARsBVwAdAAcAjQAMAdAAZQA9AJQA5QCoAF8Awv99/zwAwQA3AKb/cv9b/7//4/+V/4L/Wf9r/3P/I/8q/5L/3v+cAF4Aw/8W/3j/XwD0/xcAp/9JAHUBeAG7ALT/M/91/yEA4ACnAW0B2gDH/yL/hP91AEIBeAGnAJD/FP9CAEYB+ABdAMP/2f+zAAwBFgEQAHH/0v/ZAAsBowCYAFcA6//I/3v/OACIAM0AhwDS/5z/nP+d/4//W/+X//j/KADb//X+z/4c/3f/Wf/I/4b/5f59/3//Tv/k/iL/WP9+/5D/Rf+9/tL+c/+///D/0v+N/33/aP+V/9L/9P/L/x4AYABvAF0AYgAOABcAVgB7AO8A4gCnALUA6v/c/zkAywAKAcQAYwAUAOH/2f/a/xYAQAD0/8T/7f/Z/9X/bv8//1P/v//8/xIA4v9p/x//9v5e/9//oP/Q/4L/bf9i/w3/Xv9+/2//p/86/y//hf/3/+b/iP89/3T/1/8YABoAMQAWALv/lv8hAIkAjAAbADQAXgDLACEBnwAXAOX/a//c/5kA8ACtAEoA9P/D/xwAfACHAEkANQBMACcAMADa/xUA7P/z/wwASwBoAHIAKQDW//7/3v/U/zcANwBvACkA3f/v/9L/pv8KAGEAVAAaAPT/v/+d/5P/xv8YADkAEQAPAPP/tf/L/73/uv/W/5P/1/+v/5//zP+y/8r/eP9A/23/kf+v/47/lv+n/4D/g//E//H/BgAMAEgASQBGADIARQBsAGQAawB6AGYA4QC6AJcAjwB0AIUAeQC2AOgA/gAlAdEAswB9AEUAWQCrAOgAgwBmAI0AYABMAAoA+P8AAAYA/P/e/+T/wP/o/+j/pf/F/7v/1/+S/5H/xv8AAAgAsv/D/73/AgAsAPX/rf/d/8n/iv/p/+//EgDB/5D/PP9Y/5n/Uf9r/7z/2f+O/yX/Lv9m/47/UP9K/3z/o/+P/13/WP+//7//rP+j/+r/XgCKAEcADAAFAEgAcQB3AHwAvQCWAGoAkwDsAAABswB+AHsAdgBeAFQAWQBKADUANQDT/5H/vv/j/8H/XP9S/5j/xf+J/3j/OP9A/3z/c/9O/1n/uP/T/7b/wf/T/+b/sf/a/x0AGQAPAOX/8P8qACwA7v/y/zEAWwBAAAIA5f/d/w4AFwAwAFQAPwATAOj/wP/5/yUATQBcAFUAVABJADMAPQAtACkADwAoAKsAWwEMAYv/MP4O//oA6gEXASEAjv9a/lT+xQFzBgIGbQDK+037yvy9/vwBAAX2Be0C4P01+/n7Nv7rABEDuAJWAef+7/zl/Dj+sQDkAuQClwC2/fv8Xv0e/or/BwGjAcQAm//g/oT+mf5Y/zgAdQBEAA4AbP+G/6b/6v8gAG0AUwAbAC0APwBWAGIAdgDJAKwARQDk/93//P8jAJsAxwC/AEcA0f+T/5r/3v9MADoAQAD//8f/zP+l/8n/+f82APX/sv9//3n/Uf+r/x4ATwA2ABAAvf+v/47/wf/W/wAA6f/i/wEAxv+x//f/CgBZAHEAhAB6ACcADwCQ/zj/2v+1ALcBcgN6BB8CNftO+Gj80gFHBUIERQIiATz+1Pta+0X+UwE/AhUC1ACt/hP+Jv6O/7gCHAU8BXIB4/zj+l37Kf28/0kB8gKAA1EBAv5w/Ez9If/kAC8CewJ8ARYApP4V/vD+rgBLAh8C6gEAAHP+Xf2l/VD/WgCYAUwCowHE/5X92fwO/ez80P4E/xsApQBWADcAKgEWA7sBbv0t9mf33v4WCHAPAQ18AMjux+rL81YCKAqjDZgNFgZG+RvvPvEt/CEJnBE+FAsNuP7x8tzvF/QN/QMJDRIVEeMF6fgK8dnvxPa/AKwHdwq4A/D7bvU498X8wgGRBhwGgQT6/nb4K/dq+f0AZwWaBmcEBwFV/j78+/2eAWEFCgWUA5EBOQCM/jL/WwDeAQgB+wJPCPYKSQdc/mP6VPs7+//5iPzg/2AFpAGo/t/8Pf0Q/VL99gP8CJEI4wH+/BD3ofM+9H76kQFGA8EChwEHAFH8m/jU+O/7/f/mApYEuwS3AsD/P/0r/NX7xv0fAYoCxwPzAS4Acv2a/Ir9hv9pAo0C+QKRA60DjwLq/7j+A/7k/n4BjwJ2BHQDHAPNAsb+I/w1/Fj+pAGeArwDtgI//3v8wft4/v4B1AIEAtYAU//j/XT8m/1pALICswGiABAAIgDQ/+D/bgDdAEkD/AOrBDICWv/+/wwB+ABe/rj+VwCo/7j+sv8jAiICFgJ3AcL+Hfpi+3P+OgKhAQL9hv1J+W72xPex+dH+kf7f/nr+sPyo/IP+HACC/vz9uv8bAAcA5gAaA3oBy/7L/yb/9v4PAGcCWwTtA84CngFCA8ABBQJiAnoBwAG//jgBwQAq/8f95/rN/eYBLgKhASn+NP2D/cb+xgFJAVsBxgD6AC/+IfuTAPsEqwbNAvX9XPoi+uD8Y/6W/9P9PQQ9CJICPP87/678vPmy/dgChwDR/Fj/LwGV/sz7t/4YAREBKAHg/y0AQ/6sAKoCiwDn/tD+cwOVAsADkAVoAaz8ofm+/uYBowBnABYAw/4Z/BP8S/u/+2sCqglYCPD/WgCUBW8E4/2x+/wIEhbRGOANRACA9Nru8e2U8nf9cAUGB0QDgvpN85byRffg+/n7vfu7/7ABnv89/Oz6Vvt7+lIB4gkHDRUL4QPB++L4I/mCAZUHAgc7DDgFMf5Z9LL2+wKICAkIpAT5BV0Cfv7l/t7/IP8l+hf8v/9s/8f+IvsU+PP3vPl7/XEAPAqWGQAhBhk1CQX7wfQY/b0MXBf/Fx8Ofwda/L7vcOm66Tj3JgK4Bp8COvma62fXXtE21cfqxwCvAzsBLPJn52HhBOiJ+uAM0xzSHUcQ5fxf7LzpOfFtAdYRMRzQGb8KI//++TX1jfLh+rIEKAciBakDQwUJ/2n6bf7SBDQNMxG6D2gLvwTUA84FZwtGEgERsgvYAhYEnwxKD+EN9AghBcwBGvuv9334wvsKBHEHbAAV9xHwEO7s70j07vuPAHYDQAPk+2v3zPII9cX7C//wBx4HSAeZBE/9zvm49kL8zQSNCIsF1vo089Hwce+i7yv0ef55A4IDmgDV/HP5RvgR+sr9hAFpCKgKHwXu/9v/5//JA5kM2hKxFZgPRAad/AT1z/qKA2YKNw0kDmYJD/6t9fv0Ivhw+Ur9EwJUBfgB8fuc9lfxN/Kg+H0CiQcyCFADDwBy+in3/fgZ/90I4wxPEKILNf+f9LXvXvJ39ZL9ewa5BmICjPna8D3ssu7t9KT6Dv7A/mP8cfdE9AbymPfOAEAKKhGCED4LuwMh/a3/oAeiEH4XkBlMFwwNjgKn+wT6qgLtDC0T7xEtDPIDF/hL8bXvFvZ9AkUKIg86DQIE4fmN7eLhjd+453L1mgEYDc0NoQJ89V3qsOdm7Ir4RwfCDNsL4Qd7Alj9xPw0AroGUgvMELwTQBAODN8HjAPkAqgBKQMGBT0FhQZ8BAQBd/ty+Dz4wfk3ANsD3gVBAer5NfRj7+PwjfO/9+T93QDHAEL+rfr/9yz33/swB/YQEhY9GR4TOgZd/ErzfPBT9h4BjQq+EnMX5w6qAIH0YuoH7MzzIf7xCCYKiwRH+t/vGO6H8WLyDPW5+Mf7U/+NBpcOAQ1+B3gAjv74/1YB4gclCX8GoP+x+vP6gP71A3gDQAAl/4MB3gUmCHUI2gm6DO0QvRTcGzsfVhweFXgIbwIiA9AIrg3ICwsHV/6N9iX18PRS+T/84/Uy7TfnWuTD4vrg5Nw22zvb3thv1+XWc9fv1qLVFNai2tTjWOsH7+3wQvB78MXyJPjt+yT/hQF+/4/9iv2gAQsHkAl6Cg8KBAokDAkPJAyuCsQJ3AlFC38KkAoEDIgPLhHTE6wWKRgVGykdbh5aIBgh0CHUIGkdCxxtGbIYWBmqF2sY+xa4E2oRTBDpDn8OdQyrBhoEUgTZBFsInQssBjH9vfNS6rvlSuUS64HwG/Vi+XX7+vxJ/GL+O/1X+DP42vvWAagEFQXOATkCNQcYDLsRORSIFE0RUgtOBlkKdBnoKTwz6CzFH6UT/gglBW4HnBKEHbIiWR5dD4YALvEE5PDZANM10NbR7tRT1WXUQ9NC0MbIXcGDvHu+ocuH2ufjc+ly6zntze3472f0dPby9mLy5erf5dvnv/CI91f+kgIKA1cCW/89/Cz33vH/7lztBe/E8cf3rf2P+531YO+L62/s1fCV+CX+DgOlBm8IbglEC8UNEwwqCpEKqQobDHIOrw4zDT8LtQaNAtgBhQA7AX0DvgUoCrwNehTCF4IWgxVnFLAU2hKyE2QVbxYoGXMYvRf8FnUWLhHJCZ8DtgK0CAEObBS3Fp4XhxesEL8KLAIf/eL6oPrdAXEHpRMjH/UfAhuXD8cGRgCo/4sDwAkqE2UWLhdDFxwfWjO+RwNUVVeGUgBGEDnHKCgZ8Q09AxX6Me3n35/UtMfXu1SrRJ1hlr+V1Z4iq/q3lcICybHOhNLq2LDe3ePA6R3wA/pABLYO2BVaFsQQcgbW+0v0vO/67Gjrnegp5VDixN/83mPgYeNh5WXn+Op27x/3/ADiCrwTSRzdIpsmlya4Irgb6RNUC4gEtADy/hH+k/wk+pn2JPP08G/uqe0z7j/xd/Q5+Cf9pv8RASwCjgBQ/x//Hf6w/yUBmwK5BfIFhQaRBp4DbQKMAf0CEAS2BUwIYQhfCmcKdwlMCesF9QSMBVYHpQ1iFRkc2B+DHgkZzRCsCWUG8wOgBgUMhRD2GHseSSP7IwEfthY8CTH+Afb79A/5z/9YCAgNVhOqIDY9nl7FdNB6qnAUWuY75xvjATT29/SN82/w0Oo44hDYnsavrlGZRIvhh6mR+ahiyJrm1vlfAS0Abv11+h/3qvbJ94P9oAbaED8aSxs9FAsBoujy077FY8BFwsLHRs9r2M/gRujF7vTzePY/9/j46/26CEIV2iBWKCMnUSDIFhkLAwDf+d70OPEf9Y77ggfnFAYbqRnVDZP+xPJG6yLqz+6f9gP9mP+aAZUB0AAs/rH4vfQl9Pb3tf4BCSgRDRXTE7ENaQb3/qj4OPSL8LXv0vC38tz1qvjI+QT6SPip9b/3ofxCBOgPjBcVGgQZERNaCqABUPr99CH1CPqpA9wQYBxFJZsotiZ3IOManRjAGTggtidNLjY2dECRUWhnXnv/f35wqVBJJ3wCCuhW2uDY+d6K5Injbt1y1WzPHcc8uB+oKKEzqQO/69yR/D0WkiZMKMAeXxKxBIX3Yuvu3mvYNdro4S/se/Lj8MjnDthoxmS5jLT+tkXBhs/T4GX15gl8G34mpChFI8IZLg93Br8D2AbDDH0TrxdWGdkXXBJfCHj6N+0m4xffXuTg7mz+/wzYFFwYCRUzEXoOrgoDB6oBg/2+++v8tvxk+9P59/Pn7GTmpeHg4YPnH+88+KUBRQj7DQEQLA5QCd0Cc/tN9OHwDu9V8G3y7vIc8jfwTe4f7uLv2PMJ+aL/IgbaCagNjg96D1kQ8Q9rED8TiRRQFGMW5RfvGWohciZHKhguLCxQKCslPyPoK7BAZFWsYrxkWV+RVEVCGCYqCMLzW+K21WHQPtMq3lPkUeJy21PTj8sPxfjCpcXazeTZueY8+RwNiBz7I4Eetw/B/ZnsFd7J1RbTItM01vvYSd0h47vlX+MH3T7W7dAB0fvYpOfx+oANIRtYI/UmnSVWIbka3Q8fBUP8ufbi98r8pAP9ChYO3QwWCXkD8/7u+/j3QvV39+396QZYERwaWh9WH0EVxwbb+uHvTOiV4zDh+eLL59LtsPMh+Sj8XPuL91zyUfDY8mn4Fv8oBW0ImQivBVMAT/p08tvqBuRa37Lf8uIO6l3zaPquAOICsgMRBG4DegQoBWQGIAerCJcMlhGaGBgeECOBJkklCiWKJfImnCk4KA4o6ykKLF83/UrhYIFslGIFS74w9BVA+tbjTdgm1tnVPdK31B3gkOxV8QDrId9T06LL6MrI0pHiLvV2BBYPKheaHQ8fARgSB6Hvg9kDyMe+KsB2yHLUZN6I5CHoOuoj6+Tp0Ofj5YPlcelF9OcE7RYQJ4sw1zIrLqoiyxbFCs7+qfQJ7PDoq+um8rX8yARBCTEJKwWeADD9//rT+gf8nP97BQ0LIxLUGGkb8BfrDPb/u/Tp6nzjnN8b4A7kY+lf72n2wfy6ATAEEANqAq4A0v99Ao4D0AMhA5UAFf3d+R312u6q6Wrjtt7q3STg7OWi7Vb1NP21BE0KTw30DTgNBgoZCF4J5AunETQWCBrjH0oj/yZZKpcriizGKycrJTABQF1Vf2SeYoxQdTvLJXUMhPSu4w7dAtnU0fDOnNcB52fvt+2x5iLfmdhq0mXTjd3C6xr6UQQpEPMdxyfyKSYhlg96+gDlLtNiycvHa8tl0dnWttyv447pgOxa67rn/eOR4uDl8+5n/SYOuhyOJnQsMy+cLZMn7hxgD08BpfMV6sbnQOvi8iD6vv51ATYCsgLpAWT/ePxi+fj3aPsoAzkO/hp3JGAm/iDvFUwIvfql60netdaf1LLWMN5U6dP1UAG7Bz8JFQj6BLEAbv0X+pv3Ivdy9134ffne+cv3uPN/7Zjmn+Gs35Tg/OOL6qTy1/wdB/4NJREZEZgOSQrDB5sGywccDZARjxaWHXUkCC5aN5Q69jloPLtHh1e+YQBgAVckS2I2WhycBhv6yPST6gvbCNG4z0jTJNeg2ALZsdil0xvNKM2n1BjhIO449/H/LgwKGJEgnSTUIQUaHw5I/QvuFuVa4KTdw9pW2F3YQ9rN3PneDuCL37HcFNnx1zTcIOdT9YcCdw/tGvwjOypjLGIssCnPIQoXJg3QBvME3QXXBgoH0gaYBPEADP1k+HPzwe1c5oHhQuJS6BvzMv/9CQISWRaTFg0T5Q1mB6X/b/eK70vrwewp8oj4KP5yAS4C3v+D+wn3d/Ou8F/taep66ePq1O5n8+T1+vWz82HwUe3y6/bsyfAw9uT6Mf8LBCUJgw0bEGUPjAybCbkHTwgrC3kQVBYbG3AcfBrIHmcsQkBaUnpdp2PaY3ZcG06UQIw3YyzUGQcDmfCq5nLjieBz3craP9ZD0ALJNMOfwQbEfsVfxB/FWcxb27Ttl/0LCl4U/xkFG4EZIRc7FSgR6ghP/qn1x/FI8l70jfRN8sXuDeoI5F7eNNr+10nWz9Mf05vXbeGc7nb86QgJE4QaTB4SINohGCSgJUskPCD0G44adxvRG1Ea7BWhDyMIzv6J9b3tz+f+4kffad213gDkQush8pv3KvvC/UQATQInBFgGEAitCHUIBwi9CK4KJAxLCy0IkAII/IT1T+8k6hPmpeJv4FTfnd+f4aPkOOik653uwvE89ej4IP01AcUEGQcnCD8J4go5Dd4OyQ8DEfgSkBZdGsodwh+rINMg2B9PIUEnADPwQNNI7UmYRi5CAz1GNfgruyKKGQAOEQFZ9t3wCvAB8LTsB+fr4FrbitZq0RTNBso/x7HE+MOtxrTNrNel4ZTpJ/DM9bD65/46AoYFVghNCb0IaAiaCV4MNA/wEIcQXA7ACicGGgG3+0j2DPDr6O7h19wx2+zbW95u4oXn3ezH8gz5QADwBiEMQA+xEPQRyhMAF+QZFhx0Ha4dyRyxGiIZBBmYGDkW9hAACkACrPr084Dup+qe6Bjorej46o3u5fLZ9nb5pfoG+/L6LfvF+wP8gPwd/fn99f5t/7/+9vwK+n72P/OI8HHv1e8p8R7z8/R/9s330PgB+lr7hPzH/cX+ngCIAnkEcwaxBxwJ4QlQCpYKAwutC34M9wwrDXkNmg1KDi8PvA9UEE0R+RKCFWkZ1R7QJE0ptyvcK7AquigTJlAjhx+vGisV0w9fCzsITgYDBTEDt/+C+kX0H+406Mfis90K2UPV5dKn0qXU6dig3ojkZ+mA7ODth+4Z73jvfe+670zw5vDi8YXzyfUV+NP5avrh+cf4jfer9g724PVk9pX3Ifmu+i781P2h/xkBPwJFA3IE4gV/BygJ1woRDOsM9wypDAMMpAtFC8kKVgrdCf0JFwpBCkgKCQopCasHOgbmBP4DswOYA8oDBAQoBAkEIgPpAYYA7f5t/UL8I/tE+oH5xvjv9//2MfbB9UL1vPSO9IT0jfRp9Gv0bvQA9Rf2bvcH+fP5tfpw+xb8y/zA/Sn/qQAcApUDHwWBBqIHoAgjCTgJtwgWCEQHmAZ2BjQGJQYoBkEGXgZlBnEGnQbDBtAG8AYPB0kH1wewCO0J1Au7Dd0PrREYE+UTIxSFE78S3RFzEKUOLA1uDD4McwyKDHIMRAtUCQQHMgXDA5oCUgGU/9T98fsx+tr4DPgU97z1N/Rq8j7x1O8W7vzr6ekA6CbmqeS340LjIOMA4x3jceMq5G/lLucx6QTraOxZ7VHuHO8e8J7xZfMt9Qn3EPlI+2b9Mv86AQYDTAQjBakF/gXVBSAGbAagB7wIKQqVC+UMSA47Dz4QbxCTEBgQwQ+8D8cPLBCwEPEQ5RB1EHMPng5/DTsM9goBCfAGZwWLA4sCkgGCAHD/+/3c/Hb7Xfqs+Qz5tPhP+Gb4EPmG+Sn6Bft5+6n75PvL+9X7v/uk+y/7jfro+Xf5CPmZ+Db45fcG+CT4qvjj+QP7XPyR/X7+kP9RAHcBnwLPAwwFCgb1Bn8H2gcGCCsIVAhYCHYIXghICAkInQcoBxQHwwavBnAGlgb5BjAHQQdFB6oHnQf4B78HSweMBmAFTgScA1ADDgP7AuUCygKdApYCwgLyAhIDDAPPAkUCmwEOAYkAAAC4/0//U/9r/3X/Ov8d/7T+/v2N/Ln6EfmG9wr2H/Vp9J7zRfPT8pbyZ/L38U3xlvAp8P/v++/g7+LvSfCx8EPx9fEX8wX0NPVd9rv33/jg+b76xftB/FL8WPwN/AT8BPx5/Of8tv3n/j0AqAHmAuAD2wTWBdMGlQeGCIUJoAqQC0EM5wwuDbYNww3TDaANaw2hDLwLwwo5CogJ1AhMCGQHaQa9BUsF4QSyBAkEpgMkA5QCIAIiArEBvwE6AacAvACpALoAPgB4/wb///0G/rz9fP5q/3r/SwCt//j/M/9X/sT9Av3F/J37fvs/+5T78/ub+3H7VPtJ+736gPqC+ub5ZPnV+MH4Ovn3+VD7n/x9/Tb+wf6E/zYA8QAFAmECIgOBA+QDYQQlBGoExANVAzYDgwJcAoQB7AG4AZQBYwGkAEQBFQH4AJkBtgEBAv8CSwM3A5UDHgT6BO0FqQa7B9oITwktCVgIRQhEB/IGFwb1BEIFtwTxBAcEFgS1A/ACrALJAfAAxwBDAF3/y/5K/rj9sf2S/UH9evyj+4f6NPn097H2mfWX9Jrz9vI78qnxsfB97/zuw+5x76TwYPEP8n/y4fK18wv1sPYM+Vb6pfvK/Dj9Ef4l/uH+df+iAIkAZwCHANMAegHfATgC2AIFA3gDSwTtBQsHcghJCTkK6gmZCZwJGAnuCEsIrwd3BxQHWwe7BuwGdQZWBkYGYgapBtEFYgQlAiEB9v/b/8L/cgCaAYEBpgJgA1YEngVzBowGAAYEBMoCHQFVAHf/GAAZAI7/pv/4/S79G/30++j7cfu8+g/6Z/mA+Lb4IPdo+F74s/hA+lL5ofo++5/6iPrI+kD6hfvX+2P8dv4O/hT/hf6A/7H/ZwATAEAAFABMAO//kAENAkgD1wPSAkUELARJBKgFQQS1BR4I3wfqBwII4QZ1BtoFkwXxBOMFLwcxBo0GFwUXA1wCjQKiAsYCywKmA4MCAwJ3A/cBAQK6AvABbQKmAvgC8APrA9EDNARAA1kCuQKuAewBOwNpAusC+AJaAnoBeQD+/nP9u/yM+5H6PPrN+Wj6evqE+ln6Bfpx+s75afm7+BH4vfeM92n3wffX97L3bff39pb2UPZ79qv2UffU92j4tvfN9734Cvg4+F347viC+fn55fqr/Fr8a/ye/Ib83Pt0++T8Vf5w/l7/OgB+AEwAVAB9AXgCHQMtA9ADiwWWBdUGQAefB3cHfQY5B9sHhAe9CFMJAAoYCuEIxQi9CO8I8QmTCiIK6QhOCL8H6AZHB/cGtgQjA4sEcQTeAzAE1QLiAYD/Av9R/dj8wv2a/Gn9Af67/QX+Rf0Y+7v7R/z1+4v+c/9L/gf9Bv38+8P5nfnB+SD5P/h0+bP47viH+Wr4Dfpb/Pz94P21/i7+jfxM/eL5nPmD+br6WfxT/tr+kwBkAm8BHQT7A7AFvwaTBb0CtAIEBb4DtgMrBh8G7AfUBhEFOgVwA/cDIwWJBbUFhATZAz0EHgWABC0DogPCA94FsAU6BjIHfwYdBRID3AHH/4D/QwBaAHIBYwEOAfIADAAu/nf+Fv6D/cD+lf07/Tr+Lv3K/I/8Uftv+wT7nPo/+0j7jvrR+Tf42vb89er1Ffbn9Rr3OPiM+dz5H/pK+nH6qPo++rP6vPnR+Er4mfgr+dn6KPtM/Kz+0f4P/nf9B/1R/Vv9HP2A/cr9ev0r/ln+l/36/T3+pP7oAGYCagQiBwUIEQnfC3YMsgsGCz4KhAmgCGoHUAdUB+cHoAiCCMwHHgeJBlMGQAZ3BhMGdAXPAwMCJf+W/c3+Q/65/l//U/9hAcQDMAMxAvEBnP+x/W39K/3k/D/8RPwG/VD8W/uQ+lP65vnL+cL6UfpK+337yPm4+vP6lPnb+0b+awEYBNIBtQGc//v9EP9lALsAaQBjAtoApgH+Aa4AwQBpAN8A0QDVAB0EdQRdAY0CVwCA/7oAOgFkAmsCcQOhAl0ESweUBswH9wjVCe8JYQrlCjkLqgvNDJ8Nag68DSsO+Q5MDncNIQwTC40Kcwq9CoEKkQgZCMQH+QS0AjIA1fsx+gH4/PQV9PHxFPHP8CTvBu4B7nHthOvK6mfqFukp6CrnpeX95WzmnObe53Lp3+q47FLvhvH583r2XPhN+VD6sfq4+oz7gfyH/aD+Iv9y/8j/dAAoAbcCzQOEBDUFNwURBb8FjAXKBLwE9QQiBsQH0wjSCXwLDwz9DKEN5QxMDVMNZAyJDKsMbgq/C48J/QdoCS8J/wffBwwG1ANzA2cCHwG1AOT/Bv8n/rz8Nftx+9j6F/pP+t77ufz3+5z7iPnD+K35lvry/cb/yACVAmwAtf1y/Eb6Xfj6+Pj5N/uN/UwAfgB4ALEB6gFxAeIADgIaAZr//f4w/Qr7OPue+lv8C/9nAWgFegcSCY0I7gfhB5wFYAQ1BNADnANkBPEDNQSHAwoBNP9S/uz9+v89A1kF+wjjC/MM0g4GEHAROBICEj4SlxF8EfwSshNnE5AUdhXtFLUUuhPMEZIP5w2uC9oIgwVRAan9B/nz85fxAu9x7CHsQOsB6afnduVS4/Pik+JH4hXip+Cf4A/g5N8l4XjiduQq5zPpLOux7V/vEPG08bjybvST9q756/wk/04CgAXHBr8H7QdECCcJOAqhCjgL2guECx8LawtMDIYMoAxODEgMDwxMClUK+Qh/B/4FVAfTB+oHggdbBw8HigeWB6YGpwZLBt8GTQcrB4oHWQeNBckE5AKZ/zUAdf9j/8sANf/k/W/+aPxm+YD4h/aK9n316PYh+TH6pPvu+w/7B/mu9eHz0fM99B71tvaf9+P5K/3z/a/+cwA9AcAACQF6/yr+o/7h/Cn8+v1N/9kBOwSGBfgH6An/CtcLLwvfCYsHZwNlAAr+qfxs/YgAkwROB/YKGQw/DC0M4QnXB6YE5QHZAVUBLgL6BPAJkw5dE40YIBw6HnYfpR98HSMa6BY6EiEOYAsmCBQGcQS9ATD/3/yp+/X5JviI9zX0ifBA7VDop+M24JrcgNkK2P7Wvdb31yraSNxP31HjyeZr6rvtPfCt8u7zE/Vw9gb3Qfhu+bX5jPsn/a/+oAFHBFEGfwhoCtALXAzRC6IKTQn5B9sG0gagBj8HQwhBCAYJAAkyCfIJ1wkbCvAJ/giGCZAJ/ghjCNcHfwYvBZUELQSWA5IDpQP6A6MEGgSLA5QCOQFzACz/K/6s/Xn9jP35/bX9nf7j/jz+/f8JAd4B2AOjBNUFdQfGB6YHbQjnCJMJ3gn5CTcJjAh+B74FswSrAvQAu/4m/Of5Sfe59kL20/Xn9MPyn/IV8UXxPvJi8bjwve7b7GLrr+uf7cjxO/eU+r377vzN/eH9kf3j/Uz+1wC8BKIHVAsxDfsMQg2gDD4L+QqRCYcIFwjgBncFNwSiA8kEmAbBB1UJVwrWCtEKRQrwCE8HOgV9AwwC4QAmADsANAFDAgoEZwYPClMOlhIsF9YbNyBLI5MkZyQgItAdchf5D3kJHgO8/W/6yPiw+Mj4tPjD93702+9O6pjjmdyU1rvRQ86TzPTLQcwSzuHPhNIl1gvaLN+B5BTqou++9IT5SP3Y/2kBmAJRA1QEwQWOB64JzgsRDjIQ6RHAEhYTjxImEREPbgy7CR8HlgRCAnoAMf8a/oz97f2x/jIAfQKnBMgGqAhVCaYJ1QhWBygG+wRZBM8EpAU4B1IJkgqBCy0MZgw0DPEL3wpoCTIIQgYQBHwBNv+j/av7C/qk+Lb3+fdw+LT41fmA+hn71/zW/QcARAJXBF8HKAlHCzwM9wuYC/AJoQj9BjMF0ATVBB4E8AROBCcDJAJPAGT+DPup9zH0gPAo7XfqEuhg5oPlEuUK5WXmu+j46vvtivBE8vvzUfXJ9+75evt5/R//HgItBbMIcgyxD68SNRRqFEQTFxKUECYP5Q0dDJAKCgkECHcHKgf0BuwFXQQOA/gBqQF8AqcEeAe7CosNgg/2D30O0AseCJEEcQLNApwGlA3TFgYhDCuvMkE3kTfxMocq/h5OEgQGsPtb9AvwQu7P7vLvifAy8M3tTekG4+TbRNQOzUXGq8ChvAu667lyu2S/JsXSzLrVI9+H6CXxqvh0/oYC/QRHBtIGLAcZCP4JPw2tEQEXhBxmIfMkUyY4Jc0hzxsmFPoLygNo/JX2qfKB8ErwefHb8+H24/mE/C/+8/6g/rz9gvxy+wT7ovtx/aEAsgRSCVYO8RLNFnkZlhpiGiAZlRZEE48PdQv3B8wEWALwAIQACgGQAZoBkwGXANT+Gv1r+lP4O/Zi9EX01fR/90H7xf/dBDAJ8wwFD4QP9Q7FDCQKvAdeBd4DewO4A1ME8gQIBdQEnQNSAWr+Evos9Q7wD+up5j7j3uCX31/f1t8Q4ZbiM+RQ5h/o2+nA61Htbu/68Rv1I/kI/uQC0gdQDPUPJxNVFeYWxxdaGG0YZhgqGDgXpRX/EhsPpQoWBoUClADwADIEjQlFEKUWwhsoHvgcRBhOEdUIjAFL/TL9VQJJDEcaUCpaOVBFG0wbTLNFrjhHJ+UTFAGN8UvnouKF4w3op+3H8m30tvF46i3futF3wzm2x6vwpJ6i7qTvqvmzrb4kyijVu96s5q/s+PD98yj2a/gg+8P+qQPJCQYRXhkaIpoqujF6Nv03rDWzL7ImehugD3gEdvtd9T7yEvLU83f2sPiE+Vb4/fTm7yjq4+RT4U3gUeIt51fuGPdXAFIJ/xALFw0b5BzPHDob5BhiFkkU4RJZEsUS5xOVFSAXJhgOGJQWXhNyDgcI0ABl+XTyAu1B6dTnROgp6i7tTfBs8zj2k/jl+vv8Uf/LAUME9QZLCasLsQ03D6MQxhHYEqITDBR1E+YR+Q6hCs8FKgCK+uj0ne/76innPuQr4q3gNt/e3ZDciNst24nbhtwe3k7gY+Pc53Tt8PPw+lsBIwfYC78P0RL/FHoW9xabF3UYGhp5HGQeKh9KHsMajxX4DuoHPQJR/qH9wwCtBngOJhY9G/Qc5BlYE7cKFwIx/C36pv30BgYVryZBOKFGPE+JTzpIJTn0JDIPIfuc7JjlTeZu7Xj3owDABdADWvrk6VrVTsDsrd6gfpo4m3iiYK5tvBbKHNV23OLfaeBI3zrehN5L4ebmkO+Y+vgGtROYH70psTGiNlQ4hTZzMdMpOSACFocM/AQKAP/9av5BAEUCxQKdAP/6b/LR507d59SH0GjRiNfs4QPvOfx9BwkPMxJ9ETkONgp5BzsH+AlFD0gW2B2uJMgpTCyvKy0oKSKXGlsSXwopA0D9zvgF9rj0rfQ19YT1F/UH86fvM+s15gjiSd8i313iO+k78xT/KQu9FW8dhyHHIf4eRRobFV8RNhAcEpUWKRzVIPoiSSGIG6QSmgcp/Enx5+fM4P7bn9lV2Qfav9rP2g/aLtlw2OXXx9fr13fYbdpz3tLkZ+3t9gcAzQdFDSYRPxP5E7QTiBIPEmcS5xSjGLkcER+6HjEbhBUID7oIugPX/7L9Nf3b/lcCPQcODGkQKRN4FCkU4BIsEfcOyAyQC44MHRHuGTsmxDSuQTFKu0v5RKE22CIiDVb7B/Ct7QTz7PvYBP4HxgKR9Czfvcensu+jXp20njqnzLOZwVTN29Tp10/XOdUL1GHVBtoJ4kzsKfgZBH8PABoMI/gpgi4tMKQu4ikWIokYtA4BB7MCvwLvBUAKag3CDHYH+fxf76rgiNR+zfLMNNNb3tfrXfiyAWMGNgfEBMMBZP9o/yECwQemDwwYKSA0JhUquSrQKJEk8R4JGKYQZAleA0T/fP2P/br+bv/v/jX8IvdN8FfomeHA3Avcb99p5nnv5ffR/v4CZwVCBvcGvgdJCegLTQ/yE3sYlRwoH/Uf9x+cH7UfDSCcHyMdGBc6DgUExPog9J7wXvDM8ZHz1PNX8Zbry+IF2SPRVs32zo7UE9xf45/o3esI7rTvLfJC9SP4zvrv+2b83PwE/lEBSgbeDBITaBdqGNwVKxCmCQYEnAH9Ah8H0gwFEYwSThCYCgcDafvZ9aH0wPcq/yYJexPZGzwgkCChHSYZbhSZEQ8SvxY5IAouPz52TGBUz1KRRhsy5RifAZTxwurd7EDzfPnS+6z2O+qH2MvFv7V+qsakqaRPqUyxtLthx0bTkd7I55vtbe/U7UHrzOqD7jH4QAfuGD0ppTTKOOo01CmpGkoM+AGo/dT+VgK2BQoGBwM9/Yn1Ru0K5Q7eUtm717HZj95H5dfs5/Tp/EQErgkADO4LQAqaCQMMPRKJGw8lECxpLrkrWCTmGosRqwpUB60GRAcBB7QEtP8e+YLyo+yB6fvmruXu5Ijkqea+6c/vkvaX/bQC0AQ+BckDrQRZB48NExXDG84g4CHGH0Ya1hPZDhcNdw+XFKsZABzjGXITfAoFARH6jfZ39Zj1WfXe9Njz/vEl8LLtvOrL5qbic9+l3R7e4+Dq5bTr8u9r8Z7vWux36aLpSO3u8pD4Pvy//pEA2QJmBUoIzwosDL8NPA4NEEcQjQ/MDVELpApDCvEJ8AbfAbX8UPrY+xYA1AQcCCAKAAxxDycS/xPVEycTCBNlEtITVhQXFUAW3RrLJw44iUcfTvJINznMIlMP6AOZAnMHKA10EPAMegK/8fLeas0lvyi2DrJSsrG1lrwAxl3PrNWn1qjTk87Ny2XP19oE7a4AKRHhGsMcMhkeE7QOsw0ZEBUUzBbaFyUXqRRPEF4JkwCL9uHsfOXZ4VDiWuW86YLta+8M74nsEupS6S7sQfMC/bwHvBBWFyEbexxLHLga4BgKF1cWYhdFGZYazBmCFuMQTwkUAaT5c/S08evxsPO79Vz1TPIV7n7qfOkg63vvZPVi+9UAewWWCH0JDgnVCGIKSg10ETUWHxr1GzAbyBjzFDQQCQzkCZQJcgkmCYQIFwfNA1P/zvok9njxR+5+7hXyZffQ/dEC4wKs+zLw5Ob443HnyO5F9rj6uPpq98nyH+716bDn9Ocm6jPuF/Nn+E/8V/0E/Ob4Hva19Pj2K/04BtcOzhM0FO0QdwwvCQQICwj8B9EGzAVGBcsEzgQxBXkGaweeBxkHrAZ5B44J4A3REoIY7xw6HUgahhTGEDEPERCZFKwb3iZ6MwE/yEJhOW8lVg/hANr8PgEUCVgOzwwJA87zo+Ku0k/HCcLywXfEvMjezrjUvNdt1s/RRs2iy4/Q8tup6xr7mAbhDO8MUQmfBC8CVQRyCbQQVBfMGv4ZhRQXDDoCqPi28TbuSu6e8DPz6/Sr80nvW+kL5OXhaeN06JrwJvnwABoGzAj9CfkJCQvEDUEStRcdHA0fsh/5HZIa1BU1EXYNVAvlCTwJIggEBhgC/PuS9SHwGO3o7KvubPFd9Kv2pveb91z2DfZV9zD6yv68A78Ilwx3DpwOEg5WDjAPeBAmEZ4R/hGQEVMQGQ6lC/oJ8AjAB7wFxwPSAmsCCwFJ/k/7RPkK+HP3Efdv9m71+fMM8njvyOx+69/r++y47evtEe7I7RztcOxV7KLtSvCv8+f2tPiV+RP6m/oj/D79zv6eAP8CygaICYkLVAw8DMMMFAwXDNkM8Qx+DToLYQifBeICxgPzBBgGcwUsBMYFBAjaC0UQTBR/Fr0TEhDsDSkOtRKIGKkfuiWILFw2lTqnNFwkeRWDEAsR3BTeFsQXaBMQBbbxKN/v1ePUydUS1fHR189EzYTIU8JsveW8wcC8yCvTV90k5Qfq4Otz6z/s9/Eu/c8JmhM6GR0a8xc2FHgRwRB6EZITqxSfE6sPgQm3Auj6v/PJ7lntBu8L8UzxGO916zLotebM5zzsCvN8+rsAtwTqBhcIywlCDV0S3hf3HHEg5SEbIfsexRzeGqMYuRZ7Fe8T9hDuC68Fav+O+W71AfRE9Cj0LfOI8XbvAu1R67nrou3R76ryw/Y/+5z+IwHaAz8G6we8CaoM/w/KEZESJhNkEx0TNRPXFLUWnhZYFGoQxwvsBnYD9wGhAPT9xfkL9Svwe+uC6Ifnb+fr5hTmVuU55E3jaONd5XPoauvr7bzvGPG88pj13fh0/Ez/GQFDAjYDBgXbB9UJ1wp7DAAOqBDeEb0R3BBCDHsIBgUbBVoHyAfyBzMDov16+oX8OQQBCngN6A1pC5QHoASjBuEL2xDqEg4THRJ+FjAkRjQaOoQuxh+EGr0eWCUKKZYsOioYHoMMxv4F+/H6Lvhe8Mvmxt/G2kLVEc11xEO/Gb5ZwCXEqciXzCXMYsj6xVfKWdZO433tjPNm9pv4TfwLA10LUhJ9F88aGBw2HB0cGRz0GVcVkxE6ENcQKhCODAkGUP209SrxPvBY8bjxbPC07EPomeXr5QvpAu1/8LbzyfbE+Tz8w/5GAuEGQAz7Ef0Xkxx/HvMdIxxmG+YbJB68IH4hKyDwHLcYKxSKD9oLIQhDBKwAhP1P+gP2jfEa7nDrB+o46dvoxeiK6BrpXeoh7DHvyfIb9pX47vqD/mgD7AiyDqATfhaAFoEUDBNhE50VyBcgGOEV/xBRC94FwgF5/qP7S/m89pXzXe8369/nkuWZ5P3kDuaE5uLlyuSU5Grl5+e+6zTwavSH92z51fqY/Gr/WANpB7YLEg/MEcwS4xGMEOUOKRBNEfQRqhCSDYsL9AfOBtQGeAgJClAItQZEBDoEtQYDCVAL/grjCT4KUwuaEZgZiiKSK2QuSCv+HU0TfBYcIuIsXSquJK4eyBQYCBD8p/oo/H35JvPA6k3kYty402TMhcaGxWPI48vLy2DH18J0wHrASsTbzJ3XOOBH49PjgOUg6qbywPzdBhEOohFwEyoUTxVUFxUbvx/eIvQi2CDgHSIaqxVFEdMO3g2RDM4JBAU3/2f5+/TB8hTy0/FW8SzwYu5+7JXrzeyV71nzJ/e3+kP9av5g/+YBdwbPC8QQxRR4FxoYzhe+FwAZNho6G+cbextAGccVAhMKESgP5AzNCq8HnwJC/Tf5f/d79ZDzEvJ18Nnu4OwX7Qjutu6B7zbwhvHn8Qrz+PV9+lMAaQZDC5ULggfrA04FRAtOEUsUkBM+D+MIrAPrAQcDrgPxAfT9pfhL8wjvn+yZ66XqzukD6WroKOeN5a/kceWt6I3sU/DW8qD09PYI+KP5APwuAVMIFA3wDgkNMAsDCzoMLg4sD5QQDhJSErkPJwxvCnEMPBCKE08VdBPCDgUKtwkbDZsQnxN2G5In/C0mKCYbVBUFGd0fsiWXKqQtNijgGhIOBgm1ChYNWww9BxT+C/O46efi+d2d2gfZJ9hm1VHQYMplxHK/oL3dwI/HEc1cznDMSsrbyoHPRdh940ftPvON9bH28fm///sHwxADGHocDR5EHkweHx/gIAIjsiTSJEQj4x8+Gx4WtREKD5gNFgwlCSoECf4x+Ovz2/Fk8abxO/Fk77vsL+os6fnpmOxU8ObzoPZE+FP5ifqj/E4AtATqCAIMDw4LD04PQhCCEsQVqRj9GZ8ZihfQFMoSEhIAEu4RAhE/Dz4MrwjmBXoDFQK4AGr/FP6r+y36hPho94z2EvZZ94j4y/m/+Qj44fVm9F/1rPd/+R76oPkd+Ar27fOK8870Gvaz9v/1XPVZ9APzBvL58WzzovTI9UP25fZx9+L21/ZE9wX6xP1tAL4BEwH8AHEC/gSUB0YI6QcjCL4IOAnACEkIvQiTCAEIgQgCC08N8Qu7BzAFLQdGCxAOeQ3GCqoHYgXuBc4IbA05EwEZmRtdFzYPHwt+D5gXBB0gHqwdbBswFj8Q0A2JD10RjRCrDRgKqAUkAKP6EvYx81zx0vD175jsmuaD35Pav9ia2cDb+twW3MrYU9XL0yfVwdhA3XbhJuQZ5XTlzubR6Qnu5PLX90X8gf9dAbACIwQGBqIIpwufDkcQJxDVDnMN9wyiDe0ODBAaEM8OvQxqCsYI5AcBCJgIKAkqCTcIyQZZBYYEWwT1BOEFmwZpBjwFhgMIAlgBhAFsAi8DlQNfA8cCtAGHANj/0P9xAOwAWQEtAYwAmf/i/uf+Vv8YAJ0AlwABAPD+l/7h/rv/qABMAeIBrQGfAGv/Uv8JAUgDgARABEwDlwI1ArUBXwFBAdMBNgLKAW0Aw/7t/YP9Yv0a/dD8iPxz+775e/f89eP19vYc+Bv4QPeD9qL2Y/f791z47Pj++aL7B/3j/UX+Uf6f/k3/jABYArADVgT9Ax8DmgKXAmUDbATsBAMFtgR7BG0EOgQ2BFAEfATSBO8ERAWFBYYFUQUTBXwFQgYNBz0HDAfeBt4GUQfMB3wIDAkkCSEJ8QgTCUoJYQl2CVgJIAm7COYHyQaSBaEE/QNrAwMDmAK4AVIAtf5y/bL8Svw7/Bb8mvtv+gD57PdO9xT3sPZV9q/1EPVw9P3zsvNS8w7zq/JP8hPy4PHA8XvxMvEu8YjxO/L18lHzXvMk80vz+/MX9Ur2UPcS+Gz4hvjs+Pz5k/sP/fH9Z/7U/qD/sQAAAmEDowSpBTsGsAZoB38Imgl9ChgLhQsGDHAMswz4DB0NIQ0aDSENXQ2DDUINwAw4DMcLQQujCg0Kiwn+CDIIXwe3BhwGZQVrBFoDagKwASoBzwB6AAwAX/+O/s79G/19/Cj8RPxX/Cn80Ptr+/36U/q6+Wv5Rvks+R/5EPn0+KH4P/jo98H3ovd+94n3gPdm90L3E/cJ9yP3UfeI99r3//cn+D74hvhM+Rz6y/pY+8v7X/zr/Lb91v7j/9oAUAHIAWYCJAM3BEkFjwahB0MIawidCD4J9gnZCp8LWwz0DBcN7gy5DJkMagxqDFgMLQyxCwwLfArRCT8JlwjZB/gG+gUHBRoETQPTAmICwgEnAT0Aev+w/gr+sf2n/bL9tP2i/Zj9d/1j/Y793v0//pn+sP6u/o7+ef6s/hH/ff/L/+T/0v9b/77+RP4X/gf+Fv4I/sH9MP2H/O77i/sl+976pfpK+sf5LfmW+DT4Dvgd+CH4Cvi691D33faY9o32pfbe9hr3MPcx9/H25/YZ94/34vco+G/4gviV+Of4WvnO+Xb6Avt8+/j7bPzY/HL9Q/42/xcA8ACUASkCrAI/A9YDlgSTBawGhwcwCIgI0QgHCWMJ2wlFCrAK2QrcCqoKnQqdCoQKVwoQCrgJKgleCIkH8AaGBkQGBAagBQ8FIQRKA5UCHgLaAacBPgHLAEwAwf9o/0P/Mv8r//T+p/5G/i7+8v3I/df95f3d/dn9wf2k/Vb97/zn/Aj9J/0o/f/8ufwu/KL7X/tf+3T7kvtg+x77wfp2+lP6UvqQ+qD6pPq0+rL69vpL+7b7Ofy5/BL9ZP2Y/dz9af4n//L/qABnAeIBSgLBAh8DkgNDBBsFkQUBBlUGcAaPBn4GcwZ/BrMG6gbdBrgGPAYwBu4FvwWhBRsFuQQ6BM8DUQPeApECKgK8AWsBfQHtAC0Acv8W/4j+OP5U/vb9if0s/ez8rPxu/Cf88fv++xz86vv5+w/8PPxt/Jz8GP1l/Zr9k/3+/YT+D/+E/xwAgwDeABsBVwFQAXkBrgHaATECdQJkAhwCBQK8AakBxwGYAUAB9QB6AOP/iP8b/+7+2/69/lj+wf0x/d78a/wp/Aj80vtJ+8r6Zvol+gf6yPmG+Sb54vj8+Pf45/gF+dH4rPjv+Nn4LfmK+eP5Qfqr+iv71vud/B/9V/2Z/Sz+Df8HAMgAgQH5AWcC9wKwA6YEQQVyBX0FwwVcBtYG+QbQBr0G3AZRB5AHkweXB1kHKAf4BhUHMAcMB5AGFgbNBcEFqQWHBVcF4ASHBEUE3QOZAz0DygJXAiMCEAISAs0BBgFMAOj/nv9G//L+1f6l/i3+q/0e/V389ft2+437gvtP+1b7pPqZ+kz6pfrh+i76zfrJ+mL7Evyl+zr8SPya/LP9xv0S/mT+zf0C/sD+Rf7z/sj+nf8QAG0AjwCOAbQBLQIvBA4H/we3Apf9lPwKAzwJIQmzA5P/BgPlBmAIaQX3ADIA1gKTBaQFWAN6ASEBhQLhA7kDRQLoADkAtQBCATgB5AASAIT/a/9e/4T/lP+c/xL/iP4v/nD+uv6+/lj+F/7E/d39AP4Y/un9mf3h/Zb9n/0I/kP/x/+N/n/8gPu3/c7/BwDV/XT8Rv3T/5//V/6h/Rj+yP5e/tn+tf63/mX+sv7u/fn9Df+B/of+F/1c/sj+M/6U/Z79Tv4N/uD9Ev6B/tL+lP5F/ln+lf8wAE7/3v5b/ycAiwBFABL/UP8mAasBmQE5/3b/ZwA3ApUBaQBOALYAMQE+ASIBZwHLAeQBlAEsATQBlwHbAVACZAHxAAwBjQH0AaQBfAGsAeoABgEbAXsAN//r/iEA3P9LAGr+5/0SACUAZQASAH7/sP0p/Nn9S/0u/vf9Qf7E/Qn69vpz/Q7+v/ug+ff7sf0t++H7VvtF/Lv/i/qz/Rr8RPyw/CT7G/72/7P/9/8M/qz9WQBTARgBUwKbAXv+3AHkA1oCgwNVAOECYQNJBRoFrwG1BIwDaQYNBasB6gX1AioEMwThBccHOwXa/z8DtQh4B4cFU//7/t8Ddwe+CFQE4f9A/y8BowSfBA4CyQHIAMj97/95AR8C8wO3AGr+5/0j/zUF5AK0//X80ft6/VgBEwf4B4T/xvf09hAAnwm0Bzn8Mvjj+AkC2wZ2Ai/+AvkG/+kBXAF8/K4ARgFU/Z/+MfrcBY0BNwIMAE/4bv7m/H8BwQaS/a77av18AAoEQAET+4P56v0lAhcJ1QAs+8b56vYT/44A4gKxABv7w/2r+hr6LPxH/h4ARPsu+nz6AP+pAe/+3/3B+DT5uf44/2cA2/7i/DoB6fyV/7j/Rv5uBDMAwf6R+6H7HwNiBBUHlgJ7+4X9dQFdCAQII/4R/v791QIpBGMB+f/rAr0EgABv+w36/gIACNcFeAGz+In6LgDLACwJJQRq/cL6t/dr/2MDLQVLA2P7Avli+lkAQAWWAtz93PfZ+Qf+wf/MAWwBO/1D+ib4Rf5JBQUIdP+E87r1pfq8DNgGpf6Y+Er0swm1DNUBy/w095AEQgrPAX/9OPvFAF8IrQfEAXH+qP/SBfACTf6C/2oD2AVAAzr9IPx9/r0BBwYdA8z8UvpD/GsEVgeBAB353/Sw+54FTgcQBuX9Pvac+Mv/ZgbkAtL7Rvmh/EAAowGfAnECmvy99vf4pQFIBykAMfp2++sBBQhSA5b87P2R/xADmwS/B8oE8AKs/jD6WASPBCsLpAyjBV3+kfWa9RsFzhXSEGkDPu8k830D8QhqBuv6g/Y89uv+tgcJA4cC0f3D8yb0PfpnACAJ1gLf/k32FPLV96oBmQlQBkH43fOY+sQAqwicADb0//I2/KIIdwgu+jH2MwHHBRADRvcD+fz6nwZyCasAsvvl+7QC9QJnApv62gB6BPQBHv8Q/QAGWQvuCjb9ivOI/JEGGRGMDmEFx/2w9tIBmQ7vEioOOgJ3+V/7FQDRD14TiQ4b/0nwuP9nBEYGgAr4BlIHqv2h8VL3CgRrDyAIlPnz79T4kwVoCjMGxvpI9IH3TvtJ/+kDZwcOBZT07fBW9wcF1BAMCW/4PfGj8p/5iQeoAywCZfny8Zv4NAJvB+AGTwEn+qb6evpyAvYLSAQEAZz+FP7eCDoKuAdE+2Txb/ic/3YIDQT1+YLynvVd9674Sfj29fj3aPl/8w3vuvcZ+8X8cfsJ76XwZ/e8+Lr+5PyZ+tH5/vyv/I39DvtJ/XoENgXEAfL7bf+MBEwFRAReA4AD6gWjCCMGSQHn+gkATAV/CxsQcgtlAtD4h/mKANMGyg9AEoMKMACL9i74OgOsDHITlg4IBu7+L/n7/VUCdghADccIFAZQ/X7/EwBD/f389Pt/AZoJ1Qu4/sDxdO3V86D6yf9GBQQE3foR7kLne+ya+mwFpQUM/kPzV+1L8YX2Avl6+hD+efhq+5n58PZ7+sr3rP0lBacIHAZQBtMCGALO+4v59gG2C0gT/hA6A3r32PitB6gTHRYrDcgGkQW7Bv4IggOkB8IMfw2GD/sNTQycCFIF7QPiBeYIWg/PEtkP6gUE/UX8PQLZCPIMeQ+7Cv3+M/eh99cAIgjvBgkC9f5W/If6Y/urANsF5QQ4/2D8mPvE/vQCOAVeBNoBmAB0AYsCpwGUAY8CzQI2At4B9QE7AFX8qfkg+6n6IPpQ+Rn47/UV9Jrwue9/8AvwZfFL8Sjugesu6avnyOoZ70zyDvV28bjtHeuk7A3vgvRr+j78ePwX+oD3oPYG+ur/xwNnBt0EoAT5Be8F5gbCBi4FWgW7Bm8Jswu2C6sJxAXDA8gEFQXDBq0I6AgZCHAHYAZqBC8CWgFoAmEDcAIpAWYAdf9T/9//5f9V/8P9bfvF+Un6AP0PAGUBpwKsA68EmgQlAuX/GADqAtEISAwNDaYLWAgABtwFVAddC38NyA6uDCUI7QTqAQkCQgHQ/+P+nPwh/pP8LfnI9M7vmOzb68PsMO9a71ntxOru5JvitePq5gft4e/98ejx0O/Y7cDuau+59Qb/IAUSCHIEcgCCACUFige6CVMMsQ3jDwwRzQw1CsgKZQ1BElcRPBDNC9gGwgbyCcIOMhJED/4JkwRlAP3/9AEUB2cMnxDzEfQPXQ/lDaQOBRO3Fz8d0CJTJ7MpbyghI58dRhvGG74geyXDJfshRxo0Em4JewKx/fr7vftM+ELyn+jn39jYddJwz8TMhsqEykrJWcelxBPCU8Fcwm3Fz8k2zmvUdtq+31vkHeed6lLwbfc6/7cG4gxIEVIUrBWGF4AZDBwHIB0jASTmIv8fchymGf0WCRQSEYgODw3wClAHBQMq/jD5afUw9BT0yfTP9Eb0g/J08GDvCPAx8sn1Nvlh+4v8Pvyc/QkA8gL+BeMHngk3DNMM0wzdDPQLtguGC20Mhg0WDb8LeAmxBjIEpgN8BOUFFAfXB1MI+gcwBRoBuv3B/QMCBwmLD7kRMg/cCV4EfQAAAS4H3g49FFoREQgy/Tn0NfHf8XDz5vMm8gruPufI39zZjNa01WPXG9ta3xXio+Gl3ZbYBdZ72Z7iHO5w+LT+Cv/b/DL6hfsQBNQQMR0pI8ghahz1FnATcxIwFFwW4BkHHQofgh8XHcwZVBUyEgMRMRHWE0cVRBXCEtYN1QlnC28XqihqNf03Gi7gHyUV7xSWHWAoeTBDMSoqVhsQCt/90PeA9XXyHO/W6urk6t0A1E3I1LwWtaq0IblUv9TDQsTawBG7KbftuBzBmM6G3TXqq/Ij9wv67f2AA90K4hKVGvYhyyj0LWovXCwwJoofQBv8GRYbFBwFGpcTxgl8/vnzouwt6YPohOje5yDm7ePn4fnfcd8x4MHiVOhj71f3kf6oA64GighOC7oPahUVG+QgniSNJj0nTyVuIz4hqh4BHZMa9BckFNsO+Qj9ASX7NvSH7iTrjOjM53LnBufE5n/lTOXb5d/m6+ny7Sf0TPogAPYFhQqVD/oV9R2PJd8p5ipdKQMnUCR9IokhjiDcHRYYVBBnBwv+JfUa7XPm+9+t2tDW99MZ0ZXMt8i8xcfDysRKx9/LhdEj1zLdkeFw5bfqffE9+nMC0wkeEP8U8RlVHlwhXCMkJeAmXCZCI/weRhy5G94bZhuPGDoUXxAgD8wPmQ/WDdkJfgVNAVj+O/8oBH8OJB30KwY27DaZMQcq8SOpIKQf9iJjKPwr4CrgI48ZXAyJ/Y3u1uEX2ljXK9j310TT3MoSwcK46bJcsOixq7bCvTPGOs9J1wzdMuEa5EXnJex99L8AEw4BGlgiWybbJn4k+iHcHxoeLR19HNEbThriFoIRqAnG/5z1z+zj5ivkIeQJ5SXl/OOY4uvh++Ea4/HkNOgH7efzjPwnBTkMvxAKE10UOxZzGW4dGiFhIzMkoSMyIhsgoBySF+sQogm+A3j/BP3w+qT32fLV7PTm7+G63pDd792g37Xhg+Qh6Ivs7PEb9wP8eQCiBLUJJw/9FCUaZx6NIhwnpyxIMqM29zeJNAEtGCNLGqQU7hHjD1cMdAWa+zfx1+d74K/avNQyz2fLCMv7zQzSvtWR14DXo9Zi1qLYq92h5DTscPLw9nj7ogBnBtIKigzPDDIN3Q+LFHsZZR0UH/4dAhp7FIEPOQxoCikJ3Ab1A1cBGgFHA2QEIAQVAgoADwAZAkYHiQyGD1AQow48DbwO8xYSJ9E4P0WqRik/tDXcLs8rrydlIIsYtxH9DIwJ/Qb+Anr5Vup62BPJdb9vu8W7Q7wMu5C5D7r1vZrDk8imywHNoM4R06bbcucv9Db/rQe6DckSlRgqHvkiNiXSJCMj4SBmIL4gaCCBHd0WXg5ABXX9wfdV817vsuoT5ofieOBX4A7hn+GO4Urhc+KO5b/qW/Ed+Af+xgIsBysM0xF1F/Mbih6rHwYgACGBIpQjyiNEIjsf7Bo8FvsRxw02CcUDxv3w9+vyhu9d7V/r2Oid5eXiXOGW4Z7jY+Zv6TnsWu9y82X4+f09A/4Hjgt+DpURcxWEGsAfTiU7Kr8tCy8xLjksrCi2IyAdUxVdDVwGhwF3/mf8PvkN9PXseuRj3OnVFNLo0DjRhtIJ1P7VyNgl3Fjg4eMm5oHnl+hp69rv0/Uw/GwBcAWZB0QJYQs/Dn0RSRMSE1AR/A+JEK8SDhW6FWEU1xD1C4cGZgFA/jX8xfpb+TP45vlU/i4EFQnZCkcKTwdqBFACfAFUA2IG7wn6C7ML9QpBDBESMBtSJGYqKSxEK/soSCYjJP8hkR+9G7kWfhFtDfQKvQjPBK39ZPQ96/fjuN7v2obXzdNo0DTOos3NzsfQ/dKM1EjV1tWB10vb6OBT52Ht+fL49039LgOyCCMNPhCwEfURxhG9EaUSgxOVE3ASCxAjDT8KvwdBBRUCKv7t+ef1w/It8dHwF/Gk8QnyT/LI8tbzZ/Ux9/74mPpj/PL+9QE+BYkI3grIDNMNxQ63D/MQOhLNEpkSjhEtENsOpQ1mDEELjQmIBxIFPAJP/9L8wPov+Qb43PYI9jz13fQv9fv1S/eX+MT51/oi/M393f/8AasDLQVFBqQHCQlqCh8MygxFDdMMTQwUDMML8wuWC9UKQgn8BmYEbAHW/pv8o/rM+ND2+fTr8zXzCfPe8hfyf/G68IPwzPC28Unze/QD9VH08vNi9Gr2FPmu+vP6Jfou+sz6BfxJ/hYBgQNwBHADUAIGAs0ChQRhBnYHEAgcCIsI/ghGCfYJVQo6C88LvwxlDdEN/A3PDdkMHAu9CWwIYQfVBXgEfgOlAi8COAGv/y7+wfzt+9z7u/sG/Jj8tv3P//0CUQdTC0gOcQ8ID/QN7gxZDFgM9gueCxgLXwraCaoJ9QkhCSgHEwTT/+37q/gP9hD07fFU78Hsh+qG6NDnSefe5kPmSOUD5TjlPuZV6Mvq0+yG7q/vtvAv8sTzofVV96X4kfmJ+qX7Av13/qn/4gCjATICFwKgAigDCQR2BPcESAXDBX8G2gaXB7kHFwjNB4kHVAcgB9gH+QdRCPUHqgc3B3cH1wdJCD8IHAjUB+YHJgjfBxoIrgcvBwkGggXdBIQEbASvAzMDUQLqAR0C9wGTAY8Ajv/s/oj+Hv4K/WH8Cvyx+/D7KPxE/NH8n/y++8L6NPrj+an5pPpe+3H89v21/4oBgwJeA7wDdAPBAwgDAwOuAg8CMwLpAYsCHgIfAk4B2f8D/uf7DPsG+rr5hPki+Vr5tvnB+qz6i/lq+P73BPio+KL5AfpY+g77OPw2/W/+a/8NARQC/QFEAcAAkgHpAQID9wPHBHsGGwcTCJIIFQi8B4wHvAZ7BuoFRwY0BiIGXQY5BWUFtARLBY8GqAZdBXEEfAPEAl8DfgO/A8wC0wK2Ag4CtALGAgQDPgIxAa7/hgDhAWcClQIwAvIA7/8sAFIAJv83/Ub8EPzT/D/+RQDtAccCHwKVAdoB0QI1BN0DrAOTA9wDXQSpAxkDJwLWAOX/d/5r/fH8iv2U/Rb84vmb+Vr6r/ru+dH4NvcR9kT1NfSO8+bze/Se9ET0gfNH8/jzNvU+9lf2hvYu96L4bPrb+1z8C/zm+5b7tfs9/F794v7I/2wAGQBR/6b+0f4e///+dv4k/l//jgCBAvYDEwRXBGcEzQOlAyYFqQW7BQYGIwYSB7EI/gnOCi0KYwnAB5EGEwVGBd8EdQVtBVoHVQeLBh0G/gTXBOEC2gB//pb8avtM+pD6Sfr5+Lv34/ZE+M75ivme+er4iPnh+dL6jfrU+gX9/f39/TT9qf39/TH+5f1u/Rb9mPz5/SEAdwAd/zQBgwFuAD0A7/4u/w4AowMRA6cCNAMaArQDygNEBl0FDwO+AgwCcQTBBEgE4wXYBAoIygXaBcUGSAUMBcADnQTsBckGPQa+BKwEjQHPAKMCnAGKBAAEzAYnBuoDbgPp/akAmP42AKkBSQHbAQX+o/4lA9EAd//Y+pT6/f/NAIkAcwNWAoYEmwKOAqoAzv91/yX9Wf0L/rMDRwSzBGYB2/2O/Vf8ev6Y+nv+FQCO/e0Ae/0oAjD6X/ox/3b7Zf7l9Wr4PQDUAHb+Uvl89gP+WPyC/Pf4Vvnr/I/94gDP/OL7Ov4A/kAEff4dAAj/YfxB/2n/9QDW/0AAJQPoAccD8QFyA58B2AOaAx8B8wFY/rwBTgCw/wX/ev5E/1QASATbANn/f/qn+1/9Af7oARkCjwGHAFb+bQBY/T4AgP3S/ZD8DPnB/W7+aQCDAVX9nPP98Z34Lf/yAlX8TPzA+0b+Ff8Y/7L+wvwx/53/cgM/AZABywfiAy0FDf3g/07+swGkAZn+e/1kAan/AP1Z+wn67P1C/Pj7n/yE/FX/Qvn5+gbxCvyb+PcB9vwA+zUARQBuAtj5DvoK//kCRQn7BQgFdgW0C/wPJgubCDsF9waXCRQFMAv9CjcF8gNKCtgMtAU9Ar7/hgeiCqUA3QLX9pYCIQOWBZQAfvaa/eT6/AVDAagBzvhR/eb7ivsTAV8AMgDo//sDigltAj/+aPtGBe4CRfsp/g//5AyXCNgDrgAp/hIBlQEI/nT81fz4/CILFQjcA7j4y/foBsoEJQDU8I/3HAUDB04E2vMh+44Cawei+4/1TvPu+sUMAAWVAQb1E/zrBFYBdgP08iH3xALJBi8FigKY/Ab+xv15AzkCgPQy/qMAGwTX/z0C5QOq/kH4BfyoAYwI6/g+9Y/6IAnTC5v4MvK27PgHYwjO/rf3FfkeCogMGgZe8wL0rP/iBYcHrPqpAi8CYA4sCA/5hPIf800J1wdp/vvzqvhsC3oE4Ptp96bxwP7q+OH6+vrD/O4Bn/yE/A0AcvrG+HLzcPjeAO/+BgRvAqkH2AfaAzwDZ/lQ+9v4mQIVBNYFxgWsAToAOQKABr7/Lvzy9Cv+GACwAnYFL/2J/vb5hQF1+cn4zvwhB9UE0AMy/zb52QGC/BYJf/39+Qn5f/+REmICDwTi9bQDGQK+BRkHjP7Q/bL3RQi5A/4E4vxNAacIo/np/QT+2gYF/sUAcf7pBaMKafteAa8B8gSnA031iwMxClEIqQRx+A4HfwkQCMsAXfUVBrcLtggB91f8gf4RD+L/igAs9kD6QQLeAGoCuPZT+YcA4wS1BTr9lPxU99z4MQIQ/rj+jf2TCGP6Hv6K/IkCWwCoAYz+lvmnBE/7/wNGBKQBxwKo/lj86wOCBKX/1/34AYoE3QaKAbz2gQeRAiIE5vMa/HH+bw29BWD6iPqE9/kKLQJb+Af9MgMCCJwDoPeyB2768wOQ//D8kgVr9Q//8ftsDPv/+Pgj9LQDSwrX+Uv6v/MTCfb+wQCL/aT4hfsf9Y0JyQrJ+Uj0vfMmDUEHLPlH+eH4IQgPBhn4L/jIAEgINwal/Bf34/d0B6QESQeg87P2ugfJBywLafG/+an75As7BZn37flTAbAQIv4M+CL5HAFMA2wBEftB/HsEQwUpA7T5zAEq+tsDwP+O+zX/C/7VBLAC8v+R+fb/ZQKH/8b+vvgJBLgHmQFt/xX2RvxFDyAFbgP19/z2WwnTBXkD/vle93AJOwjVBh72dAPv/WUKyQEt/jX7Q/TiD7EEQwnW9IT3nQIzAq0IGfR+/wkDrQbHBZj60vkRBEMIX/94+gf8ggUbBbUC6v4B+iv9hwWw/Yf+Vf0kBMEBCwP6/l/6FQNG/UQAzP8JBE0Db/2E/1r/7/xABbD/k/4G/o/7GwoAAhr+nf6z/UL9uQM5Aj0FM/o5/EkHawNdAib5h/1vA/oJ3/uc/r/84QKDCPr81vgcAAoA3wOT/b/6oAOy/PABNvvtAIcB/PzY/Y794QN1Blb3WPpp+0gNbgAR85b8FQS1FTj94vSt+skDywzaAJ37pwCH+4YDPQOM/yX8MACeAtkFv/+t+Tv9lvs/DFD6JgGD/isIwQCo92ADhfx+BrL64f+KBDcBAwSA+qIA5/4vBrv8Cvx4/FMEOAKh+gr+kvthBxP/2QN79Wb9Zf+ABIQExvcA/X0ExQPT++73wv83DI8D5PlS9RAIgBD/Btbz8/LcBb8JnQGB8roBcguXBxkA9vUt/4IDzQXa+vj7sAJzAUEGbv1YAu397fwC/+b4qwL2/IoHhvt5Cqj5yQGNACr6dAa59QsHev6j/zYFPv6cA4f/9v1GBGn8IwHpAkb6Hv2pAoT+WQdO+0/8If7J/o0J3fww+VIAZP9XBxQBr/RzBST8Cgnh+7XuMQiSAHwOhfLG93MD4wQ5DSfxfPsy/FgLlwbX9cL51QNKDkL7KPbg+G4K1wEu/iT76/60CRD4Rwb7+EsKYv96+hUF0ffHCO/1+AGV+5QFtf2wA0b9RQXZAmv8kP7K9jcDrQI2AsUD/gg59F3+u/1gCukFS/h0AYf1xwuQAbr8+gPi+JEIQfro95ADzvjvBtL8JgO3+Mr86wCTA3EEnfEpBqT/zwNT/Ir0CgviB3AHtfOo9BoABwzkB6n5G/t1+wQGEgjM/8f8Qfl3ALwHTAcv+nn/NwTdAhf/Mvb/BEX9mwEHB8AA1wM79VEEygR5AMz8JfN8BsgD6AQW/YUADQUe/EP8ivkeA+H+p/8UAOb9MgOFAVP9iAM7+pb5WAD7B/P/sfwg/50DfQZdADUBEvgxA1f+xAci/zX7LgKsB1oIm/kJ+E4DggL7AyT9JfvMBucA5QeR+JT95P8QAEkHp/xVA7H6+wfkA20CffjY+KgEoQry/y/4z/saAycL4/6X/MD5pf3PBpgAyf769zUEiAyRAzv2zO4Z/lkQXQaY9gjxyv4aDioFffuP92j2BAkiAnIFjvrF+QgLsgW0Adbvl/u0BeQMQATo9ij95wYlCGr6ffjHAxkE4wP1/db/N//bAA8DSPqv/qv6+PzNBNoBTAPs/C770v7PAD8CngAo+5H9hAI5AKIEWfwF/OIGKQDeBNX0//xe/eUGOgVm/KH/h/XyAWgF3ANi/EH4Wf/0CqIB1/Qm+ucEoQ2e/3v4f/VmA7ELUAXy/NP6SfyEBuID2QFL/Yr8k/56BTAA5wAp+foAfAVEAZz9LvfQA9wEfwg6+kP9evo6BBUDcATU/zn5ov8u/y8Dlv6Z/AX+M/83BHMFyfy8/TH5BwTI/MP8AvsS/6MGHwGtBET5aQCmADIBYv+Y+Rr/fgAcAWgB6vys/AT/yQX7/1j+AfwQ/owBTf0D/xf6agIwBp4E7Puc+sn6JgeoAKECGvco/xwEFgS+BHb6Cf+G/0UDRwDGAaoBdwPpAgUBDP4z/dUAOQD1AQv+1wDF/MgFnf2qAVL+UwKwAcD7Gv/9/QgJGAJEA/D47/0lAi0AJQKb+0D+3gLLApgFj/gf/sj7ywPWBYADF/0u+on9xAKABgEB3Psv+6P+ZghQBH0BYv2G+w7+HP4ZALD/EgAAAtIBSwLb/UH8E/4WA68CIwAk/7z+sP4ZA+EF9QK2/Wv2BPs4/vcDHATPAVkEYgEKA7n+nvyK/0z+LgHnAQkE6gNkAFgBoP7hAL/9F/2B/BH+igJ3AzIFRgCR/Z79oP/hAFj8xvuU/xUEkwQAAsv/QP6z/+4ADAKzAroA6wCWAR4CGAQkBNkDSwIMA7sDNgRUA4wDVQLYAkMCfgScA2sCvwAZAsEBNgLoAGb/hv7H/Vf/2P0B/en7ffu6+wz8tPtg+tX50flG+oL6LPnD+YL6rvrb+tn6iPvt+1z88/ts+wz8zfyI/Zn9Uv29/ZT+p/6r/rr+0f6l/yv/uf6Y/1gAqwCX/37+uP+bACwB+ADi/88AGwEzAX8AHgGKAeMBvwFvAfUArAB5AIwA0AArASsBtwBzACsAcABuANEAmgCKAFIAjwDx/87/hgBUAC8Akf8nANgA1gB9ADoAPwDKAIYA+v/RAMcACQF2ARcCkQGOANwABgGFAbgBhAFaASICLgKJARoChgGvAW4B4AH1AfIBQAHVAbsBnQHRAPb/yAD4AFcBkwARAZQArAA2AOn/awB4ACYAf/9NAJkArQDrADAAHACo/9n+BP/Y/xUA5//+/rT/3f5G/7n/lQDu/7/+p/5F/3z/N/+u/hD+aP5e/9v/f/8T/wz/Wv/t/jf+8v5Y/5D/s//t/2f/g/+R/y8AQABIAAEA2v9YADMAKAAeAJQA0ABjAPT/2/8mAGkAaAAzAJj/iv/f/0cArQD8/47/Zf/k/zUAzP+t/7z/4f/y/2X/Qv+F/1f/Tv/i/hb/xP/k/yT/cf8x/1n/Q/+6/pf/fP/a/z//Av9i/8z/8f/f/1b/r/+P/4f/l/9t/8H/KQB1AGkATAA8APn/2f+H/7v/5f90AIQAWAB7AFcAjgBkAFcAWgA0AGQAZgBJAFIAdwCQAGkARABGAFcAYQB5AKn/6P92AMEATADN/9P/zP8EABsA/v/j/woAOABzANX/1/8MADcATwDW/+v/m/+p/xIAIQDZ/5T/2v9c/ycAlf+X/6b/uv8kANb/pP/E/8z/5v8bAGj/M/9+/7n/IAC3/9j/AgAbANr/8f8ZABcAGgBHABEA4v8LAMT/YQBQAFoALgCb/zUAWwBlAAsAlv/r/y4AXQDS/3L/EgBrAEQAmP+V//r/ggA6AJL/cv/E/wcAGAD+//H/4v8tANT/JgD6/xYAFQC7/z0AMQBcAD4ACgCLAFIA7//m/wAANQBYAA4A8P9BAFgAHgDz//n/IQALABcAFQAgABkAFwArAPL/BgD9/yUAJAAjACUAJAAjACIADwAWAAQA+P8XAA0ALgA5AGAAJgASABsAWABfADgABQDu/xcAaQA/APb/BwA7AFMAPAD8/+D/DwAUADcA9P/V/wAAQgAPAMn/8P8JACYABgDx/wEA/f8bAP3/0/+u/8v/GgATAPj/zP8FAPz/3//n/8r/DQDl/yEAMAAnAPv/7//7/zgAHgD7/83/+P8wAAgAFADH/w4A6f8EAPL/2f/u/wAA/f8EAM//4f/4/wAA/f/A/8L/0//p//7/3v+8//L/HgArAB4AFwAQAC0AMAAkABMA+/8mAEUAOQBBAD8ATABCADwACQAIAPz//P9JAOn/uv/S//f/AwCx/5D/yf/5/+//mf+U/67/sf+W/6H/jP+Y/8f/6v/7/9f/2v+n/9v/3//G/5T/nv8dANr/8v+Q/7T/+P+3/7H/lP+6/9r/5//6/yYAEwDr/9n/4P8SABIABADy/xAALwAlAAIA8f8EACgAMAAcAAUAzv8ZADYAAwDq/8T/8v/0/9r//f/5/wgA+v8HAP7/2f/6/+X/yP/h//f/KwAWAO7/vv/K/wEAov/H/47/+P8PAAkAyv+w/87/1v/8/8v/0//P/+7/RwA7AB4A0v/O//7/BwD8/+j/FwA8AC0AJAAwACkA4v/I/+D/7f8fAA4A6f8FAPf/AQARAO//8f/L/+r/AwAnABQAJAAXAC0AEgDt//P/8f8/ACcALgANADcAQAA/ABEAAwA4ACsAKADb/w4AAwBAAP7/hv/z/8b/BwDm/6D/6P/2/xUA9/+5/8j/AAAxABwA8//4/zAAWABJABoA+P8gAD4AUgA+ABIASABIAGwAFQD5/x4AHACVAFYA8v/6/zYAZQAtAPL/BwBDAE4AQQAmABkAMgA1AAsA8f8LAEkAVgA0AB0ADgD1/ysAJAAqABkA5v/1//T/GgDe/5X/u/8AACQA4P+Z/7v/7//w/63/m/+X/8H////5/8n/vv/5/wEADADo/7X/9v8CAFIAQAAmAD8AUgCMAIkAOQAwAGcAdwCbAJAAbAA+AHAAjAB5AD0AEwAuAFwASQD1/7z/4f8WAOn/zP/O/8f/v/9+/87/1P+E/6D/ov/V/9H/oP+d/7L/wP+4/2f/bP+i/73/vP+H/3D/cv+x/6H/j/9k/3z/rP/E/7b/j/+S/87/BgADAOP/0//h/wAABgDT/9r/6/8jADgA8v/h/wMAUgAoAAwA6v8MAC4AJwAKAOf/EAA7ABIA8v8HAE0AOQDz//D/4P8LAPn/xv+//+z/GgDr/7r/qv/X/9T/tv+n/6z/t//P/7n/if+R/8L/1/+x/5b/0P8QAAAA3/+6//H/IAAUAPX/EQAHACAARgAqAAAABQAxADsAFADt/wcAQgBDABEADgAeACsAIwAPAO3/+P8CAP//6P/w/wMAAQADAPj/GwAKABIAGwAZACQAFwD//xcAPAAqAAwAAwAbADsASAA1AC8ALwA+ADAAIAAkAEkAMgAOAP7/EQA+ACAAGAD8////NwA4AAUA6v/r/xUAGADa/+L/9v8GAOX/3v/f//3/BwAZACUAEQAVABYAHwAUAA8ABAAhADwAPQA1ACwAIgAlABEAKAA0ACAAFgAiACkAKwAyABkANAAmAB4ACQAEAB8AFwAaAAsA4v8BAC0AKAD7/+b/DgA7ACwA7//z/ykASgAXAPX/+v8rACcAGAABAAAAFQADAOn/5f8DAAYA+v/w/xIAKAAbAOP/zP/2/woABgD6/wIAFgAOAOD//v8cACMA8P/r/+X/BAAJAPX/+//r//z/9P8JAOH/2//u/+3/5P/s//3/BQAUAAQA7//n/+b//f8IAAAA8//R/8r/0P/d/9z/xf/D/77/uv+r/7z/xv/F/7n/t/+t/8L/3P/J/8j/1v/G/8b/2f/C/7j/zv+3/8b/2v/N/83/uv/H/7n/n/+s/6z/v/+9/7X/wv/T/+b/+v/p/9X/0//n//3/DAAMAAsA+f/7//j/6//s/+H/yf/B/8j/2v/W/8n/n/+j/7H/iP+c/5T/iv+V/5//qP+u/7D/q//J/+D/6//p/+b/4//5/xcAHAAcAB8ANABGAFEADwCDAEkALgCUAIUAXABAAGkAcQBNAEsAUgBDAFQAUwBWAFQAVwBHAEAALAAmACAAJQAQAOr/3P/y//X/5P/T/8D/nv+Q/5b/sf/H/7r/pv+3/9r/2P/q/+3/4f/w/9b/0f8DADwATwBnAFsAYAB2AHoAkwCTAKcA0ADwAOkA7wAWAfsAewGzAf8BPwLWAkUEFgWJA9wAQ/4r/lP/wv8R/13/uwCg/6D9A/1T/Bv8NPzH+9n7ofuL/FD9ff2q/YD8RfyY/ET8zPvt/KT+uP5Q/vD92P7Z/3T/GABjAFUASAAOAVQCFwP/AswBXwFyAngEJAVRBd0EegRFBJ0DTAPeAxUEZAMiA/wCmgMrAzICTAHFAO0AxgAcAEv/QP+H/wz/mv51/if+PP5w/vf9j/3D/nj/xv/H/9oAEAElANn+4f6x/zgAvwHYAlEEeQSiA+4BcgCs/14AmQGOAWUBHAO8BXEHKAZ/APb6S/hL+Gz7I/4S/6T+Nfxk+YX1ZfRc9eD11ve8+Kz4U/eQ9j/2Yfby9+r5mvsf/RH+qP7//Z/7VvoD+y/+twIXBhkHAwW/AOH8mPtk/QwBeAQYBrYFtATHA4QCTQFuAJ0A2AG9A4YFJQfiB5QH3wdBCbMM/BCvE3ITOxFeD/wPnBIcFW0WYRZ2FXETaBGID+8MIApXB9QEswKpAewAu/6N+mn1mPDV7GLrFuxI7HXq8+au45DheeGh4vHjDeX65QboS+qe68PrxOxF8OL0C/la/E4ArwTXB6wICQn8CScNxRFfFYAXoRjxGp0cnxv6GHEW5RXoFH0T8RElEBYOAQtCB38CIf6E+zr6RvjI827vYuwY6kLnm+Tf4j7ieeE04MTe+NyB2+/auNsC3Tve8t9l4YHi5uHv4RfkSeed6r/seu/78RT0Bfbe93/50Pnc+nj9iwEcBdgHLQhBB+UGhAkdEIEVBhhAGPcXhRgTHEco4zv+TBlNUTwgKn0m2zWxSw1ZXVa7SaM90TVeMrox5jQINgcunx/uFPsSiRF0Bz/43usH5wLoo+ok6XzdmMqLu+m4FcFHyvfOAMzhwU+317T8vVTMmtZJ2m/Z/dcr2jniQu3X9e75G/3/AlQLbRNxGPAYeRbnFQYcySZzL/kv9SiaH+8Z0BtMI8MpryioH4cUdAxjCjgMxA5ODVwGzf1H+AH4u/nv+IP0ku7b6hDrGu6U8AnwnOwL6RDo+ur47yr0LPWO81jxOvFQ9Af5uvzf/OX6B/mH+Oz55Psh/TT7Ifd39OT0kfbZ9pX0EvGz7Ozp0ur77IjtMepo5Q3iYeC74lLmeOhY5h3h7N/U4RHmwunb7HTwcfEV9Iz4Av+2BFoIkgwmERQbWC5EQ+BH/TVAJIUq90OBWAlePFwtVXhGezhNOfhIPlTsTt096ionHtoZ1BvYG8ASEQV4+JDuFeaQ4IfdF9duy4TDK8Tdx+jEq7sdtRi007epvprGo8xYy+LGjcV1y1rYEuY/8M3y+e+678T1rAHmDa8WuBqYGQ8XXhcQHDwjuij1KsspQibKIrwg9B/KH5wflh+1HZsYaxH8CqQH9QZXB1QG1AIa/Yb3DfSv8pXzDfTL81vxhe7P7ILrD+wN7V/vQfHV8UTyP/Hr8Ifxd/RM+Lb6A/wb+3z4mPUc9uX5+Pzd/Lj6dfio9QT0OvVl+Db5ffaP8grw6u6H74bx/fLT8VnuIuuN6b3qi+3M72/vj+wL6y7rdO128A30Xveh+Mr5SPt0/hUDuAjkDdIRuRnTKFg5/DsKL2QjhSr4QC5S/FW+UTJLNEG6N9U69EonVitN8DYmJqEhFiPXI58hkxldCkj5Zu4+657qsubf3UbSQMj5w5XDfcLevT25a7c7uEi6nLzjvlO/9r6BwavIYdK22X3dIN8M4kroEPJr/ZsGkgtFDG8MHxAuGMohsCc7KVQoIiebJoYnCCuJLuouuStiJ4cjoB+zHA4cEhz7GcsULQ4tCD4D0QExAiABmvxz9l3y++737Grteu9e72rq8+XJ5PPlnOYY59fo6eh651vmU+g868Hse+578HryTfJd8r7zlvVe96L4tvpQ+2v65PhQ+Bb6YPzE/vr+B/2u+q/4Uflg+t/7JPzO+fH2lPNA9AP3rPk6+Wb1jfK08LfxMvSX96j5Vfi79kn3s/taAewEigQ5BCcL7RlSJSskxxxJG6Miwyp9M6M+Z0VdPhIvRitcNwZFHkf1P7I20yybJEIjqSg4K/MjmRREBg3+K/zp/C76nvLP5iDcuNSK0d7R1dHAzgjIFsLfv5LA1MIoxU7Hosd9x8rIysxO0q/XIt3t4U/m+epV8G724Pu9ASYI3g3/EeQUORhMG+Ud8iCpJMIngSjZJ+4mAyZKJSUlVSWtJH0iGB+5Gk8WexPrEq8SuhCtDGsHegHi/Jz7tvyU/Aj5SPQ78EDtAuyt7A7ueuyY6D7lQORt5Q7nrulO6g/pQudD5zPq6OzK8OvyrfPZ8kDyqPRr92774f1o/kP9NvzU/Y7/GQFKAgcDtAHA/if+FwAkApUBK/+o/Nz50Ph8+Qb7ePtj+YP25fJg8ffyifWd9yL3W/Zm9cX06/WP+Oz7Sf91A5QJTRDMFRYYXRVKE4gY7yaGNFE1yS1kKLEruzImOAg+lkDDOoYt6iTZKcMyJzT6K4wgnhbADSwKewwxDacF8fYZ6wnlYOJC4Yrfw9uf0+LKgMZjxkPI78hyyKfGHcQew67EuchrzaDRFNUr11fZmNw24qXpRvGB95X7jP6yARMG3wu6Er8YOhwwHasddx+IIhImvyjAKaUoLSZmJFMkviWSJjgl/CGnHcEZpRYJFY0UIRPED5oKqwUFAoj/Mf5s/H75BvXs8A7uBuyt6p3p1eiV5nTjO+H24PThguLq4kfj7eJK4g/jiua/6qLs0uwP7a3uDvFS9Mv4ePxm/Tz8B/xs/j8CmwW8B1wI4AfQBoYGhQcbCXAKIwqQCPwFCQScAyoErgTIA+QBBv9W/M/6ovrd+iX6cflU+bH5qfnN+Z75//h2+Mn6rP+8BE0JfQwYDf4IxAeYEPIeVCZDIfIazBqzHzwlmCuoMTQwBSc8Hr8e3SV1K6MqiSOkGUURFg7PDusPvA0hB9385vIQ7lDu5u6H65jlcN/K2ajVmtSU1onXPdVJ0eHOt871z2vSjNVL2H/Zz9kJ2wve+eK06DjuO/LO9MH2e/lQ/pkEwwq1DlMQChFdEk0VrRk9HqIgJyBYHm8dJx64H00hzyFZIDkdaxoGGSYYDheTFf4TYBH2DRkLYQnoB8EFOwNaAO78uPmh96b2m/UQ9CXyhO+P7Inqterp6/zrIOv36afpKelJ6f/qPu3v7pbuf+6B75/xKPRT9rj42PmO+gv7dfxK/qj/NQFcAkYDDQOYArMCIgPLA94DpgOIAvUAx//l/8oAQQFRAOD9Wvv1+XP6bftk+176Svno+Gj47fcF+FL50PqY+/f7K/ww/JT8af4SAZMDuwZ1DH8S6BK5DikNKBOQG9ofTiHWIbcgAx3EHMYjJytzK44liSB5Hicdix38H1ggmBq/EbEMxAs6C+0IoQVwAfD6WfT78Hvw1e967D3om+SH4RDfl92u3QHeIN3j28TaWdou2s3aCd24383hp+Iq45rkFeft6hHvhPKP9KL1RPdP+sz+jAMkByIJ4QmpCnQMlA8UE4IVYhYsFtkV/RX8FmoYAhkUGCcWeRRfE5oSDxKDEUcQJw6QC1IJkQcKBrwEbQPVAcj/X/1P+9D52vh695j1NvSh8yjzt/Ex8MvvDvBi8IvwLfEx8XjwBfBO8e7zy/V19vj1A/a/9q74IvsN/Sj+q/0M/SL9G/+sAQcDTQKdADr/7P6n/58AOgFbAJr+qPxP+0/7pfsN/Bb7R/n592f39/c7+Fv4GPhO9wL3GvcJ+Nj4cvk8+g37y/tI/Ar9ef4GAEABJwIrA4IE8AWJB0wJ8QqqDfMRQhePGU0XQhQ1FVobzCEXJdMkNCL3HkEdhx8uJVYpoielIHYZ/haiGAMbxxpIF5IQWQiwAgYCJARgA9X9g/Zl8Kbs9eoq6wnr7Oel4nPeZt0P3oben9493lndMtxk3DrejuDi4Z3ixuO75SDogOoJ7YfvuPHS8wz2IPky/MP+iAACAhYEagbICMIKagzSDaMOTA/YD7sQaRG6EbsRiBFSEQkRmhDqDwgPEA4fDSAMKQtkCtQJBQmNBwUGoQS9A/0ClwL7AXcAZ/7p/OD8G/2f/JX7dvoF+dz33fcK+Yr5bPjX9u/1wfW09XP2/fd++KX3K/Yd9lr3IPio+M/4Ffm7+G/42fgM+vn65Pq4+r76Cvsx+2n71/sx/P/7tvsI/MX8f/2P/XL9lf3r/Xr+Lv8XAL4AxgCkABIBRAJtAy4ETgRPBFEEqQSqBacGWwcqB7sGsAbYBjwHWAeeB8oHjAcPB9QGFQc1B/8GpQaNBnUGaAaFBqwGoQZDBhwGUQakBucGBwdJB1gHYgduB4kHjgdEB/IG6AYkBx8HCgfMBqEGSwaqBR0FvARCBLgDNQO3AuUB+wAqAKn/AP8L/hD9U/y7+0X7dPqX+R/5rfgL+Ib3VPc398j2R/YW9iD2IPbj9bD1uPXf9TP2dfak9sz29vYx94/3+Pd++P/4XvmA+aT55Pk9+q/6Fftr+7P7yvvS+9/7G/yE/Mr88/wH/S/9VP2J/dL9KP5//sX++v4y/5b/AACFAOIAKwFkAaoBDQKHAvQCRANxA4EDnQPBA/YDTwSLBJoEhQReBFUEgATEBPIE7gTJBK4EkASYBNMEBgUIBb0EdwRHBFwEeAR6BDkE3gOUA0AD7wKeAmsCJgKXAe4AWwDx/3v/C/+Z/h7+jP3z/GT8+fuh+2z7FvvH+n76Evqt+av5zfn2+Qf6H/r8+fn5Vfqv+ij7kfvw+0T8mvwY/cf9df4b/67/IACrAFgB/AGBAiwD2gNNBLYELAWmBRwGhwbPBvEGKQdfB4YHgwe7B9gHsAdIB/cGAQcTB9MGUQbVBZMFQgXqBJwETgTZA1MD0wKNAlQCAAKtAW0BIAHDAGwAUgAnAAEAvP+Q/1z/SP8j/wH///76/sf+rv6L/of+aP5H/lL+Xf5H/in++P3c/cz9wP22/cH9uf2k/WL9Y/1T/TP9Ov0i/Sj9F/3j/MH8tPyy/Mb8tfyp/JL8hPx9/JH8nvyf/Kf8hvyg/KX8pPyw/Mr89vwR/Ub9ff2J/cX9AP4t/mP+1P4n/1T/iP/H/wQAVQCZAA4BRAGDAaMBrgHIAfkBSAJaAlwCLwIPAgoC9wETAuwBqwFgATEB1QCvALUAegAxAOL/mP9V/0H/Ff/2/rH+d/5F/jn+Jf4a/iL+JP48/i7+Q/5S/pL+1f4n/1D/f/+3//f/HAChAP4AVAGrAdYBDAJIApECtgLkAhADIANgA1oDHgMSAxED/wLuAroCigJpAjAC5AGhAVMBFwG5AH4AOgDf/1v/E/++/oz+bP5F/gT+tf19/Wz9Pv0g/Vb9Tf0U/VX9Ov1x/Zf92f0D/ib+cf6m/hD/bf+P/6b/9v92AMgACQE5AY8BpwHTAQwCcgK6Ar0CpgKXArsC3ALgAr4CjAJfAlECUwI4AgwCsQGXAVcBNwEiAfQAqwA/ABcA8//m/53/Xf8Z/9f+xP6U/qD+hf5e/iP+CP4K/kH+YP5I/jT+Sv56/oz+vP7q/ij/Jv9P/23/jP/A/73/9f80ADkAagCXALkAkwCqANgAwgD0AOIAzgDUAMgA5gDuALYAqgA+ACgAPgBAADsAv/9x/0n/Sv9G//b+pf6h/u3+6P7A/pf+qv7O/pr+lP6X/vD+8P4t/yv/I/9+/4r/k/+M/9X/IgBaAE0AoQC6AJ0AhgCgAAABUQFiASYB+gAaAf0A3wAOAV0BJwHkAHsAPQAvAEAAZgBmAD0A9/+1/6H/l//B/2r/TP/s/sf+pf6L/kz+eP4E/8P/2/9J//P/+QBfAOr7nvhi+m4AlgN4AB/8g/oo/iACeQJuAI78eP1D/1ABgQB//7n9/f7HAZoAxACB//kBnwL1AVsAC/+i/9UA8QKLAWkAgv+sAS0ElwCj/13+xQC3AugCPwLQ/kj+0P2DAf8DrALuAd78gv7SAL4CMv+f/IMAYgIgAEj9O/3LACYC+wBg/Zj8N/+TABcCBAFY/Fb7owHwBbICXfue/BID+AbiArD7Nvka/rkCeQQd/wL/Gv4tANsDbvxC/P0BjQeCApz89vuT/NMCpALcA/sBp/vJ/IIA+gEbATj9Ov81Ah7+r/8e/Cz81wB7/hkFlP+M/gz+z/5lAkr8S/tGAXcFzQVFAF/72PuL/04GCgSTBXwCa/6N/1f+8AHSAKYEZgGs/5n+8vsNAHsCKwXqB2T6t/rD/KUELwlHAFL4AfvwAm4IjgEV/uX5RQBDA14DqgII/vP9NP34AKcA+gD2/YP/dPn1/UgCfgIKAvX4d/aA+lwCSAFg+jj0yQG5BHf5IfP2+CwMXgmT/F/xtfcICDoKCQMu+tb12QOxC3UJ4fkb8B0BRQtqDoz+r/f2+9oFzgtHA8wEQ/nNAU8JLgGUA6j4LAOSBUkD9v6lAwYHHgJM+DfzEfpdCcQEZgQUAV77Zv1N9QP6OwDhBnUFHfsG/IX4Vfz2AjcA4fzp9C39NwapBk/9ePNg+yf+JwH6BasB3/2N/Bj6GwMFA9sIvQIRAMD+cgAsBaACDfo0AHkDPw6uCf/4W/28/84EEATK+8IJgQgZAof7OfSmATUGiQnnBav9Avh69BT/uQMVDEMCHvg/+F/43AGAArf9VP37//H95P6k+1YCBvxP+/YFrf7w///3qwLcAVf8vv2I/YEHaAjO/sf7HPWXAT8ILwuJCwn4QPfe+80GYwgmACEC+PoKBqMDVvrG/U/8cwjrBYoAMwAg+IT8ZAFnBS/+K/+Z/tEF3P1y9A37VvsgB8METP4y+Af81f/zBHUBWvgy/YL+pgDoAFcBOQMg/jb+mv2h+foEyAThAagD3/28A70A9/y9AIr9uwHxBrgCQwUuAx/+U/3q/6YGugDXAYH+SgE9Ay4DRPxk/5z/0P4jANED6Qby/u/3WPgzADUBJwEFAnYC4wDY/cj1IPaN/PgCxQnJ/5z+d/0z+xf+tvpf/qYEkgRgAkT7nfyy/jUErwMu/T77vgCDA4cILv8B+3X9WgCuBaYE4/+cAKgCi/11/4wF8AXcASH8lP/7/jP/wARyBI0DF/4W/UICDgDM/gf9C/zN++AD1ALk/0b+G/q4/Zv+M/41/yf/gP0C/M79gALuAcH/Bfyk+PwAlQLHAaP/6f3I/aL/jgDSADcBBgGz/p0Alv9LA6wBPAE0ABz/AP/tAIoAWAPEAev9+P6rApQC3QH7/b7+qv9sAz0ESwKy/Gb9VwFeAEcDVv4a/5YBdP/o/En7JADSAVYAp//P/3r/+/8Z/m79mPxj/8r8tv5aAqP/CQGh/AT8wQDv/wb/IgGi/+sANgNc/Y/88/+uA1QBdP85AF8DOAMf/ygASQL3/u0BoAJyArYFqQGm/L0AggLyBFoAm/x1BNT+hP9eABD9dwP1/jL/X/thAUIA4f6i/mf6FwIR/ZIAgf2m/KMCDv8BAU78iPyb/54DQgAe/8D9ZADU/lYBugF+AhsBOfqS/XcGcAVEART+K/0gAUUF7gEbAW/+6wA+AHL/kAD2APwCTwKi/JUAnv67ACQBqv2+AKIBdv+S/m/9SgAmA+UAS/td+6D9ogJoAKL/gf2Y/PT/4gBEAJP7JvvX/6YCKQPS+4f8ZwE0BHr+D/zX/RcDOQUDAcn8yP/YAJgATQFqAKUCmgKBAb8ATf+X/1kAbwLkAcUBbADE/9f/hwGDAKf/ZP+y/wAC8wDiAHgAzv+0/63+egCaAKUAZP8p/k//xgBkAJ3/fP8AAGEADwBZ/6L/zf7V/+//xf/V/nkAFQHE/2v/Bv8SAM//HgDCABz/6f7A/0P/wf82ACIAogCq/yoAQQA3/yX+TgBbABIAKwDZ/1cArQAwAA8Anv79/jQAOgLRALr/Tv8m/5L/IQB2AG0B9gCA/6r/ugC5ANf/V/+lACgAGQFDAAwA4QCW/20AIwBEAKr/yf9PAKsAegB//4sAHwCgANsAqQCB/icAU/+//0kABQAvAO/+mv9T/xEAAABxACL/w/0h/pX/iwDr/+D+bv7C/nb/fP8W//f+jP4U/5n+6f7h/10Aaf/8/sr+5v7M//n/dQBfALj/cP8C/9X/jQA0AAUANgAeAAgACwAIANj/AQDM/yQAEgDx/1MAvADw/07/y/9eAFkAJwDs/9T/NABAAAAAu//p/9D/tv8fAHkAXAAxADoA2/+7/+v/SgDzAAMBWQDw/xoAlQDNAHUA8QB6ATkBegBlALkAXgDXAGIAygB0AZ4BuwDw/8v/3v/m/+//HAAlAEkA+P9W/zT/V/+c/7T/HQCV/8z+Cv/R/97/sf83/zH/BgBtAGYAsf+P/8f/jQC/AOb/QACXAGgApQCHAOEApAByAI0AfgDBAL0AIAAYAAwAWgDfAOkAiwCk/2j/uP+PADwAzP/d/+T/egAfAI7/H/+0/zEAJgDq/7b/of+b/xUA3f9SABQA8v/3/5X/t//8/w0Axf/0/2AAswCCACAArf+j/0cANQAfAFYAewDOAFUA2//+/8z/3v/z/z0AMgDT/+T/kP/H/53/ov/v/7r/bP9R/2r/D/8c/07/RP+z/5j/Y//s/tL++v4U/93+wP4d/6b/j/8H/7j+1f4q/2L/bP93/4j/1v/m/7z/1P8uAJsANwAPADcA7ACkADwAfwC2ADYB2QDdAOcADgGFAH0AngDdAH4AbgCkAG0AGgDx/2QAYgBDAGIAPQAQANP/oP9v/4D/Sv+t/27/ff96/5n/4P94/4D/If88/1n/Pv9Y/4r/mf9W/3//g/+2/yn/O//3/0gAPQAAAL3/v//i/wQARADYAIcAUABSAFIA8QCBAGMAWQAdAOsAjgBcAFcAMwAvAOf/8P9rAI8AWQDc//H/EQAwAFIAqwDRAHgAfgCOAKMAigBwAG8AmQCPAEUAGAAKAAoAw/+c/9v/mQBSANz/2P/Q/zwATgAZABEA4f9y/2v/rP8fAPP/4f/s/3j/9v+8/7P/v//a/6//dv/z/zgAIAASAL//7f+FAOz/gf/8/4gAegD+/2H/2P8LAD8AZQBLAAoAKQAPAP7/OwAUANL/uv/X//r/PABFAOz/s/9s/5X/yf8bAHn/W/9R/6n/GQDD/5X/if/K//P/5/9S/5T/0P/j/9z/sv+5/xgAXgAlAAEANwBPAJwAxwDTAMoAUQBPADQAXwCIAH4AfwBsAFcAAQDk/0UAVQAZAJD/jP/e/93/kP+//6L/OP8L/zn/Lf9X/w0AUP/F/iT/+f6S/2z/vP8T/6T+f/8KALX/2v+c/83/7P/D/x4AJwDH/wcAgACwAKQALwCiAHUAhQAzAMb/qv9FAIkAXgD+/7j/yv8VAAgAAADq/47/XP/H/zkA1/8T/8H/oAAKAGz/ff8iAP0AegHTAEQACgACAO//1v8XAIkAywDeALEA4gDAAKAAtgB/AL4A4gDUAH4AUwBIAB8A/f8eAD4AFQC6/8T/+P+J/w4AJwPnBecDkP3g+Yv6l/9ZAi8BfP6h/r8AkQFaATgC6wUxBez9tfZH9xX+ogOvA1QBKQDnAej/4vu8+4L8Yf4E/nr90P7E/9H/vABq//P+zv89APQBAQIfBaoJjQmTAYX2PvTm+VAB5wJyAr0AMwBv/m789ADyBZkFcgDx+lj6uv11AaEBkQClAe4BoAOlAcP/XP2f/Y3/qv6J/47/NP+j/1EBLQJMABv+X/6R/wIAJgDvAEsCVgBOAGECoAK6AeL/Ev9a/8IAYAAmATcAQf+GAEQAmgPoCGsThReeC+7zruML6L3w/PYm+Fv60Pmu+QX3R/WC+nT/DQjODm4T9Q6wAl74ZfVW+x8A5wlXDkkLQwYgA5D98fbr9eT12fhk+aUCKgTk/PnzAPKP9Vr4bAKlB/3+4ve/9SL59/u0+z7/tgHVBWMGDgaABNQDxP+7Ag8HwAbWCYQJNgazAOQFGwmsCkoMnwdzCPwE6wGgBRYHqQjtBfkENQUbA9L9sv4C/ej9WvxqAegCg/tE9cf3pvu4+Lb9tf6IANf27O6a8GT12PdJ9EP0NvxzAcX9ovTD8u75xgGCA28C+f4j/nr+x/9oA1wGOQi4B9AGegfYCOcCzP96ADYFhQngBgoG1wEI/l78G/8X/kj9Jf87ATn/9fvk/b//RQIYAW/9GPyP/w8I1wo1CZUBQ/0gAUcEuQhXBQsD2QRpBNUG/AOlABr8ivjF/6kE0AY2A3H9QPvs+eL3Mvct9zz3dvcj+Hb4ivZH99r2NvcJ+MD6B/3H/qP7sfqp+sD90f8PAdQEBgVCAfoAUgRcBQMFqQNBBWUJqwnQBj4AYf8fADoF5AZZBt8DkwF8Ax/+nP/DAdsBBgMZAu4DZACrAMMAXAKAA0n+5/nt+d74//gk+s/5+fdU+Xf5TffV873vgO5n8K/1Gff/9RrxWPB18zP2Cf6yBXYHbAe+BCwBhwEW/+8DYQiPDx4WsxnDF10OoAZJAk8KARXrGSodzxzvFzYVFBE3EcETzRP1FKcXEBmqGMsSIwx7CkgKxAwRDgsKiwL7+nb4YPv9ADUHxARF/pP4Q/Q99HL1e/RC8w/x9e5Q7lvqq+Qm3ujat9lQ3DTfcN8U3Y7XvNNd0qbU3NiF3I7eSdx+12vSdNBu0b/SutMS1/HbsuA34+/ipeJR5OjplvDg+PsARwZkC7oNxhEsGdYegCelMu0//E1CXExlq2hcZp5hiV9gXu1fcF/BW2JSLEZEOm8tkiJ0F1cMaAKh+d/zGO+M6Nfgidj308LTaNgB4NDnpu438LTxZPXj+6cErwusEOgQjQ8nDSUK8gaz/1X4IfCP6aDlLuJm25zTisxIxvvCqcFtwgDEdMVXxrjGdcbtxmfG7cQjxBzGFsg/ynrNVtH81HbXBd0M4/rna+zg8Kr4WgCWBtQIgwsjD1kYzCNAMghEBlV2ZJFuK3IscQpuN2iHZaxj5mFZXppW6UuoOh8oohZPBVH3Au4N6c/l5OGR3EDWqM/Ry8LLJNOc3ybrYfbH/aYCQgUmCMsMDxVoHtgnNy1wK5gknRu+EHwFxfzd9SrxtOpc4y/ZO81iwpW8Vrzsv5LDLMl3zwzS3tJ00tTUVtTa0rHU39nr3fLeZt0J1xTQlM3Y0zXizOuL9IP5//kF/eH/GwWJCVgNzhRGHVgsCEI/WLtq6nKQbfJj1VxYWT9W1FE3TIRCgDlzK7sauARH7+DcQdQn1PTXON8X3WLXxtGk0fbYq+TZ8uMA8AlWEeUX1B+fJTspBillKAAntSN3IJcY0QyTArP8gvmd9BDnOdXEx2a/CcHhx5bLZs9Ez8/Ot9EG1/HbZ+DA4UrmY+xr8V70HPCp6nTjWeHs44zoY+oJ6jbnjOXd57LrtPAJ9er3X/wAACoHixCFF+8jzjW/TdxiJW1Ta+hehE7dQFA6Szi+NwcxyyPIE/EBS+8h3lHRssqlyZPP5tfY3eDf0N1P3SjjQe6nAAUU8iFJKFEqPyrNK8csHy0dLNMmUCB5F3kNpwOL9pToEd9M3DLbadrh1QPPDMqoxyfLlNKH2hLjI+qq7UfxEfVP9y348PaO9y350/iX93bxQehM4E/b2tq63u3h6eXB6GLqk+/x8hv3UPqQ/UcEkg4eGFclWDaqSZ5ahmLfX0pTXUC8L50mbyO5IgIeQRV+BzP2rOeC2zbTB9EU0/Xal+VF7PXxbPEM8MvyUvvICiUbfyjZLyowhitbJ9AjCSHhHewXAhBbBdz69vCl6MPgydyY26HctN5q3pzdGNqH2M7axN8G6OnvCvce+7z8bfvu+jj6rvjo+Af4EPZT883ufOjl4ojd59vL3CDfbOQx543pROzg7VLw4fW7/JwGnA3bFJMcHCoEQEpVy2FIXpNPFj3pLcQmxCSkI00gKBgJCfr5Neyq3zTXodJ11MDd5ecH7/XyxPKS8M3ywPqvCqMb+SYWK3spYyRwHvYb0xrfGeYXlBLiC/UCOfdH6ynjF99o4JrkVuaJ5EPggdtU2f7aO+A96LTutvNl9jH3Vffe9DLz0fFk8gz0BfWm8vzsxeX63k7cltz63sHiNeT/5Pfk8uU06mLw/vceAWALehVfHwcsSjvOSyhWalWWTRFB/zV5LYQq/yhQJHMbWAyR/NvtRuE22W7YtNq54AXn4etS713wOPG+9Wj/9AsiGgAmfCqAKtskUR9CHCkaFBr/GToWmQ6MA5n24+lW4fTeq+Du5NLmaeWl4OHa3deo2cXe5uYn8AX4wfyP/Pr6w/fQ8w7zl/QR94j36fMV7a/kId3k2OvYENoh3fbfZ+JC5bzo5eu98KT27P3MBpMQ8ByCLyhGf1cCXcBVrEdUObEu7SqmLFUuxilCHSMLlvi15yPbfdbt2Rvhmurr8L3ynvBc7Ojr4PFP/2QRIyKFKwItLShdHnsW7BJJFP8XNRoZGCYQpQLE8iHlhN2g3JLhwuZT6Knlkd7d17TUhdbV3dLnyfHo+MP85/vM907yxe637uDx1PWw9ovzoesE4/rcXdqR24Tey+Is55bqgu2a71byMvh+/5kLXhk3KW47sUpVVCxUlUu4P1U1hC9gLY4s3CjDIGMSOALe8XXkI91E2iDdSeNk6PfrWOwH7FTsB/B7+aUHiBYTIXMmHiXLH2Qakhf6GMcblR1+GjcTBwjQ+Uft5+R/4nLk7+Yb5o3gNtm10ovQJNNh2mPjI+vP8MHz//OQ8nTwNfCv8Ub1D/h2+Jn0Sewj5G3eGtxb3ZzgSuT+5tHpFetW7QPxFPfIANEMIhuHLcpCUFNZWGlRU0MUN6UwaTCbNXw4vzJEJKIQV/4t8ELn/OMH5nnpVe0O7yjtSOn95UrmgO1i+9UMZxqsHwsdKBaPD98OnhR+HYsiHCDfFuUJsv2D9Y3wqO9u77Htguqg5H7d09bv0dXRndba3q/n6OwX7Wfor+N24lvlCe2g8tjzS/AW6Y3j+d/j3yjjFOYm6Rrq0euw7BjwQvU++lAEuw/eGQ8lpTBGPZhIDEw7SAZCDDtkNyM1rDEHLgUmyxmJDKMAq/kU9HLvzewl6nPozuiR6QXqoez08Af2h/0gBfgL4BDDESESnxNuFcYXnBhVF0cTAw+ZCy4IawOt/I/0IO156HLmp+Qq4preDtvt2FPZBtyH3qzfFd8h3pDfcOI45UbnqeY65Cfiz+FP5Cnnxelq6nLqwOwj8Av2Nvuk/nsBuARBC2YT1B2oKWkzGjwKQaBArj38N+IykTBiLiEsBCj+H80Wfgy7A1H+rPv++Kf1uPIa8JbuV+5g7+fxHfW3+YD+kAMgCD4LAA0oDVcO2BDiEe8RNhDlDZkMNgw5CgwF/v3k9OLtfung5wDoReaB4n7dltkM2FDZLNst3F7cKdzz3Crf3uBW4Vngw97Q3tDgNuVR6orsIe1a7NrtGvP7+Q4B+AZ4CaULzA/kFUUhBTCnPApExkFxOAEwfixALjEyEDWtMnMp+Bp7DSAHfASLBIcD2f4v+C3y6+0s7Xrv+fGf9FL39PkR/isBWAMBBD8E5AV1Ca4OTBSGFtATKA0MBfH/6/7/ADgC3/4m9xXtnuTl4DHhO+Jh4tHfvdsl2Y/XMdgU2tTautsV3BjdC98G4cni7+Oh5VnoEuyr8HD09/ZC+Cz5hPyfAc0HVw4+FJYZ1B1WItYotC8UND40WDEXMMcv8jCIMhgx9SwHJS8cRBb8EvgQjw38B4QBN/uG9tX0QvTz89DylvEA8azxpPNn9rr4ffrY/TgB/wOaBYsETALLANf/EgF4A3MCSf+N+ZHzM/D17qrvue857fHo4OTW4frgJeL34v/ineLl4V/hReFc4sHkQ+fH6fTrv+0675DxmfT99nb64/zA/0UCCQQAB3EJLQ2TENcTixhpHlskGygHKf4olCjaKNwq4S3TL18uzClYJLEftRx4GxsabRa0EJcJVgMj/178IvqH+Aj1tfBs7WrrGesS7Dbtmu1n7UXtAu4E71vvw+/M8DTyJvS19X72afYZ9czzgfPv88307PTf8w3yxvAQ8PvvcvCP8W3yh/LV8mLzCPSd9Hv1s/YJ+ab73f1P/zoA7gDjAe0D7AWNCDcKKQsADYMNaw5EDxcQkBBCEAkQuBC5EQUS2BG/D/EMzgt1DD4NqQyhCkYIDgauBIcExgQMBWcEzAL6APf/zP+3ADQB4wB7AKj/sP+FAA8B+QCRADcAc//E/oD9sfxr/CX87PsO+yf6AfmA94L2y/UD9T30qPOb8/jzJPRL9Fz0AvU69gH3rPcw+Jr4y/hN+Qb6vfqx+7n8gv2+/Rz+0v4ZAO0AHAFcAa0BVAL3ArADTAT6BEwFZAW0BV8GfwdNCJcIeghOCAIIxwemB2kHIwewBroFnwSQA9kCMQLQAV8BpAAFAHb/E/+4/pH+kP6R/tX+6f7L/gP/YP///6cAegA/AA4A/f8WADwAbwBBAL7/W//C/oz+Nf6//VH9kvws/O77d/xJ/Wv9Rv06/an9C/7K/vL/2QBGAZoBnwE1AUcB5gG/AjEDHAPRAvwBJQHSAFwAmwAuANT/p//c/oL+Bv43/pP+tv7k/gf/mP55/qX+3f6J/47/UP9f//X+s/6g/n/+Jv7//ev9xv0M/gr+3/3V/bD9xP0E/nL+H/90/8P/YwADAbIBRQKfApQClwKVApUCsQLYAuEClQL1AYgBDQGZAFEACADh//L/AADx/+n/DgAcACEAdwAMAaYBCQIpAhEC6wGsAZsBxAHZAfIBnwENAWgAtv/4/nX+Kv4M/hT+MP4V/s39lf2N/aT9zP0//vb+ff+n/7n//f8yAC0AVQBtAFsAHQDT/7T/Z//3/qv+kv5I/iD++f0A/hj+IP4E/kn+xP48/4j/2P9EALAAEgGCAdwBFgIdAggCGwIzAlMCAAKPARkBkQA7AP3/9P/X/6f/cf9p/0z/Q/+B/xAApwD6AEwBtQH+ASMCVQKmAuYC2QK5ApICRwLGAfYAQgCQ/xL/jv4Y/mD9qPxO/DT8Ofxw/Lf8x/zH/Af9Xf3y/aL+Tf/9/3QA2AAXAUwBcQFwAYABogHcAfYB2gF/AQEBigAuABEAKwBbAI8AnAB2ABUA7P8WAG8A7wBeAYEBgwFVATIB/gDgAOAAwgCDADQA2/9r/+D+e/4k/vD9/v0o/l7+aP5x/pv+xf4j/7L/agARAYUBrQGkAW4BSQFbAXUBeQFCAdgATwCu/wj/kv4Y/rn9Zv0U/d78ofyK/IT8wvwf/Zr9Hf51/sz+Ov/D/2YAMgHRAWYC3wIaAzkDNwMsAxIDBgPsAtACmQI/ApkBEAGHADIAGgAZABcA4P+d/17/Pv86/0T/X/9h/3P/hv+D/23/IP/Q/qP+gf6B/nX+hv6C/kH+Cv4G/hH+U/61/h3/df/F/wUAXwCpAN8AQgF8Ae8BIgI+AkEC+gHkAaoBmwF7AUIB8gCgADoAuv8//wj/zf6o/pf+nf5+/kr+Sf5A/kr+i/7h/iD/a/+5/+//MQCZAO0AIgE8AU8BYgF0AZoBmgF2AR0B2AB+ADwA/v8PANr/sP/B/5n/Zv9K/zL/Ov9X/3H/kP+J/2L/K//9/vP+C/82/1L/Wf8s///+3v7F/uf+Jf9g/4j/j/+u/6//3P8aAGYApQDQAAMBJgE9AT4BMwEhAQ0BKQFZAY8BdAEuAcMARADw/8f/2f///+D/qf87/wH/8P4G/wr//f7O/u3+MP9y/8b/AAAjAD8ATQBbAHoAnQCqALwAyQDiANwAsABaAPj/sv+Q/2b/Vv85/xz/B//r/vD+Cf8u/1b/Uf91/3T/af9r/2b/l/+t/8f/1/+v/4j/Z/9d/4H/tP/l/zgAbQCLAIIAdQBnAFgAfgDMAEABqgHOAbgBXQEdAd4A5gAfAV0BfQF6ATYBuwA1ANb/rP+4/5//oP9t/wz/kv5A/jD+Y/6f/sz+0v7R/uH+Ff9//+T/PwBjAEIAWwBfAJUAvwDbAM4AkQBcAFQALwAdAOP/s/+D/2b/Xv9w/3n/cP9l/1z/bP+b/7r/zP+s/5f/n/+t/9H/EgBSAGIAJQDJ/4n/pf8MAEcAaQB0AFsANgAtAD8AYABQAGEAjgDlAEQBOwE0Ae4AwQCaALcA2wD8AP4AFwHOAHQALQAwANL/XP8k//v+2P7R/u3+6f7O/rb+kv6d/tH+HP9z/8T/+P9GAIwApAC+ALYApACaAH0AcwBAAAoAtv9w/0b/R/9S/3X/bv82//L+5P4e/3//3P8LAAkA8//l/wAAFwBPAHwAZwBkAEkAPgBBAFIATwBHAFwAcgCAAKEAiABCABkAAgAsAEMArQAVAdcAxwDQAIgAfACNAJUAUwA0AGkAnwCPAFYAy/9D/8f+vP7q/jH/Jf8F/8X+aP6A/rb+Ev+S/9r/8f/Y/+T/HwBsAMoA+QDmAP8AzQCnAGsAPwACANn/tf+u/7T/if9a/w//8v4L/03/iP+r/57/cP9q/3H/2f8pAGAAUgBRAEgAMQAyACYAGAA5AEsAQQBRAGgAQAAYAPz/EABjAKsAwQDZALkAjQBjAGoAxgABATcBQwEeAQYB2wB0ACoAIwAuAP3/yf+q/23/8/6t/pD+Yf6L/tP+C/9f/5f/1v/v/+r/7v/4/y0AeACoANsA5gCtAGcA5v+j/03/8/7q/g//Av/y/ur+vf6y/tH+9v5F/47/4f8IAA4AJABkAKoAswDMAPUA6QDjANkAvAC2AMoAngCfAJwAvQCzAK8AlgB6AFoAlACiAFgARgAMAP7/FwAzAHMAdQBiACUA6P9y/1P/Yv9r/4D/cP+D/2n/ef9k/2r/bv90/6b/qv/N/8v/DAAVAEYAZACuAJYAIgDS/04AzAAVAhEE3AMv/2j6J/vP/g8AlP+l/37/GP9F/rX+0/4x/+r+zf5K/33/SgBqAGsA8v9r/4//z/8EAAAAMwCuAD0AUwCNAIEAFgBHAO0A1QFpASoBaQH6/wr+2QQVEXUUfQeb9UHvUvTF+jL/cAT2BKgA8vgt+tr+igHHAIn+cf1Y/Ij+BP61/c77fPtR/JT/TwX2BCQBT/xi/f3+zP9fAUQDWANSAU4B0wPpAsb/QP3y/Z/9WgAkA6wENwXTAgYBRP5B/6f/hAEVAjQBsAAvAFQAcQCuACMA/f8GAJUA0/9TARgCQgI9AdH/8v7K/rP+AACvAFUB8wDL/8T+SP5L/6X/Zv96/jf+lP2T/Vr9fP4pAHoBGwHa/9j+Av4I/s3/ugE6A4oE2QIRAeH9u/zx/rUBNgFM/oH9Y/8xAdsDXwg1C44GGAE5ADYA1/xT+qz8Yv0k+sv1sfnW/Mv91/zY/Wn/f/1n/lL/zf45/oT/bwGoAKgA6gG0ASIA2P94AMz/nf+FAIAAcQB0AHIBEAIPAbz/a/6g/r/9Hf40/2EAPgA8/m7+7/6V/0b/wf5QAC4BngBfAD8A3gB7ANT/OQFXAoIBBAA1AQwCMACsABwBzQGeAML/EAFGAg8Cm/8oAKkAfgHHAL//FwEtATEADf9MAAYCjQBG/4sAmAGkAGr/wf/I/97+5P+aALoAD//b/8kBKgAx/0j+KgGeAML/eP4X/67/ZP9ZADkBIwFc//b+Qf+NAUcCpAN6BacE7/7Q89DyyPorAZf/8ff19Uv4oPlZ+er2vfmW+yb96Puu/B/+1f7A/7wAXgEQAiAGQQsoC/EDCf6r/gEEuwUUBB4ErgXUBAkCs/80AZ0BGQFqARQEhwZkBrED5ADlAeIAIf/b/1QDbgfLAzX/eP6NAZgByv/z/+D/AgFm/zz/+f9h/yMAAwAhAb0DdQUaBQQA/v4N/9r/v/6y/tn+P/7k/tb+uv0U+yL5nfl2+279ZP5z/bv8V/wI/IP8H/xE/eP8Iv7n/ML93QCDAKf/mP2dAEUC0wHwAb0BqgHN/2j9vPxP/bH/oQLOAu4AUP5h/L768PxvAtADgQBV/4YA1QC3/wf/tAAgAZUAnwI2AwUEwAToAusBNgGTArwCdwHXAikClAF+/64ANwJXAioBv/5P/nL9V/2d/W3+WP+I/zr+//vd+538GP6M/8QA5wFzAOb+4P0Y/Vr+9v7jAGMAUv6A/Zn82P2L/i7+Uv29/df+u//M/qD8z/uz/DL/TQAoAW4BqAFmAVABwQEFAjwDzwMpA8oCnALUAtMB+QD4AWsDugNtBAkFUwTsAo0AV/7k/e/+tAE6A7YDHwP4AOf+/P2K/zkA2v7n/Wb+AQC+ADIAP//a//j+qf9KAGD/If2L/Pj9FwBQAFv+/f0v/nv+7P2r/sr/mP+Z/7X+7f5p/jUAfQAs/6n/ZQAIAVoB6QOABOgCt/8E/zAAZwBnAFb/nADi/wIAr/9p/+/+aP0K/Tz+Lf///of+qf2T/Sr8A/zm+/L6HvuU/T0AGQHC/4f97vyp/H38m/yR/b79Bf7m/4ECTAT+Av0AoADzAD4BLgICBcYFSgXUBB0FQAUsBVcFBgXkBMYFEQeBBtoFVwVEBfgE9gU9CLkIvwjQCCwJkgg0B8MGdgbXBbAF6wUBBnMF3wOQApkBrwHBASgCbQK9AfoATACv/Vn7T/pI+Wr4Evde92z2v/Tb847yOfH2763v8u/V8Mnwqu8X77jtj+1e7s3vbPFD8ofyrPGY8GbwR/CD8WDykPIh9Av0sPPS8nfyE/OZ8370q/U+9x736fZs91D4xfm0+zn+QAFcAlwDSQS7BHAGhQe4CRYLSQ0vEAETDRmhIBMmcygKKOooliyWMCY1oznCPBs9mzpZOIE28jQ1MlYu2ir7JaYhfxvyFIcOQgfRAAP8Wfjt9JnxEu5m6kfn9ONc4kjiKuLL4b7hMeJC4nvjjOS75N/kxuX85o/nZehE6K3miOTz4W7gfeA34E3gh+DI33nff9913y/f+t7w3qvf5OD74ljk/uXU5hvnRecj6Pfp4OtZ7n/vEvFc8kXz3PRA9l74xPvh/64EPQl3DYIQORKCE1AUURS+FBYWYhhzGh8dSR+MItkoLC4JMWoxGTGiMDIxyTN1Nqg4GDk2OWM48zbuNW0z1S67KFwjOB67GbIWMBMmDwgKWQV9AcH+XvwO+hb3LPNr8EHvgu+Y7xTvXe4o7Yjr1un65xbmFeQc4iPhheBh4CDgyd9O35veZd753c/d+d0k3l/eRt8Y4HrhruIn5JvlCOec6BzqResK7ATtmO3L7bbtvu2R7bvt5+0c7mvua+447uvua+8R8GXxjfJG9K71bviq+7H+JAJABPAF3QduClwNjQ8hEYQSKxOxE9IU3BezG/0e9SHEIyklZiYaKSIsKi7qL2gwXjF+Mnk0lzaRN/c2TzR5MXcvFC6DLMophCWIIEEcJRkwF6wVDhP7DX0ImwOJ/4X8z/m59qvypu4P7K7qdOnR5ojjCeCi3FPawtmE2V3Y4NbY1V7VRNXt1W3WRtaA1STV49UE11vYGNks2R3ZCdko2pTbpd0Y33vfYOBT4aDi5uO25RTnEujx6c/rie7I8Sz0efav9wj52PqP/dgA7AO/BysKeAyrDkIQfhKPEwwVXBVMFg0YexqkHiMklynsLKwuvy+pMXE0RTiDPNM+uj7/PRU+vT5kP4s+mjvVNvkwxywBKsgmkSF8GmcTdw0iCp4IyAZbA1z+C/kv9Rny3u4N67rmneKr3+3ea9/W3srcptmv1vzUt9RD1UHWSddO2M/ZoduH3QffvN9g4OngbeH34bXiQOPC41HkGOWV5VHljeXY5Zvmsee96Pbo6ehR6VnqG+zD7U/vQfAS8uTz7vVx+JT5n/ov+9P8gv8xAosFkwe1CSsLLQ3EDvoP1RGnEtATChWbFvAX1RnLHa8i2ShBLp8wqTG3MtA02ThUPOE+xT6sPFE7czusPDM82jhdMlEqgSS2IKwd9xnEEwUMpQXwAtQBNgD5/Lv2PPCn62Tp/edy5fvgsdtR2HDXztfk1yjWudK1z+3OoNDW0wfXsdjn2RPcVt/d4sblp+fF54rnuegw6vTrpewj7IDrK+t16/nrj+yE7FjssOxf7pnvhPCI8dfxyPJU9Gf2afjY+a36D/tz/Lr9Dv9SADwBdgIvBDMGiQizCgkM2Qz+DSoPNhDBEaMSPRPWE/MVoRkLH4omPSsjLfYshi2zL80yJjdhOZw4TTaANGw12TY7NlkyRiu7I6YdGBshGkcWjg/vB0ECSv/7/kv+Yfob9CrtK+nl5/zmL+Si3+LaRdZw1WDWdNa01IjRAM+Yzk7QVNMW1mXY2dqn3RDih+ag6QHsru0w70nx//O59e/2VPe99x/4tPdT9z32TvVS9QP2tvab9vj1PPXe9NP1OPfO90j4dvgq+R36xfuU/EP8Nfxm/CP9M/7t/0UB7QEAA1QDlASQBlUI2wlBC/kMYQ5pEG4TMxh2HoIkOClyK9Qr/itZLiMz8DYHOGs39TQdM+QzAzWeNMIvfic3INAb8Rl/GJ8VmA+SB98BhP/7/oT99PjS8pPsjuhZ5zHnROWb4Fbbp9eK1ivXBddX1ZLSXNCA0A7Tydav2f3altxC36jje+ha7P3uYPDL8ezzzvZ7+dr6//pw+oT6qPrS+nf6m/nl+IP44vgI+fT46/jO+Cb5H/oU+4T79vtX/N78Af25/BX8IPyZ/Bb9ev1t/RD9cfw6/fn+UgDEAeACHAREBUIHFAmwCosMcg4KE2caCiKeJ3AqRSolKdIqbS9VNB02WTQoMacvEzDXMQgz9y67JvgdGBkzGEgXjhRdDw4JowLe/1kAZP9b+u7yz+zg6K3nvedP5rfhmtuI17DWV9cf13TVtdK10LPQkNPK11vbvN3Q38ziI+ef6/DuD/GS8kn0w/br+WT8Uv3X/ID8vfwK/cz8r/tv+mH5f/kL+un6Kfun+j36o/pb++X7b/xC/Dv8avzG/CT9Kf0D/Tb8xPs8+9j6zvrx+or7F/zt/ML9xv4CACkBagI9A7EE9AbOCnARWhmTIJ8jFyPIIzUmeyr2LjAyiDJxL/ktji8KM6k0KDFoKjQjGx49HNocfBz0FkUPYwpwCAEIJAfYA3n9M/aj8d3wHPHI7t3pWOQs3y7cvtup2zXZ09W30kjRStNX1rbYfNo923bcZN8R5Jjo4+tb7tbvVfE99Kr3NfpV+2v7+/ot+wr8Y/3R/Wf84fok+j/6iPv8/Jn9EP3A/Nv8+f3f/4MA9P8h/7D+s/4g/7D/Jv+g/SD8OfvP+rP6Wfoz+rn5tvn++ZP6i/ve+0T88vwY/tn/jwKUB1kPPxduG4YcXBwVHU0g2yU9LLouEC1sK8orTi/iMnAy7S1rJpEfyB35H2shoB7SGCMTuw+hD30QWw/LCT8BhfuB+Wj5UPh79HDuA+gz5M7iAOLU30rbc9bH02zUldYM2IjYR9hU2KXaXd4C4ijkPeVO5pnoiOw38ObyLvQL9av2uPgo+//7zPs4+1v7MP1T/9cAtQCu/zr/v/8vAbECNgPzAqUCJAMcBJ8ECwRdAmgB7wAOARYBbwD6/kL9Y/wZ/OH7DPuP+Sn4HPdB91z3o/e794n4TvxPA4ULZRBBEQkQ1Q/5E6QaySDjIwQj+yAqIhYnBS3FLr0p3SKkHaQcdR+EIowh9xvoFhsVmRZSGCIX1RHHCiMG/QSOBrwG/wLk/GD3A/RY8vHws+0j6HridN/H3nDfR99C3ffaONrs2r3cF94V3nXd8N2C4Hjk7ucn6szqk+vv7RrxAfRo9b/1+PU099v51vx1/rT+Rf4r/qX/cAHEAk0DZgMOBLwFiAdPCEQILgdqBqwGEge8BvoEbgMBAkgBAwFTAAv/ovw6+o/4xveA9kn0IPM+80v2V/1dBTEKHQmrBC8D9QXEC2EQnxIXEtQP9BAhF94ebSBrG0UUBxCzEPQUrhp6HGwZTRVYFU0aXx6+HusbExeIE38TZhaLGG8WFhICDr8LGAr9BnsDOP5/+ID0T/LR8BPumOps55flOeQe4gzgwt073MfbAd2C3vve/N563+ThDeV45zDpDurq6gPtK/Aa83/0Z/UZ9nn35PmP+zr8IfxS/HT9EACmAj8EKAVzBZUFVQbFBzYIHwh7B7AGngaVBlkGigVvBAYD3gH3AH//Wv0z++j4W/eQ9sL23/iG/aQDwQerB2QEXgA7/4wBswblCscKEgjlBRkIZg38EZQR/AqkAjP/fANXDJ8TTxWGEicPCxAFFpYdziA5HVgXnxRQF1sd6yIXJEkfPBggE/MQWBA7DpIJ4AN0//r8qPzo/Ef70PY18ZLsI+lG563mJOYo5YXjjuIP45rjluO44lDh+t/d3xfhh+TR59Xp8uqi6wvtle6V8Dry8/I482L0A/ep+tT96P8eAa8BbALsA8cF/QZWB5sH6gjWCkoMZgwBC78IswZnBW0FiQUIBd8DeQKXAJ3+Cv0w+z/5Wfjt+0EEQgzCDqEJxAGw+/b6KACOBmgITAP3/Cr8iwGuCMkKIAOt9YbrwuvN9rgDggocCccE7wLGB0oRYBfgFZsOOgsyEPEb9ifRLZ4rYCTyHo0duR7DHAoWzA22CA8JLgwVD+YLhgR0/Uz6yfpJ+Xz0N+1o53Dlo+gn7kHwZ+yR5TDhquCu4tHjlOEl3RDaL9yJ48nq2+327JrqOOqq7CHxv/Sn9RH1Vfa5+xEDegi8CtEJZAczBgoHtQg8CYsIgwfsB+wJeQwaDrANlwuTCDYGKATlAXT/wvzp+uv6+fyHAHgE0gfmCJUGQwF0+wX37Pax+rL/HwNrAhkAqP2g/HT7xPgA9Mrtb+rV7Rr3ZgJ6CVsJNwbPAlICxQWNCVILawpUCcgMUxJGGC8cHhzTFkMRkw2pDHMO3A3NDHoKkggDCNcK5BSVIdAqFSurIQgVRQh4AS0C2gZHCJMFxgMLA3oE3gOK/hPxytw3zKnHX85B2EDfsOKt41zjP+Q65/DnjOJ02hzX0Nug59327gOnDNkPpQ6/C6UIfQNH/VH5x/h6/TIFzQw/Ef0Pnwn6/+X1vO3s5zvnDux/9Cj9YwJJA84A2Py0+Xv6q/0lAckE8QovEsMYjB3mHpgbHBVODzIMKwwvDccPZxGtD9IMAwlpA0f97fYb8brtQeuk7HPv9fE69ZX0JPTI7//s+OwQ7NDsWu1i8dX1JPztA68Ppx67MjxK9FVSUOM+vC45I6IakxeJF2EVNw+GCzAL+Adm+/rmI9DMveK06beexJPTu96N6Mjy2fq4AM4ChwC5/NL89AMcEUIgbCuzMMwwOCyKIssWnAkW/WTz7O3p7V7v0O/37YvpYePg29bTT843y8fLVtFv2sHmZvAi+Gz9WwAUAtgDogYHCnIO/hMJGpsfBCH6HbcYPxEmCXgB0Ptm97T0KfSE9ff2D/eL9M3uWujO4iPhd+JP5DHm2ucq6ubvuvdM//0GKAp1DocQEhKuEjcPIQyTC9cLjw3HFG0ll0KTXzZujWcPUfkzXBhnAgz0z+4a8s32of1BB8INagjU9z7hrcuCwJ7DH9QF6SX9tw1+GkEiLx91FjoKLvsm8DPt2fMd/gMIKw9xEYgMSQFA80PkfdZjzlrNadLw2pLk1OxL8VLyMvAK7KDklt4L3Vrj2O/i/1oPCRunIVch3hwEFnIOQQcpAtf/5ACCBNII/AuaC38HTwHY+S/yduxy6vHrePDS9aH6DP0f/NP3efM07inpteaP5LPm0esj9FL+IgbVDyARVhFWESgL5gipBSwE7ghiCfQQ5iEyO4Rd3HGJcSJbPjogH+UEcPAt4yPjf+yE9pMDWA1sFXAPBfsW5QvVFtLo2M7kDfPyBC0UNhxSHfsWbwq++TTpL97x26jire24+pMHag/BEMYLLP/d7Wrd+dFszWzPMNY24PnsmfhI/yMBE/439s/tOuiu6MDukPlbBLcNNxdOH50jAyMOHNcOSAEX9sDvL+958v739v2AAkMD2QEg/wj7pPfL9OLzWfUI+Qz8J/+R/3H8CfmD9V7wDewm6Lzl6+dT7KbyH/zbARoF6AbfBUoFgweYC/kQphN+FVIcwC4ETetmIHN1Zw1K8yp5EQv7cedE3qDffeb58Hf+sQ9pHK4VmwHN8NPlC+Ek4Q3nXPEz/ucLkBMeFw4TqgYy97nnXd3/2C7by+KP7Gz6wwc2DrMM/ANq9nPnAtu10pbPqNMw3KXoRviEBekM9wx1ByL+Wff08gvwefKC9q/9CQjTEmEcNSLLIvMd4BU+DLQB6fhg9MTyQfWM+nD+oAGgAgwB8f4x+5T2+PPk8Njw4vF+8z/33/lE+0H8Yfrj9UHwj+pI5h/ni+um73/2tftr/WkC5AYxC5kPDBIqFCobrS1CSQFnGHQtZ8hN/jGBE0f3DuGq19LZc9/Q5zb57BA3Hw8d+Q6+/sHxwOfL4BbiTetl+GQGPRMuHAwdkBS9Ay7wSN/D00/QntMB36zw3AS7FWgcgRhaDDv6pOVp05zHqMMhx+nR0uIy+OcK6BNDFTMRBgjo/3P2zO3L6yruIvWcAgwTJyGDKqMsZyhKIWoX3Qi++azuPOcH5szrm/Kj+xUEVQhZCVAH2wCr+Z/z+e4/7fDuB/PD9xn9NgD4/zj9GffJ7gToguP/4U3kqua87MXxTvlIA9MJaBCyFiAcryYNOFZNw2TZaT5ZnUCZJqQNI/Xo4DXYG9uh4vbss/5ZFMUgJh8FFMYGk/ti8PzlhOL05zTykv1bCTQUhBZlENcDR/SQ57fcDtb71sjgsPAWAzATshwxHbAWNwlQ9gvkwtNwyMPFZ8sE2dnrHfyCB7ANbQ/BC9cELf3Z8+bsOur069r0GgNqD/AZsSKpJ9Yo9SNpGKwKKv748zfut+118Nz0KPq4/i0CxQMKAg7+D/in8tnudu0872bzHvdA/XYAsgDr/5/5YPSi7n/qnOiL50nq++yq86b5Z/77BwQLxwo+E9gkXUSjXbBiT18NUrE8sSDLArPv9d/U0qLO6deC790FoxTzHCQfBBp+DAb+KfHE5lDhnOAh6Lz3OAbKECMWbBUmDwwDP/Tm5oXeZdz431vrs/oJCOMRFhYlFcYO1wHb8H7fqdIMzD3Mf9Qr4Sjv7Py5By0QxhV4FDQNnAJE9/TuPes67iT3UgNgEPwbPyU1Kg8oSx44EJIAF/IK6KvihuLr5pzuRvc3APkGoQiCBh4BZfpu9DPw6O3q7f3wF/W9+XH9K//7/Zn7wvf1877xmu+W7iDvHvCs8nf2dfzFAkgGJQ6qH9I6u1cxZ4dosV0hRwsugRIG903g68+uyojQet9g9UYMABwRIL8c7xUbC8P73uv34DHehOI57HX6PglHFPUXKBbcDtcCD/Sl5LTaANp+4DbsAfrJB/ESZhiJF04Q+wIA8ZfeWtG7y/zN9dW94YvwZP6/C0IVKhl/F2EOUwLC9nvvJu2+7xL3hgFVDdgYpCFWJXsj7hkiDEX+GfE85+zhP+Hf5Z3ucfjhAf8HxAp5CEYDBf609xHzQ/Dh7vPwT/TF94v5ifp0+jP4I/e09Pjw3+4D7Bnrqe3O8V74Wf/cBXgQWiRjQa1bdGn+Zj9XokM/KtELNfBo3CfRG80U0zvl5P3nEQEbRB14HGQV2gfY+NbrZ+Pn4KzkZ/Db/6kMpBRwF8cUlwzW/47x4OSr3V7dsuMG79X8RQmnEc8VvhQ5DS0AGO/A3q/T/M0az6XX8uPF8ff/vgzfFpYbWBh2DioC1PYw72PsYO9r9ocAxAsOFoweCiOjIGcX2gqM/KnwNOgL5NHj7udP72743QEZCJ8JngcAAxr9rPfd8hjwuu/r8Ev0N/fX+Uv72/mR+I328fPV8fzuWu0562PulPOc+EMCLAcsEi0h5DA7SzZgZWbFXFNIsjWGH8IDXuon2XvTJ9Ki1wTqe/+lD5MWDRdCFlARlwas+NrsheaS5OvoUfMC/3gKCBGVEsIQ4AnD/uPxaeZj4B7giuWc7sH4ZQPwC48QDxHFCxMBE/PR5CDap9Rc1Y7a+uMt8VH/QgzZFcwY+RVgD00FO/z39YDyRvOz9+T+0AjFEioanR3yG8kUuglV/dbxD+kf5DnjhOdS7zf5nAKtCDwL6AlSBVwANfr186bvyuzo7OLuh/LR9dP3O/qz+I344Pdk86LyuO457HjwOvRN/OsAlwR0F1UwjkrwWydh7mHrVHQ8RyT4DZT5DOND0MbKttQc5EPzVARgEZsXKhlYFXsOHAUX94TqguSc5ajsJvZFACUJkA+sEeIN7QWV+0zvQ+TE3hLf+ONg61r0Hv5YCJgPqxBCDLwBavSj6BjftNkg2eTcteT/7yH+YguEFAsYFhacEJUJaAJX+3f2gPUQ+HT+SAcfEKkXDhuCGCgSzwnZ/oL0Wezc5vflYOll7xT45gDrBpMKugtxCQ8FIf/N+A/zI++B7Zzt5u9N8pn0gfeh+Of4Yfca9nX0f/DB7/DwhvT4+Wn83wJlD3Ahozv2VeVjo2GTVgVIpTb3HPD+Cei819DLUck91cXpa/sACOkSXBxWHzcZuw3IAOryg+YY4XvkcOyS9V/+CQexDj8RwQxNA0/4QOw84p7cbtzS4FHomfIF/34LYhNRFJgPyQVa+dftr+Pz2+LYTtqd4S/uh/yMCWISThZvFY0QRApgAvX6uvZ49fz4XwFYCiUTfRrpHNIaMhQMCkz/xvQ363bk2+LJ5rfuOPlzA1MLDBHiEpoRxQygBfT8wfN77V7pW+e8583oYuvD7rjxd/Si9eH0s/Ku7zDwzfCd8675rf0yBkcTkyaFQglbZ2f8Y/FVHkiQNuwcbv6L4nPShMjsxALP5eKw918EfQxRFpYdZRxoEVED0ffM7qvppepk8D/5WwEgB8YLpQ7FDDYDrPW96L7eetlw1+TZ0+EY7Pz35QTXDkIU4BN8DuAFB/vC8GTnb+A13rHgeujy86b+0wd+DQcPcw2OCTEE7/6/+wb6yvu3AekJJBLwGOMcwRxXGJQPqQTX+qXxcukv5L/jEeis8CH7JQWIDZgS9xOYEgsO9Ab9/TX0XuxJ53/kBuVh5sDoKu2N8Bv0i/Yf93z1S/MJ8pfxSvV6+If8IgXQEdkmy0MHXWhocWSEWD5N0zxVIYABCui31Z7G3cB9ytzde++F+p8EORBFGSIZZxDHBAX3Yuzo6NrqVPFS+ucBUAdvDAAQgg+wCEj76Ow54pXaENYu15XcTeU/8Pj80Ak2EzAXtBRKDskF8/vQ8n7qGOTl4VrlF+wP9Rr/sAZEC6gMbAszCTQGNwLU/rj9OQATBpMNvRMyGIUaexhqE+0LsAOy+sfw++cg4yXiGubd7cf2JgA/CO0NvhFeEj8Ouget/6X2Le+W6VnleuOZ43TlvOmQ7hfz0vU/9wL3RfWd9CP1jvYw+Jr6ZAJrFuszU0+OYONkXmKzXmNTST3hIcAFXOpU0qzDZMORzdrX1uDI7S3++gszE+oTyQ2LAWb1CO+S7nvx+vTq+VQBHAqAEkgXpxXhCxz/0vED5fvaxdMi0AfQu9RZ37zt4fyBCK4PkhOFE1sQuwqfAjf6WPLs7a3tEvFr97D8JgLkBr4JWQxODLUJ4wWNAVv+iv5CAfAEiQlBDk8RuhKXEjoQ3AuuBPT7QfQG7tjpL+nb65HwlvZX/f0EOAtiDgUOBAtdBd795/a+74/pR+V+4WDhA+TC5iHsl/Ds8vH1avZ691D49veD+SD5+vqSBWQc2DvwUO1Zo14kYTNhwlbGQWwnlAwv8vvaKM0+ycjM+9Kd13LgFPLvAh8KtgeqAdn85vf28XXvHvKE9fX3Iv7fCOkT0RnVGD8Tzwr3ABn2j+qW3jbUR897z7XURd0F6d30gv3CBP0Kjg/GDkoJwwKj/Oj4hvaW9ff2U/r7/mkDaQjvDB0PHBCkDhwNQQyhCYQHSgbhBeUGngiNCUIJLwgkBiYEOwFf/ET3tPKq7iLtWu4R8fL0Ufn1/WkDvAdwCdgIzAVaAAj68fPe7RPo1uO34EfgJeLG5OfpCe/m8gD25Pfc+jf9mP8oAdT/bQIgDwcnR0GjUE9W5VuDYWJfBVIYQFcswRNN9m3e8NP80SvQQc7q0b/dretd9lf9x/7n+/j2YfI08BzwrfCR8Y30u/qlBG0RuxkZGoAWLRJQDQoFffiN657gAteN0EnRLdfO3bDk4etg9OL8kgLhBLMD4P+X+7D5L/pN+3T9igHuBs0NsRVNHYQiTyN6IMYcGxjkEFII+v/u+FTz7++q7+vxE/UZ+D37Bv4VANEBfgJKAYf+afuF+dv5Ovsp/e7/BAIkBAsGWgZCBSICNvx/9fXu9ehX5NrfDt1c3LTdquH45uLsrvJg9836Ov7N/0gBmwLiAkwEpQcOETwk0Dx3UE5Z1lm2WmhcK1gSSRww6xVi/2fs7Nzu0L/Lesuly03OyNiI6Yn1Sfa28j7zx/aT94D1YfRB85nzH/icAsYNahRTGEUaFhouF9QS8gsV/7/uU+CQ17TRPM2zy0HN5dH72X3lUPFJ+nsAZwRpB9gJ0AvFDJwLjApVDP4QIRfgHDEiFCUNJYojNyBQG1MTrwiU/a/zZ+wP6E7ml+Zm6MzryvAU9679iQKzBGIFTwWzBNUDmAIjAYL/Jv6S/nsALQKgAqUBsP/I/HP5gPWq8PPqK+Un4Zbfzt984R3kvuda7Ozxffil/gsEpgckCoEM3QxzDWANXgubCPoHrQ7OGl8oSzVGP3FEe0MAQk5ESUGtMToakwfn/c3zQ+hJ4LjcRdoF2QjgL+zT88v01PPr9Dz2KvdB+JH1v+7Y6Xvr0/Gv9tf6f//wAhIGLQpSDyAQpwqNAuf68vRZ76nqGeZi4eDeXeBX5nXtyPNT+TH+6wPdCeYOkRHiEJAOHAyVCooKowpjCRAHpgWOBuQIzQqQC9sKtwjfBa4DQQJiAH391Pp9+Xb54vpb/fn/fwGzArsE6waUBwoGKQPA/xv8l/iv9TLz0vAz7yLvt/AB80T1FPdY+ET54vlX+iz6APlt91H20/VD9qz37Pkh/Ij96/47AAIB/ABg/yD9D/u9+cb47vZN9YT0HPRe9S34N/tL/dwCFRISJVkx1DW4OlNDs0i9R7hEzT9xNeElzRglEjEL8//u8wTspOhU5hrmK+en5Y3gI9z53anhE+GD3WvbSdx83Xzg3ufp76/0zPe8/iYJhBHdFRoY/hh5F4YUjRJ6EBkLswJO+zf38/TO8uLwb+8O7iHtw+2H76Lww++g7QHsxevC7JXun/Ao8072IvsoAn4KXBILGCEczB9EI98l7CbNJaYhJxsUFAwOmAhqAvv7dPaa8pjwEfCa8NnwX/Az8Crx4PIi9JL0r/QX9Wf2v/ji+wj/dwG/A0gGKQnMCw4NjQxYCmoHbAQmAYf9fvlN9bPx1u5K7cDsOey26y/rd+tp7B7tt+037g7vB/A08Rnzi/X99x361vwMAO8CYAXSBnwHWQcmCcwQjhvcI1sn9Sp7M7g810F4QmNBCz4YNtstEShrIW0V9QWR+z72w/Gi7fbqWulr5V3i9OR26ZnpUOQO4Iffmt9L31Pf1t+F34jf2eOn61bz5Phm/YICKggODtMS5xS7E2oQFQ1SCrcHGgTS/hP58/SH85vzqPMT8w/yLPFM8c/ycvSz9Irza/Kn8kb0m/bK+Ir6cfxl/9gDSgmKDpkSURWcFzUaUhz8HBAc9xn6FoAThBAuDoULpweAA6EAPf9O/t38Avs3+cH3+vbT9hH36Pbj9cL0jvSO9fn2HfgU+SH6Uvuv/Cz+PP9L/3v+j/3c/D/8cvtT+sn4Rfds9mH2lfau9q/2iPZA9in2u/Zu95D3Nfca97H3ofjY+RD7FPyc/CX9Iv4X/1//of66/fb8avwP/CH86vzZ/ej+cQCxAh8FfQcvCgQNRg8oEsYYiCLBKsEubjGbNlU8gT63PDU5aDQSLTgkyBuQE0sKh/+q9XfuHekk5WfihuCB3rTbntpZ3Pvdqdz/2HfXwdg62u/aYtyB3+7ihuYo7MHzs/rN//YD9QdFC18NDw+pD8kNcAq9B40GbgWSAwECFwHRACEBBQLCAmsCJgGk/3X+Yv0W/HH6W/iF9n/1o/Xs9sD4rfrj/Nn/XAOHBugIiwqVC1AMCw3EDe8Nfg3ADNcLBguKCnMKHgocCTAIuAddB3MG6AThAkQAJv0I+hj3YPS+8f7uiezH6mDqiurd6o3rwezZ7mrxpPQU+GD7jv6lAS0FuQg4DDsPWBHLEokT8RPBE8IS9RBdDl4LQgg+BWkCnP/P/Bn6w/cD9rj0p/O98s3xAvGi8NzwjPET8nLy9fLh84X1tPcI+lf8Xf4/AGUCfwQtBgMH/AY6B8IHUwjoCFsJcgm+CLYHLAfFBhAGDwUABP0BOwHkBBoNPBU7GNEYCxtqHzsj9iNMIvEeZBq6FbwQlwyPCSEGLAEH+zv4Zfl6+jj5hPWv8azu0+sw6gXoD+RK33zbAto82jXcrN+Y4pnkcue47F/z2fhM/Gj+q//kAI8CUwT+BBsE2QJvAhkDxwTvBqgI1gj/B9MHzAiSCZYIHwZcA/0A+f5O/QP8ofpX+a74NfnF+sr88f6XAEMBaAHPAbgCBQPWAeb/Cf4B/aD81vyM/Vr+kf9fAY0DggXmBrUHvQcABw4GIwUmBOgCfwHz/yr+zvyk/Dv93P0p/qj+gP9kABsBPQGpAD7/yP21/Fz8j/zv/A7+VP8yAWsD3gWpCJMKnAvWC6ALYAupCsIJkQgbB8gFJQU4BZ8FmgVRBU4FYwb2B1kIqQacA50AXv2r+TL2ovP28V/wqu9P8PPx/fOh9bj24fbM9ob3I/jn97T20PUi9rb20vdA+cr6o/w+/k4A4AGMApECmgG2AIf/yf7a/uf+ff/4/ysBkwK3AlEClQEmAWMAA/+C/qv9LvxK+977Rf10/a/+OgKgBcwIYBBmIHsymT1YQPs/OEBCPzQ7zTLbJV4Wowia/1X5W/Q48LjrCeVW3cvZw9qJ2afRF8eqwMu/acJJyHHRx9qd4gLsdPp8C0cYsR4dIEseVBu1GJsX7BTMDjgH4AGSAKUBWQJ1ABT7t/P27EnooOSd4M7baNcF1Y7WAt0I51fx0Pk4ATEJ8hEcGi4gUiMOI2cgMB78HZMeMh5QHJ0ZMxaPEnoPcwxrB7T/8vYD7+Ho0eTJ4vfhkOGq4pXmFO2s9Kr7LQHWBCMHdQm0C5MNxw7uDoYOHA4/D6kRGRPIElEQlwzWB7YCMv5++Sf0Au+s64Xq7urW7NPvrPJz9B32yfjL+/H9X/9lALoBOwPdBboJCg3PD98RQBQ6F2EaQh7WH7scbxU0DRcH6wFy/KX2KPGn7LTpEelk61bvTPKX84zzovTe9lf5Kvtq+wf7Ofr++pP9uACwAhQCNgBk/bv6z/iL94X2Y/Sj8qnymfQC+Hr7ff74/9z/LgB8ATgDswS0BSQH8wd+CYoL+AzLDJIKZghIBTQCFABf/jb90PvZ/Ej+IP6U/Zn8p/pW95/51wbxGposwjcZPo5BkEI6QMs5uiyIG4ILWP+V+Hv2EvkZ+xn3Mu/J5x7jv9yl0Q/ERLeJsDuy67uny2vcSuwN+V4DIw1pFJYXDRTzC40E3gDeA4kK7xBgFfUW4RbUFBoQSAhc+ynr2tuY0KXL9czl0wPe/+YJ72z3IP8ABPQEjQOIAMz9GP/gBScQIhrDIqspBC5JL68t2ig0Hx0SzgTH+jP16vKA80r14PaZ99f3Rvh29z70au8I62vpt+td8i78agasD6oW+RqjHA4cZBmLE2AL7QNz/wz+/f6TAZIDSwMVAVT+D/sQ9ijwFOro5BjiQePS6BLwxfd+/mEDkQZHCGEJ4QguB90F3AWmB7wLjRHGFpIZ9hn8F7oSWQuEA677X/Sl7yvvhfJN+BUAlAdSCx0KogXt/3n5WfRG8v/ykfXo+fn/7AXNCQgLbQmdBKP9bvbx8Bju/u3y7xjz5/VA+Lb5kPk8+L30xPBq7eTrhe0R8X32efwmAe8EcQafBm8GbQUoBu0FDgYvB1gHmgkgCowLiAspCeQHSwW9BD0EegR3BYwDcQKnAVcCEQSMBC8GxgV9BHUFcgwIHtIxvD/WQYc7gjUmLtMluxt7EgcLLgLT/L77wvz8+0P1Neri2mLMY8W/w+/DT8IdwgTHhc241kvhGupM7/PuCvD886r5xAHPCEIOBhEhEq4UVRbrFS0Teg2vBpcAMf18/BD8rPq195bz1O/I7Qvt8uzx7ALtl+1178fzIvo7AOgE7wfFCb4LAQ+RE6gXnBkEGq4ZMxkzGS8Z9BcRFGkO3AigBI0Blv/q/Wj7zPch9FXywfGN8cfw1e9D78bvYvJ39hz7k/6mAOYB+AJaBeYH6gmXCjsKxQkkCWMJ9wlXCZMGewLA/tP7rfmG+Cv4GveU9bj0gfUZ9yD4Z/lS+iH7lvxe/68DLAcDCnwMYw6mDwgQpxBaEKUOxwylCzcM6A1oEeIUfxTkDlQG4f6H+UD1ffIm8W7wi+9/79Lw9fEs8fHuU+xl6hjqk+yF8Uf2PPl3+iD78/vE/Gn9Ff2j+6T6yfqV/P3+lwAeAUv/WP1O+/n6mPyO/lMBBQK4AxsFNwYwB3UF4gR5AtkCbgTqBV4JcQrRDX8OfQ82ESsRSxLdEfQS/BJoEdgQFxH3EIMPXw9fFeEiATF/OWE2iSsPIAMWQA6tBi4ChQHgAPj+ofw9+0P3M+wO3JnNQsVKw0rFYcndzYjQMdL607/Wm9ko29Lbxdyd4NPoIfRZ/3cHNwutC54KjwmDCdgJaArFClILYwy0DTAOigxFCEsCLvzS91/2XPcn+bf6g/v5+9D7xfsM/CL8Fvy3/Df/MQP0B+sMDhEiE+4SmBEEEDYOmwxLDE4NPw5CDtUN7gzqCokH8gOnAGr9W/qx+LD4bfn4+TH61flV+DT2uvR69O70zfUF96n4lvqr/J3+sP8IAP7/v/9//6n/xQAgAgQD3APoBDgG7wYdB88G3gUzBUwFmQbgB+kInAmyCWsJUQjIB+0GMQaFBe4EHQUABSAFqwTYA9sDJwWXBw8JXQjtBZACcf83/RL81vtp+5/65/mF+WX5cPiz9jD0ovEz8HXwv/L29Of1ZvX88/jyGfLx8UTyMvIa8j/ytfMW9tH3qvgm+FL3Mff190f6Hv3x/y8CugOYBYkHHwl8CQ4J6QhsCRgLMA1VDxEQGA/VDZkMxAu8CukJ7gkbCnEK8AqQC9IL5QoUCX4HvgYlBykIagn8ClQMQA6jEeUWnRvmG8oXchKbD7QOOA4cDqoOCg/hDPsIXwXKAd38s/X17s3qyOgS6HXnNuZ+4wDf0to/2GvX2de12CfaE9xq3obhpuQB54vooem46xfvlPOY+BH9jwC5AggEJQVqBrEHqghJCfUJ8goTDBwNhQ3cDCcLGQmZBwEHBwdEB3YHfQd9B2MHIgeWBqcFogTUA5YD9APTBL8FQgYRBm4F2gRyBB8EtgNpA0UDHgP4AuoC/QKpAuoB8ABSAOn/gP8g/63+Nf5n/cv8YvxC/Pr7sfuM+4L7lfua+8j79vsL/Bv8PPyL/AP9rv1+/kf///+mAIQBGwKYAu8CRgPcA0wE7gSKBQkGVAZiBjcGOAYzBisG/QV6BRoFnQRoBEAEXAR+BHUEWwRSBJQE7gQXBdEEKwQXAyMCdAH3AJ0ADQB9/7j+8v0a/UD8dft++of5U/g791D2efWn9JbzxPJH8hLyDfIn8l7yoPLK8inzD/Ri9fv2g/gg+sv7O/2z/iEAwQE5A0oEPAXuBYYGGgedByEIdgjICCQJhQm8CfMJIwouChoK+AkVCkIKVQo2CsQJTQnpCMYIewgSCHwH0gYPBkMFpAQiBIEDkwKUAd4AiwBPADIAOwBtAGUARAByAOEAOwELAacANgDi/7P/zP8vAKIAAAH/AN8A4ACdAML/uP66/b78g/uG+iX6tvn/+Oz3Avcx9j71Z/SR89PyF/KZ8ZvxHfK/8iPzPfNf86fzEvSR9Bv1pvUT9oj2LfcA+N34vvl/+hj7pvt7/KD93v7Y/6MAYwE9AicD/APCBGwF5AVIBtMGdwcrCOIIYQmUCa8J9wk9CnUKYgokCsMJUgkbCQUJ7giiCBIIcgfNBj4GxgVsBecENwSCA+ICZgIEAqkBGgFjALD/PP8a/wT/3P6V/kv+Bf7C/X79TP0U/az8QvwE/BT8QfxD/Fz8X/x0/H38iPzM/Ar9Sf1N/Ub9aP2r/ST+2P5u/+X/XgDfAG0B4QEiAiACKgI9AnIC4AJmA/ADQwRsBI4EjQR2BA0EdgOsAukBWQH+AMcAhQA7ANr/Uv+3/hD+gP0A/Yf8KPzs+/H7Evwz/EP8Jvz6+7r7bvsu+/v65frf+tD68Pol+5H7B/yD/P/8af0B/qn+U//+/5gAOAHRAWkC/gKQAxgEdgS9BAAFKgVIBUQFUgVwBW8FTQUZBeAEmwQeBKMDMQP+Av8CEgMwAxYD5AKLAjcCBQLyAeoBugGLAVEBMAEfAQ4B4gBUAMH/Qf/b/oL+Tv40/hr+5v2r/Zz9h/2M/Wr9M/0Q/Tn9zv2F/k//+/+RAO8ANQFjAXcBiAFzAVgBNwExAVMBQgEUAaQACQBk/87+WP7//Yz9/vx2/AX87PvG+6H7Pvu6+lP65fms+WP5LPkS+en4pfiK+Lb42/jR+Kn4efhn+GP4h/jX+DX5iPnd+VP63fpu+/H7jPwI/Yf9D/6f/lH/GADzAM0BnAJAA94DVQTSBD0FkQXYBfcFOQZwBpYGpAaLBoAGcwaSBsYG6QYbByUHDAfJBqMGigaCBmEGLAbkBbMFkAVnBR4FvQRNBLoDDgNVAq8BAQF7AAoAxP96/zX/7P6L/kL+7/2K/Tr9Cv0G/Rz9U/2s/Rf+kf70/hz/L/9M/2L/kP/G/xUAcQDkAFkBaQFhAToB6gB6AAcAn/8u//T+2/6q/qP+nf6F/nH+Qv4f/uH9of1y/Wb9av1z/Yv9mv2x/dD96P3z/eX91v3P/cr90/34/RX+Q/5g/oT+x/4Y/4j/9P9aAMIAGwF2Ab0BKAKjAgQDTAORA+cDGARiBJwErQTRBL8EkASHBHEEOgQcBOcDtQOkA38DbgNFA/kChAL3AZABLwHVAJcAXwAmAO3/sf+Y/4j/c/9W/wv/yf6b/nr+YP5J/jH+B/7Q/an9jP18/Tz9+fyu/Er8+fvy+9f7zvvV++r7FPxR/LP89/wV/QT9Cf1M/aP9Df5q/sn+OP+5/zYAmwAGAU4BRgFMAWUBmwG7AbQBvwHiAfgBGgI5Ai0C3wHlAbQBSgEJAcUAkgBvAGIAMAAgAPv/nf96/0v/EP+R/i3+6v3a/Zr9nP2z/WX9EP3K/L78dvw5/Pb7t/vf++77+/tB/Gj8qPyl/Mv85fzg/MX8kPyX/Jv8yfwL/XT9xf0Y/kv+kv6m/qL+u/7Y/iH/ev/x/14A8wCTARgCsQIjA4EDzgO9A70DzAPlAxcEXQSJBMIE5gTsBOgEugSNBGgEKQT2A8kDxwOzA8ID0APSA8YDoAODA1sDNwNPA/sCtgK0Ak0CBwLhAZ8BUAH6AIYAFQD4/8z/a//e/nv+OP4A/tr99v0W/hP+BP4H/ib+Tf52/nb+iP6u/sj++v4L//j+1f7D/sD+ov6L/m7+aP5G/kr+fP62/sb+wf7P/vD+Af8X/1//rf8MAHgAsgAGAUcBXgFyAWoBcAGnAcABgwE8AQMB0wCXAGcASQA5ACQAKwAZAN3/kv83/yj/MP9h/6//3/8KABAALwA8ABUAMwAyAFYAcAB4ALUAwQDFAPQArQC+ALAAbQBOADwA///k/73/xP+2/83/6f8rAJP/GP8QADkCTQOIAeH+qvw//Z/+2/4A/lD9Zf5A/jv+U/5S/eb8JP1c/bT92/33/fj9Qv6u/in/5f83ABwAAQATAFQAswD2APgAFgEOAToBYAFQARIB2gCeAL4AvQDUANkABQHxACkBHAEPAQABEgHdANz/6P5f/zgB7wJvAgkBuADDAUoBg/7f/Mz9Nf+V/0j+p/0U/tr+df95/kT+//2k/uL+A/+Z/tH+C//B/lL/Av+N/5D/Rf82/3H/w/9r/1P/A/+l/nf+vv6e/of+QP82/57+yv4u/3b/k/90/+D+OP+R/+z/8v9u/7D/HwCpACUAw/+//9P//f8YABQA9/8HABMAKgANAFUARQBnAJIAYwBLAJ0A/gAuAQ8BZwEAAhgCZwIvAggCswGKAV8CUwHhAbcA0wCeAnIB7QGHAggD/AFGAS8BhwAhAR0BSgF+AMP/KwDj/2j/4P2V/Z3+e/8b/hf+svw3/Wv+F/1S/7j+QAAjALD+Vv+a/9YAzAF/ALv/xADTACYBbALkAtsBWAS8BEUCwQFLAFYBcACJAEL/2P6LAMwAIwJ7ADoARAHB/1gAmP8QANkAwgCAAKcAGwFKAEAAFwACAP8A5wCzAG4AYwAUAMn/iQCoAFL/Rv9U/6n/4gDMAAD/ev+X/4n+JQDg/00BPP9M/pwAdgHfAH3/Pf/PAfAAOf9h/u3/xQIkAIf+d/0//JX/XgBoAHz8PvlQ/B/+lgGl/Lr61foF/dr/gv3h/6L7t/2A/W38of7u+0L9Av6v/f3+lP5C/3P+v/5P/db8Cf+C/4ECuABBAD//r/1q//cAqgPTAvgAMQGBAIQB2QKJAj4BsQCNAjIEZwUZBLQCtgLFATECugMIBMkDPAM7AlYD8AKvAvgBQACUARoBXgGh/+39Pv80/4kBjAFn/Vr9Y/1J/x8A7/5+/tn7iPxS/Nv+8f2S/Uf/+vwg/Nn6Bvy5/+n/LQGY/L35evym//wDtwHA/HD8Nf0I/sT/JQIFA8oAiPs7/cP/1AOyBO0AaPx0/Q8AdQBcAn0BkwDn/wv9Zv84AykGYQLB+w37e/46B3gGfAIB/+74+QJ0BmkFYAPH/TEB2wKqAZQA9P6//3MDQwN6/yr+TgArBIoAAP2v+zsBbgQAA3P/5Pot/ZT/3wH6ATAAVf9T/2L97f/b/84AhwDt/Wv/SP5YAXQFEgJz/ZD7DgFXBZoEYwCu+9z+lwJHBeoFb/+S+5b8PAHmA2UAj/8oAAYAVAEzAN4A+gFiAqL/r/5yAb4C8wRXAu/9UwBk/4ICVwLtAucAgf1g+xL9FwPqAlsDwfrd+3f9AP0uAG36Bfrj+L38QACa/WL9df3B+k/7zPp2/C3/s/ySAF38bfs0/bX9CP/aAJgBIgGoAM/+8/9VAOb/d/9oAIsGcQVNAcz9jAB0BlwFwgL6AMD/0QIpBEgDjAQyBZACqf7+/64AuwK8AgH/6vzB+w7/3ACz/7b7+vj9+kn8ev23/DX70fpH+Z36xvuv/VT+7fzf+m78av5+/hL+sP9o/Sj8O/45/4f/A/9gANUBHAG0/8z+nv/DAb0Au/9j/9cAOAMaA6YA7wCkAv0DcAEb/jICJQYFCL0CVP8aABcEIQgCCGUFDgS4ALP+KAN7BG0ItgTS/0v+YwDEA/QFswadBAMDB/wR+sgB2QSAB5sD9/ms+sn/vwPJASf5m/bq9+z9AQBe/Ub5l/fX9PD2RvkN/JP8U/rd9fzz+ftM/ub+Wf4i+Qb88wA7/yH+bf6QATADWAT6AbcCMwXiBM0G2gE7AMECwgljDIMG3wOiA5IDzQfVCjoHpAJR/hgFrAlbCyEM1AM3/zj9FwRrCkIJQQXH/7X8cgH/A8cGpwQ7/w/+9P26AhAHSQIV/9j5t/rNAl4EKAS0/br60vlJ+Rv+KgGSAmEAFP1+9Xv0uPktAQ0Cd/2g+dz3z/pI++/5YvmZ+jn+owBmAD387vmL+VT8cwAUAswC2/5U/iT/WQG+BGYD3gMRBroIPwlJB6IEcwVrBpoIvgmMCO4GRgRQAYn/3QBXBO4EqgHo+/z3Avjp+YL6aPk8933zU/HG8QD0L/Wi88bwEu5O7pjwh/Ql9hX1SfLX8J3ymPVa+FD6ZvtW+xD60fp3/dgA6gGkADEAZgL/BP0FoQafB9sHJwdxBqsHowiACRYK0AoSCo0IKQh0CN0IewfkB7oIIAn3BwoHyAa4BSQFSwXcBp8FKwNqAXsBpgHaAagBuAENAVf/5/5G/0H/x/6B/pj9yv1x/kH+4/5L/TT8yPvm/T//bP8J/y39ifxB/XH+jwB/AVQB//+i///+1gHHBDIGVAZnBKoCNQJcA64FnAdtCPsH1wXuAy0EQwVaBS8GswW1BIoFeQMPAm7/Af7A/v3+uv4G/aX6dfhB96b3qPeH9531kfIb8GvwRPK/8zvzHvJ+8obzXfWw9NzzwPNY9Rb6JP2n/lP9pPsC/DP/9AJpB80IOAlIB6kEvQbMCRQO1w6WDJUKhQhjCwQNtQ4MDpwLjAh3BvQG0ghACr4JeghNBLgCvgIpAyIFrgMnAvv/dP+lAMMA+f06/FH8Gfwk/dX8fPwF/Rz7V/ix9pv3Yvq5/av+yvsv+dP3xvh6/BEBVwamCHMGigNxAbsClghTDeAPtQ4nC6oICAgZCfkK3gvrCuMHSwUIArD+0/wn+4j5cfen9PTxEO9H6zDoqOVQ5B7lMeaM5dfiNOBN31/g4uKY5Sfoaekd6bXpdeu371z0pfdk+gL8bP31/0QCpwXaCTkNNw8REGgQBhFuEm0UYxZhF5sXORcxFiEV+hO2E90TwBMsEuoPtg0UDGgKhwggBwUGYARfAhYAIv7p/OX7xfqH+VX4tPeL9972QPYy9qD2Mvf29/D3Zvhm+df6PvzU/DH+3f8pAU0CPAMiBGoF5QXuBpcHSAhxCf4J0wmKCRMJMAh0CGEInAhMCEYHKwZIBD8DsQLtAqwCPQJvAc7/3v5P/i7+0v6q/sD+V/4y/vL+TgB/ApMCLwEwAM0AUwOyBasGSgV5A8cBiAHNApYDuQMlAqD/N/3U+/37u/u2+or47/UZ9PXyuvKI8kXxsu9W7pvuZe/p79vva+9772DwNPIs9Z33w/g5+ff4oPrl/b0Crwa8Bq4F7ATuBqIJGw1ZD+YPORAeDu0NIg6KEFYTiRELD5gLwgsQDWsMhwtgCM0GegVSAzsDoAKTA80DVAHl/tf8kf2P/sf+6/4v/vj+Vf6w/K76rvgu+vL7yPyw+7j6Ov79A1cJkggMA7j+xf8JBncMfxB4EeIOMgnuBFUGmgznEdAQmQpgA6D+h/2I/rn+7PwP+C7y8exx6b/ob+jx5ijk0uBX35feBN5t3aXcNN3y3gjhK+Nu5N/llufS6QXtQvG99Ur5a/vI/Mb+YgLfBuYKdA3GDsgPJhHYEhMVnBZCFxcXdBYjFmgW/hYKF1YVURKMDwkOgA07DQcMsAlPBvMCZwDE/u39aP2N/Mf69vd29fbzzfNK9CT10/W49Rn1hvS39B72cfh7+1j92/31/WH+7f/2Ab4E5AdUCZIJ3QhCCDEJXQpVDO8MFwxzC1AKwQm4COgIYgr9Cu0JZgejBBIDxwIvA+0D3wMOA74BSf+K/TD9QP6C/3//8/6L/XX8EPzS/JX+iv9JAPX/r/+t/2EAzQECAzUEZAX/BgYI+QdiB4kGOQZyBicHRAgRCCMGYwOZALz/3/8UAIj++Prh9rzzlfKT8sfyhfF97tfqaOgc6HzpZuvH6/DqdOm66X/reO7A8Rv0wfWW9jP4QfuF/vMBkgTRBdcHSArADV0QABF3ER4RtRE2EwsWoxekFqoTShGwEC4RpxFpEHIOfAtdCocJBgltCHoFDAOJ/+b/BwKTBDUFTwDv+lL20Pa9+lb9OP6I+/D2YPPI8TD0+fdY+Qf5ifZ/9/n7+ABiA74AZ/9aALkEVwrTDakPXgzRCP4HaAsZEeISBxEzC4EFNAOpA9UF8QQaAUL7tfQT8AjuJu5o7QHqmeXl4arfCd5I3QLdAN3W3Jbc4tyt3X/f+OGK5KTnE+v47vzxPvTY9pj6rf+hBLkInwuWDakPxxF+FHgXExqjG6AbzBpIGm0a9xqZGjcZBBesFHISQhA4Dl0MSAq1B5EESgGT/mz8oPrg+O32CfUa85/xa/Dm79jvGvBa8GHwvPC/8RDz4PS89p/4e/o9/ET+MgCfAj0FhgdlCcEKPgxXDUUO5A89EfERPBKhEbER0hCoEL0Q2w9/D2MNIgxBCmEIHgh5BucFmAOLAWIAZP7u/T/8l/v++hD6zfm0+Oj4mPjO+BL5Gvmg+bv5nvqH+2T8aP0A/tn+y/9GAYMD1ASGBVsGxgiMDCoOrQxnCEQFogXCCFEMxwyyCZoDDf1q+Wz5Nvym/W37CPYt773pGuiT6aPsdO1L623nbuPc4kjl1Oqc7+bw5e+g7UnvIfTM+tP/VgEeAgoD2wVVCYEMjQ/3EI0RwRHQEbETghXAFWQUKRFDES0SVhM0EmkOeAyICVkKvgmZCccJWAfqBsEBZAC/AGoCWQRzAJ//m/1p/X79Pfwk/m7+iP+4/xT+pvyG+gL65vpV/Er+dP0E+lz1DPMk9Xj4n/va/HP+SABVAKn/if6lAI0EVQgIC70LcwuWCfUHeAhZC3MOkQ5RC2YGkwL4AOkAFAG+/438APjy8sfv9+2C7Y3sPOoV6JblBOQO41XizeIj4y7kBOUw5djlyeYQ6QjsZO8X81/1x/bA98b5Sf0tASgF8wdaCVAKFAv7DFoPvxGQE8QTDRM+EiMSzxJwE3ATVBKKEG4OlwwgCxEKQAn4B/MFjQMZATb/+P0q/UH8zvoE+Wz3Svb09e/1WPaN9oP2bfZ29jP3gvg0+uP70fx+/WT+NQA2AhMEwQXiBtYHeQi5CdsLmg22DrwOSQ1hDIILmwzFDeENyA1UC30J8Aa5Bv8HxgdcBsoC7f/3/YX9Ov6D/qD9mfuS+ff3SfcJ+IX5H/of+g/5UPg8+B/5Yvuo/ez+sf/z/8oAYQLcBMcHpQn4CewIwgjZCe0L1Q0RDpoMrQnVBuMFiwbYBtoFXQIX/tP5Jvfr9TL1XvTu8c7uPOsx6YPowugW6RLpv+jw503o5+jt6i/tXfAJ86X0I/a/98H6wP2jAUkFmQf7CJ8J/Ao5DYUQRxMeFLISHRGSEGcRrhIsFLATyRDbDd8LZAzeDNgMfQvUCDAGRQXRBTQGYgVtAk4Ai/6rAI4C7QNNAs79Ufti+hj+igHgAVD+DPkK9rP28Pm8/ED9Lvq39jb0UvUP+AP7HPx4+0v8Av4NAZUC7gLLA74EowftCrMNww3pCgMJAwl3C88N+Q25C7AGbwKCAI0AkQCV/rH6dfW88BTub+0o7TPrFehO5LXh4OBM4UziduI74lLiseJW5HHmG+nD61LuHPHc8+v2svmg/OX/YwMsB9IJjwvcDH8O/hC1EwMWOhcPFz0WRhUKFU0VsBVRFZwTCxGCDpEMYQtMCqsIbAa5A/kAsv4N/SP8Jfvf+Q/4RvbK9PvzBvRN9ID0hvRQ9Gj02PTW9W33Evl3+jP7Ifxi/ev+3gDZAusE6QWUBokHoAjeCVALowx5DScNCQ0mDXsNcA6TDnwOBw1rC0kLtwoNCxgKmghVB4AF6wTTAwADIQKuAGX/7f2G/cj8Bfwv+4H6dvom+g76wflG+XL59/mF+iX7i/tM/Lj8VP1u/gP/egDtAvMGNwikBNL/tv6QAxAJ9wodCFQCtv33+3f+owJhBH0BmPr08/XxvPRo+en6WvcQ8errzOt27xb0s/WD85Hwie4X8ObzXvjE+i/6EfnA+Sb9jACdAqMDgQTQBYwHfAizCfIKBQuUC88KNQ1VDz4PBw2vCWsLsgxHDyoO3gt/Cq8H1Qm5CI0KkAq8CEsH2QH+AjsEcwY3BtkB5f8y/XH9k//RAL0Bt/+a/Hv6xPiz+mT8Sv1I/Az5oPdR9Vz1T/Yr+EX6o/gD+EH52/3hAUsBcv99/sYAjQTxB78KBAsRCZgGkgaaCb4MWw2/CgUHyQN+Ar0CeAJUAb/9t/kU9m3zifI98dPvEe7360zqFugj5+3m8eZC50/n1+cA6Gvo4+na61buc/BD8qzz5fQ291D6jP2JADwCiAN4BCsG5QhXC2INiA4SD2YPxw+bEF8RFxIrEpYRmRCuDzMPeQ5HDUEMGgvsCU0IbQaNBNMCjgGbAHX/Bv4x/K/6RPlv+EH43/eL9672U/aC9qf2LPec97n4LPnP+cH6qPsR/RT+xv+VAc4CIgQ2BZEFpwY8BxcJbQovC7oMHAwqDPEKiAuNDRUOgw6SDJ0KJgl3CEIJRQlSCHQGewTWAnUBDQHnAA0A8P6K/Yb86Psg+0L7V/sF+wD7Vfq++ij7sPxH/tz+df7H/CD9b/7IAHACTAIaAdz+lv1b/n0AmQE9AdL+m/y8+ov6N/ud+1P7Kflm92T1XPWj9T32V/aE9dP0svNu9CT1IvbK9sb3ovg6+eH5Tvsn/WT+8f9EAWwCdAPABBsGQAfzCB8Knwr6Ce8JqQpQC/cLcg1jDV0LaAlXCbILawxCDIkKwAjvBt4GewiwCaEJkgbNA2YBhgOiBXoHpQVDAVn+cfwD/xMBTQEy/uD5Iffl9uv4yPrl+iT4L/WP84f1PPiQ+g/6lPj4+RT91gBPAV0A1wB8AuUFQAmWC+QKTwegBekGTwoyDAYLFQhTA0sA9v/rAFYA2fxJ+Bj0VvFM8BbwG+8c7OzoDeaw5JPk7eRp5fPklOTv5FnlkeY86LDqSO2J76jxgfPK9YT4FPzG/9cCfQXlBjIIRgpzDQ8RXRNFFC8UBxTPFAYWTBeAF90WeBXWE58SBhKNEWkQZg53C7IIhwYYBQAEgAK1ACT+g/tY+Tf4nPf/9kT2DPWS843yJvLH8onzSvTT9N30GPVq9RH3Cvm5+kb8Xv2+/nz/wwAqA3MFKAdgCD8JSgqfCgEMkg2zDv0PiQ+lD5YOTQ6MD0EP6g9pDvUMsQssCkQKRwluCBwHdgXBA3ABiQCT/zL/Xf7b/I/72vk5+e34OPmJ+f34S/gk+dH7P/21+ur29/Yq+08AMwHk/gz7yPjw+Tv9HgHBAej+VfoZ9//3fPtp/sH9qvmx9WX0R/Xb91H5Z/l99yr12vS39fD3J/mh+gH76/oU+6L6EvwV/vcBswP/ApsB2wH/BLYHpwkTCsUJ/Ah2CcYJNwyyDt4O+g0IClALoAz5De8NAQzyDMwJXwl2B2oH3Ai7B94IkQN7AWYB9wI2BUEBXwG+AOgA//+L/DL8Zvv7/Br/Vf6O+/722/RO9o34Ofsb+2f6A/vZ/GT/w/58/uH/JQMvBr4FbQVlBXkGgQcyCCcKTQqlB14DSgEhA2cEBgOm/v75mPZQ9PTzm/Nx8sbunupN6FTnOujq5zbnweUi5EfkreQj5gHor+k666vr6ezm7hzx+fMm98L69Pzv/Uj/hwH8BEwI/gqUDDINzA0AD+oQYRPvFBEV6BMBE08T5RNdFC8UDBM9ETYP1A0ADWYMCgufCKIFBgO0AfQAGQC6/i/8j/lZ9yz2Gfb+9cD1ofTq8i/y2PFP84X0nvV+9tT1C/Z/9m351vzR/jH/X/6t/xMCgAWjB1EIoQgSCSgKUwz+DRQPKA85DUsN8gxaDoQOPg3jDE8LZAsYCoIJGQlPB5AG0gW/BQcFNANUAn8BxABhAGYAUgBY/4T+Sf7k/Wn9n/wV/MH7Zft4+7v6K/lM+LL35Pef95X3LPeH9bzzYfIC877zCvTE857yqvHD8ObwkPJt9G31k/Uf9S72bfeP+Q/7ovxr/kH/GAEpAu0E0QZZCIoJKwqGCx0MKw7zDrcO2w2yDVgPfhDfELgPlw11DDMMZg1+DYsNcwx8CWEH8AdpCpoJoQUoAygDjwPtAjEDlwKm/6L8qPwa/xAAK/7b+gz4bfYp+K367vvS+kb3QPWc9Cr4pPuP/nX/P/8k/439s/4nAhUITgvpCbwFTwP4BJkIBAyDDDYKkwTJ/zL++gAkA5YBefyN9fXwBe8m8IXx3O9N65jlbuIB4vLiOOQ/5KDiCeDx3nbgDeOp5bbnOumN6UHqxezL8Cb14vjw+0b+IgCHAlgF5Qj0DK4Q2RJoEz4UOBYUGLkZ6RqWGxsbrRmFGDgYVRjwFz0WMhP1D+QNWAykCpoI5gXTAoz/Ef2O+/P5bfha9iT0q/El8K/vgu8k7/XuFu9H75rvde/o8GHyNPRD9iv4KftH/RT/o//M/zMCmQeJDdkPrQ2FC1kLmA+jFTIaaBqbFJoPzA4KFCYa9BqWFusOZwrGCewM7xDjDzMK9gEn/Yn+IwFCA5AANvud9ibzmPRU9t73pPZu8orwmu9U8dfydPOA853xTfAL8M3xzPNv9Kr04fOu85rzN/RL9gv41viH+EL4cvlt+mH77fxq/z8CHQK5AWsBogMjB8wIFAvMCtcKRAm8CdYNsBEpE6wQ3A2xDPINOxC0E38SAxCKDCcKzAziDKAPVgxfCekHMgYZCKYGXgkcB70DuADO/oUCRwHuAcz+6ft1+9f5yvvc+pH6DvqE9wb2C/Vo9lX50Pmq95Py5e728DT16vga+Dn08O4m7P3v9Pb9+vr5BPmm+63+CwBxAcMDXwefCCgJLAodC7UMUAyrDFYO5Q7aDCUHHQQhBRMG2gTp/4j7Y/Zt8svxQvIZ8pHtuugs5d/jLeXv5abmpeQM4zziteKs5WHoJuvg67Xs++5i8RP1qvie/Mr/sQFqBLsGtgmzDAwQfRNkFOIU6hRcFvMXrxhaGX4YVBfWFcIULhTcEpQROQ/oC1II9AUcBZoDRAHb/kT8nflm9972NPft9TnzCPBB7zHzyfcf+T71WPLw8xb5zP8oBJ4FNQIhAEYClAgZD9ERBxEkDbcK+gsrEJQTQhPKD0QLMwnJCCAKZQqiCFAFsQAd/qD8Xv14/Ab7Rfge9aHzePJU83/zh/Pa8kzxCvAm8BTySvSx9Qr2tfXc9Eb2FvmU/Eb+FP5B/n7+QwHCBFIHcwg+CLEIEwm8CjQNAA8yD+4NGw5bDmwOQA8oEDwQ5w1zDDMMYA3KDWENrgs9CRkIrgdpCIQIjwi0BhsD1AGIAhkE0gJoAEH+KPxY+mD64vo1+4X5WffS9efzFPTH80j1+/Uh9I3yj/AW8j/zFfSg9BH1dvYc92v58flf+2/6GPqC+hz7of3p/Jn9IPuz+Oj3ZPnz/K790PuG+Fv2/fdP/Hj/Af9p+774KPmT/A8Dewb7BNUAbv8MBOwJ3Q5BEbIPjAwYC9cOgxQVFyAVChCwCyYKSwzEDcgLPgfJAOj7OPlj+TX4IPSH7g7q4ejY5zHnZOXC42nhat/Z3jrgrOK44zjk4OSE5mfo8uqo7bDxR/U3+O36F/7tAmEIqAxUDwIRuRKuFNIWHxnEGhcbThnvFsYVExZtFqIU+xCgDG4J6QciCNEHcwUzAvL+Jv0+/er+twAG/9L75PnM+nf95v8LAqUClQBb/p7+jgKQB2EJAgitBH0DCgUbCJUKGwppCDkF7wK4A08EvQVTBCMBhP7X+9z6APv5+rv54/cj9uP1M/Vh9Rv2yfWl9iH1xvW39uv31PrI+/3+F/41/rX+dQA5BJQGzQgeB3MFHAWPBm8ISwp6C6kJ0gazBVwIAQnLCMkHZAcOB1QGrgaQBrUHMQhiCCAI2Af8CJsIyQhtCRgKcwrHBqsEJgRIBmgIDQeDBqUDUQCR/mf+XwDmANf+lPw6+BT3X/d++Gj56/W287/wr/BW8pnzRvZL9b/1fPQm8nPxcfN/+fn6Sfk29pH00vYj+fv7vvua+or5DPlL+878GP1X/dv8m/yX+qj4QPiC9qv3NPoQ/cb83Piy9sj1ffhx/bz/WP8L+mD4h/sI/1ADZAS4BGYCxwHqBaMJvwurCZ4HNgjkCsAO5xAoEJQNiAt9DHgPNRJGEXoMwghYCHsKJAx2C4gI/ANJ/yT9wP3c/vT9gvlI9Dbw5+7A7zXw3O7M61HpKOhc6UTsUe3T7e/tyO7a79bwE/R/9pv3yvci+Zj7of2+AGQCWgLcAY4DEwj0C8oNUw2qC9cL1g5wEe8QAQ5yC9MJQwjACaAKPQk1BqgBpP+KAT4D1QTsBPYD2ALQAHoByQJUBYUIaQqPCqAJPwmYCBUJugpiDbcMfQmiBrQDDwTABLgF+AZuBNz/qvqx+Xf7MPtK+wL8CvyX+n747Pel+Nf6svyB/av9kf3I/aL7cvkr+mT8oP4Y/0r+dfze+uX8XQLIBX4HBAZXBD4F1wTBBacF3ARdAz0CqALpAfwAIAAr/sL9Zv6s/pT8hvuz/0oC1AEDAEn+7f6z/10CmgOzASUATf+6AR0DPwMXAsr/cP/R/qr/9wBxAdYAIP7O+3/7U/2k/sz97Pza/fb+7v1m++n5VfgA+IX5m/yu/FD5bvXJ8XT0YvpZ/8UA4f5Q/aD8A/0+/qf/i/4Y+l32cPbW+Jf5hfZL8kXzRveJ/bD/MP2U+RD45/soALUD3gSFAwoBkv64/8QEfQoTDm8M/QcwBTUGQQrtDd8McQp7B+wHDQmOCk8LiQZiAj0BjAI+A1gBcf1M+iP5i/oT+wT57fbn8wv0P/X6+WH+yv1J+rjzs/Jt9jb90QKmAT/9D/jf9cj4sf2TAEAASP2++ln5T/hn+IT4fvjJ+P34bfqj+k37xP2VAh4HLQqtDPkLogm9CNwKWQ8xEWAOCwmZBewDrwITAUD/rP2O/Zf+Qf+B/1b/jQDVAScC5QEEBO8GLQdhB9QFRgaJBjIHjwa8BlIGWgNMAHX+1f++AQYDRAWLBqIESAMfBIQE9AQRBVQESQBy/Iv7qvoL+Uv69fs++i/4Gfe8+Wn8i/4DADIBMQZhCfUIBwHj+SD6AP7hAoEECgS4/k36ZfrQ/F0DhQqVD9cMBwdGASYA7AJjBgwIjwNf/bX06PJQ9Hz0OvV99ZP6Yf/+AqoF1wXwB/8H+AmbDLkNKQt5BdABJ/90/cn88/xf+Vv39vXu9JX1OvvGBAgHCgFa+HT0jfZy/QoFtgMC/Wz0q+2i7UD1IP/YATj/IfiU8xf1t/kV/5kCzQTiAjL8iPXd9ML1pfWU9x75DvtUAGcCQgFr+2H4Ovuy/7oGTwyGDhIMrQsHDWsOVA9kCmYFzwDFAcsGFgxzDyYMIwfR/7X8hABLBtUKEwgVAwz+Bf1p/8UAHP/O+Tb1QfJd83n5Cv0K/ez4rPXW8vnxjfEG8W3z6PLP8orzhPTq9fz2WPn4+qb9Zv9pAAYBYQFd/pT3DfTJ8wb4lfvZ/Fr9Y/qE+rT8xP86AzUEtwP1AtEFygpDDk0QRA+FDPUGSQPrBNgJXRHKFIkSnQtOBdIDjgbPDc8Pkw7NCgYIdwaiBVgHkQfWB+8HJQnBCGkIOAbOA70DoAS3BlEFdP9g+SX1zPF58xL3h/+yBiYJjgeoA/cB//13/I38awDDBukHMAnAAc/1svCq7CPvHPXc+dn7rvoX/KD8Fvv9/SACBwJEA+QGowl8CZEGcwHh+Fv1Fvdy/RoDBwa3BSwB8f6X/h8EmwpEEQATggx3BL37cvp4/WH+UP12+G/3gfnk+x/9UfzyAQUH/QvLDqILtgam+xLyYe0s8Hf2iPcv9xXwyefi5DzrCfttB4EOOQ6lCFcCF/ma9kv3/fr3/tn+tvyY9KTtUOco5aPqN/VLAGMGwgYeBWkDTgMSB8wJAAxZCqMGLwOq/n397PuC/HwApARLBtcEGwX8BPwFAgovEWcYExzdGkQSGgjjAKcBIgVzB4MGGP7m9bfwAPBn9Ln5Hf2I/OX3nvLW8LjxnfZ0/WAB9wEi/zv39vB97Zrrs+wk8fb2j/h39hbvIed/5E3px/PG/ooHDAr3BWf+LPmY+Zn+9wTlCT4L3gjdA73/qP9aBRALahJtE7cNSAYh/av9QwKsB1wM7A7wESsP1QtXCswIdgs0EJ8THxFWCkcDB/yh9iD28vkM/08GNgo5ByAAdfwY/r8A2wZADhsUKha3E1oOmgKx+NT1cPi0ARYJcwp6A+b7RPXM8sP3pv3SBdMKzAr3BJf74PHl6oXt/fV1ADsEIgSu/HH27vTB+LMCugwyFkMYOhJSBer3u+wS6r7vm/jaAQoIiwpCAMDyFOYw59n3kwyFHHccEA6H/Evvfe4A/bULMhQwExEMzQIx+dv17fRu9bD91QbIDK0QAQyC/zXvpucH67X5QAryDEUBTe1L3wng6O9PAMAIcQKl8iXozOkD+gYKLQvT/gnyEvFw98f+/QCQ/Xf7KvwHBTQL0wnqAur1Xey86onzOvsu/7D/uvf573TvX/smCkcS/hMwEjQR1Q+1DGIHYf83/J/+XAXcDb0PLwx+AkD60/dq/WwFRA1/E8UVKhZYEiMPsAqxBpcEyAIPA3L/QfwO+xf42fPx7Ujp2ekN73PzvvQM88fy6Pal+1IASgIPAu/+QPzp+y37svq3+L72u/a39s75Xv0f/qj7dvNj62HoCetV81z7PAC//yD76/bW9Ab1kvjJ+9b/fQUcCO4HzgFZ+xT56vyVBbwRmB0HI74jdB+ZG1sXUhSgEK8OHQ4wCxgIOALr/K74bfKw8kHyf/Rx+FH5APxH/e37PPrZ/K0EIAsjELoSow6SCvAHPwlgCi4KPgoIAeb0weoU6U7wZPv5BfcFbgAY/dr44Ps2AW4KShNEFV8VyA7OAqH4NvK275D2uQDhBzsIYgUsAPT8tQASBwYQEBZ9F0QVOA4FCOwBdv0c/Un+VQHEAswATwC1+wv5evvDAeAJ7A2rDJoC7/Yd7knsBPF09SX5a/e79Nzv8e+P9N/7pwKbAy8BtgBwBewFbgU+AnT7e/nE/EsC1QSkAHv27uoI5W7n3vMKAOEDyQP9/LD5/fxJA5cGwAcrBZYF6gnGD7MOHwXb+vTvEu/N8FTzIvbR93X/owYXDIwK3/zt8EnnBej98F/7uAVcAoP6Quzx4o/n6u6e+ZL6Y/lZ9ibzRvVa8VXyKfmlBs0PUQ4DDV0LGg6tFpIeZSavKK8iJBhWC2oHYAaSCVsOLxAnDJoACfQ86ePkj+Xv7rD25/0RAbT9kvqb9hzyOPPl+UEA9AP//5r43++M6anpou9p+RkCoAVZAgz8OvcJ9cn6BQZZENYUgBPfDo4L/wkhCFwEXwGPAP8AuwC8/mH6T/Kl7BrsQ/D19wD+MP8x/bf6zfhv/HgC6wk7Di0OSwy9ByMGdwjlCtwLAgogBy4FngMbAhUAZf2K/BoAmwV+C+MNOwzKCXUIBgvID/4VaBhuFRASIwwlCdkG+QMYAq/+dvwH+yn81vt6+/T6B/sS/UECDAoJChUEvfkk88jv3PFM9fP0XfKC7vTv9PgDAxQMTA+GCQIAo/je+NL+4gnTDw4TJBM1DyQK1wCc+yb0f/O898386AOUAsv/yvhm94L87QTsET0VuRXqDCAGnwEa/9/9d/m0+DL5C/95Am0DnwFC/6kFVwyHDK8CMvTn6vHpMfCU8/P2mPYX85fyFPAn+Df9q/vC9bPqaecR5t3sHvLH8tHxdu589CwAUBXxJsIpbSTaGqoWnBmIH8clZSQ/HmUTNQU7+0DzVewv6e7qX+2x7/fubup/5HPfr99v5cHsNfMx9hX0+e6h6RzpZewC89v4q/rL9+X0pPNh8pz0MPae+1wACwU3CCoFlAHY/T/8mPxjAIEENAR5ALf6H/cf9pn3O/oW/Iz97AAuBHwFVwamBAcD0wFSAlwFZweTCEQHYQLL/Vz8Qf51BEIKuAyHCzIHTwVBB/EJ7g37DlARjBLOEdwRFQ9YDqgMpwp2ChMLdAu8Cf8FQgH8/LH7IP2O/8QBDAJDAMb9afuj+4H84f0J/xUBdgFrAlIBRQA4/QT7gP0pARcH2wfyBM7/Gv7h//QD1w27ELoP3gis/575q/UT+Sv+hwV0Db8ULxxuHjobXBBhA7D+7wCZBWsLjAc7/wz0y+2z7XTv1PGT8gD2E/4+BlgK6AkXBO8EqQbtCXUP/wkYAhvysegM7ID1Jv4d/tf0seen3xTfjOKu6p70K/t6A7AHIBGSGeIawB/ZJbkwuTq/PUg1DiAPCWjzXOhP6Q3r3eqD49HXTMuSwgu/YMLiyj3VFuBo6Ebuf/LD9G31dPet+3wBXQgZDz8TVhDmB739WvcU9Qj2Tvfs9vX10fMi8Sbulu3c7+7x9vas/GUDKgmfChEMMwqRCWgJ/QtAD6cQIw6FB2cAKPro9Qb03vLP8vXzx/Rn9jH4pfla+jz9TwGPBfAL7RBCFpwYkxgwGPwWuBVrFOUQQQ1ZCnoJfwtoC9AKyQjSBr0EYAVRB9wJZgzSDYwN1gtlCukIHAY2A64Aqf4//cD5Tfb/8WvtGOsF6untmfUU+9r7BvnT80vvL+2f7gHzzveY+f/20PR78lHzePWW+d8BLAyyGPUdGhzDD7cD9/pf+QwGNxVtIw8m5hzGCnj7iPlI/BoKRBANFWEWRA9fCwQD8v0x+7j9VQRUDhYbNRzeFLIFwvj49R39RgZXDFIJcP3V88nrb+3R9bn47vzE/w4GYQ8PFgMgqivIOs5D1EXQPOkn1Q8284Tg89m/29bdftkMz3e/lq7Ro4qjPKz6uv7NA+EO8IH3JPcn9tP28/pcA9cN6hf5GxsYcgtv/Pbto+RI4ynnKewB79ztJOmH5IriruPw6lv36wZvFaoeziEbIMEa3BV2EU8P1xAWESQPXwkZAUT2dO1451zlDOe466PyRPlU//UDaQgiC+QOPBOlFwwcgB5cH3EeDxvjF8ITowxEBIL6jPF57Gjqte3C82344Pts/Pf7Wf8CBGEQiyO9NM89rTiQKUAZsQj/+1/22PSa9ID0qPBW6bLi4Nze2B/az+IY8cwAaAtzDdsIAQEJ+kb1/PUS+Rb8Hfy394Py3Ozq6IbnEeov8Cz3w/6NA2kGzgY1BeEB6QCsAlwI+A06Eu4XzxcxFWURXw6lDXYPAxMCEwkUUhEEDyELigP0/pH93APQEHcedyb2JKod4xS1DOMLgBDxFpoeHiAtICUhBCRqK205skPWQLotIhHC+ojsxeGv2j3Z9dbR0BLGX7mmsdurwKiqrH+748+f4x/w0fIs8VjvEfCw+AQD+QtkEF4NbQbX/PXwy+M42gnWLNfC3T/jJeel52Xj/96E3+XmnPS8Aw0S5RyKIUgiLR+xG9UZ4RdxFj4WuRNgERQLXwCs9ijtmug06bXr6/Hi+CH/UgU/CvwNABK0Fssa6x9AJZcppClyJWUc8Q5vAGL17u+r7o7vO+/I7SXrEudc5f7mHe2X90cD/A0hFdwW/hYXF28XZBlnH+cnjC06KbYaOQd+9ezo+OGR4L3kZOpD7ADrPuce4/rh4uQ07Cb6xQi9EgEX8hH+BgL6u+/V6+jvpvWy+eX6Xfah7kvmhuCu32zld+0K+WcENgxrEZUQMBFMD7IQUBGfE3sY7BhDG5wUcQz+BtYBnQE5AR0DkgbrCiMOWQ+zE7AYkR/aJA0kASR6JaglSyd6K9ou+jCDMfw1zkDxQeIyihnK/4fsjeAO3E7drOHt3HrQxMQvu+G317aTuOPC7tJ55RP2x/8YATb86/MM8KLzi/zMBD0H+wIC+azrIN4u0xHNTstgz/7V3N/e6UbuMe8X7fTt6/Nk/lUOpB2sJx4rHygrIqwbNBRyDbAJYAcTBxEFhAAS+sbxI+nU49bjv+gZ8dn5swIzCugPXxIQEygT9xMGFiYYfhtPH+cfgxu7EX8Eafiz8LXsS+308Fv0XPXI9GTzUPIm8ZfzqvokA3UMoRMIGVMbJBnKFbYR0xGwFwkfDyRwIPYThwPQ82ToZ+Fm32jgYOLO5Gnnkuks6q3qm+si7+/3DQPlC+wP0AweBRn8IvXE8O/yYPbN9yb4IvVe8xfwdu2P7O7t5/I1+tMAggddC6YM9grsB2oGUwaJCPsJmw4IEZ8OjArZAU79wwFRCAgTOh6bJQYpzCZ6IzwipyPIJi8qCS6iMyU7f0K2RPU9HS+aF80AdfMb7tXuXu0S6l/l49zf0pTIF8EEvSO8NsLt0KrkHvRl+rn5kfXX8TrxZvRn/CQDhAWVBEABM/x58nDltNr40xrT/tZM3kjmaen86OjmtuXl6KLvVfo4BjgRehqbIZskFSMZH+UXzhGbDtINhQ4BDoIJCQKj+Jfv0ehX5UHlRuho7Sv0ZvujAbsF5AdECTkLIg8oFF0aVB6dIB0fIBvSFO8MNgXh/GT2QvNW8gzzAPPz8HXuIetD6eDq8e5O9d783wR3DKITvRnPHkYjKiUNJFIiGSGcH9MZHg+uAkH4RfA76mXmNuSo46/i9eLF5TLq/u6o8tj1Vvpg/xYCDgSfA7sAs/1U+jH4Rfdy9rf1zvRC8zryLPFe8abyCvTt9l/5Zf6fATUEGwlWDM4OOQ/gDd8LmAxHDCwK0AiyA7QBvAGaAggJ7A55Eo0V0BazGEYcbB/UI/UntCteLTEykD2mSeNO40R/MaYeygs++0TySe5Y7KHlAd2R1nzR7Mj6vKu0+rK8ukLJXdzQ7TP3lvlE+G355/v5AI8GwgrtDdMPEhCeCxsC1vM545bX79H20kDYKNzZ3ZzdrNxa3fXfGuXv7HX27gFDD4UcDyZmKsUoNSQrH4kbhRosGhIYyRNwDX8F//xC9OvrYOUn4avg8+NH6lLxr/cJ/NT+WgLoBqYNfBSPGuMfPiQQJqMk2SBOGbMPzAZXAMH8b/rM+JL22vIr7vfpFOZf5P/kAenl74X49QEgChIRmRVBGLgbQiLCKgIveis+IRsUQAgn/7/3OfHG6/Tm0uKf4NHgBeGG4DjfB+Hz56LxCPtUAVgEzANMAez/UQDnAbkCIAGpAGj/gP0L+233J/Pj8LHx+fQ2+3v/2gM9BlQFtgeJB3cJpwjjBswIggY3CaYMvw1RDh0O5BBnETMTSRSRE9AS+g7vEZcWNh2UJTAnCCbjJS0ulznuP0U88zHnJeAUswgxA/H+Avd16c/eQNjX0s3Nx8iOwkW6mbdqvgrLFNih35Dlx+pb8JX4qgEfCp8NuQ1gDRoOkBA7EBkLIwJ+9x/u7Oj55tfkauFo3LXXMdZS12vbk+EQ5ofrmfMk/VUIeRFiF30aIBsgHMkeqyGoI6UiJR5kF1YQ9gmsAvL7D/UV7yvr2OnM6nTsvu3H7dPuWfFs9g7/+gXlDDoTVBdMG6Uc7x0NHs0cWBnpFTgTaBDtDPcF1v3i9kLwqusF6obppepa64jsQu8v8on2ffq//6cHdRIAHvYnYi7FLdAlQBvdEQ4LWQWiAJb8Fvhj8nPrLOSJ3GnVudC80CHW095K5yzu+vGJ84DzT/VK+G/81AHGBSQKzAxZDXQLOwg8Awr/xfy6/CMAFgMoBYEHLQecBCEB5P6C/UD/HgD9/2ICEAOpBq8IfgorDaoPZBJ0E80X3BipGbUarhlgG1Id3iOILuE7dkdySqhDPjVxKBwcAw+BBdX/P/3Z+WbzwOzA48/UysJts52tFbJ/ulnDgcxI0xPYe9t84CnnvOz58uz6cweeFDIfxSRxIpEajhD9B6ECXQAo/kT6+PUq8aHrhuSI3P/Tuc1zy57Pu9hF46XtLPUg+oH9FQLbBwsOOBQHG6ghOSjKLTkwZC7YJyUfOBYcDsoIzwMKANb7gfcO9Fjwvezj6NzlfOR15jDrhPJv+sMBRge0C54O6xHOFeoXsRjaGBYZzhhVF/gUERCMCfkC0f2k+Q325vOu8YXvZ+4s77XxivUZ+kz+ZAN5CTUOExBtDioMHQpiB2AFlAMNAmr/ZvtA91vzcO9n64HopOYn5kDmBugu6qDsOu8S8lX1v/fl+bD7sv0D/1YBBgNZBAQE7AQwBsAHOwkpCbwKEgoUDKgN/gx+C4kHyQRKAWH/HQHMAvYCTQTZBZsIdwtRDTANAAoNCOIHjwtJERAY2R6PIgIrkDsaSzVOGEUMN9AoLR1rFTMV5hcvEuMIrv8A9gTrHdtty/y7/K+drgG2W8Bzxj7I0seQxdzEB8qP05jdJudb8/QBBhGhHKohuCBMGvkTLBK0E+wW0BeAFf8Q0QqhA+b6IfHc5Uncetcs13Da/9244EfhBuBD3wLhD+UI6wjzbfxMBy0SVBw5JEwoxCd/JcAj3iPBJaAnpCg6J1wjcx0vFgAOzgS5+/PzsO4+7FbrcesE6wTpvOXS48bjguUc6K7rjfHE+KL/xwZuDHMPCRAkD7wPExLbFQsbfiAiJbUnTCeyIigbOBIcCiUEywB9/jX87vgI9O3taee64TPcndgu2JLa1t565FrpPezR7Jvtd+8Y8sX1OPqo/zIEHQgZDIAO7Q3OC4YJeQcgCA8J4QoGDXYMeQw3CysJ2wfCBkEEIgN0A+ACTAPSAzECMP/K/LL7/P2DAdQEHAufD1QQqRC0DykPkw4cDbwMDA5QD7IQ/BJ6FvQZbBxkIg4rWi/EK9cgqBhgEeIJbQYmBZUG2ATCAEX+T/pF8hfnctu80cbLHsoLzoPSstTO1MbTl9Ot0mzSAdIK1EnYi91l5sfwxPn8/tIAnAEGA7wDfwaVCr4NVRFcFOIWsxhdF6wTOA+2Cf0EZwI9AfsA4P88/iz7BPgn9aDxxu657Ljrwexw7zjzgPY/+YL6mvsp/C39QP+tAkIG2QkuDhESAhXZFmAYbBikFwwXBBfCFpkV1xTHEuAPtgxfCv4HLwUEAhj/lvzf+Q34BPdp9ev0K/Xd9Wb32fjm+Zr6Hfot+nH7Hv0E/6oA2AJnAwUE5gOYAkMBt/7X/Uf9Yf21/dH8Bvsq+bj3dfaP9Xb1lPUa9Sn2NPd4+KH49vg0+N/1O/Z9+ZX8QwAxAQcEHwNPA0YJjQsmC/UHpglRDj0QnBEFEoMSIxHDDeYOiA7LDAcM1AiQBrkEVwY1B4UGVQX0AbgB5QGAAo8EAQP6/l/+WQASAUwBXgEy/9X99fwP/U3/9gFmBk8MJBKeFRoVMRPTDz0MvwqiCX4M2BCaEgoSJBBYDuoIrgGP+dTzX+7q6v7rU+x96lTn2OLQ3WbZC9U+093TRtRH1rvZw91S4V7jUOQR5dLl9+c77Ffy6/hF/3UEbAjvCtQMMA6sDl8OyQ4TEFASuRSIFlEWfxOED4ELFQhEBWADCgIKAQUAMP+7/pb93/vU+Dr1H/PY81b2rPm4/I//cwE0ApMCzwKmAtACCgOvBG8H5ArjDeEPUhDzDhINuwtBCxYMfQziDGcNqw21Dd4LRAmGBbsCnf/N/Fz9mPvn+gX7uvkj+C73wPan9FbzlvR8+OT6yPru+/0BAQBi/Y//ygFl/p//uP1gAe3+iAGBAW7+vv4m+/X5kPtL/VT3WPzL+h/76vx4/SH8Vf0g+9r59v6CASEB8f9P/14FcgiCALcB5Qg/D8QInQE7BjwPogwbBXcFywmZDScMMwhKBw0J3wr8Brj/UAIrCiQHzgCA/u0BkQhjAm7+sQC7A7D+2/nd/QEA4P2D+2n+TP6wAV0D+v75/00BVAKh/n8BRgn5CjYH9Ad6ChYKLgayBBAGBQT+AF0A2APhAiX+Afy8+aL0evDs7yzvT+7W67vqs+yY7LrpSej/507nhuiR6QTrne0q8D7yTPS895T5mfnV+fb8Y/0H/fb+uAIeBMECTwMxBOsEFwWVBIwEiAMcA3oEAgaBBOwDJQRCBf4DNQOCBL0F6gTBBEcFxwUzBYUF7AaVBzAFYgUDBgEIDgmOB40GSQg6BpgISwYSBBcFpgRwAnQCpgGEBBsFEwKUAMUC1ACE++z8l/2+AI35H/xgAhv/Jv5A/U0CmP6b/Yz+jgCmA2AC0f4lA4QDiQOmBvQAEABq/loFegNw/GL+Wv+eBXz9cfpY/woC8/q5/2r4dP1f/6X+qfqk/iwCGP0w/T7+ZQPl/sH6/f4/A8sDqvyMAUsCBgO9BJb75gBhBFoG+P7e/QAEZgYcCFT/IAGpAIwGpv6bABsHHgCHB/MBp/9/BVQC8QGNABIB7gPP/O0FswOcAb4ETP2W/u7/5wM9/R7/6/jHAIX8MwBh+1kByv+7+fD59Pzd/qX3kvve+UkAtPm0+m/8rP3G/DH5SPm3/+P/v/5d/OMB/gMwAI8BRwHcBLcFowMsBq8H+AjcCGgF9AcMB1YGtwJcAsYBkf1Q/yD/Of8S+6f7pvl++Uf3HfXV9gP3KfbJ9pf3f/X09hH4h/fz9qv3tfk6+1T5BPzB+iL+h/0F/gX+zv0s/tX8q/1f/o/+ov2x/BP97P84/Vj9//9SAL3/WP4UAMICCQF0ANQDGwSyAhUDiga6BTgGyAI2CKoGBAbVCIgFhwUhBfkImQezA3EGdAbQBh0FFAX2A+MCLQUVA74BdgaYA+gBagEHA/EEngJe/o3/mATOBeT9VfzBBCcERP+Y+mUBzQM5AFj+PwEWBS3/oQAz/zsCwfrU/UEA1f++/yj6XwAT/5772/ZL/s/87vef+CP4KQAs+zn3R/qtAL79WfZA+P0BX/5f+nH58AEh/yj//vsIAaAEZvpEABIAYAEhAZn/LQKC/4oB6AWvAm8B+QEEBswEnf7pBJwDrwbPBcMBbAUKBAkG4weJABUD/wV6ATMFpgNlA5IFiwFeAP8A8v+R/9UB7QD9AcP8vAGH/l8EmfxI/5ABF/6e/pn8PAbi+xD+CAJwAI79Hv13ABX9ffzI/Pr/Z/oF/tP8Tf5+/Qj5m/1N+7X+kvkF/wL+EP8F/k77KgKY/8P/KvunA0gBJf9//j8BHgQ+AYz/Af6dAiQCPP4r/08C2wEh/5D9z/9jAnL8of5O/xYBRv2s+w4AGALa/ub6BP68/+X+jvzI/U3/TAAy/uD92wGJAYf8lP+3Avv/oQCt/lECugFa/8T/PgD9/6P/m/7Z/akABv9+/d/9qv1WAAL9sv71/hb/Jf8m/OIAdABc/u/+SQGZAa//oP6EAYACfPxXAov9bwFQAYb9AgBS/zL/Uv2R/T38XP/y/XT9yP3A/7T+sf2X/8D8D/9WAIP/gv5aAqEBcQDIAGcDFgBqATcBAwJ+AvgCwAMPAxECVAMcAx4DvQKuAiUC7wP6A6cBTQNkA+oDJAMpA18CawIrAmcCcALuAmACugRAA8YB4QMdBKUB0ACRAboDnP+GADMB2v8pAPz/Q/9QAEL+6P/8/gb+PP5F/fH93fw0/+r+0vyn/h3/Kf5q/vj94/7w/cD8IP6E/x3+1/4Y/ar+wf8J/iD99f4Z/2v+agDv/24AegH0/pwCBQF7Ab3/fwHjAz4AVAJyAxcDTAEkAy4DHQHAAUIBUwHHATICXgCxArT/DwII/wAAOQJJ/6UA0v0uAq7/z//4/94AwP7G/xwAXP/jAFb/gv8DAFX/zv4SARb+M/7b/oz/LwGf/SUA8/5vAJ79CP/P/h4AaP+i/3P9KQAN/73/YP90AML/VP+O/4AB1f+W/m7/hACj/4MBRP/iAF4CZwDn/7wAbAJJ/6X/rwB2AIIA4v8nAecAswHGAGv/5wDn/0//0/79/y7/PAB0/gv/g/+G/kn+oP1q/lz94v5O/vT9u/4D/6n/9vzv/9v/kf8e/vb/nf9I/8oASv5FADD/GgFD/3b/m/9F/yEAI/4z/8b91f65/VX+c/1w/ej8OP04/eH8bv1g/X794Pyr/Yj9ov2H/oz9Hf7D/cH+FP9c/+z+KP9k/5H/lf8oAP7/NgB0/77/cv9r//L/CwCuABAAqAB5AEEB/QDlACkBrgHNAeYB2QLIArMCAAOBAyMDGgM0AvoCjQO4A6MCBwMLBCQDGwLaArUC5AHhAVwCWQLYAWEBmwHIAWABDwFvAXIBcACRAMYAygCfACkAWgDKAPgAKgBMAGEAhwB0/3T/Lv+W/33/1/4N/zr/t/6H/oH+k/5h/dz9XP4Y/sX9pf4I/mT+Gv4+/mj++P1A/sz+g/6b/s3+MQAT/zD/Yv+a/2z/hP87/ykALQGwALkAmQC9AK4ASQBlASoBDQFtAeABBAICAjYCRgIwAgACuQFUAu0BKgJYAr8BwQFhAhMCrwGJAagBJwFJAfEAlADgAEAAWABHAD4AYgBdAFYAjgBFANL/4v87/4n/Tf/4/oX/ZP/p/if/df8z/8L+Mf/v/pL+Ff+2/pD+D/99/h3/wf4J/07/y/7+/uD+Gv8N/3H/T/9g/+j/rv+4/7L/3v8VAJD/yv9FAIMAJQAyAJEADQDZ/+P/qv9L/1z/R//0/u/+3/7g/qH+Uv5W/h/+4v2h/XH9ef26/Zn9mP2X/Yf94P0R/r79ev2v/eH9yP3x/Un+gf5W/kz+gf7t/sT+1f4W/x7/N/9f/4P/xv8HAEEAcACEAMMA4AADASQBPwFlAZcB5wEPAggCVQJwAmACWAJoAqMCjgKyAtsC4QKoAt8CrgKaAqUCggKFApUCmQJfAjgCAgLXAeQB6QEXAsABnAF9AS8BKAH8APIA3gDUAKYAaABAABEAFAAUAOr/uP+w/5j/jf+s/6z/W/91/1L/r/+W/xz/1P7h/oX+mf7m/jj+Wf4I/iP+3/0B/lX9Pf3W/Dv81Pvi+9f7xPuY+8v7kfs+/ID9h/5R/2r+qvwY+/z6A/0D/WP8afzX/VD/dP/x/4f/0v8D/xD/nP/u/5oBJgGRASsC5wPxBYMGpwbYBeMECgTBBJQEqgO1A9kDAwRzBPcEkwRSBGUDgAN6A7AD2QMtAw8DVQKjAv0BLgGkAKD/Qv8n/4X/QAAdAFYASQBhADkA0f8kAHr/C/+Y/x4AswDXAYMCCwODA0AEvgRQBEwERQQABCAErgToBKkEZwTpA3wDpwJNAef/lf5O/Sf8nvsp+1T6Vfnp+GD4W/cc9gr19/N781LzavPG8/7z8vO98zX0lfSs9OL0IfVW9Sz2L/do+ID5DPqb+in7EPwK/eX9Ov6b/jX/HgAsAUgCTAMTBIAEBAVuBdwFPwZSBpQG4gZeBwcImAjkCOUI2Ah5CCoI3QfAB7sHcQcvBz4HFAcFB6sGPQa7BUQFgAQvBPwDbgPRAokCQQIkAu4BiAELAZYALwCH/1b/Jf/o/rn+d/6Q/n/+Uv6Q/SP9bfyL/Cn90P7RAMoBHgG1//3/4P9A/6D+q/7O/g//zv84AN8A5/+b/ij+2v3H/dz8t/xY/MP86vzP/Gn9ZPxl+yP6rfpC+lr6PPo1+pP6UPqR+lL73PrW+Rz5tPlR+kz7qfxm/Ab90P1b/xv/sf4E/wkAewCBAVcDPgRKBbkFGwZ7BkEHlQYvBsUFLAWABQcHVAg6CakJXAlXCSgJ6QjzB0gHiAcnB8MHPwjwCCsJhwnwCo0NWBDYEZgSphJuEnQRghAyEBEPFQ1GC6cKbwqCCVwHjASYACX8Qfjs9PPxdO7z6jXoD+a95FLjlOGe37jdP9zu2z7cw9yQ3ZreQOC84rfluOhj65jt/u+d8sP1Svk8/Jb+jQALA+cFyQgJC6kM4Q2NDlYPbxBXEWIRsRDTD0UP/A6VDi8ORA21C2kKhwmMCH4HxwX/Ax0C6gBRACYA0/9R/9X+q/57/gj/cf9h/y3/BP+j/wQBPAIcA/cD0gRHBREG5gZuB7oH6QZEBgQGuwXEBRQFjwTaAyoDvwI2ApABLAAa/pH8uft4+1n7r/uT+1b72vps+uX64frP+vX7ov4MAhkFOQdJCJAIEwgNByEGUQWWA+ABNwE2AS4B0QD5/3D+zPvw+MT2qvR68qXw7+8u8D3wn++67rPtauxn6/LrYOxu7TfvlfFm9br32Pmu+//8g/7G/wwC0QVKCZsM7xCiE08UuRO6EmUR4g8JDrgNtg7kDoYQNRJLE6YSHxCADuYMBgvXCSEKKwqvCSELqA8tGCAgCSWlJ8UoGymlKOslGiLDHX8ZVhcSF+cXwRbpEL0IDP/C9erswOOZ2wHUpc3GyrPKW8qVyOHEwMASvtS8q72qwOzEksnNz/bYRuMf7FHy3Pb7+sT+BQRoChgQ8RQ/GPobxh+WIU8hcB7DGTkUjg/dDBcK2wYwA4f/tPzU+Zz2FPMc70/quefY56rpTezp7tnxq/Vy+Xj9oAFgBI0GpQhFDMUQ6BWiGpMdrh89IHsgaSAOH8Yc1BjXFKERCQ8MDecJsAaHAuf9FPob9prys+7N6hnon+bD5+PpfOs47WTuFO+g8ETzyvYj+jD9YwHMBrkMGRIyFgoZhBoDG0kbFhxKHCQbFxmIFjEUzRFZDkMJoAIw+wf0Fu5z6Z3lSOII4Mnerd4z3/Lfh+DQ4KXhCuNT5Uvo5evN71jzcPfd+/L/2AItBLwELAahCFwLNQ7ADw8ROBJrEmMSNhEvDyYNxArpCIcHfAYIBQ4DrQGfAJz/nv+FAHkC1gNNBXoI9grbDVQQ0xNOGeQgsC4SQDROtlHqSq9CFj3TOKYwtCUMHXUWMREoDMQIRAT79xTl9dGKxFe857RIruKn5aPspcmsbLQ6uUm7IbzbvLzA58mU1hbik+uN9XcBaw4iGgcj4yacJYUihyANIQoiACKhHy8bZRbrEY0NPQd6/iT0iOl84e7c99vm3DbdOt3s3RbgyOOf593qwe208AH1z/vDBDQPuRgwII4llykCLTYvOTCQL7ktAStLKO0m3iWFJKcgdRrHE2wMXAXQ/cj2qfBm6hLl2uHj4G7gst+F34vfc9834KLiOObn6aftIvKE94L9XQSYC/wRtxfqHO0hKibJKFMqpipKKbcmRyNwHxQbIBb2EG0LvgXu/+f5pPMY7YjmTuDi2l7WQ9Ps0abSzdSk1wnbSN6C4aXk1ucR6+/tFfHy9E/5P/4fBEIKww96E6QV4xamFx4YnBdhFqEUOxMmEq4R1RHIEWQQGA0ACR4F6gEz/8r83/op+nP6uPsI/nIArQJPA/8BAgDN/g7/5///ABcDOgjOEW8ewCpkMyI3lzY6MyAulChzI5ke8BkSFQ4SnxFfEuIRIQ2DBYv7efCb5YDbGtOUyy3FMMFJwK3CTsZqyeDKAcviyrXKWsv6zLfPdtM12PnekOeZ8cn70QS8CxUQ+xL4FD4WsBZcFo4VmhQ8FKQUmhVSFv8VMBQuEVcNDAmxBFoAdvzi+Nf1+POl8630Lvag99r44PnM+r/74/wf/on/GwG1Ao4EywYLCd8K5QtwDJ4MpwyQDGMMbgw1DJcLvQqMCVUICwe3BVQE2QJ7AVYAh/8D/8L+kf5z/iz+Lv5e/pP++v4u/2v/dP+X/wIAcAAAAWkBygHuAe8BCwIiAgoCwgFtAQABeQD9/5f/I/+P/vP9pf2p/Z39nv1s/U79Vf0//Ub9Lv1f/bP9HP7B/kP/wv8jAJcAMgGhAfIBKgJQAlgCZAJ1Am8COALWAWABtwACAHz/HP+T/uH9Rv3b/Gv8Cvzg+7n7k/t2+8X7RvzH/Hf9SP4J/6v/TwAmAekBpQJ9A1oEHAW/BUYGvgYiB2YHfgd+B2cHLgfIBlUG6QWGBQkFbwTiA3YDJAPhAqYCjQJ7AlICHgL4AfEB2wG7AbQB0QHwAR0CdQLZAj0DfAOTA4QDOgMFA9gCjQIkAokB8gBIAHT/pP61/aX8bPsT+tb40vfe9uT18PQG9BPzTvKy8Sjxq/Ak8Mfvnu+Y79nvS/DZ8Gfx/fG18pXzdPRL9Sz2A/fN95r4fflx+mr7WvxG/UP+Xf99AJYBlAJ6A0YE7gSVBU8GDwe7B0cIyQhLCccJUArQCgoLGQsgCzULRgs8CzELLAsQC+AKmwpPCucJagnqCEYIlgf1BmAGxgUfBXcEuwP+Ah4CRAGGAL3/9/4b/lP9oPz7+2374/po+uj5evkZ+df4vfis+LD4vvjr+Cb5bPm/+Qv6UPqg+hb7m/sY/H/83fxB/Zn94P30/e395/3e/dn9uf20/bX9wP2//cj94v34/SL+Tf5+/tD+Q/+9/0UA0ABlARoCqwI3A+MDlgQ3BZgF7gVUBswGGAdFB4sH0gfhB54HSQf6BqIGJwaoBS4FqgQWBHMD0AIrAosB/QB7AP7/kf89/wL/xv6P/ln+Rf5V/mr+df6R/rD+A/9q/9//WwC0AAgBSAGEAbwB2wHyAegB2wHIAcABsAGAATkB5wCaAE0AAACv/0//+/68/nv+L/7r/cn90v3H/ef9Of6f/g7/Yv/c/0AAlQDbABsBdQGsAeIBCQI2AmgCfAJlAjAC+AGuAS0BowAtAMb/Sf/N/m/+JP7B/Wz9F/3S/JL8X/xZ/EP8T/xb/Hr8nfy9/BD9Yf2v/cj95v3//Rz+Nv5Z/mb+Vf5Z/mH+Tv4p/vf9vf1t/R795PzM/MD8rfya/H/8afxx/I38o/yj/JH8qPzQ/Az9Y/3R/Vz+zf5N/7//NwCgAPwAUgGqAQUCYwLFAi4DmAPpAxMENgQ4BCoE+gO+A4QDVgNDAyUD+gK8AnwCNgLqAZABJAG4AFkAEADL/63/lv99/1z/Sf80/yr/Hv8H//H+9P73/gv/Lf9U/3j/if+N/4z/j/+S/4P/bv9T/1L/Xv9t/3f/gf+N/5v/mP+Y/6P/uf/R/+7/AAAkAEYAZwB5AIEAigCXAKMAuADcAP8AEwEdASYBJAH7AOIAtQCJAGwATQApADcAMwAcABAA8P/I/6L/Zf9D/yH/Bf/1/vj+Ff8w/0b/ZP90/3//j/+b/6P/v//x/zsAfwDBAA4BVAGMAawBuQHAAbsBxAG4Aa8BoAGTAYoBZAE8AQ8BzwCIADYA7P+l/2//Sv80/yf/Ff8G/wf/Cf8O/wz/C/8X/0H/hv/P/xwAbwC+AAIBMAFTAWYBeQGMAZwBlAGTAYsBggF9AXIBQgEQAdEAtACMAEsAJADp/8L/jP9g/0//M/8b/9z+sf6P/ob+av5d/m/+e/6S/p7+sP7a/vP++f4O/zL/Tf90/5v/z/8MADoAZwCcAMYA8gAUASwBMAEzATYBMwEtASoBIQEsASUBHAEJAfoA6gDRAMMApgCFAH8AYwBHADEAIwAIAOL/uf+e/4n/dP9Z/zz/Gf/5/tL+vv6d/ov+ff5f/jr+Iv4f/ib+Jv4p/iD+K/44/j3+QP4//lf+df6C/qX+uP7J/tD+5P7+/hv/Jf8z/z//P/9H/0//XP9m/3P/eP9+/4n/iP+H/4P/jP+A/43/jP+h/6//wf/Y//D/AgASABkAIQAcACMAKQA5AE4AbQCJAMAA7gAXATcBOQE7AUcBYAFyAXUBkwGxAcoB0wHQAcIBtgGjAYABVAE1ASQBHAH+AOgA1wC/AKIAfwBeADEA/P/J/6f/h/9+/5v/k/+U/6r/o/+w/7z/sf+3/73/t//I/9r/6P/2////CAD9////+//1/9n/w/+4/7//0//8/wUAAgDu/9//zP/T/+b/5v/0/wAAJAAoAEAAWgB2AHkAaACYAIIAigCNAIwAegB8AHkAdwCCAIQAYQBfAF0AXQBkAGIAZQB1AHgAfABpAIIAjACSAIYAYgBgAFkAXQB1AGgAXAB7AHUAeACfAKwAnwB+AHUASgACAOf/w/+t/4n/Zv9a/y//E//+/un+zv7P/uP+1P7Z/t7+7P77/hD/D/8w/yL/Tv9q/4f/kf+r/7X/zv/5/x4AKgA9AG0AdgB0AIMAcwBoAHkAWQBCACwAHQAnAP7/7//C/4z/Sf8O/9r+nv6B/mz+Sv5E/kz+Uv4w/iD+SP5c/l/+dP5p/qr+4/7p/hP/Vf9O/57/x/8PACwAegDLAO4ABwE8AVsBmwG/AcAB4gHmAasBmgGwAbEBuQGCAXoBXgEoARwB5AAJAfAA2wD0APIAugCAAIAAaAAuAA8AzP/4/5j/nP+S/3v/WP8t/yL/Jf8R/wn/KP8l/wr/1v7s/s3+if6b/s/+y/6p/o/+Z/57/n7+e/6Z/h7/W/9v/5r/sf+q/8b/2P8tAGwAgwCpANEArQDpAAwB9ADNAA0BCgFHATcBQQFnAXQBkwGAAcgB3QHIAewB3QGUARUB9QDwAPUA8QAQAWIBZAF5AVkB0ADKANsAnQCDAH4AhwB1ABUA2f/t/wIACwDc/1j///7//gj/5f4S/zP/Mv8l/yr/Tf9o/2r/xP+6/8X/2//P/zEAlgCdAOIA5QCkAOQA6wDHALsAzgAPAdwAfgBlABQA5v9mAC4Akf+S/2r/yv91/57/X/8m//P+kP5m/pL+eP7M/ob+Cv7f/lD/+f5p/Rb97P7nA4gG1/9M/Cn7SP7z/3/+df5z/1oAcv8qAEYBXf/Q/pH/xf8f/+L/1v9LALQA6wAhAQwB+v82/8n+Cv+B/2gAYAFCAIUAJP/u/2AA8P1r/pL+Uf6p/ub/4v8s/2T+7v2Q/TT9uPzL/Ff9BP7B/s7+6/5U/u/87/uH+0j7IPrc+mYAfQjdC/gFffx99pb5e/rE+ir7Nf2l/13/AQEAASsDfwH+Af0AmwB9AkIDrgOVAQYC+QWtC30WGhlWD6kC7PfT8Kvs4O037fLyZPWv9XH2Q/Xy9vz3Dfk99xn3ZvdJ+H74HvjM+en2pfa9+RP+cwEeBbsJDws4DS8PqBDyEU4RcA52C2oKPwqwCnYKcQtjC/QL8Qx8DSoNVwzbC/wK1wj9BqgEegIqALn9JPwQ/Of84f4jAnkEvQT6A1QCJgG/AEP/bf3C+4b5i/g6+HD5KvpL+gD7o/vt/Ev+Nf/p/uX9kfzo+o35Wfn5+X36l/uE/Yj/AAHTAqUDNgNEA88CygEqAa0A5/8eAGkA5wDRAVMDcgRnBBcD8wGrAbUCogR1BbcEfwRsBWIGqgaPBfYE/QM0BGQECwUIBs8GXQfNBjAGpAV8BZkEtQIAAKX9Vvuq+dj3dvY79qz23vex+Pb4mfgI+Kj29vMU8DPtfutk68rry+zn7tnxXfRz9UX1p/RJ84jy3PKY9Gf2mff/+HD62/uX/X7/sADvAMv/lP/6/1MA/wDTAQUCJQLBAhoDwAKoAdUAIgFXAnwDuAO6A/8DPAT0A30CWwEUAsYDKwX7Ba8FuwQNBYEFyQQBA+0BpAHpAY8CuANyB5EM+RNzHAsmEC/cN3A+1D5JPLk3cTKFK2wj7xvfE+ENLQkyBokDFwEuALT91Ple8x7tNucv4ZTaFdR00dHSVtcm3SHiw+VA6NLqL+0170zxc/P09Kr2Z/mA/Pb/DgPhBIQEogI3AHP+ov3T/C38W/sT+YH3mPfO+c78nP/5AbUCQgKK/877QPZq7iLnHOIb4CnheuY87nz1D/oe/H/8mvxB+w35IfYi8qbuVuxY7E/t+vAx9LL1fvXT8mPxp+8k7prspexO7tzwnvSG9xf6bPwu/UD9QPyF+Jr1m/NF8gP0qfglAHMJ3RLRGo8gNCeDLE8vVS/hKpklzyDzHGodJCU9NgpPmmVAcSVz4nCZahZelkuINZkggg/uAoj87Puc/wkCcACp92vpat1+0gDJl74gtaGwHrOEvlbNud687I/1h/rD+Zj3EfWb9d32Vfhe+/MAzgrmFScedyH9H1sZqA48ApL1SOoD4uDc5dlL2tDdOuOa6VHsAuzQ6Gbl7uL94/rodvLvAAUQuB0uJ8Ysty2uK0ol/xsIEosI7gFz/sb+qf+sAMUAePzv9T7tGuS73BLWtNGa0FLSHNae2wvhR+Qc5RfiUN6h28vb4Nw73kLiouZv7XH0z/nc/UT+yvyH+R32ofQm9pD5w/2oAj8I/g+qGIIfOSJvIWwd5xmoF1UXPxoVHqAjByuoN15KZl8rb5xvcmLtTxVASjU3LM8kYB8cGx4W3hKhEZQOZQVs9J7fWcsSvga7sL9Cx43MZ9E62MbgD+m/7njvYutR5szkk+gz8mL+pglhEm8WExj+GOwXyBP2C+0BPvfn73Hu9vAI9Xn3yPcU9obzO/Gg7wzuQOoi58PmA+oy8w0BNA84GKsZGxftE0IRzQ0bCcgEnwC//jYA/wIiBzAIlAQW/nn1J+4F6HfkGuNo4B/f5d3k3o/hE+O543rgydxR2jnZJdpj2xrem9/L4JfjZOeK6zHuA/B/8VjxO/ER88P2p/vhAPkHAw4HEyEYYRyVIEgh4SFcIs0itSXkKWgwsjgNSHlcuWqAbNRixFYLTNFBLzjhLzsoHCH5HAYcOxuaFZ4KYfqd5xXXB8zTyLHI1sjuxwXJp81j0y7ZY9tw2VvVTdNF1p3dpucb8cH5GAGRBzcOoROkFcQTEA81ClEIYwkNDWsQCRKyEQEQDQ5UC0gIbwOx/d73nvQ89br3zfrJ/CT9mPsJ+vv4Jfg59q/y3O9P7xrxxvOh9jX4A/iq9jv1HvVh9bn0+fNr81z0c/YO+VD7ePzF+7j5A/i/9uv1o/Ve9Wj0YPM8823y9PFO8SDwLPBS8MLx8/MC9oj3g/jl+iL99wARBa4HZAnsCccKDwy/DYMPkxBNEZkRThJ8E00UWhWRFgsYvxgKGN0VmRN8EWUPHA2GCi4JlQjTCLEIDAg0B/EFhgTJAzIDGwOJA/sDAAXOBTAGQgYqBtQF3QR7BMcEwQRQBKoDiANmA40CsAF9ARkB7f+B/qL9X/1N/Mz7ivso+1v6K/k1+FT35fYC9m/1TPXX9Iv0WvRE9C30xPPU81n0pPQD9ZL1I/Z296r40fmS+9j8z/2i/o7/JQCLAC4BoQEnAvMCmAM6BHUEtgTRBGYEIATTA7QDKwNdAh4CAwJPAc0AUQBU/0H+q/2F/U39Of3+/L38uvy5/I/8qPxr/M77IfuB+vT5afmw+BP4jPcJ94z2CvZb9V/0YvOI8tbxLPGb8JXwsvDR8C/xPfGo8VjyOvOK9AT2wvem+XT7gf3H/yYCzgSABwUKggy2DrUQWhLNE2MVyBYkGEkZQBroGlIbpButG5UbDhuUGrgZvhilF3gWUBXeE04SfxCxDswMFAs7CYEH8wVmBMkCSgHe/2L+HP27+1f6CfmP94H2wPXQ9Gn0afQB9IjzTvMs88vykvKS8rLyy/IN83PzFfSu9Ab1fvXs9Vb2+faM9zP47/iR+Vr6PPv2+7b8cP0S/nD+7P5h/+T/dgAuAY0B0gHnAQICKgISAv4BkwEwAYkAIwDN/1H/Vf9Q/1X/Sf8v/yP///7g/u3+wv6k/pH+l/5j/i3+Jf4P/qr9D/2q/Ev8ufsv+6/6Hvp4+d34efgX+LL3Y/dN9z/3Qvd799n3Y/gT+dT5ePoh++n72fzU/QD/KQBDAZcC7wM0BS4G5wZ7B9QHFwhTCLcI9QgRCRIJFQk7CVMJEgnYCJEIKQjPB3AHLAfbBroG4AbDBoAGegaqBssG0QasBnYGaAZoBn8GqAaeBl8GCgbXBbkFsQWhBU4F7QR1BAwE+QPlA8ADhgMdA7ACOALfAaABOgHSADkAuv8V/6z+Wv76/Xj91vxA/Nn7bfvw+mX68vmL+Rv5sfh8+H/4lfiT+Gv4QPhj+I34qPiX+KP4q/jK+B75kfkk+p76APuN+wr8h/z//D/9W/2O/cL99f0H/hD+Gf4T/hn+CP4P/vj94f20/Ur97vzS/Mz8CP1e/an9+f0Y/jX+dP52/lv+Y/5G/lb+u/53/ysA0wBXAaQBvAGZAWsBTQETAbcAdgBWAI0ADQGaAQACAQLqAcEBugGGAUMBAQHbAPMAEQFZAbIB4QEhAmECkwK/AiYDfwPsA0UEUwRtBJIE7wQoBVgFlgXEBc4FqgXsBRcG4AWQBYMFHAVbBBIEDASTAw4DuAJdAuABwQGjAV0BGgHgAJEAQQAdAPX/xv/L/8L/vf+k/7v/7/8KACwAFQDI/9H/f/9S/0L/Rv83/xD/wf5q/g3+uv09/b38Rvwe/Cv8J/wm/CH8APy4+4H7gfuO+5/7r/vT+9H7CPx8/NX88PwA/fP82/zV/Pv8KP1w/b396/3k/Qr+Rv5F/if+KP4s/if+Iv57/u3+PP92/6z/9f8rAGgAiwCxAN8A8gAOASQBVgFmAV8BNQE1AQEBCwEmAToBKgEAAdEAwwCeADQA5f+j/3X/S/9Q/3L/gv+5/9v//P8IACcANgBGAI8ArQAXAVcBegHPAdYB8AHbAdYBxwFNAWEBrAFZAUEBpgHBAb0BogG9AccBDQLUAdcB7gH+AUECMQI8AogC5QL3AuoCKgMgA8gCRAIxAoYCZALVAdYB1AHYAa4BLQGvAGEAYQDu/5v/gP+V/83/wP+c/3H/N/8Y/+v+xv6l/nP+M/4H/tP9zv2x/ZP9nv1t/Wz9Vf0d/TL9H/3P/OD8/vzi/Af9F/0t/Vb9av10/fX9Wv49/nb+zP4D/yH/P/89/1H/sv8yAF8AlABuAEkAUAAzAOH/sf+u/9v/nP+0/w8AVAAkAOP/8v/w/5n/iP+W//r/3v8LAM//kf+I/3D/Pv+l/3n/if/a/8X/cv+O/wkAGwCl/8P/t/8aAHAAgADEABIBuQDlAG8BmgFjAW8BigGJAbMBCgICAhACJwIIAv8BBQL2AcYBlQEvARcBdwGpAbgBegF9AasBVQEsAXMB6wCVALMAtQC6AO8ADwHHAAAAtP///zsAVAA/APf/zf/X/1gAfwD+ABcBGgELAbYA3wBBAVMB3ACPAJwAmwCoALEAJQDJ/yL/n/6J/n7+c/5X/iH+Jv68/aH9uv3w/f/96/3K/YT9nf12/Yv90/0V/hT+L/6M/q7+if6W/qr+ef5D/lj+xv4V/1z/rv+9/77/Uf8V/yT/Lv8t/0b/fP/5/4AAggBWAJcA4ADDAKcA+QCbAWkBxABwAYMCGQKFAI8DAQiWBRH9dfzPBs8IAv1O+XEHJA6WAaX6ZALtB4H79/gzBaAGE/8q/n4G7QGv9oP7KwIIAWv72fx4/aL8zf3t/n/9Vvs///wBQf6V/Jf/tQHU/gP+ewGgAqoApgI5BOAF7APxAJv+o/vu+LT5qwDSA/8CJAFrBOkCggCfAKMAVAHL/9oBUwF0AVABq/9y/of+WgWHA9YAAQAmBdQA4ffi+6YE2ARx/+b/JQJaAK75jv6A/SP8nv8T/4L+4gEV+/T5W/qD/uYCs/1yBIACtf9f+SX+ugBAA+P4bPg5/Tb9C/9HBgEIdf5M/j4HWQCX/BL6V/t0/C76xQFjA/cCiQFkATwJywb7/+oA9QT+DlYAjvxGA5EG4vuf9jb/gQAw/8L4QvcX9TbznPKl+Uz/PQBk+nL5Rf0T/+36FfgnADECdQCnAQMFzAbzAw4EuwVDBgwCfAIzBowB0AW0ASkHQgWO/aYCDwaTB8ICIwNHAq8DIf+w/Lj8HAFG/k/9eQK3BugFegCX/4sAHv8mAr4ETAbjA4H9UwDr/5ACjABk/OD8qP23/bf8UP/0/2f8X/ke/rj9fP3m/FD7rfrJ+FD8YftE+5P64fmr+8P6W/2W+h79t/wW/hL5qfymAFkBh/7L/0QDWASpA1gEIwMMADkA2QPmA4YC3v5XAmYAqgO+/5f9o/74AgYCzgGI/60AsgFf/Mf8vvywAOT/1/3x/E0BLv8L/TD81v0dAWb/Ov4DAlIBY/wJ/K/+rgAb/3P+pAFwACUA1f5x/Ar7uf0t/bwALQfqBdH+7/o9/+oCAADh/bcCDwQbBLMB8gGh/0D+xvyO/7cCvgPIA2f/p/6KAJcDgAEjBGUEMgP0AuD9yv+jAU4B1QA/AbsD/AWKAuj+yPvZ/UMA3gIZCccJlAhoBvcEgAKKAk8DYAY/C8cMNg5DDUoKlQbNBqoJyw3wEg0WuBYCEgoOagw0C/EKKQkvCdUJawj1BNj+PfhV9PfxgPOW96X3xPNB60HldOT95Vzn7+f65yjooOd95uPlkuPr4Qzi4eVT7OfvE/HL7cXrF+yj7p7zm/X394P4y/gB+Cz3GvjD+PH3n/kV/vQAagF8/p384fib+A7+9wIwBUUFkAQXBWcHDQf2Ay8EvwhEDVoQVxCeD6oLnwnaCnwOCxGwDiIO1A0hERkRPQ9eDRIM+AvFC74OohC8D10LfgmPDFUSkhWvFKMVoxfHIbwsuDVgNWQrLSLVH9UkICyJL4kr0iQmHgoYVRLTDTYFLfpU8o3x2/Js8B/pS9560wjOE8/P0T/TKNLkz2fP2tL61wPaTtmV2q3fwOdv8Cj3f/lu9uTzdfYs/MwBrQGG/yf+jP7j/Tb8evgv9S3yafEB8jfySfGo7IHnm+Q05drmsuhJ6ZbpfOuq7e7va/FG8xj0vffz/B0CMwVuBYkFgQRzBssI8wr9CjgJywUlBSwGSwjRC78KLwkxB/IGhAhDCMsHUgaaBHIDOwVlB7gHtQiICXEJjQt6EMQXbiEILYg5Rz22ODUzwjIdN1w+AkX8SEVIJEKLOlAz1StfI24blBfNFDQRvQr//oXvVeBj1mDSaNPu1I3Th81WxQW/I73+vsDFc8461W3aKt6n4VziZONI52HwifxhCNUPqQ1RBTX83vaE9XP4lf0RALL84vR17H3j793y20vdQ9+P4SDjAeNZ4QfgMeBW4/LpX/LN+Vn+8f/OAD0A8gFYBwgPnxTlFUcUkRDxDT4MGA0QDmkO1g8fEFAPUw5TDE8JwQRZAwYGhAo5DOkLigloBigGSAoyEDYWFhsfH/gk/S2aO65HW0viROo8ETmxO0tBIURQQqk6QTDwJFYbFhOiCfL+OfSd7OTpKeUo26bMTcBnumq7DsF9x3nKIsenwp3C0Mg21FrfIOcN64Dti/HI9g/7f/6xAlcGGgtrDkANWQZg/Oj1AfQG9Nv0JvSj71bof+I23wLePt4Q4OfibuVT5+rp0uqK6uTqSO6Q9ID7aQDfAS8BbQDzATUEmQedCbUJewiWBo0H+gg8CT4HBAUoBZkHQwv/CzcLcwkFCDQJ9As8D90RbhBVD7AQkxWNHJ0nyTesR+lSdFHPSgJGJ0a+SWtK4kmAR5NBnza3KhgfDBKBBMr4xfCH667lddzQzg7B7bgkt6G54L3vwLDAtL66vzfGNdBy2gjkrurv7yb2FP3dA0sI7Qv4ECcWZRsrHDAW2AtdARb6c/a59T/07e9C52reHdh51DzTwdP/1IDY5dzf4N/i8ePL5WTp8O+f9oH9SAH4ASUCKAKrA7MFywYzB6oHVwiAB94FkgIoALn+r//CApgFNgdNCGAJWgobCtwKPAu7C+YNMBLHF8ockSblORxUFGd2aTxed053RpFHc0/FVuhVxEumOSYmSxVVCZn+pfJU5zXfjNum1k3MVrwaroWoxa39usjJYNNk06XN88p80DreJO5d+wIC6wSpB8wKMQ3vDHkKDQgsCLwLBw8zDXQEx/Z/6gPkQOO75QrnI+Vm4AbbVddT1t/WDtmj3ZPjv+k/70Tyc/PW89X1r/pNAsEIJAzQC3wHhgLY/2v/nwCfAW0CtQEK//D8jPt/+3T7SvxH/9ECEgh1C68MVQovCFcImQthFM4gujJlSmditm2tYxdPwUB2P3lFkU3XU5NQRUC1KFYUBga5+UXuS+Qy39TeFN4Q1xbIsbcWrsyw4L951Rrm3OmL5GLd0N3S5lj1YAMFDBEQ4RFEEloPMQnxAZP8/Pum/4ED2QG2+O7r9OCi27bbct6O4d7i9+JU4m3hyN9e3rPfteQ77TP2rPuo/Ib6kPkH/CwCpwh3DXoOAwwVCI4Db/5D+ln3nvbk91r4hvbz8vXumOxV7Wjxwva//IP/RwK/BYkIBA3dEfAY+SZdPuFagW5UbIdYiEQhPUtCMEsJUIhOy0HbLH0Y0wrr/wjxPeOH3Ondk+FX39PVP8ZpuFW2jsIv2fbtL/hi9sfvEuw976/3AQFPCBgNFRFGE4QRPgps/471LfDP8bn3PvuR9yftSeFf2WTXIdvi4OPltOgb6vPqj+u16x7sIO448+j65wJuCLgJEAdNA0kB+AIiB8EK1guyCLABD/qm82Hvku1n7VHtQ+yN6bjm7uRj5OrlLOqT7171h/t/AZwGuQvOEMkZYSz2Rmpd22PpWnNOnEVaQp5FJkwfTbdCsTE2IdMT5Ab2+qvwYufw4XDhQ+PA4ELWKcpsxJLIk9Zn6BH2g/pr97rzyPNO+MH+sARHCPQJYAvnC94J6QPw+7P1RPMq9Wj4A/mb9GjrhOJe3dHdaOHH5bzoIerf6ofrJOz17DDufPDF9LH6xQDJBBIGwwQ7AxQD7gS6CIML2AqNBtT/xPhC9HTxG/BC7wfuJezx6ZfnBuYO5hLn/+lN71T05PnD/3kFWgsMFWoo6UFWVvhcUFaGSvNAzz7uQ8JJFUlVQC4ydCLVE5AHPv178hzp/OR55u7nsePg2abPO8rRzb7aNOvK9wn73/d881ryC/ZS/JcCXwenCq8MFg3rCpYF7f1y99D1Uvhh+936z/W97Xblt+BA4XHk+ef86Rjr6eto7Lzs9uyr7dPvnPRa+60BlgX6BQAErwGNAaUDUQdaCZcHswKC/AX3TvOZ8OfuT+386lToxeX249Lij+PE5Sbp+e7k9dv8oAITCjQWcyiDPUpQ2Vd1UBlCHzkyO/xBRUaMRSQ+bC/oHT8QMwjxAIH3L+9Z7EPtr+yC5w7e5dRE0KLUvOEp8mj9Lf5j99fwKfCP9WT9XgS/CEAKUwq0CdAHxAK0+5b2W/Zc+iX+ff4Y+Rrvl+Ui4Tfjveh47cbvjO/G7VLsE+yb7OTtVfCj9YT8zQK5BaoErgBG/XH90gFaB40JbwYX/972K/FY7sDtVO1E7LXp8OXp4k/hAuIw45HlW+t28hz6ogBdB/YPHxwaLyxGq1QoUt5EAjvkOR8+eUPtRyFF+jbbJO8XNBHICHT+Dvap8Tzw3O727DHn4tz3043TW9197HD47/t19zvwJ+1V8Pj3x/+tBMsGjgefB6wGLAM1/Yn4/Pbs+UX+ZQDg/dn1EOzC5Vjluemd7s7xmvK/8EXuJuyw68LsY+8S9Ov5kP9YAgkCQf86/DP7y/0vAhgFEAQc/2r4PvIe7tPsHu3M7OTqXugL5uDj9OJ742jmXuvb8QT6CwIBCnYS1R/ZMflDMU4LTf5E2zx4Ops99EHqQr09HzPuJZ0ZXxCyCFcAWPdb8gby3vEa7ojmIN+a2W/ZAuFd7TH33Ph59KTvoO3I76/1W/xxATcEMQVwBegDhQC4+8T3Uvfk+cX8dP00+vDz2+zq6JDp+ew58PXxNfKP8LDuk+2M7XfunPAJ9Sf6zv79AHgAwv01+/P6gP3rAHUCsgC4+8v1MPFo7ivtheye6+7p8+d85i3mseZ859Dpm+7Y9Ur+ewbnDwocfCuUPGZKrEw0Q0k4jjU+OghAj0MRQzs77SthHZkUIQ5kBpD/pvvN+Pj1+fLQ7fPkDd0y3LXi4etq9D75Ffel78bpouq97yv2i/x4AWYDPQIPAAz9A/nQ9Vf2WPmO/Hj9VPti9uzvrutg68btr/Ds8QvyD/HN7m7s7upm6yDu6PFR9v/52Pv3+vv4jfcj+OL6Z/67ABsA1/y5+DD1bfLT8CjxlvHs8Avv3e327MTrf+z+7hfz2feB/qMGwQyxE3kfpzBwP7tFakMcO3AzhDLTOBU/pj6uOZsybyhmHFwTXg4ZCBsAdfsu+6/5oPMV7Kjl3uAg4FDluOzN8ZvyXvBK7HDoQejW6wXxAva1+qD+v/9O/gP8EPks90T39vkq/aj+2/1g+y74vvR78oLxu/Ha8fPx4fE78YzvVO316zfsM+5o8YX01vaO98P2ufV89dr1qvbu9wr5jPlf+VP4dPYZ9AzyIfEC8sXzQfZb+Of4+fim+Uf7XP4rBPAKzRCOGOUkgjP4PNU9tjgYMkAsOyscMeE35zjJM0cseySzG/ITsg55CRQDMP6O/Of7wPjI8kHsAufe5IfmLese8PDxGPDr65zoIugC6WXr/+7X8ur1kvfw+Af5Wfc69Rf0xfR79nX4j/qT+yP7xflE+OX2pvWj9MT04fX09sX3EPgR+JT3IvfQ99X4jvll+sz7Vv0Z/hv+sf0l/Un8Jfzk/EH9kPx7++P6ZPrb+R/5mPjA91P2wfXT9eH1z/Va9v33xPmU+1P+OgKcBnQL/BC2FJQUVBORFEQYzxvGHvwhYyOzIVMghiJEJYYkHCFXHcEZqhYlFv0XzRe3E7EOXQu5CaEInAdiBaIAZvsr+En35PZ29QfzUe8x7Azrw+vd7NPsHexz69nr1+2d8P7yQ/QU9Qv2R/c/+HP4n/ev9bDzC/OA8+rzjPNq8gnx1u+37l3tiuuh6VzoSuhF6XvqKetf65brEuzt7Pvtve5f7w7wdvGX84f1WPf/+EP6Vvud/Hj+2P9UANsA1QHNAs8DGQUIB9gJ1g78FoYeqyIiIz8jtiX3KVswiDa9OQ85rjdYOVg8BD5OPCs3Ei92J/QjMyMxIYUblhNxC68ESwHn/4L8z/Uu7szob+XY45riE+Ch2yvXmdXp1qfYldmW2ULZcNkt20HeKeHa4pfj+OTR59rrhu8R8hjzxvIN8o/xyvHv8XXxFfF38ZzyqfNx9M306/O58mzyu/Nb9QL3z/iw+tj8Gf8rAXICyQIOA4YDaQSBBT0GAwZXBXsEXAR+BHAEtATIBN4EBQWpBVMGpwfqCWYNYRMRGv0e1SACItEjpiabKk4ukDCvL5gtwyz1LfwunC6mK5IlvR5PGfAVExPBD5QKtQTv/9T8D/tQ+YX2hvIO7p/qCukB6JzlPuL53vvc8dyx3nXgIOHM4KHfB9+13zHh6eL25Fvn++lK7T/wwPIO9CT0wvOb883zAfTM8zzzu/Ka8vXyW/N580XzofJg8uTyTvOg8wj0p/TT9dj3Cvot/L39SP4M/9r/AgHaAV8CAAOSA1IENAVOBkkHBwi2CHAJHwpzCo0KVwrlCpsM/w60Ej4XpxuEH7ki4SSmJdQmRSk3LDsuLi8MMI8vKi5fLbYsvCqIJkYhdRwMGK0T0w++C4wGCgHc/IP6wfie9tXzMvDy60Do3eUD5KDh7d4L3bvbEtsK29LaHNou2ZbY3djp2RjbmNyM3o/gMeM25kzps+sy7nXw/vEv88zzB/Q79Bj1Gvbe9vL2a/YG9hL2L/aE9m/27PWH9Ur1P/bf96r5QPum/En+LgBRAnUEGQZYB1AIBAplDJkOKhAqEQsSuxLuE0kV9BUJFpwVNhXwFPoUXhV8FYIVehXAFaoWOxgSGg0c6R0UH3Qfux8kIIggxCHHIsgi/yHbICYfhB3VG1IZ8BXMEeINMgoAB+oDewCJ/Ev4v/Tg8R3vYOyd6RHmrOJn4Pre2d2+3H3b49me2B3Yc9hd2QXaZNqh2mLbfdwV3vDfieG64tHjveXZ52bqfezz7YPvu/Du8UfzFvV09sv3JvlE+uH7AP0h/iX/FwC+AG4BlwKWAy8FFQZ7B7MIOQrnDHIPXBEeEogTNhVTFvEWDhjHGFkZNxoSGjkanRmwGM8X3RbMFVkU2hJwEfEPyQ1tC6UJ1wjiB68GowXFBPED8wKDArcCSwOBAw4EIwVQBnUHCQnuCpcLgws/DCYNog0PDnYOAQ6lDDQLOQrdCNYGYAXEA3MBLv9d/ZX7KPnA9mv0DPL/7zbusuwj6zDpTeeF5SLk6+Iq4iPiO+JC4kHiW+KO4sviXONp5JXlw+Yd6MHpz+us7TzvsfAl8qPzM/UF99D4P/qN++38cv4wAEsCIwSbBd0GzwenCK8J9Qo4DK0NnQ6rD6EQMhHHET0S7RJeE50TvxO4E18TOhMNE7MSIBJjEYwQfw91Dn0NawwlC4MJ6gerBq4FdgQ6A+kBlgBz/7P+E/4o/X38J/xP/Eb8zvuF++77mfwz/cT9Ev4+/lP+u/6Z/7AAigGsAaQB4AFSAvICywMmBOwDggNnA5EDtwPNA6wD5QINAqQBxQGUARUBMgBp/wD/6P5T/zn/nv51/SH8J/uI+hP6dflv+LH3sPbu9Tj1b/Xe9IXzN/KX8BXwD/Bk8G/we/DG8APxu/II9dD2wfam9SD21vcC+dH6rPzJ/K78Y/20/1UBTwLeAq8CYgNEBA8FIwbzBpYHsQdPCEsJGgqDCgcLQAuHC7ULugu6CxYLiwosCjcK9wnjCX0JnwieB5cGfwV0BNMDWwOwAvYBswBs/8D+9/4T/yz+Ev3I/ET9WP27/Kj76vti/E/8i/xh/dL9tfxO/HT8av1R/pL+0/53/o7+//6k/wMAxwDaAG0AbgEVAY8BtQGaAmYDoQOnA3YD1APzAywDpwOMBOIEowTUAxAEBwSgA4YDWwOaBMcEewPHASgB6QEGArQAJ/+d/gT/dv/B/nP9zPxq/LL7B/so+1v7dPrw+IP4Avl9+aD4Rfi/+Mr4VfiR9/H2+Pbl97P4ePgB+GP4vvko+2n7dvu++yv8AP3Z/XX+2f/E/67/JQGNAecCcgEPA5sIXAoIB3T68vcd/ZEHSgqR/iT7Uf7yBp0KSwJR/qD7KgI1CFUGBP+I/kH/xwNWBqkBMwGpAXACpAMmA48C4QGJAtEDLQKFACgBAwHaAaL/8P/z/7UCBQMV/1v9IvyZ/TAA1gA2AA/99vsD/9ABhwISACP+of8OAgwC7gDeAOMCkgQIA7sCXgJwA2QEzQLnAQMD1gVbBpcEZwI/AiAEawbpBVUFlQFXAJACIAXpBJsCwAJOAXADgAV6AzkCsQBa/yj+UwB/AyIDhwDg/TL/AgHN/AT7vP+TBOEBD/iB9iT9QgHS/Zn7AvdJ9yj+jf1Q+hT1P/jm+3z6F/Z58hT3DvvP++f2xfSh+O35nflq+ZT7SP2C+oj66vziATIA1/75+cr9iQbDBbUD+v2R/osCegZDBPT/0wP2A9YAA//gADAHGgdmA7D+wwA4A7kFwgK1AYoC0ATaBi4DbwB6AYEGewlLAIX/oQNiCN4B+/sg/dgCKAqgAHj8dP57AlkCcQHZAQ8BUACQANL7Jv9oACwAuwPTALEE7AFq/cf9EwIkCSAFFfnT9wX+JwdtDAz6B/sA/PD8w/6d+G3+/gDX/ef9C/rG+Z/+BAOh/n8AaP8U/hgBL/5n/KEBq/13A9YBEQDBABH8fwQQATsEyQA2/GAC9vwtAoAAPwE2AN/7A/Vr/gkKyga3/77vjvJ1AS8J+Qao/Jv5Tvfs/T0FYwIRAFEAzf+S+yP7FwDmAbkGuAE5/WL2c/qZCOIKNQIQ9GHvePsMCbwRowiu9NjuJPhaClUNtAPC9Dv5YAItB8UGjfrk/UL9/v+xAvz/2PztBmkEqvtA/T/63wx2BVAC3f+F9xIFrP55BzAM6fxO/3sAIgIiBUj/7vydAQMENgCcB4IBiftd/mX8xQTzAxYBB/8l+fP/sQAs/uD9EgDk/cr2HPo2ANsDzQHa+jj6ZPyt/lQB4f3B+qL9YgHrCBL/+vzy/Ij/aAesAtP+m/9LACkKrf5R+tz9qQRID3oCq/7d/Qn8nwl3CQQBov/f9UL+zwtxClgDpvcm+GcHjgq/BI0Cvv3t/8H7APmu/kAEQQHwADf9M/1a+hj9MwHH/MX84/xGApD7C/Qo+yv/LgLQ/pz3x/taAtIC8f089oz8nQF/A+8B9foU/OEBmQFv/Sj7c/1QAwIFBQAe+vj6u/+hBJ0GQAP6+x76avud/psFogM6BB39+f3z/A/5VACcAX0HUgTj9qz3RAMFDfwJuf7D8mH7IQniCfsFdQVfAlX6I/+a/lUGgRJcCez9ZPrn/H8JBgo8Aq38Zfhn/hMJ3QVPA8MAv/mR+zj8gANKBJX/nPx0AJf9Dv6q/FL8Lv5NAIACDQS1AHP4OPMl+9ID/gRMA0QC0v1a9Uz0KflwAbkJ/gUF/sX5TPjZABoBsf39Aq8CFwgDB2z5UvEi/HYE3QX2BTUEdPtM9oT+AAbpAEn/iv02/gAG9wPz+mX5Svhb+6sDWwaPBnkAIfr49QT4DQBrCtQK1/999VD7xgVLAS7/dPp8/dsBswN/C+YFGv9H+ab6WP52/80FkQTrAVIDawcwCNX/o/zW9sz0xQToCowMrQAp9sj0LvcuBDwTpw3z+C7qm/MdAKcPLg6t/q780vaw+CkCMQXsCBwEB/Hn8UEAew0MDc78p/IK89H7xwoDFCoKnvcb8kf52/39AIkAAAkPA7X4+vVqBr0TogTQ+IL0DvzbC5AMHf+W+934CAEwBI0JgAsOBqX9A/a5ADkGkQcY/w32VvvrA8sEjwG1/fH2+PZS97n7kA81E9QA1e7Q6tD7PBHBDUYA7f2B+sr9Kvov9SMB/wfqE7cR1vf065PmiPxjEgoXtQkr+fXvVvtK8sT6bQ2QDHERP/cp5wrulvwWBoIBGfuQ+o0DMAYBB3cC0fNm9uL2wgOLEUUS/A3i8uzlIO4uAVYYzyCID2n5wupi5qr09wj+EDcSIQvp+Gj0EfYu/aoFpwFXAFAEqwLM/+D9cfv9/D/6TfsRBNwFJwjyCmv21OpA7+z5QhD6EZkDDP4P9xnuSfJ/+7ALzBgBD4P7tu+F8fn/uwj0EHUL7/52ANv2av1nBUwHpgRr+nP9YAF5AwADZQN2+xj+uAFoCu4IavaR8LDwKv7HDtQO6RE4BPPuKems80ECHwxmBxwDQwL4/Pr8c/fV8+oAtg7jCqX/YPnI9kr6W/+cA/z9ogBkAUkGbQXEApzymfH49MkBaxSmEIz+TO7O7kv8dw6wD68CBfki9oLzyvTwCMYPFw1j/tH0zfRn/bAGlgQq+Yv80f3SApEDdwAU/b35g/4z/y0DyAQ/B0b+EfJC+HL9gwyyDWsChP/L+Ib57f61AusE3gk2Bg4AlfxC+Gv8hQdlCw0OTgxS/8j1wfOR/3sCgQlAD+ADNf3L8zr1jQDzA4cEPwOw/bD6ivla+qb+tgAJ/YP9UAWnCSEFmf2z+2/61/6a/Kn9qwiICe8KtQFm9OLxOv55CBQLzwU6/hz+uf8s/X38fP6u/jwChAhTCLsEQvye82/1wPsgB8QK4AmmBwUBT/Q47ijysf15CAUJKwhyAw74FvRk9BP4pf8UBbIF5QDS+b74d/tW/igA/f6I/zIB9wM3Ar79Pf2X/mQB5wBFArIEEwU7Ao0DHwEqAMEBPAJXBrgC/vw492H9MgflBQYFV/l6+ED9OvwyAJgDkQWBAo38//pn/LP73Pyc+qj3j/90BpkHywLi+Drz0/aZAAULgwtnBsP+i/kN+XT8MAMKBggJTAqrBjb/4vld/DUCtgUaCdQJVwyICGwCzvnv81T3cwAOBxMGZwEM/U753vZR9kv7fAIABrcDAvsO9zL3HfkL/3QFXwdIBSQDxP0i9jH2h/5xBtgJSgaoARz+iPyP+L/5RwDOCBkMgwWm/ID4Kvv0/Mn+cwLKBTMHWwJt+7j4JvtW/X//VQBGA08FUwP2+y72IPfI+ykDgAWDBeAEr/5q9+byfvV0/DwCPwQrAzL+5Pu5+9T72Pva/YIAvAS6BTMAJ/5k/qH9Zv+zAUEB9gKnA94DHAcxCCEK5waDA0cAMwLABjoJ1wnNB9sEkwPYA1ACnP/e/Gz7tfxIAMACgwEe/Zj1oPCC7/rxxfV++fb6KPjQ9Ebz+PMR+GT6APrB+Kz40vsG/sIASwEfAnMEBQPJAdQByQN7B/sJCgufC+EK3geCBcYB6AAjA2gFZgjCCHwHqgbIA2f/x/xM/O3+iwGfAsIDWwN9AE/+rvzM/acBgQWQCC0I5AUMBGIDygNCBRcHVQgLC+0KkgoADBgNQw2lDE4MJQvoCqMLWAylCx8J8QVuAzUCRQGgAvUDsQFg/8z7z/ew9t/1xvQ99HrzP/KH85zzt/AP77brA+l16J7p0enL6mTr4uqU6vDpN+p66ozpOur56o3rju3b7uzwA/Kd8Q/xN+8I76vwX/Q2+Zf86P66/rv96fwW/TT9uv/9AtwHDw1qDesM7wrmCM0I/ggHCooLwg0HEI8QoRDiDqUOIA+bDiQNfQrRCVoKpAo9C5QKvAjeB2QFHgMdAZsAWAKwBNsHCAiwBYADNwE6/7b9C/2d/5wFWAu8DigQDhGjFI0bpyRYLyU2hzi6N5Y0LjE4MBYxzzKUM7Ixii4IKjcj6honEPYD2PlC8+nuCuv05cHdINRPydy+w7cas16xMLHHsY6zm7TstWS3arhMu8HAx8jo0hPeMOnx8wT7zgCAB2UNWRREGwYiQynkLrcygTVcNkg1KTOKL+8pQyM1HF8WixGMDAEHpwDN+SHy+el+4qDcA9nk1+bYh9mj2avZzdmq2lPb79xb4OHkTOq/7+D0DPk4/SIBSwTjBqkJHwx8D74SExVyFocVFxPHD4YMiAjDBrUFCAV7BAsDBwLXAMX/ifzW99LyUu8G7hbvdvKx91b+LAT+B1QHnAb3BroJlA7/EPsUcxfOG7QhsSUJK7ktMzCHM644ZEGNSm5Q7049RYI4ZS4/KccnKifZI/EcMxPiCGr/ofVF68bga9buzJbFAcKJwdDAM765uSq0M7A4sCOzyLeZvH/AAsa5zJnVTuBu6snzOvsyAigJcRALGF0f9yT4JzIpwSjWKNUoYSjDJuoiyh2EF3oR2AuXBjYBd/rY8n3sKul46AjpduiK5qLjGuBj3t7e+OAL5J/nUuvU7uXylPcq/RMBbQPxBN8FiwiQCy4QPBOgFEkViBMVEowPZQxHCbkE+f+m+0j4K/Zs9BDz7e+s7Lfp2+cx6PfoGeq+6//t3PCo8y32LPmQ+6P9qP60/2gDSgmVET0ZUB+PJLInoSrJK0QrwyoiKPkl3iNaIe4glySYL4U9rEjkTIdJIkOROdEuHyPRFyAPIwgbA8j/tv8QAaP+v/c86wLdutADx3TBGb5Gu6u6IrxdwF7FFMtN0LjSedLT0KnRwNVa3KXkdu2j9oT/jAjBEBAX0RqtG50ZbhVVEWgOmQ0wDssOUA6HDHoKKgheBa4AN/oU88/rGOb+4uziFuUA6XHtJvEB9Wf41vuY/vr/7gBRAiMGGgzuEioZwx2XIPchSiG3HzEdIhmgEzAMEwWT/pT5Wvaz82vwOuyD6MrkKeLy36Tdg9sM2d7XOdgV2lfd8eGv5ufqQe/s8/z4mv34AZgFfAhbCykOFhK3FTEYrBpRG2IbQBrmF44V1xHlDgsMwgpVC+8LYA49D3IQvBK+FEsX3hnFHjwngzJYPd5DYEUCQz0+OjpQNOosfCbZHtsXUxAjCo8GygKV/SD0DeoD3zDUz8tiw7S8qrbwsg6z+LXDuxjCV8lfz6LTKdio3NbibunA77T1MfvOAa8JPhLCGRsfOiJWImkgLB0HGX8UFw9RCbEDgv6H+tD3I/ay9HnyI/B37fjqeumd6KzoLelL6rPsrvDj9Rv8EwMpCesNlxEXFZsYOxzOHt8fex8pHZwakxe2EwMPrAnVA1T9SPdZ8jfuqOoB5+PjmuHp35zfMeBi4VLiNeOD5FzmD+mf7L7wAfUE+Sz8DAC+A14HFwpUC/gLQwu3CvAJRwkQCJcGxwVZBJEDygKvAv8CigJBAtwBBwKWAiUErga9CV8OtRSTHRAp1DfHRwBV91tBXBxac1ZzUJRHAjzyLn0h2RSbCvYD3P5n+SnzK+t+4lHZ1tAayDC+3rMeqgOkZaJFpQ+sBbWPv/bKrNc15Tzy0f0gBoULhg4YEF8RQhMRFvYYjxtnHf8eqiBzIcYgnB2mFwgPYATA+fjvfudv4MzaC9dn1WrWE9qo38jlJuvR75/zyfb0+fX8/f8bAyYGjQmoDcYSGxlIH40kOiikKbApByhYJeQg9RmTES0IOv9b9/LwduzQ6D7mguSO45TjIuQb5YXlV+WA5Bbkn+Sy5afnyumB7ALw5vMo+Jf8BAHVBIwHRglKCswKQgrMCOUGlQQLAvb/6P5w/vn9qv3O/ef+kQAuAlEEXAZ7CDcLiQ5tEnsWxRyVJu4yqT4KR09N+lGMVFRU31DFSotB8TVeKS4d/xFCCPb/Hvi179znkOGN3A7XAtAnyBnAv7hLs2+w16/OsL6zJbk6wbrL69cM5bzxfvw6BZMMJROYGEcc/x3tHQ0d7Rs2G/ganxppGdQWPBMTD5sKiQWO/4f4sfDt6Anid9x92CXWntXP1pvZ59114xXqJvEZ+FD+RANAB6kKrA36D0wRMxJ8E44VNxhEG4YeAiJHJZgnMyiPJuAiZx10FikO3QQa++zxDOrq44nfAd0/3CndNt/q4SnlaugW667sFe2t7AvsoOuB6/Lr6+yl7lPx9/S4+e7+3gPoB7oKVwwIDdoMjgtmCVcGUwMDAdP/tf8oAHoBzAPyBmoKcQ0dES4Xox/vKOQwrTcBPqND7kfmSRxKHEiJQwg9xTSGK8Ah7Be7DjQFwvuK80ntc+jZ4nXcPNaZ0KPL28bhwli/EbwAuru51LvAv0nFs8xC1bbei+gT88z9fAeVD5oVUhq0Hc4fdiC5H9Ad4xqBFz8USRExDrwKJAejAwAAI/we+AD0aO9d6oHlfOGJ3ozctdsK3KbdwuCA5aHrRvIH+Zn/vAU+CyAQGxUMGmAePyH1IiAkEyW2Jaol4SQDI90ftRv1FvQRTwzJBb7+iPeO8ArqUOQF4JzcCNpN2MXX3dik2uncWd8T4uXkZOf36bLst+9y8gX1BviE+0r/AQOcBvgJ2gwrD9cQpxF1EVIQhA5SDAgK1gfwBVIEjAPtA3cFwAeYCq8OGhT4Gh0j7iv4M4k5Lz02QPNC8UPLQSo91zbWLuslGx1FFbsNLQWl/KP1FvBJ60zmkeG03NnWx9CGy7zHN8RWwEK9sLvcu8u9/cFtyAfQM9gW4RTr3/VcAPcJMxKKGOgcsB+tIawiCCKgHyMcUBiHFB0RGw45C8cHzAPo/3L8GPl/9bPxt+2W6ZvlceJx4EzfAd+s33jhaeSC6AHurfSj+yoCVAiQDvAU9BojICkkxCa5J1MnDiY6JHIhYh1vGPcSXg3qB78C//1A+UX0Ue8B66rn/+TD4tTgUd9Q3trdNt5531HheeOy5SzoFuto7i/yCfbP+Tn9bACRA4gGIgklC4QMKg0mDbUMDwwoCxYK5gidB08GdAW8BRAHpQhMCvMMmxFiGHMg2iiJMMA2wjsOQI5DE0X/Q5JA9zolM+8pyiBhGAUQzQZ+/dT1/u9f6ynnC+O53uDZFtUI0X7Nu8mFxb7BBb9vvUu9NL85w+LIas8h12DgCesv9sMAUApVEr4YiR0IIVEjACSiIpMfyRvwFzcUoBA3DdUJaQYHAx8Ao/0i+1H4KfXE8RzufupR57rkvOJH4Yrgx+Bi4qjlluql8G73vP56BncOGxYeHQgjcycIKswqIiojKNMkcSBJG60Vtg+8CTcEif9w+2T3WvO776rsBOpd5+rku+KE4FLeeNyR25Hb9NvJ3FPe2+Av5Cfo/+xy8u/3B/29ATgGGQoVDS8PdBDKEB8Q/g4ODk4NUgwRCwMKcAkoCaMJhAuiDjUSnRZLHb0lZy32MhU45T1xQrFDj0K9QEQ9kza8LR4l2xyXE/IJwAHm+hD0f+376B/msuIo3graztZp0zHPJ8u3x2TEJsEkv/i+OMC+wgrHVs3+1EvdyuZl8Rn84gVmDuoV/htKIDUj/CQsJT8j/B+CHBQZWRVaEbUNZQooBy0E0wH3/9r9MPtD+Cr1tvEI7qvq4udX5eXiDOGt4BLi8OQA6TXucfRt++QCwQqvEssZUx8RI2AlQyasJYojIyDcG9AWSRHNC/AG0gIT/4T7GPhG9fvy+PD07r7saOrq50rl5eL94Kbfs94V3iveNt9N4Ujk9+ds7EzxWvZg+zwApQRFCAAL0AziDSwO8A1jDfMMpwxfDEAMhQxSDW4O7A+8EuYWlhspIE0l/iuvMo03hjoLPYk/DEDOPdQ5zDRKLtEl1BySFLwMbgQo/FH1ae/i6frkbeFr3mra4tU80mDPKcxhyGLFccO4wXjAEcHkwwHIh8x+0knaAePv6yr1A/8YCIMPjxX8Gq4fhiJ5I0cjJSLyH+Ec6xkAF5sT1A9qDNgJYAe4BDYC6f9a/Sn66vbg86rwNO3Y6Qjns+QG43biVeNf5WLoo+w58rn4j/+bBrANKRSBGZIdgiAmIg0iWyCLHfYZnBW+EN8LVQclAzr/yvsh+Qj3KPU9837x4u8c7g3svumH52nlWOOz4cXgjuDM4IfhQOMe5uXpUO4l80/4e/1YAuEG2AriDZkPZhDTEM8QLRAwDzYOUQ1EDPILzwxeDtwPexFYFGwYeB3DI/EqVTEDNeE2WzllPIY95jq4NXMvAiiiH9EXOxE1CmoBqvjY8qTvluyw6CHl6uEh3v/ZK9dL1QPSzswPyGrF6cOlwt3CT8WgyPLLFdFe2RbjGeyX9DX9MQXKC+cREhiYHAoeYx2gHOsbchpWGDwWuBNgEE8NtAssCxUKFgj2BfYDzwGH/4X9Z/sX+LDzX+9S7Grq/egk6C/oLOk368buLvSN+r4ANQY7CwkQLhRiF3EZBBrmGEUWFRPyD8UMZAnTBVgCUP8B/bb7J/u6+u/5yviU92H2N/X4813yNPCi7Vbr2ekY6eHoIukX6q7r2+3a8JL0qfiK/AsAOQMCBi4IqgmPCgQL2wogCjcJqQhWCAIIqwf3B8YIiAkKCuAKXwzjDXQPthKMGH8fCyXkKPAsfzFMNVU31je5NvoyJy0IJ54hlxviE5YLSARN/uL4KvSM8Ovsgei/4z/gj90e2sDVWNFvzYXJzMWrwyXDM8OOw5XFLcpO0AXXi97w5rfvvvdT/9oGfQ1KEkQVuRfAGaEaWhqKGZ8YKBdwFToUiROdEiARkg9fDuQMzgpGCEYFkwFQ/Tj5wfV28kXvi+zV6lLqIOtH7UvwcPOv9nv6Dv/PA/MHHAsUDb0Ncw3fDEYMTwuECRMH2QRPA6ECiQK3Ar0CawLpAXYBGwGMAGP/bv3X+hP4hfVi85rxGPDH7u3t1+3E7qrwGvOk9SP4gPrg/Cf/LwHmAtkDFATNA2wDUAMxA0ADSgNRA38D4gPcBOUFsQZeB+EHagiVCPMI5gkDC9ULHAwDDTUP4xLuF1Id7iGwJCgm8ieIKsEsxCwFKm0l/B/gGpkW6xKvDuIIagIL/br5wfeA9RTyXe32567id94/2/jXs9O0zmLK7seUxxzJdsv3zYbQ/dMV2brf3eZY7U7ywPWt+B38NgDmA1YGhAdtCMIJFQx1DxIT8xVnFw8Y7hgcGgcbFhvxGYQXIRSMEDYN9QlVBmYCuP7h+xr6oPlN+lf7xvux+6X7MPxS/Wb+JP+4/jP9U/vi+SD5R/h29+L2Dvfz94355vth/nsAkAE3AuMCVwOcAw8D0wElAAL+dPxu+7f6VvoC+p36avtB/Dz9+/3N/uf+TP63/Tr9L/0R/Vz8m/v6+iv7pPzZ/sMBXgR6Bk4IsAkkC0oMPQ3VDY8NaAxdC8MKQArZCboI+wc4CKIIWQkECWoI1QczB+QGTwZXBo8GBAfhCHMLFA44EPYRLhQBFtEWvRagFk4WwhSvEp8PGAw9CcMGdwVLBH0CxQDf/hL9Eft++Lf1s/H47ITo0ePO32XcHNme1mvUptOb1GTWpdhg2iPcRt6Q4AjjWeXG5wbqK+yH7oTxp/WP+rz/uQScCRkOIBLPFY0YORrKGowaxhmNGAMXPRWDE6AR4g98Di8NTgxCC58JVwfMBI0CiwCM/oz8Lfqp90r1nfOk85n0D/bc99r5NPzp/Rv/yf+C/77+ev0r/Lv7QvyB/eH+ywAnA6oFxwfGCGcJHgm7ByQFxgF7/mX7VPnK9xj3Yvcu+I758Pqp/Pb9yP7//oL+4P0H/Uv8V/vg+ir7DvyF/cL/VALiBPkGOAlxC+sMdA68DoEOWQ7EDWQN/wxgDBgMyAuWC1kLRAuXC30L0QrXCY0ImAdmBvoEQAOpATMAfv/8/l7+Cv4E/n7+AP+i/pb9aPxt+y37lfoO+mz5u/lZ+ur6mPsI/LP8Hv39/ZP+4/4b//7+v/6Q/rj+9v44/y7/a//q//D/dP/k/rv+cP7d/er80vvk+kD6ffmx+M/3//aI9vj1nfU29cT0Q/To87TzvfN8827zmfP384n05fR29TT2Fvfk96349fnx+87+GwFOAjADCgTqBJwF0QVsBm4HHQijCDgJsQkSCngKmwpaCjwKNgrlCT4JvAj4Bx4HSwYnBR4E5ALYAX4AcP9V/mX9pvwB/J/77/p3+kb6JvrF+QD69/lo+rv6E/sT/CL8E/3b/cP+HQA9AaICzwJ8A0EErgTSBJUEVwVdB5EJdgpdCW0IdAf6BuEGQQU6BHQENwWoBR0F6QTnBDEE3wPyAs0ClgJZATkBmgBW/3L/wv+M/0j/K/8F/z3+8v3Z/Wv9j/0D/dT81fwB/Wz9Wv1t/Sn9J/0F/fb8BP3s/PL8DP01/V79pv24/df9x/17/Yn9dP0z/Vn9mP2I/W39i/3H/UD+nv4J/0b/kv/x/zIAuABOAc8BLAKdAgUDhAPVAzUEgQToBCMFYwVxBYUFqQVlBTUFCQVnBAcEkQPhAlwC0QFQAe4AhAANAHH/t/4y/p79Ev2h/OD7YPul+jv60Pl3+WL5XflA+ST5E/kL+Sr5UvlK+VH5g/nU+Sj6fvoe+6j7BvyK/DT90/1d/hf/rv9HAAcBrQE/ArsCFgNuA48D3AMpBEkEVwRZBG8EjgSZBJsEiwQ8BA4ErgNcAxQD1QJwAhoCsgFfASYBrgBgAP//r/8///T+s/6N/kj+/P2z/Y/9Y/07/ST9C/3n/Mz8wfzB/Jj84vzO/Aj9Hv3j/Lz8S/3N/hn/kv1f/K39tv+F/zn+xf6JAO4A0gC7AOMAbgGwAbcBLwGzAXECsgLGAkgDxAMUBEgErgQPBRIF0wR/BGsEaQSDBJEErQSTBF4EHAT9A78DfgMlA8wCewIHArwBOQHPAIcAPgDT/6L/VP/w/sj+fv5j/g/+//3z/az9q/2s/Zj9kP2U/XX9bP1g/Sj9TP1g/WX9aP2R/V/9GP08/Un9af2A/bn9sf3O/SD+Q/6K/vL+3/5N/1P/ev/I/+v/KAC0AO0AOQG4ASUCWgJxAuwCHQNRA1cDfgNkA48DjgOTA4YDRwP3ApMCRAIYApsBWAHgAHQABgCW/2P/Kf8L/8/+iv4g/vj91v23/YP9Q/3j/Lf8n/yG/ID8jfxi/Fz8Xfyl/KT8hPyO/KP8hfy7/KT8cPzN/E38cPyT/Hb8x/wp/aP9sv2z/XL++v5u/ysAsAB5AZsBlgLGApADKwRnBC4FnwXwBRYGgQbFBrkGkAZjBvgFyAV0BSsFrAQxBHgDygIUAo0BEAEwAEf/c/4s/iT+8f1A/c78e/xr/IP8XvxO/JP86vwa/Rb9Pf3a/Vz+f/56/s3+L/9C/2L/kf/Q/93/AAA1AAMA7/+I/yf/6P5z/hH+8f3W/cj9uv18/Q79LP36/cn+xv+d/7H/6/9BAP0AhgEmAs8CkgNQBPwEmwU4BjkGZAbABiQHbAhJCdsKFAptAfX5CPrOANkFHwNo/9MA2AGJ/r35tPhZ+G/36/rN+vP8yfn19qT34Pha+pX7Kvx7/ST9WfyP+1H9xv7R/zAA9f9SAi3/twAf/XT+bv5UAOcA7P+mAHYAxgAfAIIAswEaAvj/kf1MAO8CXgVBAZL9/gAJBzoG2AK9AYoD0QUqAukBLwILBl0ENgEaBC4EzgNAAs4CPgNtAQUBSwL7A/kCCwAJAKIC9wG4/8D8xP8eAi//xPpj+6v+rf4C/7D+6/28/OkALAKOAg7/T/rIAYL9E/3j+b0EtgiIAf337+6l9kT8uv+a+Gr1pvwJBGoJYwQlApL/QfRO8Q7/xgdvCMz/qQFE/5b8Jvtk/sD81P/fAqkJJQrLBcX73PcX/BP+tAQ1B0IIuQohBPoCrgBdAncB6/sn/lkEwgIeBmf5BAEPAsj72Pp0+YoHoQOX/rf5GvlW/q77/AHX+pz0KgAPAXsGdACP9+T8c/uh/2z3pv+NBtcFqf8197sEEgcACrv6Z/U0ArQCrQGf9Zf9EQFwCTj/Yvzu+68ELAhv/L39kfmfASEIYgK3AiX80QGhA1L+0P8p/jQE7Qt1BvoBhPoGAPP/3ANwBBIEswP8BxQKugUsAMvzz/8lBScMRgNE//n/fwTyAO3+V/1Y/YUCdwEPAdH+BvzU/Gn/mPoY9HP3zAClBVr3VvWEALkCuv5S8Mv2VP4nCBsBrf0B+sz6F/xB+QkA+f2PBbUEkP2BAHn7OAUgBjz7hPwf/20DEwqmBsL9Wv5J/O3/2f6wBTYELgZpApEAlQllADsEyQLF/rkAOf8DBZUBLwDw/bf5JftbAfUDdQDl/q7yp/fS+2AEwPtp/WP6j/bd+JP5+v1n+8z8+v2c/kz9TP0I/tX84/x3+9UEMAH5AcIADwC5/Af6pv8FCDT/qQOmALr+YQHBBIj/qf2t/7wAUgQRAQQEUwGGAqL/gf4e/Er+iANGCTgH0QDQA4cA1gk/BeQCwABDBM0JS//JBmL/5gMPBpEDyQKq/F7+UQPgC44FzQif+1j76/5Y/BX9evqGAI4AjQIjAO74Lfac9GT4VfNbAfD9AwLH+dr2nvX46wb0mfhuBZsKfwJkAGf+jwCx+tP67f9XCP0TbA9fBVQA5fpv/3b/AgYoA0ILigg5BKb7cflVAM4B0AT3/X8AegRSBw8KevlQ+cX2LwFEBHsDaQMR/a3+K///9tL8bv4/BPkAefVd+X4C/gc5BdX7ovdf/QkD7QeG/+X3p/wt+I79oPx+BZ0GjAEN/MP27/8fAL//LwFHAMwHKf+RBlAD1QPv+cP5CfvrA7IIMQNdBd7/7P8BAJn+7QAY/H/68f1zAo4IUAgZBPr+2fcv/ff2vf1NAQsDRAgcA1UD4gJOASUA6/kA+jT6XwPiBXYJ5gbh+iT8Gvu5/5sDnfzyAFD8gAL8Ai8BSQTo/vL7I/xj/Q//rgBUAc/+7v34/SgBnwCP/eX/5v2F/Uv+lwApCd0BGgEE+Yf4uPxD/4kD5wHqAXH/eAL8/635Zf7f+WX8mADyAwYJEga0AOX7jPjg+Pb7uP+IBGwHJQh0A5n+Dfr/+bT3Ofrx/1YDtwolB+MC0foO91z6Af6UBHQGuwbvBWv/p/6f+vj3+Pu7/r4CzgOKAlECqQDP/a78kf7+/YH9Of8MAnIFcwd8/1v50fW5+WwAggCTAfwC4gQaB1MF6QFO/5X8LPtc+rEA9wYnDBcOdAZ3+vDvl/Jc+oIBIwTlBFcEHATsAdj8/PjO+L/6b/58AioGtgiRBn4Cqf3k+4D8PP0sAMYA1wU9BpwB2P4H/ZH+0f95/rj8lP9jBLkFIgQnAL/9Pv8F/9T/JQDaAc8E7ATHAcP8s/nR+8//Jf9lADP/Pv4OAjQBgv+W/Rj9sv5q/ev9o/+TAUEBSP7H+e/5c/3u/yYEAAT0A0sFyAUAAiD85/l1+ib+iwGIBRUIsgcFBMz9nvmM+Vf8XQElBlgI9QjLBeYBHgA9/jT+EAH7AhAFlATTAdf9ffqH+Fb6oP1kAHoCpwI3AAz9nvu3+sH7Pv2i/P38Xvwu/ff+IP/7AAUA5/2d+9D71Pss/Uf/EwCKAVgCmAAE/rT8SP1WAE8BUwIsAmgCCgJo//78Jvru+Sj8IP+H/yf/Rv4e/U38ffqH+ZH7z/zt/JL7c/pH+4D6OfmR9qn2Y/p9/X//tf5J/7v9gvwS/Lj9oAFQA9UCjQBc/zsA8ATYB6oJWwliCfsJ0ArXC/ELuQ2rDYcN+gtpDKkMjgycCQQGowaPBycJ9QYjBYIESgXyBZ0EhwJcABwAkAEsAGr+mf1P/KX8X/ty+137+vr3+3f6yfnN+J34zvnx+bD54vln+j77SvuH/Ab+Xf42AMIBxgO1BUEHtwi5CMcIUAu4DpQSNBQKFKkUohTMFekVihX7FZMUGhOpELIOfgxgCSEFaAFc/DL3K/Qh8QLva+zA6LnldeHR3OPYT9XE0zXTndSc1c7Ve9fz17vYA9lv2VbbOd6w4xTpl+3m8PPyN/a4+Ub9kABjBVcK8g4nEssTmhQ2FBQT6xEaEt0T2hNKFKYS/Q8SDkcKRgcJBEcBLQCL/2//yf0D/db7Kfpx+fX4/Peu+KX5EftV/Ar9W/94ALEBEwLZAvsDNAYWCU8M/Q7tD1cRuRFJESgQRw/pD2gQexFuEqYSWBJfEUQQwA9nDu0Nbg4WDm8Nmwr6B6wFBARCA5wBhgFbAKcAlwGhAOUBmwHjAHb/a/z/+/T6Tvxw/wYARwDU/tT+nAEjBIoIzA2EErgWpBp6HoEiFiVjJSEj2B/GHuYgFiTfI3khxxw7GDsUkA5OCjwEd/1w9invPOrr5Kngotrl0ojLUcSuwA6+J7uZt/Wz0rKgsym2H7lfvE2/lcH6xBTJ9M5w1iXe2+W57LfzufuXAz8Ktg5jEkMW4xntHkUkwSmOLpgwATFvMMguwSwmKVokSR9tGloW2BI8EIoMAwinAlz8PPe08WHt2ukR59LlYOTf5DTl5OWf5kvl5ORy5GDl4ucA6v3tqPGq9sf70ADQBicKdg0rD5sQyRIrFOMWaxgnGvwbRB34HroePR6vHFgaPBjwFbcU7BJKEQEQ9w7DDscNDg3mChMIIgWhAcn/Pv5k/fn98v0NAMQBMgNaBRcEbwRmA8UCQAT0A2EHNgnnCgYOphFDG9wjfizDMbkySjOIMXQxqC/LK1koPiRcIckesx1fHRMaaRJFCHr+5/Xk7ffle93r09vKDMSkv3G8dLjLsxuuvqh7pTSkkqQHpTmmAqn8rDSzBLuTw6bLr9IR2hPi0erC84D8bwReCxkSVxnzIEwoZC6NMts00TVDNts2yTbFNTozBTC8LPQpiyfxI/oeIBgSEJkIcAE/+z/1ae8N6g7lf+Em3/Hdu9xj28rZztgx2THaEdyM3SvffOHY41jo3+yC8uH3q/tAAL8D2wiFDSURGhRFFVEXWRjVGggd3B37Hnkd7hxlHAkcRR3yG+UZ8RaCEywSRBASDzEN4gngB4IFbQWLBqgGOAfqBcEERAWPBYEHKgkECY0I6QZ1BzYJ/AvmD7oRthaSHvApITWYOZE7ojpaOFc0MC96LOMnKiJBG+4VRBSDEwgTag8SCAb/z/bz7uDkDdqSznnDg7gZsIGsQquzqkupMqjMp92nbKkzq3ysKa0zrhixZbbRvpzJAtXe33Xq+vTH/1sKgxPZGpsfwSJzJQsoxit1L3MyMzQTNag2/De4ODM4hDVDMakrKCbhIJ4b/hWsD+MINQLw/Kz4y/TQ8GHsrOcJ4yXfptxE2unXyNWO1GbUZ9UV2Evbc9724ODjUuc/69bvqPP29i750Ps+/9cCMgc+C8gOHRFkE24WohhWGugaxxoRGjYY5ResFw4XFRYZFFwT9BGwECUQ4g5gDvkM6QuVCyULQgyVDMYMtg2EDiYQvhC9EZUTbhWLF4IYBhvaH/AnhjEiN7Y5qjpFPRk/YTysN68ysy7XJ9IesRiwFZkTig2SBUX/MPrU9IXsUeMp2anNF8Jut7SvranipMigIJ3Ym5idwaGspZKo6KsosPy01Ln1v8jHh89L1ondtOZ08Rv8BQZKD5UX/B7jJQksUDFQNcI3ezjmN5M34je9N1I2xjMZMWougCs3KN0kJyHPHIQXRxFRCyoGSwGo+9j0dO426bfkyOBA3c7a1tgy10DWGdbh1tLX4tj12QjbgNyV3g/ha+Of5R3oN+u37mHylfYW+zL/2AKBBvEJMQ3uD2YSkxR+FSYWvBZTFwoYdhgaGUEZ5BiTGF8YcBhsGCwYMhezFaMUNxRGFAcUFRSlE5MSexFWEYwSORRnFsYYexxQIsIpvS+DMQQzaTXrNjg0Ei/CLNkpNyNHGgMUwRGADvEJugWyAVL9SvgT9H7ueubb3fnUjctlwX25bbRyr/apHqYAptenKqpsrS6yd7cDvIPA7MVXzMXSCdi+3A/iy+hA8MX3v/9TCFsRPRkzID4ndS6GNPA3ZjnyOc85qTg6NnIzEDBCLDwoOyT5IHQeWBytGd0V3hHMDssLdgfWAQD8VPb67zzpi+MS32jbutfv1OPTWdQh1gnYUNqt3DTfmuE246vkxuW05iHnlufv6BfrFe428RP1o/nL/i0E5QhsDSMREhQwFkgXOhhqGAcYOhcVFowVNBX/FLUUZxQWFZoVFBY4FpMWXBcYF+UWnRZ9FvcVWhRjE3wTYxYqG8IfAyN9JQUqSC/VMuwzAzRjNEgyUy0JKMgk3CFIG9QSUAzbCFYFfP+R+Rr1NfB46RnilNyL15LQKsh+wNG6W7arsuyv0q3nrOCtxbCTtDa5IL+rxXbLFtEX2EnghefN7MbxXvdo/UADLQlqD2oVDxufIA4mdSsHMDIzlDT3NNg0uDNRMe0t1ynKJOAeUhm8FLMQjQzACOcFnwO3ASMAsv6X/HX5APaE8o7uKer05SfiZN7N2n3Y1tdX2GjZGNvA3VHhTuUi6ans0e+G8mX0XvUN9tr20Pc9+Kf4svmX+w7+ggBtA3AGdAmoDFAPChLBEzEV3BUnFQ4UXxLnEOwO1AzVC/YKRgr6CWUKwwu8DAQOuA+gENYRrhNRF48bJCDfJXEqIy10Lys0NTmdOdc2pTSUMzYw6SkbJfkhPh0IFjUPXwtfCDYE//64+FbyTuze5rrg/dg30TzKKMO7u/a1ObOLsT+vsa05r4WzsbiuvYDDSMoY0VTXoN2F5GDrH/F19YX5g/6oBK0K4Q99FJQZWh/jJIopli0cMXUz3jPvMssxVTBRLTsoMSJ2HO0WLBE/C/0FqwH9/df6wvgM+Jr3f/bC9D3zLPKw8Fzugut/6KblzOK84Mnfr99N4CHh+OKs5U7pUO3J8PjzpfYl+Qz7PvwS/VL9K/2F/CD8Rfzy/Av+SP/eAMoC+QRSB40JngsvDTcOjQ6qDoQO7A2wDDAL+An6CCMI3AeACEoJ6wlkCnQLzQwXDq0PxBCyEbYS0RWAGmUfoiRDKjsvujEENGE4ODwUOxc2KzJ4L/cpvCFQGz4XWhHTCOkBxf7Y+yP3aPGn63/lWN/52fPTYMw3xbW/a7p8tNaw+bBMsmGygrNhuLi/msY7zdfU09ze4zHqqvD+9rz8vAH5BXgJlw09E0sZBh6tIcMlRCpxLfwu9y+3MNgvmixTKDMk5R92GuATMg1CBzsCrP1U+bX19PLj8A7vqu0q7WDtnO1S7bDsX+y/7Gztou087fPsVu0r7hvvlPDe8nL1w/fv+Vj80/71AH4CIQPuAlwC9QFbATYAzP7I/Rz9aPwF/C78w/xE/bD9V/4m/zIASAHaAfIB7gFJAhMDtAOiBLgFbAZKBxUIqgkBC74LxgwgDeoNQA7mDqEPdA/yD+MPww/CD+sQyRNmFW8XrhsVIlsnxChNKpQtwTAcMXEuGSy2KUwmciERG7gVqhGuDgwKSwMl/hP7qfed8H7otOJi3RDWDs1oxlbCPr6WuQy2ibUnt1a5LrwPwEvF38pB0IvVD9sh4THneewl8Sz2XvwYAwEJaw4xFHYavR9nI5AmuCmYKzIrKyn2Jp0kcyG/HbUZqhWQEbwNQwoQBzQEbAFJ/rv6W/eq9GPyN/Bj7vPs8+uh64Lsde6U8M7ycfWK+Iv7c/5uASwE+gXNBkEHkwfQB90HlwfeBtQFKwX9BAkFuATvA7cCCgFK/4f9zfvi+aX3cvVs8zjy2/Ee8tLylfOd9KL1+fba+MX6Yfxa/TT+9P65//gAzgL5BLQGRgjlCV8LZgzrDD0N1QybCxMKzQjHB+cGeQaoBtYGnQb1BgoIKgo+DNsN9A9gE/0ZkiEaJ6kpWStBLw0yRjGELoYtDy5sKmQj9x3LHDUcYhfqEHsLxQZtAJ73BO/U5oDe8dThyv7CCL5Gu5+4/rUitea177cMunC8bL8Jw0vHF8v3zsXUH90h5mjtbfQP/cQGhw+9FtgdCSQKKKEpjCq/K3wsVSwjK/8oFyZ9I5IhSx+WG+EW8hFQDKYF/P6B+Y70Fu+W6XvlfeMD49DjWuU654LpV+yk78vyGPbX+WD9QAC5AiQGugpuD5oT3haUGbUbIR1HHlIe8xzlGcwVnRFMDV4JDgYDA5X/yPuG+A32w/My8WXuG+tl51XkfOKR4Q7hdOHu4rPk7eY+6tjuL/Ok9nX5CPxp/o0A6wI4BTcH3ghXCuALdg0aD6gQUBETEfMPNg65DAILjAmFBz4FFANxAPT+Rf4W/7X/Wv8KAHoB6wPcBVcIjgyJEAsU+hcbH3EpbzPTOfc6uDiCN3Y4jDhvNOItdSnnJScgtxhnExsQWwk8/XjvK+Qq2wDS4sfbvZG1A7BQrdCswa11r5WxhrMvtaK3YLwFw+LJys9b1m7fDOvC9wMEGQ9TGHMfaST2JxYrFi4XMB0wiS7VLEksQCwsK8YnSyLLG4kUzAw/BaH+kfg68jbs1Ofz5bflQ+Zh5p/lGOV45QTntOgV65PuXPJy9pX76AIiC4MSUhhRHNYePSArIashHCGBHxIdPxqRF7gVcRRhEnYOrQg9ApP7OfUx7+jpnuXh4WDfud4s4MDiPeWA5wfpEOov60HtdvCL89/2xvpO/0QEZAnODtoSnRRrFCYTnBHrD9gOFw70DGwL9AnRCJMH0gUYAzv/zvrB9mrzA/Gb7yzvRe+X79XwhvI99NT1Z/ew+Mr4ffgj+Yz6ePzf/toBrwXNCAcM+Q7eEGoSRBPXFC8VYRQ7FVQaHiV+MMY3XjivNEUx/S2pKdojch+1HZoa5BSwD7wNRgxBBQT54+uu4BPYndHezPPI8sRQwjfBEcEHwjjEZcZYxlLFPse6zbnW/t/D6KHwhPfq/bkEFQvBEAEWjhlhG0Mc3x4BI7MlGCaRI1Af6hnbFC0RPQ3aCP8DGv8I+tD15/MR80Dx0e2Q6rHomeg46u/sA/DF8pH1pvhG/L0A0QVtCqANvQ8KEmUVJhl+HDQedB4oHfsavhhKFtwTYxATDM8G6gDu+xn42/Ve8wfwKuw36GPlN+NQ4kniwOKk4zrlFOjq68zw+/Xd+o/+LQI7B4UN8BOiGO0bJB5XH4EgpiH+In4jSiL6HtIZhhTFD1ML5wUx/1f4ffJA7jDrougw5m3jS+CB3QncXdyn3eLeOuBB4mflAer97gP0kPeu+XX7uf1nAS0F4QjtC+INQw8DEPIQXRHlEJ4P4g19C08JcQdHBr8E+AGeAFkAgAJoBfUHeAqKCg0LCQtJCroKYw/3HFwsaTW4Nmw0GDJoLKskuSCiIVAj+iDGG7kW1RC/Cc7/fPJL5crbzteE1cDSYtHnzzTMGcWEv0W/KMLcxSXJ2s1L1IjbKONc6eftK/HX9H751v7wBaMOVhY4GoQaxhkMGcoX/BVxFNsSehE+EOYOQwzsB64Ckvxs9vXxp/B58RjyvvHO8AfwbvA68n30R/ZU+Av7rf7eAl0I1w0YEZ4RRxEFEk4TxBXwFyUZnRd8FGkRXA5iC14IdQW1ASz9k/m590r2EPQl8RzuuuvT6bDpK+sq7RbvFfBO8SLzz/Wf+Xn91QAKAwQFAAhwDM4R7Bf8HakhsyFJH90cTBu0GV0YGBfuFHER5wxDCAYDHv1R99LxLu0i6oPpFuq96eDn/ORg4v3gkOF+5JnopOwr707wXvHC8zL31/qB/fn+hwB2AqQFLQiBCTwK/Qj8B00HHQmFDGcOdg7HCqsFjgHN/hz+tf2j/Tz/nABzA0QGrweICfUI5gc6BtUGwg0PFQQbzhwAHcMh3ytWOjBCJz6+NE4rCiQLHScbdyBYIwoc2QtK/BDyq+pH5HPdCNbKz2/LvshYxhTEgcKDv1K8ebwYw+bOVtoA4lLlC+fG6UPvzPaV//kHAQ68EWcTHRWZFz4Z0hjMFN4Plgx2C4MLXgpxB60Bx/nF8lbuu+yW7MrsXuxG6jfoTOjz6rnuafI79gv6tv0RApAHWg2GEZkTGhROFG0V/xdrG3cd/xxcGt8WOxNgEGQOHQ1FCjsGGgKI/u37uPna+Jb3DfWe8g3xifFl8ozzj/S09ID1IvcQ+kj99/+fAvoDmgR+Bb8HkAsPDyIRSBFrEGwPXA6PDS4N3A2LDpgOKw1qCpwHKwU1A7MARv6h/HX7XPp6+Jz29PTA8xfzOPLB8cnxZPLp8pry3PGD8Cfvnu4C7wPwKPFO8ifzW/Nq8wH0b/WH9735IPsN/AX9dP4XAKgBogNaBYsHeQrADKgNtQyvC+AJlQY7Aw4ACP8w/1oBJwRsBbUHAwn1CsgL9wvPDUoP2xKlFUMWlBe5HTMrUjgIPlg84zW6LUkmKCHSHxwghyDsHYAUUwfG+0T0EOwT4KDVh9C6z1vQSM8VzA/GRcCtvRu+N8PczHXYYuGh5fjoluwJ8Xj2j/uGAJ4EzgmmDwUTJxRrEg0OUQjMAj8ANP/h/o/+Yvu79XLvb+ut6TzonOfN59fooOv87yb1ivl7/D3/6QGdBVILQBJNGXkdYB+zH6Qfzx/OH8cfsh71HIIaqxgNFp0SFQ5oCEMC8vzq+dz48fcQ9zz1ufJO8EjvMvDD8ZbzP/WG9gb4ffrO/awATgIRA+YDKwUWB7cIdwlmCTwIkwa8BI4DYANFA/8CsgG//x3+mf0j/hT/XQAYAsYDlAVcB+cIAgmvB04GRAXIBEQE5gMWA0sBz/6T+yz4g/Vs9Aj0UvML8pzw0e4Y7e3rHet76nvqZuvj7ODuG/E98+30Wva19/v4ovsJ/9YB6QMVBogIOQmQCB4Iiwg2CX8JVgh/BHEAzP2L/YL9jf3V/zoDqgaeCE0JVQoPDMEOjBGAE2gW8BoqH6whniJSJhYw0T1SSSNLCERmOckubCURHoEaNRrwGBMTdgiQ+5fwc+cE3dDP7MJju3C5SLtCv7vDtMZ2x1DHjcefyQbP0NfT4S3qsfF5+TkBEwiPDN4OGg7HC70JZggtCGkIowjpBmQCAPwP9QPvWur35hnkyOHX4EjhDeNY5V3o/upC7aLv6fIY+DD/qQf/DwAXUxxGIMsixyQVJuMm4SYxJgAleCPCIccfkxw+GNUSqQyXBjIBZP0s+mf3EvUj8xPylfEu8k7z5PPs83nzwfNY9YD3M/qQ/I/+AABbAUcDdgUoByoIFAhfB5YGbQYOB7IH4gdOByYG/QQlBEsELgUoBnAGiAUnBGUCEgEcAXgCQQRSBVsFYATIAjIB4f90/ub8P/t4+az3N/aI9VH17fTn81/yuvDy7ybw8PCb8cDxFPKP8ivzofSb9if5bful/GT93v32/swA1QEoAm4CxgIXBN4EwQWHBqEGhAYrBZoDhQIhAvQBtAE+AawBBQM0BZMHqQjHCKwIqwgECfgJtQv+DaAPAxACEHcPCxHvFQQdRyQXKBYqgSpKKfgmzyNdIeseZBtLFy8Txg+mDbwL3ghsAzH7a/I06gPj69xt2HDVUNND0S/QK9Bl0UrTz9SO1XTVnNWW1qrY7Nsk4NfkVOlF7YXwQ/Mr9u34HfsH/Ev8Qvx3/DT9df46AF4BLgIJAmIBkQDn/6f/VP/M/iX+Bv4q/if/pACCAgYEdgXlBvYHNAnXCoYM/w0hDxkQEBE8EtITaRWAFg8XSRekFsgV7xRNFH4TsxL1Ee8QcQ/9DdMMbwvOCdMHkAXBAtj/bP1q++n5qvi79732qfW19BT0u/OF807zIfMl84nzcfTr9cH3i/kG+1j8ef2Y/tT/KQFxAmkDSwQIBbMFfgY3B60Htwd4BwsHfgbyBUMFOQS/AvsAPf+y/bb8E/x4+4r6Vfmo93r1dfMT8nPxB/Fi8IHvVu617QTuWe8/8ePy5PMK9Jjzk/Pp9Dr3RfrJ/Fr+Pf91/wkBtQJYBK4FOga2BmIG0QYoCNIJKgtTDEMNKg4LD60QHxOMFBkV0hTyFBsVbhW4FuYX2hhgGTIaBBzeHtkizSW1JfMiQR9THBQbcxscHdgd5BxVGnsW2RKlD+AMyggPAi/6Q/Kr6+jmGeSE4gngfdzj2H3V4tIo0BzOV8xVyn3IDsdBx8TI5MrlzbzQOtP01IbWp9i92pjdrOCX45HmzOlm7Z3xWPbw+gz/PgK5BD8GgwfeCIEKFgywDR8PYBDpEfoTPRYJGHUZfhqNGucZdRlGGTgZxhm1GqsbEBw1HJ0cshxqHMQbwBozGSEXTBXwE/cSDhIxEWIQVg+nDZULZAk2B8MEGAKx/3396PqM+AT3Bfbj9KDzcvIS8WTv4u3y7K/s9OyG7U/uPu9t8O7xmfOm9Tf3ovgz+vj7df3V/qEAJwJ0AqYCewNjBCoF6QVuBssFRQQWAw4CVAGaAK3/QP6c/ID7p/rL+cH4C/cO9WrzmfKX8vzyF/SW9EP0GfRC9BD2cvfA+ND5M/pR/Cv+CQGYA9wEBQYnBh0H/Ad5CK0JBwpWCekItAh8Cg4MMA1zDlkNmQweDFcMlg0RDhQP2A9KD8cOvg46D6oQ6BHMFOEZ8R3BIBYhAyCFHm8cwxzOHg4gByCfHrYcVRviGewYaBZYEMsIgQAw+Vj0svAQ7h/q7+Ry4JPcAtpa2B3WttLIzV3Jz8bqxb/GkciAysrLxMxwzsnQcdOn1ZHXK9mB2ibc9d4L47XnCOxN8DP0n/fY+v79AwE3A5EEvAXYBlIIUAq/DG8PEBJHFA4WhhexGHEZnhmEGTQZ0hirGP4Y4hnOGrMbdBwNHUsdBh0tHNAaFBloFx4WNhWPFMQT3BLTEXQQKA93DdIL2QlgB38EMgGX/mf83fqI+dz32vWF8yXyTfFG8Ufx8fDl7/Lt1+zT7DHugvC28pf0WfXu9df37Pox/kwAygCLAK7/o/9FAbkD5AU7BlIFLQSAA/YDzQTDBPcCwv+o/Cb7OPsK/B38Qfsl+ST3NvZk9nT3cPe99hv12PMi9PX0Ifab9rr2avYo9l33tPl++6r8ff21/tP/2wBfAhcDbwMrBE8Fugc/CkgMHw1yDPsLCQyvDPcOKBHTEUwRHhA6EHsQUxFsEyoUqBOnEmkT4xbDG3whaCWoJIkgUxyTGiYcaR84IsYi1B8DHNcY/xYuFn4TYw2/BM/7zPTT71ntjuxP6uHll+A43BHZgtVM0h/PnsvRx9XEZcSXxZDHD8pzzI/OYc8p0GHRItNr1RjYUNuM3onh5uRa6WbuWvOv9936pP1d/5wAiwIbBQYIZwpgDJYObBBCEtMUwxfoGZsaiBobGlQZBxmJGVMaxhq5Gp8aeRrRGgIc8xwhHWQcwRpYGCwWJhUnFVAV6BQjFN4SORH0DwcP9w3cC+YIkgVpApD/vP33/Pr73Pkk9/r0uPMh8z/zY/Ns8ozw+O6D7iTvLPCM8W3yivKo8ofzXPVg9974bflQ+UL5vfnf+qP8ZP5E/0D/Tf/p/5wAWQHMAYABLwAE/7r+0f4O/1H/Gv/q/Xv8lvtS+0v7DPvT+iX69/k/+tb6zPto/H/8evzo/BH+EP8EAPIB0wIlA7EDQwT5BSoGAQcMCAIINAm3CZIKvQrjCXYKZQqNCgkLUwvGDBMNAA2+DCoMcAwxC6kKXgsyC/kKWwrjCpwMUA70EtMYjBvHGp0XGxXZEwETPxW1GBEaXBk7FwQX4hZKFZMSNg37Bbj9ePcb9MTx7e8i7eHpGOZv4hHg6Nzg2avV4tBHzZ3KVcr/yjXMYc7VzxTRDNI105TUYtWR1jrY7dk93H3fzON/6CLtmfFW9TH4hvqg/M/+AAFTA3UFrwcYCv8MMRAvE9YVoheoGC0ZjhkDGlYaURosGgIaCxq3GrEbsxwnHcwc5hu6Gp8ZvRjVF8gWTBXRE5kS2xGzEXwRiRCnDgoM0wnDB+gFnATdAsEAJ/7U+436ZPkN+YH4zfZ39CvyE/Ho8FbxB/Ip8rrxd/EH8mnzh/Vp91/4LPil98D3DPlP+9P9jP83AEwAIQCUANMB+AIvA1sCSgF1ALQAswHIAsQC7AHYAKH/Bf/s/rv+0P1U/Ov63PmW+TH6qvpC+v75e/mT+ZT5qvks+nL5BPo8+8D8tv4g/0r/oP5e/p//CQHcAv0DngPhAgADggQzBhYHVgfeBukFCAZSBzQJGQsODFMMwgudC6AMVA0KDjAOHg4QDnANPA6lD90R/BQfGFQbMRxVG7QZJRiqF6MXXhguGekYlxdgFi4WgxU4E7gOwgjvAWn7HPdw9Aryru6K6nLmb+Kx33rdD9ut10TT/s7xy7nKMsv0y7PMas3Iza/OO9Bp0qTUMdbN1xbZCNvK3Y3hRObM6h3vlPK39e343Pv6/uEBaASWBp0IBwv5DSERPhTuFssYNRpaG0AcAx2kHTQeIB7YHYEdVB1XHYgdkx0yHV8cUBsNGp4YiRfKFu0VyRRoE+wRHhCODosNmwxFC5EJkQc2Bc8C0gBQ/8b9E/w7+jr4ufa69Un1DvVk9DDzvfGi8KfwHvEk8mzzFvSh9Cf1WvYI+Cv5LPp7+nL6wfq++4j9cP/PAGwBUwFZAdcBrgI8A0ADbgIdATsAEQBxAN0ApADh/23+H/2e/Hb8jvxi/Fb7EfrT+K34KfmP+TD6IPrD+ef5uPot/Dn9E/6x/sP+c/+/AD0CEAN5A+wDNgRbBZcGGAhpCPYH1Qd8B8MH9QdqCIIILAgQCHUI0gmyCuwKgArNCU0J2QgKCXAJwAivBxQH8wZsB0kIyAiNCEAH4QWMBcUFKQfTCBgKcgvMC4oMfg1KDj0P+Q5qDnoNCAyrC2cLPQuuCrwIYgYgA9D/Iv09+nn3WPQB8ZDtluqV6OLmHuUn4wHhtd5P3MHaztkB2U7YzNeE13XXEthy2djaSNx83ZLeut8T4ebiGuWm51/q/+ys73vyjvWv+OX7+v7lAXoE9gaiCWUMJw+4EQsUDxaiFwoZThqhG7QcVB2rHbMdkh1OHRYdyBxfHMgbAhsaGgUZARjiFsYVrRSiEyISjhC2DvAMSwuBCVgI3wYuBT8D6gAa/yz9zvu6+iv5efd19d/z9/KQ8rzyuvJT8vrxzvEk8kXzZ/RF9Tj1NfV59Tn2PPiO+nT8ev2E/ZP9Ev6L/1YBWwJrAuYBRQFhAVYC9AMdBfsEDgThAi8CHALNAjwDhQJbAfv/Uv9r/6P/9P97/1f+mv3O/CP99f0a/kn+5v2h/br9aP3c/SL+L/7P/mn/SgBIAQgCYwJ6AtgCPwO7AzcExwQdBTsFewUaBqUGGAd/B8YHEwgYCA8I9weCBwYHdwY6Bt0FdAU3BcIEZwQMBOUD1gOAA+cCEAIDARsAyv+4/9P/rf+D/zz/GP9Q//L/vgA5AWMBCwG6APgAMwHbAYkC+gJJAxIDGwOLA2gDbAMBA90BoAAV//v9NP04/FD7H/q1+Dv34PWz9Jjzc/In8a/vZO4/7Xjs+Ouw61Pruurv6XHp/OjA6Mro8eg36Xvp6+mj6oLrlezn7VTvwvBK8vbzwvWx98X50/vp/dz/3QHZA+wFIgglCuILVQ12Dm8PaRB4EYISVxMHFIMUlRSKFLYU2BTsFO4UmRQEFFsT6hKJEj8S9RFqEV0QOw87DlwNjwy9C64KHAlyBwEG2AT6AwEDFQKuAF3/QP5N/cH8Q/zE+w/7dvrz+WH58fiy+FX4vvdS9+b2qPaS9rX2p/aH9lb2W/Zm9n32Fvcx9zD3+fZw9jT2V/ZB9zf4DvlO+cD5sfmE+WH6AvsK+wj7dPvt+2n8fv3T/o7/6//RAI4BHgLeAroDoQRZBWkG1ActCWsKWgsdDLkMTQ2tDUQO7Q5eD14POg83DwoPGg8wDyEPxw6oDW4MNQs8CmQJQAhSB20GagWkBO8DMAMRAqYACv+N/Q78Bfsg+kL5ivjt96D3Lfee9jn2vPUZ9YD0CfSQ83fzf/N+84vzyvNT9NX0Z/UO9mH2cPZo9qH2AveP9xr4yPiI+Vf6GvsB/O78m/0d/n3+nv7M/l3/LwDhAJIBXgJBAyoEHQUHBtoGegeWB7IHLAh8CJIIzAglCf8IyQjQCOcIdQivB+0GDgbNBFsD9AGkAFb/JP5Y/cX8L/xm+3f6c/k++A732vXn9Onz8/Ja8hXyCvIo8l7yl/LE8hTzcvP582D0yPRP9ez1vPaq96P4yPnJ+tr77Pz2/RT//v/LAJIBFgKSAhoDzwPHBL4FsQaQB0wI4AhZCeoJfgr/Cm4LzwsADFIMnwy1DMUM8QzKDFwMHQzoC3kLFAuNCgIKSwm6CHEI8QdnB9sGGQYeBS4EXAORAr4B5QAVAEb/k/7z/Xr98fyR/AX8kPtD+/r6xvqO+jX6p/lm+Wr5eflv+Wv5qPnO+QT6Tvq9+if7ZPvI+0X8tPxY/Sb+9P6V/zIA7ACBARACngI0A7ED1AMDBBAEUQR8BIEE0ATmBL8EhQRBBAEEtANWAy8D+wKVAlgCGQLfAa4BmAGOAVcB4wCTAC4A7v+2/27/LP+9/lf+B/66/aP9c/1D/Qn9uvyR/HH8SPwv/Bz8Cvz4+/v7JPxZ/KP83fz5/Bz9IP04/Vn9hv3C/fH9+/0f/jb+Zv6U/rb+7v4E/wD/Cv8d/1n/mP/J//P/KQBYAJ0A3gAVAUABTwFkAZMBpQGyAbsBxAHOAfYB/QH6AeQBywGMATMB/wDhAKgAZwArAPL/r/+S/2z/Uf8W/73+bf4g/t/9sP2n/aP9g/1p/WL9e/2A/Yn9hP11/V79Zf2D/an90/0E/jT+TP5c/pn+0/4W/1L/hf+u/+H/CwBKAIcAtADPAPQAJwFUAZEBzAHOAeIB8gENAiMCMAJFAl8CWwI+AjMCUQJZAjQCDgL2AccBpgGIAXkBZAE5AQ4B+gDRAJcAVwANAMP/ef84/wv/zf6I/jn++P3B/Yj9Sf03/Qr98fzC/Iz8ZPxK/F/8SfxC/HD8ifzN/CH9bf2m/dP9Cv48/n3+2f48/57/3f8aAFYAogABAVsBrgECAicCQgJtAqUC1AL5AiEDRwNVA2EDegOTA6YDoQOYA4wDcgNYA0ADJgMCA9kCxQK2ApUCbAJCAgwC1QGjAV8BKQHwALsAgABGABoA5f+u/4v/Xf8p//3+y/6Q/mj+R/4q/hv+Dv4J/gb+Av4E/gn+E/4a/if+Nf5V/nz+mf7E/u3+GP9E/2X/j/+y/9z/BwAlAEQAXAB+AKAArQC9AMwA3gD0AAgBJAFFAVkBawGDAZMBjwGTAY0BhQGRAZkBpwHGAcoBvgG6AaUBhgFnATwBGQH2ANIAsgCYAIQAbQBOAC0ABADU/6P/ef9H/x7///7v/t3+0v7F/rn+q/6Q/m3+Pf4W/gr++f31/fD9//0N/gb+C/4L/g/+HP4a/iX+Nv5P/nj+pf7U/vf+Df8k/zz/V/9r/3//kf+p/8v/7f8aAEYAaQB6AIAAigCQAJ4AuADVAO0ABAEdATsBSgFaAV8BWgFKAT0BMQEnASMBDQEGAe4A0gDFAKQAiABoADcA///c/7T/jP94/2L/Qf8i/wX/8P7Y/r/+rf6h/pH+gv58/nX+dP5z/nb+f/6C/ob+j/6Y/p/+qP6v/rr+zv7v/gr/Fv8p/zf/Sf9y/4H/k/+u/8j/7/8TADYAXgCCAJsAvQDXAP0AGAEwAUQBTwFgAXEBhwGRAZgBlgGWAZYBiQGJAXwBawFVAT0BKgEUAQUB8QDXALAAhgBlAE8APQAoABUAAwDv/9H/vv+y/5n/ff9s/2D/V/81/yv/Nv8m/yT/Gv8d/x//K/8o/yL/If8e/yb/K/9G/1X/e/+r/8j/6v8QADIATABXAHQAoQDLAPgAEgEoATUBRAFhAYoBqgG0AboBsgGrAb8BzAHJAb4BuAGzAaIBjQFwAUoBLgEHAeIAvgCaAIAAUwAsABkAAADZ/7H/i/9R/yv/D//y/t3+zv60/o/+if5r/lb+S/45/kH+N/43/kb+U/5o/mv+a/5u/n7+mf6u/sP+2P71/gL/Hv83/2b/l//J/+//HgBrAIoAwADuABkBQAFUAZYBngG7AQACJwJKAmACWwJqAmwCUgI8AiUCDAL1AeAB1AGnAXYBOgEOAdIAogBuADQAAwDN/6n/gf86/wL/yv6b/nn+Tf4W/gj+/P3P/az9l/10/W39Sv1J/VD9ZP1z/Yr9sf3S/fH9Ef43/lL+lP7D/sr+3f75/kf/dP+f/9T/EgBRAGYAcACPALUA1QDtAB0BQQFVAWQBfAGSAYQBgwGcAbIBuAGhAX8BYwFZAUcBVAFBASUB+wDeAM8AvQCQAFsAWwAGAPP/+v/D/8j/rf+I/1D/Kv8H//P+1f7M/sr+yP6+/pT+kf6F/oz+lv6W/ob+kP6s/qb+rP6t/tn++f4m/yv/Wv9n/3L/uP+u//f/PAAzAGEAcwB1AHsAjACgALoAygDjAAwBHQEkAUkBRwE8ATcBMQEoAf8ABQHvAM8A8gDwAPkA1gDCAKYAkQB+AGcAWABTAEIASAAtADUAJAAaABQA+//i/+T/AwDK/8D/o/+n/5L/rf+2/3X/eP9Z/0b/P/9C/zH/Nv85/zv/Tv9n/3n/jP+T/6H/y//l/+v/9f8FACkAQABZAIgAjgCrANkA3QDWAPMABgEjASwBKwFKAWABYAFuAXgBcgFhAVoBZAFdATMBHgEaAesAxwDLAL4ArACuAH0APgDs/87/rv+E/2P/Of8a//H+1v7a/tP+l/5u/mj+Sf4t/iX+Jv4k/i/+O/5N/mr+kf6u/uT+5/7q/gL/K/9r/4//pP/Q/+7//f8ZAFsAgwCJALgAqgDOAOoA7AD6AOkA8ADsAOgA1ADOAMAArgDDAL8AvQCEAJAAoACGACcA+P+7/6v/df9L/yH/K/9i/1f/Lv8F/wf/+/7O/qD+gP54/k7+Vv5q/qT+q/6a/rj+x/7G/sf+0f7W/hL/KP8h/1T/Zf+B/6f/tf/a//j/FQA3AD4ANwA6ADUAPABJAD4ASQBPAE8AYACSAJ0AsgC9ALkAxQC+ALsAqACJAGYAQwAjAE8AhgCPAJkAbABsAPb/CADm/+f/3f+K/73/wf/V//3/HQD3/+f/v//p/zsAVwCFALsAqQBiAFUAHAD5/w4ABQBRAFEAWgCYAOoAAQEcAfYAyAD2AJ4AuwDEAKoABgFDAUEBEwEAAa8ApACtALAAzQD5AN4AvQC+AJ8AhABxAEQAcACbAJwA3//J/0EAhQBzAMn/4v/p/3//mP9B/3L/jf81/yb/H/8b/zj/i/8j/1r/jv9O/67+GP78/IL8yv2Y/s3/CP9U/X38hP13/jgA7ABeAer/gP01/zYBnwE5Ai4EdgQiBLABrP+k/rX9BP9cAHgA/P9vAYQCpAMdBQMFDgSEAhkAYf2I/EH8Mvvm/HX87/v3+kj52fq9+j77d/tM+sn5Uvok+138Bf2E/dv+2f8qAHQANAEuAAn/EwC4ACoBXgPmBLIE9AQnAmgBKgDh/wQD+QMgBWoEqwKcAZsBQQLcAtICLwODAhQBdQBUACsAOABxAHoAGQFcATsBqQE+AA7/4f5B/1cAUQGpAjAD4gH0ARECUQDK/8H+vv0v/7wBzgEvArcCdAJbAh0DfAM3AkEBfgC3ACQCUgLqBHQHEwYHBdQDSwCO+6P85fuN/R4B7QVKCX4FqwEE/Zn9zQAB/sn9bAMyA3kG5gUtAY38A/Ye9cr3C/ir+P/64/oz+gz+yv+0/Lz7Q/wM/ar/fAH//3D5OfeG9uL1KfcQ9z/5NPxIAbIC1QO0Acb9XP2G/eX8gfzU/Mf8/Phm9mX0kfQZ+yABCAPFBuQHqQbWBx4Dvv0i/Fn4cPnO+8r7Gv1M/2MAsAJoBbAEJgRiAiEA9/0//K/51PnU+iv8bf1n+3P9IwOQB7kNIwxvBpUEKP+l+6r5xPmc+0UA5wQeBiMFFgNyBeMIQQwxDesIBwWYAHb5DfRi82z02fqfAdQE/wq4C1AJwQpfB+sAeP4X+gL1xfSk9iX5FgEvB6AJ/Ax2DEAHcwJA/vr7Df13AZQFkgXRBvMF0QNlAtEBugDkAFIEfgWaBEQDPQI4AWQBJwGsA+8CeQGSAAj5jffV+ST+1gVcDBgOPQzhBSv+B/ov9Hnzn/Ur9T/5cvs5+7X+fwC5ATIHiwksCRMNAg4DCywIjgJT/S/92fxU/Oz6I/la+/z/9wHMBawFmgeoBvAA3/3F+vH4Pfd59tb3lvy1/AT+JgAU/X78qP1G/vn+8gJIAfUAEAHk/sP+Sfus+j/75Pki/aYE/wh8DOELFgewAJP50vNg8rnzYPOF85X1k/YU+s3+fAIMBLcGfgdCCKsFJQGF/YL5sPeV9R721fh9/ooFOQo7Cs4KFQlLBNkCywHD/vf9TP6v/LL+YP4o/Wn+Uf+tAQEBvf7w/OD9hPz1/u4BjQK5Ae3/5f0j/N77zfwr/8cASQMlBKwEyQJP//r+tfxF+wr++v/dA80HyQTgA4MCE//d/9X/wvw8/ff/EAA4A3sEigIpA6QC6P5l/tD/oP14/GL7xPij+WD9MgELBiMJ7Qi0B3MGjgRpADf9F/qW9/T3Efkn+iv6LfzS+4L+bgAw/6MA0AJ7AqICZAIC/3L9bPwb/fkAxQMrBkUHsQWIA7oA8fwK+7D7gv6zASEGGQmuCmUIRgWSAjAAA/tB+BD2XfUn+Tv8lP+FAQwEoQY5B0AGuAPo/8f6rPau9N3zsfZp+NL7aADHA5cFlwSaA+4ATgByAML8FfzN/Xn/fAFdA5oDrwPOBHQDOgKVAVwAuwCC/m77fPwF/Bn+tgESAnMCFQRaAToDzQRuBNEHTQfVBEkA0vs9+U73v/cf+O75iPvQ/rEBOQP/Atv/hP0i/LP5tfrs+037XPwa/Of7Lvyi/LD9jf6w/wD/JP4H/WP7ifvu+gj6Y/sg/TH+0AAPBMAFmgeICOEJYwlUBhoDMf29+f/5zfthAFkF9gmsCxcLeQguB1sE2AQdBNMBIAEE/4j/GwGJAQUDxgMVBLAERAWPBhwFGgRDAiAAFwCEAMACPwPcAs8EPAaNBvUGjQVTA2UCKwEt/2sAVf9U/cL9kfx3+7b65vqe/Jr9tv4jADMBrwFkAZkAVwHQAbUDsgV/BZoGLQZFA14BH//K/Rj9IPzd+3b92v0P/1z+rPvY+FL1VPKJ8GPveO797Z/ux+4B7mnvRe+E71Hw+e/h8ZHy1PGV8orybvOr9Cf2cffr+ED64vq4/Fr+4P/K/2oBggSJBWIGZQZZA6MCjwPkAx8FjAVQBbcGIAjRCUEMGg1BC1sJ2QfRBqEHjQjvCTkLTAv2C0wNDg42DUgMdgscDOAMxgwwDHcKpQilB/IFTQSPBDIHWQujD24U7BhrHL4f0yKlJBEl+yMiIScdKBgmEq8LFQWM/kv51vXi9K70W/VA91H3JfaV88nuuemn43zcfNbl0unQPNHs00TXndpK34Pk0eiu7FnwSfSR+LP7Gf7LAMkCFgU0BykIcgkGClwKfAtqDLYMXg2IDbkM7wrwBrsBRPyG9hXyA+9U7PDrC+2C7RnwIvKG8xL08fLf8Qbv4+wo6yLpG+jT5+foxuo77tjy6Pcz/oIEywnNDQ4P0g03C30HEAQLAXf+tvyO+5v8Nf4wAR8FQgkaDvERKRVxFpoWwBVyE/YQMQ7VCxULIg2nEmccgShANZVB+UvwUi1Vl1KfS49ATTONJTsZZA9RCDEE2gHaAMIAWwAB/8j8efht8k/rMeOl2qLRnMhOwJy5VrU2tJa227txwwnNg9eB4eDp9+/X8yP1OfUw9T/1Jvc++gn/CAV0C8oSZBl0H1ckOSisKqUqiSj4I9EcCBTzCWT/G/Y17v/nLeTQ4jXjN+XP50rquesn6xzp7+V34rTezNs52qfZxtpf3Q/hieVE6jHvJ/Tw+Nf9sAEOBMkE7wNUAgUAlf4e/Y78hP1j/x0Dhwc4DF0QAhMTFJcTzhGmD5UNRAwADfsQghhKIyEwez3GSWlT9VjMWTdWnk4vRKQ4PC0cJMgdJhohGRMZThnzF30Ucg6OBcz6c+444s3WZ8zrw5W9EblGtlm187UMuKy7hsBzxgzNiNOv2ene4uK55frnROpO7dvxbvgcAaQLHheEIqssuTTnOag7PzrnNYov5SdpHyUXWg9RCC4Cs/zP92fzlu/064joMuW14eLdPtp71oLTyNH60OPRDNRx12Xbmd9f43jmgukM7MvuG/I99ZP4vPsf/rgAIgORBYsIbAs9DiMRSBMsFCwUwxK+EE0PUg8REnYYFSIxLro7MUgKUpVXxFeZUupIZDwvL8gjzxv0F44YyRtJICIk0iSgIZQZaw3R/g7vB+Do0o3IZMHnvM+6lLqBuxC9/L5NwR7EQcfSyifO79Al09HUk9bz2Kbce+K16nH1HQK2D48cOyeaLjwyazL5L0UstCgWJvQk4iQrJfskYCPBH98Z2xF2CG3+z/Qb7MTkBt952jnX2dSH05bTk9SC1uHYXtuK3SffHeCX4NbgR+FR4l3kquci7HrxfPek/QsE0QkWD54TsRbPGCQZSxiFFowU7hNjFXMa7SKlLkQ8ekm9VG9bYVz3VtRLRD3jLXYgHhf9EswTOhg1HnAjVSVyIvAZ0wy4/PXrVtxOz6vF9b5Ru+G5YrpIvP6+l8IpxvXJcM2G0P3SddQV1SXVfdU210DbhOLI7Df5pAZxExoeoCViKZ4p0yaCIkwexBunG6Md5yDcI2AlmyQpIWgbexNJClkAnfbI7XPm/+BO3TTbKdoh2jzbSd0d4A/jX+Vj5gnmY+RY4mzgAt+H3j7fc+FS5fjqq/Gd+C3/aATiCPALxQ3gDucOTw+SEBQUABtBJXUypEAPTntYVV7wXsxZ+E8KQ4k1EypNIlQfWCDaI4wnGSkNJ1Qg2RU/CCL57+mO213Pf8WIvk26hLjGuJa67b1rwn3Hicw+0EXSodLB0avQn9Da0l/YMeEp7Q/7eAlqFjkg4yViJ1glUyH8HNgZuxjNGZ4cCyBDIzMl6yQqIsYcLhUgDKMCOflX8CXo7+B02/7XHdfL2FjcE+Gb5Q7pYuo96R/mFOIF3jfbKdpG22/eMeMc6XTvhfWu+tr+5gEZBFoF8wVGBm4GpweBCt8PTRguIw4wRj0eSQVSp1ZJVtJQjEd1PNAx/SnMJWElTScQKssr1iqTJpoesBOWBov4Jeso3/7UxcyLxqzCF8HIwYrE1MiBzVzRm9P+08fS7tB9z6vPl9Lt2ILihe5f+2cHCBFxF6kadRvrGvAZGBnLGA0Z9RlGG8McAR7SHgIfWh6CHMkY0RJyClUAmPXB63nkZ+CE3x7hSuTU57zqKOzb6+7pseby4pnfQt2N3IXdIOD846noVO1g8Vf0D/Zq9gr2cPVe9ZD2/viI/f8CaQkjEFoX8B/wKBozeTxARBtJjkkyR6xBNDseNWEwSS6DLQkuUy6gLJoohSGNGH4O2QOy+cbvL+bk3GrU5s2eydjHZMiXyoHNRdAJ0nnSttFZ0MnPENHt1Grb7+OY7Sn3uP/UBnoMFxHUFPQXYBrsG3EcExxWG5kavxrVG+gd+R+iIA4faRpHE4IKhwGW+U/zAO937FXrxepO6uHpYun86IboJuh55zzmduRW4vXgoeAO4vbkoeiL7FTvZfHg8Tzx/u9t7kbuI+808jv3bf2CBDILQxKHGS0hlyneMVA5xj4qQRNBhT5+Osg2ijM3MpoxczHlMN0t0SgOIW8YLw+cBdn8lvPD6sbh+tnz08XP982VzdfOJ9D40GjRytDLz2rPytBM1L7ZreB36FnwnPd2/lQF8wvFEZwWQRobHHgcsBvaGl0aoxoXHOQdnB+bH+sdKxqyFCIO/gZLANz5dPSW77LrPemm53Pniec76LHoeujx55vmhuWB5P7jbuRM5RfnOum863juh/Ae8qzyY/Kt8ZTwX/C08Ljyj/Zk+3QBQQc2DawTAxqxIbwpSDEbN9s5DzvROcg36DVzNFc0IzPZMQQwnyzYJ2chHRt8E3cLewLb+G3vZeXS3XTYi9UO1HrTA9R+0ynTqtKd0mnTFtR11qfZh91B4mjnUO6p9Y39vgV1DLoRrRRiFqEXNBgEGWoZpRlwGdUY1RgAGTIZ6RhGF7YTTg6YB38Ag/mQ84bu3+qE6BnnU+cm6GHpLeqI6lfqZemA6C3ngebA5bjlz+YV6WvshO+18p70ivVJ9ZL0+fPf8qXyZvMf9kP6eP9eBVELZBHRF7wfXii+LwE1pze8N1Y2WTRlM88yGzLKMMkubiy9KPwk+SABHNAUNQwjAkP3Nu0p5HbeaNrG1/TVg9Ql1IHTk9Th1cjWj9dW1yDYqNnx3AXiT+ia79r2Sv7jBNIKsg9/E1UW1Rd5GAQYDhcbFsgVexaWF70YJxlBGMAVzRGdDOIGvAAy+vbzte726rLoP+gy6cbqYOwq7WXtwOzH64fqqek96croRul66ursHfCh8y73CPk8+n75dfej9UHz5fKT87H1VvmY/SwDtwdTDcoTfBpIItIocC5sMdExDDF3MN8wHzBiLzAu+StxKbom9iR9IisexheiDzkG//sD8+HrHubN4Crcy9iW1p7VL9aI1wjYW9cr1pXVwtWg10Lb0t/F5G7pIO8p9nD9pQQdC+IPGRKvEhETwhP+FKIV/xV/FtwWfBefGBcaXxrDGKoU4g7WCHUCiPxC9+DyG+9L7DHrdOt/7EvtW+3m7Ozrgeo56ZToOugq6Hbo2und66ru/vFy9FT2tPYH9tX0SvPD8g7znvQ796D6w//3BO0JgQ+UFcYcnCNfKb0tFTADMWwwijAEMXQwLC/9LNEqlCg1JuAjYyFCHYAWOA71BcH95/Xm7oDoyOJX3e7YotY81lrWGdbE1TDVfdSC1PfVeNhe20rek+ES5qHrMfJw+XsAewaRCrkNfhAgE8sVbBcQGMMXSxd3F4oYNxpCG1Eb2xn1Fh8Twg45CicFev9/+fPz0+8/7RzsBuxF7CfsuOsk67nqoepH6rjp4+jz55bnEuiw6bfr1O1674nwbfHq8YPyY/Ni9KX1gvcE+rL9ngLkB3gN4BPYGjAiMCkCL/4yNTVjNZE0XzRkMwwxPC5SK20o7yWDIwAhEh7EGIYR8QlXAoD6NvLJ6o/jbtzV1nnTX9Iu0hrSSdK/0mrTXNQ61uXYKttP3UXgF+QG6RDvsfUw/BACXQfeCzQQMxQ1F4gZhhqJGm4ajRo8GxEczRzNHKobyxkcF7ETqA+7CtsEu/6a+NvyTe4K6+roqufV5irm4eUw5oTm3eYO57vmQubf5eLlg+aW58jo7ulb66vsT+6i8EHz7/U5+PT6z/0WAUoFIAnKDbETbhosIvMoei57Ms81QjgMOEE3UDZNNO0wFiwdKKMlMCPPH64bVBeBEdsKeAQX/rf2P+4G5szeu9gf1JbRndDdzz7Pn88T0RzTmNUx2G7aedzs3oXiReee7EnyQfgo/uIDtwlvD3UUXxhFGxEdEx7UHkYfqh/nH7MfGx8JHmYc1BmWFo4SkA0NCDkCOPxK9sLwIeyU6CnmSuTT4gLituEO4gbj+eOX5MHk0uRD5VfmuOf56M3pkOq261rtrO838gj19vfH+gP+rQEkBq4Kaw51EvcW9hzmI9op5C4zMqkzXzRONTE2cTQyMeot2Sn7JUEisx+9HcwZjhODDWsJJAST/UL3ke8N50nfX9lf1ZvSEdDrzWPNj823zn/RlNT71p/Y8NoP3r7hqObL65jwZvXE+vYAgwcCDr4TXBjUGzceZyCwIikkbCTnI+siziHvIOkf4h28Gk4WFRENDBMHmwGY+1L1Me8f6nbmBeQ/4uXgv98839rfJOFh4o/jGuQ+5P7kD+Zj58jo8Oml6qfr6O1c8LXzh/ek+jr+GQLlBUgKbw/wE4AXJBteH+8kZisXMHYyrjOuMww0lzQOM3owGS0EKWUk6h+jHLQZ8xaDEfwK2wVlAF/72vUH77zndOAq2n3VttIw0MvNw8w2zJvMvM7c0SjV6tdO2iDduuAz5TbqnO/D9Br5/P0WBI4KyhDSFQAaBR3nHswgiyI7JKIkhCNGIiUhDyCVHoocnxlWFUgQ2Ap7BWoAxvq99FzvVeoz5qXjG+Ja4TDhUeGx4aPiIOQ75SzmxOYL54vnEOiS6GDpwupL7C/uJvGK9EX4yPxDAWIFXglmDX4RuBX8GU4exSNBKTotkDCkMuIz8TTMNcw0ITE1Lekp9yYhI0AeoRp+F1ASUgzFB7oDEP6O93jwQOlk4jjczdcL1MfPBsyVyq/K3so5zO3OqNH005jWVdqf3vviO+du6/zvrvRF+s4AygZZDJMRiRYGG80eQSKeJM0lBSaHJTUljiSoIzIivR+3HCcZmRWXEdMMjQfEAc370fWR8DHsAeh+5PHheuDo3+DfbeBs4WTiTuNR5H/ljeZ352PoE+l66UXq2ev07Vvw//JJ9vX5zf3FAecFbwp4DscRPBUrGSAeaSMXKfAtoTB1MjA0iza/N5s1UTIlL2Yr0SaGIkcfOhtoFjMRUQyYCA0EEf8J+jPzf+u85EHf49mU1LrPisvlyKLH2cd8yZrL4s3i0IfUUdh93D/hmeUW6evsjPEO9/T8cgIbCMMNFRNDGDUdjCGrJHsmHifgJnwm0yWpJNAiUCChHecaLRgmFV8R2AztB8UCjv1M+CLzIO6o6ezlEuNv4WLg5d9E4Nng3OF649Pk+uX95tbnYejl6LjpPOo1643sNe4g8Vb00Peo+57/xAMZCGoMkA9SEn4WShvrIEsmOSrXLUsxUzRJNjE34TZ8NV4z2y4AKpomKiPtHnkZyBMeD7sLtweLAmD9pvcN8S/qX+M23dPXGdIhzKLHc8X3xKHFJ8cjyR/MR9Cw1EPZGN7E4hvnK+s37wf0ovku/0UESwnCDrUUqhrTH6QjfCZaKCMpGimSKGonWCWKInQfkRwhGjMXhROuD3kLIAeqAt396vjz8xDveuq75vPj2OFZ4FTfEN/J3wXhcOLs43PlpeaF55roXenD6VzqEusH7GXtbe8Q8kH1oPgd/P//1AOdB8cLdQ+YEg8W3hpUIBImiitELzIyQTV/ODg6VTkoN6Y0AzIBLUInXiMpHxgaJRTdDu0KNAf5Ag39Cvfz8DDqxuPd3ADWZ9ALyyvG4MK8wSXCa8OGxYnI9Mwv0kHXZNyz4cXmo+t68GH1Y/q7/xIFZQoFEJQVaBvwIDQlUChTKsQrNCxNK7QpTCeDJCMhuR2eGlcX3RPoDxQMVwgeBLD/FPs+9kXxgex/6B3lUuIl4Mbecd7T3rrfSeH54pTkWObP5xjpQ+ow68jrRexK7R3uQ+8n8XLzbvaI+dz8OgCRA9UGKQpsDeoPJxJEFXsYUhyBIpEoIC0rMIwyszaEOcg59TeWNaoyuCwaJxAiLh58GqITrw3wCRUHKQMh/pj59fP+7PLkld3318LR/8o5xUTBB7/pvq/A4sLWxT3Kms8T1bja8OCG5wjt7/BO9R379QAmBucK7g8EFRkaQB+XI0cn3ikkK1EreipxKSgo8SV4In0eTBskGHsUAxFpDasJlwX7AKX8yfib9CHwAOw+6PLkkuIE4RDgut/X317gV+HT4mHk1eVd52boPuls6sfrJO2r7irwpvGm8971gPi9+zH+aQAuA9EFVwiaCtEN8w87EYITrBYmHKMhpyeELbIwFDM6Ntg6uTszOOw01zFeLYAmWyDtHN8YzRKVDPkIAAe7A3b/CvqQ8wTtP+ZN3/jXMdFBy27F9cDGvj6/J8H6wsDFPcrZz+vV+NsD4ibn/esk8eL1h/o6/24ENgn9DEIRnRaeHAshxSNSJvYnzCiLKJAn8iX8Io4f7xvRGCIWPhNzED0NFQqABxkFWQIC/w77rvYo8uLtOupI54bkKeLa4KvgYuHm4v3kAOfh6KHqX+wT7m3vVfD/8J7xHfIC85b0M/bw9+T5xvu3/c//UAJpBAgGiweKCEYJ/wlOC2sNsg4cD90QkxTNGXofjyVWKn4sfi+SMms0PjMKMH4ugip2I5kcSBkwGL4SYwz2CK8G6wN1//n7LPjx8XnqD+N83XTXq9F2zcjI2cQFxMnFscemyQ3N0NGR1pjajN/L5efqAu4X8W31ifkh/ScBCAXKCO0MhhFXFsEafB65IfYj7SRNJWMliSQaIlMf+Rw7Gk8XYRSJEQEPggzyCVEH3wQdArf+Xfvx95v0qPGF7qjrcuny5yrnGuf05/ToK+rf65TtXu8b8TXyxPId8/TytvLu8lvzffOl8yP06fTS9uP4pPqH/Pn9Hf+5/78A8QEqAj8CMQG6AGkBywFQBC8HPgoBDukScBoIIs4qaDEBNMQ0ozRSNwQ4vzPuLUAp5STfHegYRBi6F2sTawybCHsHfARn/wb6PfMt6jDhb9rx1CvPHsr4xSHCsb86wQzG18kazADPjNNB2GvcN+EC5h3psOq67G3wc/Vs+5cAxAT7CJAOhBXNGwMhnyTmJosnpyYsJnwlayOlH/saRhc/FWgUlROvEuER3hDvDx4Pcg4GDSAKiAUmAI37gvef8/bvY+xv6dPnwecQ6R/rO+3O7urv6fDE8bjyhvJ38OTtkOuu6U/oiedo53HnEOjd6f3spPAY9GD3Gvpx/K7+HwEYA4sDfAPyA/8EDAZIB4gJgwv8DFsPqxK6FxUdqSKKKLMsJzCsM6c3NznvNj80mjFWLq0oGiJrHV8YVxKgDF8JUAc6BPEA6P0a+273tvOh773qm+Qj3r7Y3NNyz/fLlMm8x7PG78cOy9LOntKG1qPa7N7d4vzmUetc7o7wrPK89fP5SP4OA+UHpwy8EQkXvhyuIWkl5ScPKS8psCjyJz8mTSPKH08cABn4Fb0T5RHHDzENiwpECAcGHQOb/4r7nfZv8dbsDenF5frivuA73wDfx9+O4e7jHeZQ6ArrlO2m75fxPPM99LH0uvR99Yr2mff/+Dr7C/60ACAESQeECv8Mwg5wEAoR8xAeEO4OZw1lC9AJMwjbBgIGTgWrBSQG8gYWBy4HtwcACJwIcQhxCWQLUA3KD1oSaRW2F7QYxhmyGjAbSBp3GEcX1hSwETQPHw3BC+UJhgdlBc4DTAI3ANf9c/qX9pPy0O166WHlX+G/3YXamtjY1w/YA9lf2pXc0N6J4fHkFOjS6l/t5+/98a/zovXj9076aPz0/mgC7AWZCRgNhhBsE4wVThccGAIYxBbVFAUTEhEFDyYN5wstC3UKFQpLCrAKvwouCpEJZgiHBswD5wAo/br40vTj8eLvZu5J7ujutu8D8Wvzavbr+EP7yfy//SP+mv35/Hn7u/na90H2ZPVG9Qn3APku+3/9yv/TAp4DuwQ0BUcESwTiAvsBEwAr/zb9FPsX+yv5pPkR+iz7sP0S//UAKwGdAskDkgPEAh4BfAAJAPn/lQCMAmEEDwY+CdUMshGLFqkbPiBzJA8nbygEKgoqbSlBJ38kkyGeHhkbsheiFDARgg1eClUIFQa5Ax4B1f2C+dD0sO8r6nvke97x2DbUbdDuza3McMzizCLOetCg0y3X2toe3lDheOQs54jprus37rPwcfN09jz6k/5hA/8HUgyhEAkUUhfuGRwcex3AHKYatRhEFzAWNRVvFREUZhNpEtoQoQ8mDRoLMAmbB3YGYwRYAhT/Tv0d+2X4OPYY9nr2k/Um9qP2sfVP95X2Tvg3+Ab4ePeV9mH2rfQ99enzTfVP9b30m/Yo+An5gvpq+k38W/2W/QT+1PyQ/bL9fv11/Un+AP8aAFcBsALSBBEE6wQTBRMFJwcJBykI5gcZCDcJWwhLCNsHSAj9CfMJUgmMCDgH3AYyCBIIlAi6Cf8IaQk2CkoJ+wlGCp4JTwmlCRcK9QkfCyUMKQxPDKUM/gsBDJgLSwsHC4sK7gljCRkJBgh5BncEMAPKAXoAV/9s/ir9tvv8+fr3APZL9Gry/vDO723uPe197Gzr++pM69frVexM7YLtWu2+7Uvu2+4j74zv/u8v8QTyzvK+81z06/We99X5S/um/F79Gv7A/jb/m//y/yUAjwDZAGYBWQJHAp8DiAStBIQFIAbbBtQHSgglCK4HTAeJB+4HNwhuCO0IDgl1CRAIfgiyBoAFQwW+A08EmQPSAfEAXf5m/Qr8pPu9++76Ifwz/Gb70Pr2+lv6Gvm2+Wv5OPmp+Nv5mPoS+1/7yfpj/Mv9of6aAQcCbgSDBXIIGAqzCQwKIgoWCuoJ+gllCsMJPQmpCfwIfQlqCUIJcwlICBwHNQaUBb4ETAPJAlIBIAA1AK7/lAD5/5r/IQHf/+r+2P1G/Kn8EP19/an+d/+iAJwA4wDZAMAAKAFBAmYDPQSyBI0FKAZ8BVcGWgYgB3MHpAbFBiAGGAbtBGoE6AMiA7kCvQHeAJAAJ/98/Qj8l/pE+uX56PgX+PH3w/ax9on2F/Z49W30dfNj8/zyKvIP8pHx0fGW87Hy1PJc84b0K/Yv9VD1I/fU97z35Ped+Pn4tvpE++P8Zf0V/TX+nP7Y/hgAZwHEAeAC4QL2AoED4ANYBLADlgRfBX0FEwYLBs0FpQWVBQgFxgN9A9AD6AOkAqcCjgJPAuABMAB2AKUA7gB6AIUApwAHAGQAgwDW/9X/EQHm/3T/ugBlABf/ev+q/9UAUwA6AVkBEAMTBZ0E8AQsBYYEVARXAzMFAgdrBzIGWgfzBZAE6gNJBWAGhASjBLwDaQX1BPQCxwNEAz4FlAWAA08EKQNNAxAD3wCCAdr+bP6bAfQAfgBZARIC8QGHACsCngFL/+3+Tf+N/G7+Jf7H/EUAtv4w/5T+Pv6f/GH8P/2f/NH9Y/7O/Ln8Tvxv/Wb8VP1Q/jn+mP5y/in92/1E/Uz7Y/5+/WL88v0p/eH9j/zE/Zb8Gv39/Nr8Dv1M/sT+h/74/6P93f+h/kEAcQFyATz/nf8+/kP+0/9v/0sAoQDEAOsAeP8P/8D+ff7r/3v+f/ws/ef9s/z3/Jv8Jfyx+1X8jvzu+/T7TPuE+236cvxv+7z7qfw4/Lr7zvu/+kT8hf7M/Hz9Cf6c/NX9d/5HArcDAAP4AmgEewXHBJsEXASeAbsCXQRCBbkGZAWmBp4FTAaqBzgGKwbOBckELgWVBAIEfgYABiMFZAOzAZgBMQIoAncB9gFnAfIBtQDp/9j9U/2D/g39a/+p/23/SgFk/8AAawC+/HP9MvxF/H37Vftn/Mr9nfw0/dv+rf6m/eP+QQAlAFAAaP5g/tgAeP7u/3T/TAFVAqoB4wF/AhkDEwN6AqkCcwPhAqoAAQLBAo4DCgQrAvAC1QCOAQgC7gLoApwBpAD2APsBOgIuAoUB1QCD/p4B8/+O/8MAlQDiAS4AV//r/wwBev/7/zUAcgFtAk4CZwIqAND/PwCU/wMAxgJzAT8AlABI/2D+yf+W/5sAHAG9AdkAjf8NAO39kP+e/iX8e/yZ/BX+o/yn+m378/ur+k/77/vq+4D7bvrM+W/4JPsm/Hf74/tW/QL+ev1E/Lz93/to/fb9s/7UAP/84/+JASkBDAKV/0cDuv8cAv8CYQKtAtYB7gH1AMcDzv8oANv/0f+vAjgBBwFU/zz/lfum+4v9UPxU/5n+svsG/3P6IPyC+oj8wPt6+1P9K/8Y/mH+gP7F/ZL8Nvxn/zoBaAI/AbgBwQMrA6gEmwGt//4B1wC7AZoAhADn/2gDPgZ/Br8FPAdUBgUJiAVrA94CuATzA64DSgUwBFMEiwPQBAkC0/97Aer+GQA//6D/If+G/on/OgDO/yj+wv7Z+hT9Uvv7+5z8pPxx/v79w/9R/fz8WP6B/QAA1v4I/yr/Tf9U/8T+pP5yAXkDSgQiBVMDGwM3BoMFwQQ9BBcD/AI9A1wDjgSlA4QFbwQcBbMDhAHVAlkB8gCAAzH/vf7y/YL8+/qW/WH+mwAs/lz++v/F+xD7PPeE99z7x/vR/pH9kf4A/BH9/f5P/I39SP3h/hX/hPyy/0oAi/1G/nb+jgC0/oz++wCr/uD/Yv5a/2gCtwPHAeD+zP73/rAAQf0d/tv8Xv7R/2T/JgBf/vH+kv+y/P79M/wK/QD8Q/zb/W79I/74/vT95/4f/aP7f/2H/z8AvAEsAMgA8v5u/9b/DQFYBoIEEQTNBLcEKwYfAyYCTQP4BKsDLQX+BGkEugRABYUFTwQnBOsDKAP2AdkBmwErApIDiQMvA9sD7ARCApb/Yf30/hT/Iv3D/kX+AAA+/9j//fy3+QP6tffq+j36D/lP+9n7nfl++MP3Dff6+qD4Qvu8+OH6rvo0+fL5ffpt/rX8//4G/pb9b/8aAeYCTwJFAhYD0ACfASwCLgKsA7IEFwhBCNgIUgeoBlsDPwIXBSkDLQaSBbwEEgYUBTkFqQNLBiIE5wNOAuQCKwMpBdEFAgMTAUUCnAJUAYsDSgLLAef/Qv4P/Ez8TvxT+0/89/ui/33+Jv75/Pn76Pvs+jX8Ev65AIkBfgHmAfUC0gHEABUBcgGTA4wFOgjGCsML2gsVC5oLlwpxCi8KiAmECRQJughRCYQJRwhfCGwIFAaKA8v/6ft8+ED3zfUT9F/yPPH573juruuN6x3spOtF7DrsLOy07LLseuwh7A3s7e2C7p/wTvLN8lL0pvUg+E77/fyb/af+bwD0ATgDOAP0AgYE6AQJBkAGGweTCecKBQyVDAcMiQx9C34KhwhVCKEHEwdxB7sIrwgzB5cG0QQ+BA4EEwNnAz0CYgD3APwAuAE7AZwBZAPqApUDsAOqApMBMwGQAOP/XQA2AR0CSQTOBIUEfwJa/+v9dP6z/4sBbATrBtsJ+AjCCKII/wYNBUkBZ/23+vL5Wfuw+6f7Xfux+XD35PTk8jHyD/Jv8sfxdfE488v0Ave596D4+ffI9in2cPRe9NL0oPY3+CH7Af+zA8wIpAnBCewHxQcSCKYIyAkVC8wMaw3EDvIOiA4gD+ENlQsbCREHaQazBc4E7QNdAtYBOwIyA9QDBgP3AKT8S/hs9Yn1gfYJ+Gn5qvi2+Cn5Z/uZ/+oEVAg3C+8QYxlmJAEtbjH6MFkshCW0HfkXQBWGEjkPAQrDA/j+rfsb+ZzzKewD49LYR9BAy8fIq8hRygHMoM6F0TLW0Nua4ATkS+cx6pjtGfNy+UABvgeADMQPgREZE64UfhUGFWoTbBCXDfIK4Ai1B18FLwLT/Tb5vPWL8+nxTPE98Kjve+/f71DxT/TK98z6Lv30//YCugYFCl8NpQ9KEQAS6hK7ExYV3xVSFXYT8xDbDrcMZAr0B5gFVgKw/iP7KPnQ9xz30/YM9qj1UvUN9lz2e/a89yj4fPk7+sz86/9jAs8F4wZZCMIIUQkoCjwK1Ar+CsoLKQzQDEQNpAwLDFQKLwiZBj4FogXyBpIIvwrIC+QLPwrlBkEDmf7d+qT4w/h9+t79XwFOA2oDXACo+3D19e746kXpJ+nJ6v3sGu/17zPv7exb6Szm6+Me49vjJOZY6mfvQvSt+HD7/fy9/Kf7gfxR/IL/2gIDBlkKdwtUD9kQeBJ/EyQUEBP4DyIPxAvpC9gJZQrvCrwIKAuoCtIMpQ7ND8kQbQy5CgYHyAROBdMFQAp3C70NbhTbHUsuszrzQHE+bDPKKb8eHRu5Gy8dux6iGGoQIQWm+d/uCeIE1q3J0r9yu6G7sb+4wzLF88LbvVK72LzlwYHK29Pd3cvnMPCN+ZgBWwjDDa8O/A1sDXkPlBTsGBEctBt4FwYRpAmtAvH8hvj29CzxUu687TvvZ/Ej8qbxX+8Q7hLuqvCU9Wb80AN4CQIO/RGUFUEZrxtUHB4csRs8G40c5BypHREc7BcJEgALowW+AFr9AftO9yb1LPLD73XuVeyl6lboaOcE6GnrePDl9Q77yf49AbgDkQVxB3UKgA1oD4UQSxKvFFoVgRWiE9sPLgtjBo0ExwPvAqQC+wBI/vP7V/oP+TL41ffX9xT5vPoj/Y//2gHNBGUG2wjLCXoJjgcvBCMCcQE5BUcP0BuAIywhqxWWBTD3a+596+rseu9z8a/xAPCi7YjpDeOl2HnO98oY0Dnd4+sX95P8u/mD8l/sdutc7+n2ivvrABgI6A9fFxQX4BMBDdIITgfOB9UPqBjDIYsitx3GFqAQEg8/CzQHqgPSBHEKvBA+Ff8U0RMuDtoIIwVcBUsMYBHOE1YO5QqPCskMug+zDAwMWwiIB9UKOBJPIQ0uqDLnKEgXaQl3A/EEEQeFCP4H2gOV/PDxH+gF4CzYgNBAx3XCgsTkyRTQu9D3zVPJRsQ9xJHHhM6Q2KvhZemd7m/yC/gV/UcAVQKBA1EGzQrnEMoWOhqCGhwXhRHVC/sI4wgYCrMKfwniBkADnP+W/HX5J/cj9Zbzk/OL9bD4cPtn/Xz9ivzI/JL+7QFlBu8Kpg6aEHsRghFmEVQROhGMEcUR+BHeESQRgQ/IDBsJKAVUAfb+VP0W/bf8ifuA+h74QfZ789fxp/EW8UfyFfRw93/6C/xB/nz/AAAdAb8CQwXYB6YKjQ1PDyYQexB6ENgP7A6WDvwNXw2VDOgLpgpbCFoGowMHASn/Bf7K/WT9iPxv++T5OvhR9zf3lPdF+E/5vvrJ/EYAJAdVD9cUYhK0CHr99fXK9JX41/9ABhcH4QCy9AnqceIn30HgoOKY5oHq8u167pXrI+cU4bDdvt0+5DXwPfu+A64GjwTwAVkBDgV8DEUU/RzoIickJyRdIasePRtqF/8WzxWuF4IaxxrxGR4S9gl9Atb8af4wAc4ExwVFA63/9/pj90L0uPQn9xP7wP7NAM8C3gKbAs8A5f7W/+4BfAVhCbcKsAo4CT8GOwTWAc//Zf9FAj0KwxPRGF8VGQybAYP6E/g5+r8ADgbKB8wDK/sW8/nriOdn5Q3k0eTl5Wjn8ufy5d7hZtz41wfXzNkX33nlwerv7S7uOexI68/ssfAw9kr8lgG+Bb4I4AobC6cKkgooCyMNHA/OEdYTmhQEExIPQwtACB8HsQekCEoJ4QhqB+QESwJnAAj/b/7m/oj/8P9dABsAcv+3/UT8OPtP+zX8K/08/pT+Tv5R/U38Qvsv+8/74vw9/n//ZAD/ANAAewACAJ8AFgK9A34FdAYtBxQH+AY8BhEGxwXxBSIGeAb8BmIHuQc3B8EGaQXkA/oClwJqAvIBcAFpAZgBDQJNApUCZAL1AVEBpQDyABoCjwPjA/MD1QKVAtQCVwMOBAIEJwTlA9UDfwOLA+cDZgMxAkcAWP8i/wP/r/5r/rX9yvwU/BP7lvra+Tn5aPii92n34fa69qT2SPbO9Yn1mvUv9rr2NfcI+Kr4y/n7+k/8E/4w/zcAAQEVAl0DvwQ7Bm0HSAjnCGUJ7gl3CmIKbArXCS4JswhiCC8IqgcJBzAGNgVOBFkDkAKcAZwAy/8L/3f+Rf5V/gD+Qv2l/Dz8nvs7+1j7fvuo+/r7aPzx/D79J/0Z/b38d/yN/Fv9fv5E/9z/0v9t//D+b/5P/lf+lv7V/rz+pP6o/rP+ef49/vf99f1O/pD+Nf9i/5H/nv8S/0b/Qf+l/48AHQGFAcoBqgGjAYkBeAGUAZoBiQGPAXkBQgERAfkAcgAAALj/c/+v/5X/gf8j/6v+aP4U/i3+K/5H/iz+X/7S/ir/dP/B/wAA2v+y/wAAlQC0AAABJgH3AEkBwgCfAGUAKABbADQAGADK/1X/4v4K/mT9zPxs/E/8+Pvj+7r7tPvc++H7D/wJ/Er8jfym/BT9rf1H/un+V/+e/wIARgBzAKgA2QASARgBDQEQATwBWQFhAXgBigFUAf4AuwBzAFUANABUAJcAqADLAK4AiwBwAIoA5gBbAcwBDQJMApICvAIWA1YDVgNzA14DRgMkAxwDEgP4ApgCYgIOAsgBcgH/AHQA9f+v/4b/rv/e/wgALgAUAOD/mf98/5f/3v89AMAAfAHRASsCRwIuAgkCKgJdAqoC/wIMA0gDGgMPA7QCUQLGAUMBxgAzADIABgAkABkADADA/yf/8v65/o7+hv6E/rb+tf6z/u7+2f7Y/g3/F/8J/yr//v5E/2n/sf/7/+n/3f/E/8L/qf/X/+X/NwAOABgA+f+p/4L/Yf9X/0D/Ov8V/7f+cP47/hz+MP4l/iD+Hv79/YH9Uv1G/Xz9rf3T/eT99/0h/kj+Pv5S/nX+mf7W/r/+6v77/hP/Q/96/3L/ov+i/2T/Nf/6/t3+q/7N/jv/fv+W/8f/1P8FAEkAhgB/AKYA5QApAacB/QG9AiMDVwM2A68CRQIVAsABzwG7AbgBrwFeAQkBqwBdAPr/wP95/3v/If/c/pP+p/6c/oz+uf6g/o7+Zf5k/pn+6/5J/7T/qP+q/6v/z/8dAFYAcwB/ALAA3gAMASsBLgFRAQMBeABbAFoAgwCaAMgA0QBIAEIAMwAAANz/pf9n/2n/V/9S/2r/Zf8e/+z+6P4B/zH/UP9e/1L/S/9Q/2b/hP+z/9z/+f/7/+7/6P/l/xoALgBGADkABgDh/8//x//6//X/PAAuABMACQCt/4r/qv+m/67/s/+d/6f/v/+//8T/xf/E/9T/0v+8/7z/x/8AABgALwAZAA4AFwAgADAAVwBpAIYAlQCfAJYAhQBhAGQAZwB7AG0AVgA9AD4AUwA7AEgAKAD4//j/6v/u/+P/CgABAAMA/v8LAO7//f8EAFUAagBxAKYAegB3AH0AVACHACsAMAAAAOT/GADh/w0AlwDkAoQGnQYEAjj86vjF+Mv65fxLAHwCaALpANT92vzl/Cn+hv/j/5cAwABHAckBnwA0ASgBRQEtArsB/gG0AV4BSQDy/5oANgEfAjECtwJfAnIBqADn/+D/NwCiAOgAUwEeAdUAwwB0AJUA0f/9/hn/CP9+/xoAWP+H/q7+Hf+p/9r+7/4n/2j/7v4//en91v4ZAI3/av9S/wH/cf8o/zT/WP8AANb/dwA3AG0AXQBhANEAJgCZAHgAfgAiAJ7/1f/g/zYAAgCyAMwAFQAyAGgAkgDy/4P/6f/+/+z/+P8oAHQATQDi/6//Tv8K/6T+l/5a/pz+U//B/wsA8/+W/5v/nf8B/5z/nP9EAMEAoQC4ATcBLwH2AMYA0wCPAL8ASAASAGL/rv7N/n7+Uf6Z/tH+Qv/4/r7+ff70/f/9I/69/iP/I/9Y/9b/RQAFAGD/PP+r/3wAHwEOAU8BhwG9AbIAWQByALQAjQDDAKgAnAAHAR8B9ABmAN3/JP/q/n3/tgBhAQsBQADR/6P/u/8DAD8A2AB6AQwB9P9i/6v/TACPAKwAoQCqALoAzQCEABgAav+c/qH+ef9KAMsAsQD0AAUBHwBL/2f+Gv6D/pr+8wCsAbUDIAXeA5wAZ/u5+dv6rv25/rL+YP4qAXoA+f6R/RX++wBlAlgDiwMABBcCVAE1+2v19PjE/1cEyAWvBncGNQVLAE78rfz/+g0AwQFaBJkH5wKJAgj+Mv4A/K35fPpy/eMDHQWQBKP94Pia+tv7HQB+AcUDGwNPAAEBcPwD/fX7Vf1wAPACDATqAA799vzH/Z4AKQDn/XH8OQE3BIAEgv+J/+f/DADp/9wAkAFXBYQCOwJL/rn8/v5g/xYFfP73/0YB7ADh/hz/pwF//tz/df/wAkMF9f8V/8T+RQBP/qX+jwEEBZQA3Pww/q3+Ev9f/ucCVAMyBOH8DPp0/Kj+Lv5R/d//zQPRBJcDBf58+wr6O//xAOED/AGYAKsE//+6/GH4aP69AiwEZwX6ApX60/WD+iL8zP4U/P//yQS8B77/RvVJ80D5bwHwA9AE7gbHBpsCX/ku8y72cwKMCFEIkgnECaEHlwHz9jXxv/SQ/XAGMQvsBKAHCf50/Uz1q/Yd+jL91f61Bq8OsgkD/vTxPfmzAa4BRAJ3BGYI4ANNAiIDTfha8bD80AlxE5oH5/j497MFmwXC+MbvJfvCDJcLxwDn/cL/WgHW9EH2WvioB9QMDAej/4/9K/94A7Lza/9B/sn/pQkWBPIQpf9X+ET/I/83CfD6u/uHAvgIJwdK+PICLAbXAxnyGu/V/ZAHRgMHA38DnPxY+QLwwPt5Bo0Hbfrq+6r/3AfMAj76XfvW9yT52ggsCmAFwP9uAbv6jvWU+C4I5hL7+/Lzl/uIFOYIyfSo90AMfBWY8r7tZP4xFyYJCvX6+MoJrg1s9UvzGfpzCQID/fu3+0gGsQtrAK73QuwsBdMF2AFB+xD94AYlAtD8Sv9WBc4FFfEB8Hb4qBaHGiv8WvE5+rYHHwTN8Rz5cAeGDP8BPfU0/4QEHAhK/AzuxPecBzYSaf9c9Rj3vgoPA/L4hPnyBP4H4fjn/VQGeAMD+XQDnwZH/1XvQwCqClgFgPw19ooL0Q7E+Wrqs/bIB7YNlv2F+eX/GwRWB6n2IfW6+xkB1wh8B4cAz/k4ARIArQpa9SXvqfzoCPwPkQSp9AEE5PzAAQ323vrPAjoDKQgvBbn5lfTTBAIBLwTw9un3UP4OB8QTnQOk+YX46/0vBqP+N/XzBEsHQQ39Ab78/f86+n0Ba/lc+f0BaROGDQQHc/eV/cz7RgMx/1Dw9QZTCPcIJgSOAAL2M/iKAKcCjfqOAiwGcglWAPzymAA29/0ARv16A1b+QAW0DHP/6/WJ8V8BxgNX+zIHeQDhCRQEIfOfAdX0QAC/AuAAqfuWCZX98wAP+6j1IQKa82IB6wOhBnkAlP92B6X6gfWl+nT+BwG/AQoHbwQT/p8BNf63Cub6M/VgAz0DWQ3+AtQDnQWh9tj8Fv0tBMcACQecBEQH1P1u+G37KPl7D2H5EAQYAGAGsgSH8dP6mfycD1n9OvhYA9cEYwjg9p370f7wBZ0CI/gi/a/+/gOY+5D86wMEBbsFcPnQ+rf+5Pnv+7T++wrr/+P9+PztAeIC4PnbAHYCOgC8AWsBlwqn/jz4MP2SBGf+oPrB+14LIQl//Bf9Tfsb/NkDQv4XBnoFVwVtAd326wKSAVD9W/poAPX/kAr0AJ/+NAF7APD6ivuR+gIDygcc/hwHif8Y/937gf+jAvr+bQHyAQcAUAKa/KX5zf8UAij/e/55+McGFAVgAu7+fvqvAZgA+vuO/zIGUAEvA3L2+f0WB4H8zQJW+JEDAAG5/7QBzQMLBrX+AfYi+0AFqAcFBNL4zAb0AjD5f/kS/vQBMwBg/LcFeQSXARP/Jv/8/foBBf9g/oQE0f0lB175c/6g/gYBmQIP/k372wN5BYv+GQJ28ywAnQZh/S4IrP5h/rz6av1iChb9YAPi+mP5fAdO/sf/xgJ0/sQG5vVE+MADjv+8AAD9ZQBo/d7/Uv2uAgcBlPz7/xL+Sf6v/5gDogaGAIcCxf799jv7ZgQDB0YDhf7l/2MA9glqAEP7Wvdo/i8HbAZyAOQC6AG3+/T8OvzTBM36d/wOCMEJxf7a9EL81AMiBMX4+PbzBMQLKf9J/XcAAgOZ/Ob3lP8eBFL/6AK3AZf87/+//Y38MQP2/A/6AAWKBVf+Nfw7/SwBqQD9/zUGD/04AeH5iwUUBq/40/7eAQANlAD/9hP7QAAcA0P/gPoXBRQKTQNd+XD35vzQAmL4vAAJBlMGJAbF/D37dwDG/iX3qQEo/cAK2gKIAIsAJPkBBw//EvnL+AD+tgvFBI4BZf3n/RACSfny9kL/gwY8AiP/zQKSAYECggAn+ez8L/wW/jkMywBPAkoE9gPG/r31n/2v/u4ClAW4AUv/WgTmBSL7LACi+MgBRgI/Az8H3P2bAzH/F/oe/9P+DvthABr/LQeP/Kz7of2KBuX9O/t0+5UAVwkt/jkB4P/i/+cBtv7p/En/cAFgAqMCJAKtBSQBef7R+578HAOEAYUEg/txCoT8hvwI/ZX8KAbs/ZQEbvsmAV4APAcrAOP4AvjS/sYLAwLb+mH6VQLSBTEBAvrM+8cC1gVbAND5/P41Bef/dv4m+j3/vv9iAjYBWwNYA9T6y/yEA/r9EAJw/psDPwCrAuMDzvUo/WT6agvK/8P5t/+tDEIKofQB+pUAngaW/8by8ABHD2UGr/oM72AFGQkG/nz4YPjaCCUBswax+tD8IQEhAwcDqvgQ/ZEClwXoATX81fkWA7UF4fj7APz9NQZk/SX+8vwBC0sBUPrF/nn9mwep/en7Uf8bB+b75wU1+4UB0gHn/DgF+PJI/t4DYAc7ALD0ngCsAlEAuwA9APf5fP9CBHIBhwM+ACr/TvyJ+f79BQCyBI//ugUVCAD9fPkZ+Hn8i/8fBbcAsQJTAxj/iwO+9o/+xfq7+cP/NQbeDf7/6PyV+07/W/1P9df+oQX+DC/9kfqgAawECgG+9rv9jQITB5sDSAHOBfYFn/q8+un96QXX/wX7Dv/iBU4Hm/zS/LH/av/h+xv+3QC7BSEDUQCA/Eb//QGs/Ov9IPxMAx8BSAONBIAAzf/a/rD5Xv+OAjUIpwIP+3UDnAJyALT4xfruAtb/Of0QAtQD7AXx/sj61P9B95P8Iv+mBHcATwGRAj3/QP9Z+lL/wwCEAHkDlQCBB7b9JvvE+hUAhQFEAmT8bwRcBQEAi/8gARMGUv05+RwA9wUgB7//0P8PBAQFE/6G+P3/tQX5A9P8G/2z/7b/m/4N++D6qP+RAfcAf/9aAVYD5P0G+xD8AQRUBVIAp/9f/c3+/v/U+VL6x/98A6QAgf3MAqMEGQHy+bP63gA6AJgBfQGcBroFAP62+qL8oP+MAGwBJgNGBEcD1wIIAZr9S/71/z//iAOmA/4GXAeYAHv7AffJ/Pb/GgGUAV0DQAOH/4H8ufoe/aD7N/1S/tkCjwYCA1QBI/2a/AL9Cfto/YQBDgbKBqMAKvotAF4CwAIg/CT7zf8HBfIGMv3u+g78hP6G/dL7uPzo/gj/tf26/oH9PfsK/IT+pABG/aj9hgFJBe8Bi/yr++f+oQP3AG4CogLxBlkFtgCg/9f9QQEw/80B7AMUBdgGlgQkAgAA2f4z/+T/hQOSBuMHKgYNBPkC4gCr/2j+G/8p/zkBKwChAG8AsQBl/2L85vuM+5T89/zU/Pr+qP7y/u78Pfy4+4X6ivok+pT8KP5+/Xb9tPnQ+YT4UPe0+QL9Nf4e/8b+Y/+N/tT7j/wS/Qb9W/9lAbwEQgVJBMwB0f4e/gD+FP8CAeYCJQSiBDcFkAM7AiQChv+PABMCWAQsBbkEXwPKAEYBagCFAfYCEwUOBTUCUgEXAeL/7P4I/xMBZgLuAV8BaP+s/Vn7w/ox/Mb9xwH4A3kF5ga9CQgN7RAsE+0UVxilGRQbCxskGvQWBRMDEVwQ5hCgD2EMugar/s32gPEa7gHqW+b/4mHg39zp2kDaINch1WzTvNTh2Ibd0uJF5ojpXuxz7yb0XPm0/qkDhghlDXQSwBXlFo8WyBRzEmMQPw/zDiEOIQwhCtoH1ATJAhsAk/wt+RL2YfWx9a31NPbK9ef05vTS9aH3ufn1++T8R/6GAIgD7wYPCD0IDQceBkgHwgcXCAIHTgSIAXn+X/5R/aP8uvlv+H73TPfL+Of3VviA9mb33fmr/ZYCOgSoA+UA8wGOBCkJoguzDHkNsA2VEIUSaBPEEbkPsg11DX8PABJ9E5wRow12CnQLfQ6cEhgTExCuCyQH6gdmESwj1jMUPJc53TFEKmQi4hoHFaARmhGkEg4SkA+HBZP0AN55y5zCuMJZyDbO881YyNO/qbgOtbq0U7i8v2DL7NmQ6S335fyH/Ej4X/e5/McHshWTH7UjTiHWG2gVgg1bBpr/cvoZ+DP5ZPoa+ELyIumg3wTahdmm3kTmJO1584b4OfwGAHMEiwgQDj0UnBwaJcoqSC3OLGUo9CLZHzgfYyF+InIhiRtmEagEVvm17sfkcd6i28Db/9uq3CPbe9cf08fRxNUQ3dHmi/B/+An9XP+rACkCrwQrCOEKFg40Ed8TjBOfDkUI9ALI/zv+av0C/9X/E//E/D35Xfdo9mb3XflJ+9v/RgTKCEILtQ11EVQWtR0DJAQq6it9Ku0osSZqJxoq6C3KNllGPVdCYOFY1ESvLbgZrAy2CBAMxQ8cDL//Se9i3vHNJ76OsbyswLCUu6rHWdBy0mzM4sO3wN7F99PA5Yz3ggXaDRARGxFsDcsIBwTbAfwC2Af/DNYNQggJ+13rPN3l0xDSUdSz2ejfDuT85Szmx+UA5l/o3+3p968FhhStIQIqwy1+LE4oryMqIXUhCyQuJ4snbSSPHMcRIQa7+mjy2Ov55mflVebi6b/tDvE08mXveevx6S/v6vfZAawK+Q8BEhoQuAzxCa4F6wEw/uH8rP50AVADBwCw+LbtK+Qc4IXfPeNS5u7okOq/6kPrOexl7YXvI/IZ9vj7ngTPDrMXihsrGVASYg0TDRUQjxbwG74fXB/6GgcXqRInEQUQzw8GEb0UfR0NJZQoRyqSK+kupTXvP89Jv0oEP2QrrBmvEDAOSw03CMH/8vRT56/Zns7xxbK8oLIzrhKzxr5XypLSqNbn1r7WLtpR4wbwVPvPBPoL3hEMFsYXthXjDukF1P2Z+YH5RPqO+TL0vutg45Hdn9oX2lTc599V5UHsEvSG/BQBOAQ+BygLaBIKG20kQSu7LJcqoiW7HycauxQeEG8LowfOBGYA3Pum9TvvPurk5mrnS+p77+T00PiE/NQB0QpfEUUVABUBEp0O8gu+DKAOow5ZC7sFp/7793vx0uqz5Nbfn9754D3mzeog7PHo6eNY4X/i4+e/78L2sfzHAI0CnwPLAz4CNwIoAx4Gsgp2DoIQ5A85DMQHRgVEBfwEQAXsBI4FoQtEEUUWLxnvGBAYaRa+GWgidy1cNk0/gEtnVVpabVVLR2Y1wiIFFxwTDRP7EUkLdv1C6lTXc8dduxuzfq7LsMS4AMMfzG3SnNMZ0ZHPj9Mf4FjxmQJZEE4YARo1GGAUOA+KCl4FXgLIATwCcgIK/gb0y+Yi2QbQ5c1d0ZjXUd6+41PoK+vP7e/xRfaI/OYEyw8AHL8lDS2JL48sEidRISwdRRv8GeEYuhblEXULlAO2+z31ge/R60/qn+rm6w7um+8W8+L4mAIMDaoR2hAPDT8KJAnfCFgJQgm7BwUE6P+v+4P3efJ36yXlxuL25C3q/e7Y8PHuguo75jXlGefa6g/wq/QK+V398/89APn+YPxI+nH8vQGECRINVQwUCu0F3wKcAVoCdAPYBHoH+wsMEhwXLRvaG4cZLxtSIRwrYzUbPalG1k9BVv1VnE0PQf4wviC6E/AOfA47CkH/r+814L/PqMGGty+z5LJDtfe8+8bEzy7VH9fj2BLcWOOu76r/Rw7BGBQeLx5dG4MWJxCbCpkFWwH1/bv6IPeY8RjoO9ys0anKr8gpzP3S99ri4XfnGe0/8s73v/6oBlUPQhi2IbUpOy8cMcouzCkEJPEethtbGf0VYBIwDB0F+/459wrx4uvi5z3n4ei57zD7lgYGELQSDQ0kA2L71vgf/GECNghhDCsM3wjiAuP6e/Kq6yLo++h17mv0OvdG9c3uCeZT3y7cuN2d4hPoOu2E8fHzcPVQ9sf28PnG/Db/rQNLCegORBNUFBwSIw+vC0YLSg2NELQVixq6G5wbLRuWGYIa/xs4H/skiCtSNVdBfEvATpZJ4zuaKzQfLRfgFHcU+BHLCwQBovOx5e7YE8zUwXS8jL1mxSrO+9Ss2NzXr9Tk0+DYaOPM8Gf98we4D6ETShQeEscM6QaFAdL+3v/MAZMB7/sL8VHkRdje0BrPltFV1l7bheB+5Urp0Oya77LyPPhBAX4NRBpWJGQqjStuKNkkZSLLINcgRiAmHzEcNRaxDo0FHPym9GDwxvHl+LABXgdBBjr/5fUT7yfuffLf+dQAiQVKBgMEWQBV+tPzVO/m7aLwgfX3+Uj7SPfm7uDl+94D3ejf9+Oi6Czs2+3i7gHvw+5t7mHwV/Vx/Y4E+wkKDYMMDgoVCHUIvAoaEQMXSxz9Hk0dgB0TG2oZzBvaIF0pADEeORJDykujT6ZKLz/gMSAnaiAxHF8cWxwLFvIIDPmI6kDdwtFjyWfGqcb/yLPNydAi0XnOcMvuy5PRBN2b61r66QRjCxoOtQ3ADD4LvwndCLoITAmfCcYHhwGg9z3rYt+T13fUjNVf2crcFt9F4KfgBOJx5FPoPu+o+FYDAg/oGYIhsCV2JnwlNSRnIzAk+SVTJsUjByAzGtEVRBOQDR8H3f8c+in39PNT8mnxvu3f6u/osudp6GTqt+s/7T/vGPJd9vr49Pr2+vL4fveR9274cPg1+G32APQ08hnx+u+Z753ucexk6/zrYe7d8tb1Zffu+Iv6P/+KA9QFKAgTDFwQlxLUFrkZgxx7IA8i+iTlJ2QrVi28LDMt3jBTOc9Dtk4AU7BL6zuQKrIdoxRWDwYNzwl/BMj8h/Ms6ZDcDM8qwx+8a70BxonQStfy2v3abth22BDdpeWe7334dgJ3C9sSjRffFlkRowj3Acv/dgBzA/gDvP9w9wntw+OJ3GXXedQC1ALWcdmS3yjmYuvJ7g7wVPKT9sf9bAfSEPgYYx4II+Im+ShlK+QrASoPKP8lbSRYIJwY/Q4GA+P3ou966uTnFuZ45Kjh193428PbTdwY3rjhU+YS6x7xifbr+vb84/17/kT+Xv/xABgC0wFbAT0A9/1r/Gf7JPpa+Nn2wPb/98/6ff3+/Zn+Sf7A/90CdweiDMkQehU/GeAbKR0kHyYfBx4uH/kgoSUTLkw7VEorUUdMOUDiMoAmuRyQGAoXNhYOFVsPtgcy/V/vkt+I0ObJN8sg0cnYkd2t3cvY6tPx0QnT+Nc336vngvDR+ckBBQYhBqADDf/l/SUA8QRbCn0NwA2tCZwDrfxa9pvwCe2L7NLsJu838TrxQu8y6vnkC+N75HLp1e859iv8JQM5DAITRBYnFQMQUwtxCBsJdgw4DkYPWg1JCMgCzP36+If04PEN8mvzffZE+Jr3MPS278HsZ+tC7BfwYPRI+Cv7J/yI/MP7Svtv+0/9/AAHBHgH7gk2Cz0M9QpiCV4IIQj+CCAJgwnACR4KWgkKBwEFggRwBXwFCgeFCAIKRgtWCo4K1Qn9CNMJJAz3EtMYxB3vIaAkQCMlHmga3hfSFsYY4BxuIDYhmBw0Fd8KGgJb/y/9f/tU+Mj1IPTr8WHvJurT41TeDN0n33njfOnZ7bPudO1b7MHsUu6t8ArzHPUO9kn39Pjk+QX5uvY89Frz0vUk+jX/VgKKAs8BmgDp/4oAYQEzAuUCLgNNA+YBVACp/bv6Ivgb95D3R/iG+In42ffZ9RL16/Wt9gb3P/Yj9rL2o/fX+K/5xvhU9jL2J/gS+vv7+/xL/nT+O/2E/BT+gP6W/90BTgJuBJ0ELgMXA5UClQFvAfwDhwUgBuQFXQarBYgG3AedCRQJIQmrCkcLNg2KDVUOLw01CrEJiAmVCrwMmw0GDigOGw7DD4wRgRQfG2EgeyMMKcguSjK8LrkmCSCIG9UaShz0HVEd6ReiEVYKuwKk+3LzBuu95AHhEuEw4Zzfy9sv1mnPCMulzJXRT9fQ2h/dZd/x4K3iX+RT5i3oC+y08cf3Jfxh/u796PuG+xL9j/9jAQEC0wJzAucBUwEHAPD++fua+Jf3cfib+Xj7Rvob+J74Gvk++tD7y/2G/tP+CgD1AuYEFwhYCGQHagjVCHYK0wlkB+cHHAazBYwHnQh7CxoKjgfFAhT+3fzE/Vv+TP+GA9sCJQPaArkB8f6I/Y782AI/BvUC5gSpBAgJHAUaAfcBlQTEBxsCdQNZCRcMswvoCbQFrAOGBx8HKQMRBIkGvAkmCYALCA6TDq0K9QrWC2cO/BAvExQWHhMCEZsQLhMwEHcK3AmPCXMIvgYaBsQERQPo/Wv6GvxK/Q37kvgi9pf0wfSx8tXuuevr6gjscewe7X3utu+/7vjrgurI6wPvZfEz8vDyiPIH9DD29fYt9LLwOu+Z8Rr19/I18Q30RfcX9vvtNfDX9337qPeP9JT56P5VAEX95fdW/w4FyQKV+sf/twz9EPkCHAKwAekPpAyRAngIFggtDtoEjANyAb0HZwc+C2oHZvjo+M4JDBN3/0DvhPq2FL4IrPcN/KcJrRGlBev4ZP3YDS8Rhf8s/8IGbRFAEhAGuQFABgoHeAOq+yMFWQnpBfz9SAJJBosB0/Th+5ADlAZnAPn7iQW+DboIagJyAMwCUwY/BBgHKwmqBtcF8wc1CngFcAFsATIDegaiB7cDqP7jAEII1wAJ/ev9XP7VAET/DP8+AYr///nd/qH73vcM/HL+YvvC/Wv/HQNp+lT8lPvP+sb30/Eh+N7+gAOI+Mjwk/aK+xP1o/RR8X7+ZP1u8KfvNPj3ALb5Terd7mv8rvwE+8PxsPXK/n/6FfZC74f+BwT+/CzyVfWbAS4If/f79yX7rgI7+Oj7bgIDAAn5ZAKBBRr/RfgkAl0Ixf/O+h8ECA2WCeIEhATaBkYLrAMeC3gMkwqEDLgLQBA9DdUJXww0CREJNAvBBcESGgj9AWsJkAq4A9P5MgYWCccCofvq/psLVQyG+wPsLQKoCjcCH/63+x4K0wqW/z4C6wOo/6wKuQR8AyX90gC8BwABafrDBcYBQPyq+esCfwLH+tX8bAIY/kn7lPxg+h4GifunAhL0xP94B6ABKPxs/CABQAAA+zACBgQOAdH77fqgBkgAhfks93sHJQjE/6j10/xXBdn8gfit/ZgA6fT9+ToApgL2+tX6BvmB/nrvjvJ//db7u/54/J75lQEu9Wb1EPzZ9o0CJe9YAEf88vlQ9uz+BANi9onq1/lBBEoFTvf3820FiAVX8Hz7xwJNB+b6B/sdA7AH3wgAA0n5if0S/xwKJgSHAeoGrgvGBbABkQPRAJgDOAQCBMECZQ2QBU4K0AKJ/UQH9P4qBgwBZAmMCR8F+wB8/N8DWQLcAngJjgInBOwBlw/sA4QBlwCH/6EE4v1ACTb5bgM7ABkB1Pqs+O0BTQT+AyD1BfW4BMUGBPu2+aH8kQZj/osA5Pg3BuUJ0Pw8AIH4gAiWD6YFIftb/qII1Ag2/eHw9gYWCv4GtfJ5+VwIvARt+6v3OQCV/xP5EPk3Cz4BKPhu/RUBWgRN+H4AJQE7+8D9nf0pAq37Yf2hAff8ofJ08+T4fv5qAOj1af9n8zP2Z/ok+P0CH/Fs+sf+MAIN/+b7xP7++24E6/rv/cQAsQCDAS36VAGJA6AAvfzK/N8DcP7z/Rz+6APOA34DAwHw/YUHTf+K/yf8cAtWD7sCJPgVA0cPKQN1/6r73Q3SB14AxP30BiwLLP6W/AUAgg53/nr6QgTLBBIDlPnkBVv/lgJUAvsCbQN/+g7+mQjVAgj/ev7aCeMDIflS+v0DsQlW/Yb9AgCaC5ECvfxL+kYG7AMP+4gClQDnAJT96AJjBcn6Zfog9+kHBwWp+hz6IwPuBMH8o/1h/on9BgQn/w3+VPR5CGMGGvp29vz/HAGFA8v/9PWyAm34qAJu/nwCn/ja+wcEn/zN/rz2NwLaAS78/PWmAIAIqAPC8ij1qQclCLb3LPBL/YkKpQPG7vb0zgtmBib4WPR1+ggPYfxs+bX6BgO7Bsz6TfzM/EIHoARZ/WwA3QA4AngEwvrOAnsBpASb/yb+gAc8/hUHSQDH/TMCKAGtCuj70P/i/6UAxgceApIF3/3MBRQBnAB5/gUEjQsy/JUNBf+wBJD9J/0lCDgC3wIp/c8HZAZd/df2OwHRCzIDvPew9zEGigz99+b2RvxSCs4AEPmEAQcCzgSn+tL9GwKn/6IBdgBnA6z8TwEgBUECVACn+QAEUQiF/SX5fvhPByQFhPhm+n79QAgEAyD3EgDK+hABVf/f9WoB6AB9BJD8rPuo/mwBNvlx/pUCRf/s/z/6gAQH/j8ClPui+j//2PkDCsf57/xSBKn+hAPw8jsBx/8pAvgCefivCHT+sfi5/Un/owS2+zL/+PyAAuoGn/+q/Sr5agJTA2j+df+C/RgDNgqF+dL//vgsBQEBGf5LAg//Sgm3/dcDLv1+AGT/OP4sATj/1QWWAYkGn//F/3f+mPo+A7wC6AND+yz/uAlBBSH+ffk9AUkGPAAB/dQBIAPmBEQBa/8tA3L9xQgFAfL9Jf+xBVoGGf0O/DkCawZ9Bvz7V/c1Aa8E4wS/ABT5Xv3SBkgAGfr1+q3/YwKj/o//J/yT/h//lgF8/hH7Df9gAA0AMABW/RoDQf7k/sj+S/99/Vv/OAC3/9gBFP3sABr7tP2mADcAAgLF+638ZQAmAuj+Zf7J/+kBcQDe/6X9pgEpAR/9av2iASkGK/2r+UID6QUNAxz4yPyGBLQDQPwK+P0ExQPh/nz8DQIdBDj9LPzNAGIEjgDX/f8AoAAiAEsAEwBqBGv+rPyf/rYCXQLH/S3/gv7nAeX/NQFq/3v8zv2D/esBT//WAMP/EgJ7ANv8UgCZ/y4Aq/58/28E+QFGASX/2gLSAVL+EQAkA1UEmgGR/3IBbQR5AjH/QwCdBAcBHP8SAPMEWgMaAB4B8AAOArr+Bf+0/woExQKd/uD9ZAJqAKb98v+J/R4Bav0bANUAuf1wAvr9oP4m/h/9cwGX/jAAKv9NAE3+bf1JAHX9tv60/Of9jvxdAA//J/1V/4L9Zf4L/h7/KAHE/W7+uv93AK7/2/2E/70DYgFz/jIASAFaAsn+vP7rAosAoAD7/xMAPQIdAEYAtf8/AKsBdwBR/+P+fgAgAgIApQCI/rb+gAGWAh4ApPxE/mwEhgIA/U397gEzA77/2/0P/yUBIQB+/gH/If/x/+AA/f/v/jb++v2QAIsAtP4t/9z/9P88/+b9lP8UAS0A6P///zACiQEkAGf+rQDLAokCgwD9/0MBggE6AnIANP/z/50BVgHdAGQAQAEOAs8BJADN/vT/AQByAl0B2f6UAOoAMQLs/ygAUAAQABYAOQDS/vP9hP8eAFkApP5n/rT+oP79/iD+nv1Y/ib+Rv5W/uD+Rv8V/xz+k/4V/zYA+f/o/wP/qP5m/3f/uf6t/2cArf/H/y4AXgE8AJn/LgCpADgBvP+GAGoAvAFGAWcAJwFpATkBlP+v/0wBVACmAG//6QAGAs8AOQDvADoAfv8e/+gAFgGD/57/zf4jAFcArADG/+r+Mf+f/6v/Gf/F/sv+4/6e/8L/hP+N/3//tP97/in+b/8HALD/Hv+5/0IAFABY/6//WgCNAIwAdv+1/6QAwQDbAFsAFAAPAa4Au/9q/24AFgG0AMn/uv+0AAEBjADW/zAAngCnAJ4AmgDMAIoBYwHuAKMAwADdAEAAlQBHAFEA5gCmAB8AYP99/9P/6f9r/yn/Ov+P/1//Cv/b/k3/v//K/03/lP/X/zL/i/+W/mL/vf8NAOD/3P///9P/eP8R/4r/f/+f/33/HP+p/7T/WgDf/zgAvgCGAFYAWwCyAAYB6QDoAM4BkAGNAQUBRgG1AT8BsgCyAP8A6AA8AOP/Rv8HAF4ANgDx/+H/dQBaAB8AqP+L/6H/GQAwABgAAADc/zkAVgDq/1j/X/8f/yz/N/8i/wz/hf7x/hr/8/4T/4T+lf7//t7+C//3/kn/kv9l/6n/LABrAPb/GQB8AJkAFgCU/17/lf/R/1z/bv+U/woA8P8a/0z/v/8ZAJr/cP/1/2UAtACXAJEA2AAYASsBygDZAP4AewEsAbYAlwA6AfoAgQBJADoA3P+x/77/HQDr/9b//f+j/9f/bv90/2z/X/99/43/C/98/5f/y//W/4H/ef9C/1P/Nf9n/1n/eP+m/ycAHADW/+f/OQCSAI8A0gDEAD4BkgFpAT8BLwEyAQsByADeAKoAgADtAOIAxwDGANcAlgB6AFMAxABuAEcAZgBkAJEAdQCmANAA5ABwABQALADZ/6n/Tf9J/6L/P//O/hf/O//n/on+pv7t/vn+0P7i/i3/NP8z/xv/Kv8q/3D/kv+h/+X/uf/9/8X/nf/P/8f/GgD8/zkATAAaAO7/z/+g/3L/X/+H/6P/yf/l/9n/+f/q/ysAyP/e/0MAkAC9AJcAbwDyAOEA7wDvAGsAhgAlABUA2f+2/+D/wf+v/7D/xf/s/8j/oP9p/57/hP+A/3T/iv/C/w4AIAAaAFcAUAAcAP3/mv+8/5f/rv8WAOv/3P/o/zYARQAjAAMAWQCnALwAoQDGABkBRwFJAUgBYQF2AWABQgE4AVIBJgGNAKUAtQCaAP7/BQCPAPr/MgCa/+D/OgCt/7j/tf/4/+j/3//u/0EAGADj/+b/zf/N/7r/1//Y/7T/Xf9G/2P/Nv8G/+T+uP7K/sb+fv6V/p7+zP4A/7r+3v4X/y//n/+v/9n/BAAlAF4AIQBJACMAYQBiAEoAZACEAM8AnABGAGgAMQBHAAUA3f/3/wAAJgD//8r/2//c/+j/qv91/5f/5v/1/9j/tP/H//n/8v/M/5D/xP/c/9j/xP+y/6P/gP+E/8X/iv+J/zX/N/+v/5L/mf9v/8T/DwDt/9b/JQCaAJUAfwCXALgAtACxAN8A8AAOAUEBdwFtAVgBIwEsAQoBCgH7AMUA1QDQABQBEAHoANwAZQCsAGAAIQAfADYAgwCtAHoAPgA2ADwANAALAOn//P8MAO//6f/h/5n/W/9O/0P/gv8//y7/V/8p/5b/Nv/w/ub+8f47/+L+y/4p/1T/dP8//zP/Qf9j/2n/cv94/4H/yv8AADoAIwAfAC4AhADBAMkAsACWABgBvwA+AGoAAgEEAUcA0/8jAE0ACQDO/+b/9v+5/4P/i/+7/43/nf+t/8n/zf+8/4P/YP+p/5f/hf98/3L/wv/s/8X/2f/R/4L/Xv9o/3n/Tf9T/4H/1/+4/7X/3v/y/+//nP9Y/3T/CgA5AB4A7v8VAGMAhwBEAEcAqADwAPcAIgFoAVoBkwHeAD4ASADzAPIA0ADJACcBTwHlAIAALQAwANz/wf/q/zQAZABhAD8AIgDu/7z/hf91/73/9P9MAPv/EgD1/6n/gf8m/xr/Mf9Q/2v/P/9F/yz/K/8l/+3+9f5K/4b/iP9Q/0v/bv+F/1T/HP8F/3H/CgBSAFcAdgCEAGQAPAAMAND/TgBSAHwAsQD2ABoBywCuAKcAVgAyABsABgAWACAAzP8AABAAHAD8/6P/s//P/6//ZP/x/un+Jv9I/zn/Af/0/gz/S/9Q/yf/MP9C/0z/Rv81/wn/G/+S/wAAQwAyAAUA+f8aACkAKwBGAJAAvgDXACIBSgGfAVIBKgHfANsAzgDOACUBbQFEAQUBAgEAAfQAlABMAG0AcQC1AIoAiwCrAEMAhQBiACoABgA9ADIAt/+t/1b/c/99/5D/5//1/6j/h/9x/4X/X/8v/yb/Kf9M/2f/zv/s/wwA0P+D/yT/AP8k/w7/Gv9M/5v//v8SAOP/1P+v//7/KQA8AG4AhgC9ALIAqQB7AHYArAC9AKYAoACXAKsAmgB1AGMAiQC3AL8AlwBLAO7/r/90/1H/av+h/9r/8v/s/8//jf9p/zr/7P7m/vH+8P4M/x7/Rv+H/6T/pP/x/zUAFgDX/4H/c/+e/+z/AQAiAEQAKQARABkA7v8cAEgAUQBiACIATABpAFkAiADCAMkA8QAAAeAAzgCtAI8AnwDHAMkAugDMAM4A4QDrAKsAcQBPAGoAcACTAGoAGQDY/5f/cP9f/3v/cP9//3H/sv+Q/9X/0v/p//D/3/8i//b+CAA0AfoBb/31+ET9iQa/CgsAavPq9FoCSg0FCBL9bPdv/cMB4AEj/Zb6Sv5iAL//9vxE/ksBNgH7/Xr9XAANAlIBwf6E/6cAuAL6AUv//QC4ACcB1f0K/AH/6AMEBHkAcfxE/gwGaQQoAED5DAIlD2oMl/1H6TbwiwKTBnH5r+mI8rcGHBDdCCr9df0X+WT2Gv6k/JEH7QASBGv7Gv/RBOcAQPhE+0sNQRTLC6r64ffBACwDp/gf9I7/JxByFagJGAAnBLQJ/Agc/fb8KQjiDroK8/cY+Nf62vwE+aPzefdN90j9Vf9J/9P5MPvg/7H2QvP3+K0Exv9K/iv8YQpdBqfy4eiG9nsP/Qk5Af3yMQzJE5YPP/436igIaQPuDerzo/Qk/TMQ4AVs8nTg1vS3E/QO5AQl6fT3EgqnBuAKOfHg/DT4K/8KAdf80QY4/qwFuPrKBQMCaPzcBpj9RwQZ/RgLeg+IArYIJPCoADT/UARGDUkDagi5ABoAcf7P/zQCrwu0B6cBMQA2/58I8P10BOr1bPjGAEYFIgul+bcFOPkaApX9RQPWC+UFrgKT81f6K/oD/9oA4v4SAlwD8v3h/i37n/2y+qL9ywa9AmUKFwQaAJnyKe6l/PUISg8iAK38Z/sf/kn4efQ1BMEOpA1lA/X5pwLDAob7H/Wg8p/7TgGBBlgPMAL29r/uPvNr/xT+OgVA/6ALIgKX+KPxNvgy/CsA2wVNA9cHqAB3Bar9gfn5/EECRAgGAkMFiwFMAPX3VfVZ+20A8P+uAjcBKf+UAH4EGPs/AGr9aPze/0sBEAlyAjIAXQAuAi//BPaF/bAG0A/v+wjxxfM3BJUMdgCT9af4UQQhBX3+w/Vn/BgCgAPc/vL8SwO7B6YDZvn89SX78wjYCfUB0v0o/XP/bwSk/iH9FPwRAsgAkvwzAQ8JzgfiAeD1xPxR/nf+J/vX+ff9w//0BPACR/1y+Vj3/ftT/BD9AgJdBegJOAVv+Jb1f/bS/pf83/lf/igE0gaJ/5f8MvvNAJQDBAI5/lj+tgPqBBsEfP8zAAIEAgQNBgUB9f97AqABWgOw/tMBbwATAnUBhP0p/CP8vPxG+r37Bvz8/oD/TACX/Qf7uP03/Ln7V/oQ/OX9dgDb/0X/af92/cD7/Pv9Ag4LEA0UCBT+dv8tAR4FVgbQBTEKlgYX/8b4XfrXALgEtQN3/rP7qP0NAAcAJv4G+mn4Kv3J/yMCNwCY/yL9Uvrj/eb/ywXGBRMG7f/H/DkAVgU5B6EDggAJ+x77xP5AB+ALnAnZAhv9eftV/S4CXgatBlQHKQuQCxsLzgjABkMFUAXzCfIRBRhDGP0SgwsOB0sIwQ0oE3MYrRzWGj0VWQyQCGoGvQWRBb8FAQXtAvj9KvWX6/3j8OJT5czoTuoc5wPhF9nf0sXRAtf23f/hd+A82wrXKda61f7W6dl03rjl6ere7TruMuwS7aDucu+X8ur45AKkBrwFfgJlAGIByAIgB9oKbw/FE/gTCRFODNsI6whqC80OABPpFWUW+xHdDZMLrgr5DPwMmg0HDbELmAu5CaoIZggICNAKMgnNBtMDiwANADP90f/3A0wGSASQ/qL4YPbT+esAIQpuDvYQ5hLUFRwaFB9yJnIt/jEXMtEzyjbQOlU9CD2jOtc2oTVmNTc00i+DKBYhhRl7E8MMuQaT/5X2Fu2a5AXeBNiG0irMesVFv4O72blQuai4Prj7uN+6BL7wwu7HEMsCz3nTaNpa45LsVvXJ+7X/MwLGBk8NmBQjHJIijSZ9KM8ouifyJZQiRB8aHJ4ZpRhsGB8XQxMQCz0BtPhq8n7wpe+F7t7quOUM4nTdj9qO17zVhtYW1wfY0Ng82RDb2dwE35HhP+N05yLsMO8T8F/wIfOo9SD5AP2c/6ICtgOWBFIE7wFbAWcBXQMjBvAGqwZFBccCjgBD/SP7EfvQ+2D+fAHhBN4HPAfhBBoBy/4eAIkEZAsYEIwTUBUyF2od0CgWOuNHwkvYRqVAbkB5RRJMdlCnUoNScE+TS0NH5UN3Ppg0PSlIH5Ab7RrAGT4T2gR79LHktNvH11nV+dHxynPDpLz1t5W1q7MxsoSwqa8hsvW4HMJ7ygXOAc+p0IfUidxW5uzwIPqQAOQFLQtrEpQYIB1HH+ce6R9rIi8oYy5KMcEwuCwuKeAl1yO2IugeGhqVE+MNpwlKBSkBAfs39GHs2OUl4nLf19092yLYDtWp0v/RN9It07fTX9Sr1arXptrs3QThSuMb5RznrOnd7C/wwPPs9iD6AP1X/5ABKwIYAtsBLgKeAy4FIQYBBg0F8wOzA5YB9/8y/bP7RPxg/CEAtwEXBFEF6AQEB4sGGgmrCuwLPg32DKkS+hynLTs9VER6RDpAgz9bQN1BwEQtSGBLb0oaSeNJr0p1Rp06jSwBIfYZsha8FFIROgkJ/WvwsuWf3d3W0c9Cx1e+U7i0t5q5ALrwtheyqa70rXKx3LcZv6HFOsoGzxXVkt0m5/bu7/MW94z7JgMPDXEXXx/cI5IlXCZKKC0rzS0KLsIreSg9Jj8mbCe/Jx4luR9AGd0TZg9SC6IGtAC6+ub0TPFB7/rskenj467eYNrk15PXPteh12DX9NcX2u3cEOGH49vkpOTA5Nnmu+nr7QLxlvNx9R73B/qn/OT+Zf+V/h/+mf7MAJYDEgYwB7YGSgV+BDwEiwMVAh3/cv00/M783P5x/z8Adf9YALQBeAI5BA4EwwRkBOEFBgzWFGoi8C03NTo3bze5O68+MT44O4g6gj7iQW9Ebkd6SRlH4T5zNC0s+CVQH98WCA2IBHn+ufnM9LHtk+Tg2fXNN8TnvYi61beKtNexw7Awsvu1+bmFvEu9Qb6kwW7HQM8/2AXhEOkK8K/3yAA+Cq0SXRj/GywfBSOBKM8txTGsM8ozjjP1MoEy4jAHLRcnZCCLGwAZExgwFzEUUA8WCQ8DGP7f+FzzZu0H51fhrd3E3P/cbNx72l7Y/NbE1tLXndk32/HbOt1X3w/jhueJ66Huv+8e8any5fTE9/r5T/wl/Sj+vADoAx8HBQj0B5YH8wb8BmAHdwiiCHcHwAVaBBYEOATqA4kCdAEWAcYBOwNQBcEHjgn2CmQL9QwSD84S4BjYHlonbTBBOWI9lTswOqI6xzwTO+w23zULN0048jUxM5MxwS2sJQ8aUxBpCBAAcPZC7EDkXN2p18TSPs1Hx+TAArtytWawaK1SrO2rOqzSrv60jrxHw63JCtA21vvbtOGD6KDvK/cl/yUHyQ+iGDUh3ycZLCAvBDHCMWoxvDBMMAYvWi2dKx0qHijOJG8gLxtrFmASwg7GCqAFmwAA/NH38fP672HsX+hi5NPgOt7b3CDc8NvU29DbONzJ3RLg3OE442HkAOaT5yTp4etU74TyFfXM99360f0iAFICTQRPBe0FfAZIB5cI8QmsCzUNHA7HDvEOlw69Da4MDQvGCNMGlAUaBVYFTwZjB1oI+wjTCbUKawsPDdoOHxCIEeoWYCAiKM4sty7hMck0IzRjM5AyZDJzMFosAyrIKD8puCjjJGQfCBlfE5YMxgPh+unxjuip3qfWGtIMz17LysaqwlG/u7x3ur64M7eitdi0fbXouMa+d8WAzFzT5dqj4lTqKPJG+X//QwSGCFINChOgGZwfTCQFKGYrgC57MIIxZjEKMEEtWim0JUIigR4TGuUU/A9rDPMJ7wfWBTsDlQD1/FP4KfSC8GztpumE5YHiNeGG4S7iL+NK5KrlE+fq5yLpM+rT6rLqLOqY6u3rKe6P8EPzM/YO+SX82P5AAdECQQMTA7MC2wISA40DWwROBfkGzAiqCncMRA2dDUsNrAzKC6IK0AkKCRoJ3gkQC5kMEA7MDyMR8BINFZAXXBofHZohfScvLcUwnTE+Ml4zrzOsMdUtJCsSKYMl9iCUHbscJBsUFuYPVwoYBQD+S/Ws7PPjNdvR0lbM/cebxEnC5b/Qvfu8Br2avdm9zL2Hvqe/qcE8xZjK99CB11jerOXD7R/2KP5VBWILjBAEFcAYPxy+H+0iFiVsJtUnYyl9KsgqOSrtKK8mdyOfH1obrBa1EXAMKAe9Aqj/wP07/I364vgb9x71JPM38Vnv1Ozf6VnntuUC5ffkyuVa5y7pO+t47QTwXvLl85f0nPRp9Fn0tfQk9ZH1NPZL98r4oPq1/M7+aABbAdEBIwIFAr4BcAHfAI0AcADoAAsCTwOyBPEF7QbRB/gIQwpGCw4M8QwgDqoPQRHiEqQUOhd0GywhViZKKjAukjIbNlQ3Rzd+NzI3bjTnL+srJClkJgQiLB06GcEV6RHLDHIHFAKP+6TzDus242Lci9Wuzk3IWsMLwM+9irwDvDO8Q72YvmrA08IIxoXJuMwj0G7UutmI34nl4+uu8pL5XwD6BngNlhP4GCwdTyAII3ElGiewJ5AnUSenJmclyiMhIj8guh3JGrIXfBT5ENIMWAghBIEAav1/+uf35PVL9Jzy9/DO7yPvOe637HDr0uqF6j3qO+qy6njrSeyA7UDvEPHM8lv0qPW29qD3hPj5+Bb5Lflq+cT5JPrb+gD88Py5/c3+CwAFAawBEwJNAgkCewEkAfMAoQB1ALUAXAFoAu8DqQU5B5AIPQoVDH8N2g5KEIwRmhI/FA8Yex0RI9gnsCtiL2szDjfeOFA4mjZ+NAkxFiyVJ3Qk/iCcG+gVGxJDD4YLyQbiATj8KvWt7bDm6d/O2KPRAstGxffAo77ZvX+9vL3mvijB58Mbx7DKP85q0WXU69c93EDhfObL60jxV/f9/coEeQugEeYWNBudHnYhrCMMJWIlxCSkI28iQSH4H3QerhyJGjUY3BWQEwgR3g1TCsAGTAMVAEv9Avv9+Or2I/UW9KvzOvN88q/x5fAW8FzvEu8071HvSe+Z707wYvGz8gv0U/VE9vT2tPdT+Mv4AvkI+br4bfhv+L34KPmJ+Sj6+Pq1+5z8vf3o/r//VQDiAFcBlQHOATQCigLQAjQD8wPWBMMFAQdPCJYJpQrQCycNfQ7iDwYR+hF+E48WHxuBHzMjcCa+KcYspy6tL7Mv4i4lLd4p8yVWIsofKB3RGCMUohA4DgkLowY4Aqz9C/hZ8cLq2+QH3/TY6dKQzWrJCsfkxUPFFcXgxZ3Hk8m9y5XOtdFV1HLW+9h03IjgyuQ56f7tKPPf+Mr+yASGCsoPTxS9F5IaGh0HH+of0h9zHwsfcx6sHcEcvxuIGvEYDxcjFTcT7hD3DbMKvgcnBZcCDgD7/WH8APvH+Q75yPiB+Aj4evfy9mv26PV+9fL0OPS387XzBfRp9Nv0aPXz9YP2Ivev9wj4G/j/96f3G/e/9q32l/Zm9nX2Avfl99f49fkS+/z7k/w2/eX9Zv7e/lf/zf8VAHsAiAHVAvoD4wTGBcEGoQeQCKIJhQo1C74LQgz8DE8OPxAvEuETcBaMGkYfBCPsJcMoOys6LOQrZCukKpIoCiUdIZwdkhqpF8QUixEXDtoKgAeoAz//gPo09a/utOdd4Qbc/tYG0tHN0MrhyOjH9scCyYXKHcyqzYvPA9LS1GvX79m/3PXfn+P35z3t2PI/+Hn94gJRCGwN/hG7FXEYTRqpG50c/BwRHe0cWxyDG8QaThq1GagYSheYFWcTCRHADmAMbgkoBkoD4ADA/gz9+ftL+536Pvpf+rX63vrI+pP6EvpU+dX4uPir+Ez43Pez98L3Cfh8+CD5lPm5+dr5HPpX+kD62fkz+V74j/ch9y73Yvd/96P3BPiQ+EH5DfrP+l37lPu4+/j7T/z+/J/9Of63/lv/XQBYAW4CfwNQBKwEygRjBU8GRwcjCPYI1QnOChoMig3tDu4Q/BOrF9kavx0KIXQkBCczKMMo+CjHKP4n7SVAI74g7B7CHDwZ7hV+EykRQw1XCOcDRf+q+TzzCe0b5yPhutv/1iPTD9D9zX/MLMuIyu3Ky8tvzCLNls5h0DLSltQA2P7b6N9A5Ebpqe4k9Kv5Df/rAyEIAQyOD5YSSBWjF4cZzhrkGyYdRR7iHuAebB6CHRMcNBryF1EVOhLRDloLIQhjBToDYwGV//X97Px//E/84/sp+x/6EPlK+Ar4IvhT+MT4gfll+mH7x/y//oAATQE1AekAxACLAA4Ac/+y/un9Sf3b/K/8kfxj/Pj7NPtt+uX5bvmw+J33efZH9R30WfMh80rzifML9Cn1ufZl+DH69vuV/cn+q/+tAIoBcgI7A/kDuARcBSAGvgZjBwsIhgjHCLsI/ghgCcgJSQrSCtYLSA3WD3kThBZHGPcYShpaHFMdRh2xHLccYRwFG1oa4BrtG2UbihnAFwkWCBT4EHUNNgkSBOL+zvnH9VTyL+8h7C3ov+Qo4l7gHt7R2sDXFtXx0jXRV9Dy0BTSQdO51ALXUdry3afhGOUI6OjqSO4p8ub1VvnP/FgAsAPvBrQKsg7QEdATPhV2Fk0XqRfOF34XihZFFVkU3hNnE+4SRRIREVIPlA0kDKkKyAjHBvgEOgO7AaQA7P9R/8T+k/6k/tf+Av8p/wX/W/6l/Wr9pP3r/TT+l/4X/4z/3P8/AKoA0ACTAPj/Lf9x/rP94fzX+5H6d/mu+Bv4k/cV97r2Wfbh9ZL1ZvVJ9UT1YvXj9Vb21PbD9+f4BPoI+078v/0G//P/2QDPAVMCxALKAqECzQL7ApYDgARaBRoGOgYMBs8F1QXEBfIELgT0AjcCNAP8BPwHKQqmCkAKuwkwC50NeRBPEm4SVBIxEpMTRhZ8GJwZIhnZF0cX/BdtGVQZhBazEpIPGQ7gDb8NRA0gC8oGrAEi/Zz5GfZd8dnrWuZv4nbgnN943kLcV9lD1nbTktHO0K7QV9Ac0BLRs9PS15bcO+Hb5JDnY+oq7rTyUffk+0wAXwR9CEINmxJwF+YaBh08HtEeSh/3H4MgVCBOHzMeWh1pHCcbSxm7FjoTUw/pCw4JcwbZA3YBBP+h/An7QvqH+UX4xPY49cfz8vIZ8yn0IPUB9kD3gPie+bj6g/ur+1/7R/uz+5782f0k/zsAzQBIAa8BiAHuABMAD/8U/rr9F/6c/hL/U/86//L+t/6G/v79efxA++f6pvrt+q37HP0A/lP+Sf90AGQBQQEvAJT+BP0C/br+gADzAMkAhQBQAKX///4u/hb9a/wS/DD9Wf9XAlEFLAbYBZUEywP7AyAF1wYXCHcKEQ42EnoWVhkpGkEYUxTKENAOAQ43DwUSUhSrFaQYmx2fHxkbjhFPCPcBDP/T/6ICIAWjBI0BrfzG9inxkuzg52Pind3u2zfe5uHG46fi7t6i2v3W3dW+1zPbut4Y4VLjJOaK6artLvFD8yT0kPVg+fn+TQXwCnQOZQ/uDrgOog90EW8TsBSrFC4UShTfFOsUzxNjEZwNrwkVB1gGxwbtBvMFjQPAAKP+df2X/PX7VPuT+gr6rfrV/FD/7gA5AWAARf8m/6cA1gKUBK4FNQbeBWgFMgU0BYYEvALCAET/7f5X/7D//f4Q/YL66fcO9ov1i/bF93T4dPha+Jf4Rflw+gf7+PrF+mj7ZP23/zgCOQSwBKYDvAGIAMgA/AFeA9ID0AOvA3YD+wLAAeL/QP3P+r75evla+qP7mfyX+6T4S/ab9bH2afhj+jP8VP34/t0BRAXcBgkIkQkSC6YMWg9fFOEZ6x0OH/4dFhzHGq0bEh0KHY0b+hspIJsk2SXrIuwcgBTHCnQEEQXBCU0MWwnZAfH3gu3Z5bLhtt9T3TDa+9c81srUPNNy0UnPSMwpy4nNENMU2j/gUuRv5QflHuZ26rrxr/mXAIQFKwiyCfcLQQ9iEi8U4xQlFZ8V7BaxGE0ZRxddExAPjAuECTcJDgqaCckGZgJP/m/7yPnl+f/6ivv3+jP6Wfoq+3z8Mf7Z/+gAGgJvBMMHngp8DIMNbA2HDIoLzAvADAINkAzBChMIxgTKASUA1f5F/Sr7e/i69UbzKPLW8TvxPfA771/uAO597mTwgfI+9HT1y/Z0+Dn6Kf1qACMDAAUyBo4HQgi2CKkJHQqVCfMHTAbCBfgE/gNwAjoAm/3H+vf4jvcZ9jn2N/cG+Kz3SfZR9in3/vj5+8H+YQFEA+sFsQkKDn0TnRj0GpEakRr3HMcgmCONJUsmFiRFICweICKcKkcw0S3CIuYV8w3BC5wMhwzsCgIGuPxh8hzq2eXj4gveHdjD0r3QAdEf0RTPgsqJxuLE9saAzb3Vg9xN38Teid6d4dPoFfKv+nUAqwMGBjYJ2g1YElUVTxYWFmMW1BfRGd8aABlaFL8OzQrKCYcK+QogCbwE9v6p+cT2ZvZ49w74Kvda9Q/0lvQk9+L51PsG/RT+IQBGA5gHRAvnDMQM0wtkDJ4OFBLhFDMVPhPYD7MMUwrJCNgHYQb8A4YA4PwB+gn47/VM83Xw9u2m7Pfsde5N8DrxBfFj8GvwKvKV9c35RP1F/xsAZABAAQEDrAXiB/sIHQm0CJgIEQijBmEE/QEtAI7+p/1I/bD80Pq897D0DvM18w/16/aR9073G/aB9Rj23viO/goEFwhoCnALQg1bEMoUvxn1HMQe1x/8IGgjmCVhKCcrGC11L08xdDOAMkkqzB4zF6cWiBhNF/kS0wzTAtn0/efd4Qbh3t4K2t3T5s2CyMXDJsE3wEzAfsFHxGrIAM1f0lTWf9gJ2yXgQOk19DH+JQW7CK0J5AoADzsVHxy9IPkh/B9eHKwZIhgiF8IVxBMVEUENVwmyBfkBTf1Z+J70sfJu8iXzs/Pw8u/wHe8Y723xFvZn+1b/NQGhAdEClgUmCkwPDhM8FVcWBxesF8YXyRfNFlYUSxECD6cOmQ74DJoI7wET+yb2R/R39Az1bvNJ70rqueYR5vvnXutD7oLvlu/076/xBPSo9h/5e/uj/bv/KQJNBPAE+ANIAncBCwJNA3kE2AMKAWX9pPpY+vv66fue/Fv7tPjc9Y70VPXq9WT3Cvhg+I365/xgAHkDogd7DJwOMxAfEhUWFxvoHegfZCEsJvIx8z0cQpM7lTGgK70ogioXMNE1UzQ3J04WqggPAcr9c/ss9xfvjeV03CPU38z8xebAx70wvXy/xMJMxHfC+b5Yvb7AY8oK16biC+qD7B3tUO+G9gYCGw5WF4MbEBwoGwMboxzVHiwgbSDmH7oeQRxWGPsSegxRBnYCCAF5AGj+UPqE9Fruu+q76nXtl/B78uvy8vFz8f7yOvcH/ZsCngf+CucMiQ5iEIYS3xNdFU0XoRgCGSwYkRZXFAARzQ0YC9UI7QakBFwBCP1g+MT0E/IO8Evu2OzL65rq5uko6jzrHu1R7hnv2O938e7zmvZs+cb7ff0j/mz+rP8oAVMCegK9AacA0//p/5MA2QDT/7L9PPsK+QX4tPd09xD28fOC8kvzM/aY+VH8d/4fAFcCGAUYCU4PUhXfGWoaXxvAIooxHkLqSPtFbD2zNDMwOTIrPJJFlkMTNp8lIBkgELcIDgQzAKf48+194y/bM9Jjxzq+KbksuTW9CcIpwwi+VLeItCW5HsQm0obexOQ05bPkSOg78aP9OwpDE/UXFRk9GbEZdRoNHHkd0x6pH4QfVx2xF/cPPwiIA2gCUgPuAhD/6fcL8K7qROkL6/7tevDp8TnyPPKv8q70Zvho/V0DfAnZDnsSiRTfFYwWVhcLGQEcJB9nIHcf4xw4GTwV0RA/DboK9AhRB8cDLf5e94fwEOz06ajpYOkd6G7mm+Q1437iB+N05W3odevc7czvQvFz8mj0tPdZ/McANgNvAzcCbAH9AVIDYgT4BG0EFAMBAaf+uvyV+jr49vVy9Df0qfOw8uXwtO9q8YX1a/tVAV4F9gcUCQYMqhIKHN0m5y/qOSZEMUtDSvNA9zqePttI00/PTshJ+T90MCQftBRuFM8Udw3P/6PxFuVt2FvMccT+v669wrtAutm4RbVDsLus0K0ItZ/A58xR1SrYOdif2trhuO1L+wMHsw4HEY8QoxDoEvAWoRpNHd0ezR6kHFEY7RKoDXMJYQcSB9sGQwTG/uD3IfJH79fv8PL59UD3jPZ09Zv1Vvfe+ov/0gToCdwNrBAvEtMSUhMeFKUW+xpVIIcknST+HxwY+hC4DYoO+hGJExYQsAZ9+szwUuwh7FPtEe3r6qnmhuEw3YLaL9p02w7e0OGT5ZzoTel96IbnpugJ7Y3zL/p7/oj/3f1q+6L6uvyPAfIGOApZCRUF+f+7/F78Jv6RADMC1QHA/7394v3QALwEnQdkCbkLMhCoFgMffSfPLj01nzrwPYM8zDg/ObY/2EbMR1dDBD5dONAvMCVSHUoaTBftD3sFJfun8TXnkdxg1KjP58xdym3Ht8M0v/W6xrg2uQ28scBgxmvL1c7s0K7TDNi73XPkpOt88sf3Ivs+/Vv/5QHZBDsIvgsMD0QRuxGNEFwOawx7C3cLAwxbDO0LdwoPCJQFqAOxAqACQQOaBLsFPwZ+BSUEewNLBCYH6QpTDoIQQhGbEYQR6xHqEmQUNRZKF+EXvxe3FlIU3A/hCqUGGARrAn4Akf0e+aLzDe4h6ufnq+ZW5UDjX+GS39De+95G3wbgauBB4cniPeW86O/rs+7K8DvzHPZI+Tn8af5kAK4BHgP7BPMG3wgGCoMKCAvfCzcNkQ5LD7cP6w9HEPcQwBEiE00U2RViF/kYaBupHZQfFiAPIEUgmCDNIMcgTSE0IUogDR/bHbocoRrhF+UUiBEQDsQK9gc0BeEBYf4q+174CvbM843x8+4G7GvpD+dQ5cvjNeKm4CTf292x3L/b9NoK2hHZ/deY19vXhdg22eXZ8dpb3DfepuB740bm/+jH67LuC/Jc9Z743Pu1/nYBqQThBwAL1A3jD4sR2RJTFBQWnxfUGH4Z/BmEGlobohx8Hcsdlx0fHTgdnx06Hpgexh0aHDcadBg+FwkWRxTKETQObgrOBusDjwGv/hv7hfbu8UTuj+tU6e7m2OOk4BXevtyV3Nrcytw73GfbDtvu29HdM+Ak4jrj+uMm5Ujn7eni7DXv9fCA8lX0SPej+s/9cgB6AiQE9QWeCBkM0A+xE0UXERtwH0QkaynnLfsw7jJ3NFk2qzhmO5o9Zz7DPSc8jzolOXg31TTvMKQrliUQIJYbvBdvE+wNdgfbAD77ofap8n/uPenH4nHcZtcQ1MbRe8+lzF/JM8Y0xKPDyMOawzbD3MIIw0zE+8a7ynPOV9GW0wHWVdmf3bnioOea667ugPHx9G/5mv6wA+cH+AqXDU0QXxPbFv4ZHxwdHYodYR7vH/IhsiOnJJ0k4yNUI4EjbCRRJW4ldSTHIiwhFyCnHyof2x1tG/UXQRTpEOwN0ApyB2ADjf64+W31uPFE7pvqd+aD4hrfH9z32UzYutY91RbUWNM+09XT5tQp1m7XfNi02VXbbN0C4D3jaeYV6YfrR+6P8ar1JvrI/kUDBQegCogOMBQFGzwiwSjOLdQx+zT1OKI9UEIiRstHIki6R2FH0kdDSEJHBUSkPr84ZDMALzYrhiaaIO4YPBHWCrcFFQHJ+471RO7X5uLgtdw92efUms9CyuTF2MLRwZXBzMARvwy9DLzDvPm+/sG2xJXGJciJygrOmtKD183b1t4y4R/keOgD7sTzmvgY/Nn+5AEZBjkLPRBnFB0XkhjiGSIcTB95IpUkcyXCJUImTye6KNwpsSn3J58ltCPVIo8iDSLWIHoeNRsaGJsVhRNDETcOHgqnBaEBgv5D/Cz6KvdZ81nvvOsO6SHnLeXs4jHgZN1A21DaHtoM2sDZ69j+1wDY3th82hncCt203YbeT+Bv42nnn+vH7kjx9vNJ9+L7QgGKBlwL2g/ZFFgbMyMrK2AxijVkOMo6XD7BQk5HcUq6Sk1JsEcCR7hGpEWgQus8gjVBLsco6yTQICobDxRKDPQEaP8w++r2IPFH6Z3hItuo1nrTftA1zenIlMTCwZ/Ay8DIwD7Amb9VvzTA0sKsxrPK2c1P0OfSFNaR2VLdDeF75FjnMeqf7cLxK/Y7+hH+qQHqBPgHAwtaDgISvhU6GXMcJh9EISQjOCVmJw0p3CmJKXAoOidgJt0lUiUMJJ0hdx5GG5UYWhYxFE8RpQ1kCYMFkgJjAHL+2ft0+HX0q/Dq7Sfs0urT6C7mRuPA4Cffud6v3nneyt2b3NnbPdx33RbfjOBb4abhcuIu5Nzm8um57O3uAvGd80b3DvxyAbIGVAv2DzwV6BvUI5krpDE4NXI3bjmmPOFArUQmRwlH1kRkQmRBHUFWP107azUGLhEnSSKEH/ccJhh8EWcK5gO6/tP6A/eG8e3paeKo3CfZDtf21ADS6c11yaTGAcasxjTHD8dJxvLFN8d7yt3OCNPF1UXXn9it2qLdN+GR5A7nnehQ6vnswfAW9RP5Mvxg/loAywIfBiEKCA5gEfwTEhY1GNcavR01IK8hAyJpIaAgTCBSIDYguR9KHkkcPhpoGMEWHBXEEqAPSAwmCV4GDATKASj/L/wQ+T32BfQA8t7vY+3a6ono0ubl5WHl1+Rj5APkIuTT5Mnls+Z551PoZ+ma6j7sj+3C7lbwNPKq9D/3svnO+5P9bQD6BLQLghPDGXoeiyG0I0wnkCxvMqU2STg/OPE3AjljO709FT4DOn8z+y2tKvwoiyfLJNceKhedEDENbAxqCnEF5f3B9ZvuZeon6Y7nKeOS3EfWWdLi0EPRStFCzxrLCMfJxdjHPcseznLPg8/FzzDSFdeL3Gjg/uFJ4jnjJ+Yv69LwMPVL90n4EPrM/fICtAeXCkkLHgsJDOEO+RKhFmwYSxh1F4wXPBmBGwsd7hzyGqsYmRfHF58YlxjvFiAUYhG8D/wORg6TDBoJxATWADT+4fyg+4n5bvbS8v7viO4p7unt7Owo61zpXujA6M3preqn6h/qw+lv6lrsoO5M8MDwc/Bu8Knxr/R79wX5qvli+fH6ov+bBogOuxQnGJsZAByBIE4mUyzPLyQwWi+vL9QySDdhOv85pzX+L7UrBSorKuEocyRzHYcWHxL4EEURNQ93CUoBfvnp9OfydvHm7Y3nW+C82nzY+9hv2ZvXM9NOzojLM8zbzjzRh9FM0HDPEtGj1Tvbed8Z4cngI+EK5EHpvO6m8hX0TvT09Qv6rf/iBLIHDQiKByoIswo5DucQUxEiEBAPTg8hEXMTgRSkE6oRBxCqD3wQWxH5ED0PDw18CxALYAsoC9cJqQcdBfsCsAGhADP/If2r+qf4k/dc94H3J/dJ9gz1A/SB82XzivPK88Tzx/Pt82L0PPUI9vj2oPe998P3oPfp9734BPpT+0D84fzS/Zf//wKfB60M+hDgEi4UGhZ4GTkeryIMJgknHydaJzUpgixfLrEtgirDJqwjLyJRInQhPh4iGY0T0g9GDhANxAozBpf/NPlC9TfzdvFA7nnpr+MC38jcedyR3BTb29eZ1OXSSNMS1TfXO9jw1+zXfNka3bXhZeWS52XoJukY68ru9vIz9uT3yfj5+WP8BQCrA9kFDQaKBdsFTAdmCUMLSgy5C1gK5gnMCiEM5gy/DH0L3gn3CEgJ9Qn9CfsIsgeJBhkGagYTB9oG/AQIA/0AIQAEAAoA/v+Y/gf96fuu+3L8UPzJ+636TvkP+an5H/tT/DL8n/vk+nD6wfqp+1r8dfxH/LD8wf04/4gA/QD5AIwAbQBUAdcCOgStBBYF7QWwB04KdQ2dD84QPxLVE08WgxkPHK8dcx6pHhMfhyB3InIjLiPvIUIgdx78HDYblRjZFEkQEQy+CGwGwwNPABH8y/dY9BryQ/Ch7X/qKOfA4zXh/9843w3edty32iDafdqF237cNt2g3Rfejd8f4hHlTufH6BzqD+yk7nXxCPT79Uj31vfk+Kz6Av2M/jD/mf9IACQBegJGBCIFLAWABXYGbweeCBQKwwpMCmMJjwkzCgELhgt/CxcLhgrCCi8LigteC+gJJggxBwYHlwcqCIcH4gbOBUIFVQX5BGIEcgMmAuUAkgB/AKoAVwA1/5j+Qf45/pH+2v4b/wH/9P6+/64AmgFOApgCdQIiAhUCcgLiAgMDtAKuAgEDPgP9AwcFlwW6BZEFrAU6BuMGQQeFB4UHQgdQB68H0geoB+cG+wUsBW0E0QOLAwUDNAKNAQgBugC1AJUAZAAdAHz/Gf+5/oX+Mv6F/d38Dvx2+yH7N/td+yr7gPrP+Vj5OPk++UD5zvhG+Mr3pvfy91L4kfiD+Bb4sfev9xL4qfji+MP4q/jB+D75sPkv+s76u/oo+hT6XvpD+rf6ofpi+g76nPmi+a75//kw+hv68/n2+Uf68/qb+zL8svz9/Ej97P3l/gYADwEMAfQAaAH5AQcD3gNcBI4EVARwBA4F2QWUBqwGigY1BkEGiAb7BnMHaAfyBscG2QYnB00HSQcUB4YGHgb/BfQFLwZRBg0GeAUUBSMFAgWfBBsEVwOwAiwC/gHjAQACrQEoAY8ADQC2/7n/jf+j/1z/E/+9/7n//f+bAG//9P+T/yQAhwFmAS0BSf9K/eD24vXH+HT68vwE/5r/VwDtABMBEQEqANT/S//f/8IBagN7BOkF3AbiBqsHtwaWB3cGuQV+BTkEzARLBXQFogXxBH0E7gNuA+kDFwNKAs4AyP8x/+/+d/+q/rf+eP5d/WH8Zfwm+9D7HfwC+rT6IfkT+fL4fPg++Yr4p/j59tT1MPbD9Ur2R/W89H30d/Xl9Hf02PNl9Af0XfT29NT0zfV/9tL1cfe6+Jb4FPrS+hb8r/s8/WP+dP+J/0EATwE9AR0DeAS2BNoFWQYXBkgGBAfjB/4H6ge1CecJfAn0CIAJjgm0CXgKTgpBCbwJXQldCOAI8wj1B3MIpQh7B7UHPgcgB5YGXAUjBXgEbASnA7ACIQPTAuMBpgEzAeH/7f5VAIT/Yf8h/WD92f2l/B3+Nv2l/sD9r/yR/SL8Zfxy/Wj+ev68/Br9Bf3s/fz9r//r/0z+7/7b/mb+Av9gAJb+pgBE/7T/XABV/20A1gJNAO7/x/4I/zECfQDr/sUCKgBv/3b/cgDZAWH/HAFt/8f7X/0S/VT9ff30/079dP1d/nz7Wfyr/N78Pf0y+1/6ffrP+a35WPj695D4YPls+hn5ofjz+fv7yfrE+3b8C/6w/v7+bf/g/gb/dwF9ArYC8gAYAvwFTAViA9UE6gRtAxcGqwYdBcQF0wUjBjUGJAZUByAHpwcHBncFEQYrA1wEEgUVBXUHFgX5BLgDvwJzAmsB8gOxBP0CPwIqAOkBegGb/50Aff/pARIB6v8pABv+3f+2/d/+hv85/1T/CgAhAkn8Y/6W/rD9svtG/d/+3f4//3QAx/tL/mn9X/v1/qX+mf61/fT66Pwn+0X9ufwB/Y/9ffty/kX8e/5i/RH7bPwE/D3+of7x/8v/vf7x/5r/TgKAAOP+ef2r/Ub/4gDtApz/9ADbAWX9y/0l/DD7Zf3V+3f9ev0D/AH+Iv0g/6P+RvzD/Pn50ftW/QQBrQB0ANf/w/7s/2n+OwFK/9kA2/7yANMCxAIUBBT/xP+w/XwBpQAiAQ4CTP+pAHL/9QHhAgkDawKFAckD0wGTAZkEuAMABtEDVARuA1cExQRuA/wDUwXuBbgFbAYgBRMCMwHt/3UBqAP+BAIEngWGAvMDogWKBcgCYQKTAF4BbgHP/9kBVgBA/5T8vvyc/P38yf12/BD/ZQCW/s798fpw/YX78P1R+4n8lf9+/ET/lvqM/C38e/rS/Q3/Hv7A/s398/0A/xD7pv9X/r7/ef99APIB4ABEAML/n//VAA8CGAI8ARIEEgDuApX/awBAAQYC9wKiAbz/EgAN/3//h//a/fr+UPzd/63/U/4zAKL88fxi/kv+YP6D/ej8GPxo/er7Tf7e/TL+If4F/If9w/5Z/+r8d/8Y/438ef/M/WX+cAEW//4B6wCp/3ABMf8RAL79VP8LAzADaQPZAq4CBwHCAfsCOAHeAGABqQLUA8IEvwW0AswDSQMQA/4CCwM0A6YC2AHuAo4AqgG7AmAELQZXBVoD5gIcARj+FQC0AeQAEgEZAu3/RwD1AM7/FgBz/lMA5P/G/T79Gf6O/qQABftq/cb/SPtEAMX7efwm/5D8Vv7g/EX+i/yP+7X75fyP/Cn9d/+P/uD+tgA0/2b/e/zH+pf9W/5dADz/3v0R/x8A2P4a//n/awGKA/MDUQFsANMAnP8+AFv/QAEVAscCdgFOApACFQGlAQD/CAF//9H9WP+Y/ycBmP7j/0MAh//4AKP+v/1U/lj9yPzA/Kz9Zf1c/WD+FgDf/wcA8v8mAA0B/v1vAGz8rP40/2kBZgCf/eT/Yf8eA10DGAIvAoEAZAJGAd0AzQCd/2MCFAEjBRUDXwMhBcoAIgW5APgAVQAJAWoDXALIAmUDiARnBGwCcAEVAKz+OwA8/9r+xwD6AGMDdAH5/2YAAQDwAPb97Py8+sj8sPvB/ab9IwIR/zwBNQHm/tv9TP2f+0f7wPv1+pz84fou+4X87P0dADT/gf8aAOwAuAGaANn+bv4F/zD+jQH9/7cCrAFbAYgAngEqAmgDuwMwASAEHwFhApcAzv5JAcz/uwMcA3oDWwEFAT0Acf7r/24Atv4I/5v+r/99AFEAFf9UAGH/Cv81AWP+Bv+d+278X/0k/Yf/iP1y+//6bPt3/Lz8EP/H/uX8eP1I/aX8wP9q/koBJ/4t/5f/ZAChAFABIgLFApkBMf8tAiMDvAFBBXYB0wCYAp0BiAMGBR4BOQNtBFQAPwIfAqsCGf/J/+IAPgJKBOcCbwEWAZL/K/5TAVP+qwDE/v7+cgDJ/14Al//8ABb9TAC0/FIB9v6m/tb//fw+AGf+GgDN//X/lv6W/03+Ov7o/V79Ov1//48Amv+SAMP+LwAIANr+8ABaAL3+EQBb/ub+vf5l/rAAiALGAdkCGQFM/pP/zv6e/n0BsP9GACMDrwCiAhv/c/9Y/1EAFAJ1/uMBa/+DAJb/7/9J/6L/v/+U/9wAHv9hAWT8vv+h/7r+3P5W//D/RQAu/j0BiAAu/8UANP4y/539uP+5/lUCuABU/4n/nv5m/33/gwGVAPMAW/8kADQA0gErAfL/vf73/1UDeAKOBDoBYQAjAUEAAwABBFj/y/+OAYD/iQH1/qwASAAXAsQBXADJ/9T+kwG3/+AApgAMAYH/+f5M/yP/9P/c/vj/y/6XAAYAzABv/8v+ZP62/gIBW/+fAhn/RP7oAFH/WP6Z//wAmgL7/6/+iP+P/0YBw/6Z+739WgD6AJ/91v2h/uv/RAICA/MA1QDN/lj+EABf/zwA1v/7/zEAmv+K/zwB4v/WAV0BfgTNADoC+wBd/7QBSP8OAlEBoQBBAqr/qwB+AH8AyP8nAO39xf6y/dD/3P6k/9n77fwI/Vr8Cf64/vL/e/4q/VD+IPzm/ab7QvyN+2j+cf5F/+0ByQEoA1wCsAHEAOcAGgBX/zAAi/96ALX/8QAaAG8CHQEZ/58B5v5cAdb+KwEKAWICVAH4ATEB5QDP/6r9wv+6/2YBkwCXA/ABMwG5/5kAUgHL//n/YP9X/3gAs/8q/6D/uP0l/0wBrABHA/gC9P+GAH4ARf6i/1P8O/4Q/+4AtwHLAfb/3v/J/SP/2P4W/nj+6v9eASgAs/9M/jX+OwE6/6UB9f8aACoABf7G/hsAf/+OAhoADQKN/2r+zP7h/nQB0/+BAOwA2wFN/yH/CgC6AAQCCAITAwwBzQC+/xj/bgF+Ad79JgAQ/r3/GgDIADsBKAB4AU0Aov4a/3f9pv85//f9GP/f/QX/wgA3AXz/lQCF/SL+3PwO/9cATP/WAG4AmwC3APcAGgE6/8H/av9j/uz+9f7G/pwAJ/4OAz4A//9KATP/jAAp/uH/Wf/l/nz9h/8WATkCfwO3ADUBxQDeAJD/0//aAWoAXACiAJ0A0QDc/77/FQOtAAsAtQCMAL0BEf/pACsBTv8NAQn/VQEa/0QBfAFVABn+s//CAHsBfwFeAZ3/3f/k/ir/nf3Q/+3+SgLTAMv9Ov/V/TUBsAAU//AB3f/ZAOf+tf7A/wn/kABI/yEBHgDD//H/gP8eAez+qgDj/iIAkv8a/uH/I//1AJwBzf+8/yf+0/9gADb+3f9T/mT/o/8NAHABp//LAbz/ygByANcCOv/8/8QAY/9t/4P8yP2Z/Hz+TAAvACgBNAAQ/+oA9/7g/2UAhv/MAAX/wP+r/yb+SQDh/58CFABuAIMAFQEYAdH9dP64/Dr/2QB4A2EFZgH1//n9Kv4A//b+IwAk/kr/g/62/UX/ov8kALb+Kv4NAFv+4AEQ/gT7xPx+/mwBRgEgAXcBbAGrACn/LACPALMA5QGC/5gBUwGKAkkBGwEtAzsCxQSqAaYDFgI/AuUCbwCpA/AAKANMAl0COgJiAaQCkQIzAuAAPQHiAXoAjgDYAAsACAEb/xP/r/4E/wX98/1u/a38fv/Z/bD+BP4+/sb9d/zr+7z75/sq/L76FfwV/Qz/7f5iALb/yQB+AOD/xf79+0b9sPwJADgBvAI4A+sA+gDuAFkDgwMUA5cB5wBfAd4DTAWiBFgF4wGDAKf9RPzI+8n6w/vE/Zb/lv6H//T+ff6Z/dP9c/7g/h//av9m/mL+Y//E/en+o/wJ/j/+p/58AWgDWwJJAi0CywLjAvwClQKcAokC4gFBAdr/UgD2/p/97v7j/sz/nv/SABkCCQIbAGr9a/6W/q7/+P3D/5IAuwFRAwADlANOAXYBcQJcA94DdwK5AsICRQJn/6T9Uft7+5776vxP/10BjgMaBMICzAHKAAL/3P91/eX8u/vN+3P8ufyl/8r/7wDSAKIA5P/m/tz++P6p/3IAywErATcBw/5l/47+Zf7M/zH/CwC//lb+IP/x/cX9Z/26/4cBrAJ1AjoBIADL/5AAnQHCAoYB7QG1ACoB3P/p/Ub8PPw//o8BlwJOAbf/Bf1I/Hr9sf3c/uH9hf9X/ur9cP06/Q/+b/6n/nH/QQAmBJYF5AOeAib+g/yP+kD79vwzAG4ADQEtAlIB3QDD/Wf+4P3d/pr/DQFfAycDGAMEAi4BAwGoAfQBVwAuAej/f/4K/wMA8AHYAfsAEgD3AGgAVwDd/u/9sP3d/dX+yf93AGwAIgBD/zr/4f4I/4n/H/9e/vH89vuP+zL8//x5/mX/GwI0A3oERwS0BD0EDgQsA0AC2wEWAX0BsQB6AbcB5wJRBEsFZQYLB3YHtQcACFIITQgWCB8I8gYkBx0GbgVXBLwCRgJdAQMBPAG3ABsBWgAsAFv/3/5m/SH71fld+Dz2D/aC9VD2F/Yb9qn2w/Zn9wb4EPkL+Wb4P/hJ+Iz4BvgW92z1PfQc87PydPJ98k7znPP09KH1hPbO90T5DfvF+wP86vpP+9X7XP0x/n/+N//e/3UANAHBAGIBpwG5AvwEOAYoCQ8L4gzJDAgLBAkMB+0FSwVMBWoGnghHCjgKDgkPCHYHPQfhBQAEKgLbAML/n/8KAYkDFwV2BcQEvQTqBagG6gZUBpIFZAVuBosJAg9iFtcfTykzMXk4Az9oRcdI/0gXRhxAsze0LFkgdRK1AlPxxeCt0ZfF57sLtc6wDq+vr6qyT7g9wNLJN9Pp2x7jleiX7GbvUPHT8XTxPPFs8evxyfLz9Mf37PoN/+YDcAmoDhkUhxiPGqQbuRobGT8VcA8XCJn/ovaq7unn5OFK3qncTd604ULm+O1z914DwA7iGLYhEimdLuMwWC+NKlcjIRq4DzgE+Piz7sTltd4N2U3WzNaT2kPg7+Zn7X3zpfiS/Kv+3/6J/Qj7sfcN9LvwAe4E7MbqZurc6rPsJ+/48mb3k/yoAu4HaQ26EcIVaRnwGmYb0hm8F7IVWBPHEQwRVRKxFiUdpCZzMmRAN04cWf9gLWY5abhpTGYrXyhU3UTeMSgc3QWC8Fbcock7uUmrWqFrnFSdT6MCrF62B8HNy1nWVOBw6dPww/X79wL4cfYS9Orx8vAG8TvxRvFi8vX0dvm4/qAEEgobDm4QtRCUD0IM8wf2ASL7V/IW6WPgKtlj1PzRmNJq1eDanOIQ7UL52Qa9FDcihi1FNkE8ij/3PzE93jeXLx8luxhiCwf+KPHw5WfcQ9Uu0GLNRs15z6HTHtkL3+/kNOqN7s/x2fND9cT1ovVh9I7yg/Al72vure7T71vxnvS+90L8qwCbBYoLjBCtFcYY2RrcGxYcRRzEGuAXBxSpEdMTYxrNJJAwhDsMRrFOpFXRWpNezGDtXjVXwEkDOXYn+xU5BCDyQuCmzwbCuLjzs5SzfLYBvOXCislO0JbXGeBZ6D3uQfEJ8vvxIPK18uHzE/Vw9jD4ZvpD/cAANAUWCjAODhBrD0QNEwovBgABjvr88szqpuKC27jW0NTh1VjZqt7P5WXumviaA6EOxxgeIVAnFiuhLEMsdSpHJ3AiPxzFFPwMSQVO/hv40fKa7kDrcOgc5lrkZ+MW41Tjx+Oo5L/lL+eW6AXqfOu77CHu7u7j71vw7PDM8bby/vPU9H72U/gr+hX8yf3HANYDCweQCfIKawwzDkYQ3hAgD+QMwwzDEAsZrSQTMoM/W0slVEVZXFtaXIZc+llyURlC2C5MGlAGJfPw4RTUmMgrwAe6lrdEuYe/a8q71pDhIemy7gz0oPis+7j8rvzF+6n5EPcB9Q71r/di/LABtwX6B2YJbAolC04KfAfeAon8wPT8667jft3x2ZPY2tg42kPdReLX6WXz4v3zB9UQjxfoGwgeCh9tHyAfgB2aGr0W7RK+D8cN7AzpDL0MiAtzCPMDqf5k+dr0bvBA7HjnH+Op35rda9373sfiYudm7OLwqfTG98v5gPtX/Jj8k/tY+VH2//IN8ULwY/Cx8C/xK/P59an5lP0JAdQEOAhbC64MwQwQDAMMVg0vEDYXtSGaMN1A9k6AWEtcx104XYtZH1GKQ/AyLx8aCB3w39l7yWy/arsQvBy/78P8yj3VcOHb7HX28/0LAzIE9ACT+5/2rfNM83/0oPYA+ST8vgAYBvAKLw45EFoQsg0KB2H99/L+6KLgQ9nA02jQJtB809LZ9+LJ7eP5IgbgEFkZ5B44Iv4iKCGlHD0WMQ/JCBYEBgKeAjMFughODGgPxxFzE+QT3RJ4D2oJpAAZ9nLrBOJU27nXu9df2rXe4ePK6ZjwFfh4/6gFhAkRCp0HTQJq+zv0o+3M6GfluOOH45DkfeeE62/xR/g+/7UFkQlPC+wKmAk4CDIG9wNtAvEC1QYdDrkZmSqvPmBStWDDZ0RovGLpWPJKYjnQJBAPT/mR41vOUb18tOi0bbwSyBHV7uHi7OT1xPzCADkDyQQcBYAC1fse9F3u7+wb8IH2Qf9ICB0QhxVxF+QVzxFqDAcGW/2d8d7jZ9aGy4nE8cLexgbQmtxx6pz3DgPdDEYVSRwrIdYivSDdGpoSxQlXAt79IP3X//MErwpEEP8UmRjFGlobPBrPFvcPqwVE+Q3tJONb3DfZj9ny3HniE+kp8Eb3K/5ZBA0JCwu0CfoEF/5q9gvvI+k85ZPjr+NA5Rfo6OuJ8Fn1pfpo/6sCFwSJAwsCEABn/h3+LP6u/l//+wC7BB4KEhOAIGUy6EYlWetl6GqbaAJg2FHxPtco7RFc/NDoCtcYyF2+urtMwcTMytqI6H3zYPtx/2n/8vuj9uvxmO5f7AvrMOtP7gn1f/5SCYgT5BurIN8g7BsfEqEE1vX15xTcYtI4y+HHdMmpz4LZk+WR8s3+xQisD1MTKxTYEtEP6wt5B+QCDP9b/QT/RwSwC4cTABoIHoMfpR4sHKQYxRNoDYQFffz38hXqoeNH4SzjEOjT7eTyhPaz+Kr55vmg+Uj5zvgG+GL2jvNj8PbtvO2H75nyA/aZ+BL64/mf+Lz2HvWG9Of0sPUv9kX2cPZL92T5N/30AdQGbwulDigRIBKiE9UXHSBeLoE/klCJXORgEV+4VsRIfDUvILwMWPw77oThudYxzwzMF87k1Abecud+7+n0j/Ze8wrtfOay4q3iPubD7AT1A/65BmUOoBTfGAob4Rq1F6YQVAXV9p7njdp50TzNx81m0gDa3OLS6wP0TvuPAY4GwAnICrEJ3gZKAyYAUP6u/pEB/gY5Dh4WEB3ZIWQjdiF/HL4VSQ5bB78Baf0m+uL2hPNA8BDu4+3F7z/z4/ah+Tf6p/h99fHxZu+J7uDvy/Iw9vz4hvrq+r76efpi+mL6g/km9/fy2u0w6WXmw+ZZ6t7wgPiR/z4FPwiICboJ9AndCqgLQwydDD8NlQ/iFGEfzy8vREtYQGZTavpjWFS8Pg8mJg44+mDs0eNr3qbad9cL1/bZJ+En6zb0Nvne9zzxIOce3CXUPtLg17vjePISAQUNchWaGgcdYB1uG2YW2Q2nAebyO+Pi1bDNd8y00SbbB+ao7zz2bfn7+Yz5Dfnn+An51fhH+HH3dPco+twApQuiGFMlry4uMu4uKibgGloQggjjA2UBZ/+6/Dv52/Xb85XzEvVS9zD5bfkc96Tyau1d6e/nhOml7e/ywPfn+in8E/xX+676a/pR+nj5J/d58w3vA+vd6H7pG+3A8uf4qf6wAs8ERAUZBTIFngV8BocH2AdXB1MGOAaiCBcOGhgoJ/Y5tE38XW5nU2g9YIpQ+TumJAcOqPrT7EjkaN8W3Y7cGt764b/n4O108u/yWO9d6HnfvdaO0H/PktQ136ztRv1NC+AVNRxtHgkdpRi2EZYIj/2v8Q3mhtzJ1pHV7th332jnF++09Jr32fdd9kj0V/JM8VvxjPIS9Tv5cP+tB1AR3hqjInonlyhDJl0hsBpaEy8M1AVAABr8Cfmr9w/4k/kY+4D7DPrO9v/yJe9h7ALrjeuT7V7wG/M39Qv3t/ib+qD8Pf7I/hb++fuf+LT0OfFh76TvnPEf9aj4pPv5/XH/xQBRAX4BvQGDAcwBdAJoA7wELQZjCGML9g7zE20bwyVZM71CZ1GQW+9dO1nGTSo9cynOFdcFX/rl8vvtcepD54HkUeNr5MXm4eg36eXmt+F62t3Si82OzIrQrtlu5n70WwE1C74R3hRmFYsUSBKlDhMJ0AHP+c/x1Ovx6Hvp3OxX8aL1mffU9tbzwO8J7Fvph+hc6WHrHu5O8U71b/onATUJQxFNGCwdOR/eHkUc1hhPFSwSbw8XDcYKXQhrBn8EegLr/6n85PgC9aHxAe9p7eXsFu3l7dTuvO+a8Ivxo/Lv80r1TfYP93v3e/dA91z3K/jN+Tn8J//wASYEkwXsBZYFmwSAA1EDIQNDA0IDeQJ8AQYARv+C/1QAPwLoBL0IGg53Fc0eeyn6MvU5ST0fPDU3WS+AJpkeNRiBE4YQDg5IC6UHOQPR/sD6kPcM9dHy6O+o65fm7eDq26/Yn9em2erdG+PF6D7tbfCt8iD0qPVH9wX5q/qg+6z71/p8+UH48/fy+Bb7m/3T/yEBDAGa/339Yvu5+dH4WPjz9373yfZV9mP2TvdI+fT79f6vAcsDGQWKBZQFtQUxBiMHjAjkCeIKNAvzCncKwQlGCdkILAg9B9gF4wOsAVT/N/2b+zr6QfmT+PL3YPeY9l71IPQ78+fyEvN680b0Y/W89mD4Afqd+778Ov2M/Vj96PyQ/Ez8bvyE/Gv8T/zH+zv7zfrB+mv7t/yU/h8BgARxCB8N8BHYFaMY2hmrGlYbCRygHdcfhyLUJGAmcyd4J58mMCX9IlggBR0sGVcVURFMDZUJRAYoAxsAUf2R+tv37/Rx8lbwY+637PnqS+l956blLeTA4mvhQuBz37reIt7e3QHeX9703rzfsuDD4dXixuO45LHlyeY66CXqouyp7wTzavbZ+UX9XADnAvkEtAZrCIsKHw1HEKQTFRdnGrUc9x3iHZgcsRp5GH4WDxXnE8ASkhGTDxkNgwrgB6QFiAOMAbb/y/0J/Ib6Nfn598z2oPWr9OTzk/OA82zzXvPx8kTynvEC8dXw3vDs8Bfx9PD08ArxKPGI8a/xf/Jd81z0ivYz+TT9DALGBx0O9BJeFp8YMxpEHGgeeCFLJT4ojioQLHEtpy62LgUuLiwhKYwlySGPHncbrxeoE18PGwtoByUEZgF//j77tPf58x/wqeyj6TLnH+Us41Xhrd+m3VDbHdle107WF9Z61jvX/9eg2ELZYdr/2xDeZOC14vDkYOdO6sPtxPER9kb65f2wANUCrASnBtsIWQvPDSwQYhJDFPQVWRdpGCYZbxkTGTwYGhfPFbQUpBOREnMRSRAFD6UNEAxFClwIUgZBBCgCEgAV/jr8l/oK+b/3c/YJ9ajzXvJN8Wnwwe9y7/7uXu717bLt4+0I7jPum+6S7hPvme8X8B7x4PEo8xL1ZPcu+kH8Mf6+AF0DkAeUDXIUhBrFHTgfmh+IH6MgoSMuKFYsdy6gL58vBy7JLNEqFCkWJ3cjOCDnGzIX/xIwD74MqApwCAoGogL0/X74OfMA7wnsqemg51/lo+J/37nct9qt2RbZhdjA17rWhtVq1C/Ub9Vv1+HZb9zc3sfgPeI75CTnkuo07hbyl/Up+A76ofvN/cYAGwSdB7sK+wxjDlYPYBC7EUkTxhTxFXcW/xUFFVcUNRSXFCMVjxWHFdYUkhPLEecPRw7IDG0LGwp1CGAGGgSzAVv/SP2g+1L6HvmC94f1bPNG8XrvJe5D7Zrs9+tX62Tqdemz6DrolOhx6abqXOxz7T7uP+8g8DzyK/Wf+Lr8gQBwBGgIEQ0EE+IYfB4CIqIjzCS9JJMlrij+K5kwPjRANWs1mDLTLmArqycRJQwiwB5PGy4XzhJRDs8KeghWBqEDOQC6+xL2BfD76mnnW+Xj44LiE+Gu3o7biNhX1pvVO9X61KvUFdRM0+vSw9MV1j7ZytxO4A3j1OQg5pbn3OnQ7Czwk/NE9hT4nfl0+w3+TwHEBAIImQpbDGYNaw7YD7oRFRRKFhUYexmEGq8bER13HqMfSiD5H60eoBwrGs8XlRVCE9oQMw5SC3EIeAWQArP/p/xa+eL1f/KG7xvtbusk6vno9ucI53bmN+YA5tXlZeWw5EDkIOSB5MLljOe06fXr6e2t71rxCPMo9eb3D/tD//4EfAtzEaIWBBqyHE0fnCGFJT4p0yx5MKwyfzRtNRU2yzb7NaUzLTCcK4UnuSO0ILseqRtLGPAUMRElDQsJxAR6ANf7gPbB8SftiOka58PkwuIN4GTdodqZ1ybVV9Mu0k3RodA50O3PTdBk0XDTPdYK2Y3bmN1d30LhXeMN5lHpp+yj7/rxOPTe9tr5Xv1aAQkFtgeXCRwL0wwnD9ARzhTVF/UZcxsaHekesiBwIu8jeyTzI4QiwCAIHzodfhvBGV0XRRTqEHYNLQr0BrQDXgC3/LT4s/Q58ZnudOzL6mjp/+ex5oLlg+Tg41PjwuJG4rrhJ+EL4b3hBuOb5CPmy+e66WPr0ezr7jfxzfMJ91D7GAEyB30NpxP6F50auRxoH0sjAicKK8cvbzLlM700MzXaNdM0gTOWMeUthSk1JT0i6h97HX8bRRlCFrMS/Q4mCxIHdwIm/jT6Sfbt8hzwxu3I63rpAOcz5PLg291H2yPZatfr1fDUUNQs1HLURdW91lbYqNmk2lPbB9w33TXf+OFE5YDoTeu77QPwj/Kb9fH4QvwM/zAB5QKlBMkGsQliDRsRXRTNFoEY6xlTG+Qckx7QH0wg/B/1HqodfRycG9wa4hlnGEsWqBPgEDEOmAvRCLoFVALV/m77i/gq9ov0QfPK8UPwkO4C7QTsOet+6grqTulT6Ifn5+ba5kHnOOh56WXqAeuh61XsLe0a7k7vH/Gy8zb35/ulAcAG9groDi8RZxLKE+IVZBmbHGcf4iFoIz0kCSQDJN4jeSLcIA4fOBzPGYgXzhU6FQ0U7BMnFH8TjhJdEPoN0gqnB/YF+wSIBC4EEwOQAXj/Y/3f+9T6hfmi9yP12fGC7vTrq+rD6gHr4uoE6kjoDeYa5NniYuJD4mHiOeK94WHhneGa4kTkLOb851jp9Olf6kXryuwk7xLyAfWu9/352fvt/YEAUgPuBSkIwgmgChkLpAvtDJ8OCBDnEE0R/BAuEJ4Paw+YD8MPnQ8uDzYOHg2HDFsMRQwVDJoLyQq1CXkItQcGB2gGrgXABJIDRgIwAS4AIv+v/SL81Ppa+ej3sPar9an0nfOg8q/xxfAZ8DLwOvH/8kv13Pfn+cz6s/p8+hr7W/za/oQB9QNEBT4FdAX4BRcHYAhpCW8JTQi4BqgF4wUlBwgJAAt0DI4MxQtGCzALlAtxDJgNxg7tDn0Oig7pDhQQixFuEhoTxRHZD0kO/QyJDDAMQgzEC/8J5gehBe8DMwJxAAf/7/zZ+bf24vOu8e/vi+4/7Y/rkOln53blP+RB48jiteLO4uziLeO742XkJuX/5azmr+fK6D3qH+z67Yfv9vAO8ury8/M69eT21/iM+gT8RP2K/hsAHAKSBAQHrwjfCcEKCAy1DRcQDhOxFccXNhmiGlEc4h2qHxMhtCFuIbEgFCCXHw0feR5hHVYbbRgQFawRUQ7qCrEHZgTTAPX8Hvns9YPznfFq8KPvwe5i7azrDuoE6U7oXOgH6cXpL+pa6sfqR+sA7L7sYu3A7ZbtiO1D7pLvefEc9Fz2ZfjZ+Sv79/zW/h8BYgOTBY0HHAntCvMMRg9uETITTRTBFIAU7BO6E6ETihN6EzkT0BL9ER0RiRDvDx8PPg7gDGsLlAnDBzAGyQSoA28CUQGT/3v9bPtd+dT3WfaA9cT0pvNB8uDwJfAt8Kvwx/EP82fzl/JA8WzwRvCQ8PLxp/PU9Pf0WvTY88XzIfQ89b32cPeM95b3H/iG+XL7C/5HANcBwgJAA0kEvAV3BzIJQArTCh4LaQsLDPcM+w2PDk8Odw00DPUKNwo4Co0KrwpkCooJdQh+B+kGZga5BQUFDATTAp0B0gBYAIz/Xf4D/Zb7gPob+lr6zfqh+t75/Pjc90T3XPf097P4MPlS+ZT5GPrj+g38K/2O/SP9ePzt+8n7K/wb/VL+B/8t//n+WP6e/Vn9ef2q/b39jP0v/Sj9Uv0W/kP/BQCJAM4AsgBvAAUAnv9y/3H/U//2/lr+y/1Z/ZX9lP0N/a784Pvx+h/6ovng+WD6kPtI/dD+GAAZAoIFkwosEJAU+xdhGt0bTR0zHjEfuiBeIsQj+iO/Iw0j6yFTIPQcABj3EQQM9AYwAqb9kfnr9fzypPBA76jtYeua6HflaOIX3w7d0Nxu3QDfXODc4azjweWm53ToN+hR58rmdOcw6SnsPO8u8pn04vWE9u/2jPcu+Fj47/dU92L3p/j9+gb+WADkAQED1gNwBUUHQwmeCmsLCg3xD2sU3xn3Hz4lyyeIJxolHiIZIOsfvCBoIXkgLh7yGo0WSRF+C3AF+v7o+Hvzuu9Q7qbtkux+6RblguCg3MTa7dlN2jfbI9xA3RTeed8L4drhDOGv31jfl+F05aPpJu247xrzLPaJ+or/TQUcDJ8Q0BLKEz0YGiHLLJY5bUWiUsBe5WWjY4JX9UeKOm0yty7VLWIu7i17KD8bVAj99KTkRdc+zRbHOMePzOLT7Nlt2/fYZ9Tu0XvTF9qv5dD0WATPDzAVIxWQEaQMdgehAywCYAO4BQUH8QQU/uXy2+Xk2H7OFshKxtzIN80B0V/TI9Se0mrPPc4I0r7cCO0r/6UPLRtHISMk0ybgKuQvqDX/Oic/WUHTQYo/qjm2L04jVhdEDjEJRwd1BcT/vfU66g3g3tnb1y7ZzdvQ3vzh8OXy6fztR/FV89L0jfax+Yj/mwZsDBYNkQi3AaX7nvgG+GH3xfVB8rntR+n/5Jnhy9/z3jzeW9143m3ikumS8Fn1lvn1/XgF7Q01FzsgKCjWMAo4wj8NSfVXpWhwbehgVkvrOkU2DTedN2Y1tC0WHzQKBPMt3yTSzMzFyW3GNcUCyXrPWNHGywnEusKDy1fdOfNBBhYSxBSFEWUMaQqADnUWpxxxHIEXuBDnCE//R/NZ5svaQNRF1CDXV9jV1aLPZMcKwGG/g8dy1RTkpO859/n7DAGsB8YO1RaXH58pjDKCOGg6RDh0M1QtiScXI/cgRiHbID0dSBWpCRX8RPCh6cfp9O0H8XTwd+yC51zjauJ+5e7qifGh9zT9lwCpASQBwv8T/vb9qQErB7sKtAlKA/T5wvC36gzo+ee26KfosOZy4nTdrNo82gfbPd7a4ynrwfNT+VL7Fft0/BUDGwwtF2whkSlsMEEzMzXYN75BBlRTYcpfLE9fPgs3JjUvNTczpy5zJCUTBP+o7TjkxuCh3VHYNtKj0OPSEtLczKTIYsse1kfkZPL3/ccEIQV4AowCAQinESsamxzFF60ONQax/hP4m/Fc7MnoZORR3w/aWNQazhDIQ8W2x2DPktiv3y7jNeRH5lvshfbKAkkOGhiDHqwhiiO2JZIpMyycLaIt8Cv+KGUjXRx5E5cMHgpgCtgLkAmHAif46e1+6fTq7/B+9hH4zPWV8e/ule+w8+r5Qf4OACUA+P9+/wf+2fyi+3n7O/yF/ID7yPfF8d7qj+aS5Wrnpuny6EjlYuCt3eXdW+AR5Xrqv+9Y8/T1Fvgr++n/zwYiDSUSjBgfH2Ul4CiMLQM0VjxzR3dQx1bGVb1LZTztMAA0dj5EQVo16yKME+8DSfQC617pEOn/4kfZldDZyvjH98YMyCPM1tWt4hHsVO/i74vw/fMJ/BQISxMyGIIV7g0JBloB/QCwAv8BC/709w7wh+YC3m7YhtWr1J3VrNfb2OLXptXL1NDXKt9l6gz2jf5GA6cFtwg4DiwWCSBBKHMseCwAKjUnnyREIzgj5iCuHDwYxRRxEhkPCQogArj5O/ZU98X5jvnE9q3zu+9L7bjt7O9l8xn2yfdW+CH52PiU97T21/bK+G37V/0g/N73zvI17+zth+1+7vfu6+zy6M3kZuLa4jDmfOoC7ffuge/B78nvKvH79jn/OQi5DocSExVRFxIcviJfLMI15jtwQVFIj1IuV8RMTzuIM4M8o0ZzRdY6gC3KHasJCftE+D35GvTc517bidIuzQHJZ8Rkwu/FLs/12Hbdud7a3j7geOVt8fYANwyuD8wL5QUSA/cEWwq8DgIPZApaAhf5m/Ff7abq8OdM5ZXiEN9o2pjVw9K10yPYh96h5Grpiew577XyZfk3A3wNHBaKG6EecyDLIrsmYCpoLeYufC30KNAhqhxoHB0fIiBRGjsPsgOU/GP6P/qq+fr2dvFj62zm9eP/43TljOeF6fbqaOs46v/oMekp7PrxPPhk+0T6Kvb/8gnzevVd+I/6dvpl95vyX+457EfuHvO49mP3x/V382TxSPBj8rj4PQHTBzsKOwixBogK/BI3GxAiZypKM6860EBESJlNE0tKQQA44DmYRltQOUnCMyUhdhkuFR8MZQROAW758ugQ2L3Qqc4Hy8LGssWByAbL1stXyinI/Msr1m7imOti8cH08fR59XX6BgRwDXcSxxIcD5YKbAdIBjEGuAXBBNoAX/l+8Zvr1ufX5O7jxeTk5MXi59673JjdkuF16CXv/PMI94b6x/9iBqgNpBQyGnkdFSALI8oltSdzKScsdS7EL/otlSfkHfEVURQaFnEU6gyAAlf4ffD5643qCeqm5hHhdtv110jW+dXN1+HawN1g4LLi5+QL5wLqFO9x9Tj71f7U/6f+kP2N/68DhgdUCKcGmAPEAL/+Nv4M/5H/QP9b/Xr6N/et9qX5Jv5AAnAE2gUgB+cJ6A4KGIYiPCssM0Q6x0EDQwM7SzNyOEBJhVMGToM/JTPEKW4gqxukHAMapQwh+f3oE98r2pfWy9HLy4vGK8RVwZW8X7r3vaTFpMwz0wnZMtys3a7g2OgN9aEAvgjbCzILnglSCoEO7xN2F1gWnBBkCYoDXgA7//T9Wftd95fxH+uW5UTjLuTd5e7mwee/6GjpNeoB7d/yhfqPAV0H4QorDcgP0RMFGsIguiZGKegnPSWKJOon3CsoLNUmTR6WFwAUshGWDpQJlwN4/K/1TPCH69DmweEK3jHcEdvw2b3X7NV01crXoNys4SHlRuab5jDog+wv81D5Wvy7+/L6k/ydAFgEagbQBssFwgQdBAkFvgW6BWAFiAPYAnsCfQQrB3IHwAgTCicMAA41ERcYiB6DJBEr7DSbPsE97TPwK7IxQUKbTPpJgz8JNZUqGSHQH3okPyRZFzAD9vPE6zHo3OQO3wfXA89ByTLDiL3Zu+a9G8HtwrXFgMnvyn7Lt86n1j/hIOvg8qn22veH+ab+JgY6DYsS1BOMEGILywi8Cv8NCQ9qDUMJtgIx/Av4E/dQ9zD36PWs8qTuxuvO6wTuRfGY9Tn4Q/i/92H5Zv0+AjYIcw5tEtkTphVZGa0cMB+IIgsmLidOJRki5R4lHN8alRozGEsSGQv4Azn+cPlu9pjzd+4h6Nnh/N0F3InbYNy/3C/c5Nqq2i/cXd8a4ybn2+rq7YXwp/K39Bv3ofr5/h4CcANjAy8DXgPBBAMILgtjCzwJQgUaA9QD8webDu8Qww+VCm8GyAYeDG4XAB74HX8ayBzGKQw1XjYHLjkoJi5cOWk/oTxmOJg0Ui3fJE4i7ye+KHAbHQk2/kX8Jvkv8THphOK32WzOPcfqxnTIosYEwq++tb2hvuDAeMQhyOjL8s9B1PjYq96b5ZnrEfBT9Bn6ogBsBK8GvghVC78N6A6GEEMS4RLPEccPVQ5CDXQMAQteCY8HgQWPA6oBWABq/9n+Jv61/UD+y/6c/yj/m/52/zMBAATwBt0KYQ/0EWYRCg5xC5IMCxIAGTUc3RlhE20MUwgOCKgLzg6WDRoHUP4x9+XzdvQh9u/1FfLg6zLmX+M/5HDmIuj65/7mkeWh5PbljuiE65vteO9W8djxW/IB9I331fsMAE8DnwQEBDgEbAaqCSINlg+REH4OHAseC6YOJRRoF9AWOhOfDiAOKRFeFNwVnBisHpIjpCYvKU0royd6Ho0dMCuKOzs9FC/wICYcqR2vIEAjbiRPHUENfv279XT3yfmJ9T7r3d5g1VrPL8wlyz7KIchUw/i+wLxYvMy9or+owjLGocnmzV/R/tTd2LXejOYX7nH1RPux/+QC9QXLC2sTnxqoHkcflB4QHuEeBiGDI74ktCKqHlMaUBd/FUMUYxPyEFEMQAc8A5sAcv4d/Rn87/kg9xn1F/SB81v0+PdN+077FvmB94j3G/rcAOsJ3w3FCZEB6vx0/hwEcwsaD9AMoQUc/rz6HvxPAegERwOz+1nz9e6R7svwxPKl83fxA+1d6RPohepg7fPvC/JX8oDyrvKt9MH3BvuN/zoDTQbfBoQHcAmwCnQNuBCbFG8WrhT7Ej8RhRH2EzgXZRk2F3ATYxD4DUgODBDUEScQ7wtfCRgI8Qg+D7Ycgyc9IxIS7QNABhsWcicoL2Er2B6RD2sGowh0FpIjIyLvEJf7Q/AE8UL3a/qh9f3pStxv0pnPNtHS0mnQEsrrw7HBVcPWxaHGqsV2xcjIVM/F1tXbL97R3pjgxObf8Vv+1AVNBmEDnAK1CIQTth3rIk4hOh3VGZYZgB5ZJIcnqiQmHgIZSBeDGEIZdRg0FoUTGhHLDfYKCAnWB2MGcQTuAuwBcQAR/Tf4CfUI9gX6VfxM+m70Je7J6pLs2/Ic+Kr4tvS97ljqDepw72H20/nN90Xzs/Az8dX0rPmm/Hv8ZPrj+NL4vvoi/c//BwHyABMBOAEEAkYCAgOQBBoH+glPC4MKYAiqBy8JWA1jEXcTexIQD5QMwwvrDVoRQhS/FDURbwyhCOYI0wtyDu4O3gzPCY0GcwSWBBkHQglUCBcECP/a/IP9vv+CAREBcP7A+yX7FP0WAKEDAwgtC90JAAW2AMIBtAenDoISahGHDDQGTQIpA/4GwQpyCvwEi/wQ9YHyGPQS9gT1ifAr6jjl7eJF4v3ipuL04Rbgq93a27vblN193ybhd+JU5PvmcumW6mHrWu3q8d/35/wP/5r/iv+lAFME1gm7D3UTyRMzEboOSg8jE5AX7hmDGSEXUBSGEqIS2BN8FCUU+BGODgMLrQgkCDYIYQdLBfsBOf4s+3n5qPgS+FT3yPXb89fxV/Dr7zDwpfHU8qHy5PF28bfyjPTH9tP4rfoL/XX9Cf6h/jMAogJzBQsH2AfTCKkJ2QpnCgcKBwlRCSwLwwzFDK4KpAcYBWkFiwajBxYHVgU6A6gBGwFlAlcERQUnBG0Az/xT/aQApAS7BUYEagLbAMsAwgE2A8kEzAcACogJAAZWAjUCHQQCB3oI2wjpB3QFNQLQ/8oAnQQmB+kGCwN4/f75Svkb+pf7y/sL+wv5w/aT9A7zj/K18rH0bfUY9UH0UPOb9C71sPfD+Ub7NvzY+xD9//+dA20HeAhCB+sFAwb8CQ4PfxKsEiEQ+gxmCzIMuA43EZsQHQ1OCEEEiwKFASgAqv3K+Uz2svNW8rXwyO3F6rXo1Oc557rloeS342vj+uPr5FLmdOeE6OXo0+gJ6hLtavH49CP2W/ax92z7YgCmA8QERgZLCHQKFAxMDagPURKXE28T+xF7EPsPkxA8EjASEhEXDy0O0g0KDB8K2Qi1B4oHFAeABpIF2wHC/+D9Mv01/0wBDQRnAIr7T/j39yP6H/0CAq8ECgUZ/wX2rfJG+bkAIQbVBdIBJ/0q+fX4WPufAOMCRADF+/L6lf/8BOwDDfzK9o35Sf8eBEsExwKeArADYQPZAsYADgTYBagI9wToAlIHYwpUDzgMogZrA3sBfgX2C90QPBBGDdQEIQAyBCIMxRF7DpMGDQJD/5sB4ggrDgQIiQFe+5P6p/sk/voAGgNYA6P6tfXL9bX5Hvw6+3P6IPaF91b3/vRT8nXyq/fH+5n+zfog89Pvcu8R9VP6q/+2AiP9EPOA6g7udvpSAhQH4wAM+i705PK194X/1gTCBAUCMvcW8kb25/1OBbwHGAS9BIkE0/5J/Pb4jgHtCwAPKwpuAOr6Q/1rBOcHEQyECioJXwnk/U30VvP1/6UOSxHFCMf5XvLZ8h33fAFsBrwESPo/9Dn1+/kd/Qf6pvXn9kj+AQBh/nXxb+3e9AX6BABG/ib5r/cO9or40Puq/aIA9/z/9wD39PlNAuAGtAgSA0v6lfnW/W0GqgpQDXINVgWb+xH5uAbBFUkXvBCLC9wJdwonCusH7ghcEqoZkhaHDOgEjgYpCA0M9wlvC88QEg9lCNL4pfcV/f0I1hD9Bpn7qu6T8Ef5mQDiAvwCoP/P+I3tUOaK8W4Aewq9CJTy6uiI6NTu9QA2EmsRUfw561Tx7fgz/d793AAJCwIMUAVu99v0xfUZ/nsKwguACBQFLwFv/Rb4EPjE/4oJ2g4ODDcFi/vb++v5jf50BWIHyg3IBAf5Lu/B9bkJYhMbCLv4ZvML+TEA5gJa/z/6vgCCBLID+PVr6ub19wK3BqsAQP0O/Hr++ACP81PuYPVwCJUSgwhh+Uvuh+9H+xIDixAFD1H/M/EA6OP3BwVCFVcW2gNu8s7pae5B+4YO6hHWDmYBCvO47MHvAP/6CuwOcQig/+r2KfIW8oH6jQITDvMS9wOH9fHmWu96AlgPuhbDBl32OfdO+uYDmAqzCKwFegXKAZH+pQAdBsUJaQe7ADL/TAfnB3UCvfii+v8DLQnoAzv/0/yT+gb6OvvtBsAMvwfX9xnvEvHd9DP6iwNyCAIIev4a8VXxIvRJ+5b+/AEOA4T/dwRBBq/7PvdW9k77HwtPCfoHwAR/BDkH5PqI8lz/3g61FlEPFP4C9avw7QBCEl0SdgXT+CTx6O87+k8K3hNWCY/55vIm9cgAzABhAHL7svYP/50HfwaRBvb9u/fT8u/3SQc/CgsHgQEz/FoAHP9WAUsCwgf0BJT3QO/3/L8QWBHBBc7z+/GJAhsJ1gBu+LgBQAWdBNP7pvPH/EoB3AC/AP4D+wZdA8ECY/uQ+W/z7PMJDDETPg1HAR3vQPRAACgGqgJ5+JD73Aj8ETEJqveA6mnwcgBBEZ8XHgfC/nr0RPUL+yP+DgM0CYoPQwV7/Djt1vGq/HULPRDfBLABP/SU+CP8vvr7BVEL/wn4A97yc+yV+X0DiAZsCnECEvyC/pv5FfrI9Kj9KwfTBqgHNvg+6zrzhf86CA4I4AOoAJH4/vBe7Yb5jgzgEuUNzfnp6YLq7PUoCL8OkQ1HCi0C//jW8njxwf0cDgUWvQuZ/cL2Sf4YBZACq/76/qMG2wjoB8H+iALs/cL2mP3SAA8IJhBGCoD8ou7J7cf/GxJmFZMG/PrI9FPyDfZT/7ULARYqCYT1Ceay43EAEBftG94F7+1D7mD47AIpAYT7xfzp/xAC5QWpAVwE0AKp+ifzdvAe/gUQCxZJDCj6L+938w0DhQ5OEFgGJPrD84H1aP2JCjcT/A8w/5bwvOvN+q8M6Bf2EKX+LfGP7A/8nQeXCfIHmQGzAH/4jfQ59L8AyBHnC6f/VvZU85r7nQX4A0b8rfx8/6gB4wVbAaH7SPv8+Zj+gwF6BOQDmf5J/b/8ePev+0wC8waACOT8CPOy9bD51QjDDI8JHACH81v0vgBMCbYIHQXsBBsB8veZ8Uj6lgvzFLMLcAH08W705/+PBIMJtgGg+0r8C/+SAaT90vt2++8C+AW8AeX+H/vb+iP7WPiZASkLjwtvAQz0jfDR9lEDyA+dD1gGNvi874j0eP7lBvEJkQf3BEQAsvwC+nf3gfx7BZcIggYS/6z9svpG+IP8owNhBwIGvv19+839wQHPA0MCNP1++zL8m//ZBaIHYARL/az3t/YR+y8JywxNB4L6iPFs9b4CpQwNDLwAOvgw90H+nAbVCmEBLPYz/IMDJAfLCjgC//ru9kD25vyvBoMM3A2HBAH1suvV9Y0DjwzEDZgDpfV29Gj3YgJXBIkBdwafChr+i+vv7LL9wQx4E2sHcfZ46afvVgTCEBoUmQD78BPxAPy2CYEKogbn/bH3U/Mo/sAIdgvGCMX7APgr+UsAkAdfBmMCff2n+J74bQCMBOMJ4wmg+27yx/Lq+18J5wvpBi78IvV087L9/QgCDJMBWvfW9+3+pgkGCqUFbvu87mT2fAQMCqIPwQkJ/Ir46PH+9ZMCQgt3E2cDNvRk8FT6Cgy3CjL/Dvn1+9D7a/yq/wsCKQBOAOj8sgAeB54DFfyq8HbxiwH5EM8WGwfJ797k3+1VBsMZbhrxCML1fusi7sj+VBDzFoYMm/nk8Wf1+wD6DLAFFgUl/Ob51P60BJAJ7QVs/4n2Bfc6/ckEWgkpBwMFmfr090j7QfsNB40E3wG+/iT2h/sWAJIF2v1F92v7ZwFUAlgBBf0n/XEApv6B+Yn6KwIECrQFev3q867t6/g7BnQMpRFpCHb94PEk6xD4VAM2DgUQ7QbO/oX42fjZ+wAALgOnC6kJmAL3/8n+yfnj+FH/6wTECIQJ9QIn/ev2tPim/4EDTwdoCAADDfxI91v53v8dCokGsABh+yL88PrZ/msDFQI9ApX8HPzI/yn+CQCO/Cr6ywLiBvoEGAFe/Tz+W/rd9xL7JgMCCqYIUf7j9xH1VfgpBHMKKwjq/mX1IvTA/DQHpAoJCvv9IvFJ8OT7rwqEDjYJ8AOm/ir50/GA9YsHNhh2ESD+pPRt9ukE4wmFBMgEfvzc/mz9ywGmCr0GkgJT9YDynfkTBRwOhwb3/GDzVfHi+NADhAprCUH7zOvQ7zv9bQ0OEp0B8vJf7i73qAKbCv0K5QC89NXxsv6OCjcODQjl/tTute6r+9sLQxjBDDX7dPHf8nv8NwWJBsIEOAA0/iMBtf+h/jEBwgC8/Tr/lAIZB4QHnP74+RL49f2XCeIFmgVtAQL5nPgZ96f+jQqTDGEFqPoZ86z3hQCxCLAJWAVS/gP5T/fh+ZkB0gZPCUAFv/yg+HP8av0zAP0C1v87AqoBdf8QACP/s/nr+X8AgwVdBgQFNf99/Ar7zPk0/YgFlQbyBPgEDvtg+mb7XAACA//9Cf3oASQFugJY/aH4TP3uAKsDxQTG/Nr6Iv4JAsYFKwJRAGX+Pfs0/cIDFQaxBZP+APrh+W7/WQfDB64CNP5e+vP6Zf6eAhgGbAYiAJb63vYM+5YBdQU0BHoDd/w2+ef2vvi2AiYIAQVy/p/6Rv1fA0YCWPvh+CX7fwDMAqcG7QbzAXf5kvcN+HID4Ar/Bl0C+fzA9DP7/f6dBZkJSQSh/8f7qvts+yIDHgHu/osCKP/BA1AC4PwC/d/7PP9VAVoC0ANfBHkBi/zf+Er7KwJDCNoHcAXmARX7TvaA+lQFSwlqCUoDk/Yx8173ZQP+DRoKzv9a9+H1ZfwcAZMCTwIg/Rz68PueA6oK3wUW/Q32x/fTAJUDzQPABB8Atf4Y/HT54P0TBVcHkgS7/RD6nf0iASoB1P1H/HP/nQKgBQ4EOQDg+hL4XfyyAK4GuAeWBLwC9f7N99H2x/sfBo8K0AaJBcUB+Pti9lv3F/8OCfQN9ge1/FDzDPdB/7UDngWAAo4Cw/8//PD6dfvOAAMFvgJJ/RP7rvwGAVAAowI/Ae4A2f8J/q4BrP0U/nL54/w3BOcBygO0+9379v6P/igCfwOmA93+rPrK/oMDrAKp/7L8SvxrAnsFNgUjAmz8A/vp/lkFFQmEBK79zPr3/Pj/GgLqAkYENgV8AYf8S/gp+3wDfQm6BmwAp/yI/mP+e/4s/t78sP4vAbwAnf63/N78svym+0z6MP14A4UFPgL6+ZD3Zfs7AAUESAWyAtb/8P1l/Ez6yv1DBRgJ0QcDAar8DP1lACwBjwBcAl4FngWBAYb8uPtz/x4C7QGoARkCkgMvApf+MvxO/T0AewJUAX0ApgCjASz/APzO+uD8ngI+A84A7/zp+nb7nv5U/3j94fwk/XEBAQPcAZ39YfpJ+R/+HAS+B+kFBP8++5v7Rv6HAiwFNANMAcb/+/9DA1oDOATRAEn/1vxp/y0FdwikBpn/L/pr+KT+0QOPBL0CAvwY+iD8GP9wAKX+dPsz+Y34p/vdAFUEiwPD/eP4BvpG/koEqgb3BPoBhwDPASMDuAJPAokC0QMlBFoDtwKRA58DPgPkABj+hP3m/E3+RgDdAWgC7v8J/Xj6uPrg/BcAfgGuALT97PvA+oX7K/5+ANUB5wHiAC4AMv9h/yD/kP4I/0kAggLLAwQDSwGh/p/+9f4gAZoDLwVeA8L/Kvze+6D9cgCBAyUBKf3B+Tr6Mf+BAkMElQEy/AH4KfhU+0wB6gVcBsQCif3c+Qn8mwGLA0UDhf9H/Fr9JgEyA6MC4ACQ/mL+0P6eAWAEcwO6AeT+cf1d/94BUAOEAFn8OfrZ+3//8wKDA0EByPz6+bj5avsHAKcD9QNRAZz9TfxS/tAA1AJdA5cCsANEBjAJ2ApjC5gL5gqWCuUKVQzCDs8PAQ5OCi4HYQYjBhYGjwON/pX6Ffc09pX26/Ve8/3ubOvf6Pnm5eaL6N7qJezV6+jqp+pd6wrti+++8QD02PYW+pn9ff++/2kA/gEmBRgJqQt8DAEM9grUCW0JOwpSDAMOYg2uCxAJ2wa+BTAGTAeaB4oHAwd1BjIFqAOqAswCAAQoBeoFzgWUBFgDtwL+AvkCcwJpAQMBaAA5/z/+WvwH+8j5Ofm0+AL3nfXP9H/0fvNW8qXxjfL59Pb2gvcZ95P2CffT+GX7xf0VAMICOAXqBtIHjQjFCjwOehErEhgREBBOEF4RuRFtEF0OOA0QDdoMuwq/BrYCFQBG/97/iAARAdYAYP8//cL6mvrZ+7T92P7D/i//DQFMBN8HDQooC+MNvBSDH3sphCuDI0YXMBBiE9Yc+CS4JnMffBLSBEb7a/cb9uP0++8S533dxdUs0mHPGcswxVLANsHIx0LPB9OU0HfL4sgBzIvVNeLB7E3yEvMk8lrzfPj+APgJug9AEWEQZBCfEtsVdRdWFvgSABC+D2kRVBJYEIoKCQP6/OT6yfzs/9MAnv74+av1RvR59s/6mP5QAGYA//+jACoD5AYsCusLOwwXDT0PgxJUFYkVXBPYEDwQfxFDExIUqhI9DwAL6waVBFoDNQIkAZL+Sfvq92n1UPS7813zffLg8e/xUvLP8pzyo/Mi9S34sf1BA/AHuAkPCd8JZwz+ELsW9BtsHxQfsBt5F0UUXRJ8EOMNOwoVBq8BAf2N99nws+kH5Pfg/+Bv4jrjzOKi4D3eq91n34rjqeg47afwSvNt9Rv47/qI/eT/xAEmBHMHVAqpC+UKzAhxB3QIYQsMD8AQ8g94DrANlQ2/DFEKTwcXBegEogaSCKAJWgksCHQHYQcrCIoJYQrRCu0KbAv5DSoRoRO0E84RvBBdEk0YYCE2KoYupCrEICMX8RPJFpYbQh0ZGi4Tmwo4Az790Paa7rzlFd8d3I/b69pk17vP/8WZvli9ycHoyFbOVdCrz1jPbtHw1WvbSeC65Afpi+519QD8RABOACL+sfxc/iEDZwgUDIoM8glZBoEDsQKwArYClgJGAk4CYQLHAnQC4QDZ/uD9ZP8zA/AHhAtpDewMwwtNC1kM5A7lEZAUJxY4F78X3BfMF+cWfhX/E1ATYRPsEzMUNBPVECUNFgk7BpAEwQOLAo0ARP6z+zH5+vbY9Mfyw/CY75rvdvCd8bbyYPNZ84jyYPK88yH2KvmX+6z9Mf8dAGMBywKsBJUGMQmMDHQPABE6EKUNpgpiCCYI+QhDCWMIhQYPBFMBv/4I/OH4yfWO80bzUfSd9Vn2dPVX8yLx+O/L8BDzFvbL+Mv6xfsn/H38sPwo/Sz9J/3J/dL+PwDvABgBvAD5/87+Uf7Z/gEAVQHhAQkCMQHC/93+RP8tAdoCkwMwBDIFVgd4CkQNmg4hDRYLDguYDdARcxUDFy8W7RNAEkcS5xIvE7wSaBFXEDcQPhIyFhAawBudGg8YaxWcE0wTyBOUE48RxQ1mCdIF9gJBAFD8//bN8AHrrOZc5KXi1N922+HW9NMU0+7TUNX91e3UJNNP0gXT6dT+1tXYY9or3LveqOIL56/qvOyE7Ufu6e++8nH24/mm/Fb+2//VAQMEUgb7B4oIZAhBCI0IHgp6DLQOCxBVEK8Q9BCOEZ0SuxM0FOATLRP+EmsTahSbFW4WeRb/FZEVexWvFY0V4RTsE8ESvBHvEE4QgA8MDuALNQmdBksENQI2ACn+BPzB+f/38/aI9mr2bfb39b70L/P78crxQvKJ8v3ycfOj8xH0CPVr9qf3bPji+Fn5U/ph/I7/QwPSBokJZguODP4MoAzLCyULTQohCR0IGwfyBYsDnQD5/XT71fk++VD5vfgd9+f1qfV29l33+Pfv94j3qvds+I35M/pL+Zr3wfYw96D48PkF+0H75PqB+8H87/47AHoAgAD/AGUCzgPQBPQEJQSTAyoEaQV0BlcGHgXpAx4DdAP3BPgGZQhQCVcKzgutDZ0Okg7hDTUN/ww9DXcOxg+BEBURbxP+F3odsCEqI4whXh7+HG0eTCGlIsogiRyMF64TPRGYDlQJ+gA392jvx+pg6O3l/OGa3IjXt9Su1NHV8tUr1KnRANAY0LnRPtRG1h7XrNdY2a/cuOAa5BnmD+fC5+3oMusd7g/xRvPw9K72rfjA+qv88/2K/sT+B/8AAKYBggN+BU0HKAkhC7MM8g0aD/wPpRBjEUkShBPuFF8W2hcVGekZXBqcGpEafRpQGiYa8BnZGbMZShlrGOMWBxXpElsQew1qCl4HdwTNAVr/Uv0t+/T43vbz9IDzePKY8dXwB/BT7y7vxe9j8KzwyfDd8BjxC/KW80/1A/dX+N35DPwc/vP/EAJyBPcGbwmJC/8MsQxICyoKmQm3CakJwQg9B1sFKAQJBLEDSgJx/8P7EvlK+ED5gfo2+x76i/ji92P4N/o9+876BflO94b29fZt+LX5b/rR+dH4Dfgj+P/4Pfqu+2T86Pvz+mn65fpS/Av+NP9F/3H+8/0u/5UCdwYSCRsJqweJBvUGpAkDDdQO+g3xCxoLYwwxD24RyBGwD+EM2At9DeMQqhQ1GIwbBB/7IZgjtCNRIu8gSSD8HzEfJx2yGVYWZBOcEJgMcwaj/m32qe8/63roA+aX4qXebNuz2d/Y5tfw1QfTIdC5zoXPxdEZ1PnV+9bh14jZAdzR3j3h4OJr5GvmB+lb7MzvrPIO9Zz2tvfC+J/5lfqE+3b8xf1g/0UBbAOKBVMHvgj9CSYLGgwuDWAO5A+rEUYT3xR0FsMXCxnwGWIauhqyGoMaohrVGvcaChviGnQaoRlsGOgW9hTEEjkQhw3LCi4ImgVIAyUB3P6R/GP6UPih9ir1/PMF80LynvFU8V7xj/G+8SLyjPL48qbzgvRp9V32Xfd3+MD5X/t8/dT/GQIFBFQFOgYeBz8IiAnFCjcLegrcCBMH2gUcBV0EhAM7Aj0AWP4U/Uj8XPtC+lD5a/g++LP4MPlr+Zb5dPld+bb5Hfph+k36q/rM+sr6NPud+2v8PPyk+9T65/nd+ej62/wJ/gn+t/2U/ff9L//DAJ4A4P9n/6f/GgHJAgQETARtBCkF8QYtCeoK2AovCiYLNA1wEE0TkBSXE3kRLRCqECES7RLIErsRhRFQEmsV6BpAINkjnCTqIwQiSSADHwkeMhx2GFQUkxA0Df4JbwW4/nj24u2x5svhG94L29nX4NQt077SGtND07LSq9Gv0IzQp9F/04vVg9ei2Q7crt5+4fvjQuZD6CLqDewI7u/v3/Eb9KH2Lvk2+5v8ZP3E/Sr+rP5L/wEAzgD+AeYDLQaICLAKHAwkDSYONA+dEDAS4RNNFaEWBRh5GdAa2huoHAMd6BxuHM0bJBthGrAZ/xhgGHEXHxY/FA0Scg+JDIMJWwY0A1MAz/20+w36bvif9sX0ofLv8LnvCu+W7i/uzO3i7RLv+vAd8wz1A/a59Vv1Ffbr93v6P/3M/48BxwJTBGAGjghhCm0LdAvFClEKXwrSCvkK3glkBzkELAEq/xn+nv2k/LT6Ofjs9SD1gPXx9kL4B/ig9mX0UPME9Nn1kvcO9wj1a/OR8+/12viF+lf5F/c39lL4ZPzN/9cAqP9I/qL+ugA9A+oDPgLe/yn/wwAVA7EEtATrA+cDTQZACjcNLQ3fChwJTQmGDIAR7hThFEIS4A9KEGMT9xZeGCEXaxXhFUUaMSFvJxoqjSgAJpYkpiVwJ74neSSjHaEWbBF/DtALFQem/1b2BO576DLlTeJc3lrZ0dTJ0R/RdtGi0Y7QtM55zW3NBs8m0QzTYNRK1b3WBtkX3Ejf5OHf447lhufz6ZHs8O7G8GLyrvMC9TD2jvfA+Kr5cvpF+zT8if0s/9UAwAJsBCEGJQhCCskMfg8tEpUUYBbNF28ZFBvTHHMeoh+FIPUgTCHUITsiOyKzIWsg0B4NHUAbqxmEF0sVjRKiD+wM9QlDB8QE3QHa/sr7Jvkh90/1nfM/8pPwLu+O7kDud+7E7q/u8e6772HxYPQg+Bf7gPyg/KH8n/0uAEMDawULBjwFkQSJBWQHjQgDCKIFXwLw/zH/m/96/939Mfuw+Ej3OPes93D3SfZx9FfzRPMm9Cf1NvUT9d30jPUS9/34e/qU+yX8h/xL/VD+jv9wAHgBvwERAkgCPALhAgwDswMmA4UCWAIpAuQCcARZBXAEZAOVAh0DSgVECBUKsgn0B9oGDAhfCg0OBBCrD+4OTQ6EEK0T9hXFFqMV2xNkExAV7hf7GqsdWyBvIvojHiSQI18iIyCqHY0aCRc8E/oOlQs4CJgDZv3x9THuredw4l7er9qN1rLS3s89z8zPY9Bb0GjPZs4wzozP0dFR1DDWtNey2cHcueDP5AXoLupZ61Ts4O3670HyLPR89Y32uPcn+c36OvwI/WX9eP3k/f3+tgDpAiQFNQcbCdcKoAx0DkIQ3xEYEykUZxXZFo0YMhqcG40cFR1lHckdJh6AHm8e/R1bHXMcuhvIGqkZ8BeAFbgSJBCQDeAKPQgPBYwB/v1H++L4HPcw9dbyr/A/7wfvuu+68A/xZPDM7yDw8PHe9KX3jvlk+nH6lfvs/YcAMAJYAj8BJQCAAPMBbgOyA1AC1f/e/TX9VP0b/eP7nfke9+n1uPUQ9o71MfRd8uPws/BB8aTyMfNI88fzlPSN9rz45/on/E39l/5lAKECzwSQBqMHyQj2CSIL4As5DBQMxguGCyYL/ApLCowJzwhYCDIIzgekB/YHjwi7CSILuQscDP0LOAxUDUQONg8EDwEO4gy3DJINbA6qDj4O0w2bDo0RLhZ4GnUc+BuJGtwZ+RqPHGYdjxtVF40SJQ/FDRoMHwhZARf5gvGB7J/p2uaG4orcHtf804bTW9R01IzSfc+szNPLI80fz2nQp9Cr0DLSt9Wd2k/fjOJZ5JzljefZ6uvufvIr9bj2CPhW+nf9kAC5AmUDCwPFAmcDNwVCBwMJ7QlsChoLiQy7DvIQZhLFEmISKxLGEugTGxXXFfUV3RUDFuAWeRjYGZwaihrtGUkZ3BjRGHoYmRe4FXkTVBGmDz8OoAxwCnEHOQRhAUH/pf0f/Gn6Ofhe9kn1VvXO9Q327/V69Tz1g/VF9hP3hfeG93j3l/dy+FX5Ivpq+vj5BvrP+Vj6uPrF+rb6OPqk+vP6d/uO+7P6u/np+Hf4ffhP+Lv3Ofe79sj2VPfb9933a/dK99L3NPl9+4v99/7o/0IBCwNOBXgHZwkjCuMJDAq/ClMMUw3bDRAOJQ2IDDUMLwz9C3oLVwoNCTsIXgcmB5UHHwhMCFcIuwgLCZIJ2AmrCfkIvAftBtwGswfRCE8J4wgoB0QF6QMtA2cCQAHD/zT+qv0B/7IBFAWqB7gI4wi5CHkJPwsvDXcOHw6nDP8KCAoYCrEJDwiKBOL/uvsW+I31+fLV74rr5uZf423h6eDD4CHgT94F3JbaYNpp2ofaStqV2W3ZZ9qw3HvfvOH94h3kGeXK5oLpeuws7yPx8vJ/9cL4z/xxAJgDBQbsBw0Kfgy/DpMQUREoERQRgBG6Es0UCxd2GHMZ/RkqGgQarBnRGJYXFxaYFIsT+RLPEjEShRGTENgP6w4uDoENjAyWCzIKDAmaCAgIeAcOB0gGLAVSBMsDLwMGAlwA1P4J/Sr7vvmc+Pn3K/dF9nz1u/Qw9AP0HfTL9Dz1lvXr9Rn2Yvb39mf35PZ/9hv2w/Ut9vz1sfYR9xL3vfcE+TX8GP5F/ywA7/85/1z+T/4U/zL/Qv8p/5H/1QDiACwBLwHdATAC7wI1BG0FjAVeBs4IZQqhCzQNKg/aDyMQKhGvEaMQFA/HDl4OGA5SDlwO5g0jDekMqwz8C3QLAApHCDcHxQZ+Bj8GJQUABL8CRQE1ACD/M/0s+w75pfb69P7yu/HS8Cvvfe7j7ebt1O0I7kvvDfCJ8IXxsfK/8zD1B/ez+B76Ivuf/Lf+mgAmAuwDLAWyBbsGZwicCTwKiQpoChEKCQocCrsJ6widBwoGdgR9AqMAcf4H/Jn5K/f99BTzZPHk74zuGu3Z6w3rb+ol6kXqR+ox6sbpb+mi6Q/qoOqH66rsqu2F76PxDPQW9mb3p/hB+g78cv5lANsB+QIVBMUFWgdYCbgKHwvsCvgLDwz9DA8Obg7UDtoOFBAhEc4R/hIlE3QSShJvEjUSkRJJEnwRHBG4EFAQUxABEGcPKA7wDJ8L4QoACgcJPAjsBqwFhgRZAwgCIQFiAGj+xfzc+wr7ivrF+d74H/i29jj2FvZd9pH2iPUz9RT1sfQB9Y31w/US9rD1k/U89lP3Cfgy+Of4Ovm7+aP6Afy8/Sb/rv+v/0oApAE6A/MDYwQRBfMFrgZICOkJvguCCysLygpXChALHAwaDRoN1wuOC9cMTQw0DGYMTgkcCf0IzggCCUIFNwGS/fj9bPqL+b37qvu9+xL6y/hm+Jf4k/dB9zf2w/UR9ST18vaf9wj3U/fj9nL3q/fk9v73hfeR98z3R/ej+LP5bfp5+gD7rPqE+o/7B/6c/nP+Bv4U/lj/k/9EAvsBIALrAmsCcwH6A6MDHwWtB3EFvQVPBc4FaQXQBIgGowXwBh4FtAPJBMcEPAXkAggCmQGXAX8BNAAw/0H/L/4c/oX9gfzA/Ar8AvoY+sf6i/mX+QD5sflJ+Bf4rPcy+a/3v/c4+ID2OPhH+Qb69fpU+jP6tvmb+0n9Cv7G/TMA+/9j//n+QQExAi0CHgSRBK4DCAQlBdMEZQZWBnQFygYaB5gG5wbLB8QHywaNBT8HyAeyB2gGmwXCBUEFAgW5BW0FJwP7AXYDdAK0ATb/IQGDASj/3/+d/gAAC/5B/Vr+L/zL++378/1m/hL8D/v3+Sj7U/v0/Mj8OPsl/HD8ivwt/Tf/wPwV/w39yv03AOj/hgAGA0wA7/48/ev8rP+h/u79ygKoASACEwHRA5sG1AQQCMsG4gA+Ba0ECQSrBPgHHwYQBx0I5AVeBp4FxQUZBQwEUwNmA70C2gKSAQ0AcQBJAXsAnf9z/rr+LP+R/UH9Hf03/RT99v20/Q/+nf3I/er+j/0a/cj85f0c/vv8Ff6r/rH96/2w/lf+Bv9p/yz+Ov6o/RMAGP8IADgAnwAfA17+mP4JADL/ngBKACUCYgDc/9//nv4IAJIATgBRAdMAUgH+Aif+YgCw/Mv/xQFDAEkDGwGQAdb/L/+WAGb+6v5+/z4AWf7CAbUBff8W/en7NPyg/A/+av+m/sn9zvyC+ur7NP0Q/cn8DfsQ/tf8jvzO/f/9t/pM+yD9XPy+/hkA6v1O/gv92f5g/zoCe/9d/zgBSQEYBJcCSgE1A3kBMQAfAtMBywAuAswCSwODBN8B/v4p/lD9RwCFAcQB4P89/Cr/Qv+Z/iAAyP0TAE0BsQFYAdAA8QFxAVoDtQDjAnkB9gH4/tT+MgA+Al0DbwK6A0oDTAOwALX/ZP8M/jP9ovyC/jz+NP0d/R79Wv9b/j/+pv8e/rn+6Pvo/MX92/4eADT/s/8JAB//2P6tAUsDYgS0Bl8DjQLyAmoCb/96/tb9KP/fA+kEHAQzBlADzwSCApwA4wJ/AcIEZQJuBM0CJQGaAmL9rgBSAGv9kv8m/tr/Lv/F/MT7Ovtp/LX7R/zu/av9bf4G/bv8Nf6v/J7/Tv0p/wP/mfprAeL9jf/k/B0AaQI9AQQC8gBS/if/IgD1AOb/UAVGA2wFsgGR/1wA3P/gAXUBEQE+AhgBfQLVAlADJwJw/kIA+v73/yEBRf8+/uD+Uv9HAPIBfAE2/53/kv03/o3/F/0v/s/8Yf4MAgwCWwMfBSsEKgEHAB3++P1SAPD/bACe/zIAOQLeAvgBRv69/tj/IACpAM4Asv/J/AL+s/9C/mj9r/xP+4f8lf6kAHv+cAAQAc39rP5V/U/+1/6B/vYBjP3C/qf+N/9bAggCaAHeAZH+zfuY/wgBEf/tAWgAxv0TAY8BggK3A4b+tP6sALr8NP1i/Xv/Gv9a+6cAOAH3AL0B2P6t/gYAmf04ABH+SP96/sv9Uv/e/pz+bf+fAQEAKQE0AccCdAI0AUX/1P3s/98AaQHEAA0BqwAJABAAo//x/8oAdgHLAgMD4gLFAD8Ad/+v//wBvQL3Af8AUwHi/iX/Pf1H/Ar/zv8WAUwD7wIT/5YAF/+i/P7/PP0P/U8Aiv5cAF7+TAAsAPoA9wGc/3QAgv8qAJUAx//H/xwAH//eAK0A3QBXAXT84f6DAO3/RQG5AR0ALQCM/l4BzAGdAfMBJQB6/uz+kP+3AN4CBAGU/o/9Dv6a/tD/hwEXAOj/ggCYAgkDIwIZAHv/q/zH/6kBoQH9A1oBMALbABf/S//oAXf+DwFZAeP9CAAA/oL/0/9lAPv/AP5I/6v/IAFq/2MA4P2Q/zv+Af3Q/R39O/75/S0AOwChAmACAwO2Aav/Wv9f/5kBkP5KAXH+M/8bAu3/d/6nAL4CSwQPAZD/bQCS/v4Bwv7R/AAAnwCfAer9J/0x/8MAZgQOBCgDGQGd/oX9yv1k/Uj+Bf8X/0v/A/9W/eP/ov+CAfYDmwUnAYsCDP4B/ln/l//rAHUAjAAjAkMAYwHuAOD+HP8G/Rr7tPuC/If+L/0m/+T9I/+j/h3+2P2+/6n/AP/2/ef+vP4m//z9Jf3U/I8B+wGZAoUE/gW7A50CggJ6A4YCOf/F/PP8wP7aAdgCawMNAo4ETAKJ/1MCDP9KAeX9wAAdAX8D7QOuAzEBPP/z/Pf6SP1Y/Hn+Uv7OAAcA2v2e/wL9Y/7h/Ff9lP1f/YX/o/2U/k3+Ev3u/bQBQgI9BOwFrv/y/jT+D/mA/ab6uf62ALICIwWjA98B6wDy/t8CXQGsAnQAf/8XAI7+N/71/If/fAOsAccE0ABU//f/Nv30/mv/Lv5aAeL9VwCc/xf/EAC/AVEDrQDTAIUArgJCAJH+df9IAJYA5QCGA2YBDALc/vv/9QHH/+L+eAGp/1IAVP5sAXkBrgIiAb7/OP8r/SMAgP1W/+77/v1d/4z+bAMdAJn/9wEz/oD/lv4K/yn/G/7g/+b/qQB8APT/6P/V/p//mf8I/+8A5wBwAXcAu/2OAp//Wf8GANX+c/8AAMQBpQFMAwIBHgNrAWwBhgIo/8v/7f51AFb98v89Acz+yv7k/lMA3QCSALkAlwLq/0gADACz/63+/fxV/vX+Fv4ZATf/AgD1/hAAMQHs/53+XQD4/wgA7f8gAJz/eP6E/QQAmv6xAIL/nwFIAuz/DQGL/kAAQ/8b/o8Auf4TAq3/DgBWAHUA6/8t/8QBlgE8Aw0CUwGWAUz/dv+p/nH+AQAW/w4B9ADtAWABjv/8/n7+ev9K/2gAmAENAGkA0P8xAOb/PwCqAXkAeACH/qD+F/zW/DP+wf3s/lb/iP8/ANH/YwNSAGYB2v9i/b7/8P37/sD/HAD9ANoA8AAdAUYACAICA2kCRwL/BLMJawy+Brf9WPWX8tr0qPhO+qX+5/um/tYA/P2C/wP6nPqf+8v8DPzc+Bz+N/7r/ff77fydACABQANbA0MArAVXBSwD1gJRAIcC0QOBBCMDZwa4BSwFwgS3ATQEPwIUBbkDJwSQA+QBxQPsANQBPwErAq0CYgG9AnD/HQD+/vr+jf8N//b/qQCK/3//cf6z/W78HfyY/NL8Yv6+/fz9L/6z/Tv+zf2e/rX+s/+p/y7/fP43/cL8tPwm/N785P0a/ZP9Tf3H/Hv7wPqr+yL8yv06/0wASQEsAqUCjAPCAx8EqQV7BIYE2AMpAg0C3QBIASAATAAVAA8ABACU/2QAEAAbANgAPQLAAq0CegI6AvoAeQF6AIkAAABs/kD/Q/5L/pP8dvyW+xH7avtz+yX+Vv7lACoA0wBYAHD/fP4E/nf9zv10/dT8OP05/a/9af2K/cL9Lv5q/tX+Ff7H/Wn9f/5PACEC0ALUAkgD0wNhA3QDHQNiAhwBW/8UAAEBYAELAzkDLwQhBKsDJwNNAgoCRQL5Ah0EyATlBGwE2AOtApcAdf+9/lv+xf3w/Ab8Yvy+/Lf9P/5c/nD+FP7t/YH+4wCIA+UF2QeECQkLFwzjDeMPUhEoElYSGxL+EJ8OQQz8CQsIYgb1BKcDtQFY//P8u/lF9aLwguyE6ELli+J/4Kffqt+n4E3iWuXY6A/tNvEC9dz4sfsb/pb/uwB+At0DDAWuBcMFswXEBc0FYQaWB5IINQkPCsQKNgpQCckHFQbxAqv/1PuI+F71GvNn8jTy7fKq82D1ZPd5+Qj86P7dAZ8DVgR6BLEEMQW1BLsDTgJfAdoApAAkAP7/lgAEASoC0gKYAz0EhARIBF0DUgL4Ae8AlP///Vz86Pto/OH9xv9iAjAFhgfWCBgJGgknCecIRQgRB6MFrgT3AlkB+/8IAHYB4QJABJ4FFggfDNcRsBeGHqIlRC3SNCo78kCbRYdIakiRRIA91zMRKGEaogqX+YbobNiSytq+t7ULr/6qfanqqaKsXbEXuN2/2ccyz4TVJdsx4MvkAukX7cHxu/ZT/P8B7AfSDeAT+hn3HrMiPyRUJN4iBiClG1sV/g1wBS38m/Iu6Q3hMNr81GXREtAj0QPVNtuJ4yjtAfdfATYL5BT3HLYjKigCK8IruSowKKAkpyAvHPkXdxNrD5YL6ggZBzoFLQNrABb+EfyM+gj5tvYZ9A7xle4I7dLsLO4l8Sv1Rvq1/0gFzwo3D2kS7BOOEycSTg+6C1gHuQH2+0/1A+9w6SblPuMn4+XkeudQ6kDtZfCx8/v2GPof/GT9C/1t/GD7uPrO+kH7XvzK/fb/uwLCBcEI1wtqDg8R/RJeFNwUHRTqEuUQ1g7kDJ0LUgv+CwwNWQ6QD+sQfhPHFyEewCWhLXw1nzwkQ/pIOE0wT/5NEUmZQLo0dSboFnEGufXl5GLU58S/tyauoaiLph6njKlmrZWyzbgVwB7ILtC11+TdfuI45qfpRe6a8yL5f/4jA9MHcAwLEbIVrRm9HNUdxhyjGZ8UiQ6OB8z/Qff17fXk9NwD12zTdNIG1AnYPN6X5oTwo/stB1wSTBwSJGopRywMLegrCCmwJBEf2BhpEmMMGwewAmj/NP0X/F77Kfvn+hr7BvvJ+vz5Tvgw9kXzaPC97cbrHOuQ60nt1++680P5CwGnCikVOB9xJ3ctTTABMFQs5iVLHQ0TiQc9+wTv0OOm2mbUhdHt0e7U+Nkk4A/n/e2G9E36oP5/ARwCHQF2/gL7yfcx9Rj0EfQg9TD3Yfr7/mwE3AmhDp4SgBVPF1oXohWgEtIO/QpQBwgE0wEFAdkBEgQRBzkLShB7FiAdcSM8KeYukTXVPVRGIk1lUP9PbUz+RQs9cTHHI38U+AOU8pvgQs9mwEu19627qeGnSKj9qtGvjLZdvuDGgc8T2EDg/uaQ7DLxmPWA+lX/MgRNCF8LKA6iEJ0TkRbZGPIZJRmoFoES5gxiBhb/Zfc97wvnXd8B2YbUidI/03/WBNxh43bsy/ayAYIMbxYlH/4lpyq+LD8smCmPJbIgZBupFc4PNQpsBckBbP8z/qr9kP2K/WH91/yw+w36D/jB9Wzz6/CH7jfsleoq6nLrWu5f8sr2W/tBAPEFzQyHFEAcxSIVJ+oodigqJo8irB2uF2UQzgfs/ZbzsOmw4TnchdlD2Z3a+twJ4AbkLelY7wb2c/y7AfQEtwU8BKEBo/7D+xr5efYJ9P7x9fCb8U30A/kn/74F1guPEJ8TMBWeFf0ULxPFD7AKxgTe/jL6Q/eP9hL4sfunAJEG3AyME6QalCH0J+8shTCoMzo3lzvSP7pCLkPOQFE7BDMCKEQbyQ0CAFrydeQy1i/I+Lscs1SuUq1ar6ezLbnpvwnH6s5J1xHgIemj8cD4xf3ZAMsCgwSyBpsJ0wytD8ER6xJ9E6oTsBNUEwISPg9xCoUD0vpk8WHoAuG226XYedcs2I3a+d5r5dDtpvf6ASIMuhQ6Gxgf4SAGIVEg5B4fHb0aAhjpFKwRqg5BDMYK7AlJCScIMAYIA/j+B/rS9MDvUuvv58Dlw+QW5dPm8Oll7v/zgvpqAREIjg03EeQSEhNlEkER3Q99DnsNPg3FDfQOahDpEQ4TlxMsE1gRsQ09CHcBMfoN85fs/uar4tHf5t4G4ATjXeeR7BnyUveD+wj+3/4w/mL8+vk891n0nvGB75zuXu8L8mv2K/xtAlkISA3hECMTBRS1ExcS/Q5fCm8EAv7k9yzzjPA+8EbyaPZf/BwDGQqXEMQWZBxfITolXCeKJysmriRhJD0mVCq0LzA1zzijOe42zjCoJ6sc0hA6BOf2rOhc2orMdsALuO6zfLTOuNy/B8jYz8bW7Nyz4mDo3O3z8vL2Yfli+rT6VPtD/dAAGgbCC/0QUBSMFb8UJBKTDg8K6wS2/oz3ju+P56ng+9uM2orcjuGJ6CXwWfeE/awCNgdIC+0O7BHYE30UwRMCEhkQsw52DoYPfxF8E4oU/RPQEWMOUwoYBu8B5f3Y+aL1oPEu7uHrPOuN7NPvQvQH+UP9sgAsA+UEBQaWBn8GvAV6BKcChwB+/l79pv22/48D4Ai8DiMUXhg3G2wcAxw6GjAX5xIyDWwGMv8s+AnyeO376mDqZetm7czv0fEt8//za/RM9ILz7fGX787sA+rb57Hm1eaA6KDr3e+M9BL5Z/2AAbkF9Am/DVYQeRFGERMQnw7hDHgLxwkMCGsFSQK4/q37O/rp+in+BAMKCe4OURTGGGEcnx+dIlslQiftJ0Yn4CXXJHAlBijmKxovBjCmLXwnLR60EoEG+voq8Izmmd3r1LvMAcbhwUXBlsNmyBXObtOj12DaJNx43V3flOL/5jDsMvFR9dL4+PvF/1wEcwlnDkcSPRTLEwoRtAy4B88Chf7m+rD3rvTH8X/vRO5x7ibwDfOt9gb6n/zW/Tr+7v1D/nb/DAJuBTAJtwykD+ERbhOQFA8VNBWGFEkTpBD3DFwIvgOO/4j85Pp7+tX6Wvvr+zT8PvwG/Nb7sPtk+/r6Sfpp+WH4zfc8+NH5X/x0/6kCiwXxBx4KMgw6DgUQmhHpEoQTdRPDEgISZREgETsRQhFdEMoNigkABOr9G/g5853v5ey96t3oDedh5enj+uLs4oHj1+Sj5lvo6Ok86/bsle8Z86b3qvx2AYAFNAjmCeAK2AsVDaEO/w/NEFkQXQ4WC+AG8QLh/wT+U/0L/b78Yvzo+9j8aP8bBIIKYhG2F3Uc1R5cHzweLBxJGvQYnhkrHJQgNya1K0gw5jIMM68wrytgJFMb6RDsBW768O5N5P/a3NMez+LM6MxFzpDQ5dIb1cfW6de92ITZqNpy3OzeCuL65Znq5++D9Vr7JwFdBlsK0wzGDS4NXAuECF0F/wHs/mT8lPp++dX4evhO+B344Pew90T3xfYV9oz1U/Vv9RP2XfdQ+fn7MP/MAooGDgpdDfkPohExEtsR4xCODzgOWA3tDLoMwQzZDOEMdwy8C8kKhQnOB7wFcwOpAI/9lvo4+J32yfXo9b322fcX+Yj6KfzZ/cr/UwJyBegIcwy3D0wS2BNFFNoTzBJNEYcPvQ0ADBAKwwcmBUUCO/8j/BT5R/Zi8ynwqewK6YDlfuJX4FnfRN/+36nhpOND5h7pHeyD78ryZPbp+QH9x/+OAbcCuAPMBK8GFAmVC3IOWhAtEeoQIA/MDO8JxgbKA0YA/vxo+hz5nfqP/pQEoAvsEdYWQRkNGXoXWBW+E/sS+RLfE3YV3BfQG+ogHyYzKiAsbSviJ90hhBodEzQMQwaZAfb9lvoA90jzs++X7EnqGems6Efo+eaF5CTh9Nw92YzWk9Uj1pDX09kk3Gven+DI4hTliucj6tjsYu9f8cjyrvOf9CH2g/gU/D4AeQT8B20KowugC+0KxQmICEAH/AWtBFgDHQItAakAqABFASoCLQPWA+wDoAPiAlcCIAKTApkDGQXGBiEIIQnSCZoKgwuWDMsNBQ8mEOQQFRGMEEYPkQ3eCzUKowg9BzIGrAUwBQAF4QScBDEEXgNOAsMAuf59/Jb6ZPkg+af5Tful/eD/7AEcA7UDYgMTAogA0/4y/br73/qj+p761Po5+4/72/up+yT6nvf+8ybwJO1I6y3rC+yD7Vbv4PDw8XPyOfLK8efwePAr8ZvyWvVX+Db77f3Y/3YBkQJJAyUE8AQbBgoI1AlOCy0MhgxMDfsN0Q7YDxgQFBDZDwgQ2RCBEUESPhNQFKgVBRcUGF0YKBfMFQIW+xdCGz4eix+XHvkbKRmqF4IXjBc1Fw4WIBTeEakPig29CucGgwI5/sj5hfUK8S7sU+fa4mzfWt3y27vaG9kw12rVDNQI0x/SK9Fx0A3Qp9BN0qXUctcZ2pfcRN/34c7ku+es6nXtPvAV81D2oPm6/LD/OgJaBCsG1wd2CRoLqwzcDRUPYBDQERUTJRQBFXUVzBXsFf0VARbPFaIVVxX6FKcUZhQFFIQTuBLAEdYQ9g9fDxsP/g4BDwYPCw/KDvsNsww1C2YJbAeqBVkEUwO5AnwCgALQAnQDKgRfBD8DNwDJ+1/3APQA8pbxafKr87v0QPWW9Vr1TfSs8vPwWu/d7cXsp+xm7XLutO9y8e7y+vOT9Ej0UfOd8cjvke5E7kfvAPFv8zH2V/j/+fv6oPtE/B/8ZPwH/fz9JQC6AvAFmAg0CgUMQA1tDtMPQxHPEoET3BOXFFIVlxYnGOcZchu1G3kbqBp8GTkYpxbUFcIVfBaBGHEbeR5VIKsfXh2CGo4XjxV7FD4U6hOcEiARqA8iDjgMzgk4BmYBvPu59V7wj+t955fkJOKv4AHfDN0p24LYAdaE00/R6c+Vzt3Nn80fzsnPJdIm1RzYaNpH3KDdEt/74F3jX+aj6fnsfvAa9AT49Pvk/54D6AZ5CXcLAw1BDooP7BCVEnAUHRZ0F3IYAhliGcEZ6BnBGRsZARifFh8V9BNpE0kTdhPVE0EUeBR9FGYUGRRtE4cSZBEeEOAOyQ3VDAIMPwuVCuMJEgnYB94FUANXAC39P/qv9/n12fQR9MLzvfMa9P30NvYo93r22/NR8ArtV+tF67Ps/+578HDxi/F88ZXxM/HF8BXwP++z7oLuYe8i8TvzbvWJ90X5mvpl+4L7afvf+kT6Dfop+sv6iPu9/KP+LQEtBA8H6wg7CTIItAYIBsYGOgnyDIkQFBNWFLEUthSvFMsU9hTNFE0U/xMbFJ0UpxWqFrEXTRgYGO0XiBcQF0kXFBjBGZkbvRxxHSkdjRu9GcwXmRbjFeMU8BNLEo8P+QuZBwcDEv7y+Bn0Yu/06o3me+JO33HcUdrD2E/XXtXi0jHQwc0ozJDLCswVzQvOGM840LbRZtNU1ZbX9Nk33EnebuAf423mjOpY72r0RvmJ/QcB8gNRBosIwQojDXkPnBFxEzEV/hbIGL0aURxNHVkdnRxzGxEa3Rj6F6YXnRfQFw4YNxgtGPMXmhcIF0AWPRUUFB0T7BGqEH4PtA4LDloNZAwDCywJzQZTBAACuP9i/Yf7Xvqj+Wn5afl4+c34O/cQ9bPyy/Cf71HvzO//8K3yYfR89Tf1WvM98Hjt3Oud63Tssu2n7knv5O818dHyRPRj9ST1MvRN89XyrfPQ9d74+fst/jj/+//L/4T/VABZAZQCbAP/A58EIAWQBowIegoRDCkNsg3RDQcOkA5ADwAQ+xCsEXESfhNCFRkXDxiyGKQY+hd0F1IXyBeEGOYYiBlgGmgbKx0JHy0hRCKdIAweRRrAFvoU1RM5FEwUgRLbDz0LvgXJ/y/5hPMa7uXofOQU4LXc29mq13HWDNVO0yfRl87LyyPJoMd5x6fI+MrHzS3QNdJA1EfWYtiV2tLcE99A4ZnjwObb6pzv6PQ/+j3/NQMgBhcIXwl8CsYLkA3CDykSsxQvF3sZcBvoHOkdXh4hHj8dDxwAGz8a/RlDGiobCByBHJwcIBzkGh8ZUBeaFd4TWRIxESwQPg9jDogN3AwwDF0L1QlRB9gDQABj/aD79Poa+7D7+/ss+1H53PaW9Hfy2fCZ7yXuqeza68DrAeyd7HLt2+1i7Tzszuqa6QDpKukG6lnr+OyT7vjvbfHB8rXz1vSh9ZT2HPfC9yv5qfo3/fb/1QJABYEGBAf8BgsHrQcMCegKpwyXDSwORA7PDrIP0hDREuETdRQJFPcSVRJbEbgRDhN8FC4WPxc8F6EWcxVrFEoUGxStFJUVZhYXGPMZnBxhH5QgHCC4HQUaxxZRFDITiRORExATHxFjDQQJOQPY/I/2JPBg6k7lEOFM3gbcDNpK2GbWg9Rb0tnPLc3GyhbJWMgayQHLmc2O0F/T4tUL2M/Zddst3SPfTuH24y3nD+tz7yz08Pg//cgAjQNhBYQGcgeJCDQKbwwUD/ARpBTwFq8YrBkkGjUa1hk/Gc8YnRiGGNwYhBkxGp4a5RrcGmAajhmNGDYXfBWsEzESABEzENgPYA8xDmgMWwoTCMIF+AONAnMBzwBrAPL/Mv9u/pH9H/xD+i74cvYX9Tb0+/MA9PjztfO38iXxGe/x7EzrLOq56bXp+umW6ivrHewS7dPtfe7Y7u7uyO4F7yzwifGY8wH2Kfgp+rL7yf2S/7UA4AFRAkYDRAS2BSEIewruDNgOYRBtEZARlxHDEYoRVBEXEUIR3REREtkSdRNJFIEV2BVUFt8ViBRwEyISAhIJEiwSpBN+FDcVDxegGdoc+R3CHJcatxa8E+ISyRPYFcAWBxeWFQkS/g10CaEE+v4M+BvxcOtX51vla+Rl4xvieN8h3InYptR60bzO2cxXzHHMyM0K0NjS/9Vs2Bja0tqk2jLay9lM2ivccN/V48Hou+2A8oX2zfkr/K39Vv6w/k3/vABrAxQHcwu0DzMT0BVWF70XeRfKFvQVfRVwFRIWbxdAGS8b2xzbHQYeUR3QGxAaJBg1Fo0ULxNeEhgSYRLmEgwTZxLDECoOAQvUB2YFswO7ApcC2AJSA0UECgU0BTYE1wGt/lf7bvh29qL1b/Vn9Vj12vTL8xTyt++h7Cjpy+U44/fhTeKU45zl2eeQ6fXqteva66PrWOuO6z3sq+1b8MTzgfcn++v9l/9bAPkAcAHpAQsDsAQTB9AJxAzvDw4SlBMZFPUTYRPJEoMSTBINExAUhBVHF+AYMhqDGhca1hhJF7oVwxSGFDgVJRcWG50f8yLWJIQjciAPHfgZUxlvGVgawRvOG/MakRlnF5kUuQ9ECAYA8feM8aDtY+tN6svoyOUb4iHeBtrs1XvRbc10ySrGBsXMxazIVsxkz+TRodJ70vHRcdFG0sHT2tXl2KbcauHF5jvsUfEQ9Wb3YPi1+Dv5qvpd/QkBNAVHCSgNzRAZFG0WwhcZGGMXOxZYFTIVOxZGGL4a8xw8HpUeSR5iHQEcTho0GOMVFxTUEoUSPxMtFKcURxSwEvwP8AwFCswHLAaSBGEDwwIoA2wEKgZuB2QHyAXkAu//5v0H/cX8/Pz3/IT8u/v9+oH6bfk092rzg+7c6bDmOuUa5aTlyeaD55bnFehO6FPofOhb6GvoHuix6HzqMO1j8PXzNPdo+aX7+vwX/pX/jwC9ASwDtQQgBw0KQQ0dEfwTsRUNF2EXYhYgFZEU2BTiFTAX3hgzGkMaYBqiGmob2RvVG1sbKxqHGG8XmBmCHnMkoym3K3MqSybnIPwdOB2bHEQcpRqEGD4V2xFQEIcNowiKAUz43+8c6M7i/uCT37rdn9rS1lnTqc+8zCHKVMevxCzCzMDvwAPDpsZtyrTNtc+x0DTRKdI21GLX9dry3gzjA+d5657wjvX/+Vb9TP+pAPkB/ANEBwgL6w7GEuQVLRhEGk8cyx3KHsceEx4xHZ4cGB1EHn4fbyDjIPkfJx4aHD8axRhmF94VBBTXEc0Paw5+DX8Mgwu4CtoJ4wg4COAHtAc2Bx8G1gSQA38COQKKAuAC2wI2AiQBkf81/U769Pac85DwE+4E7GLq6+hS56rlAeSF4ljhVeCB3yPfct9i4PHhGuRh5rjoN+vB7SbwT/J19NP2fvkl/B7/AwLtBJQHZwkTC3UMKA5SECISIBSUFUwWGBcXGDIZXBpzG5kc6Bw/HMkboRsMHY4gVCUGKQEqxygjJxwmkSV4JgIoPin5KOYm6yTlI1YjqiJNIBwbaxM1CxAEl/5B+rn27vKJ7kvpVuNf3kraJ9YJ0cvKa8Sbv2u9qr3av4fCvsTpxfjFjsVQxcXFeMdyyUDMqc+g00zZEeD45qzsvvAn83D0Ffa1+I78BwF1BbgJkg0hEeoUYhjiGiQcsxtGGgsZmBgfGa0a+hu+HBYdrRxyHOUb7xpxGe0W7RNuETEQshDMElkV4hasFlEVoBO2EVIQmg8KD6AOuw5OD+gPnBANEX4PqAuuBgMBE/yX+JX1gvNh8YzufOtU6EDmquS74mTf3NoF1/HUUtV514HaOd3l3hrgYOGo4nzkIed36u7t6fBU9MP4Wf/zBYcKkwuDCW8IsAdCCMIJXgpzDZ0RUBV8GIQaux0TIBUgJx+NG3kZ6xvTITgqzjA0Nhs8FUP/TE1UJVb/UO5FNTj7Ka4gzh2YIIci8x1OE+IFmflE7Y7geNPYx4zAtr5JwnnJys970mnRw8ylx97ESccAztrVTt3H4tfmYuo77d3uTe5J63LnSOV45R7oZes17dTsuugk4yLeUNxV3nLisucA7BLvpvEn9Ln3FPw0ABsFHAuZEtAagCNRLAkyNzOMMGksCSk2KCkrtS4wL+oqVSJnGI4PIgraB70FYAEK+0b1z/Cg76/vfvDq8PHwR/Pl+J0ATAiRDLAMqAhHAjT+4v3VAHQENQXmAW/7PPTO7RzoJONX3hbb8do83VLgP+IG483h5t7B2ufXa9qM5FPywfzoAKMAkADFA7oJpQ9rFPsYJhsLGbQTShAAD14P0w7YDB4OABUdINsnLCrEJVcgAxwmG+If3Sa6Mws+3kCkQrZHLFW8YOheXkw/MpYe0BMlEKUOeApAAlDzV97RyY69r7k9uHW1J7V2u1rJ8dWo2SDWis/nzi3Wq+Ri9cQCuwf1Air4Zu0d5rDjbONy4sLi6uR36HLq+uZ7317WC9D6zy3XOuR+8aP6e/3H++f6Zf4pBOoKeBFbFygdhyGBI90gIBwpFxkU5xOsFvgbfB+AHuoaaxUvEPoM2QszC2oKxQrFDNYNHA2yCTsEIv8L/D797wHDBnIJlQeWAwkAKv5W/ycDcAbgBasBmvtQ9CXuLeoB6cbntecx5p/iRd8e3CPaGtr02+reHuMR6B7vbPaX+A/2BfLo8wf6RALRCmMNjAy4CAMDJQDA/U394/p59576vAMHETYYNBh4FA4QsBVXIrswpTpdO/03YDO4Nuw+akhBVcdgLWdqYaVPZTgjJGYWsQtOApT8m/po9HDlNNGbv2i1srEbtVu+jsyw26LiRuGt3Hjc8+HE6932OACTBqEHugLU+LjtNOSM3gjcy93u4GrjyuKK3Y7We9B2zq3R9Nmf5BfuSfWx+YL7AP3fAKwGGw05FMAazB7/H/ocSRfzEfMOzA9hE2IWLhhvFu4Rlw0UC+gKIwwMDioQWxFHECMN2grOB/YFWAUbBR0GBQbfA2wAdP1P+t34GPmN+vH8L//q/u/7qPfZ8Tbu1OwB7XDtoe37617oreXo4mrhduLh5MjnaOqo7bfvkvDG8Lnym/cl/g0DVAZhAj/+lP7k/goBhwMJB5sLwhL7FkQV9xAnDN8L1BDJG3Mo4TIcNnYyrzAxMpw51kV1VvRl0mekWIM8/CIPFk4OpAknAy0BVP4w8mHhQs8Hw5i88Lu+w1LVg+eQ8HXtX+So3TPfHuhP80P+bQShBCoArPfO7gTng+H+3m3g+eUm67jr7OXz2rvQscxXz77XJuLB6kfvJPAV70fuOu+g8j76bANKDHcTqhacFBgQtwwBDf0RvhmwIXQlpyIfHW8WAQ+dCTYKMBBCGJIdbhyXE90H2P3X+U/9EQR1CuUMpgtfBqX/bfo0+d/6bv/EBJwHbwZXADz3q+6u6Pvmnelb7ODue+yE5STbV9Oe0AjTX9kM4MXmD+pV68bpAOhs6KftVfa//a4E+QhPDJwIUQR2AoIFIBGzHXcnmSjtIikbhhVdF8QjAzfhRIdJCk4+VuJey1o3RpowByNjIKAitCUQJvsabAR26X/ZK9g+3TzhcOPa5Hrm3eXt4tbfz91G4hDqFPf5AfkG8QIk9oDpOeJd47fpje9F8fDteudv4JPaa9Zj1YTX8dpd3ybj2eQr5ADi4d+Y4f7nQ/FE+l4ARgLWAJX+aP3f/yQF8ApGEf8VdhntGicaRhg8GGYZpxtQIE4l5iVGIXwZ4xFdDAUKvwm6CKQGGQNc/wb87Pfp9PD0sPYy+7X/pwL5AjUBNv5A/NP7tf3g/mj8t/i28invfusR6DbjyN4U3Mfa/NtI3LbcLNsh3Hre3+Lx5/rrMe6J8Qr4CP4DBzkJ+AwJEIUSRxuQIXgoLiomKwctWzAGNk49OkpxXRdp+mAhRy4rJhxyFlcX1RsfHt4YAghf887m594S21jait/y61b5wf7y+V3wAudn5TfvqwBbEIkYVhTcB6n5Te0x5y/nTenN7OruzOw75RPabc9xyPLHlM691xDfX+Gs3gPa8dbC143eYOqT9voB3Qj0CRwGtQBS/RsAjwjIFIYfgyO0IOsZSxEUC9kMDBPmGI8b8RlRFtgOwAQ6/QX7A/3OAXAFowQOAAD5s/IC8PPylvu3BX4N3w4ODOgGGgJ8ALoCZwY0CZwIPgNZ+tnvUuiy47zh1uGB4lrkg+Qt4Vvb/9Vh1ejaRuNB6rbvRPNt90/8hgGFBIwHCA6xF0IkVjDSQFVTP2T0bTZmXlJEOPYpNi+cOaQ7Yy93HHAGz+7a2+3UrNia3lfgd+R66eDpHOJY2aHZ+Oan/Q4TwiB2IucZ7QyZAnkARQbmDWkRRQ+RCLD8nO0D32PV8NJ+1hjcXd9m3UjVH8sRxUPH7tBa3urrAvWz+Mr4NPeV9n76FgJzDPMWIB11H44aIROwD2kSPhm2H9Egiht8D4cCHfq8+Gb8sP8F/xP7wfX57grp5+Uk50fsDPLc98j6q/t7+S34M/oN/6cF4grHDDwK0gTX/TL5Mfer+Ib6gfo19/bw4+pI5fniLOUt6v/w5PN08oTuvexy8Sn9XguoFe8ZER3AKZNBBleVXodbAlrVV1BKczeCLpcxjTB/JPYX3g/MAS/q69PizB7QJNJ30GzQ7dGk0uzRUNWY3cfnAPMVADEPBxlKG4MWnhD/DJMNMBH2FPQSRAvjABn2ce3Z5iTiQ95p28/ZeNkT2DnVNNPX08zYEuCp6I3wgffL/AgAEgNyBzIMdBGpF4UfNyeNKTgmJB+XFjAQiQ3ODXwO/QrfBL77UvT47lvswemL58Dnjeqi7TTuBu5m62bp8ukm8Mf3Tfw2/Vb84Pp1+Pr26PZ/9zP5AP47A1cEzABR+R7zfvCF8gD5uP4+Ar8BLf2q9yv1lPg/AFkK9BUzIXcr6TtcT2tZhkwgNNwqvTWoRZFLHErTQ/UzthyCCrgDlgDi9zXuxepi6wnmKtcqxfq4tLdGwi/VkuZ47pjqc+Nx4JXmK/O9ASMN9RI0FdIUMxK2DLEGWQMuBMsH+wqFCU4BLvQp5gPdf9mm2h/d4d6z33bf9t4C3QvcA95c5E3usPqKBrcOIRL/EdoSuxYWHL4gkyPiI0wiBB+VGU0TuAyOCG0GiwQFAaL81Pc+8ortbuq+6RHqf+kO6uTqeetW6wDrU+xI7iTxIvSk9q34cPkM+ir6tfpd/AoAuQLzAlUCSwKeA7YDWwMGAycDBgOfBDsHEQoKDWEQ8hWVGoEcwhssG1wcyh7lIWwlGymTKvsoOyfZJYYkviFUHkEbhBfWEykRiQ62CdQCDf62++f5+vdv9bjyku4U6vXm2uTA4gHhBeAP4GHg0eDA4Rni6eHl4drieuQx5qTnAunM6mfsCu7m7yfyTPQU9lX3QvhZ+P33DPis+eT8XgCNAxgFNAVxBIMEDQbSB5EIYwgACLkHVwiUCeoKXwulCpMJDQlvCcUJfAlhCKcGCQW3Az4D5ALEAbH/Vf0b+w75Nvc39aHyy++n7bLsVeys6y/rBevZ6srqzOpO6z/s/O328Jn0//ljAbEJzBDPFLcXRRtyIMomvC3rM/Q26jbmNaQ2Kjj/OPQ3wDQFL0MokCKYHn0akBTdDXMHXwKt/rz8tPo/9+rxMOzV533lJuTF4h3hBN+93DjbYduN3KrcFdsp2UfYv9iz2uzd+uCY4oXjruVY6azsn+958kz0K/WN9sD5c/3d/5oAtADIAecDagfUCokM+Qs2CkEJZQkcCqAKowrQCesIzAguChYLlArYCMQGhwW3BF0ELgRUA80BjgBAAAoAtv+t/p78hvps+Cf3rfUg9KDyBPH+7z/vGu+a7oftueyH7FHt1/Aq+OAB+Ao6EHcSXxRnGKEfDyiML4MzYzTNM6o0gDdgOZY58TXVL6YpWSY/JZMhEBpjEI4HqwBV/Y389fpO9d3tJ+gc5RnjnuB43dvYRdRu0s3Um9hP2ljZPNeW1dDVbtjS3EXg7uFV433mAOtK70vzwfaG+MH4pPk4/P/+kgCSAcwC8AORBKUFegcLCbkJ5glbCXQIpAdQB6oHXwjnCOAI+wi8Ce4KiAuxC90KngjoBWIEJwSwA4ACygCm/pX7EfnK92X2VfQG8gTxVvCM7+7u2e6V7j7t++w67sTw1/K69EH5fwAQCiUS5xYTGN4XXRs5I74s0jLANKw0qDPAMoMzxjZFOaI1Gy3HJbciJyCJG24VDg8xCJ8Bc/9u/2L9RPfh77nqN+e65SzlJ+Om3iDZfdYL13vZa9vu2u7XCdV21EPWDtnX2yHecN/t4cnmiuzA8HHyTPOH9P72Mfv0/wMDBQOWAVoB7gJ3BQ4H7QZ1BToDMQHt/3j/7v7R/eX8h/1k/xIBEQJHAr4BBgEqAb4CsARbBeIEpgNNAhABggD5ABcB3/+r/Tz7cfpc+hX79/oF+T/3MPY797r5+/18BQUQhx3tKPUqwyMFHpYl+TS7Py1CP0GlPdMz1CpgLLozHjNZKFQe0xgBESAEv/iS8Y3rfeYY5+vq7OeY3QLUfdEd1HrZ+d+146XgiNqO2a/etOW76u/tR/Bf8HHwIvFK8t7xJ/Eo85j2H/nB+BH31fVs9v757f56AZP/qvpO9lz0X/YO+3D+9P3K+pD4sPdw90j4UPre+5T7Wvp/+XD5Mvql/NgAWAQYBe8C6f+e/Sj95f4XARcBCv5G+h34R/dK93v4FPra+V74T/cS9xf3kPkr/zIEoAdkEKoiETa2Png7tDOaL8U2aEoRXNdaaEhlOK80HDT1MRgxmS57IEcK3ftX+E7yGeRi2RPYbNiJ06rNlMqVxsbCyca90oPbQdnv0lHTcdqR44js4fTz+W75Ufid+w0BowRSBZwFPgYEBRcDOwGB/0f+yf56AYYCxv5s91bxVO/R8Sf20fg79znzgvC28GTzQvc5+4T9X/23/Nv8kf3M/qMBTgZnCrsL2wk4BogDpgPaBe8G2QRRAIb6VfVj8rnynPMD89bwPu056a/nPesK8Sz09fWC+Pj7AwDRCJcXtiZGM9M8Lj7kNDguyDyjVuhf/FGmQMQ6vzjSNf82qjjdLQsXXQTN/YH5L/G06M/iNNxk0zbNjsqXyO3H6cpl0ErT6dC7zO/MJtTu3zPqYe9A8NnvQvKK+DwBvAfdCFUGKQSQBF4GTAdzB+gGUwWYAhL/lPxW+tT5BPqD+sX3PfIO7inuLvIq9rn4Ufm990L1tfRP+CP+VQJ0A10CJAEaAZgD5AcjC0gL8QicBfsBGf8k/rf9d/vH9kDysO4m7Dfreusx647pp+jP6OLo+OmI7uH0Q/oQ/04EpgrZFNopWD85QxA2wTDGQiBYol0vV7pQH0u6Qk8/pUIvQsc2/CRyFpsLZAI2+abuFOSG27/VPM/9x+bDrsR1xyDJrsmxyHjHicl+0NnaGeNn6Pvq2ezA8Vj5ZgJkB6QIQgjvBycIvwibCq8LgAomB8UDDwAh/AL5i/is+ff4tfS+7lfrC+ys77jyMvQr9L7z/fMJ9mP5kfzN/g4BXwPABJUFiwZhCPwJZQtUDPMLVgpxCN0GTgQTAWf+CfzX+Jn0pfE97wTsV+iO5S/kTuOb47jk1eVX58XqwvDs9gH+XwVPD48dWC+7Og43qS9DN0RNc1uEVwlOIkr7RnpCrkLiRaU/2SyOG9oSzgtPAXH3gfBy5xHbXNKFznbLbMhIyAfLicm2xEDD6sjP0ULYcN3D4dfkzOcS7ir43QBNBC0FHAaeB1YILAngCqMLzQpjCCgFiQF0/rD80PtC+qr4TfbR8+fwne8I8HjxCfNj9Fv1KPV59Tn3Svrm/Pv+bQGYAzIE3QOQBPEGbwn5CjoLBQoDCHUGrwVaBOoBVP/n/P35JvbP8h3wLO4E7ZTrd+nE5jbmu+dd6cbrEe6l8E/z0PjRAEAHARD/H2owPzR3K0Mq2jjPSsZSCFCXSZpCqT9TQq1E5kA9OM8tqCA2E3EMAgqAAevxgOXh3yPaCdLGzv/QvtCcy+bGMcfWyT3NDtJM19naltxl3zXlA+3Q9P75/Pue/GH9hf/+AZgFUwjkBzsFUgK5AX8BAgHtAO//Ff4K+zT5C/k8+UL6XPrI+d33hfYY92L4wvpT/B79Sfx8+zr8z/3W/74BrQNcBLoDDgOeA78FBQgxCWEImQYbBecD2QIoAtoBSACf/Hf4bPVd8z7xgu/L7cDrD+kL5wbnGegF6h7raO1P8YX2zPpMADcM1xssJ6koeCVkJmcvrT9VTh9PXEJGNzE7EUWcRsdAfDnfL+of2hPzEusT2gr2+onvtei+4mXezt1s3AzXqNGgz4LPHdAq08PX89lt2X7aGN7U4tDnw+3G8rrzwfLE8k31IvkI/dj/Qv9i/GL67fok/br+TP/D/Vn6dvcn91z59vuV/Yv9ZPv5+Nf4gfu1/jIAGwC1/pT8ZPvL/DoATgNvBOYDmwICAkID6AVaCDEJ5wg0CBsIAQlRChQL1AqnCXgHuQTjAjECAAH9/UP6mPdv9dLzT/I58VbvCO1p69vqwesI7YfujO8j8crzMPYH+5cEZxHHGesa6xmkGr8eACgGN2ZBQTybLhgp4jDSOe48gTtiNHYm6Rc7FLUYARqyEnwFyPi277/tdfDO8H7ryeJj2xbXedfE2wLfHt0b2MnVctcJ2zbfVeOt5RDl/eOK5RjpouwU73HxgvOy9In1o/aN+K76Av0c//n/cv/t/UD9Rf76AEkEFAZsBa0CNwDD/4UB9QPzBO0DkQHJ/3P/5QCZAz4GAAdsBVcDTAOMBZMIjAo3C9UKRApoCoALIw3yDUIN/QoeCMEF5gPNAdP+Mvu896X0OPIP8Mztjut96YjoxOdE53vmBeY/5sHncurX7H/uGPBD80n3dfs6AB0H9BArGw0iVSMSIh8kPytTNEY7uT9lQSU+EjguNdU4sD3YPAs2xCwjI9wZxROGEQQP9geL/W/06e0z6YHldeLA3mDZI9RP0bXQr9AL0DnPmM4Zz2/REdVd2CfatNp924/dn+G35hzrlu3G7lHwHvMe92H7if7R/8n/GgD1AfEEHwhpCjUL6wqyCt4LLQ6vEFsSmxK8EXEQ0g8kEJwQnhDhD/cOIw6oDVoNqgxdC0AJxQasBCkD/AGiAPT+tP3M/Cv8OfvK+eL3e/V68z/y3/Gj8f/w+u+u7oftBu357EDtdu307anuX+9s8LLxI/N+9B32Ifjb+Sr7o/yg/ssA8wIVBesG+AdfCbcLzA4HEhMWbhsZIPIiXCTYJT4nHSiSKaQriy0GLqgtVy1lLMwqOygOJdggthulFhkS3A1BCSkEMv9Z+tr19vGr7rTrDOgg5Hng3d0c3OXa5tnY2O3Xhdf111TZVNtU3cbeud+14CbiCuSM5l7p9+vD7Rrv4/D08vT0rfYp+D/5m/n6+dX6QPzS/S3/iQD1AY4DWwVNBxAJVgoAC4cLdAw5DmQQKhI1E6wTHRStFHYVLRZXFrgVdBRVE6wSeRIgEgsRIQ/ODLgKBglvB3QF1gLE/5/81PnU92v2E/Vu80rxXu/j7Rftx+xy7BHspOus6zfsa+3o7j3wHPGt8WfyaPNn9Df11/VM9tL2vfcY+YT6uvuW/Df9vf19/oT/jAA1AZYBPQJfAxQFZAeXCmoOEhLyFP8WzhjBGjAdMCAoI3cl+SYSKF0p5yqkLM8tty0ZLJ0pHif9JCAjCSHRHSMZyRPPDtEKVgfYA4D/HPoy9NnuqupV5y7kjOBK3CLY3tTV0mTR/s9VzpvMZcs8yxPMds23zqLPc9DK0RvUX9ch28De6+HT5PbnxOvu72f0xPjW/FgAjQP0BloKtg3gEMIT9RWUFxEZohr2G9Yccx3WHQUe2h2PHRYdrhx2HDIc0xs2G6ka5BnNGLAXjBb9FK4S6g8TDTcKigcmBcUCDgAZ/TT6Uvd89P3x+e897ojsCOv26Sfplegu6Prn0Od75xDnu+Z35mnmxea/5zPp9+rg7J3u1+/Y8FnyevSV9oH4WPpG/FH+nwB1A0cGqQh6ChUMmw0nD6UQ2xG1Eq0TQhUmF8QYxxl0GtIajxtOHdAfDyIeI00j+CIDI+ojcyX3Jk8nXyZkJHkiNSFYIB8fyhyPGcUV9xHCDg4M9wh5BPD+P/k29Anwiewz6U/lxeCQ3HvZitcT1oDUbdIP0NjNrMyxzGHN8s0lzjLOms7Jz6PRzdP51afXLdkZ2wjeweHY5bzpIu1E8Gfz/vYr+37/agOHBhMJjAt5DhMS1hUtGagbfx35Hj0gmiH3Iu4jNyQFJLIjkCOeI3Ij4SKBIYwfbx2dG9UZvBeCFdASHBCkDakLyAmMB9wEwQGR/sv7pPnc9wH29/Pp8fHvXu5Z7Z3szOud6mzpE+gL55fmeea35gbnW+fM52ToYOm36ljsoO2m7rrv2/Aq8hj0sfaX+Sv8L/4HAN8BJQTCBo8J5gubDQ0PahAeEoUURxegGcsa4BoZG2EbohsQHGccJBy2G4EbJxyqHeUfOiJoIxcjoCEOIGMfjh+2H9oecBwhGccVJRPZEXIQLQ3xB/AB4Pw3+Zb2kfRK8Ursx+a64lzgk96t3CHaiNYL0/PQudBm0cnRWNGr0DDQetDw0Q3UANbq1l7XoNip2pfd+eBL5N/mCemI65TuEvKw9ST53vsb/tEAKQTKB2cLxA5uEUIT7RT9FiIZMRv6HP0dQR5JHswefB8TICMgYx8NHk4c5xrEGcsYABilFn4UIxJDELkOYA0YDFoK3gc4Ba0DDgPoAvkCqwIWAWf+3/s2+g35Avjh9kX1TfOT8WbwCfDa72rvfO5H7WjsEuw17G/sQezV6zPrF+va69vs0u207mjvHPAg8dzy7fTx9tX4qPq2/Av/+AH2BEoHJQljCkgLywx2DkoQGRIzE1kUUBWGFrQXDRnyGeYZERoCGjkaShqsGuYb+hsAHP4cAR/oIBcigSJqIaQe1xvvGrIaBxoWGEMVqBGMDSgLBgpACAEETv7a+JD0d/GP7/3te+o/5S/gwdxD257Z1dcq1XzRYc7OzGrN1s5Fz+TOHs6dzUnOkdBl03nVh9aZ10/Z+9ve32PkTej/6lntJPCl8+b3V/xqAIsDTwZ6CfsMzhCQFKoX3BlgG9UcVh7dH14hXiLnIg8jSCNvI3IjGiNnIj8hvx9NHsscYxuXGcEX0BXTE7YRlA82DcUKbAgTBhkEVwJmAHf+BP2s+376jvl1+P/29/Rg8xTy8PBn8NfvSO/w7oTuwu4m73nvqO8w78/use7i7lrvse8f8D/wdvBO8UTyNPM89CH1BfYW92H4CPpP+7L8ef78/wYCCQTUBSAH/QcbCe4J2wrBCyQMvgx6De0OqBAfEogTyhNrE1cToBNTFE8UlRSrFOwTxBM9FNAVmReaGaMbThx3G2oZgRhbGFkYQRgsF8kVBxNYELAPLQ/bDYYKOAaHAlL/nv0H/cn7tfgE9Cjwle2k63Lpo+bG4p7dGtnW1jnWkdVc1CnTetFI0JbQL9K40zTUEdQM1NXUrNZu2ancNd//4MLiVeXB6IDsNPBw8zL2y/g1/HQApgR4CHML8Q1AEKYSmxVKGF8ayhuvHMMdAB9lIL8hayKUIowiRSI+IhMicyFAIFcesxweG5AZKhhUFkIUqhFGD0gNeAu1CZcHvQUSBAIDVgJoAR8AkP2x+ir4NvYB9dPzf/Ku8MPuyO2j7RHuYO7x7fHs6+te68briOwn7QbtLeyq66TrVOyF7U/ute6d7hDvV/BB8o70U/aO95f4/fnk+3j+WAGIA2oE7QTjBSoHJAkUCwcNjg2+DXIOUQ87EccShxRHFRUViRVqFUEW1haoFgcX/BVIFVEV5RTlFSAW+RaxGbcaohslG1gZxRi/FmEW8ha7FZEU1xG0DwgPvA1PDbsL+AeOBFEBCwCY/wL+bPyl+G70MfHB7lztW+pd5qrhadzT2NnWO9ZW1aDTBNLu0NbQANKk0+DUQNU+1ZnVr9aa2ObaBN2+3hvgyOFV5Jrn3OrQ7aDwcfOG9hf6JP5vAhgGKwkyDDUPJxKpFN8WpRixGdQaOxyZHc4erx+JIB0hfSEbInsibiLSIZ4gdB84HuwcrBvlGRoY5BVZE24Rjw+nDcYLtAmnB+wEuwJbATUAof8v/wT+uvtl+W33sfVs9IPzWPIm8FbuhO0x7UPts+2v7b7skOsY623rs+vu69/rAuuF6qLqoevt7MTtaO567s/u2+9D8XzzfvVK9zX56PqA/cT/CwJtBJQFEwcNCEAJBgsxDDIO+g9jETUTMxSxFUkXIBi7GWcaURpzGsQZdBqPG4QcKh5bHqweoh9bIMUhtSGSH9Yc3RmaGHwYVRhBGPMVKRLjDuQMgAyaCzgJDwbHAV3+0fxz/Aj8avlD9evwsOzi6brnEuU+4ezbF9fj0y3SGtKc0aDQDM9AzSDNSs7kz3DR+NFR0vzSPtTv1svZIdzy3Rbf7OBJ42bmR+rN7ePws/MW91T7CADdBBYJTgy0Dg4RvROUFjcZRRueHEMdGx5JH70gMiLwIv8igSI7ImAixCL6IqUihCHhH0se3hxpG64ZgBfnFAkSWQ+GDTUM6wqvCTUI9gZeBZkDDQI9AEf+L/zw+f/3DvY79PHyqvFl8GzvTu6F7a/sIOzq63/rSOsk68vq2ura6gnrKeuK6mTqIOrU6UTqbOqf69/s9O0F8BPyi/QK90X5yPt1/ef++ADqAkEFbAfdCD8KLAuGDGQOdBCIEh8U2hTNFeIWJxg1Gi0bARxYHNobwhz2HOMd9R/fIQUkdSR3I38i1CBAH44eYx07HK8ZBxfyFX4ULxRYE5QRXg6GCnoINQfYBXADOwB+/Fv4SPXi8hDwt+sf5lngUtt/13/Uu9H5zh/MRcqZyfHJw8pUy5HLyss6zCnNns5B0NvRcdM81YTXA9q73JzfjOKI5fvow+yQ8GX0aPi8/EQB3gV6CqAOLhKeFdYYoBvgHdEfPiEeIgYjMiRDJQImbiaCJl4mKCYTJrsl7CSqIwkiPSC5HoUdRRyGGi4Y7hVwEx4RTg/+DDgKLQfJBMoCAwFk/6X9Vfup+Dv2RvTc8m/x3u8v7p7s1OuG65LrXeuk6njpfejU56jn0ufM573ncueo57noK+oB7Hntce5979rw1fLw9Mf2nfgF+k37Y/3g/00COwROBYUGEQcfCCsKpAuqDJkNeQ72DzcRRRJ/ExkTlxJfEnYSTRM5EzsTdRO3EwoVuBfnGlUddhzhGcoYURj6GJwZfRmEGA0VUhMrFGwVqRXOE+cQMA6YDGkN5w66Dq0MZgnuBtQFNQX+A3kA4/rM9Gfvdut06Lfk1d/52qbX2NUQ1WvUc9OM0aTP7M5Mz7nP3s/Pz4HPac830LzRI9NJ1HDVAtda2WXcHuDq46Dnousw8FP1pPqa/xwEVwhADOEPPBNKFo8YPhroG7YdUh/NIGIipiNUJPwkAybkJkInOScEJ1MmeiXcJDck5CILITMfEB10GvIXXRWoEt0PBQ2tCroIFwf9BdQESwMOAd/+zfy2+mX4HPa989bwVO6h7J/rnur26aLpJulb6YjpP+o662jrxesD7Czs2OyK7eXunu9n73Xvr+8g8ITw1vAX8g/zFfQC9if4fvpt/Df+DwAnAeoB2QKSAzEETQT6AxwE8QSHBVMG1wcNCc0JFQopCkcKJArXCpoL5AsEDUMOQRB0Ea4RLhLfEZQSKhPSEjETSBKbETYTRRh9Ha8frx8zHg0eWRwqG0cb+Bq8G38ZpRZ1FKcSWRFXDWgJMwZxAuz+t/rr9nbzye/a7TLsz+iE5eLiIeGP3yPeI92s2yXZX9cN1xPXhNYl1bzTWNNr067TV9RN1UbWzdYN2PzavN5/4rXlMulS7YDxGfYy+63/GgM6BhEK2A4FE6oWAxp5HIIdWR7jHwghiCAQH70dDhzPGfgXyhYZFX8SgBB4DzcOvQzmC9ALjgs1C70LhQycDCUMvwtMC18KBgmNB84FXwPRAEf+R/sB+Ov04/Fe7znt9esr61vqCutw7PvtYvAc8wf2bPje+vP9gwAJA18FLAe8CCkKbgtuDDUN4Q0vDh0Oaw42DycQ2RHiE9oU9xSrFIQTXRH/DSUKsgWJAET8Wvgv9Jjwvu0T7cbtWu4U8P/x3fMK9l74jvp7/Gj9PP5E/lb9OvxF+3f5NPZM8xDxpe9570PvSO9B8GfxGPWz+EH8iABxA8UHXQtUDkMSYhXqFy8ZnRkoGuIaOhvhGhoZsBaMFdQUiRPHEYEPlg1jDIMLAQrUB/EF/QPGAFL9YfuO+rv4hPVK8/ryavQg9uz2xPYL9v31VPdq+Ev4Xvdq9cfyPfBM76Tvb+/j7STsY+sf7EXuPPCK8SDyj/IN9M/1ufcw+br5Rvnx9x/34/ZM9sr0y/IW8ULvau5+7mXvI/BH8Q3zx/Vh+ZX9MQKyBvsKVA/aErIWARrHHIoeVR8vHxYevxzRGi4YNRQhENQLVgcuA3X/OPxD+SP3lPXu9PP0Ova992D5G/s8/aH/6wEaBAUGmwfLCMMJ/Qo5DCcNsA3uDY0Nqgw7CxwJ9wXfAWf9Z/gT8/rtXOki5XzhBN+t3Yfdkd514dDlVetU8pX6RgPUC9cTzxpvIG4k0yY1J/gkKCFqGxQU3gueA877fvTx7droE+Vn4qnheuJk5NPnAOxP8cX2YPwFAnUG1Qq6DYoPfhB3EAMQaQ4MDMcJuQZSA1UAqP3O+wz6mvnv+kX8Zf7JAMoD1QZPCbMMpA95EdASshSiFa0V1xSnE98RYA9NDdQLpAmICPYJ+Qz+D+ARuhOMFogZ8Ru1HIcblxlMFaYOSAZX/e7zT+mT3QjSIscDvjS3xrFxrl2th68vtUu93sfr0y7hTu8u/WkKehZYIU4qdDAINAE1bzOGL3ApgCHZF00NvQKb+ObuYOZ834Ha9tZ21SHWmNiZ3NjhI+i17mD1Cvx7AlIIJw1dEcIUUhcTGX4arBtMHGAcKhzDG9UalhlUGJUWIhR3EaMORAtMBx4D7/5C+mr14/DM7Pbo0eXc487i8+JA5Ofmr+oP74X0afqnAPYG1gxTEtcWgBo/HZUegh4CHRsaFRbQEIIKhQPT+z30veze5e/f6Now15TUjtM11FXWyNlA3rXjA+q58GD3nP3vA0gJCQ5HEp8VdRgZGjkb4BshG5MZihd+FGkRLQ41C8cIVgb5BEMEmQMmBHYF8wdwC4QOKhINF9IdqiY1LtozCTlxPXZB2kPAQ5FB8DuUM4Ap4BzyDiwAOPAZ39TN975gs42paqGzm3GZAJsGoGKoKbPTv3DON95K7pz9BwzrGGIjIStRMOsynTJ0L74p2iGJGBQOyAJZ92/sAeME27nUI9CWzTTNJM8r04zYK9+O5pLuqfZ7/ucFfwzhEfEVOxnwG+8dQh8eIKEg6iDzIAQh8yBiIHQfYB6rHEkaYhfhE7MPnQr3BBn/EPnG8rLsYOfn4pvfu92b3R7f/OFc5hjswvII+okB1QhcD50U0Ri6G/8cYxz6GeIVMBBCCXABJPm38IHoBOF12ibVOdH+ztbOiNDo05nYkt7I5ZztjPVV/fgE1wuxEbcWyBquHWEf2h9XH58dvBqdF2UU7BCDDXwK2QccBusEbgT8BMEF7AdYC8sO2BNlGnoiqyqzMG02cTwyQYFEPEWPQ8E/yTgaMCUlxxcNCaj5zenO2QbKeryMsY6oHKJInsyd7qDppsWv8LrJx1HWceU89FgCTg/QGhAkkip8Lsovby7BKrgk3Rw6E8UIP/7Q8xfqduF+2u3UHdFWz8zPK9ID1jTbpuHL6JbwgvhPAGcHxQ1zEyYYoxtLHoIgEyIAI1IjZiPoIiMiNyHeHwQexxsTGdMVARLbDXEJYATM/lf5/vO27unp6+XW4tPgDeDq4DDjgeYB62Pwcva5/O8CzwjEDboRgRQMFhgWkBRoEeIMHAdWAP34TPHt6Qnj7twG2HnUedIu0n7TgNbZ2kXgtebL7cj1lv0jBfQLJRLVF80bfx6tH7kfKB+jHWEbmBiRFUYTGhHaDi0NRgyQDK0N9w7oEEEU8RlKIdEnPS2IMn44wT1OQOxAEUBNPXY3ci6tI6sXdQro+67syNyFzTfAfbUCrRmmn6HSoMejXalrsQ+8sci21lPl9/MyAhkPthpMJBwrNi9cMFUvpCtPJfIcHhN0CFH9OfKa5yDeWdaA0DrM2snayX/M+NDT1hjeW+Zj7334UQGWCdUQ9hbdG4MfASLWI/gkUyXyJBwkEiPhIXggwB63HF8a6heBFbASKQ9ECxEHmgLA/bf4yPMA74nq3Ob/4xPiV+HV4YfjIOax6TPuTvOO+I/9UAKNBvUJPQxaDVsNLQzUCWcGHwIi/Zv38vFu7GrnJOON3+XcZts5247cPN/04rDnyO279DL8XAPQCRQQmhUFGg0dnh59H8gfMx8UHjYc8BkKGB4WDhSLEvgRtRJyFIoWIBoNIIcm8SwrMug1Vzr5PdA//D5YOiw0Yyz+IbIVuwfg+K7p+9npyg++VbMDq/OkfKFcoSGlJKzdtb3B9s5j3XHsUPtFCYgVuh/UJ6otozCkMMgteygtIQoYfQ0mAqv2nOur4R/ZGtKdzDHJHchTyZjMg9EM2Kvf8Oe58Jz5VwJeCiERzBaDGyIfICLqI8kkEiUGJZgkqCNtIiUhhx9OHSkb4RgvFgETUw85C8EG+AFJ/ZL4kPPZ7ujqj+f/5HbjG+MS5NjlhOhA7I/wWfU8+un+RQPvBrQJeAsiDJYL2gndBtoCKP7C+Bnza+335yjjON8g3CDaVtnb2Svc5t/W5Anr8PGr+aYBFAn0D5gVFhrMHVUgyyEZIkUhLSA/Hs0bchlOF7gVgxTeE6oUZBdzHIki3SebLHcxajfPPLY/6D/UPdA5ETNpKbwdfRDLAbzxD+Fn0bPDC7jUrgWo/6MXpEiozq/mudXFp9Px4nLyMwFzDucZYSMiKuEthi5SLJInbSBmFysNHgK/9sPrteEB2eLRysyMyTDI1Mi3y6jQ2tYC3sflGu5d9i7+ZwW/C+sQ+hRmGBsbNR23HtwfvyBsIfAhXSJnIiQilCHJIFMfKR1mGu8WtxKvDXUI6AIP/S/3tvEB7fzo2+UB5GDj6+Oh5WPoK+yH8Ef1Qvrj/vwCZQbTCGEKpArbCSAIKgVgAcj8rveI8jztCegl4+netNuJ2Z7YG9ka23PeKuMT6eDvIPeK/uIFnAxfEvYW1xoBHiwgCyGLIKkfbx7XHP0aqxgwF4QX6RnbHb8h/iWxK9QxgTfXO2Q/M0ILQrk+WDiMLxAleRjwCbj5L+gd2BnK471gsyOrVqeGp86qnLG6u+3IRtfw5QL1NQNgEE0blCPtKIwqwSmaJt4gsBi7DkgE0/mI7+Hldt3Z1h/S586IzfPNUtA31BHZ0t4a5a7rAPK898T8SwF7BfEIuguxDcAPEBKgFFMXOho8HfEfiCI3JXYnkyirKNwn7CXLIsoe0xl5ExsMmQRv/Yn2D/Ce6jXmtOKB4P/fN+F645Lmceq57l3zSfgR/VsBuQQ5B9IIhAluCW0IfwaEA+X/t/sb90XyX+2v6CPkIuAa3THbldpH2zbdIeAm5Hbp2+949s/8WAMCCiMQIRVVGbYcWh8RIcMh8SF1IR0hOCFKIXgieyVeKtAvmTMaNxM7nz5tQeJBZD8uOpExFCfmGkYM3fz07AjdB86bwD23uLG2rpSuKLF3t47BKs7C3BfrcPjxBEEQvBk8INojuySrIsQd3RbfDgoG2fz985vrJuRy3mfbB9p62e/Z3dv73rDi9uZm6zfvHfK49E336vjw+cj6BvwR/Wn+tgBQBFoI2gztETIXhByIIc4llCjLKecp7igsJrwh0RvDFPAMPwU4/rL3sfHo7JXpnuc452voBOtU7gTyAvbh+Yj9AgH8AyIG8gbVBlAGXQUZBEYCvv+w/JL5v/YT9IjxB++G7M3pGOfq5HTjl+JN4oPiNePL5CbnXur77brx+fVx+g7/wwNFCKAM1RCvFMIXGxoPHCAeWyATIqUk3SgDL6w1/DroPktC1ETqRiZHJUT/PUg0tiiKG9ILr/sz7KXdXtD7w5G7pbcFt7W5WL5KxZDOmNn35hj0Jf9ACLwPlBUVGQsaSBmZFt0RhAs/BGD9Y/ep8pLulupO52Tl6OQo5WrlleV95XrlieW35ezlO+bi5iHos+kH7HHvSPQn+n0AQweKDgAWXR3uI+4oICycLbYtvCuVJ9AhLxvRE/MLGwTx/Pj2cvKU787tG+387VzwcvNk9lz5gPxX/7IBVQM9BF8E+AN1A7ECnwFvAIf/rf6V/VT8Bvvs+cv4jff49Rn0/PG4703tzOpx6HvmT+Xc5AXly+WS51Xq4e168dv0uPis/KsAKwS1BjgJlAv8DUQQzxHRE/UVixhSHGEh+SihMps8UkXnSg1Og1BPUW1PDklyPvYwXiBGDsD7m+kb2cPKKr/YttGxirFKtrO+28iI0wnfi+tH+LIDugx6EhYVeBUtFPoRQw6fCacE7/+x+yn4GPaO9a/1rvUp9f7zHPLs7+PtbevQ507jEN+s22DZotjd2e/ccuGX55nv8fj3AkoNLhevHz0mNysfLpYutyzeKP4i+RqoEY0INgAb+ZbzBPAv7gnu6u/U81741fwpARUFMQi3CToK3gmRCIYG3gPcAKb90/rL+Jv3Dvdm94v43fkf+yP8Af2f/XX9mfzb+qT4JPZD8xjw7Owo6hjo/ObS5sjncOkA7Lbv7/MS+ND7tf8DBAoIRgulDUYPhxC2EbASSBOME5YUXxdiG8Eg8CfNMfk80EW9ShtMiEp5Rn4/pzX5KLUYlwaJ9BnjetMPx+a/X73VvafAL8YmznjYCeQ/76/4ov8DBaIIvgmuCEcG4AMLArkAxP/P/uv+zgDZA5gGMAiOCPoGRQMG/rz3NPDB58zfTtn50/zPY84L0NTUXdxA5jbxGfyeBpYQThmLH2kjMiXgJFoiJx6WGO4RWAs7BtYCXABQ/hf98/zO/WD/XgHHAoQDzQOFA/YBM/+g/Br7r/ql+rL6nvqj+in7Ovyf/ez+OwA1AZYBCAHj/5T+k/3a/BX81voG+fj2AvV281/ygfHB8Pnvje9Y7x7vn++18KnyE/Wn90P68vt4/e/+ywChAigEzQVfB1EJpwu5DkwS0xUaGU0chx8nI/Uo7zALO7lDwEguSptH80FdOYIuCCJJExEDrvLC4hXU/8d6wfHAl8SJykbRxdh94Ivo8PAi+Hr94wD5As0D7AKgAR0BZQJFBYcISguIDDcMUgvTCZAHgQN+/cf1r+xl49ra7tMrzynNhc6N0qTYc+Cx6ZLzgv0HB10PgBVJGUwbnBvSGXEWfRLwDuwLVwoACjgKfwq6CrcKrgm3B7AFcAOmAFL9ufkp9sXyCfFB8VjzdPZv+qz+WQJTBSEH+gdgBxsGawQ6Akz//fvC+Dv2pPRF9Pr0BfZm98H42vl8+k36iflB+L72C/Xg8pvwwO7w7TTuYu+K8YP0CfjM+4//+gIaBocInArNC1IMUgzqC/cLKwzbDPoNTRBqFUwe6iuUPKFMU1jpXe1dHlhhTGg85ineFnoD4vBY33jPv8JivFK9p8MczfPXcOLY6eft1O+L8FHwyu/N7wfwsO+A8Ar0f/pUA9IN9xhqItwnFijBIn0Y5woU/LHtBuCR0xfJ+sFkv8LBDMk71IXh8e7P+vUDlQmoCxkLbgmuB8IG/gajCIMLoQ+0FGcaoR9CI30kNiNVH4EYrw56Aor1ZulR4KDb+duP4EDoxPEg+xMD6QjmDMsOmg45DPEHMgJu+/T0MvB07kbwF/Xz+8oCvQd9CUgIJwXwAF38sPf28sjtyugE5X3jseTO6LXv8PfA/7kFIQmLCYwHsgRIApoAkv+L/l39CfzA+4z9pAH8B98P7heUHm4i1SPKI44kMCnHMlo/YUohUBhPWUcCO/sr0hweD/wC5/fx7ODheNcdz0/LgM1w1Bfd/ePf50DoEuaN4+HiAuXX6cbwtviY/4YEGgjkC/4QuRZVGzUcuhf+DQIBPfPu5t/dz9iZ1wLZHdu23KfdRN8b40rpWfBO9vP5EftJ+lr5LfoO/vsEmQ5IGccigih3KRomJiCBGcATRw7LB4j/dvb17UbnauQ45qXsAvV5/QsEPwfEBmwDkf83/AL6APna+PH4pPjF+Eb6hv0YAjYHXQuTDBgKJQRy/GX0nO2A6UroQelh60LujfHg9D34mPvI/pkAvACv/p76T/Uc8GPtgu3z8Pr2jP7TBjkO7hQpGgAdCR5EHW0arxXUD58LQwqyDW0ZYC2VRtpcvmrBbutnglchP4gjWAmj9GbnLd9v2QbUv8+lztTRZNkS4wDry+2C6TzfkNHpxEC+2cAszUvgiPapC5Mc4ie1LdsuESwcJkkduBEvA6ryhOKL1mXRp9Pf283m3vCu9q72SfF56NDeC9de017UU9mB4AvpBfNs/8UObCC+MdU+h0RyQVc2nSWEE3cEUPtv+Dn6L/62AZ8DvQPeArQBhQDG/jP7BPVl7DLj1tuw2F7bs+O773L8GAfdDQgQNQ5GCgYGZwIU/6L71Pd68zrvXuwy7PXuy/Nf+e793v9g/h/6zPQG8EPtEe1c7y3zhPeN+//+BgIoBfcIgw1qEhgXzxrWHCYdfxuxF1USyAxDCWAJmA+9HJ8vV0SDVgVi8WOXW15KCDNgGTsC0vHV6NrkAuT35LHmfOiw6tDt7e9c7hDoE93jzizAGbVbsVa26sNU2Cbw0wZKGGUiMiUZIn8brRO2C/sDsfy/9vbyQ/IL9Y/6cAEPB0UJcgan/TXwzuD10rXJYcZSyS/RQdxS6Qn3kgT6EGkbfSINJesiKR11FVIOnQqtCwsRzxhxILglsSZTI4kcYBOyCCP9fvHy5ULb9dKIzgnPetTc3U/pvfPz+tf9nfyJ+Gvz2+8n73DxrvWs+qf/jgM6Br0HhAiuCAsIiQa1A6j/qPoK9hzzwPJK9Sz6QQC6Bd4IqAiJBV0AUvvb94P3KPpo/1UGlQ0iFE8ZOB3NH3YhCiLPIVAgwR1JG80agR6yJrIydj9NSdRMJ0iUO+UooROQAGHzcu1U7YnwO/Sb9XPzT+7h55vh/dsq16zSk803yM/DU8LhxDLMtdfq5Qb0TP+4BWwGSQKa+6P1hfKI8yX4Uf8nB8oNghICFYUVORR2EUENbQfq/0T3qe6k56bjsuPB55PuC/bg+5H+fv1b+bXzze547LTtaPJd+YgBiAmJECsW2RnjGzccpxokF30RlQr7AmH8/feU9v/3+vpy/rAADQHp/tj6ufXg8KjtlOzE7WDwsfPp9rb5JPwr/uD/BAGRAXgBhQD0/h79vfts+1b8rP4cAg0GfwmUCyYMhgtHCsEIUAcOBhkFawTvA+ADDAR3BC0FWAb+B/AJxgs4DekNpQ2tDHELoQp9CkcLyAy8DtEQ6hI+Fb0XdBq/HFUeoB5jHZEaPRYwERsMxweqBN4CXQKLAuMCmQIfAR3+t/md9EDvFOqe5YHi++Dq4M7hLuNo5D/lwuUq5mzmgOaQ5tjmZ+c/6GvpFeuK7ajwYPRf+EL8uf8sAp4D7ANjA0kCFAFYADcAzADLAfIC5gNdBEoEpANsAtkAOP+1/Z/8FvxI/Ej94f78AEEDYgULBxIIVwjUB9QGvgUbBR4FwQWzBocH+QfPB/IGbgV5A1gBOf8k/Rv7OPmp9572PvZ39kz3fPjR+e36iPug+1X79fra+jf7CPw5/an+QQDvAaQDTAXhBjMILgnDCfcJ2AlsCdkINwiwB0YHBgfaBrYGkQZpBkAGAQa9BX8FYwVxBY0FtwXYBQ8GZAbCBgwHMAc4ByYH4gZ1Bu0FWAW2BCAEuAOIA2EDQgMqAz4DYQOWA9UDFQQ1BCQE6gObAzQDvwJBAs8BXAHqAIgAPwAJANH/l/9B/6r+xf19/Br7tfl6+JH3Cffr9i73oPce+JP42fjt+KD4E/hH91n2SPUs9FDzmfI08hPyQvLW8nHzCPRk9Gn0IfS/83PzW/Oh80f0W/Wm9h74nvkU+3b8x/0X/ykACwHKAVoCpALBAtUC6gITAzIDZAOTA6wDyQPMA8cDpgOFA24DSwM8AzcDWAOKA9wDQQTBBGAFHQbyBskHmghECacJsgmCCSQJjwjbBycHhgbxBWkF+QSHBB4EwwN+Az4D3QKGAj4CDAL1AfwBJAJRAnkCmgK1As8C8AITAz4DXwNvA2kDLQPKAkkCzAFWAfMApQBYAAwAn/88//z+8v4u/4v/HgCtACMBWgFMASAB2gCiAHsAWQA+ACoAKAAtADQASABoAIEAnQCcAHIAKADP/17/0f5C/r79Xv0J/b38c/wT/Jr7D/t++gH6m/lF+ff4uPiF+Fr4Nfgr+Er4hvjl+Fv56fl4+hX7z/uQ/Fn9Af6L/uj+Cf/8/u7+6v7//h//VP+S/6z/nf9Q//D+h/4U/rz9fv1V/T39KP0f/Sf9Rf2S/RP+tv5q/x4AtAApAYABwwECAksCmAL0AlgDtAMPBFAEcwR+BFwECgSFA98CHgJeAcYAYQA7AFUAoQAMAYkB/AFzAuwCSAODA5oDigNiAzEDBQP8AicDfgPnAzUEYQRbBCAErgMVA4ICDAK4AYgBcAFhAUwBPQEzARMB7QDAAI0AVwAeAPv/7P/s/wMANQBrAJoAtwDDAMUArwCIAGwAcwCiAPcAZQHiAUYCgQKIAkoCwgEZAV4Anv8B/4X+D/6j/Tv9y/xS/NP7SfvC+kH6zvl3+Tb5H/k5+YH57fl/+if72fuF/B39nv0E/lv+n/7W/hb/bf/H/x8AbACkALMAoABsABwAuP9X//b+l/5A/vr9yP2r/a/91P0X/mz+3/5a/9r/TgC/ACkBggHQARUCVwKLArECxALIAq4ChQJXAiMC9wHCAYMBOwHkAIkAOwD5/9b/2/8AAD0AhgDNAAcBNAFRAWEBZAFxAY8BtgHdAfoBDgIFAuUBwwGfAYABfAF2AXQBcgFeAT4BGAH0AN8A4QD3ABwBSAFxAYkBfQFZASIB2wCLAC4A4f+Y/13/Kv8B/+P+0f7M/s/+0P7J/sb+tf6j/or+fv6M/rH+8f5H/63/DwBfAJ4AzADaAMgAkgBJAPP/kP8s/8/+fP45/vj9s/1i/Qn9sfxm/DP8KPxM/KL8Ev2D/fT9Vf6e/tL+Bf8//37/yf8uAKIADQFlAa0B1gHbAcMBiQE0AcwAWgDp/4L/MP/x/sr+tv6d/nv+VP43/jL+Rv5q/o3+rP7A/tP+8f4u/53/QgD6ALEBPgKTAq4CnwJtAi4CAgLuAeoB7wHvAeIBxAGfAXwBXAFLAUQBQQE1ASUBCQHmAMcArwCnAKEArgDEANgA6wD5APoA8gDpAOcA4wDcAOcA/QAYATUBSQFRAVMBSAE3ARkB6gCuAGMABgCd/zD/zv6D/kn+Hv4N/gv+A/75/ev94f3b/dn96/0V/k/+lf7n/j3/lv/q/ysAYQCEAJQAjABmADYAAQDh/87/xf/N/+r/FgBEAGcAggCLAHwAWAAuAAIA0v+f/3D/Uf84/yb/Jv8s/zn/X/96/4z/mv+I/17/J//a/nn+I/7e/bb9r/3C/fP9M/59/r/+8f4X/y//P/9L/1T/W/9i/3D/e/+E/5n/wf/1/0IAlwDzAEgBkwHTAQACHQIzAkMCVQJeAmUCZgJeAlQCTwJQAlMCWAJdAlcCQQIRAtMBkQFNAQsBzQCcAHMASQAmAAUA7P/Z/8//0P/O/9D/z//R/9b/2f/i//3/IABJAHAAkACXAIIATwARAMH/bf8b/8/+iP5E/vz9u/2K/XX9ef2T/b/99f0l/kb+Xf5k/m/+g/6u/vP+Uv/E/0wA2wBjAd8BQAJ5AosCcAIwAs0BXgH6AKwAdABRAD4AMQAjABcACwADAAYADAAVABAA9v+y/2P/E//N/qv+rf7T/gv/Rv9q/2z/V/8y/wn/6P7N/r3+q/6T/m7+O/4N/u396f0B/jX+d/7A/gb/Rv99/6r/3P8IADwAagCVALEAyQDfAPYADgE3AWwBqgHmASICSQJdAlUCRAIfAvYBywGxAaABjAGIAXQBbAFfAVMBSgFCAUgBNgEbAesAoABHAPj/pv9n/0L/Lf8k/yn/L/89/0v/YP97/5b/rv+4/7b/pf+O/3v/av9n/3T/m//L/+L/6v/l/9v/uf98/yz/2f6F/jj+8f3E/b792P0K/k7+qP4L/2X/sv8BAD0AZwCWALkA2AAUAU0BggHJAQMCNAJiAngCcgJXAhwCyAFjAecAbAABALD/ev9Y/1b/X/9p/3b/fv97/3L/av9d/z//Ff/r/sT+nv5+/nD+cv57/pH+nv6h/pr+i/5+/ln+NP4U/vv97v3m/fj9F/5U/qz+DP92/9n/PQCWANkABwEkATABNgE7AUkBTwFlAYIBqAHSAfYBEgIbAg8C9AG+AXgBNAH9ANoAzADbAPUABQELARABCQEBAfoA7QDkAMYAnABpAC0A7P+0/4X/ZP9a/1X/ZP+K/7P/zv/Z/93/0v+0/4D/UP8m/wT/+f4B/yH/S/92/6X/zP/d/97/1P+x/3T/N//2/rH+e/5Y/kn+Yv6S/s3+E/9n/67/7f8wAFkAdgCLAJgAowC3AN8ACQEvAVoBgAGlAb8B0wHZAcoBowFmASMBxABkAA0Auv97/1D/Q/9H/07/W/9j/3L/ev90/17/OP8N/97+vf60/r3+1/4B/y//X/9//4z/iv+D/2j/Uv8h//P+0/6k/pf+ev6N/qn+0v4I/zP/a/+n/9b/CAAqAEMAbwCTAMIA5QAaAUUBaAGAAZIBpwGkAZ0BkwGGAWoBSQErARIB+QDjANYAvACZAIkAdgBaADwALAAdABQACwAJAAMABwAZACoAOQBFAEsARgAvABwADwAFAAAABQD6//D/8P/u/97/2v/I/6D/f/9X/xv/1P6P/lv+J/4E/g/+SP6p/gf/Z//C/xcAXAB6AIYAjACZAI4AlQChAMUA7AAWATEBUgFzAVoBVwFIASoBDQHNALwAdQAvABUABAABAA4AMABeAGwAawBSABoA5P+r/3P/V/8t/yv/Kf9C/0f/O/8t/w3/6f63/on+Uv4E/tD9qv2x/c79/f0i/mb+tv7g/hz/Uf9d/2T/Xv9W/1D/V/92/6z/BQBlAKEA4gARAR8BUwFQATQBEQHKAJYAPAACAOb/FgBAAHoAtQDzACEBJgEnASkBIQEKAeUAywCoAHcAcQCNAMwA+gAZASoBKgEQAdgAnABJAP//pf+G/2T/b/9L/1H/c/9Z/1b/P//s/tP+1/7Q/rr+mf6J/pP+gv6f/tn+Ov+R/7n/5P/z/wIAAwASACMASgCgAKUAwwDKAPAA/gAFAf0AMQEZAf0A+QDBAOoACgHcAPEAIwEEAcIAcgBJACkA/P/M/9r/x/+W/9v/o/+Q/1f/gP+0/z7/Vf8A/7H+sf6V/rH+pv7t/vn+6f7Q/uz+1/70/v7+Bv8A/x7/Rf98/6H/rv/O/x0AWwA/ADAADAD2//r/HwA+ADUAWgB7AKIAmwCTAHMAbABaAEIASgB1AHsAlgC1AOgAUQGrAeEB6AHNAcEBoAG0AaMBXgFIAS4BCwHnAL8A1QCfADAA6/+2/3f/Vf84/xv/0f6U/m/+lv6g/qn+4v4V/yH/Q/9n/1//hv+3/7n/rP+S/6P/2/8XAEsAlwDkAO8AAAElAXIBIwH7ANwA3gDxANgA6gD1ABYBFwELAfoA5ACmAJ8AcABFABoABwALAPP/uf+S/1z/Of9O/57/xv/K//H/6v8VACMABAD6/+X/9//e/8j/rP+I/1j/6/7l/sT+af4w/lb+Z/5R/j7+Mf7d/dz95/3E/YX9wP14/hH/Nv+a//7/TQBEAGEAaACvADIADQBFAIAAvAClAPkAUAE2AdYAkABMABgAp/8Y//b++f76/uj+AP91/5P/Vf9d/8//n/8+/yP/nf+T/8X/QAAgANX/LQBxAGMAvgDMAJ4AjwCHAFMAPgDy/27/vP6f/hH/s/9sAMoA6AAPAfMAoABRADMAJgBZAFIBLAHnASUDsQKkAbYBUwEXAT8BUwHgAS8CWwIpAisCEAJHAe4AdADNAIAAXAD5ANoBCAJBAksBlQD0/33/XAD0/9r/xABOALsAxwEuAf8BZAGR/2H/qAAaA8YE9QMw/f72G/Xi+LT6/vqW+mz8Ufx6+jn4Ovha+Jb3HPgw+BX6Ff2r/48BIv9H/PT9eP9cApcD9QLXACgC2QNiAjED+wIGAgADqwTlBRIHqgUMAjH/qvuj+tf6gv0EAMv+S/21/oD/vf8C/Pf4uveV+Tb7f/t2/Oz8uf1d/Sb/WACiAm8C4AF0AvMByALqAosEIAbmBY8HEQhLCTsJ2AgNCKwEvAYGBUkGNgYeBfYFBwYEBoYFiAPmAagB/AGMApsDCAXtAxYCvgDk/zcA5gEeA20DiQO8AtQC9QC//Sz+iP8hA9UELAP1AOD/DABJ/nj+8P/f/1kA5AHmAIH+/von+fz4b/zdAOoDyQWtAaH9I/sG+X73CPjm+2wB2Aa4BsIAtvnn9T/3//yKAPj/Yvx9+47+YQH5AcD9bfhU9VD2oPl2/V4A0AAPAAUAn/2e+j/4mvfz+hQBvwT2Azn/pvp4+c/6wf6/A9AGbwXTAGD68vhE+yIBugWSBj4F8wB//Jj4a/by+ET/bgaKCckGIf9D9ZPxwvEX+AABHgmaDYcKBQHn9dLt/uz481L/9Qn6DtwKBADz8WvpnOrB8lP+rwe7DNAKYgOJ+nzwa+8u9Zr+sQfNDIoNcgfy+5/0GPXM+wIFnQssDAoHBQJU/e36aPtZ/+oEPQelBWgBkP8w/pL+Df9Y/4oBMwNoA5IE3AWpBeMAt/sY+jH/mAZ1CY4GqQAP+8D4ZPkH/TQCFgfFBxcE7vxC+Av31fgk/QoEVArzC+AFXPwk9x35jf4GA1cGyQfnB2kGewJI/fP5p/ln+ysAfghVDcAJvv/m9un0r/mVAWgHFQuwCTUCPfmu9RD7WAJmBo4GLAXNA20C3v4G/EP7BP0tAU0EeAZlByUEP/7y+ov+SwQwB4QDivtG+HH6rgBpBgYJuAUw/p32lfKA99r/dAesCVII3wR3/8z7wfns/hYE6wjACdUGPgWNAJn+vv1JAAUEDQQdA+YBYgHZABP/LP7k/r4AxgM8AyEA8/s//Y0CkQYkB80Csf3g+P70uPbX+yUB6AQJBk0C4Pxm+TT5d/ySAOQE7QZ8BjUFagAT+3X5sv1kA+UESQAe+lj4W/qK/jgClwOPAB78APrG+bb9ggJCBOIB+fwJ+t37XP4P/8X9cP8XAXMAzP/W/2wA5v6X/fr/hQMYBh0FSQFY/iT/KwL7Ac0BpP5w/dn+J//I/5j9pvyo+/b7wPyN/c39MfyQ+Tz30fiu/T8ChQH2+jr2lvbc+4cBCgS/Aqz/sv7F/EL8V/8nBPcFsgIjApkC/QPvAgz//P3W/jABOQITAK7+//0l/cH8xQBBBaoEDAGL/nIAKwQQBQoDcf4T/RABJAc6CP8F0QLe/z7/UQGbBC0GVgSFAOn9vv7gAQgFqgOZ/l78Iv9qA4MF6QQoApz+ivwO/a4AfAITAywCmgAC/rP6h/rO+5b+1P/7/zz/lf6D/t/8lPvh+wz8w/5tAD8A/v/d/Cv7Ev0PAUMCpwLHArMBfwERAwAD2v85/IT6IP0zA2MHBAfF/3j5efuRAH0H8AmxBov/9vlY/EcBngeqB/QDxf0/+Kj5Uf1vA6AEPwF6+8L3nPrj/lIBRP44+0P7jv0OAL3/Dv7J+wr6afpt+nL9mv8P/2j9Evrh+c/7lf2o/lD/lwB1AXr/7/ze+wL94v/AAhkFJwT6Adv9Ef7xBHgKJwswBRADUwIdBYwIrwguCGgEuwMcBXwHkwoVDDkKBQZnA9UC0gIkA3cC8gCe/qr6uPmW+Pn3Z/YQ9bLzEfGE78nv+PJ+9c/0tPLj7xnwxvLI9e/2rvWt9OP0oPdD+aD5q/pV+7n8OP6h/ywBmwG2A7MEhQUDBWkEkgMFA+kG6QeeBzIGTwWFBOYEbwc8BxUHNAYSB9kHTgnJCrwK4wkBCvILNQuaC5gOGQ5YCxEIvQlDCgAK7wnCCYEIYwchCAcG2gQVBUcGbQUXASL+Pv5JAaICZQJm//v7Jfp4+lX9HwHX/1T5TPQj9lb7Lf+T/vL5BPbZ9pz6nv00/TD6Ufc29p75E//0AGYAg/4n/hQB+QIDBhoIkghzCv8KUQ3NDRAQmhFTESkToBFwEVQSGxIIEg4QFA7VDKcKPQflAoQBTP5J+pT15e//7SzqP+eu5AzhB94V24bYBNad1WbVydTY1GjUstS61f7WZdrt3X/g2uET5dPp0e178kX27vjp+1X/wwOBB1QKaAzkDYsOzRBxE8oVLRbPFsEWZxQRFKgSDRTLE+gSwRLoDk4NHwvZCQ8JCghICWsIdAZNBWQEIgQhA9sE1wdABzEJlgb+BFYF9gfBDToOeg0mCswJAgvADPQQCA7WDNoL7wwaDgoP/g+SDHwJnAa8B64KgAqUCFMEUAFaAFwCZwQIBJEA9Pkp9kb3WfwIACX92/e085/1OfuFAOwCfwGH/64BCAn+EJ4UYBICELQQeBUAHeYgmyAuGwoXPhgjG94ciRuuFUoN+gegBdQETwHr+QDycOpI5UTh+Nys2N/ShM17yDrF/sNlwaq/1r6Ev4fAm8G4w0PE68YQy5LRwNiN3TbikeUe6l7yvPuiAmcEogbVC1MT7RojH8Ef2B39HUIhgySuJQojTR9CGusXGRgRGI4Uaw50CQgGywJkAucAkf1C+i32dvW08zjyhPHT8OjwTPHO8Tby6vOJ9Un4LfrG+3D+SwC+AzQHZQmSC9gK/wwWEc4TxxXDEyYSwxF1ExQVTReZFF4QCRBYEBsSeg6CCosI4ghoC+0LPQytBX8DXAUTB1YItgR5As0BtwR7BusF0wL6/4sCnAaUCzoSERtbINEgJhknFT4e7yuANQUz3ymWI38kwClpMc8y0yr8HNoSBxIqFLYTXwtp/83zMung473gAtzw1NzK+sH0ue20ArOVsk6x2a7eq8GoS6g4q32xrLe9upS8Lr/owwjM8tZ/4Ormq+tC8ML3PgCuCUkScBe+GoYeNyODJ8MrDjDKM/A0pDSNM84yVTJRMlEyhC7VKO4hyx2QGioYChR+DaYG0P5T+tn2CPRo8JzqMeW63w3dPNyr3DHcJNoD2ZTXH9it2sHePeJQ4yvkluVv6d7tu/Qc+lz7O/3U/RQDyAZxC6EPbBADEqMQNRR0FnMY6xk2GHsZxxZPFosWyBfZGfMYWRd4E40RvxLEFdMXSBYrFBARIA9UEa4UhBaEFh0W8xZnFtAcDi3fN8Uw3B8yGC4iVjK4PKo8hi8kIJka/yERLJ4tjyQ+FAQGPgA0A5sFgv5U8RblCdu61JLRn84XyhDDO7tvtNyvs61TrkawabC8sPutEaw6r4a2YL5Iw43GeMg8zGnSvtwr6S/wpfOm9hL8mwQkDvoWChyHHt0f2SPnKe8tDzGOMr0y1jLzMscyGDK9MKMv6y6XLMUnMyIEHi0bnhqnF/URdwsGBHX/Uvxh+oz4rPPJ7KXmHuRU5AflOuPx3r7aMtjX2Mbbr93/3eXd6dzn3WbgMeTC5xjqEew07Q7vdvFo9+H8af6M/tr9EwDUBBALFQ7PDV8MaQ37EOUShxTcFMoT2hPQFQ8XiBYBFXgVHxciFgQV7hP5E/QUKhfGF4gVbxM9E2cVyRdtGlog9SMCJIIhuR7OH70lby6EMY0sAyUVI4InQCrCKtIpbiMGGkMT6RJvFVER1QfV/fX1Ve896pLnseIq23DReMkRxZvBOb+HvCu6b7aLsuew8LD7s0W3rLmMuxy87b2cwnTJdtC41rnbwt8b5S/sOPWH/v4ElAmbDXoSrhjPHywmMSpzLEktvy4vMXszPjWhNcgzTzGAL3MutS1jKx0oQiRKIJIbfhfJE4AQCg6JCuwFUgAE/HD67viN9VDwyOtw6aHoqOhv5zzlAuId36beW98o4cXhi+E54D7gpOKf5WfoM+gN6Hnq2e3Q8ab0RvZy9jL3F/rm/eUABAGnAnoF8wfBCTgKFQsoDGEOEQ9iDygOsA41EWYSVxIsEAAPZw+tENUQqA9fDugNqw4zEDAQ/g7mDV4NyA7aDlwRlRWvGKYYhxXqExwVXhodIAsihh4cGbgYkBziINMiLSCYGt8UuRHOEqEUSxOJDDYDSvzr+SX5hPVx8L/qduPv21XXO9YK1arQ58pMx83EdMIkwi/DNsRdxGHDssP+xS3JBs290bDVSNlQ3PPf7+ar7ur0XflC/eQBbQevDWMUSRp/HTwfnCESJfooeSxhLlkueC21LK0tzi5wLn4sKCnkJWYjySGlH4YdRhq/FaUQnAuhCKwGLwRzACP8CffY8vvwwO9Z7uzq2+aZ5KjjxOOE5BfkmOLT4FbgaeEt5HrmvecA6Bznk+ie7KPxxPWW9qj1wfXV+Oz9fQKHBB0EnAS9BRUIoQpXC6ULOws1DK8MNQ03DVIN8A2VDMEL3gpcCvEK7woZCjwIsAahBugHrQjPBy0G7QPAA3kG1QgjCXcGLwRdBPMGhwrPDQkPng5FDy4SbxTGFLkVxhjdHFYcPxoUG9Qc5B1sHe4dVB0JGQQThRGBE2QSKQ0cBnAAoPuk92j1rPP37cvktd1U2u7YOtbM0iHPAcsix1TFg8afx6jHfMd6x3TIecrFzajRkNUL2Ync1+B45SzrYvHR9tr7aQAIBTMKwQ9jFSQaah3pHwcjFCazKC0rrCxbLeMsfSyyLIUsbCvWKcUnsiSGIe8eWxxIGRgWTBKUDW4IRAUQBJQBc/xr9obxgu7v7fDtR+wG6HXjLOGS4RHjsuTF5OHiE+GG4VTksOfy6ezqP+tG7GvudvEj9ef3hvk0+o37Zf6FASgEmwYCCCkIvAfvCFMLOA0DDkENiwzsCnsLuQwuDUEMlgrRCawIugf3BtYGQAZiBUoEswLBADwAYQHvAeEAnP3Q/Fr+ngBMARQA7f7x/scA4AKuBc4GRwYIBpkH5gtIEDQTtxSsFdoT4BKnFv0d2SFdHvkZzhnDG18bxRt9HR0bshMbDaoMFw6jCwsGCQGT+4j1rvGh713t5ejS4pfd1tlR14/VItTt0UXQRc4fzNvLBs3wzlTQc9EL07fU49Zq2l7f9ONZ56HqJe5L8lr3Ff24AvkGEQo1DRcRThW2GZwdGiB2IW4i8SNJJi4oCSmUKO4mbiV9JPYjLCOLIa8e/BpoF7IU3hJZEN8MCAkkBYgB3P78/BD7Tfjk9Pjx/e+O7l/tx+v86VvpjOpZ6zDqxues5i/omeqf7I7tcu3n7NbtuPCw8531+fWe9sz3v/mc/Nj/0QEOAksCGQPwBKYG6Ac3CakJhgl+CZgJogkQCn0K6Qo0Co8IyQefB4EHAQfHBowG+AQVA38BeQEHAnICwAKPAXD/Jf4g/0QBvgK+ApMByACcAMYBOQRwBvEHVAjTB+cI8AvoD7cTSRaXFlkUTxKZFA8bHSAnIGgdFhptF9cWexn8HJ8cshb3Dt0JRQjUCBEJVgXv/cr1t+/s7BjsPeug57XgY9ld1dHU19Rv1LbS289mzLXKKsxlz9zRptL10oLTRdXJ2JXdTuLa5eboIOwP8Gv0cPnO/qUDqgf+CncOTRJfFmQa1R2eIEgiNyP8IycltybmJwgoISeEJcYjPSL3IIcfUR0PGkwWDBNqENENBgsACPEEdAG8/Zb6nfju9sf0Y/Lh74Pttutu69Hsv+0g7MvofeZo5/Lq3+2Z7lLtBOzQ64rtSPFi9aT3yPZ49Qb21/iD/Ef/pAD0//b+Sf8CAlYF+ga+Bh4FBQQfBLMFqQdACHgHlQU2BP0D7gQ4Bl8GVgXjA+gCAgPpA94E7gTOA3MCEwLPAugDhQR/BNcDMAOKA0QFlwcUCTsJwwhzCMoIwwkyC40MoQ2DDk4P6w8xEVMUaRlWHR8doRmHFuMWqRlHHVQgNyGVHqoYoxMFEjcT9BMDEpYNgQdYAab8mfnK9qryW+3h51fj5t8z3QDaqdXJ0BjNbctFy4PLJcuwyc3H48YgyDXL5c7f0QvU3dUN2HHbJeDP5Y3rUvAy9PX3aPyEAX4GHguAD6IToRc7G2Me1yCtIhkkMSWMJu4n+ij6KOAnXyaUJLEivyDtHiMd6hphGKwVBxNXECsN6gmVBsMDkAGw/wv+cfy1+mb4kfXZ8ujwfO877hrtbOzu643rh+u46wXsF+yD7DvtKO4k7xPwOvFG8o7zNfXz9v34/PrK/Jf+JQC0AR8DUARoBREGpwYmBxYIDgm9CUgKnAr9Cj0LVQuJC4kLMwurCjMK9QnFCZwJUgkJCbUIMgihByEHrAYrBnoFywRGBNsDgwMeA6UCIAKVAR0BqABkAD4A//+X/xz/6f7a/sb+n/5h/iD+yP2P/W79Zv1Z/Tv9MP0+/XD9qv3Q/e39/P0v/pH+Bv9q/6n/7/9IAKQAIgG2ATUCdwKXAtkCMANyA5wDnQOeA4EDeANyA2QDQwPgAmwC7gGYASUBmAD1/1n/wf4o/qf9Nv27/Dj8u/sJ+0X6oPkk+bv4IviY9xT3j/Y09gP24/Wx9Zb1e/VO9VD1ifXu9TH2VvaD9sf2M/e891r47Phc+cr5SfrY+ob7OPzx/I39B/6X/jv/BQC0AFYB6QFwAvcCgwM4BO4EdAXeBUMGwAYrB4IHzwcfCHAImwi4CMwI4QjzCPQI4gjHCKwIgghiCDoIDQi7B1MH4gZ7Bj0GCwbgBYMFBQWHBPsDnQNPAxQDqAL9AUsBxgCDAD8A0/83/4v++/2F/Sb91fxw/On7VPvL+mn6Cvq1+XX5Rvkf+fT42fjK+LH4p/iq+Nv4KPmG+c/5BPpL+tH6jvtB/NX8X/3b/XP+Ov8oACMB4AF9AhcDuQN5BEEFBQaaBv8GYgfSB1IItQj7CCIJFgn8CNoIyAikCG4IIgi6B0AHsgYzBrMFHwVxBKgD4wIsAnwBywACACb/Uf6O/en8Tfy9+yf7hvre+Wf5Hvnt+Jn4QPgG+PD38/cI+Df4YfiH+MD4IfmW+QH6efoF+5P7KPzE/FH93f1a/vL+o/9LANIAOQGZAQYChgL9AlsDpAO3A54DkQOvA+MD6wOiA0kD7gKgAksC9AGYASABswBVAP3/l/8Y/53+G/6k/TX94Pyb/Ff8Cvyw+2/7Pfsf+yT7O/tV+1X7V/t++9T7QPyp/PP8Lv1x/dr9Zf76/oH/+v9eAL0AJQGaARMCgALOAgMDKQNaA5gDyQPZA88DvAO5A6oDnAOLA2MDLQPmArICeQJDAg0C2AGvAXIBMwHrALMAjwCMAIAAeABmAFgAQgAvADgAXgB9AJQAogC3AMwA8gAlAVMBcAGBAYoBnAGoAccB2QHdAdMBxAGxAZ4BhgF0AUUBDwHPAJkAYQAjAOv/rv9g/xf/xv6C/jz+//3C/YX9Tv0f/f/83/y7/Kv8qvyx/LL8xvzp/BD9Mv1a/Zb94/00/pD+4f5A/53/AABjAMUAKgGMAe0BSQKcAuYCKwN5A8ID/gMhBCwELgQ+BFQEXAQ/BAwEygOVA3EDUgMLA68COQLJAWIBCwG+AF4A4v9W/9D+aP4M/r39Y/0E/Zv8QvwD/Nn7wfum+3/7Y/tS+1/7c/uc+8P77vsd/FH8i/zb/DP9kf3h/Sz+c/7F/iD/gv/Y/ycAawChAMoA/AA9AX4BqwHAAcUBxQHEAdIB6AHtAccBlgFnAUwBQwE0ARIB1gCDAD0AEAAAAPX/1P+N/z7/CP/9/gz/G/8V//L+yv7F/uj+JP9V/2b/Xf9k/4X/y/8OAEMAWgBcAG4AmwDcABwBPwFGAToBQAFcAYEBoAGgAYQBYwFIAUYBUQFQATEB+AC9AJEAdQBdADIAAgDF/5X/av9Q/zn/E//e/qr+kP6N/pb+mv6K/nn+c/6M/r3+3/7s/vH+/v4k/1X/lf/K//T/BwAgAEkAfQCzAN4ABQEdASkBPwFcAX8BkwGXAZQBjwGHAYUBfQFyAWIBTgE0AQ4B5QC/AJsAdwBVADEABgDb/7H/kv92/13/Rf8w/xP/+f7f/tH+zv7H/sj+xv6+/rv+w/7X/ur+CP8e/yv/O/9X/3v/of+9/9///P8aAD0AWQB6AJQAqQC/AMoA3QDsAPwA/AD/AP0A+gDuAN4A0ADBAKsAjwBpAEUAJQASAP3/4/+4/4f/Vv82/yH/Bv/p/tD+tf6d/pH+kP6L/or+h/6J/pD+ov7D/uT+/P4M/x3/Qf9v/6D/v//Y/+3/CwA1AGUAjACjAK0AuADIAOgACgEhASUBHAEXARUBFgEVAQQB7QDSAL8AsQCoAJEAbwBIACYAFgATAAAA2P+m/4T/b/9f/1H/Rf87/y//FP/+/gX/GP8o/yX/Kv85/0D/U/+A/73/2v/x//r/AAAgAEEAZACWAKsAowCaAKUAvgDmAP0AAQHuANAAsQClALQAwQC7AJ8AbwBEACoAJwAlABUA6//A/5X/g/+O/57/nf94/1H/M/8z/1T/bf9v/1f/Uf9q/3//pP/L/93/4P/d/+L/AAAhAEAAUABOAEkANgA+AEcAWwBfAGQAXQBWAE0AOQArABkACwAEAPT/6P/W/8r/wf/D/73/of+L/3v/Zv9e/17/Xf9h/2j/Y/9s/3b/iP+c/7T/zf/u/xAAKwA+AFQAawCMAKEAvgDaAPcACwENARABKAE9AUkBVAFTAUYBMQEkARsBDQHyAMwAqwCFAGwAVQA/ABkA8P/F/6H/f/9n/1H/Qf8c//f+2f7L/t3+5P7o/tn+wv7L/tv+7v4C/xz/Jv8q/zT/VP+N/7v/2f/i/+v/BQA9AIIAtgDVAOUA9QADATIBYgGGAYgBdgFWAV8BdQGNAZcBeQFcATUBEgEOAfkAxQCLAEwAFgD0/9P/vf+D/zj/9P7R/r/+tf6a/mr+MP4L/gL+C/4k/jX+Hf4E/gH+Gv5Y/pH+r/7I/tb++P44/5//7f8jACkANQBiAKUA8gA9AVwBYwFjAW0BkAHEAecB1QGpAYYBcAFzAYIBegFIARYB2gCqAIgAbwBMABwA6v/C/57/jP9r/0D/D//i/rX+nv6S/oH+bv5p/lb+Wv56/pb+r/68/rz+zv72/in/Y/+K/5z/t//d/xIAPgBYAHQAkgCeALAAwwDjAPgACQHwANsA4gD+AAEB5wDGAKUAhgBzAHoAcQBLACkAAADk/8//1f/F/53/d/9o/03/Rf9E/0z/Tf8y//7+/v4l/03/Wv9g/17/Zf96/5n/wf/v//v/+P8AABwAQgBiAG4AaABLAFcAhgC3ANEA7ADZAMEArgC9ANsAtACdAIsAdgBxAGIAXwBEAC8AEgAAAO//5f/T/8T/pP+L/3v/f/+D/4P/c/9d/2L/cv9z/33/if9x/2f/ff+g/8//7v8KACYANQAtAD8AZwB1AH8AogCsAMAA2QD4AAcBGQEEAQ0BFQEEAfUA3wDhANQAuwCuAJAATwA/ADEADgDu/7j/mP9+/1P/Kv8k/y3/Bf8I/9n+4f67/qb+tP6n/pn+i/7C/tP+1P7d/gP/Dv8E/yX/Sv9f/4z/pv/K//T/CQAPACQASgBRAFwAhgCUAJwAnQCrAL4AxADAAMoA3QDPALsAtAC8AKwAjQCHAHQAZABRAFIAQAAfAAgA8f/J/7P/p/+b/5D/fv9Z/0b/O/8l/xL/DP/9/vv+//4C/wr/Df/8/v3+Ff8a/x//Of9S/2n/fv+P/5f/p/+u/8X/4v8RADcASgBOAFEAUABdAG8AggCjAMgAxQDUAPUA3gDeAN4AxwDKAMcA1AD7AA0B7gAOAfEA3QAEAQgB7ADeAM4A3QD4AOwA4ADSAKcAoACRAF0ATgArANj/pv9g/17/N/8P/xn/Cf8V/xH/7f69/pf+kv6N/mD+GP75/Tr+tP4T/yT/g/+u/+D/0f+4/3T/Vf8a/wr/Jf8v/6T/sf8dAAsASQBnAIUAUQBRAKwAvgDyADkBiwGeAdcBHwI5A/oD6QLNAWoA3gApAb0AlwA6/m39Y/0b/Az8k/3L/in/WwD3AK4AngBKAFj/5P75/rP/qAASAY4BBwJZAhEDswPdA9gDlANJA48CKgLCAVEBQAHUAH4AcABTAB0A5f+K/zD/3P6S/lf+9f2n/V/9J/0J/fn86Pzy/P38BP0H/Rr9SP1l/W/9hP2U/aT9jv2a/ZL9iP2c/bf92/0L/mj+5f45/6f/GQBXAK4A5wANATABRgFcAYcBrQH1AVACxgJgA8IDDwRJBDoECgTyA7MDTAMQA9QCmAJ6Aj4C+AHLAcoBnQFmASkBtwBjAAUAov9A//7+yf6d/pn+rv7T/gD/bP/7/50AMQGvAQACNQJqApsCfwIEAkABPAAf//X91vzP+9r6BvpQ+fP4t/h0+A74m/cz9xn3J/dM93r3v/dc+BT5xvmc+mv7Vfze/F/99P2T/nv/MQAYAQcCFQMQBBgF7QVlBscG8QbPBo4GSwarBS8FsQRABOQDtwN5A/ECbgKyAdcASgDS/3L/l/+p/9L/hgBKAfIBVwKxAj4DvwObBG4FtgXaBfMFDwYeBq4FzQQWBCUDUAJsAVAAG/8O/hf9IPyO+3/7+fta/GL8PPyN/Ab9ev3S/TX+1/50/zsA0QA/Af8BoAIYAzIDyQJtAvcBhAHcAAIAJP+p/hH+j/1T/UH9Wf3A/f/9Pv6k/g7/Qv9B/1P/Hf8B//b+2f5U/2EAFwIIBIoGUQkmDJ4OnBBiEnUTfBMtEsYPhQzvCNwEqABc/DP4cfRK8Qvveu1s7NfrW+sc6wDrUeu06xHsh+zy7MjtGu8D8RrzffUu+B77Xf6tAegE0QcXCrULjwzZDHgMeQuyCXQH/ASSAmAAff66/Fj7Vfq9+ZP50fnk+fz5Nvox+h36Ufq8+gr7e/tU/G390/7rAEcDeQXXBygKPwwrDqcPeBCpEDQQSw/SDSIMFQrzB7QFhgN7AeT/rf7L/SD9oPxe/GL8jPya/N383Py7/Mz8+vz9/DH9Y/21/S7+yf6Y/6cAugHBAtAD1wSTBSEGsQa3BlEGxwUsBTQEMwMwAvsAxf8D/wT+b/0u/f389vwH/VD9s/0o/q3+L//A/z8AyQBUAd0BUwLfAjgDdwPGA/ED+QPsA7YDcQP4AmQCtwHkADwAa/+s/gr+nf11/TX9Pv1H/X395P0y/sT+Fv+2/zkAXADWAPoAiAHUAt0E1weLCqQM9Qy7DJ8MZAuICMMDnP0n9iTvU+gc4hTdC9jj1JbTPNQq12HbkeAO5qzsQPNE+XL/bQSdCAYLWAwmDfINwA6YDigOBg5CDpQOng99D3YPlg+XD60OjQ0KDdwK1gjGBvoD8gF5AET/WP6L/Tr+K/+zABkDpQTYBsoIJQolDF0Nwg7XDrgO3w5JDiAOzQyGC9wJoQi9Bq4EuQK6AHv/W/37+lb5Qfgr9/L1DfVw9Brz+PJg8gPyE/Im8p/ym/I48+LzlPTn9Wf3nvo3/yIEeQnBDeYROhY4Gs0cLR0NHKYZuhWgENoKbAST/T33RfEb7BjoduVM4/7hi+Ec4ZPhxeIw5FPllOYV6LDpuOtB7rvwefO+9n36j/4LA2cHiguAD+sSohVaFxQYahedFQQTVA82C8cGRALS/cv5w/Y/9Hnyd/Ev8arxr/I79PL1r/d8+QD7lfwG/qv/HQGpAhUEuAWbB4sJkgtRDboO8A/gEFsRUxFxEBcPHA2nCsQHiARMAS7+MfvA+Kr2WfW59Ij0DvWV9fb2SPgU+t77M/2i/sb/DgERAsUCgAMyBKQEGQXWBdwG6gevCI0JBQqTCucKEgtyCn0Jdgj7BlEFZgO+Ad3/Hf6//Jz75vpu+pL6h/rX+lb77/vS/IX9QP7i/qD/agA8Af4BygJDA8EDFgQWBBgE/wPNAykDewL+ARsBhQD7/x3/qv4W/gf+vv1z/Ur9J/0l/c78Bv0z/Vn9z/1N/vj+xP+yAKkBPAKmAusCKAP2ArwCyAIYA44D/QMHBDwEbAWWB8IJ2woODJgMMgyIChcHDQJK+3L0Au115cneZ9le1d7SD9Ne1R7ZNt5p5GjrGvKS+KL+lwNnBxkKugv7C7ILTAuHCqoJfglBCXUJNgp7C+EMZQ1zDvMOFg+bDiwNZQseCYoG1gNrATD/ev15/P77uvwz/noA0wJwBZQIpwtlDuUQZxIWEzUT6hHtEHMOkAtkCasFYgO/AIj+Jv4h/aH9AP5n/kj/dP+q/0D+Vfyf+vL3bvXe8nfwQO667Ebt9e2F7xzy5vRD+D77nv6gATME1gayCb8NWxHtE1kWqhjJGlAc8xwtHP4ZhhYXEooMgAZGAO34cvGw6nTkQ99l25zYmdZV1aHVINfT2Tbd6+AD5fvog+3c8Uz2afrx/WkBbwRtB0UK7wxBD9AQAxLWEgIT3hLgESEQaQ0gCoQGpAKu/qf6kvbW8uzvDe7/7L7sgO0J72zxU/So90X7xf5UAqQFewg5C0oNPQ9/EHARJxKHEqoSVRK4Ec8QgA/gDeoLqAlDB3oEwwHR/jT8g/kl90v1sfPa8lTyrfKA86z0kfbA+Bf7n/0+AMUCEQUfB+4IOQo+C9sLDwz7C6oLGgtWClsJMwgFB64FYAQDA4IBJgDH/mb9APyz+q354/hh+FL4h/g/+Wz6tPtv/Tz/DgEeA6QEMAZrByYI3wj/CNwInwj1BzoHagZhBWMERwP3AdoAmf9I/ib93vvR+g36Ofnn+Mr40vhH+cr5kfqN+4z8q/3F/vT/JwESAgMD9gN9BOgEJwXwBNQEeQR+BJ0F2AawB4EHGAczB38HEAgCCMkGSwVxA/EAIv6l+q32MvJV7T3pyOVc42rh3d++3/TgieO45rjqZe9382X3OPt//jsBGwMhBI8EgwR4BBME0APfA60DiwPrA60EiwUjBrcG/gZ9B/AHkgdWB90GewYTBgkGUAY+BlIG+wYfCCUJDQraCg4MxQyHDekNOg4BD+cOTg4MDfgL1wtaCqwI9QaMBPsCSAEEAFD/2P1r/Sr9Hf1f/kD/OwASAacBHgKjAXcBMwGz/1P+Dfxg+mP5u/fq9ir21/Wl9En0WPW69UL2Fvat9Tz20/ao9x74svhN+jv7DPw6/c7+0//i/wAAdQBKAkYE7wV6B7AIcAp7DMwOTxBDEdARZhH/Dx4OCQwwCXUF0AAI/HH3LPNV77HrPuh15bHj5OKl4irjmuRZ5lno5OoL7mbxqPQJ+B778/3BAEcDowV/BwwJSQo8C+ULJgxDDPsLLQvkCV8IkAaiBJQCJgC7/WX7V/mH9xL2HfXF9On0jfW19mL4tPoj/br/cwItBesHXAqaDHkO0Q/CECERIRG4EO0P4A5yDdILOgqDCN4GTAXHA2EC+gDA/5b+gv2r/Or7Pfu/+oT6Svpi+rf6KvsA/OH8Cf5G/4wA3wEGA0oEVQU4BvUGVQeiB4sHPwfNBvoFKgVLBEUDDAIpAWcAUv+W/r39NP0F/bT86Pzm/An9gP3k/Y/+Nv/4/7wAPwHKAUECkgLsAgsDWQOCAy0DKQPIAlACzwHsADAAif8V/6L+QP4K/pP9Nf0Z/Yj9dP5l/4wA3gFlAwkFZwZ3BxMI0QcAB5YF4gPZAbz+tfpx9lTydu5e6+ToB+cw5lnm5+eO6r3tZ/E69cP4qPtl/koANQFuAbgAZf+Z/fz7l/oo+RH4uffq9+n4rfrF/BD/awHvAx8GDQjlCUcLcQw6DZcN3A34Dd0NOg17DJcL1QplCtcJVgnbCMMIxQihCMkI4AjACKgIsgjECKAIhQgiCFwHsAb3BUkFDwTxAqYB+P+V/iz9k/y9+/H62Pqn+uL6o/qx+vT6u/pZ+pT5cPlV+fT4U/jh9/f3TPjf+Ev5Avr0+q/7iPzB/c3+nf/I/7P/uv9b/+H+Tv7L/Z/9Qv2Z/VD+gf7G/vP+VP8e/2z+A/7N/GT7mfmp95P2zvVa9Xb15/VG9zz5nft9/gIBiAPhBQwILwqDC7cMrg0cDrEOFA/RD2kQtRBAEWgRdhE8ERIQdw6dCwQIJQQz/xb6W/TQ7rrpyuQB4eTdEdxZ24vbG9173wXjA+en673wy/UQ+9L/eQSOCOELsg6pEA0SuhKjEgMSphDrDgkN6wqjCDIGxANiAS7/B/0f+3n57/fX9gD2mvXA9T32Fvda+Pz5C/xP/vEAuwNtBjUJ1gsMDukPYRFeEq8SZxLAEXIQ7Q7gDJ8KXQgABsQDjQGh//T9hfx0+6v6GvrF+cP54PkW+nT66/pn++/7tPxd/fr91/7K/7sAfAFgAj8D3gODBPAEgwXKBRgGMgYPBv4FqgUuBZwE6QMRAzYCOgE8ADP/d/67/Q/9nPyE/H/8h/wS/cL9fP5V/z4ATQHwAV8C5wJBA5wDugOpA7oDtQPQA3EEAAVgBXYF0gXEBlkHsgYkBScDmAB3/bb5rvWz8Z/tIOot54bl7eTZ5Cjm0OdB6mntrPD/85X2PPmN+xb9MP4o/8H/CAASAO3/3f/d/0YAvgAwARECVwPGBD0Gogf5CDUKRQs/DOkM+wzMDEoMjgutCs4JHAk4CJgHRwdVB5oHDgjaCIoJFQqSCg8LpwvAC0ELnwqeCQIJFQgZBxoGwwTdAxoD3gJcApwB0ADc/2P/w/5L/oj9k/yJ+036ZfnI+EL4HPfm9WX18fQO9dD0cfRs9NDzV/Tm9Kj1nPaS9l/3rffC+FP60vrN+2D8hf0M/5r/rABZAXEBYwGVAHcAegDT/+r+HP6E/e/8afyD/Nb8N/1l/Wn9r/79//wA3gEvAtMC+ALrAiEDywKMAvEBWAEgAa8ArwC6AMAAogB/ACABtAEwAigCNAJcAtsBbQGwADAAzv/o/gX+7/zq+zX7ePr++Xn5yfh2+Gv4K/lf+ov7xfwR/hgARwLNA7sEWwXlBdMFVgW3BO8D2AK1AcwABgCV/0X/af+q/xkAVgBzANAAJgFOAf4ArwBoABkA2v+4/8H/0f+W/4L/5f8wAG0A3QBZAdsBHgKXAmUDCAScBAgF1gWjBhMHrgczCKgIHwmRCecJ2wmTCSAJWQhHB/QFJAT/AZX/DP2U+hv41/W68+vxnPDQ75bvAPDb8PjxWfMH9Qn3KPlW+2X9kf9oAfMCZQSgBaAGHgdxB8wHwgfDB4oHOQfHBg0GZgVwBJsDjAJxARgApf6M/Xz8q/sN+wH7TPvD+4D8ev3C/v//VQGeAsED5wSyBVoGvgYDB/0GlgYKBmYFvAT+A0sDtgIkAocB/gB4AAEAQf9v/tT9Kf1p/Lr7Lfua+vz5bvn++Kj4V/gg+GP4i/i5+Cz5jvky+rj6QfsK/Kn8Nf28/Sn+lP7X/uD+8P73/vv+3v66/qz+mv59/kb+Lf4q/kj+f/6k/gz/qP+cAK4BtwL/A0EFfgacB3wIIglVCUMJ9whwCLAHxgbzBSkFjwQlBP0DTAS4BF8FTAZaB5wInAklCmEKKAq3CdIIkQfvBc4DmwGH//v9u/xy+5H6Fvob+ln6k/o5+5j75/se/DL8gPxG/Of7e/sq+xH7y/qe+pX6sPr2+iz7kfsD/EL8T/xT/Kz8Mf0v/ar8jfyx/Dn9iP2b/fz9Vf7v/m//o//m/7H/Mf+Z/sj9+vzw+9T66/ky+c34k/ik+E359fmY+qD7yvwo/iP/2v+rAD8BnAGXAaoB2gHGAWcBDAHxANUAkgBvAIYAhACCAHoAnADmADABpgE5ArkCRAOfAwYEbQShBHYE1QMXAxwCBAHy/yL/b/6+/ST94Pwb/av9av43/xQA1gB1ASoCBAPHA9oDcQP1Ao4CSALRAU0BygAsAI7/+/7m/vz+8f7J/oz+jP6p/vD+Jf9I/47/0v9EAL0AeQEtAsoCSgObAxAEbwTQBCAFOAU+BS8FLQUcBcoEVATNAz0DsAIMAjgBTgBi/1/+a/2g/On7NPt3+vP5rvl9+Yf5rPnv+VH6vfpS+xf86vy4/Zr+aP9TAEAB/QG3AhgDXQNvA18DGgOaAusBDwEwAFX/oP7k/Rr9Zvzh+337T/t++9n7TPyq/Dz9Hf4Q/wIA9gDzAdgCoQNgBAkFowX2BQcGHgYxBi0G6wWQBS0FrgT7AzsDowLvASoBZADH/z7/iP7M/Vb9Hv0d/Q79Hv1r/dz9hP7//rP/hgBIAQMCfgIlA8UDOASnBOkEDAXBBGMEEwRnA2sCJgHs/4/+KP3K+2v6RvkR+Db3qfZC9mz2rfZb90/4N/kz+u/6xvuc/FL96v1i/p/+pf6R/sP+Lf9n/2r/SP9q/8L/4/8RAGsA5wBOAZEBCQKhAv0CJQNFAzQDGQPSApYCcAJHAioCFAIsAk8CfwKXAq0C1gLUArYCkAJvAgwCZAG1AAwAUv+I/v39Y/3O/ET86fvI+7X72PvY+9r74fv3+1z8rfz3/HP9BP6m/jf/uf92ABUBlwEHAkUCnwLZAh0DWwOIA6UDWwMWA9YClwJaAhQCtgEpAbQAXwA4ABEA8v/T/8L/uP+Z/57/xP/7//r/9v8iAE4AkgDRAPIA7QDDAL8AuQCuAI0AbwAwAP//BwA4AGkAfQCfAKYAhwBKAAUAuP8s/7T+Xv4v/jz+TP5b/m3+n/76/jb/af+h/8b/4f8GACkAJQAFAOj/6/8HAAEAAAA6AIMAuQD1AEoBWwErAesAuwCXAFQAHQAZAOn/nv9t/1D/Tf9N/1D/X/90/3j/uv/U/9r/9f/6/xYANAB0ALAA5gAaAWABsAHuAQMCAQIUAiwCOQJAAj4CSwJKAiUC+gG6AWoB3QA5AIX/r/7Y/QT9ZfzW+2P7Kvsy+3P7zPtc/CL9B/75/ggA9QCqATcCbAJwAkMC6QF2AesATACM/9n+Sv4D/vb9Av4g/ln+rf4U/4//AwBaAJoAygAPAXMBowGzAdYB+QEXAiACLwJcAm0CWgIVAq8BWgH/AKUAKQDe/9b/zP+5/7H/v/8UAGgAtgD5ABwBPQE0AScBBwHWAIkAIgC3/zn/9P64/pj+gv57/n7+k/7a/gX/+v7S/oj+Kv7A/VL95fxa/MX7L/vr+gP7R/uo++z7R/zK/IP9av43/7P/7f8AAB8ARQBaAGYAWgAwACMATgCrAAkBQgFMATEBKAECAcYAogB1ACAAyf+G/3X/kv+w/9j/FABcAJYAswDcABsBXQFyAWUBVQFHAT8BNAFAAUMBJQHlAJIAfQCFAJQAnQB4ACMA2v/A/6b/i/9v/1D/PP8q/0//lP/s/ygAOwBUAGkAlQC2ANAA1gDVAOwACAEcARcBBwH4APAA7wDwAPcA8QDdAMUArwCgAIwAaAA7AB8AAADX/7D/jP96/2T/T/9S/23/k/+r/6D/qf/F/+L/CwAAANv/rf+i/67/nP9k/xT/yP6a/qD+yP7z/gX/Ev8X/xP/Ov+X/+j/9v8FADgAeQC1APgAPAFfAWkBcwFvAX4BewFGAQ0B7ADeAMQAywAFAToBLwEDAeIAvQCjAKEA1AD6AOgAyAC3AJgAfgBWACUACQAAAC0AUgCBALcA8QAgARoBCgHxALUAdQA5APz/uf+g/6n/lv9h/zf/Hv/1/rT+Zv43/iH+/f0B/hv+MP5D/mf+vv4a/23/wP/x/xEAMwBiAJQA1QAPARgB0QCYAHwAawBSABIA1/+i/3b/TP8h//b+v/6B/mH+iv7C/uD++P4P/zL/TP9g/3H/bf9q/4H/vP8BAFQAoADnABEBGwH9AOQA5wDbANsA2QC+AHgAEADQ/6//gf9D/w3/2P6k/pv+sf7E/uL+9/4Y/xH/0f66/tj+/P7t/sv+0v7E/sP+/v5J/4b/kP94/2//kP/B/9P/4f/z/+v/7v9BANMARAF6AZEBrwGqAbABwwGvAVoB1gBUAAAA1//K/7H/jv9a/yj/Uv/C/0AA3gCPAfcBHQJAAqAC7wKdAtUB8AD+/zb/w/5m/v/9w/3g/TP+gP7v/lf/ZP9X/2v/m//O/wwAQgBYAGIAjgC5ANkA+QD6AOUA1QDYAOUA2gDAAKAAfwB+AIwAmACgAKUAvQDmAAkB6QCEADoAFwDV/6b/s//P/+P/EwBLAD8ALgA2AGQAhACmAN4A8AAIASEBJQERAesAlgATAKr/YP8W/9P+qP55/lL+Sf5Z/nL+hv6K/nb+c/6W/q3+tf7Y/h3/c//a/1AAsADTAMwAxwDPAM0ArwCHAGAAOgAdAAkA9f/N/5j/fv+G/4r/f/9+/4b/m//Z/zcAeQCaAJoAdwBaAEQARAA8AAoA5v/Z//H/LwBqAGkAOQA4AGsAkgCaAIUAWgAaAN3/qP+C/37/d/9E/wr///4V/y//Sv9b/3X/qf/0/yQAQQB1AJ0AlwCCAGoASAAUAPj/3f/A/8//6/8SAEsAlgDRAPwAEAEIAQ8BCgHqALIAcwA4ABIAAQAGAAkAAQD3//D/AgAaACEAIQACAMv/j/9X/yz/4f6N/kn+Nf5Q/ob+vf7s/gv/J/9M/2j/av9J/yH/+/7g/ub+Cv8x/0r/av+Y/9P/AwAeAB0AAwDy/+L/5v/r/9f/wP+u/77/xP+1/6T/n//E/wIAOQBfAHkAgQCMAKkA4AARAT0BXwFuAXYBgwGLAXYBJwHKAIcAagBnAH8ArQDDAMUAuQDDAM4AxACZAGIANAAOAA0AKAAwABYA+P/b/7z/r/+9/8b/wf+8/7T/qP+m/6T/jf9e/zL/Iv8e/xj/Hv8y/1H/eP+i/8j/4//+/xkAJAAVAPP/zP+t/5z/lv+h/7T/xf/Q/+//IQBHAF8AbABmAGAAbQB9AHkAbwBtAHMAbQBgAE0AMwAdABgAJgBIAG4AgQCWALoA2wDUAJ4AVgAKAMv/pv+i/6v/uv/N/97/4v/V/8L/r/+a/5z/pf+j/6H/qf+v/6r/rv+o/6b/pv+k/63/u//B/8r/0f/U/9H/yP++/5//f/9i/0f/Rv9S/2P/eP+V/6r/uP/M/9X/1f/R/9n/3P/e/+j//v8eAD0AWQBvAIcAqADNAO4ADwEoATYBOgErARAB3wCrAHIASwA2ADIAPgBNAFkAXwBbAFIAOwAgAAIA3P++/63/p/+h/5n/jP+A/3H/av9s/3n/hf+O/5H/i/+B/3j/df92/3r/gv+K/47/k/+e/6b/rP+w/67/qv+t/7L/w//X/+T/8//4//7///8AAAIABAAGAAkADwAXABoAIQAkACwAOABFAFAAVwBfAGoAbwBzAG4AXwBUAE8ASgBFAEsAUwBaAGIAXgBWAEoAOQAhABUAEAADAPj/4//G/7z/t/+o/6T/nv+f/7//4f///xwAMQBBAEcAQQA0ABUA+v/o/9j/y//J/8f/yf/K/8n/zP/P/9j/5//y//v/AAAHAAgAAwAGAAMA/f/8//b/AAD//wAABAAIAAoADgAPABEAFAAfAC0AMwA3AEQATgBUAFEATgBOAE4AVABTAFQASABCAD8ANQA6ADcAOwA5ACoAHgAcABMADgAIAPv/7//o/9z/0f/P/8f/uv+9/8X/zP/O/9X/3v/g/97/3P/e/97/5P/t//X/+P/7//3/+v/9///////7//n/+v/8//j/+P/x/+7/8v/y/+3/7//w/+v/5v/p/+z/8f///wEABQAPABkAGQATABYAEQAPAAwADAAJAAgAAQD9//b/8f/s/+z/5v/g/9j/0P/O/9D/zf/F/7//uf+3/73/yP/R/9H/zv/O/8//0f/O/9T/zv/I/9T/2v/j/+b/6v/p/+j/6f/v//r/AgAHAA4ADgARAAsACwAEAAEA//8DAAgADQARABQAGQAYABMAEgAOAAsADQAQAA8AEAAPABQAEgAUABYAFgAcAB8AIgAnACgAKQAiACMAGQAYABoAGgATABEADwARAAwABgACAP3/8//j/9v/1P/R/9L/zv/V/9r/zf/O/8b/v//C/8f/y//X/+H/6P/y//f/+//3//f/+f/7//z//f/+/wEAAAAFAAwAEQAMAAsAEQATAA0ADAAOABIAEAAMAAgABQAEAAcABwAKAAoACwAJAAkADgAWAB0AIgAlACsAKwAsACsAKgAoADEAKQAnACQAIwAjACIAHwAaABMADwANAAoACAADAP7/+f/0//L/7f/u/+z/7f/q/+3/7P/z//b/+f/5//r/+//8/////v8AAAIACAANAA4AGQAXAB0AIAAiACAAHgAgAB4AGgAYABcAFwAUABIAEQARAA8ADAAIAAMA/v/5//b/9//2//r/+//8//3/+v/0//H/7f/u/+z/7P/v//L/7f/w//X/9P/y//L/9P/z//D/8v/s/+z/8P/o/+f/6v/r/+z/7//t/+7/8f/z//j/+P/9//z//v////7//v/8//3/AAD8//z/+v/1//D/8P/u/+v/5//m/+X/6P/q/+n/6//t/+v/8P/w//P/8v/2//f/9v/5//v/+v/4//r/+v/3//b/9//7//z//P/7////AAACAAIAAQAAAP7//v/9//r/+//4//f/+P/6//n/+v/6//7//f/4//z/+//4//j/9//5//f//P/7/wAABAAIAAkACgANABMADwANAA4ADAAJAAoADAAPABIAFwAQABAAEgALAA4ADAAJAAgACwAKAAYABQAFAAUAAQABAAIABgAIAAgACAAGAAQAAwAEAAUABQACAP//+////wMAAgABAP7/AAACAAMAAQACAAUACAAEAAMAAgADAAIAAAADAAkACQAGAAMABwAGAAcADQAMAA0AFQASABsAGgAXABcAGQAYABUAFAAVABUAEgAQAAsABwAEAAUABAAAAP///f/9//r/+v/4//v/+v/4//b/9P/0//L/9P/z//T/9P/4//z/+/8EAAIABgAGAAkABwAGAAoACwAJAAgACwAOAA0ADQANAA0ACQAGAAQAAwABAAEAAgAEAAIAAwAAAAAA///9//n/9//5////AAAAAAAAAAD7//j/+//6//n/9f/1//X/7//w/+v/7f/x/+3/7f/t/+7/7//w/+7/7v/u/+//8v/x//L/8v/y//H/8v/x//H/8v/y/+//8f/y//L/8f/0//T/9f/2//r/+v/8//z//P/8//z/AAACAP//AQABAAEA//////7//P/8//r//P/9//z/+v/7//3//v/9//3//f/8//j/9//3//X/9f/3//j/+v/8//3//v/+/wAA///9//r/+//8//r/+v/6//n/+P/4//n/+v/+//7////+/wAAAAAAAAAAAAAAAAEAAwAGAAgACgAJAAkABwAFAAQAAQADAAgACQALAAwACgAJAAcAAQACAAUABAACAAQACAAKAAsACAAGAAUABAAAAAAA/v/9//7/AQADAAQAAwAFAAQAAAD//wAAAgAGAAkACwAMAAkACAAHAAcABgAEAAUABwAGAAUABgADAAMABAAEAAYABwADAP7/BwAGAAQAAwABAAIAAQABAAEAAAD//wAA///7//z//v8BAAEAAAACAAQABgAGAAgABwAGAAcABwAIAAgABQAIAAQAAgAEAAAA///9//3/+//7//r/+v/6//v/+v/6//z//P/7//z//f/+////AAAAAAEAAwAEAAUABAAEAAYABgAHAAkACAAFAAMABgAFAAUABgAEAAQABAADAAIAAQACAAMAAQAAAAEAAQAEAAEAAAD+//7/AAAAAAAAAAABAP///P/7//r//P/9////AAD//////f/8//v/+f/4//n/+v/8//v/+v/5//n/+v/5//j/+P/3//f/+P/1//f/9f/0//T/9v/+//z//P/9//v//f/9//v/+v/6//v/+//9//7///////7//////wEAAAAAAAAAAAD///3//P/6//r/+v/6//v//f///wAAAQACAAIAAAAAAAAAAAAAAAAAAQAAAAEAAAAAAAAAAAD+//z//P/9//3//f/+//3//v///////v///////P/8//7/+v/9//3//v8AAAIAAgABAP//AAD///////8AAAIABAAEAAUAAgABAAAAAQAAAAEAAQABAAAAAAACAAMAAgD///3//v8AAAAAAAACAAMAAwACAAIAAQABAAEAAwAFAAcABQAEAAQAAwABAAIAAAAAAAIAAQABAAAAAAAAAAAAAAAAAAAAAAAAAAEAAgABAAAAAAACAAIAAQACAAMAAgADAAIAAgACAAIAAgABAAAAAAD//wAA///9//v//P/8//v//f/7//z//f/9//3//f8AAAAAAAAAAAEAAgADAAIABAAFAAUABAAFAAUABQAGAAUABgAFAAUABAADAAMAAwACAAEAAQACAAEAAQAAAAAAAAD//wAAAAABAAAAAAAAAP/////+////AAD//////v/9//3//f/9//3//P/9//7//P/8//z//P/9//3//v///wAA/////////////////v////7///////7//v/+/////////wAAAAD///3//v/+//z//f///wAAAAAAAAAAAQAAAAAAAAAAAAAAAAABAAAA///9//3//v/+//7/AAAAAAAAAAAAAAAA///+////////////AAD///7//v/+//3//f/+//7//f/+//7//v///wAAAAAAAAAAAAAAAAAAAAAAAAAA////////AAAAAAAAAAAAAAAA//////////8AAAAAAAABAAEAAAAAAAAAAAAAAP//AAAAAAAAAAABAAAAAAAAAAIAAQAAAAAAAAAAAAAAAQACAAIAAQAAAAAAAAD/////AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABAAIAAgAAAAEAAgABAAIAAQABAAEAAgABAAEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABAAAAAgABAAEAAQABAAEAAQABAAEAAAAAAAAAAAAAAAAA//8AAP/////+//7//v/+//7//v/+//7//v/+//7//v///////v8AAAAA/////wAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAQAAAAAAAAAAAAEAAgABAAEAAQAAAAAAAAABAAIAAgABAAEAAAAAAAAAAAAAAAAAAAAAAAEAAQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAQAAAAAA/////////////wAA////////AAAAAAAAAAAAAAAAAAAAAAAAAAD/////////////AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAD//wAA/////wAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAD/////AAD//wAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAQAAAAAAAAAAAAAAAAAAAAEAAQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAEAAAAAAAAAAAAAAAEAAAABAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAQAAAAEAAQABAAEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA/////wAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAEAAAABAAAAAQABAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA//8AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAP/////+//7/AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAP//AAAAAAAA//8AAAAAAAAAAAEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABAAAAAAAAAAAAAAABAAEAAQABAAAAAAAAAAAAAAAAAAEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAQABAAAAAQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA//8AAP//AAAAAAAAAAAAAAAAAAAAAAEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAQABAAEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAEAAAAAAAAAAAAAAAAAAAABAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABAP//AQABAAAA\\\" type=\\\"audio/wav\\\" />\\n\",\n              \"                    Your browser does not support the audio element.\\n\",\n              \"                </audio>\\n\",\n              \"              \"\n            ]\n          },\n          \"metadata\": {},\n          \"execution_count\": 4\n        }\n      ]\n    }\n  ],\n  \"metadata\": {\n    \"colab\": {\n      \"provenance\": [],\n      \"gpuType\": \"T4\"\n    },\n    \"kernelspec\": {\n      \"display_name\": \"Python 3\",\n      \"name\": \"python3\"\n    },\n    \"language_info\": {\n      \"name\": \"python\"\n    },\n    \"accelerator\": \"GPU\"\n  },\n  \"nbformat\": 4,\n  \"nbformat_minor\": 0\n}"
  },
  {
    "path": "examples/mms/zero_shot/README.md",
    "content": "# MMS Zero-shot Speech Recognition\n\nThis project builds a single multilingual speech recognition for almost **all** languages spoken in the world by leveraging uroman text as intermediate representation. The model is pre-trained on supervised data in over 1000 languages. At inference time, one only needs to build lexicon and and optional N-gram language models for the unseen language.\n\nYou can download the zero-shot uroman model [here](https://dl.fbaipublicfiles.com/mms/zeroshot/model.pt) and dictionary [here](https://dl.fbaipublicfiles.com/mms/zeroshot/tokens.txt)\n\nCheckout the demo here [![Open In HF Spaces](https://huggingface.co/datasets/huggingface/badges/raw/main/open-in-hf-spaces-sm-dark.svg)](https://huggingface.co/spaces/mms-meta/mms-zeroshot) \n\n## Commands to run inference\n\n1. Prepare uroman-based lexicon: build a lexicon file by applying [uroman](https://github.com/isi-nlp/uroman) over your file or words. Refer to the format below. \n```\nabiikira a b i i k i r a |\núwangaba u w a n g a b a |\nbanakana b a n a k a n a |\n...\n...\n```\n\nEach uroman token in the spelling of the final lexicon should appear in the token dictionary of the model.\n\n2. [Optional] Prepare N-gram language model: build LMs with [KenLM](https://github.com/kpu/kenlm). We found using even 1-gram LMs can produce very good results.\n\nInference command example\n\n```\n# lexicon only\n\nmodel_path= # place the downloaded uroman model here\ndata_path= # path containing your tsv and wrd files\nsubset= # subset in your data path\nlex_filepath= # your uroman lexicon\nlm_filepath= # any n-gram lm as a placeholder; not used\nwrdscore=-3.5 # can be tuned on your data\nres_path=\nbs=2000 # bs=500 is good too\n\nPYTHONPATH=. PREFIX=INFER HYDRA_FULL_ERROR=1 python examples/speech_recognition/new/infer.py -m             --config-dir examples/mms/asr/config/ --config-name infer_common decoding.type=kenlm             dataset.max_tokens=2000000 distributed_training.distributed_world_size=1             \"common_eval.path=${model_path}\" task.data=${data_path}             dataset.gen_subset=mms_eng:${subset} decoding.lexicon=${lex_filepath}             decoding.lmpath=${lm_filepath} decoding.lmweight=0 decoding.wordscore=${wrdscore}    decoding.silweight=0 decoding.results_path=${res_path}             decoding.beam=${beam}\n```\n\n\n```\n# n-gram lm\n\nmodel_path= # place the downloaded uroman model here\ndata_path= # path containing your tsv and wrd files\nsubset= # subset in your data path\nlex_filepath= # your uroman lexicon\nlm_filepath= # your kenlm\nwrdscore=-0.18 # wrdscore and lmweight can be tuned together on your data\nlmweight=1.48\nres_path=\nbs=2000\n\nPYTHONPATH=. PREFIX=INFER HYDRA_FULL_ERROR=1 python examples/speech_recognition/new/infer.py -m             --config-dir examples/mms/asr/config/ --config-name infer_common decoding.type=kenlm             dataset.max_tokens=2000000 distributed_training.distributed_world_size=1             \"common_eval.path=${model_path}\" task.data=${data_path}             dataset.gen_subset=mms_eng:${subset} decoding.lexicon=${lex_filepath}             decoding.lmpath=${lm_filepath} decoding.lmweight=${lmweight} decoding.wordscore=${wrdscore}             decoding.silweight=0 decoding.results_path=${res_path}             decoding.beam=${bs}\n\n```\n\nNote that the commands won't give proper CER directly, as they don't handle your reference file properly if your script is not included the dictionary. You will need to calculate CER yourself after generation is done.\n\n# License\n\nThe MMS Zero shot code and model weights are released under the CC-BY-NC 4.0 license.\n\n# Citation\n\n**BibTeX:**\n\n```\n@article{zhao2024zeroshot,\n  title={Scaling a Simple Approach to Zero-shot Speech Recognition},\n  author={Jinming Zhao, Vineel Pratap and Michael Auli},\n  journal={arXiv},\n  year={2024}\n}\n\n```\n"
  },
  {
    "path": "examples/moe_lm/README.md",
    "content": "# Efficient Large Scale Language Modeling with Mixtures of Experts\n\n## Introduction\n\nMixture of Experts layers (MoEs) enable efficient scaling of language models\nthrough conditional computation. This work empirically compares how\nautoregressive MoE language models scale in comparison with dense models in a\nwide range of settings: in- and out-of-domain language modeling, zero- and\nfew-shot priming, and full fine-tuning. See the associated paper for more\ndetails.\n\nThis repo contains instructions for reproducing results from the paper.\n\n## Pre-trained models\n\nThese models are intended for research purposes only in order to reproduce the\nresults from the paper, and to enable further research on the capabilities and\nlimitations of language models. Please see the [model card](model_card.md) for\nmore details about how the models were trained and evaluated, as well as their\nlimitations and intended use.\n\n#### Dense models\n\nDense models can be run directly from the `main` branch.\n\nModel | Layers | Model Dim | Languages | Download\n---|---|---|---|---\n`dense_125m` | 12 | 768 | English | [en_dense_lm_125m.tar.gz (0.2GB)](https://dl.fbaipublicfiles.com/fairseq/models/lm/en_dense_lm_125m.tar.gz)\n`dense_355m` | 24 | 1024 | English | [en_dense_lm_355m.tar.gz (0.6GB)](https://dl.fbaipublicfiles.com/fairseq/models/lm/en_dense_lm_355m.tar.gz)\n`dense_1_3b` | 24 | 2048 | English | [en_dense_lm_1_3b.tar.gz (2.3GB)](https://dl.fbaipublicfiles.com/fairseq/models/lm/en_dense_lm_1_3b.tar.gz)\n`dense_2_7b` | 32 | 2560 | English | [en_dense_lm_2_7b.tar.gz (4.6GB)](https://dl.fbaipublicfiles.com/fairseq/models/lm/en_dense_lm_2_7b.tar.gz)\n`dense_6_7b` | 32 | 4096 | English | [en_dense_lm_6_7b.tar.gz (12GB)](https://dl.fbaipublicfiles.com/fairseq/models/lm/en_dense_lm_6_7b.tar.gz)\n`dense_13b` | 40 | 5120 | English | [en_dense_lm_13b.tar.gz (23GB)](https://dl.fbaipublicfiles.com/fairseq/models/lm/en_dense_lm_13b.tar.gz)\n\n#### Mixture of expert models\n\nMoE models must be run from the `moe` branch. Please see the\n[MoE README](https://github.com/pytorch/fairseq/tree/moe#evaluating-moe-language-models)\nfor more details about how to load and evaluate MoE models.\n\nModel | Layers | Model Dim | Languages | Download\n---|---|---|---|---\n`moe_15b` | 12 | 768 | English | [en_moe_lm_15b.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/lm/en_moe_lm_15b.tar.gz)\n`moe_52b` | 24 | 1024 | English | [en_moe_lm_52b.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/lm/en_moe_lm_52b.tar.gz)\n`moe_207b` | 24 | 2048 | English | Available by request\n`moe_1_1t` | 32 | 4096 | English | Available by request\n\n## Evaluation\n\n### Example (COPA)\n\nThe following snippet shows how to evaluate our dense models on the [Choice of\nPlausible Alternatives (COPA)](https://people.ict.usc.edu/~gordon/copa.html) task.\n\n```python\nfrom fairseq.models.transformer_lm import TransformerLanguageModel\nmodel_dir = '/path/to/en_dense_lm_125m'\nlm = TransformerLanguageModel.from_pretrained(model_dir, bpe='gpt2')\nlm = lm.eval();  # disable dropout\nlm = lm.half();  # use FP16 for evaluation\nlm = lm.cuda();  # move to GPU\n\ndef get_logprobs(prompt):\n    import re\n    prompt = re.sub('\\n+' , '\\n', prompt)  # collapse repeated newlines, which indicate separate documents\n    return lm.score(prompt, replace_newlines_with_eos=True)['positional_scores']\n\n# Zero-shot evaluation for the Choice of Plausible Alternatives (COPA) task.\n# A return value of 1 indicates that the first alternative is more plausible,\n# while 2 indicates that the second alternative is more plausible.\ndef COPA_eval(prompt, alternative1, alternative2):\n    lprob1 = get_logprobs(prompt + \"\\n\" + alternative1).sum()\n    lprob2 = get_logprobs(prompt + \"\\n\" + alternative2).sum()\n    return 1 if lprob1 > lprob2 else 2\n\nCOPA_eval(\"The man broke his toe. What was the CAUSE of this?\", \"He got a hole in his sock.\", \"He dropped a hammer on his foot.\")\n# 2\nCOPA_eval(\"I tipped the bottle. What happened as a RESULT?\", \"The liquid in the bottle froze.\", \"The liquid in the bottle poured out.\")\n# 2\nCOPA_eval(\"I knocked on my neighbor's door. What happened as a RESULT?\", \"My neighbor invited me in.\", \"My neighbor left his house.\")\n# 1\n```\n\n### Data format\n\nFew-shot prompting is known to be sensitive to the input formatting, and it is usually best to match the formatting used in pretraining.\n\nDuring pretraining our models were presented with data in the following format (i.e., one paragraph per line, with a blank line separating documents):\n```\n<doc0,para0,tok0> ... <doc0,para0,tokX>\n<doc0,para1,tok0> ... <doc0,para1,tokY>\n\n<doc1,para0,tok0> ... <doc0,para0,tokX>\n...\n```\n\n#### Newlines\n\nWhile we use the byte-level BPE from GPT-2/3, fairseq's preprocessing replaces newlines with the end-of-sentence symbol (`</s>`), which corresponds to embedding index `2`.\nThus **the model never saw newline characters during pretraining** and newlines should not be used during few-shot prompting.\n\nThis is more clearly illustrated in the following example, which uses fairseq's Hub Interface to tokenize two documents in the desired format:\n```python\nfrom fairseq.models.transformer_lm import TransformerLanguageModel\nmodel_dir = '/path/to/en_dense_lm_125m'\nlm = TransformerLanguageModel.from_pretrained(model_dir, bpe='gpt2')\n\ndata = \"\"\"\\\nThis is the first paragraph of the first document.\nThis is the second paragraph of the first document.\n\nThis is the first paragraph of the second document.\\\n\"\"\"\n\n# The following is wrong, since it will encode newlines present in `data`.\ntokens_bad = lm.score(data)['tokens']\nassert '\\n' in lm.decode(tokens_bad)  # oops, we encoded a newline\n\n# Instead pass the replace_newlines_with_eos option to get the correct behavior.\ntokens_good = lm.score(data, replace_newline_with_eos=True)['tokens']\nassert '\\n' not in lm.decode(tokens_good)  # no newlines were encoded\n```\n\n## Citation\n\nComing soon.\n"
  },
  {
    "path": "examples/moe_lm/data_card.md",
    "content": "# Data card for the paper \"Efficient Large Scale Language Modeling with Mixtures of Experts\"\n## Version 1.0.0\n\nWe follow the recommendations of Gebru et al. (2018) and provide a datacard for the dataset used to train the 1.1T parameter model.\n\n## Motivation\n* **For what purpose was the dataset created? Was there a specific task in mind? Was there a specific gap that needed to be filled? Please provide a description.**\nThe pre-training data for training the 1.1 T model was created by a union of six English language datasets, including five datasets used by RoBERTa (Liu et al 2019) and the English subset of CC 100. These purpose of creating this dataset was to pre-train the language model.\n\n* **Who created the dataset (e.g., which team, research group) and on behalf of which entity (e.g., company, institution, organization)?**\nFAIR (Fundamental Artificial Intelligence Research)\n\n* **Who funded the creation of the dataset? If there is an associated grant, please provide the name of the grantor and the grant name and number.**\nFAIR (Fundamental Artificial Intelligence Research)\n\n* **Any other comments?**\nNo.\n\n## Composition\n\n* **What do the instances that comprise the dataset represent (e.g., documents, photos, people, countries)? Are there multiple types of instances (e.g., movies, users, and ratings; people and interactions between them; nodes and edges)? Please provide a description.**\nThe instances are textual documents. The overall dataset is composed from a union of the following datasets - \n    * BookCorpus (Zhu et al., 2019) consists of more than 10K unpublished books (4GB);\n    * English Wikipedia, excluding lists, tables and headers (12GB);\n    * CC-News (Nagel,2016) contains 63 million English news articles crawled between September 2016 and February 2019 (76GB);\n    * OpenWebText (Gokaslan and Cohen, 2019), an open source recreation of the WebText dataset used to train GPT-2 (38GB);\n    * CC-Stories (Trinh and Le, 2018) contains a subset of CommonCrawl data filtered to match the story-like style of Winograd schemas (31GB);\n    * English CC100 (Wenzek et al., 2020), a dataset extracted from CommonCrawl snapshots between January 2018 and December 2018, filtered to match the style of Wikipedia (292GB).\n\n* **How many instances are there in total (of each type, if appropriate)?**\nThe training data contains 112B tokens corresponding to 453 GB of data.\n\n* **Does the dataset contain all possible instances or is it a sample (not necessarily random) of instances from a larger set? If the dataset is a sample, then what is the larger set? Is the sample representative of the larger set (e.g., geographic coverage)? If so, please describe how this representativeness was validated/verified. If it is not representative of the larger set, please describe why not (e.g., to cover a more diverse range of instances, because instances were withheld or unavailable).**\nThe English CC100 section of the dataset is a subset of CommonCrawl snapshots extracted between January 2018 to December 2018, filtered to match the style of Wikipedia. The CC-stories dataset contains a subset of CommonCrawl data filtered to match the story-like style of Winograd schemas.\n\n* **What data does each instance consist of? “Raw” data (e.g., unprocessed text or images) or features? In either case, please provide a description.**\nEach instance consists of raw text data.\n\n* **Is there a label or target associated with each instance? If so, please provide a description.**\nNo.\n\n* **Is any information missing from individual instances? If so, please provide a description, explaining why this information is missing (e.g., because it was unavailable). This does not include intentionally removed information, but might include, e.g., redacted text.**\nNo.\n\n* **Are relationships between individual instances made explicit (e.g., users' movie ratings, social network links)? If so, please describe how these relationships are made explicit.**\nThere are no explicit relationships between individual instances.\n\n* **Are there recommended data splits (e.g., training, development/validation, testing)? If so, please provide a description of these splits, explaining the rationale behind them.** \nWe hold out a random validation set of approximately 150MB from the pretraining data, sampled proportionally to each dataset's size in the pretraining corpus.\n\n* **Are there any errors, sources of noise, or redundancies in the dataset? If so, please provide a description.**\nN/A\n\n* **Is the dataset self-contained, or does it link to or otherwise rely on external resources (e.g., websites, tweets, other datasets)?**\nIt's self-contained.\n\n* **Does the dataset contain data that might be considered confidential (e.g., data that is protected by legal privilege or by doctor-patient confidentiality, data that includes the content of individuals' non-public communications)? If so, please provide a description.**\nThe datasets used are publicly available, and the information in them is not considered confidential.\n\n* **Does the dataset contain data that, if viewed directly, might be offensive, insulting, threatening, or might otherwise cause anxiety? If so, please describe why.**\nParts of the dataset are a subset of public Common Crawl data, which could contain sentences that, if viewed directly, might be offensive, insulting, threatening, or might otherwise cause anxiety.\n\n* **Does the dataset relate to people? If not, you may skip the remaining questions in this section.**\nSome documents of this data relate to people, such as news articles, Wikipedia descriptions, etc.\n\n* **Does the dataset identify any subpopulations (e.g., by age, gender)? If so, please describe how these subpopulations are identified and provide a description of their respective distributions within the dataset.**\nNo.\n\n* **Is it possible to identify individuals (i.e., one or more natural persons), either directly or indirectly (i.e., in combination with other data) from the dataset? If so, please describe how**\nIn addition to individuals who have Wikipedia pages (celebrities, politicians, etc.), it may be possible to identify other individuals by their names, Twitter account names, etc. if that information is present in Common Crawl.\n\n* **Does the dataset contain data that might be considered sensitive in any way (e.g., data that reveals racial or ethnic origins, sexual orientations, religious beliefs, political opinions or union memberships, or locations; financial or health data; biometric or genetic data; forms of government identification, such as social security numbers; criminal history)? If so, please provide a description.**\nThe training dataset is partially derived from Common Crawl, which may contain some sensitive information.\n\n* **Any other comments?**\nNo\n\n\n## Collection Process\n\n* **How was the data associated with each instance acquired? Was the data directly observable (e.g., raw text, movie ratings), reported by subjects (e.g., survey responses), or indirectly inferred/ derived from other data (e.g., part-of-speech tags, model-based guesses for age or language)? If data was reported by subjects or indirectly inferred/derived from other data, was the data validated/verified? If so, please describe how.**\nN/A. The dataset is a union of six publicly available datasets.\n\n* **What mechanisms or procedures were used to collect the data (e.g., hardware apparatus or sensor, manual human curation, software program, software API)? How were these mechanisms or procedures validated?**\nN/A\n\n* **If the dataset is a sample from a larger set, what was the sampling strategy (e.g., deterministic, probabilistic with specific sampling probabilities)?**\nPlease refer to the main document for details.\n\n* **Who was involved in the data collection process (e.g., students, crowdworkers, contractors) and how were they compensated (e.g., how much were crowdworkers paid)?**\nThis data is mined, filtered and sampled by machines.\n\n* **Over what timeframe was the data collected? Does this timeframe match the creation timeframe of the data associated with the instances (e.g., recent crawl of old news articles)? If not, please describe the timeframe in which the data associated with the instances was created.**\nDifferent parts of the dataset were mined over different time periods.\n1. The CC-News dataset contains English news articles crawled between September 2016 and February 2019.\n2. The English CC-100 dataset was extracted from CommonCrawl snapshots between January 2018 and December 2018.\n\n* **Were any ethical review processes conducted (e.g., by an institutional review board)? If so, please provide a description of these review processes, including the outcomes, as well as a link or other access point to any supporting documentation.**\nNo. \n\n* **Does the dataset relate to people? If not, you may skip the remainder of the questions in this section.**\nNo.\n\n* **Did you collect the data from the individuals in question directly, or obtain it via third parties or other sources (e.g., websites)?**\nN/A\n\n* **Were the individuals in question notified about the data collection? If so, please describe (or show with screenshots or other information) how notice was provided, and provide a link or other access point to, or otherwise reproduce, the exact language of the notification itself.**\nN/A\n\n* **Did the individuals in question consent to the collection and use of their data? If so, please describe (or show with screenshots or other information) how consent was requested and provided, and provide a link or other access point to, or otherwise reproduce, the exact language to which the individuals consented.**\nN/A\n\n* **If consent was obtained, were the consenting individuals provided with a mechanism to revoke their consent in the future or for certain uses? If so, please provide a description, as well as a link or other access point to the mechanism (if appropriate).**\nN/A\n\n* **Has an analysis of the potential impact of the dataset and its use on data subjects (e.g., a data protection impact analysis) been conducted? If so, please provide a description of this analysis, including the outcomes, as well as a link or other access point to any supporting documentation.**\nSome responsible AI related evaluations were performed. Please refer to the main document and the model card for the paper.\n\n* **Any other comments?**\nNo\n\n\n## Preprocessing/cleaning/labeling\n\n\n* **Was any preprocessing/cleaning/labeling of the data done (e.g., discretization or bucketing, tokenization, part-of-speech tagging, SIFT feature extraction, removal of instances, processing of missing values)? If so, please provide a description. If not, you may skip the remainder of the questions in this section.**\nThe component datasets went through standard cleaning and re-formatting practices, including removing repetitive/non informative text like \"Chapter One\", or \"This ebook by Project Gutenberg\".\n    \n* **Was the “raw” data saved in addition to the preprocessed/cleaned/labeled data (e.g., to support unanticipated future uses)? If so, please provide a link or other access point to the “raw” data.**\nThe \"raw\" component datasets is publicly available in their respective locations (more details can be seen in the respective papers linked in references).\n\n* **Is the software used to preprocess/clean/label the instances available? If so, please provide a link or other access point.**\nThe software is proprietary to Meta Platforms and currently unavailable publicly.\n\n* **Any other comments?**\nNo\n\n\n## Uses\n\n* **Has the dataset been used for any tasks already? If so, please provide a description.**\nYes, this dataset was used to pre-train the models described in the paper.\n\n* **Is there a repository that links to any or all papers or systems that use the dataset? If so, please provide a link or other access point.**\nNo.\n\n* **What (other) tasks could the dataset be used for?**\nThis data can be used to pretrain English language models, which are foundation to many current and future language tasks.\n\n* **Is there anything about the composition of the dataset or the way it was collected and preprocessed/cleaned/labeled that might impact future uses? For example, is there anything that a future user might need to know to avoid uses that could result in unfair treatment of individuals or groups (e.g., stereotyping, quality of service issues) or other undesirable harms (e.g., financial harms, legal risks) If so, please provide a description. Is there anything a future user could do to mitigate these undesirable harms?**\nThe pipeline for creating this dataset paves a way for building a scalable infrastructure for mining datasets to be be used for training large-scale models.\n\n* **Are there tasks for which the dataset should not be used? If so, please provide a description.**\nNo.\n\n* **Any other comments?**\nNo.\n\n## Distribution\n\n\n* **Will the dataset be distributed to third parties outside of the entity (e.g., company, institution, organization) on behalf of which the dataset was created? If so, please provide a description.**\nNo. \n\n* **How will the dataset will be distributed (e.g., tarball on website, API, GitHub)? Does the dataset have a digital object identifier (DOI)?**\nN/A\n\n* **When will the dataset be distributed?**\nNo.\n\n* **Will the dataset be distributed under a copyright or other intellectual property (IP) license, and/or under applicable terms of use (ToU)? If so, please describe this license and/or ToU, and provide a link or other access point to, or otherwise reproduce, any relevant licensing terms or ToU, as well as any fees associated with these restrictions.**\nNo.\n\n* **Have any third parties imposed IP-based or other restrictions on the data associated with the instances? If so, please describe these restrictions, and provide a link or other access point to, or otherwise reproduce, any relevant licensing terms, as well as any fees associated with these restrictions.**\nNo.\n\n* **Do any export controls or other regulatory restrictions apply to the dataset or to individual instances? If so, please describe these restrictions, and provide a link or other access point to, or otherwise reproduce, any supporting documentation.**\nN/A\n\n* **Any other comments?**\nNo.\n\n## Maintenance\n\n* **Who is supporting/hosting/maintaining the dataset?**\nFAIR (Fundamental Artificial Intelligence Research)\n\n* **How can the owner/curator/manager of the dataset be contacted (e.g., email address)?**\nRefer to the main document.\n\n* **Is there an erratum? If so, please provide a link or other access point.**\nN/A\n\n* **Will the dataset be updated (e.g., to correct labeling errors, add new instances, delete instances)? If so, please describe how often, by whom, and how updates will be communicated to users (e.g., mailing list, GitHub)?**\nNo plan for updating.\n\n* **If the dataset relates to people, are there applicable limits on the retention of the data associated with the instances (e.g., were individuals in question told that their data would be retained for a fixed period of time and then deleted)? If so, please describe these limits and explain how they will be enforced.**\nN/A\n\n* **Will older versions of the dataset continue to be supported/hosted/maintained? If so, please describe how. If not, please describe how its obsolescence will be communicated to users.**\nN/A\n\n* **If others want to extend/augment/build on/contribute to the dataset, is there a mechanism for them to do so? If so, please provide a description. Will these contributions be validated/ verified? If so, please describe how. If not, why not? Is there a process for communicating/ distributing these contributions to other users? If so, please provide a description.**\nNo.\n\n* **Any other comments?**\nNo.\n\n## References\nYinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.\n\nYukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, and Sanja Fidler. 2019. Aligning books and movies: Towards story-like visual explanations by watching movies and reading books. arXiv:1506.06724.\n\nSebastian Nagel. 2016. Cc-news. http: //web.archive.org/save/http: //commoncrawl.org/2016/10/news-dataset-available.\n\nAaron Gokaslan and Vanya Cohen. 2019. Openwebtext corpus. http://web.archive.org/save/http://Skylion007.github.io/OpenWebTextCorpus\n\nTrieu H Trinh and Quoc V Le. 2018. A simple method for commonsense reasoning. arXiv preprint arXiv:1806.02847.\n\nGuillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, Armand Joulin, and Edouard Grave. 2020. CCNet: Extracting high quality monolingual datasets from web crawl data. In Proceedings of the 12th Language Resources and Evaluation Conference, pages 4003–4012, Marseille, France. European Language Resources Association.\n\n"
  },
  {
    "path": "examples/moe_lm/model_card.md",
    "content": "# Model card for the paper ``Efficient Large Scale Language Modeling with Mixtures of Experts\"\n## Version 1.0.0\n\n### Model developer\nFAIR (Fundamental Artificial Intelligence Research)\n\n### Model type\nAn autoregressive English language model trained on a union of six English language models. We explore dense and sparse (MoE based) architectures in the paper.\n* Dense models - Our dense models range from 125M parameters to 13B parameters.\n* Sparse (MoE) models - Our MoE based models range from 15B parameters to 1.1 Trillion parameters.\nThis model card focuses on the 1.1 Trillion parameter model, but the discussion\napplies to all of the models explored in this work.\n\n### Citation details\nArtetxe et al. (2021): Efficient Large Scale Language Modeling with Mixtures of Experts\n\n### Model Feedback Channel\nfairseq\n\n## Intended use\n### Primary intended use\nFor research purposes only, e.g. reproducing model evaluation results. Generation is only used in a limited capacity for explanation/justification or for prompting/probing/priming for class labels.\n\n### Out of scope uses\nThe primary purpose of the model is not to generate language, although the model is capable of doing that.\n\n## Factors influencing model performance\nThis section discusses potential risks associated with using the model.\n\n### Relevant factors\nBased on known problems with NLP technology, potential relevant factors include bias (gender, profession, race and religion).\n\n### Evaluation factors\nThe 1.1T model was evaluated on StereoSet and CrowS-Pairs datasets to quantify encoded bias in the model.\n\n## Metrics\n### Model performance measures\nThe 1.1T parameter model was primarily evaluated on\n1. In-domain and out-of-domain language modeling perplexity.\n2. Zero-shot and few-shot priming.\n3. Fully supervised finetuning.\n\n### Approaches to handle uncertainty\nFor few-shot learning, we report the average results across 25 runs, randomly sampling a different set of few-shot examples from the training set each time.\n \n## Evaluation data\n## Zero Shot evaluation\n\n### HellaSwag\n#### Description\nHellaSwag is a dataset for evaluating commonsense reasoning.\n\n### PIQA\n#### Description\nPIQA is a dataset designed to evaluate reasoning about Physical Commonsense in Natural Language\n\n### ReCoRd\n#### Description\nReading Comprehension with Commonsense Reasoning Dataset (ReCoRD) is a large-scale reading comprehension dataset which requires commonsense reasoning. ReCoRD consists of queries automatically generated from CNN/Daily Mail news articles; the answer to each query is a text span from a summarizing passage of the corresponding news. The goal of ReCoRD is to evaluate a machine's ability of commonsense reasoning in reading comprehension.\n\n## Few Shot evaluation\n### Winogrande\n#### Description\nWinogrande is a benchmark for commonsense reasoning. The dataset contains pronoun resolution problems originally designed to be unsolvable for statistical models that rely on selectional preferences or word associations.\n\n### StoryCloze\n#### Description\nStoryCloze is a new commonsense reasoning framework for evaluating story understanding, story generation, and script learning. This test requires a system to choose the correct ending to a four-sentence story.\n\n### OpenBookQA\n#### Description\nOpenBookQA is a new kind of question-answering dataset modeled after open book exams for assessing human understanding of a subject. It consists of 5,957 multiple-choice elementary-level science questions (4,957 train, 500 dev, 500 test), which probe the understanding of a small “book” of 1,326 core science facts and the application of these facts to novel situations.\n\n## Fully supervised evaluation\n\n### BoolQ\n#### Description\nBoolQ is a question answering dataset for yes/no questions containing 15942 examples. These questions are naturally occurring – they are generated in unprompted and unconstrained settings. Each example is a triplet of (question, passage, answer), with the title of the page as optional additional context.\n\n### SST-2\n#### Description\nSST-2 (or SST-binary) is a binary classification dataset where the goal is to differentiate between negative or somewhat negative vs somewhat positive or positive.\n\n### MNLI\n#### Description\nThe Multi-Genre Natural Language Inference (MultiNLI) corpus is a crowd-sourced collection of 433k sentence pairs annotated with textual entailment information. The corpus is modeled on the SNLI corpus, but differs in that covers a range of genres of spoken and written text, and supports a distinctive cross-genre generalization evaluation.\n\n## Responsible AI (RAI) evaluation\n### StereoSet\n#### Description\nA large-scale natural dataset in English to measure stereotypical biases in four domains: gender, profession, race, and religion\n\n#### Motivation for dataset use\nThe motivation for evaluating the 1.1T parameter model on this dataset is to evaluate the model's stereotype bias in gender, profession, race, and religion\n\n### CrowS\n#### Description\nChallenge Dataset for Measuring Social Biases in Masked Language Models\n\n#### Motivation for dataset use\nThe motivation for evaluating the 1.1T parameter model on this dataset is to evaluate the model’s bias in the domains of race, religion and age\n\n----\n\n## Training data\n### BookCorpus\n#### Description\nA dataset consisting of more than 10K unpublished books. 4GB in size. (Zhu et al., 2019)\n\n### English Wikipedia\n#### Description\nData from English wikipedia, excluding lists, tables and headers. 12GB in size.\n\n### CC-News\n#### Description\nA dataset containing 63 millions English news articles crawled between September 2016 and February 2019. 76GB in size. (Nagel,2016)\n\n### OpenWebText\n#### Description\nAn open source recreation of the WebText dataset used to train GPT-2. 38GB in size. (Gokaslan and Cohen, 2019)\n\n### CC-Stories\n#### Description\nA dataset containing a subset of CommonCrawl data filtered to match the story-like style of Winograd schemas. 31GB in size. (Trinh and Le, 2018)\n\n### English CC100\n#### Description\nA dataset extracted from CommonCrawl snapshots between January 2018 and December 2018, filtered to match the style of Wikipedia following the methodology introduced in CCNet (https://arxiv.org/abs/1911.00359). 292GB in size. (Wenzek et al., 2020)\n\n## Responsible AI (RAI) Dimensions\n### Fairness (Bias and inclusion)\nThe 1.1T parameter model was evaluated on the StereoSet and CrowS pairs dataset for inherent bias in the model, and bias as a result of the data. Similar to StereoSet, we observe that both the dense and MoE models get worse in terms of the Stereotype Score (SS) with scale.\n\n### Privacy and security\nThe 1.1T model did not have any special Privacy and Security considerations. The training data and evaluation data were both public and went through standard Meta privacy and licensing procedures.\n\n### Transparency and control\nIn the spirit of transparency and accountability we have created this model card for the 1.1T parameter model and a data card for the training data (referenced in Artetxe et al. (2021)).\n\n### Efficiency (Green AI)\nThe 1.1T parameter model is trained as a Mixture of Experts (MoE) model. Mixture of expert (MoE) models are efficient because they leverage sparse computation, i.e., only a small fraction of parameters are active for any given input. For instance, our 1.1T parameter MoE model requires only 30% more FLOPS compared to a 6.7B parameter dense model, i.e., a 160x increase in parameters with only a 30% increase in FLOPS. Notably, MoE models achieve much better validation perplexity for a given compute budget compared to dense models.\n\n## References\nRowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. 2019. HellaSwag: Can a machine really finish your sentence? In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4791– 4800, Florence, Italy. Association for Computational Linguistics.\n\nYonatan Bisk, Rowan Zellers, Ronan Le bras, Jianfeng Gao, and Yejin Choi. 2020. Piqa: Reasoning about physical commonsense in natural language. Proceedings of the AAAI Conference on Artificial Intelligence, 34(05):7432–7439.\n\nSheng Zhang, Xiaodong Liu, Jingjing Liu, Jianfeng Gao, Kevin Duh, and Benjamin Van Durme. 2018. ReCoRD: Bridging the gap between human and machine commonsense reading comprehension. arXiv preprint 1810.12885.\n\nKeisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. 2020. Winogrande: An adversarial winograd schema challenge at scale. Proceedings of the AAAI Conference on Artificial Intelligence, 34(05):8732–8740.\n\nNasrin Mostafazadeh, Nathanael Chambers, Xiaodong He, Devi Parikh, Dhruv Batra, Lucy Vanderwende, Pushmeet Kohli, and James Allen. 2016. A corpus and cloze evaluation for deeper understanding of commonsense stories. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 839–849, San Diego, California. Association for Computational Linguistics.\n\nTodor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. 2018. Can a suit of armor conduct electricity? a new dataset for open book question answering. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2381–2391, Brussels, Belgium. Association for Computational Linguistics.\n\nChristopher Clark and Kenton Lee and Ming-Wei Chang and Tom Kwiatkowski and Michael Collins and Kristina Toutanova. 2019. BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions\n\nMoin Nadeem, Anna Bethke, and Siva Reddy. 2021. StereoSet: Measuring stereotypical bias in pretrained language models. In Association for Computational Linguistics (ACL).\n\nNikita Nangia, Clara Vania, Rasika Bhalerao, and Samuel R. Bowman. 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1953–1967, Online. Association for Computational Linguistics.\n\nYukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, and Sanja Fidler. 2019. Aligning books and movies: Towards story-like visual explanations by watching movies and reading books. arXiv:1506.06724.\n\nSebastian Nagel. 2016. Cc-news. http: //web.archive.org/save/http: //commoncrawl.org/2016/10/news-dataset-available.\n\nAaron Gokaslan and Vanya Cohen. 2019. Openwebtext corpus. http://web.archive.org/save/http://Skylion007.github.io/OpenWebTextCorpus\n\nTrieu H Trinh and Quoc V Le. 2018. A simple method for commonsense reasoning. arXiv preprint arXiv:1806.02847.\n\nGuillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, Armand Joulin, and Edouard Grave. 2020. CCNet: Extracting high quality monolingual datasets from web crawl data. In Proceedings of the 12th Language Resources and Evaluation Conference, pages 4003–4012, Marseille, France. European Language Resources Association.\n"
  },
  {
    "path": "examples/mr_hubert/README.md",
    "content": "# MR-HuBERT\n\n## Pre-trained models\n\n### Main models\nModel | Pretraining Data | Model | Paper Reference\n|---|---|---|---\nMR-HuBERT Base (~97M) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/mono_base/mrhubert_mono_base.pt) |  mono\\_base\nMR-HuBERT Base (~321M) | [Libri-Light](https://github.com/facebookresearch/libri-light) 60k hr | [download](https://dl.fbaipublicfiles.com/mrhubert/mono_large/mrhubert_mono_large.pt) |  mono\\_large\nMultilingual MR-HuBERT Base (~97M) | [Voxpopuli](https://github.com/facebookresearch/voxpopuli) 100k hr | [download](https://dl.fbaipublicfiles.com/mrhubert/multi_base/multi_base.pt) | multi\\_base \nMultilingual MR-HuBERT Large (~321M) | [Voxpopuli](https://github.com/facebookresearch/voxpopuli) 100k hr | [download 400k steps](https://dl.fbaipublicfiles.com/mrhubert/multi_large/multi_large_400k.pt)  or [download 600k steps](https://dl.fbaipublicfiles.com/mrhubert/multi_large/multi_large_600k.pt) | Not in the paper\n\n\n### Abalation models\nModel | Pretraining Data | Model | Paper Reference \n|---|---|---|---\nMR-HuBERT Base (2-4-6 lyrs) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b1-a/b1-a.pt) | (B.1)-a\nMR-HuBERT Base (5-2-5 lyrs) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b1-b/b1-b.pt) | (B.1)-b\nMR-HuBERT Base (6-4-2 lyrs) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b1-c/b1-c.pt) | (B.1)-c\nMR-HuBERT Base (3res 3-2-2-2-3 lyrs) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b2-a/b2-a.pt) | (B.2)-a\nMR-HuBERT Base (3res 2-2-4-2-2 lyrs) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b2-b/b2-b.pt) | (B.2)-b\nMR-HuBERT Base (3res 2-2-2-2-2 lyrs) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b2-c/b2-c.pt) | (B.2)-c\nMR-HuBERT Base (Simple sampling) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b3-a/b3-a.pt) | (B.3)-a\nMR-HuBERT Base (Single target) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b4-a/b4-a.pt) | (B.4)-a\nMR-HuBERT Base (Simple Sampling + single target) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b4-b/b4-b.pt) | (B.4)-b\nMR-HuBERT Base (Mono-resolution 20ms) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b5-a/b5-a.pt) | (B.5)-a\nMR-HuBERT Base (3-3-3 lyrs) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b6-a/b6-a.pt) | (B.6)-a\nMR-HuBERT Base (Mono-resolution 20ms, 3-3-3 lyrs) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b6-b/b6-b.pt) | (B.6)-b\nMR-HuBERT Base (HuBERT 20ms&40ms units) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b7-a/b7-a.pt) | (B.7)-a\nMR-HuBERT Base (Encodec 50Hz unit) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b7-b/b7-b.pt) | (B.7)-b\nMR-HuBERT Base (Encodec 50Hz units and 25Hz units) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b7-c/b7-c.pt) | (B.7)-c\nMR-HuBERT Base (Encodec 50Hz units stream 0&1 ) | [Librispeech](http://www.openslr.org/12) 960 hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b7-d/b7-d.pt) | (B.7)-d\nMR-HuBERT Large (no audio norm) | [LibriLight](https://github.com/facebookresearch/libri-light) 60k hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b8-a/b8-a.pt) | (B.8)-a\nMR-HuBERT Large (check paper )  | [LibriLight](https://github.com/facebookresearch/libri-light) 60k hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b8-b/b8-b.pt) | (B.8)-b\nMR-HuBERT Large (check paper )  | [LibriLight](https://github.com/facebookresearch/libri-light) 60k hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b8-c/b8-c.pt) | (B.8)-c\nMR-HuBERT Large (check paper )  | [LibriLight](https://github.com/facebookresearch/libri-light) 60k hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b8-d/b8-d.pt) | (B.8)-d\nMR-HuBERT Large (check paper )  | [LibriLight](https://github.com/facebookresearch/libri-light) 60k hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b8-e/b8-e.pt) | (B.8)-e\nMR-HuBERT Large (check paper )  | [LibriLight](https://github.com/facebookresearch/libri-light) 60k hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b8-f/b8-f.pt) | (B.8)-f\nMR-HuBERT Large (check paper )  | [LibriLight](https://github.com/facebookresearch/libri-light) 60k hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b8-g/b8-g.pt) | (B.8)-g\nMR-HuBERT Large (check paper )  | [LibriLight](https://github.com/facebookresearch/libri-light) 60k hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b8-h/b8-h.pt) | (B.8)-h\nMR-HuBERT Large (check paper )  | [LibriLight](https://github.com/facebookresearch/libri-light) 60k hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b8-i/b8-i.pt) | (B.8)-i\nMR-HuBERT Large (check paper )  | [LibriLight](https://github.com/facebookresearch/libri-light) 60k hr | [download](https://dl.fbaipublicfiles.com/mrhubert/b8-j/b8-j.pt) | (B.8)-j \nMultilingual MR-HuBERT Large (Simple sampling) | [Voxpopuli](https://github.com/facebookresearch/voxpopuli) 100k hr | [download](https://dl.fbaipublicfiles.com/mrhubert/multi_large_simple/multi_large_simple.pt) | Not in paper\nMR-HuBERT xLarge (from HuBERT-base label) | [LibriLight](https://github.com/facebookresearch/libri-light) 60k hr | [download](https://dl.fbaipublicfiles.com/mrhubert/mono_xlarge/v1.pt) | Not in paper\nMR-HuBERT xLarge (from HuBERT-large label) | [LibriLight](https://github.com/facebookresearch/libri-light) 60k hr | [download](https://dl.fbaipublicfiles.com/mrhubert/mono_xlarge/v2.pt) | Not in paper\n\n## Load a model\n```\nckpt_path = \"/path/to/the/checkpoint.pt\"\nmodels, cfg, task = fairseq.checkpoint_utils.load_model_ensemble_and_task([ckpt_path])\nmodel = models[0]\n```\n\n## Train a new model\n\n### Data preparation\n\nFollow the steps in `./simple_kmeans` to create:\n- `{train,valid}.tsv` waveform list files with length information\n```\n/path/to/your/audio/files\nfile1.wav\\t160000\nfile2.wav\\t154600\n...\nfilen.wav\\t54362\n```\n- `{train,valid}.km` frame-aligned pseudo label files (the order is the same as wavefiles in the tsv file).\n```\n44 44 44 48 48 962 962 962 962 962 962 962 962 967 967 967 967 967 967 967 967 370 852 370 ... 18 18 745 745\n44 44 44 48 48 962 962 962 147 147 147 147 147 147 147 147 147 147 147 147 176 176 271 271 ... 27 27 745 745\n...\n44 44 44 48 962 962 962 962 962 962 377 377 377 77 77 852 696 694 433 578 578 82 740 622 ... 27 27 745 745\n```\n- `dict.km.txt` a dummy dictionary (first column is id, the second is dummy one)\n```\n0 1\n1 1\n2 1\n...\n999 1\n```\n\nThe `label_rate` is the same as the feature frame rate used for clustering,\nwhich is 100Hz for MFCC features and 50Hz for HuBERT features by default.\n\n### Pre-train a MR-HuBERT model\n\nSuppose `{train,valid}.tsv` are saved at `/path/to/data`, `{train,valid}.km`\nare saved at `/path/to/labels`, and the label rate is 100Hz.\n\nTo train a base model (12 layer transformer), run:\n```sh\n$ python fairseq_cli/hydra_train.py \\\n  --config-dir /path/to/fairseq-py/examples/mr_hubert/config/pretrain \\\n  --config-name mrhubert_base_librispeech \\\n  task.data=/path/to/data task.label_dir=/path/to/labels \\\n  task.labels='[\"km\"]' model.label_rate=100 \\\n  task.label_rate_ratios='[1, 2]' \\\n```\n\nPlease see sample pre-training scripts `train.sh` for an example script.\n\n### Fine-tune a MR-HuBERT model with a CTC loss\n\nSuppose `{train,valid}.tsv` are saved at `/path/to/data`, and their\ncorresponding character transcripts `{train,valid}.ltr` are saved at\n`/path/to/trans`. A typical ltr file is with the same order of tsv waveform files as \n```\nHOW | ARE | YOU\n...\nTHANK | YOU\n```\n\nTo fine-tune a pre-trained MR-HuBERT model at `/path/to/checkpoint`, run\n```sh\n$ python fairseq_cli/hydra_train.py \\\n  --config-dir /path/to/fairseq-py/examples/mr_hubert/config/finetune \\\n  --config-name base_10h \\\n  task.data=/path/to/data task.label_dir=/path/to/trans \\\n  model.w2v_path=/path/to/checkpoint\n```\n\nPlease see sample fine-tuning scripts `finetune.sh` for an example script.\n\n### Decode a MR-HuBERT model\n\nSuppose the `test.tsv` and `test.ltr` are the waveform list and transcripts of\nthe split to be decoded, saved at `/path/to/data`, and the fine-tuned model is\nsaved at `/path/to/checkpoint`. \n\n\nWe support three decoding modes:\n- Viterbi decoding: greedy decoding without a language model\n- KenLM decoding: decoding with an arpa-format KenLM n-gram language model\n- Fairseq-LM deocding: decoding with a Fairseq neural language model (not fully tested)\n\n\n#### Viterbi decoding\n\n`task.normalize` needs to be consistent with the value used during fine-tuning.\nDecoding results will be saved at\n`/path/to/experiment/directory/decode/viterbi/test`.\n\n```sh\n$ python examples/speech_recognition/new/infer.py \\\n  --config-dir /path/to/fairseq-py/examples/mr_hubert/config/decode \\\n  --config-name infer \\\n  task.data=/path/to/data \\\n  task.normalize=[true|false] \\\n  decoding.exp_dir=/path/to/experiment/directory \\\n  common_eval.path=/path/to/checkpoint\n  dataset.gen_subset=test \\\n```\n\n#### KenLM / Fairseq-LM decoding\n\nSuppose the pronunciation lexicon and the n-gram LM are saved at\n`/path/to/lexicon` and `/path/to/arpa`, respectively. Decoding results will be\nsaved at `/path/to/experiment/directory/decode/kenlm/test`.\n\n```sh\n$ python examples/speech_recognition/new/infer.py \\\n  --config-dir /path/to/fairseq-py/examples/mr_hubert/config/decode \\\n  --config-name infer_lm \\\n  task.data=/path/to/data \\\n  task.normalize=[true|false] \\\n  decoding.exp_dir=/path/to/experiment/directory \\\n  common_eval.path=/path/to/checkpoint\n  dataset.gen_subset=test \\\n  decoding.decoder.lexicon=/path/to/lexicon \\\n  decoding.decoder.lmpath=/path/to/arpa\n```\n\nThe command above uses the default decoding hyperparameter, which can be found\nin `examples/speech_recognition/hydra/decoder.py`. These parameters can be\nconfigured from the command line. For example, to search with a beam size of\n500, we can append the command above with `decoding.decoder.beam=500`.\nImportant parameters include:\n- decoding.decoder.beam\n- decoding.decoder.beamthreshold\n- decoding.decoder.lmweight\n- decoding.decoder.wordscore\n- decoding.decoder.silweight\n\nTo decode with a Fairseq LM, you may check the usage examples in wav2vec2 or hubert examples.\n\nPlease see sample decoding scripts `decode.sh`  for an example script.\n"
  },
  {
    "path": "examples/mr_hubert/config/decode/infer.yaml",
    "content": "# @package _group_\n\ndefaults:\n  - model: null\n\nhydra:\n  run:\n    dir: ${common_eval.results_path}/viterbi\n  sweep:\n    dir: ${common_eval.results_path}\n    subdir: viterbi\n\ntask:\n  _name: multires_hubert_pretraining\n  single_target: true\n  fine_tuning: true\n  label_rate_ratios: ???\n  data: ???\n  normalize: false\n\ndecoding:\n  type: viterbi\n  unique_wer_file: true\ncommon_eval:\n  results_path: ???\n  path: ???\n  post_process: letter\ndataset:\n  max_tokens: 1100000\n  gen_subset: ???\n"
  },
  {
    "path": "examples/mr_hubert/config/decode/infer_lm.yaml",
    "content": "# @package _group_\n\ndefaults:\n  - model: null\n\nhydra:\n  run:\n    dir: ${common_eval.results_path}/beam${decoding.beam}_th${decoding.beamthreshold}_lmw${decoding.lmweight}_wrd${decoding.wordscore}_sil${decoding.silweight}\n  sweep:\n    dir: ${common_eval.results_path}\n    subdir: beam${decoding.beam}_th${decoding.beamthreshold}_lmw${decoding.lmweight}_wrd${decoding.wordscore}_sil${decoding.silweight}\n\ntask:\n  _name: multires_hubert_pretraining\n  single_target: true\n  fine_tuning: true\n  data: ???\n  label_rate_ratios: ???\n  normalize: ???\n\ndecoding:\n  type: kenlm\n  lexicon: ???\n  lmpath: ???\n  beamthreshold: 100\n  beam: 500\n  lmweight: 1.5\n  wordscore: -1\n  silweight: 0\n  unique_wer_file: true\ncommon_eval:\n  results_path: ???\n  path: ???\n  post_process: letter\ndataset:\n  max_tokens: 1100000\n  gen_subset: ???\n"
  },
  {
    "path": "examples/mr_hubert/config/decode/run/submitit_slurm.yaml",
    "content": "# @package _global_\nhydra:\n  launcher:\n    cpus_per_task: ${distributed_training.distributed_world_size}\n    gpus_per_node: ${distributed_training.distributed_world_size}\n    tasks_per_node: ${hydra.launcher.gpus_per_node}\n    nodes: 1\n    mem_gb: 200\n    timeout_min: 4320\n    max_num_timeout: 50\n    name: ${hydra.job.config_name}\n    submitit_folder: ${hydra.sweep.dir}/submitit\n\ndistributed_training:\n  distributed_world_size: 1\n  distributed_no_spawn: true\n  distributed_port: 29761\n"
  },
  {
    "path": "examples/mr_hubert/config/decode/run/submitit_slurm_8gpu.yaml",
    "content": "# @package _global_\nhydra:\n  launcher:\n    cpus_per_task: ${distributed_training.distributed_world_size}\n    gpus_per_node: ${distributed_training.distributed_world_size}\n    tasks_per_node: ${hydra.launcher.gpus_per_node}\n    nodes: 1\n    mem_gb: 200\n    timeout_min: 4320\n    max_num_timeout: 50\n    name: ${hydra.job.config_name}\n    submitit_folder: ${hydra.sweep.dir}/submitit\n\ndistributed_training:\n  distributed_world_size: 8\n  distributed_no_spawn: true\n  distributed_port: 29761\n"
  },
  {
    "path": "examples/mr_hubert/config/finetune/base_100h.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tblog\n  seed: 1337\n\ncheckpoint:\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ndistributed_training:\n  ddp_backend: c10d\n  find_unused_parameters: true\n  distributed_world_size: 8\n  distributed_port: 29671\n  nprocs_per_node: 8\n\ntask:\n  _name: multires_hubert_pretraining\n  data: ???\n  fine_tuning: true\n  label_dir: ???\n  label_rate_ratios: ???\n  normalize: false  # must be consistent with pre-training\n  labels: [\"ltr\"]\n  single_target: true\n\ndataset:\n  num_workers: 0\n  max_tokens: 3200000\n  validate_after_updates: ${model.freeze_finetune_updates}\n  validate_interval: 5\n  train_subset: train_100h\n  valid_subset: dev_other\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 80000\n  lr: [3e-5]\n  sentence_avg: true\n  update_freq: [1]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: multires_hubert_ctc\n  multires_hubert_path: ???\n  apply_mask: true\n  mask_selection: static\n  mask_length: 10\n  mask_other: 0\n  mask_prob: 0.75\n  mask_channel_selection: static\n  mask_channel_length: 64\n  mask_channel_other: 0\n  mask_channel_prob: 0.5\n  layerdrop: 0.1\n  dropout: 0.0\n  activation_dropout: 0.1\n  attention_dropout: 0.0\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '-'\n        item_sep: '__'\n        exclude_keys:\n          - run\n          - task.data\n          - task.label_dir\n          - model.multires_hubert_path\n          - dataset.train_subset\n          - dataset.valid_subset\n          - criterion.wer_kenlm_model\n          - criterion.wer_lexicon\n  run:\n    dir: ???\n  sweep:\n    dir: ???\n    subdir: ${hydra.job.config_name}__${hydra.job.override_dirname}\n"
  },
  {
    "path": "examples/mr_hubert/config/finetune/base_100h_large.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tblog\n  seed: 1337\n\ncheckpoint:\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ndistributed_training:\n  ddp_backend: c10d\n  find_unused_parameters: true\n  distributed_world_size: 8\n  distributed_port: 29671\n  nprocs_per_node: 8\n\ntask:\n  _name: multires_hubert_pretraining\n  data: ???\n  fine_tuning: true\n  label_dir: ???\n  label_rate_ratios: ???\n  normalize: true  # must be consistent with pre-training\n  labels: [\"ltr\"]\n  single_target: true\n\ndataset:\n  num_workers: 0\n  max_tokens: 1600000\n  validate_after_updates: ${model.freeze_finetune_updates}\n  validate_interval: 5\n  train_subset: train_100h\n  valid_subset: dev_other\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 80000\n  lr: [3e-5]\n  sentence_avg: true\n  update_freq: [2]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: multires_hubert_ctc\n  multires_hubert_path: ???\n  apply_mask: true\n  mask_selection: static\n  mask_length: 10\n  mask_other: 0\n  mask_prob: 0.75\n  mask_channel_selection: static\n  mask_channel_length: 64\n  mask_channel_other: 0\n  mask_channel_prob: 0.5\n  layerdrop: 0.1\n  dropout: 0.0\n  activation_dropout: 0.1\n  attention_dropout: 0.0\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '-'\n        item_sep: '__'\n        exclude_keys:\n          - run\n          - task.data\n          - task.label_dir\n          - model.multires_hubert_path\n          - dataset.train_subset\n          - dataset.valid_subset\n          - criterion.wer_kenlm_model\n          - criterion.wer_lexicon\n  run:\n    dir: ???\n  sweep:\n    dir: ???\n    subdir: ${hydra.job.config_name}__${hydra.job.override_dirname}\n"
  },
  {
    "path": "examples/mr_hubert/config/finetune/base_10h.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tblog\n  seed: 1337\n\ncheckpoint:\n  save_interval: 5\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ndistributed_training:\n  ddp_backend: c10d\n  find_unused_parameters: true\n  distributed_world_size: 8\n  distributed_port: 29671\n  nprocs_per_node: 8\n\ntask:\n  _name: multires_hubert_pretraining\n  data: ???\n  fine_tuning: true\n  label_dir: ???\n  label_rate_ratios: ???\n  normalize: false  # must be consistent with pre-training\n  labels: [\"ltr\"]\n  single_target: true\n\ndataset:\n  num_workers: 0\n  max_tokens: 3200000\n  validate_after_updates: ${model.freeze_finetune_updates}\n  validate_interval: 5\n  train_subset: train_10h\n  valid_subset: dev\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 25000\n  lr: [2e-5]\n  sentence_avg: true\n  update_freq: [1]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  warmup_steps: 8000\n  hold_steps: 0\n  decay_steps: 72000\n  final_lr_scale: 0.05\n\nmodel:\n  _name: multires_hubert_ctc\n  multires_hubert_path: ???\n  apply_mask: true\n  mask_selection: static\n  mask_length: 10\n  mask_other: 0\n  mask_prob: 0.75\n  mask_channel_selection: static\n  mask_channel_length: 64\n  mask_channel_other: 0\n  mask_channel_prob: 0.5\n  layerdrop: 0.1\n  dropout: 0.0\n  activation_dropout: 0.1\n  attention_dropout: 0.0\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '-'\n        item_sep: '__'\n        exclude_keys:\n          - run\n          - task.data\n          - task.label_dir\n          - model.multires_hubert_path\n          - dataset.train_subset\n          - dataset.valid_subset\n          - criterion.wer_kenlm_model\n          - criterion.wer_lexicon\n  run:\n    dir: ???\n  sweep:\n    dir: ???\n    subdir: ${hydra.job.config_name}__${hydra.job.override_dirname}\n"
  },
  {
    "path": "examples/mr_hubert/config/finetune/base_10h_large.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tblog\n  seed: 1337\n\ncheckpoint:\n  save_interval: 5\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ndistributed_training:\n  ddp_backend: c10d\n  find_unused_parameters: true\n  distributed_world_size: 8\n  distributed_port: 29671\n  nprocs_per_node: 8\n\ntask:\n  _name: multires_hubert_pretraining\n  data: ???\n  fine_tuning: true\n  label_dir: ???\n  label_rate_ratios: ???\n  normalize: true  # must be consistent with pre-training\n  labels: [\"ltr\"]\n  single_target: true\n\ndataset:\n  num_workers: 0\n  max_tokens: 3200000\n  validate_after_updates: ${model.freeze_finetune_updates}\n  validate_interval: 5\n  train_subset: train_10h\n  valid_subset: dev\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 25000\n  lr: [2e-5]\n  sentence_avg: true\n  update_freq: [1]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  warmup_steps: 8000\n  hold_steps: 0\n  decay_steps: 72000\n  final_lr_scale: 0.05\n\nmodel:\n  _name: multires_hubert_ctc\n  multires_hubert_path: ???\n  apply_mask: true\n  mask_selection: static\n  mask_length: 10\n  mask_other: 0\n  mask_prob: 0.75\n  mask_channel_selection: static\n  mask_channel_length: 64\n  mask_channel_other: 0\n  mask_channel_prob: 0.5\n  layerdrop: 0.1\n  dropout: 0.0\n  activation_dropout: 0.1\n  attention_dropout: 0.0\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '-'\n        item_sep: '__'\n        exclude_keys:\n          - run\n          - task.data\n          - task.label_dir\n          - model.multires_hubert_path\n          - dataset.train_subset\n          - dataset.valid_subset\n          - criterion.wer_kenlm_model\n          - criterion.wer_lexicon\n  run:\n    dir: ???\n  sweep:\n    dir: ???\n    subdir: ${hydra.job.config_name}__${hydra.job.override_dirname}\n"
  },
  {
    "path": "examples/mr_hubert/config/finetune/base_1h.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tblog\n  seed: 1337\n\ncheckpoint:\n  save_interval: 50\n  keep_interval_updates: 1\n  save_interval_updates: 1000\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ndistributed_training:\n  ddp_backend: c10d\n  find_unused_parameters: true\n  distributed_world_size: 8\n  distributed_port: 29671\n  nprocs_per_node: 8\n\ntask:\n  _name: multires_hubert_pretraining\n  data: ???\n  fine_tuning: true\n  label_dir: ???\n  label_rate_ratios: ???\n  normalize: false  # must be consistent with pre-training\n  labels: [\"ltr\"]\n  single_target: true\n\ndataset:\n  num_workers: 0\n  max_tokens: 3200000\n  validate_after_updates: ${model.freeze_finetune_updates}\n  validate_interval: 1000\n  train_subset: train_1h\n  valid_subset: dev_other\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 13000\n  lr: [5e-5]\n  sentence_avg: true\n  update_freq: [4]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: multires_hubert_ctc\n  multires_hubert_path: ???\n  apply_mask: true\n  mask_selection: static\n  mask_length: 10\n  mask_other: 0\n  mask_prob: 0.75\n  mask_channel_selection: static\n  mask_channel_length: 64\n  mask_channel_other: 0\n  mask_channel_prob: 0.5\n  layerdrop: 0.1\n  dropout: 0.0\n  activation_dropout: 0.1\n  attention_dropout: 0.0\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '-'\n        item_sep: '__'\n        exclude_keys:\n          - run\n          - task.data\n          - task.label_dir\n          - model.multires_hubert_path\n          - dataset.train_subset\n          - dataset.valid_subset\n          - criterion.wer_kenlm_model\n          - criterion.wer_lexicon\n  run:\n    dir: ???\n  sweep:\n    dir: ???\n    subdir: ${hydra.job.config_name}__${hydra.job.override_dirname}\n"
  },
  {
    "path": "examples/mr_hubert/config/finetune/base_1h_large.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tblog\n  seed: 1337\n\ncheckpoint:\n  save_interval: 1000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ndistributed_training:\n  ddp_backend: c10d\n  find_unused_parameters: true\n  distributed_world_size: 8\n  distributed_port: 29671\n  nprocs_per_node: 8\n\ntask:\n  _name: multires_hubert_pretraining\n  data: ???\n  fine_tuning: true\n  label_dir: ???\n  label_rate_ratios: ???\n  normalize: true  # must be consistent with pre-training\n  labels: [\"ltr\"]\n  single_target: true\n\ndataset:\n  num_workers: 0\n  max_tokens: 1280000\n  validate_after_updates: ${model.freeze_finetune_updates}\n  validate_interval: 5\n  train_subset: train_10h\n  valid_subset: dev\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 25000\n  lr: [3e-4]\n  sentence_avg: true\n  update_freq: [5]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: multires_hubert_ctc\n  multires_hubert_path: ???\n  apply_mask: true\n  mask_selection: static\n  mask_length: 10\n  mask_other: 0\n  mask_prob: 0.75\n  mask_channel_selection: static\n  mask_channel_length: 64\n  mask_channel_other: 0\n  mask_channel_prob: 0.5\n  layerdrop: 0.1\n  dropout: 0.0\n  activation_dropout: 0.1\n  attention_dropout: 0.0\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '-'\n        item_sep: '__'\n        exclude_keys:\n          - run\n          - task.data\n          - task.label_dir\n          - model.multires_hubert_path\n          - dataset.train_subset\n          - dataset.valid_subset\n          - criterion.wer_kenlm_model\n          - criterion.wer_lexicon\n  run:\n    dir: ???\n  sweep:\n    dir: ???\n    subdir: ${hydra.job.config_name}__${hydra.job.override_dirname}\n"
  },
  {
    "path": "examples/mr_hubert/config/pretrain/mrhubert_base_librispeech.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  seed: 1337\n  tensorboard_logdir: tblog\n  min_loss_scale: 1e-8\n\ncheckpoint:\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  ddp_backend: no_c10d\n  distributed_backend: 'nccl'\n  distributed_world_size: 32\n  distributed_port: 29671\n  nprocs_per_node: 8\n  find_unused_parameters: true\n\ntask:\n  _name: multires_hubert_pretraining\n  data: ???\n  label_dir: ???\n  labels: ???\n  label_rate: ${model.label_rate}\n  label_rate_ratios: ???\n  sample_rate: 16000\n  max_sample_size: 250000\n  min_sample_size: 32000\n  pad_audio: false\n  random_crop: true\n  normalize: false # must be consistent with extractor\n  # max_keep_size: 300000\n  # max_keep_size: 50000\n\n\ndataset:\n  num_workers: 0\n  max_tokens: 1000000\n  skip_invalid_size_inputs_valid_test: true\n  validate_interval: 5\n  validate_interval_updates: 10000\n\ncriterion:\n  _name: hubert\n  pred_masked_weight: 1.0\n  pred_nomask_weight: 0.0\n  loss_weights: [10,]\n\noptimization:\n  max_update: 400000\n  lr: [0.0005]\n  clip_norm: 10.0\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 32000\n\nmodel:\n  _name: multires_hubert\n  label_rate: ???\n  label_rate_ratios: ${task.label_rate_ratios}\n  skip_masked: false\n  skip_nomask: false\n  mask_prob: 0.80\n  extractor_mode: default\n  conv_feature_layers: '[(512,10,5)] + [(512,3,2)] * 4 + [(512,2,2)] * 2'\n  final_dim: 256\n  encoder_layers: 4\n  encoder_layerdrop: 0.05\n  dropout_input: 0.1\n  dropout_features: 0.1\n  dropout: 0.1\n  attention_dropout: 0.1\n  feature_grad_mult: 0.1\n  untie_final_proj: true\n  activation_dropout: 0.0\n  conv_adapator_kernal: 1\n  use_single_target: true\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '-'\n        item_sep: '/'\n        exclude_keys:\n          - run\n          - task.data\n          - task.label_dir\n          - common.min_loss_scale\n          - common.log_interval\n          - optimization.clip_norm\n"
  },
  {
    "path": "examples/mr_hubert/config/pretrain/mrhubert_large_librilight.yaml",
    "content": "# @package _group_\n\ncommon:\n  memory_efficient_fp16: true\n  log_format: json\n  log_interval: 200\n  seed: 1337\n  tensorboard_logdir: tblog\n\ncheckpoint:\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\n\ndistributed_training:\n  ddp_backend: no_c10d\n  distributed_backend: 'nccl'\n  distributed_world_size: 128\n  distributed_port: 29671\n  nprocs_per_node: 8\n  find_unused_parameters: true\n\ntask:\n  _name: multires_hubert_pretraining\n  data: ???\n  label_dir: ???\n  labels: ???\n  label_rate: ${model.label_rate}\n  label_rate_ratios: ???\n  sample_rate: 16000\n  max_sample_size: 250000\n  min_sample_size: 32000\n  pad_audio: false\n  random_crop: true\n  normalize: true # must be consistent with extractor\n  # max_keep_size: 50000\n\ndataset:\n  num_workers: 0\n  max_tokens: 300000\n  skip_invalid_size_inputs_valid_test: true\n  validate_interval: 5\n  validate_interval_updates: 10000\n\ncriterion:\n  _name: hubert\n  pred_masked_weight: 1.0\n  pred_nomask_weight: 0.0\n  loss_weights: [10,]\n\noptimization:\n  max_update: 400000\n  lr: [0.0015]\n  clip_norm: 1.0\n  update_freq: [3]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 32000\n\nmodel:\n  _name: multires_hubert\n  label_rate: ???\n  label_rate_ratios: ${task.label_rate_ratios}\n  encoder_layers: 8\n  encoder_embed_dim: 1024\n  encoder_ffn_embed_dim: 4096\n  encoder_attention_heads: 16\n  final_dim: 768\n  skip_masked: false\n  skip_nomask: false\n  mask_prob: 0.80\n  extractor_mode: layer_norm\n  conv_feature_layers: '[(512,10,5)] + [(512,3,2)] * 4 + [(512,2,2)] * 2'\n  encoder_layerdrop: 0.0\n  dropout_input: 0.0\n  dropout_features: 0.0\n  dropout: 0.0\n  attention_dropout: 0.0\n  layer_norm_first: true\n  feature_grad_mult: 1.0\n  untie_final_proj: true\n  activation_dropout: 0.0\n  conv_adapator_kernal: 1\n  use_single_target: true\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '-'\n        item_sep: '__'\n        exclude_keys:\n          - run\n          - task.data\n  run:\n    dir: /checkpoint/wnhsu/w2v/hubert_final/hydra_pt\n  sweep:\n    dir: /checkpoint/wnhsu/w2v/hubert_final/hydra_pt\n    subdir: ${hydra.job.config_name}__${hydra.job.override_dirname}\n"
  },
  {
    "path": "examples/mr_hubert/config/pretrain/run/submitit_reg.yaml",
    "content": "# @package _global_\n\nhydra:\n  launcher:\n    cpus_per_task: 8\n    gpus_per_node: 8\n    tasks_per_node: ${hydra.launcher.gpus_per_node}\n    nodes: 4\n    comment: null\n    mem_gb: 384\n    timeout_min: 4320\n    max_num_timeout: 100\n    constraint: volta32gb\n    name: ${hydra.job.config_name}/${hydra.job.override_dirname}\n    submitit_folder: ${hydra.sweep.dir}/submitit/%j\n\ndistributed_training:\n  distributed_world_size: 32\n  distributed_port: 29671\n  nprocs_per_node: 8\n"
  },
  {
    "path": "examples/mr_hubert/decode.sh",
    "content": "#!/bin/bash\n\nFAIRSEQ=  # Setup your fairseq directory\n\nconfig_dir=${FAIRSEQ}/examples/mr_hubert/config\nconfig_name=mr_hubert_base_librispeech\n\n\n# Prepared Data Directory\n\ndata_dir=librispeech\n# -- data_dir\n#    -- test.tsv\n#    -- test.ltr\n#    -- dict.ltr.txt\n\n\nexp_dir=exp     # Target experiments directory (where you have your pre-trained model with checkpoint_best.pt)\nratios=\"[1, 2]\" # Default label rate ratios\n\n_opts=\n\n# If use slurm, uncomment this line and modify the job submission at\n# _opts=\"${_opts} hydra/launcher=submitit_slurm +hydra.launcher.partition=${your_slurm_partition} +run=submitit_reg\"\n\n# If want to set additional experiment tag, uncomment this line\n# _opts=\"${_opts} hydra.sweep.subdir=${your_experiment_tag}\"\n\n# If use un-normalized audio, uncomment this line\n# _opts=\"${_opts} task.normalize=false\"\n\n\n\nPYTHONPATH=${FAIRSEQ}\npython examples/speech_recognition/new/infer.py \\\n  --config-dir ${config_dir} \\\n  --config-name infer_multires \\\n   ${_opts} \\\n  task.data=${data_dir}  \\\n  task.label_rate_ratios='${ratios}' \\\n  common_eval.results_path=${exp_dir} \\\n  common_eval.path=${exp_dir}/checkpoint_best.pt \\\n  dataset.max_tokens=2000000 \\\n  dataset.gen_subset=test \\\n  dataset.skip_invalid_size_inputs_valid_test=true\n\n"
  },
  {
    "path": "examples/mr_hubert/finetune.sh",
    "content": "#!/bin/bash\n\nFAIRSEQ=  # Setup your fairseq directory\n\nconfig_dir=${FAIRSEQ}/examples/mr_hubert/config\nconfig_name=mr_hubert_base_librispeech\n\n# override configs if need\nmax_tokens=3200000\nmax_sample_size=1000000\nmax_update=50000\n\n\n# Prepared Data Directory\n\ndata_dir=librispeech\n# -- data_dir\n#    -- train.tsv\n#    -- train.ltr\n#    -- valid.tsv\n#    -- valid.ltr\n#    -- dict.ltr.txt\n\n\nexp_dir=exp     # Target experiments directory\nratios=\"[1, 2]\" # Default label rate ratios\nhubert_path=/path/of/your/hubert.pt\n\n_opts=\n\n# If use slurm, uncomment this line and modify the job submission at\n# _opts=\"${_opts} hydra/launcher=submitit_slurm +hydra.launcher.partition=${your_slurm_partition} +run=submitit_reg\"\n\n# If want to set additional experiment tag, uncomment this line\n# _opts=\"${_opts} hydra.sweep.subdir=${your_experiment_tag}\"\n\n\npython ${FAIRSEQ}/fairseq_cli/hydra_train.py \\\n  -m --config-dir ${config_dir} --config-name ${config_name} ${_opts} \\\n  task.data=${data_dir} +task.max_sample_size=${max_sample_size} \\\n  task.label_dir=${data_dir} \\\n  task.label_rate_ratios='${ratios}' \\\n  dataset.max_tokens=${max_tokens} \\\n  optimization.max_update=${max_update} \\\n  model.multires_hubert_path=${hubert_path} \\\n  hydra.sweep.dir=${exp_dir} &\n"
  },
  {
    "path": "examples/mr_hubert/train.sh",
    "content": "#!/bin/bash\n\nFAIRSEQ=  # Setup your fairseq directory\n\nconfig_dir=${FAIRSEQ}/examples/mr_hubert/config\nconfig_name=mr_hubert_base_librispeech\n\n# Prepared Data Directory\ndata_dir=librispeech\n# -- data_dir\n#    -- train.tsv\n#    -- valid.tsv\n\nlabel_dir=labels\n# -- label_dir\n#    -- train.km\n#    -- valid.km\n#    -- dict.km.txt\n\n\nexp_dir=exp     # Target experiments directory\nratios=\"[1, 2]\" # Default label rate ratios\nlabel_rate=50   # Base label rate\n\n\n_opts=\n\n# If use slurm, uncomment this line and modify the job submission at\n# _opts=\"${_opts} hydra/launcher=submitit_slurm +hydra.launcher.partition=${your_slurm_partition} +run=submitit_reg\"\n\n# If want to set additional experiment tag, uncomment this line\n# _opts=\"${_opts} hydra.sweep.subdir=${your_experiment_tag}\"\n\n\npython ${FAIRSEQ}/fairseq_cli/hydra_train.py \\\n  -m --config-dir ${config_dir} --config-name ${config_name} ${_opts} \\\n  task.data=${data_dir} \\\n  task.label_dir=${label_dir} \\\n  task.labels='[\"km\"]' \\\n  model.label_rate=${label_rate} \\\n  task.label_rate_ratios='${ratios}' \\\n  hydra.sweep.dir=${exp_dir} &\n\n\n\n"
  },
  {
    "path": "examples/multilingual/ML50_langs.txt",
    "content": "ar_AR\ncs_CZ\nde_DE\nen_XX\nes_XX\net_EE\nfi_FI\nfr_XX\ngu_IN\nhi_IN\nit_IT\nja_XX\nkk_KZ\nko_KR\nlt_LT\nlv_LV\nmy_MM\nne_NP\nnl_XX\nro_RO\nru_RU\nsi_LK\ntr_TR\nvi_VN\nzh_CN\naf_ZA\naz_AZ\nbn_IN\nfa_IR\nhe_IL\nhr_HR\nid_ID\nka_GE\nkm_KH\nmk_MK\nml_IN\nmn_MN\nmr_IN\npl_PL\nps_AF\npt_XX\nsv_SE\nsw_KE\nta_IN\nte_IN\nth_TH\ntl_XX\nuk_UA\nur_PK\nxh_ZA\ngl_ES\nsl_SI"
  },
  {
    "path": "examples/multilingual/README.md",
    "content": "# Multilingual Translation\n\n[[Multilingual Translation with Extensible Multilingual Pretraining and Finetuning, https://arxiv.org/abs/2008.00401]](https://arxiv.org/abs/2008.00401)\n\n## Introduction\n\nThis work is for training multilingual translation models with multiple bitext datasets. This multilingual translation framework supports (see [[training section]](#Training) and [[finetuning section]](#Finetuning) for examples)\n\n* temperature based sampling over unbalancing datasets of different translation directions\n  - --sampling-method' with\n            choices=['uniform', 'temperature',  'concat']\n  - --sampling-temperature\n* configurable to automatically add source and/or target language tokens to source/target sentences using data which are prepared in the same way as bilignual training\n  - --encoder-langtok with choices=['src', 'tgt', None] to specify whether to add source or target language tokens to the source sentences\n  - --decoder-langtok (binary option) to specify whether to add target language tokens to the target sentences or not\n* finetuning mBART pretrained models for multilingual translation\n  - --finetune-from-model to specify the path from which to load the pretrained model\n\n## Preprocessing data\nMultilingual training requires a joint BPE vocab. Please follow [mBART's preprocessing steps](https://github.com/pytorch/fairseq/tree/main/examples/mbart#bpe-data) to reuse our pretrained sentence-piece model.\n\nYou can also train a joint BPE model on your own dataset and then follow the steps in [[link]](https://github.com/pytorch/fairseq/tree/main/examples/translation#multilingual-translation).\n\n## Training\n\n\n```bash\nlang_pairs=<language pairs to be trained, e.g. \"en-cs,cs-en\">\npath_2_data=<set to data path>\nlang_list=<a file which contains a list of languages separated by new lines>\n\nfairseq-train $path_2_data \\\n  --encoder-normalize-before --decoder-normalize-before \\\n  --arch transformer --layernorm-embedding \\\n  --task translation_multi_simple_epoch \\\n  --sampling-method \"temperature\" \\\n  --sampling-temperature 1.5 \\\n  --encoder-langtok \"src\" \\\n  --decoder-langtok \\\n  --lang-dict \"$lang_list\" \\\n  --lang-pairs \"$lang_pairs\" \\\n  --criterion label_smoothed_cross_entropy --label-smoothing 0.2 \\\n  --optimizer adam --adam-eps 1e-06 --adam-betas '(0.9, 0.98)' \\\n  --lr-scheduler inverse_sqrt --lr 3e-05 --warmup-updates 2500 --max-update 40000 \\\n  --dropout 0.3 --attention-dropout 0.1 --weight-decay 0.0 \\\n  --max-tokens 1024 --update-freq 2 \\\n  --save-interval 1 --save-interval-updates 5000 --keep-interval-updates 10 --no-epoch-checkpoints \\\n  --seed 222 --log-format simple --log-interval 2\n```\n\n## Finetuning\nWe can also finetune multilingual models from a monolingual pretrained models, e.g. [mMBART](https://github.com/pytorch/fairseq/tree/main/examples/mbart).\n```bash\nlang_pairs=<language pairs to be trained, e.g. \"en-cs,cs-en\">\npath_2_data=<set to data path>\nlang_list=<a file which contains a list of languages separated by new lines>\npretrained_model=<path to the pretrained model, e.g. mbart or another trained multilingual model>\n\nfairseq-train $path_2_data \\\n  --finetune-from-model $pretrained_model \\\n  --encoder-normalize-before --decoder-normalize-before \\\n  --arch transformer --layernorm-embedding \\\n  --task translation_multi_simple_epoch \\\n  --sampling-method \"temperature\" \\\n  --sampling-temperature 1.5 \\\n  --encoder-langtok \"src\" \\\n  --decoder-langtok \\\n  --lang-dict \"$lang_list\" \\\n  --lang-pairs \"$lang_pairs\" \\\n  --criterion label_smoothed_cross_entropy --label-smoothing 0.2 \\\n  --optimizer adam --adam-eps 1e-06 --adam-betas '(0.9, 0.98)' \\\n  --lr-scheduler inverse_sqrt --lr 3e-05 --warmup-updates 2500 --max-update 40000 \\\n  --dropout 0.3 --attention-dropout 0.1 --weight-decay 0.0 \\\n  --max-tokens 1024 --update-freq 2 \\\n  --save-interval 1 --save-interval-updates 5000 --keep-interval-updates 10 --no-epoch-checkpoints \\\n  --seed 222 --log-format simple --log-interval 2\n```\n## Generate\nThe following command uses the multilingual task (translation_multi_simple_epoch) to generate translation  from $source_lang to $target_lang on the test dataset. During generaton, the source language tokens are added to source sentences and the target language tokens are added as the starting token to decode target sentences. Options --lang-dict and --lang-pairs are needed to tell the generation process the ordered list of languages and translation directions that the trained model are awared of; they will need to be consistent with the training.\n\n```bash\nmodel=<multilingual model>\nsource_lang=<source language>\ntarget_lang=<target language>\n\nfairseq-generate $path_2_data \\\n  --path $model \\\n  --task translation_multi_simple_epoch \\\n  --gen-subset test \\\n  --source-lang $source_lang \\\n  --target-lang $target_lang\n  --sacrebleu --remove-bpe 'sentencepiece'\\\n  --batch-size 32 \\\n  --encoder-langtok \"src\" \\\n  --decoder-langtok \\\n  --lang-dict \"$lang_list\" \\\n  --lang-pairs \"$lang_pairs\" > ${source_lang}_${target_lang}.txt\n```\nFairseq will generate translation into a file {source_lang}_${target_lang}.txt with sacreblue at the end.\n\nYou can also use costomized tokenizer to compare the performance with the literature. For example, you get a tokenizer [here](https://github.com/rsennrich/wmt16-scripts) and do the following:\n```bash\nTOKENIZER=<path to a customized tokenizer for decoding evaluation>\nTOK_CMD=<\"$TOKENIZER $target_lang\" or cat for sacrebleu>\n\ncat {source_lang}_${target_lang}.txt | grep -P \"^H\" |sort -V |cut -f 3- |$TOK_CMD > ${source_lang}_${target_lang}.hyp\ncat {source_lang}_${target_lang}.txt | grep -P \"^T\" |sort -V |cut -f 2- |$TOK_CMD > ${source_lang}_${target_lang}.ref\nsacrebleu -tok 'none' -s 'none' ${source_lang}_${target_lang}.ref < ${source_lang}_${target_lang}.hyp\n```\n\n# mBART50 models\n\n* [mMBART 50 pretrained model](https://dl.fbaipublicfiles.com/fairseq/models/mbart50/mbart50.pretrained.tar.gz).\n* [mMBART 50 finetuned many-to-one](https://dl.fbaipublicfiles.com/fairseq/models/mbart50/mbart50.ft.n1.tar.gz).\n* [mMBART 50 finetuned one-to-many](https://dl.fbaipublicfiles.com/fairseq/models/mbart50/mbart50.ft.1n.tar.gz).\n* [mMBART 50 finetuned many-to-many](https://dl.fbaipublicfiles.com/fairseq/models/mbart50/mbart50.ft.nn.tar.gz).\n\nPlease download and extract from the above tarballs. Each tarball contains\n* The fairseq model checkpoint: model.pt\n* The list of supported languages: ML50_langs.txt\n* Sentence piece model: sentence.bpe.model\n* Fairseq dictionary of each language: dict.{lang}.txt (please replace lang with a language specified in ML50_langs.txt)\n\nTo use the trained models, \n* use the tool [binarize.py](./data_scripts/binarize.py) to binarize your data using sentence.bpe.model and dict.{lang}.txt, and copy the dictionaries to your data path\n* then run the generation command:\n```bash\npath_2_data=<path to your binarized data with fairseq dictionaries>\nmodel=<path_to_extracted_folder>/model.pt\nlang_list=<path_to_extracted_folder>/ML50_langs.txt\nsource_lang=<source language>\ntarget_lang=<target language>\n\nfairseq-generate $path_2_data \\\n  --path $model \\\n  --task translation_multi_simple_epoch \\\n  --gen-subset test \\\n  --source-lang $source_lang \\\n  --target-lang $target_lang\n  --sacrebleu --remove-bpe 'sentencepiece'\\\n  --batch-size 32 \\\n  --encoder-langtok \"src\" \\\n  --decoder-langtok \\\n  --lang-dict \"$lang_list\"\n```\n\n## Citation\n\n```bibtex\n@article{tang2020multilingual,\n    title={Multilingual Translation with Extensible Multilingual Pretraining and Finetuning},\n    author={Yuqing Tang and Chau Tran and Xian Li and Peng-Jen Chen and Naman Goyal and Vishrav Chaudhary and Jiatao Gu and Angela Fan},\n    year={2020},\n    eprint={2008.00401},\n    archivePrefix={arXiv},\n    primaryClass={cs.CL}\n}\n```\n"
  },
  {
    "path": "examples/multilingual/data_scripts/README.md",
    "content": "\n# Install dependency\n```bash\npip install -r requirement.txt\n```\n\n# Download the data set\n```bash\nexport WORKDIR_ROOT=<a directory which will hold all working files>\n\n```\nThe downloaded data will be at $WORKDIR_ROOT/ML50\n\n# preprocess the data\nInstall SPM [here](https://github.com/google/sentencepiece)\n```bash\nexport WORKDIR_ROOT=<a directory which will hold all working files>\nexport SPM_PATH=<a path pointing to sentencepice spm_encode.py>\n```\n* $WORKDIR_ROOT/ML50/raw: extracted raw data\n* $WORKDIR_ROOT/ML50/dedup: dedup data\n* $WORKDIR_ROOT/ML50/clean: data with valid and test sentences removed from the dedup data\n \n\n"
  },
  {
    "path": "examples/multilingual/data_scripts/binarize.py",
    "content": "import shutil\nimport os, sys\nfrom subprocess import check_call, check_output\nimport glob\nimport argparse\nimport shutil\nimport pathlib\nimport itertools\n\ndef call_output(cmd):\n    print(f\"Executing: {cmd}\")\n    ret = check_output(cmd, shell=True)\n    print(ret)\n    return ret\n\ndef call(cmd):\n    print(cmd)\n    check_call(cmd, shell=True)\n\n\nWORKDIR_ROOT = os.environ.get('WORKDIR_ROOT', None)\n\nif WORKDIR_ROOT is None or  not WORKDIR_ROOT.strip():\n    print('please specify your working directory root in OS environment variable WORKDIR_ROOT. Exitting...\"')\n    sys.exit(-1)\n\nSPM_PATH = os.environ.get('SPM_PATH', None)\n\nif SPM_PATH is None or not SPM_PATH.strip():\n    print(\"Please install sentence piecence from https://github.com/google/sentencepiece and set SPM_PATH pointing to the installed spm_encode.py. Exitting...\")\n    sys.exit(-1)\n\n\nSPM_MODEL = f'{WORKDIR_ROOT}/sentence.bpe.model'\nSPM_VOCAB = f'{WORKDIR_ROOT}/dict_250k.txt'\n\nSPM_ENCODE = f'{SPM_PATH}'\n\nif not os.path.exists(SPM_MODEL):\n    call(f\"wget https://dl.fbaipublicfiles.com/fairseq/models/mbart50/sentence.bpe.model -O {SPM_MODEL}\")\n\n\nif not os.path.exists(SPM_VOCAB):\n    call(f\"wget https://dl.fbaipublicfiles.com/fairseq/models/mbart50/dict_250k.txt -O {SPM_VOCAB}\")\n\n\n\ndef get_data_size(raw):\n    cmd = f'wc -l {raw}'\n    ret = call_output(cmd)\n    return int(ret.split()[0])\n\ndef encode_spm(model, direction, prefix='', splits=['train', 'test', 'valid'], pairs_per_shard=None):\n    src, tgt = direction.split('-')\n\n    for split in splits:\n        src_raw, tgt_raw = f'{RAW_DIR}/{split}{prefix}.{direction}.{src}', f'{RAW_DIR}/{split}{prefix}.{direction}.{tgt}'\n        if os.path.exists(src_raw) and os.path.exists(tgt_raw):\n            cmd = f\"\"\"python {SPM_ENCODE} \\\n            --model {model}\\\n            --output_format=piece \\\n            --inputs {src_raw} {tgt_raw}  \\\n            --outputs {BPE_DIR}/{direction}{prefix}/{split}.bpe.{src} {BPE_DIR}/{direction}{prefix}/{split}.bpe.{tgt} \"\"\"\n            print(cmd)\n            call(cmd)\n\n\ndef binarize_(\n    bpe_dir,\n    databin_dir,\n    direction, spm_vocab=SPM_VOCAB, \n    splits=['train', 'test', 'valid'],\n):\n    src, tgt = direction.split('-')\n\n    try:\n        shutil.rmtree(f'{databin_dir}', ignore_errors=True)\n        os.mkdir(f'{databin_dir}')\n    except OSError as error:\n        print(error)\n    cmds = [\n        \"fairseq-preprocess\",\n        f\"--source-lang {src} --target-lang {tgt}\",\n        f\"--destdir {databin_dir}/\",\n        f\"--workers 8\",\n    ]\n    if isinstance(spm_vocab, tuple):\n        src_vocab, tgt_vocab = spm_vocab\n        cmds.extend(\n            [\n                f\"--srcdict {src_vocab}\",\n                f\"--tgtdict {tgt_vocab}\",\n            ]\n        )\n    else:\n        cmds.extend(\n            [\n                f\"--joined-dictionary\",\n                f\"--srcdict {spm_vocab}\",\n            ]\n        )\n    input_options = []\n    if 'train' in splits and glob.glob(f\"{bpe_dir}/train.bpe*\"):\n        input_options.append(\n            f\"--trainpref {bpe_dir}/train.bpe\",\n        )        \n    if 'valid' in splits and glob.glob(f\"{bpe_dir}/valid.bpe*\"):\n        input_options.append(f\"--validpref {bpe_dir}/valid.bpe\")\n    if 'test' in splits and glob.glob(f\"{bpe_dir}/test.bpe*\"):\n        input_options.append(f\"--testpref {bpe_dir}/test.bpe\")   \n    if len(input_options) > 0:    \n        cmd = \" \".join(cmds + input_options)\n        print(cmd)\n        call(cmd)\n\n\ndef binarize(\n    databin_dir,\n    direction, spm_vocab=SPM_VOCAB, prefix='',\n    splits=['train', 'test', 'valid'],\n    pairs_per_shard=None,\n):\n    def move_databin_files(from_folder, to_folder):\n        for bin_file in glob.glob(f\"{from_folder}/*.bin\") \\\n            +  glob.glob(f\"{from_folder}/*.idx\") \\\n            +  glob.glob(f\"{from_folder}/dict*\"):\n            try:\n                shutil.move(bin_file, to_folder)\n            except OSError as error:\n                print(error)      \n    bpe_databin_dir = f\"{BPE_DIR}/{direction}{prefix}_databin\"\n    bpe_dir = f\"{BPE_DIR}/{direction}{prefix}\"\n    if pairs_per_shard is None:\n        binarize_(bpe_dir, bpe_databin_dir, direction, spm_vocab=spm_vocab, splits=splits)\n        move_databin_files(bpe_databin_dir, databin_dir)\n    else:\n        # binarize valid and test which will not be sharded\n        binarize_(\n            bpe_dir, bpe_databin_dir, direction,\n            spm_vocab=spm_vocab, splits=[s for s in splits if s != \"train\"])\n        for shard_bpe_dir in glob.glob(f\"{bpe_dir}/shard*\"):\n            path_strs = os.path.split(shard_bpe_dir)\n            shard_str = path_strs[-1]\n            shard_folder = f\"{bpe_databin_dir}/{shard_str}\"\n            databin_shard_folder = f\"{databin_dir}/{shard_str}\"\n            print(f'working from {shard_folder} to {databin_shard_folder}')\n            os.makedirs(databin_shard_folder, exist_ok=True)\n            binarize_(\n                shard_bpe_dir, shard_folder, direction,\n                spm_vocab=spm_vocab, splits=[\"train\"])\n\n            for test_data in glob.glob(f\"{bpe_databin_dir}/valid.*\") + glob.glob(f\"{bpe_databin_dir}/test.*\"):\n                filename = os.path.split(test_data)[-1]\n                try:\n                    os.symlink(test_data, f\"{databin_shard_folder}/{filename}\")\n                except OSError as error:\n                    print(error)                \n            move_databin_files(shard_folder, databin_shard_folder)\n\n\ndef load_langs(path):\n    with open(path) as fr:\n        langs = [l.strip() for l in fr]\n    return langs\n\nif __name__ == '__main__':\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--data_root\", default=f\"{WORKDIR_ROOT}/ML50\")\n    parser.add_argument(\"--raw-folder\", default='raw')\n    parser.add_argument(\"--bpe-folder\", default='bpe')    \n    parser.add_argument(\"--databin-folder\", default='databin')    \n\n    args = parser.parse_args()\n\n    DATA_PATH = args.data_root #'/private/home/yuqtang/public_data/ML50'   \n    RAW_DIR = f'{DATA_PATH}/{args.raw_folder}'\n    BPE_DIR = f'{DATA_PATH}/{args.bpe_folder}'\n    DATABIN_DIR = f'{DATA_PATH}/{args.databin_folder}'\n    os.makedirs(BPE_DIR, exist_ok=True)\n\n    raw_files = itertools.chain(\n        glob.glob(f'{RAW_DIR}/train*'),\n        glob.glob(f'{RAW_DIR}/valid*'),\n        glob.glob(f'{RAW_DIR}/test*'),\n    )\n\n    directions = [os.path.split(file_path)[-1].split('.')[1] for file_path in raw_files]\n\n    for direction in directions:\n        prefix = \"\"\n        splits = ['train', 'valid', 'test']\n        try:\n            shutil.rmtree(f'{BPE_DIR}/{direction}{prefix}', ignore_errors=True)\n            os.mkdir(f'{BPE_DIR}/{direction}{prefix}')\n            os.makedirs(DATABIN_DIR, exist_ok=True)\n        except OSError as error: \n            print(error)     \n        spm_model, spm_vocab = SPM_MODEL, SPM_VOCAB\n        encode_spm(spm_model, direction=direction, splits=splits)\n        binarize(DATABIN_DIR, direction, spm_vocab=spm_vocab, splits=splits)\n"
  },
  {
    "path": "examples/multilingual/data_scripts/check_iswlt_test_data.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport os, sys\nimport subprocess\nimport re\nfrom subprocess import check_call, check_output\n\nWORKDIR_ROOT = os.environ.get('WORKDIR_ROOT', None)\n\nif WORKDIR_ROOT is None or  not WORKDIR_ROOT.strip():\n    print('please specify your working directory root in OS environment variable WORKDIR_ROOT. Exitting...\"')\n    sys.exit(-1)\n\n\nBLEU_REGEX = re.compile(\"^BLEU\\\\S* = (\\\\S+) \")\ndef run_eval_bleu(cmd):\n    output = check_output(cmd, shell=True, stderr=subprocess.STDOUT).decode(\"utf-8\").strip()\n    print(output)\n    bleu = -1.0\n    for line in output.strip().split('\\n'):\n        m = BLEU_REGEX.search(line)\n        if m is not None:\n            bleu = m.groups()[0]\n            bleu = float(bleu)\n            break\n    return bleu\n\ndef check_data_test_bleu(raw_folder, data_lang_pairs):\n    not_matchings = []\n    for sacrebleu_set, src_tgts in data_lang_pairs:\n        for src_tgt in src_tgts:\n            print(f'checking test bleus for: {src_tgt} at {sacrebleu_set}')\n            src, tgt = src_tgt.split('-')\n            ssrc, stgt = src[:2], tgt[:2]\n            if os.path.exists(f'{raw_folder}/test.{tgt}-{src}.{src}'):\n                # reversed direction may have different test set\n                test_src = f'{raw_folder}/test.{tgt}-{src}.{src}'\n            else:\n                test_src = f'{raw_folder}/test.{src}-{tgt}.{src}'\n            cmd1 = f'cat {test_src} | sacrebleu -t \"{sacrebleu_set}\" -l {stgt}-{ssrc}; [ $? -eq 0 ] || echo \"\"'\n            test_tgt = f'{raw_folder}/test.{src}-{tgt}.{tgt}'       \n            cmd2 = f'cat {test_tgt} | sacrebleu -t \"{sacrebleu_set}\" -l {ssrc}-{stgt}; [ $? -eq 0 ] || echo \"\"'\n            bleu1 = run_eval_bleu(cmd1) \n            if bleu1 != 100.0:\n                not_matchings.append(f'{sacrebleu_set}:{src_tgt} source side not matching: {test_src}')\n            bleu2 = run_eval_bleu(cmd2) \n            if bleu2 != 100.0:\n                not_matchings.append(f'{sacrebleu_set}:{src_tgt} target side not matching: {test_tgt}')\n    return not_matchings       \n\nif __name__ == \"__main__\":\n    to_data_path = f'{WORKDIR_ROOT}/iwsltv2'\n    not_matching = check_data_test_bleu(\n        f'{to_data_path}/raw', \n        [\n            ('iwslt17', ['en_XX-ar_AR', 'en_XX-ko_KR', 'ar_AR-en_XX', 'ko_KR-en_XX']),\n            ('iwslt17', ['en_XX-it_IT', 'en_XX-nl_XX', 'it_IT-en_XX', 'nl_XX-en_XX']),\n            ('iwslt17/tst2015', ['en_XX-vi_VN', \"vi_VN-en_XX\"]),        \n        ]\n        )    \n    if len(not_matching) > 0:\n        print('the following datasets do not have matching test datasets:\\n\\t', '\\n\\t'.join(not_matching))\n\n"
  },
  {
    "path": "examples/multilingual/data_scripts/check_self_overlaps.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport os\nimport glob\nimport argparse\nfrom utils.dedup import deup\nimport sys\n\nWORKDIR_ROOT = os.environ.get('WORKDIR_ROOT', None)\n\nif WORKDIR_ROOT is None or  not WORKDIR_ROOT.strip():\n    print('please specify your working directory root in OS environment variable WORKDIR_ROOT. Exitting...\"')\n    sys.exit(-1)\n\ndef get_directions(folder):\n    raw_files = glob.glob(f'{folder}/train*')\n    directions = [os.path.split(file_path)[-1].split('.')[1] for file_path in raw_files] \n    return directions   \n\ndef diff_list(lhs, rhs):\n    return set(lhs).difference(set(rhs))\n\ndef check_diff(\n    from_src_file, from_tgt_file, \n    to_src_file, to_tgt_file, \n):\n    seen_in_from = set()\n    seen_src_in_from = set()\n    seen_tgt_in_from = set()\n    from_count = 0\n    with open(from_src_file, encoding='utf-8') as fsrc, \\\n        open(from_tgt_file, encoding='utf-8') as ftgt:\n        for s, t in zip(fsrc, ftgt):\n            seen_in_from.add((s, t))\n            seen_src_in_from.add(s)\n            seen_tgt_in_from.add(t)\n            from_count += 1\n    common = 0\n    common_src = 0\n    common_tgt = 0\n    to_count = 0\n    seen = set()\n\n    with open(to_src_file, encoding='utf-8') as fsrc, \\\n        open(to_tgt_file, encoding='utf-8') as ftgt:\n        for s, t in zip(fsrc, ftgt):\n            to_count += 1\n            if (s, t) not in seen:\n                if (s, t) in seen_in_from:\n                    common += 1\n                if s in seen_src_in_from:\n                    common_src += 1\n                    seen_src_in_from.remove(s)\n                if t in seen_tgt_in_from:\n                    common_tgt += 1\n                    seen_tgt_in_from.remove(t)\n                seen.add((s, t))\n    return common, common_src, common_tgt, from_count, to_count\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--folder\", type=str, required=True,\n                        help=\"the data folder \")\n    parser.add_argument(\"--split\", type=str, default='test',\n                        help=\"split (valid, test) to check against training data\")\n    parser.add_argument('--directions', type=str, default=None, required=False)\n\n    args = parser.parse_args()    \n\n    if args.directions is None:\n        directions = set(get_directions(args.folder))\n        directions = sorted(directions)\n    else:\n        directions = args.directions.split(',')\n    directions = sorted(set(directions))\n\n    results = []\n    print(f'checking where {args.split} split data are in training')\n    print(f'direction\\tcommon_count\\tsrc common\\ttgt common\\tfrom_size\\tto_size')\n\n    for direction in directions:\n        src, tgt = direction.split('-')\n        from_src_file = f'{args.folder}/{args.split}.{src}-{tgt}.{src}'\n        from_tgt_file = f'{args.folder}/{args.split}.{src}-{tgt}.{tgt}'\n        if not os.path.exists(from_src_file):\n            # some test/valid data might in reverse directinos:\n            from_src_file = f'{args.folder}/{args.split}.{tgt}-{src}.{src}'\n            from_tgt_file = f'{args.folder}/{args.split}.{tgt}-{src}.{tgt}'            \n        to_src_file = f'{args.folder}/train.{src}-{tgt}.{src}'\n        to_tgt_file = f'{args.folder}/train.{src}-{tgt}.{tgt}'\n        if not os.path.exists(to_src_file) or not os.path.exists(from_src_file):\n            continue\n        r = check_diff(from_src_file, from_tgt_file, to_src_file, to_tgt_file)\n        results.append(r)\n        print(f'{direction}\\t', '\\t'.join(map(str, r)))\n                \n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/multilingual/data_scripts/check_valid_test_overlaps.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport os\nimport argparse\nimport pandas as pd\nimport sys\n\n\nWORKDIR_ROOT = os.environ.get('WORKDIR_ROOT', None)\n\nif WORKDIR_ROOT is None or  not WORKDIR_ROOT.strip():\n    print('please specify your working directory root in OS environment variable WORKDIR_ROOT. Exitting...\"')\n    sys.exit(-1)\n\ndef load_langs(path):\n    with open(path) as fr:\n        langs = [l.strip() for l in fr]\n    return langs\n\n\n\ndef load_sentences(raw_data, split, direction):\n    src, tgt = direction.split('-')\n    src_path = f\"{raw_data}/{split}.{direction}.{src}\"\n    tgt_path = f\"{raw_data}/{split}.{direction}.{tgt}\"\n    if os.path.exists(src_path) and os.path.exists(tgt_path):\n        return [(src, open(src_path).read().splitlines()), (tgt, open(tgt_path).read().splitlines())]\n    else:\n        return []\n\ndef swap_direction(d):\n    src, tgt = d.split('-')\n    return f'{tgt}-{src}'\n\ndef get_all_test_data(raw_data, directions, split='test'):\n    test_data = [ \n        x\n        for dd in directions\n        for d in [dd, swap_direction(dd)]\n        for x in load_sentences(raw_data, split, d)\n    ]\n    # all_test_data = {s for _, d in test_data for s in d}\n    all_test_data = {}\n    for lang, d in test_data:\n        for s in d:\n            s = s.strip()\n            lgs = all_test_data.get(s, set())\n            lgs.add(lang)\n            all_test_data[s] = lgs\n    return all_test_data, test_data\n\n\ndef check_train_sentences(src_path, tgt_path, direction, all_test_data, mess_up_train={}):\n    # src, tgt = direction.split('-')\n    print(f'check training data for {direction} in {src_path} and {tgt_path}')\n    size = 0\n    overlapped_size_counted_dup = 0\n    if not os.path.exists(tgt_path) or not os.path.exists(src_path):\n        return mess_up_train, size, overlapped_size_counted_dup\n\n    with open(src_path) as f, open(tgt_path) as g:\n        for src_line, tgt_line in zip(f, g):\n            s = src_line.strip()\n            t = tgt_line.strip()\n            size += 1\n            if  s in all_test_data:\n                langs = mess_up_train.get(s, set())\n                langs.add(direction)\n                mess_up_train[s] = langs\n                overlapped_size_counted_dup += 1\n            if t in all_test_data:\n                langs = mess_up_train.get(t, set())\n                langs.add(direction)\n                mess_up_train[t] = langs \n                overlapped_size_counted_dup += 1\n    print(f'{direction}: size={size}, overlapped={overlapped_size_counted_dup}')\n    return mess_up_train, size, overlapped_size_counted_dup\n\ndef check_train_all(raw_data, directions, all_test_data):\n    mess_up_train = {}\n    data_sizes = {}\n    # raw_data = '~chau/data-bin/MineBART/multilingual_mined_100M/en_XX/et_EE-en_XX/all.{en_XX, et_EE}'\n    print(f'checking training data againsts # {len(all_test_data)} sentences')\n    print(f'example test data: ', [s for i, s in enumerate(all_test_data.keys()) if i < 10])\n    for direction in directions:\n        src, tgt = direction.split('-')\n        path = f'{raw_data}/en_XX/{direction}/all'\n        src_path = f'{path}.{src}'\n        tgt_path = f'{path}.{tgt}'\n        print(f'checking {src_path} {tgt_path}')\n        _, size, overlapped_size_counted_dup = check_train_sentences(src_path, tgt_path, direction, all_test_data, mess_up_train)\n        data_sizes[direction] = (size, overlapped_size_counted_dup)\n    return mess_up_train, data_sizes\n\n\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--folder\", type=str, required=True,\n                        help=\"the data folder \")\n    parser.add_argument(\"--test-data\", type=str, required=True,\n                        help=\"the test data folder \")                        \n    parser.add_argument('--directions', type=str, default=None, required=False)\n\n    args = parser.parse_args()    \n    directions = args.directions.split(',')\n    directions = sorted(set(directions))\n\n    results = []\n    # print(f'checking where {args.split} split data are in training')\n    # print(f'direction\\tcommon_count\\tsrc common\\ttgt common\\tfrom_size\\tto_size')\n    raw_data = args.folder\n    all_test_data, test_data = get_all_test_data(args.test_data, directions, split='test')\n    mess_up_train, data_sizes = check_train_all(raw_data, directions, all_test_data)\n    print(data_sizes)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/multilingual/data_scripts/dedup_all.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\n\nimport os\nimport glob\nimport argparse\nfrom utils.dedup import deup\n\nimport sys\nWORKDIR_ROOT = os.environ.get('WORKDIR_ROOT', None)\n\nif WORKDIR_ROOT is None or  not WORKDIR_ROOT.strip():\n    print('please specify your working directory root in OS environment variable WORKDIR_ROOT. Exitting...\"')\n    sys.exit(-1)\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--from-folder\", type=str, required=True,\n                        help=\"the data folder to be dedup\")\n    parser.add_argument(\"--to-folder\", type=str, required=True,\n                        help=\"the data folder to save deduped data\")\n    parser.add_argument('--directions', type=str, default=None, required=False)\n\n    args = parser.parse_args()    \n\n    if args.directions is None:\n        raw_files = glob.glob(f'{args.from_folder}/train*')\n\n        directions = [os.path.split(file_path)[-1].split('.')[1] for file_path in raw_files]\n    else:\n        directions = args.directions.split(',')\n    directions = sorted(set(directions))\n    \n    for direction in directions:\n        src, tgt = direction.split('-')\n        src_file = f'{args.from_folder}/train.{src}-{tgt}.{src}'\n        tgt_file = f'{args.from_folder}/train.{src}-{tgt}.{tgt}'\n        src_file_out = f'{args.to_folder}/train.{src}-{tgt}.{src}'\n        tgt_file_out = f'{args.to_folder}/train.{src}-{tgt}.{tgt}'\n        assert src_file != src_file_out\n        assert tgt_file != tgt_file_out\n        print(f'deduping {src_file}, {tgt_file}')\n        deup(src_file, tgt_file, src_file_out, tgt_file_out)\n                \n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/multilingual/data_scripts/download_ML50_v1.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\nif [ -z $WORKDIR_ROOT ] ;\nthen\n        echo \"please specify your working directory root in environment variable WORKDIR_ROOT. Exitting...\"\n        exit\nfi\n\n# first run download_wmt20.sh; it will install a few useful tools for other scripts\n# TODO: need to print out instructions on downloading a few files which requires manually authentication from the websites\nbash ./download_wmt20.sh\n\npython ./download_wmt19_and_before.py\nbash ./download_wat19_my.sh\npython ./download_ted_and_extract.py\nbash ./download_lotus.sh\nbash ./download_iitb.sh\nbash ./download_af_xh.sh\n\n\n# IWSLT downloading URLs have changed in between; TODO: fix them:\nbash ./download_iwslt_and_extract.sh\n\n# TODO: globalvoices URLs changed; need to be fixed\nbash ./download_flores_data.sh\n"
  },
  {
    "path": "examples/multilingual/data_scripts/download_af_xh.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\n# set -x -e\n\nif [ -z $WORKDIR_ROOT ] ;\nthen\n        echo \"please specify your working directory root in environment variable WORKDIR_ROOT. Exitting...\"\n        exit\nfi\n\n \n# put intermediate files\nTMP_DIR=$WORKDIR_ROOT/temp/af_xhv2\n# output {train,valid,test} files to dest\nDEST=${WORKDIR_ROOT}/ML50/raw\n\n\n\nROOT=${WORKDIR_ROOT}\nUTILS=$PWD/utils\nTMX2CORPUS=\"${UTILS}/tmx2corpus\"\nTMX_TOOL=\"python ${TMX2CORPUS}/tmx2corpus.py\"\n\nmkdir -p $TMP_DIR\nmkdir -p $DEST\nmkdir -p $UTILS\n\nfunction download_opus(){\n    src=$1\n    tgt=$2\n    subset=$3\n    ulr=$4\n\n    mkdir extract_$subset.$src-$tgt\n    pushd extract_$subset.$src-$tgt\n    if [ ! -f \"$subset.$src-$tgt.tmx.gz\" ]; then\n        wget $url -O \"$subset.$src-$tgt.tmx.gz\"\n        gzip -d \"$subset.$src-$tgt.tmx.gz\"\n        f=$subset.$src-$tgt.tmx\n        $TMX_TOOL $f\n        mv bitext.$src ../$subset.$src-$tgt.$src\n        mv bitext.$tgt ../$subset.$src-$tgt.$tgt\n    fi\n    popd    \n}\n\nfunction concat_subsets(){\n    src=$1\n    tgt=$2\n    subsets=$3\n    src_train=raw_train.$src-$tgt.$src\n    tgt_train=raw_train.$src-$tgt.$tgt\n    > $src_train\n    > $tgt_train\n    for subset in $subsets; do\n        cat $subset.$src-$tgt.$src >> $src_train\n        cat $subset.$src-$tgt.$tgt >> $tgt_train\n    done\n}\n\n\n\nfunction get_seeded_random()\n{\n  seed=\"$1\"\n  openssl enc -aes-256-ctr -pass pass:\"$seed\" -nosalt \\\n    </dev/zero 2>/dev/null\n}\n\nfunction split_train_valid(){\n    src=$1\n    tgt=$2\n    raw_src_train=raw_train.$src-$tgt.$src\n    raw_tgt_train=raw_train.$src-$tgt.$tgt\n\n    shuf --random-source=<(get_seeded_random 43) $raw_src_train > shuffled.$src-$tgt.$src \n    shuf --random-source=<(get_seeded_random 43) $raw_tgt_train > shuffled.$src-$tgt.$tgt \n\n    head -n 1500 shuffled.$src-$tgt.$src  > valid.$src-$tgt.$src\n    head -n 1500 shuffled.$src-$tgt.$tgt > valid.$src-$tgt.$tgt\n\n    tail +1501 shuffled.$src-$tgt.$src > train.$src-$tgt.$src\n    tail +1501 shuffled.$src-$tgt.$tgt > train.$src-$tgt.$tgt     \n}\n\nfunction copy2dst(){\n    lsrc=$1\n    ltgt=$2\n    src=${lsrc:0:2}\n    tgt=${ltgt:0:2}\n \n\n    cp valid.$src-$tgt.$src $DEST/valid.$lsrc-$ltgt.$lsrc \n    cp valid.$src-$tgt.$tgt $DEST/valid.$lsrc-$ltgt.$ltgt \n\n    cp train.$src-$tgt.$src $DEST/train.$lsrc-$ltgt.$lsrc \n    cp train.$src-$tgt.$tgt $DEST/train.$lsrc-$ltgt.$ltgt        \n}\n\n\n\n\n#for xh-en\ndeclare -A xh_en_urls\nxh_en_urls=(\n    [Tatoeba]=https://object.pouta.csc.fi/OPUS-Tatoeba/v20190709/tmx/en-xh.tmx.gz \n    [wikimedia]=https://object.pouta.csc.fi/OPUS-wikimedia/v20190628/tmx/en-xh.tmx.gz\n    [memat]=https://object.pouta.csc.fi/OPUS-memat/v1/tmx/en-xh.tmx.gz\n    [uedin]=https://object.pouta.csc.fi/OPUS-bible-uedin/v1/tmx/en-xh.tmx.gz\n    [GNOME]=https://object.pouta.csc.fi/OPUS-GNOME/v1/tmx/en-xh.tmx.gz\n    [XhosaNavy]=https://object.pouta.csc.fi/OPUS-XhosaNavy/v1/tmx/en-xh.tmx.gz\n    [KDE4]=https://object.pouta.csc.fi/OPUS-KDE4/v2/tmx/en-xh.tmx.gz\n    [Ubuntu]=https://object.pouta.csc.fi/OPUS-Ubuntu/v14.10/tmx/en-xh.tmx.gz    \n)\n\nmkdir $TMP_DIR/xh-en\npushd $TMP_DIR/xh-en\nfor k in \"${!xh_en_urls[@]}\"\ndo\n    name=$k\n    url=${xh_en_urls[$k]}\n    echo \"$name: $url\"\n    download_opus xh en $name $ulr\ndone\nconcat_subsets xh en \"${!xh_en_urls[@]}\"\nsplit_train_valid xh en\ncopy2dst xh_ZA en_XX\npopd\n\n\n##\n#for af-en\ndeclare -A af_en_urls\naf_en_urls=(\n    [Tatoeba]=https://object.pouta.csc.fi/OPUS-Tatoeba/v20190709/tmx/af-en.tmx.gz\n    [uedin]=https://object.pouta.csc.fi/OPUS-bible-uedin/v1/tmx/af-en.tmx.gz\n    [GNOME]=https://object.pouta.csc.fi/OPUS-GNOME/v1/tmx/af-en.tmx.gz\n    [QED]=https://object.pouta.csc.fi/OPUS-QED/v2.0a/tmx/af-en.tmx.gz\n    [KDE4]=https://object.pouta.csc.fi/OPUS-KDE4/v2/tmx/af-en.tmx.gz\n    [OpenSubtitles]=https://object.pouta.csc.fi/OPUS-OpenSubtitles/v2018/tmx/af-en.tmx.gz\n    [SPC]=https://object.pouta.csc.fi/OPUS-SPC/v1/tmx/af-en.tmx.gz\n    [Ubuntu]=https://object.pouta.csc.fi/OPUS-Ubuntu/v14.10/tmx/af-en.tmx.gz\n)\n\nmkdir $TMP_DIR/af-en\npushd $TMP_DIR/af-en\nfor k in \"${!af_en_urls[@]}\"\ndo\n    name=$k\n    url=${af_en_urls[$k]}\n    echo \"$name: $url\"\n    download_opus af en $name $ulr\ndone\nconcat_subsets af en \"${!af_en_urls[@]}\"\nsplit_train_valid af en\ncopy2dst af_ZA en_XX\npopd\n\n\n"
  },
  {
    "path": "examples/multilingual/data_scripts/download_flores_data.sh",
    "content": "#!/bin/bash\n\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n#\n\nif [ -z $WORKDIR_ROOT ] ;\nthen\n        echo \"please specify your working directory root in environment variable WORKDIR_ROOT. Exitting...\"\n        exit\nfi\n\n\nset -e\nset -o pipefail\n\nSRC=en\nSI_TGT=si\nNE_TGT=ne\n\nDESTDIR=${WORKDIR_ROOT}/ML50/raw/\n\nROOT=${WORKDIR_ROOT}/tmp\nmkdir -p $ROOT\nDATA=$ROOT/data\nNE_ROOT=$DATA/all-clean-ne\nSI_ROOT=$DATA/all-clean-si\n\nmkdir -p $DATA $NE_ROOT $SI_ROOT\n\nSI_OPUS_DATASETS=(\n  \"$SI_ROOT/GNOME.en-si\"\n  \"$SI_ROOT/Ubuntu.en-si\"\n  \"$SI_ROOT/KDE4.en-si\"\n  \"$SI_ROOT/OpenSubtitles.en-si\"\n)\n\nSI_OPUS_URLS=(\n  \"https://object.pouta.csc.fi/OPUS-GNOME/v1/moses/en-si.txt.zip\"\n  \"https://object.pouta.csc.fi/OPUS-Ubuntu/v14.10/moses/en-si.txt.zip\"\n  \"https://object.pouta.csc.fi/OPUS-KDE4/v2/moses/en-si.txt.zip\"\n  \"https://object.pouta.csc.fi/OPUS-OpenSubtitles/v2018/moses/en-si.txt.zip\"\n)\n\nNE_OPUS_DATASETS=(\n  \"$NE_ROOT/GNOME.en-ne\"\n  \"$NE_ROOT/Ubuntu.en-ne\"\n  \"$NE_ROOT/KDE4.en-ne\"\n)\n\nNE_OPUS_URLS=(\n  \"https://object.pouta.csc.fi/OPUS-GNOME/v1/moses/en-ne.txt.zip\"\n  \"https://object.pouta.csc.fi/OPUS-Ubuntu/v14.10/moses/en-ne.txt.zip\"\n  \"https://object.pouta.csc.fi/OPUS-KDE4/v2/moses/en-ne.txt.zip\"\n)\n\nREMOVE_FILE_PATHS=()\n\n# Download data\ndownload_data() {\n  CORPORA=$1\n  URL=$2\n\n  if [ -f $CORPORA ]; then\n    echo \"$CORPORA already exists, skipping download\"\n  else\n    echo \"Downloading $URL\"\n    wget $URL -O $CORPORA --no-check-certificate || rm -f $CORPORA\n    if [ -f $CORPORA ]; then\n      echo \"$URL successfully downloaded.\"\n    else\n      echo \"$URL not successfully downloaded.\"\n      rm -f $CORPORA\n      exit -1\n    fi\n  fi\n}\n\n# Example: download_opus_data $LANG_ROOT $TGT\ndownload_opus_data() {\n  LANG_ROOT=$1\n  TGT=$2\n\n  if [ \"$TGT\" = \"si\" ]; then\n    URLS=(\"${SI_OPUS_URLS[@]}\")\n    DATASETS=(\"${SI_OPUS_DATASETS[@]}\")\n  else\n    URLS=(\"${NE_OPUS_URLS[@]}\")\n    DATASETS=(\"${NE_OPUS_DATASETS[@]}\")\n  fi\n\n  # Download and extract data\n  for ((i=0;i<${#URLS[@]};++i)); do\n    URL=${URLS[i]}\n    CORPORA=${DATASETS[i]}\n\n    download_data $CORPORA $URL\n    unzip -o $CORPORA -d $LANG_ROOT\n    REMOVE_FILE_PATHS+=( $CORPORA $CORPORA.xml $CORPORA.ids $LANG_ROOT/README $LANG_ROOT/LICENSE )\n  done\n\n  cat ${DATASETS[0]}.$SRC ${DATASETS[1]}.$SRC ${DATASETS[2]}.$SRC > $LANG_ROOT/GNOMEKDEUbuntu.$SRC-$TGT.$SRC\n  cat ${DATASETS[0]}.$TGT ${DATASETS[1]}.$TGT ${DATASETS[2]}.$TGT > $LANG_ROOT/GNOMEKDEUbuntu.$SRC-$TGT.$TGT\n\n  REMOVE_FILE_PATHS+=( ${DATASETS[0]}.$SRC ${DATASETS[1]}.$SRC ${DATASETS[2]}.$SRC )\n  REMOVE_FILE_PATHS+=( ${DATASETS[0]}.$TGT ${DATASETS[1]}.$TGT ${DATASETS[2]}.$TGT )\n}\n\ndownload_opus_data $SI_ROOT $SI_TGT\ncp ${SI_OPUS_DATASETS[3]}.$SRC $SI_ROOT/OpenSubtitles2018.$SRC-$SI_TGT.$SRC\ncp ${SI_OPUS_DATASETS[3]}.$SI_TGT $SI_ROOT/OpenSubtitles2018.$SRC-$SI_TGT.$SI_TGT\nREMOVE_FILE_PATHS+=( ${SI_OPUS_DATASETS[3]}.$SRC ${SI_OPUS_DATASETS[3]}.$SI_TGT )\n\ndownload_opus_data $NE_ROOT $NE_TGT\n\n\n# Download and extract Global Voices data\nGLOBAL_VOICES=\"$NE_ROOT/globalvoices.2018q4.ne-en\"\nGLOBAL_VOICES_URL=\"http://www.casmacat.eu/corpus/global-voices/globalvoices.ne-en.xliff.gz\"\n\ndownload_data $GLOBAL_VOICES.gz $GLOBAL_VOICES_URL\ngunzip -Nf $GLOBAL_VOICES.gz\n\nsed -ne 's?.*<source>\\(.*\\)</source>.*?\\1?p' $GLOBAL_VOICES > $GLOBAL_VOICES.$NE_TGT\nsed -ne 's?.*<target[^>]*>\\(.*\\)</target>.*?\\1?p' $GLOBAL_VOICES > $GLOBAL_VOICES.$SRC\n\nREMOVE_FILE_PATHS+=( $GLOBAL_VOICES )\n\n# Download and extract the bible dataset\nBIBLE_TOOLS=bible-corpus-tools\nXML_BIBLES=XML_Bibles\nXML_BIBLES_DUP=XML_Bibles_dup\n\nif [ ! -e $BIBLE_TOOLS ]; then\n    echo \"Cloning bible-corpus-tools repository...\"\n    git clone https://github.com/christos-c/bible-corpus-tools.git\nfi\n\nmkdir -p $BIBLE_TOOLS/bin $XML_BIBLES $XML_BIBLES_DUP\njavac -cp \"$BIBLE_TOOLS/lib/*\" -d $BIBLE_TOOLS/bin $BIBLE_TOOLS/src/bible/readers/*.java $BIBLE_TOOLS/src/bible/*.java\n\ndownload_data bible.tar.gz \"https://github.com/christos-c/bible-corpus/archive/v1.2.1.tar.gz\"\ntar xvzf bible.tar.gz\n\ncp bible-corpus-1.2.1/bibles/{Greek.xml,English.xml,Nepali.xml} $XML_BIBLES/\ncp bible-corpus-1.2.1/bibles/{Greek.xml,English-WEB.xml,Nepali.xml} $XML_BIBLES_DUP/\n\njava -cp $BIBLE_TOOLS/lib/*:$BIBLE_TOOLS/bin bible.CreateMLBooks $XML_BIBLES\njava -cp $BIBLE_TOOLS/lib/*:$BIBLE_TOOLS/bin bible.CreateMLBooks $XML_BIBLES_DUP\njava -cp $BIBLE_TOOLS/lib/*:$BIBLE_TOOLS/bin bible.CreateVerseAlignedBooks $XML_BIBLES\njava -cp $BIBLE_TOOLS/lib/*:$BIBLE_TOOLS/bin bible.CreateVerseAlignedBooks $XML_BIBLES_DUP\n\ncat $XML_BIBLES/aligned/*/English.txt > $NE_ROOT/bible.$SRC-$NE_TGT.$SRC\ncat $XML_BIBLES/aligned/*/Nepali.txt > $NE_ROOT/bible.$SRC-$NE_TGT.$NE_TGT\ncat $XML_BIBLES_DUP/aligned/*/English-WEB.txt > $NE_ROOT/bible_dup.$SRC-$NE_TGT.$SRC\ncat $XML_BIBLES_DUP/aligned/*/Nepali.txt > $NE_ROOT/bible_dup.$SRC-$NE_TGT.$NE_TGT\nREMOVE_FILE_PATHS+=( bible-corpus-1.2.1 bible.tar.gz $BIBLE_TOOLS $XML_BIBLES $XML_BIBLES_DUP )\n\n# Download and extract the Penn Treebank dataset\nNE_TAGGED=$ROOT/new_submissions_parallel_corpus_project_Nepal\nNE_TAGGED_URL=\"http://www.cle.org.pk/Downloads/ling_resources/parallelcorpus/NepaliTaggedCorpus.zip\"\nEN_TAGGED_PATCH_URL=\"https://dl.fbaipublicfiles.com/fairseq/data/nepali-penn-treebank.en.patch\"\nNE_TAGGED_PATCH_URL=\"https://dl.fbaipublicfiles.com/fairseq/data/nepali-penn-treebank.ne.patch\"\nMOSES=mosesdecoder\nMOSES_TOK=$MOSES/scripts/tokenizer\nEN_PATCH_REGEX=\"{s:\\\\\\/:\\/:g;s/\\*\\T\\*\\-\\n+//g;s/\\-LCB\\-/\\{/g;s/\\-RCB\\-/\\}/g; s/\\-LSB\\-/\\[/g; s/\\-RSB\\-/\\]/g;s/\\-LRB\\-/\\(/g; s/\\-RRB\\-/\\)/g; s/\\'\\'/\\\"/g; s/\\`\\`/\\\"/g; s/\\ +\\'s\\ +/\\'s /g; s/\\ +\\'re\\ +/\\'re /g; s/\\\"\\ +/\\\"/g; s/\\ +\\\"/\\\"/g; s/\\ n't([\\ \\.\\\"])/n't\\1/g; s/\\r+(.)/\\1/g;}\"\nNE_PATCH_REGEX=\"{s:\\p{Cf}::g;s:\\\\\\/:\\/:g;s/\\*\\T\\*\\-\\n+//g;s/\\-LCB\\-/\\{/g;s/\\-RCB\\-/\\}/g; s/\\-LSB\\-/\\[/g; s/\\-RSB\\-/\\]/g;s/\\-LRB\\-/\\(/g; s/\\-RRB\\-/\\)/g; s/\\'\\'/\\\"/g; s/\\`\\`/\\\"/g; s/\\ +\\'s\\ +/\\'s /g; s/\\ +\\'re\\ +/\\'re /g; s/\\\"\\ +/\\\"/g; s/\\ +\\\"/\\\"/g; s/\\ n't([\\ \\.\\\"])/n't\\1/g; s/\\r+(.)/\\1/g;}\"\n\ndownload_data $DATA/nepali-penn-treebank.$SRC.patch $EN_TAGGED_PATCH_URL\ndownload_data $DATA/nepali-penn-treebank.$NE_TGT.patch $NE_TAGGED_PATCH_URL\ndownload_data original.zip $NE_TAGGED_URL\nunzip -o original.zip -d $ROOT\n\ncat $NE_TAGGED/00.txt $NE_TAGGED/01.txt $NE_TAGGED/02.txt > $NE_TAGGED/nepali-penn-treebank.$SRC\ncat $NE_TAGGED/00ne_revised.txt $NE_TAGGED/01ne_revised.txt $NE_TAGGED/02ne_revised.txt > $NE_TAGGED/nepali-penn-treebank.$NE_TGT\n\npatch $NE_TAGGED/nepali-penn-treebank.$SRC -i $DATA/nepali-penn-treebank.$SRC.patch -o $NE_TAGGED/nepali-penn-treebank-patched.$SRC\npatch $NE_TAGGED/nepali-penn-treebank.$NE_TGT -i $DATA/nepali-penn-treebank.$NE_TGT.patch -o $NE_TAGGED/nepali-penn-treebank-patched.$NE_TGT\n\nif [ ! -e $MOSES ]; then\n    echo \"Cloning moses repository...\"\n    git clone https://github.com/moses-smt/mosesdecoder.git\nfi\n\ncat $NE_TAGGED/nepali-penn-treebank-patched.$SRC | \\\n  perl -anpe \"$EN_PATCH_REGEX\"  | \\\n  $MOSES_TOK/tokenizer.perl -l $SRC | \\\n  $MOSES_TOK/detokenizer.perl -l $SRC > $NE_ROOT/nepali-penn-treebank.$SRC\n\ncat $NE_TAGGED/nepali-penn-treebank-patched.$NE_TGT | \\\n  perl -CIO -anpe \"$NE_PATCH_REGEX\" | \\\n  $MOSES_TOK/detokenizer.perl -l $SRC > $NE_ROOT/nepali-penn-treebank.$NE_TGT\n\n\n# Download nepali dictionary data\nNE_DICT=$NE_ROOT/dictionaries\ndownload_data $NE_DICT \"http://www.seas.upenn.edu/~nlp/resources/TACL-data-release/dictionaries.tar.gz\"\ntar xvzf $NE_DICT\ncp dictionaries/dict.ne $NE_ROOT/dictionary.$NE_TGT-$SRC\nREMOVE_FILE_PATHS+=( $NE_DICT dictionaries )\n\nREMOVE_FILE_PATHS+=( $MOSES $NE_TAGGED original.zip $DATA/nepali-penn-treebank.$SRC.patch $DATA/nepali-penn-treebank.$NE_TGT.patch )\n\n\n# Remove the temporary files\nfor ((i=0;i<${#REMOVE_FILE_PATHS[@]};++i)); do\n  rm -rf ${REMOVE_FILE_PATHS[i]}\ndone\n\n# Copy the training data\nsi=si_LK\nne=ne_NP\nen=en_XX\ncat $SI_ROOT/GNOMEKDEUbuntu.en-si.si $SI_ROOT/OpenSubtitles2018.en-si.si > $DESTDIR/train.$si-$en.$si\ncat $SI_ROOT/GNOMEKDEUbuntu.en-si.en $SI_ROOT/OpenSubtitles2018.en-si.en > $DESTDIR/train.$si-$en.$en\n\ncat $NE_ROOT/bible_dup.en-ne.ne $NE_ROOT/bible.en-ne.ne $NE_ROOT/globalvoices.2018q4.ne-en.ne $NE_ROOT/GNOMEKDEUbuntu.en-ne.ne $NE_ROOT/nepali-penn-treebank.ne >  $DESTDIR/train.$ne-$en.$ne\ncat $NE_ROOT/bible_dup.en-ne.en $NE_ROOT/bible.en-ne.en $NE_ROOT/globalvoices.2018q4.ne-en.en $NE_ROOT/GNOMEKDEUbuntu.en-ne.en $NE_ROOT/nepali-penn-treebank.en >  $DESTDIR/train.$ne-$en.$en\n\n\n#Download the test sets\nwget https://github.com/facebookresearch/flores/raw/master/data/wikipedia_en_ne_si_test_sets.tgz\ntar -xvzf wikipedia_en_ne_si_test_sets.tgz\n\ncp wikipedia_en_ne_si_test_sets/wikipedia.dev.ne-en.ne $DESTDIR/valid.$ne-$en.$ne\ncp wikipedia_en_ne_si_test_sets/wikipedia.dev.ne-en.en $DESTDIR/valid.$ne-$en.$en\n\ncp wikipedia_en_ne_si_test_sets/wikipedia.dev.si-en.si $DESTDIR/valid.$si-$en.$si\ncp wikipedia_en_ne_si_test_sets/wikipedia.dev.si-en.en $DESTDIR/valid.$si-$en.$en\n\ncp wikipedia_en_ne_si_test_sets/wikipedia.devtest.ne-en.ne $DESTDIR/devtest.$ne-$en.$ne\ncp wikipedia_en_ne_si_test_sets/wikipedia.devtest.ne-en.en $DESTDIR/devtest.$ne-$en.$en\n\ncp wikipedia_en_ne_si_test_sets/wikipedia.devtest.si-en.si $DESTDIR/devtest.$si-$en.$si\ncp wikipedia_en_ne_si_test_sets/wikipedia.devtest.si-en.en $DESTDIR/devtest.$si-$en.$en\n\ncp wikipedia_en_ne_si_test_sets/wikipedia.test.ne-en.ne $DESTDIR/test.$ne-$en.$ne\ncp wikipedia_en_ne_si_test_sets/wikipedia.test.ne-en.en $DESTDIR/test.$ne-$en.$en\n\ncp wikipedia_en_ne_si_test_sets/wikipedia.test.si-en.si $DESTDIR/test.$si-$en.$si\ncp wikipedia_en_ne_si_test_sets/wikipedia.test.si-en.en $DESTDIR/test.$si-$en.$en\n\nrm -rf wikipedia_en_ne_si_test_sets.tgz wikipedia_en_ne_si_test_sets\n"
  },
  {
    "path": "examples/multilingual/data_scripts/download_iitb.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nif [ -z $WORKDIR_ROOT ] ;\nthen\n        echo \"please specify your working directory root in environment variable WORKDIR_ROOT. Exitting...\"\n        exit\nfi\n\nIITB=$WORKDIR_ROOT/IITB\nmkdir -p $IITB\npushd $IITB \n\nwget http://www.cfilt.iitb.ac.in/~moses/iitb_en_hi_parallel/iitb_corpus_download/parallel.tgz\ntar -xvzf parallel.tgz \n\nwget http://www.cfilt.iitb.ac.in/~moses/iitb_en_hi_parallel/iitb_corpus_download/dev_test.tgz\ntar -xvzf dev_test.tgz \n\nDESTDIR=${WORKDIR_ROOT}/ML50/raw/\n \ncp parallel/IITB.en-hi.en $DESTDIR/train.hi_IN-en_XX.en_XX\ncp parallel/IITB.en-hi.hi $DESTDIR/train.hi_IN-en_XX.hi_IN\n\ncp dev_test/dev.en $DESTDIR/valid.hi_IN-en_XX.en_XX\ncp dev_test/dev.hi $DESTDIR/valid.hi_IN-en_XX.hi_IN\n\ncp dev_test/test.en $DESTDIR/test.hi_IN-en_XX.en_XX\ncp dev_test/test.hi $DESTDIR/test.hi_IN-en_XX.hi_IN\npopd"
  },
  {
    "path": "examples/multilingual/data_scripts/download_iwslt_and_extract.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\n#echo 'Cloning Moses github repository (for tokenization scripts)...'\n#git clone https://github.com/moses-smt/mosesdecoder.git\n\nif [ -z $WORKDIR_ROOT ] ;\nthen\n        echo \"please specify your working directory root in environment variable WORKDIR_ROOT. Exitting...\"\n        exit\nfi\n\n \n\ndata_root=${WORKDIR_ROOT}/iwsltv2\nDESTDIR=${WORKDIR_ROOT}/ML50/raw\n\n\nlangs=\"ar_AR it_IT nl_XX ko_KR vi_VN\"\necho \"data_root: $data_root\"\n\ndownload_path=${data_root}/downloads\nraw=${DESTDIR}\ntmp=${data_root}/tmp\norig=${data_root}/orig\n \nmkdir -p $download_path $orig $raw $tmp\n#######################\ndownload_iwslt(){\n    iwslt_key=$1\n    src=$2\n    tgt=$3\n    save_prefix=$4\n    pushd ${download_path}\n    if [[ ! -f ${save_prefix}$src-$tgt.tgz ]]; then\n        wget https://wit3.fbk.eu/archive/${iwslt_key}/texts/$src/$tgt/$src-$tgt.tgz -O ${save_prefix}$src-$tgt.tgz\n        [ $? -eq 0 ] && return 0\n    fi         \n    popd\n}\n\nextract_iwslt(){\n    src=$1\n    tgt=$2\n    prefix=$3\n    pushd $orig                \n    tar zxvf ${download_path}/${prefix}$src-${tgt}.tgz\n    popd \n}\n\ngenerate_train(){\n    lsrc=$1\n    ltgt=$2\n    src=${lsrc:0:2}    \n    tgt=${ltgt:0:2}\n    for ll in $lsrc $ltgt; do\n        l=${ll:0:2}\n        f=\"$orig/*/train.tags.$src-$tgt.$l\"\n        f_raw=$raw/train.$lsrc-$ltgt.$ll\n        cat $f \\\n        | grep -v '<url>' \\\n        | grep -v '<talkid>' \\\n        | grep -v '<keywords>' \\\n        | grep -v '<speaker>' \\\n        | grep -v '<reviewer' \\\n        | grep -v '<translator' \\\n        | grep -v '<doc' \\\n        | grep -v '</doc>' \\\n        | sed -e 's/<title>//g' \\\n        | sed -e 's/<\\/title>//g' \\\n        | sed -e 's/<description>//g' \\\n        | sed -e 's/<\\/description>//g' \\\n        | sed 's/^\\s*//g' \\\n        | sed 's/\\s*$//g' \\\n        > $f_raw\n        [ $? -eq 0 ] && echo \"extracted $f to $f_raw\"\n    done\n    return 0        \n}\n\nconvert_valid_test(){\n    src=$1\n    tgt=$2\n    for l in $src $tgt; do\n        echo \"lang: ${l}\"\n        for o in `ls $orig/*/IWSLT*.TED*.$src-$tgt.$l.xml`; do\n            fname=${o##*/}\n            f=$tmp/${fname%.*}\n            echo \"$o => $f\"\n            grep '<seg id' $o \\\n            | sed -e 's/<seg id=\"[0-9]*\">\\s*//g' \\\n            | sed -e 's/\\s*<\\/seg>\\s*//g' \\\n            | sed -e \"s/\\’/\\'/g\" \\\n            > $f\n            echo \"\"\n        done\n    done    \n}\n\ngenerate_subset(){\n    lsrc=$1\n    ltgt=$2\n    src=${lsrc:0:2}\n    tgt=${ltgt:0:2}\n    subset=$3\n    prefix=$4\n    for ll in $lsrc $ltgt; do\n        l=${ll:0:2}\n        f=$tmp/$prefix.${src}-${tgt}.$l\n        if [[ -f $f ]]; then        \n            cp $f $raw/$subset.${lsrc}-$ltgt.${ll}\n        fi\n    done      \n}\n#################\n\necho \"downloading iwslt training and dev data\"\n# using multilingual for it, nl \ndownload_iwslt \"2017-01-trnmted\" DeEnItNlRo DeEnItNlRo\ndownload_iwslt \"2017-01-trnted\" ar en\ndownload_iwslt \"2017-01-trnted\" en ar\ndownload_iwslt \"2017-01-trnted\" ko en\ndownload_iwslt \"2017-01-trnted\" en ko\ndownload_iwslt \"2015-01\" vi en   \ndownload_iwslt \"2015-01\" en vi   \n\necho \"donwloading iwslt test data\"\ndownload_iwslt \"2017-01-mted-test\" it en \"test.\"\ndownload_iwslt \"2017-01-mted-test\" en it \"test.\"\ndownload_iwslt \"2017-01-mted-test\" nl en \"test.\"\ndownload_iwslt \"2017-01-mted-test\" en nl \"test.\"\n\ndownload_iwslt \"2017-01-ted-test\" ar en \"test.\"\ndownload_iwslt \"2017-01-ted-test\" en ar \"test.\"\ndownload_iwslt \"2017-01-ted-test\" ko en \"test.\"\ndownload_iwslt \"2017-01-ted-test\" en ko \"test.\"\ndownload_iwslt \"2015-01-test\" vi en \"test.\"\ndownload_iwslt \"2015-01-test\" en vi \"test.\"\n\necho \"extract training data tar balls\"\nextract_iwslt  DeEnItNlRo DeEnItNlRo\nextract_iwslt  ar en\nextract_iwslt  en ar\nextract_iwslt  ko en\nextract_iwslt  en ko\nextract_iwslt  vi en   \nextract_iwslt  en vi   \n\n\necho \"extracting iwslt test data\"\nfor lang in $langs; do\n    l=${lang:0:2}\n    extract_iwslt $l en \"test.\"\n    extract_iwslt en $l \"test.\"\ndone\n\necho \"convert dev and test data\"\nfor lang in $langs; do\n    s_lang=${lang:0:2}\n    convert_valid_test $s_lang en  \n    convert_valid_test en $s_lang\ndone\n\n\n\necho \"creating training data into $raw\"\nfor lang in $langs; do\n    generate_train $lang en_XX\n    generate_train en_XX $lang\ndone\n\necho \"creating iwslt dev data into raw\"\ngenerate_subset en_XX vi_VN valid \"IWSLT15.TED.tst2013\"\ngenerate_subset vi_VN en_XX valid \"IWSLT15.TED.tst2013\"\n\ngenerate_subset en_XX ar_AR valid \"IWSLT17.TED.tst2016\"\ngenerate_subset ar_AR en_XX valid \"IWSLT17.TED.tst2016\"\ngenerate_subset en_XX ko_KR valid \"IWSLT17.TED.tst2016\"\ngenerate_subset ko_KR en_XX valid \"IWSLT17.TED.tst2016\"\n\n\ngenerate_subset en_XX it_IT valid \"IWSLT17.TED.tst2010\"\ngenerate_subset it_IT en_XX valid \"IWSLT17.TED.tst2010\"\ngenerate_subset en_XX nl_XX valid \"IWSLT17.TED.tst2010\"\ngenerate_subset nl_XX en_XX valid \"IWSLT17.TED.tst2010\"\n\necho \"creating iswslt test data into raw\"\ngenerate_subset en_XX vi_VN test \"IWSLT15.TED.tst2015\"\ngenerate_subset vi_VN en_XX test \"IWSLT15.TED.tst2015\"\n\ngenerate_subset en_XX ar_AR test \"IWSLT17.TED.tst2017\"\ngenerate_subset ar_AR en_XX test \"IWSLT17.TED.tst2017\"\ngenerate_subset en_XX ko_KR test \"IWSLT17.TED.tst2017\"\ngenerate_subset ko_KR en_XX test \"IWSLT17.TED.tst2017\"\n\ngenerate_subset en_XX it_IT test \"IWSLT17.TED.tst2017.mltlng\"\ngenerate_subset it_IT en_XX test \"IWSLT17.TED.tst2017.mltlng\"\ngenerate_subset en_XX nl_XX test \"IWSLT17.TED.tst2017.mltlng\"\ngenerate_subset nl_XX en_XX test \"IWSLT17.TED.tst2017.mltlng\"\n\n# normalze iwslt directions into x-en\npushd $raw\nfor lang in $langs; do\n    for split in test valid; do\n        x_en_f1=$split.$lang-en_XX.en_XX\n        x_en_f2=$split.$lang-en_XX.${lang}\n\n        en_x_f1=$split.en_XX-$lang.en_XX\n        en_x_f2=$split.en_XX-$lang.${lang}        \n\n        if [ -f $en_x_f1 ] && [ ! -f $x_en_f1 ]; then\n            echo \"cp $en_x_f1 $x_en_f1\"\n            cp $en_x_f1 $x_en_f1\n        fi\n        if [ -f $x_en_f2 ] && [ ! -f $x_en_f2 ]; then\n            echo \"cp $en_x_f2 $x_en_f2\"\n            cp $en_x_f2 $x_en_f2\n        fi        \n    done\ndone\npopd"
  },
  {
    "path": "examples/multilingual/data_scripts/download_lotus.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nif [ -z $WORKDIR_ROOT ] ;\nthen\n        echo \"please specify your working directory root in environment variable WORKDIR_ROOT. Exitting...\"\n        exit\nfi\n\n\nSRCDIR=$WORKDIR_ROOT/indic_languages_corpus\nDESTDIR=${WORKDIR_ROOT}/ML50/raw/\nmkdir -p $SRCDIR\nmkdir -p $DESTDIR\n\ncd $SRCDIR\nwget http://lotus.kuee.kyoto-u.ac.jp/WAT/indic-multilingual/indic_languages_corpus.tar.gz\ntar -xvzf indic_languages_corpus.tar.gz\n\nSRC_EXTRACT_DIR=$SRCDIR/indic_languages_corpus/bilingual\n\ncp $SRC_EXTRACT_DIR/ml-en/train.ml $DESTDIR/train.ml_IN-en_XX.ml_IN\ncp $SRC_EXTRACT_DIR/ml-en/train.en $DESTDIR/train.ml_IN-en_XX.en_XX\ncp $SRC_EXTRACT_DIR/ml-en/dev.ml $DESTDIR/valid.ml_IN-en_XX.ml_IN\ncp $SRC_EXTRACT_DIR/ml-en/dev.en $DESTDIR/valid.ml_IN-en_XX.en_XX\ncp $SRC_EXTRACT_DIR/ml-en/test.ml $DESTDIR/test.ml_IN-en_XX.ml_IN\ncp $SRC_EXTRACT_DIR/ml-en/test.en $DESTDIR/test.ml_IN-en_XX.en_XX\n\ncp $SRC_EXTRACT_DIR/ur-en/train.ur $DESTDIR/train.ur_PK-en_XX.ur_PK\ncp $SRC_EXTRACT_DIR/ur-en/train.en $DESTDIR/train.ur_PK-en_XX.en_XX\ncp $SRC_EXTRACT_DIR/ur-en/dev.ur $DESTDIR/valid.ur_PK-en_XX.ur_PK\ncp $SRC_EXTRACT_DIR/ur-en/dev.en $DESTDIR/valid.ur_PK-en_XX.en_XX\ncp $SRC_EXTRACT_DIR/ur-en/test.ur $DESTDIR/test.ur_PK-en_XX.ur_PK\ncp $SRC_EXTRACT_DIR/ur-en/test.en $DESTDIR/test.ur_PK-en_XX.en_XX\n\ncp $SRC_EXTRACT_DIR/te-en/train.te $DESTDIR/train.te_IN-en_XX.te_IN\ncp $SRC_EXTRACT_DIR/te-en/train.en $DESTDIR/train.te_IN-en_XX.en_XX\ncp $SRC_EXTRACT_DIR/te-en/dev.te $DESTDIR/valid.te_IN-en_XX.te_IN\ncp $SRC_EXTRACT_DIR/te-en/dev.en $DESTDIR/valid.te_IN-en_XX.en_XX\ncp $SRC_EXTRACT_DIR/te-en/test.te $DESTDIR/test.te_IN-en_XX.te_IN\ncp $SRC_EXTRACT_DIR/te-en/test.en $DESTDIR/test.te_IN-en_XX.en_XX\n"
  },
  {
    "path": "examples/multilingual/data_scripts/download_ted_and_extract.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport itertools\nimport os\nimport csv\nfrom collections import defaultdict\nfrom six.moves import zip\nimport io\nimport wget\nimport sys\n\nfrom subprocess import check_call, check_output\n\n# scripts and data locations\nCWD = os.getcwd()\nUTILS = f\"{CWD}/utils\"\n\nMOSES = f\"{UTILS}/mosesdecoder\"\n\nWORKDIR_ROOT = os.environ.get('WORKDIR_ROOT', None)\n\nif WORKDIR_ROOT is None or  not WORKDIR_ROOT.strip():\n    print('please specify your working directory root in OS environment variable WORKDIR_ROOT. Exitting...\"')\n    sys.exit(-1)\n\n\n# please donwload mosesdecoder here:\ndetok_cmd = f'{MOSES}/scripts/tokenizer/detokenizer.perl'\n\n\ndef call(cmd):\n    print(f\"Executing: {cmd}\")\n    check_call(cmd, shell=True)\n\nclass MultiLingualAlignedCorpusReader(object):\n    \"\"\"A class to read TED talk dataset\n    \"\"\"\n\n    def __init__(self, corpus_path, delimiter='\\t',\n                 target_token=True, bilingual=True, corpus_type='file',\n                 lang_dict={'source': ['fr'], 'target': ['en']},\n                 eval_lang_dict=None, zero_shot=False,\n                 detok=True,\n                 ):\n\n        self.empty_line_flag = 'NULL'\n        self.corpus_path = corpus_path\n        self.delimiter = delimiter\n        self.bilingual = bilingual\n        self.lang_dict = lang_dict\n        self.lang_set = set()\n        self.target_token = target_token\n        self.zero_shot = zero_shot\n        self.eval_lang_dict = eval_lang_dict\n        self.corpus_type = corpus_type\n        self.detok = detok\n\n        for list_ in self.lang_dict.values():\n            for lang in list_:\n                self.lang_set.add(lang)\n\n        self.data = dict()\n        self.data['train'] = self.read_aligned_corpus(split_type='train')\n        self.data['test'] = self.read_aligned_corpus(split_type='test')\n        self.data['dev'] = self.read_aligned_corpus(split_type='dev')\n\n    def read_data(self, file_loc_):\n        data_list = list()\n        with io.open(file_loc_, 'r', encoding='utf8') as fp:\n            for line in fp:\n                try:\n                    text = line.strip()\n                except IndexError:\n                    text = self.empty_line_flag\n                data_list.append(text)\n        return data_list\n\n    def filter_text(self, dict_):\n        if self.target_token:\n            field_index = 1\n        else:\n            field_index = 0\n        data_dict = defaultdict(list)\n        list1 = dict_['source']\n        list2 = dict_['target']\n        for sent1, sent2 in zip(list1, list2):\n            try:\n                src_sent = ' '.join(sent1.split()[field_index: ])\n            except IndexError:\n                src_sent = 'NULL'\n\n            if src_sent.find(self.empty_line_flag) != -1 or len(src_sent) == 0:\n                continue\n\n            elif sent2.find(self.empty_line_flag) != -1 or len(sent2) == 0:\n                continue\n\n            else:\n                data_dict['source'].append(sent1)\n                data_dict['target'].append(sent2)\n        return data_dict\n\n    def read_file(self, split_type, data_type):\n        return self.data[split_type][data_type]\n\n    def save_file(self, path_, split_type, data_type, lang):\n        tok_file = tok_file_name(path_, lang)\n        with io.open(tok_file, 'w', encoding='utf8') as fp:\n            for line in self.data[split_type][data_type]:\n                fp.write(line + '\\n')\n        if self.detok:\n            de_tok(tok_file, lang)                \n\n    def add_target_token(self, list_, lang_id):\n        new_list = list()\n        token = '__' + lang_id + '__'\n        for sent in list_:\n            new_list.append(token + ' ' + sent)\n        return new_list\n\n    def read_from_single_file(self, path_, s_lang, t_lang):\n        data_dict = defaultdict(list)\n        with io.open(path_, 'r', encoding='utf8') as fp:\n            reader = csv.DictReader(fp, delimiter='\\t', quoting=csv.QUOTE_NONE)\n            for row in reader:\n                data_dict['source'].append(row[s_lang])\n                data_dict['target'].append(row[t_lang])\n\n        if self.target_token:\n            text = self.add_target_token(data_dict['source'], t_lang)\n            data_dict['source'] = text\n\n        return data_dict['source'], data_dict['target']\n\n    def read_aligned_corpus(self, split_type='train'):\n        data_dict = defaultdict(list)\n        iterable = []\n        s_list = []\n        t_list = []\n\n        if self.zero_shot:\n            if split_type == \"train\":\n                iterable = zip(self.lang_dict['source'], self.lang_dict['target'])\n            else:\n                iterable = zip(self.eval_lang_dict['source'], self.eval_lang_dict['target'])\n\n        elif self.bilingual:\n            iterable = itertools.product(self.lang_dict['source'], self.lang_dict['target'])\n\n        for s_lang, t_lang in iterable:\n            if s_lang == t_lang:\n                continue\n            if self.corpus_type == 'file':\n                split_type_file_path = os.path.join(self.corpus_path,\n                                                    \"all_talks_{}.tsv\".format(split_type))\n                s_list, t_list = self.read_from_single_file(split_type_file_path,\n                                                            s_lang=s_lang,\n                                                            t_lang=t_lang)\n            data_dict['source'] += s_list\n            data_dict['target'] += t_list\n        new_data_dict = self.filter_text(data_dict)\n        return new_data_dict\n\n\ndef read_langs(corpus_path):\n    split_type_file_path = os.path.join(corpus_path, 'extracted',\n                                        \"all_talks_dev.tsv\")    \n    with io.open(split_type_file_path, 'r', encoding='utf8') as fp:\n        reader = csv.DictReader(fp, delimiter='\\t', quoting=csv.QUOTE_NONE)\n        header = next(reader)\n        return [k for k in header.keys() if k != 'talk_name']\n\ndef extra_english(corpus_path, split):\n    split_type_file_path = os.path.join(corpus_path,\n                                        f\"all_talks_{split}.tsv\") \n    output_split_type_file_path = os.path.join(corpus_path,\n                                        f\"all_talks_{split}.en\")                                            \n    with io.open(split_type_file_path, 'r', encoding='utf8') as fp, io.open(output_split_type_file_path, 'w', encoding='utf8') as fw:\n        reader = csv.DictReader(fp, delimiter='\\t', quoting=csv.QUOTE_NONE)\n        for row in reader:\n            line = row['en']\n            fw.write(line + '\\n')\n    de_tok(output_split_type_file_path, 'en')\n\n\n\ndef tok_file_name(filename, lang):\n    seps = filename.split('.')\n    seps.insert(-1, 'tok')\n    tok_file = '.'.join(seps)\n    return tok_file\n\ndef de_tok(tok_file, lang):\n    # seps = tok_file.split('.')\n    # seps.insert(-1, 'detok')\n    # de_tok_file = '.'.join(seps)\n    de_tok_file = tok_file.replace('.tok.', '.')\n    cmd = 'perl {detok_cmd} -l {lang} < {tok_file} > {de_tok_file}'.format(\n        detok_cmd=detok_cmd, tok_file=tok_file,\n        de_tok_file=de_tok_file, lang=lang[:2])\n    call(cmd)\n\ndef extra_bitex(\n    ted_data_path,\n    lsrc_lang,\n    ltrg_lang,\n    target_token,\n    output_data_path,\n):\n    def get_ted_lang(lang):\n        long_langs = ['pt-br', 'zh-cn', 'zh-tw', 'fr-ca']\n        if lang[:5] in long_langs:\n            return lang[:5]\n        elif lang[:4] =='calv':\n            return lang[:5]\n        elif lang in ['pt_BR', 'zh_CN', 'zh_TW', 'fr_CA']:\n            return lang.lower().replace('_', '-')\n        return lang[:2]\n    src_lang = get_ted_lang(lsrc_lang)\n    trg_lang = get_ted_lang(ltrg_lang)\n    train_lang_dict={'source': [src_lang], 'target': [trg_lang]}\n    eval_lang_dict = {'source': [src_lang], 'target': [trg_lang]}\n\n    obj = MultiLingualAlignedCorpusReader(corpus_path=ted_data_path,\n                                          lang_dict=train_lang_dict,\n                                          target_token=target_token,\n                                          corpus_type='file',\n                                          eval_lang_dict=eval_lang_dict,\n                                          zero_shot=False,\n                                          bilingual=True)\n\n    os.makedirs(output_data_path, exist_ok=True)\n    lsrc_lang = lsrc_lang.replace('-', '_')\n    ltrg_lang = ltrg_lang.replace('-', '_')\n    obj.save_file(output_data_path + f\"/train.{lsrc_lang}-{ltrg_lang}.{lsrc_lang}\",\n                  split_type='train', data_type='source', lang=src_lang)\n    obj.save_file(output_data_path + f\"/train.{lsrc_lang}-{ltrg_lang}.{ltrg_lang}\",\n                  split_type='train', data_type='target', lang=trg_lang)\n\n    obj.save_file(output_data_path + f\"/test.{lsrc_lang}-{ltrg_lang}.{lsrc_lang}\",\n                  split_type='test', data_type='source', lang=src_lang)\n    obj.save_file(output_data_path + f\"/test.{lsrc_lang}-{ltrg_lang}.{ltrg_lang}\",\n                  split_type='test', data_type='target', lang=trg_lang)\n\n    obj.save_file(output_data_path + f\"/valid.{lsrc_lang}-{ltrg_lang}.{lsrc_lang}\",\n                  split_type='dev', data_type='source', lang=src_lang)\n    obj.save_file(output_data_path + f\"/valid.{lsrc_lang}-{ltrg_lang}.{ltrg_lang}\",\n                  split_type='dev', data_type='target', lang=trg_lang)\n\n\ndef bar_custom(current, total, width=80):\n    print(\"Downloading: %d%% [%d / %d] Ks\" % (current / total * 100, current / 1000, total / 1000), end='\\r')\n\n\ndef download_and_extract(download_to, extract_to):\n    url = 'http://phontron.com/data/ted_talks.tar.gz'\n    filename = f\"{download_to}/ted_talks.tar.gz\"\n    if os.path.exists(filename):\n        print(f'{filename} has already been downloaded so skip')\n    else:\n        filename = wget.download(url, filename, bar=bar_custom)\n    if os.path.exists(f'{extract_to}/all_talks_train.tsv'):\n        print(f'Already extracted so skip')\n    else:\n        extract_cmd = f'tar xzfv \"{filename}\" -C \"{extract_to}\"'\n        call(extract_cmd)\n\n\nif __name__ == \"__main__\":\n    import argparse\n    parser = argparse.ArgumentParser()\n    parser.add_argument('--ted_data_path', type=str, default=WORKDIR_ROOT, required=False)\n    parser.add_argument(\n        '--direction-list', \n        type=str, \n        # default=None,\n        #for ML50\n        default=(\n            \"bn_IN-en_XX,he_IL-en_XX,fa_IR-en_XX,id_ID-en_XX,sv_SE-en_XX,pt_XX-en_XX,ka_GE-en_XX,ka_GE-en_XX,th_TH-en_XX,\"\n            \"mr_IN-en_XX,hr_HR-en_XX,uk_UA-en_XX,az_AZ-en_XX,mk_MK-en_XX,gl_ES-en_XX,sl_SI-en_XX,mn_MN-en_XX,\"\n            #non-english directions\n            # \"fr_XX-de_DE,\" # replaced with wmt20\n            # \"ja_XX-ko_KR,es_XX-pt_XX,ru_RU-sv_SE,hi_IN-bn_IN,id_ID-ar_AR,cs_CZ-pl_PL,ar_AR-tr_TR\"\n        ), \n        required=False)\n    parser.add_argument('--target-token',  action='store_true', default=False)\n    parser.add_argument('--extract-all-english',  action='store_true', default=False)    \n\n    args = parser.parse_args()\n\n    import sys\n    import json\n\n    # TED Talks data directory\n    ted_data_path = args.ted_data_path\n\n    download_to = f'{ted_data_path}/downloads'\n    extract_to = f'{ted_data_path}/extracted'\n    \n    #DESTDIR=${WORKDIR_ROOT}/ML50/raw/\n    output_path = f'{ted_data_path}/ML50/raw'\n    os.makedirs(download_to, exist_ok=True)\n    os.makedirs(extract_to, exist_ok=True)\n    os.makedirs(output_path, exist_ok=True)\n    download_and_extract(download_to, extract_to)        \n\n\n    if args.extract_all_english:\n        for split in ['train', 'dev', 'test']:\n            extra_english(ted_data_path, split)\n        exit(0)     \n    if args.direction_list is not None: \n        directions = args.direction_list.strip().split(',')\n        directions = [tuple(d.strip().split('-', 1)) for d in directions if d]\n    else: \n        langs = read_langs(ted_data_path)\n        # directions = [\n        #     '{}.{}'.format(src, tgt) \n        #     for src in langs \n        #     for tgt in langs\n        #     if src < tgt\n        # ]\n        directions = [('en', tgt) for tgt in langs if tgt != 'en']\n    print(f'num directions={len(directions)}: {directions}')\n\n    for src_lang, trg_lang in directions:\n        print('--working on {}-{}'.format(src_lang, trg_lang))\n        extra_bitex(\n            extract_to,\n            src_lang,\n            trg_lang,\n            target_token=args.target_token,\n            output_data_path=output_path\n        )\n"
  },
  {
    "path": "examples/multilingual/data_scripts/download_wat19_my.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nif [ -z $WORKDIR_ROOT ] ;\nthen\n        echo \"please specify your working directory root in environment variable WORKDIR_ROOT. Exitting...\"\n        exit\nfi\n\n\nSRCDIR=$WORKDIR_ROOT/indic_languages_corpus\nDESTDIR=$WORKDIR_ROOT/ML50/raw\nmkdir -p $SRCDIR\nmkdir -p $DESTDIR\n\nWAT_MY_EN=wat2020.my-en.zip\ncd $SRCDIR\n# please refer to http://lotus.kuee.kyoto-u.ac.jp/WAT/my-en-data/ for latest URL if the following url expired\n#- The data used for WAT2020 are identical to those used in WAT2019.\nwget http://lotus.kuee.kyoto-u.ac.jp/WAT/my-en-data/$WAT_MY_EN\nunzip $WAT_MY_EN\n\n\nSRC_EXTRACT_DIR=$SRCDIR/wat2020.my-en/alt\n\ncp $SRC_EXTRACT_DIR/train.alt.en $DESTDIR/train.my_MM-en_XX.en_XX\ncp $SRC_EXTRACT_DIR/train.alt.my $DESTDIR/train.my_MM-en_XX.my_MM\ncp $SRC_EXTRACT_DIR/dev.alt.en $DESTDIR/valid.my_MM-en_XX.en_XX\ncp $SRC_EXTRACT_DIR/dev.alt.my $DESTDIR/valid.my_MM-en_XX.my_MM\ncp $SRC_EXTRACT_DIR/test.alt.en $DESTDIR/test.my_MM-en_XX.en_XX\ncp $SRC_EXTRACT_DIR/test.alt.my $DESTDIR/test.my_MM-en_XX.my_MM\n"
  },
  {
    "path": "examples/multilingual/data_scripts/download_wmt19_and_before.py",
    "content": "from typing import NamedTuple, List\nfrom urllib.parse import urlparse\nimport os, sys\nimport subprocess\nfrom subprocess import check_call, check_output\nimport glob\nimport wget\nimport re\nimport multiprocessing as mp\nfrom functools import partial\nimport pathlib\nfrom collections import OrderedDict \n\nWORKDIR_ROOT = os.environ.get('WORKDIR_ROOT', None)\n\nif WORKDIR_ROOT is None or  not WORKDIR_ROOT.strip():\n    print('please specify your working directory root in OS environment variable WORKDIR_ROOT. Exitting...\"')\n    sys.exit(-1)\n\n# scripts and data locations\nCWD = os.getcwd()\nUTILS = f\"{CWD}/utils\"\n\nMOSES = f\"{UTILS}/mosesdecoder\"\nSGM_TOOL = f'{MOSES}/scripts/ems/support/input-from-sgm.perl'\n\nTMX2CORPUS = f\"{UTILS}/tmx2corpus\"\nTMX_TOOL = f'python {TMX2CORPUS}/tmx2corpus.py'\n\nto_data_path = f'{WORKDIR_ROOT}/wmt'\ndownload_to = f'{to_data_path}/downloads'\nmanually_downloads = f'{to_data_path}/downloads'\nextract_to = f'{to_data_path}/extracted'\n#DESTDIR=${WORKDIR_ROOT}/ML50/raw/\nraw_data = f'{WORKDIR_ROOT}/ML50/raw'\n####\n\nclass DLDataset(NamedTuple):\n    name: str\n    train_urls: List[str]\n    valid_urls: List[str]\n    test_urls: List[str]        \n    train_files_patterns: List[str] = []\n    valid_files_patterns: List[str] = []\n    test_files_patterns: List[str] = []\n\n\n\ndef bar_custom(current, total, width=80):\n    print(\"Downloading: %d%% [%d / %d] Ks\" % (current / total * 100, current / 1000, total / 1000), end='\\r')\n\ndef get_downloaded_file(dl_folder, url):\n    if isinstance(url, tuple):\n        url, f = url\n    else:\n        url_f = urlparse(url)\n        # f = os.path.split(url_f.path)[-1]\n        f = '_'.join(url_f.path.split('/')[1:])\n    return url, f\"{dl_folder}/{f}\"\n\ndef download_parts_and_combine(dl_folder, urls, filename):\n    parts = []\n    for url_record in urls:\n        url, part_file = get_downloaded_file(dl_folder, url_record)     \n        if os.path.exists(part_file):\n            print(f'{part_file} has already been downloaded so skip')\n        else: \n            part_file = wget.download(url, part_file, bar=bar_custom)  \n        parts.append(part_file)\n\n    def get_combine_cmd(parts):           \n        #default as tar.gz.??\n        return f'cat {\" \".join(parts)} > {filename}'\n\n    combine_cmd = get_combine_cmd(parts)\n    call(combine_cmd, debug=True)\n    return filename\n\ndef download_a_url(dl_folder, url):\n    url, filename = get_downloaded_file(dl_folder, url)        \n    if os.path.exists(filename):\n        print(f'{filename} has already been downloaded so skip')\n        return filename\n\n    print(f'downloading {url} to {filename}')\n    if isinstance(url, list) or isinstance(url, tuple):\n        download_parts_and_combine(dl_folder, url, filename)\n    else:\n        wget.download(url, filename, bar=bar_custom)\n    print(f'dowloaded: {filename}')\n    return filename\n\ndef download_files(dl_folder, urls, completed_urls={}):\n    for url_record in urls:\n        url, _ = get_downloaded_file(dl_folder, url_record) \n        filename = download_a_url(dl_folder, url_record) \n        completed_urls[str(url)] = filename\n    return completed_urls\n\ndef check_need_manual_downalod(dl_folder, to_manually_download_urls):\n    to_be_manually_dowloaded = []\n    manually_completed_urls = {}\n    for url_record, instruction in to_manually_download_urls:\n        url, filename = get_downloaded_file(dl_folder, url_record)\n        if not os.path.exists(filename):\n            print(f'{url} need to be download manually, please download it manually following {instruction}; and copy it to {filename}')\n            to_be_manually_dowloaded.append((url, filename))\n        else:\n            manually_completed_urls[url] = filename\n    # if len(to_be_manually_dowloaded) > 0:\n    #     raise ValueError('Missing files that need to be downloaded manually; stop the process now.')\n    return to_be_manually_dowloaded\n        \ndef download_dataset(to_folder, dl_dataset, completed_urls={}):\n    download_files(to_folder, dl_dataset.train_urls, completed_urls)\n    download_files(to_folder, dl_dataset.valid_urls, completed_urls)\n    download_files(to_folder, dl_dataset.test_urls, completed_urls)\n    print('completed downloading')\n    return completed_urls\n\ndef call(cmd, debug=False):\n    if debug:\n        print(cmd)\n    check_call(cmd, shell=True)\n\n    \ndef get_extract_name(file_path):\n    path = os.path.split(file_path)\n    return path[-1] + '_extract' #.split('.')[0]\n\ndef extract_file(downloaded_file, extract_folder, get_extract_name=get_extract_name, debug=False):\n    extract_name = get_extract_name(downloaded_file)\n    extract_to = f'{extract_folder}/{extract_name}'\n    os.makedirs(extract_to, exist_ok=True)\n    if os.path.exists(f'{extract_to}/DONE'):\n        print(f'{downloaded_file} has already been extracted to {extract_to} so skip')\n        return extract_to\n    def get_extract_cmd(filename):\n        if filename.endswith('.tgz') or filename.endswith('tar.gz'):\n            return f'tar xzfv {filename} -C {extract_to}'\n        elif filename.endswith('.gz.tar'): \n            return f'tar xfv {filename} -C {extract_to}; (cd {extract_to}; gzip -d *.gz; [ $? -eq 0 ]  || gzip -d */*.gz)'  \n        elif filename.endswith('.tar'):\n            return f'tar xfv {filename} -C {extract_to}'        \n        elif filename.endswith('.gz'):\n            return f'cp {filename} {extract_to}; (cd {extract_to}; gzip -d *.gz)'\n        elif filename.endswith('.zip'):\n            return f'unzip {filename} -d {extract_to}'        \n    extract_cmd = get_extract_cmd(downloaded_file) \n    print(f'extracting {downloaded_file}')\n    if isinstance(extract_cmd, list):\n        for c in  extract_cmd:\n            call(c, debug=debug)\n    else:\n        call(extract_cmd, debug=debug)\n    call(f'echo DONE > {extract_to}/DONE')\n    return extract_to\n\n\ndef extract_all_files(\n    completed_urls, extract_folder,\n    get_extract_name=get_extract_name,\n    completed_extraction={},\n    debug=False):\n    extracted_folders = OrderedDict()\n    for url, downloaded_file in set(completed_urls.items()):\n        if downloaded_file in completed_extraction:\n            print(f'{downloaded_file} is already extracted; so skip')\n            continue\n        folder = extract_file(downloaded_file, extract_folder, get_extract_name, debug)\n        extracted_folders[url] = folder\n    return extracted_folders\n\n\ndef my_glob(folder):\n    for p in [f'{folder}/*', f'{folder}/*/*', f'{folder}/*/*/*']:\n        for f in glob.glob(p):\n            yield f\n\n\ndef sgm2raw(sgm, debug):\n    to_file = sgm[0:len(sgm) - len('.sgm')]\n    if os.path.exists(to_file):\n        debug and print(f'{sgm} already converted to {to_file}; so skip')\n        return to_file\n    cmd = f'{SGM_TOOL} < {sgm} > {to_file}'\n    call(cmd, debug)\n    return to_file\n\ndef tmx2raw(tmx, debug):\n    to_file = tmx[0:len(tmx) - len('.tmx')]\n    to_folder = os.path.join(*os.path.split(tmx)[:-1])\n    if os.path.exists(f'{to_folder}/bitext.en'):\n        debug and print(f'{tmx} already extracted to {to_file}; so skip')\n        return to_file\n    cmd = f'(cd {to_folder}; {TMX_TOOL} {tmx})'\n    call(cmd, debug)\n    return to_file\n\nCZENG16_REGEX = re.compile(r'.*?data.plaintext-format/0[0-9]train$')\nWMT19_WIKITITLES_REGEX = re.compile(r'.*?wikititles-v1.(\\w\\w)-en.tsv.gz')\nTSV_REGEX = re.compile(r'.*?(\\w\\w)-(\\w\\w).tsv$')\n\n\n\ndef cut_wikitles(wiki_file, debug):\n    # different languages have different file names: \n    if wiki_file.endswith('wiki/fi-en/titles.fi-en'):\n        to_file1 = f'{wiki_file}.fi'\n        to_file2 = f'{wiki_file}.en'\n        BACKSLASH = '\\\\'\n        cmd1 = f\"cat {wiki_file} | sed 's/|||/{BACKSLASH}t/g' |cut -f1 |awk '{{$1=$1}};1' > {to_file1}\"\n        cmd2 = f\"cat {wiki_file} | sed 's/|||/{BACKSLASH}t/g' |cut -f2 |awk '{{$1=$1}};1' > {to_file2}\"  \n#     elif WMT19_WIKITITLES_REGEX.match(wiki_file):\n#         src = WMT19_WIKITITLES_REGEX.match(wiki_file).groups()[0]\n#         to_file1 = f'{wiki_file}.{src}'\n#         to_file2 = f'{wiki_file}.en'\n#         cmd1 = f\"cat {wiki_file} | cut -f1 |awk '{{$1=$1}};1' > {to_file1}\"\n#         cmd2 = f\"cat {wiki_file} | cut -f2 |awk '{{$1=$1}};1' > {to_file2}\"\n    else:\n        return None\n    if os.path.exists(to_file1) and os.path.exists(to_file2):\n        debug and print(f'{wiki_file} already processed to {to_file1} and {to_file2}; so skip')\n        return wiki_file    \n\n    call(cmd1, debug=debug)\n    call(cmd2, debug=debug)\n    return wiki_file\n\ndef cut_tsv(file, debug):\n    m = TSV_REGEX.match(file)\n    if m is None:\n        raise ValueError(f'{file} is not matching tsv pattern')\n    src = m.groups()[0]\n    tgt = m.groups()[1]\n\n    to_file1 = f'{file}.{src}'\n    to_file2 = f'{file}.{tgt}' \n    cmd1 = f\"cat {file} | cut -f1 |awk '{{$1=$1}};1' > {to_file1}\"\n    cmd2 = f\"cat {file} | cut -f2 |awk '{{$1=$1}};1' > {to_file2}\"         \n    if os.path.exists(to_file1) and os.path.exists(to_file2):\n        debug and print(f'{file} already processed to {to_file1} and {to_file2}; so skip')\n        return file    \n\n    call(cmd1, debug=debug)\n    call(cmd2, debug=debug)\n    return file    \n\n    \ndef convert_file_if_needed(file, debug):\n    if file.endswith('.sgm'):\n        return sgm2raw(file, debug)\n    elif file.endswith('.tmx'):\n        return tmx2raw(file, debug)\n    elif file.endswith('wiki/fi-en/titles.fi-en'):\n        return cut_wikitles(file, debug)\n#     elif WMT19_WIKITITLES_REGEX.match(file):\n#         return cut_wikitles(file, debug)\n    elif file.endswith('.tsv'):\n        return cut_tsv(file, debug)\n    elif CZENG16_REGEX.match(file):\n        return convert2czeng17(file, debug)\n    else:\n        return file\n\n\ndef convert_files_if_needed(extracted_foldrs, my_glob=my_glob, debug=False):\n    return {\n        url: list(sorted(set(convert_file_if_needed(f, debug)) for f in sorted(set(my_glob(folder)))))\n        for url, folder in extracted_foldrs.items()\n    }\n        \ndef match_patt(file_path, file_pattern, src, tgt, lang):    \n    return file_pattern.format(src=src, tgt=tgt, lang=lang) in file_path\n\ndef match_patts(file_path, file_patterns, src, tgt, lang):\n    for file_pattern in file_patterns:\n        params = { k: v for k, v in [('src', src), ('tgt', tgt), ('lang', lang)] if k in file_pattern}\n        matching = file_pattern.format(**params)   \n\n        if isinstance(file_pattern, tuple):\n            pattern, directions = file_pattern\n            if f'{src}-{tgt}' in directions and matching in file_path:\n                return True\n        else:\n            if matching in file_path:\n                return True\n    return False\n\ndef extracted_glob(extracted_folder, file_patterns, src, tgt, lang):\n    def get_matching_pattern(file_pattern):\n        params = {\n            k: v \n            for k, v in [('src', src), ('tgt', tgt), ('lang', lang)] \n            if '{' + k + '}' in file_pattern\n        }\n        file_pattern = re.sub(r'{src:(.*?)}', r'\\1' if lang == src else '', file_pattern)\n        file_pattern = re.sub(r'{tgt:(.*?)}', r'\\1' if lang == tgt else '', file_pattern)\n        file_pattern = file_pattern.format(**params)\n        return file_pattern\n    for file_pattern in file_patterns:\n        if isinstance(file_pattern, tuple):\n            file_pattern, lang_pairs = file_pattern\n            if f'{src}-{tgt}' not in lang_pairs:\n                continue\n#         print('working on pattern: ', file_pattern, lang_pairs )\n        matching_pattern = get_matching_pattern(file_pattern)\n        if matching_pattern is None:\n            continue\n        glob_patterns = f'{extracted_folder}/{matching_pattern}'\n#         print('glob_patterns: ', glob_patterns)\n        for f in glob.glob(glob_patterns):\n            yield f       \n\n# for debug usage\ndef all_extracted_files(split, src, tgt, extracted_folders, split_urls):\n    def get_url(url):\n        if isinstance(url, tuple):\n            url, downloaded_file = url        \n        return url\n    return [\n        f\n        for url in split_urls\n        for f in my_glob(extracted_folders[str(get_url(url))])        \n    ]\n\ndef concat_files(split, src, tgt, extracted_folders, split_urls, path_patterns, to_folder, debug=False):\n#     if debug:\n#         print('extracted files to be filtered by patterns: ', \n#               '\\n\\t'.join(sorted(all_extracted_files(split, src, tgt, extracted_folders, split_urls))))\n    for lang in [src, tgt]:\n        to_file = f'{to_folder}/{split}.{src}-{tgt}.{lang}'\n        s_src, s_tgt, s_lang = src.split('_')[0], tgt.split('_')[0], lang.split('_')[0]\n        files = []\n        for url in split_urls:\n            if isinstance(url, tuple):\n                url, downloaded_file = url\n            if str(url) not in extracted_folders:\n                print(f'warning: {url} not in extracted files')\n            for extracted_file in set(\n                extracted_glob(\n                    extracted_folders[str(url)], path_patterns, \n                    s_src, s_tgt, s_lang)):\n                files.append(extracted_file)\n        if len(files) == 0:\n            print('warning: ', f'No files found for split {to_file}')\n            continue\n        files = sorted(set(files))\n        print(f'concating {len(files)} files into {to_file}')\n        cmd = ['cat'] + [f'\"{f}\"' for f in files] + [f'>{to_file}']\n        cmd = \" \".join(cmd)\n        call(cmd, debug=debug)\n\nUTILS = os.path.join(pathlib.Path(__file__).parent, 'utils')\nLID_MODEL = f'{download_to}/lid.176.bin'\nLID_MULTI = f'{UTILS}/fasttext_multi_filter.py'\n\ndef lid_filter(split, src, tgt, from_folder, to_folder, debug=False):\n    if not os.path.exists(LID_MODEL):\n        call(f'wget -nc https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -O {LID_MODEL}')\n    from_prefix = f'{from_folder}/{split}.{src}-{tgt}'\n    to_prefix = f'{to_folder}/{split}.{src}-{tgt}'\n    if os.path.exists(f'{from_prefix}.{src}') and os.path.exists(f'{from_prefix}.{tgt}'):\n        s_src, s_tgt = src.split('_')[0], tgt.split('_')[0]  \n        cmd = (\n            f'python {LID_MULTI} --model {LID_MODEL} --inputs {from_prefix}.{src} {from_prefix}.{tgt} '\n            f'--langs {s_src} {s_tgt} --outputs {to_prefix}.{src} {to_prefix}.{tgt}'\n        )\n        print(f'filtering {from_prefix}')\n        call(cmd, debug=debug)\n\ndef concat_into_splits(dl_dataset, src, tgt, extracted_folders, to_folder, debug):\n    to_folder_tmp = f\"{to_folder}_tmp\"\n    os.makedirs(to_folder_tmp, exist_ok=True)\n    concat_files('train', src, tgt,\n                 extracted_folders,\n                 split_urls=dl_dataset.train_urls,\n                 path_patterns=dl_dataset.train_files_patterns,\n                 to_folder=to_folder_tmp, debug=debug)\n    lid_filter('train', src, tgt, to_folder_tmp, to_folder, debug)\n\n    concat_files('valid', src, tgt,\n                 extracted_folders, \n                 split_urls=dl_dataset.valid_urls, \n                 path_patterns=dl_dataset.valid_files_patterns, \n                 to_folder=to_folder, debug=debug)\n    concat_files('test', src, tgt, \n                 extracted_folders, \n                 split_urls=dl_dataset.test_urls, \n                 path_patterns=dl_dataset.test_files_patterns, \n                 to_folder=to_folder, debug=debug)\n            \n\ndef download_multi(dl_folder, extract_folder, urls, num_processes=8, debug=False):\n    pool = mp.Pool(processes=num_processes)\n    download_f = partial(download_a_url, dl_folder)\n    downloaded_files = pool.imap_unordered(download_f, urls)\n    pool.close()\n    pool.join()\n\nBLEU_REGEX = re.compile(\"^BLEU\\\\S* = (\\\\S+) \")\ndef run_eval_bleu(cmd):\n    output = check_output(cmd, shell=True, stderr=subprocess.STDOUT).decode(\"utf-8\").strip()\n    print(output)\n    bleu = -1.0\n    for line in output.strip().split('\\n'):\n        m = BLEU_REGEX.search(line)\n        if m is not None:\n            bleu = m.groups()[0]\n            bleu = float(bleu)\n            break\n    return bleu\n\ndef check_wmt_test_bleu(raw_folder, wmt_lang_pairs):\n    not_matchings = []\n    for wmt, src_tgts in wmt_lang_pairs:\n        for src_tgt in src_tgts:\n            print(f'checking test bleus for: {src_tgt} at {wmt}')\n            src, tgt = src_tgt.split('-')\n            ssrc, stgt = src[:2], tgt[:2]\n            if os.path.exists(f'{raw_folder}/test.{tgt}-{src}.{src}'):\n                # reversed direction may have different test set\n                test_src = f'{raw_folder}/test.{tgt}-{src}.{src}'\n            else:\n                test_src = f'{raw_folder}/test.{src}-{tgt}.{src}'\n            cmd1 = f'cat {test_src} | sacrebleu -t \"{wmt}\" -l {stgt}-{ssrc}; [ $? -eq 0 ] || echo \"\"'\n            test_tgt = f'{raw_folder}/test.{src}-{tgt}.{tgt}'       \n            cmd2 = f'cat {test_tgt} | sacrebleu -t \"{wmt}\" -l {ssrc}-{stgt}; [ $? -eq 0 ] || echo \"\"'\n            bleu1 = run_eval_bleu(cmd1) \n            if bleu1 != 100.0:\n                not_matchings.append(f'{wmt}:{src_tgt} source side not matching: {test_src}')\n            bleu2 = run_eval_bleu(cmd2) \n            if bleu2 != 100.0:\n                not_matchings.append(f'{wmt}:{src_tgt} target side not matching: {test_tgt}')\n    return not_matchings         \n \ndef download_and_extract(\n    to_folder, lang_pairs, dl_dataset, \n    to_manually_download_urls, \n    completed_urls={}, completed_extraction={},\n    debug=False):\n\n    dl_folder = f'{to_folder}/downloads'\n    extract_folder = f'{to_folder}/extracted'\n    raw_folder =  f'{to_folder}/raw'\n    lid_filtered = f'{to_folder}/lid_filtered'\n\n    os.makedirs(extract_folder, exist_ok=True)\n    os.makedirs(raw_folder, exist_ok=True)\n    os.makedirs(lid_filtered, exist_ok=True)\n\n    \n    to_be_manually_dowloaded = check_need_manual_downalod(dl_folder, to_manually_download_urls)\n\n    completed_urls = download_dataset(\n        dl_folder, dl_dataset, completed_urls)\n    if debug:\n        print('completed urls: ', completed_urls)\n    \n\n    extracted_folders = extract_all_files(\n        completed_urls,\n        extract_folder=extract_folder, \n        completed_extraction=completed_extraction,\n        debug=debug)\n    if debug:\n        print('download files have been extracted to folders: ', extracted_folders)\n\n    converted_files = convert_files_if_needed(extracted_folders, debug=False)\n    for src_tgt in lang_pairs:\n        print(f'working on {dl_dataset.name}: {src_tgt}')\n        src, tgt = src_tgt.split('-')\n        concat_into_splits(dl_dataset, \n                            src=src, tgt=tgt,\n                            extracted_folders=extracted_folders, \n                            to_folder=raw_folder, debug=debug)                            \n    print('completed data into: ', raw_folder)\n\ndef download_czang16(download_to, username=None):\n    wgets = [\n        f'wget --user={username} --password=czeng -P {download_to} http://ufallab.ms.mff.cuni.cz/~bojar/czeng16-data/data-plaintext-format.{i}.tar'\n        for i in range(10)]\n    cmds = []\n    for i, cmd in enumerate(wgets):\n        filename = f'{download_to}/data-plaintext-format.{i}.tar'\n        if os.path.exists(filename):\n            print(f'{filename} has already been downloaded; so skip')\n            continue\n        cmds.append(cmd)\n    if cmds and username is None:\n        raise ValueError('No czeng username is given; please register at http://ufal.mff.cuni.cz/czeng/czeng16 to obtain username to download')        \n    for cmd in cmds:\n        call(cmd)\n    print('done with downloading czeng1.6')\n\ndef download_czeng17_script(download_to, extract_folder, debug=False):\n    url = 'http://ufal.mff.cuni.cz/czeng/download.php?f=convert_czeng16_to_17.pl.zip'\n    filename = f'{download_to}/convert_czeng16_to_17.pl.zip'\n    extract_to = f'{extract_folder}/{get_extract_name(filename)}'\n    script_path = f'{extract_to}/convert_czeng16_to_17.pl'\n    \n    if not os.path.exists(script_path):\n        wget.download(url, filename, bar=bar_custom)  \n        extract_to = extract_file(f'{download_to}/convert_czeng16_to_17.pl.zip', extract_folder, get_extract_name=get_extract_name, debug=debug)    \n    return script_path\n\nczeng17_script_path = \"\"\ndef convert2czeng17(file, debug):\n    en_file = f'{file}.en'\n    cs_file = f'{file}.cs'\n    \n    if not os.path.exists(en_file) or not os.path.exists(cs_file):\n        cs_cmd = f'cat {file} | perl {czeng17_script_path} | cut -f3 > {cs_file}'\n        en_cmd = f'cat {file} | perl {czeng17_script_path} | cut -f4 > {en_file}'\n        call(cs_cmd, debug)\n        call(en_cmd, debug)\n    else:\n        print(f'already extracted: {en_file} and {cs_file}')\n    return file\n\ndef extract_czeng17(extract_folder, debug=False):\n    url = 'http://ufal.mff.cuni.cz/czeng/download.php?f=convert_czeng16_to_17.pl.zip'\n    filename = f'{download_to}/convert_czeng16_to_17.pl.zip'\n    extract_to = f'{extract_folder}/{get_extract_name(filename)}'\n    script_path = f'{extract_to}/convert_czeng16_to_17.pl'\n    \n    if not os.path.exists(script_path):\n        wget.download(url, filename, bar=bar_custom)  \n        extract_to = extract_file(f'{download_to}/convert_czeng16_to_17.pl.zip', extract_folder, get_extract_name=get_extract_name, debug=debug)    \n    return script_path\n\n#########\n# definitions of wmt data sources\n# for es-en\n# Punctuation in the official test sets will be encoded with ASCII characters (not complex Unicode characters) as much as possible. You may want to normalize your system's output before submission. You are able able to use a rawer version of the test sets that does not have this normalization.\n# script to normalize punctuation: http://www.statmt.org/wmt11/normalize-punctuation.perl\nwmt13_es_en = DLDataset(\n    name='wmt13_es-en',\n    train_urls=[\n        'http://www.statmt.org/wmt13/training-parallel-europarl-v7.tgz',\n        'http://www.statmt.org/wmt13/training-parallel-commoncrawl.tgz',\n        'http://www.statmt.org/wmt13/training-parallel-un.tgz',\n        'http://www.statmt.org/wmt13/training-parallel-nc-v8.tgz',\n    ],\n    valid_urls=[\n        ('http://www.statmt.org/wmt13/dev.tgz', 'wmt13_dev.tgz')\n    ],\n    test_urls=[\n        ('http://www.statmt.org/wmt13/test.tgz', 'wmt13_test.tgz')\n    ],\n    train_files_patterns=[\n        ('*/europarl-v7.{src}-{tgt}.{lang}', ['es-en']), \n        ('*commoncrawl.{src}-{tgt}.{lang}', ['es-en']),\n        ('*/news-commentary-v8.{src}-{tgt}.{lang}', ['es-en']),\n        ('un/*undoc.2000.{src}-{tgt}.{lang}', ['es-en']), \n    ] ,\n    valid_files_patterns=[\n    ('dev/newstest2012.{lang}', ['es-en'])\n    ],\n    test_files_patterns=[\n    ('test/newstest*.{lang}', ['es-en'])\n    ],\n)\n\nwmt14_de_fr_en = DLDataset(\n    name='wmt14_de_fr_en',\n    train_urls=[\n        'http://www.statmt.org/wmt13/training-parallel-europarl-v7.tgz',\n        'http://www.statmt.org/wmt13/training-parallel-commoncrawl.tgz',\n        'http://www.statmt.org/wmt13/training-parallel-un.tgz',\n        'http://www.statmt.org/wmt14/training-parallel-nc-v9.tgz',\n        ('http://www.statmt.org/wmt10/training-giga-fren.tar', 'training-giga-fren.gz.tar'), #it is actuall a gz.tar \n    ],\n    valid_urls=[\n        ('http://www.statmt.org/wmt14/dev.tgz', 'wmt14_dev.tgz'),\n    ],\n    test_urls=[\n        ('http://www.statmt.org/wmt14/test-full.tgz', 'wmt14_test_full.tgz'), # cleaned test sets\n    ],\n    train_files_patterns=[\n        ('*/europarl-v7.{src}-{tgt}.{lang}', ['fr-en', 'de-en']), \n        ('*commoncrawl.{src}-{tgt}.{lang}', ['fr-en', 'de-en']),\n        ('*/*news-commentary-v9.{src}-{tgt}.{lang}', ['fr-en', 'de-en']),\n        ('un/undoc.2000.{src}-{tgt}.{lang}', ['fr-en']),    \n        ('*giga-{src}{tgt}*{lang}', ['fr-en'])\n    ],\n    valid_files_patterns=[\n    ('dev/newstest2013.{lang}', ['fr-en', 'de-en'])\n    ],\n    test_files_patterns=[ \n    ('test-full/newstest*{src}{tgt}-{src:src}{tgt:ref}.{lang}', ['en-de', 'de-en', 'fr-en', 'en-fr']),                      \n    ],\n)\n\n# pip install git+https://github.com/amake/tmx2corpus.git\nwmt16_ro_en = DLDataset(\n    name='wmt16_ro-en',\n    train_urls=[\n        ('http://data.statmt.org/wmt16/translation-task/training-parallel-ep-v8.tgz', 'wmt16_training-parallel-ep-v8.tgz'),\n        ('http://opus.nlpl.eu/download.php?f=SETIMES/v2/tmx/en-ro.tmx.gz', 'en-ro.tmx.gz'),\n    ],\n    valid_urls=[\n        ('http://data.statmt.org/wmt16/translation-task/dev-romanian-updated.tgz', 'wmt16_dev.tgz')\n    ],\n    test_urls=[\n        ('http://data.statmt.org/wmt16/translation-task/test.tgz', 'wmt16_test.tgz')\n    ],\n    train_files_patterns=[\n        ('*/*europarl-v8.{src}-{tgt}.{lang}', ['ro-en']), \n        ('bitext.{lang}', ['ro-en']) #setimes from tmux\n        ] ,\n    valid_files_patterns=[\n    ('dev/newsdev2016*{src}{tgt}*.{lang}', ['ro-en', 'ro-en'])\n    ],\n    test_files_patterns=[\n    ('test/newstest*{src}{tgt}*.{lang}', ['ro-en', 'en-ro'])\n    ],\n)\n\ncwmt_wmt_instruction = 'cwmt download instruction at: http://nlp.nju.edu.cn/cwmt-wmt'\nwmt17_fi_lv_tr_zh_en_manual_downloads = [\n    # fake urls to have unique keys for the data\n    ( ('http://nlp.nju.edu.cn/cwmt-wmt/CASIA2015.zip', 'CASIA2015.zip'), cwmt_wmt_instruction),\n    ( ('http://nlp.nju.edu.cn/cwmt-wmt/CASICT2011.zip', 'CASICT2011.zip'), cwmt_wmt_instruction),\n    ( ('http://nlp.nju.edu.cn/cwmt-wmt/CASICT2015.zip', 'CASICT2015.zip'), cwmt_wmt_instruction),\n    ( ('http://nlp.nju.edu.cn/cwmt-wmt/Datum2015.zip', 'Datum2015.zip'), cwmt_wmt_instruction),\n    ( ('http://nlp.nju.edu.cn/cwmt-wmt/Datum2017.zip', 'Datum2017.zip'), cwmt_wmt_instruction),\n    ( ('http://nlp.nju.edu.cn/cwmt-wmt/NEU2017.zip', 'NEU2017.zip'), cwmt_wmt_instruction),    \n]\nwmt17_fi_lv_tr_zh_en = DLDataset(\n    name='wmt17_fi_lv_tr_zh_en',\n    train_urls=[\n        ('http://data.statmt.org/wmt17/translation-task/training-parallel-ep-v8.tgz', 'wmt17_training-parallel-ep-v8.tgz'),\n        'http://data.statmt.org/wmt17/translation-task/training-parallel-nc-v12.tgz',\n        'http://www.statmt.org/wmt15/wiki-titles.tgz',\n        ('http://opus.nlpl.eu/download.php?f=SETIMES/v2/tmx/en-tr.tmx.gz', 'en-tr.tmx.gz'),\n        ('http://data.statmt.org/wmt17/translation-task/rapid2016.tgz', 'wmt17_rapid2016.tgz'),\n        'http://data.statmt.org/wmt17/translation-task/leta.v1.tgz',\n        'http://data.statmt.org/wmt17/translation-task/dcep.lv-en.v1.tgz',\n        'http://data.statmt.org/wmt17/translation-task/books.lv-en.v1.tgz',\n        (('https://stuncorpusprod.blob.core.windows.net/corpusfiles/UNv1.0.en-zh.tar.gz.00',\n        'https://stuncorpusprod.blob.core.windows.net/corpusfiles/UNv1.0.en-zh.tar.gz.01',), 'UNv1.0.en-zh.tar.gz'),\n        #manually download files:\n        ('http://nlp.nju.edu.cn/cwmt-wmt/CASIA2015.zip', 'CASIA2015.zip'),  \n        ('http://nlp.nju.edu.cn/cwmt-wmt/CASICT2011.zip', 'CASICT2011.zip'),  \n        ('http://nlp.nju.edu.cn/cwmt-wmt/CASICT2015.zip', 'CASICT2015.zip'),  \n        ('http://nlp.nju.edu.cn/cwmt-wmt/Datum2015.zip', 'Datum2015.zip'), \n        ('http://nlp.nju.edu.cn/cwmt-wmt/Datum2017.zip', 'Datum2017.zip'),  \n        ('http://nlp.nju.edu.cn/cwmt-wmt/NEU2017.zip', 'NEU2017.zip'),          \n    ],\n    valid_urls=[\n        ('http://data.statmt.org/wmt17/translation-task/dev.tgz', 'wmt17_dev.tgz'),\n    ],\n    test_urls=[\n        #NEW: Improved translations for zh test sets\n        ('http://data.statmt.org/wmt17/translation-task/test-update-1.tgz', 'wmt17_test_zh_en.tgz'),    \n        ('http://data.statmt.org/wmt17/translation-task/test.tgz', 'wmt17_test_others.tgz')\n    ],\n    train_files_patterns=[\n        ('casict*/cas*{src:ch}{tgt:en}.txt', ['zh-en', 'zh-en'] ),\n        ('casia*/cas*{src:ch}{tgt:en}.txt', ['zh-en', 'zh-en'] ),\n        ('dataum*/Book*{src:cn}{tgt:en}.txt', ['zh-en', 'zh-en']),\n        ('neu*/NEU*{src:cn}{tgt:en}.txt', ['zh-en', 'zh-en'] ),\n        ('*/*UNv1.0.en-zh.{src:zh}{tgt:en}', ['zh-en']),\n        ('training/*news-commentary-v12.{src}-{tgt}.{lang}', ['zh-en', ]),\n        \n        ('*/*europarl-v8.{src}-{tgt}.{lang}', ['fi-en', 'lv-en']),\n        ('wiki/fi-en/titles.{src}-{tgt}.{lang}', ['fi-en', ]),  \n        ('rapid2016.{tgt}-{src}.{lang}', ['fi-en', 'lv-en']),\n        ('*/leta.{lang}', ['lv-en']),\n        ('*/dcep.{lang}', ['lv-en']),\n        ('*/farewell.{lang}', ['lv-en']),       \n        ('bitext.{lang}', ['tr-en']),\n    ] ,\n    valid_files_patterns=[\n    ('dev/newsdev2017*{src}{tgt}-{src:src}{tgt:ref}.{lang}', \n    [\n        'fi-en', 'lv-en', 'tr-en', 'zh-en',\n        'en-fi', 'en-lv', 'en-tr', 'en-zh'\n    ]),                      \n    ('dev/newstest2016*{src}{tgt}-{src:src}{tgt:ref}.{lang}', \n    [\n        'fi-en',  'tr-en',  \n        'en-fi',  'en-tr',  \n    ]),  \n    ],\n    test_files_patterns=[\n    ('test/newstest2017-{src}{tgt}-{src:src}{tgt:ref}.{lang}', \n    [\n        'fi-en', 'lv-en', 'tr-en', \n        'en-fi', 'en-lv', 'en-tr',  \n    ]),\n    ('newstest2017-{src}{tgt}-{src:src}{tgt:ref}.{lang}', \n    [\n        'zh-en',\n        'en-zh'\n    ]),\n    ],\n)\n\nczeng_instruction = 'download instruction at: http://ufal.mff.cuni.cz/czeng/czeng16'\n#alternative: use the prepared data but detokenize it?\nwmt18_cs_et_en_manual_downloads = [\n#for cs, need to register and download; Register and download CzEng 1.6.  \n#Better results can be obtained by using a subset of sentences, released under a new version name CzEng 1.7.\n    # ((f'http://ufallab.ms.mff.cuni.cz/~bojar/czeng16-data/data-plaintext-format.{i}.tar', \n    #     f'data-plaintext-format.{i}.tar'), czeng_instruction)\n    # for i in range(10)\n]\n\nwmt18_cs_et_en = DLDataset(\n    name='wmt18_cs_et_en',\n    train_urls=[\n        'http://www.statmt.org/wmt13/training-parallel-europarl-v7.tgz',\n        'http://data.statmt.org/wmt18/translation-task/training-parallel-ep-v8.tgz',\n        'https://s3.amazonaws.com/web-language-models/paracrawl/release1/paracrawl-release1.en-cs.zipporah0-dedup-clean.tgz',\n        'https://s3.amazonaws.com/web-language-models/paracrawl/release1/paracrawl-release1.en-et.zipporah0-dedup-clean.tgz',\n        'http://www.statmt.org/wmt13/training-parallel-commoncrawl.tgz',\n        'http://data.statmt.org/wmt18/translation-task/training-parallel-nc-v13.tgz',\n        ('http://data.statmt.org/wmt18/translation-task/rapid2016.tgz', 'wmt18_rapid2016.tgz'),\n        # (tuple(\n        #     (f'http://ufallab.ms.mff.cuni.cz/~bojar/czeng16-data/data-plaintext-format.{i}.tar', \n        #     f'data-plaintext-format.{i}.tar')\n        #     for i in range(10)\n        # ), \n        # 'czeng16_data_plaintext.gz.tar'), \n    ],\n    valid_urls=[\n        ('http://data.statmt.org/wmt18/translation-task/dev.tgz', 'wmt18_dev.tgz'),\n    ],\n    test_urls=[\n        ('http://data.statmt.org/wmt18/translation-task/test.tgz', 'wmt18_test.tgz'),\n    ],\n    train_files_patterns=[\n        # ('*/*europarl-v7.{src}-{tgt}.{lang}', ['cs-en']),\n        ('*/*europarl-v8.{src}-{tgt}.{lang}', ['et-en']),\n        # ('*paracrawl-release1.{tgt}-{src}.zipporah0-dedup-clean.{lang}', ['cs-en', 'et-en']),\n        ('*paracrawl-release1.{tgt}-{src}.zipporah0-dedup-clean.{lang}', ['et-en']),\n        # ('*commoncrawl.{src}-{tgt}.{lang}', ['cs-en']),\n        # ('*/news-commentary-v13.{src}-{tgt}.{lang}', ['cs-en']),\n        # ('data.plaintext-format/*train.{lang}', ['cs-en']),\n        ('rapid2016.{tgt}-{src}.{lang}', ['et-en']),\n    ] ,\n    valid_files_patterns=[\n    ('dev/newsdev2018*{src}{tgt}-{src:src}{tgt:ref}.{lang}', ['et-en']),\n    # ('dev/newstest2017*{src}{tgt}-{src:src}{tgt:ref}.{lang}', ['cs-en'])        \n    ],\n    test_files_patterns=[\n    ('test/newstest2018-{src}{tgt}-{src:src}{tgt:ref}.{lang}', \n    # ['cs-en', 'et-en']),\n    ['et-en']),\n    ]\n)\n\nru_en_yandex_instruction = 'Yandex Corpus download instruction at: https://translate.yandex.ru/corpus?lang=en'\nwmt19_ru_gu_kk_lt_manual_downloads = [\n    (('https://translate.yandex.ru/corpus?lang=en', 'wmt19_1mcorpus.zip'), ru_en_yandex_instruction)\n]\nwmt19_ru_gu_kk_lt = DLDataset(\n    name='wmt19_ru_gu_kk_lt',\n    train_urls=[\n        'http://www.statmt.org/europarl/v9/training/europarl-v9.lt-en.tsv.gz',\n        'https://s3.amazonaws.com/web-language-models/paracrawl/release3/en-lt.bicleaner07.tmx.gz',\n        'https://s3.amazonaws.com/web-language-models/paracrawl/release1/paracrawl-release1.en-ru.zipporah0-dedup-clean.tgz',\n        'http://www.statmt.org/wmt13/training-parallel-commoncrawl.tgz',\n        'http://data.statmt.org/news-commentary/v14/training/news-commentary-v14-wmt19.en-kk.tsv.gz',\n        'http://data.statmt.org/news-commentary/v14/training/news-commentary-v14.en-ru.tsv.gz',\n        'http://data.statmt.org/wikititles/v1/wikititles-v1.kk-en.tsv.gz',\n        'http://data.statmt.org/wikititles/v1/wikititles-v1.ru-en.tsv.gz',\n        'http://data.statmt.org/wikititles/v1/wikititles-v1.kk-en.tsv.gz',\n        'http://data.statmt.org/wikititles/v1/wikititles-v1.lt-en.tsv.gz',\n        'http://data.statmt.org/wikititles/v1/wikititles-v1.gu-en.tsv.gz',\n        (('https://stuncorpusprod.blob.core.windows.net/corpusfiles/UNv1.0.en-ru.tar.gz.00',\n        'https://stuncorpusprod.blob.core.windows.net/corpusfiles/UNv1.0.en-ru.tar.gz.01',\n        'https://stuncorpusprod.blob.core.windows.net/corpusfiles/UNv1.0.en-ru.tar.gz.02',), \n        'wmt19_UNv1.0.en-ru.tar.gz'),\n        'https://tilde-model.s3-eu-west-1.amazonaws.com/rapid2016.en-lt.tmx.zip',\n        ('https://translate.yandex.ru/corpus?lang=en', 'wmt19_1mcorpus.zip'),\n    ],\n    valid_urls=[\n        ('http://data.statmt.org/wmt19/translation-task/dev.tgz', 'wmt19_dev.tgz'),\n    ],\n    test_urls=[\n        ('http://data.statmt.org/wmt19/translation-task/test.tgz', 'wmt19_test.tgz'),\n    ],\n    train_files_patterns=[\n        ('*europarl-v9.{src}-{tgt}.tsv.{lang}', ['lt-en']),\n        #paracrawl\n        ('*paracrawl-release1.{tgt}-{src}.zipporah0-dedup-clean.{lang}', ['ru-en']),\n        ('bitext.{lang}', ['lt-en',]),\n        ('*commoncrawl.{src}-{tgt}.{lang}', ['ru-en',]),\n        ('*news-commentary-v14-wmt19.{tgt}-{src}.tsv.{lang}', ['kk-en', ]),\n        ('*news-commentary-v14.{tgt}-{src}.tsv.{lang}', ['ru-en']),\n        #yandex\n        ('corpus.{tgt}_{src}.1m.{lang}', ['ru-en']),\n        ('wikititles_v1_wikititles-v1.{src}-{tgt}.tsv.{lang}', ['ru-en', 'kk-en', 'lt-en', 'gu-en']),\n        ('*/UNv1.0.{tgt}-{src}.{lang}', ['ru-en']),\n        #rapid\n        ('bitext.{lang}', ['lt-en'])\n    ],\n    valid_files_patterns=[\n    ('dev/newsdev2019*{src}{tgt}-{src:src}{tgt:ref}.{lang}', ['gu-en', 'kk-en', 'lt-en']),\n    ('dev/newstest2018*{src}{tgt}-{src:src}{tgt:ref}.{lang}', ['ru-en']),       \n    ],\n    test_files_patterns=[\n    ('sgm/newstest2019-{src}{tgt}-{src:src}{tgt:ref}.{lang}', \n    ['ru-en', 'gu-en', 'kk-en', 'lt-en', 'en-ru', 'en-gu', 'en-kk', 'en-lt']),\n    ]    \n)\n\n\n#########\n\nif __name__ == \"__main__\":\n    # speed up the downloads with multiple processing\n    dl_folder = f'{to_data_path}/downloads'\n    extract_folder = f'{to_data_path}/extracted'\n\n    urls = [\n        url\n        for dataset in [wmt13_es_en, wmt14_de_fr_en, wmt16_ro_en, wmt18_cs_et_en, wmt19_ru_gu_kk_lt]\n        for urls in [dataset.train_urls, dataset.valid_urls, dataset.test_urls]\n        for url in urls\n    ]\n    urls = set(urls)\n    download_multi(dl_folder, extract_folder, urls, num_processes=8, debug=True)\n\n    # check manually downlaods\n    to_manually_download_urls = (\n        wmt17_fi_lv_tr_zh_en_manual_downloads + wmt18_cs_et_en_manual_downloads + wmt19_ru_gu_kk_lt_manual_downloads\n    )\n    to_be_manually_dowloaded = check_need_manual_downalod(dl_folder, to_manually_download_urls)\n    if len(to_be_manually_dowloaded) > 0:\n        print('Missing files that need to be downloaded manually; stop the process now.')\n        exit(-1)\n    \n    completed_urls = {}\n    completed_extraction = {}\n    def work_on_wmt(directions, wmt_data):\n        download_and_extract(\n            to_data_path, \n            directions, \n            wmt_data, \n            to_manually_download_urls=to_manually_download_urls,\n            completed_urls=completed_urls, completed_extraction=completed_extraction, debug=True)\n                \n    work_on_wmt(\n        ['es_XX-en_XX'], \n        wmt13_es_en,)\n    work_on_wmt(\n        [\n            'fr_XX-en_XX',  'en_XX-fr_XX',\n            # 'en_XX-de_DE', 'de_DE-en_XX',\n        ], \n        wmt14_de_fr_en,)\n    work_on_wmt(\n        ['ro_RO-en_XX', 'en_XX-ro_XX'], \n        wmt16_ro_en,)\n    work_on_wmt(\n        [\n            # 'zh_CN-en_XX', \n            'lv_LV-en_XX', 'fi_FI-en_XX', 'tr_TR-en_XX',\n            #in case the reversed directions have different train/valid/test data\n            # 'en_XX-zh_CN', \n            'en_XX-lv_LV', 'en_XX-fi_FI', 'en_XX-tr_TR',\n        ], \n        wmt17_fi_lv_tr_zh_en, )\n    # czeng17_script_path = download_czeng17_script(download_to, extract_to, debug=False)\n    # cz_username =  None\n    work_on_wmt(\n        [\n            # 'cs_CZ-en_XX', \n            'et_EE-en_XX'], \n        wmt18_cs_et_en,)\n    work_on_wmt(\n        [\n            # 'ru_RU-en_XX', 'en_XX-ru_RU', \n            'gu_IN-en_XX', 'kk_KZ-en_XX', 'lt_LT-en_XX',\n            #in case the reversed directions have different train/valid/test data\n            'en_XX-gu_IN', 'en_XX-kk_KZ', 'en_XX-lt_LT'\n        ], \n        wmt19_ru_gu_kk_lt,)\n\n    not_matching = check_wmt_test_bleu(\n        f'{to_data_path}/raw', \n        [\n            ('wmt13', ['es_XX-en_XX']),\n            ('wmt14/full', ['fr_XX-en_XX',]),\n            ('wmt16', ['ro_RO-en_XX',]),\n            # ('wmt17/improved', ['zh_CN-en_XX']),\n            ('wmt17', [ 'lv_LV-en_XX', 'fi_FI-en_XX', 'tr_TR-en_XX']),\n            ('wmt18', ['cs_CZ-en_XX', 'et_EE-en_XX']),\n            ('wmt19', ['gu_IN-en_XX', 'kk_KZ-en_XX', 'lt_LT-en_XX']), \n            #'ru_RU-en_XX', \n        ]\n        )    \n    if len(not_matching) > 0:\n        print('the following datasets do not have matching test datasets:\\n\\t', '\\n\\t'.join(not_matching))\n\n"
  },
  {
    "path": "examples/multilingual/data_scripts/download_wmt20.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\nif [ -z $WORKDIR_ROOT ] ;\nthen\n        echo \"please specify your working directory root in environment variable WORKDIR_ROOT. Exitting...\"\n        exit\nfi\n\n\n\nset -x -e\n\n# TODO update the workdir and dest dir name\n# put fasttext model\nWORKDIR=$WORKDIR_ROOT\n# put intermediate files\nTMP_DIR=$WORKDIR_ROOT/tmp/tmp_wmt20_lowres_download\n# output {train,valid,test} files to dest\nDEST=$WORKDIR_ROOT/ML50/raw\n\nUTILS=$PWD/utils\n\n# per dataset locations\nCOMMONCRAWL_DIR=$TMP_DIR/commoncrawl\nYANDEX_CORPUS=$WORKDIR_ROOT/wmt20/official/ru/yandex/1mcorpus.zip\n# unzipped\nCZENG_CORPUS=$WORKDIR_ROOT/wmt20/official/cs/czeng/czeng20-train\nCCMT_DIR=$WORKDIR_ROOT/wmt20/official/zh/ccmt/parallel\n\ndownload_and_select() {\n  SUBFOLDER=$1\n  URL=$2\n  UNCOMPRESS_CMD=$3\n  LANG=$4\n  INPUT_FILEPATH=$5\n  if [[ $# -gt 5 ]]; then\n    LANG_COL=$6\n    EN_COL=$7\n  fi\n\n  mkdir -p $SUBFOLDER\n  cd $SUBFOLDER\n  wget -nc --content-disposition $URL\n  $UNCOMPRESS_CMD\n\n  if [[ $# -gt 5 ]]; then\n    cut -f$LANG_COL $INPUT_FILEPATH > $INPUT_FILEPATH.$LANG\n    cut -f$EN_COL $INPUT_FILEPATH > $INPUT_FILEPATH.en\n  fi\n  cd ..\n\n  ln -sf $SUBFOLDER/$INPUT_FILEPATH.$LANG $SUBFOLDER.$LANG\n  ln -sf $SUBFOLDER/$INPUT_FILEPATH.en $SUBFOLDER.en\n}\n\nprepare_lid() {\n  pip install fasttext\n\n  # TODO specify global workdir\n  MODEL=$WORKDIR/fasttext/lid.176.bin\n  LID_MULTI=$UTILS/fasttext_multi_filter.py\n\n  if [ ! -f \"$MODEL\" ]; then\n    echo \"downloading fasttext lid model...\"\n    mkdir -p $WORKDIR/fasttext\n    wget -nc https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -O $MODEL\n  fi\n}\n\nprepare_moses() {\n  pushd $UTILS\n  echo 'Cloning Moses github repository (for tokenization scripts)...'\n  git clone https://github.com/moses-smt/mosesdecoder.git  \n  popd\n}\n\nlid_filter() {\n  # TODO specify global workdir\n  MODEL=$WORKDIR/fasttext/lid.176.bin\n  LID_MULTI=$UTILS/fasttext_multi_filter.py\n\n  prepare_lid\n\n  SRC=$1\n  SRC_FILE=$2\n  SRC_OUTPUT=$3\n  TGT=$4\n  TGT_FILE=$5\n  TGT_OUTPUT=$6\n  python $LID_MULTI --model $MODEL --inputs $SRC_FILE $TGT_FILE --langs $SRC $TGT --outputs $SRC_OUTPUT $TGT_OUTPUT\n}\n\nprepare_ja_ted() {\n  mkdir -p ted\n  cd ted\n\n  wget -nc https://wit3.fbk.eu/archive/2017-01-trnted//texts/en/ja/en-ja.tgz\n  tar -zxvf en-ja.tgz\n  cat en-ja/train.tags.en-ja.en | grep -v -P \"^[ ]*\\<\" | sed 's/^[ \\t]*//g' | sed 's/[ \\t]*$//g' > en-ja/train.en-ja.en\n  cat en-ja/train.tags.en-ja.ja | grep -v -P \"^[ ]*\\<\" | sed 's/^[ \\t]*//g' | sed 's/[ \\t]*$//g' > en-ja/train.en-ja.ja\n\n  cd ..\n  ln -sf ted/en-ja/train.en-ja.ja ted.ja\n  ln -sf ted/en-ja/train.en-ja.en ted.en\n}\n\nprepare_ja() {\n  OUTPUT_DIR=$TMP_DIR/ja\n  mkdir -p $OUTPUT_DIR\n  cd $OUTPUT_DIR\n\n  download_and_select paracrawl \"http://www.kecl.ntt.co.jp/icl/lirg/jparacrawl/release/2.0/bitext/en-ja.tar.gz\" \"tar -zxvf en-ja.tar.gz\" ja en-ja/en-ja.bicleaner05.txt 4 3 &\n  download_and_select newscommentary \"http://data.statmt.org/news-commentary/v15/training/news-commentary-v15.en-ja.tsv.gz\" \"gunzip -f news-commentary-v15.en-ja.tsv.gz\" ja news-commentary-v15.en-ja.tsv 2 1 &\n  download_and_select wikititles \"http://data.statmt.org/wikititles/v2/wikititles-v2.ja-en.tsv.gz\" \"gunzip -f wikititles-v2.ja-en.tsv.gz\" ja wikititles-v2.ja-en.tsv 1 2 &\n  download_and_select wikimatrix \"http://data.statmt.org/wmt20/translation-task/WikiMatrix/WikiMatrix.v1.en-ja.langid.tsv.gz\" \"gunzip -f WikiMatrix.v1.en-ja.langid.tsv.gz\" ja WikiMatrix.v1.en-ja.langid.tsv 3 2 &\n  download_and_select subtitle \"https://nlp.stanford.edu/projects/jesc/data/split.tar.gz\" \"tar -zxvf split.tar.gz\" ja split/train 2 1 &\n  download_and_select kftt \"http://www.phontron.com/kftt/download/kftt-data-1.0.tar.gz\" \"tar -zxvf kftt-data-1.0.tar.gz\" ja kftt-data-1.0/data/orig/kyoto-train &\n\n  prepare_ja_ted &\n\n  # ted data needs to \n\n  wait\n\n  # remove previous results\n  rm -f all.??\n  find ./ -maxdepth 1 -name \"*.ja\" | sort -V | xargs cat > all.ja\n  find ./ -maxdepth 1 -name \"*.en\" | sort -V | xargs cat > all.en\n  lid_filter ja all.ja $DEST/train.ja_XX-en_XX.ja_XX en all.en $DEST/train.ja_XX-en_XX.en_XX\n}\n\nprepare_ta() {\n  OUTPUT_DIR=$TMP_DIR/ta\n  mkdir -p $OUTPUT_DIR\n  cd $OUTPUT_DIR\n\n  download_and_select wikititles \"http://data.statmt.org/wikititles/v2/wikititles-v2.ta-en.tsv.gz\" \"gunzip -f wikititles-v2.ta-en.tsv.gz\" ta wikititles-v2.ta-en.tsv 1 2 &\n  download_and_select wikimatrix \"http://data.statmt.org/wmt20/translation-task/WikiMatrix/WikiMatrix.v1.en-ta.langid.tsv.gz\" \"gunzip -f WikiMatrix.v1.en-ta.langid.tsv.gz\" ta WikiMatrix.v1.en-ta.langid.tsv 3 2 &\n  download_and_select pmindia \"http://data.statmt.org/pmindia/v1/parallel/pmindia.v1.ta-en.tsv\" \"\" ta pmindia.v1.ta-en.tsv 2 1 &\n  download_and_select tanzil \"https://object.pouta.csc.fi/OPUS-Tanzil/v1/moses/en-ta.txt.zip\" \"unzip en-ta.txt.zip\" ta Tanzil.en-ta &\n  download_and_select pib \"http://preon.iiit.ac.in/~jerin/resources/datasets/pib-v0.tar\" \"tar -xvf pib-v0.tar\" ta pib/en-ta/train &\n  download_and_select mkb \"http://preon.iiit.ac.in/~jerin/resources/datasets/mkb-v0.tar\" \"tar -xvf mkb-v0.tar\" ta mkb/en-ta/mkb &\n  download_and_select ufal \"http://ufal.mff.cuni.cz/~ramasamy/parallel/data/v2/en-ta-parallel-v2.tar.gz\" \"tar -zxvf en-ta-parallel-v2.tar.gz\" ta en-ta-parallel-v2/corpus.bcn.train &\n\n  wait\n\n  # need special handling for nlpc\n  mkdir -p nlpc\n  cd nlpc\n  wget -nc https://raw.githubusercontent.com/nlpc-uom/English-Tamil-Parallel-Corpus/master/En-Ta%20Corpus/En-Ta%20English.txt\n  wget -nc https://github.com/nlpc-uom/English-Tamil-Parallel-Corpus/raw/master/En-Ta%20Corpus/En-Ta%20Tamil.txt\n  tail -n +4 \"En-Ta English.txt\" > en-ta.en\n  tail -n +4 \"En-Ta Tamil.txt\" > en-ta.ta\n  cd ..\n  ln -sf nlpc/en-ta.en nlpc.en\n  ln -sf nlpc/en-ta.ta nlpc.ta\n\n  # remove previous results\n  rm -f all.??\n  find ./ -maxdepth 1 -name \"*.ta\" | sort -V | xargs cat > all.ta\n  find ./ -maxdepth 1 -name \"*.en\" | sort -V | xargs cat > all.en\n  lid_filter ta all.ta $DEST/train.ta_IN-en_XX.ta_IN en all.en $DEST/train.ta_IN-en_XX.en_XX\n}\n\nprepare_iu() {\n  OUTPUT_DIR=$TMP_DIR/iu\n  mkdir -p $OUTPUT_DIR\n  cd $OUTPUT_DIR\n  \n  download_and_select nh \"https://nrc-digital-repository.canada.ca/eng/view/dataset/?id=c7e34fa7-7629-43c2-bd6d-19b32bf64f60\" \"tar -zxvf Nunavut-Hansard-Inuktitut-English-Parallel-Corpus-3.0.1.tgz\" iu Nunavut-Hansard-Inuktitut-English-Parallel-Corpus-3.0/NunavutHansard > /dev/null &\n  download_and_select wikititles \"http://data.statmt.org/wikititles/v2/wikititles-v2.iu-en.tsv.gz\" \"gunzip -f wikititles-v2.iu-en.tsv.gz\" iu wikititles-v2.iu-en.tsv 1 2 &\n\n  wait\n\n  # remove previous results\n  rm -f all.??\n  find ./ -maxdepth 1 -name \"*.iu\" | sort -V | xargs cat | nh/Nunavut-Hansard-Inuktitut-English-Parallel-Corpus-3.0/scripts/normalize-iu-spelling.pl > all.iu\n  find ./ -maxdepth 1 -name \"*.en\" | sort -V | xargs cat > all.en\n  paste all.iu all.en | awk -F $'\\t' '$1!=\"\"&&$2!=\"\"' > all.iuen\n  cut -f1 all.iuen > $DEST/train.iu_CA-en_XX.iu_CA\n  cut -f2 all.iuen > $DEST/train.iu_CA-en_XX.en_XX\n}\n\nprepare_km() {\n  OUTPUT_DIR=$TMP_DIR/km\n  mkdir -p $OUTPUT_DIR\n  cd $OUTPUT_DIR\n\n  download_and_select paracrawl \"http://data.statmt.org/wmt20/translation-task/ps-km/wmt20-sent.en-km.xz\" \"unxz wmt20-sent.en-km.zx\" km wmt20-sent.en-km 2 1 &\n\n  # km-parallel has multiple sets, concat all of them together\n  mkdir -p opus\n  cd opus\n  wget -nc \"http://data.statmt.org/wmt20/translation-task/ps-km/km-parallel.tgz\"\n  tar -zxvf km-parallel.tgz\n  find ./km-parallel -maxdepth 1 -name \"*.km\" | sort -V | xargs cat > opus.km\n  find ./km-parallel -maxdepth 1 -name \"*.en\" | sort -V | xargs cat > opus.en\n  cd ..\n  ln -sf opus/opus.km .\n  ln -sf opus/opus.en .\n\n  wait\n\n  # remove previous results\n  rm -f all.??\n  find ./ -maxdepth 1 -name \"*.km\" | sort -V | xargs cat > all.km\n  find ./ -maxdepth 1 -name \"*.en\" | sort -V | xargs cat > all.en\n  lid_filter km all.km $DEST/train.km_KH-en_XX.km_KH en all.en $DEST/train.km_KH-en_XX.en_XX\n}\n\nprepare_ps() {\n  OUTPUT_DIR=$TMP_DIR/ps\n  mkdir -p $OUTPUT_DIR\n  cd $OUTPUT_DIR\n\n  download_and_select paracrawl \"http://data.statmt.org/wmt20/translation-task/ps-km/wmt20-sent.en-ps.xz\" \"unxz wmt20-sent.en-ps.xz\" ps wmt20-sent.en-ps 2 1 &\n  download_and_select wikititles \"http://data.statmt.org/wikititles/v2/wikititles-v2.ps-en.tsv.gz\" \"gunzip -f wikititles-v2.ps-en.tsv.gz\" ps wikititles-v2.ps-en.tsv 1 2 &\n  # ps-parallel has multiple sets, concat all of them together\n  mkdir -p opus\n  cd opus\n  wget -nc \"http://data.statmt.org/wmt20/translation-task/ps-km/ps-parallel.tgz\"\n  tar -zxvf ps-parallel.tgz\n  find ./ps-parallel -maxdepth 1 -name \"*.ps\" | sort -V | xargs cat > opus.ps\n  find ./ps-parallel -maxdepth 1 -name \"*.en\" | sort -V | xargs cat > opus.en\n  cd ..\n  ln -sf opus/opus.ps opus.ps\n  ln -sf opus/opus.en opus.en\n\n  wait\n\n  # remove previous results\n  rm -f all.??\n  find ./ -maxdepth 1 -name \"*.ps\" | sort -V | xargs cat > all.ps\n  find ./ -maxdepth 1 -name \"*.en\" | sort -V | xargs cat > all.en\n  lid_filter ps all.ps $DEST/train.ps_AF-en_XX.ps_AF en all.en $DEST/train.ps_AF-en_XX.en_XX\n}\n\ndownload_commoncrawl() {\n  mkdir -p $COMMONCRAWL_DIR\n  cd $COMMONCRAWL_DIR\n\n  wget -nc \"http://www.statmt.org/wmt13/training-parallel-commoncrawl.tgz\"\n  tar -zxvf training-parallel-commoncrawl.tgz\n}\nlink_commoncrawl() {\n  LANG=$1\n  ln -sf $COMMONCRAWL_DIR/commoncrawl.$LANG-en.en commoncrawl.en\n  ln -sf $COMMONCRAWL_DIR/commoncrawl.$LANG-en.$LANG commoncrawl.$LANG\n}\n\nstrip_xlf() {\n  INPUT_FILE=$1\n  SRC=$2\n  TGT=$3\n  grep '<source xml:lang=' $INPUT_FILE | sed 's/^<[^<>]*>//g' | sed 's/<[^<>]*>$//g' > $INPUT_FILE.$SRC\n  grep '<target xml:lang=' $INPUT_FILE | sed 's/^<[^<>]*>//g' | sed 's/<[^<>]*>$//g' > $INPUT_FILE.$TGT\n}\n\ndownload_and_process_tilde() {\n  URL=$1\n  UNCOMPRESS_CMD=$2\n  FILENAME=$3\n  LANG=$4\n  PROCESS_CMD=$5\n\n  mkdir -p tilde\n  cd tilde\n  wget -nc $URL\n  $UNCOMPRESS_CMD\n  echo \"executing cmd\"\n  echo $PROCESS_CMD\n  $PROCESS_CMD\n  cd ..\n  ln -sf tilde/$FILENAME.$LANG tilde.$LANG\n  ln -sf tilde/$FILENAME.en tilde.en\n}\n\nprepare_cs() {\n  OUTPUT_DIR=$TMP_DIR/cs\n  mkdir -p $OUTPUT_DIR\n  cd $OUTPUT_DIR\n\n  #download_and_select europarl \"http://www.statmt.org/europarl/v10/training/europarl-v10.cs-en.tsv.gz\" \"gunzip europarl-v10.cs-en.tsv.gz\" cs europarl-v10.cs-en.tsv 1 2 &\n  #download_and_select paracrawl \"https://s3.amazonaws.com/web-language-models/paracrawl/release5.1/en-cs.txt.gz\" \"gunzip en-cs.txt.gz\" cs en-cs.txt 2 1 &\n  #link_commoncrawl cs\n  #download_and_select newscommentary \"http://data.statmt.org/news-commentary/v15/training/news-commentary-v15.cs-en.tsv.gz\" \"gunzip news-commentary-v15.cs-en.tsv.gz\" cs news-commentary-v15.cs-en.tsv 1 2 &\n  #download_and_select wikititles \"http://data.statmt.org/wikititles/v2/wikititles-v2.cs-en.tsv.gz\" \"gunzip wikititles-v2.cs-en.tsv.gz\" cs wikititles-v2.cs-en.tsv 1 2 &\n  #download_and_process_tilde \"http://data.statmt.org/wmt20/translation-task/rapid/RAPID_2019.cs-en.xlf.gz\" \"gunzip RAPID_2019.cs-en.xlf.gz\" RAPID_2019.cs-en.xlf cs \"strip_xlf RAPID_2019.cs-en.xlf cs en\" &\n  #download_and_select wikimatrix \"http://data.statmt.org/wmt20/translation-task/WikiMatrix/WikiMatrix.v1.cs-en.langid.tsv.gz\" \"gunzip WikiMatrix.v1.cs-en.langid.tsv.gz\" cs WikiMatrix.v1.cs-en.langid.tsv 2 3 &\n\n  #wait\n\n  # remove previous results\n  #rm -f all.??\n  #find ./ -maxdepth 1 -name \"*.cs\" | sort -V | xargs cat > all.cs\n  #find ./ -maxdepth 1 -name \"*.en\" | sort -V | xargs cat > all.en\n  if [ -z $CZENG_CORPUS ] ;\n  then\n          echo \"Please download CZENG_CORPUS manually and place them at $CZENG_CORPUS. Exitting...\"\n          exit\n  fi  \n  cat $CZENG_CORPUS | sed '/^$/d' | cut -f5 > all.cs\n  cat $CZENG_CORPUS | sed '/^$/d' | cut -f6 > all.en\n\n  lid_filter cs all.cs $DEST/train.cs_CZ-en_XX.cs_CZ en all.en $DEST/train.cs_CZ-en_XX.en_XX\n}\n\nprepare_de() {\n  OUTPUT_DIR=$TMP_DIR/de\n  mkdir -p $OUTPUT_DIR\n  cd $OUTPUT_DIR\n\n  download_and_select europarl \"http://www.statmt.org/europarl/v10/training/europarl-v10.de-en.tsv.gz\" \"gunzip europarl-v10.de-en.tsv.gz\" de europarl-v10.de-en.tsv 1 2 &\n  download_and_select paracrawl \"https://s3.amazonaws.com/web-language-models/paracrawl/release5.1/en-de.txt.gz\"  \"gunzip en-de.txt.gz\" de en-de.txt 2 1 &\n  link_commoncrawl de\n  download_and_select newscommentary \"http://data.statmt.org/news-commentary/v15/training/news-commentary-v15.de-en.tsv.gz\" \"gunzip news-commentary-v15.de-en.tsv.gz\" de news-commentary-v15.de-en.tsv 1 2 &\n  download_and_select wikititles \"http://data.statmt.org/wikititles/v2/wikititles-v2.de-en.tsv.gz\" \"gunzip wikititles-v2.de-en.tsv.gz\" de wikititles-v2.de-en.tsv 1 2 &\n  download_and_process_tilde \"http://data.statmt.org/wmt20/translation-task/rapid/RAPID_2019.de-en.xlf.gz\" \"gunzip RAPID_2019.de-en.xlf.gz\" RAPID_2019.de-en.xlf de \"strip_xlf RAPID_2019.de-en.xlf de en\" &\n  download_and_select wikimatrix \"http://data.statmt.org/wmt20/translation-task/WikiMatrix/WikiMatrix.v1.de-en.langid.tsv.gz\" \"gunzip WikiMatrix.v1.de-en.langid.tsv.gz\" de WikiMatrix.v1.de-en.langid.tsv 2 3 &\n\n  wait\n\n  # remove previous results\n  rm -f all.??\n  find ./ -maxdepth 1 -name \"*.de\" | sort -V | xargs cat > all.de\n  find ./ -maxdepth 1 -name \"*.en\" | sort -V | xargs cat > all.en\n  lid_filter de all.de $DEST/train.de_DE-en_XX.de_DE en all.en $DEST/train.de_DE-en_XX.en_XX\n}\n\nprepare_tmx() {\n  TMX_FILE=$1\n  git clone https://github.com/amake/TMX2Corpus $UTILS/tmx2corpus\n  pip install tinysegmenter\n\n  python $UTILS/tmx2corpus/tmx2corpus.py $TMX_FILE\n}\n\nprepare_pl() {\n  OUTPUT_DIR=$TMP_DIR/pl\n  mkdir -p $OUTPUT_DIR\n  cd $OUTPUT_DIR\n\n  # download_and_select europarl \"http://www.statmt.org/europarl/v10/training/europarl-v10.pl-en.tsv.gz\" \"gunzip europarl-v10.pl-en.tsv.gz\" pl europarl-v10.pl-en.tsv 1 2 &\n  # download_and_select paracrawl \"https://s3.amazonaws.com/web-language-models/paracrawl/release5.1/en-pl.txt.gz\" \"gunzip en-pl.txt.gz\" pl en-pl.txt 2 1 &\n  # download_and_select wikititles \"http://data.statmt.org/wikititles/v2/wikititles-v2.pl-en.tsv.gz\" \"gunzip wikititles-v2.pl-en.tsv.gz\" pl wikititles-v2.pl-en.tsv 1 2 &\n  download_and_select tilde \"https://tilde-model.s3-eu-west-1.amazonaws.com/rapid2019.en-pl.tmx.zip\" \"gunzip rapid2019.en-pl.tmx.zip\" bitext pl \"prepare_tmx RAPID_2019.UNIQUE.en-pl.tmx\" &\n  # download_and_select wikimatrix \"http://data.statmt.org/wmt20/translation-task/WikiMatrix/WikiMatrix.v1.en-pl.langid.tsv.gz\" \"gunzip WikiMatrix.v1.en-pl.langid.tsv.gz\" pl WikiMatrix.v1.en-pl.langid.tsv 3 2 &\n\n  wait\n\n  # remove previous results\n  rm -f all.??\n  find ./ -maxdepth 1 -name \"*.pl\" | sort -V | xargs cat > all.pl\n  find ./ -maxdepth 1 -name \"*.en\" | sort -V | xargs cat > all.en\n  lid_filter pl all.pl $DEST/train.pl_PL-en_XX.pl_PL en all.en $DEST/train.pl_PL-en_XX.en_XX\n}\n\nprepare_uncorpus() {\n  $URLS=$1\n  $FILES=$2\n\n  mkdir -p uncorpus\n  cd uncorpus\n\n  for URL in $URLS; do\n    wget -nc $URL\n  done\n  cat $FILES > uncorpus.tar.gz\n  tar -zxvf uncorpus.tar.gz\n\n  cd ..\n  ln -sf uncorpus/en-$LANG/UNv1.0.en-$LANG.$LANG uncorpus.$LANG\n  ln -sf uncorpus/en-$LANG/UNv1.0.en-$LANG.en uncorpus.en\n}\n\nprepare_yandex() {\n  mkdir -p yandex\n  cd yandex\n  unzip $YANDEX_CORPUS ./\n  cd ..\n  ln -s yandex/corpus.en_ru.1m.en yandex.en\n  ln -s yandex/corpus.en_ru.1m.ru yandex.ru\n}\n\nprepare_ru() {\n  OUTPUT_DIR=$TMP_DIR/ru\n  mkdir -p $OUTPUT_DIR\n  cd $OUTPUT_DIR\n\n  download_and_select paracrawl \"https://s3.amazonaws.com/web-language-models/paracrawl/release1/paracrawl-release1.en-ru.zipporah0-dedup-clean.tgz\" \"tar -zxvf paracrawl-release1.en-ru.zipporah0-dedup-clean.tgz\" ru paracrawl-release1.en-ru.zipporah0-dedup-clean &\n  link_commoncrawl ru\n  download_and_select newscommentary \"http://data.statmt.org/news-commentary/v15/training/news-commentary-v15.en-ru.tsv.gz\" \"gunzip news-commentary-v15.en-ru.tsv.gz\" ru news-commentary-v15.en-ru.tsv 2 1 &\n  prepare_yandex &\n  download_and_select wikititles \"http://data.statmt.org/wikititles/v2/wikititles-v2.ru-en.tsv.gz\" \"gunzip wikititles-v2.ru-en.tsv.gz\" ru wikititles-v2.ru-en.tsv 1 2 &\n  prepare_uncorpus \"https://stuncorpusprod.blob.core.windows.net/corpusfiles/UNv1.0.en-ru.tar.gz.00 https://stuncorpusprod.blob.core.windows.net/corpusfiles/UNv1.0.en-ru.tar.gz.01 https://stuncorpusprod.blob.core.windows.net/corpusfiles/UNv1.0.en-ru.tar.gz.02\" \"UNv1.0.en-ru.tar.gz.00 UNv1.0.en-ru.tar.gz.01 UNv1.0.en-ru.tar.gz.02\" &\n  download_and_select wikimatrix \"http://data.statmt.org/wmt20/translation-task/WikiMatrix/WikiMatrix.v1.en-ru.langid.tsv.gz\" \"gunzip WikiMatrix.v1.en-ru.langid.tsv.gz\" ru WikiMatrix.v1.en-ru.langid.tsv 3 2 &\n\n  wait\n\n  # remove previous results\n  rm -f all.??\n  find ./ -maxdepth 1 -name \"*.ru\" | sort -V | xargs cat > all.ru\n  find ./ -maxdepth 1 -name \"*.en\" | sort -V | xargs cat > all.en\n  lid_filter ru all.ru $DEST/train.ru_RU-en_XX.ru_RU en all.en $DEST/train.ru_RU-en_XX.en_XX\n}\n\nprepare_ccmt() {\n  mkdir -p ccmt\n  cd ccmt\n  # assume ccmt data is already unzipped under CCMT_DIR folder\n  cat $CCMT_DIR/datum2017/Book*_cn.txt | sed 's/ //g' > datum2017.detok.zh\n  cat $CCMT_DIR/datum2017/Book*_en.txt > datum2017.detok.en\n  cat $CCMT_DIR/casict2011/casict-A_ch.txt $CCMT_DIR/casict2011/casict-B_ch.txt $CCMT_DIR/casict2015/casict2015_ch.txt $CCMT_DIR/datum2015/datum_ch.txt $CCMT_DIR/neu2017/NEU_cn.txt datum2017.detok.zh > ccmt.zh\n  cat $CCMT_DIR/casict2011/casict-A_en.txt $CCMT_DIR/casict2011/casict-B_en.txt $CCMT_DIR/casict2015/casict2015_en.txt $CCMT_DIR/datum2015/datum_en.txt $CCMT_DIR/neu2017/NEU_en.txt datum2017.detok.en > ccmt.en\n  cd ..\n  ln -sf ccmt/ccmt.zh ccmt.zh\n  ln -sf ccmt/ccmt.en ccmt.en\n}\n\nprepare_zh() {\n  OUTPUT_DIR=$TMP_DIR/zh\n  mkdir -p $OUTPUT_DIR\n  cd $OUTPUT_DIR\n\n  download_and_select newscommentary \"http://data.statmt.org/news-commentary/v15/training/news-commentary-v15.en-zh.tsv.gz\" \"gunzip news-commentary-v15.en-zh.tsv.gz\" zh news-commentary-v15.en-zh.tsv 2 1 &\n  download_and_select wikititles \"http://data.statmt.org/wikititles/v2/wikititles-v2.zh-en.tsv.gz\" \"gunzip wikititles-v2.zh-en.tsv.gz\" zh wikititles-v2.zh-en.tsv 1 2 &\n  prepare_uncorpus \"https://stuncorpusprod.blob.core.windows.net/corpusfiles/UNv1.0.en-zh.tar.gz.00 https://stuncorpusprod.blob.core.windows.net/corpusfiles/UNv1.0.en-zh.tar.gz.01\" \"UNv1.0.en-zh.tar.gz.00 UNv1.0.en-zh.tar.gz.01\" &\n  prepare_ccmt &\n  download_and_select wikimatrix \"http://data.statmt.org/wmt20/translation-task/WikiMatrix/WikiMatrix.v1.en-zh.langid.tsv.gz\" \"gunzip WikiMatrix.v1.en-zh.langid.tsv.gz\" zh WikiMatrix.v1.en-zh.langid.tsv 3 2 &\n\n  wait\n\n  # remove previous results\n  rm -f all.??\n  find ./ -maxdepth 1 -name \"*.zh\" | sort -V | xargs cat > all.zh\n  find ./ -maxdepth 1 -name \"*.en\" | sort -V | xargs cat > all.en\n  lid_filter zh all.zh $DEST/train.zh_CN-en_XX.zh_CN en all.en $DEST/train.zh_CN-en_XX.en_XX\n}\n\nprepare_tests() {\n  OUTPUT_DIR=$TMP_DIR\n  mkdir -p $OUTPUT_DIR\n  cd $OUTPUT_DIR\n  wget -nc http://data.statmt.org/wmt20/translation-task/dev.tgz\n  tar -zxvf dev.tgz\n  cd dev\n\n  cat newsdev2020-jaen-src.ja.sgm | $UTILS/strip_sgm.sh > newsdev2020-jaen.ja\n  cat newsdev2020-jaen-ref.en.sgm | $UTILS/strip_sgm.sh > newsdev2020-jaen.en\n  split newsdev2020-jaen.ja -a 0 -n r/1/2 > $DEST/valid.ja_XX-en_XX.ja_XX\n  split newsdev2020-jaen.en -a 0 -n r/1/2 > $DEST/valid.ja_XX-en_XX.en_XX\n  split newsdev2020-jaen.ja -a 0 -n r/2/2 > $DEST/test.ja_XX-en_XX.ja_XX\n  split newsdev2020-jaen.en -a 0 -n r/2/2 > $DEST/test.ja_XX-en_XX.en_XX\n\n  cat newsdev2020-iuen-src.iu.sgm | strip_sgm.sh > newsdev2020-iuen.iu\n  cat newsdev2020-iuen-ref.en.sgm | strip_sgm.sh > newsdev2020-iuen.en\n  split newsdev2020-iuen.iu -a 0 -n r/1/2 > $DEST/valid.iu_CA-en_XX.iu_CA\n  split newsdev2020-iuen.en -a 0 -n r/1/2 > $DEST/valid.iu_CA-en_XX.en_XX\n  split newsdev2020-iuen.iu -a 0 -n r/2/2 > $DEST/test.iu_CA-en_XX.iu_CA\n  split newsdev2020-iuen.en -a 0 -n r/2/2 > $DEST/test.iu_CA-en_XX.en_XX\n\n  cat newsdev2020-taen-src.ta.sgm | strip_sgm.sh > newsdev2020-taen.ta\n  cat newsdev2020-taen-ref.en.sgm | strip_sgm.sh > newsdev2020-taen.en\n  split newsdev2020-taen.ta -a 0 -n r/1/2 > $DEST/valid.ta_IN-en_XX.ta_IN\n  split newsdev2020-taen.en -a 0 -n r/1/2 > $DEST/valid.ta_IN-en_XX.en_XX\n  split newsdev2020-taen.ta -a 0 -n r/2/2 > $DEST/test.ta_IN-en_XX.ta_IN\n  split newsdev2020-taen.en -a 0 -n r/2/2 > $DEST/test.ta_IN-en_XX.en_XX\n\n  cp wikipedia.dev.km-en.km $DEST/valid.km_KH-en_XX.km_KH\n  cp wikipedia.dev.km-en.en $DEST/valid.km_KH-en_XX.en_XX\n  cp wikipedia.devtest.km-en.km $DEST/test.km_KH-en_XX.km_KH\n  cp wikipedia.devtest.km-en.en $DEST/test.km_KH-en_XX.en_XX\n\n  cp wikipedia.dev.ps-en.ps $DEST/valid.ps_AF-en_XX.ps_AF\n  cp wikipedia.dev.ps-en.en $DEST/valid.ps_AF-en_XX.en_XX\n  cp wikipedia.devtest.ps-en.ps $DEST/test.ps_AF-en_XX.ps_AF\n  cp wikipedia.devtest.ps-en.en $DEST/test.ps_AF-en_XX.en_XX\n\n  cat newsdev2020-plen-src.pl.sgm | strip_sgm.sh > newsdev2020-plen.pl\n  cat newsdev2020-plen-ref.en.sgm | strip_sgm.sh > newsdev2020-plen.en\n  split newsdev2020-plen.pl -a 0 -n r/1/2 > $DEST/valid.pl_PL-en_XX.pl_PL\n  split newsdev2020-plen.en -a 0 -n r/1/2 > $DEST/valid.pl_PL-en_XX.en_XX\n  split newsdev2020-plen.pl -a 0 -n r/2/2 > $DEST/test.pl_PL-en_XX.pl_PL\n  split newsdev2020-plen.en -a 0 -n r/2/2 > $DEST/test.pl_PL-en_XX.en_XX\n\n  cat newstest2018-encs-src.en.sgm | strip_sgm.sh > $DEST/valid.en_XX-cs_CZ.en_XX\n  cat newstest2018-encs-ref.cs.sgm | strip_sgm.sh > $DEST/valid.en_XX-cs_CZ.cs_CZ\n  cat newstest2019-encs-src.en.sgm | strip_sgm.sh > $DEST/test.en_XX-cs_CZ.en_XX\n  cat newstest2019-encs-ref.cs.sgm | strip_sgm.sh > $DEST/test.en_XX-cs_CZ.cs_CZ\n\n  cat newstest2018-deen-src.de.sgm | strip_sgm.sh > $DEST/valid.de_DE-en_XX.de_DE\n  cat newstest2018-deen-ref.en.sgm | strip_sgm.sh > $DEST/valid.de_DE-en_XX.en_XX\n  cat newstest2018-ende-src.en.sgm | strip_sgm.sh > $DEST/valid.en_XX-de_DE.en_XX\n  cat newstest2018-ende-ref.de.sgm | strip_sgm.sh > $DEST/valid.en_XX-de_DE.de_DE\n  cat newstest2019-deen-src.de.sgm | strip_sgm.sh > $DEST/test.de_DE-en_XX.de_DE\n  cat newstest2019-deen-ref.en.sgm | strip_sgm.sh > $DEST/test.de_DE-en_XX.en_XX\n  cat newstest2019-ende-src.en.sgm | strip_sgm.sh > $DEST/test.en_XX-de_DE.en_XX\n  cat newstest2019-ende-ref.de.sgm | strip_sgm.sh > $DEST/test.en_XX-de_DE.de_DE\n\n  cat newstest2018-ruen-src.ru.sgm | strip_sgm.sh > $DEST/valid.ru_RU-en_XX.ru_RU\n  cat newstest2018-ruen-ref.en.sgm | strip_sgm.sh > $DEST/valid.ru_RU-en_XX.en_XX\n  cat newstest2018-enru-src.en.sgm | strip_sgm.sh > $DEST/valid.en_XX-ru_RU.en_XX\n  cat newstest2018-enru-ref.ru.sgm | strip_sgm.sh > $DEST/valid.en_XX-ru_RU.ru_RU\n  cat newstest2019-ruen-src.ru.sgm | strip_sgm.sh > $DEST/test.ru_RU-en_XX.ru_RU\n  cat newstest2019-ruen-ref.en.sgm | strip_sgm.sh > $DEST/test.ru_RU-en_XX.en_XX\n  cat newstest2019-enru-src.en.sgm | strip_sgm.sh > $DEST/test.en_XX-ru_RU.en_XX\n  cat newstest2019-enru-ref.ru.sgm | strip_sgm.sh > $DEST/test.en_XX-ru_RU.ru_RU\n\n  cat newstest2018-zhen-src.zh.sgm | strip_sgm.sh > $DEST/valid.zh_CN-en_XX.zh_CN\n  cat newstest2018-zhen-ref.en.sgm | strip_sgm.sh > $DEST/valid.zh_CN-en_XX.en_XX\n  cat newstest2018-enzh-src.en.sgm | strip_sgm.sh > $DEST/valid.en_XX-zh_CN.en_XX\n  cat newstest2018-enzh-ref.zh.sgm | strip_sgm.sh > $DEST/valid.en_XX-zh_CN.zh_CN\n  cat newstest2019-zhen-src.zh.sgm | strip_sgm.sh > $DEST/test.zh_CN-en_XX.zh_CN\n  cat newstest2019-zhen-ref.en.sgm | strip_sgm.sh > $DEST/test.zh_CN-en_XX.en_XX\n  cat newstest2019-enzh-src.en.sgm | strip_sgm.sh > $DEST/test.en_XX-zh_CN.en_XX\n  cat newstest2019-enzh-ref.zh.sgm | strip_sgm.sh > $DEST/test.en_XX-zh_CN.zh_CN\n}\n\nmkdir -p $DEST\n\nprepare_lid\nprepare_moses\ndownload_commoncrawl\n\nprepare_ja &\nprepare_ta &\nprepare_km &\nprepare_ps &\nprepare_iu &\nprepare_cs &\nprepare_de &\nprepare_pl &\nprepare_ru &\nprepare_zh &\n\n# prepare valid/test set\nprepare_tests &\n\n# wait\n\n# TODO remove intermediate files\n# rm -rf $TMP_DIR\n"
  },
  {
    "path": "examples/multilingual/data_scripts/preprocess_ML50_v1.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\nif [ -z $WORKDIR_ROOT ] ;\nthen\n        echo \"please specify your working directory root in environment variable WORKDIR_ROOT. Exitting...\"\n        exit\nfi\n\nif [ -z $SPM_PATH ] ;\nthen\n    echo \"Please install sentence piecence from https://github.com/google/sentencepiece and set SPM_PATH pointing to the installed spm_encode.py. Exitting...\"\n    exit\nfi\n\nML50=${WORKDIR_ROOT}/ML50\n\nmkdir -p $ML50/dedup\nmkdir -p $ML50/cleaned_dedup\n\npython ./dedup_all.py --from-folder $ML50/raw --to-folder $ML50/dedup\npython ./remove_valid_test_in_train.py --from-folder $ML50/dedup --to-folder $ML50/clean\npython ./binarize.py --raw-folder $ML50/clean"
  },
  {
    "path": "examples/multilingual/data_scripts/remove_valid_test_in_train.py",
    "content": "import os, sys\nimport glob, itertools\nimport pandas as pd\n\nWORKDIR_ROOT = os.environ.get('WORKDIR_ROOT', None)\n\nif WORKDIR_ROOT is None or  not WORKDIR_ROOT.strip():\n    print('please specify your working directory root in OS environment variable WORKDIR_ROOT. Exitting...\"')\n    sys.exit(-1)\n\n\ndef load_langs(path):\n    with open(path) as fr:\n        langs = [l.strip() for l in fr]\n    return langs\n\n\n\ndef load_sentences(raw_data, split, direction):\n    src, tgt = direction.split('-')\n    src_path = f\"{raw_data}/{split}.{direction}.{src}\"\n    tgt_path = f\"{raw_data}/{split}.{direction}.{tgt}\"\n    if os.path.exists(src_path) and os.path.exists(tgt_path):\n        return [(src, open(src_path).read().splitlines()), (tgt, open(tgt_path).read().splitlines())]\n    else:\n        return []\n\ndef swap_direction(d):\n    src, tgt = d.split('-')\n    return f'{tgt}-{src}'\n\ndef get_all_test_data(raw_data, directions, split='test'):\n    test_data = [ \n        x\n        for dd in directions\n        for d in [dd, swap_direction(dd)]\n        for x in load_sentences(raw_data, split, d)\n    ]\n    # all_test_data = {s for _, d in test_data for s in d}\n    all_test_data = {}\n    for lang, d in test_data:\n        for s in d:\n            s = s.strip()\n            lgs = all_test_data.get(s, set())\n            lgs.add(lang)\n            all_test_data[s] = lgs\n    return all_test_data, test_data\n\ndef check_train_sentences(raw_data, direction, all_test_data, mess_up_train={}):\n    src, tgt = direction.split('-')\n    tgt_path = f\"{raw_data}/train.{direction}.{tgt}\"\n    src_path = f\"{raw_data}/train.{direction}.{src}\"\n    print(f'check training data in {raw_data}/train.{direction}')\n    size = 0\n    if not os.path.exists(tgt_path) or not os.path.exists(src_path):\n        return mess_up_train, size\n    with open(src_path) as f, open(tgt_path) as g:\n        for src_line, tgt_line in zip(f, g):\n            s = src_line.strip()\n            t = tgt_line.strip()\n            size += 1\n            if s in all_test_data:\n                langs = mess_up_train.get(s, set())\n                langs.add(direction)\n                mess_up_train[s] = langs\n            if t in all_test_data:\n                langs = mess_up_train.get(t, set())\n                langs.add(direction)\n                mess_up_train[t] = langs                \n    return mess_up_train, size\n\ndef check_train_all(raw_data, directions, all_test_data):\n    mess_up_train = {}\n    data_sizes = {}\n    for direction in directions:\n        _, size = check_train_sentences(raw_data, direction, all_test_data, mess_up_train)\n        data_sizes[direction] = size\n    return mess_up_train, data_sizes\n\ndef count_train_in_other_set(mess_up_train):\n    train_in_others  = [(direction, s) for s, directions in mess_up_train.items() for direction in directions]\n    counts = {}\n    for direction, s in train_in_others:\n        counts[direction] = counts.get(direction, 0) + 1\n    return counts\n\ndef train_size_if_remove_in_otherset(data_sizes, mess_up_train):\n    counts_in_other = count_train_in_other_set(mess_up_train)\n    remain_sizes = []\n    for direction, count in counts_in_other.items():\n        remain_sizes.append((direction, data_sizes[direction] - count, data_sizes[direction], count, 100 * count / data_sizes[direction] ))\n    return remain_sizes\n\n\ndef remove_messed_up_sentences(raw_data, direction, mess_up_train, mess_up_train_pairs, corrected_langs):\n    split = 'train'\n    src_lang, tgt_lang = direction.split('-')\n\n    tgt = f\"{raw_data}/{split}.{direction}.{tgt_lang}\"\n    src = f\"{raw_data}/{split}.{direction}.{src_lang}\"\n    print(f'working on {direction}: ', src, tgt)\n    if not os.path.exists(tgt) or not os.path.exists(src) :\n        return\n    \n    corrected_tgt = f\"{to_folder}/{split}.{direction}.{tgt_lang}\"\n    corrected_src = f\"{to_folder}/{split}.{direction}.{src_lang}\"\n    line_num = 0\n    keep_num = 0\n    with open(src, encoding='utf8',) as fsrc, \\\n        open(tgt, encoding='utf8',) as ftgt, \\\n        open(corrected_src, 'w', encoding='utf8') as fsrc_corrected, \\\n        open(corrected_tgt, 'w', encoding='utf8') as ftgt_corrected:\n            for s, t in zip(fsrc, ftgt):\n                s = s.strip()\n                t = t.strip()\n                if t not in mess_up_train \\\n                    and s not in mess_up_train \\\n                    and (s, t) not in mess_up_train_pairs \\\n                    and (t, s) not in mess_up_train_pairs:\n                    corrected_langs.add(direction)\n                    print(s, file=fsrc_corrected)\n                    print(t, file=ftgt_corrected)\n                    keep_num += 1\n                line_num += 1\n                if line_num % 1000 == 0:\n                    print(f'completed {line_num} lines', end='\\r')\n    return line_num, keep_num\n\n##########\n\n\ndef merge_valid_test_messup(mess_up_train_valid, mess_up_train_test):\n    merged_mess = []\n    for s in set(list(mess_up_train_valid.keys()) + list(mess_up_train_test.keys())):\n        if not s:\n            continue\n        valid = mess_up_train_valid.get(s, set())\n        test = mess_up_train_test.get(s, set())\n        merged_mess.append((s, valid | test))\n    return dict(merged_mess)\n\n\n\n#########\ndef check_train_pairs(raw_data, direction, all_test_data, mess_up_train={}):\n    src, tgt = direction.split('-')\n    #a hack; TODO: check the reversed directions\n    path1 = f\"{raw_data}/train.{src}-{tgt}.{src}\"\n    path2 = f\"{raw_data}/train.{src}-{tgt}.{tgt}\"\n    if not os.path.exists(path1) or not os.path.exists(path2) :\n        return\n    \n    with open(path1) as f1, open(path2) as f2:\n        for src_line, tgt_line in zip(f1, f2):\n            s = src_line.strip()\n            t = tgt_line.strip()\n            if (s, t) in all_test_data or (t, s) in all_test_data:\n                langs = mess_up_train.get( (s, t), set())\n                langs.add(src)\n                langs.add(tgt)\n                mess_up_train[(s, t)] = langs\n                \n\ndef load_pairs(raw_data, split, direction):\n    src, tgt = direction.split('-')\n    src_f = f\"{raw_data}/{split}.{direction}.{src}\"\n    tgt_f = f\"{raw_data}/{split}.{direction}.{tgt}\"\n    if tgt != 'en_XX':\n        src_f, tgt_f = tgt_f, src_f\n    if os.path.exists(src_f) and os.path.exists(tgt_f):\n        return list(zip(open(src_f).read().splitlines(), \n                open(tgt_f).read().splitlines(), \n                ))\n    else:\n        return []\n\n# skip_langs = ['cs_CZ', 'en_XX', 'tl_XX', 'tr_TR']\ndef get_messed_up_test_pairs(split, directions):\n    test_pairs = [ \n        (d,  load_pairs(raw_data, split, d))\n        for d in directions\n    ]\n    # all_test_data = {s for _, d in test_data for s in d}\n    all_test_pairs = {}\n    for direction, d in test_pairs:\n        src, tgt = direction.split('-')\n        for s in d:\n            langs = all_test_pairs.get(s, set())\n            langs.add(src)\n            langs.add(tgt)\n            all_test_pairs[s] = langs\n    mess_up_train_pairs = {}                \n    for direction in directions:\n        check_train_pairs(raw_data, direction, all_test_pairs, mess_up_train_pairs)  \n    return all_test_pairs, mess_up_train_pairs\n\n\n\nif __name__ == \"__main__\":\n    #######\n    import argparse\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        '--from-folder',  \n        required=True,\n        type=str)\n    parser.add_argument(\n        '--to-folder',  \n        required=True,\n        type=str)\n    parser.add_argument(\n        '--directions',  \n        default=None,\n        type=str)\n\n\n    args = parser.parse_args()    \n    raw_data = args.from_folder\n    to_folder = args.to_folder\n    os.makedirs(to_folder, exist_ok=True)\n\n    if args.directions:\n        directions = args.directions.split(',')\n    else:\n        raw_files = itertools.chain(\n            glob.glob(f'{raw_data}/train*'),\n            glob.glob(f'{raw_data}/valid*'),\n            glob.glob(f'{raw_data}/test*'),\n        )\n        directions = [os.path.split(file_path)[-1].split('.')[1] for file_path in raw_files]\n    print('working on directions: ', directions)\n\n    ##########\n    \n\n\n    all_test_data, test_data = get_all_test_data(raw_data, directions, 'test')\n    print('==loaded test data==')\n    all_valid_data, valid_data = get_all_test_data(raw_data, directions, 'valid')\n    print('==loaded valid data==')\n    all_valid_test_data =  merge_valid_test_messup(all_test_data, all_valid_data)\n    mess_up_train, data_sizes = check_train_all(raw_data, directions, all_valid_test_data)\n    print('training messing up with valid, test data:', len(mess_up_train))\n    data_situation = train_size_if_remove_in_otherset(data_sizes, mess_up_train)\n    df = pd.DataFrame(data_situation, columns=['direction', 'train_size_after_remove', 'orig_size', 'num_to_remove', 'remove_percent'])\n    df.sort_values('remove_percent', ascending=False)\n    df.to_csv(f'{raw_data}/clean_summary.tsv', sep='\\t')\n    print(f'projected data clean summary in: {raw_data}/clean_summary.tsv')    \n\n    # correct the dataset:\n    all_test_pairs, mess_up_test_train_pairs = get_messed_up_test_pairs('test', directions)\n    all_valid_pairs, mess_up_valid_train_pairs = get_messed_up_test_pairs('valid', directions)\n\n    all_messed_pairs = set(mess_up_test_train_pairs.keys()).union(set(mess_up_valid_train_pairs.keys()))    \n    corrected_directions = set()\n\n    real_data_situation = []\n    for direction in directions:\n        org_size, new_size = remove_messed_up_sentences(raw_data, direction, mess_up_train, all_messed_pairs, corrected_directions)\n        if org_size == 0:\n            print(f\"{direction} has size 0\")\n            continue\n        real_data_situation.append(\n            (direction, new_size, org_size, org_size - new_size, (org_size - new_size) / org_size * 100)\n        )\n    print('corrected directions: ', corrected_directions)\n    df = pd.DataFrame(real_data_situation, columns=['direction', 'train_size_after_remove', 'orig_size', 'num_to_remove', 'remove_percent'])\n    df.sort_values('remove_percent', ascending=False)\n    df.to_csv(f'{raw_data}/actual_clean_summary.tsv', sep='\\t')\n    print(f'actual data clean summary (which can be different from the projected one because of duplications) in: {raw_data}/actual_clean_summary.tsv')        \n\n    import shutil\n    for direction in directions:\n        src_lang, tgt_lang = direction.split('-')\n        for split in ['train', 'valid', 'test']:\n            # copying valid, test and uncorrected train\n            if direction in corrected_directions and split == 'train':\n                continue\n            tgt = f\"{raw_data}/{split}.{direction}.{tgt_lang}\"\n            src = f\"{raw_data}/{split}.{direction}.{src_lang}\"\n            if not (os.path.exists(src) and os.path.exists(tgt)):\n                continue\n            corrected_tgt = f\"{to_folder}/{split}.{direction}.{tgt_lang}\"\n            corrected_src = f\"{to_folder}/{split}.{direction}.{src_lang}\"\n            print(f'copying {src} to {corrected_src}')\n            shutil.copyfile(src, corrected_src)\n            print(f'copying {tgt} to {corrected_tgt}')\n            shutil.copyfile(tgt, corrected_tgt)   \n\n    print('completed')"
  },
  {
    "path": "examples/multilingual/data_scripts/requirement.txt",
    "content": "wget\npandas"
  },
  {
    "path": "examples/multilingual/data_scripts/utils/dedup.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport argparse\n\ndef deup(src_file, tgt_file, src_file_out, tgt_file_out):\n    seen = set()\n    dup_count = 0\n    with open(src_file, encoding='utf-8') as fsrc, \\\n        open(tgt_file, encoding='utf-8') as ftgt, \\\n        open(src_file_out, 'w', encoding='utf-8') as fsrc_out, \\\n        open(tgt_file_out, 'w', encoding='utf-8') as ftgt_out:\n        for s, t in zip(fsrc, ftgt):\n            if (s, t) not in seen:\n                fsrc_out.write(s)\n                ftgt_out.write(t)   \n                seen.add((s, t))\n            else:\n                dup_count += 1\n    print(f'number of duplication: {dup_count}')    \n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--src-file\", type=str, required=True,\n                        help=\"src file\")\n    parser.add_argument(\"--tgt-file\", type=str, required=True,\n                        help=\"tgt file\")\n    parser.add_argument(\"--src-file-out\", type=str, required=True,\n                        help=\"src ouptut file\")\n    parser.add_argument(\"--tgt-file-out\", type=str, required=True,\n                        help=\"tgt ouput file\") \n    args = parser.parse_args()    \n    deup(args.src_file, args.tgt_file, args.src_file_out, args.tgt_file_out)\n                \n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/multilingual/data_scripts/utils/fasttext_multi_filter.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\n#!/bin/python\n\nimport fasttext\nfrom multiprocessing import Pool\nimport contextlib\nimport sys\nimport argparse\nfrom functools import partial\nimport io\n\nmodel = None\ndef init(model_path):\n    global model\n    model = fasttext.load_model(model_path)\n\ndef pred(lines):\n    return lines, [model.predict(line.strip())[0][0][9:] for line in lines]\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--model\", type=str, required=True,\n                        help=\"model to load\")\n    parser.add_argument(\"--inputs\", nargs=\"+\", default=['-'],\n                        help=\"input files to filter\")\n    parser.add_argument(\"--langs\", nargs=\"+\", required=True,\n                        help=\"lang ids of each input file\")\n    parser.add_argument(\"--outputs\", nargs=\"+\", default=['-'],\n                        help=\"path to save lid filtered outputs\")\n    parser.add_argument(\"--num-workers\", type=int, metavar=\"N\", default=10,\n                        help=\"number of processes in parallel\")\n    args = parser.parse_args()\n\n    assert len(args.inputs) == len(args.langs) and len(args.inputs) == len(args.outputs)\n\n    with contextlib.ExitStack() as stack:\n        inputs = [\n            stack.enter_context(open(input, \"r\", encoding=\"utf-8\", newline=\"\\n\", errors=\"replace\"))\n                if input != \"-\" else io.TextIOWrapper(sys.stdin.buffer, encoding='utf-8', errors=\"replace\")\n            for input in args.inputs\n        ]\n        outputs = [\n            stack.enter_context(open(output, \"w\", encoding=\"utf-8\", newline=\"\\n\"))\n                if output != \"-\" else sys.stdout\n            for output in args.outputs\n        ]\n        with Pool(args.num_workers, initializer=partial(init, args.model)) as p:\n            skip_cnt = 0\n            for lines, preds in p.imap(pred, list(zip(*inputs)), chunksize=500):\n                if not all(a == b for a, b in zip(preds, args.langs)):\n                    skip_cnt += 1\n                    continue\n                for line, output_h in zip(lines, outputs):\n                    print(line.strip(), file=output_h)\n        print(f\"Skipped {skip_cnt} lines.\")\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/multilingual/data_scripts/utils/strip_sgm.sh",
    "content": "grep \"seg id\" | sed 's/<seg id=\"[0-9]\\+\">//g' | sed 's/<\\/seg>//g'\n"
  },
  {
    "path": "examples/multilingual/finetune_multilingual_model.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\npath_2_data=$1  # <path to data> which contains binarized data for each directions\nlang_list=$2  # <path to a file which contains a list of languages separted by new lines>\nlang_pairs=$3  #a list language pairs to train multilingual models, e.g. \"en-fr,en-cs,fr-en,cs-en\"\n# pretrained can be an mBART pretrained model as well\npretrained_model=$4 #<path to a pretrained model>\n\n\nfairseq-train \"$path_2_data\" \\\n  --encoder-normalize-before --decoder-normalize-before \\\n  --arch transformer --layernorm-embedding \\\n  --task translation_multi_simple_epoch \\\n  --finetune-from-model \"$pretrained_model\" \\\n  --sampling-method \"temperature\" \\\n  --sampling-temperature \"1.5\" \\\n  --encoder-langtok \"src\" \\\n  --decoder-langtok \\\n  --lang-dict \"$lang_list\" \\\n  --lang-pairs \"$lang_pairs\" \\\n  --criterion label_smoothed_cross_entropy --label-smoothing 0.2 \\\n  --optimizer adam --adam-eps 1e-06 --adam-betas '(0.9, 0.98)' \\\n  --lr-scheduler inverse_sqrt --lr 3e-05 --warmup-updates 2500 --max-update 40000 \\\n  --dropout 0.3 --attention-dropout 0.1 --weight-decay 0.0 \\\n  --max-tokens 1024 --update-freq 2 \\\n  --save-interval 1 --save-interval-updates 5000 --keep-interval-updates 10 --no-epoch-checkpoints \\\n  --seed 222 --log-format simple --log-interval 2\n"
  },
  {
    "path": "examples/multilingual/multilingual_fairseq_gen.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\nlang_pairs=\"en-fr,en-cs,fr-en,cs-en\"\npath_2_data=$1 # <path to data>\nlang_list=$2 # <path to a file which contains list of languages separted by new lines>\nmodel=$3  # <path to a trained model>\nsource_lang=cs\ntarget_lang=en\n\nfairseq-generate \"$path_2_data\" \\\n  --path \"$model\" \\\n  --task translation_multi_simple_epoch \\\n  --gen-subset test \\\n  --source-lang \"$source_lang\" \\\n  --target-lang \"$target_lang\" \\\n  --sacrebleu --remove-bpe 'sentencepiece'\\\n  --batch-size 32 \\\n  --encoder-langtok \"src\" \\\n  --decoder-langtok \\\n  --lang-dict \"$lang_list\" \\\n  --lang-pairs \"$lang_pairs\"\n"
  },
  {
    "path": "examples/multilingual/train_multilingual_model.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\npath_2_data=$1  # <path to data> which contains binarized data for each directions\nlang_list=$2  # <path to a file which contains a list of languages separted by new lines>\nlang_pairs=$3  #a list language pairs to train multilingual models, e.g. \"en-fr,en-cs,fr-en,cs-en\"\n\nfairseq-train \"$path_2_data\" \\\n  --encoder-normalize-before --decoder-normalize-before \\\n  --arch transformer --layernorm-embedding \\\n  --task translation_multi_simple_epoch \\\n  --sampling-method \"temperature\" \\\n  --sampling-temperature 1.5 \\\n  --encoder-langtok \"src\" \\\n  --decoder-langtok \\\n  --lang-dict \"$lang_list\" \\\n  --lang-pairs \"$lang_pairs\" \\\n  --criterion label_smoothed_cross_entropy --label-smoothing 0.2 \\\n  --optimizer adam --adam-eps 1e-06 --adam-betas '(0.9, 0.98)' \\\n  --lr-scheduler inverse_sqrt --lr 3e-05 --warmup-updates 2500 --max-update 40000 \\\n  --dropout 0.3 --attention-dropout 0.1 --weight-decay 0.0 \\\n  --max-tokens 1024 --update-freq 2 \\\n  --save-interval 1 --save-interval-updates 5000 --keep-interval-updates 10 --no-epoch-checkpoints \\\n  --seed 222 --log-format simple --log-interval 2\n"
  },
  {
    "path": "examples/noisychannel/README.md",
    "content": "# Simple and Effective Noisy Channel Modeling for Neural Machine Translation (Yee et al., 2019)\nThis page contains pointers to pre-trained models as well as instructions on how to run the reranking scripts.\n\n## Citation:\n```bibtex\n@inproceedings{yee2019simple,\n  title = {Simple and Effective Noisy Channel Modeling for Neural Machine Translation},\n  author = {Kyra Yee and Yann Dauphin and Michael Auli},\n  booktitle = {Conference on Empirical Methods in Natural Language Processing},\n  year = {2019},\n}\n```\n\n## Pre-trained Models:\n\nModel | Description |  Download\n---|---|---\n`transformer.noisychannel.de-en` | De->En Forward Model | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/noisychannel/forward_de2en.tar.bz2)\n`transformer.noisychannel.en-de` | En->De Channel Model | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/noisychannel/backward_en2de.tar.bz2)\n`transformer_lm.noisychannel.en` | En Language model | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/noisychannel/reranking_en_lm.tar.bz2)\n\nTest Data: [newstest_wmt17](https://dl.fbaipublicfiles.com/fairseq/models/noisychannel/wmt17test.tar.bz2)\n\n## Example usage\n\n```\nmkdir rerank_example\ncurl https://dl.fbaipublicfiles.com/fairseq/models/noisychannel/forward_de2en.tar.bz2 | tar xvjf - -C rerank_example\ncurl https://dl.fbaipublicfiles.com/fairseq/models/noisychannel/backward_en2de.tar.bz2 | tar xvjf - -C rerank_example\ncurl https://dl.fbaipublicfiles.com/fairseq/models/noisychannel/reranking_en_lm.tar.bz2 | tar xvjf - -C rerank_example\ncurl https://dl.fbaipublicfiles.com/fairseq/models/noisychannel/wmt17test.tar.bz2 | tar xvjf - -C rerank_example\n\nbeam=50\nnum_trials=1000\nfw_name=fw_model_ex\nbw_name=bw_model_ex\nlm_name=lm_ex\ndata_dir=rerank_example/hyphen-splitting-mixed-case-wmt17test-wmt14bpe\ndata_dir_name=wmt17\nlm=rerank_example/lm/checkpoint_best.pt\nlm_bpe_code=rerank_example/lm/bpe32k.code\nlm_dict=rerank_example/lm/dict.txt\nbatch_size=32\nbw=rerank_example/backward_en2de.pt\nfw=rerank_example/forward_de2en.pt\n\n# reranking with P(T|S) P(S|T) and P(T)\npython examples/noisychannel/rerank_tune.py $data_dir  --tune-param lenpen weight1 weight3  \\\n    --lower-bound 0 0 0 --upper-bound 3 3 3 --data-dir-name $data_dir_name  \\ \n    --num-trials $num_trials  --source-lang de --target-lang en --gen-model $fw \\\n    -n $beam --batch-size $batch_size --score-model2 $fw --score-model1 $bw \\\n    --backwards1 --weight2 1 \\\n    -lm $lm  --lm-dict $lm_dict  --lm-name en_newscrawl --lm-bpe-code $lm_bpe_code \\\n    --model2-name $fw_name --model1-name $bw_name --gen-model-name $fw_name\n\n# reranking with P(T|S) and P(T)\npython examples/noisychannel/rerank_tune.py $data_dir  --tune-param lenpen weight3 \\\n    --lower-bound 0 0 --upper-bound 3 3  --data-dir-name $data_dir_name  \\\n    --num-trials $num_trials  --source-lang de --target-lang en --gen-model $fw \\\n    -n $beam --batch-size $batch_size --score-model1 $fw \\\n    -lm $lm  --lm-dict $lm_dict  --lm-name en_newscrawl --lm-bpe-code $lm_bpe_code \\\n    --model1-name $fw_name --gen-model-name $fw_name\n\n# to run with a preconfigured set of hyperparameters for the lenpen and model weights, using rerank.py instead.\npython examples/noisychannel/rerank.py $data_dir \\\n    --lenpen 0.269 --weight1 1 --weight2 0.929 --weight3 0.831  \\\n    --data-dir-name $data_dir_name  --source-lang de --target-lang en --gen-model $fw \\\n    -n $beam --batch-size $batch_size --score-model2 $fw --score-model1 $bw --backwards1  \\\n    -lm $lm  --lm-dict $lm_dict  --lm-name en_newscrawl --lm-bpe-code $lm_bpe_code \\\n    --model2-name $fw_name --model1-name $bw_name --gen-model-name $fw_name\n```\n\n"
  },
  {
    "path": "examples/noisychannel/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .rerank_options import *  # noqa\n"
  },
  {
    "path": "examples/noisychannel/rerank.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom multiprocessing import Pool\n\nimport numpy as np\nfrom fairseq import options\nfrom fairseq.data import dictionary\nfrom fairseq.scoring import bleu\n\nfrom examples.noisychannel import (\n    rerank_generate,\n    rerank_options,\n    rerank_score_bw,\n    rerank_score_lm,\n    rerank_utils,\n)\n\n\ndef score_target_hypo(\n    args, a, b, c, lenpen, target_outfile, hypo_outfile, write_hypos, normalize\n):\n\n    print(\"lenpen\", lenpen, \"weight1\", a, \"weight2\", b, \"weight3\", c)\n    gen_output_lst, bitext1_lst, bitext2_lst, lm_res_lst = load_score_files(args)\n    dict = dictionary.Dictionary()\n    scorer = scorer = bleu.Scorer(\n        bleu.BleuConfig(\n            pad=dict.pad(),\n            eos=dict.eos(),\n            unk=dict.unk(),\n        )\n    )\n\n    ordered_hypos = {}\n    ordered_targets = {}\n\n    for shard_id in range(len(bitext1_lst)):\n        bitext1 = bitext1_lst[shard_id]\n        bitext2 = bitext2_lst[shard_id]\n        gen_output = gen_output_lst[shard_id]\n        lm_res = lm_res_lst[shard_id]\n\n        total = len(bitext1.rescore_source.keys())\n        source_lst = []\n        hypo_lst = []\n        score_lst = []\n        reference_lst = []\n        j = 1\n        best_score = -math.inf\n\n        for i in range(total):\n            # length is measured in terms of words, not bpe tokens, since models may not share the same bpe\n            target_len = len(bitext1.rescore_hypo[i].split())\n\n            if lm_res is not None:\n                lm_score = lm_res.score[i]\n            else:\n                lm_score = 0\n\n            if bitext2 is not None:\n                bitext2_score = bitext2.rescore_score[i]\n                bitext2_backwards = bitext2.backwards\n            else:\n                bitext2_score = None\n                bitext2_backwards = None\n\n            score = rerank_utils.get_score(\n                a,\n                b,\n                c,\n                target_len,\n                bitext1.rescore_score[i],\n                bitext2_score,\n                lm_score=lm_score,\n                lenpen=lenpen,\n                src_len=bitext1.source_lengths[i],\n                tgt_len=bitext1.target_lengths[i],\n                bitext1_backwards=bitext1.backwards,\n                bitext2_backwards=bitext2_backwards,\n                normalize=normalize,\n            )\n\n            if score > best_score:\n                best_score = score\n                best_hypo = bitext1.rescore_hypo[i]\n\n            if j == gen_output.num_hypos[i] or j == args.num_rescore:\n                j = 1\n                hypo_lst.append(best_hypo)\n                score_lst.append(best_score)\n                source_lst.append(bitext1.rescore_source[i])\n                reference_lst.append(bitext1.rescore_target[i])\n\n                best_score = -math.inf\n                best_hypo = \"\"\n            else:\n                j += 1\n\n        gen_keys = list(sorted(gen_output.no_bpe_target.keys()))\n\n        for key in range(len(gen_keys)):\n            if args.prefix_len is None:\n                assert hypo_lst[key] in gen_output.no_bpe_hypo[gen_keys[key]], (\n                    \"pred and rescore hypo mismatch: i: \"\n                    + str(key)\n                    + \", \"\n                    + str(hypo_lst[key])\n                    + str(gen_keys[key])\n                    + str(gen_output.no_bpe_hypo[key])\n                )\n                sys_tok = dict.encode_line(hypo_lst[key])\n                ref_tok = dict.encode_line(gen_output.no_bpe_target[gen_keys[key]])\n                scorer.add(ref_tok, sys_tok)\n\n            else:\n                full_hypo = rerank_utils.get_full_from_prefix(\n                    hypo_lst[key], gen_output.no_bpe_hypo[gen_keys[key]]\n                )\n                sys_tok = dict.encode_line(full_hypo)\n                ref_tok = dict.encode_line(gen_output.no_bpe_target[gen_keys[key]])\n                scorer.add(ref_tok, sys_tok)\n\n        # if only one set of hyper parameters is provided, write the predictions to a file\n        if write_hypos:\n            # recover the orinal ids from n best list generation\n            for key in range(len(gen_output.no_bpe_target)):\n                if args.prefix_len is None:\n                    assert hypo_lst[key] in gen_output.no_bpe_hypo[gen_keys[key]], (\n                        \"pred and rescore hypo mismatch:\"\n                        + \"i:\"\n                        + str(key)\n                        + str(hypo_lst[key])\n                        + str(gen_output.no_bpe_hypo[key])\n                    )\n                    ordered_hypos[gen_keys[key]] = hypo_lst[key]\n                    ordered_targets[gen_keys[key]] = gen_output.no_bpe_target[\n                        gen_keys[key]\n                    ]\n\n                else:\n                    full_hypo = rerank_utils.get_full_from_prefix(\n                        hypo_lst[key], gen_output.no_bpe_hypo[gen_keys[key]]\n                    )\n                    ordered_hypos[gen_keys[key]] = full_hypo\n                    ordered_targets[gen_keys[key]] = gen_output.no_bpe_target[\n                        gen_keys[key]\n                    ]\n\n    # write the hypos in the original order from nbest list generation\n    if args.num_shards == (len(bitext1_lst)):\n        with open(target_outfile, \"w\") as t:\n            with open(hypo_outfile, \"w\") as h:\n                for key in range(len(ordered_hypos)):\n                    t.write(ordered_targets[key])\n                    h.write(ordered_hypos[key])\n\n    res = scorer.result_string(4)\n    if write_hypos:\n        print(res)\n    score = rerank_utils.parse_bleu_scoring(res)\n    return score\n\n\ndef match_target_hypo(args, target_outfile, hypo_outfile):\n    \"\"\"combine scores from the LM and bitext models, and write the top scoring hypothesis to a file\"\"\"\n    if len(args.weight1) == 1:\n        res = score_target_hypo(\n            args,\n            args.weight1[0],\n            args.weight2[0],\n            args.weight3[0],\n            args.lenpen[0],\n            target_outfile,\n            hypo_outfile,\n            True,\n            args.normalize,\n        )\n        rerank_scores = [res]\n    else:\n        print(\"launching pool\")\n        with Pool(32) as p:\n            rerank_scores = p.starmap(\n                score_target_hypo,\n                [\n                    (\n                        args,\n                        args.weight1[i],\n                        args.weight2[i],\n                        args.weight3[i],\n                        args.lenpen[i],\n                        target_outfile,\n                        hypo_outfile,\n                        False,\n                        args.normalize,\n                    )\n                    for i in range(len(args.weight1))\n                ],\n            )\n\n    if len(rerank_scores) > 1:\n        best_index = np.argmax(rerank_scores)\n        best_score = rerank_scores[best_index]\n        print(\"best score\", best_score)\n        print(\"best lenpen\", args.lenpen[best_index])\n        print(\"best weight1\", args.weight1[best_index])\n        print(\"best weight2\", args.weight2[best_index])\n        print(\"best weight3\", args.weight3[best_index])\n        return (\n            args.lenpen[best_index],\n            args.weight1[best_index],\n            args.weight2[best_index],\n            args.weight3[best_index],\n            best_score,\n        )\n\n    else:\n        return (\n            args.lenpen[0],\n            args.weight1[0],\n            args.weight2[0],\n            args.weight3[0],\n            rerank_scores[0],\n        )\n\n\ndef load_score_files(args):\n    if args.all_shards:\n        shard_ids = list(range(args.num_shards))\n    else:\n        shard_ids = [args.shard_id]\n\n    gen_output_lst = []\n    bitext1_lst = []\n    bitext2_lst = []\n    lm_res1_lst = []\n\n    for shard_id in shard_ids:\n        using_nbest = args.nbest_list is not None\n        (\n            pre_gen,\n            left_to_right_preprocessed_dir,\n            right_to_left_preprocessed_dir,\n            backwards_preprocessed_dir,\n            lm_preprocessed_dir,\n        ) = rerank_utils.get_directories(\n            args.data_dir_name,\n            args.num_rescore,\n            args.gen_subset,\n            args.gen_model_name,\n            shard_id,\n            args.num_shards,\n            args.sampling,\n            args.prefix_len,\n            args.target_prefix_frac,\n            args.source_prefix_frac,\n        )\n\n        rerank1_is_gen = (\n            args.gen_model == args.score_model1 and args.source_prefix_frac is None\n        )\n        rerank2_is_gen = (\n            args.gen_model == args.score_model2 and args.source_prefix_frac is None\n        )\n\n        score1_file = rerank_utils.rescore_file_name(\n            pre_gen,\n            args.prefix_len,\n            args.model1_name,\n            target_prefix_frac=args.target_prefix_frac,\n            source_prefix_frac=args.source_prefix_frac,\n            backwards=args.backwards1,\n        )\n        if args.score_model2 is not None:\n            score2_file = rerank_utils.rescore_file_name(\n                pre_gen,\n                args.prefix_len,\n                args.model2_name,\n                target_prefix_frac=args.target_prefix_frac,\n                source_prefix_frac=args.source_prefix_frac,\n                backwards=args.backwards2,\n            )\n        if args.language_model is not None:\n            lm_score_file = rerank_utils.rescore_file_name(\n                pre_gen, args.prefix_len, args.lm_name, lm_file=True\n            )\n\n        # get gen output\n        predictions_bpe_file = pre_gen + \"/generate_output_bpe.txt\"\n        if using_nbest:\n            print(\"Using predefined n-best list from interactive.py\")\n            predictions_bpe_file = args.nbest_list\n        gen_output = rerank_utils.BitextOutputFromGen(\n            predictions_bpe_file,\n            bpe_symbol=args.post_process,\n            nbest=using_nbest,\n            prefix_len=args.prefix_len,\n            target_prefix_frac=args.target_prefix_frac,\n        )\n\n        if rerank1_is_gen:\n            bitext1 = gen_output\n        else:\n            bitext1 = rerank_utils.BitextOutput(\n                score1_file,\n                args.backwards1,\n                args.right_to_left1,\n                args.post_process,\n                args.prefix_len,\n                args.target_prefix_frac,\n                args.source_prefix_frac,\n            )\n\n        if args.score_model2 is not None or args.nbest_list is not None:\n            if rerank2_is_gen:\n                bitext2 = gen_output\n            else:\n                bitext2 = rerank_utils.BitextOutput(\n                    score2_file,\n                    args.backwards2,\n                    args.right_to_left2,\n                    args.post_process,\n                    args.prefix_len,\n                    args.target_prefix_frac,\n                    args.source_prefix_frac,\n                )\n\n                assert (\n                    bitext2.source_lengths == bitext1.source_lengths\n                ), \"source lengths for rescoring models do not match\"\n                assert (\n                    bitext2.target_lengths == bitext1.target_lengths\n                ), \"target lengths for rescoring models do not match\"\n        else:\n            if args.diff_bpe:\n                assert args.score_model2 is None\n                bitext2 = gen_output\n            else:\n                bitext2 = None\n\n        if args.language_model is not None:\n            lm_res1 = rerank_utils.LMOutput(\n                lm_score_file,\n                args.lm_dict,\n                args.prefix_len,\n                args.post_process,\n                args.target_prefix_frac,\n            )\n        else:\n            lm_res1 = None\n\n        gen_output_lst.append(gen_output)\n        bitext1_lst.append(bitext1)\n        bitext2_lst.append(bitext2)\n        lm_res1_lst.append(lm_res1)\n    return gen_output_lst, bitext1_lst, bitext2_lst, lm_res1_lst\n\n\ndef rerank(args):\n    if type(args.lenpen) is not list:\n        args.lenpen = [args.lenpen]\n    if type(args.weight1) is not list:\n        args.weight1 = [args.weight1]\n    if type(args.weight2) is not list:\n        args.weight2 = [args.weight2]\n    if type(args.weight3) is not list:\n        args.weight3 = [args.weight3]\n    if args.all_shards:\n        shard_ids = list(range(args.num_shards))\n    else:\n        shard_ids = [args.shard_id]\n\n    for shard_id in shard_ids:\n        (\n            pre_gen,\n            left_to_right_preprocessed_dir,\n            right_to_left_preprocessed_dir,\n            backwards_preprocessed_dir,\n            lm_preprocessed_dir,\n        ) = rerank_utils.get_directories(\n            args.data_dir_name,\n            args.num_rescore,\n            args.gen_subset,\n            args.gen_model_name,\n            shard_id,\n            args.num_shards,\n            args.sampling,\n            args.prefix_len,\n            args.target_prefix_frac,\n            args.source_prefix_frac,\n        )\n        rerank_generate.gen_and_reprocess_nbest(args)\n        rerank_score_bw.score_bw(args)\n        rerank_score_lm.score_lm(args)\n\n        if args.write_hypos is None:\n            write_targets = pre_gen + \"/matched_targets\"\n            write_hypos = pre_gen + \"/matched_hypos\"\n        else:\n            write_targets = args.write_hypos + \"_targets\" + args.gen_subset\n            write_hypos = args.write_hypos + \"_hypos\" + args.gen_subset\n\n    if args.all_shards:\n        write_targets += \"_all_shards\"\n        write_hypos += \"_all_shards\"\n\n    (\n        best_lenpen,\n        best_weight1,\n        best_weight2,\n        best_weight3,\n        best_score,\n    ) = match_target_hypo(args, write_targets, write_hypos)\n\n    return best_lenpen, best_weight1, best_weight2, best_weight3, best_score\n\n\ndef cli_main():\n    parser = rerank_options.get_reranking_parser()\n    args = options.parse_args_and_arch(parser)\n    rerank(args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/noisychannel/rerank_generate.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nGenerate n-best translations using a trained model.\n\"\"\"\n\nimport os\nimport subprocess\nfrom contextlib import redirect_stdout\n\nfrom fairseq import options\nfrom fairseq_cli import generate, preprocess\n\nfrom examples.noisychannel import rerank_options, rerank_utils\n\n\ndef gen_and_reprocess_nbest(args):\n    if args.score_dict_dir is None:\n        args.score_dict_dir = args.data\n    if args.prefix_len is not None:\n        assert (\n            args.right_to_left1 is False\n        ), \"prefix length not compatible with right to left models\"\n        assert (\n            args.right_to_left2 is False\n        ), \"prefix length not compatible with right to left models\"\n\n    if args.nbest_list is not None:\n        assert args.score_model2 is None\n\n    if args.backwards1:\n        scorer1_src = args.target_lang\n        scorer1_tgt = args.source_lang\n    else:\n        scorer1_src = args.source_lang\n        scorer1_tgt = args.target_lang\n\n    store_data = (\n        os.path.join(os.path.dirname(__file__)) + \"/rerank_data/\" + args.data_dir_name\n    )\n    if not os.path.exists(store_data):\n        os.makedirs(store_data)\n\n    (\n        pre_gen,\n        left_to_right_preprocessed_dir,\n        right_to_left_preprocessed_dir,\n        backwards_preprocessed_dir,\n        lm_preprocessed_dir,\n    ) = rerank_utils.get_directories(\n        args.data_dir_name,\n        args.num_rescore,\n        args.gen_subset,\n        args.gen_model_name,\n        args.shard_id,\n        args.num_shards,\n        args.sampling,\n        args.prefix_len,\n        args.target_prefix_frac,\n        args.source_prefix_frac,\n    )\n    assert not (\n        args.right_to_left1 and args.backwards1\n    ), \"backwards right to left not supported\"\n    assert not (\n        args.right_to_left2 and args.backwards2\n    ), \"backwards right to left not supported\"\n    assert not (\n        args.prefix_len is not None and args.target_prefix_frac is not None\n    ), \"target prefix frac and target prefix len incompatible\"\n\n    # make directory to store generation results\n    if not os.path.exists(pre_gen):\n        os.makedirs(pre_gen)\n\n    rerank1_is_gen = (\n        args.gen_model == args.score_model1 and args.source_prefix_frac is None\n    )\n    rerank2_is_gen = (\n        args.gen_model == args.score_model2 and args.source_prefix_frac is None\n    )\n\n    if args.nbest_list is not None:\n        rerank2_is_gen = True\n\n    # make directories to store preprossed nbest list for reranking\n    if not os.path.exists(left_to_right_preprocessed_dir):\n        os.makedirs(left_to_right_preprocessed_dir)\n    if not os.path.exists(right_to_left_preprocessed_dir):\n        os.makedirs(right_to_left_preprocessed_dir)\n    if not os.path.exists(lm_preprocessed_dir):\n        os.makedirs(lm_preprocessed_dir)\n    if not os.path.exists(backwards_preprocessed_dir):\n        os.makedirs(backwards_preprocessed_dir)\n\n    score1_file = rerank_utils.rescore_file_name(\n        pre_gen,\n        args.prefix_len,\n        args.model1_name,\n        target_prefix_frac=args.target_prefix_frac,\n        source_prefix_frac=args.source_prefix_frac,\n        backwards=args.backwards1,\n    )\n    if args.score_model2 is not None:\n        score2_file = rerank_utils.rescore_file_name(\n            pre_gen,\n            args.prefix_len,\n            args.model2_name,\n            target_prefix_frac=args.target_prefix_frac,\n            source_prefix_frac=args.source_prefix_frac,\n            backwards=args.backwards2,\n        )\n\n    predictions_bpe_file = pre_gen + \"/generate_output_bpe.txt\"\n\n    using_nbest = args.nbest_list is not None\n\n    if using_nbest:\n        print(\"Using predefined n-best list from interactive.py\")\n        predictions_bpe_file = args.nbest_list\n\n    else:\n        if not os.path.isfile(predictions_bpe_file):\n            print(\"STEP 1: generate predictions using the p(T|S) model with bpe\")\n            print(args.data)\n            param1 = [\n                args.data,\n                \"--path\",\n                args.gen_model,\n                \"--shard-id\",\n                str(args.shard_id),\n                \"--num-shards\",\n                str(args.num_shards),\n                \"--nbest\",\n                str(args.num_rescore),\n                \"--batch-size\",\n                str(args.batch_size),\n                \"--beam\",\n                str(args.num_rescore),\n                \"--batch-size\",\n                str(args.num_rescore),\n                \"--gen-subset\",\n                args.gen_subset,\n                \"--source-lang\",\n                args.source_lang,\n                \"--target-lang\",\n                args.target_lang,\n            ]\n            if args.sampling:\n                param1 += [\"--sampling\"]\n\n            gen_parser = options.get_generation_parser()\n            input_args = options.parse_args_and_arch(gen_parser, param1)\n\n            print(input_args)\n            with open(predictions_bpe_file, \"w\") as f:\n                with redirect_stdout(f):\n                    generate.main(input_args)\n\n    gen_output = rerank_utils.BitextOutputFromGen(\n        predictions_bpe_file,\n        bpe_symbol=args.post_process,\n        nbest=using_nbest,\n        prefix_len=args.prefix_len,\n        target_prefix_frac=args.target_prefix_frac,\n    )\n\n    if args.diff_bpe:\n        rerank_utils.write_reprocessed(\n            gen_output.no_bpe_source,\n            gen_output.no_bpe_hypo,\n            gen_output.no_bpe_target,\n            pre_gen + \"/source_gen_bpe.\" + args.source_lang,\n            pre_gen + \"/target_gen_bpe.\" + args.target_lang,\n            pre_gen + \"/reference_gen_bpe.\" + args.target_lang,\n        )\n        bitext_bpe = args.rescore_bpe_code\n        bpe_src_param = [\n            \"-c\",\n            bitext_bpe,\n            \"--input\",\n            pre_gen + \"/source_gen_bpe.\" + args.source_lang,\n            \"--output\",\n            pre_gen + \"/rescore_data.\" + args.source_lang,\n        ]\n        bpe_tgt_param = [\n            \"-c\",\n            bitext_bpe,\n            \"--input\",\n            pre_gen + \"/target_gen_bpe.\" + args.target_lang,\n            \"--output\",\n            pre_gen + \"/rescore_data.\" + args.target_lang,\n        ]\n\n        subprocess.call(\n            [\n                \"python\",\n                os.path.join(\n                    os.path.dirname(__file__), \"subword-nmt/subword_nmt/apply_bpe.py\"\n                ),\n            ]\n            + bpe_src_param,\n            shell=False,\n        )\n\n        subprocess.call(\n            [\n                \"python\",\n                os.path.join(\n                    os.path.dirname(__file__), \"subword-nmt/subword_nmt/apply_bpe.py\"\n                ),\n            ]\n            + bpe_tgt_param,\n            shell=False,\n        )\n\n    if (not os.path.isfile(score1_file) and not rerank1_is_gen) or (\n        args.score_model2 is not None\n        and not os.path.isfile(score2_file)\n        and not rerank2_is_gen\n    ):\n        print(\n            \"STEP 2: process the output of generate.py so we have clean text files with the translations\"\n        )\n\n        rescore_file = \"/rescore_data\"\n        if args.prefix_len is not None:\n            prefix_len_rescore_file = rescore_file + \"prefix\" + str(args.prefix_len)\n        if args.target_prefix_frac is not None:\n            target_prefix_frac_rescore_file = (\n                rescore_file + \"target_prefix_frac\" + str(args.target_prefix_frac)\n            )\n        if args.source_prefix_frac is not None:\n            source_prefix_frac_rescore_file = (\n                rescore_file + \"source_prefix_frac\" + str(args.source_prefix_frac)\n            )\n\n        if not args.right_to_left1 or not args.right_to_left2:\n            if not args.diff_bpe:\n                rerank_utils.write_reprocessed(\n                    gen_output.source,\n                    gen_output.hypo,\n                    gen_output.target,\n                    pre_gen + rescore_file + \".\" + args.source_lang,\n                    pre_gen + rescore_file + \".\" + args.target_lang,\n                    pre_gen + \"/reference_file\",\n                    bpe_symbol=args.post_process,\n                )\n                if args.prefix_len is not None:\n                    bw_rescore_file = prefix_len_rescore_file\n                    rerank_utils.write_reprocessed(\n                        gen_output.source,\n                        gen_output.hypo,\n                        gen_output.target,\n                        pre_gen + prefix_len_rescore_file + \".\" + args.source_lang,\n                        pre_gen + prefix_len_rescore_file + \".\" + args.target_lang,\n                        pre_gen + \"/reference_file\",\n                        prefix_len=args.prefix_len,\n                        bpe_symbol=args.post_process,\n                    )\n                elif args.target_prefix_frac is not None:\n                    bw_rescore_file = target_prefix_frac_rescore_file\n                    rerank_utils.write_reprocessed(\n                        gen_output.source,\n                        gen_output.hypo,\n                        gen_output.target,\n                        pre_gen\n                        + target_prefix_frac_rescore_file\n                        + \".\"\n                        + args.source_lang,\n                        pre_gen\n                        + target_prefix_frac_rescore_file\n                        + \".\"\n                        + args.target_lang,\n                        pre_gen + \"/reference_file\",\n                        bpe_symbol=args.post_process,\n                        target_prefix_frac=args.target_prefix_frac,\n                    )\n                else:\n                    bw_rescore_file = rescore_file\n\n                if args.source_prefix_frac is not None:\n                    fw_rescore_file = source_prefix_frac_rescore_file\n                    rerank_utils.write_reprocessed(\n                        gen_output.source,\n                        gen_output.hypo,\n                        gen_output.target,\n                        pre_gen\n                        + source_prefix_frac_rescore_file\n                        + \".\"\n                        + args.source_lang,\n                        pre_gen\n                        + source_prefix_frac_rescore_file\n                        + \".\"\n                        + args.target_lang,\n                        pre_gen + \"/reference_file\",\n                        bpe_symbol=args.post_process,\n                        source_prefix_frac=args.source_prefix_frac,\n                    )\n                else:\n                    fw_rescore_file = rescore_file\n\n        if args.right_to_left1 or args.right_to_left2:\n            rerank_utils.write_reprocessed(\n                gen_output.source,\n                gen_output.hypo,\n                gen_output.target,\n                pre_gen + \"/right_to_left_rescore_data.\" + args.source_lang,\n                pre_gen + \"/right_to_left_rescore_data.\" + args.target_lang,\n                pre_gen + \"/right_to_left_reference_file\",\n                right_to_left=True,\n                bpe_symbol=args.post_process,\n            )\n\n        print(\"STEP 3: binarize the translations\")\n        if (\n            not args.right_to_left1\n            or args.score_model2 is not None\n            and not args.right_to_left2\n            or not rerank1_is_gen\n        ):\n\n            if args.backwards1 or args.backwards2:\n                if args.backwards_score_dict_dir is not None:\n                    bw_dict = args.backwards_score_dict_dir\n                else:\n                    bw_dict = args.score_dict_dir\n                bw_preprocess_param = [\n                    \"--source-lang\",\n                    scorer1_src,\n                    \"--target-lang\",\n                    scorer1_tgt,\n                    \"--trainpref\",\n                    pre_gen + bw_rescore_file,\n                    \"--srcdict\",\n                    bw_dict + \"/dict.\" + scorer1_src + \".txt\",\n                    \"--tgtdict\",\n                    bw_dict + \"/dict.\" + scorer1_tgt + \".txt\",\n                    \"--destdir\",\n                    backwards_preprocessed_dir,\n                ]\n                preprocess_parser = options.get_preprocessing_parser()\n                input_args = preprocess_parser.parse_args(bw_preprocess_param)\n                preprocess.main(input_args)\n\n            preprocess_param = [\n                \"--source-lang\",\n                scorer1_src,\n                \"--target-lang\",\n                scorer1_tgt,\n                \"--trainpref\",\n                pre_gen + fw_rescore_file,\n                \"--srcdict\",\n                args.score_dict_dir + \"/dict.\" + scorer1_src + \".txt\",\n                \"--tgtdict\",\n                args.score_dict_dir + \"/dict.\" + scorer1_tgt + \".txt\",\n                \"--destdir\",\n                left_to_right_preprocessed_dir,\n            ]\n            preprocess_parser = options.get_preprocessing_parser()\n            input_args = preprocess_parser.parse_args(preprocess_param)\n            preprocess.main(input_args)\n\n        if args.right_to_left1 or args.right_to_left2:\n            preprocess_param = [\n                \"--source-lang\",\n                scorer1_src,\n                \"--target-lang\",\n                scorer1_tgt,\n                \"--trainpref\",\n                pre_gen + \"/right_to_left_rescore_data\",\n                \"--srcdict\",\n                args.score_dict_dir + \"/dict.\" + scorer1_src + \".txt\",\n                \"--tgtdict\",\n                args.score_dict_dir + \"/dict.\" + scorer1_tgt + \".txt\",\n                \"--destdir\",\n                right_to_left_preprocessed_dir,\n            ]\n            preprocess_parser = options.get_preprocessing_parser()\n            input_args = preprocess_parser.parse_args(preprocess_param)\n            preprocess.main(input_args)\n\n    return gen_output\n\n\ndef cli_main():\n    parser = rerank_options.get_reranking_parser()\n    args = options.parse_args_and_arch(parser)\n    gen_and_reprocess_nbest(args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/noisychannel/rerank_options.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq import options\n\n\ndef get_reranking_parser(default_task=\"translation\"):\n    parser = options.get_parser(\"Generation and reranking\", default_task)\n    add_reranking_args(parser)\n    return parser\n\n\ndef get_tuning_parser(default_task=\"translation\"):\n    parser = options.get_parser(\"Reranking tuning\", default_task)\n    add_reranking_args(parser)\n    add_tuning_args(parser)\n    return parser\n\n\ndef add_reranking_args(parser):\n    group = parser.add_argument_group(\"Reranking\")\n    # fmt: off\n    group.add_argument('--score-model1', '-s1', type=str, metavar='FILE', required=True,\n                       help='path to first model or ensemble of models for rescoring')\n    group.add_argument('--score-model2', '-s2', type=str, metavar='FILE', required=False,\n                       help='path to second model or ensemble of models for rescoring')\n    group.add_argument('--num-rescore', '-n', type=int, metavar='N', default=10,\n                       help='the number of candidate hypothesis to rescore')\n    group.add_argument('-bz', '--batch-size', type=int, metavar='N', default=128,\n                       help='batch size for generating the nbest list')\n    group.add_argument('--gen-subset', default='test', metavar='SET', choices=['test', 'train', 'valid'],\n                       help='data subset to generate (train, valid, test)')\n    group.add_argument('--gen-model', default=None, metavar='FILE',\n                       help='the model to generate translations')\n    group.add_argument('-b1', '--backwards1', action='store_true',\n                       help='whether or not the first model group is backwards')\n    group.add_argument('-b2', '--backwards2', action='store_true',\n                       help='whether or not the second model group is backwards')\n    group.add_argument('-a', '--weight1', default=1, nargs='+', type=float,\n                       help='the weight(s) of the first model')\n    group.add_argument('-b', '--weight2', default=1, nargs='+', type=float,\n                       help='the weight(s) of the second model, or the gen model if using nbest from interactive.py')\n    group.add_argument('-c', '--weight3', default=1, nargs='+', type=float,\n                       help='the weight(s) of the third model')\n\n    # lm arguments\n    group.add_argument('-lm', '--language-model', default=None, metavar='FILE',\n                       help='language model for target language to rescore translations')\n    group.add_argument('--lm-dict', default=None, metavar='FILE',\n                       help='the dict of the language model for the target language')\n    group.add_argument('--lm-name', default=None,\n                       help='the name of the language model for the target language')\n    group.add_argument('--lm-bpe-code', default=None, metavar='FILE',\n                       help='the bpe code for the language model for the target language')\n    group.add_argument('--data-dir-name', default=None,\n                       help='name of data directory')\n    group.add_argument('--lenpen', default=1, nargs='+', type=float,\n                       help='length penalty: <1.0 favors shorter, >1.0 favors longer sentences')\n    group.add_argument('--score-dict-dir', default=None,\n                       help='the directory with dictionaries for the scoring models')\n    group.add_argument('--right-to-left1', action='store_true',\n                       help='whether the first model group is a right to left model')\n    group.add_argument('--right-to-left2', action='store_true',\n                       help='whether the second model group is a right to left model')\n    group.add_argument('--post-process', '--remove-bpe', default='@@ ',\n                       help='the bpe symbol, used for the bitext and LM')\n    group.add_argument('--prefix-len', default=None, type=int,\n                       help='the length of the target prefix to use in rescoring (in terms of words wo bpe)')\n    group.add_argument('--sampling', action='store_true',\n                       help='use sampling instead of beam search for generating n best list')\n    group.add_argument('--diff-bpe', action='store_true',\n                       help='bpe for rescoring and nbest list not the same')\n    group.add_argument('--rescore-bpe-code', default=None,\n                       help='bpe code for rescoring models')\n    group.add_argument('--nbest-list', default=None,\n                       help='use predefined nbest list in interactive.py format')\n    group.add_argument('--write-hypos', default=None,\n                       help='filename prefix to write hypos to')\n    group.add_argument('--ref-translation', default=None,\n                       help='reference translation to use with nbest list from interactive.py')\n    group.add_argument('--backwards-score-dict-dir', default=None,\n                       help='the directory with dictionaries for the backwards model,'\n                            'if None then it is assumed the fw and backwards models share dictionaries')\n\n    # extra scaling args\n    group.add_argument('--gen-model-name', default=None,\n                       help='the name of the models that generated the nbest list')\n    group.add_argument('--model1-name', default=None,\n                       help='the name of the set for model1 group ')\n    group.add_argument('--model2-name', default=None,\n                       help='the name of the set for model2 group')\n    group.add_argument('--shard-id', default=0, type=int,\n                       help='the id of the shard to generate')\n    group.add_argument('--num-shards', default=1, type=int,\n                       help='the number of shards to generate across')\n    group.add_argument('--all-shards', action='store_true',\n                       help='use all shards')\n    group.add_argument('--target-prefix-frac', default=None, type=float,\n                       help='the fraction of the target prefix to use in rescoring (in terms of words wo bpe)')\n    group.add_argument('--source-prefix-frac', default=None, type=float,\n                       help='the fraction of the source prefix to use in rescoring (in terms of words wo bpe)')\n    group.add_argument('--normalize', action='store_true',\n                       help='whether to normalize by src and target len')\n    # fmt: on\n    return group\n\n\ndef add_tuning_args(parser):\n    group = parser.add_argument_group(\"Tuning\")\n\n    group.add_argument(\n        \"--lower-bound\",\n        default=[-0.7],\n        nargs=\"+\",\n        type=float,\n        help=\"lower bound of search space\",\n    )\n    group.add_argument(\n        \"--upper-bound\",\n        default=[3],\n        nargs=\"+\",\n        type=float,\n        help=\"upper bound of search space\",\n    )\n    group.add_argument(\n        \"--tune-param\",\n        default=[\"lenpen\"],\n        nargs=\"+\",\n        choices=[\"lenpen\", \"weight1\", \"weight2\", \"weight3\"],\n        help=\"the parameter(s) to tune\",\n    )\n    group.add_argument(\n        \"--tune-subset\",\n        default=\"valid\",\n        choices=[\"valid\", \"test\", \"train\"],\n        help=\"the subset to tune on \",\n    )\n    group.add_argument(\n        \"--num-trials\",\n        default=1000,\n        type=int,\n        help=\"number of trials to do for random search\",\n    )\n    group.add_argument(\n        \"--share-weights\", action=\"store_true\", help=\"share weight2 and weight 3\"\n    )\n    return group\n"
  },
  {
    "path": "examples/noisychannel/rerank_score_bw.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nfrom contextlib import redirect_stdout\n\nfrom fairseq import options\nfrom fairseq_cli import generate\n\nfrom examples.noisychannel import rerank_options, rerank_utils\n\n\ndef score_bw(args):\n    if args.backwards1:\n        scorer1_src = args.target_lang\n        scorer1_tgt = args.source_lang\n    else:\n        scorer1_src = args.source_lang\n        scorer1_tgt = args.target_lang\n\n    if args.score_model2 is not None:\n        if args.backwards2:\n            scorer2_src = args.target_lang\n            scorer2_tgt = args.source_lang\n        else:\n            scorer2_src = args.source_lang\n            scorer2_tgt = args.target_lang\n\n    rerank1_is_gen = (\n        args.gen_model == args.score_model1 and args.source_prefix_frac is None\n    )\n    rerank2_is_gen = (\n        args.gen_model == args.score_model2 and args.source_prefix_frac is None\n    )\n\n    (\n        pre_gen,\n        left_to_right_preprocessed_dir,\n        right_to_left_preprocessed_dir,\n        backwards_preprocessed_dir,\n        lm_preprocessed_dir,\n    ) = rerank_utils.get_directories(\n        args.data_dir_name,\n        args.num_rescore,\n        args.gen_subset,\n        args.gen_model_name,\n        args.shard_id,\n        args.num_shards,\n        args.sampling,\n        args.prefix_len,\n        args.target_prefix_frac,\n        args.source_prefix_frac,\n    )\n\n    score1_file = rerank_utils.rescore_file_name(\n        pre_gen,\n        args.prefix_len,\n        args.model1_name,\n        target_prefix_frac=args.target_prefix_frac,\n        source_prefix_frac=args.source_prefix_frac,\n        backwards=args.backwards1,\n    )\n\n    if args.score_model2 is not None:\n        score2_file = rerank_utils.rescore_file_name(\n            pre_gen,\n            args.prefix_len,\n            args.model2_name,\n            target_prefix_frac=args.target_prefix_frac,\n            source_prefix_frac=args.source_prefix_frac,\n            backwards=args.backwards2,\n        )\n\n    if args.right_to_left1:\n        rerank_data1 = right_to_left_preprocessed_dir\n    elif args.backwards1:\n        rerank_data1 = backwards_preprocessed_dir\n    else:\n        rerank_data1 = left_to_right_preprocessed_dir\n\n    gen_param = [\"--batch-size\", str(128), \"--score-reference\", \"--gen-subset\", \"train\"]\n    if not rerank1_is_gen and not os.path.isfile(score1_file):\n        print(\"STEP 4: score the translations for model 1\")\n\n        model_param1 = [\n            \"--path\",\n            args.score_model1,\n            \"--source-lang\",\n            scorer1_src,\n            \"--target-lang\",\n            scorer1_tgt,\n        ]\n        gen_model1_param = [rerank_data1] + gen_param + model_param1\n\n        gen_parser = options.get_generation_parser()\n        input_args = options.parse_args_and_arch(gen_parser, gen_model1_param)\n\n        with open(score1_file, \"w\") as f:\n            with redirect_stdout(f):\n                generate.main(input_args)\n\n    if (\n        args.score_model2 is not None\n        and not os.path.isfile(score2_file)\n        and not rerank2_is_gen\n    ):\n        print(\"STEP 4: score the translations for model 2\")\n\n        if args.right_to_left2:\n            rerank_data2 = right_to_left_preprocessed_dir\n        elif args.backwards2:\n            rerank_data2 = backwards_preprocessed_dir\n        else:\n            rerank_data2 = left_to_right_preprocessed_dir\n\n        model_param2 = [\n            \"--path\",\n            args.score_model2,\n            \"--source-lang\",\n            scorer2_src,\n            \"--target-lang\",\n            scorer2_tgt,\n        ]\n        gen_model2_param = [rerank_data2] + gen_param + model_param2\n\n        gen_parser = options.get_generation_parser()\n        input_args = options.parse_args_and_arch(gen_parser, gen_model2_param)\n\n        with open(score2_file, \"w\") as f:\n            with redirect_stdout(f):\n                generate.main(input_args)\n\n\ndef cli_main():\n    parser = rerank_options.get_reranking_parser()\n    args = options.parse_args_and_arch(parser)\n    score_bw(args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/noisychannel/rerank_score_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\n\nfrom fairseq import options\n\nfrom examples.noisychannel import rerank_options, rerank_utils\n\n\ndef score_lm(args):\n    using_nbest = args.nbest_list is not None\n    (\n        pre_gen,\n        left_to_right_preprocessed_dir,\n        right_to_left_preprocessed_dir,\n        backwards_preprocessed_dir,\n        lm_preprocessed_dir,\n    ) = rerank_utils.get_directories(\n        args.data_dir_name,\n        args.num_rescore,\n        args.gen_subset,\n        args.gen_model_name,\n        args.shard_id,\n        args.num_shards,\n        args.sampling,\n        args.prefix_len,\n        args.target_prefix_frac,\n        args.source_prefix_frac,\n    )\n\n    predictions_bpe_file = pre_gen + \"/generate_output_bpe.txt\"\n    if using_nbest:\n        print(\"Using predefined n-best list from interactive.py\")\n        predictions_bpe_file = args.nbest_list\n\n    gen_output = rerank_utils.BitextOutputFromGen(\n        predictions_bpe_file, bpe_symbol=args.post_process, nbest=using_nbest\n    )\n\n    if args.language_model is not None:\n        lm_score_file = rerank_utils.rescore_file_name(\n            pre_gen, args.prefix_len, args.lm_name, lm_file=True\n        )\n\n    if args.language_model is not None and not os.path.isfile(lm_score_file):\n        print(\"STEP 4.5: language modeling for P(T)\")\n        if args.lm_bpe_code is None:\n            bpe_status = \"no bpe\"\n        elif args.lm_bpe_code == \"shared\":\n            bpe_status = \"shared\"\n        else:\n            bpe_status = \"different\"\n\n        rerank_utils.lm_scoring(\n            lm_preprocessed_dir,\n            bpe_status,\n            gen_output,\n            pre_gen,\n            args.lm_dict,\n            args.lm_name,\n            args.language_model,\n            args.lm_bpe_code,\n            128,\n            lm_score_file,\n            args.target_lang,\n            args.source_lang,\n            prefix_len=args.prefix_len,\n        )\n\n\ndef cli_main():\n    parser = rerank_options.get_reranking_parser()\n    args = options.parse_args_and_arch(parser)\n    score_lm(args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/noisychannel/rerank_tune.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport random\n\nimport numpy as np\nfrom fairseq import options\n\nfrom examples.noisychannel import rerank, rerank_options\n\n\ndef random_search(args):\n    param_values = []\n    tuneable_parameters = [\"lenpen\", \"weight1\", \"weight2\", \"weight3\"]\n    initial_params = [args.lenpen, args.weight1, args.weight2, args.weight3]\n    for i, elem in enumerate(initial_params):\n        if type(elem) is not list:\n            initial_params[i] = [elem]\n        else:\n            initial_params[i] = elem\n\n    tune_parameters = args.tune_param.copy()\n    for i in range(len(args.tune_param)):\n        assert args.upper_bound[i] >= args.lower_bound[i]\n        index = tuneable_parameters.index(args.tune_param[i])\n        del tuneable_parameters[index]\n        del initial_params[index]\n\n    tune_parameters += tuneable_parameters\n    param_values += initial_params\n    random.seed(args.seed)\n\n    random_params = np.array(\n        [\n            [\n                random.uniform(args.lower_bound[i], args.upper_bound[i])\n                for i in range(len(args.tune_param))\n            ]\n            for k in range(args.num_trials)\n        ]\n    )\n    set_params = np.array(\n        [\n            [initial_params[i][0] for i in range(len(tuneable_parameters))]\n            for k in range(args.num_trials)\n        ]\n    )\n    random_params = np.concatenate((random_params, set_params), 1)\n\n    rerank_args = vars(args).copy()\n    if args.nbest_list:\n        rerank_args[\"gen_subset\"] = \"test\"\n    else:\n        rerank_args[\"gen_subset\"] = args.tune_subset\n\n    for k in range(len(tune_parameters)):\n        rerank_args[tune_parameters[k]] = list(random_params[:, k])\n\n    if args.share_weights:\n        k = tune_parameters.index(\"weight2\")\n        rerank_args[\"weight3\"] = list(random_params[:, k])\n\n    rerank_args = argparse.Namespace(**rerank_args)\n    best_lenpen, best_weight1, best_weight2, best_weight3, best_score = rerank.rerank(\n        rerank_args\n    )\n    rerank_args = vars(args).copy()\n    rerank_args[\"lenpen\"] = [best_lenpen]\n    rerank_args[\"weight1\"] = [best_weight1]\n    rerank_args[\"weight2\"] = [best_weight2]\n    rerank_args[\"weight3\"] = [best_weight3]\n\n    # write the hypothesis from the valid set from the best trial\n\n    if args.gen_subset != \"valid\":\n        rerank_args[\"gen_subset\"] = \"valid\"\n        rerank_args = argparse.Namespace(**rerank_args)\n        rerank.rerank(rerank_args)\n\n    # test with the best hyperparameters on gen subset\n    rerank_args = vars(args).copy()\n    rerank_args[\"gen_subset\"] = args.gen_subset\n    rerank_args[\"lenpen\"] = [best_lenpen]\n    rerank_args[\"weight1\"] = [best_weight1]\n    rerank_args[\"weight2\"] = [best_weight2]\n    rerank_args[\"weight3\"] = [best_weight3]\n    rerank_args = argparse.Namespace(**rerank_args)\n    rerank.rerank(rerank_args)\n\n\ndef cli_main():\n    parser = rerank_options.get_tuning_parser()\n    args = options.parse_args_and_arch(parser)\n\n    random_search(args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/noisychannel/rerank_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nimport os\nimport re\nimport subprocess\nfrom contextlib import redirect_stdout\n\nfrom fairseq import options\nfrom fairseq_cli import eval_lm, preprocess\n\n\ndef reprocess(fle):\n    # takes in a file of generate.py translation generate_output\n    # returns a source dict and hypothesis dict, where keys are the ID num (as a string)\n    # and values and the corresponding source and translation. There may be several translations\n    # per source, so the values for hypothesis_dict are lists.\n    # parses output of generate.py\n\n    with open(fle, \"r\") as f:\n        txt = f.read()\n\n    \"\"\"reprocess generate.py output\"\"\"\n    p = re.compile(r\"[STHP][-]\\d+\\s*\")\n    hp = re.compile(r\"(\\s*[-]?\\d+[.]?\\d+\\s*)|(\\s*(-inf)\\s*)\")\n    source_dict = {}\n    hypothesis_dict = {}\n    score_dict = {}\n    target_dict = {}\n    pos_score_dict = {}\n    lines = txt.split(\"\\n\")\n\n    for line in lines:\n        line += \"\\n\"\n        prefix = re.search(p, line)\n        if prefix is not None:\n            assert len(prefix.group()) > 2, \"prefix id not found\"\n            _, j = prefix.span()\n            id_num = prefix.group()[2:]\n            id_num = int(id_num)\n            line_type = prefix.group()[0]\n            if line_type == \"H\":\n                h_txt = line[j:]\n                hypo = re.search(hp, h_txt)\n                assert (\n                    hypo is not None\n                ), \"regular expression failed to find the hypothesis scoring\"\n                _, i = hypo.span()\n                score = hypo.group()\n                if id_num in hypothesis_dict:\n                    hypothesis_dict[id_num].append(h_txt[i:])\n                    score_dict[id_num].append(float(score))\n                else:\n                    hypothesis_dict[id_num] = [h_txt[i:]]\n                    score_dict[id_num] = [float(score)]\n\n            elif line_type == \"S\":\n                source_dict[id_num] = line[j:]\n            elif line_type == \"T\":\n                target_dict[id_num] = line[j:]\n            elif line_type == \"P\":\n                pos_scores = (line[j:]).split()\n                pos_scores = [float(x) for x in pos_scores]\n                if id_num in pos_score_dict:\n                    pos_score_dict[id_num].append(pos_scores)\n                else:\n                    pos_score_dict[id_num] = [pos_scores]\n\n    return source_dict, hypothesis_dict, score_dict, target_dict, pos_score_dict\n\n\ndef reprocess_nbest(fle):\n    \"\"\"reprocess interactive.py output\"\"\"\n    with open(fle, \"r\") as f:\n        txt = f.read()\n\n    source_dict = {}\n    hypothesis_dict = {}\n    score_dict = {}\n    target_dict = {}\n    pos_score_dict = {}\n    lines = txt.split(\"\\n\")\n\n    hp = re.compile(r\"[-]?\\d+[.]?\\d+\")\n    j = -1\n\n    for _i, line in enumerate(lines):\n        line += \"\\n\"\n        line_type = line[0]\n\n        if line_type == \"H\":\n            hypo = re.search(hp, line)\n            _, start_index = hypo.span()\n            score = hypo.group()\n            if j in score_dict:\n                score_dict[j].append(float(score))\n                hypothesis_dict[j].append(line[start_index:].strip(\"\\t\"))\n            else:\n                score_dict[j] = [float(score)]\n                hypothesis_dict[j] = [line[start_index:].strip(\"\\t\")]\n        elif line_type == \"O\":\n            j += 1\n            source_dict[j] = line[2:]\n            # we don't have the targets for interactive.py\n            target_dict[j] = \"filler\"\n\n        elif line_type == \"P\":\n            pos_scores = [float(pos_score) for pos_score in line.split()[1:]]\n            if j in pos_score_dict:\n                pos_score_dict[j].append(pos_scores)\n            else:\n                pos_score_dict[j] = [pos_scores]\n\n    assert source_dict.keys() == hypothesis_dict.keys()\n    assert source_dict.keys() == pos_score_dict.keys()\n    assert source_dict.keys() == score_dict.keys()\n\n    return source_dict, hypothesis_dict, score_dict, target_dict, pos_score_dict\n\n\ndef write_reprocessed(\n    sources,\n    hypos,\n    targets,\n    source_outfile,\n    hypo_outfile,\n    target_outfile,\n    right_to_left=False,\n    prefix_len=None,\n    bpe_symbol=None,\n    target_prefix_frac=None,\n    source_prefix_frac=None,\n):\n\n    \"\"\"writes nbest hypothesis for rescoring\"\"\"\n    assert not (\n        prefix_len is not None and target_prefix_frac is not None\n    ), \"in writing reprocessed, only one type of prefix may be used\"\n    assert not (\n        prefix_len is not None and source_prefix_frac is not None\n    ), \"in writing reprocessed, only one type of prefix may be used\"\n    assert not (\n        target_prefix_frac is not None and source_prefix_frac is not None\n    ), \"in writing reprocessed, only one type of prefix may be used\"\n\n    with open(source_outfile, \"w\") as source_file, open(\n        hypo_outfile, \"w\"\n    ) as hypo_file, open(target_outfile, \"w\") as target_file:\n\n        assert len(sources) == len(hypos), \"sources and hypos list length mismatch\"\n        if right_to_left:\n            for i in range(len(sources)):\n                for j in range(len(hypos[i])):\n                    if prefix_len is None:\n                        hypo_file.write(make_right_to_left(hypos[i][j]) + \"\\n\")\n                    else:\n                        raise NotImplementedError()\n                    source_file.write(make_right_to_left(sources[i]) + \"\\n\")\n                    target_file.write(make_right_to_left(targets[i]) + \"\\n\")\n        else:\n            for i in sorted(sources.keys()):\n                for j in range(len(hypos[i])):\n                    if prefix_len is not None:\n                        shortened = (\n                            get_prefix_no_bpe(hypos[i][j], bpe_symbol, prefix_len)\n                            + \"\\n\"\n                        )\n                        hypo_file.write(shortened)\n                        source_file.write(sources[i])\n                        target_file.write(targets[i])\n                    elif target_prefix_frac is not None:\n                        num_words, shortened, num_bpe_tokens = calc_length_from_frac(\n                            hypos[i][j], target_prefix_frac, bpe_symbol\n                        )\n                        shortened += \"\\n\"\n                        hypo_file.write(shortened)\n                        source_file.write(sources[i])\n                        target_file.write(targets[i])\n                    elif source_prefix_frac is not None:\n                        num_words, shortened, num_bpe_tokensn = calc_length_from_frac(\n                            sources[i], source_prefix_frac, bpe_symbol\n                        )\n                        shortened += \"\\n\"\n                        hypo_file.write(hypos[i][j])\n                        source_file.write(shortened)\n                        target_file.write(targets[i])\n                    else:\n                        hypo_file.write(hypos[i][j])\n                        source_file.write(sources[i])\n                        target_file.write(targets[i])\n\n\ndef calc_length_from_frac(bpe_sentence, prefix_frac, bpe_symbol):\n    # return number of words, (not bpe tokens) that we want\n    no_bpe_sen = remove_bpe(bpe_sentence, bpe_symbol)\n    len_sen = len(no_bpe_sen.split())\n\n    num_words = math.ceil(len_sen * prefix_frac)\n    prefix = get_prefix_no_bpe(bpe_sentence, bpe_symbol, num_words)\n    num_bpe_tokens = len(prefix.split())\n    return num_words, prefix, num_bpe_tokens\n\n\ndef get_prefix(sentence, prefix_len):\n    \"\"\"assuming no bpe, gets the prefix of the sentence with prefix_len words\"\"\"\n    tokens = sentence.strip(\"\\n\").split()\n    if prefix_len >= len(tokens):\n        return sentence.strip(\"\\n\")\n    else:\n        return \" \".join(tokens[:prefix_len])\n\n\ndef get_prefix_no_bpe(sentence, bpe_symbol, prefix_len):\n    if bpe_symbol is None:\n        return get_prefix(sentence, prefix_len)\n    else:\n        return \" \".join(get_prefix_from_len(sentence.split(), bpe_symbol, prefix_len))\n\n\ndef get_prefix_from_len(sentence, bpe_symbol, prefix_len):\n    \"\"\"get the prefix of sentence with bpe, with prefix len in terms of words, not bpe tokens\"\"\"\n    bpe_count = sum([bpe_symbol.strip(\" \") in t for t in sentence[:prefix_len]])\n    if bpe_count == 0:\n        return sentence[:prefix_len]\n    else:\n        return sentence[:prefix_len] + get_prefix_from_len(\n            sentence[prefix_len:], bpe_symbol, bpe_count\n        )\n\n\ndef get_num_bpe_tokens_from_len(sentence, bpe_symbol, prefix_len):\n    \"\"\"given a prefix length in terms of words, return the number of bpe tokens\"\"\"\n    prefix = get_prefix_no_bpe(sentence, bpe_symbol, prefix_len)\n    assert len(remove_bpe(prefix, bpe_symbol).split()) <= prefix_len\n    return len(prefix.split(\" \"))\n\n\ndef make_right_to_left(line):\n    tokens = line.split()\n    tokens.reverse()\n    new_line = \" \".join(tokens)\n    return new_line\n\n\ndef remove_bpe(line, bpe_symbol):\n    line = line.replace(\"\\n\", \"\")\n    line = (line + \" \").replace(bpe_symbol, \"\").rstrip()\n    return line + (\"\\n\")\n\n\ndef remove_bpe_dict(pred_dict, bpe_symbol):\n    new_dict = {}\n    for i in pred_dict:\n        if type(pred_dict[i]) == list:\n            new_list = [remove_bpe(elem, bpe_symbol) for elem in pred_dict[i]]\n            new_dict[i] = new_list\n        else:\n            new_dict[i] = remove_bpe(pred_dict[i], bpe_symbol)\n    return new_dict\n\n\ndef parse_bleu_scoring(line):\n    p = re.compile(r\"(BLEU4 = )\\d+[.]\\d+\")\n    res = re.search(p, line)\n    assert res is not None, line\n    return float(res.group()[8:])\n\n\ndef get_full_from_prefix(hypo_prefix, hypos):\n    \"\"\"given a hypo prefix, recover the first hypo from the list of complete hypos beginning with that prefix\"\"\"\n    for hypo in hypos:\n        hypo_prefix = hypo_prefix.strip(\"\\n\")\n        len_prefix = len(hypo_prefix)\n        if hypo[:len_prefix] == hypo_prefix:\n            return hypo\n    # no match found\n    raise Exception()\n\n\ndef get_score(\n    a,\n    b,\n    c,\n    target_len,\n    bitext_score1,\n    bitext_score2=None,\n    lm_score=None,\n    lenpen=None,\n    src_len=None,\n    tgt_len=None,\n    bitext1_backwards=False,\n    bitext2_backwards=False,\n    normalize=False,\n):\n    if bitext1_backwards:\n        bitext1_norm = src_len\n    else:\n        bitext1_norm = tgt_len\n    if bitext_score2 is not None:\n        if bitext2_backwards:\n            bitext2_norm = src_len\n        else:\n            bitext2_norm = tgt_len\n    else:\n        bitext2_norm = 1\n        bitext_score2 = 0\n    if normalize:\n        score = (\n            a * bitext_score1 / bitext1_norm\n            + b * bitext_score2 / bitext2_norm\n            + c * lm_score / src_len\n        )\n    else:\n        score = a * bitext_score1 + b * bitext_score2 + c * lm_score\n\n    if lenpen is not None:\n        score /= (target_len) ** float(lenpen)\n\n    return score\n\n\nclass BitextOutput(object):\n    def __init__(\n        self,\n        output_file,\n        backwards,\n        right_to_left,\n        bpe_symbol,\n        prefix_len=None,\n        target_prefix_frac=None,\n        source_prefix_frac=None,\n    ):\n        \"\"\"process output from rescoring\"\"\"\n        source, hypo, score, target, pos_score = reprocess(output_file)\n        if backwards:\n            self.hypo_fracs = source_prefix_frac\n        else:\n            self.hypo_fracs = target_prefix_frac\n\n        # remove length penalty so we can use raw scores\n        score, num_bpe_tokens = get_score_from_pos(\n            pos_score, prefix_len, hypo, bpe_symbol, self.hypo_fracs, backwards\n        )\n        source_lengths = {}\n        target_lengths = {}\n\n        assert hypo.keys() == source.keys(), \"key mismatch\"\n        if backwards:\n            tmp = hypo\n            hypo = source\n            source = tmp\n        for i in source:\n            # since we are reranking, there should only be one hypo per source sentence\n            if backwards:\n                len_src = len(source[i][0].split())\n                # record length without <eos>\n                if len_src == num_bpe_tokens[i][0] - 1:\n                    source_lengths[i] = num_bpe_tokens[i][0] - 1\n                else:\n                    source_lengths[i] = num_bpe_tokens[i][0]\n\n                target_lengths[i] = len(hypo[i].split())\n\n                source[i] = remove_bpe(source[i][0], bpe_symbol)\n                target[i] = remove_bpe(target[i], bpe_symbol)\n                hypo[i] = remove_bpe(hypo[i], bpe_symbol)\n\n                score[i] = float(score[i][0])\n                pos_score[i] = pos_score[i][0]\n\n            else:\n                len_tgt = len(hypo[i][0].split())\n                # record length without <eos>\n                if len_tgt == num_bpe_tokens[i][0] - 1:\n                    target_lengths[i] = num_bpe_tokens[i][0] - 1\n                else:\n                    target_lengths[i] = num_bpe_tokens[i][0]\n\n                source_lengths[i] = len(source[i].split())\n\n                if right_to_left:\n                    source[i] = remove_bpe(make_right_to_left(source[i]), bpe_symbol)\n                    target[i] = remove_bpe(make_right_to_left(target[i]), bpe_symbol)\n                    hypo[i] = remove_bpe(make_right_to_left(hypo[i][0]), bpe_symbol)\n                    score[i] = float(score[i][0])\n                    pos_score[i] = pos_score[i][0]\n                else:\n                    assert (\n                        len(hypo[i]) == 1\n                    ), \"expected only one hypothesis per source sentence\"\n                    source[i] = remove_bpe(source[i], bpe_symbol)\n                    target[i] = remove_bpe(target[i], bpe_symbol)\n                    hypo[i] = remove_bpe(hypo[i][0], bpe_symbol)\n                    score[i] = float(score[i][0])\n                    pos_score[i] = pos_score[i][0]\n\n        self.rescore_source = source\n        self.rescore_hypo = hypo\n        self.rescore_score = score\n        self.rescore_target = target\n        self.rescore_pos_score = pos_score\n        self.backwards = backwards\n        self.right_to_left = right_to_left\n        self.target_lengths = target_lengths\n        self.source_lengths = source_lengths\n\n\nclass BitextOutputFromGen(object):\n    def __init__(\n        self,\n        predictions_bpe_file,\n        bpe_symbol=None,\n        nbest=False,\n        prefix_len=None,\n        target_prefix_frac=None,\n    ):\n        if nbest:\n            (\n                pred_source,\n                pred_hypo,\n                pred_score,\n                pred_target,\n                pred_pos_score,\n            ) = reprocess_nbest(predictions_bpe_file)\n        else:\n            pred_source, pred_hypo, pred_score, pred_target, pred_pos_score = reprocess(\n                predictions_bpe_file\n            )\n\n        assert len(pred_source) == len(pred_hypo)\n        assert len(pred_source) == len(pred_score)\n        assert len(pred_source) == len(pred_target)\n        assert len(pred_source) == len(pred_pos_score)\n\n        # remove length penalty so we can use raw scores\n        pred_score, num_bpe_tokens = get_score_from_pos(\n            pred_pos_score, prefix_len, pred_hypo, bpe_symbol, target_prefix_frac, False\n        )\n\n        self.source = pred_source\n        self.target = pred_target\n        self.score = pred_score\n        self.pos_score = pred_pos_score\n        self.hypo = pred_hypo\n        self.target_lengths = {}\n        self.source_lengths = {}\n\n        self.no_bpe_source = remove_bpe_dict(pred_source.copy(), bpe_symbol)\n        self.no_bpe_hypo = remove_bpe_dict(pred_hypo.copy(), bpe_symbol)\n        self.no_bpe_target = remove_bpe_dict(pred_target.copy(), bpe_symbol)\n\n        # indexes to match those from the rescoring models\n        self.rescore_source = {}\n        self.rescore_target = {}\n        self.rescore_pos_score = {}\n        self.rescore_hypo = {}\n        self.rescore_score = {}\n        self.num_hypos = {}\n        self.backwards = False\n        self.right_to_left = False\n\n        index = 0\n\n        for i in sorted(pred_source.keys()):\n            for j in range(len(pred_hypo[i])):\n\n                self.target_lengths[index] = len(self.hypo[i][j].split())\n                self.source_lengths[index] = len(self.source[i].split())\n\n                self.rescore_source[index] = self.no_bpe_source[i]\n                self.rescore_target[index] = self.no_bpe_target[i]\n                self.rescore_hypo[index] = self.no_bpe_hypo[i][j]\n                self.rescore_score[index] = float(pred_score[i][j])\n                self.rescore_pos_score[index] = pred_pos_score[i][j]\n                self.num_hypos[index] = len(pred_hypo[i])\n                index += 1\n\n\ndef get_score_from_pos(\n    pos_score_dict, prefix_len, hypo_dict, bpe_symbol, hypo_frac, backwards\n):\n    score_dict = {}\n    num_bpe_tokens_dict = {}\n    assert prefix_len is None or hypo_frac is None\n    for key in pos_score_dict:\n        score_dict[key] = []\n        num_bpe_tokens_dict[key] = []\n        for i in range(len(pos_score_dict[key])):\n            if prefix_len is not None and not backwards:\n                num_bpe_tokens = get_num_bpe_tokens_from_len(\n                    hypo_dict[key][i], bpe_symbol, prefix_len\n                )\n                score_dict[key].append(sum(pos_score_dict[key][i][:num_bpe_tokens]))\n                num_bpe_tokens_dict[key].append(num_bpe_tokens)\n            elif hypo_frac is not None:\n                num_words, shortened, hypo_prefix_len = calc_length_from_frac(\n                    hypo_dict[key][i], hypo_frac, bpe_symbol\n                )\n                score_dict[key].append(sum(pos_score_dict[key][i][:hypo_prefix_len]))\n                num_bpe_tokens_dict[key].append(hypo_prefix_len)\n            else:\n                score_dict[key].append(sum(pos_score_dict[key][i]))\n                num_bpe_tokens_dict[key].append(len(pos_score_dict[key][i]))\n    return score_dict, num_bpe_tokens_dict\n\n\nclass LMOutput(object):\n    def __init__(\n        self,\n        lm_score_file,\n        lm_dict=None,\n        prefix_len=None,\n        bpe_symbol=None,\n        target_prefix_frac=None,\n    ):\n        (\n            lm_sentences,\n            lm_sen_scores,\n            lm_sen_pos_scores,\n            lm_no_bpe_sentences,\n            lm_bpe_tokens,\n        ) = parse_lm(\n            lm_score_file,\n            prefix_len=prefix_len,\n            bpe_symbol=bpe_symbol,\n            target_prefix_frac=target_prefix_frac,\n        )\n\n        self.sentences = lm_sentences\n        self.score = lm_sen_scores\n        self.pos_score = lm_sen_pos_scores\n        self.lm_dict = lm_dict\n        self.no_bpe_sentences = lm_no_bpe_sentences\n        self.bpe_tokens = lm_bpe_tokens\n\n\ndef parse_lm(input_file, prefix_len=None, bpe_symbol=None, target_prefix_frac=None):\n    \"\"\"parse output of eval_lm\"\"\"\n    with open(input_file, \"r\") as f:\n        text = f.readlines()\n        text = text[7:]\n        cleaned_text = text[:-2]\n\n        sentences = {}\n        sen_scores = {}\n        sen_pos_scores = {}\n        no_bpe_sentences = {}\n        num_bpe_tokens_dict = {}\n        for _i, line in enumerate(cleaned_text):\n            tokens = line.split()\n            if tokens[0].isdigit():\n                line_id = int(tokens[0])\n                scores = [float(x[1:-1]) for x in tokens[2::2]]\n                sentences[line_id] = \" \".join(tokens[1::2][:-1]) + \"\\n\"\n                if bpe_symbol is not None:\n                    # exclude <eos> symbol to match output from generate.py\n                    bpe_sen = \" \".join(tokens[1::2][:-1]) + \"\\n\"\n                    no_bpe_sen = remove_bpe(bpe_sen, bpe_symbol)\n                    no_bpe_sentences[line_id] = no_bpe_sen\n\n                if prefix_len is not None:\n                    num_bpe_tokens = get_num_bpe_tokens_from_len(\n                        bpe_sen, bpe_symbol, prefix_len\n                    )\n                    sen_scores[line_id] = sum(scores[:num_bpe_tokens])\n                    num_bpe_tokens_dict[line_id] = num_bpe_tokens\n                elif target_prefix_frac is not None:\n                    num_words, shortened, target_prefix_len = calc_length_from_frac(\n                        bpe_sen, target_prefix_frac, bpe_symbol\n                    )\n                    sen_scores[line_id] = sum(scores[:target_prefix_len])\n                    num_bpe_tokens_dict[line_id] = target_prefix_len\n                else:\n                    sen_scores[line_id] = sum(scores)\n                    num_bpe_tokens_dict[line_id] = len(scores)\n\n                sen_pos_scores[line_id] = scores\n\n    return sentences, sen_scores, sen_pos_scores, no_bpe_sentences, num_bpe_tokens_dict\n\n\ndef get_directories(\n    data_dir_name,\n    num_rescore,\n    gen_subset,\n    fw_name,\n    shard_id,\n    num_shards,\n    sampling=False,\n    prefix_len=None,\n    target_prefix_frac=None,\n    source_prefix_frac=None,\n):\n    nbest_file_id = (\n        \"nbest_\"\n        + str(num_rescore)\n        + \"_subset_\"\n        + gen_subset\n        + \"_fw_name_\"\n        + fw_name\n        + \"_shard_\"\n        + str(shard_id)\n        + \"_of_\"\n        + str(num_shards)\n    )\n\n    if sampling:\n        nbest_file_id += \"_sampling\"\n\n    # the directory containing all information for this nbest list\n    pre_gen = (\n        os.path.join(os.path.dirname(__file__))\n        + \"/rerank_data/\"\n        + data_dir_name\n        + \"/\"\n        + nbest_file_id\n    )\n    # the directory to store the preprocessed nbest list, for left to right rescoring\n    left_to_right_preprocessed_dir = pre_gen + \"/left_to_right_preprocessed\"\n    if source_prefix_frac is not None:\n        left_to_right_preprocessed_dir = (\n            left_to_right_preprocessed_dir + \"/prefix_frac\" + str(source_prefix_frac)\n        )\n    # the directory to store the preprocessed nbest list, for right to left rescoring\n    right_to_left_preprocessed_dir = pre_gen + \"/right_to_left_preprocessed\"\n    # the directory to store the preprocessed nbest list, for backwards rescoring\n    backwards_preprocessed_dir = pre_gen + \"/backwards\"\n    if target_prefix_frac is not None:\n        backwards_preprocessed_dir = (\n            backwards_preprocessed_dir + \"/prefix_frac\" + str(target_prefix_frac)\n        )\n    elif prefix_len is not None:\n        backwards_preprocessed_dir = (\n            backwards_preprocessed_dir + \"/prefix_\" + str(prefix_len)\n        )\n\n    # the directory to store the preprocessed nbest list, for rescoring with P(T)\n    lm_preprocessed_dir = pre_gen + \"/lm_preprocessed\"\n\n    return (\n        pre_gen,\n        left_to_right_preprocessed_dir,\n        right_to_left_preprocessed_dir,\n        backwards_preprocessed_dir,\n        lm_preprocessed_dir,\n    )\n\n\ndef lm_scoring(\n    preprocess_directory,\n    bpe_status,\n    gen_output,\n    pre_gen,\n    cur_lm_dict,\n    cur_lm_name,\n    cur_language_model,\n    cur_lm_bpe_code,\n    batch_size,\n    lm_score_file,\n    target_lang,\n    source_lang,\n    prefix_len=None,\n):\n    if prefix_len is not None:\n        assert (\n            bpe_status == \"different\"\n        ), \"bpe status must be different to use prefix len\"\n    if bpe_status == \"no bpe\":\n        # run lm on output without bpe\n        write_reprocessed(\n            gen_output.no_bpe_source,\n            gen_output.no_bpe_hypo,\n            gen_output.no_bpe_target,\n            pre_gen + \"/rescore_data_no_bpe.de\",\n            pre_gen + \"/rescore_data_no_bpe.en\",\n            pre_gen + \"/reference_file_no_bpe\",\n        )\n\n        preprocess_lm_param = [\n            \"--only-source\",\n            \"--trainpref\",\n            pre_gen + \"/rescore_data_no_bpe.\" + target_lang,\n            \"--srcdict\",\n            cur_lm_dict,\n            \"--destdir\",\n            preprocess_directory,\n        ]\n        preprocess_parser = options.get_preprocessing_parser()\n        input_args = preprocess_parser.parse_args(preprocess_lm_param)\n        preprocess.main(input_args)\n\n        eval_lm_param = [\n            preprocess_directory,\n            \"--path\",\n            cur_language_model,\n            \"--output-word-probs\",\n            \"--batch-size\",\n            str(batch_size),\n            \"--max-tokens\",\n            \"1024\",\n            \"--sample-break-mode\",\n            \"eos\",\n            \"--gen-subset\",\n            \"train\",\n        ]\n\n        eval_lm_parser = options.get_eval_lm_parser()\n        input_args = options.parse_args_and_arch(eval_lm_parser, eval_lm_param)\n\n        with open(lm_score_file, \"w\") as f:\n            with redirect_stdout(f):\n                eval_lm.main(input_args)\n\n    elif bpe_status == \"shared\":\n        preprocess_lm_param = [\n            \"--only-source\",\n            \"--trainpref\",\n            pre_gen + \"/rescore_data.\" + target_lang,\n            \"--srcdict\",\n            cur_lm_dict,\n            \"--destdir\",\n            preprocess_directory,\n        ]\n        preprocess_parser = options.get_preprocessing_parser()\n        input_args = preprocess_parser.parse_args(preprocess_lm_param)\n        preprocess.main(input_args)\n\n        eval_lm_param = [\n            preprocess_directory,\n            \"--path\",\n            cur_language_model,\n            \"--output-word-probs\",\n            \"--batch-size\",\n            str(batch_size),\n            \"--sample-break-mode\",\n            \"eos\",\n            \"--gen-subset\",\n            \"train\",\n        ]\n\n        eval_lm_parser = options.get_eval_lm_parser()\n        input_args = options.parse_args_and_arch(eval_lm_parser, eval_lm_param)\n\n        with open(lm_score_file, \"w\") as f:\n            with redirect_stdout(f):\n                eval_lm.main(input_args)\n\n    elif bpe_status == \"different\":\n        rescore_file = pre_gen + \"/rescore_data_no_bpe\"\n        rescore_bpe = pre_gen + \"/rescore_data_new_bpe\"\n\n        rescore_file += \".\"\n        rescore_bpe += \".\"\n\n        write_reprocessed(\n            gen_output.no_bpe_source,\n            gen_output.no_bpe_hypo,\n            gen_output.no_bpe_target,\n            rescore_file + source_lang,\n            rescore_file + target_lang,\n            pre_gen + \"/reference_file_no_bpe\",\n            bpe_symbol=None,\n        )\n\n        # apply LM bpe to nbest list\n        bpe_src_param = [\n            \"-c\",\n            cur_lm_bpe_code,\n            \"--input\",\n            rescore_file + target_lang,\n            \"--output\",\n            rescore_bpe + target_lang,\n        ]\n        subprocess.call(\n            [\n                \"python\",\n                os.path.join(\n                    os.path.dirname(__file__), \"subword-nmt/subword_nmt/apply_bpe.py\"\n                ),\n            ]\n            + bpe_src_param,\n            shell=False,\n        )\n        # uncomment to use fastbpe instead of subword-nmt bpe\n        # bpe_src_param = [rescore_bpe+target_lang, rescore_file+target_lang, cur_lm_bpe_code]\n        # subprocess.call([\"/private/home/edunov/fastBPE/fast\", \"applybpe\"] + bpe_src_param, shell=False)\n\n        preprocess_dir = preprocess_directory\n\n        preprocess_lm_param = [\n            \"--only-source\",\n            \"--trainpref\",\n            rescore_bpe + target_lang,\n            \"--srcdict\",\n            cur_lm_dict,\n            \"--destdir\",\n            preprocess_dir,\n        ]\n        preprocess_parser = options.get_preprocessing_parser()\n        input_args = preprocess_parser.parse_args(preprocess_lm_param)\n        preprocess.main(input_args)\n\n        eval_lm_param = [\n            preprocess_dir,\n            \"--path\",\n            cur_language_model,\n            \"--output-word-probs\",\n            \"--batch-size\",\n            str(batch_size),\n            \"--max-tokens\",\n            \"1024\",\n            \"--sample-break-mode\",\n            \"eos\",\n            \"--gen-subset\",\n            \"train\",\n        ]\n\n        eval_lm_parser = options.get_eval_lm_parser()\n        input_args = options.parse_args_and_arch(eval_lm_parser, eval_lm_param)\n\n        with open(lm_score_file, \"w\") as f:\n            with redirect_stdout(f):\n                eval_lm.main(input_args)\n\n\ndef rescore_file_name(\n    nbest_dir,\n    prefix_len,\n    scorer_name,\n    lm_file=False,\n    target_prefix_frac=None,\n    source_prefix_frac=None,\n    backwards=None,\n):\n    if lm_file:\n        score_file = nbest_dir + \"/lm_score_translations_model_\" + scorer_name + \".txt\"\n    else:\n        score_file = nbest_dir + \"/\" + scorer_name + \"_score_translations.txt\"\n    if backwards:\n        if prefix_len is not None:\n            score_file += \"prefix_len\" + str(prefix_len)\n        elif target_prefix_frac is not None:\n            score_file += \"target_prefix_frac\" + str(target_prefix_frac)\n    else:\n        if source_prefix_frac is not None:\n            score_file += \"source_prefix_frac\" + str(source_prefix_frac)\n    return score_file\n"
  },
  {
    "path": "examples/nonautoregressive_translation/README.md",
    "content": "# Non-autoregressive Neural Machine Translation (NAT)\n\nThis page mainly includes instructions for reproducing results from the following papers\n* [Levenshtein Transformer (Gu et al., 2019)](https://arxiv.org/abs/1905.11006).\n* [Understanding Knowledge Distillation in Non-autoregressive Machine Translation (Zhou et al., 2019)](https://arxiv.org/abs/1911.02727).\n\nWe also provided our own implementations for several popular non-autoregressive-based models as reference:<br>\n* [Non-Autoregressive Neural Machine Translation (Gu et al., 2017)](https://arxiv.org/abs/1711.02281)<br>\n* [Deterministic Non-Autoregressive Neural Sequence Modeling by Iterative Refinement (Lee et al., 2018)](https://arxiv.org/abs/1802.06901)<br>\n* [Insertion Transformer: Flexible Sequence Generation via Insertion Operations (Stern et al., 2019)](https://arxiv.org/abs/1902.03249)<br>\n* [Mask-Predict: Parallel Decoding of Conditional Masked Language Models (Ghazvininejad et al., 2019)](https://arxiv.org/abs/1904.09324v2)<br>\n* [Fast Structured Decoding for Sequence Models (Sun et al., 2019)](https://arxiv.org/abs/1910.11555)\n\n## Dataset\n\nFirst, follow the [instructions to download and preprocess the WMT'14 En-De dataset](../translation#wmt14-english-to-german-convolutional).\nMake sure to learn a joint vocabulary by passing the `--joined-dictionary` option to `fairseq-preprocess`.\n\n### Knowledge Distillation\nFollowing [Gu et al. 2019](https://arxiv.org/abs/1905.11006), [knowledge distillation](https://arxiv.org/abs/1606.07947) from an autoregressive model can effectively simplify the training data distribution, which is sometimes essential for NAT-based models to learn good translations.\nThe easiest way of performing distillation is to follow the [instructions of training a standard transformer model](../translation) on the same data, and then decode the training set to produce a distillation dataset for NAT.\n\n### Download\nWe also provided the preprocessed [original](http://dl.fbaipublicfiles.com/nat/original_dataset.zip) and [distillation](http://dl.fbaipublicfiles.com/nat/distill_dataset.zip) datasets. Please build the binarized dataset on your own.\n\n\n## Train a model\n\nThen we can train a nonautoregressive model using the `translation_lev` task and a new criterion `nat_loss`.\nUse the `--noise` flag to specify the input noise used on the target sentences.\nIn default, we run the task for *Levenshtein Transformer*, with `--noise='random_delete'`. Full scripts to run other models can also be found [here](./scripts.md).\n\nThe following command will train a *Levenshtein Transformer* on the binarized dataset.\n\n```bash\nfairseq-train \\\n    data-bin/wmt14_en_de_distill \\\n    --save-dir checkpoints \\\n    --ddp-backend=legacy_ddp \\\n    --task translation_lev \\\n    --criterion nat_loss \\\n    --arch levenshtein_transformer \\\n    --noise random_delete \\\n    --share-all-embeddings \\\n    --optimizer adam --adam-betas '(0.9,0.98)' \\\n    --lr 0.0005 --lr-scheduler inverse_sqrt \\\n    --stop-min-lr '1e-09' --warmup-updates 10000 \\\n    --warmup-init-lr '1e-07' --label-smoothing 0.1 \\\n    --dropout 0.3 --weight-decay 0.01 \\\n    --decoder-learned-pos \\\n    --encoder-learned-pos \\\n    --apply-bert-init \\\n    --log-format 'simple' --log-interval 100 \\\n    --fixed-validation-seed 7 \\\n    --max-tokens 8000 \\\n    --save-interval-updates 10000 \\\n    --max-update 300000\n```\n\n## Translate\n\nOnce a model is trained, we can generate translations using an `iterative_refinement_generator` which will based on the model's initial output and iteratively read and greedily refine the translation until (1) the model predicts the same translations for two consecutive iterations; or (2) the generator reaches the maximum iterations (`--iter-decode-max-iter`). Use `--print-step` to check the actual # of iteration for each sentence.\n\nFor *Levenshtein Transformer*, it sometimes helps to apply a `--iter-decode-eos-penalty` (typically, 0~3) to penalize the model finishing generation too early and generating too short translations.\n\nFor example, to generate with `--iter-decode-max-iter=9`:\n```bash\nfairseq-generate \\\n    data-bin/wmt14_en_de_distill \\\n    --gen-subset test \\\n    --task translation_lev \\\n    --path checkpoints/checkpoint_best.pt \\\n    --iter-decode-max-iter 9 \\\n    --iter-decode-eos-penalty 0 \\\n    --beam 1 --remove-bpe \\\n    --print-step \\\n    --batch-size 400\n```\nIn the end of the generation, we can see the tokenized BLEU score for the translation.\n\n## Advanced Decoding Methods\n### Ensemble\nThe NAT models use special implementations of [ensembling](https://github.com/fairinternal/fairseq-py/blob/b98d88da52f2f21f1b169bab8c70c1c4ca19a768/fairseq/sequence_generator.py#L522) to support iterative refinement and a variety of parallel operations in different models, while it shares the same API as standard autoregressive models as follows:\n```bash\nfairseq-generate \\\n    data-bin/wmt14_en_de_distill \\\n    --gen-subset test \\\n    --task translation_lev \\\n    --path checkpoint_1.pt:checkpoint_2.pt:checkpoint_3.pt \\\n    --iter-decode-max-iter 9 \\\n    --iter-decode-eos-penalty 0 \\\n    --beam 1 --remove-bpe \\\n    --print-step \\\n    --batch-size 400\n```\nWe use ``:`` to split multiple models. Note that, not all NAT models support ensembling for now.\n\n\n### Length-beam \nFor models that predict lengths before decoding (e.g. the vanilla NAT, Mask-Predict, etc), it is possible to improve the translation quality by varying the target lengths around the predicted value, and translating the same example multiple times in parallel. We can select the best translation with the highest scores defined by your model's output.\n\nNote that, not all models support length beams. For models which dynamically change the lengths (e.g. *Insertion Transformer*, *Levenshtein Transformer*), the same trick does not apply.\n\n### Re-ranking\nIf the model generates multiple translations with length beam, we can also introduce an autoregressive model to rerank the translations considering scoring from an autoregressive model is much faster than decoding from that.\n\nFor example, to generate translations with length beam and reranking, \n```bash\nfairseq-generate \\\n    data-bin/wmt14_en_de_distill \\\n    --gen-subset test \\\n    --task translation_lev \\\n    --path checkpoints/checkpoint_best.pt:at_checkpoints/checkpoint_best.pt \\\n    --iter-decode-max-iter 9 \\\n    --iter-decode-eos-penalty 0 \\\n    --iter-decode-with-beam 9 \\\n    --iter-decode-with-external-reranker \\\n    --beam 1 --remove-bpe \\\n    --print-step \\\n    --batch-size 100\n``` \nNote that we need to make sure the autoregressive model shares the same vocabulary as our target non-autoregressive model.\n\n\n## Citation\n\n```bibtex\n@incollection{NIPS2019_9297,\n    title = {Levenshtein Transformer},\n    author = {Gu, Jiatao and Wang, Changhan and Zhao, Junbo},\n    booktitle = {Advances in Neural Information Processing Systems 32},\n    editor = {H. Wallach and H. Larochelle and A. Beygelzimer and F. d\\textquotesingle Alch\\'{e}-Buc and E. Fox and R. Garnett},\n    pages = {11179--11189},\n    year = {2019},\n    publisher = {Curran Associates, Inc.},\n    url = {http://papers.nips.cc/paper/9297-levenshtein-transformer.pdf}\n}\n```\n```bibtex\n@article{zhou2019understanding,\n  title={Understanding Knowledge Distillation in Non-autoregressive Machine Translation},\n  author={Zhou, Chunting and Neubig, Graham and Gu, Jiatao},\n  journal={arXiv preprint arXiv:1911.02727},\n  year={2019}\n}\n```\n"
  },
  {
    "path": "examples/nonautoregressive_translation/scripts.md",
    "content": "# Examples of Training scripts for Non-autoregressive Machine Translation models\n\n### Non-autoregressive Transformer (NAT, Gu et al., 2017)\nNote that we need to have an additional module to perform \"length prediction\" (`--length-loss-factor`) before generating the whole sequence.\n```bash\nfairseq-train \\\n    data-bin/wmt14_en_de_distill \\\n    --save-dir checkpoints \\\n    --ddp-backend=legacy_ddp \\\n    --task translation_lev \\\n    --criterion nat_loss \\\n    --arch nonautoregressive_transformer \\\n    --noise full_mask \\\n    --share-all-embeddings \\\n    --optimizer adam --adam-betas '(0.9,0.98)' \\\n    --lr 0.0005 --lr-scheduler inverse_sqrt \\\n    --stop-min-lr '1e-09' --warmup-updates 10000 \\\n    --warmup-init-lr '1e-07' --label-smoothing 0.1 \\\n    --dropout 0.3 --weight-decay 0.01 \\\n    --decoder-learned-pos \\\n    --encoder-learned-pos \\\n    --pred-length-offset \\\n    --length-loss-factor 0.1 \\\n    --apply-bert-init \\\n    --log-format 'simple' --log-interval 100 \\\n    --fixed-validation-seed 7 \\\n    --max-tokens 8000 \\\n    --save-interval-updates 10000 \\\n    --max-update 300000\n```\n\n### Fast Structured Decoding for Sequence Models (NAT-CRF, Sun et al., 2019)\nNote that we implemented a low-rank appromixated CRF model by setting `--crf-lowrank-approx=32` and `--crf-beam-approx=64` as discribed in the original paper. All other settings are the same as the vanilla NAT model.\n```bash\nfairseq-train \\\n    data-bin/wmt14_en_de_distill \\\n    --save-dir checkpoints \\\n    --ddp-backend=legacy_ddp \\\n    --task translation_lev \\\n    --criterion nat_loss \\\n    --arch nacrf_transformer \\\n    --noise full_mask \\\n    --share-all-embeddings \\\n    --optimizer adam --adam-betas '(0.9,0.98)' \\\n    --lr 0.0005 --lr-scheduler inverse_sqrt \\\n    --stop-min-lr '1e-09' --warmup-updates 10000 \\\n    --warmup-init-lr '1e-07' --label-smoothing 0.1 \\\n    --dropout 0.3 --weight-decay 0.01 \\\n    --decoder-learned-pos \\\n    --encoder-learned-pos \\\n    --pred-length-offset \\\n    --length-loss-factor 0.1 \\\n    --word-ins-loss-factor 0.5 \\\n    --crf-lowrank-approx 32 \\\n    --crf-beam-approx 64 \\\n    --apply-bert-init \\\n    --log-format 'simple' --log-interval 100 \\\n    --fixed-validation-seed 7 \\\n    --max-tokens 8000 \\\n    --save-interval-updates 10000 \\\n    --max-update 300000\n```\n\n\n### Non-autoregressive Transformer with Iterative Refinement (iNAT, Lee et al., 2018)\nNote that `--train-step` means how many iterations of refinement we used during training, and `--dae-ratio` controls the ratio of denoising auto-encoder training described in the original paper.\n```bash\nfairseq-train \\\n    data-bin/wmt14_en_de_distill \\\n    --save-dir checkpoints \\\n    --ddp-backend=legacy_ddp \\\n    --task translation_lev \\\n    --criterion nat_loss \\\n    --arch iterative_nonautoregressive_transformer \\\n    --noise full_mask \\\n    --share-all-embeddings \\\n    --optimizer adam --adam-betas '(0.9,0.98)' \\\n    --lr 0.0005 --lr-scheduler inverse_sqrt \\\n    --stop-min-lr '1e-09' --warmup-updates 10000 \\\n    --warmup-init-lr '1e-07' --label-smoothing 0.1 \\\n    --dropout 0.3 --weight-decay 0.01 \\\n    --decoder-learned-pos \\\n    --encoder-learned-pos \\\n    --pred-length-offset \\\n    --length-loss-factor 0.1 \\\n    --train-step 4 \\\n    --dae-ratio 0.5 \\\n    --stochastic-approx \\\n    --apply-bert-init \\\n    --log-format 'simple' --log-interval 100 \\\n    --fixed-validation-seed 7 \\\n    --max-tokens 8000 \\\n    --save-interval-updates 10000 \\\n    --max-update 300000\n```\n\n### Insertion Transformer (InsT, Stern et al., 2019)\nNote that we need to specify the \"slot-loss\" (uniform or balanced tree) described in the original paper. Here we use `--label-tau` to control the temperature.\n\n```bash\nfairseq-train \\\n    data-bin/wmt14_en_de_distill \\\n    --save-dir checkpoints \\\n    --ddp-backend=legacy_ddp \\\n    --task translation_lev \\\n    --criterion nat_loss \\\n    --arch insertion_transformer \\\n    --noise random_delete \\\n    --share-all-embeddings \\\n    --optimizer adam --adam-betas '(0.9,0.98)' \\\n    --lr 0.0005 --lr-scheduler inverse_sqrt \\\n    --stop-min-lr '1e-09' --warmup-updates 10000 \\\n    --warmup-init-lr '1e-07' --label-smoothing 0.1 \\\n    --dropout 0.3 --weight-decay 0.01 \\\n    --decoder-learned-pos \\\n    --encoder-learned-pos \\\n    --apply-bert-init \\\n    --log-format 'simple' --log-interval 100 \\\n    --fixed-validation-seed 7 \\\n    --max-tokens 8000 \\\n    --save-interval-updates 10000 \\\n    --max-update 300000\n```\n\n\n### Mask Predict (CMLM, Ghazvininejad et al., 2019)\n```bash\nfairseq-train \\\n    data-bin/wmt14_en_de_distill \\\n    --save-dir checkpoints \\\n    --ddp-backend=legacy_ddp \\\n    --task translation_lev \\\n    --criterion nat_loss \\\n    --arch cmlm_transformer \\\n    --noise random_mask \\\n    --share-all-embeddings \\\n    --optimizer adam --adam-betas '(0.9,0.98)' \\\n    --lr 0.0005 --lr-scheduler inverse_sqrt \\\n    --stop-min-lr '1e-09' --warmup-updates 10000 \\\n    --warmup-init-lr '1e-07' --label-smoothing 0.1 \\\n    --dropout 0.3 --weight-decay 0.01 \\\n    --decoder-learned-pos \\\n    --encoder-learned-pos \\\n    --apply-bert-init \\\n    --log-format 'simple' --log-interval 100 \\\n    --fixed-validation-seed 7 \\\n    --max-tokens 8000 \\\n    --save-interval-updates 10000 \\\n    --max-update 300000\n```\n\n\n\n\n### Levenshtein Transformer (LevT, Gu et al., 2019)\n```bash\nfairseq-train \\\n    data-bin/wmt14_en_de_distill \\\n    --save-dir checkpoints \\\n    --ddp-backend=legacy_ddp \\\n    --task translation_lev \\\n    --criterion nat_loss \\\n    --arch levenshtein_transformer \\\n    --noise random_delete \\\n    --share-all-embeddings \\\n    --optimizer adam --adam-betas '(0.9,0.98)' \\\n    --lr 0.0005 --lr-scheduler inverse_sqrt \\\n    --stop-min-lr '1e-09' --warmup-updates 10000 \\\n    --warmup-init-lr '1e-07' --label-smoothing 0.1 \\\n    --dropout 0.3 --weight-decay 0.01 \\\n    --decoder-learned-pos \\\n    --encoder-learned-pos \\\n    --apply-bert-init \\\n    --log-format 'simple' --log-interval 100 \\\n    --fixed-validation-seed 7 \\\n    --max-tokens 8000 \\\n    --save-interval-updates 10000 \\\n    --max-update 300000\n```\n"
  },
  {
    "path": "examples/normformer/README.md",
    "content": "### NormFormer\nThis is the code for the [\"NormFormer: Improved Transformer Pretraining with Extra Normalization\"](https://arxiv.org/abs/2110.09456)\n- 2021-10-19: Commands for CLM Experiments\n- Coming soon: Commands for MLM experiments\n\nIf you have any issues or questions please post a github issue and tag `@sshleifer`.\n\n\n### Data\n- To preprocess language modeling data, see [here](https://github.com/pytorch/fairseq/blob/d0fbcb0baef6f6ff3425ded62d8daea0e8b12114/examples/language_model/README.md#1-preprocess-the-data).\n- The replication commands below expect `$DATA` to be the path to the binarized data directory.\n- Note that NormFormer results in Table 2 use a much larger private dataset, and to get good results you should adapt the pre-processing instructions to your dataset and compare to a baseline on the same data, rather than Table 2.\n- The code uses `FSDP`, which requires `pip install fairscale>=0.4.0`.\n\n\n### Modify existing Command\nTo modify an existing `fairseq-train` command to use NormFormer, simply add the following flags:\n```bash\nfairseq-train  ... \\\n    --scale-attn --scale-fc --scale-heads\n```\n- you probably also want to increase your learning rate\n- if your model is small, you may want to add `--scale-resids`\n\n### Exact Training Commands\n\n- Note that NormFormer results in Table 2 use a much larger private dataset, and to get good results you should adapt the pre-processing instructions to your dataset.\nThe full commands are functions defined here, so to run them you must `source examples/normformer/train_lm.sh`.\n- We default `--distributed-world-size 8`. You should adjust `--update-freq` and `--batch-size` and such that the effective batch size is (1024x1024x0.5) tokens for 125M and 355M,\n    and (1024x1024) for 1.3B parameter and above. For small models, `--update-freq`=256/`global_bs`. For large models, `--update-freq`=512/`global_bs`, where `global_bs` = `--batch-size` * `--distributed-world-size`\n- The small models will all train on as few as 8 GPUs.\n\n```bash\ntrain_125M --lr 6e-4  # GPT-3 Replicated\ntrain_125M --lr 1e-3  # stronger high-lr baseline\ntrain_125M --lr 3e-3 --scale-attn --scale-fc --scale-heads # No scale-resids\ntrain_125M --lr 3e-3 --scale-attn --scale-fc --scale-heads --scale-resids  # Best command\n```\n\n```bash\ntrain_355M --lr 6e-4  # GPT-3 Replicated\ntrain_355M --lr 1e-3  # stronger high-lr baseline\ntrain_355M --lr 1e-3 --scale-attn --scale-fc --scale-heads # No scale-resids\ntrain_355M --lr 1e-3 --scale-attn --scale-fc --scale-heads --scale-resids  # Slightly better\n```\n\n```bash\ntrain_1.3B --lr 2e-4  # GPT-3 Replicated\ntrain_1.3B --lr 6e-4  # stronger high-lr baseline\ntrain_1.3B --lr 6e-4 --scale-attn --scale-fc --scale-heads # NormFormer\n```\n\n```bash\ntrain_2.7B --lr 1.6e-4  # GPT-3 Replicated\ntrain_2.7B --lr 1.6e-4 --activation-fn relu_squared # stronger Relu^2 baseline\ntrain_2.7B --lr 6e-4 --activation-fn relu_squared --scale-attn --scale-fc --scale-heads # NormFormer 2.7B\n```\n\n\n### Citation\n```bibtex\n@misc{shleifer2021normformer,\n      title={NormFormer: Improved Transformer Pretraining with Extra Normalization},\n      author={Sam Shleifer and Jason Weston and Myle Ott},\n      year={2021},\n      eprint={2110.09456},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL}\n}\n```\n"
  },
  {
    "path": "examples/normformer/train_lm.sh",
    "content": "#!/usr/bin/env bash\ntrain_common () {\n  fairseq-train \"$DATA\" \\\n      --combine-val \\\n      --train-subset train \\\n      --num-workers 2 \\\n      --validate-interval-updates 1000 \\\n      --save-interval-updates 1000 \\\n      --no-epoch-checkpoints \\\n      --ddp-backend fully_sharded \\\n      --memory-efficient-fp16 \\\n      --fp16-init-scale 4 \\\n      --checkpoint-activations \\\n      --arch transformer_lm_gpt \\\n      --activation-fn gelu \\\n      --share-decoder-input-output-embed \\\n      --task language_modeling \\\n      --sample-break-mode none \\\n      --tokens-per-sample 2048 \\\n      --optimizer adam --adam-betas \"(0.9, 0.98)\" \\\n      --adam-eps 1e-08 \\\n      --clip-norm 0.0 \\\n      --lr-scheduler polynomial_decay \\\n      --warmup-updates 750 \\\n      --dropout 0.1 \\\n      --attention-dropout 0.1 \\\n      --weight-decay 0.01 \\\n      --batch-size 16 \\\n      --update-freq 2 \\\n      --required-batch-size-multiple 1 \\\n      --total-num-update 572204 \\\n      --max-update 572204 \\\n      --seed 1 \\\n      --log-format json --log-interval 1 \\\n      --distributed-world-size 8 --distributed-port 13177 \\\n        \"$@\"\n}\n\ntrain_125M () {\n  train_common --decoder-layers 12 \\\n    --decoder-embed-dim 768 \\\n    --decoder-ffn-embed-dim 3072 \\\n    --decoder-attention-heads 12 \"$@\"\n}\n\ntrain_355M () {\n  train_common --decoder-layers 24 \\\n    --decoder-embed-dim 1024\\\n    --decoder-ffn-embed-dim 4096 \\\n    --decoder-attention-heads  16 \\\n    --dropout 0.0 \\\n    --attention-dropout 0.0 \\\n    \"$@\"\n}\n\ntrain_1.3B () {\n  train_common --decoder-layers 24 \\\n    --decoder-embed-dim 2048 \\\n    --decoder-ffn-embed-dim 8192 \\\n    --decoder-attention-heads  32 \\\n    --batch-size 4 \\\n    --update-freq 16 \\\n    --total-num-update 286102 \\\n    --max-update 286102 \\\n    \"$@\"\n}\n\ntrain_2.7B () {\n    train_common --decoder-layers 32 \\\n    --decoder-embed-dim 2560 \\\n    --decoder-ffn-embed-dim 10240 \\\n    --decoder-attention-heads  32 \\\n    --batch-size 4 \\\n    --update-freq 16 \\\n    --total-num-update 286102 \\\n    --max-update 286102 \\\n    \"$@\"\n}\n"
  },
  {
    "path": "examples/operators/alignment_train_cpu.cpp",
    "content": "/**\n * Copyright 2017-present, Facebook, Inc.\n * All rights reserved.\n *\n * This source code is licensed under the license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include <torch/extension.h> // @manual=//caffe2:torch_extension\n#include <algorithm>\n\nnamespace {\n\ntemplate <typename T>\nvoid exclusiveCumprod(\n    const T* p_choose,\n    T* cumprod_1mp,\n    uint32_t bsz,\n    uint32_t tgt_len,\n    uint32_t src_len) {\n  // cumprod_1mp = 1 - p_choose\n  for (uint32_t b = 0; b < bsz; b++) {\n    for (uint32_t tgt = 0; tgt < tgt_len; tgt++) {\n      for (uint32_t src = 0; src < src_len; src++) {\n        uint32_t idx = b * tgt_len * src_len + tgt * src_len + src;\n        cumprod_1mp[idx] = 1 - p_choose[idx];\n      }\n    }\n  }\n\n  // Implementing exclusive cumprod in the innermost dimension\n  // cumprod_1mp = cumprod(1 - p_choose)\n  // There is cumprod in pytorch, however there is no exclusive mode.\n  // cumprod(x) = [x1, x1x2, x2x3x4, ..., prod_{i=1}^n x_i]\n  // exclusive means\n  // cumprod(x) = [1, x1, x1x2, x1x2x3, ..., prod_{i=1}^{n-1} x_i]\n  for (uint32_t b = 0; b < bsz; b++) {\n    for (uint32_t tgt = 0; tgt < tgt_len; tgt++) {\n      uint32_t idx_offset = b * tgt_len * src_len + tgt * src_len;\n      T prev = cumprod_1mp[idx_offset];\n      // index [b][tgt][0]\n      cumprod_1mp[idx_offset] = (T)1.0;\n      T curr;\n      for (uint32_t src = 1; src < src_len; src++) {\n        uint32_t idx = idx_offset + src;\n        curr = cumprod_1mp[idx];\n        cumprod_1mp[idx] = cumprod_1mp[idx - 1] * prev;\n        prev = curr;\n      }\n    }\n  }\n}\n\ntemplate <typename T>\nvoid clamp(\n    const T* cumprod_1mp,\n    T* cumprod_1mp_clamp,\n    uint32_t bsz,\n    uint32_t tgt_len,\n    uint32_t src_len,\n    T min_val,\n    T max_val) {\n  for (uint32_t b = 0; b < bsz; b++) {\n    for (uint32_t tgt = 0; tgt < tgt_len; tgt++) {\n      for (uint32_t src = 0; src < src_len; src++) {\n        uint32_t idx = b * tgt_len * src_len + tgt * src_len + src;\n        if (cumprod_1mp[idx] < min_val) {\n          cumprod_1mp_clamp[idx] = min_val;\n        } else if (cumprod_1mp[idx] > max_val) {\n          cumprod_1mp_clamp[idx] = max_val;\n        } else {\n          cumprod_1mp_clamp[idx] = cumprod_1mp[idx];\n        }\n      }\n    }\n  }\n}\n\ntemplate <typename T>\nvoid alignmentTrainCPUImpl(\n    const T* p_choose,\n    T* alpha,\n    uint32_t bsz,\n    uint32_t tgt_len,\n    uint32_t src_len,\n    float eps) {\n  // p_choose: bsz , tgt_len, src_len\n  // cumprod_1mp: bsz , tgt_len, src_len\n  // cumprod_1mp_clamp : bsz, tgt_len, src_len\n  // alpha: bsz + 1, tgt_len, src_len\n\n  uint32_t elements = bsz * tgt_len * src_len;\n  T* cumprod_1mp = new T[elements];\n  T* cumprod_1mp_clamp = new T[elements];\n\n  exclusiveCumprod<T>(p_choose, cumprod_1mp, bsz, tgt_len, src_len);\n  clamp<T>(\n      cumprod_1mp, cumprod_1mp_clamp, bsz, tgt_len, src_len, (T)eps, (T)1.0);\n\n  // ai = p_i * cumprod(1 − pi) * cumsum(a_i / cumprod(1 − pi))\n\n  // Initialize alpha [:, 0, 0]\n  for (uint32_t b = 0; b < bsz; b++) {\n    alpha[b * tgt_len * src_len] = 1.0;\n  }\n\n  for (uint32_t tgt = 0; tgt < tgt_len; tgt++) {\n    for (uint32_t b = 0; b < bsz; b++) {\n      uint32_t alpha_idx, inout_idx;\n      T prev_scan = 0, curr_scan, out;\n      for (uint32_t src = 0; src < src_len; src++) {\n        // Apply scan/cumsum\n        if (tgt == 0) {\n          // alpha index is [b][tgt][src]\n          alpha_idx = b * tgt_len * src_len + src;\n        } else {\n          // alpha index is [b][tgt-1][src]\n          alpha_idx = b * tgt_len * src_len + (tgt - 1) * src_len + src;\n        }\n        // input index is [b][tgt][src]\n        inout_idx = b * tgt_len * src_len + tgt * src_len + src;\n        curr_scan = prev_scan + alpha[alpha_idx] / cumprod_1mp_clamp[inout_idx];\n\n        out = curr_scan * p_choose[inout_idx] * cumprod_1mp[inout_idx];\n        alpha[inout_idx] = std::min<T>(std::max<T>(out, 0), 1.0);\n        prev_scan = curr_scan;\n      }\n    }\n  }\n\n  free(cumprod_1mp);\n  free(cumprod_1mp_clamp);\n}\n\nvoid alignmentTrainCPU(\n    const torch::Tensor& p_choose,\n    torch::Tensor& alpha,\n    float eps) {\n  uint32_t bsz = p_choose.size(0);\n  uint32_t tgt_len = p_choose.size(1);\n  uint32_t src_len = p_choose.size(2);\n\n  AT_DISPATCH_FLOATING_TYPES_AND2(\n      torch::ScalarType::Half,\n      torch::ScalarType::BFloat16,\n      p_choose.scalar_type(),\n      \"alignmentCPUImpl\",\n      [&]() {\n        alignmentTrainCPUImpl<scalar_t>(\n            p_choose.data_ptr<scalar_t>(),\n            alpha.data_ptr<scalar_t>(),\n            bsz,\n            tgt_len,\n            src_len,\n            eps);\n      });\n}\n\nPYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {\n  m.def(\n      \"alignment_train_cpu\",\n      &alignmentTrainCPU,\n      \"expected_alignment_from_p_choose (CPU)\");\n}\n\n} // namespace\n"
  },
  {
    "path": "examples/operators/alignment_train_cuda.cpp",
    "content": "/**\n * Copyright 2017-present, Facebook, Inc.\n * All rights reserved.\n *\n * This source code is licensed under the license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include \"alignment_train_cuda.h\"\n#include \"utils.h\"\n\nnamespace {\n\nvoid alignmentTrainCUDA(\n    const torch::Tensor& p_choose,\n    torch::Tensor& alpha,\n    float eps) {\n  CHECK_INPUT(p_choose);\n  CHECK_INPUT(alpha);\n\n  alignmentTrainCUDAWrapper(p_choose, alpha, eps);\n}\n\nPYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {\n  m.def(\n      \"alignment_train_cuda\",\n      &alignmentTrainCUDA,\n      \"expected_alignment_from_p_choose (CUDA)\");\n}\n\n} // namespace\n"
  },
  {
    "path": "examples/operators/alignment_train_cuda.h",
    "content": "/**\n * Copyright 2017-present, Facebook, Inc.\n * All rights reserved.\n *\n * This source code is licensed under the license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#pragma once\n\n#include <torch/extension.h> // @manual=//caffe2:torch_extension\n\nvoid alignmentTrainCUDAWrapper(\n    const torch::Tensor& p_choose,\n    torch::Tensor& alpha,\n    float eps);\n"
  },
  {
    "path": "examples/operators/alignment_train_kernel.cu",
    "content": "/**\n * Copyright 2017-present, Facebook, Inc.\n * All rights reserved.\n *\n * This source code is licensed under the license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include <ATen/ATen.h>\n#include <ATen/cuda/CUDAContext.h> // @manual=//caffe2/aten:ATen-cu\n#include <cuda_runtime.h>\n#include <algorithm> // std::min/max\n#include <cub/cub.cuh>\n\n#include \"alignment_train_cuda.h\"\n#include \"utils.h\"\n\nnamespace {\n\n// The thread block length in threads along the X dimension\nconstexpr int BLOCK_DIM_X = 128;\n// The thread block length in threads along the Y dimension\nconstexpr int BLOCK_DIM_Y = 8;\n// The thread block length in threads for scan operation\nconstexpr int SCAN_BLOCK = 512;\n\n#define gpuErrchk(ans) \\\n  { gpuAssert((ans), __FILE__, __LINE__); }\n\ninline void\ngpuAssert(cudaError_t code, const char* file, int line, bool abort = true) {\n  if (code != cudaSuccess) {\n    fprintf(\n        stderr,\n        \"\\nGPUassert: %s %s %d\\n\",\n        cudaGetErrorString(code),\n        file,\n        line);\n    if (abort)\n      exit(code);\n  }\n}\n\ntemplate <typename T>\nstruct Prod {\n  /// prod operator, returns <tt>a * b</tt>\n  __host__ __device__ __forceinline__ T\n  operator()(const T& a, const T& b) const {\n    return a * b;\n  }\n};\n\ntemplate <typename T>\nstruct BlockPrefixProdCallbackOp {\n  // Running prefix\n  T running_total;\n\n  // Constructor\n  __device__ BlockPrefixProdCallbackOp(T running_total)\n      : running_total(running_total) {}\n\n  // Callback operator to be entered by the first warp of threads in the block.\n  // Thread-0 is responsible for returning a value for seeding the block-wide\n  // scan.\n  __device__ T operator()(const T block_aggregate) {\n    T old_prefix = running_total;\n    running_total *= block_aggregate;\n    return old_prefix;\n  }\n};\n\ntemplate <typename T>\nstruct BlockPrefixSumCallbackOp {\n  // Running prefix\n  T running_total;\n\n  // Constructor\n  __device__ BlockPrefixSumCallbackOp(T running_total)\n      : running_total(running_total) {}\n\n  // Callback operator to be entered by the first warp of threads in the block.\n  // Thread-0 is responsible for returning a value for seeding the block-wide\n  // scan.\n  __device__ T operator()(const T block_aggregate) {\n    T old_prefix = running_total;\n    running_total += block_aggregate;\n    return old_prefix;\n  }\n};\n\ntemplate <typename T>\n__global__ void oneMinusPKernel(\n    const T* __restrict__ p_choose,\n    T* __restrict__ cumprod_1mp,\n    uint32_t bsz,\n    uint32_t tgt_len,\n    uint32_t src_len) {\n  for (uint32_t b = blockIdx.x; b < bsz; b += gridDim.x) {\n    for (uint32_t tgt = threadIdx.y; tgt < tgt_len; tgt += blockDim.y) {\n      for (uint32_t src = threadIdx.x; src < src_len; src += blockDim.x) {\n        uint32_t idx = b * tgt_len * src_len + tgt * src_len + src;\n        cumprod_1mp[idx] = 1 - p_choose[idx];\n      }\n    }\n  }\n}\n\ntemplate <typename T, int TPB>\n__global__ void innermostScanKernel(\n    T* __restrict__ cumprod_1mp,\n    uint32_t bsz,\n    uint32_t tgt_len,\n    uint32_t src_len) {\n  for (uint32_t b = blockIdx.y; b < bsz; b += gridDim.y) {\n    for (uint32_t tgt = blockIdx.x; tgt < tgt_len; tgt += gridDim.x) {\n      // Specialize BlockScan for a 1D block of TPB threads on type T\n      typedef cub::BlockScan<T, TPB> BlockScan;\n      // Allocate shared memory for BlockScan\n      __shared__ typename BlockScan::TempStorage temp_storage;\n      // Initialize running total\n      BlockPrefixProdCallbackOp<T> prefix_op(1);\n\n      const uint32_t tid = threadIdx.x;\n      for (uint32_t block_src = 0; block_src < src_len;\n           block_src += blockDim.x) {\n        uint32_t src = block_src + tid;\n        uint32_t idx = b * tgt_len * src_len + tgt * src_len + src;\n        T thread_data = (src < src_len) ? cumprod_1mp[idx] : (T)0;\n\n        // Collectively compute the block-wide inclusive prefix sum\n        BlockScan(temp_storage)\n            .ExclusiveScan(thread_data, thread_data, Prod<T>(), prefix_op);\n        __syncthreads();\n\n        // write the scanned value to output\n        if (src < src_len) {\n          cumprod_1mp[idx] = thread_data;\n        }\n      }\n    }\n  }\n}\n\ntemplate <typename T>\n__global__ void clampKernel(\n    const T* __restrict__ cumprod_1mp,\n    T* __restrict__ cumprod_1mp_clamp,\n    uint32_t bsz,\n    uint32_t tgt_len,\n    uint32_t src_len,\n    T min_val,\n    T max_val) {\n  for (uint32_t b = blockIdx.x; b < bsz; b += gridDim.x) {\n    for (uint32_t tgt = threadIdx.y; tgt < tgt_len; tgt += blockDim.y) {\n      for (uint32_t src = threadIdx.x; src < src_len; src += blockDim.x) {\n        uint32_t idx = b * tgt_len * src_len + tgt * src_len + src;\n        if (cumprod_1mp[idx] < min_val) {\n          cumprod_1mp_clamp[idx] = min_val;\n        } else if (cumprod_1mp[idx] > max_val) {\n          cumprod_1mp_clamp[idx] = max_val;\n        } else {\n          cumprod_1mp_clamp[idx] = cumprod_1mp[idx];\n        }\n      }\n    }\n  }\n}\n\ntemplate <typename T>\n__global__ void initAlphaCUDAKernel(\n    T* alpha,\n    uint32_t bsz,\n    uint32_t tgt_len,\n    uint32_t src_len) {\n  // alpha[:, 0, 0] = 1.0\n  for (uint32_t b = blockIdx.x; b < bsz; b += gridDim.x) {\n    alpha[b * tgt_len * src_len] = (T)1.0;\n  }\n}\n\ntemplate <typename T, int TPB>\n__global__ void alignmentTrainCUDAKernel(\n    const T* __restrict__ p_choose,\n    const T* __restrict__ cumprod_1mp,\n    const T* __restrict__ cumprod_1mp_clamp,\n    T* __restrict__ alpha,\n    uint32_t bsz,\n    uint32_t tgt_len,\n    uint32_t src_len,\n    uint32_t tgt) {\n  for (uint32_t b = blockIdx.x; b < bsz; b += gridDim.x) {\n    // Specialize BlockScan for a 1D block of TPB threads on type T\n    typedef cub::BlockScan<T, TPB> BlockScan;\n\n    // Allocate shared memory for BlockScan\n    __shared__ typename BlockScan::TempStorage temp_storage;\n    // Initialize running total\n    BlockPrefixSumCallbackOp<T> prefix_op(0);\n\n    uint32_t b_offset = b * tgt_len * src_len;\n    const uint32_t tid = threadIdx.x;\n    for (uint32_t block_src = 0; block_src < src_len; block_src += blockDim.x) {\n      uint32_t src = block_src + tid;\n      // Obtain a segment of consecutive items that are blocked across threads\n      uint32_t inout_idx, alpha_idx;\n      if (tgt == 0) {\n        // both alpha and other input index is [b][0][src]\n        alpha_idx = b_offset + src;\n      } else {\n        // alpha index is [b][tgt-1][src]\n        alpha_idx = b_offset + (tgt - 1) * src_len + src;\n      }\n      inout_idx = b_offset + tgt * src_len + src;\n      T thread_data = (T)0;\n      if (src < src_len) {\n        thread_data = alpha[alpha_idx] / cumprod_1mp_clamp[inout_idx];\n      }\n\n      // Collectively compute the block-wide inclusive prefix sum\n      BlockScan(temp_storage).InclusiveSum(thread_data, thread_data, prefix_op);\n      __syncthreads();\n\n      if (src < src_len) {\n        T out = thread_data * p_choose[inout_idx] * cumprod_1mp[inout_idx];\n        // Clamps all elements into the range [ 0, 1.0 ]\n        alpha[inout_idx] = std::min<T>(std::max<T>(out, 0), (T)1.0);\n      }\n    }\n  }\n}\n\ntemplate <typename T>\nvoid exclusiveCumprod(\n    const T* p_choose,\n    T* cumprod_1mp,\n    uint32_t bsz,\n    uint32_t tgt_len,\n    uint32_t src_len,\n    uint32_t max_grid_x,\n    uint32_t max_grid_y,\n    cudaStream_t& stream) {\n  // cumprod_1mp = 1 - p_choose\n  dim3 grid(std::min<T>(max_grid_x, bsz), 1, 1);\n  dim3 block(BLOCK_DIM_X, BLOCK_DIM_Y, 1);\n  oneMinusPKernel<T><<<grid, block, 0, stream>>>(\n      p_choose, cumprod_1mp, bsz, tgt_len, src_len);\n  gpuErrchk(cudaGetLastError());\n\n  // scan on the innermost dimension of cumprod_1mp\n  // cumprod_1mp = cumprod(cumprod_1mp)\n  dim3 grid_scan(\n      std::min<T>(max_grid_x, tgt_len), std::min<T>(max_grid_y, bsz), 1);\n  innermostScanKernel<T, SCAN_BLOCK><<<grid_scan, SCAN_BLOCK, 0, stream>>>(\n      cumprod_1mp, bsz, tgt_len, src_len);\n  gpuErrchk(cudaGetLastError());\n}\n\ntemplate <typename T>\nvoid alignmentTrainCUDAImpl(\n    const T* p_choose,\n    T* alpha,\n    uint32_t bsz,\n    uint32_t tgt_len,\n    uint32_t src_len,\n    float eps) {\n  // p_choose: bsz , tgt_len, src_len\n  // cumprod_1mp: bsz , tgt_len, src_len\n  // cumprod_1mp_clamp : bsz, tgt_len, src_len\n  // alpha: bsz, tgt_len, src_len\n  cudaStream_t stream = at::cuda::getCurrentCUDAStream();\n  uint32_t max_grid_x = at::cuda::getCurrentDeviceProperties()->maxGridSize[0];\n  uint32_t max_grid_y = at::cuda::getCurrentDeviceProperties()->maxGridSize[1];\n\n  // Implementing exclusive cumprod.\n  // cumprod_1mp = cumprod(1 - p_choose)\n  // There is cumprod in pytorch, however there is no exclusive mode.\n  // cumprod(x) = [x1, x1x2, x2x3x4, ..., prod_{i=1}^n x_i]\n  // exclusive means\n  // cumprod(x) = [1, x1, x1x2, x1x2x3, ..., prod_{i=1}^{n-1} x_i]\n  uint32_t elements = bsz * tgt_len * src_len;\n  T* cumprod_1mp;\n  gpuErrchk(cudaMalloc(&cumprod_1mp, elements * sizeof(T)));\n  exclusiveCumprod<T>(\n      p_choose,\n      cumprod_1mp,\n      bsz,\n      tgt_len,\n      src_len,\n      max_grid_x,\n      max_grid_y,\n      stream);\n\n  // clamp cumprod_1mp to the range [eps, 1.0]\n  T* cumprod_1mp_clamp;\n  gpuErrchk(cudaMalloc(&cumprod_1mp_clamp, elements * sizeof(T)));\n  dim3 grid_clamp(std::min<T>(max_grid_x, bsz), 1, 1);\n  dim3 block_clamp(BLOCK_DIM_X, BLOCK_DIM_Y, 1);\n  clampKernel<T><<<grid_clamp, block_clamp, 0, stream>>>(\n      cumprod_1mp, cumprod_1mp_clamp, bsz, tgt_len, src_len, (T)eps, (T)1.0);\n  gpuErrchk(cudaGetLastError());\n\n  // ai = p_i * cumprod(1 − pi) * cumsum(a_i / cumprod(1 − pi))\n  dim3 grid_init(std::min<int>(max_grid_x, bsz), 1, 1);\n  initAlphaCUDAKernel<T>\n      <<<grid_init, 1, 0, stream>>>(alpha, bsz, tgt_len, src_len);\n  gpuErrchk(cudaGetLastError());\n\n  const int grid = std::min(bsz, max_grid_x);\n\n  for (uint32_t i = 0; i < tgt_len; i++) {\n    alignmentTrainCUDAKernel<T, SCAN_BLOCK><<<grid, SCAN_BLOCK, 0, stream>>>(\n        p_choose,\n        cumprod_1mp,\n        cumprod_1mp_clamp,\n        alpha,\n        bsz,\n        tgt_len,\n        src_len,\n        i);\n    gpuErrchk(cudaGetLastError());\n  }\n\n  gpuErrchk(cudaFree(cumprod_1mp));\n  gpuErrchk(cudaFree(cumprod_1mp_clamp));\n}\n\n} // namespace\n\nvoid alignmentTrainCUDAWrapper(\n    const torch::Tensor& p_choose,\n    torch::Tensor& alpha,\n    float eps) {\n  // p_choose dimension: bsz, tgt_len, src_len\n  uint32_t bsz = p_choose.size(0);\n  uint32_t tgt_len = p_choose.size(1);\n  uint32_t src_len = p_choose.size(2);\n\n  cudaSetDevice(p_choose.get_device());\n\n  AT_DISPATCH_FLOATING_TYPES_AND2(\n      torch::ScalarType::Half,\n      torch::ScalarType::BFloat16,\n      p_choose.scalar_type(),\n      \"alignmentTrainCUDAImpl\",\n      [&]() {\n        alignmentTrainCUDAImpl<scalar_t>(\n            p_choose.data_ptr<scalar_t>(),\n            alpha.data_ptr<scalar_t>(),\n            bsz,\n            tgt_len,\n            src_len,\n            eps);\n      });\n}\n"
  },
  {
    "path": "examples/operators/utils.h",
    "content": "/**\n * Copyright 2017-present, Facebook, Inc.\n * All rights reserved.\n *\n * This source code is licensed under the license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#pragma once\n\n#include <torch/extension.h> // @manual=//caffe2:torch_extension\n\n#define CHECK_CUDA(x) \\\n  TORCH_CHECK(x.type().is_cuda(), #x \" must be a CUDA tensor\")\n#define CHECK_CONTIGUOUS(x) \\\n  TORCH_CHECK(x.is_contiguous(), #x \" must be contiguous\")\n#define CHECK_INPUT(x) \\\n  CHECK_CUDA(x);       \\\n  CHECK_CONTIGUOUS(x)\n"
  },
  {
    "path": "examples/paraphraser/README.md",
    "content": "# Paraphrasing with round-trip translation and mixture of experts\n\nMachine translation models can be used to paraphrase text by translating it to\nan intermediate language and back (round-trip translation).\n\nThis example shows how to paraphrase text by first passing it to an\nEnglish-French translation model, followed by a French-English [mixture of\nexperts translation model](/examples/translation_moe).\n\n##### 0. Setup\n\nClone fairseq from source and install necessary dependencies:\n```bash\ngit clone https://github.com/pytorch/fairseq.git\ncd fairseq\npip install --editable .\npip install sacremoses sentencepiece\n```\n\n##### 1. Download models\n```bash\nwget https://dl.fbaipublicfiles.com/fairseq/models/paraphraser.en-fr.tar.gz\nwget https://dl.fbaipublicfiles.com/fairseq/models/paraphraser.fr-en.hMoEup.tar.gz\ntar -xzvf paraphraser.en-fr.tar.gz\ntar -xzvf paraphraser.fr-en.hMoEup.tar.gz\n```\n\n##### 2. Paraphrase\n```bash\npython examples/paraphraser/paraphrase.py \\\n    --en2fr paraphraser.en-fr \\\n    --fr2en paraphraser.fr-en.hMoEup\n# Example input:\n#   The new date for the Games, postponed for a year in response to the coronavirus pandemic, gives athletes time to recalibrate their training schedules.\n# Example outputs:\n#   Delayed one year in response to the coronavirus pandemic, the new date of the Games gives athletes time to rebalance their training schedule.\n#   The new date of the Games, which was rescheduled one year in response to the coronavirus (CV) pandemic, gives athletes time to rebalance their training schedule.\n#   The new date of the Games, postponed one year in response to the coronavirus pandemic, provides athletes with time to rebalance their training schedule.\n#   The Games' new date, postponed one year in response to the coronavirus pandemic, gives athletes time to rebalance their training schedule.\n#   The new Games date, postponed one year in response to the coronavirus pandemic, gives the athletes time to rebalance their training schedule.\n#   The new date of the Games, which was postponed one year in response to the coronavirus pandemic, gives the athletes time to rebalance their training schedule.\n#   The new date of the Games, postponed one year in response to the coronavirus pandemic, gives athletes time to rebalance their training schedule.\n#   The new date of the Games, postponed one year in response to the coronavirus pandemic, gives athletes time to re-balance their training schedule.\n#   The new date of the Games, postponed one year in response to the coronavirus pandemic, gives the athletes time to rebalance their schedule of training.\n#   The new date of the Games, postponed one year in response to the pandemic of coronavirus, gives the athletes time to rebalance their training schedule.\n```\n"
  },
  {
    "path": "examples/paraphraser/paraphrase.py",
    "content": "#!/usr/bin/env python3 -u\n\nimport argparse\nimport fileinput\nimport logging\nimport os\nimport sys\n\nfrom fairseq.models.transformer import TransformerModel\n\n\nlogging.getLogger().setLevel(logging.INFO)\n\n\ndef main():\n    parser = argparse.ArgumentParser(description=\"\")\n    parser.add_argument(\"--en2fr\", required=True, help=\"path to en2fr model\")\n    parser.add_argument(\n        \"--fr2en\", required=True, help=\"path to fr2en mixture of experts model\"\n    )\n    parser.add_argument(\n        \"--user-dir\", help=\"path to fairseq examples/translation_moe/src directory\"\n    )\n    parser.add_argument(\n        \"--num-experts\",\n        type=int,\n        default=10,\n        help=\"(keep at 10 unless using a different model)\",\n    )\n    parser.add_argument(\n        \"files\",\n        nargs=\"*\",\n        default=[\"-\"],\n        help='input files to paraphrase; \"-\" for stdin',\n    )\n    args = parser.parse_args()\n\n    if args.user_dir is None:\n        args.user_dir = os.path.join(\n            os.path.dirname(os.path.dirname(os.path.abspath(__file__))),  # examples/\n            \"translation_moe\",\n            \"src\",\n        )\n        if os.path.exists(args.user_dir):\n            logging.info(\"found user_dir:\" + args.user_dir)\n        else:\n            raise RuntimeError(\n                \"cannot find fairseq examples/translation_moe/src \"\n                \"(tried looking here: {})\".format(args.user_dir)\n            )\n\n    logging.info(\"loading en2fr model from:\" + args.en2fr)\n    en2fr = TransformerModel.from_pretrained(\n        model_name_or_path=args.en2fr,\n        tokenizer=\"moses\",\n        bpe=\"sentencepiece\",\n    ).eval()\n\n    logging.info(\"loading fr2en model from:\" + args.fr2en)\n    fr2en = TransformerModel.from_pretrained(\n        model_name_or_path=args.fr2en,\n        tokenizer=\"moses\",\n        bpe=\"sentencepiece\",\n        user_dir=args.user_dir,\n        task=\"translation_moe\",\n    ).eval()\n\n    def gen_paraphrases(en):\n        fr = en2fr.translate(en)\n        return [\n            fr2en.translate(fr, inference_step_args={\"expert\": i})\n            for i in range(args.num_experts)\n        ]\n\n    logging.info(\"Type the input sentence and press return:\")\n    for line in fileinput.input(args.files):\n        line = line.strip()\n        if len(line) == 0:\n            continue\n        for paraphrase in gen_paraphrases(line):\n            print(paraphrase)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/pay_less_attention_paper/README.md",
    "content": "# Pay Less Attention with Lightweight and Dynamic Convolutions (Wu et al., 2019)\n\nThis page contains pointers to pre-trained models as well as instructions on how to train new models for [our paper](https://arxiv.org/abs/1901.10430).\n\n## Citation:\n```bibtex\n@inproceedings{wu2018pay,\n  title = {Pay Less Attention with Lightweight and Dynamic Convolutions},\n  author = {Felix Wu and Angela Fan and Alexei Baevski and Yann Dauphin and Michael Auli},\n  booktitle = {International Conference on Learning Representations},\n  year = {2019},\n  url = {https://arxiv.org/abs/1901.10430},\n}\n```\n\n## Translation\n\n### Pre-trained models\nFor some datasets we release models without GLUs which are faster at inference.\n\nModel | Description | Dataset | Download\n---|---|---|---\n`lightconv.no_glu.iwslt14.de-en` | LightConv (without GLUs) | [IWSLT14 German-English](https://wit3.fbk.eu/archive/2014-01/texts/de/en/de-en.tgz) | model: <br> [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/iwslt14.de-en.lightconv.tar.gz) <br> IWSLT14 test: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/iwslt14.de-en.test.tar.bz2)\n`dynamicconv.no_glu.iwslt14.de-en` | DynamicConv (without GLUs) | [IWSLT14 German-English](https://wit3.fbk.eu/archive/2014-01/texts/de/en/de-en.tgz) | model: <br> [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/iwslt14.de-en.dynamicconv.tar.gz) <br> IWSLT14 test: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/iwslt14.de-en.test.tar.bz2)\n`lightconv.no_glu.wmt16.en-de` | LightConv (without GLUs) | [WMT16 English-German](https://drive.google.com/uc?export=download&id=0B_bZck-ksdkpM25jRUN2X2UxMm8) | model: <br> [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt16.en-de.joined-dict.lightconv.tar.gz) <br> newstest2014 (shared vocab): <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt16.en-de.joined-dict.newstest2014.tar.bz2)\n`dynamicconv.no_glu.wmt16.en-de` | DynamicConv (without GLUs) | [WMT16 English-German](https://drive.google.com/uc?export=download&id=0B_bZck-ksdkpM25jRUN2X2UxMm8) | model: <br> [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt16.en-de.joined-dict.dynamicconv.tar.gz) <br> newstest2014 (shared vocab): <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt16.en-de.joined-dict.newstest2014.tar.bz2)\n`lightconv.glu.wmt16.en-de` | LightConv | [WMT16 English-German](https://drive.google.com/uc?export=download&id=0B_bZck-ksdkpM25jRUN2X2UxMm8) | model: <br> [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt16.en-de.joined-dict.lightconv-glu.tar.gz) <br> newstest2014 (shared vocab): <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt16.en-de.joined-dict.newstest2014.tar.bz2)\n`dynamicconv.glu.wmt16.en-de` | DynamicConv | [WMT16 English-German](https://drive.google.com/uc?export=download&id=0B_bZck-ksdkpM25jRUN2X2UxMm8) | model: <br> [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt16.en-de.joined-dict.dynamicconv-glu.tar.gz) <br> newstest2014 (shared vocab): <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt16.en-de.joined-dict.newstest2014.tar.bz2)\n`lightconv.glu.wmt14.en-fr` | LightConv | [WMT14 English-French](http://statmt.org/wmt14/translation-task.html#Download) | model: <br> [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt14.en-fr.joined-dict.lightconv-glu.tar.gz) <br> newstest2014: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt14.en-fr.joined-dict.newstest2014.tar.bz2)\n`dynamicconv.glu.wmt14.en-fr` | DynamicConv | [WMT14 English-French](http://statmt.org/wmt14/translation-task.html#Download) | model: <br> [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt14.en-fr.joined-dict.dynamicconv-glu.tar.gz) <br> newstest2014: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt14.en-fr.joined-dict.newstest2014.tar.bz2)\n`lightconv.glu.wmt17.zh-en` | LightConv | [WMT17 Chinese-English](http://statmt.org/wmt17/translation-task.html#Download) | model: <br> [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt17.zh-en.lightconv-glu.tar.gz) <br> newstest2017: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt17.zh-en.newstest2017.tar.bz2)\n`dynamicconv.glu.wmt17.zh-en` | DynamicConv | [WMT17 Chinese-English](http://statmt.org/wmt17/translation-task.html#Download) | model: <br> [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt17.zh-en.dynamicconv-glu.tar.gz) <br> newstest2017: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt17.zh-en.newstest2017.tar.bz2)\n\n### Memory-Efficient CUDA Kernels\n\nSince the PyTorch implementations of Light/Dynamic conv are quite memory intensive, we have developed CUDA kernels that implement the light and dynamic convolution operator in a memory-efficient and performant manner. For large sequence lengths, these kernels save about 50% memory compared to the PyTorch equivalent. \n\nTo install the kernels, use the commands below. Once installed, they will automatically be used in place of the PyTorch implementations whenever a light or dynamic convolution is used.\n\n```sh\n# to install lightconv\ncd fairseq/modules/lightconv_layer\npython cuda_function_gen.py\npython setup.py install\n\n# to install dynamicconv\ncd fairseq/modules/dynamicconv_layer\npython cuda_function_gen.py\npython setup.py install\n```\n\n### Example usage (torch.hub)\n\nWe require a few additional Python dependencies for preprocessing:\n```bash\npip install sacremoses subword_nmt\n```\n\nInteractive translation via PyTorch Hub:\n```python\nimport torch\n\n# List available models\ntorch.hub.list('pytorch/fairseq')  # [..., 'lightconv.glu.wmt17.zh-en', ... ]\n\n# Load a transformer trained on WMT'16 En-De\nzh2en = torch.hub.load('pytorch/fairseq', 'lightconv.glu.wmt17.zh-en', tokenizer='moses', bpe='subword_nmt')\n\n# The underlying model is available under the *models* attribute\nassert isinstance(zh2en.models[0], fairseq.models.lightconv.LightConvModel)\n\n# Translate a sentence\nzh2en.translate('你好 世界')\n# 'Hello World'\n```\n\nLoading custom models:\n```python\nfrom fairseq.models.lightconv import LightConvModel\nen2fr = LightConvModel.from_pretrained(\n  '/path/to/checkpoints',\n  checkpoint_file='checkpoint_best.pt',\n  data_name_or_path='data-bin/wmt14_en_fr',\n  bpe='subword_nmt',\n  bpe_codes='data-bin/wmt14_en_fr/en.code'\n)\nen2fr.translate('Hello world!')\n# 'Bonjour le monde'\n```\n\n### Preprocessing the training datasets\n\nPlease follow the instructions in [`examples/translation/README.md`](../translation/README.md) to preprocess the data.\n\n### Training and evaluation options:\nTo use the model without GLU, please set `--encoder-glu 0 --decoder-glu 0`.\nFor LightConv, please use `--encoder-conv-type lightweight --decoder-conv-type lightweight`, otherwise the default is DynamicConv.\nFor best BLEU results, lenpen may need to be manually tuned.\n\nTo use the CUDA kernels, first install the PyTorch modules using the commands\nabove. Once the CUDA modules are installed, they will automatically be used\ninstead of the PyTorch modules.\n\n### IWSLT14 De-En\nTraining and evaluating DynamicConv (without GLU) on a GPU:\n```sh\n# Training\nSAVE=\"save/dynamic_conv_iwslt\"\nmkdir -p $SAVE \nCUDA_VISIBLE_DEVICES=0 $(which fairseq-train) data-bin/iwslt14.tokenized.de-en \\\n    --clip-norm 0 --optimizer adam --lr 0.0005 \\\n    --source-lang de --target-lang en --max-tokens 4000 --no-progress-bar \\\n    --log-interval 100 --stop-min-lr '1e-09' --weight-decay 0.0001 \\\n    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n    --lr-scheduler inverse_sqrt \\\n    --ddp-backend=legacy_ddp \\\n    --max-update 50000 --warmup-updates 4000 --warmup-init-lr '1e-07' \\\n    --adam-betas '(0.9, 0.98)' --keep-last-epochs 10 \\\n    -a lightconv_iwslt_de_en --save-dir $SAVE \\\n    --dropout 0.3 --attention-dropout 0.1 --weight-dropout 0.1 \\\n    --encoder-glu 0 --decoder-glu 0\npython scripts/average_checkpoints.py --inputs $SAVE \\\n    --num-epoch-checkpoints 10 --output \"${SAVE}/checkpoint_last10_avg.pt\"\n\n# Evaluation\nCUDA_VISIBLE_DEVICES=0 fairseq-generate data-bin/iwslt14.tokenized.de-en --path \"${SAVE}/checkpoint_last10_avg.pt\" --batch-size 128 --beam 4 --remove-bpe --lenpen 1 --gen-subset test --quiet \n```\n\n### WMT16 En-De\nTraining and evaluating DynamicConv (with GLU) on WMT16 En-De using cosine scheduler on one machine with 8 V100 GPUs:\n```sh\n# Training\nSAVE=\"save/dynamic_conv_wmt16en2de\"\nmkdir -p $SAVE\npython -m torch.distributed.launch --nproc_per_node 8 $(which fairseq-train) \\\n    data-bin/wmt16_en_de_bpe32k --fp16  --log-interval 100 --no-progress-bar \\\n    --max-update 30000 --share-all-embeddings --optimizer adam \\\n    --adam-betas '(0.9, 0.98)' --clip-norm 0.0 --weight-decay 0.0 \\\n    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n    --stop-min-lr 1e-09 --update-freq 16 --attention-dropout 0.1 --keep-last-epochs 10 \\\n    --ddp-backend=legacy_ddp --max-tokens 3584 \\\n    --lr-scheduler cosine --warmup-init-lr 1e-7 --warmup-updates 10000 \\\n    --lr-shrink 1 --lr 0.001 --min-lr 1e-7 --warmup-init-lr 1e-07 \\\n    --t-mult 1 --lr-period-updates 20000 \\\n    --arch lightconv_wmt_en_de_big --save-dir $SAVE \\\n    --dropout 0.3 --attention-dropout 0.1 --weight-dropout 0.1 \\\n    --encoder-glu 1 --decoder-glu 1\n\n# Evaluation\nCUDA_VISIBLE_DEVICES=0 fairseq-generate data-bin/wmt16.en-de.joined-dict.newstest2014 --path \"${SAVE}/checkpoint_best.pt\" --batch-size 128 --beam 5 --remove-bpe --lenpen 0.5 --gen-subset test > wmt16_gen.txt\nbash scripts/compound_split_bleu.sh wmt16_gen.txt\n```\n\n### WMT14 En-Fr\nTraining DynamicConv (with GLU) on WMT14 En-Fr using cosine scheduler on one machine with 8 V100 GPUs:\n```sh\n# Training\nSAVE=\"save/dynamic_conv_wmt14en2fr\"\nmkdir -p $SAVE\npython -m torch.distributed.launch --nproc_per_node 8 $(which fairseq-train) \\\n    data-bin/wmt14_en_fr --fp16  --log-interval 100 --no-progress-bar \\\n    --max-update 30000 --share-all-embeddings --optimizer adam \\\n    --adam-betas '(0.9, 0.98)' --clip-norm 0.0 --weight-decay 0.0 \\\n    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n    --stop-min-lr 1e-09 --update-freq 16 --attention-dropout 0.1 --keep-last-epochs 10 \\\n    --ddp-backend=legacy_ddp --max-tokens 3584 \\\n    --lr-scheduler cosine --warmup-init-lr 1e-7 --warmup-updates 10000 \\\n    --lr-shrink 1 --lr 0.001 --min-lr 1e-7 --warmup-init-lr 1e-07 \\\n    --t-mult 1 --lr-period-updates 70000 \\\n    --arch lightconv_wmt_en_fr_big --save-dir $SAVE \\\n    --dropout 0.1 --attention-dropout 0.1 --weight-dropout 0.1 \\\n    --encoder-glu 1 --decoder-glu 1\n\n# Evaluation\nCUDA_VISIBLE_DEVICES=0 fairseq-generate data-bin/wmt14.en-fr.joined-dict.newstest2014 --path \"${SAVE}/checkpoint_best.pt\" --batch-size 128 --beam 5 --remove-bpe --lenpen 0.9 --gen-subset test\n```\n"
  },
  {
    "path": "examples/pointer_generator/README.md",
    "content": "# Transformer with Pointer-Generator Network\n\nThis page describes the `transformer_pointer_generator` model that incorporates\na pointing mechanism in the Transformer model that facilitates copying of input\nwords to the output. This architecture is described in [Enarvi et al. (2020)](https://www.aclweb.org/anthology/2020.nlpmc-1.4/).\n\n## Background\n\nThe pointer-generator network was introduced in [See et al. (2017)](https://arxiv.org/abs/1704.04368)\nfor RNN encoder-decoder attention models. A similar mechanism can be\nincorporated in a Transformer model by reusing one of the many attention\ndistributions for pointing. The attention distribution over the input words is\ninterpolated with the normal output distribution over the vocabulary words. This\nallows the model to generate words that appear in the input, even if they don't\nappear in the vocabulary, helping especially with small vocabularies.\n\n## Implementation\n\nThe mechanism for copying out-of-vocabulary words from the input has been\nimplemented differently to See et al. In their [implementation](https://github.com/abisee/pointer-generator)\nthey convey the word identities through the model in order to be able to produce\nwords that appear in the input sequence but not in the vocabulary. A different\napproach was taken in the Fairseq implementation to keep it self-contained in\nthe model file, avoiding any changes to the rest of the code base. Copying\nout-of-vocabulary words is possible by pre-processing the input and\npost-processing the output. This is described in detail in the next section.\n\n## Usage\n\nThe training and evaluation procedure is outlined below. You can also find a\nmore detailed example for the XSum dataset on [this page](README.xsum.md).\n\n##### 1. Create a vocabulary and extend it with source position markers\n\nThe pointing mechanism is especially helpful with small vocabularies, if we are\nable to recover the identities of any out-of-vocabulary words that are copied\nfrom the input. For this purpose, the model allows extending the vocabulary with\nspecial tokens that can be used in place of `<unk>` tokens to identify different\ninput positions. For example, the user may add `<unk-0>`, `<unk-1>`, `<unk-2>`,\netc. to the end of the vocabulary, after the normal words. Below is an example\nof how to create a vocabulary of 10000 most common words and add 1000 input\nposition markers.\n\n```bash\nvocab_size=10000\nposition_markers=1000\nexport LC_ALL=C\ncat train.src train.tgt |\n  tr -s '[:space:]' '\\n' |\n  sort |\n  uniq -c |\n  sort -k1,1bnr -k2 |\n  head -n \"$((vocab_size - 4))\" |\n  awk '{ print $2 \" \" $1 }' >dict.pg.txt\npython3 -c \"[print('<unk-{}> 0'.format(n)) for n in range($position_markers)]\" >>dict.pg.txt\n```\n\n##### 2. Preprocess the text data\n\nThe idea is that any `<unk>` tokens in the text are replaced with `<unk-0>` if\nit appears in the first input position, `<unk-1>` if it appears in the second\ninput position, and so on. This can be achieved using the `preprocess.py` script\nthat is provided in this directory.\n\n##### 3. Train a model\n\nThe number of these special tokens is given to the model with the\n`--source-position-markers` argument—the model simply maps all of these to the\nsame word embedding as `<unk>`.\n\nThe attention distribution that is used for pointing is selected using the\n`--alignment-heads` and `--alignment-layer` command-line arguments in the same\nway as with the `transformer_align` model.\n\n##### 4. Generate text and postprocess it\n\nWhen using the model to generate text, you want to preprocess the input text in\nthe same way that training data was processed, replacing out-of-vocabulary words\nwith `<unk-N>` tokens. If any of these tokens are copied to the output, the\nactual words can be retrieved from the unprocessed input text. Any `<unk-N>`\ntoken should be replaced with the word at position N in the original input\nsequence. This can be achieved using the `postprocess.py` script.\n"
  },
  {
    "path": "examples/pointer_generator/README.xsum.md",
    "content": "## Training a pointer-generator model on the Extreme Summarization dataset\n\n##### 1. Download the Extreme Summarization data and preprocess it\n\nFollow the instructions [here](https://github.com/EdinburghNLP/XSum) to obtain\nthe original Extreme Summarization dataset. You should have six files,\n{train,validation,test}.{document,summary}.\n\n##### 2. Create a vocabulary and extend it with source position markers\n\n```bash\nvocab_size=10000\nposition_markers=1000\nexport LC_ALL=C\ncat train.document train.summary |\n  tr -s '[:space:]' '\\n' |\n  sort |\n  uniq -c |\n  sort -k1,1bnr -k2 |\n  head -n \"$((vocab_size - 4))\" |\n  awk '{ print $2 \" \" $1 }' >dict.pg.txt\npython3 -c \"[print('<unk-{}> 0'.format(n)) for n in range($position_markers)]\" >>dict.pg.txt\n```\n\nThis creates the file dict.pg.txt that contains the 10k most frequent words,\nfollowed by 1k source position markers:\n\n```\nthe 4954867\n. 4157552\n, 3439668\nto 2212159\na 1916857\nof 1916820\nand 1823350\n...\n<unk-0> 0\n<unk-1> 0\n<unk-2> 0\n<unk-3> 0\n<unk-4> 0\n...\n```\n\n##### 2. Preprocess the text data\n\n```bash\n./preprocess.py --source train.document --target train.summary --vocab <(cut -d' ' -f1 dict.pg.txt) --source-out train.pg.src --target-out train.pg.tgt\n./preprocess.py --source validation.document --target validation.summary --vocab <(cut -d' ' -f1 dict.pg.txt) --source-out valid.pg.src --target-out valid.pg.tgt\n./preprocess.py --source test.document --vocab <(cut -d' ' -f1 dict.pg.txt) --source-out test.pg.src\n```\n\nThe data should now contain `<unk-N>` tokens in place of out-of-vocabulary words.\n\n##### 3. Binarize the dataset:\n\n```bash\nfairseq-preprocess \\\n  --source-lang src \\\n  --target-lang tgt \\\n  --trainpref train.pg \\\n  --validpref valid.pg \\\n  --destdir bin \\\n  --workers 60 \\\n  --srcdict dict.pg.txt \\\n  --joined-dictionary\n```\n\n##### 3. Train a model\n\n```bash\ntotal_updates=20000\nwarmup_updates=500\nlr=0.001\nmax_tokens=4096\nupdate_freq=4\npointer_layer=-2\n\nCUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 fairseq-train bin \\\n    --user-dir examples/pointer_generator/pointer_generator_src \\\n    --max-tokens \"$max_tokens\" \\\n    --task translation \\\n    --source-lang src --target-lang tgt \\\n    --truncate-source \\\n    --layernorm-embedding \\\n    --share-all-embeddings \\\n    --encoder-normalize-before \\\n    --decoder-normalize-before \\\n    --required-batch-size-multiple 1 \\\n    --arch transformer_pointer_generator \\\n    --alignment-layer \"$pointer_layer\" \\\n    --alignment-heads 1 \\\n    --source-position-markers 1000 \\\n    --criterion label_smoothed_cross_entropy \\\n    --label-smoothing 0.1 \\\n    --dropout 0.1 --attention-dropout 0.1 \\\n    --weight-decay 0.01 --optimizer adam --adam-betas \"(0.9, 0.999)\" --adam-eps 1e-08 \\\n    --clip-norm 0.1 \\\n    --lr-scheduler inverse_sqrt --lr \"$lr\" --max-update \"$total_updates\" --warmup-updates \"$warmup_updates\" \\\n    --update-freq \"$update_freq\" \\\n    --skip-invalid-size-inputs-valid-test\n```\n\nAbove we specify that our dictionary contains 1000 source position markers, and\nthat we want to use one attention head from the penultimate decoder layer for\npointing. It should run in 5.5 hours on one node with eight 32GB V100 GPUs. The\nlogged messages confirm that dictionary indices above 10000 will be mapped to\nthe `<unk>` embedding:\n\n```\n2020-09-24 20:43:53 | INFO | fairseq.tasks.translation | [src] dictionary: 11000 types\n2020-09-24 20:43:53 | INFO | fairseq.tasks.translation | [tgt] dictionary: 11000 types\n2020-09-24 20:43:53 | INFO | fairseq.data.data_utils | loaded 11332 examples from: bin/valid.src-tgt.src\n2020-09-24 20:43:53 | INFO | fairseq.data.data_utils | loaded 11332 examples from: bin/valid.src-tgt.tgt\n2020-09-24 20:43:53 | INFO | fairseq.tasks.translation | bin valid src-tgt 11332 examples\n2020-09-24 20:43:53 | INFO | fairseq.models.transformer_pg | dictionary indices from 10000 to 10999 will be mapped to 3\n```\n\n##### 4. Summarize the test sequences\n\n```bash\nbatch_size=32\nbeam_size=6\nmax_length=60\nlength_penalty=1.0\n\nfairseq-interactive bin \\\n    --user-dir examples/pointer_generator/pointer_generator_src \\\n    --batch-size \"$batch_size\" \\\n    --task translation \\\n    --source-lang src --target-lang tgt \\\n    --path checkpoints/checkpoint_last.pt \\\n    --input test.pg.src \\\n    --buffer-size 200 \\\n    --max-len-a 0 \\\n    --max-len-b \"$max_length\" \\\n    --lenpen \"$length_penalty\" \\\n    --beam \"$beam_size\" \\\n    --skip-invalid-size-inputs-valid-test |\n    tee generate.out\ngrep ^H generate.out | cut -f 3- >generate.hyp\n```\n\nNow you should have the generated sequences in `generate.hyp`. They contain\n`<unk-N>` tokens that the model has copied from the source sequence. In order to\nretrieve the original words, we need the unprocessed source sequences from\n`test.document`.\n\n##### 5. Process the generated output\n\nSince we skipped too long inputs when producing `generate.hyp`, we also have to\nskip too long sequences now that we read `test.document`.\n\n```bash\n./postprocess.py \\\n    --source <(awk 'NF<1024' test.document) \\\n    --target generate.hyp \\\n    --target-out generate.hyp.processed\n```\n\nNow you'll find the final sequences from `generate.hyp.processed`, with\n`<unk-N>` replaced with the original word from the source sequence.\n\n##### An example of a summarized sequence\n\nThe original source document in `test.document`:\n\n> de roon moved to teesside in june 2016 for an initial # 8.8 m fee and played 33 premier league games last term . the netherlands international , 26 , scored five goals in 36 league and cup games during his spell at boro . meanwhile , manager garry monk confirmed the championship club 's interest in signing chelsea midfielder lewis baker . `` he 's a target and one of many that we 've had throughout the summer months , '' said monk . find all the latest football transfers on our dedicated page .\n\nThe preprocessed source document in `test.src.pg`:\n\n> de \\<unk-1> moved to \\<unk-4> in june 2016 for an initial # \\<unk-12> m fee and played 33 premier league games last term . the netherlands international , 26 , scored five goals in 36 league and cup games during his spell at boro . meanwhile , manager garry monk confirmed the championship club 's interest in signing chelsea midfielder lewis baker . `` he 's a target and one of many that we 've had throughout the summer months , '' said monk . find all the latest football transfers on our dedicated page .\n\nThe generated summary in `generate.hyp`:\n\n> middlesbrough striker \\<unk> de \\<unk-1> has joined spanish side \\<unk> on a season-long loan .\n\nThe generated summary after postprocessing in `generate.hyp.processed`:\n\n> middlesbrough striker \\<unk> de roon has joined spanish side \\<unk> on a season-long loan .\n"
  },
  {
    "path": "examples/pointer_generator/pointer_generator_src/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import transformer_pg  # noqa\n"
  },
  {
    "path": "examples/pointer_generator/pointer_generator_src/transformer_pg.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom typing import Any, Dict, Optional, List, Tuple\n\nimport torch\nimport torch.nn as nn\nfrom fairseq import utils\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.transformer import (\n    DEFAULT_MAX_SOURCE_POSITIONS,\n    DEFAULT_MAX_TARGET_POSITIONS,\n    TransformerDecoder,\n    TransformerEncoder,\n    TransformerModel,\n    base_architecture,\n)\nfrom torch import Tensor\n\n\nlogger = logging.getLogger(__name__)\n\n\n@register_model(\"transformer_pointer_generator\")\nclass TransformerPointerGeneratorModel(TransformerModel):\n    \"\"\"\n    Transformer model from `\"Attention Is All You Need\" (Vaswani et al, 2017)\n    <https://arxiv.org/abs/1706.03762>`_, augmented with a pointer-generator\n    network from `\"Get To The Point: Summarization with Pointer-Generator\n    Networks\" (See et al, 2017) <https://arxiv.org/abs/1704.04368>`_.\n\n    Args:\n        encoder (TransformerPointerGeneratorEncoder): the encoder\n        decoder (TransformerPointerGeneratorDecoder): the decoder\n\n    The Transformer pointer-generator model provides the following named\n    architectures and command-line arguments:\n\n    .. argparse::\n        :ref: fairseq.models.transformer_pointer_generator_parser\n        :prog:\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        # fmt: off\n        TransformerModel.add_args(parser)\n        parser.add_argument('--alignment-heads', type=int, metavar='N',\n                            help='number of attention heads to be used for '\n                                 'pointing')\n        parser.add_argument('--alignment-layer', type=int, metavar='I',\n                            help='layer number to be used for pointing (0 '\n                                 'corresponding to the bottommost layer)')\n        parser.add_argument('--source-position-markers', type=int, metavar='N',\n                            help='dictionary includes N additional items that '\n                                 'represent an OOV token at a particular input '\n                                 'position')\n        parser.add_argument('--force-generation', type=float, metavar='P',\n                            default=None,\n                            help='set the vocabulary distribution weight to P, '\n                                 'instead of predicting it from the input (1.0 '\n                                 'corresponding to generation, 0.0 to pointing)')\n        # fmt: on\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        # make sure all arguments are present in older models\n        base_architecture(args)\n\n        if args.encoder_layers_to_keep:\n            args.encoder_layers = len(args.encoder_layers_to_keep.split(\",\"))\n        if args.decoder_layers_to_keep:\n            args.decoder_layers = len(args.decoder_layers_to_keep.split(\",\"))\n\n        if getattr(args, \"max_source_positions\", None) is None:\n            args.max_source_positions = DEFAULT_MAX_SOURCE_POSITIONS\n        if getattr(args, \"max_target_positions\", None) is None:\n            args.max_target_positions = DEFAULT_MAX_TARGET_POSITIONS\n        if getattr(args, \"source_position_markers\", None) is None:\n            args.source_position_markers = args.max_source_positions\n\n        src_dict, tgt_dict = task.source_dictionary, task.target_dictionary\n        if src_dict != tgt_dict:\n            raise ValueError(\"Pointer-generator requires a joined dictionary\")\n\n        def build_embedding(dictionary, embed_dim, path=None):\n            # The dictionary may include additional items that can be used in\n            # place of the normal OOV token and that all map to the same\n            # embedding. Using a different token for each input position allows\n            # one to restore the word identities from the original source text.\n            num_embeddings = len(dictionary) - args.source_position_markers\n            padding_idx = dictionary.pad()\n            unk_idx = dictionary.unk()\n            logger.info(\n                \"dictionary indices from {0} to {1} will be mapped to {2}\".format(\n                    num_embeddings, len(dictionary) - 1, unk_idx\n                )\n            )\n            emb = Embedding(num_embeddings, embed_dim, padding_idx, unk_idx)\n            # if provided, load from preloaded dictionaries\n            if path:\n                embed_dict = utils.parse_embedding(path)\n                utils.load_embedding(embed_dict, dictionary, emb)\n            return emb\n\n        if args.share_all_embeddings:\n            if args.encoder_embed_dim != args.decoder_embed_dim:\n                raise ValueError(\n                    \"--share-all-embeddings requires --encoder-embed-dim to match --decoder-embed-dim\"\n                )\n            if args.decoder_embed_path and (\n                args.decoder_embed_path != args.encoder_embed_path\n            ):\n                raise ValueError(\n                    \"--share-all-embeddings not compatible with --decoder-embed-path\"\n                )\n            encoder_embed_tokens = build_embedding(\n                src_dict, args.encoder_embed_dim, args.encoder_embed_path\n            )\n            decoder_embed_tokens = encoder_embed_tokens\n            args.share_decoder_input_output_embed = True\n        else:\n            encoder_embed_tokens = build_embedding(\n                src_dict, args.encoder_embed_dim, args.encoder_embed_path\n            )\n            decoder_embed_tokens = build_embedding(\n                tgt_dict, args.decoder_embed_dim, args.decoder_embed_path\n            )\n\n        encoder = cls.build_encoder(args, src_dict, encoder_embed_tokens)\n        decoder = cls.build_decoder(args, tgt_dict, decoder_embed_tokens)\n        return cls(args, encoder, decoder)\n\n    @classmethod\n    def build_encoder(cls, args, src_dict, embed_tokens):\n        return TransformerPointerGeneratorEncoder(args, src_dict, embed_tokens)\n\n    @classmethod\n    def build_decoder(cls, args, tgt_dict, embed_tokens):\n        return TransformerPointerGeneratorDecoder(args, tgt_dict, embed_tokens)\n\n\nclass TransformerPointerGeneratorEncoder(TransformerEncoder):\n    \"\"\"\n    Transformer encoder consisting of *args.encoder_layers* layers. Each layer\n    is a :class:`TransformerEncoderLayer`. The pointer-generator variant adds\n    the source tokens to the encoder output as these are otherwise not passed\n    to the decoder.\n    \"\"\"\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths: Optional[Tensor] = None,\n        return_all_hiddens: bool = False,\n        token_embeddings: Optional[Tensor] = None\n    ):\n        \"\"\"\n        Runs the `forward()` method of the parent Transformer class. Then adds\n        the source tokens into the encoder output tuple.\n\n        While it might be more elegant that the model would pass the source\n        tokens to the `forward()` method of the decoder too, this would require\n        changes to `SequenceGenerator`.\n\n        Args:\n            src_tokens (torch.LongTensor): tokens in the source language of\n                shape `(batch, src_len)`\n            src_lengths (torch.LongTensor): lengths of each source sentence of\n                shape `(batch)`\n            return_all_hiddens (bool, optional): also return all of the\n                intermediate hidden states (default: False).\n            token_embeddings (torch.Tensor, optional): precomputed embeddings\n                default `None` will recompute embeddings\n\n        Returns:\n            namedtuple:\n                - **encoder_out** (Tensor): the last encoder layer's output of\n                  shape `(src_len, batch, embed_dim)`\n                - **encoder_padding_mask** (ByteTensor): the positions of\n                  padding elements of shape `(batch, src_len)`\n                - **encoder_embedding** (Tensor): the (scaled) embedding lookup\n                  of shape `(batch, src_len, embed_dim)`\n                - **encoder_states** (List[Tensor]): all intermediate\n                  hidden states of shape `(src_len, batch, embed_dim)`.\n                  Only populated if *return_all_hiddens* is True.\n                - **src_tokens** (Tensor): input token ids of shape\n                  `(batch, src_len)`\n        \"\"\"\n        encoder_out = self.forward_scriptable(src_tokens,\n                                              src_lengths,\n                                              return_all_hiddens,\n                                              token_embeddings)\n\n        # The Pytorch Mobile lite interpreter does not supports returning NamedTuple in\n        # `forward` so we use a dictionary instead.\n        # TorchScript does not support mixed values so the values are all lists.\n        # The empty list is equivalent to None.\n        return {\n            \"encoder_out\": encoder_out[\"encoder_out\"],  # T x B x C\n            \"encoder_padding_mask\": encoder_out[\"encoder_padding_mask\"],  # B x T\n            \"encoder_embedding\": encoder_out[\"encoder_embedding\"],  # B x T x C\n            \"encoder_states\": encoder_out[\"encoder_states\"],  # List[T x B x C]\n            \"src_tokens\": [src_tokens],  # B x T\n            \"src_lengths\": [],\n        }\n\n\nclass TransformerPointerGeneratorDecoder(TransformerDecoder):\n    \"\"\"\n    Transformer decoder consisting of *args.decoder_layers* layers. Each layer\n    is a :class:`TransformerDecoderLayer`. The pointer-generator variant mixes\n    the output probabilities with an attention distribution in the output layer.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        dictionary (~fairseq.data.Dictionary): decoding dictionary\n        embed_tokens (torch.nn.Embedding): output embedding\n    \"\"\"\n\n    def __init__(self, args, dictionary, embed_tokens):\n        super().__init__(args, dictionary, embed_tokens, no_encoder_attn=False)\n\n        # In the pointer-generator model these arguments define the decoder\n        # layer and the number of attention heads that will be averaged to\n        # create the alignment for pointing.\n        self.alignment_heads = args.alignment_heads\n        self.alignment_layer = args.alignment_layer\n\n        input_embed_dim = embed_tokens.embedding_dim\n\n        # Generation probabilities / interpolation coefficients are predicted\n        # from the current decoder input embedding and the decoder output, which\n        # is the size of output_embed_dim.\n        p_gen_input_size = input_embed_dim + self.output_embed_dim\n        self.project_p_gens = nn.Linear(p_gen_input_size, 1)\n        nn.init.zeros_(self.project_p_gens.bias)\n\n        # The dictionary may include a separate entry for an OOV token in each\n        # input position, so that their identity can be restored from the\n        # original source text.\n        self.num_types = len(dictionary)\n        self.num_oov_types = args.source_position_markers\n        self.num_embeddings = self.num_types - self.num_oov_types\n        self.force_p_gen = args.force_generation\n\n    def forward(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        features_only: bool = False,\n        alignment_layer: Optional[int] = 0,\n        alignment_heads: Optional[int] = 1,\n        src_lengths: Optional[Any] = None,\n        return_all_hiddens: bool = False,\n    ):\n        \"\"\"\n        Args:\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for teacher forcing\n            encoder_out (optional): output from the encoder, used for\n                encoder-side attention\n            incremental_state (dict, optional): dictionary used for storing\n                state during :ref:`Incremental decoding`\n            features_only (bool, optional): only return features without\n                applying output layer (default: False)\n            alignment_layer (int, optional): 0-based index of the layer to be\n                used for pointing (default: 0)\n            alignment_heads (int, optional): number of attention heads to be\n                used for pointing (default: 1)\n\n        Returns:\n            tuple:\n                - the decoder's output of shape `(batch, tgt_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        # The normal Transformer model doesn't pass the alignment_layer and\n        # alignment_heads parameters correctly. We use our local variables.\n        x, extra = self.extract_features(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            incremental_state=incremental_state,\n            alignment_layer=self.alignment_layer,\n            alignment_heads=self.alignment_heads,\n        )\n        if not features_only:\n            # Embedding the tokens again for generation probability prediction,\n            # so that we don't have to reimplement the whole extract_features()\n            # method.\n            if incremental_state is not None:\n                prev_output_tokens = prev_output_tokens[:, -1:]\n            prev_output_embed = self.embed_tokens(prev_output_tokens)\n            prev_output_embed *= self.embed_scale\n            predictors = torch.cat((prev_output_embed, x), 2)\n            p_gens = self.project_p_gens(predictors)\n            p_gens = torch.sigmoid(p_gens.float())\n            # Torchscript complains if encoder_out or attn are None because\n            # `output_layer()` signature expects tensors instead\n            attn: Optional[Tensor] = extra[\"attn\"][0]\n            assert encoder_out is not None\n            assert attn is not None\n            x = self.output_layer(x, attn, encoder_out[\"src_tokens\"][0], p_gens)\n        return x, extra\n\n    def output_layer(\n        self,\n        features: Tensor,\n        attn: Tensor,\n        src_tokens: Tensor,\n        p_gens: Tensor\n    ) -> Tensor:\n        \"\"\"\n        Project features to the vocabulary size and mix with the attention\n        distributions.\n        \"\"\"\n        if self.force_p_gen is not None:\n            p_gens = self.force_p_gen\n\n        # project back to size of vocabulary\n        if self.adaptive_softmax is None:\n            logits = self.output_projection(features)\n        else:\n            logits = features\n\n        batch_size = logits.shape[0]\n        output_length = logits.shape[1]\n        assert logits.shape[2] == self.num_embeddings\n        assert src_tokens.shape[0] == batch_size\n        src_length = src_tokens.shape[1]\n\n        # The final output distribution will be a mixture of the normal output\n        # distribution (softmax of logits) and attention weights.\n        gen_dists = self.get_normalized_probs_scriptable(\n            (logits, None), log_probs=False, sample=None\n        )\n        gen_dists = torch.mul(gen_dists, p_gens)\n        padding_size = (batch_size, output_length, self.num_oov_types)\n        padding = gen_dists.new_zeros(padding_size)\n        gen_dists = torch.cat((gen_dists, padding), 2)\n        assert gen_dists.shape[2] == self.num_types\n\n        # Scatter attention distributions to distributions over the extended\n        # vocabulary in a tensor of shape [batch_size, output_length,\n        # vocab_size]. Each attention weight will be written into a location\n        # that is for other dimensions the same as in the index tensor, but for\n        # the third dimension it's the value of the index tensor (the token ID).\n        attn = torch.mul(attn.float(), 1 - p_gens)\n        index = src_tokens[:, None, :]\n        index = index.expand(batch_size, output_length, src_length)\n        attn_dists_size = (batch_size, output_length, self.num_types)\n        attn_dists = attn.new_zeros(attn_dists_size)\n        attn_dists.scatter_add_(2, index, attn.float())\n\n        # Final distributions, [batch_size, output_length, num_types].\n        return gen_dists + attn_dists\n\n    def get_normalized_probs(\n        self,\n        net_output: Tuple[Tensor, Optional[Dict[str, List[Optional[Tensor]]]]],\n        log_probs: bool,\n        sample: Optional[Dict[str, Tensor]] = None,\n    ):\n        \"\"\"\n        Get normalized probabilities (or log probs) from a net's output.\n        Pointer-generator network output is already normalized.\n        \"\"\"\n        probs = net_output[0]\n        # Make sure the probabilities are greater than zero when returning log\n        # probabilities.\n        return probs.clamp(1e-10, 1.0).log() if log_probs else probs\n\n\nclass Embedding(nn.Embedding):\n    r\"\"\"A simple lookup table that stores embeddings of a fixed dictionary and size.\n    This module is often used to store word embeddings and retrieve them using indices.\n    The input to the module is a list of indices, and the output is the corresponding\n    word embeddings. This subclass differs from the standard PyTorch Embedding class by\n    allowing additional vocabulary entries that will be mapped to the unknown token\n    embedding.\n    Args:\n        num_embeddings (int): size of the dictionary of embeddings\n        embedding_dim (int): the size of each embedding vector\n        padding_idx (int): Pads the output with the embedding vector at :attr:`padding_idx`\n                           (initialized to zeros) whenever it encounters the index.\n        unk_idx (int): Maps all token indices that are greater than or equal to\n                       num_embeddings to this index.\n    Attributes:\n        weight (Tensor): the learnable weights of the module of shape (num_embeddings, embedding_dim)\n                         initialized from :math:`\\mathcal{N}(0, 1)`\n    Shape:\n        - Input: :math:`(*)`, LongTensor of arbitrary shape containing the indices to extract\n        - Output: :math:`(*, H)`, where `*` is the input shape and :math:`H=\\text{embedding\\_dim}`\n    .. note::\n        Keep in mind that only a limited number of optimizers support\n        sparse gradients: currently it's :class:`optim.SGD` (`CUDA` and `CPU`),\n        :class:`optim.SparseAdam` (`CUDA` and `CPU`) and :class:`optim.Adagrad` (`CPU`)\n    .. note::\n        With :attr:`padding_idx` set, the embedding vector at\n        :attr:`padding_idx` is initialized to all zeros. However, note that this\n        vector can be modified afterwards, e.g., using a customized\n        initialization method, and thus changing the vector used to pad the\n        output. The gradient for this vector from :class:`~torch.nn.Embedding`\n        is always zero.\n    \"\"\"\n    __constants__ = [\"unk_idx\"]\n\n    # Torchscript: Inheriting from Embedding class produces an error when exporting to Torchscript\n    # -> RuntimeError: Unable to cast Python instance to C++ type (compile in debug mode for details\n    # It's happening because max_norm attribute from nn.Embedding is None by default and it cannot be\n    # cast to a C++ type\n    def __init__(\n        self,\n        num_embeddings: int,\n        embedding_dim: int,\n        padding_idx: Optional[int],\n        unk_idx: int,\n        max_norm: Optional[float] = float(\"inf\"),\n    ):\n        super().__init__(num_embeddings, embedding_dim, padding_idx=padding_idx, max_norm=max_norm)\n        self.unk_idx = unk_idx\n        nn.init.normal_(self.weight, mean=0, std=embedding_dim ** -0.5)\n        nn.init.constant_(self.weight[padding_idx], 0)\n\n    def forward(self, input):\n        input = torch.where(\n            input >= self.num_embeddings, torch.ones_like(input) * self.unk_idx, input\n        )\n        return nn.functional.embedding(\n            input, self.weight, self.padding_idx, self.max_norm,\n            self.norm_type, self.scale_grad_by_freq, self.sparse\n        )\n\n\n@register_model_architecture(\n    \"transformer_pointer_generator\", \"transformer_pointer_generator\"\n)\ndef transformer_pointer_generator(args):\n    args.alignment_heads = getattr(args, \"alignment_heads\", 1)\n    args.alignment_layer = getattr(args, \"alignment_layer\", -1)\n    base_architecture(args)\n    if args.alignment_layer < 0:\n        args.alignment_layer = args.decoder_layers + args.alignment_layer\n\n\n@register_model_architecture(\n    \"transformer_pointer_generator\", \"transformer_pointer_generator_iwslt_de_en\"\n)\ndef transformer_pointer_generator_iwslt_de_en(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 1024)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 6)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 1024)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 4)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    transformer_pointer_generator(args)\n\n\n@register_model_architecture(\n    \"transformer_pointer_generator\", \"transformer_pointer_generator_wmt_en_de\"\n)\ndef transformer_pointer_generator_wmt_en_de(args):\n    transformer_pointer_generator(args)\n\n\n# Transformer pointer-generator with the base Transformer parameters as used in\n# the \"Attention Is All You Need\" paper (Vaswani et al., 2017)\n@register_model_architecture(\n    \"transformer_pointer_generator\",\n    \"transformer_pointer_generator_vaswani_wmt_en_de_big\",\n)\ndef transformer_pointer_generator_vaswani_wmt_en_de_big(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 4096)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 16)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 1024)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 4096)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 16)\n    args.dropout = getattr(args, \"dropout\", 0.3)\n    transformer_pointer_generator(args)\n\n\n@register_model_architecture(\n    \"transformer_pointer_generator\",\n    \"transformer_pointer_generator_vaswani_wmt_en_fr_big\",\n)\ndef transformer_pointer_generator_vaswani_wmt_en_fr_big(args):\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    transformer_pointer_generator_vaswani_wmt_en_de_big(args)\n\n\n@register_model_architecture(\n    \"transformer_pointer_generator\", \"transformer_pointer_generator_wmt_en_de_big\"\n)\ndef transformer_pointer_generator_wmt_en_de_big(args):\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.1)\n    transformer_pointer_generator_vaswani_wmt_en_de_big(args)\n\n\n# default parameters used in tensor2tensor implementation\n@register_model_architecture(\n    \"transformer_pointer_generator\", \"transformer_pointer_generator_wmt_en_de_big_t2t\"\n)\ndef transformer_pointer_generator_wmt_en_de_big_t2t(args):\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", True)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", True)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.1)\n    args.activation_dropout = getattr(args, \"activation_dropout\", 0.1)\n    transformer_pointer_generator_vaswani_wmt_en_de_big(args)\n"
  },
  {
    "path": "examples/pointer_generator/postprocess.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport re\nimport sys\n\n\nclass OOVIndexError(IndexError):\n    def __init__(self, pos, source_seq, target_seq):\n        super(OOVIndexError, self).__init__(\n            \"A <unk-N> tag in the target sequence refers to a position that is \"\n            \"outside the source sequence. Most likely there was a mismatch in \"\n            \"provided source and target sequences. Otherwise this would mean that \"\n            \"the pointing mechanism somehow attended to a position that is past \"\n            \"the actual sequence end.\"\n        )\n        self.source_pos = pos\n        self.source_seq = source_seq\n        self.target_seq = target_seq\n\n\ndef replace_oovs(source_in, target_in, target_out):\n    \"\"\"Replaces <unk-N> tokens in the target text with the corresponding word in\n    the source text.\n    \"\"\"\n\n    oov_re = re.compile(\"^<unk-([0-9]+)>$\")\n\n    for source_seq, target_seq in zip(source_in, target_in):\n        target_seq_out = []\n\n        pos_to_word = source_seq.strip().split()\n        for token in target_seq.strip().split():\n            m = oov_re.match(token)\n            if m:\n                pos = int(m.group(1))\n                if pos >= len(pos_to_word):\n                    raise OOVIndexError(pos, source_seq, target_seq)\n                token_out = pos_to_word[pos]\n            else:\n                token_out = token\n            target_seq_out.append(token_out)\n        target_out.write(\" \".join(target_seq_out) + \"\\n\")\n\n\ndef main():\n    parser = argparse.ArgumentParser(\n        description=\"Replaces <unk-N> tokens in target sequences with words from \"\n        \"the corresponding position in the source sequence.\"\n    )\n    parser.add_argument(\n        \"--source\", type=str, help=\"text file with source sequences\", required=True\n    )\n    parser.add_argument(\n        \"--target\", type=str, help=\"text file with target sequences\", required=True\n    )\n    parser.add_argument(\n        \"--target-out\",\n        type=str,\n        help=\"where to write target sequences without <unk-N> \" \"entries\",\n        required=True,\n    )\n    args = parser.parse_args()\n\n    target_in = (\n        open(args.target, \"r\", encoding=\"utf-8\") if args.target is not None else None\n    )\n    target_out = (\n        open(args.target_out, \"w\", encoding=\"utf-8\")\n        if args.target_out is not None\n        else None\n    )\n    with open(args.source, \"r\", encoding=\"utf-8\") as source_in, open(\n        args.target, \"r\", encoding=\"utf-8\"\n    ) as target_in, open(args.target_out, \"w\", encoding=\"utf-8\") as target_out:\n        replace_oovs(source_in, target_in, target_out)\n\n\nif __name__ == \"__main__\":\n    try:\n        main()\n    except OOVIndexError as e:\n        print(e, file=sys.stderr)\n        print(\"Source sequence:\", e.source_seq.strip(), file=sys.stderr)\n        print(\"Target sequence:\", e.target_seq.strip(), file=sys.stderr)\n        print(\n            \"Source sequence length:\",\n            len(e.source_seq.strip().split()),\n            file=sys.stderr,\n        )\n        print(\"The offending tag points to:\", e.source_pos)\n        sys.exit(2)\n"
  },
  {
    "path": "examples/pointer_generator/preprocess.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nfrom itertools import zip_longest\n\n\ndef replace_oovs(source_in, target_in, vocabulary, source_out, target_out):\n    \"\"\"Replaces out-of-vocabulary words in source and target text with <unk-N>,\n    where N in is the position of the word in the source sequence.\n    \"\"\"\n\n    def format_unk(pos):\n        return \"<unk-{}>\".format(pos)\n\n    if target_in is None:\n        target_in = []\n\n    for seq_num, (source_seq, target_seq) in enumerate(\n        zip_longest(source_in, target_in)\n    ):\n        source_seq_out = []\n        target_seq_out = []\n\n        word_to_pos = dict()\n        for position, token in enumerate(source_seq.strip().split()):\n            if token in vocabulary:\n                token_out = token\n            else:\n                if token in word_to_pos:\n                    oov_pos = word_to_pos[token]\n                else:\n                    word_to_pos[token] = position\n                    oov_pos = position\n                token_out = format_unk(oov_pos)\n            source_seq_out.append(token_out)\n        source_out.write(\" \".join(source_seq_out) + \"\\n\")\n\n        if target_seq is not None:\n            for token in target_seq.strip().split():\n                if token in word_to_pos:\n                    token_out = format_unk(word_to_pos[token])\n                else:\n                    token_out = token\n                target_seq_out.append(token_out)\n        if target_out is not None:\n            target_out.write(\" \".join(target_seq_out) + \"\\n\")\n\n\ndef main():\n    parser = argparse.ArgumentParser(\n        description=\"Replaces out-of-vocabulary words in both source and target \"\n        \"sequences with tokens that indicate the position of the word \"\n        \"in the source sequence.\"\n    )\n    parser.add_argument(\n        \"--source\", type=str, help=\"text file with source sequences\", required=True\n    )\n    parser.add_argument(\n        \"--target\", type=str, help=\"text file with target sequences\", default=None\n    )\n    parser.add_argument(\"--vocab\", type=str, help=\"vocabulary file\", required=True)\n    parser.add_argument(\n        \"--source-out\",\n        type=str,\n        help=\"where to write source sequences with <unk-N> entries\",\n        required=True,\n    )\n    parser.add_argument(\n        \"--target-out\",\n        type=str,\n        help=\"where to write target sequences with <unk-N> entries\",\n        default=None,\n    )\n    args = parser.parse_args()\n\n    with open(args.vocab, encoding=\"utf-8\") as vocab:\n        vocabulary = vocab.read().splitlines()\n\n    target_in = (\n        open(args.target, \"r\", encoding=\"utf-8\") if args.target is not None else None\n    )\n    target_out = (\n        open(args.target_out, \"w\", encoding=\"utf-8\")\n        if args.target_out is not None\n        else None\n    )\n    with open(args.source, \"r\", encoding=\"utf-8\") as source_in, open(\n        args.source_out, \"w\", encoding=\"utf-8\"\n    ) as source_out:\n        replace_oovs(source_in, target_in, vocabulary, source_out, target_out)\n    if target_in is not None:\n        target_in.close()\n    if target_out is not None:\n        target_out.close()\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/quant_noise/README.md",
    "content": "# Training with Quantization Noise for Extreme Model Compression ({Fan\\*, Stock\\*} *et al.*, 2020)\nThis page contains information for how to train and quantize models with Quantization Noise, for both scalar quantization like `int8` and Iterative Product Quantization.\nCheck out our paper [here](https://arxiv.org/abs/2004.07320).\n\nLooking for pretrained models? They will be added shortly.\nLooking for code to train vision models? We are working on open sourcing our code as part of ClassyVision. Please check back, but note that both the Scalar and Iterative Product Quantization counterparts of the `nn.Conv2d` module are already included in this release.\n\n**Contents**:\n- [Walk through of code](#walk-through-the-code)\n- [Reproduce NLP Results](#looking-to-reproduce-the-nlp-results-in-the-paper)\n- [Reproduce Vision Results](#looking-to-reproduce-the-vision-results-in-the-paper)\n\n\n## Citation\n```bibtex\n@article{fan2020training,\n    title={Training with Quantization Noise for Extreme Model Compression},\n    author={Angela Fan* and Pierre Stock* and and Benjamin Graham and Edouard Grave and Remi Gribonval and Herve Jegou and Armand Joulin},\n    year={2020},\n    eprint={2004.07320},\n    archivePrefix={arXiv},\n    primaryClass={cs.ML}\n}\n```\n\n## Walk through the code\n\nTraining a model with Quant-Noise improves the performance in subsequent inference-time quantization by training models to be robust to quantization. This technique is useful for both scalar and product quantization methods, as well as multiple domains. We detail below our approach to train, quantize models and integrate our code to quantize your favorite models.\n\n### Scalar Quantization\n\nUnlike the section [Iterative Product Quantization](#iterative-product-quantization) which gives state-of-the-art compression, this section showcases the usefulness of our approach for simple scalar quantization baselines such as int8 using on-GPU Fake Quantization.\n\n#### Training\n\nScalar quantization with Quant-Noise consists in randomly quantizing a proportion `p` of the weights during training. Scalar quantization is implemented [here](https://github.com/pytorch/fairseq/tree/main/fairseq/modules/quantization/scalar) under the form of Fake Quantization, meaning that we emulate int8 on GPU by quantizing and de-quantizing both the weights and the activations. We rely on PyTorch's [quantization primitives](https://github.com/pytorch/pytorch/tree/master/torch/quantization).\n\nTo train a model with Quant-Noise, add the following flag:\n```\n--quant-noise-scalar 0.5\n```\nLarge values of noise make the network easier to quantize but may result in higher non-quantized test and validation perplexities.\n\n#### Quantization\n\nWhen evaluating a network, all quantized modules and activation hooks automatically switch to `p=1` so the validation accuracy reported by Fairseq is actually the quantized one, nothing more to do.\n\n\n#### Integration with your own code\n\nLooking to quantize your own models with Quant-Noise + Scalar Quantization?\n- Use the function `quantize_model_` implemented [here](https://github.com/pytorch/fairseq/tree/main/fairseq/modules/quantization/scalar/utils.py) to (1) replace all your modules by their quantized counterparts and (2) add hooks to those modules to quantize the activations.\n- Then, perform your training as usual. Note that in `eval()` mode, the network is always fully quantized (weights and activations) by default (`p=1`).\n\n\n\n### Iterative Product Quantization\n\n\nIterative Product Quantization with Quant-Noise proceeds in two steps. First, a model must be trained uncompressed with Quant-Noise. Second, the model must be quantized with iPQ. Note that we implement here the simplest form of noise, which consists in randomly dropping a proportion `p` of blocks, and that worked as well as assigning those blocks to their current centroid.\n\n#### Training\n\nTo train a model with Quant-Noise, add the following flags:\n```\n--quant-noise-pq 0.1 --quant-noise-pq-block-size 8\n```\n`quant-noise-pq` controls how much dropout is applied to the blocks of the weight matrix. `quant-noise-pq-block-size` controls the size of the weight matrix blocks.\nWe recommend training with 0.05 to 0.2 Quant-Noise, a value that worked well in our experiments. For the block-size, we recommend training with block-size of 8. Note that the block size must be a multiple of `input_features`, see the size checks [here](https://github.com/pytorch/fairseq/tree/main/fairseq/modules/quant_noise.py). Large block sizes result in higher compression ratio but may induce a loss in accuracy.\n\nWe currently support training Transformer based models, such as sequence-to-sequence, language models, and BERT architectures. The `quant_noise` function [here](https://github.com/pytorch/fairseq/tree/main/fairseq/modules/quant_noise.py) wraps a module. It splits a weight matrix into blocks and applies random dropout to these blocks.\nIn the Transformer architectures, quant-noise is applied to the input and output embeddings, the attention, and the FFN.\n\nQuant-Noise can also be combined with **LayerDrop** (see [here](https://github.com/pytorch/fairseq/tree/main/examples/layerdrop)) to add its pruning effect to the quantized model and make the model even smaller. We recommend training with LayerDrop 0.1 or 0.2.\n\n#### Quantization\n\nWe implement an improved version of product quantization from Stock et al, **iPQ**, described [here](https://arxiv.org/abs/1907.05686), see code with old API [here](https://github.com/facebookresearch/kill-the-bits). Note that we improved the iPQ API in terms of both compute speed and usability as described below.\n\nFor the particular case of PQ, quantization is made sequentially. We recommend first quantizing the FFNs, then the EMBs, and finally the ATTNs. Quantization is done in two sub-steps:\n- First, perform `n` steps of Product Quantization (generally `n=20` is enough).\n- Then, finetune the obtained centroids.\n\n#### Integration with your own code\n\nLooking to quantize your own models with Quant-Noise + iPQ?\n- First wrap your modules with the `quant_noise` function [here](https://github.com/pytorch/fairseq/tree/main/fairseq/modules/quant_noise.py), which is module-agnostic and train your favorite model.\n- Then, quantize your trained model using the code [here](https://github.com/pytorch/fairseq/tree/main/fairseq/modules/quantization/pq). This can be done *without any changes to your training loop*. Below is an example code for integration.\nNote that we tried our approach only on Transformers and various Convolutional Models such as EfficientNets.\n\n```python\nfrom fairseq.modules.quantization.pq import quantize_model_, SizeTracker\n\n# get configuration parameters\nn_centroids_config = config[\"n_centroids\"]\nblock_sizes_config = config[\"block_sizes\"]\nlayers_to_quantize = config[\"layers_to_quantize\"]\n\n# size tracker for keeping track of assignments, centroids and non-compressed sizes\nsize_tracker = SizeTracker(model)\n\n# Quantize model by stages\nfor step in range(len(layers_to_quantize)):\n\n    # quantize model in-place\n    quantized_layers = quantize_model_(\n        model,\n        size_tracker,\n        layers_to_quantize,\n        block_sizes_config,\n        n_centroids_config,\n        step=step,\n    )\n    logger.info(f\"Finetuning stage {step}, quantized layers: {quantized_layers}\")\n    logger.info(f\"{size_tracker}\")\n\n    # Don't forget to re-create/update trainer/optimizer since model parameters have changed\n    optimizer = ...\n\n    # Finetune the centroids with your usual training loop for a few epochs\n    trainer.train_epoch()\n```\n\n\n## Looking to reproduce the NLP results in the paper?\n\nWe detail below how to reproduce the state-of-the-art results in reported in the paper for Quant-Noise + Iterative Product Quantization.\n\n### Training with Quant-Noise\n\nTo **train** RoBERTa + QuantNoise, we followed this setting [here](https://github.com/pytorch/fairseq/tree/main/examples/roberta).\nThe following command can be used to train a RoBERTa Base + QuantNoise model:\n\n```bash\nTOTAL_UPDATES=125000\nWARMUP_UPDATES=10000\nPEAK_LR=0.0005\nTOKENS_PER_SAMPLE=512\nMAX_POSITIONS=512\nMAX_SENTENCES=16\nUPDATE_FREQ=2\nDATA_DIR=/path/to/data/here\n\nfairseq-train $DATA_DIR \\\n    --task masked_lm --criterion masked_lm --arch roberta_base \\\n    --sample-break-mode complete \\\n    --tokens-per-sample $TOKENS_PER_SAMPLE --max-positions $MAX_POSITIONS \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' --adam-eps 1e-6 \\\n    --clip-norm 0.0 \\\n    --lr-scheduler polynomial_decay --lr $PEAK_LR \\\n    --warmup-updates $WARMUP_UPDATES --total-num-update $TOTAL_UPDATES \\\n    --dropout 0.1 --attention-dropout 0.1 \\\n    --weight-decay 0.01 \\\n    --batch-size $MAX_SENTENCES \\\n    --update-freq $UPDATE_FREQ --max-update $TOTAL_UPDATES \\\n    --save-dir checkpoint/roberta \\\n    --ddp-backend legacy_ddp --encoder-layerdrop 0.2 \\\n    --quant-noise-pq 0.2 --quant-noise-pq-block-size 8 --untie-weights-roberta\n```\n\nTo **finetune** RoBERTa + QuantNoise, we followed this setting [here](https://github.com/pytorch/fairseq/blob/main/examples/roberta/README.glue.md).\nThe following command can be used to finetune a RoBERTa Base + QuantNoise model on the RTE dataset:\n\n```bash\nTOTAL_NUM_UPDATES=2036\nWARMUP_UPDATES=122\nLR=2e-05\nNUM_CLASSES=2\nMAX_SENTENCES=16\nROBERTA_PATH=/path/to/roberta_quantnoise/model.pt\n\nfairseq-train /path/to/rte/data/ \\\n    --restore-file $ROBERTA_PATH \\\n    --max-positions 512 \\\n    --batch-size $MAX_SENTENCES \\\n    --max-tokens 4400 \\\n    --task sentence_prediction \\\n    --reset-optimizer --reset-dataloader --reset-meters \\\n    --required-batch-size-multiple 1 \\\n    --init-token 0 --separator-token 2 \\\n    --arch roberta_large \\\n    --criterion sentence_prediction \\\n    --num-classes $NUM_CLASSES \\\n    --dropout 0.1 --attention-dropout 0.1 \\\n    --weight-decay 0.1 --optimizer adam --adam-betas \"(0.9, 0.98)\" --adam-eps 1e-06 \\\n    --clip-norm 0.0 \\\n    --lr-scheduler polynomial_decay --lr $LR --total-num-update $TOTAL_NUM_UPDATES --warmup-updates $WARMUP_UPDATES \\\n    --fp16 --fp16-init-scale 4 --threshold-loss-scale 1 --fp16-scale-window 128 \\\n    --max-epoch 10 \\\n    --find-unused-parameters \\\n    --best-checkpoint-metric accuracy --maximize-best-checkpoint-metric \\\n    --ddp-backend legacy_ddp \\\n    --quant-noise-pq 0.2 --quant-noise-pq-block-size 8\n```\n\nTo **train** Language Models on Wikitext-103, we followed this setting [here](https://github.com/pytorch/fairseq/tree/main/examples/language_model).\nThe following command can be used to train a Transformer + QuantNoise model on Wikitext-103:\n\n```bash\nfairseq-train --task language_modeling /path/to/wikitext-103/data \\\n    --save-dir checkpoints/transformer_wikitext-103 \\\n    --adaptive-input --adaptive-input-cutoff 20000,60000 --adaptive-input-factor 4 \\\n    --adaptive-softmax-cutoff 20000,60000 --adaptive-softmax-dropout 0.2 --adaptive-softmax-factor 4.0 \\\n    --tie-adaptive-proj --tie-adaptive-weights \\\n    --arch transformer_lm_gbw \\\n    --attention-dropout 0.1 --dropout 0.2 --relu-dropout 0.1 \\\n    --clip-norm 0.1 --criterion adaptive_loss \\\n    --ddp-backend legacy_ddp \\\n    --decoder-attention-heads 8 --decoder-embed-dim 1024 --decoder-ffn-embed-dim 4096 --decoder-input-dim 1024 \\\n    --decoder-layers 16 --decoder-normalize-before --decoder-output-dim 1024 \\\n    --min-lr 0.0001 --lr-period-updates 270000 --lr-scheduler cosine --lr-shrink 0.75 --lr 1.0 --t-mult 2.0 \\\n    --max-tokens 3072 --tokens-per-sample 3072 --momentum 0.99 --optimizer nag \\\n    --sample-break-mode none --update-freq 3 \\\n    --warmup-init-lr 1e-07 --warmup-updates 16000 \\\n    --weight-decay 0 --seed 1 --stop-min-lr 1e-09 \\\n    --quant-noise-pq 0.05 --quant-noise-pq-block-size 8\n```\n\nTo **evaluate** this model, note you need to use the `eval.py` script. The following command can be used to evaluate:\n\n```bash\nfairseq-eval-lm /path/to/wikitext-103/data --path /path/to/model/checkpoint \\\n    --sample-break-mode complete \\\n    --max-tokens 3072 \\\n    --context-window 2560 \\\n    --softmax-batch 1024 \\\n    --gen-subset valid\n```\nand change the `--gen-subset` to `test` if you would like to evaluate on the test set instead.\n\n\n### Iterative Product Quantization\n\nTo quantize the finetuned RoBERTa model, we use this command on 1 GPU. This should run in a day.\n```bash\nTOTAL_NUM_UPDATES=6108  # 2036 updates for each iteration\nWARMUP_UPDATES=122\nLR=2e-05\nNUM_CLASSES=2\nMAX_SENTENCES=16\nfairseq-train --task sentence_prediction /path/to/data/ \\\n    --restore-file $ROBERTA_PATH \\\n    --save-dir checkpoints/roberta_finetuned \\\n    --max-positions 512 \\\n    --batch-size $MAX_SENTENCES \\\n    --max-tokens 4400 \\\n    --init-token 0 --separator-token 2 \\\n    --arch roberta_large \\\n    --criterion sentence_prediction \\\n    --num-classes $NUM_CLASSES \\\n    --dropout 0.1 --attention-dropout 0.1 \\\n    --weight-decay 0.1 --optimizer adam --adam-betas \"(0.9, 0.98)\" --adam-eps 1e-06 \\\n    --clip-norm 0.0 --lr-scheduler polynomial_decay \\\n    --fp16 --fp16-init-scale 4 --threshold-loss-scale 1 --fp16-scale-window 128 \\\n    --no-progress-bar --skip-invalid-size-inputs-valid-test --ddp-backend legacy_ddp \\\n    --quantization-config-path /path/to/config/yaml\n```\n\nTo quantize the trained Language Model, we use this command on 8 V100 23GB GPUs. This should run in a couple of hours.\n```bash\nfairseq-train --task language_modeling /path/to/wikitext-103/data \\\n    --save-dir checkpoints/transformer_wikitext-103 \\\n    --adaptive-input --adaptive-input-cutoff 20000,60000 --adaptive-input-factor 4 \\\n    --adaptive-softmax-cutoff 20000,60000 --adaptive-softmax-dropout 0.2 --adaptive-softmax-factor 4.0 \\\n    --arch transformer_lm_gbw \\\n    --attention-dropout 0.1 --dropout 0.2 --relu-dropout 0.1  \\\n    --bucket-cap-mb 25 --char-embedder-highway-layers 2 --character-embedding-dim 4 \\\n    --clip-norm 0.1 --criterion adaptive_loss \\\n    --ddp-backend legacy_ddp \\\n    --decoder-attention-heads 8 --decoder-embed-dim 1024 --decoder-ffn-embed-dim 4096 --decoder-input-dim 1024 --decoder-layers 16 --decoder-normalize-before --decoder-output-dim 1024 \\\n    --fp16 --keep-last-epochs -1 \\\n    --min-lr 0.0001 --lr-period-updates 270000 --lr-scheduler cosine --lr-shrink 0.75 --lr 0.05 --stop-min-lr 1e-09 \\\n    --max-tokens 2944  --tokens-per-sample 2944\\\n    --momentum 0.99 --no-epoch-checkpoints --no-progress-bar --optimizer nag --required-batch-size-multiple 8 \\\n    --sample-break-mode none --t-mult 2.0 --skip-invalid-size-inputs-valid-test \\\n    --tie-adaptive-proj --tie-adaptive-weights --update-freq 3 --weight-decay 0 --seed 1  \\\n    --log-interval 100 --no-progress-bar --skip-invalid-size-inputs-valid-test \\\n    --restore-file path/to/trained/lm/with/quant/noise \\\n    --max-update 13500 --quantization-config-path /path/to/config/yaml\n```\nIf you have less capacity or if your distributed training freezes, try reducing  `--max-tokens` and  `--tokens-per-sample` (this may reduce the quantized accuracy a bit).\n\n### Remarks\n\nWe try to keep the open-sourced code as readable and as easy-to-plug as possible. Therefore, we did not test it for the following cases:\n- Scalar quantization with RoBERTa.\n- Quantization with iPQ and `int8` combined.\n\nIf you have trouble adapting it, we will be more than happy to help!\n\n## Looking to reproduce the Vision results in the paper?\n\nWe are working on open sourcing our code as part of ClassyVision. Please check back.\n\n\n## Having an issue or have a question?\n\nPlease open an issue in this repository with the details of your question. Thanks!\n"
  },
  {
    "path": "examples/quant_noise/transformer_quantization_config.yaml",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n# This file defines example configuration arguments for quantizing\n# a transformer model with product quantization\n\n# Number of Centroids for Product Quantization, by default 256 (byte-aligned)\nn_centroids:\n    Linear:\n        key: in_features\n        value: {\"*\": 256}\n    Embedding:\n        key: embedding_dim\n        value: {\"*\": 256}\n\n# Block Sizes for Product Quantization\n# We suggest: 8 for FFN, 4 for ATTN, 4 for embedding projections, 8 for embeddings\nblock_sizes:\n  Linear:\n      key: fuzzy_name\n      value: {fc: 8, attn: 4, emb: 4}\n  Embedding:\n      key: fuzzy_name\n      value: {emb: 8}\n\n# Layers to Quantize Sequentially\n# We suggest: first FFN, then EMB, then ATTN\nlayers_to_quantize:\n    - decoder\\\\.layers\\\\.\\d+\\\\.fc[12]\n    - decoder\\\\.embed_tokens\\\\.embeddings\\\\.[012]\\\\.[01]\n    - decoder\\\\.layers\\\\.\\d+\\\\.self_attn\\\\.(k_proj|v_proj|q_proj|out_proj)\n"
  },
  {
    "path": "examples/roberta/README.custom_classification.md",
    "content": "# Finetuning RoBERTa on a custom classification task\n\nThis example shows how to finetune RoBERTa on the IMDB dataset, but should illustrate the process for most classification tasks.\n\n### 1) Get the data\n\n```bash\nwget http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz\ntar zxvf aclImdb_v1.tar.gz\n```\n\n\n### 2) Format data\n\n`IMDB` data has one data-sample in each file, below python code-snippet converts it one file for train and valid each for ease of processing.  \n```python\nimport argparse\nimport os\nimport random\nfrom glob import glob\n\nrandom.seed(0)\n\ndef main(args):\n    for split in ['train', 'test']:\n        samples = []\n        for class_label in ['pos', 'neg']:\n            fnames = glob(os.path.join(args.datadir, split, class_label) + '/*.txt')\n            for fname in fnames:\n                with open(fname) as fin:\n                    line = fin.readline()\n                    samples.append((line, 1 if class_label == 'pos' else 0))\n        random.shuffle(samples)\n        out_fname = 'train' if split == 'train' else 'dev'\n        f1 = open(os.path.join(args.datadir, out_fname + '.input0'), 'w')\n        f2 = open(os.path.join(args.datadir, out_fname + '.label'), 'w')\n        for sample in samples:\n            f1.write(sample[0] + '\\n')\n            f2.write(str(sample[1]) + '\\n')\n        f1.close()\n        f2.close()\n\nif __name__ == '__main__':\n    parser = argparse.ArgumentParser()\n    parser.add_argument('--datadir', default='aclImdb')\n    args = parser.parse_args()\n    main(args)\n```\n\n\n### 3) BPE encode\n\nRun `multiprocessing_bpe_encoder`, you can also do this in previous step for each sample but that might be slower.\n```bash\n# Download encoder.json and vocab.bpe\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/encoder.json'\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/vocab.bpe'\n\nfor SPLIT in train dev; do\n    python -m examples.roberta.multiprocessing_bpe_encoder \\\n        --encoder-json encoder.json \\\n        --vocab-bpe vocab.bpe \\\n        --inputs \"aclImdb/$SPLIT.input0\" \\\n        --outputs \"aclImdb/$SPLIT.input0.bpe\" \\\n        --workers 60 \\\n        --keep-empty\ndone\n```\n\n\n### 4) Preprocess data\n\n```bash\n# Download fairseq dictionary.\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/dict.txt'  \n\nfairseq-preprocess \\\n    --only-source \\\n    --trainpref \"aclImdb/train.input0.bpe\" \\\n    --validpref \"aclImdb/dev.input0.bpe\" \\\n    --destdir \"IMDB-bin/input0\" \\\n    --workers 60 \\\n    --srcdict dict.txt\n\nfairseq-preprocess \\\n    --only-source \\\n    --trainpref \"aclImdb/train.label\" \\\n    --validpref \"aclImdb/dev.label\" \\\n    --destdir \"IMDB-bin/label\" \\\n    --workers 60\n\n```\n\n\n### 5) Run training\n\n```bash\nTOTAL_NUM_UPDATES=7812  # 10 epochs through IMDB for bsz 32\nWARMUP_UPDATES=469      # 6 percent of the number of updates\nLR=1e-05                # Peak LR for polynomial LR scheduler.\nHEAD_NAME=imdb_head     # Custom name for the classification head.\nNUM_CLASSES=2           # Number of classes for the classification task.\nMAX_SENTENCES=8         # Batch size.\nROBERTA_PATH=/path/to/roberta.large/model.pt\n\nCUDA_VISIBLE_DEVICES=0 fairseq-train IMDB-bin/ \\\n    --restore-file $ROBERTA_PATH \\\n    --max-positions 512 \\\n    --batch-size $MAX_SENTENCES \\\n    --max-tokens 4400 \\\n    --task sentence_prediction \\\n    --reset-optimizer --reset-dataloader --reset-meters \\\n    --required-batch-size-multiple 1 \\\n    --init-token 0 --separator-token 2 \\\n    --arch roberta_large \\\n    --criterion sentence_prediction \\\n    --classification-head-name $HEAD_NAME \\\n    --num-classes $NUM_CLASSES \\\n    --dropout 0.1 --attention-dropout 0.1 \\\n    --weight-decay 0.1 --optimizer adam --adam-betas \"(0.9, 0.98)\" --adam-eps 1e-06 \\\n    --clip-norm 0.0 \\\n    --lr-scheduler polynomial_decay --lr $LR --total-num-update $TOTAL_NUM_UPDATES --warmup-updates $WARMUP_UPDATES \\\n    --fp16 --fp16-init-scale 4 --threshold-loss-scale 1 --fp16-scale-window 128 \\\n    --max-epoch 10 \\\n    --best-checkpoint-metric accuracy --maximize-best-checkpoint-metric \\\n    --shorten-method \"truncate\" \\\n    --find-unused-parameters \\\n    --update-freq 4\n```\n\nThe above command will finetune RoBERTa-large with an effective batch-size of 32\nsentences (`--batch-size=8 --update-freq=4`). The expected\n`best-validation-accuracy` after 10 epochs is ~96.5%.\n\nIf you run out of GPU memory, try decreasing `--batch-size` and increase\n`--update-freq` to compensate.\n\n\n### 6) Load model using hub interface\n\nNow we can load the trained model checkpoint using the RoBERTa hub interface.\n\nAssuming your checkpoints are stored in `checkpoints/`:\n```python\nfrom fairseq.models.roberta import RobertaModel\nroberta = RobertaModel.from_pretrained(\n    'checkpoints',\n    checkpoint_file='checkpoint_best.pt',\n    data_name_or_path='IMDB-bin'\n)\nroberta.eval()  # disable dropout\n```\n\nFinally you can make predictions using the `imdb_head` (or whatever you set\n`--classification-head-name` to during training):\n```python\nlabel_fn = lambda label: roberta.task.label_dictionary.string(\n    [label + roberta.task.label_dictionary.nspecial]\n)\n\ntokens = roberta.encode('Best movie this year')\npred = label_fn(roberta.predict('imdb_head', tokens).argmax().item())\nassert pred == '1'  # positive\n\ntokens = roberta.encode('Worst movie ever')\npred = label_fn(roberta.predict('imdb_head', tokens).argmax().item())\nassert pred == '0'  # negative\n```\n"
  },
  {
    "path": "examples/roberta/README.glue.md",
    "content": "# Finetuning RoBERTa on GLUE tasks\n\n### 1) Download the data from GLUE website (https://gluebenchmark.com/tasks) using following commands:\n```bash\nwget https://gist.githubusercontent.com/W4ngatang/60c2bdb54d156a41194446737ce03e2e/raw/17b8dd0d724281ed7c3b2aeeda662b92809aadd5/download_glue_data.py\npython download_glue_data.py --data_dir glue_data --tasks all\n```\n\n### 2) Preprocess GLUE task data:\n```bash\n./examples/roberta/preprocess_GLUE_tasks.sh glue_data <glue_task_name>\n```\n`glue_task_name` is one of the following:\n`{ALL, QQP, MNLI, QNLI, MRPC, RTE, STS-B, SST-2, CoLA}`\nUse `ALL` for preprocessing all the glue tasks.\n\n### 3) Fine-tuning on GLUE task:\nExample fine-tuning cmd for `RTE` task\n```bash\nROBERTA_PATH=/path/to/roberta/model.pt\n\nCUDA_VISIBLE_DEVICES=0 fairseq-hydra-train -config-dir examples/roberta/config/finetuning --config-name rte \\\ntask.data=RTE-bin checkpoint.restore_file=$ROBERTA_PATH\n```\n\nThere are additional config files for each of the GLUE tasks in the examples/roberta/config/finetuning directory.\n\n**Note:**\n\na) Above cmd-args and hyperparams are tested on one Nvidia `V100` GPU with `32gb` of memory for each task. Depending on the GPU memory resources available to you, you can use increase `--update-freq` and reduce `--batch-size`.\n\nb) All the settings in above table are suggested settings based on our hyperparam search within a fixed search space (for careful comparison across models). You might be able to find better metrics with wider hyperparam search.\n\n### Inference on GLUE task\nAfter training the model as mentioned in previous step, you can perform inference with checkpoints in `checkpoints/` directory using following python code snippet:\n\n```python\nfrom fairseq.models.roberta import RobertaModel\n\nroberta = RobertaModel.from_pretrained(\n    'checkpoints/',\n    checkpoint_file='checkpoint_best.pt',\n    data_name_or_path='RTE-bin'\n)\n\nlabel_fn = lambda label: roberta.task.label_dictionary.string(\n    [label + roberta.task.label_dictionary.nspecial]\n)\nncorrect, nsamples = 0, 0\nroberta.cuda()\nroberta.eval()\nwith open('glue_data/RTE/dev.tsv') as fin:\n    fin.readline()\n    for index, line in enumerate(fin):\n        tokens = line.strip().split('\\t')\n        sent1, sent2, target = tokens[1], tokens[2], tokens[3]\n        tokens = roberta.encode(sent1, sent2)\n        prediction = roberta.predict('sentence_classification_head', tokens).argmax().item()\n        prediction_label = label_fn(prediction)\n        ncorrect += int(prediction_label == target)\n        nsamples += 1\nprint('| Accuracy: ', float(ncorrect)/float(nsamples))\n\n```\n"
  },
  {
    "path": "examples/roberta/README.md",
    "content": "# RoBERTa: A Robustly Optimized BERT Pretraining Approach\n\nhttps://arxiv.org/abs/1907.11692\n\n## Introduction\n\nRoBERTa iterates on BERT's pretraining procedure, including training the model longer, with bigger batches over more data; removing the next sentence prediction objective; training on longer sequences; and dynamically changing the masking pattern applied to the training data. See the associated paper for more details.\n\n### What's New:\n\n- December 2020: German model (GottBERT) is available: [GottBERT](https://github.com/pytorch/fairseq/tree/main/examples/gottbert).\n- January 2020: Italian model (UmBERTo) is available from Musixmatch Research: [UmBERTo](https://github.com/musixmatchresearch/umberto).\n- November 2019: French model (CamemBERT) is available: [CamemBERT](https://github.com/pytorch/fairseq/tree/main/examples/camembert).\n- November 2019: Multilingual encoder (XLM-RoBERTa) is available: [XLM-R](https://github.com/pytorch/fairseq/tree/main/examples/xlmr).\n- September 2019: TensorFlow and TPU support via the [transformers library](https://github.com/huggingface/transformers).\n- August 2019: RoBERTa is now supported in the [pytorch-transformers library](https://github.com/huggingface/pytorch-transformers).\n- August 2019: Added [tutorial for finetuning on WinoGrande](https://github.com/pytorch/fairseq/tree/main/examples/roberta/wsc#roberta-training-on-winogrande-dataset).\n- August 2019: Added [tutorial for pretraining RoBERTa using your own data](README.pretraining.md).\n\n## Pre-trained models\n\nModel | Description | # params | Download\n---|---|---|---\n`roberta.base` | RoBERTa using the BERT-base architecture | 125M | [roberta.base.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/roberta.base.tar.gz)\n`roberta.large` | RoBERTa using the BERT-large architecture | 355M | [roberta.large.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/roberta.large.tar.gz)\n`roberta.large.mnli` | `roberta.large` finetuned on [MNLI](http://www.nyu.edu/projects/bowman/multinli) | 355M | [roberta.large.mnli.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/roberta.large.mnli.tar.gz)\n`roberta.large.wsc` | `roberta.large` finetuned on [WSC](wsc/README.md) | 355M | [roberta.large.wsc.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/roberta.large.wsc.tar.gz)\n\n## Results\n\n**[GLUE (Wang et al., 2019)](https://gluebenchmark.com/)**\n_(dev set, single model, single-task finetuning)_\n\nModel | MNLI | QNLI | QQP | RTE | SST-2 | MRPC | CoLA | STS-B\n---|---|---|---|---|---|---|---|---\n`roberta.base` | 87.6 | 92.8 | 91.9 | 78.7 | 94.8 | 90.2 | 63.6 | 91.2\n`roberta.large` | 90.2 | 94.7 | 92.2 | 86.6 | 96.4 | 90.9 | 68.0 | 92.4\n`roberta.large.mnli` | 90.2 | - | - | - | - | - | - | -\n\n**[SuperGLUE (Wang et al., 2019)](https://super.gluebenchmark.com/)**\n_(dev set, single model, single-task finetuning)_\n\nModel | BoolQ | CB | COPA | MultiRC | RTE | WiC | WSC\n---|---|---|---|---|---|---|---\n`roberta.large` | 86.9 | 98.2 | 94.0 | 85.7 | 89.5 | 75.6 | -\n`roberta.large.wsc` | - | - | - | - | - | - | 91.3\n\n**[SQuAD (Rajpurkar et al., 2018)](https://rajpurkar.github.io/SQuAD-explorer/)**\n_(dev set, no additional data used)_\n\nModel | SQuAD 1.1 EM/F1 | SQuAD 2.0 EM/F1\n---|---|---\n`roberta.large` | 88.9/94.6 | 86.5/89.4\n\n**[RACE (Lai et al., 2017)](http://www.qizhexie.com/data/RACE_leaderboard.html)**\n_(test set)_\n\nModel | Accuracy | Middle | High\n---|---|---|---\n`roberta.large` | 83.2 | 86.5 | 81.3\n\n**[HellaSwag (Zellers et al., 2019)](https://rowanzellers.com/hellaswag/)**\n_(test set)_\n\nModel | Overall | In-domain | Zero-shot | ActivityNet | WikiHow\n---|---|---|---|---|---\n`roberta.large` | 85.2 | 87.3 | 83.1 | 74.6 | 90.9\n\n**[Commonsense QA (Talmor et al., 2019)](https://www.tau-nlp.org/commonsenseqa)**\n_(test set)_\n\nModel | Accuracy\n---|---\n`roberta.large` (single model) | 72.1\n`roberta.large` (ensemble) | 72.5\n\n**[Winogrande (Sakaguchi et al., 2019)](https://arxiv.org/abs/1907.10641)**\n_(test set)_\n\nModel | Accuracy\n---|---\n`roberta.large` | 78.1\n\n**[XNLI (Conneau et al., 2018)](https://arxiv.org/abs/1809.05053)**\n_(TRANSLATE-TEST)_\n\nModel | en | fr | es | de | el | bg | ru | tr | ar | vi | th | zh | hi | sw | ur\n---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---\n`roberta.large.mnli` | 91.3 | 82.91 | 84.27 | 81.24 | 81.74 | 83.13 | 78.28 | 76.79 | 76.64 | 74.17 | 74.05 | 77.5 | 70.9 | 66.65 | 66.81\n\n## Example usage\n\n##### Load RoBERTa from torch.hub (PyTorch >= 1.1):\n```python\nimport torch\nroberta = torch.hub.load('pytorch/fairseq', 'roberta.large')\nroberta.eval()  # disable dropout (or leave in train mode to finetune)\n```\n\n##### Load RoBERTa (for PyTorch 1.0 or custom models):\n```python\n# Download roberta.large model\nwget https://dl.fbaipublicfiles.com/fairseq/models/roberta.large.tar.gz\ntar -xzvf roberta.large.tar.gz\n\n# Load the model in fairseq\nfrom fairseq.models.roberta import RobertaModel\nroberta = RobertaModel.from_pretrained('/path/to/roberta.large', checkpoint_file='model.pt')\nroberta.eval()  # disable dropout (or leave in train mode to finetune)\n```\n\n##### Apply Byte-Pair Encoding (BPE) to input text:\n```python\ntokens = roberta.encode('Hello world!')\nassert tokens.tolist() == [0, 31414, 232, 328, 2]\nroberta.decode(tokens)  # 'Hello world!'\n```\n\n##### Extract features from RoBERTa:\n```python\n# Extract the last layer's features\nlast_layer_features = roberta.extract_features(tokens)\nassert last_layer_features.size() == torch.Size([1, 5, 1024])\n\n# Extract all layer's features (layer 0 is the embedding layer)\nall_layers = roberta.extract_features(tokens, return_all_hiddens=True)\nassert len(all_layers) == 25\nassert torch.all(all_layers[-1] == last_layer_features)\n```\n\n##### Use RoBERTa for sentence-pair classification tasks:\n```python\n# Download RoBERTa already finetuned for MNLI\nroberta = torch.hub.load('pytorch/fairseq', 'roberta.large.mnli')\nroberta.eval()  # disable dropout for evaluation\n\n# Encode a pair of sentences and make a prediction\ntokens = roberta.encode('Roberta is a heavily optimized version of BERT.', 'Roberta is not very optimized.')\nroberta.predict('mnli', tokens).argmax()  # 0: contradiction\n\n# Encode another pair of sentences\ntokens = roberta.encode('Roberta is a heavily optimized version of BERT.', 'Roberta is based on BERT.')\nroberta.predict('mnli', tokens).argmax()  # 2: entailment\n```\n\n##### Register a new (randomly initialized) classification head:\n```python\nroberta.register_classification_head('new_task', num_classes=3)\nlogprobs = roberta.predict('new_task', tokens)  # tensor([[-1.1050, -1.0672, -1.1245]], grad_fn=<LogSoftmaxBackward>)\n```\n\n##### Batched prediction:\n```python\nimport torch\nfrom fairseq.data.data_utils import collate_tokens\n\nroberta = torch.hub.load('pytorch/fairseq', 'roberta.large.mnli')\nroberta.eval()\n\nbatch_of_pairs = [\n    ['Roberta is a heavily optimized version of BERT.', 'Roberta is not very optimized.'],\n    ['Roberta is a heavily optimized version of BERT.', 'Roberta is based on BERT.'],\n    ['potatoes are awesome.', 'I like to run.'],\n    ['Mars is very far from earth.', 'Mars is very close.'],\n]\n\nbatch = collate_tokens(\n    [roberta.encode(pair[0], pair[1]) for pair in batch_of_pairs], pad_idx=1\n)\n\nlogprobs = roberta.predict('mnli', batch)\nprint(logprobs.argmax(dim=1))\n# tensor([0, 2, 1, 0])\n```\n\n##### Using the GPU:\n```python\nroberta.cuda()\nroberta.predict('new_task', tokens)  # tensor([[-1.1050, -1.0672, -1.1245]], device='cuda:0', grad_fn=<LogSoftmaxBackward>)\n```\n\n## Advanced usage\n\n#### Filling masks:\n\nRoBERTa can be used to fill `<mask>` tokens in the input. Some examples from the\n[Natural Questions dataset](https://ai.google.com/research/NaturalQuestions/):\n```python\nroberta.fill_mask('The first Star wars movie came out in <mask>', topk=3)\n# [('The first Star wars movie came out in 1977', 0.9504708051681519, ' 1977'), ('The first Star wars movie came out in 1978', 0.009986862540245056, ' 1978'), ('The first Star wars movie came out in 1979', 0.009574787691235542, ' 1979')]\n\nroberta.fill_mask('Vikram samvat calender is official in <mask>', topk=3)\n# [('Vikram samvat calender is official in India', 0.21878819167613983, ' India'), ('Vikram samvat calender is official in Delhi', 0.08547237515449524, ' Delhi'), ('Vikram samvat calender is official in Gujarat', 0.07556215673685074, ' Gujarat')]\n\nroberta.fill_mask('<mask> is the common currency of the European Union', topk=3)\n# [('Euro is the common currency of the European Union', 0.9456493854522705, 'Euro'), ('euro is the common currency of the European Union', 0.025748178362846375, 'euro'), ('€ is the common currency of the European Union', 0.011183084920048714, '€')]\n```\n\n#### Pronoun disambiguation (Winograd Schema Challenge):\n\nRoBERTa can be used to disambiguate pronouns. First install spaCy and download the English-language model:\n```bash\npip install spacy\npython -m spacy download en_core_web_lg\n```\n\nNext load the `roberta.large.wsc` model and call the `disambiguate_pronoun`\nfunction. The pronoun should be surrounded by square brackets (`[]`) and the\nquery referent surrounded by underscores (`_`), or left blank to return the\npredicted candidate text directly:\n```python\nroberta = torch.hub.load('pytorch/fairseq', 'roberta.large.wsc', user_dir='examples/roberta/wsc')\nroberta.cuda()  # use the GPU (optional)\n\nroberta.disambiguate_pronoun('The _trophy_ would not fit in the brown suitcase because [it] was too big.')\n# True\nroberta.disambiguate_pronoun('The trophy would not fit in the brown _suitcase_ because [it] was too big.')\n# False\n\nroberta.disambiguate_pronoun('The city councilmen refused the demonstrators a permit because [they] feared violence.')\n# 'The city councilmen'\nroberta.disambiguate_pronoun('The city councilmen refused the demonstrators a permit because [they] advocated violence.')\n# 'demonstrators'\n```\n\nSee the [RoBERTA Winograd Schema Challenge (WSC) README](wsc/README.md) for more details on how to train this model.\n\n#### Extract features aligned to words:\n\nBy default RoBERTa outputs one feature vector per BPE token. You can instead\nrealign the features to match [spaCy's word-level tokenization](https://spacy.io/usage/linguistic-features#tokenization)\nwith the `extract_features_aligned_to_words` method. This will compute a\nweighted average of the BPE-level features for each word and expose them in\nspaCy's `Token.vector` attribute:\n```python\ndoc = roberta.extract_features_aligned_to_words('I said, \"hello RoBERTa.\"')\nassert len(doc) == 10\nfor tok in doc:\n    print('{:10}{} (...)'.format(str(tok), tok.vector[:5]))\n# <s>       tensor([-0.1316, -0.0386, -0.0832, -0.0477,  0.1943], grad_fn=<SliceBackward>) (...)\n# I         tensor([ 0.0559,  0.1541, -0.4832,  0.0880,  0.0120], grad_fn=<SliceBackward>) (...)\n# said      tensor([-0.1565, -0.0069, -0.8915,  0.0501, -0.0647], grad_fn=<SliceBackward>) (...)\n# ,         tensor([-0.1318, -0.0387, -0.0834, -0.0477,  0.1944], grad_fn=<SliceBackward>) (...)\n# \"         tensor([-0.0486,  0.1818, -0.3946, -0.0553,  0.0981], grad_fn=<SliceBackward>) (...)\n# hello     tensor([ 0.0079,  0.1799, -0.6204, -0.0777, -0.0923], grad_fn=<SliceBackward>) (...)\n# RoBERTa   tensor([-0.2339, -0.1184, -0.7343, -0.0492,  0.5829], grad_fn=<SliceBackward>) (...)\n# .         tensor([-0.1341, -0.1203, -0.1012, -0.0621,  0.1892], grad_fn=<SliceBackward>) (...)\n# \"         tensor([-0.1341, -0.1203, -0.1012, -0.0621,  0.1892], grad_fn=<SliceBackward>) (...)\n# </s>      tensor([-0.0930, -0.0392, -0.0821,  0.0158,  0.0649], grad_fn=<SliceBackward>) (...)\n```\n\n#### Evaluating the `roberta.large.mnli` model:\n\nExample python code snippet to evaluate accuracy on the MNLI `dev_matched` set.\n```python\nlabel_map = {0: 'contradiction', 1: 'neutral', 2: 'entailment'}\nncorrect, nsamples = 0, 0\nroberta.cuda()\nroberta.eval()\nwith open('glue_data/MNLI/dev_matched.tsv') as fin:\n    fin.readline()\n    for index, line in enumerate(fin):\n        tokens = line.strip().split('\\t')\n        sent1, sent2, target = tokens[8], tokens[9], tokens[-1]\n        tokens = roberta.encode(sent1, sent2)\n        prediction = roberta.predict('mnli', tokens).argmax().item()\n        prediction_label = label_map[prediction]\n        ncorrect += int(prediction_label == target)\n        nsamples += 1\nprint('| Accuracy: ', float(ncorrect)/float(nsamples))\n# Expected output: 0.9060\n```\n\n## Finetuning\n\n- [Finetuning on GLUE](README.glue.md)\n- [Finetuning on custom classification tasks (e.g., IMDB)](README.custom_classification.md)\n- [Finetuning on Winograd Schema Challenge (WSC)](wsc/README.md)\n- [Finetuning on Commonsense QA (CQA)](commonsense_qa/README.md)\n\n## Pretraining using your own data\n\nSee the [tutorial for pretraining RoBERTa using your own data](README.pretraining.md).\n\n## Citation\n\n```bibtex\n@article{liu2019roberta,\n    title = {RoBERTa: A Robustly Optimized BERT Pretraining Approach},\n    author = {Yinhan Liu and Myle Ott and Naman Goyal and Jingfei Du and\n              Mandar Joshi and Danqi Chen and Omer Levy and Mike Lewis and\n              Luke Zettlemoyer and Veselin Stoyanov},\n    journal={arXiv preprint arXiv:1907.11692},\n    year = {2019},\n}\n```\n"
  },
  {
    "path": "examples/roberta/README.pretraining.md",
    "content": "# Pretraining RoBERTa using your own data\n\nThis tutorial will walk you through pretraining RoBERTa over your own data.\n\n### 1) Preprocess the data\n\nData should be preprocessed following the [language modeling format](/examples/language_model), i.e. each document should be separated by an empty line (only useful with `--sample-break-mode complete_doc`). Lines will be concatenated as a 1D text stream during training.\n\nWe'll use the [WikiText-103 dataset](https://www.salesforce.com/products/einstein/ai-research/the-wikitext-dependency-language-modeling-dataset/)\nto demonstrate how to preprocess raw text data with the GPT-2 BPE. Of course\nthis dataset is quite small, so the resulting pretrained model will perform\npoorly, but it gives the general idea.\n\nFirst download the dataset:\n```bash\nwget https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-103-raw-v1.zip\nunzip wikitext-103-raw-v1.zip\n```\n\nNext encode it with the GPT-2 BPE:\n```bash\nmkdir -p gpt2_bpe\nwget -O gpt2_bpe/encoder.json https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/encoder.json\nwget -O gpt2_bpe/vocab.bpe https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/vocab.bpe\nfor SPLIT in train valid test; do \\\n    python -m examples.roberta.multiprocessing_bpe_encoder \\\n        --encoder-json gpt2_bpe/encoder.json \\\n        --vocab-bpe gpt2_bpe/vocab.bpe \\\n        --inputs wikitext-103-raw/wiki.${SPLIT}.raw \\\n        --outputs wikitext-103-raw/wiki.${SPLIT}.bpe \\\n        --keep-empty \\\n        --workers 60; \\\ndone\n```\n\nFinally preprocess/binarize the data using the GPT-2 fairseq dictionary:\n```bash\nwget -O gpt2_bpe/dict.txt https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/dict.txt\nfairseq-preprocess \\\n    --only-source \\\n    --srcdict gpt2_bpe/dict.txt \\\n    --trainpref wikitext-103-raw/wiki.train.bpe \\\n    --validpref wikitext-103-raw/wiki.valid.bpe \\\n    --testpref wikitext-103-raw/wiki.test.bpe \\\n    --destdir data-bin/wikitext-103 \\\n    --workers 60\n```\n\n### 2) Train RoBERTa base\n```bash\nDATA_DIR=data-bin/wikitext-103\n\nfairseq-hydra-train -m --config-dir examples/roberta/config/pretraining \\\n--config-name base task.data=$DATA_DIR\n```\n\n**Note:** You can optionally resume training the released RoBERTa base model by\nadding `checkpoint.restore_file=/path/to/roberta.base/model.pt`.\n\n**Note:** The above command assumes training on 8x32GB V100 GPUs. Each GPU uses\na batch size of 16 sequences (`dataset.batch_size`) and accumulates gradients to\nfurther increase the batch size by 16x (`optimization.update_freq`), for a total batch size\nof 2048 sequences. If you have fewer GPUs or GPUs with less memory you may need\nto reduce `dataset.batch_size` and increase dataset.update_freq to compensate.\nAlternatively if you have more GPUs you can decrease `dataset.update_freq` accordingly\nto increase training speed.\n\n**Note:** The learning rate and batch size are tightly connected and need to be\nadjusted together. We generally recommend increasing the learning rate as you\nincrease the batch size according to the following table (although it's also\ndataset dependent, so don't rely on the following values too closely):\n\nbatch size | peak learning rate\n---|---\n256 | 0.0001\n2048 | 0.0005\n8192 | 0.0007\n\n### 3) Load your pretrained model\n```python\nfrom fairseq.models.roberta import RobertaModel\nroberta = RobertaModel.from_pretrained('checkpoints', 'checkpoint_best.pt', 'path/to/data')\nassert isinstance(roberta.model, torch.nn.Module)\n```\n"
  },
  {
    "path": "examples/roberta/README.race.md",
    "content": "# Finetuning RoBERTa on RACE tasks\n\n### 1) Download the data from RACE website (http://www.cs.cmu.edu/~glai1/data/race/)\n\n### 2) Preprocess RACE data:\n```bash\npython ./examples/roberta/preprocess_RACE.py --input-dir <input-dir> --output-dir <extracted-data-dir>\n./examples/roberta/preprocess_RACE.sh <extracted-data-dir> <output-dir>\n```\n\n### 3) Fine-tuning on RACE:\n\n```bash\nMAX_EPOCH=5           # Number of training epochs.\nLR=1e-05              # Peak LR for fixed LR scheduler.\nNUM_CLASSES=4\nMAX_SENTENCES=1       # Batch size per GPU.\nUPDATE_FREQ=8         # Accumulate gradients to simulate training on 8 GPUs.\nDATA_DIR=/path/to/race-output-dir\nROBERTA_PATH=/path/to/roberta/model.pt\n\nCUDA_VISIBLE_DEVICES=0,1 fairseq-train $DATA_DIR --ddp-backend=legacy_ddp \\\n    --restore-file $ROBERTA_PATH \\\n    --reset-optimizer --reset-dataloader --reset-meters \\\n    --best-checkpoint-metric accuracy --maximize-best-checkpoint-metric \\\n    --task sentence_ranking \\\n    --num-classes $NUM_CLASSES \\\n    --init-token 0 --separator-token 2 \\\n    --max-option-length 128 \\\n    --max-positions 512 \\\n    --shorten-method \"truncate\" \\\n    --arch roberta_large \\\n    --dropout 0.1 --attention-dropout 0.1 --weight-decay 0.01 \\\n    --criterion sentence_ranking \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' --adam-eps 1e-06 \\\n    --clip-norm 0.0 \\\n    --lr-scheduler fixed --lr $LR \\\n    --fp16 --fp16-init-scale 4 --threshold-loss-scale 1 --fp16-scale-window 128 \\\n    --batch-size $MAX_SENTENCES \\\n    --required-batch-size-multiple 1 \\\n    --update-freq $UPDATE_FREQ \\\n    --max-epoch $MAX_EPOCH\n```\n\n**Note:**\n\na) As contexts in RACE are relatively long, we are using smaller batch size per GPU while increasing update-freq to achieve larger effective batch size.\n\nb) Above cmd-args and hyperparams are tested on one Nvidia `V100` GPU with `32gb` of memory for each task. Depending on the GPU memory resources available to you, you can use increase `--update-freq` and reduce `--batch-size`.\n\nc) The setting in above command is based on our hyperparam search within a fixed search space (for careful comparison across models). You might be able to find better metrics with wider hyperparam search.  \n\n### 4) Evaluation:\n\n```\nDATA_DIR=/path/to/race-output-dir       # data directory used during training\nMODEL_PATH=/path/to/checkpoint_best.pt  # path to the finetuned model checkpoint\nPREDS_OUT=preds.tsv                     # output file path to save prediction\nTEST_SPLIT=test                         # can be test (Middle) or test1 (High)\nfairseq-validate \\\n    $DATA_DIR \\\n    --valid-subset $TEST_SPLIT \\\n    --path $MODEL_PATH \\\n    --batch-size 1 \\\n    --task sentence_ranking \\\n    --criterion sentence_ranking \\\n    --save-predictions $PREDS_OUT\n```\n"
  },
  {
    "path": "examples/roberta/commonsense_qa/README.md",
    "content": "# Finetuning RoBERTa on Commonsense QA\n\nWe follow a similar approach to [finetuning RACE](../README.race.md). Specifically\nfor each question we construct five inputs, one for each of the five candidate\nanswer choices. Each input is constructed by concatenating the question and\ncandidate answer. We then encode each input and pass the resulting \"[CLS]\"\nrepresentations through a fully-connected layer to predict the correct answer.\nWe train with a standard cross-entropy loss.\n\nWe also found it helpful to prepend a prefix of `Q:` to the question and `A:` to\nthe answer. The complete input format is:\n```\n<s> Q: Where would I not want a fox? </s> A: hen house </s>\n```\n\nOur final submission is based on a hyperparameter search over the learning rate\n(1e-5, 2e-5, 3e-5), batch size (8, 16), number of training steps (2000, 3000,\n4000) and random seed. We selected the model with the best performance on the\ndevelopment set after 100 trials.\n\n### 1) Download data from the Commonsense QA website (https://www.tau-nlp.org/commonsenseqa)\n```bash\nbash examples/roberta/commonsense_qa/download_cqa_data.sh\n```\n\n### 2) Finetune\n\n```bash\nMAX_UPDATES=3000      # Number of training steps.\nWARMUP_UPDATES=150    # Linearly increase LR over this many steps.\nLR=1e-05              # Peak LR for polynomial LR scheduler.\nMAX_SENTENCES=16      # Batch size.\nSEED=1                # Random seed.\nROBERTA_PATH=/path/to/roberta/model.pt\nDATA_DIR=data/CommonsenseQA\n\n# we use the --user-dir option to load the task from\n# the examples/roberta/commonsense_qa directory:\nFAIRSEQ_PATH=/path/to/fairseq\nFAIRSEQ_USER_DIR=${FAIRSEQ_PATH}/examples/roberta/commonsense_qa\n\nCUDA_VISIBLE_DEVICES=0 fairseq-train --fp16 --ddp-backend=legacy_ddp \\\n    $DATA_DIR \\\n    --user-dir $FAIRSEQ_USER_DIR \\\n    --restore-file $ROBERTA_PATH \\\n    --reset-optimizer --reset-dataloader --reset-meters \\\n    --no-epoch-checkpoints --no-last-checkpoints --no-save-optimizer-state \\\n    --best-checkpoint-metric accuracy --maximize-best-checkpoint-metric \\\n    --task commonsense_qa --init-token 0 --bpe gpt2 \\\n    --arch roberta_large --max-positions 512 \\\n    --dropout 0.1 --attention-dropout 0.1 --weight-decay 0.01 \\\n    --criterion sentence_ranking --num-classes 5 \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' --adam-eps 1e-06 --clip-norm 0.0 \\\n    --lr-scheduler polynomial_decay --lr $LR \\\n    --warmup-updates $WARMUP_UPDATES --total-num-update $MAX_UPDATES \\\n    --batch-size $MAX_SENTENCES \\\n    --max-update $MAX_UPDATES \\\n    --log-format simple --log-interval 25 \\\n    --seed $SEED\n```\n\nThe above command assumes training on 1 GPU with 32GB of RAM. For GPUs with\nless memory, decrease `--batch-size` and increase `--update-freq`\naccordingly to compensate.\n\n### 3) Evaluate\n```python\nimport json\nimport torch\nfrom fairseq.models.roberta import RobertaModel\nfrom examples.roberta import commonsense_qa  # load the Commonsense QA task\nroberta = RobertaModel.from_pretrained('checkpoints', 'checkpoint_best.pt', 'data/CommonsenseQA')\nroberta.eval()  # disable dropout\nroberta.cuda()  # use the GPU (optional)\nnsamples, ncorrect = 0, 0\nwith open('data/CommonsenseQA/valid.jsonl') as h:\n    for line in h:\n        example = json.loads(line)\n        scores = []\n        for choice in example['question']['choices']:\n            input = roberta.encode(\n                'Q: ' + example['question']['stem'],\n                'A: ' + choice['text'],\n                no_separator=True\n            )\n            score = roberta.predict('sentence_classification_head', input, return_logits=True)\n            scores.append(score)\n        pred = torch.cat(scores).argmax()\n        answer = ord(example['answerKey']) - ord('A')\n        nsamples += 1\n        if pred == answer:\n            ncorrect += 1\n\nprint('Accuracy: ' + str(ncorrect / float(nsamples)))\n# Accuracy: 0.7846027846027847\n```\n\nThe above snippet is not batched, which makes it quite slow. See [instructions\nfor batched prediction with RoBERTa](https://github.com/pytorch/fairseq/tree/main/examples/roberta#batched-prediction).\n"
  },
  {
    "path": "examples/roberta/commonsense_qa/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import commonsense_qa_task  # noqa\n"
  },
  {
    "path": "examples/roberta/commonsense_qa/commonsense_qa_task.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport json\nimport os\n\nimport numpy as np\nimport torch\nfrom fairseq.data import (\n    Dictionary,\n    IdDataset,\n    ListDataset,\n    NestedDictionaryDataset,\n    NumelDataset,\n    NumSamplesDataset,\n    RawLabelDataset,\n    RightPadDataset,\n    SortDataset,\n    data_utils,\n    encoders,\n)\nfrom fairseq.tasks import LegacyFairseqTask, register_task\n\n\n@register_task(\"commonsense_qa\")\nclass CommonsenseQATask(LegacyFairseqTask):\n    \"\"\"Task to finetune RoBERTa for Commonsense QA.\"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        parser.add_argument(\n            \"data\", metavar=\"DIR\", help=\"path to data directory; we load <split>.jsonl\"\n        )\n        parser.add_argument(\n            \"--init-token\",\n            type=int,\n            default=None,\n            help=\"add token at the beginning of each batch item\",\n        )\n        parser.add_argument(\"--num-classes\", type=int, default=5)\n\n    def __init__(self, args, vocab):\n        super().__init__(args)\n        self.vocab = vocab\n        self.mask = vocab.add_symbol(\"<mask>\")\n\n        self.bpe = encoders.build_bpe(args)\n\n    @classmethod\n    def load_dictionary(cls, filename):\n        \"\"\"Load the dictionary from the filename\n\n        Args:\n            filename (str): the filename\n        \"\"\"\n        dictionary = Dictionary.load(filename)\n        dictionary.add_symbol(\"<mask>\")\n        return dictionary\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        assert (\n            args.criterion == \"sentence_ranking\"\n        ), \"Must set --criterion=sentence_ranking\"\n\n        # load data and label dictionaries\n        vocab = cls.load_dictionary(os.path.join(args.data, \"dict.txt\"))\n        print(\"| dictionary: {} types\".format(len(vocab)))\n\n        return cls(args, vocab)\n\n    def load_dataset(\n        self, split, epoch=1, combine=False, data_path=None, return_only=False, **kwargs\n    ):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n\n        def binarize(s, append_bos=False):\n            if self.bpe is not None:\n                s = self.bpe.encode(s)\n            tokens = self.vocab.encode_line(\n                s,\n                append_eos=True,\n                add_if_not_exist=False,\n            ).long()\n            if append_bos and self.args.init_token is not None:\n                tokens = torch.cat([tokens.new([self.args.init_token]), tokens])\n            return tokens\n\n        if data_path is None:\n            data_path = os.path.join(self.args.data, split + \".jsonl\")\n        if not os.path.exists(data_path):\n            raise FileNotFoundError(\"Cannot find data: {}\".format(data_path))\n\n        src_tokens = [[] for i in range(self.args.num_classes)]\n        src_lengths = [[] for i in range(self.args.num_classes)]\n        labels = []\n\n        with open(data_path) as h:\n            for line in h:\n                example = json.loads(line.strip())\n                if \"answerKey\" in example:\n                    label = ord(example[\"answerKey\"]) - ord(\"A\")\n                    labels.append(label)\n                question = example[\"question\"][\"stem\"]\n                assert len(example[\"question\"][\"choices\"]) == self.args.num_classes\n                # format: `<s> Q: Where would I not want a fox? </s> A: hen house </s>`\n                question = \"Q: \" + question\n                question_toks = binarize(question, append_bos=True)\n                for i, choice in enumerate(example[\"question\"][\"choices\"]):\n                    src = \"A: \" + choice[\"text\"]\n                    src_bin = torch.cat([question_toks, binarize(src)])\n                    src_tokens[i].append(src_bin)\n                    src_lengths[i].append(len(src_bin))\n        assert all(\n            len(src_tokens[0]) == len(src_tokens[i])\n            for i in range(self.args.num_classes)\n        )\n        assert len(src_tokens[0]) == len(src_lengths[0])\n        assert len(labels) == 0 or len(labels) == len(src_tokens[0])\n\n        for i in range(self.args.num_classes):\n            src_lengths[i] = np.array(src_lengths[i])\n            src_tokens[i] = ListDataset(src_tokens[i], src_lengths[i])\n            src_lengths[i] = ListDataset(src_lengths[i])\n\n        dataset = {\n            \"id\": IdDataset(),\n            \"nsentences\": NumSamplesDataset(),\n            \"ntokens\": NumelDataset(src_tokens[0], reduce=True),\n        }\n\n        for i in range(self.args.num_classes):\n            dataset.update(\n                {\n                    \"net_input{}\".format(i + 1): {\n                        \"src_tokens\": RightPadDataset(\n                            src_tokens[i],\n                            pad_idx=self.source_dictionary.pad(),\n                        ),\n                        \"src_lengths\": src_lengths[i],\n                    }\n                }\n            )\n\n        if len(labels) > 0:\n            dataset.update({\"target\": RawLabelDataset(labels)})\n\n        dataset = NestedDictionaryDataset(\n            dataset,\n            sizes=[np.maximum.reduce([src_token.sizes for src_token in src_tokens])],\n        )\n\n        with data_utils.numpy_seed(self.args.seed):\n            dataset = SortDataset(\n                dataset,\n                # shuffle\n                sort_order=[np.random.permutation(len(dataset))],\n            )\n\n        print(\"| Loaded {} with {} samples\".format(split, len(dataset)))\n\n        self.datasets[split] = dataset\n        return self.datasets[split]\n\n    def build_model(self, args, from_checkpoint=False):\n        from fairseq import models\n\n        model = models.build_model(args, self)\n\n        model.register_classification_head(\n            \"sentence_classification_head\",\n            num_classes=1,\n        )\n\n        return model\n\n    @property\n    def source_dictionary(self):\n        return self.vocab\n\n    @property\n    def target_dictionary(self):\n        return self.vocab\n"
  },
  {
    "path": "examples/roberta/commonsense_qa/download_cqa_data.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nOUTDIR=data/CommonsenseQA\n\nmkdir -p $OUTDIR\n\nwget -O $OUTDIR/train.jsonl https://s3.amazonaws.com/commensenseqa/train_rand_split.jsonl\nwget -O $OUTDIR/valid.jsonl https://s3.amazonaws.com/commensenseqa/dev_rand_split.jsonl\nwget -O $OUTDIR/test.jsonl https://s3.amazonaws.com/commensenseqa/test_rand_split_no_answers.jsonl\nwget -O $OUTDIR/dict.txt https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/dict.txt\n"
  },
  {
    "path": "examples/roberta/config/finetuning/cola.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 2\n  max_positions: 512\n\ncheckpoint:\n  restore_file: ???\n  reset_optimizer: true\n  reset_dataloader: true\n  reset_meters: true\n  best_checkpoint_metric: accuracy\n  maximize_best_checkpoint_metric: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n\ncriterion:\n  _name: sentence_prediction\n\ndataset:\n  batch_size: 16\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 320\n\noptimization:\n  clip_norm: 0.0\n  lr: [1e-05]\n  max_update: 5336\n  max_epoch: 10\n\nmodel:\n  _name: roberta\n  dropout: 0.1\n  attention_dropout: 0.1\n"
  },
  {
    "path": "examples/roberta/config/finetuning/mnli.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 3\n  max_positions: 512\n\ncheckpoint:\n  restore_file: ???\n  reset_optimizer: true\n  reset_dataloader: true\n  reset_meters: true\n  best_checkpoint_metric: accuracy\n  maximize_best_checkpoint_metric: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n\ncriterion:\n  _name: sentence_prediction\n\ndataset:\n  batch_size: 32\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 7432\n\noptimization:\n  clip_norm: 0.0\n  lr: [1e-05]\n  max_update: 123873\n  max_epoch: 10\n\nmodel:\n  _name: roberta\n  dropout: 0.1\n  attention_dropout: 0.1\n"
  },
  {
    "path": "examples/roberta/config/finetuning/mrpc.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 2\n  max_positions: 512\n\ncheckpoint:\n  restore_file: ???\n  reset_optimizer: true\n  reset_dataloader: true\n  reset_meters: true\n  best_checkpoint_metric: accuracy\n  maximize_best_checkpoint_metric: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n\ncriterion:\n  _name: sentence_prediction\n\ndataset:\n  batch_size: 16\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 137\n\noptimization:\n  clip_norm: 0.0\n  lr: [1e-05]\n  max_update: 2296\n  max_epoch: 10\n\nmodel:\n  _name: roberta\n  dropout: 0.1\n  attention_dropout: 0.1\n"
  },
  {
    "path": "examples/roberta/config/finetuning/qnli.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 2\n  max_positions: 512\n\ncheckpoint:\n  restore_file: ???\n  reset_optimizer: true\n  reset_dataloader: true\n  reset_meters: true\n  best_checkpoint_metric: accuracy\n  maximize_best_checkpoint_metric: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n\ncriterion:\n  _name: sentence_prediction\n\ndataset:\n  batch_size: 32\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 1986\n\noptimization:\n  clip_norm: 0.0\n  lr: [1e-05]\n  max_update: 33112\n  max_epoch: 10\n\nmodel:\n  _name: roberta\n  dropout: 0.1\n  attention_dropout: 0.1\n"
  },
  {
    "path": "examples/roberta/config/finetuning/qqp.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 2\n  max_positions: 512\n\ncheckpoint:\n  restore_file: ???\n  reset_optimizer: true\n  reset_dataloader: true\n  reset_meters: true\n  best_checkpoint_metric: accuracy\n  maximize_best_checkpoint_metric: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n\ncriterion:\n  _name: sentence_prediction\n\ndataset:\n  batch_size: 32\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 28318\n\noptimization:\n  clip_norm: 0.0\n  lr: [1e-05]\n  max_update: 113272\n  max_epoch: 10\n\nmodel:\n  _name: roberta\n  dropout: 0.1\n  attention_dropout: 0.1\n"
  },
  {
    "path": "examples/roberta/config/finetuning/rte.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 2\n  max_positions: 512\n\ncheckpoint:\n  restore_file: ???\n  reset_optimizer: true\n  reset_dataloader: true\n  reset_meters: true\n  best_checkpoint_metric: accuracy\n  maximize_best_checkpoint_metric: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n\ncriterion:\n  _name: sentence_prediction\n\ndataset:\n  batch_size: 16\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 122\n\noptimization:\n  clip_norm: 0.0\n  lr: [2e-05]\n  max_update: 2036\n  max_epoch: 10\n\nmodel:\n  _name: roberta\n  dropout: 0.1\n  attention_dropout: 0.1\n"
  },
  {
    "path": "examples/roberta/config/finetuning/run_config/local.yaml",
    "content": "# @package _global_\nhydra:\n  sweep:\n    dir: ${env:PWD}/tmp_dbg/${now:%H-%M-%S}\n\ndistributed_training:\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n  \ncommon:\n  log_interval: 1\n  \ndataset:\n  num_workers: 0\n"
  },
  {
    "path": "examples/roberta/config/finetuning/run_config/slurm_1g.yaml",
    "content": "\n# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '_'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/roberta_ft/${env:PREFIX}/${hydra.job.config_name}/${env:SUFFIX}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}/submitit\n    timeout_min: 1000\n    cpus_per_task: 8\n    gpus_per_node: 1\n    tasks_per_node: 1\n    mem_gb: 60\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n    exclude: learnfair1381,learnfair5192,learnfair2304\n"
  },
  {
    "path": "examples/roberta/config/finetuning/run_config/slurm_1g_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: '_'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/roberta_ft/${env:PREFIX}/${hydra.job.config_name}/${env:SUFFIX}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}/submitit\n    timeout_min: 1000\n    cpus_per_task: 8\n    gpus_per_node: 1\n    tasks_per_node: 1\n    mem_gb: 0\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: learnfair,wav2vec\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/roberta/config/finetuning/sst_2.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 2\n  max_positions: 512\n\ncheckpoint:\n  restore_file: ???\n  reset_optimizer: true\n  reset_dataloader: true\n  reset_meters: true\n  best_checkpoint_metric: accuracy\n  maximize_best_checkpoint_metric: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n\ncriterion:\n  _name: sentence_prediction\n\ndataset:\n  batch_size: 32\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 1256\n\noptimization:\n  clip_norm: 0.0\n  lr: [1e-05]\n  max_update: 20935\n  max_epoch: 10\n\nmodel:\n  _name: roberta\n  dropout: 0.1\n  attention_dropout: 0.1\n"
  },
  {
    "path": "examples/roberta/config/finetuning/sts_b.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_init_scale: 4\n  threshold_loss_scale: 1\n  fp16_scale_window: 128\n  log_format: json\n  log_interval: 200\n\ntask:\n  _name: sentence_prediction\n  data: ???\n  init_token: 0\n  separator_token: 2\n  num_classes: 1\n  max_positions: 512\n\ncheckpoint:\n  restore_file: ???\n  reset_optimizer: true\n  reset_dataloader: true\n  reset_meters: true\n  no_epoch_checkpoints: true\n\ndistributed_training:\n  find_unused_parameters: true\n  distributed_world_size: 1\n\ncriterion:\n  _name: sentence_prediction\n  regression_target: true\n\ndataset:\n  batch_size: 16\n  required_batch_size_multiple: 1\n  max_tokens: 4400\n\noptimizer:\n  _name: adam\n  weight_decay: 0.1\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 214\n\noptimization:\n  clip_norm: 0.0\n  lr: [2e-05]\n  max_update: 3598\n  max_epoch: 10\n\nmodel:\n  _name: roberta\n  dropout: 0.1\n  attention_dropout: 0.1\n"
  },
  {
    "path": "examples/roberta/config/pretraining/base.yaml",
    "content": "# @package _group_\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n\ncheckpoint:\n  no_epoch_checkpoints: true\n\ntask:\n  _name: masked_lm\n  data: ???\n  sample_break_mode: complete\n  tokens_per_sample: 512\n\ncriterion: masked_lm\n\ndataset:\n  batch_size: 16\n  ignore_unused_valid_subsets: true\n\noptimizer:\n  _name: adam\n  weight_decay: 0.01\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 10000\n\noptimization:\n  clip_norm: 0\n  lr: [0.0005]\n  max_update: 125000\n  update_freq: [16]\n\nmodel:\n  _name: roberta\n  max_positions: 512\n  dropout: 0.1\n  attention_dropout: 0.1\n"
  },
  {
    "path": "examples/roberta/config/pretraining/run_config/local.yaml",
    "content": "# @package _global_\nhydra:\n  sweep:\n    dir: ${env:PWD}/tmp_dbg/${now:%H-%M-%S}\n\ndistributed_training:\n  distributed_world_size: 1\n  nprocs_per_node: 1\n  distributed_port: -1\n  \ncommon:\n  log_interval: 1\n  \ndataset:\n  num_workers: 0\n"
  },
  {
    "path": "examples/roberta/config/pretraining/run_config/slurm_2.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 450\n    nodes: 2\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/roberta/config/pretraining/run_config/slurm_2_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.local_cache_path\n          - task.data\n          - task.post_save_script\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n          - model.model_path\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 0\n    nodes: 2\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/roberta/config/pretraining/run_config/slurm_3.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 3\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/roberta/config/pretraining/run_config/slurm_4.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 4\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb,ib4\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/roberta/fb_multilingual/README.multilingual.pretraining.md",
    "content": "# Multilingual pretraining RoBERTa\n\nThis tutorial will walk you through pretraining multilingual RoBERTa.\n\n### 1) Preprocess the data\n\n```bash\nDICTIONARY=\"/private/home/namangoyal/dataset/XLM/wiki/17/175k/vocab\"\nDATA_LOCATION=\"/private/home/namangoyal/dataset/XLM/wiki/17/175k\"\n\nfor LANG in en es it\ndo\n  fairseq-preprocess \\\n      --only-source \\\n      --srcdict $DICTIONARY \\\n      --trainpref \"$DATA_LOCATION/train.$LANG\" \\\n      --validpref \"$DATA_LOCATION/valid.$LANG\" \\\n      --testpref \"$DATA_LOCATION/test.$LANG\" \\\n      --destdir \"wiki_17-bin/$LANG\" \\\n      --workers 60;\ndone\n```\n\n### 2) Train RoBERTa base\n\n[COMING UP...]\n"
  },
  {
    "path": "examples/roberta/multiprocessing_bpe_encoder.py",
    "content": "#!/usr/bin/env python\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport contextlib\nimport sys\nfrom collections import Counter\nfrom multiprocessing import Pool\n\nfrom fairseq.data.encoders.gpt2_bpe import get_encoder\n\n\ndef main():\n    \"\"\"\n    Helper script to encode raw text with the GPT-2 BPE using multiple processes.\n\n    The encoder.json and vocab.bpe files can be obtained here:\n    - https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/encoder.json\n    - https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/vocab.bpe\n    \"\"\"\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--encoder-json\",\n        help=\"path to encoder.json\",\n    )\n    parser.add_argument(\n        \"--vocab-bpe\",\n        type=str,\n        help=\"path to vocab.bpe\",\n    )\n    parser.add_argument(\n        \"--inputs\",\n        nargs=\"+\",\n        default=[\"-\"],\n        help=\"input files to filter/encode\",\n    )\n    parser.add_argument(\n        \"--outputs\",\n        nargs=\"+\",\n        default=[\"-\"],\n        help=\"path to save encoded outputs\",\n    )\n    parser.add_argument(\n        \"--keep-empty\",\n        action=\"store_true\",\n        help=\"keep empty lines\",\n    )\n    parser.add_argument(\"--workers\", type=int, default=20)\n    args = parser.parse_args()\n\n    assert len(args.inputs) == len(\n        args.outputs\n    ), \"number of input and output paths should match\"\n\n    with contextlib.ExitStack() as stack:\n        inputs = [\n            stack.enter_context(open(input, \"r\", encoding=\"utf-8\"))\n            if input != \"-\"\n            else sys.stdin\n            for input in args.inputs\n        ]\n        outputs = [\n            stack.enter_context(open(output, \"w\", encoding=\"utf-8\"))\n            if output != \"-\"\n            else sys.stdout\n            for output in args.outputs\n        ]\n\n        encoder = MultiprocessingEncoder(args)\n        pool = Pool(args.workers, initializer=encoder.initializer)\n        encoded_lines = pool.imap(encoder.encode_lines, zip(*inputs), 100)\n\n        stats = Counter()\n        for i, (filt, enc_lines) in enumerate(encoded_lines, start=1):\n            if filt == \"PASS\":\n                for enc_line, output_h in zip(enc_lines, outputs):\n                    print(enc_line, file=output_h)\n            else:\n                stats[\"num_filtered_\" + filt] += 1\n            if i % 10000 == 0:\n                print(\"processed {} lines\".format(i), file=sys.stderr)\n\n        for k, v in stats.most_common():\n            print(\"[{}] filtered {} lines\".format(k, v), file=sys.stderr)\n\n\nclass MultiprocessingEncoder(object):\n    def __init__(self, args):\n        self.args = args\n\n    def initializer(self):\n        global bpe\n        bpe = get_encoder(self.args.encoder_json, self.args.vocab_bpe)\n\n    def encode(self, line):\n        global bpe\n        ids = bpe.encode(line)\n        return list(map(str, ids))\n\n    def decode(self, tokens):\n        global bpe\n        return bpe.decode(tokens)\n\n    def encode_lines(self, lines):\n        \"\"\"\n        Encode a set of lines. All lines will be encoded together.\n        \"\"\"\n        enc_lines = []\n        for line in lines:\n            line = line.strip()\n            if len(line) == 0 and not self.args.keep_empty:\n                return [\"EMPTY\", None]\n            tokens = self.encode(line)\n            enc_lines.append(\" \".join(tokens))\n        return [\"PASS\", enc_lines]\n\n    def decode_lines(self, lines):\n        dec_lines = []\n        for line in lines:\n            tokens = map(int, line.strip().split())\n            dec_lines.append(self.decode(tokens))\n        return [\"PASS\", dec_lines]\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/roberta/preprocess_GLUE_tasks.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\n# raw glue data as downloaded by glue download script (https://gist.github.com/W4ngatang/60c2bdb54d156a41194446737ce03e2e)\nif [[ $# -ne 2 ]]; then\n  echo \"Run as following:\"\n  echo \"./examples/roberta/preprocess_GLUE_tasks.sh <glud_data_folder> <task_name>\"\n  exit 1\nfi\n\nGLUE_DATA_FOLDER=$1\n\n# download bpe encoder.json, vocabulary and fairseq dictionary\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/encoder.json'\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/vocab.bpe'\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/dict.txt'\n\nTASKS=$2 # QQP\n\nif [ \"$TASKS\" = \"ALL\" ]\nthen\n  TASKS=\"QQP MNLI QNLI MRPC RTE STS-B SST-2 CoLA\"\nfi\n\nfor TASK in $TASKS\ndo\n  echo \"Preprocessing $TASK\"\n\n  TASK_DATA_FOLDER=\"$GLUE_DATA_FOLDER/$TASK\"\n  echo \"Raw data as downloaded from glue website: $TASK_DATA_FOLDER\"\n\n  SPLITS=\"train dev test\"\n  INPUT_COUNT=2\n  if [ \"$TASK\" = \"QQP\" ]\n  then\n    INPUT_COLUMNS=( 4 5 )\n    TEST_INPUT_COLUMNS=( 2 3 )\n    LABEL_COLUMN=6\n  elif [ \"$TASK\" = \"MNLI\" ]\n  then\n    SPLITS=\"train dev_matched dev_mismatched test_matched test_mismatched\"\n    INPUT_COLUMNS=( 9 10 )\n    TEST_INPUT_COLUMNS=( 9 10 )\n    DEV_LABEL_COLUMN=16\n    LABEL_COLUMN=12\n  elif [ \"$TASK\" = \"QNLI\" ]\n  then\n    INPUT_COLUMNS=( 2 3 )\n    TEST_INPUT_COLUMNS=( 2 3 )\n    LABEL_COLUMN=4\n  elif [ \"$TASK\" = \"MRPC\" ]\n  then\n    INPUT_COLUMNS=( 4 5 )\n    TEST_INPUT_COLUMNS=( 4 5 )\n    LABEL_COLUMN=1\n  elif [ \"$TASK\" = \"RTE\" ]\n  then\n    INPUT_COLUMNS=( 2 3 )\n    TEST_INPUT_COLUMNS=( 2 3 )\n    LABEL_COLUMN=4\n  elif [ \"$TASK\" = \"STS-B\" ]\n  then\n    INPUT_COLUMNS=( 8 9 )\n    TEST_INPUT_COLUMNS=( 8 9 )\n    LABEL_COLUMN=10\n  # Following are single sentence tasks.\n  elif [ \"$TASK\" = \"SST-2\" ]\n  then\n    INPUT_COLUMNS=( 1 )\n    TEST_INPUT_COLUMNS=( 2 )\n    LABEL_COLUMN=2\n    INPUT_COUNT=1\n  elif [ \"$TASK\" = \"CoLA\" ]\n  then\n    INPUT_COLUMNS=( 4 )\n    TEST_INPUT_COLUMNS=( 2 )\n    LABEL_COLUMN=2\n    INPUT_COUNT=1\n  fi\n\n  # Strip out header and filter lines that don't have expected number of fields.\n  rm -rf \"$TASK_DATA_FOLDER/processed\"\n  mkdir -p \"$TASK_DATA_FOLDER/processed\"\n  for SPLIT in $SPLITS\n  do\n    # CoLA train and dev doesn't have header.\n    if [[ ( \"$TASK\" = \"CoLA\") && ( \"$SPLIT\" != \"test\" ) ]]\n    then\n      cp \"$TASK_DATA_FOLDER/$SPLIT.tsv\" \"$TASK_DATA_FOLDER/processed/$SPLIT.tsv.temp\";\n    else\n      tail -n +2 \"$TASK_DATA_FOLDER/$SPLIT.tsv\" > \"$TASK_DATA_FOLDER/processed/$SPLIT.tsv.temp\";\n    fi\n\n    # Remove unformatted lines from train and dev files for QQP dataset.\n    if [[ ( \"$TASK\" = \"QQP\") && ( \"$SPLIT\" != \"test\" ) ]]\n    then\n      awk -F '\\t' -v NUM_FIELDS=6 'NF==NUM_FIELDS{print}{}' \"$TASK_DATA_FOLDER/processed/$SPLIT.tsv.temp\" > \"$TASK_DATA_FOLDER/processed/$SPLIT.tsv\";\n    else\n      cp \"$TASK_DATA_FOLDER/processed/$SPLIT.tsv.temp\" \"$TASK_DATA_FOLDER/processed/$SPLIT.tsv\";\n    fi\n    rm \"$TASK_DATA_FOLDER/processed/$SPLIT.tsv.temp\";\n  done\n\n  # Split into input0, input1 and label\n  for SPLIT in $SPLITS\n  do\n    for INPUT_TYPE in $(seq 0 $((INPUT_COUNT-1)))\n    do\n      if [[ \"$SPLIT\" != test* ]]\n      then\n        COLUMN_NUMBER=${INPUT_COLUMNS[$INPUT_TYPE]}\n      else\n        COLUMN_NUMBER=${TEST_INPUT_COLUMNS[$INPUT_TYPE]}\n      fi\n      cut -f\"$COLUMN_NUMBER\" \"$TASK_DATA_FOLDER/processed/$SPLIT.tsv\" > \"$TASK_DATA_FOLDER/processed/$SPLIT.raw.input$INPUT_TYPE\";\n    done\n\n    if [[ \"$SPLIT\" != test* ]]\n    then\n      if [ \"$TASK\" = \"MNLI\" ] && [ \"$SPLIT\" != \"train\" ]\n      then\n        cut -f\"$DEV_LABEL_COLUMN\" \"$TASK_DATA_FOLDER/processed/$SPLIT.tsv\"  > \"$TASK_DATA_FOLDER/processed/$SPLIT.label\";\n      else\n        cut -f\"$LABEL_COLUMN\" \"$TASK_DATA_FOLDER/processed/$SPLIT.tsv\" > \"$TASK_DATA_FOLDER/processed/$SPLIT.label\";\n      fi\n    fi\n\n    # BPE encode.\n    for INPUT_TYPE in $(seq 0 $((INPUT_COUNT-1)))\n    do\n      LANG=\"input$INPUT_TYPE\"\n      echo \"BPE encoding $SPLIT/$LANG\"\n      python -m examples.roberta.multiprocessing_bpe_encoder \\\n      --encoder-json encoder.json \\\n      --vocab-bpe vocab.bpe \\\n      --inputs \"$TASK_DATA_FOLDER/processed/$SPLIT.raw.$LANG\" \\\n      --outputs \"$TASK_DATA_FOLDER/processed/$SPLIT.$LANG\" \\\n      --workers 60 \\\n      --keep-empty;\n    done\n  done\n\n  # Remove output directory.\n  rm -rf \"$TASK-bin\"\n\n  DEVPREF=\"$TASK_DATA_FOLDER/processed/dev.LANG\"\n  TESTPREF=\"$TASK_DATA_FOLDER/processed/test.LANG\"\n  if [ \"$TASK\" = \"MNLI\" ]\n  then\n    DEVPREF=\"$TASK_DATA_FOLDER/processed/dev_matched.LANG,$TASK_DATA_FOLDER/processed/dev_mismatched.LANG\"\n    TESTPREF=\"$TASK_DATA_FOLDER/processed/test_matched.LANG,$TASK_DATA_FOLDER/processed/test_mismatched.LANG\"\n  fi\n\n  # Run fairseq preprocessing:\n  for INPUT_TYPE in $(seq 0 $((INPUT_COUNT-1)))\n  do\n    LANG=\"input$INPUT_TYPE\"\n    fairseq-preprocess \\\n      --only-source \\\n      --trainpref \"$TASK_DATA_FOLDER/processed/train.$LANG\" \\\n      --validpref \"${DEVPREF//LANG/$LANG}\" \\\n      --testpref \"${TESTPREF//LANG/$LANG}\" \\\n      --destdir \"$TASK-bin/$LANG\" \\\n      --workers 60 \\\n      --srcdict dict.txt;\n  done\n  if [[ \"$TASK\" !=  \"STS-B\" ]]\n  then\n    fairseq-preprocess \\\n      --only-source \\\n      --trainpref \"$TASK_DATA_FOLDER/processed/train.label\" \\\n      --validpref \"${DEVPREF//LANG/label}\" \\\n      --destdir \"$TASK-bin/label\" \\\n      --workers 60;\n  else\n    # For STS-B output range is converted to be between: [0.0, 1.0]\n    mkdir -p \"$TASK-bin/label\"\n    awk '{print $1 / 5.0 }' \"$TASK_DATA_FOLDER/processed/train.label\" > \"$TASK-bin/label/train.label\"\n    awk '{print $1 / 5.0 }' \"$TASK_DATA_FOLDER/processed/dev.label\" > \"$TASK-bin/label/valid.label\"\n  fi\ndone\n"
  },
  {
    "path": "examples/roberta/preprocess_RACE.py",
    "content": "#!/usr/bin/env python\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport json\nimport os\nimport re\n\n\nclass InputExample:\n    def __init__(self, paragraph, qa_list, label):\n        self.paragraph = paragraph\n        self.qa_list = qa_list\n        self.label = label\n\n\ndef get_examples(data_dir, set_type):\n    \"\"\"\n    Extract paragraph and question-answer list from each json file\n    \"\"\"\n    examples = []\n\n    levels = [\"middle\", \"high\"]\n    set_type_c = set_type.split(\"-\")\n    if len(set_type_c) == 2:\n        levels = [set_type_c[1]]\n        set_type = set_type_c[0]\n    for level in levels:\n        cur_dir = os.path.join(data_dir, set_type, level)\n        for filename in os.listdir(cur_dir):\n            cur_path = os.path.join(cur_dir, filename)\n            with open(cur_path, \"r\") as f:\n                cur_data = json.load(f)\n                answers = cur_data[\"answers\"]\n                options = cur_data[\"options\"]\n                questions = cur_data[\"questions\"]\n                context = cur_data[\"article\"].replace(\"\\n\", \" \")\n                context = re.sub(r\"\\s+\", \" \", context)\n                for i in range(len(answers)):\n                    label = ord(answers[i]) - ord(\"A\")\n                    qa_list = []\n                    question = questions[i]\n                    for j in range(4):\n                        option = options[i][j]\n                        if \"_\" in question:\n                            qa_cat = question.replace(\"_\", option)\n                        else:\n                            qa_cat = \" \".join([question, option])\n                        qa_cat = re.sub(r\"\\s+\", \" \", qa_cat)\n                        qa_list.append(qa_cat)\n                    examples.append(InputExample(context, qa_list, label))\n\n    return examples\n\n\ndef main():\n    \"\"\"\n    Helper script to extract paragraphs questions and answers from RACE datasets.\n    \"\"\"\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--input-dir\",\n        help=\"input directory for downloaded RACE dataset\",\n    )\n    parser.add_argument(\n        \"--output-dir\",\n        help=\"output directory for extracted data\",\n    )\n    args = parser.parse_args()\n\n    if not os.path.exists(args.output_dir):\n        os.makedirs(args.output_dir, exist_ok=True)\n\n    for set_type in [\"train\", \"dev\", \"test-middle\", \"test-high\"]:\n        examples = get_examples(args.input_dir, set_type)\n        qa_file_paths = [\n            os.path.join(args.output_dir, set_type + \".input\" + str(i + 1))\n            for i in range(4)\n        ]\n        qa_files = [open(qa_file_path, \"w\") for qa_file_path in qa_file_paths]\n        outf_context_path = os.path.join(args.output_dir, set_type + \".input0\")\n        outf_label_path = os.path.join(args.output_dir, set_type + \".label\")\n        outf_context = open(outf_context_path, \"w\")\n        outf_label = open(outf_label_path, \"w\")\n        for example in examples:\n            outf_context.write(example.paragraph + \"\\n\")\n            for i in range(4):\n                qa_files[i].write(example.qa_list[i] + \"\\n\")\n            outf_label.write(str(example.label) + \"\\n\")\n\n        for f in qa_files:\n            f.close()\n        outf_label.close()\n        outf_context.close()\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/roberta/preprocess_RACE.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\n# data should be downloaded and processed with reprocess_RACE.py\nif [[ $# -ne 2 ]]; then\n  echo \"Run as following:\"\n  echo \"./examples/roberta/preprocess_RACE.sh <race_data_folder> <output_folder>\"\n  exit 1\nfi\n\nRACE_DATA_FOLDER=$1\nOUT_DATA_FOLDER=$2\n\n# download bpe encoder.json, vocabulary and fairseq dictionary\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/encoder.json'\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/vocab.bpe'\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/dict.txt'\n\nSPLITS=\"train dev test-middle test-high\"\nINPUT_TYPES=\"input0 input1 input2 input3 input4\"\nfor INPUT_TYPE in $INPUT_TYPES\ndo\n  for SPLIT in $SPLITS\n      do\n      echo \"BPE encoding $SPLIT/$INPUT_TYPE\"\n      python -m examples.roberta.multiprocessing_bpe_encoder \\\n            --encoder-json encoder.json \\\n            --vocab-bpe vocab.bpe \\\n            --inputs \"$RACE_DATA_FOLDER/$SPLIT.$INPUT_TYPE\" \\\n            --outputs \"$RACE_DATA_FOLDER/$SPLIT.$INPUT_TYPE.bpe\" \\\n            --workers 10 \\\n            --keep-empty;\n\n      done\ndone\n\nfor INPUT_TYPE in $INPUT_TYPES\n    do\n      LANG=\"input$INPUT_TYPE\"\n      fairseq-preprocess \\\n        --only-source \\\n        --trainpref \"$RACE_DATA_FOLDER/train.$INPUT_TYPE.bpe\" \\\n        --validpref \"$RACE_DATA_FOLDER/dev.$INPUT_TYPE.bpe\" \\\n        --testpref \"$RACE_DATA_FOLDER/test-middle.$INPUT_TYPE.bpe,$RACE_DATA_FOLDER/test-high.$INPUT_TYPE.bpe\" \\\n        --destdir \"$OUT_DATA_FOLDER/$INPUT_TYPE\" \\\n        --workers 10 \\\n        --srcdict dict.txt;\ndone\n\nrm -rf \"$OUT_DATA_FOLDER/label\"\nmkdir -p \"$OUT_DATA_FOLDER/label\"\ncp \"$RACE_DATA_FOLDER/train.label\" \"$OUT_DATA_FOLDER/label/\"\ncp \"$RACE_DATA_FOLDER/dev.label\" \"$OUT_DATA_FOLDER/label/valid.label\"\ncp \"$RACE_DATA_FOLDER/test-middle.label\" \"$OUT_DATA_FOLDER/label/test.label\"\ncp \"$RACE_DATA_FOLDER/test-high.label\" \"$OUT_DATA_FOLDER/label/test1.label\"\n"
  },
  {
    "path": "examples/roberta/wsc/README.md",
    "content": "# Finetuning RoBERTa on Winograd Schema Challenge (WSC) data\n\nThe following instructions can be used to finetune RoBERTa on the WSC training\ndata provided by [SuperGLUE](https://super.gluebenchmark.com/).\n\nNote that there is high variance in the results. For our GLUE/SuperGLUE\nsubmission we swept over the learning rate (1e-5, 2e-5, 3e-5), batch size (16,\n32, 64) and total number of updates (500, 1000, 2000, 3000), as well as the\nrandom seed. Out of ~100 runs we chose the best 7 models and ensembled them.\n\n**Approach:** The instructions below use a slightly different loss function than\nwhat's described in the original RoBERTa arXiv paper. In particular,\n[Kocijan et al. (2019)](https://arxiv.org/abs/1905.06290) introduce a margin\nranking loss between `(query, candidate)` pairs with tunable hyperparameters\nalpha and beta. This is supported in our code as well with the `--wsc-alpha` and\n`--wsc-beta` arguments. However, we achieved slightly better (and more robust)\nresults on the development set by instead using a single cross entropy loss term\nover the log-probabilities for the query and all mined candidates. **The\ncandidates are mined using spaCy from each input sentence in isolation, so the\napproach remains strictly pointwise.** This reduces the number of\nhyperparameters and our best model achieved 92.3% development set accuracy,\ncompared to ~90% accuracy for the margin loss. Later versions of the RoBERTa\narXiv paper will describe this updated formulation.\n\n### 1) Download the WSC data from the SuperGLUE website:\n```bash\nwget https://dl.fbaipublicfiles.com/glue/superglue/data/v2/WSC.zip\nunzip WSC.zip\n\n# we also need to copy the RoBERTa dictionary into the same directory\nwget -O WSC/dict.txt https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/dict.txt\n```\n\n### 2) Finetune over the provided training data:\n```bash\nTOTAL_NUM_UPDATES=2000  # Total number of training steps.\nWARMUP_UPDATES=250      # Linearly increase LR over this many steps.\nLR=2e-05                # Peak LR for polynomial LR scheduler.\nMAX_SENTENCES=16        # Batch size per GPU.\nSEED=1                  # Random seed.\nROBERTA_PATH=/path/to/roberta/model.pt\n\n# we use the --user-dir option to load the task and criterion\n# from the examples/roberta/wsc directory:\nFAIRSEQ_PATH=/path/to/fairseq\nFAIRSEQ_USER_DIR=${FAIRSEQ_PATH}/examples/roberta/wsc\n\nCUDA_VISIBLE_DEVICES=0,1,2,3 fairseq-train WSC/ \\\n    --restore-file $ROBERTA_PATH \\\n    --reset-optimizer --reset-dataloader --reset-meters \\\n    --no-epoch-checkpoints --no-last-checkpoints --no-save-optimizer-state \\\n    --best-checkpoint-metric accuracy --maximize-best-checkpoint-metric \\\n    --valid-subset val \\\n    --fp16 --ddp-backend legacy_ddp \\\n    --user-dir $FAIRSEQ_USER_DIR \\\n    --task wsc --criterion wsc --wsc-cross-entropy \\\n    --arch roberta_large --bpe gpt2 --max-positions 512 \\\n    --dropout 0.1 --attention-dropout 0.1 --weight-decay 0.01 \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' --adam-eps 1e-06 \\\n    --lr-scheduler polynomial_decay --lr $LR \\\n    --warmup-updates $WARMUP_UPDATES --total-num-update $TOTAL_NUM_UPDATES \\\n    --batch-size $MAX_SENTENCES \\\n    --max-update $TOTAL_NUM_UPDATES \\\n    --log-format simple --log-interval 100 \\\n    --seed $SEED\n```\n\nThe above command assumes training on 4 GPUs, but you can achieve the same\nresults on a single GPU by adding `--update-freq=4`.\n\n### 3) Evaluate\n```python\nfrom fairseq.models.roberta import RobertaModel\nfrom examples.roberta.wsc import wsc_utils  # also loads WSC task and criterion\nroberta = RobertaModel.from_pretrained('checkpoints', 'checkpoint_best.pt', 'WSC/')\nroberta.cuda()\nnsamples, ncorrect = 0, 0\nfor sentence, label in wsc_utils.jsonl_iterator('WSC/val.jsonl', eval=True):\n    pred = roberta.disambiguate_pronoun(sentence)\n    nsamples += 1\n    if pred == label:\n        ncorrect += 1\nprint('Accuracy: ' + str(ncorrect / float(nsamples)))\n# Accuracy: 0.9230769230769231\n```\n\n## RoBERTa training on WinoGrande dataset\nWe have also provided `winogrande` task and criterion for finetuning on the\n[WinoGrande](https://mosaic.allenai.org/projects/winogrande) like datasets\nwhere there are always two candidates and one is correct.\nIt's more efficient implementation for such subcases.\n\n```bash\nTOTAL_NUM_UPDATES=23750 # Total number of training steps.\nWARMUP_UPDATES=2375     # Linearly increase LR over this many steps.\nLR=1e-05                # Peak LR for polynomial LR scheduler.\nMAX_SENTENCES=32        # Batch size per GPU.\nSEED=1                  # Random seed.\nROBERTA_PATH=/path/to/roberta/model.pt\n\n# we use the --user-dir option to load the task and criterion\n# from the examples/roberta/wsc directory:\nFAIRSEQ_PATH=/path/to/fairseq\nFAIRSEQ_USER_DIR=${FAIRSEQ_PATH}/examples/roberta/wsc\n\ncd fairseq\nCUDA_VISIBLE_DEVICES=0 fairseq-train winogrande_1.0/ \\\n  --restore-file $ROBERTA_PATH \\\n  --reset-optimizer --reset-dataloader --reset-meters \\\n  --no-epoch-checkpoints --no-last-checkpoints --no-save-optimizer-state \\\n  --best-checkpoint-metric accuracy --maximize-best-checkpoint-metric \\\n  --valid-subset val \\\n  --fp16 --ddp-backend legacy_ddp \\\n  --user-dir $FAIRSEQ_USER_DIR \\\n  --task winogrande --criterion winogrande \\\n  --wsc-margin-alpha 5.0 --wsc-margin-beta 0.4 \\\n  --arch roberta_large --bpe gpt2 --max-positions 512 \\\n  --dropout 0.1 --attention-dropout 0.1 --weight-decay 0.01 \\\n  --optimizer adam --adam-betas '(0.9, 0.98)' --adam-eps 1e-06 \\\n  --lr-scheduler polynomial_decay --lr $LR \\\n  --warmup-updates $WARMUP_UPDATES --total-num-update $TOTAL_NUM_UPDATES \\\n  --batch-size $MAX_SENTENCES \\\n  --max-update $TOTAL_NUM_UPDATES \\\n  --log-format simple --log-interval 100\n```\n"
  },
  {
    "path": "examples/roberta/wsc/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import wsc_criterion  # noqa\nfrom . import wsc_task  # noqa\n"
  },
  {
    "path": "examples/roberta/wsc/wsc_criterion.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.criterions import LegacyFairseqCriterion, register_criterion\nfrom fairseq.data import encoders\n\n\n@register_criterion(\"wsc\")\nclass WSCCriterion(LegacyFairseqCriterion):\n    def __init__(self, args, task):\n        super().__init__(args, task)\n        if self.args.save_predictions is not None:\n            self.prediction_h = open(self.args.save_predictions, \"w\")\n        else:\n            self.prediction_h = None\n        self.bpe = encoders.build_bpe(args.bpe)\n        self.tokenizer = encoders.build_tokenizer(args.tokenizer)\n\n    def __del__(self):\n        if self.prediction_h is not None:\n            self.prediction_h.close()\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add criterion-specific arguments to the parser.\"\"\"\n        parser.add_argument(\"--wsc-margin-alpha\", type=float, metavar=\"A\", default=1.0)\n        parser.add_argument(\"--wsc-margin-beta\", type=float, metavar=\"B\", default=0.0)\n        parser.add_argument(\n            \"--wsc-cross-entropy\",\n            action=\"store_true\",\n            help=\"use cross entropy formulation instead of margin loss\",\n        )\n        parser.add_argument(\n            \"--save-predictions\", metavar=\"FILE\", help=\"file to save predictions to\"\n        )\n\n    def get_masked_input(self, tokens, mask):\n        masked_tokens = tokens.clone()\n        masked_tokens[mask] = self.task.mask\n        return masked_tokens\n\n    def get_lprobs(self, model, tokens, mask):\n        logits, _ = model(src_tokens=self.get_masked_input(tokens, mask))\n        lprobs = F.log_softmax(logits, dim=-1, dtype=torch.float)\n        scores = lprobs.gather(2, tokens.unsqueeze(-1)).squeeze(-1)\n        mask = mask.type_as(scores)\n        scores = (scores * mask).sum(dim=-1) / mask.sum(dim=-1)\n        return scores\n\n    def get_loss(self, query_lprobs, cand_lprobs):\n        if self.args.wsc_cross_entropy:\n            return F.cross_entropy(\n                torch.cat([query_lprobs, cand_lprobs]).unsqueeze(0),\n                query_lprobs.new([0]).long(),\n            )\n        else:\n            return (\n                -query_lprobs\n                + self.args.wsc_margin_alpha\n                * (cand_lprobs - query_lprobs + self.args.wsc_margin_beta).clamp(min=0)\n            ).sum()\n\n    def forward(self, model, sample, reduce=True):\n        # compute loss and accuracy\n        loss, nloss = 0.0, 0\n        ncorrect, nqueries = 0, 0\n\n        for i, label in enumerate(sample[\"labels\"]):\n            query_lprobs = self.get_lprobs(\n                model,\n                sample[\"query_tokens\"][i].unsqueeze(0),\n                sample[\"query_masks\"][i].unsqueeze(0),\n            )\n            cand_lprobs = self.get_lprobs(\n                model,\n                sample[\"candidate_tokens\"][i],\n                sample[\"candidate_masks\"][i],\n            )\n\n            pred = (query_lprobs >= cand_lprobs).all().item()\n\n            if label is not None:\n                label = 1 if label else 0\n                ncorrect += 1 if pred == label else 0\n                nqueries += 1\n\n            if label:\n                # only compute a loss for positive instances\n                nloss += 1\n                loss += self.get_loss(query_lprobs, cand_lprobs)\n\n            id = sample[\"id\"][i].item()\n            if self.prediction_h is not None:\n                print(\"{}\\t{}\\t{}\".format(id, pred, label), file=self.prediction_h)\n\n        if nloss == 0:\n            loss = torch.tensor(0.0, requires_grad=True)\n\n        sample_size = nqueries if nqueries > 0 else 1\n        logging_output = {\n            \"loss\": utils.item(loss.data) if reduce else loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"nsentences\"],\n            \"sample_size\": sample_size,\n            \"ncorrect\": ncorrect,\n            \"nqueries\": nqueries,\n        }\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def aggregate_logging_outputs(logging_outputs):\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n        ntokens = sum(log.get(\"ntokens\", 0) for log in logging_outputs)\n        nsentences = sum(log.get(\"nsentences\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n\n        agg_output = {\n            \"loss\": loss_sum / sample_size / math.log(2),\n            \"ntokens\": ntokens,\n            \"nsentences\": nsentences,\n            \"sample_size\": sample_size,\n        }\n\n        ncorrect = sum(log.get(\"ncorrect\", 0) for log in logging_outputs)\n        nqueries = sum(log.get(\"nqueries\", 0) for log in logging_outputs)\n        if nqueries > 0:\n            agg_output[\"accuracy\"] = ncorrect / float(nqueries)\n\n        return agg_output\n\n\n@register_criterion(\"winogrande\")\nclass WinograndeCriterion(WSCCriterion):\n    def forward(self, model, sample, reduce=True):\n        # compute loss and accuracy\n        query_lprobs = self.get_lprobs(\n            model,\n            sample[\"query_tokens\"],\n            sample[\"query_masks\"],\n        )\n        cand_lprobs = self.get_lprobs(\n            model,\n            sample[\"candidate_tokens\"],\n            sample[\"candidate_masks\"],\n        )\n        pred = query_lprobs >= cand_lprobs\n        loss = self.get_loss(query_lprobs, cand_lprobs)\n\n        sample_size = sample[\"query_tokens\"].size(0)\n        ncorrect = pred.sum().item()\n        logging_output = {\n            \"loss\": utils.item(loss.data) if reduce else loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"nsentences\"],\n            \"sample_size\": sample_size,\n            \"ncorrect\": ncorrect,\n            \"nqueries\": sample_size,\n        }\n        return loss, sample_size, logging_output\n"
  },
  {
    "path": "examples/roberta/wsc/wsc_task.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport json\nimport os\nimport tempfile\n\nimport numpy as np\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.data import (\n    Dictionary,\n    IdDataset,\n    ListDataset,\n    NestedDictionaryDataset,\n    NumelDataset,\n    NumSamplesDataset,\n    PadDataset,\n    SortDataset,\n    data_utils,\n    encoders,\n)\nfrom fairseq.tasks import LegacyFairseqTask, register_task\n\nfrom . import wsc_utils\n\n\n@register_task(\"wsc\")\nclass WSCTask(LegacyFairseqTask):\n    \"\"\"Task to finetune RoBERTa for Winograd Schemas.\"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        parser.add_argument(\n            \"data\", metavar=\"DIR\", help=\"path to data directory; we load <split>.jsonl\"\n        )\n        parser.add_argument(\n            \"--init-token\",\n            type=int,\n            default=None,\n            help=\"add token at the beginning of each batch item\",\n        )\n\n    def __init__(self, args, vocab):\n        super().__init__(args)\n        self.vocab = vocab\n        self.mask = vocab.add_symbol(\"<mask>\")\n\n        self.bpe = encoders.build_bpe(args)\n        self.tokenizer = encoders.build_tokenizer(args)\n\n        # hack to handle GPT-2 BPE, which includes leading spaces\n        if args.bpe == \"gpt2\":\n            self.leading_space = True\n            self.trailing_space = False\n        else:\n            self.leading_space = False\n            self.trailing_space = True\n\n    @classmethod\n    def load_dictionary(cls, filename):\n        \"\"\"Load the dictionary from the filename\n\n        Args:\n            filename (str): the filename\n        \"\"\"\n        dictionary = Dictionary.load(filename)\n        dictionary.add_symbol(\"<mask>\")\n        return dictionary\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        assert args.criterion == \"wsc\", \"Must set --criterion=wsc\"\n\n        # load data and label dictionaries\n        vocab = cls.load_dictionary(os.path.join(args.data, \"dict.txt\"))\n        print(\"| dictionary: {} types\".format(len(vocab)))\n\n        return cls(args, vocab)\n\n    def binarize(self, s: str, append_eos: bool = False):\n        if self.tokenizer is not None:\n            s = self.tokenizer.encode(s)\n        if self.bpe is not None:\n            s = self.bpe.encode(s)\n        tokens = self.vocab.encode_line(\n            s,\n            append_eos=append_eos,\n            add_if_not_exist=False,\n        ).long()\n        if self.args.init_token is not None:\n            tokens = torch.cat([tokens.new([self.args.init_token]), tokens])\n        return tokens\n\n    def binarize_with_mask(self, txt, prefix, suffix, leading_space, trailing_space):\n        toks = self.binarize(\n            prefix + leading_space + txt + trailing_space + suffix,\n            append_eos=True,\n        )\n        mask = torch.zeros_like(toks, dtype=torch.bool)\n        mask_start = len(self.binarize(prefix))\n        mask_size = len(self.binarize(leading_space + txt))\n        mask[mask_start : mask_start + mask_size] = 1\n        return toks, mask\n\n    def load_dataset(\n        self, split, epoch=1, combine=False, data_path=None, return_only=False, **kwargs\n    ):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        if data_path is None:\n            data_path = os.path.join(self.args.data, split + \".jsonl\")\n        if not os.path.exists(data_path):\n            raise FileNotFoundError(\"Cannot find data: {}\".format(data_path))\n\n        query_tokens = []\n        query_masks = []\n        query_lengths = []\n        candidate_tokens = []\n        candidate_masks = []\n        candidate_lengths = []\n        labels = []\n\n        for sentence, pronoun_span, query, label in wsc_utils.jsonl_iterator(data_path):\n            prefix = sentence[: pronoun_span.start].text\n            suffix = sentence[pronoun_span.end :].text_with_ws\n\n            # spaCy spans include trailing spaces, but we need to know about\n            # leading spaces for the GPT-2 BPE\n            leading_space = (\n                \" \" if sentence[: pronoun_span.start].text_with_ws.endswith(\" \") else \"\"\n            )\n            trailing_space = \" \" if pronoun_span.text_with_ws.endswith(\" \") else \"\"\n\n            # get noun phrases, excluding pronouns and anything overlapping with the query\n            cand_spans = wsc_utils.filter_noun_chunks(\n                wsc_utils.extended_noun_chunks(sentence),\n                exclude_pronouns=True,\n                exclude_query=query,\n                exact_match=False,\n            )\n\n            if query is not None:\n                query_toks, query_mask = self.binarize_with_mask(\n                    query, prefix, suffix, leading_space, trailing_space\n                )\n                query_len = len(query_toks)\n            else:\n                query_toks, query_mask, query_len = None, None, 0\n\n            query_tokens.append(query_toks)\n            query_masks.append(query_mask)\n            query_lengths.append(query_len)\n\n            cand_toks, cand_masks = [], []\n            for cand_span in cand_spans:\n                toks, mask = self.binarize_with_mask(\n                    cand_span.text,\n                    prefix,\n                    suffix,\n                    leading_space,\n                    trailing_space,\n                )\n                cand_toks.append(toks)\n                cand_masks.append(mask)\n\n            # collate candidates\n            cand_toks = data_utils.collate_tokens(cand_toks, pad_idx=self.vocab.pad())\n            cand_masks = data_utils.collate_tokens(cand_masks, pad_idx=0)\n            assert cand_toks.size() == cand_masks.size()\n\n            candidate_tokens.append(cand_toks)\n            candidate_masks.append(cand_masks)\n            candidate_lengths.append(cand_toks.size(1))\n\n            labels.append(label)\n\n        query_lengths = np.array(query_lengths)\n        query_tokens = ListDataset(query_tokens, query_lengths)\n        query_masks = ListDataset(query_masks, query_lengths)\n\n        candidate_lengths = np.array(candidate_lengths)\n        candidate_tokens = ListDataset(candidate_tokens, candidate_lengths)\n        candidate_masks = ListDataset(candidate_masks, candidate_lengths)\n\n        labels = ListDataset(labels, [1] * len(labels))\n\n        dataset = {\n            \"id\": IdDataset(),\n            \"query_tokens\": query_tokens,\n            \"query_masks\": query_masks,\n            \"candidate_tokens\": candidate_tokens,\n            \"candidate_masks\": candidate_masks,\n            \"labels\": labels,\n            \"nsentences\": NumSamplesDataset(),\n            \"ntokens\": NumelDataset(query_tokens, reduce=True),\n        }\n\n        nested_dataset = NestedDictionaryDataset(\n            dataset,\n            sizes=[query_lengths],\n        )\n\n        with data_utils.numpy_seed(self.args.seed):\n            shuffle = np.random.permutation(len(query_tokens))\n        dataset = SortDataset(\n            nested_dataset,\n            # shuffle\n            sort_order=[shuffle],\n        )\n\n        if return_only:\n            return dataset\n\n        self.datasets[split] = dataset\n        return self.datasets[split]\n\n    def build_dataset_for_inference(self, sample_json):\n        with tempfile.NamedTemporaryFile(buffering=0) as h:\n            h.write((json.dumps(sample_json) + \"\\n\").encode(\"utf-8\"))\n            dataset = self.load_dataset(\n                \"disambiguate_pronoun\",\n                data_path=h.name,\n                return_only=True,\n            )\n        return dataset\n\n    def disambiguate_pronoun(self, model, sentence, use_cuda=False):\n        sample_json = wsc_utils.convert_sentence_to_json(sentence)\n        dataset = self.build_dataset_for_inference(sample_json)\n        sample = dataset.collater([dataset[0]])\n        if use_cuda:\n            sample = utils.move_to_cuda(sample)\n\n        def get_masked_input(tokens, mask):\n            masked_tokens = tokens.clone()\n            masked_tokens[mask.bool()] = self.mask\n            return masked_tokens\n\n        def get_lprobs(tokens, mask):\n            logits, _ = model(src_tokens=get_masked_input(tokens, mask))\n            lprobs = F.log_softmax(logits, dim=-1, dtype=torch.float)\n            scores = lprobs.gather(2, tokens.unsqueeze(-1)).squeeze(-1)\n            mask = mask.type_as(scores)\n            scores = (scores * mask).sum(dim=-1) / mask.sum(dim=-1)\n            return scores\n\n        cand_lprobs = get_lprobs(\n            sample[\"candidate_tokens\"][0],\n            sample[\"candidate_masks\"][0],\n        )\n        if sample[\"query_tokens\"][0] is not None:\n            query_lprobs = get_lprobs(\n                sample[\"query_tokens\"][0].unsqueeze(0),\n                sample[\"query_masks\"][0].unsqueeze(0),\n            )\n            return (query_lprobs >= cand_lprobs).all().item() == 1\n        else:\n            best_idx = cand_lprobs.argmax().item()\n            full_cand = sample[\"candidate_tokens\"][0][best_idx]\n            mask = sample[\"candidate_masks\"][0][best_idx]\n            toks = full_cand[mask.bool()]\n            return self.bpe.decode(self.source_dictionary.string(toks)).strip()\n\n    @property\n    def source_dictionary(self):\n        return self.vocab\n\n    @property\n    def target_dictionary(self):\n        return self.vocab\n\n\n@register_task(\"winogrande\")\nclass WinograndeTask(WSCTask):\n    \"\"\"\n    Task for WinoGrande dataset. Efficient implementation for Winograd schema\n    tasks with exactly two candidates, one of which is correct.\n    \"\"\"\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        assert args.criterion == \"winogrande\", \"Must set --criterion=winogrande\"\n\n        # load data and label dictionaries\n        vocab = cls.load_dictionary(os.path.join(args.data, \"dict.txt\"))\n        print(\"| dictionary: {} types\".format(len(vocab)))\n\n        return cls(args, vocab)\n\n    def load_dataset(\n        self, split, epoch=1, combine=False, data_path=None, return_only=False, **kwargs\n    ):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        if data_path is None:\n            data_path = os.path.join(self.args.data, split + \".jsonl\")\n        if not os.path.exists(data_path):\n            raise FileNotFoundError(\"Cannot find data: {}\".format(data_path))\n\n        query_tokens = []\n        query_masks = []\n        query_lengths = []\n        candidate_tokens = []\n        candidate_masks = []\n        candidate_lengths = []\n\n        itr = wsc_utils.winogrande_jsonl_iterator(data_path, eval=(split == \"test\"))\n\n        for sample in itr:\n            sentence, pronoun_span, query, cand_text = sample\n            prefix = sentence[: pronoun_span[0]].rstrip()\n            suffix = sentence[pronoun_span[1] :]\n\n            leading_space = \" \" if sentence[: pronoun_span[0]].endswith(\" \") else \"\"\n            trailing_space = \"\"\n\n            if query is not None:\n                query_toks, query_mask = self.binarize_with_mask(\n                    query,\n                    prefix,\n                    suffix,\n                    leading_space,\n                    trailing_space,\n                )\n                query_len = len(query_toks)\n            else:\n                query_toks, query_mask, query_len = None, None, 0\n\n            query_tokens.append(query_toks)\n            query_masks.append(query_mask)\n            query_lengths.append(query_len)\n\n            cand_toks, cand_mask = self.binarize_with_mask(\n                cand_text,\n                prefix,\n                suffix,\n                leading_space,\n                trailing_space,\n            )\n\n            candidate_tokens.append(cand_toks)\n            candidate_masks.append(cand_mask)\n            candidate_lengths.append(cand_toks.size(0))\n\n        query_lengths = np.array(query_lengths)\n\n        def get_pad_dataset_fn(tokens, length, pad_idx):\n            return PadDataset(\n                ListDataset(tokens, length),\n                pad_idx=pad_idx,\n                left_pad=False,\n            )\n\n        query_tokens = get_pad_dataset_fn(query_tokens, query_lengths, self.vocab.pad())\n        query_masks = get_pad_dataset_fn(query_masks, query_lengths, 0)\n\n        candidate_lengths = np.array(candidate_lengths)\n        candidate_tokens = get_pad_dataset_fn(\n            candidate_tokens, candidate_lengths, self.vocab.pad()\n        )\n        candidate_masks = get_pad_dataset_fn(candidate_masks, candidate_lengths, 0)\n\n        dataset = {\n            \"id\": IdDataset(),\n            \"query_tokens\": query_tokens,\n            \"query_masks\": query_masks,\n            \"candidate_tokens\": candidate_tokens,\n            \"candidate_masks\": candidate_masks,\n            \"nsentences\": NumSamplesDataset(),\n            \"ntokens\": NumelDataset(query_tokens, reduce=True),\n        }\n\n        nested_dataset = NestedDictionaryDataset(\n            dataset,\n            sizes=[query_lengths],\n        )\n\n        with data_utils.numpy_seed(self.args.seed):\n            shuffle = np.random.permutation(len(query_tokens))\n        dataset = SortDataset(\n            nested_dataset,\n            # shuffle\n            sort_order=[shuffle],\n        )\n\n        if return_only:\n            return dataset\n\n        self.datasets[split] = dataset\n        return self.datasets[split]\n"
  },
  {
    "path": "examples/roberta/wsc/wsc_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport json\nfrom functools import lru_cache\n\n\ndef convert_sentence_to_json(sentence):\n    if \"_\" in sentence:\n        prefix, rest = sentence.split(\"_\", 1)\n        query, rest = rest.split(\"_\", 1)\n        query_index = len(prefix.rstrip().split(\" \"))\n    else:\n        query, query_index = None, None\n\n    prefix, rest = sentence.split(\"[\", 1)\n    pronoun, rest = rest.split(\"]\", 1)\n    pronoun_index = len(prefix.rstrip().split(\" \"))\n\n    sentence = sentence.replace(\"_\", \"\").replace(\"[\", \"\").replace(\"]\", \"\")\n\n    return {\n        \"idx\": 0,\n        \"text\": sentence,\n        \"target\": {\n            \"span1_index\": query_index,\n            \"span1_text\": query,\n            \"span2_index\": pronoun_index,\n            \"span2_text\": pronoun,\n        },\n    }\n\n\ndef extended_noun_chunks(sentence):\n    noun_chunks = {(np.start, np.end) for np in sentence.noun_chunks}\n    np_start, cur_np = 0, \"NONE\"\n    for i, token in enumerate(sentence):\n        np_type = token.pos_ if token.pos_ in {\"NOUN\", \"PROPN\"} else \"NONE\"\n        if np_type != cur_np:\n            if cur_np != \"NONE\":\n                noun_chunks.add((np_start, i))\n            if np_type != \"NONE\":\n                np_start = i\n            cur_np = np_type\n    if cur_np != \"NONE\":\n        noun_chunks.add((np_start, len(sentence)))\n    return [sentence[s:e] for (s, e) in sorted(noun_chunks)]\n\n\ndef find_token(sentence, start_pos):\n    found_tok = None\n    for tok in sentence:\n        if tok.idx == start_pos:\n            found_tok = tok\n            break\n    return found_tok\n\n\ndef find_span(sentence, search_text, start=0):\n    search_text = search_text.lower()\n    for tok in sentence[start:]:\n        remainder = sentence[tok.i :].text.lower()\n        if remainder.startswith(search_text):\n            len_to_consume = len(search_text)\n            start_idx = tok.idx\n            for next_tok in sentence[tok.i :]:\n                end_idx = next_tok.idx + len(next_tok.text)\n                if end_idx - start_idx == len_to_consume:\n                    span = sentence[tok.i : next_tok.i + 1]\n                    return span\n    return None\n\n\n@lru_cache(maxsize=1)\ndef get_detokenizer():\n    from sacremoses import MosesDetokenizer\n\n    detok = MosesDetokenizer(lang=\"en\")\n    return detok\n\n\n@lru_cache(maxsize=1)\ndef get_spacy_nlp():\n    import en_core_web_lg\n\n    nlp = en_core_web_lg.load()\n    return nlp\n\n\ndef jsonl_iterator(input_fname, positive_only=False, ngram_order=3, eval=False):\n    detok = get_detokenizer()\n    nlp = get_spacy_nlp()\n\n    with open(input_fname) as fin:\n        for line in fin:\n            sample = json.loads(line.strip())\n\n            if positive_only and \"label\" in sample and not sample[\"label\"]:\n                # only consider examples where the query is correct\n                continue\n\n            target = sample[\"target\"]\n\n            # clean up the query\n            query = target[\"span1_text\"]\n            if query is not None:\n                if \"\\n\" in query:\n                    continue\n                if query.endswith(\".\") or query.endswith(\",\"):\n                    query = query[:-1]\n\n            # split tokens\n            tokens = sample[\"text\"].split(\" \")\n\n            def strip_pronoun(x):\n                return x.rstrip('.,\"')\n\n            # find the pronoun\n            pronoun_idx = target[\"span2_index\"]\n            pronoun = strip_pronoun(target[\"span2_text\"])\n            if strip_pronoun(tokens[pronoun_idx]) != pronoun:\n                # hack: sometimes the index is misaligned\n                if strip_pronoun(tokens[pronoun_idx + 1]) == pronoun:\n                    pronoun_idx += 1\n                else:\n                    raise Exception(\"Misaligned pronoun!\")\n            assert strip_pronoun(tokens[pronoun_idx]) == pronoun\n\n            # split tokens before and after the pronoun\n            before = tokens[:pronoun_idx]\n            after = tokens[pronoun_idx + 1 :]\n\n            # the GPT BPE attaches leading spaces to tokens, so we keep track\n            # of whether we need spaces before or after the pronoun\n            leading_space = \" \" if pronoun_idx > 0 else \"\"\n            trailing_space = \" \" if len(after) > 0 else \"\"\n\n            # detokenize\n            before = detok.detokenize(before, return_str=True)\n            pronoun = detok.detokenize([pronoun], return_str=True)\n            after = detok.detokenize(after, return_str=True)\n\n            # hack: when the pronoun ends in a period (or comma), move the\n            # punctuation to the \"after\" part\n            if pronoun.endswith(\".\") or pronoun.endswith(\",\"):\n                after = pronoun[-1] + trailing_space + after\n                pronoun = pronoun[:-1]\n\n            # hack: when the \"after\" part begins with a comma or period, remove\n            # the trailing space\n            if after.startswith(\".\") or after.startswith(\",\"):\n                trailing_space = \"\"\n\n            # parse sentence with spacy\n            sentence = nlp(before + leading_space + pronoun + trailing_space + after)\n\n            # find pronoun span\n            start = len(before + leading_space)\n            first_pronoun_tok = find_token(sentence, start_pos=start)\n            pronoun_span = find_span(sentence, pronoun, start=first_pronoun_tok.i)\n            assert pronoun_span.text == pronoun\n\n            if eval:\n                # convert to format where pronoun is surrounded by \"[]\" and\n                # query is surrounded by \"_\"\n                query_span = find_span(sentence, query)\n                query_with_ws = \"_{}_{}\".format(\n                    query_span.text,\n                    (\" \" if query_span.text_with_ws.endswith(\" \") else \"\"),\n                )\n                pronoun_with_ws = \"[{}]{}\".format(\n                    pronoun_span.text,\n                    (\" \" if pronoun_span.text_with_ws.endswith(\" \") else \"\"),\n                )\n                if query_span.start < pronoun_span.start:\n                    first = (query_span, query_with_ws)\n                    second = (pronoun_span, pronoun_with_ws)\n                else:\n                    first = (pronoun_span, pronoun_with_ws)\n                    second = (query_span, query_with_ws)\n                sentence = (\n                    sentence[: first[0].start].text_with_ws\n                    + first[1]\n                    + sentence[first[0].end : second[0].start].text_with_ws\n                    + second[1]\n                    + sentence[second[0].end :].text\n                )\n                yield sentence, sample.get(\"label\", None)\n            else:\n                yield sentence, pronoun_span, query, sample.get(\"label\", None)\n\n\ndef winogrande_jsonl_iterator(input_fname, eval=False):\n    with open(input_fname) as fin:\n        for line in fin:\n            sample = json.loads(line.strip())\n            sentence, option1, option2 = (\n                sample[\"sentence\"],\n                sample[\"option1\"],\n                sample[\"option2\"],\n            )\n\n            pronoun_span = (sentence.index(\"_\"), sentence.index(\"_\") + 1)\n\n            if eval:\n                query, cand = option1, option2\n            else:\n                query = option1 if sample[\"answer\"] == \"1\" else option2\n                cand = option2 if sample[\"answer\"] == \"1\" else option1\n            yield sentence, pronoun_span, query, cand\n\n\ndef filter_noun_chunks(\n    chunks, exclude_pronouns=False, exclude_query=None, exact_match=False\n):\n    if exclude_pronouns:\n        chunks = [\n            np\n            for np in chunks\n            if (np.lemma_ != \"-PRON-\" and not all(tok.pos_ == \"PRON\" for tok in np))\n        ]\n\n    if exclude_query is not None:\n        excl_txt = [exclude_query.lower()]\n        filtered_chunks = []\n        for chunk in chunks:\n            lower_chunk = chunk.text.lower()\n            found = False\n            for excl in excl_txt:\n                if (\n                    not exact_match and (lower_chunk in excl or excl in lower_chunk)\n                ) or lower_chunk == excl:\n                    found = True\n                    break\n            if not found:\n                filtered_chunks.append(chunk)\n        chunks = filtered_chunks\n\n    return chunks\n"
  },
  {
    "path": "examples/rxf/README.md",
    "content": "[Better Fine-Tuning by Reducing Representational Collapse](https://arxiv.org/abs/2008.03156)\n=====================\nThis repo contains the code to replicate all experiments from the _Better Fine-Tuning by Reducing Representational Collapse_ paper excluding the probing results.\n\nThe R3F sentence prediction criterion is registered as `sentence_prediction_r3f` while the label smoothing version of it is implemented as `label_smoothed_cross_entropy_r3f`. The R4F version of the sentence prediction criterion can be achieved by applying spectral norm to the classification head via the `--spectral-norm-classification-head` parameter.\n\n## Hyper-parameters\nOur methods introduce 3 new hyper-parameters; `--eps` which sets the standard deviation or range of the distribution we're sampling from, `--r3f-lambda` which controls the combining of logistic loss and noisy KL loss and `--noise-type` which controls which parametric distribution we use ('normal', 'uniform').\n\nFor example to run R3F on RTE from GLUE\n\n```\nTOTAL_NUM_UPDATES=3120\nWARMUP_UPDATES=187\nLR=1e-05\nNUM_CLASSES=2\nMAX_SENTENCES=8        # Batch size.\nROBERTA_PATH=/path/to/roberta/model.pt\n\nCUDA_VISIBLE_DEVICES=0 fairseq-train RTE-bin \\\n    --restore-file $ROBERTA_PATH \\\n    --max-positions 512 \\\n    --max-sentences $MAX_SENTENCES \\\n    --max-tokens 4400 \\\n    --task sentence_prediction \\\n    --reset-optimizer --reset-dataloader --reset-meters \\\n    --required-batch-size-multiple 1 \\\n    --init-token 0 --separator-token 2 \\\n    --arch roberta_large \\\n    --criterion sentence_prediction_r3f \\\n    --num-classes $NUM_CLASSES \\\n    --dropout 0.1 --attention-dropout 0.1 \\\n    --weight-decay 0.1 --optimizer adam --adam-betas \"(0.9, 0.98)\" --adam-eps 1e-06 \\\n    --clip-norm 0.0 \\\n    --lr-scheduler polynomial_decay --lr $LR --total-num-update $TOTAL_NUM_UPDATES --warmup-updates $WARMUP_UPDATES \\\n    --fp16 --fp16-init-scale 4 --threshold-loss-scale 1 --fp16-scale-window 128 \\\n    --max-epoch 10 \\\n    --find-unused-parameters \\\n    --best-checkpoint-metric accuracy --maximize-best-checkpoint-metric \\\n    --noise-type uniform --r3f-lambda 0.7 \\\n    --user-dir examples/rxf/rxf_src\n```\n\n## Citation\n```bibtex\n@article{aghajanyan2020better,\n  title={Better Fine-Tuning by Reducing Representational Collapse},\n  author={Aghajanyan, Armen and Shrivastava, Akshat and Gupta, Anchit and Goyal, Naman and Zettlemoyer, Luke and Gupta, Sonal},\n  journal={arXiv preprint arXiv:2008.03156},\n  year={2020}\n}\n```\n"
  },
  {
    "path": "examples/rxf/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import rxf_src  # noqa\n"
  },
  {
    "path": "examples/rxf/rxf_src/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import label_smoothed_cross_entropy_r3f, sentence_prediction_r3f  # noqa\n"
  },
  {
    "path": "examples/rxf/rxf_src/label_smoothed_cross_entropy_r3f.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.criterions.label_smoothed_cross_entropy import label_smoothed_nll_loss\n\n\n@register_criterion(\"label_smoothed_cross_entropy_r3f\")\nclass LabelSmoothedCrossEntropyR3FCriterion(FairseqCriterion):\n    def __init__(\n        self, task, sentence_avg, label_smoothing, eps, r3f_lambda, noise_type\n    ):\n        super().__init__(task)\n        self.sentence_avg = sentence_avg\n        self.label_smoothing = label_smoothing\n        self.eps = eps\n        self.r3f_lambda = r3f_lambda\n        self.noise_type = noise_type\n        if self.noise_type in {\"normal\"}:\n            self.noise_sampler = torch.distributions.normal.Normal(\n                loc=0.0, scale=self.eps\n            )\n        elif self.noise_type == \"uniform\":\n            self.noise_sampler = torch.distributions.uniform.Uniform(\n                low=-self.eps, high=self.eps\n            )\n        else:\n            raise Exception(f\"unrecognized noise type {self.noise_type}\")\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add criterion-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--label-smoothing', default=0., type=float, metavar='D',\n                            help='epsilon for label smoothing, 0 means no label smoothing')\n        parser.add_argument('--eps', type=float, default=1e-5,\n                            help='noise eps')\n        parser.add_argument('--r3f-lambda', type=float, default=1.0,\n                            help='lambda for combining logistic loss and noisy KL loss')\n        parser.add_argument('--noise-type', type=str, default='normal',\n                            choices=['normal', 'uniform'],\n                            help='type of noises')\n        # fmt: on\n\n    def _get_symm_kl(self, noised_logits, input_logits):\n        return (\n            F.kl_div(\n                F.log_softmax(noised_logits, dim=-1, dtype=torch.float32),\n                F.softmax(input_logits, dim=-1, dtype=torch.float32),\n                None,\n                None,\n                \"sum\",\n            )\n            + F.kl_div(\n                F.log_softmax(input_logits, dim=-1, dtype=torch.float32),\n                F.softmax(noised_logits, dim=-1, dtype=torch.float32),\n                None,\n                None,\n                \"sum\",\n            )\n        ) / noised_logits.size(0)\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        token_embeddings = model.encoder.embed_tokens(sample[\"net_input\"][\"src_tokens\"])\n        input_logits, extra = model(**sample[\"net_input\"])\n        loss, nll_loss = self.compute_loss(\n            model, (input_logits, extra), sample, reduce=reduce\n        )\n        sample_size = (\n            sample[\"target\"].size(0) if self.sentence_avg else sample[\"ntokens\"]\n        )\n\n        if model.training:\n            noise = self.noise_sampler.sample(sample_shape=token_embeddings.shape).to(\n                token_embeddings\n            )\n            noised_embeddings = token_embeddings.clone() + noise\n\n            noised_logits, _ = model(\n                **sample[\"net_input\"], token_embeddings=noised_embeddings\n            )\n            symm_kl = self._get_symm_kl(noised_logits, input_logits)\n\n        if model.training:\n            symm_kl = symm_kl * sample_size\n            loss = loss + self.r3f_lambda * symm_kl\n\n        logging_output = {\n            \"loss\": loss.data,\n            \"nll_loss\": nll_loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"target\"].size(0),\n            \"sample_size\": sample_size,\n        }\n\n        if model.training:\n            logging_output.update(\n                symm_kl=utils.item(symm_kl.data) if reduce else symm_kl.data\n            )\n\n        return loss, sample_size, logging_output\n\n    def compute_loss(self, model, net_output, sample, reduce=True):\n        lprobs = model.get_normalized_probs(net_output, log_probs=True)\n        lprobs = lprobs.view(-1, lprobs.size(-1))\n        target = model.get_targets(sample, net_output).view(-1, 1)\n        loss, nll_loss = label_smoothed_nll_loss(\n            lprobs,\n            target,\n            self.label_smoothing,\n            ignore_index=self.padding_idx,\n            reduce=reduce,\n        )\n        return loss, nll_loss\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n        nll_loss_sum = sum(log.get(\"nll_loss\", 0) for log in logging_outputs)\n        ntokens = sum(log.get(\"ntokens\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        symm_kl_sum = sum(log.get(\"symm_kl\", 0) for log in logging_outputs)\n\n        metrics.log_scalar(\"symm_kl\", symm_kl_sum / sample_size, sample_size, round=3)\n        metrics.log_scalar(\n            \"loss\", loss_sum / sample_size / math.log(2), sample_size, round=3\n        )\n        metrics.log_scalar(\n            \"nll_loss\", nll_loss_sum / ntokens / math.log(2), ntokens, round=3\n        )\n        metrics.log_derived(\n            \"ppl\", lambda meters: utils.get_perplexity(meters[\"nll_loss\"].avg)\n        )\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "examples/rxf/rxf_src/sentence_prediction_r3f.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.criterions import FairseqCriterion, register_criterion\n\n\n@register_criterion(\"sentence_prediction_r3f\")\nclass SentencePredictionR3F(FairseqCriterion):\n    def __init__(\n        self,\n        task,\n        eps,\n        r3f_lambda,\n        noise_type,\n        classification_head_name,\n        regression_target,\n    ):\n        super().__init__(task)\n        self.eps = eps\n        self.r3f_lambda = r3f_lambda\n        self.noise_type = noise_type\n        self.classification_head_name = classification_head_name\n        self.regression_target = regression_target\n        if self.noise_type in {\"normal\"}:\n            self.noise_sampler = torch.distributions.normal.Normal(\n                loc=0.0, scale=self.eps\n            )\n        elif self.noise_type == \"uniform\":\n            self.noise_sampler = torch.distributions.uniform.Uniform(\n                low=-self.eps, high=self.eps\n            )\n        else:\n            raise Exception(f\"unrecognized noise type {self.noise_type}\")\n\n    @staticmethod\n    def add_args(parser):\n        # fmt: off\n        parser.add_argument('--eps', type=float, default=1e-5,\n                            help='noise eps')\n        parser.add_argument('--r3f-lambda', type=float, default=1.0,\n                            help='lambda for combining logistic loss and noisy KL loss')\n        parser.add_argument('--noise-type', type=str, default='uniform',\n                            choices=['normal', 'uniform'],\n                            help='type of noises for RXF methods')\n        parser.add_argument('--classification-head-name',\n                            default='sentence_classification_head',\n                            help='name of the classification head to use')\n        parser.add_argument('--regression-target', action='store_true')\n        # fmt: on\n\n    def _get_symm_kl(self, noised_logits, input_logits):\n        return (\n            F.kl_div(\n                F.log_softmax(noised_logits, dim=-1, dtype=torch.float32),\n                F.softmax(input_logits, dim=-1, dtype=torch.float32),\n                None,\n                None,\n                \"sum\",\n            )\n            + F.kl_div(\n                F.log_softmax(input_logits, dim=-1, dtype=torch.float32),\n                F.softmax(noised_logits, dim=-1, dtype=torch.float32),\n                None,\n                None,\n                \"sum\",\n            )\n        ) / noised_logits.size(0)\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        assert (\n            hasattr(model, \"classification_heads\")\n            and self.classification_head_name in model.classification_heads\n        ), \"model must provide sentence classification head for --criterion=sentence_prediction\"\n\n        token_embeddings = model.encoder.sentence_encoder.embed_tokens(\n            sample[\"net_input\"][\"src_tokens\"]\n        )\n        input_logits, _ = model(\n            **sample[\"net_input\"],\n            features_only=True,\n            classification_head_name=self.classification_head_name,\n            token_embeddings=token_embeddings,\n        )\n        if model.training and self.noise_sampler:\n            noise = self.noise_sampler.sample(sample_shape=token_embeddings.shape).to(\n                token_embeddings\n            )\n            noised_embeddings = token_embeddings.detach().clone() + noise\n\n            noised_logits, _ = model(\n                **sample[\"net_input\"],\n                features_only=True,\n                classification_head_name=self.classification_head_name,\n                token_embeddings=noised_embeddings,\n            )\n            symm_kl = self._get_symm_kl(noised_logits, input_logits)\n        else:\n            symm_kl = 0\n\n        targets = model.get_targets(sample, [input_logits]).view(-1)\n        sample_size = targets.numel()\n\n        if not self.regression_target:\n            loss = F.nll_loss(\n                F.log_softmax(input_logits, dim=-1, dtype=torch.float32),\n                targets,\n                reduction=\"sum\",\n            )\n            if model.training:\n                symm_kl = symm_kl * sample_size\n                loss = loss + self.r3f_lambda * symm_kl\n        else:\n            logits = input_logits.squeeze().float()\n            targets = targets.float()\n            loss = F.mse_loss(logits, targets, reduction=\"sum\")\n\n        logging_output = {\n            \"loss\": utils.item(loss.data) if reduce else loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample_size,\n            \"sample_size\": sample_size,\n        }\n\n        if not self.regression_target:\n            preds = input_logits.max(dim=1)[1]\n            logging_output.update(ncorrect=(preds == targets).sum().item())\n\n            if model.training and self.noise_sampler:\n                logging_output.update(\n                    symm_kl=utils.item(symm_kl.data) if reduce else symm_kl.data\n                )\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def aggregate_logging_outputs(logging_outputs):\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n        symm_kl_sum = sum(log.get(\"symm_kl\", 0) for log in logging_outputs)\n        ntokens = sum(log.get(\"ntokens\", 0) for log in logging_outputs)\n        nsentences = sum(log.get(\"nsentences\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n\n        agg_output = {\n            \"loss\": loss_sum / sample_size / math.log(2),\n            \"symm_kl\": symm_kl_sum / sample_size,\n            \"ntokens\": ntokens,\n            \"nsentences\": nsentences,\n            \"sample_size\": sample_size,\n        }\n\n        if len(logging_outputs) > 0 and \"ncorrect\" in logging_outputs[0]:\n            ncorrect = sum(log.get(\"ncorrect\", 0) for log in logging_outputs)\n            agg_output.update(accuracy=ncorrect / nsentences)\n\n        if sample_size != ntokens:\n            agg_output[\"nll_loss\"] = loss_sum / ntokens / math.log(2)\n        return agg_output\n"
  },
  {
    "path": "examples/scaling_nmt/README.md",
    "content": "# Scaling Neural Machine Translation (Ott et al., 2018)\n\nThis page includes instructions for reproducing results from the paper [Scaling Neural Machine Translation (Ott et al., 2018)](https://arxiv.org/abs/1806.00187).\n\n## Pre-trained models\n\nModel | Description | Dataset | Download\n---|---|---|---\n`transformer.wmt14.en-fr` | Transformer <br> ([Ott et al., 2018](https://arxiv.org/abs/1806.00187)) | [WMT14 English-French](http://statmt.org/wmt14/translation-task.html#Download) | model: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/models/wmt14.en-fr.joined-dict.transformer.tar.bz2) <br> newstest2014: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt14.en-fr.joined-dict.newstest2014.tar.bz2)\n`transformer.wmt16.en-de` | Transformer <br> ([Ott et al., 2018](https://arxiv.org/abs/1806.00187)) | [WMT16 English-German](https://drive.google.com/uc?export=download&id=0B_bZck-ksdkpM25jRUN2X2UxMm8) | model: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/models/wmt16.en-de.joined-dict.transformer.tar.bz2) <br> newstest2014: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt16.en-de.joined-dict.newstest2014.tar.bz2)\n\n## Training a new model on WMT'16 En-De\n\nFirst download the [preprocessed WMT'16 En-De data provided by Google](https://drive.google.com/uc?export=download&id=0B_bZck-ksdkpM25jRUN2X2UxMm8).\n\nThen:\n\n##### 1. Extract the WMT'16 En-De data\n```bash\nTEXT=wmt16_en_de_bpe32k\nmkdir -p $TEXT\ntar -xzvf wmt16_en_de.tar.gz -C $TEXT\n```\n\n##### 2. Preprocess the dataset with a joined dictionary\n```bash\nfairseq-preprocess \\\n    --source-lang en --target-lang de \\\n    --trainpref $TEXT/train.tok.clean.bpe.32000 \\\n    --validpref $TEXT/newstest2013.tok.bpe.32000 \\\n    --testpref $TEXT/newstest2014.tok.bpe.32000 \\\n    --destdir data-bin/wmt16_en_de_bpe32k \\\n    --nwordssrc 32768 --nwordstgt 32768 \\\n    --joined-dictionary \\\n    --workers 20\n```\n\n##### 3. Train a model\n```bash\nfairseq-train \\\n    data-bin/wmt16_en_de_bpe32k \\\n    --arch transformer_vaswani_wmt_en_de_big --share-all-embeddings \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' --clip-norm 0.0 \\\n    --lr 0.0005 --lr-scheduler inverse_sqrt --warmup-updates 4000 --warmup-init-lr 1e-07 \\\n    --dropout 0.3 --weight-decay 0.0 \\\n    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n    --max-tokens 3584 \\\n    --fp16\n```\n\nNote that the `--fp16` flag requires you have CUDA 9.1 or greater and a Volta GPU or newer.\n\n***IMPORTANT:*** You will get better performance by training with big batches and\nincreasing the learning rate. If you want to train the above model with big batches\n(assuming your machine has 8 GPUs):\n- add `--update-freq 16` to simulate training on 8x16=128 GPUs\n- increase the learning rate; 0.001 works well for big batches\n\n##### 4. Evaluate\n\nNow we can evaluate our trained model.\n\nNote that the original [Attention Is All You Need](https://arxiv.org/abs/1706.03762)\npaper used a couple tricks to achieve better BLEU scores. We use these same tricks in\nthe Scaling NMT paper, so it's important to apply them when reproducing our results.\n\nFirst, use the [average_checkpoints.py](/scripts/average_checkpoints.py) script to\naverage the last few checkpoints. Averaging the last 5-10 checkpoints is usually\ngood, but you may need to adjust this depending on how long you've trained:\n```bash\npython scripts/average_checkpoints \\\n    --inputs /path/to/checkpoints \\\n    --num-epoch-checkpoints 10 \\\n    --output checkpoint.avg10.pt\n```\n\nNext, generate translations using a beam width of 4 and length penalty of 0.6:\n```bash\nfairseq-generate \\\n    data-bin/wmt16_en_de_bpe32k \\\n    --path checkpoint.avg10.pt \\\n    --beam 4 --lenpen 0.6 --remove-bpe > gen.out\n```\n\nFinally, we apply the [\"compound splitting\" script](/scripts/compound_split_bleu.sh) to\nadd spaces around dashes. For example \"Café-Liebhaber\" would become three tokens:\n\"Café - Liebhaber\". This typically results in larger BLEU scores, but it is not\nappropriate to compare these inflated scores to work which does not include this trick.\nThis trick was used in the [original AIAYN code](https://github.com/tensorflow/tensor2tensor/blob/fc9335c0203685cbbfe2b30c92db4352d8f60779/tensor2tensor/utils/get_ende_bleu.sh),\nso we used it in the Scaling NMT paper as well. That said, it's strongly advised to\nreport [sacrebleu](https://github.com/mjpost/sacrebleu) scores instead.\n\nTo compute \"compound split\" tokenized BLEU (not recommended!):\n```bash\nbash scripts/compound_split_bleu.sh gen.out\n# BLEU4 = 29.29, 60.3/35.0/22.8/15.3 (BP=1.000, ratio=1.004, syslen=64763, reflen=64496)\n```\n\nTo compute detokenized BLEU with sacrebleu (preferred):\n```bash\nbash scripts/sacrebleu.sh wmt14/full en de gen.out\n# BLEU+case.mixed+lang.en-de+numrefs.1+smooth.exp+test.wmt14/full+tok.13a+version.1.4.3 = 28.6 59.3/34.3/22.1/14.9 (BP = 1.000 ratio = 1.016 hyp_len = 63666 ref_len = 62688)\n```\n\n## Citation\n\n```bibtex\n@inproceedings{ott2018scaling,\n  title = {Scaling Neural Machine Translation},\n  author = {Ott, Myle and Edunov, Sergey and Grangier, David and Auli, Michael},\n  booktitle = {Proceedings of the Third Conference on Machine Translation (WMT)},\n  year = 2018,\n}\n```\n"
  },
  {
    "path": "examples/shuffled_word_order/README.finetuning.md",
    "content": "# Fine-tuning details\n\nFor each task (GLUE and PAWS), we perform hyperparam search for each model, and report the mean and standard deviation across 5 seeds of the best model. First, get the datasets following the instructions in [RoBERTa fine-tuning README](../roberta/README.glue.md). Alternatively, you can use [huggingface datasets](https://huggingface.co/docs/datasets/) to get the task data:\n\n```python\nfrom datasets import load_dataset\nimport pandas as pd\nfrom pathlib import Path\n\nkey2file = {\n\"paws\": {\n        \"loc\": \"paws_data\",\n        \"columns\": [\"id\", \"sentence1\", \"sentence2\", \"label\"],\n        \"train\": \"train.tsv\",\n        \"validation\": \"dev.tsv\",\n        \"test\": \"test.tsv\"\n  }\n}\n\ntask_data = load_dataset(\"paws\", \"labeled_final\")\ntask_config = key2file[\"paws\"]\nsave_path = Path(task_config[\"loc\"])\nsave_path.mkdir(exist_ok=True, parents=True)\nfor key, fl in task_config.items():\n    if key in [\"loc\", \"columns\"]:\n        continue\n    print(f\"Reading {key}\")\n    columns = task_config[\"columns\"]\n    df = pd.DataFrame(task_data[key])\n    print(df.columns)\n    df = df[columns]\n    print(f\"Got {len(df)} records\")\n    save_loc = save_path / fl\n    print(f\"Saving to : {save_loc}\")\n    df.to_csv(save_loc, sep=\"\\t\", header=None, index=None)\n\n```\n\n- Preprocess using RoBERTa GLUE preprocessing script, while keeping in mind the column numbers for `sentence1`, `sentence2` and `label` (which is 0,1,2 if you save the data according to the above example.)\n- Then, fine-tuning is performed similarly to RoBERTa (for example, in case of RTE):\n\n```bash\nTOTAL_NUM_UPDATES=30875  # 10 epochs through RTE for bsz 16\nWARMUP_UPDATES=1852      # 6 percent of the number of updates\nLR=2e-05                # Peak LR for polynomial LR scheduler.\nNUM_CLASSES=2\nMAX_SENTENCES=16        # Batch size.\nSHUFFLED_ROBERTA_PATH=/path/to/shuffled_roberta/model.pt\n\nCUDA_VISIBLE_DEVICES=0 fairseq-train RTE-bin/ \\\n    --restore-file $SHUFFLED_ROBERTA_PATH \\\n    --max-positions 512 \\\n    --batch-size $MAX_SENTENCES \\\n    --max-tokens 4400 \\\n    --task sentence_prediction \\\n    --reset-optimizer --reset-dataloader --reset-meters \\\n    --required-batch-size-multiple 1 \\\n    --init-token 0 --separator-token 2 \\\n    --arch roberta_large \\\n    --criterion sentence_prediction \\\n    --num-classes $NUM_CLASSES \\\n    --dropout 0.1 --attention-dropout 0.1 \\\n    --weight-decay 0.1 --optimizer adam --adam-betas \"(0.9, 0.98)\" --adam-eps 1e-06 \\\n    --clip-norm 0.0 \\\n    --lr-scheduler polynomial_decay --lr $LR --total-num-update $TOTAL_NUM_UPDATES --warmup-updates $WARMUP_UPDATES \\\n    --fp16 --fp16-init-scale 4 --threshold-loss-scale 1 --fp16-scale-window 128 \\\n    --max-epoch 10 \\\n    --find-unused-parameters \\\n    --best-checkpoint-metric accuracy --maximize-best-checkpoint-metric;\n```\n\n- `TOTAL_NUM_UPDATES` is computed based on the `--batch_size` value and the dataset size.\n- `WARMUP_UPDATES` is computed as 6% of `TOTAL_NUM_UPDATES`\n- Best hyperparam of `--lr` and `--batch_size` is reported below:\n\n## `--lr`\n\n|     | name         |   RTE |  MRPC | SST-2 |  CoLA |   QQP |  QNLI |  MNLI |  PAWS |\n| --: | :----------- | ----: | ----: | ----: | ----: | ----: | ----: | ----: | ----: |\n|   0 | original     | 2e-05 | 2e-05 | 1e-05 | 2e-05 | 1e-05 | 1e-05 | 1e-05 | 2e-05 |\n|   1 | n_1          | 2e-05 | 1e-05 | 1e-05 | 1e-05 | 3e-05 | 1e-05 | 2e-05 | 2e-05 |\n|   2 | n_2          | 2e-05 | 2e-05 | 1e-05 | 1e-05 | 2e-05 | 1e-05 | 1e-05 | 3e-05 |\n|   3 | n_3          | 3e-05 | 1e-05 | 2e-05 | 2e-05 | 3e-05 | 1e-05 | 1e-05 | 2e-05 |\n|   4 | n_4          | 3e-05 | 1e-05 | 2e-05 | 2e-05 | 2e-05 | 1e-05 | 1e-05 | 2e-05 |\n|   5 | r512         | 1e-05 | 3e-05 | 2e-05 | 2e-05 | 3e-05 | 2e-05 | 3e-05 | 2e-05 |\n|   6 | rand_corpus  | 2e-05 | 1e-05 | 3e-05 | 1e-05 | 3e-05 | 3e-05 | 3e-05 | 2e-05 |\n|   7 | rand_uniform | 2e-05 | 1e-05 | 3e-05 | 2e-05 | 3e-05 | 3e-05 | 3e-05 | 1e-05 |\n|   8 | rand_init    | 1e-05 | 1e-05 | 3e-05 | 1e-05 | 1e-05 | 1e-05 | 2e-05 | 1e-05 |\n|   9 | no_pos       | 1e-05 | 3e-05 | 2e-05 | 1e-05 | 1e-05 | 1e-05 | 1e-05 | 1e-05 |\n\n## `--batch_size`\n\n|     | name         | RTE | MRPC | SST-2 | CoLA | QQP | QNLI | MNLI | PAWS |\n| --: | :----------- | --: | ---: | ----: | ---: | --: | ---: | ---: | ---: |\n|   0 | orig         |  16 |   16 |    32 |   16 |  16 |   32 |   32 |   16 |\n|   1 | n_1          |  32 |   32 |    16 |   32 |  32 |   16 |   32 |   16 |\n|   2 | n_2          |  32 |   16 |    32 |   16 |  32 |   32 |   16 |   32 |\n|   3 | n_3          |  32 |   32 |    16 |   32 |  32 |   16 |   32 |   32 |\n|   4 | n_4          |  32 |   16 |    32 |   16 |  32 |   32 |   32 |   32 |\n|   5 | r512         |  32 |   16 |    16 |   32 |  32 |   16 |   16 |   16 |\n|   6 | rand_corpus  |  16 |   16 |    16 |   16 |  32 |   16 |   16 |   32 |\n|   7 | rand_uniform |  16 |   32 |    16 |   16 |  32 |   16 |   16 |   16 |\n|   8 | rand_init    |  16 |   16 |    32 |   16 |  16 |   16 |   32 |   16 |\n|   9 | no_pos       |  16 |   32 |    16 |   16 |  32 |   16 |   16 |   16 |\n\n- Perform inference similar to RoBERTa as well:\n\n```python\nfrom fairseq.models.roberta import RobertaModel\n\nroberta = RobertaModel.from_pretrained(\n    'checkpoints/',\n    checkpoint_file='checkpoint_best.pt',\n    data_name_or_path='PAWS-bin'\n)\n\nlabel_fn = lambda label: roberta.task.label_dictionary.string(\n    [label + roberta.task.label_dictionary.nspecial]\n)\nncorrect, nsamples = 0, 0\nroberta.cuda()\nroberta.eval()\nwith open('paws_data/dev.tsv') as fin:\n    fin.readline()\n    for index, line in enumerate(fin):\n        tokens = line.strip().split('\\t')\n        sent1, sent2, target = tokens[0], tokens[1], tokens[2]\n        tokens = roberta.encode(sent1, sent2)\n        prediction = roberta.predict('sentence_classification_head', tokens).argmax().item()\n        prediction_label = label_fn(prediction)\n        ncorrect += int(prediction_label == target)\n        nsamples += 1\nprint('| Accuracy: ', float(ncorrect)/float(nsamples))\n\n```\n"
  },
  {
    "path": "examples/shuffled_word_order/README.md",
    "content": "# Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little\n\n[https://arxiv.org/abs/2104.06644](https://arxiv.org/abs/2104.06644)\n\n## Introduction\n\nIn this work, we pre-train [RoBERTa](../roberta) base on various word shuffled variants of BookWiki corpus (16GB). We observe that a word shuffled pre-trained model achieves surprisingly good scores on GLUE, PAWS and several parametric probing tasks. Please read our paper for more details on the experiments.\n\n## Pre-trained models\n\n| Model                                 | Description                                                                                        | Download                                                                                                                                      |\n| ------------------------------------- | -------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------- |\n| `roberta.base.orig`                   | RoBERTa (base) trained on natural corpus                                                           | [roberta.base.orig.tar.gz](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.orig.tar.gz)                                     |\n| `roberta.base.shuffle.n1`             | RoBERTa (base) trained on n=1 gram sentence word shuffled data                                     | [roberta.base.shuffle.n1.tar.gz](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.shuffle.n1.tar.gz)                         |\n| `roberta.base.shuffle.n2`             | RoBERTa (base) trained on n=2 gram sentence word shuffled data                                     | [roberta.base.shuffle.n2.tar.gz](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.shuffle.n2.tar.gz)                         |\n| `roberta.base.shuffle.n3`             | RoBERTa (base) trained on n=3 gram sentence word shuffled data                                     | [roberta.base.shuffle.n3.tar.gz](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.shuffle.n3.tar.gz)                         |\n| `roberta.base.shuffle.n4`             | RoBERTa (base) trained on n=4 gram sentence word shuffled data                                     | [roberta.base.shuffle.n4.tar.gz](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.shuffle.n4.tar.gz)                         |\n| `roberta.base.shuffle.512`            | RoBERTa (base) trained on unigram 512 word block shuffled data                                     | [roberta.base.shuffle.512.tar.gz](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.shuffle.512.tar.gz)                       |\n| `roberta.base.shuffle.corpus`         | RoBERTa (base) trained on unigram corpus word shuffled data                                        | [roberta.base.shuffle.corpus.tar.gz](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.shuffle.corpus.tar.gz)                 |\n| `roberta.base.shuffle.corpus_uniform` | RoBERTa (base) trained on unigram corpus word shuffled data, where all words are uniformly sampled | [roberta.base.shuffle.corpus_uniform.tar.gz](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.shuffle.corpus_uniform.tar.gz) |\n| `roberta.base.nopos`                  | RoBERTa (base) without positional embeddings, trained on natural corpus                            | [roberta.base.nopos.tar.gz](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.nopos.tar.gz)                                   |\n\n## Results\n\n[GLUE (Wang et al, 2019)](https://gluebenchmark.com/) & [PAWS (Zhang et al, 2019)](https://github.com/google-research-datasets/paws) _(dev set, single model, single-task fine-tuning, median of 5 seeds)_\n\n| name                                 |  CoLA |  MNLI |  MRPC |  PAWS |  QNLI |   QQP |   RTE | SST-2 |\n| :----------------------------------- | ----: | ----: | ----: | ----: | ----: | ----: | ----: | ----: |\n| `roberta.base.orig`                  |  61.4 | 86.11 | 89.19 | 94.46 | 92.53 | 91.26 | 74.64 | 93.92 |\n| `roberta.base.shuffle.n1`            | 35.15 | 82.64 |    86 | 89.97 | 89.02 | 91.01 | 69.02 | 90.47 |\n| `roberta.base.shuffle.n2`            | 54.37 | 83.43 | 86.24 | 93.46 | 90.44 | 91.36 | 70.83 | 91.79 |\n| `roberta.base.shuffle.n3`            | 48.72 | 83.85 | 86.36 | 94.05 | 91.69 | 91.24 | 70.65 | 92.02 |\n| `roberta.base.shuffle.n4`            | 58.64 | 83.77 | 86.98 | 94.32 | 91.69 |  91.4 | 70.83 | 92.48 |\n| `roberta.base.shuffle.512`           | 12.76 | 77.52 | 79.61 | 84.77 | 85.19 |  90.2 | 56.52 | 86.34 |\n| `roberta.base.shuffle.corpus`        |     0 |  71.9 | 70.52 | 58.52 | 71.11 | 85.52 | 53.99 | 83.35 |\n| `roberta.base.shuffle.corpus_random` |  9.19 | 72.33 | 70.76 | 58.42 | 77.76 | 85.93 | 53.99 | 84.04 |\n| `roberta.base.nopos`                 |     0 |  63.5 | 72.73 | 57.08 | 77.72 | 87.87 | 54.35 | 83.24 |\n\nFor more results on probing tasks, please refer to [our paper](https://arxiv.org/abs/2104.06644).\n\n## Example Usage\n\nFollow the same usage as in [RoBERTa](https://github.com/pytorch/fairseq/tree/main/examples/roberta) to load and test your models:\n\n```python\n# Download roberta.base.shuffle.n1 model\nwget https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.shuffle.n1.tar.gz\ntar -xzvf roberta.base.shuffle.n1.tar.gz\n# Copy the dictionary files\ncd roberta.base.shuffle.n1.tar.gz\nwget -O dict.txt https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/dict.txt && wget -O encoder.json https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/encoder.json && wget -O vocab.bpe https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/vocab.bpe\ncd ..\n\n# Load the model in fairseq\nfrom fairseq.models.roberta import RobertaModel\nroberta = RobertaModel.from_pretrained('/path/to/roberta.base.shuffle.n1', checkpoint_file='model.pt')\nroberta.eval()  # disable dropout (or leave in train mode to finetune)\n```\n\nWe have also provided a [Google Colab](https://colab.research.google.com/drive/1IJDVfNVWdvRfLjphQKBGzmob84t-OXpm) notebook to demonstrate the loading of the model. The models were trained on top of Fairseq from the following commit: [62cff008ebeeed855093837507d5e6bf52065ee6](https://github.com/pytorch/fairseq/commit/62cff008ebeeed855093837507d5e6bf52065ee6).\n\n**Note**: The model trained without positional embeddings (`roberta.base.nopos`) is a modified `RoBERTa` model, where the positional embeddings are not used. Thus, the typical `from_pretrained` method on fairseq version of RoBERTa will not be able to load the above model weights. To do so, construct a new `RoBERTaModel` object by setting the flag `use_positional_embeddings` to `False` (or [in the latest code](https://github.com/pytorch/fairseq/blob/main/fairseq/models/roberta/model.py#L543), set `no_token_positional_embeddings` to `True`), and then load the individual weights.\n\n## Fine-tuning Evaluation\n\nWe provide the trained fine-tuned models on MNLI here for each model above for quick evaluation (1 seed for each model). Please refer to [finetuning details](README.finetuning.md) for the parameters of these models. Follow [RoBERTa](https://github.com/pytorch/fairseq/tree/main/examples/roberta) instructions to evaluate these models.\n\n| Model                                      | MNLI M Dev Accuracy | Link                                                                                                             |\n| :----------------------------------------- | :------------------ | :--------------------------------------------------------------------------------------------------------------- |\n| `roberta.base.orig.mnli`                   | 86.14               | [Download](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.orig.mnli.tar.gz)                   |\n| `roberta.base.shuffle.n1.mnli`             | 82.55               | [Download](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.shuffle.n1.mnli.tar.gz)             |\n| `roberta.base.shuffle.n2.mnli`             | 83.21               | [Download](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.shuffle.n2.mnli.tar.gz)             |\n| `roberta.base.shuffle.n3.mnli`             | 83.89               | [Download](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.shuffle.n3.mnli.tar.gz)             |\n| `roberta.base.shuffle.n4.mnli`             | 84.00               | [Download](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.shuffle.n4.mnli.tar.gz)             |\n| `roberta.base.shuffle.512.mnli`            | 77.22               | [Download](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.shuffle.512.mnli.tar.gz)            |\n| `roberta.base.shuffle.corpus.mnli`         | 71.88               | [Download](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.shuffle.corpus.mnli.tar.gz)         |\n| `roberta.base.shuffle.corpus_uniform.mnli` | 72.46               | [Download](https://dl.fbaipublicfiles.com/unnatural_pretraining/roberta.base.shuffle.corpus_uniform.mnli.tar.gz) |\n\n## Citation\n\n```bibtex\n@misc{sinha2021masked,\n      title={Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little},\n      author={Koustuv Sinha and Robin Jia and Dieuwke Hupkes and Joelle Pineau and Adina Williams and Douwe Kiela},\n      year={2021},\n      eprint={2104.06644},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL}\n}\n```\n\n## Contact\n\nFor questions and comments, please reach out to Koustuv Sinha (koustuv.sinha@mail.mcgill.ca).\n"
  },
  {
    "path": "examples/simultaneous_translation/README.md",
    "content": "# Simultaneous Translation\nExamples of simultaneous translation in fairseq\n- [English-to-Japanese text-to-text wait-k model](docs/enja-waitk.md)\n- [English-to-Germen text-to-text monotonic multihead attention model](docs/ende-mma.md)\n- [English-to-Germen speech-to-text simultaneous translation model](../speech_to_text/docs/simulst_mustc_example.md)\n"
  },
  {
    "path": "examples/simultaneous_translation/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import models  # noqa\n"
  },
  {
    "path": "examples/simultaneous_translation/docs/ende-mma.md",
    "content": "# Simultaneous Machine Translation\n\nThis directory contains the code for the paper [Monotonic Multihead Attention](https://openreview.net/forum?id=Hyg96gBKPS)\n\n## Prepare Data\n\n[Please follow the instructions to download and preprocess the WMT'15 En-De dataset.](https://github.com/pytorch/fairseq/tree/simulastsharedtask/examples/translation#prepare-wmt14en2desh)\n\nAnother example of training an English to Japanese model can be found [here](docs/enja.md)\n\n## Training\n\n- MMA-IL\n\n```shell\nfairseq-train \\\n    data-bin/wmt15_en_de_32k \\\n    --simul-type infinite_lookback \\\n    --user-dir $FAIRSEQ/example/simultaneous_translation \\\n    --mass-preservation \\\n    --criterion latency_augmented_label_smoothed_cross_entropy \\\n    --latency-weight-avg  0.1 \\\n    --max-update 50000 \\\n    --arch transformer_monotonic_iwslt_de_en save_dir_key=lambda \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' \\\n    --lr-scheduler 'inverse_sqrt' \\\n    --warmup-init-lr 1e-7  --warmup-updates 4000 \\\n    --lr 5e-4 --stop-min-lr 1e-9 --clip-norm 0.0 --weight-decay 0.0001\\\n    --dropout 0.3 \\\n    --label-smoothing 0.1\\\n    --max-tokens 3584\n```\n\n- MMA-H\n\n```shell\nfairseq-train \\\n    data-bin/wmt15_en_de_32k \\\n    --simul-type hard_aligned \\\n    --user-dir $FAIRSEQ/example/simultaneous_translation \\\n    --mass-preservation \\\n    --criterion latency_augmented_label_smoothed_cross_entropy \\\n    --latency-weight-var  0.1 \\\n    --max-update 50000 \\\n    --arch transformer_monotonic_iwslt_de_en save_dir_key=lambda \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' \\\n    --lr-scheduler 'inverse_sqrt' \\\n    --warmup-init-lr 1e-7  --warmup-updates 4000 \\\n    --lr 5e-4 --stop-min-lr 1e-9 --clip-norm 0.0 --weight-decay 0.0001\\\n    --dropout 0.3 \\\n    --label-smoothing 0.1\\\n    --max-tokens 3584\n```\n\n- wait-k\n\n```shell\nfairseq-train \\\n    data-bin/wmt15_en_de_32k \\\n    --simul-type wait-k \\\n    --waitk-lagging 3 \\\n    --user-dir $FAIRSEQ/example/simultaneous_translation \\\n    --mass-preservation \\\n    --criterion latency_augmented_label_smoothed_cross_entropy \\\n    --max-update 50000 \\\n    --arch transformer_monotonic_iwslt_de_en save_dir_key=lambda \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' \\\n    --lr-scheduler 'inverse_sqrt' \\\n    --warmup-init-lr 1e-7  --warmup-updates 4000 \\\n    --lr 5e-4 --stop-min-lr 1e-9 --clip-norm 0.0 --weight-decay 0.0001\\\n    --dropout 0.3 \\\n    --label-smoothing 0.1\\\n    --max-tokens 3584\n```\n"
  },
  {
    "path": "examples/simultaneous_translation/docs/enja-waitk.md",
    "content": "# An example of English to Japaneses Simultaneous Translation System\n\nThis is an example of training and evaluating a transformer *wait-k* English to Japanese simultaneous text-to-text translation model.\n\n## Data Preparation\nThis section introduces the data preparation for training and evaluation.\nIf you only want to evaluate the model, please jump to [Inference & Evaluation](#inference-&-evaluation)\n\nFor illustration, we only use the following subsets of the available data from [WMT20 news translation task](http://www.statmt.org/wmt20/translation-task.html), which results in 7,815,391 sentence pairs.\n- News Commentary v16\n- Wiki Titles v3\n- WikiMatrix V1\n- Japanese-English Subtitle Corpus\n- The Kyoto Free Translation Task Corpus\n\nWe use WMT20 development data as development set. Training `transformer_vaswani_wmt_en_de_big` model on such amount of data will result in 17.3 BLEU with greedy search and 19.7 with beam (10) search. Notice that a better performance can be achieved with the full WMT training data.\n\nWe use [sentencepiece](https://github.com/google/sentencepiece) toolkit to tokenize the data with a vocabulary size of 32000.\nAdditionally, we filtered out the sentences longer than 200 words after tokenization.\nAssuming the tokenized text data is saved at `${DATA_DIR}`,\nwe prepare the data binary with the following command.\n\n```bash\nfairseq-preprocess \\\n    --source-lang en --target-lang ja \\\n    --trainpref ${DATA_DIR}/train \\\n    --validpref ${DATA_DIR}/dev \\\n    --testpref ${DATA_DIR}/test \\\n    --destdir ${WMT20_ENJA_DATA_BIN} \\\n    --nwordstgt 32000 --nwordssrc 32000 \\\n    --workers 20\n```\n\n## Simultaneous Translation Model Training\nTo train a wait-k `(k=10)` model.\n```bash\nfairseq-train ${WMT20_ENJA_DATA_BIN}  \\\n    --save-dir ${SAVEDIR}\n    --simul-type waitk  \\\n    --waitk-lagging 10  \\\n    --max-epoch 70  \\\n    --arch transformer_monotonic_vaswani_wmt_en_de_big \\\n    --optimizer adam  \\\n    --adam-betas '(0.9, 0.98)'  \\\n    --lr-scheduler inverse_sqrt  \\\n    --warmup-init-lr 1e-07  \\\n    --warmup-updates 4000  \\\n    --lr 0.0005  \\\n    --stop-min-lr 1e-09  \\\n    --clip-norm 10.0  \\\n    --dropout 0.3  \\\n    --weight-decay 0.0  \\\n    --criterion label_smoothed_cross_entropy  \\\n    --label-smoothing 0.1  \\\n    --max-tokens 3584\n```\nThis command is for training on 8 GPUs. Equivalently, the model can be trained on one GPU with `--update-freq 8`.\n\n## Inference & Evaluation\nFirst of all, install [SimulEval](https://github.com/facebookresearch/SimulEval) for evaluation.\n\n```bash\ngit clone https://github.com/facebookresearch/SimulEval.git\ncd SimulEval\npip install -e .\n```\n\nThe following command is for the evaluation.\nAssuming the source and reference files are `${SRC_FILE}` and `${REF_FILE}`, the sentencepiece model file for English is saved at `${SRC_SPM_PATH}`\n\n\n```bash\nsimuleval \\\n    --source ${SRC_FILE} \\\n    --target ${TGT_FILE} \\\n    --data-bin ${WMT20_ENJA_DATA_BIN} \\\n    --sacrebleu-tokenizer ja-mecab \\\n    --eval-latency-unit char \\\n    --no-space \\\n    --src-splitter-type sentencepiecemodel \\\n    --src-splitter-path ${SRC_SPM_PATH} \\\n    --agent ${FAIRSEQ}/examples/simultaneous_translation/agents/simul_trans_text_agent_enja.py \\\n    --model-path ${SAVE_DIR}/${CHECKPOINT_FILENAME} \\\n    --output ${OUTPUT} \\\n    --scores\n```\n\nThe `--data-bin` should be the same in previous sections if you prepare the data from the scratch.\nIf only for evaluation, a prepared data directory can be found [here](https://dl.fbaipublicfiles.com/simultaneous_translation/wmt20_enja_medium_databin.tgz) and a pretrained checkpoint (wait-k=10 model) can be downloaded from [here](https://dl.fbaipublicfiles.com/simultaneous_translation/wmt20_enja_medium_wait10_ckpt.pt).\n\nThe output should look like this:\n```bash\n{\n    \"Quality\": {\n        \"BLEU\": 11.442253287568398\n    },\n    \"Latency\": {\n        \"AL\": 8.6587861866951,\n        \"AP\": 0.7863304776251316,\n        \"DAL\": 9.477850951194764\n    }\n}\n```\nThe latency is evaluated by characters (`--eval-latency-unit`) on the target side. The latency is evaluated with `sacrebleu` with `MeCab` tokenizer `--sacrebleu-tokenizer ja-mecab`. `--no-space` indicates that do not add space when merging the predicted words.\n\nIf `--output ${OUTPUT}` option is used, the detailed log and scores will be stored under the `${OUTPUT}` directory.\n"
  },
  {
    "path": "examples/simultaneous_translation/eval/agents/simul_t2t_enja.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\n\nfrom fairseq import checkpoint_utils, tasks\nimport sentencepiece as spm\nimport torch\n\ntry:\n    from simuleval import READ_ACTION, WRITE_ACTION, DEFAULT_EOS\n    from simuleval.agents import TextAgent\nexcept ImportError:\n    print(\"Please install simuleval 'pip install simuleval'\")\n\n\nBOS_PREFIX = \"\\u2581\"\n\n\nclass SimulTransTextAgentJA(TextAgent):\n    \"\"\"\n    Simultaneous Translation\n    Text agent for Japanese\n    \"\"\"\n    def __init__(self, args):\n\n        # Whether use gpu\n        self.gpu = getattr(args, \"gpu\", False)\n\n        # Max len\n        self.max_len = args.max_len\n\n        # Load Model\n        self.load_model_vocab(args)\n\n        # build word splitter\n        self.build_word_splitter(args)\n\n        self.eos = DEFAULT_EOS\n\n    def initialize_states(self, states):\n        states.incremental_states = dict()\n        states.incremental_states[\"online\"] = dict()\n\n    def to_device(self, tensor):\n        if self.gpu:\n            return tensor.cuda()\n        else:\n            return tensor.cpu()\n\n    def load_model_vocab(self, args):\n\n        filename = args.model_path\n        if not os.path.exists(filename):\n            raise IOError(\"Model file not found: {}\".format(filename))\n\n        state = checkpoint_utils.load_checkpoint_to_cpu(filename)\n\n        task_args = state[\"cfg\"][\"task\"]\n        task_args.data = args.data_bin\n\n        task = tasks.setup_task(task_args)\n\n        # build model for ensemble\n        state[\"cfg\"][\"model\"].load_pretrained_encoder_from = None\n        state[\"cfg\"][\"model\"].load_pretrained_decoder_from = None\n\n        self.model = task.build_model(state[\"cfg\"][\"model\"])\n        self.model.load_state_dict(state[\"model\"], strict=True)\n        self.model.eval()\n        self.model.share_memory()\n\n        if self.gpu:\n            self.model.cuda()\n\n        # Set dictionary\n        self.dict = {}\n        self.dict[\"tgt\"] = task.target_dictionary\n        self.dict[\"src\"] = task.source_dictionary\n\n    @staticmethod\n    def add_args(parser):\n        # fmt: off\n        parser.add_argument('--model-path', type=str, required=True,\n                            help='path to your pretrained model.')\n        parser.add_argument(\"--data-bin\", type=str, required=True,\n                            help=\"Path of data binary\")\n        parser.add_argument(\"--max-len\", type=int, default=100,\n                            help=\"Max length of translation\")\n        parser.add_argument(\"--tgt-splitter-type\", type=str, default=\"SentencePiece\",\n                            help=\"Subword splitter type for target text.\")\n        parser.add_argument(\"--tgt-splitter-path\", type=str, default=None,\n                            help=\"Subword splitter model path for target text.\")\n        parser.add_argument(\"--src-splitter-type\", type=str, default=\"SentencePiece\",\n                            help=\"Subword splitter type for source text.\")\n        parser.add_argument(\"--src-splitter-path\", type=str, default=None,\n                            help=\"Subword splitter model path for source text.\")\n        # fmt: on\n        return parser\n\n    def build_word_splitter(self, args):\n        self.spm = {}\n        for lang in ['src', 'tgt']:\n            if getattr(args, f'{lang}_splitter_type', None):\n                path = getattr(args, f'{lang}_splitter_path', None)\n                if path:\n                    self.spm[lang] = spm.SentencePieceProcessor()\n                    self.spm[lang].Load(path)\n\n    def segment_to_units(self, segment, states):\n        # Split a full word (segment) into subwords (units)\n        return self.spm['src'].EncodeAsPieces(segment)\n\n    def update_model_encoder(self, states):\n        if len(states.units.source) == 0:\n            return\n\n        src_indices = [\n            self.dict['src'].index(x)\n            for x in states.units.source.value\n        ]\n\n        if states.finish_read():\n            # Append the eos index when the prediction is over\n            src_indices += [self.dict[\"tgt\"].eos_index]\n\n        src_indices = self.to_device(\n            torch.LongTensor(src_indices).unsqueeze(0)\n        )\n        src_lengths = self.to_device(\n            torch.LongTensor([src_indices.size(1)])\n        )\n\n        states.encoder_states = self.model.encoder(src_indices, src_lengths)\n\n        torch.cuda.empty_cache()\n\n    def update_states_read(self, states):\n        # Happens after a read action.\n        self.update_model_encoder(states)\n\n    def units_to_segment(self, units, states):\n        # Merge sub words (units) to full word (segment).\n        # For Japanese, we can directly send\n        # the untokenized token to server except the BOS token\n        # with following option\n        # --sacrebleu-tokenizer MeCab\n        # --eval-latency-unit char\n        # --no-space\n        token = units.value.pop()\n\n        if (\n            token == self.dict[\"tgt\"].eos_word\n            or len(states.segments.target) > self.max_len\n        ):\n            return DEFAULT_EOS\n\n        if BOS_PREFIX == token:\n            return None\n        if token[0] == BOS_PREFIX:\n            return token[1:]\n        else:\n            return token\n\n    def policy(self, states):\n\n        if not getattr(states, \"encoder_states\", None):\n            # No encoder states, read a token first\n            return READ_ACTION\n\n        # encode previous predicted target tokens\n        tgt_indices = self.to_device(\n            torch.LongTensor(\n                [self.model.decoder.dictionary.eos()]\n                + [\n                    self.dict['tgt'].index(x)\n                    for x in states.units.target.value\n                    if x is not None\n                ]\n            ).unsqueeze(0)\n        )\n\n        # Current steps\n        states.incremental_states[\"steps\"] = {\n            \"src\": states.encoder_states[\"encoder_out\"][0].size(0),\n            \"tgt\": 1 + len(states.units.target),\n        }\n\n        # Online only means the reading is not finished\n        states.incremental_states[\"online\"][\"only\"] = (\n            torch.BoolTensor([not states.finish_read()])\n        )\n\n        x, outputs = self.model.decoder.forward(\n            prev_output_tokens=tgt_indices,\n            encoder_out=states.encoder_states,\n            incremental_state=states.incremental_states,\n        )\n\n        states.decoder_out = x\n\n        torch.cuda.empty_cache()\n\n        if outputs.action == 0:\n            return READ_ACTION\n        else:\n            return WRITE_ACTION\n\n    def predict(self, states):\n        # Predict target token from decoder states\n        decoder_states = states.decoder_out\n\n        lprobs = self.model.get_normalized_probs(\n            [decoder_states[:, -1:]], log_probs=True\n        )\n\n        index = lprobs.argmax(dim=-1)[0, 0].item()\n\n        if index != self.dict['tgt'].eos_index:\n            token = self.dict['tgt'].string([index])\n        else:\n            token = self.dict['tgt'].eos_word\n\n        return token\n"
  },
  {
    "path": "examples/simultaneous_translation/models/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport importlib\nimport os\n\n\nfor file in sorted(os.listdir(os.path.dirname(__file__))):\n    if file.endswith(\".py\") and not file.startswith(\"_\"):\n        model_name = file[: file.find(\".py\")]\n        importlib.import_module(\n            \"examples.simultaneous_translation.models.\" + model_name\n        )\n"
  },
  {
    "path": "examples/simultaneous_translation/models/convtransformer_simul_trans.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nfrom fairseq import checkpoint_utils\nfrom fairseq.models import (\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.speech_to_text import (\n    ConvTransformerModel,\n    convtransformer_espnet,\n    ConvTransformerEncoder,\n)\nfrom fairseq.models.speech_to_text.modules.augmented_memory_attention import (\n    augmented_memory,\n    SequenceEncoder,\n    AugmentedMemoryConvTransformerEncoder,\n)\n\nfrom torch import nn, Tensor\nfrom typing import Dict, List\nfrom fairseq.models.speech_to_text.modules.emformer import NoSegAugmentedMemoryTransformerEncoderLayer\n\n@register_model(\"convtransformer_simul_trans\")\nclass SimulConvTransformerModel(ConvTransformerModel):\n    \"\"\"\n    Implementation of the paper:\n\n    SimulMT to SimulST: Adapting Simultaneous Text Translation to\n    End-to-End Simultaneous Speech Translation\n\n    https://www.aclweb.org/anthology/2020.aacl-main.58.pdf\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        super(SimulConvTransformerModel, SimulConvTransformerModel).add_args(parser)\n        parser.add_argument(\n            \"--train-monotonic-only\",\n            action=\"store_true\",\n            default=False,\n            help=\"Only train monotonic attention\",\n        )\n\n    @classmethod\n    def build_decoder(cls, args, task, embed_tokens):\n        tgt_dict = task.tgt_dict\n\n        from examples.simultaneous_translation.models.transformer_monotonic_attention import (\n            TransformerMonotonicDecoder,\n        )\n\n        decoder = TransformerMonotonicDecoder(args, tgt_dict, embed_tokens)\n\n        if getattr(args, \"load_pretrained_decoder_from\", None):\n            decoder = checkpoint_utils.load_pretrained_component_from_model(\n                component=decoder, checkpoint=args.load_pretrained_decoder_from\n            )\n        return decoder\n\n\n@register_model_architecture(\n    \"convtransformer_simul_trans\", \"convtransformer_simul_trans_espnet\"\n)\ndef convtransformer_simul_trans_espnet(args):\n    convtransformer_espnet(args)\n\n\n@register_model(\"convtransformer_augmented_memory\")\n@augmented_memory\nclass AugmentedMemoryConvTransformerModel(SimulConvTransformerModel):\n    @classmethod\n    def build_encoder(cls, args):\n        encoder = SequenceEncoder(args, AugmentedMemoryConvTransformerEncoder(args))\n\n        if getattr(args, \"load_pretrained_encoder_from\", None) is not None:\n            encoder = checkpoint_utils.load_pretrained_component_from_model(\n                component=encoder, checkpoint=args.load_pretrained_encoder_from\n            )\n\n        return encoder\n\n\n@register_model_architecture(\n    \"convtransformer_augmented_memory\", \"convtransformer_augmented_memory\"\n)\ndef augmented_memory_convtransformer_espnet(args):\n    convtransformer_espnet(args)\n\n\n# ============================================================================ #\n#   Convtransformer\n#   with monotonic attention decoder\n#   with emformer encoder\n# ============================================================================ #\n\n\nclass ConvTransformerEmformerEncoder(ConvTransformerEncoder):\n    def __init__(self, args):\n        super().__init__(args)\n        stride = self.conv_layer_stride(args)\n        trf_left_context = args.segment_left_context // stride\n        trf_right_context = args.segment_right_context // stride\n        context_config = [trf_left_context, trf_right_context]\n        self.transformer_layers = nn.ModuleList(\n            [\n                NoSegAugmentedMemoryTransformerEncoderLayer(\n                    input_dim=args.encoder_embed_dim,\n                    num_heads=args.encoder_attention_heads,\n                    ffn_dim=args.encoder_ffn_embed_dim,\n                    num_layers=args.encoder_layers,\n                    dropout_in_attn=args.dropout,\n                    dropout_on_attn=args.dropout,\n                    dropout_on_fc1=args.dropout,\n                    dropout_on_fc2=args.dropout,\n                    activation_fn=args.activation_fn,\n                    context_config=context_config,\n                    segment_size=args.segment_length,\n                    max_memory_size=args.max_memory_size,\n                    scaled_init=True,  # TODO: use constant for now.\n                    tanh_on_mem=args.amtrf_tanh_on_mem,\n                )\n            ]\n        )\n        self.conv_transformer_encoder = ConvTransformerEncoder(args)\n\n    def forward(self, src_tokens, src_lengths):\n        encoder_out: Dict[str, List[Tensor]] = self.conv_transformer_encoder(src_tokens, src_lengths.to(src_tokens.device))\n        output = encoder_out[\"encoder_out\"][0]\n        encoder_padding_masks = encoder_out[\"encoder_padding_mask\"]\n\n        return {\n            \"encoder_out\": [output],\n            # This is because that in the original implementation\n            # the output didn't consider the last segment as right context.\n            \"encoder_padding_mask\": [encoder_padding_masks[0][:, : output.size(0)]] if len(encoder_padding_masks) > 0\n            else [],\n            \"encoder_embedding\": [],\n            \"encoder_states\": [],\n            \"src_tokens\": [],\n            \"src_lengths\": [],\n        }\n\n    @staticmethod\n    def conv_layer_stride(args):\n        # TODO: make it configurable from the args\n        return 4\n\n\n@register_model(\"convtransformer_emformer\")\nclass ConvtransformerEmformer(SimulConvTransformerModel):\n    @staticmethod\n    def add_args(parser):\n        super(ConvtransformerEmformer, ConvtransformerEmformer).add_args(parser)\n\n        parser.add_argument(\n            \"--segment-length\",\n            type=int,\n            metavar=\"N\",\n            help=\"length of each segment (not including left context / right context)\",\n        )\n        parser.add_argument(\n            \"--segment-left-context\",\n            type=int,\n            help=\"length of left context in a segment\",\n        )\n        parser.add_argument(\n            \"--segment-right-context\",\n            type=int,\n            help=\"length of right context in a segment\",\n        )\n        parser.add_argument(\n            \"--max-memory-size\",\n            type=int,\n            default=-1,\n            help=\"Right context for the segment.\",\n        )\n        parser.add_argument(\n            \"--amtrf-tanh-on-mem\",\n            default=False,\n            action=\"store_true\",\n            help=\"whether to use tanh on memory vector\",\n        )\n\n    @classmethod\n    def build_encoder(cls, args):\n        encoder = ConvTransformerEmformerEncoder(args)\n        if getattr(args, \"load_pretrained_encoder_from\", None):\n            encoder = checkpoint_utils.load_pretrained_component_from_model(\n                component=encoder, checkpoint=args.load_pretrained_encoder_from\n            )\n        return encoder\n\n\n@register_model_architecture(\n    \"convtransformer_emformer\",\n    \"convtransformer_emformer\",\n)\ndef convtransformer_emformer_base(args):\n    convtransformer_espnet(args)\n"
  },
  {
    "path": "examples/simultaneous_translation/models/transformer_monotonic_attention.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Dict, List, NamedTuple, Optional\n\nimport torch\nimport torch.nn as nn\nfrom examples.simultaneous_translation.modules.monotonic_transformer_layer import (\n    TransformerMonotonicDecoderLayer,\n    TransformerMonotonicEncoderLayer,\n)\nfrom fairseq.models import (\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.transformer import (\n    TransformerModel,\n    TransformerEncoder,\n    TransformerDecoder,\n    base_architecture,\n    transformer_iwslt_de_en,\n    transformer_vaswani_wmt_en_de_big,\n    tiny_architecture\n)\nfrom torch import Tensor\n\nDEFAULT_MAX_SOURCE_POSITIONS = 1024\nDEFAULT_MAX_TARGET_POSITIONS = 1024\nREAD_ACTION = 0\nWRITE_ACTION = 1\n\nTransformerMonotonicDecoderOut = NamedTuple(\n    \"TransformerMonotonicDecoderOut\",\n    [\n        (\"action\", int),\n        (\"p_choose\", Optional[Tensor]),\n        (\"attn_list\", Optional[List[Optional[Dict[str, Tensor]]]]),\n        (\"encoder_out\", Optional[Dict[str, List[Tensor]]]),\n        (\"encoder_padding_mask\", Optional[Tensor]),\n    ],\n)\n\n\n@register_model(\"transformer_unidirectional\")\nclass TransformerUnidirectionalModel(TransformerModel):\n    @classmethod\n    def build_encoder(cls, args, src_dict, embed_tokens):\n        return TransformerMonotonicEncoder(args, src_dict, embed_tokens)\n\n\n@register_model(\"transformer_monotonic\")\nclass TransformerModelSimulTrans(TransformerModel):\n    @classmethod\n    def build_encoder(cls, args, src_dict, embed_tokens):\n        return TransformerMonotonicEncoder(args, src_dict, embed_tokens)\n\n    @classmethod\n    def build_decoder(cls, args, tgt_dict, embed_tokens):\n        return TransformerMonotonicDecoder(args, tgt_dict, embed_tokens)\n\n\nclass TransformerMonotonicEncoder(TransformerEncoder):\n    def __init__(self, args, dictionary, embed_tokens):\n        super().__init__(args, dictionary, embed_tokens)\n\n        self.dictionary = dictionary\n        self.layers = nn.ModuleList([])\n        self.layers.extend(\n            [\n                TransformerMonotonicEncoderLayer(args)\n                for i in range(args.encoder_layers)\n            ]\n        )\n\n\nclass TransformerMonotonicDecoder(TransformerDecoder):\n    \"\"\"\n    Transformer decoder consisting of *args.decoder_layers* layers. Each layer\n    is a :class:`TransformerDecoderLayer`.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        dictionary (~fairseq.data.Dictionary): decoding dictionary\n        embed_tokens (torch.nn.Embedding): output embedding\n        no_encoder_attn (bool, optional): whether to attend to encoder outputs\n            (default: False).\n    \"\"\"\n\n    def __init__(self, args, dictionary, embed_tokens, no_encoder_attn=False):\n        super().__init__(args, dictionary, embed_tokens, no_encoder_attn=False)\n\n        self.dictionary = dictionary\n        self.layers = nn.ModuleList([])\n        self.layers.extend(\n            [\n                TransformerMonotonicDecoderLayer(args)\n                for _ in range(args.decoder_layers)\n            ]\n        )\n        self.policy_criterion = getattr(args, \"policy_criterion\", \"any\")\n        self.num_updates = None\n\n    def set_num_updates(self, num_updates):\n        self.num_updates = num_updates\n\n    def pre_attention(\n        self,\n        prev_output_tokens,\n        encoder_out_dict: Dict[str, List[Tensor]],\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n    ):\n        positions = (\n            self.embed_positions(\n                prev_output_tokens,\n                incremental_state=incremental_state,\n            )\n            if self.embed_positions is not None\n            else None\n        )\n\n        if incremental_state is not None:\n            prev_output_tokens = prev_output_tokens[:, -1:]\n            if positions is not None:\n                positions = positions[:, -1:]\n        # embed tokens and positions\n        x = self.embed_scale * self.embed_tokens(prev_output_tokens)\n\n        if self.project_in_dim is not None:\n            x = self.project_in_dim(x)\n\n        if positions is not None:\n            x += positions\n\n        x = self.dropout_module(x)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        encoder_out = encoder_out_dict[\"encoder_out\"][0]\n\n        if \"encoder_padding_mask\" in encoder_out_dict:\n            encoder_padding_mask = (\n                encoder_out_dict[\"encoder_padding_mask\"][0]\n                if encoder_out_dict[\"encoder_padding_mask\"]\n                and len(encoder_out_dict[\"encoder_padding_mask\"]) > 0\n                else None\n            )\n        else:\n            encoder_padding_mask = None\n\n        return x, encoder_out, encoder_padding_mask\n\n    def post_attention(self, x):\n        if self.layer_norm is not None:\n            x = self.layer_norm(x)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        if self.project_out_dim is not None:\n            x = self.project_out_dim(x)\n\n        return x\n\n    def clean_cache(\n        self,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]],\n        end_id: Optional[int] = None,\n    ):\n        \"\"\"\n        Clean cache in the monotonic layers.\n        The cache is generated because of a forward pass of decoder has run but no prediction,\n        so that the self attention key value in decoder is written in the incremental state.\n        end_id is the last idx of the layers\n        \"\"\"\n        if end_id is None:\n            end_id = len(self.layers)\n\n        for index, layer in enumerate(self.layers):\n            if index < end_id:\n                layer.prune_incremental_state(incremental_state)\n\n    def extract_features(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]],\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        full_context_alignment: bool = False,  # unused\n        alignment_layer: Optional[int] = None,  # unused\n        alignment_heads: Optional[int] = None,  # unsed\n    ):\n        \"\"\"\n        Similar to *forward* but only return features.\n\n        Returns:\n            tuple:\n                - the decoder's features of shape `(batch, tgt_len, embed_dim)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        # incremental_state = None\n        assert encoder_out is not None\n        (x, encoder_outs, encoder_padding_mask) = self.pre_attention(\n            prev_output_tokens, encoder_out, incremental_state\n        )\n        attn = None\n        inner_states = [x]\n        attn_list: List[Optional[Dict[str, Tensor]]] = []\n\n        p_choose = torch.tensor([1.0])\n\n        for i, layer in enumerate(self.layers):\n\n            x, attn, _ = layer(\n                x=x,\n                encoder_out=encoder_outs,\n                encoder_padding_mask=encoder_padding_mask,\n                incremental_state=incremental_state,\n                self_attn_mask=self.buffered_future_mask(x)\n                if incremental_state is None\n                else None,\n            )\n\n            inner_states.append(x)\n            attn_list.append(attn)\n\n            if incremental_state is not None:\n                if_online = incremental_state[\"online\"][\"only\"]\n                assert if_online is not None\n                if if_online.to(torch.bool):\n                    # Online indicates that the encoder states are still changing\n                    assert attn is not None\n                    if self.policy_criterion == \"any\":\n                        # Any head decide to read than read\n                        head_read = layer.encoder_attn._get_monotonic_buffer(incremental_state)[\"head_read\"]\n                        assert head_read is not None\n                        if head_read.any():\n                            # We need to prune the last self_attn saved_state\n                            # if model decide not to read\n                            # otherwise there will be duplicated saved_state\n                            self.clean_cache(incremental_state, i + 1)\n\n                            return x, TransformerMonotonicDecoderOut(\n                                action=0,\n                                p_choose=p_choose,\n                                attn_list=None,\n                                encoder_out=None,\n                                encoder_padding_mask=None,\n                            )\n\n        x = self.post_attention(x)\n\n        return x, TransformerMonotonicDecoderOut(\n            action=1,\n            p_choose=p_choose,\n            attn_list=attn_list,\n            encoder_out=encoder_out,\n            encoder_padding_mask=encoder_padding_mask,\n        )\n\n\n@register_model_architecture(\"transformer_monotonic\", \"transformer_monotonic\")\ndef base_monotonic_architecture(args):\n    base_architecture(args)\n    args.encoder_unidirectional = getattr(args, \"encoder_unidirectional\", False)\n\n\n@register_model_architecture(\n    \"transformer_monotonic\", \"transformer_monotonic_iwslt_de_en\"\n)\ndef transformer_monotonic_iwslt_de_en(args):\n    transformer_iwslt_de_en(args)\n    base_monotonic_architecture(args)\n\n\n# parameters used in the \"Attention Is All You Need\" paper (Vaswani et al., 2017)\n@register_model_architecture(\n    \"transformer_monotonic\", \"transformer_monotonic_vaswani_wmt_en_de_big\"\n)\ndef transformer_monotonic_vaswani_wmt_en_de_big(args):\n    transformer_vaswani_wmt_en_de_big(args)\n\n\n@register_model_architecture(\n    \"transformer_monotonic\", \"transformer_monotonic_vaswani_wmt_en_fr_big\"\n)\ndef transformer_monotonic_vaswani_wmt_en_fr_big(args):\n    transformer_monotonic_vaswani_wmt_en_fr_big(args)\n\n\n@register_model_architecture(\n    \"transformer_unidirectional\", \"transformer_unidirectional_iwslt_de_en\"\n)\ndef transformer_unidirectional_iwslt_de_en(args):\n    transformer_iwslt_de_en(args)\n\n\n@register_model_architecture(\"transformer_monotonic\", \"transformer_monotonic_tiny\")\ndef monotonic_tiny_architecture(args):\n    tiny_architecture(args)\n    base_monotonic_architecture(args)\n"
  },
  {
    "path": "examples/simultaneous_translation/modules/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport os\nimport importlib\nfrom fairseq import registry\n\n(\n    build_monotonic_attention,\n    register_monotonic_attention,\n    MONOTONIC_ATTENTION_REGISTRY,\n    _,\n) = registry.setup_registry(\"--simul-type\")\n\nfor file in sorted(os.listdir(os.path.dirname(__file__))):\n    if file.endswith(\".py\") and not file.startswith(\"_\"):\n        model_name = file[: file.find(\".py\")]\n        importlib.import_module(\n            \"examples.simultaneous_translation.modules.\" + model_name\n        )\n"
  },
  {
    "path": "examples/simultaneous_translation/modules/fixed_pre_decision.py",
    "content": "from functools import partial\n\nimport torch\nfrom torch import Tensor\nimport math\nimport torch.nn.functional as F\n\nfrom . import register_monotonic_attention\nfrom .monotonic_multihead_attention import (\n    MonotonicAttention,\n    MonotonicInfiniteLookbackAttention,\n    WaitKAttention\n)\nfrom typing import Dict, Optional\n\n\ndef fixed_pooling_monotonic_attention(monotonic_attention):\n    def create_model(monotonic_attention, klass):\n        class FixedStrideMonotonicAttention(monotonic_attention):\n            def __init__(self, args):\n                self.waitk_lagging = 0\n                self.num_heads = 0\n                self.noise_mean = 0.0\n                self.noise_var = 0.0\n                super().__init__(args)\n                self.pre_decision_type = args.fixed_pre_decision_type\n                self.pre_decision_ratio = args.fixed_pre_decision_ratio\n                self.pre_decision_pad_threshold = args.fixed_pre_decision_pad_threshold\n                assert self.pre_decision_ratio > 1\n\n                if args.fixed_pre_decision_type == \"average\":\n                    self.pooling_layer = torch.nn.AvgPool1d(\n                        kernel_size=self.pre_decision_ratio,\n                        stride=self.pre_decision_ratio,\n                        ceil_mode=True,\n                    )\n                elif args.fixed_pre_decision_type == \"last\":\n\n                    def last(key):\n                        if key.size(2) < self.pre_decision_ratio:\n                            return key\n                        else:\n                            k = key[\n                                :,\n                                :,\n                                self.pre_decision_ratio - 1:: self.pre_decision_ratio,\n                            ].contiguous()\n                            if key.size(-1) % self.pre_decision_ratio != 0:\n                                k = torch.cat([k, key[:, :, -1:]], dim=-1).contiguous()\n                            return k\n\n                    self.pooling_layer = last\n                else:\n                    raise NotImplementedError\n\n            @staticmethod\n            def add_args(parser):\n                super(\n                    FixedStrideMonotonicAttention, FixedStrideMonotonicAttention\n                ).add_args(parser)\n                parser.add_argument(\n                    \"--fixed-pre-decision-ratio\",\n                    type=int,\n                    required=True,\n                    help=(\n                        \"Ratio for the fixed pre-decision,\"\n                        \"indicating how many encoder steps will start\"\n                        \"simultaneous decision making process.\"\n                    ),\n                )\n                parser.add_argument(\n                    \"--fixed-pre-decision-type\",\n                    default=\"average\",\n                    choices=[\"average\", \"last\"],\n                    help=\"Pooling type\",\n                )\n                parser.add_argument(\n                    \"--fixed-pre-decision-pad-threshold\",\n                    type=float,\n                    default=0.3,\n                    help=\"If a part of the sequence has pad\"\n                    \",the threshold the pooled part is a pad.\",\n                )\n\n            def insert_zeros(self, x):\n                bsz_num_heads, tgt_len, src_len = x.size()\n                stride = self.pre_decision_ratio\n                weight = F.pad(torch.ones(1, 1, 1).to(x), (stride - 1, 0))\n                x_upsample = F.conv_transpose1d(\n                    x.view(-1, src_len).unsqueeze(1),\n                    weight,\n                    stride=stride,\n                    padding=0,\n                )\n                return x_upsample.squeeze(1).view(bsz_num_heads, tgt_len, -1)\n\n            def p_choose(\n                self,\n                query: Optional[Tensor],\n                key: Optional[Tensor],\n                key_padding_mask: Optional[Tensor] = None,\n                incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n            ):\n                assert key is not None\n                assert query is not None\n                src_len = key.size(0)\n                tgt_len = query.size(0)\n                batch_size = query.size(1)\n\n                key_pool = self.pooling_layer(key.transpose(0, 2)).transpose(0, 2)\n\n                if key_padding_mask is not None:\n                    key_padding_mask_pool = (\n                        self.pooling_layer(key_padding_mask.unsqueeze(0).float())\n                        .squeeze(0)\n                        .gt(self.pre_decision_pad_threshold)\n                    )\n                    # Make sure at least one element is not pad\n                    key_padding_mask_pool[:, 0] = 0\n                else:\n                    key_padding_mask_pool = None\n\n                if incremental_state is not None:\n                    # The floor instead of ceil is used for inference\n                    # But make sure the length key_pool at least 1\n                    if (\n                        max(1, math.floor(key.size(0) / self.pre_decision_ratio))\n                    ) < key_pool.size(0):\n                        key_pool = key_pool[:-1]\n                        if key_padding_mask_pool is not None:\n                            key_padding_mask_pool = key_padding_mask_pool[:-1]\n\n                p_choose_pooled = self.p_choose_from_qk(\n                    query,\n                    key_pool,\n                    key_padding_mask_pool,\n                    incremental_state=incremental_state,\n                )\n\n                # Upsample, interpolate zeros\n                p_choose = self.insert_zeros(p_choose_pooled)\n\n                if p_choose.size(-1) < src_len:\n                    # Append zeros if the upsampled p_choose is shorter than src_len\n                    p_choose = torch.cat(\n                        [\n                            p_choose,\n                            torch.zeros(\n                                p_choose.size(0),\n                                tgt_len,\n                                src_len - p_choose.size(-1)\n                            ).to(p_choose)\n                        ],\n                        dim=2\n                    )\n                else:\n                    # can be larger than src_len because we used ceil before\n                    p_choose = p_choose[:, :, :src_len]\n                    p_choose[:, :, -1] = p_choose_pooled[:, :, -1]\n\n                assert list(p_choose.size()) == [\n                    batch_size * self.num_heads,\n                    tgt_len,\n                    src_len,\n                ]\n\n                return p_choose\n\n        FixedStrideMonotonicAttention.__name__ = klass.__name__\n        return FixedStrideMonotonicAttention\n\n    return partial(create_model, monotonic_attention)\n\n\n@register_monotonic_attention(\"waitk_fixed_pre_decision\")\n@fixed_pooling_monotonic_attention(WaitKAttention)\nclass WaitKAttentionFixedStride:\n    pass\n\n\n@register_monotonic_attention(\"hard_aligned_fixed_pre_decision\")\n@fixed_pooling_monotonic_attention(MonotonicAttention)\nclass MonotonicAttentionFixedStride:\n    pass\n\n\n@register_monotonic_attention(\"infinite_lookback_fixed_pre_decision\")\n@fixed_pooling_monotonic_attention(MonotonicInfiniteLookbackAttention)\nclass MonotonicInfiniteLookbackAttentionFixedStride:\n    pass\n"
  },
  {
    "path": "examples/simultaneous_translation/modules/monotonic_multihead_attention.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\nfrom torch import Tensor\nimport torch.nn as nn\n\nfrom examples.simultaneous_translation.utils.p_choose_strategy import (\n    learnable_p_choose,\n    waitk_p_choose\n)\n\nfrom examples.simultaneous_translation.utils.monotonic_attention import (\n    expected_alignment_from_p_choose,\n    expected_soft_attention,\n    mass_preservation,\n)\nfrom fairseq.modules import MultiheadAttention\n\nfrom . import register_monotonic_attention\nfrom typing import Dict, Optional\n\n\n@register_monotonic_attention(\"hard_aligned\")\nclass MonotonicAttention(MultiheadAttention):\n    \"\"\"\n    Abstract class of monotonic attentions\n    \"\"\"\n    k_in_proj: Dict[str, nn.Linear]\n    q_in_proj: Dict[str, nn.Linear]\n\n    def __init__(self, args):\n        super().__init__(\n            embed_dim=args.decoder_embed_dim,\n            num_heads=args.decoder_attention_heads,\n            kdim=getattr(args, \"encoder_embed_dim\", None),\n            vdim=getattr(args, \"encoder_embed_dim\", None),\n            dropout=args.attention_dropout,\n            encoder_decoder_attention=True,\n        )\n\n        self.soft_attention = False\n\n        self.eps = getattr(args, \"attention_eps\", True)\n        self.mass_preservation = getattr(args, \"mass_preservation\", True)\n\n        self.noise_type = args.noise_type\n        self.noise_mean = args.noise_mean\n        self.noise_var = args.noise_var\n\n        self.energy_bias_init = args.energy_bias_init\n        self.energy_bias = (\n            nn.Parameter(self.energy_bias_init * torch.ones([1]))\n            if args.energy_bias is True\n            else 0\n        )\n\n        self.k_in_proj = {\"monotonic\": self.k_proj}\n        self.q_in_proj = {\"monotonic\": self.q_proj}\n        self.chunk_size = None\n\n    @staticmethod\n    def add_args(parser):\n        # fmt: off\n        parser.add_argument('--no-mass-preservation', action=\"store_false\",\n                            dest=\"mass_preservation\",\n                            help='Do not stay on the last token when decoding')\n        parser.add_argument('--mass-preservation', action=\"store_true\",\n                            dest=\"mass_preservation\",\n                            help='Stay on the last token when decoding')\n        parser.set_defaults(mass_preservation=True)\n        parser.add_argument('--noise-var', type=float, default=1.0,\n                            help='Variance of discretness noise')\n        parser.add_argument('--noise-mean', type=float, default=0.0,\n                            help='Mean of discretness noise')\n        parser.add_argument('--noise-type', type=str, default=\"flat\",\n                            help='Type of discretness noise')\n        parser.add_argument('--energy-bias', action=\"store_true\",\n                            default=False,\n                            help='Bias for energy')\n        parser.add_argument('--energy-bias-init', type=float, default=-2.0,\n                            help='Initial value of the bias for energy')\n        parser.add_argument('--attention-eps', type=float, default=1e-6,\n                            help='Epsilon when calculating expected attention')\n\n    def energy_from_qk(\n        self,\n        query: Tensor,\n        key: Tensor,\n        energy_type: str,\n        key_padding_mask: Optional[Tensor] = None,\n        bias: int = 0\n    ):\n        \"\"\"\n        Compute energy from query and key\n        q_func_value is a tuple looks like\n        (q_proj_func, q_tensor)\n        q_tensor size: bsz, tgt_len, emb_dim\n        k_tensor size: bsz, src_len, emb_dim\n        key_padding_mask size: bsz, src_len\n        attn_mask: bsz, src_len\n        \"\"\"\n\n        length, bsz, _ = query.size()\n        q = self.q_in_proj[energy_type].forward(query)\n        q = (\n            q.contiguous()\n            .view(length, bsz * self.num_heads, self.head_dim)\n            .transpose(0, 1)\n        )\n        q = q * self.scaling\n        length, bsz, _ = key.size()\n        k = self.k_in_proj[energy_type].forward(key)\n        k = (\n            k.contiguous()\n            .view(length, bsz * self.num_heads, self.head_dim)\n            .transpose(0, 1)\n        )\n\n        energy = torch.bmm(q, k.transpose(1, 2)) + bias\n\n        if key_padding_mask is not None:\n            energy = energy.masked_fill(\n                key_padding_mask.unsqueeze(1).to(torch.bool),\n                - float(\"inf\")\n            )\n\n        return energy\n\n    def p_choose_from_qk(self, query, key, key_padding_mask, incremental_states=None):\n        monotonic_energy = self.energy_from_qk(\n            query,\n            key,\n            \"monotonic\",\n            key_padding_mask=key_padding_mask,\n            bias=self.energy_bias,\n        )\n\n        p_choose = learnable_p_choose(\n            monotonic_energy,\n            self.noise_mean,\n            self.noise_var,\n            self.training\n        )\n        return p_choose\n\n    def p_choose(self, query, key, key_padding_mask, incremental_states=None):\n        return self.p_choose_from_qk(self, query, key, key_padding_mask)\n\n    def monotonic_attention_process_infer(\n        self,\n        query: Optional[Tensor],\n        key: Optional[Tensor],\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]],\n    ):\n        \"\"\"\n        Monotonic attention at inference time\n        Notice that this function is designed for simuleval not sequence_generator\n        \"\"\"\n        assert query is not None\n        assert key is not None\n\n        if query.size(1) != 1:\n            raise RuntimeError(\n                \"Simultaneous translation models don't support batch decoding.\"\n            )\n        # 1. compute stepwise probability\n        p_choose = self.p_choose(\n            query, key, None, incremental_state\n        ).squeeze(1)\n\n        # 2. Compute the alpha\n        src_len = key.size(0)\n        # Maximum steps allows in this iteration\n        max_steps = src_len - 1 if self.mass_preservation else src_len\n        monotonic_cache = self._get_monotonic_buffer(incremental_state)\n        # Step for each head\n        monotonic_step = monotonic_cache.get(\n            'head_step',\n            p_choose.new_zeros(1, self.num_heads).long()\n        )\n        assert monotonic_step is not None\n        finish_read = monotonic_step.eq(max_steps)\n        p_choose_i = torch.tensor(1)\n\n        while finish_read.sum().item() < self.num_heads:\n            # p_choose: self.num_heads, src_len\n            # only choose the p at monotonic steps\n            # p_choose_i: 1, self.num_heads\n            p_choose_i = (\n                p_choose.gather(\n                    1,\n                    monotonic_step\n                    .clamp(0, src_len - 1),\n                )\n            )\n\n            read_one_step = (\n                (p_choose_i < 0.5)\n                .type_as(monotonic_step)\n                .masked_fill(finish_read, 0)\n            )\n            # 1 x bsz\n            # sample actions on unfinished seq\n            # 0 means stay, finish reading\n            # 1 means leave, continue reading\n\n            monotonic_step += read_one_step\n\n            finish_read = monotonic_step.eq(max_steps) | (read_one_step == 0)\n\n        # p_choose at last steps\n        p_choose_i = (\n            p_choose.gather(\n                1,\n                monotonic_step\n                .clamp(0, src_len - 1),\n            )\n        )\n\n        monotonic_cache[\"head_step\"] = monotonic_step\n        # Whether a head is looking for new input\n        monotonic_cache[\"head_read\"] = (\n            monotonic_step.eq(max_steps) & (p_choose_i < 0.5)\n        )\n        self._set_monotonic_buffer(incremental_state, monotonic_cache)\n\n        # 2. Update alpha\n        alpha = (\n            p_choose\n            .new_zeros([self.num_heads, src_len])\n            .scatter(\n                1,\n                (monotonic_step)\n                .view(self.num_heads, 1).clamp(0, src_len - 1),\n                1\n            )\n        )\n\n        if not self.mass_preservation:\n            alpha = alpha.masked_fill(\n                (monotonic_step == max_steps)\n                .view(self.num_heads, 1),\n                0\n            )\n\n        # 4. Compute Beta\n        if self.soft_attention:\n            monotonic_step = monotonic_step.t()\n            beta_mask = torch.arange(src_len).expand_as(alpha).gt(monotonic_step).unsqueeze(1)\n            # If it's soft attention just do softmax on current context\n            soft_energy = self.energy_from_qk(\n                query,\n                key,\n                \"soft\"\n            )\n            beta = torch.nn.functional.softmax(\n                soft_energy.masked_fill(beta_mask, -float(\"inf\")), dim=-1\n            )\n            # It could happen that a head doesn't move at all\n            beta = beta.masked_fill(monotonic_step.eq(0).unsqueeze(1), 0)\n        else:\n            # If it's hard attention just select the last state\n            beta = alpha\n\n        return p_choose, alpha, beta\n\n    def monotonic_attention_process_train(\n        self,\n        query: Optional[Tensor],\n        key: Optional[Tensor],\n        key_padding_mask: Optional[Tensor] = None,\n    ):\n        \"\"\"\n        Calculating monotonic attention process for training\n        Including:\n            stepwise probability: p_choose\n            expected hard alignment: alpha\n            expected soft attention: beta\n        \"\"\"\n        assert query is not None\n        assert key is not None\n\n        # 1. compute stepwise probability\n        p_choose = self.p_choose_from_qk(query, key, key_padding_mask)\n\n        # 2. compute expected_alignment\n        alpha = expected_alignment_from_p_choose(\n            p_choose,\n            key_padding_mask,\n            eps=self.eps,\n        )\n\n        if self.mass_preservation:\n            alpha = mass_preservation(\n                alpha, key_padding_mask\n            )\n\n        # 3. compute expected soft attention (soft aligned model only)\n        if self.soft_attention:\n            soft_energy = self.energy_from_qk(\n                query,\n                key,\n                \"soft\",\n                key_padding_mask=None,\n            )\n\n            beta = expected_soft_attention(\n                alpha,\n                soft_energy,\n                padding_mask=key_padding_mask,\n                chunk_size=self.chunk_size,\n                eps=self.eps,\n            )\n        else:\n            beta = alpha\n            soft_energy = alpha\n\n        return p_choose, alpha, beta, soft_energy\n\n    def forward(\n        self,\n        query: Optional[Tensor],\n        key: Optional[Tensor],\n        value: Optional[Tensor],\n        key_padding_mask: Optional[Tensor] = None,\n        attn_mask: Optional[Tensor] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        need_weights: bool = True, static_kv: bool = False, need_head_weights: bool = False,\n    ):\n        \"\"\"\n        query: tgt_len, bsz, embed_dim\n        key: src_len, bsz, embed_dim\n        value: src_len, bsz, embed_dim\n        \"\"\"\n\n        assert attn_mask is None\n        assert query is not None\n        assert key is not None\n        assert value is not None\n\n        tgt_len, bsz, embed_dim = query.size()\n        src_len = value.size(0)\n\n        if key_padding_mask is not None:\n            assert not key_padding_mask[:, 0].any(), (\n                \"Only right padding is supported.\"\n            )\n            key_padding_mask = (\n                key_padding_mask\n                .unsqueeze(1)\n                .expand([bsz, self.num_heads, src_len])\n                .contiguous()\n                .view(-1, src_len)\n            )\n\n        if incremental_state is not None:\n            # Inference\n            (\n                p_choose, alpha, beta\n            ) = self.monotonic_attention_process_infer(\n                query, key, incremental_state\n            )\n            soft_energy = beta\n        else:\n            # Train\n            (\n                p_choose, alpha, beta, soft_energy\n            ) = self.monotonic_attention_process_train(\n                query, key, key_padding_mask\n            )\n\n        v = self.v_proj(value)\n        length, bsz, _ = v.size()\n        v = (\n            v.contiguous()\n            .view(length, bsz * self.num_heads, self.head_dim)\n            .transpose(0, 1)\n        )\n\n        attn = torch.bmm(beta.type_as(v), v)\n\n        attn = attn.transpose(0, 1).contiguous().view(tgt_len, bsz, embed_dim)\n\n        attn = self.out_proj(attn)\n\n        p_choose = p_choose.view(bsz, self.num_heads, tgt_len, src_len)\n        alpha = alpha.view(bsz, self.num_heads, tgt_len, src_len)\n        beta = beta.view(bsz, self.num_heads, tgt_len, src_len)\n\n        return attn, {\n            \"p_choose\": p_choose,\n            \"alpha\": alpha,\n            \"beta\": beta,\n            \"soft_energy\": soft_energy,\n        }\n\n    def _get_monotonic_buffer(self, incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]]):\n        maybe_incremental_state = self.get_incremental_state(\n            incremental_state,\n            'monotonic',\n        )\n        if maybe_incremental_state is None:\n            typed_empty_dict: Dict[str, Optional[Tensor]] = {}\n            return typed_empty_dict\n        else:\n            return maybe_incremental_state\n\n    def _set_monotonic_buffer(self, incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]], buffer: Dict[str, Optional[Tensor]]):\n        self.set_incremental_state(\n            incremental_state,\n            'monotonic',\n            buffer,\n        )\n\n\n@register_monotonic_attention(\"infinite_lookback\")\nclass MonotonicInfiniteLookbackAttention(\n    MonotonicAttention\n):\n    def __init__(self, args):\n        super().__init__(args)\n        self.soft_attention = True\n        self.init_soft_attention()\n\n    def init_soft_attention(self):\n        self.k_proj_soft = nn.Linear(self.kdim, self.embed_dim, bias=True)\n        self.q_proj_soft = nn.Linear(self.embed_dim, self.embed_dim, bias=True)\n        self.k_in_proj[\"soft\"] = self.k_proj_soft\n        self.q_in_proj[\"soft\"] = self.q_proj_soft\n\n        if self.qkv_same_dim:\n            # Empirically observed the convergence to be much better with\n            # the scaled initialization\n            nn.init.xavier_uniform_(\n                self.k_in_proj[\"soft\"].weight, gain=1 / math.sqrt(2)\n            )\n            nn.init.xavier_uniform_(\n                self.q_in_proj[\"soft\"].weight, gain=1 / math.sqrt(2)\n            )\n        else:\n            nn.init.xavier_uniform_(self.k_in_proj[\"soft\"].weight)\n            nn.init.xavier_uniform_(self.q_in_proj[\"soft\"].weight)\n\n\n@register_monotonic_attention(\"waitk\")\nclass WaitKAttention(\n    MonotonicInfiniteLookbackAttention\n):\n    \"\"\"\n    STACL: Simultaneous Translation with Implicit Anticipation and\n    Controllable Latency using Prefix-to-Prefix Framework\n    https://www.aclweb.org/anthology/P19-1289/\n    \"\"\"\n    def __init__(self, args):\n        super().__init__(args)\n        self.q_in_proj[\"soft\"] = self.q_in_proj[\"monotonic\"]\n        self.k_in_proj[\"soft\"] = self.k_in_proj[\"monotonic\"]\n\n        self.waitk_lagging = args.waitk_lagging\n        assert self.waitk_lagging > 0, (\n            f\"Lagging has to been larger than 0, get {self.waitk_lagging}.\"\n        )\n\n    @staticmethod\n    def add_args(parser):\n        super(\n            MonotonicInfiniteLookbackAttention,\n            MonotonicInfiniteLookbackAttention\n        ).add_args(parser)\n\n        parser.add_argument(\n            \"--waitk-lagging\", type=int, required=True, help=\"Wait K lagging\"\n        )\n\n    def p_choose_from_qk(\n        self,\n        query: Optional[Tensor],\n        key: Optional[Tensor],\n        key_padding_mask: Optional[Tensor] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n    ):\n        assert query is not None\n        assert key is not None\n\n        p_choose = waitk_p_choose(\n            tgt_len=query.size(0),\n            src_len=key.size(0),\n            bsz=query.size(1) * self.num_heads,\n            waitk_lagging=self.waitk_lagging,\n            key_padding_mask=key_padding_mask,\n            incremental_state=incremental_state,\n        )\n\n        return p_choose.to(query)\n\n\n@register_monotonic_attention(\"chunkwise\")\nclass ChunkwiseAttention(\n    MonotonicInfiniteLookbackAttention\n):\n    def __init__(self, args):\n        super().__init__(args)\n        self.chunk_size = args.mocha_chunk_size\n        assert self.chunk_size > 1\n\n    @staticmethod\n    def add_args(parser):\n        super(\n            MonotonicInfiniteLookbackAttention\n        ).add_args(parser)\n\n        parser.add_argument(\n            \"--mocha-chunk-size\", type=int,\n            required=True, help=\"Mocha chunk size\"\n        )\n"
  },
  {
    "path": "examples/simultaneous_translation/modules/monotonic_transformer_layer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.modules import TransformerDecoderLayer, TransformerEncoderLayer\n\nfrom . import build_monotonic_attention\n\nfrom typing import Dict, Optional, List\n\nfrom torch import Tensor\nimport torch\n\n\nclass TransformerMonotonicEncoderLayer(TransformerEncoderLayer):\n    def forward(self, x, encoder_padding_mask):\n        seq_len, _, _ = x.size()\n        attn_mask = x.new_ones([seq_len, seq_len]).triu(1)\n        attn_mask = attn_mask.masked_fill(attn_mask.bool(), float(\"-inf\"))\n        return super().forward(x, encoder_padding_mask, attn_mask)\n\n\nclass TransformerMonotonicDecoderLayer(TransformerDecoderLayer):\n    def __init__(self, args):\n        super().__init__(args)\n\n        assert args.simul_type is not None, \"A --simul-type is needed.\"\n        self.encoder_attn = build_monotonic_attention(args)\n\n    def prune_incremental_state(\n        self,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]]\n    ):\n        input_buffer = self.self_attn._get_input_buffer(incremental_state)\n        for key in [\"prev_key\", \"prev_value\"]:\n            input_buffer_key = input_buffer[key]\n            assert input_buffer_key is not None\n            if input_buffer_key.size(2) > 1:\n                input_buffer[key] = input_buffer_key[:, :, :-1, :]\n            else:\n                typed_empty_dict: Dict[str, Optional[Tensor]] = {}\n                input_buffer = typed_empty_dict\n                break\n        assert incremental_state is not None\n        self.self_attn._set_input_buffer(incremental_state, input_buffer)\n\n    def forward(\n        self,\n        x,\n        encoder_out: Optional[Tensor] = None,\n        encoder_padding_mask: Optional[Tensor] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        prev_self_attn_state: Optional[List[Tensor]] = None,\n        prev_attn_state: Optional[List[Tensor]] = None,\n        self_attn_mask: Optional[Tensor] = None,\n        self_attn_padding_mask: Optional[Tensor] = None,\n        need_attn: bool = False,\n        need_head_weights: bool = False,\n    ):\n        \"\"\"\n        Args:\n            x (Tensor): input to the layer of shape `(seq_len, batch, embed_dim)`\n            encoder_padding_mask (ByteTensor, optional): binary\n                ByteTensor of shape `(batch, src_len)` where padding\n                elements are indicated by ``1``.\n            need_attn (bool, optional): return attention weights\n            need_head_weights (bool, optional): return attention weights\n                for each head (default: return average over heads).\n\n        Returns:\n            encoded output of shape `(seq_len, batch, embed_dim)`\n        \"\"\"\n        if need_head_weights:\n            need_attn = True\n\n        residual = x\n        if self.normalize_before:\n            x = self.self_attn_layer_norm(x)\n        if prev_self_attn_state is not None:\n            prev_key, prev_value = prev_self_attn_state[:2]\n            saved_state: Dict[str, Optional[Tensor]] = {\n                \"prev_key\": prev_key,\n                \"prev_value\": prev_value,\n            }\n            if len(prev_self_attn_state) >= 3:\n                saved_state[\"prev_key_padding_mask\"] = prev_self_attn_state[2]\n            assert incremental_state is not None\n            self.self_attn._set_input_buffer(incremental_state, saved_state)\n        _self_attn_input_buffer = self.self_attn._get_input_buffer(incremental_state)\n        if self.cross_self_attention and not (\n            incremental_state is not None\n            and _self_attn_input_buffer is not None\n            and \"prev_key\" in _self_attn_input_buffer\n        ):\n            if self_attn_mask is not None:\n                assert encoder_out is not None\n                self_attn_mask = torch.cat(\n                    (x.new_zeros(x.size(0), encoder_out.size(0)), self_attn_mask), dim=1\n                )\n            if self_attn_padding_mask is not None:\n                if encoder_padding_mask is None:\n                    assert encoder_out is not None\n                    encoder_padding_mask = self_attn_padding_mask.new_zeros(\n                        encoder_out.size(1), encoder_out.size(0)\n                    )\n                self_attn_padding_mask = torch.cat(\n                    (encoder_padding_mask, self_attn_padding_mask), dim=1\n                )\n            assert encoder_out is not None\n            y = torch.cat((encoder_out, x), dim=0)\n        else:\n            y = x\n\n        x, attn = self.self_attn(\n            query=x,\n            key=y,\n            value=y,\n            key_padding_mask=self_attn_padding_mask,\n            incremental_state=incremental_state,\n            need_weights=False,\n            attn_mask=self_attn_mask,\n        )\n        x = self.dropout_module(x)\n        x = self.residual_connection(x, residual)\n        if not self.normalize_before:\n            x = self.self_attn_layer_norm(x)\n\n        assert self.encoder_attn is not None\n        residual = x\n        if self.normalize_before:\n            x = self.encoder_attn_layer_norm(x)\n        if prev_attn_state is not None:\n            prev_key, prev_value = prev_attn_state[:2]\n            saved_state: Dict[str, Optional[Tensor]] = {\n                \"prev_key\": prev_key,\n                \"prev_value\": prev_value,\n            }\n            if len(prev_attn_state) >= 3:\n                saved_state[\"prev_key_padding_mask\"] = prev_attn_state[2]\n            assert incremental_state is not None\n            self.encoder_attn._set_input_buffer(incremental_state, saved_state)\n\n        x, attn = self.encoder_attn(\n            query=x,\n            key=encoder_out,\n            value=encoder_out,\n            key_padding_mask=encoder_padding_mask,\n            incremental_state=incremental_state,\n            static_kv=True,\n            need_weights=need_attn or (not self.training and self.need_attn),\n            need_head_weights=need_head_weights,\n        )\n        x = self.dropout_module(x)\n        x = self.residual_connection(x, residual)\n        if not self.normalize_before:\n            x = self.encoder_attn_layer_norm(x)\n\n        residual = x\n        if self.normalize_before:\n            x = self.final_layer_norm(x)\n\n        x = self.activation_fn(self.fc1(x))\n        x = self.activation_dropout_module(x)\n        x = self.fc2(x)\n        x = self.dropout_module(x)\n        x = self.residual_connection(x, residual)\n        if not self.normalize_before:\n            x = self.final_layer_norm(x)\n        if self.onnx_trace and incremental_state is not None:\n            saved_state = self.self_attn._get_input_buffer(incremental_state)\n            assert saved_state is not None\n            if self_attn_padding_mask is not None:\n                self_attn_state = [\n                    saved_state[\"prev_key\"],\n                    saved_state[\"prev_value\"],\n                    saved_state[\"prev_key_padding_mask\"],\n                ]\n            else:\n                self_attn_state = [saved_state[\"prev_key\"], saved_state[\"prev_value\"]]\n            return x, attn, self_attn_state\n        return x, attn, None\n"
  },
  {
    "path": "examples/simultaneous_translation/tests/test_alignment_train.py",
    "content": "import unittest\n\nimport numpy as np\nimport torch\n\nimport hypothesis.strategies as st\nfrom hypothesis import assume, given, settings\nfrom torch.testing._internal.common_utils import TestCase\nfrom examples.simultaneous_translation.utils.functions import exclusive_cumprod\n\n\nTEST_CUDA = torch.cuda.is_available()\n\n\nclass AlignmentTrainTest(TestCase):\n    def _test_custom_alignment_train_ref(self, p_choose, eps):\n        cumprod_1mp = exclusive_cumprod(1 - p_choose, dim=2, eps=eps)\n        cumprod_1mp_clamp = torch.clamp(cumprod_1mp, eps, 1.0)\n\n        bsz = p_choose.size(0)\n        tgt_len = p_choose.size(1)\n        src_len = p_choose.size(2)\n\n        alpha_0 = p_choose.new_zeros([bsz, 1, src_len])\n        alpha_0[:, :, 0] = 1.0\n\n        previous_alpha = [alpha_0]\n\n        for i in range(tgt_len):\n            # p_choose: bsz , tgt_len, src_len\n            # cumprod_1mp_clamp : bsz, tgt_len, src_len\n            # previous_alpha[i]: bsz, 1, src_len\n            # alpha_i: bsz, src_len\n            alpha_i = (\n                p_choose[:, i]\n                * cumprod_1mp[:, i]\n                * torch.cumsum(\n                    previous_alpha[i][:, 0] / cumprod_1mp_clamp[:, i], dim=1\n                )\n            ).clamp(0, 1.0)\n\n            previous_alpha.append(alpha_i.unsqueeze(1))\n\n        # alpha: bsz * num_heads, tgt_len, src_len\n        alpha = torch.cat(previous_alpha[1:], dim=1)\n        return alpha\n\n    def _test_custom_alignment_train_impl(self, p_choose, alpha, eps):\n        if p_choose.is_cuda:\n            from alignment_train_cuda_binding import alignment_train_cuda  # @manual=//deeplearning/projects/fairseq-py:alignment_train_cuda_binding\n            alignment_train_cuda(p_choose, alpha, eps)\n        else:\n            from alignment_train_cpu_binding import alignment_train_cpu  # @manual=//deeplearning/projects/fairseq-py:alignment_train_cpu_binding\n            alignment_train_cpu(p_choose, alpha, eps)\n\n    @settings(deadline=None)\n    @given(\n        bsz=st.integers(1, 100),\n        tgt_len=st.integers(1, 100),\n        src_len=st.integers(1, 550),\n        device=st.sampled_from([\"cpu\", \"cuda\"]),\n    )\n    def test_alignment_train(self, bsz, tgt_len, src_len, device):\n        eps = 1e-6\n\n        assume(device == \"cpu\" or TEST_CUDA)\n        p_choose = torch.rand(bsz, tgt_len, src_len, device=device)\n\n        # run the alignment with the custom operator\n        alpha_act = p_choose.new_zeros([bsz, tgt_len, src_len])\n        self._test_custom_alignment_train_impl(p_choose, alpha_act, eps)\n\n        # runu the alignment with the ref implementation\n        alpha_ref = self._test_custom_alignment_train_ref(p_choose, eps)\n\n        # verify the results\n        alpha_act = alpha_act.cpu().detach().numpy()\n        alpha_ref = alpha_ref.cpu().detach().numpy()\n        np.testing.assert_allclose(\n            alpha_act,\n            alpha_ref,\n            atol=1e-3,\n            rtol=1e-3,\n        )\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "examples/simultaneous_translation/tests/test_text_models.py",
    "content": "import argparse\nimport unittest\nfrom typing import Any, Dict\n\nimport torch\nfrom examples.simultaneous_translation.models import (\n    transformer_monotonic_attention\n)\n\n\nfrom tests.test_roberta import FakeTask\n\n\nDEFAULT_CONFIG = {\n    \"attention_eps\": 1e-6,\n    \"mass_preservation\": True,\n    \"noise_type\": \"flat\",\n    \"noise_mean\": 0.0,\n    \"noise_var\": 1.0,\n    \"energy_bias_init\": -2,\n    \"energy_bias\": True\n}\n\n\nPAD_INDEX = 1\n\n\ndef generate_config(overrides_kv):\n    new_dict = {key: value for key, value in DEFAULT_CONFIG.items()}\n    for key, value in overrides_kv.items():\n        new_dict[key] = value\n    return new_dict\n\n\ndef make_sample_with_padding(longer_src=False) -> Dict[str, Any]:\n    tokens_1 = torch.LongTensor(\n        [\n            [2, 10, 11, 12, 13, 14, 15, 10, 11, 12, 13, 14, 15, 2],\n            [\n                2, 11, 12, 14, 15, 10, 11, 12, 13, 14, 15, 2,\n                PAD_INDEX, PAD_INDEX\n            ],\n        ]\n    )\n    tokens_2 = torch.LongTensor(\n        [\n            [2, 11, 12, 13, 14, 2, PAD_INDEX, PAD_INDEX],\n            [2, 11, 22, 33, 2, PAD_INDEX, PAD_INDEX, PAD_INDEX]\n        ]\n    )\n    if longer_src:\n        src_tokens = tokens_1[:, 1:]\n        prev_output_tokens = tokens_2\n    else:\n        src_tokens = tokens_2[:, 1:8]\n        prev_output_tokens = tokens_1\n\n    src_lengths = src_tokens.ne(PAD_INDEX).sum(dim=1).long()\n\n    sample = {\n        \"net_input\": {\n            \"src_tokens\": src_tokens,\n            \"prev_output_tokens\": prev_output_tokens,\n            \"src_lengths\": src_lengths,\n        },\n        \"target\": prev_output_tokens[:, 1:],\n    }\n    return sample\n\n\ndef build_transformer_monotonic_attention(**extra_args: Any):\n    overrides = {\n        # Use characteristics dimensions\n        \"encoder_embed_dim\": 12,\n        \"encoder_ffn_embed_dim\": 14,\n        \"decoder_embed_dim\": 12,\n        \"decoder_ffn_embed_dim\": 14,\n        # Disable dropout so we have comparable tests.\n        \"dropout\": 0,\n        \"attention_dropout\": 0,\n        \"activation_dropout\": 0,\n        \"encoder_layerdrop\": 0,\n    }\n    overrides.update(extra_args)\n    # Overrides the defaults from the parser\n    args = argparse.Namespace(**overrides)\n    transformer_monotonic_attention.monotonic_tiny_architecture(args)\n\n    torch.manual_seed(0)\n    task = FakeTask(args)\n    return (\n        transformer_monotonic_attention\n        .TransformerModelSimulTrans\n        .build_model(args, task)\n    )\n\n\ndef expected_alignment_formula(\n    p_choose,\n    mass_perservation=True,\n    padding_mask=None\n):\n    # Online and Linear-Time Attention by Enforcing Monotonic Alignments\n    # https://arxiv.org/pdf/1704.00784.pdf\n    # Eq 18, 19\n    bsz, tgt_len, src_len = p_choose.size()\n    alpha = torch.zeros_like(p_choose)\n\n    if padding_mask is not None:\n        bsz_pad = padding_mask.size(0)\n        num_heads = int(bsz / bsz_pad)\n        padding_mask = (\n            padding_mask\n            .unsqueeze(1)\n            .expand([bsz_pad, num_heads, src_len])\n            .contiguous()\n            .view(-1, src_len)\n        )\n\n    p_choose = p_choose.masked_fill(padding_mask.unsqueeze(1), 0)\n\n    for bsz_i in range(bsz):\n        for i in range(tgt_len):\n            for j in range(src_len):\n                if i == 0:\n                    if j == 0:\n                        # First source token\n                        alpha[bsz_i, i, j] = p_choose[bsz_i, i, j]\n                    else:\n                        # First target token\n                        alpha[bsz_i, i, j] = (\n                            p_choose[bsz_i, i, j]\n                            * torch.prod(\n                                1 - p_choose[bsz_i, i, :j]\n                            )\n                        )\n                else:\n                    alpha[bsz_i, i, j] = alpha[bsz_i, i - 1, j]\n                    for k in range(j):\n                        alpha[bsz_i, i, j] += (\n                            alpha[bsz_i, i - 1, k]\n                            * torch.prod(\n                                1 - p_choose[bsz_i, i, k:j]\n                            )\n                        )\n                    alpha[bsz_i, i, j] *= p_choose[bsz_i, i, j]\n\n    alpha = alpha.masked_fill(padding_mask.unsqueeze(1), 0)\n\n    if mass_perservation:\n        alpha = mass_perservation_formula(alpha, False, padding_mask)\n\n    return alpha\n\n\ndef mass_perservation_formula(alpha, left_padding=False, padding_mask=None):\n    if padding_mask is None or alpha.size(-1) == 1:\n        if alpha.size(-1) > 1:\n            alpha[:, :, -1] = 1 - alpha[:, :, :-1].sum(dim=-1)\n        return alpha\n\n    src_lens = (padding_mask.logical_not()).sum(dim=1).long()\n\n    bsz, tgt_len, src_len = alpha.size()\n\n    assert (\n        not left_padding\n        or (left_padding and (not padding_mask[:, 0].any()))\n    )\n\n    alpha = alpha.masked_fill(padding_mask.unsqueeze(1), 0)\n\n    for bsz_i in range(bsz):\n        if left_padding:\n            alpha[bsz_i, :, -1] = (\n                1 - alpha[bsz_i, :, :-1].sum(dim=-1)\n            )\n        else:\n            alpha[bsz_i, :, src_lens[bsz_i] - 1] = (\n                1 - alpha[bsz_i, :, :src_lens[bsz_i] - 1].sum(dim=-1)\n            )\n\n    return alpha\n\n\ndef expected_soft_attention_formula(\n    alpha,\n    soft_energy,\n    padding_mask=None,\n    chunksize=1e10,\n):\n    # Monotonic Infinite Lookback Attention for Simultaneous Machine Translation\n    # https://arxiv.org/pdf/1906.05218.pdf\n    # Eq 14\n\n    # Monotonic Chunkwise Attention\n    # https://arxiv.org/abs/1712.05382\n    # Eq 17\n    bsz, tgt_len, src_len = alpha.size()\n    beta = torch.zeros_like(alpha)\n\n    if padding_mask is not None:\n        bsz_pad = padding_mask.size(0)\n        num_heads = int(bsz / bsz_pad)\n        # Expanding for potential head dimension\n        padding_mask = (\n            padding_mask\n            .unsqueeze(1)\n            .expand([bsz_pad, num_heads, src_len])\n            .contiguous()\n            .view(-1, src_len)\n        )\n        soft_energy = soft_energy.masked_fill(padding_mask.unsqueeze(1), float('-inf'))\n\n    for bsz_i in range(bsz):\n        for i in range(tgt_len):\n            for j in range(src_len):\n                for k in range(j, min([src_len, j + chunksize])):\n                    if not padding_mask[bsz_i, j]:\n                        beta[bsz_i, i, j] += (\n                            alpha[bsz_i, i, k] * torch.exp(soft_energy[bsz_i, i, j])\n                            / torch.sum(torch.exp(soft_energy[bsz_i, i, max([0, k - chunksize + 1]):k + 1]))\n                        )\n    return beta\n\n\nclass MonotonicAttentionTestAbstractClass(object):\n    def test_forward(self):\n        sample = make_sample_with_padding()\n        out, _ = self.model.forward(**sample[\"net_input\"])\n        loss = out.sum()\n        loss.backward()\n\n    def test_p_choose(self):\n        sample = make_sample_with_padding()\n        _, extra_out = self.model.forward(**sample[\"net_input\"])\n        for item in extra_out.attn_list:\n            p_choose = item[\"p_choose\"]\n            self.assertTrue(p_choose.le(1.0).all())\n            self.assertTrue(p_choose.ge(0.0).all())\n\n    def test_expected_alignment(self):\n        for longer_src in [True, False]:\n            sample = make_sample_with_padding(longer_src)\n            _, extra_out = self.model.forward(**sample[\"net_input\"])\n            for item in extra_out.attn_list:\n                p_choose = item[\"p_choose\"]\n                alpha_system = item[\"alpha\"]\n                self.assertTrue(p_choose.size() == alpha_system.size())\n                bsz, num_head, tgt_len, src_len = alpha_system.size()\n                alpha_system = alpha_system.view(-1, tgt_len, src_len)\n                p_choose = p_choose.view(-1, tgt_len, src_len)\n\n                alpha_real = expected_alignment_formula(\n                    p_choose,\n                    self.model.decoder.layers[0].encoder_attn.mass_preservation,\n                    sample[\"net_input\"][\"src_tokens\"].eq(PAD_INDEX)\n                )\n\n                self.assertTrue(\n                    torch.abs(alpha_system - alpha_real).le(5e-5).all(),\n                )\n\n\nclass HardMonotonicAttentionTestCase(\n    unittest.TestCase,\n    MonotonicAttentionTestAbstractClass\n):\n    def setUp(self):\n        self.model = build_transformer_monotonic_attention(\n            **generate_config({\"simul_type\": \"hard_aligned\"})\n        )\n\n\nclass InfiniteLookbackTestCase(\n    unittest.TestCase,\n    MonotonicAttentionTestAbstractClass\n):\n    def setUp(self):\n        self.model = build_transformer_monotonic_attention(\n            **generate_config(\n                {\n                    \"simul_type\": \"infinite_lookback\"\n                }\n            )\n        )\n        self.model.train()\n\n    def test_fp16_for_long_input(self):\n        sample = {\n            \"net_input\": {\n                \"src_tokens\": torch.LongTensor([7] * 1000 + [2]).cuda().unsqueeze(0),\n                \"prev_output_tokens\": torch.LongTensor([7] * 1000 + [2]).cuda().unsqueeze(0),\n                \"src_lengths\": torch.LongTensor([1000]).cuda(),\n            },\n            \"target\": torch.LongTensor([2] + [7] * 1000).unsqueeze(0).cuda()\n        }\n        self.model.cuda().half()\n        _, extra_out = self.model.forward(**sample[\"net_input\"])\n        for item in extra_out.attn_list:\n            for key in [\"p_choose\", \"alpha\", \"beta\", \"soft_energy\"]:\n                self.assertFalse(torch.isnan(item[key]).any())\n\n    def test_expected_attention(self):\n        for longer_src in [True, False]:\n            sample = make_sample_with_padding(longer_src)\n            _, extra_out = self.model.forward(**sample[\"net_input\"])\n            for item in extra_out.attn_list:\n                p_choose = item[\"p_choose\"]\n                alpha_system = item[\"alpha\"]\n                beta_system = item[\"beta\"]\n                soft_energy_system = item[\"soft_energy\"]\n                self.assertTrue(beta_system.size() == alpha_system.size())\n                self.assertTrue(p_choose.size() == alpha_system.size())\n\n                bsz, num_head, tgt_len, src_len = alpha_system.size()\n\n                alpha_system = alpha_system.view(-1, tgt_len, src_len)\n                beta_system = beta_system.view(-1, tgt_len, src_len)\n                p_choose = p_choose.view(-1, tgt_len, src_len)\n                soft_energy_system = soft_energy_system.view(-1, tgt_len, src_len)\n\n                alpha_real = expected_alignment_formula(\n                    p_choose,\n                    self.model.decoder.layers[0].encoder_attn.mass_preservation,\n                    sample[\"net_input\"][\"src_tokens\"].eq(PAD_INDEX)\n                )\n\n                beta_real = expected_soft_attention_formula(\n                    alpha_real,\n                    soft_energy_system,\n                    sample[\"net_input\"][\"src_tokens\"].eq(PAD_INDEX),\n                    chunksize=getattr(\n                        self.model.decoder.layers[0].encoder_attn,\n                        \"chunk_size\",\n                        int(1e10)\n                    ) or int(1e10)\n                )\n\n                self.assertTrue(\n                    torch.abs(beta_system - beta_real).le(1e-5).all(),\n                )\n\n\nclass ChunkwiswTestCase(\n    InfiniteLookbackTestCase\n):\n    def setUp(self):\n        self.model = build_transformer_monotonic_attention(\n            **generate_config(\n                {\n                    \"simul_type\": \"chunkwise\",\n                    \"mocha_chunk_size\": 3\n                }\n            )\n        )\n\n\nclass WaitkTestCase(InfiniteLookbackTestCase):\n    def setUp(self):\n        self.model = build_transformer_monotonic_attention(\n            **generate_config(\n                {\n                    \"simul_type\": \"waitk\",\n                    \"waitk_lagging\": 3,\n                }\n            )\n        )\n\n    def check_waitk(self, p_choose, lagging, padding_mask):\n        bsz, tgt_len, src_len = p_choose.size()\n        for bsz_i in range(bsz):\n            for i in range(tgt_len):\n                for j in range(src_len):\n                    if not padding_mask[bsz_i, j]:\n                        if j - i == lagging - 1:\n                            self.assertTrue(p_choose[bsz_i, i, j] == 1)\n                        else:\n                            self.assertTrue(p_choose[bsz_i, i, j] == 0)\n\n    def test_waitk_p_choose(self):\n        for longer_src in [True, False]:\n            for k in [1, 3, 10, 20, 100]:\n                sample = make_sample_with_padding(longer_src)\n                model = build_transformer_monotonic_attention(\n                    **generate_config(\n                        {\n                            \"simul_type\": \"waitk\",\n                            \"waitk_lagging\": k,\n                        }\n                    )\n                )\n                model.train()\n                _, extra_out = model.forward(**sample[\"net_input\"])\n                for item in extra_out.attn_list:\n                    p_choose = item[\"p_choose\"]\n                    bsz, num_heads, tgt_len, src_len = p_choose.size()\n                    padding_mask = sample[\"net_input\"][\"src_tokens\"].eq(PAD_INDEX)\n                    padding_mask = (\n                        padding_mask\n                        .unsqueeze(1)\n                        .expand([bsz, num_heads, src_len])\n                        .contiguous()\n                        .view(-1, src_len)\n                    )\n                    p_choose = p_choose.view(bsz * num_heads, tgt_len, src_len)\n                    self.check_waitk(p_choose, k, padding_mask)\n"
  },
  {
    "path": "examples/simultaneous_translation/utils/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport importlib\nimport os\n\n\n# automatically import any Python files in the criterions/ directory\nfor file in sorted(os.listdir(os.path.dirname(__file__))):\n    if file.endswith(\".py\") and not file.startswith(\"_\"):\n        module = file[: file.find(\".py\")]\n        importlib.import_module(\"examples.simultaneous_translation.utils.\" + module)\n"
  },
  {
    "path": "examples/simultaneous_translation/utils/functions.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\n\ndef prob_check(tensor, eps=1e-10):\n    assert not torch.isnan(tensor).any(), (\n        \"Nan in a probability tensor.\"\n    )\n    # Add the eps here to prevent errors introduced by precision\n    assert tensor.le(1.0 + eps).all() and tensor.ge(0.0 - eps).all(), (\n        \"Incorrect values in a probability tensor\"\n        \", 0.0 <= tensor <= 1.0\"\n    )\n\n\ndef exclusive_cumprod(tensor, dim: int, eps: float = 1e-10):\n    \"\"\"\n    Implementing exclusive cumprod.\n    There is cumprod in pytorch, however there is no exclusive mode.\n    cumprod(x) = [x1, x1x2, x2x3x4, ..., prod_{i=1}^n x_i]\n    exclusive means\n    cumprod(x) = [1, x1, x1x2, x1x2x3, ..., prod_{i=1}^{n-1} x_i]\n    \"\"\"\n    tensor_size = list(tensor.size())\n    tensor_size[dim] = 1\n    return_tensor = safe_cumprod(\n        torch.cat([torch.ones(tensor_size).type_as(tensor), tensor], dim=dim),\n        dim=dim,\n        eps=eps,\n    )\n\n    if dim == 0:\n        return return_tensor[:-1]\n    elif dim == 1:\n        return return_tensor[:, :-1]\n    elif dim == 2:\n        return return_tensor[:, :, :-1]\n    else:\n        raise RuntimeError(\n            \"Cumprod on dimension 3 and more is not implemented\"\n        )\n\n\ndef safe_cumprod(tensor, dim: int, eps: float = 1e-10):\n    \"\"\"\n    An implementation of cumprod to prevent precision issue.\n    cumprod(x)\n    = [x1, x1x2, x1x2x3, ....]\n    = [exp(log(x1)), exp(log(x1) + log(x2)), exp(log(x1) + log(x2) + log(x3)), ...]\n    = exp(cumsum(log(x)))\n    \"\"\"\n\n    if (tensor + eps < 0).any().item():\n        raise RuntimeError(\n            \"Safe cumprod can only take non-negative tensors as input.\"\n            \"Consider use torch.cumprod if you want to calculate negative values.\"\n        )\n\n    log_tensor = torch.log(tensor + eps)\n    cumsum_log_tensor = torch.cumsum(log_tensor, dim)\n    exp_cumsum_log_tensor = torch.exp(cumsum_log_tensor)\n    return exp_cumsum_log_tensor\n\n\ndef moving_sum(x, start_idx: int, end_idx: int):\n    \"\"\"\n    From MONOTONIC CHUNKWISE ATTENTION\n    https://arxiv.org/pdf/1712.05382.pdf\n    Equation (18)\n\n    x = [x_1, x_2, ..., x_N]\n    MovingSum(x, start_idx, end_idx)_n = Sigma_{m=n−(start_idx−1)}^{n+end_idx-1} x_m\n    for n in {1, 2, 3, ..., N}\n\n    x : src_len, batch_size\n    start_idx : start idx\n    end_idx : end idx\n\n    Example\n    src_len = 5\n    batch_size = 3\n    x =\n       [[ 0, 5, 10],\n        [ 1, 6, 11],\n        [ 2, 7, 12],\n        [ 3, 8, 13],\n        [ 4, 9, 14]]\n\n    MovingSum(x, 3, 1) =\n       [[ 0,  5, 10],\n        [ 1, 11, 21],\n        [ 3, 18, 33],\n        [ 6, 21, 36],\n        [ 9, 24, 39]]\n\n    MovingSum(x, 1, 3) =\n       [[ 3, 18, 33],\n        [ 6, 21, 36],\n        [ 9, 24, 39],\n        [ 7, 17, 27],\n        [ 4,  9, 14]]\n    \"\"\"\n    # TODO: Make dimension configurable\n    assert start_idx > 0 and end_idx > 0\n    batch_size, tgt_len, src_len = x.size()\n    x = x.view(-1, src_len).unsqueeze(1)\n    # batch_size, 1, src_len\n    moving_sum_weight = torch.ones([1, 1, end_idx + start_idx - 1]).type_as(x)\n\n    moving_sum = torch.nn.functional.conv1d(\n        x, moving_sum_weight, padding=start_idx + end_idx - 1\n    ).squeeze(1)\n\n    moving_sum = moving_sum[:, end_idx:-start_idx]\n\n    assert src_len == moving_sum.size(1)\n    assert batch_size * tgt_len == moving_sum.size(0)\n\n    moving_sum = moving_sum.view(batch_size, tgt_len, src_len)\n\n    return moving_sum\n"
  },
  {
    "path": "examples/simultaneous_translation/utils/monotonic_attention.py",
    "content": "from typing import Optional\nimport torch\nfrom torch import Tensor\n\nfrom examples.simultaneous_translation.utils.functions import (\n    exclusive_cumprod,\n    prob_check,\n    moving_sum,\n)\n\n\ndef expected_alignment_from_p_choose(\n    p_choose: Tensor,\n    padding_mask: Optional[Tensor] = None,\n    eps: float = 1e-6\n):\n    \"\"\"\n    Calculating expected alignment for from stepwise probability\n\n    Reference:\n    Online and Linear-Time Attention by Enforcing Monotonic Alignments\n    https://arxiv.org/pdf/1704.00784.pdf\n\n    q_ij = (1 − p_{ij−1})q_{ij−1} + a+{i−1j}\n    a_ij = p_ij q_ij\n\n    Parallel solution:\n    ai = p_i * cumprod(1 − pi) * cumsum(a_i / cumprod(1 − pi))\n\n    ============================================================\n    Expected input size\n    p_choose: bsz, tgt_len, src_len\n    \"\"\"\n    prob_check(p_choose)\n\n    # p_choose: bsz, tgt_len, src_len\n    bsz, tgt_len, src_len = p_choose.size()\n    dtype = p_choose.dtype\n\n    p_choose = p_choose.float()\n\n    if padding_mask is not None:\n        p_choose = p_choose.masked_fill(padding_mask.unsqueeze(1), 0.0)\n\n    if p_choose.is_cuda:\n        p_choose = p_choose.contiguous()\n        from alignment_train_cuda_binding import alignment_train_cuda as alignment_train\n    else:\n        from alignment_train_cpu_binding import alignment_train_cpu as alignment_train\n\n    alpha = p_choose.new_zeros([bsz, tgt_len, src_len])\n    alignment_train(p_choose, alpha, eps)\n\n    # Mix precision to prevent overflow for fp16\n    alpha = alpha.type(dtype)\n\n    prob_check(alpha)\n\n    return alpha\n\n\ndef expected_soft_attention(\n    alpha: Tensor,\n    soft_energy: Tensor,\n    padding_mask: Optional[Tensor] = None,\n    chunk_size: Optional[int] = None,\n    eps: float = 1e-10\n):\n    \"\"\"\n    Function to compute expected soft attention for\n    monotonic infinite lookback attention from\n    expected alignment and soft energy.\n\n    Reference:\n    Monotonic Chunkwise Attention\n    https://arxiv.org/abs/1712.05382\n\n    Monotonic Infinite Lookback Attention for Simultaneous Machine Translation\n    https://arxiv.org/abs/1906.05218\n\n    alpha: bsz, tgt_len, src_len\n    soft_energy: bsz, tgt_len, src_len\n    padding_mask: bsz, src_len\n    left_padding: bool\n    \"\"\"\n    if padding_mask is not None:\n        alpha = alpha.masked_fill(padding_mask.unsqueeze(1), 0.0)\n        soft_energy = soft_energy.masked_fill(\n            padding_mask.unsqueeze(1), -float(\"inf\")\n        )\n\n    prob_check(alpha)\n\n    dtype = alpha.dtype\n\n    alpha = alpha.float()\n    soft_energy = soft_energy.float()\n\n    soft_energy = soft_energy - soft_energy.max(dim=2, keepdim=True)[0]\n    exp_soft_energy = torch.exp(soft_energy) + eps\n\n    if chunk_size is not None:\n        # Chunkwise\n        beta = (\n            exp_soft_energy\n            * moving_sum(\n                alpha / (eps + moving_sum(exp_soft_energy, chunk_size, 1)),\n                1, chunk_size\n            )\n        )\n    else:\n        # Infinite lookback\n        # Notice that infinite lookback is a special case of chunkwise\n        # where chunksize = inf\n        inner_items = alpha / (eps + torch.cumsum(exp_soft_energy, dim=2))\n\n        beta = (\n            exp_soft_energy\n            * torch.cumsum(inner_items.flip(dims=[2]), dim=2)\n            .flip(dims=[2])\n        )\n\n    if padding_mask is not None:\n        beta = beta.masked_fill(\n            padding_mask.unsqueeze(1).to(torch.bool), 0.0)\n\n    # Mix precision to prevent overflow for fp16\n    beta = beta.type(dtype)\n\n    beta = beta.clamp(0, 1)\n\n    prob_check(beta)\n\n    return beta\n\n\ndef mass_preservation(\n    alpha: Tensor,\n    padding_mask: Optional[Tensor] = None,\n    left_padding: bool = False\n):\n    \"\"\"\n    Function to compute the mass perservation for alpha.\n    This means that the residual weights of alpha will be assigned\n    to the last token.\n\n    Reference:\n    Monotonic Infinite Lookback Attention for Simultaneous Machine Translation\n    https://arxiv.org/abs/1906.05218\n\n    alpha: bsz, tgt_len, src_len\n    padding_mask: bsz, src_len\n    left_padding: bool\n    \"\"\"\n\n    prob_check(alpha)\n\n    if padding_mask is not None:\n        if not left_padding:\n            assert not padding_mask[:, 0].any(), (\n                \"Find padding on the beginning of the sequence.\"\n            )\n        alpha = alpha.masked_fill(padding_mask.unsqueeze(1), 0.0)\n\n    if left_padding or padding_mask is None:\n        residuals = 1 - alpha[:, :, :-1].sum(dim=-1).clamp(0, 1)\n        alpha[:, :, -1] = residuals\n    else:\n        # right padding\n        _, tgt_len, src_len = alpha.size()\n        residuals = 1 - alpha.sum(dim=-1, keepdim=True).clamp(0, 1)\n        src_lens = src_len - padding_mask.sum(dim=1, keepdim=True)\n        src_lens = src_lens.expand(-1, tgt_len).contiguous()\n        # add back the last value\n        residuals += alpha.gather(2, src_lens.unsqueeze(2) - 1)\n        alpha = alpha.scatter(2, src_lens.unsqueeze(2) - 1, residuals)\n\n        prob_check(alpha)\n\n    return alpha\n"
  },
  {
    "path": "examples/simultaneous_translation/utils/p_choose_strategy.py",
    "content": "from typing import Optional, Dict\nfrom torch import Tensor\nimport torch\n\n\ndef waitk_p_choose(\n    tgt_len: int,\n    src_len: int,\n    bsz: int,\n    waitk_lagging: int,\n    key_padding_mask: Optional[Tensor] = None,\n    incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None\n):\n\n    max_src_len = src_len\n    if incremental_state is not None:\n        # Retrieve target length from incremental states\n        # For inference the length of query is always 1\n        max_tgt_len = incremental_state[\"steps\"][\"tgt\"]\n        assert max_tgt_len is not None\n        max_tgt_len = int(max_tgt_len)\n    else:\n        max_tgt_len = tgt_len\n\n    if max_src_len < waitk_lagging:\n        if incremental_state is not None:\n            max_tgt_len = 1\n        return torch.zeros(\n            bsz, max_tgt_len, max_src_len\n        )\n\n    # Assuming the p_choose looks like this for wait k=3\n    # src_len = 6, max_tgt_len = 5\n    #   [0, 0, 1, 0, 0, 0, 0]\n    #   [0, 0, 0, 1, 0, 0, 0]\n    #   [0, 0, 0, 0, 1, 0, 0]\n    #   [0, 0, 0, 0, 0, 1, 0]\n    #   [0, 0, 0, 0, 0, 0, 1]\n    # linearize the p_choose matrix:\n    # [0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0...]\n    # The indices of linearized matrix that equals 1 is\n    # 2 + 6 * 0\n    # 3 + 6 * 1\n    # ...\n    # n + src_len * n + k - 1 = n * (src_len + 1) + k - 1\n    # n from 0 to max_tgt_len - 1\n    #\n    # First, generate the indices (activate_indices_offset: bsz, max_tgt_len)\n    # Second, scatter a zeros tensor (bsz, max_tgt_len * src_len)\n    # with activate_indices_offset\n    # Third, resize the tensor to (bsz, max_tgt_len, src_len)\n\n    activate_indices_offset = (\n        (\n            torch.arange(max_tgt_len) * (max_src_len + 1)\n            + waitk_lagging - 1\n        )\n        .unsqueeze(0)\n        .expand(bsz, max_tgt_len)\n        .long()\n    )\n\n    if key_padding_mask is not None:\n        if key_padding_mask[:, 0].any():\n            # Left padding\n            activate_indices_offset += (\n                key_padding_mask.sum(dim=1, keepdim=True)\n            )\n\n    # Need to clamp the indices that are too large\n    activate_indices_offset = (\n        activate_indices_offset\n        .clamp(\n            0,\n            min(\n                [\n                    max_tgt_len,\n                    max_src_len - waitk_lagging + 1\n                ]\n            ) * max_src_len - 1\n        )\n    )\n\n    p_choose = torch.zeros(bsz, max_tgt_len * max_src_len)\n\n    p_choose = p_choose.scatter(\n        1,\n        activate_indices_offset,\n        1.0\n    ).view(bsz, max_tgt_len, max_src_len)\n\n    if key_padding_mask is not None:\n        p_choose = p_choose.to(key_padding_mask)\n        p_choose = p_choose.masked_fill(key_padding_mask.unsqueeze(1), 0)\n\n    if incremental_state is not None:\n        p_choose = p_choose[:, -1:]\n\n    return p_choose.float()\n\n\ndef learnable_p_choose(\n    energy,\n    noise_mean: float = 0.0,\n    noise_var: float = 0.0,\n    training: bool = True\n):\n    \"\"\"\n    Calculating step wise prob for reading and writing\n    1 to read, 0 to write\n    energy: bsz, tgt_len, src_len\n    \"\"\"\n\n    noise = 0\n    if training:\n        # add noise here to encourage discretness\n        noise = (\n            torch.normal(noise_mean, noise_var, energy.size())\n            .type_as(energy)\n            .to(energy.device)\n        )\n\n    p_choose = torch.sigmoid(energy + noise)\n\n    # p_choose: bsz * self.num_heads, tgt_len, src_len\n    return p_choose\n"
  },
  {
    "path": "examples/speech_recognition/README.md",
    "content": "### 2021 Update: We are merging this example into the [S2T framework](../speech_to_text), which supports more generic speech-to-text tasks (e.g. speech translation) and more flexible data processing pipelines. Please stay tuned.\n\n# Speech Recognition\n`examples/speech_recognition` is implementing ASR task in Fairseq, along with needed features, datasets, models and loss functions to train and infer model described in [Transformers with convolutional context for ASR (Abdelrahman Mohamed et al., 2019)](https://arxiv.org/abs/1904.11660).\n\n\n## Additional dependencies\nOn top of main fairseq dependencies there are couple more additional requirements.\n\n1) Please follow the instructions to install [torchaudio](https://github.com/pytorch/audio). This is required to compute audio fbank features.\n2) [Sclite](http://www1.icsi.berkeley.edu/Speech/docs/sctk-1.2/sclite.htm#sclite_name_0) is used to measure WER. Sclite can be downloaded and installed from source from sctk package [here](http://www.openslr.org/4/). Training and inference doesn't require Sclite dependency.\n3) [sentencepiece](https://github.com/google/sentencepiece) is required in order to create dataset with word-piece targets.\n\n## Preparing librispeech data\n```\n./examples/speech_recognition/datasets/prepare-librispeech.sh $DIR_TO_SAVE_RAW_DATA $DIR_FOR_PREPROCESSED_DATA\n```\n\n## Training librispeech data\n```\npython train.py $DIR_FOR_PREPROCESSED_DATA --save-dir $MODEL_PATH --max-epoch 80 --task speech_recognition --arch vggtransformer_2 --optimizer adadelta --lr 1.0 --adadelta-eps 1e-8 --adadelta-rho 0.95 --clip-norm 10.0  --max-tokens 5000 --log-format json --log-interval 1 --criterion cross_entropy_acc --user-dir examples/speech_recognition/\n```\n\n## Inference for librispeech\n`$SET` can be `test_clean` or `test_other`\nAny checkpoint in `$MODEL_PATH` can be selected. In this example we are working with `checkpoint_last.pt`\n```\npython examples/speech_recognition/infer.py $DIR_FOR_PREPROCESSED_DATA --task speech_recognition --max-tokens 25000 --nbest 1 --path $MODEL_PATH/checkpoint_last.pt --beam 20 --results-path $RES_DIR --batch-size 40 --gen-subset $SET --user-dir examples/speech_recognition/\n```\n\n## Inference for librispeech\n```\nsclite -r ${RES_DIR}/ref.word-checkpoint_last.pt-${SET}.txt -h ${RES_DIR}/hypo.word-checkpoint_last.pt-${SET}.txt -i rm -o all stdout > $RES_REPORT\n```\n`Sum/Avg` row from first table of the report has WER\n\n## Using flashlight (previously called [wav2letter](https://github.com/facebookresearch/wav2letter)) components\n[flashlight](https://github.com/facebookresearch/flashlight) now has integration with fairseq. Currently this includes:\n\n* AutoSegmentationCriterion (ASG)\n* flashlight-style Conv/GLU model\n* flashlight's beam search decoder\n\nTo use these, follow the instructions on [this page](https://github.com/flashlight/flashlight/tree/e16682fa32df30cbf675c8fe010f929c61e3b833/bindings/python) to install python bindings. **Flashlight v0.3.2** must be used to install the bindings. Running:\n```\ngit clone --branch v0.3.2 https://github.com/flashlight/flashlight\n```\nwill properly clone and check out this version.\n\n## Training librispeech data (flashlight style, Conv/GLU + ASG loss)\nTraining command:\n```\npython train.py $DIR_FOR_PREPROCESSED_DATA --save-dir $MODEL_PATH --max-epoch 100 --task speech_recognition --arch w2l_conv_glu_enc --batch-size 4 --optimizer sgd --lr 0.3,0.8 --momentum 0.8 --clip-norm 0.2 --max-tokens 50000 --log-format json --log-interval 100 --num-workers 0 --sentence-avg --criterion asg_loss --asg-transitions-init 5 --max-replabel 2 --linseg-updates 8789 --user-dir examples/speech_recognition\n```\n\nNote that ASG loss currently doesn't do well with word-pieces. You should prepare a dataset with character targets by setting `nbpe=31` in `prepare-librispeech.sh`.\n\n## Inference for librispeech (flashlight decoder, n-gram LM)\nInference command:\n```\npython examples/speech_recognition/infer.py $DIR_FOR_PREPROCESSED_DATA --task speech_recognition --seed 1 --nbest 1 --path $MODEL_PATH/checkpoint_last.pt --gen-subset $SET --results-path $RES_DIR --w2l-decoder kenlm --kenlm-model $KENLM_MODEL_PATH --lexicon $LEXICON_PATH --beam 200 --beam-threshold 15 --lm-weight 1.5 --word-score 1.5 --sil-weight -0.3 --criterion asg_loss --max-replabel 2 --user-dir examples/speech_recognition\n```\n\n`$KENLM_MODEL_PATH` should be a standard n-gram language model file. `$LEXICON_PATH` should be a flashlight-style lexicon (list of known words and their spellings). For ASG inference, a lexicon line should look like this (note the repetition labels):\n```\ndoorbell  D O 1 R B E L 1 ▁\n```\nFor CTC inference with word-pieces, repetition labels are not used and the lexicon should have most common spellings for each word (one can use sentencepiece's `NBestEncodeAsPieces` for this):\n```\ndoorbell  ▁DOOR BE LL\ndoorbell  ▁DOOR B E LL\ndoorbell  ▁DO OR BE LL\ndoorbell  ▁DOOR B EL L\ndoorbell  ▁DOOR BE L L\ndoorbell  ▁DO OR B E LL\ndoorbell  ▁DOOR B E L L\ndoorbell  ▁DO OR B EL L\ndoorbell  ▁DO O R BE LL\ndoorbell  ▁DO OR BE L L\n```\nLowercase vs. uppercase matters: the *word* should match the case of the n-gram language model (i.e. `$KENLM_MODEL_PATH`), while the *spelling* should match the case of the token dictionary (i.e. `$DIR_FOR_PREPROCESSED_DATA/dict.txt`).\n\n## Inference for librispeech (flashlight decoder, viterbi only)\nInference command:\n```\npython examples/speech_recognition/infer.py $DIR_FOR_PREPROCESSED_DATA --task speech_recognition --seed 1 --nbest 1 --path $MODEL_PATH/checkpoint_last.pt --gen-subset $SET --results-path $RES_DIR --w2l-decoder viterbi --criterion asg_loss --max-replabel 2 --user-dir examples/speech_recognition\n```\n"
  },
  {
    "path": "examples/speech_recognition/__init__.py",
    "content": "from . import criterions, models, tasks  # noqa\n"
  },
  {
    "path": "examples/speech_recognition/criterions/ASG_loss.py",
    "content": "#!/usr/bin/env python3\n\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nfrom examples.speech_recognition.data.replabels import pack_replabels\nfrom fairseq import utils\nfrom fairseq.criterions import FairseqCriterion, register_criterion\n\n\n@register_criterion(\"asg_loss\")\nclass ASGCriterion(FairseqCriterion):\n    @staticmethod\n    def add_args(parser):\n        group = parser.add_argument_group(\"ASG Loss\")\n        group.add_argument(\n            \"--asg-transitions-init\",\n            help=\"initial diagonal value of transition matrix\",\n            type=float,\n            default=0.0,\n        )\n        group.add_argument(\n            \"--max-replabel\", help=\"maximum # of replabels\", type=int, default=2\n        )\n        group.add_argument(\n            \"--linseg-updates\",\n            help=\"# of training updates to use LinSeg initialization\",\n            type=int,\n            default=0,\n        )\n        group.add_argument(\n            \"--hide-linseg-messages\",\n            help=\"hide messages about LinSeg initialization\",\n            action=\"store_true\",\n        )\n\n    def __init__(\n        self,\n        task,\n        silence_token,\n        asg_transitions_init,\n        max_replabel,\n        linseg_updates,\n        hide_linseg_messages,\n    ):\n        from flashlight.lib.sequence.criterion import ASGLoss, CriterionScaleMode\n\n        super().__init__(task)\n        self.tgt_dict = task.target_dictionary\n        self.eos = self.tgt_dict.eos()\n        self.silence = (\n            self.tgt_dict.index(silence_token)\n            if silence_token in self.tgt_dict\n            else None\n        )\n        self.max_replabel = max_replabel\n\n        num_labels = len(self.tgt_dict)\n        self.asg = ASGLoss(num_labels, scale_mode=CriterionScaleMode.TARGET_SZ_SQRT)\n        self.asg.trans = torch.nn.Parameter(\n            asg_transitions_init * torch.eye(num_labels), requires_grad=True\n        )\n\n        self.linseg_progress = torch.nn.Parameter(\n            torch.tensor([0], dtype=torch.int), requires_grad=False\n        )\n        self.linseg_maximum = linseg_updates\n        self.linseg_message_state = \"none\" if hide_linseg_messages else \"start\"\n\n    @classmethod\n    def build_criterion(cls, args, task):\n        return cls(\n            task,\n            args.silence_token,\n            args.asg_transitions_init,\n            args.max_replabel,\n            args.linseg_updates,\n            args.hide_linseg_messages,\n        )\n\n    def linseg_step(self):\n        if not self.training:\n            return False\n        if self.linseg_progress.item() < self.linseg_maximum:\n            if self.linseg_message_state == \"start\":\n                print(\"| using LinSeg to initialize ASG\")\n                self.linseg_message_state = \"finish\"\n            self.linseg_progress.add_(1)\n            return True\n        elif self.linseg_message_state == \"finish\":\n            print(\"| finished LinSeg initialization\")\n            self.linseg_message_state = \"none\"\n        return False\n\n    def replace_eos_with_silence(self, tgt):\n        if tgt[-1] != self.eos:\n            return tgt\n        elif self.silence is None or (len(tgt) > 1 and tgt[-2] == self.silence):\n            return tgt[:-1]\n        else:\n            return tgt[:-1] + [self.silence]\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n\n        net_output = model(**sample[\"net_input\"])\n        emissions = net_output[\"encoder_out\"].transpose(0, 1).contiguous()\n        B = emissions.size(0)\n        T = emissions.size(1)\n        device = emissions.device\n\n        target = torch.IntTensor(B, T)\n        target_size = torch.IntTensor(B)\n        using_linseg = self.linseg_step()\n\n        for b in range(B):\n            initial_target_size = sample[\"target_lengths\"][b].item()\n            if initial_target_size == 0:\n                raise ValueError(\"target size cannot be zero\")\n\n            tgt = sample[\"target\"][b, :initial_target_size].tolist()\n            tgt = self.replace_eos_with_silence(tgt)\n            tgt = pack_replabels(tgt, self.tgt_dict, self.max_replabel)\n            tgt = tgt[:T]\n\n            if using_linseg:\n                tgt = [tgt[t * len(tgt) // T] for t in range(T)]\n\n            target[b][: len(tgt)] = torch.IntTensor(tgt)\n            target_size[b] = len(tgt)\n\n        loss = self.asg.forward(emissions, target.to(device), target_size.to(device))\n\n        if reduce:\n            loss = torch.sum(loss)\n\n        sample_size = (\n            sample[\"target\"].size(0) if self.args.sentence_avg else sample[\"ntokens\"]\n        )\n        logging_output = {\n            \"loss\": utils.item(loss.data) if reduce else loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"target\"].size(0),\n            \"sample_size\": sample_size,\n        }\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def aggregate_logging_outputs(logging_outputs):\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n        ntokens = sum(log.get(\"ntokens\", 0) for log in logging_outputs)\n        nsentences = sum(log.get(\"nsentences\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        agg_output = {\n            \"loss\": loss_sum / nsentences,\n            \"ntokens\": ntokens,\n            \"nsentences\": nsentences,\n            \"sample_size\": sample_size,\n        }\n        return agg_output\n"
  },
  {
    "path": "examples/speech_recognition/criterions/__init__.py",
    "content": "import importlib\nimport os\n\n\n# ASG loss requires flashlight bindings\nfiles_to_skip = set()\ntry:\n    import flashlight.lib.sequence.criterion\nexcept ImportError:\n    files_to_skip.add(\"ASG_loss.py\")\n\nfor file in sorted(os.listdir(os.path.dirname(__file__))):\n    if file.endswith(\".py\") and not file.startswith(\"_\") and file not in files_to_skip:\n        criterion_name = file[: file.find(\".py\")]\n        importlib.import_module(\n            \"examples.speech_recognition.criterions.\" + criterion_name\n        )\n"
  },
  {
    "path": "examples/speech_recognition/criterions/cross_entropy_acc.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom __future__ import absolute_import, division, print_function, unicode_literals\n\nimport logging\nimport math\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.criterions import FairseqCriterion, register_criterion\n\n\n@register_criterion(\"cross_entropy_acc\")\nclass CrossEntropyWithAccCriterion(FairseqCriterion):\n    def __init__(self, task, sentence_avg):\n        super().__init__(task)\n        self.sentence_avg = sentence_avg\n\n    def compute_loss(self, model, net_output, target, reduction, log_probs):\n        # N, T -> N * T\n        target = target.view(-1)\n        lprobs = model.get_normalized_probs(net_output, log_probs=log_probs)\n        if not hasattr(lprobs, \"batch_first\"):\n            logging.warning(\n                \"ERROR: we need to know whether \"\n                \"batch first for the net output; \"\n                \"you need to set batch_first attribute for the return value of \"\n                \"model.get_normalized_probs. Now, we assume this is true, but \"\n                \"in the future, we will raise exception instead. \"\n            )\n        batch_first = getattr(lprobs, \"batch_first\", True)\n        if not batch_first:\n            lprobs = lprobs.transpose(0, 1)\n\n        # N, T, D -> N * T, D\n        lprobs = lprobs.view(-1, lprobs.size(-1))\n        loss = F.nll_loss(\n            lprobs, target, ignore_index=self.padding_idx, reduction=reduction\n        )\n        return lprobs, loss\n\n    def get_logging_output(self, sample, target, lprobs, loss):\n        target = target.view(-1)\n        mask = target != self.padding_idx\n        correct = torch.sum(\n            lprobs.argmax(1).masked_select(mask) == target.masked_select(mask)\n        )\n        total = torch.sum(mask)\n        sample_size = (\n            sample[\"target\"].size(0) if self.sentence_avg else sample[\"ntokens\"]\n        )\n\n        logging_output = {\n            \"loss\": utils.item(loss.data),  # * sample['ntokens'],\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"target\"].size(0),\n            \"sample_size\": sample_size,\n            \"correct\": utils.item(correct.data),\n            \"total\": utils.item(total.data),\n            \"nframes\": torch.sum(sample[\"net_input\"][\"src_lengths\"]).item(),\n        }\n\n        return sample_size, logging_output\n\n    def forward(self, model, sample, reduction=\"sum\", log_probs=True):\n        \"\"\"Computes the cross entropy with accuracy metric for the given sample.\n\n        This is similar to CrossEntropyCriterion in fairseq, but also\n        computes accuracy metrics as part of logging\n\n        Args:\n            logprobs (Torch.tensor) of shape N, T, D i.e.\n                batchsize, timesteps, dimensions\n            targets (Torch.tensor) of shape N, T  i.e batchsize, timesteps\n\n        Returns:\n        tuple: With three elements:\n            1) the loss\n            2) the sample size, which is used as the denominator for the gradient\n            3) logging outputs to display while training\n\n        TODO:\n            * Currently this Criterion will only work with LSTMEncoderModels or\n            FairseqModels which have decoder, or Models which return TorchTensor\n            as net_output.\n            We need to make a change to support all FairseqEncoder models.\n        \"\"\"\n        net_output = model(**sample[\"net_input\"])\n        target = model.get_targets(sample, net_output)\n        lprobs, loss = self.compute_loss(\n            model, net_output, target, reduction, log_probs\n        )\n        sample_size, logging_output = self.get_logging_output(\n            sample, target, lprobs, loss\n        )\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def aggregate_logging_outputs(logging_outputs):\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        correct_sum = sum(log.get(\"correct\", 0) for log in logging_outputs)\n        total_sum = sum(log.get(\"total\", 0) for log in logging_outputs)\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n        ntokens = sum(log.get(\"ntokens\", 0) for log in logging_outputs)\n        nsentences = sum(log.get(\"nsentences\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        nframes = sum(log.get(\"nframes\", 0) for log in logging_outputs)\n        agg_output = {\n            \"loss\": loss_sum / sample_size / math.log(2) if sample_size > 0 else 0.0,\n            # if args.sentence_avg, then sample_size is nsentences, then loss\n            # is per-sentence loss; else sample_size is ntokens, the loss\n            # becomes per-output token loss\n            \"ntokens\": ntokens,\n            \"nsentences\": nsentences,\n            \"nframes\": nframes,\n            \"sample_size\": sample_size,\n            \"acc\": correct_sum * 100.0 / total_sum if total_sum > 0 else 0.0,\n            \"correct\": correct_sum,\n            \"total\": total_sum,\n            # total is the number of validate tokens\n        }\n        if sample_size != ntokens:\n            agg_output[\"nll_loss\"] = loss_sum / ntokens / math.log(2)\n        # loss: per output token loss\n        # nll_loss: per sentence loss\n        return agg_output\n"
  },
  {
    "path": "examples/speech_recognition/data/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .asr_dataset import AsrDataset\n\n\n__all__ = [\n    \"AsrDataset\",\n]\n"
  },
  {
    "path": "examples/speech_recognition/data/asr_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\n\nimport numpy as np\nfrom fairseq.data import FairseqDataset\n\nfrom . import data_utils\nfrom .collaters import Seq2SeqCollater\n\n\nclass AsrDataset(FairseqDataset):\n    \"\"\"\n    A dataset representing speech and corresponding transcription.\n\n    Args:\n        aud_paths: (List[str]): A list of str with paths to audio files.\n        aud_durations_ms (List[int]): A list of int containing the durations of\n            audio files.\n        tgt (List[torch.LongTensor]): A list of LongTensors containing the indices\n            of target transcriptions.\n        tgt_dict (~fairseq.data.Dictionary): target vocabulary.\n        ids (List[str]): A list of utterance IDs.\n        speakers (List[str]): A list of speakers corresponding to utterances.\n        num_mel_bins (int): Number of triangular mel-frequency bins (default: 80)\n        frame_length (float): Frame length in milliseconds (default: 25.0)\n        frame_shift (float): Frame shift in milliseconds (default: 10.0)\n    \"\"\"\n\n    def __init__(\n        self,\n        aud_paths,\n        aud_durations_ms,\n        tgt,\n        tgt_dict,\n        ids,\n        speakers,\n        num_mel_bins=80,\n        frame_length=25.0,\n        frame_shift=10.0,\n    ):\n        assert frame_length > 0\n        assert frame_shift > 0\n        assert all(x > frame_length for x in aud_durations_ms)\n        self.frame_sizes = [\n            int(1 + (d - frame_length) / frame_shift) for d in aud_durations_ms\n        ]\n\n        assert len(aud_paths) > 0\n        assert len(aud_paths) == len(aud_durations_ms)\n        assert len(aud_paths) == len(tgt)\n        assert len(aud_paths) == len(ids)\n        assert len(aud_paths) == len(speakers)\n        self.aud_paths = aud_paths\n        self.tgt_dict = tgt_dict\n        self.tgt = tgt\n        self.ids = ids\n        self.speakers = speakers\n        self.num_mel_bins = num_mel_bins\n        self.frame_length = frame_length\n        self.frame_shift = frame_shift\n\n        self.s2s_collater = Seq2SeqCollater(\n            0,\n            1,\n            pad_index=self.tgt_dict.pad(),\n            eos_index=self.tgt_dict.eos(),\n            move_eos_to_beginning=True,\n        )\n\n    def __getitem__(self, index):\n        import torchaudio\n        import torchaudio.compliance.kaldi as kaldi\n\n        tgt_item = self.tgt[index] if self.tgt is not None else None\n\n        path = self.aud_paths[index]\n        if not os.path.exists(path):\n            raise FileNotFoundError(\"Audio file not found: {}\".format(path))\n        sound, sample_rate = torchaudio.load_wav(path)\n        output = kaldi.fbank(\n            sound,\n            num_mel_bins=self.num_mel_bins,\n            frame_length=self.frame_length,\n            frame_shift=self.frame_shift,\n        )\n        output_cmvn = data_utils.apply_mv_norm(output)\n\n        return {\"id\": index, \"data\": [output_cmvn.detach(), tgt_item]}\n\n    def __len__(self):\n        return len(self.aud_paths)\n\n    def collater(self, samples):\n        \"\"\"Merge a list of samples to form a mini-batch.\n\n        Args:\n            samples (List[int]): sample indices to collate\n\n        Returns:\n            dict: a mini-batch suitable for forwarding with a Model\n        \"\"\"\n        return self.s2s_collater.collate(samples)\n\n    def num_tokens(self, index):\n        return self.frame_sizes[index]\n\n    def size(self, index):\n        \"\"\"Return an example's size as a float or tuple. This value is used when\n        filtering a dataset with ``--max-positions``.\"\"\"\n        return (\n            self.frame_sizes[index],\n            len(self.tgt[index]) if self.tgt is not None else 0,\n        )\n\n    def ordered_indices(self):\n        \"\"\"Return an ordered list of indices. Batches will be constructed based\n        on this order.\"\"\"\n        return np.arange(len(self))\n"
  },
  {
    "path": "examples/speech_recognition/data/collaters.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\n    This module contains collection of classes which implement\n    collate functionalities for various tasks.\n\n    Collaters should know what data to expect for each sample\n    and they should pack / collate them into batches\n\"\"\"\n\n\nfrom __future__ import absolute_import, division, print_function, unicode_literals\n\nimport numpy as np\nimport torch\nfrom fairseq.data import data_utils as fairseq_data_utils\n\n\nclass Seq2SeqCollater(object):\n    \"\"\"\n    Implements collate function mainly for seq2seq tasks\n    This expects each sample to contain feature (src_tokens) and\n    targets.\n    This collator is also used for aligned training task.\n    \"\"\"\n\n    def __init__(\n        self,\n        feature_index=0,\n        label_index=1,\n        pad_index=1,\n        eos_index=2,\n        move_eos_to_beginning=True,\n    ):\n        self.feature_index = feature_index\n        self.label_index = label_index\n        self.pad_index = pad_index\n        self.eos_index = eos_index\n        self.move_eos_to_beginning = move_eos_to_beginning\n\n    def _collate_frames(self, frames):\n        \"\"\"Convert a list of 2d frames into a padded 3d tensor\n        Args:\n            frames (list): list of 2d frames of size L[i]*f_dim. Where L[i] is\n                length of i-th frame and f_dim is static dimension of features\n        Returns:\n            3d tensor of size len(frames)*len_max*f_dim where len_max is max of L[i]\n        \"\"\"\n        len_max = max(frame.size(0) for frame in frames)\n        f_dim = frames[0].size(1)\n        res = frames[0].new(len(frames), len_max, f_dim).fill_(0.0)\n\n        for i, v in enumerate(frames):\n            res[i, : v.size(0)] = v\n\n        return res\n\n    def collate(self, samples):\n        \"\"\"\n        utility function to collate samples into batch for speech recognition.\n        \"\"\"\n        if len(samples) == 0:\n            return {}\n\n        # parse samples into torch tensors\n        parsed_samples = []\n        for s in samples:\n            # skip invalid samples\n            if s[\"data\"][self.feature_index] is None:\n                continue\n            source = s[\"data\"][self.feature_index]\n            if isinstance(source, (np.ndarray, np.generic)):\n                source = torch.from_numpy(source)\n            target = s[\"data\"][self.label_index]\n            if isinstance(target, (np.ndarray, np.generic)):\n                target = torch.from_numpy(target).long()\n            elif isinstance(target, list):\n                target = torch.LongTensor(target)\n\n            parsed_sample = {\"id\": s[\"id\"], \"source\": source, \"target\": target}\n            parsed_samples.append(parsed_sample)\n        samples = parsed_samples\n\n        id = torch.LongTensor([s[\"id\"] for s in samples])\n        frames = self._collate_frames([s[\"source\"] for s in samples])\n        # sort samples by descending number of frames\n        frames_lengths = torch.LongTensor([s[\"source\"].size(0) for s in samples])\n        frames_lengths, sort_order = frames_lengths.sort(descending=True)\n        id = id.index_select(0, sort_order)\n        frames = frames.index_select(0, sort_order)\n\n        target = None\n        target_lengths = None\n        prev_output_tokens = None\n        if samples[0].get(\"target\", None) is not None:\n            ntokens = sum(len(s[\"target\"]) for s in samples)\n            target = fairseq_data_utils.collate_tokens(\n                [s[\"target\"] for s in samples],\n                self.pad_index,\n                self.eos_index,\n                left_pad=False,\n                move_eos_to_beginning=False,\n            )\n            target = target.index_select(0, sort_order)\n            target_lengths = torch.LongTensor(\n                [s[\"target\"].size(0) for s in samples]\n            ).index_select(0, sort_order)\n            prev_output_tokens = fairseq_data_utils.collate_tokens(\n                [s[\"target\"] for s in samples],\n                self.pad_index,\n                self.eos_index,\n                left_pad=False,\n                move_eos_to_beginning=self.move_eos_to_beginning,\n            )\n            prev_output_tokens = prev_output_tokens.index_select(0, sort_order)\n        else:\n            ntokens = sum(len(s[\"source\"]) for s in samples)\n\n        batch = {\n            \"id\": id,\n            \"ntokens\": ntokens,\n            \"net_input\": {\"src_tokens\": frames, \"src_lengths\": frames_lengths},\n            \"target\": target,\n            \"target_lengths\": target_lengths,\n            \"nsentences\": len(samples),\n        }\n        if prev_output_tokens is not None:\n            batch[\"net_input\"][\"prev_output_tokens\"] = prev_output_tokens\n        return batch\n"
  },
  {
    "path": "examples/speech_recognition/data/data_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\n\ndef calc_mean_invstddev(feature):\n    if len(feature.size()) != 2:\n        raise ValueError(\"We expect the input feature to be 2-D tensor\")\n    mean = feature.mean(0)\n    var = feature.var(0)\n    # avoid division by ~zero\n    eps = 1e-8\n    if (var < eps).any():\n        return mean, 1.0 / (torch.sqrt(var) + eps)\n    return mean, 1.0 / torch.sqrt(var)\n\n\ndef apply_mv_norm(features):\n    # If there is less than 2 spectrograms, the variance cannot be computed (is NaN)\n    # and normalization is not possible, so return the item as it is\n    if features.size(0) < 2:\n        return features\n    mean, invstddev = calc_mean_invstddev(features)\n    res = (features - mean) * invstddev\n    return res\n\n\ndef lengths_to_encoder_padding_mask(lengths, batch_first=False):\n    \"\"\"\n    convert lengths (a 1-D Long/Int tensor) to 2-D binary tensor\n\n    Args:\n        lengths: a (B, )-shaped tensor\n\n    Return:\n        max_length: maximum length of B sequences\n        encoder_padding_mask: a (max_length, B) binary mask, where\n        [t, b] = 0 for t < lengths[b] and 1 otherwise\n\n    TODO:\n        kernelize this function if benchmarking shows this function is slow\n    \"\"\"\n    max_lengths = torch.max(lengths).item()\n    bsz = lengths.size(0)\n    encoder_padding_mask = torch.arange(\n        max_lengths\n    ).to(  # a (T, ) tensor with [0, ..., T-1]\n        lengths.device\n    ).view(  # move to the right device\n        1, max_lengths\n    ).expand(  # reshape to (1, T)-shaped tensor\n        bsz, -1\n    ) >= lengths.view(  # expand to (B, T)-shaped tensor\n        bsz, 1\n    ).expand(\n        -1, max_lengths\n    )\n    if not batch_first:\n        return encoder_padding_mask.t(), max_lengths\n    else:\n        return encoder_padding_mask, max_lengths\n\n\ndef encoder_padding_mask_to_lengths(\n    encoder_padding_mask, max_lengths, batch_size, device\n):\n    \"\"\"\n    convert encoder_padding_mask (2-D binary tensor) to a 1-D tensor\n\n    Conventionally, encoder output contains a encoder_padding_mask, which is\n    a 2-D mask in a shape (T, B), whose (t, b) element indicate whether\n    encoder_out[t, b] is a valid output (=0) or not (=1). Occasionally, we\n    need to convert this mask tensor to a 1-D tensor in shape (B, ), where\n    [b] denotes the valid length of b-th sequence\n\n    Args:\n        encoder_padding_mask: a (T, B)-shaped binary tensor or None; if None,\n        indicating all are valid\n    Return:\n        seq_lengths: a (B,)-shaped tensor, where its (b, )-th element is the\n        number of valid elements of b-th sequence\n\n        max_lengths: maximum length of all sequence, if encoder_padding_mask is\n        not None, max_lengths must equal to encoder_padding_mask.size(0)\n\n        batch_size: batch size; if encoder_padding_mask is\n        not None, max_lengths must equal to encoder_padding_mask.size(1)\n\n        device: which device to put the result on\n    \"\"\"\n    if encoder_padding_mask is None:\n        return torch.Tensor([max_lengths] * batch_size).to(torch.int32).to(device)\n\n    assert encoder_padding_mask.size(0) == max_lengths, \"max_lengths does not match\"\n    assert encoder_padding_mask.size(1) == batch_size, \"batch_size does not match\"\n\n    return max_lengths - torch.sum(encoder_padding_mask, dim=0)\n"
  },
  {
    "path": "examples/speech_recognition/data/replabels.py",
    "content": "#!/usr/bin/env python3\n\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nReplabel transforms for use with flashlight's ASG criterion.\n\"\"\"\n\n\ndef replabel_symbol(i):\n    \"\"\"\n    Replabel symbols used in flashlight, currently just \"1\", \"2\", ...\n    This prevents training with numeral tokens, so this might change in the future\n    \"\"\"\n    return str(i)\n\n\ndef pack_replabels(tokens, dictionary, max_reps):\n    \"\"\"\n    Pack a token sequence so that repeated symbols are replaced by replabels\n    \"\"\"\n    if len(tokens) == 0 or max_reps <= 0:\n        return tokens\n\n    replabel_value_to_idx = [0] * (max_reps + 1)\n    for i in range(1, max_reps + 1):\n        replabel_value_to_idx[i] = dictionary.index(replabel_symbol(i))\n\n    result = []\n    prev_token = -1\n    num_reps = 0\n    for token in tokens:\n        if token == prev_token and num_reps < max_reps:\n            num_reps += 1\n        else:\n            if num_reps > 0:\n                result.append(replabel_value_to_idx[num_reps])\n                num_reps = 0\n            result.append(token)\n            prev_token = token\n    if num_reps > 0:\n        result.append(replabel_value_to_idx[num_reps])\n    return result\n\n\ndef unpack_replabels(tokens, dictionary, max_reps):\n    \"\"\"\n    Unpack a token sequence so that replabels are replaced by repeated symbols\n    \"\"\"\n    if len(tokens) == 0 or max_reps <= 0:\n        return tokens\n\n    replabel_idx_to_value = {}\n    for i in range(1, max_reps + 1):\n        replabel_idx_to_value[dictionary.index(replabel_symbol(i))] = i\n\n    result = []\n    prev_token = -1\n    for token in tokens:\n        try:\n            for _ in range(replabel_idx_to_value[token]):\n                result.append(prev_token)\n            prev_token = -1\n        except KeyError:\n            result.append(token)\n            prev_token = token\n    return result\n"
  },
  {
    "path": "examples/speech_recognition/datasets/asr_prep_json.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom __future__ import absolute_import, division, print_function, unicode_literals\n\nimport argparse\nimport concurrent.futures\nimport json\nimport multiprocessing\nimport os\nfrom collections import namedtuple\nfrom itertools import chain\n\nimport sentencepiece as spm\nfrom fairseq.data import Dictionary\n\n\nMILLISECONDS_TO_SECONDS = 0.001\n\n\ndef process_sample(aud_path, lable, utt_id, sp, tgt_dict):\n    import torchaudio\n\n    input = {}\n    output = {}\n    si, ei = torchaudio.info(aud_path)\n    input[\"length_ms\"] = int(\n        si.length / si.channels / si.rate / MILLISECONDS_TO_SECONDS\n    )\n    input[\"path\"] = aud_path\n\n    token = \" \".join(sp.EncodeAsPieces(lable))\n    ids = tgt_dict.encode_line(token, append_eos=False)\n    output[\"text\"] = lable\n    output[\"token\"] = token\n    output[\"tokenid\"] = \", \".join(map(str, [t.tolist() for t in ids]))\n    return {utt_id: {\"input\": input, \"output\": output}}\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--audio-dirs\",\n        nargs=\"+\",\n        default=[\"-\"],\n        required=True,\n        help=\"input directories with audio files\",\n    )\n    parser.add_argument(\n        \"--labels\",\n        required=True,\n        help=\"aggregated input labels with format <ID LABEL> per line\",\n        type=argparse.FileType(\"r\", encoding=\"UTF-8\"),\n    )\n    parser.add_argument(\n        \"--spm-model\",\n        required=True,\n        help=\"sentencepiece model to use for encoding\",\n        type=argparse.FileType(\"r\", encoding=\"UTF-8\"),\n    )\n    parser.add_argument(\n        \"--dictionary\",\n        required=True,\n        help=\"file to load fairseq dictionary from\",\n        type=argparse.FileType(\"r\", encoding=\"UTF-8\"),\n    )\n    parser.add_argument(\"--audio-format\", choices=[\"flac\", \"wav\"], default=\"wav\")\n    parser.add_argument(\n        \"--output\",\n        required=True,\n        type=argparse.FileType(\"w\"),\n        help=\"path to save json output\",\n    )\n    args = parser.parse_args()\n\n    sp = spm.SentencePieceProcessor()\n    sp.Load(args.spm_model.name)\n\n    tgt_dict = Dictionary.load(args.dictionary)\n\n    labels = {}\n    for line in args.labels:\n        (utt_id, label) = line.split(\" \", 1)\n        labels[utt_id] = label\n    if len(labels) == 0:\n        raise Exception(\"No labels found in \", args.labels_path)\n\n    Sample = namedtuple(\"Sample\", \"aud_path utt_id\")\n    samples = []\n    for path, _, files in chain.from_iterable(\n        os.walk(path) for path in args.audio_dirs\n    ):\n        for f in files:\n            if f.endswith(args.audio_format):\n                if len(os.path.splitext(f)) != 2:\n                    raise Exception(\"Expect <utt_id.extension> file name. Got: \", f)\n                utt_id = os.path.splitext(f)[0]\n                if utt_id not in labels:\n                    continue\n                samples.append(Sample(os.path.join(path, f), utt_id))\n\n    utts = {}\n    num_cpu = multiprocessing.cpu_count()\n    with concurrent.futures.ThreadPoolExecutor(max_workers=num_cpu) as executor:\n        future_to_sample = {\n            executor.submit(\n                process_sample, s.aud_path, labels[s.utt_id], s.utt_id, sp, tgt_dict\n            ): s\n            for s in samples\n        }\n        for future in concurrent.futures.as_completed(future_to_sample):\n            try:\n                data = future.result()\n            except Exception as exc:\n                print(\"generated an exception: \", exc)\n            else:\n                utts.update(data)\n    json.dump({\"utts\": utts}, args.output, indent=4)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_recognition/datasets/prepare-librispeech.sh",
    "content": "#!/usr/bin/env bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n# Prepare librispeech dataset\n\nbase_url=www.openslr.org/resources/12\ntrain_dir=train_960\n\nif [ \"$#\" -ne 2 ]; then\n  echo \"Usage: $0 <download_dir> <out_dir>\"\n  echo \"e.g.: $0 /tmp/librispeech_raw/ ~/data/librispeech_final\"\n  exit 1\nfi\n\ndownload_dir=${1%/}\nout_dir=${2%/}\n\nfairseq_root=~/fairseq-py/\nmkdir -p ${out_dir}\ncd ${out_dir} || exit\n\nnbpe=5000\nbpemode=unigram\n\nif [ ! -d \"$fairseq_root\" ]; then\n    echo \"$0: Please set correct fairseq_root\"\n    exit 1\nfi\n\necho \"Data Download\"\nfor part in dev-clean test-clean dev-other test-other train-clean-100 train-clean-360 train-other-500; do\n    url=$base_url/$part.tar.gz\n    if ! wget -P $download_dir $url; then\n        echo \"$0: wget failed for $url\"\n        exit 1\n    fi\n    if ! tar -C $download_dir -xvzf $download_dir/$part.tar.gz; then\n        echo \"$0: error un-tarring archive $download_dir/$part.tar.gz\"\n        exit 1\n    fi\ndone\n\necho \"Merge all train packs into one\"\nmkdir -p ${download_dir}/LibriSpeech/${train_dir}/\nfor part in train-clean-100 train-clean-360 train-other-500; do\n    mv ${download_dir}/LibriSpeech/${part}/* $download_dir/LibriSpeech/${train_dir}/\ndone\necho \"Merge train text\"\nfind ${download_dir}/LibriSpeech/${train_dir}/ -name '*.txt' -exec cat {} \\; >> ${download_dir}/LibriSpeech/${train_dir}/text\n\n# Use combined dev-clean and dev-other as validation set\nfind ${download_dir}/LibriSpeech/dev-clean/ ${download_dir}/LibriSpeech/dev-other/ -name '*.txt' -exec cat {} \\; >> ${download_dir}/LibriSpeech/valid_text\nfind ${download_dir}/LibriSpeech/test-clean/ -name '*.txt' -exec cat {} \\; >> ${download_dir}/LibriSpeech/test-clean/text\nfind ${download_dir}/LibriSpeech/test-other/ -name '*.txt' -exec cat {} \\; >> ${download_dir}/LibriSpeech/test-other/text\n\n\ndict=data/lang_char/${train_dir}_${bpemode}${nbpe}_units.txt\nencoded=data/lang_char/${train_dir}_${bpemode}${nbpe}_encoded.txt\nfairseq_dict=data/lang_char/${train_dir}_${bpemode}${nbpe}_fairseq_dict.txt\nbpemodel=data/lang_char/${train_dir}_${bpemode}${nbpe}\necho \"dictionary: ${dict}\"\necho \"Dictionary preparation\"\nmkdir -p data/lang_char/\necho \"<unk> 3\" > ${dict}\necho \"</s> 2\" >> ${dict}\necho \"<pad> 1\" >> ${dict}\ncut -f 2- -d\" \" ${download_dir}/LibriSpeech/${train_dir}/text > data/lang_char/input.txt\nspm_train --input=data/lang_char/input.txt --vocab_size=${nbpe} --model_type=${bpemode} --model_prefix=${bpemodel} --input_sentence_size=100000000 --unk_id=3 --eos_id=2 --pad_id=1 --bos_id=-1 --character_coverage=1\nspm_encode --model=${bpemodel}.model --output_format=piece < data/lang_char/input.txt > ${encoded}\ncat ${encoded} | tr ' ' '\\n' | sort | uniq | awk '{print $0 \" \" NR+3}' >> ${dict}\ncat ${encoded} | tr ' ' '\\n' | sort | uniq -c | awk '{print $2 \" \" $1}' > ${fairseq_dict}\nwc -l ${dict}\n\necho \"Prepare train and test jsons\"\nfor part in train_960 test-other test-clean; do\n    python ${fairseq_root}/examples/speech_recognition/datasets/asr_prep_json.py --audio-dirs ${download_dir}/LibriSpeech/${part} --labels ${download_dir}/LibriSpeech/${part}/text --spm-model ${bpemodel}.model --audio-format flac --dictionary ${fairseq_dict} --output ${part}.json\ndone\n# fairseq expects to find train.json and valid.json during training\nmv train_960.json train.json\n\necho \"Prepare valid json\"\npython ${fairseq_root}/examples/speech_recognition/datasets/asr_prep_json.py --audio-dirs ${download_dir}/LibriSpeech/dev-clean ${download_dir}/LibriSpeech/dev-other --labels ${download_dir}/LibriSpeech/valid_text --spm-model ${bpemodel}.model --audio-format flac --dictionary ${fairseq_dict} --output valid.json\n\ncp ${fairseq_dict} ./dict.txt\ncp ${bpemodel}.model ./spm.model\n"
  },
  {
    "path": "examples/speech_recognition/infer.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nRun inference for pre-processed data with a trained model.\n\"\"\"\n\nimport ast\nimport logging\nimport math\nimport os\nimport sys\n\nimport editdistance\nimport numpy as np\nimport torch\nfrom fairseq import checkpoint_utils, options, progress_bar, tasks, utils\nfrom fairseq.data.data_utils import post_process\nfrom fairseq.logging.meters import StopwatchMeter, TimeMeter\n\n\nlogging.basicConfig()\nlogging.root.setLevel(logging.INFO)\nlogging.basicConfig(level=logging.INFO)\nlogger = logging.getLogger(__name__)\n\n\ndef add_asr_eval_argument(parser):\n    parser.add_argument(\"--kspmodel\", default=None, help=\"sentence piece model\")\n    parser.add_argument(\n        \"--wfstlm\", default=None, help=\"wfstlm on dictonary output units\"\n    )\n    parser.add_argument(\n        \"--rnnt_decoding_type\",\n        default=\"greedy\",\n        help=\"wfstlm on dictonary\\\noutput units\",\n    )\n    try:\n        parser.add_argument(\n            \"--lm-weight\",\n            \"--lm_weight\",\n            type=float,\n            default=0.2,\n            help=\"weight for lm while interpolating with neural score\",\n        )\n    except:\n        pass\n    parser.add_argument(\n        \"--rnnt_len_penalty\", default=-0.5, help=\"rnnt length penalty on word level\"\n    )\n    parser.add_argument(\n        \"--w2l-decoder\",\n        choices=[\"viterbi\", \"kenlm\", \"fairseqlm\"],\n        help=\"use a w2l decoder\",\n    )\n    parser.add_argument(\"--lexicon\", help=\"lexicon for w2l decoder\")\n    parser.add_argument(\"--unit-lm\", action=\"store_true\", help=\"if using a unit lm\")\n    parser.add_argument(\"--kenlm-model\", \"--lm-model\", help=\"lm model for w2l decoder\")\n    parser.add_argument(\"--beam-threshold\", type=float, default=25.0)\n    parser.add_argument(\"--beam-size-token\", type=float, default=100)\n    parser.add_argument(\"--word-score\", type=float, default=1.0)\n    parser.add_argument(\"--unk-weight\", type=float, default=-math.inf)\n    parser.add_argument(\"--sil-weight\", type=float, default=0.0)\n    parser.add_argument(\n        \"--dump-emissions\",\n        type=str,\n        default=None,\n        help=\"if present, dumps emissions into this file and exits\",\n    )\n    parser.add_argument(\n        \"--dump-features\",\n        type=str,\n        default=None,\n        help=\"if present, dumps features into this file and exits\",\n    )\n    parser.add_argument(\n        \"--load-emissions\",\n        type=str,\n        default=None,\n        help=\"if present, loads emissions from this file\",\n    )\n    return parser\n\n\ndef check_args(args):\n    # assert args.path is not None, \"--path required for generation!\"\n    # assert args.results_path is not None, \"--results_path required for generation!\"\n    assert (\n        not args.sampling or args.nbest == args.beam\n    ), \"--sampling requires --nbest to be equal to --beam\"\n    assert (\n        args.replace_unk is None or args.raw_text\n    ), \"--replace-unk requires a raw text dataset (--raw-text)\"\n\n\ndef get_dataset_itr(args, task, models):\n    return task.get_batch_iterator(\n        dataset=task.dataset(args.gen_subset),\n        max_tokens=args.max_tokens,\n        max_sentences=args.batch_size,\n        max_positions=(sys.maxsize, sys.maxsize),\n        ignore_invalid_inputs=args.skip_invalid_size_inputs_valid_test,\n        required_batch_size_multiple=args.required_batch_size_multiple,\n        num_shards=args.num_shards,\n        shard_id=args.shard_id,\n        num_workers=args.num_workers,\n        data_buffer_size=args.data_buffer_size,\n    ).next_epoch_itr(shuffle=False)\n\n\ndef process_predictions(\n    args, hypos, sp, tgt_dict, target_tokens, res_files, speaker, id\n):\n    for hypo in hypos[: min(len(hypos), args.nbest)]:\n        hyp_pieces = tgt_dict.string(hypo[\"tokens\"].int().cpu())\n\n        if \"words\" in hypo:\n            hyp_words = \" \".join(hypo[\"words\"])\n        else:\n            hyp_words = post_process(hyp_pieces, args.post_process)\n\n        if res_files is not None:\n            print(\n                \"{} ({}-{})\".format(hyp_pieces, speaker, id),\n                file=res_files[\"hypo.units\"],\n            )\n            print(\n                \"{} ({}-{})\".format(hyp_words, speaker, id),\n                file=res_files[\"hypo.words\"],\n            )\n\n        tgt_pieces = tgt_dict.string(target_tokens)\n        tgt_words = post_process(tgt_pieces, args.post_process)\n\n        if res_files is not None:\n            print(\n                \"{} ({}-{})\".format(tgt_pieces, speaker, id),\n                file=res_files[\"ref.units\"],\n            )\n            print(\n                \"{} ({}-{})\".format(tgt_words, speaker, id), file=res_files[\"ref.words\"]\n            )\n\n        if not args.quiet:\n            logger.info(\"HYPO:\" + hyp_words)\n            logger.info(\"TARGET:\" + tgt_words)\n            logger.info(\"___________________\")\n\n        hyp_words = hyp_words.split()\n        tgt_words = tgt_words.split()\n        return editdistance.eval(hyp_words, tgt_words), len(tgt_words)\n\n\ndef prepare_result_files(args):\n    def get_res_file(file_prefix):\n        if args.num_shards > 1:\n            file_prefix = f\"{args.shard_id}_{file_prefix}\"\n        path = os.path.join(\n            args.results_path,\n            \"{}-{}-{}.txt\".format(\n                file_prefix, os.path.basename(args.path), args.gen_subset\n            ),\n        )\n        return open(path, \"w\", buffering=1)\n\n    if not args.results_path:\n        return None\n\n    return {\n        \"hypo.words\": get_res_file(\"hypo.word\"),\n        \"hypo.units\": get_res_file(\"hypo.units\"),\n        \"ref.words\": get_res_file(\"ref.word\"),\n        \"ref.units\": get_res_file(\"ref.units\"),\n    }\n\n\ndef optimize_models(args, use_cuda, models):\n    \"\"\"Optimize ensemble for generation\"\"\"\n    for model in models:\n        model.make_generation_fast_(\n            beamable_mm_beam_size=None if args.no_beamable_mm else args.beam,\n            need_attn=args.print_alignment,\n        )\n        if args.fp16:\n            model.half()\n        if use_cuda:\n            model.cuda()\n\n\ndef apply_half(t):\n    if t.dtype is torch.float32:\n        return t.to(dtype=torch.half)\n    return t\n\n\nclass ExistingEmissionsDecoder(object):\n    def __init__(self, decoder, emissions):\n        self.decoder = decoder\n        self.emissions = emissions\n\n    def generate(self, models, sample, **unused):\n        ids = sample[\"id\"].cpu().numpy()\n        try:\n            emissions = np.stack(self.emissions[ids])\n        except:\n            print([x.shape for x in self.emissions[ids]])\n            raise Exception(\"invalid sizes\")\n        emissions = torch.from_numpy(emissions)\n        return self.decoder.decode(emissions)\n\n\ndef main(args, task=None, model_state=None):\n    check_args(args)\n\n    use_fp16 = args.fp16\n    if args.max_tokens is None and args.batch_size is None:\n        args.max_tokens = 4000000\n    logger.info(args)\n\n    use_cuda = torch.cuda.is_available() and not args.cpu\n\n    logger.info(\"| decoding with criterion {}\".format(args.criterion))\n\n    task = tasks.setup_task(args)\n\n    # Load ensemble\n    if args.load_emissions:\n        models, criterions = [], []\n        task.load_dataset(args.gen_subset)\n    else:\n        logger.info(\"| loading model(s) from {}\".format(args.path))\n        models, saved_cfg, task = checkpoint_utils.load_model_ensemble_and_task(\n            utils.split_paths(args.path, separator=\"\\\\\"),\n            arg_overrides=ast.literal_eval(args.model_overrides),\n            task=task,\n            suffix=args.checkpoint_suffix,\n            strict=(args.checkpoint_shard_count == 1),\n            num_shards=args.checkpoint_shard_count,\n            state=model_state,\n        )\n        optimize_models(args, use_cuda, models)\n        task.load_dataset(args.gen_subset, task_cfg=saved_cfg.task)\n\n\n    # Set dictionary\n    tgt_dict = task.target_dictionary\n\n    logger.info(\n        \"| {} {} {} examples\".format(\n            args.data, args.gen_subset, len(task.dataset(args.gen_subset))\n        )\n    )\n\n    # hack to pass transitions to W2lDecoder\n    if args.criterion == \"asg_loss\":\n        raise NotImplementedError(\"asg_loss is currently not supported\")\n        # trans = criterions[0].asg.trans.data\n        # args.asg_transitions = torch.flatten(trans).tolist()\n\n    # Load dataset (possibly sharded)\n    itr = get_dataset_itr(args, task, models)\n\n    # Initialize generator\n    gen_timer = StopwatchMeter()\n\n    def build_generator(args):\n        w2l_decoder = getattr(args, \"w2l_decoder\", None)\n        if w2l_decoder == \"viterbi\":\n            from examples.speech_recognition.w2l_decoder import W2lViterbiDecoder\n\n            return W2lViterbiDecoder(args, task.target_dictionary)\n        elif w2l_decoder == \"kenlm\":\n            from examples.speech_recognition.w2l_decoder import W2lKenLMDecoder\n\n            return W2lKenLMDecoder(args, task.target_dictionary)\n        elif w2l_decoder == \"fairseqlm\":\n            from examples.speech_recognition.w2l_decoder import W2lFairseqLMDecoder\n\n            return W2lFairseqLMDecoder(args, task.target_dictionary)\n        else:\n            print(\n                \"only flashlight decoders with (viterbi, kenlm, fairseqlm) options are supported at the moment\"\n            )\n\n    # please do not touch this unless you test both generate.py and infer.py with audio_pretraining task\n    generator = build_generator(args)\n\n    if args.load_emissions:\n        generator = ExistingEmissionsDecoder(\n            generator, np.load(args.load_emissions, allow_pickle=True)\n        )\n        logger.info(\"loaded emissions from \" + args.load_emissions)\n\n    num_sentences = 0\n\n    if args.results_path is not None and not os.path.exists(args.results_path):\n        os.makedirs(args.results_path)\n\n    max_source_pos = (\n        utils.resolve_max_positions(\n            task.max_positions(), *[model.max_positions() for model in models]\n        ),\n    )\n\n    if max_source_pos is not None:\n        max_source_pos = max_source_pos[0]\n        if max_source_pos is not None:\n            max_source_pos = max_source_pos[0] - 1\n\n    if args.dump_emissions:\n        emissions = {}\n    if args.dump_features:\n        features = {}\n        models[0].bert.proj = None\n    else:\n        res_files = prepare_result_files(args)\n    errs_t = 0\n    lengths_t = 0\n    with progress_bar.build_progress_bar(args, itr) as t:\n        wps_meter = TimeMeter()\n        for sample in t:\n            sample = utils.move_to_cuda(sample) if use_cuda else sample\n            if use_fp16:\n                sample = utils.apply_to_sample(apply_half, sample)\n            if \"net_input\" not in sample:\n                continue\n\n            prefix_tokens = None\n            if args.prefix_size > 0:\n                prefix_tokens = sample[\"target\"][:, : args.prefix_size]\n\n            gen_timer.start()\n            if args.dump_emissions:\n                with torch.no_grad():\n                    encoder_out = models[0](**sample[\"net_input\"])\n                    emm = models[0].get_normalized_probs(encoder_out, log_probs=True)\n                    emm = emm.transpose(0, 1).cpu().numpy()\n                    for i, id in enumerate(sample[\"id\"]):\n                        emissions[id.item()] = emm[i]\n                    continue\n            elif args.dump_features:\n                with torch.no_grad():\n                    encoder_out = models[0](**sample[\"net_input\"])\n                    feat = encoder_out[\"encoder_out\"].transpose(0, 1).cpu().numpy()\n                    for i, id in enumerate(sample[\"id\"]):\n                        padding = (\n                            encoder_out[\"encoder_padding_mask\"][i].cpu().numpy()\n                            if encoder_out[\"encoder_padding_mask\"] is not None\n                            else None\n                        )\n                        features[id.item()] = (feat[i], padding)\n                    continue\n            hypos = task.inference_step(generator, models, sample, prefix_tokens)\n            num_generated_tokens = sum(len(h[0][\"tokens\"]) for h in hypos)\n            gen_timer.stop(num_generated_tokens)\n\n            for i, sample_id in enumerate(sample[\"id\"].tolist()):\n                speaker = None\n                # id = task.dataset(args.gen_subset).ids[int(sample_id)]\n                id = sample_id\n                toks = (\n                    sample[\"target\"][i, :]\n                    if \"target_label\" not in sample\n                    else sample[\"target_label\"][i, :]\n                )\n                target_tokens = utils.strip_pad(toks, tgt_dict.pad()).int().cpu()\n                # Process top predictions\n                errs, length = process_predictions(\n                    args,\n                    hypos[i],\n                    None,\n                    tgt_dict,\n                    target_tokens,\n                    res_files,\n                    speaker,\n                    id,\n                )\n                errs_t += errs\n                lengths_t += length\n\n            wps_meter.update(num_generated_tokens)\n            t.log({\"wps\": round(wps_meter.avg)})\n            num_sentences += (\n                sample[\"nsentences\"] if \"nsentences\" in sample else sample[\"id\"].numel()\n            )\n\n    wer = None\n    if args.dump_emissions:\n        emm_arr = []\n        for i in range(len(emissions)):\n            emm_arr.append(emissions[i])\n        np.save(args.dump_emissions, emm_arr)\n        logger.info(f\"saved {len(emissions)} emissions to {args.dump_emissions}\")\n    elif args.dump_features:\n        feat_arr = []\n        for i in range(len(features)):\n            feat_arr.append(features[i])\n        np.save(args.dump_features, feat_arr)\n        logger.info(f\"saved {len(features)} emissions to {args.dump_features}\")\n    else:\n        if lengths_t > 0:\n            wer = errs_t * 100.0 / lengths_t\n            logger.info(f\"WER: {wer}\")\n\n        logger.info(\n            \"| Processed {} sentences ({} tokens) in {:.1f}s ({:.2f}\"\n            \"sentences/s, {:.2f} tokens/s)\".format(\n                num_sentences,\n                gen_timer.n,\n                gen_timer.sum,\n                num_sentences / gen_timer.sum,\n                1.0 / gen_timer.avg,\n            )\n        )\n        logger.info(\"| Generate {} with beam={}\".format(args.gen_subset, args.beam))\n    return task, wer\n\n\ndef make_parser():\n    parser = options.get_generation_parser()\n    parser = add_asr_eval_argument(parser)\n    return parser\n\n\ndef cli_main():\n    parser = make_parser()\n    args = options.parse_args_and_arch(parser)\n    main(args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/speech_recognition/kaldi/__init__.py",
    "content": ""
  },
  {
    "path": "examples/speech_recognition/kaldi/add-self-loop-simple.cc",
    "content": "/*\n * Copyright (c) Facebook, Inc. and its affiliates.\n *\n * This source code is licensed under the MIT license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include <iostream>\n#include \"fstext/fstext-lib.h\" // @manual\n#include \"util/common-utils.h\" // @manual\n\n/*\n * This program is to modify a FST without self-loop by:\n *   for each incoming arc with non-eps input symbol, add a self-loop arc\n *   with that non-eps symbol as input and eps as output.\n *\n * This is to make sure the resultant FST can do deduplication for repeated\n * symbols, which is very common in acoustic model\n *\n */\nnamespace {\nint32 AddSelfLoopsSimple(fst::StdVectorFst* fst) {\n  typedef fst::MutableArcIterator<fst::StdVectorFst> IterType;\n\n  int32 num_states_before = fst->NumStates();\n  fst::MakePrecedingInputSymbolsSame(false, fst);\n  int32 num_states_after = fst->NumStates();\n  KALDI_LOG << \"There are \" << num_states_before\n            << \" states in the original FST; \"\n            << \" after MakePrecedingInputSymbolsSame, there are \"\n            << num_states_after << \" states \" << std::endl;\n\n  auto weight_one = fst::StdArc::Weight::One();\n\n  int32 num_arc_added = 0;\n\n  fst::StdArc self_loop_arc;\n  self_loop_arc.weight = weight_one;\n\n  int32 num_states = fst->NumStates();\n  std::vector<std::set<int32>> incoming_non_eps_label_per_state(num_states);\n\n  for (int32 state = 0; state < num_states; state++) {\n    for (IterType aiter(fst, state); !aiter.Done(); aiter.Next()) {\n      fst::StdArc arc(aiter.Value());\n      if (arc.ilabel != 0) {\n        incoming_non_eps_label_per_state[arc.nextstate].insert(arc.ilabel);\n      }\n    }\n  }\n\n  for (int32 state = 0; state < num_states; state++) {\n    if (!incoming_non_eps_label_per_state[state].empty()) {\n      auto& ilabel_set = incoming_non_eps_label_per_state[state];\n      for (auto it = ilabel_set.begin(); it != ilabel_set.end(); it++) {\n        self_loop_arc.ilabel = *it;\n        self_loop_arc.olabel = 0;\n        self_loop_arc.nextstate = state;\n        fst->AddArc(state, self_loop_arc);\n        num_arc_added++;\n      }\n    }\n  }\n  return num_arc_added;\n}\n\nvoid print_usage() {\n  std::cout << \"add-self-loop-simple usage:\\n\"\n               \"\\tadd-self-loop-simple <in-fst> <out-fst> \\n\";\n}\n} // namespace\n\nint main(int argc, char** argv) {\n  if (argc != 3) {\n    print_usage();\n    exit(1);\n  }\n\n  auto input = argv[1];\n  auto output = argv[2];\n\n  auto fst = fst::ReadFstKaldi(input);\n  auto num_states = fst->NumStates();\n  KALDI_LOG << \"Loading FST from \" << input << \" with \" << num_states\n            << \" states.\" << std::endl;\n\n  int32 num_arc_added = AddSelfLoopsSimple(fst);\n  KALDI_LOG << \"Adding \" << num_arc_added << \" self-loop arcs \" << std::endl;\n\n  fst::WriteFstKaldi(*fst, std::string(output));\n  KALDI_LOG << \"Writing FST to \" << output << std::endl;\n\n  delete fst;\n}\n"
  },
  {
    "path": "examples/speech_recognition/kaldi/config/kaldi_initializer.yaml",
    "content": "# @package _group_\n\ndata_dir: ???\nfst_dir: ???\nin_labels: ???\nkaldi_root: ???\nlm_arpa: ???\nblank_symbol: <s>\n"
  },
  {
    "path": "examples/speech_recognition/kaldi/kaldi_decoder.py",
    "content": "#!/usr/bin/env python3\n\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom concurrent.futures import ThreadPoolExecutor\nimport logging\nfrom omegaconf import MISSING\nimport os\nimport torch\nfrom typing import Optional\nimport warnings\n\n\nfrom dataclasses import dataclass\nfrom fairseq.dataclass import FairseqDataclass\nfrom .kaldi_initializer import KaldiInitializerConfig, initalize_kaldi\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass KaldiDecoderConfig(FairseqDataclass):\n    hlg_graph_path: Optional[str] = None\n    output_dict: str = MISSING\n\n    kaldi_initializer_config: Optional[KaldiInitializerConfig] = None\n\n    acoustic_scale: float = 0.5\n    max_active: int = 10000\n    beam_delta: float = 0.5\n    hash_ratio: float = 2.0\n\n    is_lattice: bool = False\n    lattice_beam: float = 10.0\n    prune_interval: int = 25\n    determinize_lattice: bool = True\n    prune_scale: float = 0.1\n    max_mem: int = 0\n    phone_determinize: bool = True\n    word_determinize: bool = True\n    minimize: bool = True\n\n    num_threads: int = 1\n\n\nclass KaldiDecoder(object):\n    def __init__(\n        self,\n        cfg: KaldiDecoderConfig,\n        beam: int,\n        nbest: int = 1,\n    ):\n        try:\n            from kaldi.asr import FasterRecognizer, LatticeFasterRecognizer\n            from kaldi.base import set_verbose_level\n            from kaldi.decoder import (\n                FasterDecoder,\n                FasterDecoderOptions,\n                LatticeFasterDecoder,\n                LatticeFasterDecoderOptions,\n            )\n            from kaldi.lat.functions import DeterminizeLatticePhonePrunedOptions\n            from kaldi.fstext import read_fst_kaldi, SymbolTable\n        except:\n            warnings.warn(\n                \"pykaldi is required for this functionality. Please install from https://github.com/pykaldi/pykaldi\"\n            )\n\n        # set_verbose_level(2)\n\n        self.acoustic_scale = cfg.acoustic_scale\n        self.nbest = nbest\n\n        if cfg.hlg_graph_path is None:\n            assert (\n                cfg.kaldi_initializer_config is not None\n            ), \"Must provide hlg graph path or kaldi initializer config\"\n            cfg.hlg_graph_path = initalize_kaldi(cfg.kaldi_initializer_config)\n\n        assert os.path.exists(cfg.hlg_graph_path), cfg.hlg_graph_path\n\n        if cfg.is_lattice:\n            self.dec_cls = LatticeFasterDecoder\n            opt_cls = LatticeFasterDecoderOptions\n            self.rec_cls = LatticeFasterRecognizer\n        else:\n            assert self.nbest == 1, \"nbest > 1 requires lattice decoder\"\n            self.dec_cls = FasterDecoder\n            opt_cls = FasterDecoderOptions\n            self.rec_cls = FasterRecognizer\n\n        self.decoder_options = opt_cls()\n        self.decoder_options.beam = beam\n        self.decoder_options.max_active = cfg.max_active\n        self.decoder_options.beam_delta = cfg.beam_delta\n        self.decoder_options.hash_ratio = cfg.hash_ratio\n\n        if cfg.is_lattice:\n            self.decoder_options.lattice_beam = cfg.lattice_beam\n            self.decoder_options.prune_interval = cfg.prune_interval\n            self.decoder_options.determinize_lattice = cfg.determinize_lattice\n            self.decoder_options.prune_scale = cfg.prune_scale\n            det_opts = DeterminizeLatticePhonePrunedOptions()\n            det_opts.max_mem = cfg.max_mem\n            det_opts.phone_determinize = cfg.phone_determinize\n            det_opts.word_determinize = cfg.word_determinize\n            det_opts.minimize = cfg.minimize\n            self.decoder_options.det_opts = det_opts\n\n        self.output_symbols = {}\n        with open(cfg.output_dict, \"r\") as f:\n            for line in f:\n                items = line.rstrip().split()\n                assert len(items) == 2\n                self.output_symbols[int(items[1])] = items[0]\n\n        logger.info(f\"Loading FST from {cfg.hlg_graph_path}\")\n        self.fst = read_fst_kaldi(cfg.hlg_graph_path)\n        self.symbol_table = SymbolTable.read_text(cfg.output_dict)\n\n        self.executor = ThreadPoolExecutor(max_workers=cfg.num_threads)\n\n    def generate(self, models, sample, **unused):\n        \"\"\"Generate a batch of inferences.\"\"\"\n        # model.forward normally channels prev_output_tokens into the decoder\n        # separately, but SequenceGenerator directly calls model.encoder\n        encoder_input = {\n            k: v for k, v in sample[\"net_input\"].items() if k != \"prev_output_tokens\"\n        }\n        emissions, padding = self.get_emissions(models, encoder_input)\n        return self.decode(emissions, padding)\n\n    def get_emissions(self, models, encoder_input):\n        \"\"\"Run encoder and normalize emissions\"\"\"\n        model = models[0]\n\n        all_encoder_out = [m(**encoder_input) for m in models]\n\n        if len(all_encoder_out) > 1:\n\n            if \"encoder_out\" in all_encoder_out[0]:\n                encoder_out = {\n                    \"encoder_out\": sum(e[\"encoder_out\"] for e in all_encoder_out)\n                    / len(all_encoder_out),\n                    \"encoder_padding_mask\": all_encoder_out[0][\"encoder_padding_mask\"],\n                }\n                padding = encoder_out[\"encoder_padding_mask\"]\n            else:\n                encoder_out = {\n                    \"logits\": sum(e[\"logits\"] for e in all_encoder_out)\n                    / len(all_encoder_out),\n                    \"padding_mask\": all_encoder_out[0][\"padding_mask\"],\n                }\n                padding = encoder_out[\"padding_mask\"]\n        else:\n            encoder_out = all_encoder_out[0]\n            padding = (\n                encoder_out[\"padding_mask\"]\n                if \"padding_mask\" in encoder_out\n                else encoder_out[\"encoder_padding_mask\"]\n            )\n\n        if hasattr(model, \"get_logits\"):\n            emissions = model.get_logits(encoder_out, normalize=True)\n        else:\n            emissions = model.get_normalized_probs(encoder_out, log_probs=True)\n\n        return (\n            emissions.cpu().float().transpose(0, 1),\n            padding.cpu() if padding is not None and padding.any() else None,\n        )\n\n    def decode_one(self, logits, padding):\n        from kaldi.matrix import Matrix\n\n        decoder = self.dec_cls(self.fst, self.decoder_options)\n        asr = self.rec_cls(\n            decoder, self.symbol_table, acoustic_scale=self.acoustic_scale\n        )\n\n        if padding is not None:\n            logits = logits[~padding]\n\n        mat = Matrix(logits.numpy())\n\n        out = asr.decode(mat)\n\n        if self.nbest > 1:\n            from kaldi.fstext import shortestpath\n            from kaldi.fstext.utils import (\n                convert_compact_lattice_to_lattice,\n                convert_lattice_to_std,\n                convert_nbest_to_list,\n                get_linear_symbol_sequence,\n            )\n\n            lat = out[\"lattice\"]\n\n            sp = shortestpath(lat, nshortest=self.nbest)\n\n            sp = convert_compact_lattice_to_lattice(sp)\n            sp = convert_lattice_to_std(sp)\n            seq = convert_nbest_to_list(sp)\n\n            results = []\n            for s in seq:\n                _, o, w = get_linear_symbol_sequence(s)\n                words = list(self.output_symbols[z] for z in o)\n                results.append(\n                    {\n                        \"tokens\": words,\n                        \"words\": words,\n                        \"score\": w.value,\n                        \"emissions\": logits,\n                    }\n                )\n            return results\n        else:\n            words = out[\"text\"].split()\n            return [\n                {\n                    \"tokens\": words,\n                    \"words\": words,\n                    \"score\": out[\"likelihood\"],\n                    \"emissions\": logits,\n                }\n            ]\n\n    def decode(self, emissions, padding):\n        if padding is None:\n            padding = [None] * len(emissions)\n\n        ret = list(\n            map(\n                lambda e, p: self.executor.submit(self.decode_one, e, p),\n                emissions,\n                padding,\n            )\n        )\n        return ret\n"
  },
  {
    "path": "examples/speech_recognition/kaldi/kaldi_initializer.py",
    "content": "#!/usr/bin/env python3\n\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass\nimport hydra\nfrom hydra.core.config_store import ConfigStore\nimport logging\nfrom omegaconf import MISSING, OmegaConf\nimport os\nimport os.path as osp\nfrom pathlib import Path\nimport subprocess\nfrom typing import Optional\n\nfrom fairseq.data.dictionary import Dictionary\nfrom fairseq.dataclass import FairseqDataclass\n\nscript_dir = Path(__file__).resolve().parent\nconfig_path = script_dir / \"config\"\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass KaldiInitializerConfig(FairseqDataclass):\n    data_dir: str = MISSING\n    fst_dir: Optional[str] = None\n    in_labels: str = MISSING\n    out_labels: Optional[str] = None\n    wav2letter_lexicon: Optional[str] = None\n    lm_arpa: str = MISSING\n    kaldi_root: str = MISSING\n    blank_symbol: str = \"<s>\"\n    silence_symbol: Optional[str] = None\n\n\ndef create_units(fst_dir: Path, in_labels: str, vocab: Dictionary) -> Path:\n    in_units_file = fst_dir / f\"kaldi_dict.{in_labels}.txt\"\n    if not in_units_file.exists():\n\n        logger.info(f\"Creating {in_units_file}\")\n\n        with open(in_units_file, \"w\") as f:\n            print(\"<eps> 0\", file=f)\n            i = 1\n            for symb in vocab.symbols[vocab.nspecial :]:\n                if not symb.startswith(\"madeupword\"):\n                    print(f\"{symb} {i}\", file=f)\n                    i += 1\n    return in_units_file\n\n\ndef create_lexicon(\n    cfg: KaldiInitializerConfig,\n    fst_dir: Path,\n    unique_label: str,\n    in_units_file: Path,\n    out_words_file: Path,\n) -> (Path, Path):\n\n    disambig_in_units_file = fst_dir / f\"kaldi_dict.{cfg.in_labels}_disambig.txt\"\n    lexicon_file = fst_dir / f\"kaldi_lexicon.{unique_label}.txt\"\n    disambig_lexicon_file = fst_dir / f\"kaldi_lexicon.{unique_label}_disambig.txt\"\n    if (\n        not lexicon_file.exists()\n        or not disambig_lexicon_file.exists()\n        or not disambig_in_units_file.exists()\n    ):\n        logger.info(f\"Creating {lexicon_file} (in units file: {in_units_file})\")\n\n        assert cfg.wav2letter_lexicon is not None or cfg.in_labels == cfg.out_labels\n\n        if cfg.wav2letter_lexicon is not None:\n            lm_words = set()\n            with open(out_words_file, \"r\") as lm_dict_f:\n                for line in lm_dict_f:\n                    lm_words.add(line.split()[0])\n\n            num_skipped = 0\n            total = 0\n            with open(cfg.wav2letter_lexicon, \"r\") as w2l_lex_f, open(\n                lexicon_file, \"w\"\n            ) as out_f:\n                for line in w2l_lex_f:\n                    items = line.rstrip().split(\"\\t\")\n                    assert len(items) == 2, items\n                    if items[0] in lm_words:\n                        print(items[0], items[1], file=out_f)\n                    else:\n                        num_skipped += 1\n                        logger.debug(\n                            f\"Skipping word {items[0]} as it was not found in LM\"\n                        )\n                    total += 1\n            if num_skipped > 0:\n                logger.warning(\n                    f\"Skipped {num_skipped} out of {total} words as they were not found in LM\"\n                )\n        else:\n            with open(in_units_file, \"r\") as in_f, open(lexicon_file, \"w\") as out_f:\n                for line in in_f:\n                    symb = line.split()[0]\n                    if symb != \"<eps>\" and symb != \"<ctc_blank>\" and symb != \"<SIL>\":\n                        print(symb, symb, file=out_f)\n\n        lex_disambig_path = (\n            Path(cfg.kaldi_root) / \"egs/wsj/s5/utils/add_lex_disambig.pl\"\n        )\n        res = subprocess.run(\n            [lex_disambig_path, lexicon_file, disambig_lexicon_file],\n            check=True,\n            capture_output=True,\n        )\n        ndisambig = int(res.stdout)\n        disamib_path = Path(cfg.kaldi_root) / \"egs/wsj/s5/utils/add_disambig.pl\"\n        res = subprocess.run(\n            [disamib_path, \"--include-zero\", in_units_file, str(ndisambig)],\n            check=True,\n            capture_output=True,\n        )\n        with open(disambig_in_units_file, \"wb\") as f:\n            f.write(res.stdout)\n\n    return disambig_lexicon_file, disambig_in_units_file\n\n\ndef create_G(\n    kaldi_root: Path, fst_dir: Path, lm_arpa: Path, arpa_base: str\n) -> (Path, Path):\n\n    out_words_file = fst_dir / f\"kaldi_dict.{arpa_base}.txt\"\n    grammar_graph = fst_dir / f\"G_{arpa_base}.fst\"\n    if not grammar_graph.exists() or not out_words_file.exists():\n        logger.info(f\"Creating {grammar_graph}\")\n        arpa2fst = kaldi_root / \"src/lmbin/arpa2fst\"\n        subprocess.run(\n            [\n                arpa2fst,\n                \"--disambig-symbol=#0\",\n                f\"--write-symbol-table={out_words_file}\",\n                lm_arpa,\n                grammar_graph,\n            ],\n            check=True,\n        )\n    return grammar_graph, out_words_file\n\n\ndef create_L(\n    kaldi_root: Path,\n    fst_dir: Path,\n    unique_label: str,\n    lexicon_file: Path,\n    in_units_file: Path,\n    out_words_file: Path,\n) -> Path:\n    lexicon_graph = fst_dir / f\"L.{unique_label}.fst\"\n\n    if not lexicon_graph.exists():\n        logger.info(f\"Creating {lexicon_graph} (in units: {in_units_file})\")\n        make_lex = kaldi_root / \"egs/wsj/s5/utils/make_lexicon_fst.pl\"\n        fstcompile = kaldi_root / \"tools/openfst-1.6.7/bin/fstcompile\"\n        fstaddselfloops = kaldi_root / \"src/fstbin/fstaddselfloops\"\n        fstarcsort = kaldi_root / \"tools/openfst-1.6.7/bin/fstarcsort\"\n\n        def write_disambig_symbol(file):\n            with open(file, \"r\") as f:\n                for line in f:\n                    items = line.rstrip().split()\n                    if items[0] == \"#0\":\n                        out_path = str(file) + \"_disamig\"\n                        with open(out_path, \"w\") as out_f:\n                            print(items[1], file=out_f)\n                            return out_path\n\n            return None\n\n        in_disambig_sym = write_disambig_symbol(in_units_file)\n        assert in_disambig_sym is not None\n        out_disambig_sym = write_disambig_symbol(out_words_file)\n        assert out_disambig_sym is not None\n\n        try:\n            with open(lexicon_graph, \"wb\") as out_f:\n                res = subprocess.run(\n                    [make_lex, lexicon_file], capture_output=True, check=True\n                )\n                assert len(res.stderr) == 0, res.stderr.decode(\"utf-8\")\n                res = subprocess.run(\n                    [\n                        fstcompile,\n                        f\"--isymbols={in_units_file}\",\n                        f\"--osymbols={out_words_file}\",\n                        \"--keep_isymbols=false\",\n                        \"--keep_osymbols=false\",\n                    ],\n                    input=res.stdout,\n                    capture_output=True,\n                )\n                assert len(res.stderr) == 0, res.stderr.decode(\"utf-8\")\n                res = subprocess.run(\n                    [fstaddselfloops, in_disambig_sym, out_disambig_sym],\n                    input=res.stdout,\n                    capture_output=True,\n                    check=True,\n                )\n                res = subprocess.run(\n                    [fstarcsort, \"--sort_type=olabel\"],\n                    input=res.stdout,\n                    capture_output=True,\n                    check=True,\n                )\n                out_f.write(res.stdout)\n        except subprocess.CalledProcessError as e:\n            logger.error(f\"cmd: {e.cmd}, err: {e.stderr.decode('utf-8')}\")\n            os.remove(lexicon_graph)\n            raise\n        except AssertionError:\n            os.remove(lexicon_graph)\n            raise\n\n    return lexicon_graph\n\n\ndef create_LG(\n    kaldi_root: Path,\n    fst_dir: Path,\n    unique_label: str,\n    lexicon_graph: Path,\n    grammar_graph: Path,\n) -> Path:\n    lg_graph = fst_dir / f\"LG.{unique_label}.fst\"\n\n    if not lg_graph.exists():\n        logger.info(f\"Creating {lg_graph}\")\n\n        fsttablecompose = kaldi_root / \"src/fstbin/fsttablecompose\"\n        fstdeterminizestar = kaldi_root / \"src/fstbin/fstdeterminizestar\"\n        fstminimizeencoded = kaldi_root / \"src/fstbin/fstminimizeencoded\"\n        fstpushspecial = kaldi_root / \"src/fstbin/fstpushspecial\"\n        fstarcsort = kaldi_root / \"tools/openfst-1.6.7/bin/fstarcsort\"\n\n        try:\n            with open(lg_graph, \"wb\") as out_f:\n                res = subprocess.run(\n                    [fsttablecompose, lexicon_graph, grammar_graph],\n                    capture_output=True,\n                    check=True,\n                )\n                res = subprocess.run(\n                    [\n                        fstdeterminizestar,\n                        \"--use-log=true\",\n                    ],\n                    input=res.stdout,\n                    capture_output=True,\n                )\n                res = subprocess.run(\n                    [fstminimizeencoded],\n                    input=res.stdout,\n                    capture_output=True,\n                    check=True,\n                )\n                res = subprocess.run(\n                    [fstpushspecial],\n                    input=res.stdout,\n                    capture_output=True,\n                    check=True,\n                )\n                res = subprocess.run(\n                    [fstarcsort, \"--sort_type=ilabel\"],\n                    input=res.stdout,\n                    capture_output=True,\n                    check=True,\n                )\n                out_f.write(res.stdout)\n        except subprocess.CalledProcessError as e:\n            logger.error(f\"cmd: {e.cmd}, err: {e.stderr.decode('utf-8')}\")\n            os.remove(lg_graph)\n            raise\n\n    return lg_graph\n\n\ndef create_H(\n    kaldi_root: Path,\n    fst_dir: Path,\n    disambig_out_units_file: Path,\n    in_labels: str,\n    vocab: Dictionary,\n    blk_sym: str,\n    silence_symbol: Optional[str],\n) -> (Path, Path, Path):\n    h_graph = (\n        fst_dir / f\"H.{in_labels}{'_' + silence_symbol if silence_symbol else ''}.fst\"\n    )\n    h_out_units_file = fst_dir / f\"kaldi_dict.h_out.{in_labels}.txt\"\n    disambig_in_units_file_int = Path(str(h_graph) + \"isym_disambig.int\")\n    disambig_out_units_file_int = Path(str(disambig_out_units_file) + \".int\")\n    if (\n        not h_graph.exists()\n        or not h_out_units_file.exists()\n        or not disambig_in_units_file_int.exists()\n    ):\n        logger.info(f\"Creating {h_graph}\")\n        eps_sym = \"<eps>\"\n\n        num_disambig = 0\n        osymbols = []\n\n        with open(disambig_out_units_file, \"r\") as f, open(\n            disambig_out_units_file_int, \"w\"\n        ) as out_f:\n            for line in f:\n                symb, id = line.rstrip().split()\n                if line.startswith(\"#\"):\n                    num_disambig += 1\n                    print(id, file=out_f)\n                else:\n                    if len(osymbols) == 0:\n                        assert symb == eps_sym, symb\n                    osymbols.append((symb, id))\n\n        i_idx = 0\n        isymbols = [(eps_sym, 0)]\n\n        imap = {}\n\n        for i, s in enumerate(vocab.symbols):\n            i_idx += 1\n            isymbols.append((s, i_idx))\n            imap[s] = i_idx\n\n        fst_str = []\n\n        node_idx = 0\n        root_node = node_idx\n\n        special_symbols = [blk_sym]\n        if silence_symbol is not None:\n            special_symbols.append(silence_symbol)\n\n        for ss in special_symbols:\n            fst_str.append(\"{} {} {} {}\".format(root_node, root_node, ss, eps_sym))\n\n        for symbol, _ in osymbols:\n            if symbol == eps_sym or symbol.startswith(\"#\"):\n                continue\n\n            node_idx += 1\n            # 1. from root to emitting state\n            fst_str.append(\"{} {} {} {}\".format(root_node, node_idx, symbol, symbol))\n            # 2. from emitting state back to root\n            fst_str.append(\"{} {} {} {}\".format(node_idx, root_node, eps_sym, eps_sym))\n            # 3. from emitting state to optional blank state\n            pre_node = node_idx\n            node_idx += 1\n            for ss in special_symbols:\n                fst_str.append(\"{} {} {} {}\".format(pre_node, node_idx, ss, eps_sym))\n            # 4. from blank state back to root\n            fst_str.append(\"{} {} {} {}\".format(node_idx, root_node, eps_sym, eps_sym))\n\n        fst_str.append(\"{}\".format(root_node))\n\n        fst_str = \"\\n\".join(fst_str)\n        h_str = str(h_graph)\n        isym_file = h_str + \".isym\"\n\n        with open(isym_file, \"w\") as f:\n            for sym, id in isymbols:\n                f.write(\"{} {}\\n\".format(sym, id))\n\n        with open(h_out_units_file, \"w\") as f:\n            for sym, id in osymbols:\n                f.write(\"{} {}\\n\".format(sym, id))\n\n        with open(disambig_in_units_file_int, \"w\") as f:\n            disam_sym_id = len(isymbols)\n            for _ in range(num_disambig):\n                f.write(\"{}\\n\".format(disam_sym_id))\n                disam_sym_id += 1\n\n        fstcompile = kaldi_root / \"tools/openfst-1.6.7/bin/fstcompile\"\n        fstaddselfloops = kaldi_root / \"src/fstbin/fstaddselfloops\"\n        fstarcsort = kaldi_root / \"tools/openfst-1.6.7/bin/fstarcsort\"\n\n        try:\n            with open(h_graph, \"wb\") as out_f:\n                res = subprocess.run(\n                    [\n                        fstcompile,\n                        f\"--isymbols={isym_file}\",\n                        f\"--osymbols={h_out_units_file}\",\n                        \"--keep_isymbols=false\",\n                        \"--keep_osymbols=false\",\n                    ],\n                    input=str.encode(fst_str),\n                    capture_output=True,\n                    check=True,\n                )\n                res = subprocess.run(\n                    [\n                        fstaddselfloops,\n                        disambig_in_units_file_int,\n                        disambig_out_units_file_int,\n                    ],\n                    input=res.stdout,\n                    capture_output=True,\n                    check=True,\n                )\n                res = subprocess.run(\n                    [fstarcsort, \"--sort_type=olabel\"],\n                    input=res.stdout,\n                    capture_output=True,\n                    check=True,\n                )\n                out_f.write(res.stdout)\n        except subprocess.CalledProcessError as e:\n            logger.error(f\"cmd: {e.cmd}, err: {e.stderr.decode('utf-8')}\")\n            os.remove(h_graph)\n            raise\n    return h_graph, h_out_units_file, disambig_in_units_file_int\n\n\ndef create_HLGa(\n    kaldi_root: Path,\n    fst_dir: Path,\n    unique_label: str,\n    h_graph: Path,\n    lg_graph: Path,\n    disambig_in_words_file_int: Path,\n) -> Path:\n    hlga_graph = fst_dir / f\"HLGa.{unique_label}.fst\"\n\n    if not hlga_graph.exists():\n        logger.info(f\"Creating {hlga_graph}\")\n\n        fsttablecompose = kaldi_root / \"src/fstbin/fsttablecompose\"\n        fstdeterminizestar = kaldi_root / \"src/fstbin/fstdeterminizestar\"\n        fstrmsymbols = kaldi_root / \"src/fstbin/fstrmsymbols\"\n        fstrmepslocal = kaldi_root / \"src/fstbin/fstrmepslocal\"\n        fstminimizeencoded = kaldi_root / \"src/fstbin/fstminimizeencoded\"\n\n        try:\n            with open(hlga_graph, \"wb\") as out_f:\n                res = subprocess.run(\n                    [\n                        fsttablecompose,\n                        h_graph,\n                        lg_graph,\n                    ],\n                    capture_output=True,\n                    check=True,\n                )\n                res = subprocess.run(\n                    [fstdeterminizestar, \"--use-log=true\"],\n                    input=res.stdout,\n                    capture_output=True,\n                    check=True,\n                )\n                res = subprocess.run(\n                    [fstrmsymbols, disambig_in_words_file_int],\n                    input=res.stdout,\n                    capture_output=True,\n                    check=True,\n                )\n                res = subprocess.run(\n                    [fstrmepslocal],\n                    input=res.stdout,\n                    capture_output=True,\n                    check=True,\n                )\n                res = subprocess.run(\n                    [fstminimizeencoded],\n                    input=res.stdout,\n                    capture_output=True,\n                    check=True,\n                )\n                out_f.write(res.stdout)\n        except subprocess.CalledProcessError as e:\n            logger.error(f\"cmd: {e.cmd}, err: {e.stderr.decode('utf-8')}\")\n            os.remove(hlga_graph)\n            raise\n\n    return hlga_graph\n\n\ndef create_HLa(\n    kaldi_root: Path,\n    fst_dir: Path,\n    unique_label: str,\n    h_graph: Path,\n    l_graph: Path,\n    disambig_in_words_file_int: Path,\n) -> Path:\n    hla_graph = fst_dir / f\"HLa.{unique_label}.fst\"\n\n    if not hla_graph.exists():\n        logger.info(f\"Creating {hla_graph}\")\n\n        fsttablecompose = kaldi_root / \"src/fstbin/fsttablecompose\"\n        fstdeterminizestar = kaldi_root / \"src/fstbin/fstdeterminizestar\"\n        fstrmsymbols = kaldi_root / \"src/fstbin/fstrmsymbols\"\n        fstrmepslocal = kaldi_root / \"src/fstbin/fstrmepslocal\"\n        fstminimizeencoded = kaldi_root / \"src/fstbin/fstminimizeencoded\"\n\n        try:\n            with open(hla_graph, \"wb\") as out_f:\n                res = subprocess.run(\n                    [\n                        fsttablecompose,\n                        h_graph,\n                        l_graph,\n                    ],\n                    capture_output=True,\n                    check=True,\n                )\n                res = subprocess.run(\n                    [fstdeterminizestar, \"--use-log=true\"],\n                    input=res.stdout,\n                    capture_output=True,\n                    check=True,\n                )\n                res = subprocess.run(\n                    [fstrmsymbols, disambig_in_words_file_int],\n                    input=res.stdout,\n                    capture_output=True,\n                    check=True,\n                )\n                res = subprocess.run(\n                    [fstrmepslocal],\n                    input=res.stdout,\n                    capture_output=True,\n                    check=True,\n                )\n                res = subprocess.run(\n                    [fstminimizeencoded],\n                    input=res.stdout,\n                    capture_output=True,\n                    check=True,\n                )\n                out_f.write(res.stdout)\n        except subprocess.CalledProcessError as e:\n            logger.error(f\"cmd: {e.cmd}, err: {e.stderr.decode('utf-8')}\")\n            os.remove(hla_graph)\n            raise\n\n    return hla_graph\n\n\ndef create_HLG(\n    kaldi_root: Path,\n    fst_dir: Path,\n    unique_label: str,\n    hlga_graph: Path,\n    prefix: str = \"HLG\",\n) -> Path:\n    hlg_graph = fst_dir / f\"{prefix}.{unique_label}.fst\"\n\n    if not hlg_graph.exists():\n        logger.info(f\"Creating {hlg_graph}\")\n\n        add_self_loop = script_dir / \"add-self-loop-simple\"\n        kaldi_src = kaldi_root / \"src\"\n        kaldi_lib = kaldi_src / \"lib\"\n\n        try:\n            if not add_self_loop.exists():\n                fst_include = kaldi_root / \"tools/openfst-1.6.7/include\"\n                add_self_loop_src = script_dir / \"add-self-loop-simple.cc\"\n\n                subprocess.run(\n                    [\n                        \"c++\",\n                        f\"-I{kaldi_src}\",\n                        f\"-I{fst_include}\",\n                        f\"-L{kaldi_lib}\",\n                        add_self_loop_src,\n                        \"-lkaldi-base\",\n                        \"-lkaldi-fstext\",\n                        \"-o\",\n                        add_self_loop,\n                    ],\n                    check=True,\n                )\n\n            my_env = os.environ.copy()\n            my_env[\"LD_LIBRARY_PATH\"] = f\"{kaldi_lib}:{my_env['LD_LIBRARY_PATH']}\"\n\n            subprocess.run(\n                [\n                    add_self_loop,\n                    hlga_graph,\n                    hlg_graph,\n                ],\n                check=True,\n                capture_output=True,\n                env=my_env,\n            )\n        except subprocess.CalledProcessError as e:\n            logger.error(f\"cmd: {e.cmd}, err: {e.stderr.decode('utf-8')}\")\n            raise\n\n    return hlg_graph\n\n\ndef initalize_kaldi(cfg: KaldiInitializerConfig) -> Path:\n    if cfg.fst_dir is None:\n        cfg.fst_dir = osp.join(cfg.data_dir, \"kaldi\")\n    if cfg.out_labels is None:\n        cfg.out_labels = cfg.in_labels\n\n    kaldi_root = Path(cfg.kaldi_root)\n    data_dir = Path(cfg.data_dir)\n    fst_dir = Path(cfg.fst_dir)\n    fst_dir.mkdir(parents=True, exist_ok=True)\n\n    arpa_base = osp.splitext(osp.basename(cfg.lm_arpa))[0]\n    unique_label = f\"{cfg.in_labels}.{arpa_base}\"\n\n    with open(data_dir / f\"dict.{cfg.in_labels}.txt\", \"r\") as f:\n        vocab = Dictionary.load(f)\n\n    in_units_file = create_units(fst_dir, cfg.in_labels, vocab)\n\n    grammar_graph, out_words_file = create_G(\n        kaldi_root, fst_dir, Path(cfg.lm_arpa), arpa_base\n    )\n\n    disambig_lexicon_file, disambig_L_in_units_file = create_lexicon(\n        cfg, fst_dir, unique_label, in_units_file, out_words_file\n    )\n\n    h_graph, h_out_units_file, disambig_in_units_file_int = create_H(\n        kaldi_root,\n        fst_dir,\n        disambig_L_in_units_file,\n        cfg.in_labels,\n        vocab,\n        cfg.blank_symbol,\n        cfg.silence_symbol,\n    )\n    lexicon_graph = create_L(\n        kaldi_root,\n        fst_dir,\n        unique_label,\n        disambig_lexicon_file,\n        disambig_L_in_units_file,\n        out_words_file,\n    )\n    lg_graph = create_LG(\n        kaldi_root, fst_dir, unique_label, lexicon_graph, grammar_graph\n    )\n    hlga_graph = create_HLGa(\n        kaldi_root, fst_dir, unique_label, h_graph, lg_graph, disambig_in_units_file_int\n    )\n    hlg_graph = create_HLG(kaldi_root, fst_dir, unique_label, hlga_graph)\n\n    # for debugging\n    # hla_graph = create_HLa(kaldi_root, fst_dir, unique_label, h_graph, lexicon_graph, disambig_in_units_file_int)\n    # hl_graph = create_HLG(kaldi_root, fst_dir, unique_label, hla_graph, prefix=\"HL_looped\")\n    # create_HLG(kaldi_root, fst_dir, \"phnc\", h_graph, prefix=\"H_looped\")\n\n    return hlg_graph\n\n\n@hydra.main(config_path=config_path, config_name=\"kaldi_initializer\")\ndef cli_main(cfg: KaldiInitializerConfig) -> None:\n    container = OmegaConf.to_container(cfg, resolve=True, enum_to_str=True)\n    cfg = OmegaConf.create(container)\n    OmegaConf.set_struct(cfg, True)\n    initalize_kaldi(cfg)\n\n\nif __name__ == \"__main__\":\n\n    logging.root.setLevel(logging.INFO)\n    logging.basicConfig(level=logging.INFO)\n\n    try:\n        from hydra._internal.utils import (\n            get_args,\n        )  # pylint: disable=import-outside-toplevel\n\n        cfg_name = get_args().config_name or \"kaldi_initializer\"\n    except ImportError:\n        logger.warning(\"Failed to get config name from hydra args\")\n        cfg_name = \"kaldi_initializer\"\n\n    cs = ConfigStore.instance()\n    cs.store(name=cfg_name, node=KaldiInitializerConfig)\n\n    cli_main()\n"
  },
  {
    "path": "examples/speech_recognition/models/__init__.py",
    "content": "import importlib\nimport os\n\n\nfor file in sorted(os.listdir(os.path.dirname(__file__))):\n    if file.endswith(\".py\") and not file.startswith(\"_\"):\n        model_name = file[: file.find(\".py\")]\n        importlib.import_module(\"examples.speech_recognition.models.\" + model_name)\n"
  },
  {
    "path": "examples/speech_recognition/models/vggtransformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport math\nfrom collections.abc import Iterable\n\nimport torch\nimport torch.nn as nn\nfrom examples.speech_recognition.data.data_utils import lengths_to_encoder_padding_mask\nfrom fairseq import utils\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderDecoderModel,\n    FairseqEncoderModel,\n    FairseqIncrementalDecoder,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.modules import (\n    LinearizedConvolution,\n    TransformerDecoderLayer,\n    TransformerEncoderLayer,\n    VGGBlock,\n)\n\n\n@register_model(\"asr_vggtransformer\")\nclass VGGTransformerModel(FairseqEncoderDecoderModel):\n    \"\"\"\n    Transformers with convolutional context for ASR\n    https://arxiv.org/abs/1904.11660\n    \"\"\"\n\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        parser.add_argument(\n            \"--input-feat-per-channel\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder input dimension per input channel\",\n        )\n        parser.add_argument(\n            \"--vggblock-enc-config\",\n            type=str,\n            metavar=\"EXPR\",\n            help=\"\"\"\n    an array of tuples each containing the configuration of one vggblock:\n    [(out_channels,\n      conv_kernel_size,\n      pooling_kernel_size,\n      num_conv_layers,\n      use_layer_norm), ...])\n            \"\"\",\n        )\n        parser.add_argument(\n            \"--transformer-enc-config\",\n            type=str,\n            metavar=\"EXPR\",\n            help=\"\"\"\"\n    a tuple containing the configuration of the encoder transformer layers\n    configurations:\n    [(input_dim,\n      num_heads,\n      ffn_dim,\n      normalize_before,\n      dropout,\n      attention_dropout,\n      relu_dropout), ...]')\n            \"\"\",\n        )\n        parser.add_argument(\n            \"--enc-output-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"\"\"\n    encoder output dimension, can be None. If specified, projecting the\n    transformer output to the specified dimension\"\"\",\n        )\n        parser.add_argument(\n            \"--in-channels\",\n            type=int,\n            metavar=\"N\",\n            help=\"number of encoder input channels\",\n        )\n        parser.add_argument(\n            \"--tgt-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"embedding dimension of the decoder target tokens\",\n        )\n        parser.add_argument(\n            \"--transformer-dec-config\",\n            type=str,\n            metavar=\"EXPR\",\n            help=\"\"\"\n    a tuple containing the configuration of the decoder transformer layers\n    configurations:\n    [(input_dim,\n      num_heads,\n      ffn_dim,\n      normalize_before,\n      dropout,\n      attention_dropout,\n      relu_dropout), ...]\n            \"\"\",\n        )\n        parser.add_argument(\n            \"--conv-dec-config\",\n            type=str,\n            metavar=\"EXPR\",\n            help=\"\"\"\n    an array of tuples for the decoder 1-D convolution config\n        [(out_channels, conv_kernel_size, use_layer_norm), ...]\"\"\",\n        )\n\n    @classmethod\n    def build_encoder(cls, args, task):\n        return VGGTransformerEncoder(\n            input_feat_per_channel=args.input_feat_per_channel,\n            vggblock_config=eval(args.vggblock_enc_config),\n            transformer_config=eval(args.transformer_enc_config),\n            encoder_output_dim=args.enc_output_dim,\n            in_channels=args.in_channels,\n        )\n\n    @classmethod\n    def build_decoder(cls, args, task):\n        return TransformerDecoder(\n            dictionary=task.target_dictionary,\n            embed_dim=args.tgt_embed_dim,\n            transformer_config=eval(args.transformer_dec_config),\n            conv_config=eval(args.conv_dec_config),\n            encoder_output_dim=args.enc_output_dim,\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        # make sure that all args are properly defaulted\n        # (in case there are any new ones)\n        base_architecture(args)\n\n        encoder = cls.build_encoder(args, task)\n        decoder = cls.build_decoder(args, task)\n        return cls(encoder, decoder)\n\n    def get_normalized_probs(self, net_output, log_probs, sample=None):\n        # net_output['encoder_out'] is a (B, T, D) tensor\n        lprobs = super().get_normalized_probs(net_output, log_probs, sample)\n        lprobs.batch_first = True\n        return lprobs\n\n\nDEFAULT_ENC_VGGBLOCK_CONFIG = ((32, 3, 2, 2, False),) * 2\nDEFAULT_ENC_TRANSFORMER_CONFIG = ((256, 4, 1024, True, 0.2, 0.2, 0.2),) * 2\n# 256: embedding dimension\n# 4: number of heads\n# 1024: FFN\n# True: apply layerNorm before (dropout + resiaul) instead of after\n# 0.2 (dropout): dropout after MultiheadAttention and second FC\n# 0.2 (attention_dropout): dropout in MultiheadAttention\n# 0.2 (relu_dropout): dropout after ReLu\nDEFAULT_DEC_TRANSFORMER_CONFIG = ((256, 2, 1024, True, 0.2, 0.2, 0.2),) * 2\nDEFAULT_DEC_CONV_CONFIG = ((256, 3, True),) * 2\n\n\n# TODO: repace transformer encoder config from one liner\n# to explicit args to get rid of this transformation\ndef prepare_transformer_encoder_params(\n    input_dim,\n    num_heads,\n    ffn_dim,\n    normalize_before,\n    dropout,\n    attention_dropout,\n    relu_dropout,\n):\n    args = argparse.Namespace()\n    args.encoder_embed_dim = input_dim\n    args.encoder_attention_heads = num_heads\n    args.attention_dropout = attention_dropout\n    args.dropout = dropout\n    args.activation_dropout = relu_dropout\n    args.encoder_normalize_before = normalize_before\n    args.encoder_ffn_embed_dim = ffn_dim\n    return args\n\n\ndef prepare_transformer_decoder_params(\n    input_dim,\n    num_heads,\n    ffn_dim,\n    normalize_before,\n    dropout,\n    attention_dropout,\n    relu_dropout,\n):\n    args = argparse.Namespace()\n    args.encoder_embed_dim = None\n    args.decoder_embed_dim = input_dim\n    args.decoder_attention_heads = num_heads\n    args.attention_dropout = attention_dropout\n    args.dropout = dropout\n    args.activation_dropout = relu_dropout\n    args.decoder_normalize_before = normalize_before\n    args.decoder_ffn_embed_dim = ffn_dim\n    return args\n\n\nclass VGGTransformerEncoder(FairseqEncoder):\n    \"\"\"VGG + Transformer encoder\"\"\"\n\n    def __init__(\n        self,\n        input_feat_per_channel,\n        vggblock_config=DEFAULT_ENC_VGGBLOCK_CONFIG,\n        transformer_config=DEFAULT_ENC_TRANSFORMER_CONFIG,\n        encoder_output_dim=512,\n        in_channels=1,\n        transformer_context=None,\n        transformer_sampling=None,\n    ):\n        \"\"\"constructor for VGGTransformerEncoder\n\n        Args:\n            - input_feat_per_channel: feature dim (not including stacked,\n              just base feature)\n            - in_channel: # input channels (e.g., if stack 8 feature vector\n                together, this is 8)\n            - vggblock_config: configuration of vggblock, see comments on\n                DEFAULT_ENC_VGGBLOCK_CONFIG\n            - transformer_config: configuration of transformer layer, see comments\n                on DEFAULT_ENC_TRANSFORMER_CONFIG\n            - encoder_output_dim: final transformer output embedding dimension\n            - transformer_context: (left, right) if set, self-attention will be focused\n              on (t-left, t+right)\n            - transformer_sampling: an iterable of int, must match with\n              len(transformer_config), transformer_sampling[i] indicates sampling\n              factor for i-th transformer layer, after multihead att and feedfoward\n              part\n        \"\"\"\n        super().__init__(None)\n\n        self.num_vggblocks = 0\n        if vggblock_config is not None:\n            if not isinstance(vggblock_config, Iterable):\n                raise ValueError(\"vggblock_config is not iterable\")\n            self.num_vggblocks = len(vggblock_config)\n\n        self.conv_layers = nn.ModuleList()\n        self.in_channels = in_channels\n        self.input_dim = input_feat_per_channel\n        self.pooling_kernel_sizes = []\n\n        if vggblock_config is not None:\n            for _, config in enumerate(vggblock_config):\n                (\n                    out_channels,\n                    conv_kernel_size,\n                    pooling_kernel_size,\n                    num_conv_layers,\n                    layer_norm,\n                ) = config\n                self.conv_layers.append(\n                    VGGBlock(\n                        in_channels,\n                        out_channels,\n                        conv_kernel_size,\n                        pooling_kernel_size,\n                        num_conv_layers,\n                        input_dim=input_feat_per_channel,\n                        layer_norm=layer_norm,\n                    )\n                )\n                self.pooling_kernel_sizes.append(pooling_kernel_size)\n                in_channels = out_channels\n                input_feat_per_channel = self.conv_layers[-1].output_dim\n\n        transformer_input_dim = self.infer_conv_output_dim(\n            self.in_channels, self.input_dim\n        )\n        # transformer_input_dim is the output dimension of VGG part\n\n        self.validate_transformer_config(transformer_config)\n        self.transformer_context = self.parse_transformer_context(transformer_context)\n        self.transformer_sampling = self.parse_transformer_sampling(\n            transformer_sampling, len(transformer_config)\n        )\n\n        self.transformer_layers = nn.ModuleList()\n\n        if transformer_input_dim != transformer_config[0][0]:\n            self.transformer_layers.append(\n                Linear(transformer_input_dim, transformer_config[0][0])\n            )\n        self.transformer_layers.append(\n            TransformerEncoderLayer(\n                prepare_transformer_encoder_params(*transformer_config[0])\n            )\n        )\n\n        for i in range(1, len(transformer_config)):\n            if transformer_config[i - 1][0] != transformer_config[i][0]:\n                self.transformer_layers.append(\n                    Linear(transformer_config[i - 1][0], transformer_config[i][0])\n                )\n            self.transformer_layers.append(\n                TransformerEncoderLayer(\n                    prepare_transformer_encoder_params(*transformer_config[i])\n                )\n            )\n\n        self.encoder_output_dim = encoder_output_dim\n        self.transformer_layers.extend(\n            [\n                Linear(transformer_config[-1][0], encoder_output_dim),\n                LayerNorm(encoder_output_dim),\n            ]\n        )\n\n    def forward(self, src_tokens, src_lengths, **kwargs):\n        \"\"\"\n        src_tokens: padded tensor (B, T, C * feat)\n        src_lengths: tensor of original lengths of input utterances (B,)\n        \"\"\"\n        bsz, max_seq_len, _ = src_tokens.size()\n        x = src_tokens.view(bsz, max_seq_len, self.in_channels, self.input_dim)\n        x = x.transpose(1, 2).contiguous()\n        # (B, C, T, feat)\n\n        for layer_idx in range(len(self.conv_layers)):\n            x = self.conv_layers[layer_idx](x)\n\n        bsz, _, output_seq_len, _ = x.size()\n\n        # (B, C, T, feat) -> (B, T, C, feat) -> (T, B, C, feat) -> (T, B, C * feat)\n        x = x.transpose(1, 2).transpose(0, 1)\n        x = x.contiguous().view(output_seq_len, bsz, -1)\n\n        input_lengths = src_lengths.clone()\n        for s in self.pooling_kernel_sizes:\n            input_lengths = (input_lengths.float() / s).ceil().long()\n\n        encoder_padding_mask, _ = lengths_to_encoder_padding_mask(\n            input_lengths, batch_first=True\n        )\n        if not encoder_padding_mask.any():\n            encoder_padding_mask = None\n\n        subsampling_factor = int(max_seq_len * 1.0 / output_seq_len + 0.5)\n        attn_mask = self.lengths_to_attn_mask(input_lengths, subsampling_factor)\n\n        transformer_layer_idx = 0\n\n        for layer_idx in range(len(self.transformer_layers)):\n\n            if isinstance(self.transformer_layers[layer_idx], TransformerEncoderLayer):\n                x = self.transformer_layers[layer_idx](\n                    x, encoder_padding_mask, attn_mask\n                )\n\n                if self.transformer_sampling[transformer_layer_idx] != 1:\n                    sampling_factor = self.transformer_sampling[transformer_layer_idx]\n                    x, encoder_padding_mask, attn_mask = self.slice(\n                        x, encoder_padding_mask, attn_mask, sampling_factor\n                    )\n\n                transformer_layer_idx += 1\n\n            else:\n                x = self.transformer_layers[layer_idx](x)\n\n        # encoder_padding_maks is a (T x B) tensor, its [t, b] elements indicate\n        # whether encoder_output[t, b] is valid or not (valid=0, invalid=1)\n\n        return {\n            \"encoder_out\": x,  # (T, B, C)\n            \"encoder_padding_mask\": encoder_padding_mask.t()\n            if encoder_padding_mask is not None\n            else None,\n            # (B, T) --> (T, B)\n        }\n\n    def infer_conv_output_dim(self, in_channels, input_dim):\n        sample_seq_len = 200\n        sample_bsz = 10\n        x = torch.randn(sample_bsz, in_channels, sample_seq_len, input_dim)\n        for i, _ in enumerate(self.conv_layers):\n            x = self.conv_layers[i](x)\n        x = x.transpose(1, 2)\n        mb, seq = x.size()[:2]\n        return x.contiguous().view(mb, seq, -1).size(-1)\n\n    def validate_transformer_config(self, transformer_config):\n        for config in transformer_config:\n            input_dim, num_heads = config[:2]\n            if input_dim % num_heads != 0:\n                msg = (\n                    \"ERROR in transformer config {}: \".format(config)\n                    + \"input dimension {} \".format(input_dim)\n                    + \"not dividable by number of heads {}\".format(num_heads)\n                )\n                raise ValueError(msg)\n\n    def parse_transformer_context(self, transformer_context):\n        \"\"\"\n        transformer_context can be the following:\n        -   None; indicates no context is used, i.e.,\n            transformer can access full context\n        -   a tuple/list of two int; indicates left and right context,\n            any number <0 indicates infinite context\n                * e.g., (5, 6) indicates that for query at x_t, transformer can\n                access [t-5, t+6] (inclusive)\n                * e.g., (-1, 6) indicates that for query at x_t, transformer can\n                access [0, t+6] (inclusive)\n        \"\"\"\n        if transformer_context is None:\n            return None\n\n        if not isinstance(transformer_context, Iterable):\n            raise ValueError(\"transformer context must be Iterable if it is not None\")\n\n        if len(transformer_context) != 2:\n            raise ValueError(\"transformer context must have length 2\")\n\n        left_context = transformer_context[0]\n        if left_context < 0:\n            left_context = None\n\n        right_context = transformer_context[1]\n        if right_context < 0:\n            right_context = None\n\n        if left_context is None and right_context is None:\n            return None\n\n        return (left_context, right_context)\n\n    def parse_transformer_sampling(self, transformer_sampling, num_layers):\n        \"\"\"\n        parsing transformer sampling configuration\n\n        Args:\n            - transformer_sampling, accepted input:\n                * None, indicating no sampling\n                * an Iterable with int (>0) as element\n            - num_layers, expected number of transformer layers, must match with\n              the length of transformer_sampling if it is not None\n\n        Returns:\n            - A tuple with length num_layers\n        \"\"\"\n        if transformer_sampling is None:\n            return (1,) * num_layers\n\n        if not isinstance(transformer_sampling, Iterable):\n            raise ValueError(\n                \"transformer_sampling must be an iterable if it is not None\"\n            )\n\n        if len(transformer_sampling) != num_layers:\n            raise ValueError(\n                \"transformer_sampling {} does not match with the number \"\n                \"of layers {}\".format(transformer_sampling, num_layers)\n            )\n\n        for layer, value in enumerate(transformer_sampling):\n            if not isinstance(value, int):\n                raise ValueError(\"Invalid value in transformer_sampling: \")\n            if value < 1:\n                raise ValueError(\n                    \"{} layer's subsampling is {}.\".format(layer, value)\n                    + \" This is not allowed! \"\n                )\n        return transformer_sampling\n\n    def slice(self, embedding, padding_mask, attn_mask, sampling_factor):\n        \"\"\"\n        embedding is a (T, B, D) tensor\n        padding_mask is a (B, T) tensor or None\n        attn_mask is a (T, T) tensor or None\n        \"\"\"\n        embedding = embedding[::sampling_factor, :, :]\n        if padding_mask is not None:\n            padding_mask = padding_mask[:, ::sampling_factor]\n        if attn_mask is not None:\n            attn_mask = attn_mask[::sampling_factor, ::sampling_factor]\n\n        return embedding, padding_mask, attn_mask\n\n    def lengths_to_attn_mask(self, input_lengths, subsampling_factor=1):\n        \"\"\"\n        create attention mask according to sequence lengths and transformer\n        context\n\n        Args:\n            - input_lengths: (B, )-shape Int/Long tensor; input_lengths[b] is\n              the length of b-th sequence\n            - subsampling_factor: int\n                * Note that the left_context and right_context is specified in\n                  the input frame-level while input to transformer may already\n                  go through subsampling (e.g., the use of striding in vggblock)\n                  we use subsampling_factor to scale the left/right context\n\n        Return:\n            - a (T, T) binary tensor or None, where T is max(input_lengths)\n                * if self.transformer_context is None, None\n                * if left_context is None,\n                    * attn_mask[t, t + right_context + 1:] = 1\n                    * others = 0\n                * if right_context is None,\n                    * attn_mask[t, 0:t - left_context] = 1\n                    * others = 0\n                * elsif\n                    * attn_mask[t, t - left_context: t + right_context + 1] = 0\n                    * others = 1\n        \"\"\"\n        if self.transformer_context is None:\n            return None\n\n        maxT = torch.max(input_lengths).item()\n        attn_mask = torch.zeros(maxT, maxT)\n\n        left_context = self.transformer_context[0]\n        right_context = self.transformer_context[1]\n        if left_context is not None:\n            left_context = math.ceil(self.transformer_context[0] / subsampling_factor)\n        if right_context is not None:\n            right_context = math.ceil(self.transformer_context[1] / subsampling_factor)\n\n        for t in range(maxT):\n            if left_context is not None:\n                st = 0\n                en = max(st, t - left_context)\n                attn_mask[t, st:en] = 1\n            if right_context is not None:\n                st = t + right_context + 1\n                st = min(st, maxT - 1)\n                attn_mask[t, st:] = 1\n\n        return attn_mask.to(input_lengths.device)\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        encoder_out[\"encoder_out\"] = encoder_out[\"encoder_out\"].index_select(\n            1, new_order\n        )\n        if encoder_out[\"encoder_padding_mask\"] is not None:\n            encoder_out[\"encoder_padding_mask\"] = encoder_out[\n                \"encoder_padding_mask\"\n            ].index_select(1, new_order)\n        return encoder_out\n\n\nclass TransformerDecoder(FairseqIncrementalDecoder):\n    \"\"\"\n    Transformer decoder consisting of *args.decoder_layers* layers. Each layer\n    is a :class:`TransformerDecoderLayer`.\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        dictionary (~fairseq.data.Dictionary): decoding dictionary\n        embed_tokens (torch.nn.Embedding): output embedding\n        no_encoder_attn (bool, optional): whether to attend to encoder outputs.\n            Default: ``False``\n        left_pad (bool, optional): whether the input is left-padded. Default:\n            ``False``\n    \"\"\"\n\n    def __init__(\n        self,\n        dictionary,\n        embed_dim=512,\n        transformer_config=DEFAULT_ENC_TRANSFORMER_CONFIG,\n        conv_config=DEFAULT_DEC_CONV_CONFIG,\n        encoder_output_dim=512,\n    ):\n\n        super().__init__(dictionary)\n        vocab_size = len(dictionary)\n        self.padding_idx = dictionary.pad()\n        self.embed_tokens = Embedding(vocab_size, embed_dim, self.padding_idx)\n\n        self.conv_layers = nn.ModuleList()\n        for i in range(len(conv_config)):\n            out_channels, kernel_size, layer_norm = conv_config[i]\n            if i == 0:\n                conv_layer = LinearizedConv1d(\n                    embed_dim, out_channels, kernel_size, padding=kernel_size - 1\n                )\n            else:\n                conv_layer = LinearizedConv1d(\n                    conv_config[i - 1][0],\n                    out_channels,\n                    kernel_size,\n                    padding=kernel_size - 1,\n                )\n            self.conv_layers.append(conv_layer)\n            if layer_norm:\n                self.conv_layers.append(nn.LayerNorm(out_channels))\n            self.conv_layers.append(nn.ReLU())\n\n        self.layers = nn.ModuleList()\n        if conv_config[-1][0] != transformer_config[0][0]:\n            self.layers.append(Linear(conv_config[-1][0], transformer_config[0][0]))\n        self.layers.append(\n            TransformerDecoderLayer(\n                prepare_transformer_decoder_params(*transformer_config[0])\n            )\n        )\n\n        for i in range(1, len(transformer_config)):\n            if transformer_config[i - 1][0] != transformer_config[i][0]:\n                self.layers.append(\n                    Linear(transformer_config[i - 1][0], transformer_config[i][0])\n                )\n            self.layers.append(\n                TransformerDecoderLayer(\n                    prepare_transformer_decoder_params(*transformer_config[i])\n                )\n            )\n        self.fc_out = Linear(transformer_config[-1][0], vocab_size)\n\n    def forward(self, prev_output_tokens, encoder_out=None, incremental_state=None):\n        \"\"\"\n        Args:\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for input feeding/teacher forcing\n            encoder_out (Tensor, optional): output from the encoder, used for\n                encoder-side attention\n            incremental_state (dict): dictionary used for storing state during\n                :ref:`Incremental decoding`\n        Returns:\n            tuple:\n                - the last decoder layer's output of shape `(batch, tgt_len,\n                  vocab)`\n                - the last decoder layer's attention weights of shape `(batch,\n                  tgt_len, src_len)`\n        \"\"\"\n        target_padding_mask = (\n            (prev_output_tokens == self.padding_idx).to(prev_output_tokens.device)\n            if incremental_state is None\n            else None\n        )\n\n        if incremental_state is not None:\n            prev_output_tokens = prev_output_tokens[:, -1:]\n\n        # embed tokens\n        x = self.embed_tokens(prev_output_tokens)\n\n        # B x T x C -> T x B x C\n        x = self._transpose_if_training(x, incremental_state)\n\n        for layer in self.conv_layers:\n            if isinstance(layer, LinearizedConvolution):\n                x = layer(x, incremental_state)\n            else:\n                x = layer(x)\n\n        # B x T x C -> T x B x C\n        x = self._transpose_if_inference(x, incremental_state)\n\n        # decoder layers\n        for layer in self.layers:\n            if isinstance(layer, TransformerDecoderLayer):\n                x, *_ = layer(\n                    x,\n                    (encoder_out[\"encoder_out\"] if encoder_out is not None else None),\n                    (\n                        encoder_out[\"encoder_padding_mask\"].t()\n                        if encoder_out[\"encoder_padding_mask\"] is not None\n                        else None\n                    ),\n                    incremental_state,\n                    self_attn_mask=(\n                        self.buffered_future_mask(x)\n                        if incremental_state is None\n                        else None\n                    ),\n                    self_attn_padding_mask=(\n                        target_padding_mask if incremental_state is None else None\n                    ),\n                )\n            else:\n                x = layer(x)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        x = self.fc_out(x)\n\n        return x, None\n\n    def buffered_future_mask(self, tensor):\n        dim = tensor.size(0)\n        if (\n            not hasattr(self, \"_future_mask\")\n            or self._future_mask is None\n            or self._future_mask.device != tensor.device\n        ):\n            self._future_mask = torch.triu(\n                utils.fill_with_neg_inf(tensor.new(dim, dim)), 1\n            )\n        if self._future_mask.size(0) < dim:\n            self._future_mask = torch.triu(\n                utils.fill_with_neg_inf(self._future_mask.resize_(dim, dim)), 1\n            )\n        return self._future_mask[:dim, :dim]\n\n    def _transpose_if_training(self, x, incremental_state):\n        if incremental_state is None:\n            x = x.transpose(0, 1)\n        return x\n\n    def _transpose_if_inference(self, x, incremental_state):\n        if incremental_state:\n            x = x.transpose(0, 1)\n        return x\n\n\n@register_model(\"asr_vggtransformer_encoder\")\nclass VGGTransformerEncoderModel(FairseqEncoderModel):\n    def __init__(self, encoder):\n        super().__init__(encoder)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        parser.add_argument(\n            \"--input-feat-per-channel\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder input dimension per input channel\",\n        )\n        parser.add_argument(\n            \"--vggblock-enc-config\",\n            type=str,\n            metavar=\"EXPR\",\n            help=\"\"\"\n    an array of tuples each containing the configuration of one vggblock\n    [(out_channels, conv_kernel_size, pooling_kernel_size,num_conv_layers), ...]\n    \"\"\",\n        )\n        parser.add_argument(\n            \"--transformer-enc-config\",\n            type=str,\n            metavar=\"EXPR\",\n            help=\"\"\"\n    a tuple containing the configuration of the Transformer layers\n    configurations:\n    [(input_dim,\n      num_heads,\n      ffn_dim,\n      normalize_before,\n      dropout,\n      attention_dropout,\n      relu_dropout), ]\"\"\",\n        )\n        parser.add_argument(\n            \"--enc-output-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder output dimension, projecting the LSTM output\",\n        )\n        parser.add_argument(\n            \"--in-channels\",\n            type=int,\n            metavar=\"N\",\n            help=\"number of encoder input channels\",\n        )\n        parser.add_argument(\n            \"--transformer-context\",\n            type=str,\n            metavar=\"EXPR\",\n            help=\"\"\"\n    either None or a tuple of two ints, indicating left/right context a\n    transformer can have access to\"\"\",\n        )\n        parser.add_argument(\n            \"--transformer-sampling\",\n            type=str,\n            metavar=\"EXPR\",\n            help=\"\"\"\n    either None or a tuple of ints, indicating sampling factor in each layer\"\"\",\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        base_architecture_enconly(args)\n        encoder = VGGTransformerEncoderOnly(\n            vocab_size=len(task.target_dictionary),\n            input_feat_per_channel=args.input_feat_per_channel,\n            vggblock_config=eval(args.vggblock_enc_config),\n            transformer_config=eval(args.transformer_enc_config),\n            encoder_output_dim=args.enc_output_dim,\n            in_channels=args.in_channels,\n            transformer_context=eval(args.transformer_context),\n            transformer_sampling=eval(args.transformer_sampling),\n        )\n        return cls(encoder)\n\n    def get_normalized_probs(self, net_output, log_probs, sample=None):\n        # net_output['encoder_out'] is a (T, B, D) tensor\n        lprobs = super().get_normalized_probs(net_output, log_probs, sample)\n        # lprobs is a (T, B, D) tensor\n        # we need to transoose to get (B, T, D) tensor\n        lprobs = lprobs.transpose(0, 1).contiguous()\n        lprobs.batch_first = True\n        return lprobs\n\n\nclass VGGTransformerEncoderOnly(VGGTransformerEncoder):\n    def __init__(\n        self,\n        vocab_size,\n        input_feat_per_channel,\n        vggblock_config=DEFAULT_ENC_VGGBLOCK_CONFIG,\n        transformer_config=DEFAULT_ENC_TRANSFORMER_CONFIG,\n        encoder_output_dim=512,\n        in_channels=1,\n        transformer_context=None,\n        transformer_sampling=None,\n    ):\n        super().__init__(\n            input_feat_per_channel=input_feat_per_channel,\n            vggblock_config=vggblock_config,\n            transformer_config=transformer_config,\n            encoder_output_dim=encoder_output_dim,\n            in_channels=in_channels,\n            transformer_context=transformer_context,\n            transformer_sampling=transformer_sampling,\n        )\n        self.fc_out = Linear(self.encoder_output_dim, vocab_size)\n\n    def forward(self, src_tokens, src_lengths, **kwargs):\n        \"\"\"\n        src_tokens: padded tensor (B, T, C * feat)\n        src_lengths: tensor of original lengths of input utterances (B,)\n        \"\"\"\n\n        enc_out = super().forward(src_tokens, src_lengths)\n        x = self.fc_out(enc_out[\"encoder_out\"])\n        # x = F.log_softmax(x, dim=-1)\n        # Note: no need this line, because model.get_normalized_prob will call\n        # log_softmax\n        return {\n            \"encoder_out\": x,  # (T, B, C)\n            \"encoder_padding_mask\": enc_out[\"encoder_padding_mask\"],  # (T, B)\n        }\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return (1e6, 1e6)  # an arbitrary large number\n\n\ndef Embedding(num_embeddings, embedding_dim, padding_idx):\n    m = nn.Embedding(num_embeddings, embedding_dim, padding_idx=padding_idx)\n    # nn.init.uniform_(m.weight, -0.1, 0.1)\n    # nn.init.constant_(m.weight[padding_idx], 0)\n    return m\n\n\ndef Linear(in_features, out_features, bias=True, dropout=0):\n    \"\"\"Linear layer (input: N x T x C)\"\"\"\n    m = nn.Linear(in_features, out_features, bias=bias)\n    # m.weight.data.uniform_(-0.1, 0.1)\n    # if bias:\n    #     m.bias.data.uniform_(-0.1, 0.1)\n    return m\n\n\ndef LinearizedConv1d(in_channels, out_channels, kernel_size, dropout=0, **kwargs):\n    \"\"\"Weight-normalized Conv1d layer optimized for decoding\"\"\"\n    m = LinearizedConvolution(in_channels, out_channels, kernel_size, **kwargs)\n    std = math.sqrt((4 * (1.0 - dropout)) / (m.kernel_size[0] * in_channels))\n    nn.init.normal_(m.weight, mean=0, std=std)\n    nn.init.constant_(m.bias, 0)\n    return nn.utils.weight_norm(m, dim=2)\n\n\ndef LayerNorm(embedding_dim):\n    m = nn.LayerNorm(embedding_dim)\n    return m\n\n\n# seq2seq models\ndef base_architecture(args):\n    args.input_feat_per_channel = getattr(args, \"input_feat_per_channel\", 40)\n    args.vggblock_enc_config = getattr(\n        args, \"vggblock_enc_config\", DEFAULT_ENC_VGGBLOCK_CONFIG\n    )\n    args.transformer_enc_config = getattr(\n        args, \"transformer_enc_config\", DEFAULT_ENC_TRANSFORMER_CONFIG\n    )\n    args.enc_output_dim = getattr(args, \"enc_output_dim\", 512)\n    args.in_channels = getattr(args, \"in_channels\", 1)\n    args.tgt_embed_dim = getattr(args, \"tgt_embed_dim\", 128)\n    args.transformer_dec_config = getattr(\n        args, \"transformer_dec_config\", DEFAULT_ENC_TRANSFORMER_CONFIG\n    )\n    args.conv_dec_config = getattr(args, \"conv_dec_config\", DEFAULT_DEC_CONV_CONFIG)\n    args.transformer_context = getattr(args, \"transformer_context\", \"None\")\n\n\n@register_model_architecture(\"asr_vggtransformer\", \"vggtransformer_1\")\ndef vggtransformer_1(args):\n    args.input_feat_per_channel = getattr(args, \"input_feat_per_channel\", 80)\n    args.vggblock_enc_config = getattr(\n        args, \"vggblock_enc_config\", \"[(64, 3, 2, 2, True), (128, 3, 2, 2, True)]\"\n    )\n    args.transformer_enc_config = getattr(\n        args,\n        \"transformer_enc_config\",\n        \"((1024, 16, 4096, True, 0.15, 0.15, 0.15),) * 14\",\n    )\n    args.enc_output_dim = getattr(args, \"enc_output_dim\", 1024)\n    args.tgt_embed_dim = getattr(args, \"tgt_embed_dim\", 128)\n    args.conv_dec_config = getattr(args, \"conv_dec_config\", \"((256, 3, True),) * 4\")\n    args.transformer_dec_config = getattr(\n        args,\n        \"transformer_dec_config\",\n        \"((1024, 16, 4096, True, 0.15, 0.15, 0.15),) * 4\",\n    )\n\n\n@register_model_architecture(\"asr_vggtransformer\", \"vggtransformer_2\")\ndef vggtransformer_2(args):\n    args.input_feat_per_channel = getattr(args, \"input_feat_per_channel\", 80)\n    args.vggblock_enc_config = getattr(\n        args, \"vggblock_enc_config\", \"[(64, 3, 2, 2, True), (128, 3, 2, 2, True)]\"\n    )\n    args.transformer_enc_config = getattr(\n        args,\n        \"transformer_enc_config\",\n        \"((1024, 16, 4096, True, 0.15, 0.15, 0.15),) * 16\",\n    )\n    args.enc_output_dim = getattr(args, \"enc_output_dim\", 1024)\n    args.tgt_embed_dim = getattr(args, \"tgt_embed_dim\", 512)\n    args.conv_dec_config = getattr(args, \"conv_dec_config\", \"((256, 3, True),) * 4\")\n    args.transformer_dec_config = getattr(\n        args,\n        \"transformer_dec_config\",\n        \"((1024, 16, 4096, True, 0.15, 0.15, 0.15),) * 6\",\n    )\n\n\n@register_model_architecture(\"asr_vggtransformer\", \"vggtransformer_base\")\ndef vggtransformer_base(args):\n    args.input_feat_per_channel = getattr(args, \"input_feat_per_channel\", 80)\n    args.vggblock_enc_config = getattr(\n        args, \"vggblock_enc_config\", \"[(64, 3, 2, 2, True), (128, 3, 2, 2, True)]\"\n    )\n    args.transformer_enc_config = getattr(\n        args, \"transformer_enc_config\", \"((512, 8, 2048, True, 0.15, 0.15, 0.15),) * 12\"\n    )\n\n    args.enc_output_dim = getattr(args, \"enc_output_dim\", 512)\n    args.tgt_embed_dim = getattr(args, \"tgt_embed_dim\", 512)\n    args.conv_dec_config = getattr(args, \"conv_dec_config\", \"((256, 3, True),) * 4\")\n    args.transformer_dec_config = getattr(\n        args, \"transformer_dec_config\", \"((512, 8, 2048, True, 0.15, 0.15, 0.15),) * 6\"\n    )\n    # Size estimations:\n    # Encoder:\n    #   - vggblock param: 64*1*3*3 + 64*64*3*3 + 128*64*3*3  + 128*128*3 = 258K\n    #   Transformer:\n    #   - input dimension adapter: 2560 x 512 -> 1.31M\n    #   - transformer_layers (x12) --> 37.74M\n    #       * MultiheadAttention: 512*512*3 (in_proj) + 512*512 (out_proj) = 1.048M\n    #       * FFN weight: 512*2048*2 = 2.097M\n    #   - output dimension adapter: 512 x 512 -> 0.26 M\n    # Decoder:\n    #   - LinearizedConv1d: 512 * 256 * 3 + 256 * 256 * 3 * 3\n    #   - transformer_layer: (x6) --> 25.16M\n    #        * MultiheadAttention (self-attention): 512*512*3 + 512*512 = 1.048M\n    #        * MultiheadAttention (encoder-attention): 512*512*3 + 512*512 = 1.048M\n    #        * FFN: 512*2048*2 = 2.097M\n    # Final FC:\n    #   - FC: 512*5000 = 256K (assuming vocab size 5K)\n    # In total:\n    #       ~65 M\n\n\n# CTC models\ndef base_architecture_enconly(args):\n    args.input_feat_per_channel = getattr(args, \"input_feat_per_channel\", 40)\n    args.vggblock_enc_config = getattr(\n        args, \"vggblock_enc_config\", \"[(32, 3, 2, 2, True)] * 2\"\n    )\n    args.transformer_enc_config = getattr(\n        args, \"transformer_enc_config\", \"((256, 4, 1024, True, 0.2, 0.2, 0.2),) * 2\"\n    )\n    args.enc_output_dim = getattr(args, \"enc_output_dim\", 512)\n    args.in_channels = getattr(args, \"in_channels\", 1)\n    args.transformer_context = getattr(args, \"transformer_context\", \"None\")\n    args.transformer_sampling = getattr(args, \"transformer_sampling\", \"None\")\n\n\n@register_model_architecture(\"asr_vggtransformer_encoder\", \"vggtransformer_enc_1\")\ndef vggtransformer_enc_1(args):\n    # vggtransformer_1 is the same as vggtransformer_enc_big, except the number\n    # of layers is increased to 16\n    # keep it here for backward compatiablity purpose\n    args.input_feat_per_channel = getattr(args, \"input_feat_per_channel\", 80)\n    args.vggblock_enc_config = getattr(\n        args, \"vggblock_enc_config\", \"[(64, 3, 2, 2, True), (128, 3, 2, 2, True)]\"\n    )\n    args.transformer_enc_config = getattr(\n        args,\n        \"transformer_enc_config\",\n        \"((1024, 16, 4096, True, 0.15, 0.15, 0.15),) * 16\",\n    )\n    args.enc_output_dim = getattr(args, \"enc_output_dim\", 1024)\n"
  },
  {
    "path": "examples/speech_recognition/models/w2l_conv_glu_enc.py",
    "content": "#!/usr/bin/env python3\n\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.modules.fairseq_dropout import FairseqDropout\n\n\ndefault_conv_enc_config = \"\"\"[\n    (400, 13, 170, 0.2),\n    (440, 14, 0, 0.214),\n    (484, 15, 0, 0.22898),\n    (532, 16, 0, 0.2450086),\n    (584, 17, 0, 0.262159202),\n    (642, 18, 0, 0.28051034614),\n    (706, 19, 0, 0.30014607037),\n    (776, 20, 0, 0.321156295296),\n    (852, 21, 0, 0.343637235966),\n    (936, 22, 0, 0.367691842484),\n    (1028, 23, 0, 0.393430271458),\n    (1130, 24, 0, 0.42097039046),\n    (1242, 25, 0, 0.450438317792),\n    (1366, 26, 0, 0.481969000038),\n    (1502, 27, 0, 0.51570683004),\n    (1652, 28, 0, 0.551806308143),\n    (1816, 29, 0, 0.590432749713),\n]\"\"\"\n\n\n@register_model(\"asr_w2l_conv_glu_encoder\")\nclass W2lConvGluEncoderModel(FairseqEncoderModel):\n    def __init__(self, encoder):\n        super().__init__(encoder)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        parser.add_argument(\n            \"--input-feat-per-channel\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder input dimension per input channel\",\n        )\n        parser.add_argument(\n            \"--in-channels\",\n            type=int,\n            metavar=\"N\",\n            help=\"number of encoder input channels\",\n        )\n        parser.add_argument(\n            \"--conv-enc-config\",\n            type=str,\n            metavar=\"EXPR\",\n            help=\"\"\"\n    an array of tuples each containing the configuration of one conv layer\n    [(out_channels, kernel_size, padding, dropout), ...]\n            \"\"\",\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        conv_enc_config = getattr(args, \"conv_enc_config\", default_conv_enc_config)\n        encoder = W2lConvGluEncoder(\n            vocab_size=len(task.target_dictionary),\n            input_feat_per_channel=args.input_feat_per_channel,\n            in_channels=args.in_channels,\n            conv_enc_config=eval(conv_enc_config),\n        )\n        return cls(encoder)\n\n    def get_normalized_probs(self, net_output, log_probs, sample=None):\n        lprobs = super().get_normalized_probs(net_output, log_probs, sample)\n        lprobs.batch_first = False\n        return lprobs\n\n\nclass W2lConvGluEncoder(FairseqEncoder):\n    def __init__(\n        self, vocab_size, input_feat_per_channel, in_channels, conv_enc_config\n    ):\n        super().__init__(None)\n\n        self.input_dim = input_feat_per_channel\n        if in_channels != 1:\n            raise ValueError(\"only 1 input channel is currently supported\")\n\n        self.conv_layers = nn.ModuleList()\n        self.linear_layers = nn.ModuleList()\n        self.dropouts = []\n        cur_channels = input_feat_per_channel\n\n        for out_channels, kernel_size, padding, dropout in conv_enc_config:\n            layer = nn.Conv1d(cur_channels, out_channels, kernel_size, padding=padding)\n            layer.weight.data.mul_(math.sqrt(3))  # match wav2letter init\n            self.conv_layers.append(nn.utils.weight_norm(layer))\n            self.dropouts.append(\n                FairseqDropout(dropout, module_name=self.__class__.__name__)\n            )\n            if out_channels % 2 != 0:\n                raise ValueError(\"odd # of out_channels is incompatible with GLU\")\n            cur_channels = out_channels // 2  # halved by GLU\n\n        for out_channels in [2 * cur_channels, vocab_size]:\n            layer = nn.Linear(cur_channels, out_channels)\n            layer.weight.data.mul_(math.sqrt(3))\n            self.linear_layers.append(nn.utils.weight_norm(layer))\n            cur_channels = out_channels // 2\n\n    def forward(self, src_tokens, src_lengths, **kwargs):\n\n        \"\"\"\n        src_tokens: padded tensor (B, T, C * feat)\n        src_lengths: tensor of original lengths of input utterances (B,)\n        \"\"\"\n        B, T, _ = src_tokens.size()\n        x = src_tokens.transpose(1, 2).contiguous()  # (B, feat, T) assuming C == 1\n\n        for layer_idx in range(len(self.conv_layers)):\n            x = self.conv_layers[layer_idx](x)\n            x = F.glu(x, dim=1)\n            x = self.dropouts[layer_idx](x)\n\n        x = x.transpose(1, 2).contiguous()  # (B, T, 908)\n        x = self.linear_layers[0](x)\n        x = F.glu(x, dim=2)\n        x = self.dropouts[-1](x)\n        x = self.linear_layers[1](x)\n\n        assert x.size(0) == B\n        assert x.size(1) == T\n\n        encoder_out = x.transpose(0, 1)  # (T, B, vocab_size)\n\n        # need to debug this -- find a simpler/elegant way in pytorch APIs\n        encoder_padding_mask = (\n            torch.arange(T).view(1, T).expand(B, -1).to(x.device)\n            >= src_lengths.view(B, 1).expand(-1, T)\n        ).t()  # (B x T) -> (T x B)\n\n        return {\n            \"encoder_out\": encoder_out,  # (T, B, vocab_size)\n            \"encoder_padding_mask\": encoder_padding_mask,  # (T, B)\n        }\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        encoder_out[\"encoder_out\"] = encoder_out[\"encoder_out\"].index_select(\n            1, new_order\n        )\n        encoder_out[\"encoder_padding_mask\"] = encoder_out[\n            \"encoder_padding_mask\"\n        ].index_select(1, new_order)\n        return encoder_out\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return (1e6, 1e6)  # an arbitrary large number\n\n\n@register_model_architecture(\"asr_w2l_conv_glu_encoder\", \"w2l_conv_glu_enc\")\ndef w2l_conv_glu_enc(args):\n    args.input_feat_per_channel = getattr(args, \"input_feat_per_channel\", 80)\n    args.in_channels = getattr(args, \"in_channels\", 1)\n    args.conv_enc_config = getattr(args, \"conv_enc_config\", default_conv_enc_config)\n"
  },
  {
    "path": "examples/speech_recognition/new/README.md",
    "content": "# Flashlight Decoder\n\nThis script runs decoding for pre-trained speech recognition models.\n\n## Usage\n\nAssuming a few variables:\n\n```bash\ncheckpoint=<path-to-checkpoint>\ndata=<path-to-data-directory>\nlm_model=<path-to-language-model>\nlexicon=<path-to-lexicon>\n```\n\nExample usage for decoding a fine-tuned Wav2Vec model:\n\n```bash\npython $FAIRSEQ_ROOT/examples/speech_recognition/new/infer.py --multirun \\\n    task=audio_pretraining \\\n    task.data=$data \\\n    task.labels=ltr \\\n    common_eval.path=$checkpoint \\\n    decoding.type=kenlm \\\n    decoding.lexicon=$lexicon \\\n    decoding.lmpath=$lm_model \\\n    dataset.gen_subset=dev_clean,dev_other,test_clean,test_other\n```\n\nExample usage for using Ax to sweep WER parameters (requires `pip install hydra-ax-sweeper`):\n\n```bash\npython $FAIRSEQ_ROOT/examples/speech_recognition/new/infer.py --multirun \\\n    hydra/sweeper=ax \\\n    task=audio_pretraining \\\n    task.data=$data \\\n    task.labels=ltr \\\n    common_eval.path=$checkpoint \\\n    decoding.type=kenlm \\\n    decoding.lexicon=$lexicon \\\n    decoding.lmpath=$lm_model \\\n    dataset.gen_subset=dev_other\n```\n"
  },
  {
    "path": "examples/speech_recognition/new/__init__.py",
    "content": ""
  },
  {
    "path": "examples/speech_recognition/new/conf/hydra/sweeper/ax.yaml",
    "content": "# @package hydra.sweeper\n_target_: hydra_plugins.hydra_ax_sweeper.ax_sweeper.AxSweeper\nmax_batch_size: null\nax_config:\n  max_trials: 128\n  early_stop:\n    minimize: true\n    max_epochs_without_improvement: 10\n    epsilon: 0.025\n  experiment:\n    name: ${dataset.gen_subset}\n    objective_name: wer\n    minimize: true\n    parameter_constraints: null\n    outcome_constraints: null\n    status_quo: null\n  client:\n    verbose_logging: false\n    random_seed: null\n  params:\n    decoding.lmweight:\n      type: range\n      bounds: [0.0, 5.0]\n    decoding.wordscore:\n      type: range\n      bounds: [-5.0, 5.0]\n    decoding.silweight:\n      type: range\n      bounds: [ -8.0, 0.0 ]\n"
  },
  {
    "path": "examples/speech_recognition/new/conf/hydra/sweeper/ax_sil.yaml",
    "content": "# @package hydra.sweeper\n_target_: hydra_plugins.hydra_ax_sweeper.ax_sweeper.AxSweeper\nmax_batch_size: null\nax_config:\n  max_trials: 64\n  early_stop:\n    minimize: true\n    max_epochs_without_improvement: 10\n    epsilon: 0.025\n  experiment:\n    name: ${dataset.gen_subset}\n    objective_name: wer\n    minimize: true\n    parameter_constraints: null\n    outcome_constraints: null\n    status_quo: null\n  client:\n    verbose_logging: false\n    random_seed: null\n  params:\n    decoding.lmweight:\n      type: range\n      bounds: [0.0, 10.0]\n    decoding.wordscore:\n      type: range\n      bounds: [-10.0, 10.0]\n    decoding.silweight:\n      type: range\n      bounds: [ -10.0, 0.0 ]\n"
  },
  {
    "path": "examples/speech_recognition/new/conf/infer.yaml",
    "content": "# @package _group_\n\ndefaults:\n    - task: null\n    - model: null\n\nhydra:\n  run:\n    dir: ${common_eval.results_path}/${dataset.gen_subset}\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${common_eval.results_path}\n    subdir: ${dataset.gen_subset}\ncommon:\n    user_dir: /private/home/abaevski/fairseq-py/examples/data2vec\ncommon_eval:\n  results_path: null\n  path: null\n  post_process: letter\n  quiet: true\ndataset:\n  max_tokens: 3000000\n  gen_subset: test\ndistributed_training:\n  distributed_world_size: 1\ndecoding:\n  beam: 5\n  type: viterbi\n"
  },
  {
    "path": "examples/speech_recognition/new/conf/run_config/fb_slurm_1.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - common_eval.path\n  sweep:\n    dir: /checkpoint/abaevski/asr/d2v2/decoding/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n#    subdir: ${hydra.job.override_dirname}\n  launcher:\n    cpus_per_task: 16\n    gpus_per_node: 1\n    tasks_per_node: 1\n    nodes: 1\n    partition: devlab,learnlab\n    mem_gb: 100\n    timeout_min: 2000\n    max_num_timeout: 10\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    submitit_folder: ${hydra.sweep.dir}/%j\n    constraint: volta32gb\n    exclude: learnfair7598"
  },
  {
    "path": "examples/speech_recognition/new/conf/run_config/fb_slurm_2g.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - common_eval.path\n  sweep:\n    dir: /checkpoint/abaevski/asr/d2v2/decoding/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n#    subdir: ${hydra.job.override_dirname}\n  launcher:\n    cpus_per_task: 16\n    gpus_per_node: 2\n    tasks_per_node: 2\n    nodes: 1\n    partition: devlab,learnlab\n    mem_gb: 100\n    timeout_min: 2000\n    max_num_timeout: 10\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    submitit_folder: ${hydra.sweep.dir}/%j\n    constraint: volta32gb"
  },
  {
    "path": "examples/speech_recognition/new/decoders/__init__.py",
    "content": ""
  },
  {
    "path": "examples/speech_recognition/new/decoders/base_decoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport itertools as it\nfrom typing import Any, Dict, List\n\nimport torch\nfrom fairseq.data.dictionary import Dictionary\nfrom fairseq.models.fairseq_model import FairseqModel\n\n\nclass BaseDecoder:\n    def __init__(self, tgt_dict: Dictionary) -> None:\n        self.tgt_dict = tgt_dict\n        self.vocab_size = len(tgt_dict)\n\n        self.blank = (\n            tgt_dict.index(\"<ctc_blank>\")\n            if \"<ctc_blank>\" in tgt_dict.indices\n            else tgt_dict.bos()\n        )\n        if \"<sep>\" in tgt_dict.indices:\n            self.silence = tgt_dict.index(\"<sep>\")\n        elif \"|\" in tgt_dict.indices:\n            self.silence = tgt_dict.index(\"|\")\n        else:\n            self.silence = tgt_dict.eos()\n\n    def generate(\n        self, models: List[FairseqModel], sample: Dict[str, Any], **unused\n    ) -> List[List[Dict[str, torch.LongTensor]]]:\n        encoder_input = {\n            k: v for k, v in sample[\"net_input\"].items() if k != \"prev_output_tokens\"\n        }\n        emissions = self.get_emissions(models, encoder_input)\n        return self.decode(emissions)\n\n    def get_emissions(\n        self,\n        models: List[FairseqModel],\n        encoder_input: Dict[str, Any],\n    ) -> torch.FloatTensor:\n        model = models[0]\n        encoder_out = model(**encoder_input)\n        if hasattr(model, \"get_logits\"):\n            emissions = model.get_logits(encoder_out)\n        else:\n            emissions = model.get_normalized_probs(encoder_out, log_probs=True)\n        return emissions.transpose(0, 1).float().cpu().contiguous()\n\n    def get_tokens(self, idxs: torch.IntTensor) -> torch.LongTensor:\n        idxs = (g[0] for g in it.groupby(idxs))\n        idxs = filter(lambda x: x != self.blank, idxs)\n        return torch.LongTensor(list(idxs))\n\n    def decode(\n        self,\n        emissions: torch.FloatTensor,\n    ) -> List[List[Dict[str, torch.LongTensor]]]:\n        raise NotImplementedError\n"
  },
  {
    "path": "examples/speech_recognition/new/decoders/decoder.py",
    "content": "#!/usr/bin/env python3\n\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Union\n\nfrom fairseq.data.dictionary import Dictionary\n\nfrom .decoder_config import DecoderConfig, FlashlightDecoderConfig\nfrom .base_decoder import BaseDecoder\n\n\ndef Decoder(\n    cfg: Union[DecoderConfig, FlashlightDecoderConfig], tgt_dict: Dictionary\n) -> BaseDecoder:\n\n    if cfg.type == \"viterbi\":\n        from .viterbi_decoder import ViterbiDecoder\n\n        return ViterbiDecoder(tgt_dict)\n    if cfg.type == \"kenlm\":\n        from .flashlight_decoder import KenLMDecoder\n\n        return KenLMDecoder(cfg, tgt_dict)\n    if cfg.type == \"fairseqlm\":\n        from .flashlight_decoder import FairseqLMDecoder\n\n        return FairseqLMDecoder(cfg, tgt_dict)\n    raise NotImplementedError(f\"Invalid decoder name: {cfg.name}\")\n"
  },
  {
    "path": "examples/speech_recognition/new/decoders/decoder_config.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom dataclasses import dataclass, field\nfrom typing import Optional\n\nfrom fairseq.dataclass.configs import FairseqDataclass\nfrom fairseq.dataclass.constants import ChoiceEnum\nfrom omegaconf import MISSING\n\n\nDECODER_CHOICES = ChoiceEnum([\"viterbi\", \"kenlm\", \"fairseqlm\"])\n\n\n@dataclass\nclass DecoderConfig(FairseqDataclass):\n    type: DECODER_CHOICES = field(\n        default=\"viterbi\",\n        metadata={\"help\": \"The type of decoder to use\"},\n    )\n\n\n@dataclass\nclass FlashlightDecoderConfig(FairseqDataclass):\n    nbest: int = field(\n        default=1,\n        metadata={\"help\": \"Number of decodings to return\"},\n    )\n    unitlm: bool = field(\n        default=False,\n        metadata={\"help\": \"If set, use unit language model\"},\n    )\n    lmpath: str = field(\n        default=MISSING,\n        metadata={\"help\": \"Language model for KenLM decoder\"},\n    )\n    lexicon: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"Lexicon for Flashlight decoder\"},\n    )\n    beam: int = field(\n        default=50,\n        metadata={\"help\": \"Number of beams to use for decoding\"},\n    )\n    beamthreshold: float = field(\n        default=50.0,\n        metadata={\"help\": \"Threshold for beam search decoding\"},\n    )\n    beamsizetoken: Optional[int] = field(\n        default=None, metadata={\"help\": \"Beam size to use\"}\n    )\n    wordscore: float = field(\n        default=-1,\n        metadata={\"help\": \"Word score for KenLM decoder\"},\n    )\n    unkweight: float = field(\n        default=-math.inf,\n        metadata={\"help\": \"Unknown weight for KenLM decoder\"},\n    )\n    silweight: float = field(\n        default=0,\n        metadata={\"help\": \"Silence weight for KenLM decoder\"},\n    )\n    lmweight: float = field(\n        default=2,\n        metadata={\"help\": \"Weight for LM while interpolating score\"},\n    )\n"
  },
  {
    "path": "examples/speech_recognition/new/decoders/flashlight_decoder.py",
    "content": "#!/usr/bin/env python3\n\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport gc\nimport os.path as osp\nimport warnings\nfrom collections import deque, namedtuple\nfrom typing import Any, Dict, Tuple\n\nimport numpy as np\nimport torch\nfrom fairseq import tasks\nfrom fairseq.data.dictionary import Dictionary\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.models.fairseq_model import FairseqModel\nfrom fairseq.utils import apply_to_sample\nfrom omegaconf import open_dict, OmegaConf\n\nfrom typing import List\n\nfrom .decoder_config import FlashlightDecoderConfig\nfrom .base_decoder import BaseDecoder\n\ntry:\n    from flashlight.lib.text.decoder import (\n        LM,\n        CriterionType,\n        DecodeResult,\n        KenLM,\n        LexiconDecoder,\n        LexiconDecoderOptions,\n        LexiconFreeDecoder,\n        LexiconFreeDecoderOptions,\n        LMState,\n        SmearingMode,\n        Trie,\n    )\n    from flashlight.lib.text.dictionary import create_word_dict, load_words\n    from flashlight.lib.text.dictionary import Dictionary as flDictionary\nexcept ImportError:\n    warnings.warn(\n        \"flashlight python bindings are required to use this functionality. \"\n        \"Please install from \"\n        \"https://github.com/facebookresearch/flashlight/tree/master/bindings/python\"\n    )\n    LM = object\n    LMState = object\n\n\nclass KenLMDecoder(BaseDecoder):\n    def __init__(self, cfg: FlashlightDecoderConfig, tgt_dict: Dictionary) -> None:\n        super().__init__(tgt_dict)\n\n        self.nbest = cfg.nbest\n        self.unitlm = cfg.unitlm\n\n        if cfg.lexicon:\n            self.lexicon = load_words(cfg.lexicon)\n            self.word_dict = create_word_dict(self.lexicon)\n            self.unk_word = self.word_dict.get_index(\"<unk>\")\n\n            self.lm = KenLM(cfg.lmpath, self.word_dict)\n            self.trie = Trie(self.vocab_size, self.silence)\n\n            start_state = self.lm.start(False)\n            for word, spellings in self.lexicon.items():\n                word_idx = self.word_dict.get_index(word)\n                _, score = self.lm.score(start_state, word_idx)\n                for spelling in spellings:\n                    spelling_idxs = [tgt_dict.index(token) for token in spelling]\n                    assert (\n                        tgt_dict.unk() not in spelling_idxs\n                    ), f\"{word} {spelling} {spelling_idxs}\"\n                    self.trie.insert(spelling_idxs, word_idx, score)\n            self.trie.smear(SmearingMode.MAX)\n\n            self.decoder_opts = LexiconDecoderOptions(\n                beam_size=cfg.beam,\n                beam_size_token=cfg.beamsizetoken or len(tgt_dict),\n                beam_threshold=cfg.beamthreshold,\n                lm_weight=cfg.lmweight,\n                word_score=cfg.wordscore,\n                unk_score=cfg.unkweight,\n                sil_score=cfg.silweight,\n                log_add=False,\n                criterion_type=CriterionType.CTC,\n            )\n\n            self.decoder = LexiconDecoder(\n                self.decoder_opts,\n                self.trie,\n                self.lm,\n                self.silence,\n                self.blank,\n                self.unk_word,\n                [],\n                self.unitlm,\n            )\n        else:\n            assert self.unitlm, \"Lexicon-free decoding requires unit LM\"\n\n            self.word_dict = flDictionary()\n            for sym in tgt_dict.symbols:\n                self.word_dict.add_entry(sym, tgt_dict.index(sym))\n            self.lm = KenLM(cfg.lmpath, self.word_dict)\n            self.decoder_opts = LexiconFreeDecoderOptions(\n                beam_size=cfg.beam,\n                beam_size_token=cfg.beamsizetoken or len(tgt_dict),\n                beam_threshold=cfg.beamthreshold,\n                lm_weight=cfg.lmweight,\n                sil_score=cfg.silweight,\n                log_add=False,\n                criterion_type=CriterionType.CTC,\n            )\n            self.decoder = LexiconFreeDecoder(\n                self.decoder_opts, self.lm, self.silence, self.blank, []\n            )\n\n    def get_timesteps(self, token_idxs: List[int]) -> List[int]:\n        \"\"\"Returns frame numbers corresponding to every non-blank token.\n\n        Parameters\n        ----------\n        token_idxs : List[int]\n            IDs of decoded tokens.\n\n        Returns\n        -------\n        List[int]\n            Frame numbers corresponding to every non-blank token.\n        \"\"\"\n        timesteps = []\n        for i, token_idx in enumerate(token_idxs):\n            if token_idx == self.blank:\n                continue\n            if i == 0 or token_idx != token_idxs[i-1]:\n                timesteps.append(i)\n        return timesteps\n\n    def decode(\n        self,\n        emissions: torch.FloatTensor,\n    ) -> List[List[Dict[str, torch.LongTensor]]]:\n        B, T, N = emissions.size()\n        hypos = []\n        for b in range(B):\n            emissions_ptr = emissions.data_ptr() + 4 * b * emissions.stride(0)\n            results = self.decoder.decode(emissions_ptr, T, N)\n\n            nbest_results = results[: self.nbest]\n            hypos.append(\n                [\n                    {\n                        \"tokens\": self.get_tokens(result.tokens),\n                        \"score\": result.score,\n                        \"timesteps\": self.get_timesteps(result.tokens),\n                        \"words\": [\n                            self.word_dict.get_entry(x) for x in result.words if x >= 0\n                        ],\n                    }\n                    for result in nbest_results\n                ]\n            )\n        return hypos\n\n\nFairseqLMState = namedtuple(\n    \"FairseqLMState\",\n    [\n        \"prefix\",\n        \"incremental_state\",\n        \"probs\",\n    ],\n)\n\n\nclass FairseqLM(LM):\n    def __init__(self, dictionary: Dictionary, model: FairseqModel) -> None:\n        super().__init__()\n\n        self.dictionary = dictionary\n        self.model = model\n        self.unk = self.dictionary.unk()\n\n        self.save_incremental = False  # this currently does not work properly\n        self.max_cache = 20_000\n\n        if torch.cuda.is_available():\n            model.cuda()\n        model.eval()\n        model.make_generation_fast_()\n\n        self.states = {}\n        self.stateq = deque()\n\n    def start(self, start_with_nothing: bool) -> LMState:\n        state = LMState()\n        prefix = torch.LongTensor([[self.dictionary.eos()]])\n        incremental_state = {} if self.save_incremental else None\n        with torch.no_grad():\n            res = self.model(prefix.cuda(), incremental_state=incremental_state)\n            probs = self.model.get_normalized_probs(res, log_probs=True, sample=None)\n\n        if incremental_state is not None:\n            incremental_state = apply_to_sample(lambda x: x.cpu(), incremental_state)\n        self.states[state] = FairseqLMState(\n            prefix.numpy(), incremental_state, probs[0, -1].cpu().numpy()\n        )\n        self.stateq.append(state)\n\n        return state\n\n    def score(\n        self,\n        state: LMState,\n        token_index: int,\n        no_cache: bool = False,\n    ) -> Tuple[LMState, int]:\n        \"\"\"\n        Evaluate language model based on the current lm state and new word\n        Parameters:\n        -----------\n        state: current lm state\n        token_index: index of the word\n                     (can be lexicon index then you should store inside LM the\n                      mapping between indices of lexicon and lm, or lm index of a word)\n        Returns:\n        --------\n        (LMState, float): pair of (new state, score for the current word)\n        \"\"\"\n        curr_state = self.states[state]\n\n        def trim_cache(targ_size: int) -> None:\n            while len(self.stateq) > targ_size:\n                rem_k = self.stateq.popleft()\n                rem_st = self.states[rem_k]\n                rem_st = FairseqLMState(rem_st.prefix, None, None)\n                self.states[rem_k] = rem_st\n\n        if curr_state.probs is None:\n            new_incremental_state = (\n                curr_state.incremental_state.copy()\n                if curr_state.incremental_state is not None\n                else None\n            )\n            with torch.no_grad():\n                if new_incremental_state is not None:\n                    new_incremental_state = apply_to_sample(\n                        lambda x: x.cuda(), new_incremental_state\n                    )\n                elif self.save_incremental:\n                    new_incremental_state = {}\n\n                res = self.model(\n                    torch.from_numpy(curr_state.prefix).cuda(),\n                    incremental_state=new_incremental_state,\n                )\n                probs = self.model.get_normalized_probs(\n                    res, log_probs=True, sample=None\n                )\n\n                if new_incremental_state is not None:\n                    new_incremental_state = apply_to_sample(\n                        lambda x: x.cpu(), new_incremental_state\n                    )\n\n                curr_state = FairseqLMState(\n                    curr_state.prefix, new_incremental_state, probs[0, -1].cpu().numpy()\n                )\n\n            if not no_cache:\n                self.states[state] = curr_state\n                self.stateq.append(state)\n\n        score = curr_state.probs[token_index].item()\n\n        trim_cache(self.max_cache)\n\n        outstate = state.child(token_index)\n        if outstate not in self.states and not no_cache:\n            prefix = np.concatenate(\n                [curr_state.prefix, torch.LongTensor([[token_index]])], -1\n            )\n            incr_state = curr_state.incremental_state\n\n            self.states[outstate] = FairseqLMState(prefix, incr_state, None)\n\n        if token_index == self.unk:\n            score = float(\"-inf\")\n\n        return outstate, score\n\n    def finish(self, state: LMState) -> Tuple[LMState, int]:\n        \"\"\"\n        Evaluate eos for language model based on the current lm state\n        Returns:\n        --------\n        (LMState, float): pair of (new state, score for the current word)\n        \"\"\"\n        return self.score(state, self.dictionary.eos())\n\n    def empty_cache(self) -> None:\n        self.states = {}\n        self.stateq = deque()\n        gc.collect()\n\n\nclass FairseqLMDecoder(BaseDecoder):\n    def __init__(self, cfg: FlashlightDecoderConfig, tgt_dict: Dictionary) -> None:\n        super().__init__(tgt_dict)\n\n        self.nbest = cfg.nbest\n        self.unitlm = cfg.unitlm\n\n        self.lexicon = load_words(cfg.lexicon) if cfg.lexicon else None\n        self.idx_to_wrd = {}\n\n        checkpoint = torch.load(cfg.lmpath, map_location=\"cpu\")\n\n        if \"cfg\" in checkpoint and checkpoint[\"cfg\"] is not None:\n            lm_args = checkpoint[\"cfg\"]\n        else:\n            lm_args = convert_namespace_to_omegaconf(checkpoint[\"args\"])\n\n        if not OmegaConf.is_dict(lm_args):\n            lm_args = OmegaConf.create(lm_args)\n\n        with open_dict(lm_args.task):\n            lm_args.task.data = osp.dirname(cfg.lmpath)\n\n        task = tasks.setup_task(lm_args.task)\n        model = task.build_model(lm_args.model)\n        model.load_state_dict(checkpoint[\"model\"], strict=False)\n\n        self.trie = Trie(self.vocab_size, self.silence)\n\n        self.word_dict = task.dictionary\n        self.unk_word = self.word_dict.unk()\n        self.lm = FairseqLM(self.word_dict, model)\n\n        if self.lexicon:\n            start_state = self.lm.start(False)\n            for i, (word, spellings) in enumerate(self.lexicon.items()):\n                if self.unitlm:\n                    word_idx = i\n                    self.idx_to_wrd[i] = word\n                    score = 0\n                else:\n                    word_idx = self.word_dict.index(word)\n                    _, score = self.lm.score(start_state, word_idx, no_cache=True)\n\n                for spelling in spellings:\n                    spelling_idxs = [tgt_dict.index(token) for token in spelling]\n                    assert (\n                        tgt_dict.unk() not in spelling_idxs\n                    ), f\"{spelling} {spelling_idxs}\"\n                    self.trie.insert(spelling_idxs, word_idx, score)\n            self.trie.smear(SmearingMode.MAX)\n\n            self.decoder_opts = LexiconDecoderOptions(\n                beam_size=cfg.beam,\n                beam_size_token=cfg.beamsizetoken or len(tgt_dict),\n                beam_threshold=cfg.beamthreshold,\n                lm_weight=cfg.lmweight,\n                word_score=cfg.wordscore,\n                unk_score=cfg.unkweight,\n                sil_score=cfg.silweight,\n                log_add=False,\n                criterion_type=CriterionType.CTC,\n            )\n\n            self.decoder = LexiconDecoder(\n                self.decoder_opts,\n                self.trie,\n                self.lm,\n                self.silence,\n                self.blank,\n                self.unk_word,\n                [],\n                self.unitlm,\n            )\n        else:\n            assert self.unitlm, \"Lexicon-free decoding requires unit LM\"\n\n            d = {w: [[w]] for w in tgt_dict.symbols}\n            self.word_dict = create_word_dict(d)\n            self.lm = KenLM(cfg.lmpath, self.word_dict)\n            self.decoder_opts = LexiconFreeDecoderOptions(\n                beam_size=cfg.beam,\n                beam_size_token=cfg.beamsizetoken or len(tgt_dict),\n                beam_threshold=cfg.beamthreshold,\n                lm_weight=cfg.lmweight,\n                sil_score=cfg.silweight,\n                log_add=False,\n                criterion_type=CriterionType.CTC,\n            )\n            self.decoder = LexiconFreeDecoder(\n                self.decoder_opts, self.lm, self.silence, self.blank, []\n            )\n\n    def decode(\n        self,\n        emissions: torch.FloatTensor,\n    ) -> List[List[Dict[str, torch.LongTensor]]]:\n        B, T, N = emissions.size()\n        hypos = []\n\n        def make_hypo(result: DecodeResult) -> Dict[str, Any]:\n            hypo = {\n                \"tokens\": self.get_tokens(result.tokens),\n                \"score\": result.score,\n            }\n            if self.lexicon:\n                hypo[\"words\"] = [\n                    self.idx_to_wrd[x] if self.unitlm else self.word_dict[x]\n                    for x in result.words\n                    if x >= 0\n                ]\n            return hypo\n\n        for b in range(B):\n            emissions_ptr = emissions.data_ptr() + 4 * b * emissions.stride(0)\n            results = self.decoder.decode(emissions_ptr, T, N)\n\n            nbest_results = results[: self.nbest]\n            hypos.append([make_hypo(result) for result in nbest_results])\n            self.lm.empty_cache()\n\n        return hypos\n"
  },
  {
    "path": "examples/speech_recognition/new/decoders/viterbi_decoder.py",
    "content": "#!/usr/bin/env python3\n\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\nfrom typing import List, Dict\n\nfrom .base_decoder import BaseDecoder\n\n\nclass ViterbiDecoder(BaseDecoder):\n    def decode(\n        self,\n        emissions: torch.FloatTensor,\n    ) -> List[List[Dict[str, torch.LongTensor]]]:\n        def get_pred(e):\n            score = e.log_softmax(dim=-1).max(dim=-1)[0].sum()\n            toks = e.argmax(dim=-1).unique_consecutive()\n            return {\"tokens\":toks[toks != self.blank], \"score\":score}\n        return [[get_pred(x)] for x in emissions]\n"
  },
  {
    "path": "examples/speech_recognition/new/infer.py",
    "content": "#!/usr/bin/env python -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport ast\nimport hashlib\nimport logging\nimport os\nimport shutil\nimport sys\nimport re\nfrom dataclasses import dataclass, field, is_dataclass\nfrom pathlib import Path\nfrom typing import Any, Dict, List, Optional, Tuple, Union\n\nimport editdistance\nimport torch\nimport torch.distributed as dist\nfrom examples.speech_recognition.new.decoders.decoder_config import (\n    DecoderConfig,\n    FlashlightDecoderConfig,\n)\nfrom examples.speech_recognition.new.decoders.decoder import Decoder\nfrom fairseq import checkpoint_utils, distributed_utils, progress_bar, tasks, utils\nfrom fairseq.data.data_utils import post_process\nfrom fairseq.dataclass.configs import (\n    CheckpointConfig,\n    CommonConfig,\n    CommonEvalConfig,\n    DatasetConfig,\n    DistributedTrainingConfig,\n    FairseqDataclass,\n)\nfrom fairseq.logging.meters import StopwatchMeter, TimeMeter\nfrom fairseq.logging.progress_bar import BaseProgressBar\nfrom fairseq.models.fairseq_model import FairseqModel\nfrom omegaconf import OmegaConf\n\nimport hydra\nfrom hydra.core.config_store import ConfigStore\n\nlogging.root.setLevel(logging.INFO)\nlogging.basicConfig(level=logging.INFO)\nlogger = logging.getLogger(__name__)\n\nconfig_path = Path(__file__).resolve().parent / \"conf\"\n\n\n@dataclass\nclass DecodingConfig(DecoderConfig, FlashlightDecoderConfig):\n    unique_wer_file: bool = field(\n        default=False,\n        metadata={\"help\": \"If set, use a unique file for storing WER\"},\n    )\n    results_path: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"If set, write hypothesis and reference sentences into this directory\"\n        },\n    )\n\n\n@dataclass\nclass InferConfig(FairseqDataclass):\n    task: Any = None\n    decoding: DecodingConfig = DecodingConfig()\n    common: CommonConfig = CommonConfig()\n    common_eval: CommonEvalConfig = CommonEvalConfig()\n    checkpoint: CheckpointConfig = CheckpointConfig()\n    distributed_training: DistributedTrainingConfig = DistributedTrainingConfig()\n    dataset: DatasetConfig = DatasetConfig()\n    is_ax: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if true, assumes we are using ax for tuning and returns a tuple for ax to consume\"\n        },\n    )\n\n\ndef reset_logging():\n    root = logging.getLogger()\n    for handler in root.handlers:\n        root.removeHandler(handler)\n    root.setLevel(os.environ.get(\"LOGLEVEL\", \"INFO\").upper())\n    handler = logging.StreamHandler(sys.stdout)\n    handler.setFormatter(\n        logging.Formatter(\n            fmt=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n            datefmt=\"%Y-%m-%d %H:%M:%S\",\n        )\n    )\n    root.addHandler(handler)\n\n\nclass InferenceProcessor:\n    cfg: InferConfig\n\n    def __init__(self, cfg: InferConfig) -> None:\n        self.cfg = cfg\n        self.task = tasks.setup_task(cfg.task)\n\n        models, saved_cfg = self.load_model_ensemble()\n\n        ### LOAD ADAPTER ####\n        ckpt_obj = checkpoint_utils.load_checkpoint_to_cpu(self.cfg.common_eval.path)\n        if \"adapter\" in ckpt_obj:\n            target_lang = self.cfg.dataset.gen_subset.split(\":\")[0]\n            assert target_lang in ckpt_obj[\"adapter\"]\n            \n            logger.info(f\">>> LOADING ADAPTER: {target_lang}\")\n            ft_obj = ckpt_obj[\"adapter\"][target_lang]\n            ft_model = ft_obj[\"model\"]\n            cdevice = models[0].w2v_encoder.proj.weight.device\n            cdtype = models[0].w2v_encoder.proj.weight.dtype\n            ft_proj_out, ft_proj_in = ft_model[\"w2v_encoder.proj.weight\"].shape\n            ft_proj = torch.nn.Linear(ft_proj_in, ft_proj_out, bias=True)\n            ft_proj.to(device=cdevice, dtype=cdtype)\n            models[0].w2v_encoder.proj = ft_proj\n            with torch.no_grad():\n                for kk, vv in models[0].named_parameters():\n                    if kk in ft_model:\n                        vv.copy_(ft_model[kk])\n            self.task.load_state_dict(ft_obj[\"task_state\"])\n            # overwrite gen_subset with master config\n            self.cfg.dataset.gen_subset = re.sub('^[\\w-]+:', saved_cfg['task']['multi_corpus_keys']+\":\", self.cfg.dataset.gen_subset)\n        self.models = models\n        self.saved_cfg = saved_cfg\n        self.tgt_dict = self.task.target_dictionary\n\n        self.task.load_dataset(\n            self.cfg.dataset.gen_subset,\n            task_cfg=saved_cfg.task,\n        )\n        self.generator = Decoder(cfg.decoding, self.tgt_dict)\n        self.gen_timer = StopwatchMeter()\n        self.wps_meter = TimeMeter()\n        self.num_sentences = 0\n        self.total_errors = 0\n        self.total_length = 0\n\n        self.hypo_words_file = None\n        self.hypo_units_file = None\n        self.ref_words_file = None\n        self.ref_units_file = None\n        self.score_file = None\n\n        self.progress_bar = self.build_progress_bar()\n\n    def __enter__(self) -> \"InferenceProcessor\":\n        if self.cfg.decoding.results_path is not None:\n            self.hypo_words_file = self.get_res_file(\"hypo.word\")\n            self.hypo_units_file = self.get_res_file(\"hypo.units\")\n            self.ref_words_file = self.get_res_file(\"ref.word\")\n            self.ref_units_file = self.get_res_file(\"ref.units\")\n            self.score_file = self.get_res_file(\"asr_score\")\n        return self\n\n    def __exit__(self, *exc) -> bool:\n        if self.cfg.decoding.results_path is not None:\n            self.hypo_words_file.close()\n            self.hypo_units_file.close()\n            self.ref_words_file.close()\n            self.ref_units_file.close()\n            self.score_file.close()\n        return False\n\n    def __iter__(self) -> Any:\n        for sample in self.progress_bar:\n            if not self.cfg.common.cpu:\n                sample = utils.move_to_cuda(sample)\n\n            # Happens on the last batch.\n            if \"net_input\" not in sample:\n                continue\n            yield sample\n\n    def log(self, *args, **kwargs):\n        self.progress_bar.log(*args, **kwargs)\n\n    def print(self, *args, **kwargs):\n        self.progress_bar.print(*args, **kwargs)\n\n    def get_res_file(self, fname: str) -> None:\n        fname = os.path.join(self.cfg.decoding.results_path, fname)\n        if self.data_parallel_world_size > 1:\n            fname = f\"{fname}.{self.data_parallel_rank}\"\n        return open(fname, \"w\", buffering=1)\n\n    def merge_shards(self) -> None:\n        \"\"\"Merges all shard files into shard 0, then removes shard suffix.\"\"\"\n\n        shard_id = self.data_parallel_rank\n        num_shards = self.data_parallel_world_size\n\n        if self.data_parallel_world_size > 1:\n\n            def merge_shards_with_root(fname: str) -> None:\n                fname = os.path.join(self.cfg.decoding.results_path, fname)\n                logger.info(\"Merging %s on shard %d\", fname, shard_id)\n                base_fpath = Path(f\"{fname}.0\")\n                with open(base_fpath, \"a\") as out_file:\n                    for s in range(1, num_shards):\n                        shard_fpath = Path(f\"{fname}.{s}\")\n                        with open(shard_fpath, \"r\") as in_file:\n                            for line in in_file:\n                                out_file.write(line)\n                        shard_fpath.unlink()\n                shutil.move(f\"{fname}.0\", fname)\n\n            dist.barrier()  # ensure all shards finished writing\n            if shard_id == (0 % num_shards):\n                merge_shards_with_root(\"hypo.word\")\n            if shard_id == (1 % num_shards):\n                merge_shards_with_root(\"hypo.units\")\n            if shard_id == (2 % num_shards):\n                merge_shards_with_root(\"ref.word\")\n            if shard_id == (3 % num_shards):\n                merge_shards_with_root(\"ref.units\")\n            dist.barrier()\n\n    def optimize_model(self, model: FairseqModel) -> None:\n        model.make_generation_fast_()\n        if self.cfg.common.fp16:\n            model.half()\n        if not self.cfg.common.cpu:\n            model.cuda()\n\n    def load_model_ensemble(self) -> Tuple[List[FairseqModel], FairseqDataclass]:\n        arg_overrides = ast.literal_eval(self.cfg.common_eval.model_overrides)\n        models, saved_cfg = checkpoint_utils.load_model_ensemble(\n            utils.split_paths(self.cfg.common_eval.path, separator=\"\\\\\"),\n            arg_overrides=arg_overrides,\n            task=self.task,\n            suffix=self.cfg.checkpoint.checkpoint_suffix,\n            strict=(self.cfg.checkpoint.checkpoint_shard_count == 1),\n            num_shards=self.cfg.checkpoint.checkpoint_shard_count,\n        )\n        for model in models:\n            self.optimize_model(model)\n        return models, saved_cfg\n\n    def get_dataset_itr(self, disable_iterator_cache: bool = False) -> None:\n        return self.task.get_batch_iterator(\n            dataset=self.task.dataset(self.cfg.dataset.gen_subset),\n            max_tokens=self.cfg.dataset.max_tokens,\n            max_sentences=self.cfg.dataset.batch_size,\n            max_positions=(sys.maxsize, sys.maxsize),\n            ignore_invalid_inputs=self.cfg.dataset.skip_invalid_size_inputs_valid_test,\n            required_batch_size_multiple=self.cfg.dataset.required_batch_size_multiple,\n            seed=self.cfg.common.seed,\n            num_shards=self.data_parallel_world_size,\n            shard_id=self.data_parallel_rank,\n            num_workers=self.cfg.dataset.num_workers,\n            data_buffer_size=self.cfg.dataset.data_buffer_size,\n            disable_iterator_cache=disable_iterator_cache,\n        ).next_epoch_itr(shuffle=False)\n\n    def build_progress_bar(\n        self,\n        epoch: Optional[int] = None,\n        prefix: Optional[str] = None,\n        default_log_format: str = \"tqdm\",\n    ) -> BaseProgressBar:\n        return progress_bar.progress_bar(\n            iterator=self.get_dataset_itr(),\n            log_format=self.cfg.common.log_format,\n            log_interval=self.cfg.common.log_interval,\n            epoch=epoch,\n            prefix=prefix,\n            tensorboard_logdir=self.cfg.common.tensorboard_logdir,\n            default_log_format=default_log_format,\n        )\n\n    @property\n    def data_parallel_world_size(self):\n        if self.cfg.distributed_training.distributed_world_size == 1:\n            return 1\n        return distributed_utils.get_data_parallel_world_size()\n\n    @property\n    def data_parallel_rank(self):\n        if self.cfg.distributed_training.distributed_world_size == 1:\n            return 0\n        return distributed_utils.get_data_parallel_rank()\n\n    def process_sentence(\n        self,\n        sample: Dict[str, Any],\n        hypo: Dict[str, Any],\n        sid: int,\n        batch_id: int,\n    ) -> Tuple[int, int]:\n        speaker = None  # Speaker can't be parsed from dataset.\n        if \"target_label\" in sample:\n            toks = sample[\"target_label\"]\n        else:\n            toks = sample[\"target\"]\n        toks = toks[batch_id, :]\n\n        # Processes hypothesis.\n        hyp_pieces = self.tgt_dict.string(hypo[\"tokens\"].int().cpu())\n        if \"words\" in hypo:\n            hyp_words = \" \".join(hypo[\"words\"])\n        else:\n            hyp_words = post_process(hyp_pieces, self.cfg.common_eval.post_process)\n\n        # Processes target.\n        target_tokens = utils.strip_pad(toks, self.tgt_dict.pad())\n        tgt_pieces = self.tgt_dict.string(target_tokens.int().cpu())\n        tgt_words = post_process(tgt_pieces, self.cfg.common_eval.post_process)\n\n        if self.cfg.decoding.results_path is not None:\n            print(f\"{hyp_pieces} ({speaker}-{sid})\", file=self.hypo_units_file)\n            print(f\"{hyp_words} ({speaker}-{sid})\", file=self.hypo_words_file)\n            print(f\"{tgt_pieces} ({speaker}-{sid})\", file=self.ref_units_file)\n            print(f\"{tgt_words} ({speaker}-{sid})\", file=self.ref_words_file)\n            print(f\"{hypo['score'].item()} ({speaker}-{sid})\", file=self.score_file)\n\n        if not self.cfg.common_eval.quiet:\n            logger.info(f\"HYPO: {hyp_words}\")\n            logger.info(f\"REF: {tgt_words}\")\n            logger.info(\"---------------------\")\n\n        hyp_words, tgt_words = hyp_words.split(), tgt_words.split()\n\n        return editdistance.eval(hyp_words, tgt_words), len(tgt_words)\n\n    def process_sample(self, sample: Dict[str, Any]) -> None:\n        self.gen_timer.start()\n        hypos = self.task.inference_step(\n            generator=self.generator,\n            models=self.models,\n            sample=sample,\n        )\n        num_generated_tokens = sum(len(h[0][\"tokens\"]) for h in hypos)\n        self.gen_timer.stop(num_generated_tokens)\n        self.wps_meter.update(num_generated_tokens)\n\n        for batch_id, sample_id in enumerate(sample[\"id\"].tolist()):\n            errs, length = self.process_sentence(\n                sample=sample,\n                sid=sample_id,\n                batch_id=batch_id,\n                hypo=hypos[batch_id][0],\n            )\n            self.total_errors += errs\n            self.total_length += length\n\n        self.log({\"wps\": round(self.wps_meter.avg)})\n        if \"nsentences\" in sample:\n            self.num_sentences += sample[\"nsentences\"]\n        else:\n            self.num_sentences += sample[\"id\"].numel()\n\n    def log_generation_time(self) -> None:\n        logger.info(\n            \"Processed %d sentences (%d tokens) in %.1fs %.2f \"\n            \"sentences per second, %.2f tokens per second)\",\n            self.num_sentences,\n            self.gen_timer.n,\n            self.gen_timer.sum,\n            self.num_sentences / (self.gen_timer.sum + 1e-6),\n            1.0 / (self.gen_timer.avg + 1e-6),\n        )\n\n\ndef parse_wer(wer_file: Path) -> float:\n    with open(wer_file, \"r\") as f:\n        return float(f.readline().strip().split(\" \")[1])\n\n\ndef get_wer_file(cfg: InferConfig) -> Path:\n    \"\"\"Hashes the decoding parameters to a unique file ID.\"\"\"\n    base_path = \"wer\"\n    if cfg.decoding.results_path is not None:\n        base_path = os.path.join(cfg.decoding.results_path, base_path)\n\n    if cfg.decoding.unique_wer_file:\n        yaml_str = OmegaConf.to_yaml(cfg.decoding)\n        fid = int(hashlib.md5(yaml_str.encode(\"utf-8\")).hexdigest(), 16)\n        return Path(f\"{base_path}.{fid % 1000000}\")\n    else:\n        return Path(base_path)\n\n\ndef main(cfg: InferConfig) -> float:\n    \"\"\"Entry point for main processing logic.\n\n    Args:\n        cfg: The inferance configuration to use.\n        wer: Optional shared memory pointer for returning the WER. If not None,\n            the final WER value will be written here instead of being returned.\n\n    Returns:\n        The final WER if `wer` is None, otherwise None.\n    \"\"\"\n\n    yaml_str, wer_file = OmegaConf.to_yaml(cfg.decoding), get_wer_file(cfg)\n\n    # Validates the provided configuration.\n    if cfg.dataset.max_tokens is None and cfg.dataset.batch_size is None:\n        cfg.dataset.max_tokens = 4000000\n    if not cfg.common.cpu and not torch.cuda.is_available():\n        raise ValueError(\"CUDA not found; set `cpu=True` to run without CUDA\")\n\n    logger.info(cfg.common_eval.path)\n\n    with InferenceProcessor(cfg) as processor:\n        for sample in processor:\n            processor.process_sample(sample)\n\n        processor.log_generation_time()\n\n        if cfg.decoding.results_path is not None:\n            processor.merge_shards()\n\n        errs_t, leng_t = processor.total_errors, processor.total_length\n\n        if cfg.common.cpu:\n            logger.warning(\"Merging WER requires CUDA.\")\n        elif processor.data_parallel_world_size > 1:\n            stats = torch.LongTensor([errs_t, leng_t]).cuda()\n            dist.all_reduce(stats, op=dist.ReduceOp.SUM)\n            errs_t, leng_t = stats[0].item(), stats[1].item()\n\n        wer = errs_t * 100.0 / leng_t\n\n        if distributed_utils.is_master(cfg.distributed_training):\n            with open(wer_file, \"w\") as f:\n                f.write(\n                    (\n                        f\"WER: {wer}\\n\"\n                        f\"err / num_ref_words = {errs_t} / {leng_t}\\n\\n\"\n                        f\"{yaml_str}\"\n                    )\n                )\n\n        return wer\n\n\n@hydra.main(config_path=config_path, config_name=\"infer\")\ndef hydra_main(cfg: InferConfig) -> Union[float, Tuple[float, Optional[float]]]:\n    container = OmegaConf.to_container(cfg, resolve=True, enum_to_str=True)\n    cfg = OmegaConf.create(container)\n    OmegaConf.set_struct(cfg, True)\n\n    if cfg.common.reset_logging:\n        reset_logging()\n\n    utils.import_user_module(cfg.common)\n\n    # logger.info(\"Config:\\n%s\", OmegaConf.to_yaml(cfg))\n    wer = float(\"inf\")\n\n    try:\n        if cfg.common.profile:\n            with torch.cuda.profiler.profile():\n                with torch.autograd.profiler.emit_nvtx():\n                    distributed_utils.call_main(cfg, main)\n        else:\n            distributed_utils.call_main(cfg, main)\n\n        wer = parse_wer(get_wer_file(cfg))\n    except BaseException as e:  # pylint: disable=broad-except\n        if not cfg.common.suppress_crashes:\n            raise\n        else:\n            logger.error(\"Crashed! %s\", str(e))\n\n    logger.info(\"Word error rate: %.4f\", wer)\n    if cfg.is_ax:\n        return wer, None\n\n    return wer\n\n\ndef cli_main() -> None:\n    try:\n        from hydra._internal.utils import (\n            get_args,\n        )  # pylint: disable=import-outside-toplevel\n\n        cfg_name = get_args().config_name or \"infer\"\n    except ImportError:\n        logger.warning(\"Failed to get config name from hydra args\")\n        cfg_name = \"infer\"\n\n    cs = ConfigStore.instance()\n    cs.store(name=cfg_name, node=InferConfig)\n\n    for k in InferConfig.__dataclass_fields__:\n        if is_dataclass(InferConfig.__dataclass_fields__[k].type):\n            v = InferConfig.__dataclass_fields__[k].default\n            cs.store(name=k, node=v)\n\n    hydra_main()  # pylint: disable=no-value-for-parameter\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/speech_recognition/tasks/__init__.py",
    "content": "import importlib\nimport os\n\n\nfor file in sorted(os.listdir(os.path.dirname(__file__))):\n    if file.endswith(\".py\") and not file.startswith(\"_\"):\n        task_name = file[: file.find(\".py\")]\n        importlib.import_module(\"examples.speech_recognition.tasks.\" + task_name)\n"
  },
  {
    "path": "examples/speech_recognition/tasks/speech_recognition.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport json\nimport os\nimport re\nimport sys\n\nimport torch\nfrom examples.speech_recognition.data import AsrDataset\nfrom examples.speech_recognition.data.replabels import replabel_symbol\nfrom fairseq.data import Dictionary\nfrom fairseq.tasks import LegacyFairseqTask, register_task\n\n\ndef get_asr_dataset_from_json(data_json_path, tgt_dict):\n    \"\"\"\n    Parse data json and create dataset.\n    See scripts/asr_prep_json.py which pack json from raw files\n\n    Json example:\n    {\n    \"utts\": {\n        \"4771-29403-0025\": {\n            \"input\": {\n                \"length_ms\": 170,\n                \"path\": \"/tmp/file1.flac\"\n            },\n            \"output\": {\n                \"text\": \"HELLO \\n\",\n                \"token\": \"HE LLO\",\n                \"tokenid\": \"4815, 861\"\n            }\n        },\n        \"1564-142299-0096\": {\n            ...\n        }\n    }\n    \"\"\"\n    if not os.path.isfile(data_json_path):\n        raise FileNotFoundError(\"Dataset not found: {}\".format(data_json_path))\n    with open(data_json_path, \"rb\") as f:\n        data_samples = json.load(f)[\"utts\"]\n        assert len(data_samples) != 0\n        sorted_samples = sorted(\n            data_samples.items(),\n            key=lambda sample: int(sample[1][\"input\"][\"length_ms\"]),\n            reverse=True,\n        )\n        aud_paths = [s[1][\"input\"][\"path\"] for s in sorted_samples]\n        ids = [s[0] for s in sorted_samples]\n        speakers = []\n        for s in sorted_samples:\n            m = re.search(\"(.+?)-(.+?)-(.+?)\", s[0])\n            speakers.append(m.group(1) + \"_\" + m.group(2))\n        frame_sizes = [s[1][\"input\"][\"length_ms\"] for s in sorted_samples]\n        tgt = [\n            [int(i) for i in s[1][\"output\"][\"tokenid\"].split(\", \")]\n            for s in sorted_samples\n        ]\n        # append eos\n        tgt = [[*t, tgt_dict.eos()] for t in tgt]\n        return AsrDataset(aud_paths, frame_sizes, tgt, tgt_dict, ids, speakers)\n\n\n@register_task(\"speech_recognition\")\nclass SpeechRecognitionTask(LegacyFairseqTask):\n    \"\"\"\n    Task for training speech recognition model.\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        parser.add_argument(\"data\", help=\"path to data directory\")\n        parser.add_argument(\n            \"--silence-token\", default=\"\\u2581\", help=\"token for silence (used by w2l)\"\n        )\n        parser.add_argument(\n            \"--max-source-positions\",\n            default=sys.maxsize,\n            type=int,\n            metavar=\"N\",\n            help=\"max number of frames in the source sequence\",\n        )\n        parser.add_argument(\n            \"--max-target-positions\",\n            default=1024,\n            type=int,\n            metavar=\"N\",\n            help=\"max number of tokens in the target sequence\",\n        )\n\n    def __init__(self, args, tgt_dict):\n        super().__init__(args)\n        self.tgt_dict = tgt_dict\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        \"\"\"Setup the task (e.g., load dictionaries).\"\"\"\n        dict_path = os.path.join(args.data, \"dict.txt\")\n        if not os.path.isfile(dict_path):\n            raise FileNotFoundError(\"Dict not found: {}\".format(dict_path))\n        tgt_dict = Dictionary.load(dict_path)\n\n        if args.criterion == \"ctc_loss\":\n            tgt_dict.add_symbol(\"<ctc_blank>\")\n        elif args.criterion == \"asg_loss\":\n            for i in range(1, args.max_replabel + 1):\n                tgt_dict.add_symbol(replabel_symbol(i))\n\n        print(\"| dictionary: {} types\".format(len(tgt_dict)))\n        return cls(args, tgt_dict)\n\n    def load_dataset(self, split, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        data_json_path = os.path.join(self.args.data, \"{}.json\".format(split))\n        self.datasets[split] = get_asr_dataset_from_json(data_json_path, self.tgt_dict)\n\n    def build_generator(self, models, args, **unused):\n        w2l_decoder = getattr(args, \"w2l_decoder\", None)\n        if w2l_decoder == \"viterbi\":\n            from examples.speech_recognition.w2l_decoder import W2lViterbiDecoder\n\n            return W2lViterbiDecoder(args, self.target_dictionary)\n        elif w2l_decoder == \"kenlm\":\n            from examples.speech_recognition.w2l_decoder import W2lKenLMDecoder\n\n            return W2lKenLMDecoder(args, self.target_dictionary)\n        elif w2l_decoder == \"fairseqlm\":\n            from examples.speech_recognition.w2l_decoder import W2lFairseqLMDecoder\n\n            return W2lFairseqLMDecoder(args, self.target_dictionary)\n        else:\n            return super().build_generator(models, args)\n\n    @property\n    def target_dictionary(self):\n        \"\"\"Return the :class:`~fairseq.data.Dictionary` for the language\n        model.\"\"\"\n        return self.tgt_dict\n\n    @property\n    def source_dictionary(self):\n        \"\"\"Return the source :class:`~fairseq.data.Dictionary` (if applicable\n        for this task).\"\"\"\n        return None\n\n    def max_positions(self):\n        \"\"\"Return the max speech and sentence length allowed by the task.\"\"\"\n        return (self.args.max_source_positions, self.args.max_target_positions)\n"
  },
  {
    "path": "examples/speech_recognition/utils/wer_utils.py",
    "content": "#!/usr/bin/env python3\n\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom __future__ import absolute_import, division, print_function, unicode_literals\n\nimport re\nfrom collections import deque\nfrom enum import Enum\n\nimport numpy as np\n\n\n\"\"\"\n    Utility modules for computation of Word Error Rate,\n    Alignments, as well as more granular metrics like\n    deletion, insersion and substitutions.\n\"\"\"\n\n\nclass Code(Enum):\n    match = 1\n    substitution = 2\n    insertion = 3\n    deletion = 4\n\n\nclass Token(object):\n    def __init__(self, lbl=\"\", st=np.nan, en=np.nan):\n        if np.isnan(st):\n            self.label, self.start, self.end = \"\", 0.0, 0.0\n        else:\n            self.label, self.start, self.end = lbl, st, en\n\n\nclass AlignmentResult(object):\n    def __init__(self, refs, hyps, codes, score):\n        self.refs = refs  # std::deque<int>\n        self.hyps = hyps  # std::deque<int>\n        self.codes = codes  # std::deque<Code>\n        self.score = score  # float\n\n\ndef coordinate_to_offset(row, col, ncols):\n    return int(row * ncols + col)\n\n\ndef offset_to_row(offset, ncols):\n    return int(offset / ncols)\n\n\ndef offset_to_col(offset, ncols):\n    return int(offset % ncols)\n\n\ndef trimWhitespace(str):\n    return re.sub(\" +\", \" \", re.sub(\" *$\", \"\", re.sub(\"^ *\", \"\", str)))\n\n\ndef str2toks(str):\n    pieces = trimWhitespace(str).split(\" \")\n    toks = []\n    for p in pieces:\n        toks.append(Token(p, 0.0, 0.0))\n    return toks\n\n\nclass EditDistance(object):\n    def __init__(self, time_mediated):\n        self.time_mediated_ = time_mediated\n        self.scores_ = np.nan  # Eigen::Matrix<float, Eigen::Dynamic, Eigen::Dynamic>\n        self.backtraces_ = (\n            np.nan\n        )  # Eigen::Matrix<size_t, Eigen::Dynamic, Eigen::Dynamic> backtraces_;\n        self.confusion_pairs_ = {}\n\n    def cost(self, ref, hyp, code):\n        if self.time_mediated_:\n            if code == Code.match:\n                return abs(ref.start - hyp.start) + abs(ref.end - hyp.end)\n            elif code == Code.insertion:\n                return hyp.end - hyp.start\n            elif code == Code.deletion:\n                return ref.end - ref.start\n            else:  # substitution\n                return abs(ref.start - hyp.start) + abs(ref.end - hyp.end) + 0.1\n        else:\n            if code == Code.match:\n                return 0\n            elif code == Code.insertion or code == Code.deletion:\n                return 3\n            else:  # substitution\n                return 4\n\n    def get_result(self, refs, hyps):\n        res = AlignmentResult(refs=deque(), hyps=deque(), codes=deque(), score=np.nan)\n\n        num_rows, num_cols = self.scores_.shape\n        res.score = self.scores_[num_rows - 1, num_cols - 1]\n\n        curr_offset = coordinate_to_offset(num_rows - 1, num_cols - 1, num_cols)\n\n        while curr_offset != 0:\n            curr_row = offset_to_row(curr_offset, num_cols)\n            curr_col = offset_to_col(curr_offset, num_cols)\n\n            prev_offset = self.backtraces_[curr_row, curr_col]\n\n            prev_row = offset_to_row(prev_offset, num_cols)\n            prev_col = offset_to_col(prev_offset, num_cols)\n\n            res.refs.appendleft(curr_row - 1)  # Note: this was .push_front() in C++\n            res.hyps.appendleft(curr_col - 1)\n            if curr_row - 1 == prev_row and curr_col == prev_col:\n                res.codes.appendleft(Code.deletion)\n            elif curr_row == prev_row and curr_col - 1 == prev_col:\n                res.codes.appendleft(Code.insertion)\n            else:\n                # assert(curr_row - 1 == prev_row and curr_col - 1 == prev_col)\n                ref_str = refs[res.refs[0]].label\n                hyp_str = hyps[res.hyps[0]].label\n\n                if ref_str == hyp_str:\n                    res.codes.appendleft(Code.match)\n                else:\n                    res.codes.appendleft(Code.substitution)\n\n                    confusion_pair = \"%s -> %s\" % (ref_str, hyp_str)\n                    if confusion_pair not in self.confusion_pairs_:\n                        self.confusion_pairs_[confusion_pair] = 1\n                    else:\n                        self.confusion_pairs_[confusion_pair] += 1\n\n            curr_offset = prev_offset\n\n        return res\n\n    def align(self, refs, hyps):\n        if len(refs) == 0 and len(hyps) == 0:\n            return np.nan\n\n        # NOTE: we're not resetting the values in these matrices because every value\n        # will be overridden in the loop below. If this assumption doesn't hold,\n        # be sure to set all entries in self.scores_ and self.backtraces_ to 0.\n        self.scores_ = np.zeros((len(refs) + 1, len(hyps) + 1))\n        self.backtraces_ = np.zeros((len(refs) + 1, len(hyps) + 1))\n\n        num_rows, num_cols = self.scores_.shape\n\n        for i in range(num_rows):\n            for j in range(num_cols):\n                if i == 0 and j == 0:\n                    self.scores_[i, j] = 0.0\n                    self.backtraces_[i, j] = 0\n                    continue\n\n                if i == 0:\n                    self.scores_[i, j] = self.scores_[i, j - 1] + self.cost(\n                        None, hyps[j - 1], Code.insertion\n                    )\n                    self.backtraces_[i, j] = coordinate_to_offset(i, j - 1, num_cols)\n                    continue\n\n                if j == 0:\n                    self.scores_[i, j] = self.scores_[i - 1, j] + self.cost(\n                        refs[i - 1], None, Code.deletion\n                    )\n                    self.backtraces_[i, j] = coordinate_to_offset(i - 1, j, num_cols)\n                    continue\n\n                # Below here both i and j are greater than 0\n                ref = refs[i - 1]\n                hyp = hyps[j - 1]\n                best_score = self.scores_[i - 1, j - 1] + (\n                    self.cost(ref, hyp, Code.match)\n                    if (ref.label == hyp.label)\n                    else self.cost(ref, hyp, Code.substitution)\n                )\n\n                prev_row = i - 1\n                prev_col = j - 1\n                ins = self.scores_[i, j - 1] + self.cost(None, hyp, Code.insertion)\n                if ins < best_score:\n                    best_score = ins\n                    prev_row = i\n                    prev_col = j - 1\n\n                delt = self.scores_[i - 1, j] + self.cost(ref, None, Code.deletion)\n                if delt < best_score:\n                    best_score = delt\n                    prev_row = i - 1\n                    prev_col = j\n\n                self.scores_[i, j] = best_score\n                self.backtraces_[i, j] = coordinate_to_offset(\n                    prev_row, prev_col, num_cols\n                )\n\n        return self.get_result(refs, hyps)\n\n\nclass WERTransformer(object):\n    def __init__(self, hyp_str, ref_str, verbose=True):\n        self.ed_ = EditDistance(False)\n        self.id2oracle_errs_ = {}\n        self.utts_ = 0\n        self.words_ = 0\n        self.insertions_ = 0\n        self.deletions_ = 0\n        self.substitutions_ = 0\n\n        self.process([\"dummy_str\", hyp_str, ref_str])\n\n        if verbose:\n            print(\"'%s' vs '%s'\" % (hyp_str, ref_str))\n            self.report_result()\n\n    def process(self, input):  # std::vector<std::string>&& input\n        if len(input) < 3:\n            print(\n                \"Input must be of the form <id> ... <hypo> <ref> , got \",\n                len(input),\n                \" inputs:\",\n            )\n            return None\n\n        # Align\n        # std::vector<Token> hyps;\n        # std::vector<Token> refs;\n\n        hyps = str2toks(input[-2])\n        refs = str2toks(input[-1])\n\n        alignment = self.ed_.align(refs, hyps)\n        if alignment is None:\n            print(\"Alignment is null\")\n            return np.nan\n\n        # Tally errors\n        ins = 0\n        dels = 0\n        subs = 0\n        for code in alignment.codes:\n            if code == Code.substitution:\n                subs += 1\n            elif code == Code.insertion:\n                ins += 1\n            elif code == Code.deletion:\n                dels += 1\n\n        # Output\n        row = input\n        row.append(str(len(refs)))\n        row.append(str(ins))\n        row.append(str(dels))\n        row.append(str(subs))\n        # print(row)\n\n        # Accumulate\n        kIdIndex = 0\n        kNBestSep = \"/\"\n\n        pieces = input[kIdIndex].split(kNBestSep)\n\n        if len(pieces) == 0:\n            print(\n                \"Error splitting \",\n                input[kIdIndex],\n                \" on '\",\n                kNBestSep,\n                \"', got empty list\",\n            )\n            return np.nan\n\n        id = pieces[0]\n        if id not in self.id2oracle_errs_:\n            self.utts_ += 1\n            self.words_ += len(refs)\n            self.insertions_ += ins\n            self.deletions_ += dels\n            self.substitutions_ += subs\n            self.id2oracle_errs_[id] = [ins, dels, subs]\n        else:\n            curr_err = ins + dels + subs\n            prev_err = np.sum(self.id2oracle_errs_[id])\n            if curr_err < prev_err:\n                self.id2oracle_errs_[id] = [ins, dels, subs]\n\n        return 0\n\n    def report_result(self):\n        # print(\"----------  Summary ---------------\")\n        if self.words_ == 0:\n            print(\"No words counted\")\n            return\n\n        # 1-best\n        best_wer = (\n            100.0\n            * (self.insertions_ + self.deletions_ + self.substitutions_)\n            / self.words_\n        )\n\n        print(\n            \"\\tWER = %0.2f%% (%i utts, %i words, %0.2f%% ins, \"\n            \"%0.2f%% dels, %0.2f%% subs)\"\n            % (\n                best_wer,\n                self.utts_,\n                self.words_,\n                100.0 * self.insertions_ / self.words_,\n                100.0 * self.deletions_ / self.words_,\n                100.0 * self.substitutions_ / self.words_,\n            )\n        )\n\n    def wer(self):\n        if self.words_ == 0:\n            wer = np.nan\n        else:\n            wer = (\n                100.0\n                * (self.insertions_ + self.deletions_ + self.substitutions_)\n                / self.words_\n            )\n        return wer\n\n    def stats(self):\n        if self.words_ == 0:\n            stats = {}\n        else:\n            wer = (\n                100.0\n                * (self.insertions_ + self.deletions_ + self.substitutions_)\n                / self.words_\n            )\n            stats = dict(\n                {\n                    \"wer\": wer,\n                    \"utts\": self.utts_,\n                    \"numwords\": self.words_,\n                    \"ins\": self.insertions_,\n                    \"dels\": self.deletions_,\n                    \"subs\": self.substitutions_,\n                    \"confusion_pairs\": self.ed_.confusion_pairs_,\n                }\n            )\n        return stats\n\n\ndef calc_wer(hyp_str, ref_str):\n    t = WERTransformer(hyp_str, ref_str, verbose=0)\n    return t.wer()\n\n\ndef calc_wer_stats(hyp_str, ref_str):\n    t = WERTransformer(hyp_str, ref_str, verbose=0)\n    return t.stats()\n\n\ndef get_wer_alignment_codes(hyp_str, ref_str):\n    \"\"\"\n    INPUT: hypothesis string, reference string\n    OUTPUT: List of alignment codes (intermediate results from WER computation)\n    \"\"\"\n    t = WERTransformer(hyp_str, ref_str, verbose=0)\n    return t.ed_.align(str2toks(ref_str), str2toks(hyp_str)).codes\n\n\ndef merge_counts(x, y):\n    # Merge two hashes which have 'counts' as their values\n    # This can be used for example to merge confusion pair counts\n    #   conf_pairs = merge_counts(conf_pairs, stats['confusion_pairs'])\n    for k, v in y.items():\n        if k not in x:\n            x[k] = 0\n        x[k] += v\n    return x\n"
  },
  {
    "path": "examples/speech_recognition/w2l_decoder.py",
    "content": "#!/usr/bin/env python3\n\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nFlashlight decoders.\n\"\"\"\n\nimport gc\nimport itertools as it\nimport os.path as osp\nfrom typing import List\nimport warnings\nfrom collections import deque, namedtuple\n\nimport numpy as np\nimport torch\nfrom examples.speech_recognition.data.replabels import unpack_replabels\nfrom fairseq import tasks\nfrom fairseq.utils import apply_to_sample\nfrom omegaconf import open_dict\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\n\n\ntry:\n    from flashlight.lib.text.dictionary import create_word_dict, load_words\n    from flashlight.lib.sequence.criterion import CpuViterbiPath, get_data_ptr_as_bytes\n    from flashlight.lib.text.decoder import (\n        CriterionType,\n        LexiconDecoderOptions,\n        KenLM,\n        LM,\n        LMState,\n        SmearingMode,\n        Trie,\n        LexiconDecoder,\n    )\nexcept:\n    warnings.warn(\n        \"flashlight python bindings are required to use this functionality. Please install from https://github.com/facebookresearch/flashlight/tree/master/bindings/python\"\n    )\n    LM = object\n    LMState = object\n\n\nclass W2lDecoder(object):\n    def __init__(self, args, tgt_dict):\n        self.tgt_dict = tgt_dict\n        self.vocab_size = len(tgt_dict)\n        self.nbest = args.nbest\n\n        # criterion-specific init\n        self.criterion_type = CriterionType.CTC\n        self.blank = (\n            tgt_dict.index(\"<ctc_blank>\")\n            if \"<ctc_blank>\" in tgt_dict.indices\n            else tgt_dict.bos()\n        )\n        if \"<sep>\" in tgt_dict.indices:\n            self.silence = tgt_dict.index(\"<sep>\")\n        elif \"|\" in tgt_dict.indices:\n            self.silence = tgt_dict.index(\"|\")\n        else:\n            self.silence = tgt_dict.eos()\n        self.asg_transitions = None\n\n    def generate(self, models, sample, **unused):\n        \"\"\"Generate a batch of inferences.\"\"\"\n        # model.forward normally channels prev_output_tokens into the decoder\n        # separately, but SequenceGenerator directly calls model.encoder\n        encoder_input = {\n            k: v for k, v in sample[\"net_input\"].items() if k != \"prev_output_tokens\"\n        }\n        emissions = self.get_emissions(models, encoder_input)\n        return self.decode(emissions)\n\n    def get_emissions(self, models, encoder_input):\n        \"\"\"Run encoder and normalize emissions\"\"\"\n        model = models[0]\n        encoder_out = model(**encoder_input)\n        if hasattr(model, \"get_logits\"):\n            emissions = model.get_logits(encoder_out) # no need to normalize emissions\n        else:\n            emissions = model.get_normalized_probs(encoder_out, log_probs=True)\n        return emissions.transpose(0, 1).float().cpu().contiguous()\n\n    def get_tokens(self, idxs):\n        \"\"\"Normalize tokens by handling CTC blank, ASG replabels, etc.\"\"\"\n        idxs = (g[0] for g in it.groupby(idxs))\n        idxs = filter(lambda x: x != self.blank, idxs)\n        return torch.LongTensor(list(idxs))\n\n\nclass W2lViterbiDecoder(W2lDecoder):\n    def __init__(self, args, tgt_dict):\n        super().__init__(args, tgt_dict)\n\n    def decode(self, emissions):\n        B, T, N = emissions.size()\n        hypos = []\n        if self.asg_transitions is None:\n            transitions = torch.FloatTensor(N, N).zero_()\n        else:\n            transitions = torch.FloatTensor(self.asg_transitions).view(N, N)\n        viterbi_path = torch.IntTensor(B, T)\n        workspace = torch.ByteTensor(CpuViterbiPath.get_workspace_size(B, T, N))\n        CpuViterbiPath.compute(\n            B,\n            T,\n            N,\n            get_data_ptr_as_bytes(emissions),\n            get_data_ptr_as_bytes(transitions),\n            get_data_ptr_as_bytes(viterbi_path),\n            get_data_ptr_as_bytes(workspace),\n        )\n        return [\n            [{\"tokens\": self.get_tokens(viterbi_path[b].tolist()), \"score\": 0}]\n            for b in range(B)\n        ]\n\n\nclass W2lKenLMDecoder(W2lDecoder):\n    def __init__(self, args, tgt_dict):\n        super().__init__(args, tgt_dict)\n\n        self.unit_lm = getattr(args, \"unit_lm\", False)\n\n        if args.lexicon:\n            self.lexicon = load_words(args.lexicon)\n            self.word_dict = create_word_dict(self.lexicon)\n            self.unk_word = self.word_dict.get_index(\"<unk>\")\n\n            self.lm = KenLM(args.kenlm_model, self.word_dict)\n            self.trie = Trie(self.vocab_size, self.silence)\n\n            start_state = self.lm.start(False)\n            for i, (word, spellings) in enumerate(self.lexicon.items()):\n                word_idx = self.word_dict.get_index(word)\n                _, score = self.lm.score(start_state, word_idx)\n                for spelling in spellings:\n                    spelling_idxs = [tgt_dict.index(token) for token in spelling]\n                    assert (\n                        tgt_dict.unk() not in spelling_idxs\n                    ), f\"{spelling} {spelling_idxs}\"\n                    self.trie.insert(spelling_idxs, word_idx, score)\n            self.trie.smear(SmearingMode.MAX)\n\n            self.decoder_opts = LexiconDecoderOptions(\n                beam_size=args.beam,\n                beam_size_token=int(getattr(args, \"beam_size_token\", len(tgt_dict))),\n                beam_threshold=args.beam_threshold,\n                lm_weight=args.lm_weight,\n                word_score=args.word_score,\n                unk_score=args.unk_weight,\n                sil_score=args.sil_weight,\n                log_add=False,\n                criterion_type=self.criterion_type,\n            )\n\n            if self.asg_transitions is None:\n                N = 768\n                # self.asg_transitions = torch.FloatTensor(N, N).zero_()\n                self.asg_transitions = []\n\n            self.decoder = LexiconDecoder(\n                self.decoder_opts,\n                self.trie,\n                self.lm,\n                self.silence,\n                self.blank,\n                self.unk_word,\n                self.asg_transitions,\n                self.unit_lm,\n            )\n        else:\n            assert args.unit_lm, \"lexicon free decoding can only be done with a unit language model\"\n            from flashlight.lib.text.decoder import LexiconFreeDecoder, LexiconFreeDecoderOptions\n\n            d = {w: [[w]] for w in tgt_dict.symbols}\n            self.word_dict = create_word_dict(d)\n            self.lm = KenLM(args.kenlm_model, self.word_dict)\n            self.decoder_opts = LexiconFreeDecoderOptions(\n                beam_size=args.beam,\n                beam_size_token=int(getattr(args, \"beam_size_token\", len(tgt_dict))),\n                beam_threshold=args.beam_threshold,\n                lm_weight=args.lm_weight,\n                sil_score=args.sil_weight,\n                log_add=False,\n                criterion_type=self.criterion_type,\n            )\n            self.decoder = LexiconFreeDecoder(\n                self.decoder_opts, self.lm, self.silence, self.blank, []\n            )\n\n    def get_timesteps(self, token_idxs: List[int]) -> List[int]:\n        \"\"\"Returns frame numbers corresponding to every non-blank token.\n\n        Parameters\n        ----------\n        token_idxs : List[int]\n            IDs of decoded tokens.\n\n        Returns\n        -------\n        List[int]\n            Frame numbers corresponding to every non-blank token.\n        \"\"\"\n        timesteps = []\n        for i, token_idx in enumerate(token_idxs):\n            if token_idx == self.blank:\n                continue\n            if i == 0 or token_idx != token_idxs[i-1]:\n                timesteps.append(i)\n        return timesteps\n\n    def decode(self, emissions):\n        B, T, N = emissions.size()\n        hypos = []\n        for b in range(B):\n            emissions_ptr = emissions.data_ptr() + 4 * b * emissions.stride(0)\n            results = self.decoder.decode(emissions_ptr, T, N)\n\n            nbest_results = results[: self.nbest]\n            hypos.append(\n                [\n                    {\n                        \"tokens\": self.get_tokens(result.tokens),\n                        \"score\": result.score,\n                        \"timesteps\": self.get_timesteps(result.tokens),\n                        \"words\": [\n                            self.word_dict.get_entry(x) for x in result.words if x >= 0\n                        ],\n                    }\n                    for result in nbest_results\n                ]\n            )\n        return hypos\n\n\nFairseqLMState = namedtuple(\"FairseqLMState\", [\"prefix\", \"incremental_state\", \"probs\"])\n\n\nclass FairseqLM(LM):\n    def __init__(self, dictionary, model):\n        LM.__init__(self)\n        self.dictionary = dictionary\n        self.model = model\n        self.unk = self.dictionary.unk()\n\n        self.save_incremental = False  # this currently does not work properly\n        self.max_cache = 20_000\n\n        model.cuda()\n        model.eval()\n        model.make_generation_fast_()\n\n        self.states = {}\n        self.stateq = deque()\n\n    def start(self, start_with_nothing):\n        state = LMState()\n        prefix = torch.LongTensor([[self.dictionary.eos()]])\n        incremental_state = {} if self.save_incremental else None\n        with torch.no_grad():\n            res = self.model(prefix.cuda(), incremental_state=incremental_state)\n            probs = self.model.get_normalized_probs(res, log_probs=True, sample=None)\n\n        if incremental_state is not None:\n            incremental_state = apply_to_sample(lambda x: x.cpu(), incremental_state)\n        self.states[state] = FairseqLMState(\n            prefix.numpy(), incremental_state, probs[0, -1].cpu().numpy()\n        )\n        self.stateq.append(state)\n\n        return state\n\n    def score(self, state: LMState, token_index: int, no_cache: bool = False):\n        \"\"\"\n        Evaluate language model based on the current lm state and new word\n        Parameters:\n        -----------\n        state: current lm state\n        token_index: index of the word\n                     (can be lexicon index then you should store inside LM the\n                      mapping between indices of lexicon and lm, or lm index of a word)\n\n        Returns:\n        --------\n        (LMState, float): pair of (new state, score for the current word)\n        \"\"\"\n        curr_state = self.states[state]\n\n        def trim_cache(targ_size):\n            while len(self.stateq) > targ_size:\n                rem_k = self.stateq.popleft()\n                rem_st = self.states[rem_k]\n                rem_st = FairseqLMState(rem_st.prefix, None, None)\n                self.states[rem_k] = rem_st\n\n        if curr_state.probs is None:\n            new_incremental_state = (\n                curr_state.incremental_state.copy()\n                if curr_state.incremental_state is not None\n                else None\n            )\n            with torch.no_grad():\n                if new_incremental_state is not None:\n                    new_incremental_state = apply_to_sample(\n                        lambda x: x.cuda(), new_incremental_state\n                    )\n                elif self.save_incremental:\n                    new_incremental_state = {}\n\n                res = self.model(\n                    torch.from_numpy(curr_state.prefix).cuda(),\n                    incremental_state=new_incremental_state,\n                )\n                probs = self.model.get_normalized_probs(\n                    res, log_probs=True, sample=None\n                )\n\n                if new_incremental_state is not None:\n                    new_incremental_state = apply_to_sample(\n                        lambda x: x.cpu(), new_incremental_state\n                    )\n\n                curr_state = FairseqLMState(\n                    curr_state.prefix, new_incremental_state, probs[0, -1].cpu().numpy()\n                )\n\n            if not no_cache:\n                self.states[state] = curr_state\n                self.stateq.append(state)\n\n        score = curr_state.probs[token_index].item()\n\n        trim_cache(self.max_cache)\n\n        outstate = state.child(token_index)\n        if outstate not in self.states and not no_cache:\n            prefix = np.concatenate(\n                [curr_state.prefix, torch.LongTensor([[token_index]])], -1\n            )\n            incr_state = curr_state.incremental_state\n\n            self.states[outstate] = FairseqLMState(prefix, incr_state, None)\n\n        if token_index == self.unk:\n            score = float(\"-inf\")\n\n        return outstate, score\n\n    def finish(self, state: LMState):\n        \"\"\"\n        Evaluate eos for language model based on the current lm state\n\n        Returns:\n        --------\n        (LMState, float): pair of (new state, score for the current word)\n        \"\"\"\n        return self.score(state, self.dictionary.eos())\n\n    def empty_cache(self):\n        self.states = {}\n        self.stateq = deque()\n        gc.collect()\n\n\nclass W2lFairseqLMDecoder(W2lDecoder):\n    def __init__(self, args, tgt_dict):\n        super().__init__(args, tgt_dict)\n\n        self.unit_lm = getattr(args, \"unit_lm\", False)\n\n        self.lexicon = load_words(args.lexicon) if args.lexicon else None\n        self.idx_to_wrd = {}\n\n        checkpoint = torch.load(args.kenlm_model, map_location=\"cpu\")\n\n        if \"cfg\" in checkpoint and checkpoint[\"cfg\"] is not None:\n            lm_args = checkpoint[\"cfg\"]\n        else:\n            lm_args = convert_namespace_to_omegaconf(checkpoint[\"args\"])\n\n        with open_dict(lm_args.task):\n            lm_args.task.data = osp.dirname(args.kenlm_model)\n\n        task = tasks.setup_task(lm_args.task)\n        model = task.build_model(lm_args.model)\n        model.load_state_dict(checkpoint[\"model\"], strict=False)\n\n        self.trie = Trie(self.vocab_size, self.silence)\n\n        self.word_dict = task.dictionary\n        self.unk_word = self.word_dict.unk()\n        self.lm = FairseqLM(self.word_dict, model)\n\n        if self.lexicon:\n            start_state = self.lm.start(False)\n            for i, (word, spellings) in enumerate(self.lexicon.items()):\n                if self.unit_lm:\n                    word_idx = i\n                    self.idx_to_wrd[i] = word\n                    score = 0\n                else:\n                    word_idx = self.word_dict.index(word)\n                    _, score = self.lm.score(start_state, word_idx, no_cache=True)\n\n                for spelling in spellings:\n                    spelling_idxs = [tgt_dict.index(token) for token in spelling]\n                    assert (\n                        tgt_dict.unk() not in spelling_idxs\n                    ), f\"{spelling} {spelling_idxs}\"\n                    self.trie.insert(spelling_idxs, word_idx, score)\n            self.trie.smear(SmearingMode.MAX)\n\n            self.decoder_opts = LexiconDecoderOptions(\n                beam_size=args.beam,\n                beam_size_token=int(getattr(args, \"beam_size_token\", len(tgt_dict))),\n                beam_threshold=args.beam_threshold,\n                lm_weight=args.lm_weight,\n                word_score=args.word_score,\n                unk_score=args.unk_weight,\n                sil_score=args.sil_weight,\n                log_add=False,\n                criterion_type=self.criterion_type,\n            )\n\n            self.decoder = LexiconDecoder(\n                self.decoder_opts,\n                self.trie,\n                self.lm,\n                self.silence,\n                self.blank,\n                self.unk_word,\n                [],\n                self.unit_lm,\n            )\n        else:\n            assert args.unit_lm, \"lexicon free decoding can only be done with a unit language model\"\n            from flashlight.lib.text.decoder import LexiconFreeDecoder, LexiconFreeDecoderOptions\n\n            d = {w: [[w]] for w in tgt_dict.symbols}\n            self.word_dict = create_word_dict(d)\n            self.lm = KenLM(args.kenlm_model, self.word_dict)\n            self.decoder_opts = LexiconFreeDecoderOptions(\n                beam_size=args.beam,\n                beam_size_token=int(getattr(args, \"beam_size_token\", len(tgt_dict))),\n                beam_threshold=args.beam_threshold,\n                lm_weight=args.lm_weight,\n                sil_score=args.sil_weight,\n                log_add=False,\n                criterion_type=self.criterion_type,\n            )\n            self.decoder = LexiconFreeDecoder(\n                self.decoder_opts, self.lm, self.silence, self.blank, []\n            )\n\n    def decode(self, emissions):\n        B, T, N = emissions.size()\n        hypos = []\n\n        def idx_to_word(idx):\n            if self.unit_lm:\n                return self.idx_to_wrd[idx]\n            else:\n                return self.word_dict[idx]\n\n        def make_hypo(result):\n            hypo = {\"tokens\": self.get_tokens(result.tokens), \"score\": result.score}\n            if self.lexicon:\n                hypo[\"words\"] = [idx_to_word(x) for x in result.words if x >= 0]\n            return hypo\n\n        for b in range(B):\n            emissions_ptr = emissions.data_ptr() + 4 * b * emissions.stride(0)\n            results = self.decoder.decode(emissions_ptr, T, N)\n\n            nbest_results = results[: self.nbest]\n            hypos.append([make_hypo(result) for result in nbest_results])\n            self.lm.empty_cache()\n\n        return hypos\n"
  },
  {
    "path": "examples/speech_synthesis/README.md",
    "content": "Speech Synthesis (S^2)\n===\n[https://arxiv.org/abs/2109.06912](https://arxiv.org/abs/2109.06912)\n\nSpeech synthesis with fairseq.\n\n## Features\n\n- Autoregressive and non-autoregressive models\n- Multi-speaker synthesis\n- Audio preprocessing (denoising, VAD, etc.) for less curated data\n- Automatic metrics for model development\n- Similar data configuration as [S2T](../speech_to_text/README.md)\n\n\n## Examples\n- [Single-speaker synthesis on LJSpeech](docs/ljspeech_example.md)\n- [Multi-speaker synthesis on VCTK](docs/vctk_example.md)\n- [Multi-speaker synthesis on Common Voice](docs/common_voice_example.md)\n\n\n## Citation\nPlease cite as:\n```\n@article{wang2021fairseqs2,\n  title={fairseq S\\^{} 2: A Scalable and Integrable Speech Synthesis Toolkit},\n  author={Wang, Changhan and Hsu, Wei-Ning and Adi, Yossi and Polyak, Adam and Lee, Ann and Chen, Peng-Jen and Gu, Jiatao and Pino, Juan},\n  journal={arXiv preprint arXiv:2109.06912},\n  year={2021}\n}\n\n@inproceedings{ott2019fairseq,\n  title = {fairseq: A Fast, Extensible Toolkit for Sequence Modeling},\n  author = {Myle Ott and Sergey Edunov and Alexei Baevski and Angela Fan and Sam Gross and Nathan Ng and David Grangier and Michael Auli},\n  booktitle = {Proceedings of NAACL-HLT 2019: Demonstrations},\n  year = {2019},\n}\n```\n"
  },
  {
    "path": "examples/speech_synthesis/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n"
  },
  {
    "path": "examples/speech_synthesis/data_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport io\nimport os\nfrom pathlib import Path\nfrom typing import Optional, List, Dict\nimport zipfile\nimport tempfile\nfrom dataclasses import dataclass\nfrom itertools import groupby\n\nimport torch\nimport torch.nn.functional as F\nimport numpy as np\nfrom tqdm import tqdm\n\nfrom examples.speech_to_text.data_utils import load_tsv_to_dicts\nfrom fairseq.data.audio.audio_utils import (\n    TTSSpectrogram, TTSMelScale, parse_path, read_from_stored_zip, is_npy_data\n)\n\n\ndef trim_or_pad_to_target_length(\n        data_1d_or_2d: np.ndarray, target_length: int\n) -> np.ndarray:\n    assert len(data_1d_or_2d.shape) in {1, 2}\n    delta = data_1d_or_2d.shape[0] - target_length\n    if delta >= 0:  # trim if being longer\n        data_1d_or_2d = data_1d_or_2d[: target_length]\n    else:  # pad if being shorter\n        if len(data_1d_or_2d.shape) == 1:\n            data_1d_or_2d = np.concatenate(\n                [data_1d_or_2d, np.zeros(-delta)], axis=0\n            )\n        else:\n            data_1d_or_2d = np.concatenate(\n                [data_1d_or_2d, np.zeros((-delta, data_1d_or_2d.shape[1]))],\n                axis=0\n            )\n    return data_1d_or_2d\n\n\ndef extract_logmel_spectrogram(\n        waveform: torch.Tensor, sample_rate: int,\n        output_path: Optional[Path] = None, win_length: int = 1024,\n        hop_length: int = 256, n_fft: int = 1024,\n        win_fn: callable = torch.hann_window, n_mels: int = 80,\n        f_min: float = 0., f_max: float = 8000, eps: float = 1e-5,\n        overwrite: bool = False, target_length: Optional[int] = None\n):\n    if output_path is not None and output_path.is_file() and not overwrite:\n        return\n\n    spectrogram_transform = TTSSpectrogram(\n        n_fft=n_fft, win_length=win_length, hop_length=hop_length,\n        window_fn=win_fn\n    )\n    mel_scale_transform = TTSMelScale(\n        n_mels=n_mels, sample_rate=sample_rate, f_min=f_min, f_max=f_max,\n        n_stft=n_fft // 2 + 1\n    )\n    spectrogram = spectrogram_transform(waveform)\n    mel_spec = mel_scale_transform(spectrogram)\n    logmel_spec = torch.clamp(mel_spec, min=eps).log()\n    assert len(logmel_spec.shape) == 3 and logmel_spec.shape[0] == 1\n    logmel_spec = logmel_spec.squeeze().t()  # D x T -> T x D\n    if target_length is not None:\n        logmel_spec = trim_or_pad_to_target_length(logmel_spec, target_length)\n\n    if output_path is not None:\n        np.save(output_path.as_posix(), logmel_spec)\n    else:\n        return logmel_spec\n\n\ndef extract_pitch(\n        waveform: torch.Tensor, sample_rate: int,\n        output_path: Optional[Path] = None, hop_length: int = 256,\n        log_scale: bool = True, phoneme_durations: Optional[List[int]] = None\n):\n    if output_path is not None and output_path.is_file():\n        return\n\n    try:\n        import pyworld\n    except ImportError:\n        raise ImportError(\"Please install PyWORLD: pip install pyworld\")\n\n    _waveform = waveform.squeeze(0).double().numpy()\n    pitch, t = pyworld.dio(\n        _waveform, sample_rate, frame_period=hop_length / sample_rate * 1000\n    )\n    pitch = pyworld.stonemask(_waveform, pitch, t, sample_rate)\n\n    if phoneme_durations is not None:\n        pitch = trim_or_pad_to_target_length(pitch, sum(phoneme_durations))\n        try:\n            from scipy.interpolate import interp1d\n        except ImportError:\n            raise ImportError(\"Please install SciPy: pip install scipy\")\n        nonzero_ids = np.where(pitch != 0)[0]\n        if len(nonzero_ids) == 0:\n            print((f\"{output_path} has all empty values in the pitch contour\"))\n            return\n        elif len(nonzero_ids) == 1:\n            print((f\"{output_path} has only one non-zero values in the pitch contour\"))\n            return\n        else:\n            interp_fn = interp1d(\n                nonzero_ids,\n                pitch[nonzero_ids],\n                fill_value=(pitch[nonzero_ids[0]], pitch[nonzero_ids[-1]]),\n                bounds_error=False,\n            )\n            pitch = interp_fn(np.arange(0, len(pitch)))\n        d_cumsum = np.cumsum(np.concatenate([np.array([0]), phoneme_durations]))\n        pitch = np.array(\n            [\n                np.mean(pitch[d_cumsum[i-1]: d_cumsum[i]])\n                for i in range(1, len(d_cumsum))\n            ]\n        )\n        assert len(pitch) == len(phoneme_durations)\n\n    if log_scale:\n        pitch = np.log(pitch + 1)\n\n    if output_path is not None:\n        np.save(output_path.as_posix(), pitch)\n    else:\n        return pitch\n\n\ndef extract_energy(\n        waveform: torch.Tensor, output_path: Optional[Path] = None,\n        hop_length: int = 256, n_fft: int = 1024, log_scale: bool = True,\n        phoneme_durations: Optional[List[int]] = None\n):\n    if output_path is not None and output_path.is_file():\n        return\n\n    assert len(waveform.shape) == 2 and waveform.shape[0] == 1\n    waveform = waveform.view(1, 1, waveform.shape[1])\n    waveform = F.pad(\n        waveform.unsqueeze(1), [n_fft // 2, n_fft // 2, 0, 0],\n        mode=\"reflect\"\n    )\n    waveform = waveform.squeeze(1)\n\n    fourier_basis = np.fft.fft(np.eye(n_fft))\n    cutoff = int((n_fft / 2 + 1))\n    fourier_basis = np.vstack(\n        [np.real(fourier_basis[:cutoff, :]),\n         np.imag(fourier_basis[:cutoff, :])]\n    )\n\n    forward_basis = torch.FloatTensor(fourier_basis[:, None, :])\n    forward_transform = F.conv1d(\n        waveform, forward_basis, stride=hop_length, padding=0\n    )\n\n    real_part = forward_transform[:, :cutoff, :]\n    imag_part = forward_transform[:, cutoff:, :]\n    magnitude = torch.sqrt(real_part ** 2 + imag_part ** 2)\n    energy = torch.norm(magnitude, dim=1).squeeze(0).numpy()\n\n    if phoneme_durations is not None:\n        energy = trim_or_pad_to_target_length(energy, sum(phoneme_durations))\n        d_cumsum = np.cumsum(np.concatenate([np.array([0]), phoneme_durations]))\n        energy = np.array(\n            [\n                np.mean(energy[d_cumsum[i - 1]: d_cumsum[i]])\n                for i in range(1, len(d_cumsum))\n            ]\n        )\n        assert len(energy) == len(phoneme_durations)\n\n    if log_scale:\n        energy = np.log(energy + 1)\n\n    if output_path is not None:\n        np.save(output_path.as_posix(), energy)\n    else:\n        return energy\n\n\ndef get_global_cmvn(feature_root: Path, output_path: Optional[Path] = None):\n    mean_x, mean_x2, n_frames = None, None, 0\n    feature_paths = feature_root.glob(\"*.npy\")\n    for p in tqdm(feature_paths):\n        with open(p, 'rb') as f:\n            frames = np.load(f).squeeze()\n\n        n_frames += frames.shape[0]\n\n        cur_mean_x = frames.sum(axis=0)\n        if mean_x is None:\n            mean_x = cur_mean_x\n        else:\n            mean_x += cur_mean_x\n\n        cur_mean_x2 = (frames ** 2).sum(axis=0)\n        if mean_x2 is None:\n            mean_x2 = cur_mean_x2\n        else:\n            mean_x2 += cur_mean_x2\n\n    mean_x /= n_frames\n    mean_x2 /= n_frames\n    var_x = mean_x2 - mean_x ** 2\n    std_x = np.sqrt(np.maximum(var_x, 1e-10))\n\n    if output_path is not None:\n        with open(output_path, 'wb') as f:\n            np.savez(f, mean=mean_x, std=std_x)\n    else:\n        return {\"mean\": mean_x, \"std\": std_x}\n\n\ndef ipa_phonemize(text, lang=\"en-us\", use_g2p=False):\n    if use_g2p:\n        assert lang == \"en-us\", \"g2pE phonemizer only works for en-us\"\n        try:\n            from g2p_en import G2p\n            g2p = G2p()\n            return \" \".join(\"|\" if p == \" \" else p for p in g2p(text))\n        except ImportError:\n            raise ImportError(\n                \"Please install phonemizer: pip install g2p_en\"\n            )\n    else:\n        try:\n            from phonemizer import phonemize\n            from phonemizer.separator import Separator\n            return phonemize(\n                text, backend='espeak', language=lang,\n                separator=Separator(word=\"| \", phone=\" \")\n            )\n        except ImportError:\n            raise ImportError(\n                \"Please install phonemizer: pip install phonemizer\"\n            )\n\n\n@dataclass\nclass ForceAlignmentInfo(object):\n    tokens: List[str]\n    frame_durations: List[int]\n    start_sec: Optional[float]\n    end_sec: Optional[float]\n\n\ndef get_mfa_alignment_by_sample_id(\n        textgrid_zip_path: str, sample_id: str, sample_rate: int,\n        hop_length: int, silence_phones: List[str] = (\"sil\", \"sp\", \"spn\")\n) -> ForceAlignmentInfo:\n    try:\n        import tgt\n    except ImportError:\n        raise ImportError(\"Please install TextGridTools: pip install tgt\")\n\n    filename = f\"{sample_id}.TextGrid\"\n    out_root = Path(tempfile.gettempdir())\n    tgt_path = out_root / filename\n    with zipfile.ZipFile(textgrid_zip_path) as f_zip:\n        f_zip.extract(filename, path=out_root)\n    textgrid = tgt.io.read_textgrid(tgt_path.as_posix())\n    os.remove(tgt_path)\n\n    phones, frame_durations = [], []\n    start_sec, end_sec, end_idx = 0, 0, 0\n    for t in textgrid.get_tier_by_name(\"phones\")._objects:\n        s, e, p = t.start_time, t.end_time, t.text\n        # Trim leading silences\n        if len(phones) == 0:\n            if p in silence_phones:\n                continue\n            else:\n                start_sec = s\n        phones.append(p)\n        if p not in silence_phones:\n            end_sec = e\n            end_idx = len(phones)\n        r = sample_rate / hop_length\n        frame_durations.append(int(np.round(e * r) - np.round(s * r)))\n    # Trim tailing silences\n    phones = phones[:end_idx]\n    frame_durations = frame_durations[:end_idx]\n\n    return ForceAlignmentInfo(\n        tokens=phones, frame_durations=frame_durations, start_sec=start_sec,\n        end_sec=end_sec\n    )\n\n\ndef get_mfa_alignment(\n        textgrid_zip_path: str, sample_ids: List[str], sample_rate: int,\n        hop_length: int\n) -> Dict[str, ForceAlignmentInfo]:\n    return {\n        i: get_mfa_alignment_by_sample_id(\n            textgrid_zip_path, i, sample_rate, hop_length\n        ) for i in tqdm(sample_ids)\n    }\n\n\ndef get_unit_alignment(\n        id_to_unit_tsv_path: str, sample_ids: List[str]\n) -> Dict[str, ForceAlignmentInfo]:\n    id_to_units = {\n        e[\"id\"]: e[\"units\"] for e in load_tsv_to_dicts(id_to_unit_tsv_path)\n    }\n    id_to_units = {i: id_to_units[i].split() for i in sample_ids}\n    id_to_units_collapsed = {\n        i: [uu for uu, _ in groupby(u)] for i, u in id_to_units.items()\n    }\n    id_to_durations = {\n        i: [len(list(g)) for _, g in groupby(u)] for i, u in id_to_units.items()\n    }\n\n    return {\n        i: ForceAlignmentInfo(\n            tokens=id_to_units_collapsed[i], frame_durations=id_to_durations[i],\n            start_sec=None, end_sec=None\n        )\n        for i in sample_ids\n    }\n\n\ndef get_feature_value_min_max(feature_paths: List[str]):\n    v_min, v_max = 1e-8, -1e-8\n    for p in tqdm(feature_paths):\n        _path, slice_ptr = parse_path(p)\n        assert len(slice_ptr) == 2\n        byte_data = read_from_stored_zip(_path, slice_ptr[0], slice_ptr[1])\n        assert is_npy_data(byte_data)\n        path_or_fp = io.BytesIO(byte_data)\n        features = np.load(path_or_fp).squeeze()\n        v_min = min(v_min, features.min().item())\n        v_max = max(v_max, features.max().item())\n    return v_min, v_max\n"
  },
  {
    "path": "examples/speech_synthesis/docs/common_voice_example.md",
    "content": "[[Back]](..)\n\n# Common Voice\n\n[Common Voice](https://commonvoice.mozilla.org/en/datasets) is a public domain speech corpus with 11.2K hours of read\nspeech in 76 languages (the latest version 7.0). We provide examples for building\n[Transformer](https://arxiv.org/abs/1809.08895) models on this dataset.\n\n\n## Data preparation\n[Download](https://commonvoice.mozilla.org/en/datasets) and unpack Common Voice v4 to a path `${DATA_ROOT}/${LANG_ID}`.\nCreate splits and generate audio manifests with\n```bash\npython -m examples.speech_synthesis.preprocessing.get_common_voice_audio_manifest \\\n  --data-root ${DATA_ROOT} \\\n  --lang ${LANG_ID} \\\n  --output-manifest-root ${AUDIO_MANIFEST_ROOT} --convert-to-wav\n```\n\nTo denoise audio and trim leading/trailing silence using signal processing based VAD, run\n```bash\nfor SPLIT in dev test train; do\n    python -m examples.speech_synthesis.preprocessing.denoise_and_vad_audio \\\n      --audio-manifest ${AUDIO_MANIFEST_ROOT}/${SPLIT}.audio.tsv \\\n      --output-dir ${PROCESSED_DATA_ROOT} \\\n      --denoise --vad --vad-agg-level 2\ndone\n```\n\nwhich generates a new audio TSV manifest under `${PROCESSED_DATA_ROOT}` with updated path to the processed audio and\na new column for SNR.\n\nTo do filtering by CER, follow the [Automatic Evaluation](../docs/ljspeech_example.md#automatic-evaluation) section to\nrun ASR model (add `--eval-target` to `get_eval_manifest` for evaluation on the reference audio; add `--err-unit char`\nto `eval_asr` to compute CER instead of WER). The example-level CER is saved to\n`${EVAL_OUTPUT_ROOT}/uer_cer.${SPLIT}.tsv`.\n\nThen, extract log-Mel spectrograms, generate feature manifest and create data configuration YAML with\n```bash\npython -m examples.speech_synthesis.preprocessing.get_feature_manifest \\\n  --audio-manifest-root ${AUDIO_MANIFEST_ROOT} \\\n  --output-root ${FEATURE_MANIFEST_ROOT} \\\n  --ipa-vocab --lang ${LANG_ID} \\\n  --snr-threshold 15 \\\n  --cer-threshold 0.1 --cer-tsv-path ${EVAL_OUTPUT_ROOT}/uer_cer.${SPLIT}.tsv\n```\nwhere we use phoneme inputs (`--ipa-vocab`) as example. For sample filtering, we set the SNR and CER threshold\nto 15 and 10%, respectively.\n\n\n## Training\n(Please refer to [the LJSpeech example](../docs/ljspeech_example.md#transformer).)\n\n\n## Inference\n(Please refer to [the LJSpeech example](../docs/ljspeech_example.md#inference).)\n\n## Automatic Evaluation\n(Please refer to [the LJSpeech example](../docs/ljspeech_example.md#automatic-evaluation).)\n\n## Results\n\n| Language | Speakers | --arch | Params | Test MCD | Model |\n|---|---|---|---|---|---|\n| English | 200 | tts_transformer | 54M | 3.8 | [Download](https://dl.fbaipublicfiles.com/fairseq/s2/cv4_en200_transformer_phn.tar) |\n\n[[Back]](..)\n"
  },
  {
    "path": "examples/speech_synthesis/docs/ljspeech_example.md",
    "content": "[[Back]](..)\n\n# LJSpeech\n\n[LJSpeech](https://keithito.com/LJ-Speech-Dataset) is a public domain TTS\ncorpus with around 24 hours of English speech sampled at 22.05kHz. We provide examples for building\n[Transformer](https://arxiv.org/abs/1809.08895) and [FastSpeech 2](https://arxiv.org/abs/2006.04558)\nmodels on this dataset.\n\n\n## Data preparation\n\nDownload data, create splits and generate audio manifests with\n```bash\npython -m examples.speech_synthesis.preprocessing.get_ljspeech_audio_manifest \\\n  --output-data-root ${AUDIO_DATA_ROOT} \\\n  --output-manifest-root ${AUDIO_MANIFEST_ROOT}\n```\n\nThen, extract log-Mel spectrograms, generate feature manifest and create data configuration YAML with\n```bash\npython -m examples.speech_synthesis.preprocessing.get_feature_manifest \\\n  --audio-manifest-root ${AUDIO_MANIFEST_ROOT} \\\n  --output-root ${FEATURE_MANIFEST_ROOT} \\\n  --ipa-vocab --use-g2p\n```\nwhere we use phoneme inputs (`--ipa-vocab --use-g2p`) as example.\n\nFastSpeech 2 additionally requires frame durations, pitch and energy as auxiliary training targets.\nAdd `--add-fastspeech-targets` to include these fields in the feature manifests. We get frame durations either from\nphoneme-level force-alignment or frame-level pseudo-text unit sequence. They should be pre-computed and specified via:\n- `--textgrid-zip ${TEXT_GRID_ZIP_PATH}` for a ZIP file, inside which there is one\n  [TextGrid](https://www.fon.hum.uva.nl/praat/manual/TextGrid.html) file per sample to provide force-alignment info.\n- `--id-to-units-tsv ${ID_TO_UNIT_TSV}` for a TSV file, where there are 2 columns for sample ID and\n  space-delimited pseudo-text unit sequence, respectively.\n\nFor your convenience, we provide pre-computed\n[force-alignment](https://dl.fbaipublicfiles.com/fairseq/s2/ljspeech_mfa.zip) from\n[Montreal Forced Aligner](https://github.com/MontrealCorpusTools/Montreal-Forced-Aligner) and\n[pseudo-text units](s3://dl.fbaipublicfiles.com/fairseq/s2/ljspeech_hubert.tsv) from\n[HuBERT](https://github.com/pytorch/fairseq/tree/main/examples/hubert). You can also generate them by yourself using\na different software or model.\n\n\n## Training\n#### Transformer\n```bash\nfairseq-train ${FEATURE_MANIFEST_ROOT} --save-dir ${SAVE_DIR} \\\n  --config-yaml config.yaml --train-subset train --valid-subset dev \\\n  --num-workers 4 --max-tokens 30000 --max-update 200000 \\\n  --task text_to_speech --criterion tacotron2 --arch tts_transformer \\\n  --clip-norm 5.0 --n-frames-per-step 4 --bce-pos-weight 5.0 \\\n  --dropout 0.1 --attention-dropout 0.1 --activation-dropout 0.1 \\\n  --encoder-normalize-before --decoder-normalize-before \\\n  --optimizer adam --lr 2e-3 --lr-scheduler inverse_sqrt --warmup-updates 4000 \\\n  --seed 1 --update-freq 8 --eval-inference --best-checkpoint-metric mcd_loss\n```\nwhere `SAVE_DIR` is the checkpoint root path. We set `--update-freq 8` to simulate 8 GPUs with 1 GPU. You may want to\nupdate it accordingly when using more than 1 GPU.\n\n#### FastSpeech2\n```bash\nfairseq-train ${FEATURE_MANIFEST_ROOT} --save-dir ${SAVE_DIR} \\\n  --config-yaml config.yaml --train-subset train --valid-subset dev \\\n  --num-workers 4 --max-sentences 6 --max-update 200000 \\\n  --task text_to_speech --criterion fastspeech2 --arch fastspeech2 \\\n  --clip-norm 5.0 --n-frames-per-step 1 \\\n  --dropout 0.1 --attention-dropout 0.1 \\\n  --optimizer adam --lr 5e-4 --lr-scheduler inverse_sqrt --warmup-updates 4000 \\\n  --seed 1 --update-freq 8 --eval-inference --best-checkpoint-metric mcd_loss\n```\n\n\n## Inference\nAverage the last 5 checkpoints, generate the test split spectrogram and waveform using the default Griffin-Lim vocoder:\n```bash\nSPLIT=test\nCHECKPOINT_NAME=avg_last_5\nCHECKPOINT_PATH=${SAVE_DIR}/checkpoint_${CHECKPOINT_NAME}.pt\npython scripts/average_checkpoints.py --inputs ${SAVE_DIR} \\\n  --num-epoch-checkpoints 5 \\\n  --output ${CHECKPOINT_PATH}\n\npython -m examples.speech_synthesis.generate_waveform ${FEATURE_MANIFEST_ROOT} \\\n  --config-yaml config.yaml --gen-subset ${SPLIT} --task text_to_speech \\\n  --path ${CHECKPOINT_PATH} --max-tokens 50000 --spec-bwd-max-iter 32 \\\n  --dump-waveforms\n```\nwhich dumps files (waveform, feature, attention plot, etc.) to `${SAVE_DIR}/generate-${CHECKPOINT_NAME}-${SPLIT}`. To\nre-synthesize target waveforms for automatic evaluation, add `--dump-target`.\n\n## Automatic Evaluation\nTo start with, generate the manifest for synthetic speech, which will be taken as inputs by evaluation scripts.\n```bash\npython -m examples.speech_synthesis.evaluation.get_eval_manifest \\\n  --generation-root ${SAVE_DIR}/generate-${CHECKPOINT_NAME}-${SPLIT} \\\n  --audio-manifest ${AUDIO_MANIFEST_ROOT}/${SPLIT}.audio.tsv \\\n  --output-path ${EVAL_OUTPUT_ROOT}/eval.tsv \\\n  --vocoder griffin_lim --sample-rate 22050 --audio-format flac \\\n  --use-resynthesized-target\n```\nSpeech recognition (ASR) models usually operate at lower sample rates (e.g. 16kHz). For the WER/CER metric,\nyou may need to resample the audios accordingly --- add `--output-sample-rate 16000` for `generate_waveform.py` and\nuse `--sample-rate 16000` for `get_eval_manifest.py`.\n\n\n#### WER/CER metric\nWe use wav2vec 2.0 ASR model as example. [Download](https://github.com/pytorch/fairseq/tree/main/examples/wav2vec)\nthe model checkpoint and dictionary, then compute WER/CER with\n```bash\npython -m examples.speech_synthesis.evaluation.eval_asr \\\n  --audio-header syn --text-header text --err-unit char --split ${SPLIT} \\\n  --w2v-ckpt ${WAV2VEC2_CHECKPOINT_PATH} --w2v-dict-dir ${WAV2VEC2_DICT_DIR} \\\n  --raw-manifest ${EVAL_OUTPUT_ROOT}/eval_16khz.tsv --asr-dir ${EVAL_OUTPUT_ROOT}/asr\n```\n\n#### MCD/MSD metric\n```bash\npython -m examples.speech_synthesis.evaluation.eval_sp \\\n  ${EVAL_OUTPUT_ROOT}/eval.tsv --mcd --msd\n```\n\n#### F0 metrics\n```bash\npython -m examples.speech_synthesis.evaluation.eval_f0 \\\n  ${EVAL_OUTPUT_ROOT}/eval.tsv --gpe --vde --ffe\n```\n\n\n## Results\n\n| --arch | Params | Test MCD | Model |\n|---|---|---|---|\n| tts_transformer | 54M | 3.8 | [Download](https://dl.fbaipublicfiles.com/fairseq/s2/ljspeech_transformer_phn.tar) |\n| fastspeech2 | 41M | 3.8 | [Download](https://dl.fbaipublicfiles.com/fairseq/s2/ljspeech_fastspeech2_phn.tar) |\n\n[[Back]](..)\n"
  },
  {
    "path": "examples/speech_synthesis/docs/vctk_example.md",
    "content": "[[Back]](..)\n\n# VCTK\n\n[VCTK](https://datashare.ed.ac.uk/handle/10283/3443) is an open English speech corpus. We provide examples\nfor building [Transformer](https://arxiv.org/abs/1809.08895) models on this dataset.\n\n\n## Data preparation\nDownload data, create splits and generate audio manifests with\n```bash\npython -m examples.speech_synthesis.preprocessing.get_vctk_audio_manifest \\\n  --output-data-root ${AUDIO_DATA_ROOT} \\\n  --output-manifest-root ${AUDIO_MANIFEST_ROOT}\n```\n\nTo denoise audio and trim leading/trailing silence using signal processing based VAD, run\n```bash\nfor SPLIT in dev test train; do\n    python -m examples.speech_synthesis.preprocessing.denoise_and_vad_audio \\\n      --audio-manifest ${AUDIO_MANIFEST_ROOT}/${SPLIT}.audio.tsv \\\n      --output-dir ${PROCESSED_DATA_ROOT} \\\n      --denoise --vad --vad-agg-level 3\ndone\n```\nwhich generates a new audio TSV manifest under `${PROCESSED_DATA_ROOT}` with updated path to the processed audio and\na new column for SNR.\n\nTo do filtering by CER, follow the [Automatic Evaluation](../docs/ljspeech_example.md#automatic-evaluation) section to\nrun ASR model (add `--eval-target` to `get_eval_manifest` for evaluation on the reference audio; add `--err-unit char`\nto `eval_asr` to compute CER instead of WER). The example-level CER is saved to\n`${EVAL_OUTPUT_ROOT}/uer_cer.${SPLIT}.tsv`.\n\nThen, extract log-Mel spectrograms, generate feature manifest and create data configuration YAML with\n```bash\npython -m examples.speech_synthesis.preprocessing.get_feature_manifest \\\n  --audio-manifest-root ${PROCESSED_DATA_ROOT} \\\n  --output-root ${FEATURE_MANIFEST_ROOT} \\\n  --ipa-vocab --use-g2p \\\n  --snr-threshold 15 \\\n  --cer-threshold 0.1 --cer-tsv-path ${EVAL_OUTPUT_ROOT}/uer_cer.${SPLIT}.tsv\n```\nwhere we use phoneme inputs (`--ipa-vocab --use-g2p`) as example. For sample filtering, we set the SNR and CER threshold\nto 15 and 10%, respectively.\n\n## Training\n(Please refer to [the LJSpeech example](../docs/ljspeech_example.md#transformer).)\n\n## Inference\n(Please refer to [the LJSpeech example](../docs/ljspeech_example.md#inference).)\n\n## Automatic Evaluation\n(Please refer to [the LJSpeech example](../docs/ljspeech_example.md#automatic-evaluation).)\n\n## Results\n\n| --arch | Params | Test MCD | Model |\n|---|---|---|---|\n| tts_transformer | 54M | 3.4 | [Download](https://dl.fbaipublicfiles.com/fairseq/s2/vctk_transformer_phn.tar) |\n\n[[Back]](..)\n"
  },
  {
    "path": "examples/speech_synthesis/evaluation/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n"
  },
  {
    "path": "examples/speech_synthesis/evaluation/eval_asr.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport editdistance\nimport re\nimport shutil\nimport soundfile as sf\nimport subprocess\nfrom pathlib import Path\n\nfrom examples.speech_to_text.data_utils import load_tsv_to_dicts\n\n\ndef preprocess_text(text):\n    text = \"|\".join(re.sub(r\"[^A-Z' ]\", \" \", text.upper()).split())\n    text = \" \".join(text)\n    return text\n\n\ndef prepare_w2v_data(\n        dict_dir, sample_rate, label, audio_paths, texts, split, data_dir\n):\n    data_dir.mkdir(parents=True, exist_ok=True)\n    shutil.copyfile(\n        dict_dir / f\"dict.{label}.txt\",\n        data_dir / f\"dict.{label}.txt\"\n    )\n    with open(data_dir / f\"{split}.tsv\", \"w\") as f:\n        f.write(\"/\\n\")\n        for audio_path in audio_paths:\n            wav, sr = sf.read(audio_path)\n            assert sr == sample_rate, f\"{sr} != sample_rate\"\n            nsample = len(wav)\n            f.write(f\"{audio_path}\\t{nsample}\\n\")\n    with open(data_dir / f\"{split}.{label}\", \"w\") as f:\n        for text in texts:\n            text = preprocess_text(text)\n            f.write(f\"{text}\\n\")\n\n\ndef run_asr(asr_dir, split, w2v_ckpt, w2v_label, res_dir):\n    \"\"\"\n    results will be saved at\n    {res_dir}/{ref,hypo}.word-{w2v_ckpt.filename}-{split}.txt\n    \"\"\"\n    cmd = [\"python\", \"-m\", \"examples.speech_recognition.infer\"]\n    cmd += [str(asr_dir.resolve())]\n    cmd += [\"--task\", \"audio_finetuning\", \"--nbest\", \"1\", \"--quiet\"]\n    cmd += [\"--w2l-decoder\", \"viterbi\", \"--criterion\", \"ctc\"]\n    cmd += [\"--post-process\", \"letter\", \"--max-tokens\", \"4000000\"]\n    cmd += [\"--path\", str(w2v_ckpt.resolve()), \"--labels\", w2v_label]\n    cmd += [\"--gen-subset\", split, \"--results-path\", str(res_dir.resolve())]\n\n    print(f\"running cmd:\\n{' '.join(cmd)}\")\n    subprocess.run(cmd, check=True)\n\n\ndef compute_error_rate(hyp_wrd_path, ref_wrd_path, unit=\"word\"):\n    \"\"\"each line is \"<text> (None-<index>)\" \"\"\"\n    tokenize_line = {\n        \"word\": lambda x: re.sub(r\" \\(.*\\)$\", \"\", x.rstrip()).split(),\n        \"char\": lambda x: list(re.sub(r\" \\(.*\\)$\", \"\", x.rstrip()))\n    }.get(unit)\n    if tokenize_line is None:\n        raise ValueError(f\"{unit} not supported\")\n\n    inds = [int(re.sub(r\"\\D*(\\d*)\\D*\", r\"\\1\", line))\n            for line in open(hyp_wrd_path)]\n    hyps = [tokenize_line(line) for line in open(hyp_wrd_path)]\n    refs = [tokenize_line(line) for line in open(ref_wrd_path)]\n    assert(len(hyps) == len(refs))\n    err_rates = [\n        editdistance.eval(hyp, ref) / len(ref) for hyp, ref in zip(hyps, refs)\n    ]\n    ind_to_err_rates = {i: e for i, e in zip(inds, err_rates)}\n    return ind_to_err_rates\n\n\ndef main(args):\n    samples = load_tsv_to_dicts(args.raw_manifest)\n    ids = [\n        sample[args.id_header] if args.id_header else \"\" for sample in samples\n    ]\n    audio_paths = [sample[args.audio_header] for sample in samples]\n    texts = [sample[args.text_header] for sample in samples]\n\n    prepare_w2v_data(\n        args.w2v_dict_dir,\n        args.w2v_sample_rate,\n        args.w2v_label,\n        audio_paths,\n        texts,\n        args.split,\n        args.asr_dir\n    )\n    run_asr(args.asr_dir, args.split, args.w2v_ckpt, args.w2v_label, args.asr_dir)\n    ind_to_err_rates = compute_error_rate(\n        args.asr_dir / f\"hypo.word-{args.w2v_ckpt.name}-{args.split}.txt\",\n        args.asr_dir / f\"ref.word-{args.w2v_ckpt.name}-{args.split}.txt\",\n        args.err_unit,\n    )\n\n    uer_path = args.asr_dir / f\"uer_{args.err_unit}.{args.split}.tsv\"\n    with open(uer_path, \"w\") as f:\n        f.write(\"id\\taudio\\tuer\\n\")\n        for ind, (id_, audio_path) in enumerate(zip(ids, audio_paths)):\n            f.write(f\"{id_}\\t{audio_path}\\t{ind_to_err_rates[ind]:.4f}\\n\")\n\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--raw-manifest\", required=True, type=Path)\n    parser.add_argument(\"--asr-dir\", required=True, type=Path)\n    parser.add_argument(\"--id-header\", default=\"id\", type=str)\n    parser.add_argument(\"--audio-header\", default=\"audio\", type=str)\n    parser.add_argument(\"--text-header\", default=\"src_text\", type=str)\n    parser.add_argument(\"--split\", default=\"raw\", type=str)\n    parser.add_argument(\"--w2v-ckpt\", required=True, type=Path)\n    parser.add_argument(\"--w2v-dict-dir\", required=True, type=Path)\n    parser.add_argument(\"--w2v-sample-rate\", default=16000, type=int)\n    parser.add_argument(\"--w2v-label\", default=\"ltr\", type=str)\n    parser.add_argument(\"--err-unit\", default=\"word\", type=str)\n    args = parser.parse_args()\n\n    main(args)\n"
  },
  {
    "path": "examples/speech_synthesis/evaluation/eval_f0.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nSignal processing-based evaluation using waveforms\n\"\"\"\nimport numpy as np\nimport os.path as op\n\nimport torchaudio\nimport tqdm\nfrom tabulate import tabulate\n\nfrom examples.speech_synthesis.utils import (\n    gross_pitch_error, voicing_decision_error, f0_frame_error\n)\nfrom examples.speech_synthesis.evaluation.eval_sp import load_eval_spec\n\n\ndef difference_function(x, n, tau_max):\n    \"\"\"\n    Compute difference function of data x. This solution is implemented directly\n    with Numpy fft.\n\n\n    :param x: audio data\n    :param n: length of data\n    :param tau_max: integration window size\n    :return: difference function\n    :rtype: list\n    \"\"\"\n\n    x = np.array(x, np.float64)\n    w = x.size\n    tau_max = min(tau_max, w)\n    x_cumsum = np.concatenate((np.array([0.]), (x * x).cumsum()))\n    size = w + tau_max\n    p2 = (size // 32).bit_length()\n    nice_numbers = (16, 18, 20, 24, 25, 27, 30, 32)\n    size_pad = min(x * 2 ** p2 for x in nice_numbers if x * 2 ** p2 >= size)\n    fc = np.fft.rfft(x, size_pad)\n    conv = np.fft.irfft(fc * fc.conjugate())[:tau_max]\n    return x_cumsum[w:w - tau_max:-1] + x_cumsum[w] - x_cumsum[:tau_max] - \\\n        2 * conv\n\n\ndef cumulative_mean_normalized_difference_function(df, n):\n    \"\"\"\n    Compute cumulative mean normalized difference function (CMND).\n\n    :param df: Difference function\n    :param n: length of data\n    :return: cumulative mean normalized difference function\n    :rtype: list\n    \"\"\"\n\n    # scipy method\n    cmn_df = df[1:] * range(1, n) / np.cumsum(df[1:]).astype(float)\n    return np.insert(cmn_df, 0, 1)\n\n\ndef get_pitch(cmdf, tau_min, tau_max, harmo_th=0.1):\n    \"\"\"\n    Return fundamental period of a frame based on CMND function.\n\n    :param cmdf: Cumulative Mean Normalized Difference function\n    :param tau_min: minimum period for speech\n    :param tau_max: maximum period for speech\n    :param harmo_th: harmonicity threshold to determine if it is necessary to\n    compute pitch frequency\n    :return: fundamental period if there is values under threshold, 0 otherwise\n    :rtype: float\n    \"\"\"\n    tau = tau_min\n    while tau < tau_max:\n        if cmdf[tau] < harmo_th:\n            while tau + 1 < tau_max and cmdf[tau + 1] < cmdf[tau]:\n                tau += 1\n            return tau\n        tau += 1\n\n    return 0    # if unvoiced\n\n\ndef compute_yin(sig, sr, w_len=512, w_step=256, f0_min=100, f0_max=500,\n                harmo_thresh=0.1):\n    \"\"\"\n\n    Compute the Yin Algorithm. Return fundamental frequency and harmonic rate.\n\n    https://github.com/NVIDIA/mellotron adaption of\n    https://github.com/patriceguyot/Yin\n\n    :param sig: Audio signal (list of float)\n    :param sr: sampling rate (int)\n    :param w_len: size of the analysis window (samples)\n    :param w_step: size of the lag between two consecutives windows (samples)\n    :param f0_min: Minimum fundamental frequency that can be detected (hertz)\n    :param f0_max: Maximum fundamental frequency that can be detected (hertz)\n    :param harmo_thresh: Threshold of detection. The yalgorithmù return the\n    first minimum of the CMND function below this threshold.\n\n    :returns:\n\n        * pitches: list of fundamental frequencies,\n        * harmonic_rates: list of harmonic rate values for each fundamental\n        frequency value (= confidence value)\n        * argmins: minimums of the Cumulative Mean Normalized DifferenceFunction\n        * times: list of time of each estimation\n    :rtype: tuple\n    \"\"\"\n\n    tau_min = int(sr / f0_max)\n    tau_max = int(sr / f0_min)\n\n    # time values for each analysis window\n    time_scale = range(0, len(sig) - w_len, w_step)\n    times = [t/float(sr) for t in time_scale]\n    frames = [sig[t:t + w_len] for t in time_scale]\n\n    pitches = [0.0] * len(time_scale)\n    harmonic_rates = [0.0] * len(time_scale)\n    argmins = [0.0] * len(time_scale)\n\n    for i, frame in enumerate(frames):\n        # Compute YIN\n        df = difference_function(frame, w_len, tau_max)\n        cm_df = cumulative_mean_normalized_difference_function(df, tau_max)\n        p = get_pitch(cm_df, tau_min, tau_max, harmo_thresh)\n\n        # Get results\n        if np.argmin(cm_df) > tau_min:\n            argmins[i] = float(sr / np.argmin(cm_df))\n        if p != 0:  # A pitch was found\n            pitches[i] = float(sr / p)\n            harmonic_rates[i] = cm_df[p]\n        else:  # No pitch, but we compute a value of the harmonic rate\n            harmonic_rates[i] = min(cm_df)\n\n    return pitches, harmonic_rates, argmins, times\n\n\ndef extract_f0(samples):\n    f0_samples = []\n    for sample in tqdm.tqdm(samples):\n        if not op.isfile(sample[\"ref\"]) or not op.isfile(sample[\"syn\"]):\n            f0_samples.append(None)\n            continue\n\n        # assume single channel\n        yref, sr = torchaudio.load(sample[\"ref\"])\n        ysyn, _sr = torchaudio.load(sample[\"syn\"])\n        yref, ysyn = yref[0], ysyn[0]\n        assert sr == _sr, f\"{sr} != {_sr}\"\n\n        yref_f0 = compute_yin(yref, sr)\n        ysyn_f0 = compute_yin(ysyn, sr)\n\n        f0_samples += [\n            {\n                \"ref\": yref_f0,\n                \"syn\": ysyn_f0\n            }\n        ]\n\n    return f0_samples\n\n\ndef eval_f0_error(samples, distortion_fn):\n    results = []\n    for sample in tqdm.tqdm(samples):\n        if sample is None:\n            results.append(None)\n            continue\n        # assume single channel\n        yref_f, _, _, yref_t = sample[\"ref\"]\n        ysyn_f, _, _, ysyn_t = sample[\"syn\"]\n\n        yref_f = np.array(yref_f)\n        yref_t = np.array(yref_t)\n        ysyn_f = np.array(ysyn_f)\n        ysyn_t = np.array(ysyn_t)\n\n        distortion = distortion_fn(yref_t, yref_f, ysyn_t, ysyn_f)\n        results.append((distortion.item(),\n                        len(yref_f),\n                        len(ysyn_f)\n                        ))\n    return results\n\n\ndef eval_gross_pitch_error(samples):\n    return eval_f0_error(samples, gross_pitch_error)\n\n\ndef eval_voicing_decision_error(samples):\n    return eval_f0_error(samples, voicing_decision_error)\n\n\ndef eval_f0_frame_error(samples):\n    return eval_f0_error(samples, f0_frame_error)\n\n\ndef print_results(results, show_bin):\n    results = np.array(list(filter(lambda x: x is not None, results)))\n\n    np.set_printoptions(precision=3)\n\n    def _print_result(results):\n        res = {\n            \"nutt\": len(results),\n            \"error\": results[:, 0].mean(),\n            \"std\": results[:, 0].std(),\n            \"dur_ref\": int(results[:, 1].sum()),\n            \"dur_syn\": int(results[:, 2].sum()),\n        }\n        print(tabulate([res.values()], res.keys(), floatfmt=\".4f\"))\n\n    print(\">>>> ALL\")\n    _print_result(results)\n\n    if show_bin:\n        edges = [0, 200, 400, 600, 800, 1000, 2000, 4000]\n        for i in range(1, len(edges)):\n            mask = np.logical_and(results[:, 1] >= edges[i-1],\n                                  results[:, 1] < edges[i])\n            if not mask.any():\n                continue\n            bin_results = results[mask]\n            print(f\">>>> ({edges[i-1]}, {edges[i]})\")\n            _print_result(bin_results)\n\n\ndef main(eval_f0, gpe, vde, ffe, show_bin):\n    samples = load_eval_spec(eval_f0)\n    if gpe or vde or ffe:\n        f0_samples = extract_f0(samples)\n\n    if gpe:\n        print(\"===== Evaluate Gross Pitch Error =====\")\n        results = eval_gross_pitch_error(f0_samples)\n        print_results(results, show_bin)\n    if vde:\n        print(\"===== Evaluate Voicing Decision Error =====\")\n        results = eval_voicing_decision_error(f0_samples)\n        print_results(results, show_bin)\n    if ffe:\n        print(\"===== Evaluate F0 Frame Error =====\")\n        results = eval_f0_frame_error(f0_samples)\n        print_results(results, show_bin)\n\n\nif __name__ == \"__main__\":\n    import argparse\n\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"eval_f0\")\n    parser.add_argument(\"--gpe\", action=\"store_true\")\n    parser.add_argument(\"--vde\", action=\"store_true\")\n    parser.add_argument(\"--ffe\", action=\"store_true\")\n    parser.add_argument(\"--show-bin\", action=\"store_true\")\n    args = parser.parse_args()\n\n    main(args.eval_f0, args.gpe, args.vde, args.ffe, args.show_bin)\n"
  },
  {
    "path": "examples/speech_synthesis/evaluation/eval_sp.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\n\"\"\"\nSignal processing-based evaluation using waveforms\n\"\"\"\n\nimport csv\nimport numpy as np\nimport os.path as op\n\nimport torch\nimport tqdm\nfrom tabulate import tabulate\nimport torchaudio\n\nfrom examples.speech_synthesis.utils import batch_mel_spectral_distortion\nfrom fairseq.tasks.text_to_speech import batch_mel_cepstral_distortion\n\n\ndef load_eval_spec(path):\n    with open(path) as f:\n        reader = csv.DictReader(f, delimiter='\\t')\n        samples = list(reader)\n    return samples\n\n\ndef eval_distortion(samples, distortion_fn, device=\"cuda\"):\n    nmiss = 0\n    results = []\n    for sample in tqdm.tqdm(samples):\n        if not op.isfile(sample[\"ref\"]) or not op.isfile(sample[\"syn\"]):\n            nmiss += 1\n            results.append(None)\n            continue\n        # assume single channel\n        yref, sr = torchaudio.load(sample[\"ref\"])\n        ysyn, _sr = torchaudio.load(sample[\"syn\"])\n        yref, ysyn = yref[0].to(device), ysyn[0].to(device)\n        assert sr == _sr, f\"{sr} != {_sr}\"\n\n        distortion, extra = distortion_fn([yref], [ysyn], sr, None)[0]\n        _, _, _, _, _, pathmap = extra\n        nins = torch.sum(pathmap.sum(dim=1) - 1)  # extra frames in syn\n        ndel = torch.sum(pathmap.sum(dim=0) - 1)  # missing frames from syn\n        results.append(\n            (distortion.item(),  # path distortion\n             pathmap.size(0),  # yref num frames\n             pathmap.size(1),  # ysyn num frames\n             pathmap.sum().item(),  # path length\n             nins.item(),  # insertion\n             ndel.item(),  # deletion\n             )\n        )\n    return results\n\n\ndef eval_mel_cepstral_distortion(samples, device=\"cuda\"):\n    return eval_distortion(samples, batch_mel_cepstral_distortion, device)\n\n\ndef eval_mel_spectral_distortion(samples, device=\"cuda\"):\n    return eval_distortion(samples, batch_mel_spectral_distortion, device)\n\n\ndef print_results(results, show_bin):\n    results = np.array(list(filter(lambda x: x is not None, results)))\n\n    np.set_printoptions(precision=3)\n\n    def _print_result(results):\n        dist, dur_ref, dur_syn, dur_ali, nins, ndel = results.sum(axis=0)\n        res = {\n            \"nutt\": len(results),\n            \"dist\": dist,\n            \"dur_ref\": int(dur_ref),\n            \"dur_syn\": int(dur_syn),\n            \"dur_ali\": int(dur_ali),\n            \"dist_per_ref_frm\": dist/dur_ref,\n            \"dist_per_syn_frm\": dist/dur_syn,\n            \"dist_per_ali_frm\": dist/dur_ali,\n            \"ins\": nins/dur_ref,\n            \"del\": ndel/dur_ref,\n        }\n        print(tabulate(\n            [res.values()],\n            res.keys(),\n            floatfmt=\".4f\"\n        ))\n\n    print(\">>>> ALL\")\n    _print_result(results)\n\n    if show_bin:\n        edges = [0, 200, 400, 600, 800, 1000, 2000, 4000]\n        for i in range(1, len(edges)):\n            mask = np.logical_and(results[:, 1] >= edges[i-1],\n                                  results[:, 1] < edges[i])\n            if not mask.any():\n                continue\n            bin_results = results[mask]\n            print(f\">>>> ({edges[i-1]}, {edges[i]})\")\n            _print_result(bin_results)\n\n\ndef main(eval_spec, mcd, msd, show_bin):\n    samples = load_eval_spec(eval_spec)\n    device = \"cpu\"\n    if mcd:\n        print(\"===== Evaluate Mean Cepstral Distortion =====\")\n        results = eval_mel_cepstral_distortion(samples, device)\n        print_results(results, show_bin)\n    if msd:\n        print(\"===== Evaluate Mean Spectral Distortion =====\")\n        results = eval_mel_spectral_distortion(samples, device)\n        print_results(results, show_bin)\n\n\nif __name__ == \"__main__\":\n    import argparse\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"eval_spec\")\n    parser.add_argument(\"--mcd\", action=\"store_true\")\n    parser.add_argument(\"--msd\", action=\"store_true\")\n    parser.add_argument(\"--show-bin\", action=\"store_true\")\n    args = parser.parse_args()\n\n    main(args.eval_spec, args.mcd, args.msd, args.show_bin)\n"
  },
  {
    "path": "examples/speech_synthesis/evaluation/get_eval_manifest.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport csv\nfrom pathlib import Path\n\n\ndef main(args):\n    \"\"\"\n    `uid syn ref text`\n    \"\"\"\n    in_root = Path(args.generation_root).resolve()\n    ext = args.audio_format\n    with open(args.audio_manifest) as f, open(args.output_path, \"w\") as f_out:\n        reader = csv.DictReader(\n            f, delimiter=\"\\t\", quotechar=None, doublequote=False,\n            lineterminator=\"\\n\", quoting=csv.QUOTE_NONE\n        )\n        header = [\"id\", \"syn\", \"ref\", \"text\", \"speaker\"]\n        f_out.write(\"\\t\".join(header) + \"\\n\")\n        for row in reader:\n            dir_name = f\"{ext}_{args.sample_rate}hz_{args.vocoder}\"\n            id_ = row[\"id\"]\n            syn = (in_root / dir_name / f\"{id_}.{ext}\").as_posix()\n            ref = row[\"audio\"]\n            if args.use_resynthesized_target:\n                ref = (in_root / f\"{dir_name}_tgt\" / f\"{id_}.{ext}\").as_posix()\n            if args.eval_target:\n                syn = row[\"audio\"]\n            sample = [id_, syn, ref, row[\"tgt_text\"], row[\"speaker\"]]\n            f_out.write(\"\\t\".join(sample) + \"\\n\")\n    print(f\"wrote evaluation file to {args.output_path}\")\n\n\nif __name__ == \"__main__\":\n    import argparse\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--generation-root\",  help=\"output directory for generate_waveform.py\"\n    )\n    parser.add_argument(\n        \"--audio-manifest\",\n        help=\"used to determine the original utterance ID and text\"\n    )\n    parser.add_argument(\n        \"--output-path\", help=\"path to output evaluation spec file\"\n    )\n    parser.add_argument(\n        \"--use-resynthesized-target\", action=\"store_true\",\n        help=\"use resynthesized reference instead of the original audio\"\n    )\n    parser.add_argument(\n        \"--eval-target\", action=\"store_true\",\n        help=\"evaluate reference instead of model prediction\"\n    )\n    parser.add_argument(\"--vocoder\", type=str, default=\"griffin_lim\")\n    parser.add_argument(\"--sample-rate\", type=int, default=22_050)\n    parser.add_argument(\"--audio-format\", type=str, default=\"wav\")\n    args = parser.parse_args()\n\n    main(args)\n"
  },
  {
    "path": "examples/speech_synthesis/generate_waveform.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport ast\nimport logging\nimport matplotlib.pyplot as plt\nimport numpy as np\nfrom pathlib import Path\nimport soundfile as sf\nimport sys\nimport torch\nimport torchaudio\n\nfrom fairseq import checkpoint_utils, options, tasks, utils\nfrom fairseq.logging import progress_bar\nfrom fairseq.tasks.text_to_speech import plot_tts_output\nfrom fairseq.data.audio.text_to_speech_dataset import TextToSpeechDataset\n\n\nlogging.basicConfig()\nlogging.root.setLevel(logging.INFO)\nlogging.basicConfig(level=logging.INFO)\nlogger = logging.getLogger(__name__)\n\n\ndef make_parser():\n    parser = options.get_speech_generation_parser()\n    parser.add_argument(\"--dump-features\", action=\"store_true\")\n    parser.add_argument(\"--dump-waveforms\", action=\"store_true\")\n    parser.add_argument(\"--dump-attentions\", action=\"store_true\")\n    parser.add_argument(\"--dump-eos-probs\", action=\"store_true\")\n    parser.add_argument(\"--dump-plots\", action=\"store_true\")\n    parser.add_argument(\"--dump-target\", action=\"store_true\")\n    parser.add_argument(\"--output-sample-rate\", default=22050, type=int)\n    parser.add_argument(\"--teacher-forcing\", action=\"store_true\")\n    parser.add_argument(\n        \"--audio-format\", type=str, default=\"wav\", choices=[\"wav\", \"flac\"]\n    )\n    return parser\n\n\ndef postprocess_results(\n        dataset: TextToSpeechDataset, sample, hypos, resample_fn, dump_target\n):\n    def to_np(x):\n        return None if x is None else x.detach().cpu().numpy()\n\n    sample_ids = [dataset.ids[i] for i in sample[\"id\"].tolist()]\n    texts = sample[\"src_texts\"] if \"src_texts\" in sample else [\"\"] * len(hypos)\n    attns = [to_np(hypo[\"attn\"]) for hypo in hypos]\n    eos_probs = [to_np(hypo.get(\"eos_prob\", None)) for hypo in hypos]\n    feat_preds = [to_np(hypo[\"feature\"]) for hypo in hypos]\n    wave_preds = [to_np(resample_fn(h[\"waveform\"])) for h in hypos]\n    if dump_target:\n        feat_targs = [to_np(hypo[\"targ_feature\"]) for hypo in hypos]\n        wave_targs = [to_np(resample_fn(h[\"targ_waveform\"])) for h in hypos]\n    else:\n        feat_targs = [None for _ in hypos]\n        wave_targs = [None for _ in hypos]\n\n    return zip(sample_ids, texts, attns, eos_probs, feat_preds, wave_preds,\n               feat_targs, wave_targs)\n\n\ndef dump_result(\n        is_na_model,\n        args,\n        vocoder,\n        sample_id,\n        text,\n        attn,\n        eos_prob,\n        feat_pred,\n        wave_pred,\n        feat_targ,\n        wave_targ,\n):\n    sample_rate = args.output_sample_rate\n    out_root = Path(args.results_path)\n    if args.dump_features:\n        feat_dir = out_root / \"feat\"\n        feat_dir.mkdir(exist_ok=True, parents=True)\n        np.save(feat_dir / f\"{sample_id}.npy\", feat_pred)\n        if args.dump_target:\n            feat_tgt_dir = out_root / \"feat_tgt\"\n            feat_tgt_dir.mkdir(exist_ok=True, parents=True)\n            np.save(feat_tgt_dir / f\"{sample_id}.npy\", feat_targ)\n    if args.dump_attentions:\n        attn_dir = out_root / \"attn\"\n        attn_dir.mkdir(exist_ok=True, parents=True)\n        np.save(attn_dir / f\"{sample_id}.npy\", attn.numpy())\n    if args.dump_eos_probs and not is_na_model:\n        eos_dir = out_root / \"eos\"\n        eos_dir.mkdir(exist_ok=True, parents=True)\n        np.save(eos_dir / f\"{sample_id}.npy\", eos_prob)\n\n    if args.dump_plots:\n        images = [feat_pred.T] if is_na_model else [feat_pred.T, attn]\n        names = [\"output\"] if is_na_model else [\"output\", \"alignment\"]\n        if feat_targ is not None:\n            images = [feat_targ.T] + images\n            names = [f\"target (idx={sample_id})\"] + names\n        if is_na_model:\n            plot_tts_output(images, names, attn, \"alignment\", suptitle=text)\n        else:\n            plot_tts_output(images, names, eos_prob, \"eos prob\", suptitle=text)\n        plot_dir = out_root / \"plot\"\n        plot_dir.mkdir(exist_ok=True, parents=True)\n        plt.savefig(plot_dir / f\"{sample_id}.png\")\n        plt.close()\n\n    if args.dump_waveforms:\n        ext = args.audio_format\n        if wave_pred is not None:\n            wav_dir = out_root / f\"{ext}_{sample_rate}hz_{vocoder}\"\n            wav_dir.mkdir(exist_ok=True, parents=True)\n            sf.write(wav_dir / f\"{sample_id}.{ext}\", wave_pred, sample_rate)\n        if args.dump_target and wave_targ is not None:\n            wav_tgt_dir = out_root / f\"{ext}_{sample_rate}hz_{vocoder}_tgt\"\n            wav_tgt_dir.mkdir(exist_ok=True, parents=True)\n            sf.write(wav_tgt_dir / f\"{sample_id}.{ext}\", wave_targ, sample_rate)\n\n\ndef main(args):\n    assert(args.dump_features or args.dump_waveforms or args.dump_attentions\n           or args.dump_eos_probs or args.dump_plots)\n    if args.max_tokens is None and args.batch_size is None:\n        args.max_tokens = 8000\n    logger.info(args)\n\n    use_cuda = torch.cuda.is_available() and not args.cpu\n    task = tasks.setup_task(args)\n    models, saved_cfg, task = checkpoint_utils.load_model_ensemble_and_task(\n        [args.path],\n        task=task,\n        arg_overrides=ast.literal_eval(args.model_overrides),\n    )\n    model = models[0].cuda() if use_cuda else models[0]\n    # use the original n_frames_per_step\n    task.args.n_frames_per_step = saved_cfg.task.n_frames_per_step\n    task.load_dataset(args.gen_subset, task_cfg=saved_cfg.task)\n\n    data_cfg = task.data_cfg\n    sample_rate = data_cfg.config.get(\"features\", {}).get(\"sample_rate\", 22050)\n    resample_fn = {\n        False: lambda x: x,\n        True: lambda x: torchaudio.sox_effects.apply_effects_tensor(\n            x.detach().cpu().unsqueeze(0), sample_rate,\n            [['rate', str(args.output_sample_rate)]]\n        )[0].squeeze(0)\n    }.get(args.output_sample_rate != sample_rate)\n    if args.output_sample_rate != sample_rate:\n        logger.info(f\"resampling to {args.output_sample_rate}Hz\")\n\n    generator = task.build_generator([model], args)\n    itr = task.get_batch_iterator(\n        dataset=task.dataset(args.gen_subset),\n        max_tokens=args.max_tokens,\n        max_sentences=args.batch_size,\n        max_positions=(sys.maxsize, sys.maxsize),\n        ignore_invalid_inputs=args.skip_invalid_size_inputs_valid_test,\n        required_batch_size_multiple=args.required_batch_size_multiple,\n        num_shards=args.num_shards,\n        shard_id=args.shard_id,\n        num_workers=args.num_workers,\n        data_buffer_size=args.data_buffer_size,\n    ).next_epoch_itr(shuffle=False)\n\n    Path(args.results_path).mkdir(exist_ok=True, parents=True)\n    is_na_model = getattr(model, \"NON_AUTOREGRESSIVE\", False)\n    dataset = task.dataset(args.gen_subset)\n    vocoder = task.args.vocoder\n    with progress_bar.build_progress_bar(args, itr) as t:\n        for sample in t:\n            sample = utils.move_to_cuda(sample) if use_cuda else sample\n            hypos = generator.generate(model, sample, has_targ=args.dump_target)\n            for result in postprocess_results(\n                    dataset, sample, hypos, resample_fn, args.dump_target\n            ):\n                dump_result(is_na_model, args, vocoder, *result)\n\n\ndef cli_main():\n    parser = make_parser()\n    args = options.parse_args_and_arch(parser)\n    main(args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/speech_synthesis/preprocessing/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n"
  },
  {
    "path": "examples/speech_synthesis/preprocessing/denoise_and_vad_audio.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nimport os\nimport csv\nimport tempfile\nfrom collections import defaultdict\nfrom pathlib import Path\n\nimport torchaudio\ntry:\n    import webrtcvad\nexcept ImportError:\n    raise ImportError(\"Please install py-webrtcvad: pip install webrtcvad\")\nimport pandas as pd\nfrom tqdm import tqdm\n\nfrom examples.speech_synthesis.preprocessing.denoiser.pretrained import master64\nimport examples.speech_synthesis.preprocessing.denoiser.utils as utils\nfrom examples.speech_synthesis.preprocessing.vad import (\n    frame_generator, vad_collector, read_wave, write_wave, FS_MS, THRESHOLD,\n    SCALE\n)\nfrom examples.speech_to_text.data_utils import save_df_to_tsv\n\n\nlog = logging.getLogger(__name__)\n\nPATHS = [\"after_denoise\", \"after_vad\"]\nMIN_T = 0.05\n\n\ndef generate_tmp_filename(extension=\"txt\"):\n    return tempfile._get_default_tempdir() + \"/\" + \\\n           next(tempfile._get_candidate_names()) + \".\" + extension\n\n\ndef convert_sr(inpath, sr, output_path=None):\n    if not output_path:\n        output_path = generate_tmp_filename(\"wav\")\n    cmd = f\"sox {inpath} -r {sr} {output_path}\"\n    os.system(cmd)\n    return output_path\n\n\ndef apply_vad(vad, inpath):\n    audio, sample_rate = read_wave(inpath)\n    frames = frame_generator(FS_MS, audio, sample_rate)\n    frames = list(frames)\n    segments = vad_collector(sample_rate, FS_MS, 300, vad, frames)\n    merge_segments = list()\n    timestamp_start = 0.0\n    timestamp_end = 0.0\n    # removing start, end, and long sequences of sils\n    for i, segment in enumerate(segments):\n        merge_segments.append(segment[0])\n        if i and timestamp_start:\n            sil_duration = segment[1] - timestamp_end\n            if sil_duration > THRESHOLD:\n                merge_segments.append(int(THRESHOLD / SCALE) * (b'\\x00'))\n            else:\n                merge_segments.append(int((sil_duration / SCALE)) * (b'\\x00'))\n        timestamp_start = segment[1]\n        timestamp_end = segment[2]\n    segment = b''.join(merge_segments)\n    return segment, sample_rate\n\n\ndef write(wav, filename, sr=16_000):\n    # Normalize audio if it prevents clipping\n    wav = wav / max(wav.abs().max().item(), 1)\n    torchaudio.save(filename, wav.cpu(), sr, encoding=\"PCM_S\",\n                    bits_per_sample=16)\n\n\ndef process(args):\n    # making sure we are requested either denoise or vad\n    if not args.denoise and not args.vad:\n        log.error(\"No denoise or vad is requested.\")\n        return\n\n    log.info(\"Creating out directories...\")\n    if args.denoise:\n        out_denoise = Path(args.output_dir).absolute().joinpath(PATHS[0])\n        out_denoise.mkdir(parents=True, exist_ok=True)\n    if args.vad:\n        out_vad = Path(args.output_dir).absolute().joinpath(PATHS[1])\n        out_vad.mkdir(parents=True, exist_ok=True)\n\n    log.info(\"Loading pre-trained speech enhancement model...\")\n    model = master64().to(args.device)\n\n    log.info(\"Building the VAD model...\")\n    vad = webrtcvad.Vad(int(args.vad_agg_level))\n\n    # preparing the output dict\n    output_dict = defaultdict(list)\n\n    log.info(f\"Parsing input manifest: {args.audio_manifest}\")\n    with open(args.audio_manifest, \"r\") as f:\n        manifest_dict = csv.DictReader(f, delimiter=\"\\t\")\n        for row in tqdm(manifest_dict):\n            filename = str(row[\"audio\"])\n\n            final_output = filename\n            keep_sample = True\n            n_frames = row[\"n_frames\"]\n            snr = -1\n            if args.denoise:\n                output_path_denoise = out_denoise.joinpath(Path(filename).name)\n                # convert to 16khz in case we use a differet sr\n                tmp_path = convert_sr(final_output, 16000)\n\n                # loading audio file and generating the enhanced version\n                out, sr = torchaudio.load(tmp_path)\n                out = out.to(args.device)\n                estimate = model(out)\n                estimate = (1 - args.dry_wet) * estimate + args.dry_wet * out\n                write(estimate[0], str(output_path_denoise), sr)\n\n                snr = utils.cal_snr(out, estimate)\n                snr = snr.cpu().detach().numpy()[0][0]\n                final_output = str(output_path_denoise)\n\n            if args.vad:\n                output_path_vad = out_vad.joinpath(Path(filename).name)\n                sr = torchaudio.info(final_output).sample_rate\n                if sr in [16000, 32000, 48000]:\n                    tmp_path = final_output\n                elif sr < 16000:\n                    tmp_path = convert_sr(final_output, 16000)\n                elif sr < 32000:\n                    tmp_path = convert_sr(final_output, 32000)\n                else:\n                    tmp_path = convert_sr(final_output, 48000)\n                # apply VAD\n                segment, sample_rate = apply_vad(vad, tmp_path)\n                if len(segment) < sample_rate * MIN_T:\n                    keep_sample = False\n                    print((\n                        f\"WARNING: skip {filename} because it is too short \"\n                        f\"after VAD ({len(segment) / sample_rate} < {MIN_T})\"\n                    ))\n                else:\n                    if sample_rate != sr:\n                        tmp_path = generate_tmp_filename(\"wav\")\n                        write_wave(tmp_path, segment, sample_rate)\n                        convert_sr(tmp_path, sr,\n                                   output_path=str(output_path_vad))\n                    else:\n                        write_wave(str(output_path_vad), segment, sample_rate)\n                    final_output = str(output_path_vad)\n                    segment, _ = torchaudio.load(final_output)\n                    n_frames = segment.size(1)\n\n            if keep_sample:\n                output_dict[\"id\"].append(row[\"id\"])\n                output_dict[\"audio\"].append(final_output)\n                output_dict[\"n_frames\"].append(n_frames)\n                output_dict[\"tgt_text\"].append(row[\"tgt_text\"])\n                output_dict[\"speaker\"].append(row[\"speaker\"])\n                output_dict[\"src_text\"].append(row[\"src_text\"])\n                output_dict[\"snr\"].append(snr)\n\n        out_tsv_path = Path(args.output_dir) / Path(args.audio_manifest).name\n        log.info(f\"Saving manifest to {out_tsv_path.as_posix()}\")\n        save_df_to_tsv(pd.DataFrame.from_dict(output_dict), out_tsv_path)\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--audio-manifest\", \"-i\", required=True,\n                        type=str, help=\"path to the input manifest.\")\n    parser.add_argument(\n        \"--output-dir\", \"-o\", required=True, type=str,\n        help=\"path to the output dir. it will contain files after denoising and\"\n             \" vad\"\n    )\n    parser.add_argument(\"--vad-agg-level\", \"-a\", type=int, default=2,\n                        help=\"the aggresive level of the vad [0-3].\")\n    parser.add_argument(\n        \"--dry-wet\", \"-dw\", type=float, default=0.01,\n        help=\"the level of linear interpolation between noisy and enhanced \"\n             \"files.\"\n    )\n    parser.add_argument(\n        \"--device\", \"-d\", type=str, default=\"cpu\",\n        help=\"the device to be used for the speech enhancement model: \"\n             \"cpu | cuda.\"\n    )\n    parser.add_argument(\"--denoise\", action=\"store_true\",\n                        help=\"apply a denoising\")\n    parser.add_argument(\"--vad\", action=\"store_true\", help=\"apply a VAD\")\n    args = parser.parse_args()\n\n    process(args)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_synthesis/preprocessing/denoiser/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n"
  },
  {
    "path": "examples/speech_synthesis/preprocessing/denoiser/demucs.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n# author: adefossez\n\nimport math\nimport time\n\nimport torch as th\nfrom torch import nn\nfrom torch.nn import functional as F\n\nfrom .resample import downsample2, upsample2\nfrom .utils import capture_init\n\n\nclass BLSTM(nn.Module):\n    def __init__(self, dim, layers=2, bi=True):\n        super().__init__()\n        klass = nn.LSTM\n        self.lstm = klass(\n            bidirectional=bi, num_layers=layers, hidden_size=dim, input_size=dim\n        )\n        self.linear = None\n        if bi:\n            self.linear = nn.Linear(2 * dim, dim)\n\n    def forward(self, x, hidden=None):\n        x, hidden = self.lstm(x, hidden)\n        if self.linear:\n            x = self.linear(x)\n        return x, hidden\n\n\ndef rescale_conv(conv, reference):\n    std = conv.weight.std().detach()\n    scale = (std / reference)**0.5\n    conv.weight.data /= scale\n    if conv.bias is not None:\n        conv.bias.data /= scale\n\n\ndef rescale_module(module, reference):\n    for sub in module.modules():\n        if isinstance(sub, (nn.Conv1d, nn.ConvTranspose1d)):\n            rescale_conv(sub, reference)\n\n\nclass Demucs(nn.Module):\n    \"\"\"\n    Demucs speech enhancement model.\n    Args:\n        - chin (int): number of input channels.\n        - chout (int): number of output channels.\n        - hidden (int): number of initial hidden channels.\n        - depth (int): number of layers.\n        - kernel_size (int): kernel size for each layer.\n        - stride (int): stride for each layer.\n        - causal (bool): if false, uses BiLSTM instead of LSTM.\n        - resample (int): amount of resampling to apply to the input/output.\n            Can be one of 1, 2 or 4.\n        - growth (float): number of channels is multiplied by this for every layer.\n        - max_hidden (int): maximum number of channels. Can be useful to\n            control the size/speed of the model.\n        - normalize (bool): if true, normalize the input.\n        - glu (bool): if true uses GLU instead of ReLU in 1x1 convolutions.\n        - rescale (float): controls custom weight initialization.\n            See https://arxiv.org/abs/1911.13254.\n        - floor (float): stability flooring when normalizing.\n\n    \"\"\"\n    @capture_init\n    def __init__(self,\n                 chin=1,\n                 chout=1,\n                 hidden=48,\n                 depth=5,\n                 kernel_size=8,\n                 stride=4,\n                 causal=True,\n                 resample=4,\n                 growth=2,\n                 max_hidden=10_000,\n                 normalize=True,\n                 glu=True,\n                 rescale=0.1,\n                 floor=1e-3):\n\n        super().__init__()\n        if resample not in [1, 2, 4]:\n            raise ValueError(\"Resample should be 1, 2 or 4.\")\n\n        self.chin = chin\n        self.chout = chout\n        self.hidden = hidden\n        self.depth = depth\n        self.kernel_size = kernel_size\n        self.stride = stride\n        self.causal = causal\n        self.floor = floor\n        self.resample = resample\n        self.normalize = normalize\n\n        self.encoder = nn.ModuleList()\n        self.decoder = nn.ModuleList()\n        activation = nn.GLU(1) if glu else nn.ReLU()\n        ch_scale = 2 if glu else 1\n\n        for index in range(depth):\n            encode = []\n            encode += [\n                nn.Conv1d(chin, hidden, kernel_size, stride),\n                nn.ReLU(),\n                nn.Conv1d(hidden, hidden * ch_scale, 1), activation,\n            ]\n            self.encoder.append(nn.Sequential(*encode))\n\n            decode = []\n            decode += [\n                nn.Conv1d(hidden, ch_scale * hidden, 1), activation,\n                nn.ConvTranspose1d(hidden, chout, kernel_size, stride),\n            ]\n            if index > 0:\n                decode.append(nn.ReLU())\n            self.decoder.insert(0, nn.Sequential(*decode))\n            chout = hidden\n            chin = hidden\n            hidden = min(int(growth * hidden), max_hidden)\n\n        self.lstm = BLSTM(chin, bi=not causal)\n        if rescale:\n            rescale_module(self, reference=rescale)\n\n    def valid_length(self, length):\n        \"\"\"\n        Return the nearest valid length to use with the model so that\n        there is no time steps left over in a convolutions, e.g. for all\n        layers, size of the input - kernel_size % stride = 0.\n\n        If the mixture has a valid length, the estimated sources\n        will have exactly the same length.\n        \"\"\"\n        length = math.ceil(length * self.resample)\n        for _ in range(self.depth):\n            length = math.ceil((length - self.kernel_size) / self.stride) + 1\n            length = max(length, 1)\n        for _ in range(self.depth):\n            length = (length - 1) * self.stride + self.kernel_size\n        length = int(math.ceil(length / self.resample))\n        return int(length)\n\n    @property\n    def total_stride(self):\n        return self.stride ** self.depth // self.resample\n\n    def forward(self, mix):\n        if mix.dim() == 2:\n            mix = mix.unsqueeze(1)\n\n        if self.normalize:\n            mono = mix.mean(dim=1, keepdim=True)\n            std = mono.std(dim=-1, keepdim=True)\n            mix = mix / (self.floor + std)\n        else:\n            std = 1\n        length = mix.shape[-1]\n        x = mix\n        x = F.pad(x, (0, self.valid_length(length) - length))\n        if self.resample == 2:\n            x = upsample2(x)\n        elif self.resample == 4:\n            x = upsample2(x)\n            x = upsample2(x)\n        skips = []\n        for encode in self.encoder:\n            x = encode(x)\n            skips.append(x)\n        x = x.permute(2, 0, 1)\n        x, _ = self.lstm(x)\n        x = x.permute(1, 2, 0)\n        for decode in self.decoder:\n            skip = skips.pop(-1)\n            x = x + skip[..., :x.shape[-1]]\n            x = decode(x)\n        if self.resample == 2:\n            x = downsample2(x)\n        elif self.resample == 4:\n            x = downsample2(x)\n            x = downsample2(x)\n\n        x = x[..., :length]\n        return std * x\n\n\ndef fast_conv(conv, x):\n    \"\"\"\n    Faster convolution evaluation if either kernel size is 1\n    or length of sequence is 1.\n    \"\"\"\n    batch, chin, length = x.shape\n    chout, chin, kernel = conv.weight.shape\n    assert batch == 1\n    if kernel == 1:\n        x = x.view(chin, length)\n        out = th.addmm(conv.bias.view(-1, 1),\n                       conv.weight.view(chout, chin), x)\n    elif length == kernel:\n        x = x.view(chin * kernel, 1)\n        out = th.addmm(conv.bias.view(-1, 1),\n                       conv.weight.view(chout, chin * kernel), x)\n    else:\n        out = conv(x)\n    return out.view(batch, chout, -1)\n\n\nclass DemucsStreamer:\n    \"\"\"\n    Streaming implementation for Demucs. It supports being fed with any amount\n    of audio at a time. You will get back as much audio as possible at that\n    point.\n\n    Args:\n        - demucs (Demucs): Demucs model.\n        - dry (float): amount of dry (e.g. input) signal to keep. 0 is maximum\n            noise removal, 1 just returns the input signal. Small values > 0\n            allows to limit distortions.\n        - num_frames (int): number of frames to process at once. Higher values\n            will increase overall latency but improve the real time factor.\n        - resample_lookahead (int): extra lookahead used for the resampling.\n        - resample_buffer (int): size of the buffer of previous inputs/outputs\n            kept for resampling.\n    \"\"\"\n    def __init__(self, demucs,\n                 dry=0,\n                 num_frames=1,\n                 resample_lookahead=64,\n                 resample_buffer=256):\n        device = next(iter(demucs.parameters())).device\n        self.demucs = demucs\n        self.lstm_state = None\n        self.conv_state = None\n        self.dry = dry\n        self.resample_lookahead = resample_lookahead\n        resample_buffer = min(demucs.total_stride, resample_buffer)\n        self.resample_buffer = resample_buffer\n        self.frame_length = demucs.valid_length(1) + \\\n            demucs.total_stride * (num_frames - 1)\n        self.total_length = self.frame_length + self.resample_lookahead\n        self.stride = demucs.total_stride * num_frames\n        self.resample_in = th.zeros(demucs.chin, resample_buffer, device=device)\n        self.resample_out = th.zeros(\n            demucs.chin, resample_buffer, device=device\n        )\n\n        self.frames = 0\n        self.total_time = 0\n        self.variance = 0\n        self.pending = th.zeros(demucs.chin, 0, device=device)\n\n        bias = demucs.decoder[0][2].bias\n        weight = demucs.decoder[0][2].weight\n        chin, chout, kernel = weight.shape\n        self._bias = bias.view(-1, 1).repeat(1, kernel).view(-1, 1)\n        self._weight = weight.permute(1, 2, 0).contiguous()\n\n    def reset_time_per_frame(self):\n        self.total_time = 0\n        self.frames = 0\n\n    @property\n    def time_per_frame(self):\n        return self.total_time / self.frames\n\n    def flush(self):\n        \"\"\"\n        Flush remaining audio by padding it with zero. Call this\n        when you have no more input and want to get back the last chunk of audio.\n        \"\"\"\n        pending_length = self.pending.shape[1]\n        padding = th.zeros(\n            self.demucs.chin, self.total_length, device=self.pending.device\n        )\n        out = self.feed(padding)\n        return out[:, :pending_length]\n\n    def feed(self, wav):\n        \"\"\"\n        Apply the model to mix using true real time evaluation.\n        Normalization is done online as is the resampling.\n        \"\"\"\n        begin = time.time()\n        demucs = self.demucs\n        resample_buffer = self.resample_buffer\n        stride = self.stride\n        resample = demucs.resample\n\n        if wav.dim() != 2:\n            raise ValueError(\"input wav should be two dimensional.\")\n        chin, _ = wav.shape\n        if chin != demucs.chin:\n            raise ValueError(f\"Expected {demucs.chin} channels, got {chin}\")\n\n        self.pending = th.cat([self.pending, wav], dim=1)\n        outs = []\n        while self.pending.shape[1] >= self.total_length:\n            self.frames += 1\n            frame = self.pending[:, :self.total_length]\n            dry_signal = frame[:, :stride]\n            if demucs.normalize:\n                mono = frame.mean(0)\n                variance = (mono**2).mean()\n                self.variance = variance / self.frames + \\\n                    (1 - 1 / self.frames) * self.variance\n                frame = frame / (demucs.floor + math.sqrt(self.variance))\n            frame = th.cat([self.resample_in, frame], dim=-1)\n            self.resample_in[:] = frame[:, stride - resample_buffer:stride]\n\n            if resample == 4:\n                frame = upsample2(upsample2(frame))\n            elif resample == 2:\n                frame = upsample2(frame)\n            # remove pre sampling buffer\n            frame = frame[:, resample * resample_buffer:]\n            # remove extra samples after window\n            frame = frame[:, :resample * self.frame_length]\n\n            out, extra = self._separate_frame(frame)\n            padded_out = th.cat([self.resample_out, out, extra], 1)\n            self.resample_out[:] = out[:, -resample_buffer:]\n            if resample == 4:\n                out = downsample2(downsample2(padded_out))\n            elif resample == 2:\n                out = downsample2(padded_out)\n            else:\n                out = padded_out\n\n            out = out[:, resample_buffer // resample:]\n            out = out[:, :stride]\n\n            if demucs.normalize:\n                out *= math.sqrt(self.variance)\n            out = self.dry * dry_signal + (1 - self.dry) * out\n            outs.append(out)\n            self.pending = self.pending[:, stride:]\n\n        self.total_time += time.time() - begin\n        if outs:\n            out = th.cat(outs, 1)\n        else:\n            out = th.zeros(chin, 0, device=wav.device)\n        return out\n\n    def _separate_frame(self, frame):\n        demucs = self.demucs\n        skips = []\n        next_state = []\n        first = self.conv_state is None\n        stride = self.stride * demucs.resample\n        x = frame[None]\n        for idx, encode in enumerate(demucs.encoder):\n            stride //= demucs.stride\n            length = x.shape[2]\n            if idx == demucs.depth - 1:\n                # This is sligthly faster for the last conv\n                x = fast_conv(encode[0], x)\n                x = encode[1](x)\n                x = fast_conv(encode[2], x)\n                x = encode[3](x)\n            else:\n                if not first:\n                    prev = self.conv_state.pop(0)\n                    prev = prev[..., stride:]\n                    tgt = (length - demucs.kernel_size) // demucs.stride + 1\n                    missing = tgt - prev.shape[-1]\n                    offset = length - demucs.kernel_size - \\\n                        demucs.stride * (missing - 1)\n                    x = x[..., offset:]\n                x = encode[1](encode[0](x))\n                x = fast_conv(encode[2], x)\n                x = encode[3](x)\n                if not first:\n                    x = th.cat([prev, x], -1)\n                next_state.append(x)\n            skips.append(x)\n\n        x = x.permute(2, 0, 1)\n        x, self.lstm_state = demucs.lstm(x, self.lstm_state)\n        x = x.permute(1, 2, 0)\n        # In the following, x contains only correct samples, i.e. the one\n        # for which each time position is covered by two window of the upper\n        # layer. extra contains extra samples to the right, and is used only as\n        # a better padding for the online resampling.\n        extra = None\n        for idx, decode in enumerate(demucs.decoder):\n            skip = skips.pop(-1)\n            x += skip[..., :x.shape[-1]]\n            x = fast_conv(decode[0], x)\n            x = decode[1](x)\n\n            if extra is not None:\n                skip = skip[..., x.shape[-1]:]\n                extra += skip[..., :extra.shape[-1]]\n                extra = decode[2](decode[1](decode[0](extra)))\n            x = decode[2](x)\n            next_state.append(\n                x[..., -demucs.stride:] - decode[2].bias.view(-1, 1)\n            )\n            if extra is None:\n                extra = x[..., -demucs.stride:]\n            else:\n                extra[..., :demucs.stride] += next_state[-1]\n            x = x[..., :-demucs.stride]\n\n            if not first:\n                prev = self.conv_state.pop(0)\n                x[..., :demucs.stride] += prev\n            if idx != demucs.depth - 1:\n                x = decode[3](x)\n                extra = decode[3](extra)\n        self.conv_state = next_state\n        return x[0], extra[0]\n\n\ndef test():\n    import argparse\n    parser = argparse.ArgumentParser(\n        \"denoiser.demucs\",\n        description=\"Benchmark the streaming Demucs implementation, as well as \"\n                    \"checking the delta with the offline implementation.\")\n    parser.add_argument(\"--depth\", default=5, type=int)\n    parser.add_argument(\"--resample\", default=4, type=int)\n    parser.add_argument(\"--hidden\", default=48, type=int)\n    parser.add_argument(\"--sample_rate\", default=16000, type=float)\n    parser.add_argument(\"--device\", default=\"cpu\")\n    parser.add_argument(\"-t\", \"--num_threads\", type=int)\n    parser.add_argument(\"-f\", \"--num_frames\", type=int, default=1)\n    args = parser.parse_args()\n    if args.num_threads:\n        th.set_num_threads(args.num_threads)\n    sr = args.sample_rate\n    sr_ms = sr / 1000\n    demucs = Demucs(\n        depth=args.depth, hidden=args.hidden, resample=args.resample\n    ).to(args.device)\n    x = th.randn(1, int(sr * 4)).to(args.device)\n    out = demucs(x[None])[0]\n    streamer = DemucsStreamer(demucs, num_frames=args.num_frames)\n    out_rt = []\n    frame_size = streamer.total_length\n    with th.no_grad():\n        while x.shape[1] > 0:\n            out_rt.append(streamer.feed(x[:, :frame_size]))\n            x = x[:, frame_size:]\n            frame_size = streamer.demucs.total_stride\n    out_rt.append(streamer.flush())\n    out_rt = th.cat(out_rt, 1)\n    model_size = sum(p.numel() for p in demucs.parameters()) * 4 / 2**20\n    initial_lag = streamer.total_length / sr_ms\n    tpf = 1000 * streamer.time_per_frame\n    print(f\"model size: {model_size:.1f}MB, \", end='')\n    print(f\"delta batch/streaming: {th.norm(out - out_rt) / th.norm(out):.2%}\")\n    print(f\"initial lag: {initial_lag:.1f}ms, \", end='')\n    print(f\"stride: {streamer.stride * args.num_frames / sr_ms:.1f}ms\")\n    print(f\"time per frame: {tpf:.1f}ms, \", end='')\n    rtf = (1000 * streamer.time_per_frame) / (streamer.stride / sr_ms)\n    print(f\"RTF: {rtf:.2f}\")\n    print(f\"Total lag with computation: {initial_lag + tpf:.1f}ms\")\n\n\nif __name__ == \"__main__\":\n    test()\n"
  },
  {
    "path": "examples/speech_synthesis/preprocessing/denoiser/pretrained.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n# author: adefossez\n\nimport logging\n\nimport torch.hub\n\nfrom .demucs import Demucs\nfrom .utils import deserialize_model\n\nlogger = logging.getLogger(__name__)\nROOT = \"https://dl.fbaipublicfiles.com/adiyoss/denoiser/\"\nDNS_48_URL = ROOT + \"dns48-11decc9d8e3f0998.th\"\nDNS_64_URL = ROOT + \"dns64-a7761ff99a7d5bb6.th\"\nMASTER_64_URL = ROOT + \"master64-8a5dfb4bb92753dd.th\"\n\n\ndef _demucs(pretrained, url, **kwargs):\n    model = Demucs(**kwargs)\n    if pretrained:\n        state_dict = torch.hub.load_state_dict_from_url(url, map_location='cpu')\n        model.load_state_dict(state_dict)\n    return model\n\n\ndef dns48(pretrained=True):\n    return _demucs(pretrained, DNS_48_URL, hidden=48)\n\n\ndef dns64(pretrained=True):\n    return _demucs(pretrained, DNS_64_URL, hidden=64)\n\n\ndef master64(pretrained=True):\n    return _demucs(pretrained, MASTER_64_URL, hidden=64)\n\n\ndef add_model_flags(parser):\n    group = parser.add_mutually_exclusive_group(required=False)\n    group.add_argument(\n        \"-m\", \"--model_path\", help=\"Path to local trained model.\"\n    )\n    group.add_argument(\n        \"--dns48\", action=\"store_true\",\n        help=\"Use pre-trained real time H=48 model trained on DNS.\"\n    )\n    group.add_argument(\n        \"--dns64\", action=\"store_true\",\n        help=\"Use pre-trained real time H=64 model trained on DNS.\"\n    )\n    group.add_argument(\n        \"--master64\", action=\"store_true\",\n        help=\"Use pre-trained real time H=64 model trained on DNS and Valentini.\"\n    )\n\n\ndef get_model(args):\n    \"\"\"\n    Load local model package or torchhub pre-trained model.\n    \"\"\"\n    if args.model_path:\n        logger.info(\"Loading model from %s\", args.model_path)\n        pkg = torch.load(args.model_path)\n        model = deserialize_model(pkg)\n    elif args.dns64:\n        logger.info(\"Loading pre-trained real time H=64 model trained on DNS.\")\n        model = dns64()\n    elif args.master64:\n        logger.info(\n            \"Loading pre-trained real time H=64 model trained on DNS and Valentini.\"\n        )\n        model = master64()\n    else:\n        logger.info(\"Loading pre-trained real time H=48 model trained on DNS.\")\n        model = dns48()\n    logger.debug(model)\n    return model\n"
  },
  {
    "path": "examples/speech_synthesis/preprocessing/denoiser/resample.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n# author: adefossez\n\nimport math\n\nimport torch as th\nfrom torch.nn import functional as F\n\n\ndef sinc(t):\n    \"\"\"sinc.\n\n    :param t: the input tensor\n    \"\"\"\n    return th.where(t == 0, th.tensor(1., device=t.device, dtype=t.dtype),\n                    th.sin(t) / t)\n\n\ndef kernel_upsample2(zeros=56):\n    \"\"\"kernel_upsample2.\n\n    \"\"\"\n    win = th.hann_window(4 * zeros + 1, periodic=False)\n    winodd = win[1::2]\n    t = th.linspace(-zeros + 0.5, zeros - 0.5, 2 * zeros)\n    t *= math.pi\n    kernel = (sinc(t) * winodd).view(1, 1, -1)\n    return kernel\n\n\ndef upsample2(x, zeros=56):\n    \"\"\"\n    Upsampling the input by 2 using sinc interpolation.\n    Smith, Julius, and Phil Gossett. \"A flexible sampling-rate conversion method.\"\n    ICASSP'84. IEEE International Conference on Acoustics, Speech, and Signal Processing.\n    Vol. 9. IEEE, 1984.\n    \"\"\"\n    *other, time = x.shape\n    kernel = kernel_upsample2(zeros).to(x)\n    out = F.conv1d(x.view(-1, 1, time), kernel, padding=zeros)[..., 1:].view(\n        *other, time\n    )\n    y = th.stack([x, out], dim=-1)\n    return y.view(*other, -1)\n\n\ndef kernel_downsample2(zeros=56):\n    \"\"\"kernel_downsample2.\n\n    \"\"\"\n    win = th.hann_window(4 * zeros + 1, periodic=False)\n    winodd = win[1::2]\n    t = th.linspace(-zeros + 0.5, zeros - 0.5, 2 * zeros)\n    t.mul_(math.pi)\n    kernel = (sinc(t) * winodd).view(1, 1, -1)\n    return kernel\n\n\ndef downsample2(x, zeros=56):\n    \"\"\"\n    Downsampling the input by 2 using sinc interpolation.\n    Smith, Julius, and Phil Gossett. \"A flexible sampling-rate conversion method.\"\n    ICASSP'84. IEEE International Conference on Acoustics, Speech, and Signal Processing.\n    Vol. 9. IEEE, 1984.\n    \"\"\"\n    if x.shape[-1] % 2 != 0:\n        x = F.pad(x, (0, 1))\n    xeven = x[..., ::2]\n    xodd = x[..., 1::2]\n    *other, time = xodd.shape\n    kernel = kernel_downsample2(zeros).to(x)\n    out = xeven + F.conv1d(\n        xodd.view(-1, 1, time), kernel, padding=zeros\n    )[..., :-1].view(*other, time)\n    return out.view(*other, -1).mul(0.5)\n"
  },
  {
    "path": "examples/speech_synthesis/preprocessing/denoiser/utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n# author: adefossez\n\nimport functools\nimport logging\nfrom contextlib import contextmanager\nimport inspect\nimport time\n\nlogger = logging.getLogger(__name__)\n\nEPS = 1e-8\n\n\ndef capture_init(init):\n    \"\"\"capture_init.\n\n    Decorate `__init__` with this, and you can then\n    recover the *args and **kwargs passed to it in `self._init_args_kwargs`\n    \"\"\"\n    @functools.wraps(init)\n    def __init__(self, *args, **kwargs):\n        self._init_args_kwargs = (args, kwargs)\n        init(self, *args, **kwargs)\n\n    return __init__\n\n\ndef deserialize_model(package, strict=False):\n    \"\"\"deserialize_model.\n\n    \"\"\"\n    klass = package['class']\n    if strict:\n        model = klass(*package['args'], **package['kwargs'])\n    else:\n        sig = inspect.signature(klass)\n        kw = package['kwargs']\n        for key in list(kw):\n            if key not in sig.parameters:\n                logger.warning(\"Dropping inexistant parameter %s\", key)\n                del kw[key]\n        model = klass(*package['args'], **kw)\n    model.load_state_dict(package['state'])\n    return model\n\n\ndef copy_state(state):\n    return {k: v.cpu().clone() for k, v in state.items()}\n\n\ndef serialize_model(model):\n    args, kwargs = model._init_args_kwargs\n    state = copy_state(model.state_dict())\n    return {\"class\": model.__class__, \"args\": args, \"kwargs\": kwargs, \"state\": state}\n\n\n@contextmanager\ndef swap_state(model, state):\n    \"\"\"\n    Context manager that swaps the state of a model, e.g:\n\n        # model is in old state\n        with swap_state(model, new_state):\n            # model in new state\n        # model back to old state\n    \"\"\"\n    old_state = copy_state(model.state_dict())\n    model.load_state_dict(state)\n    try:\n        yield\n    finally:\n        model.load_state_dict(old_state)\n\n\ndef pull_metric(history, name):\n    out = []\n    for metrics in history:\n        if name in metrics:\n            out.append(metrics[name])\n    return out\n\n\nclass LogProgress:\n    \"\"\"\n    Sort of like tqdm but using log lines and not as real time.\n    Args:\n        - logger: logger obtained from `logging.getLogger`,\n        - iterable: iterable object to wrap\n        - updates (int): number of lines that will be printed, e.g.\n            if `updates=5`, log every 1/5th of the total length.\n        - total (int): length of the iterable, in case it does not support\n            `len`.\n        - name (str): prefix to use in the log.\n        - level: logging level (like `logging.INFO`).\n    \"\"\"\n    def __init__(self,\n                 logger,\n                 iterable,\n                 updates=5,\n                 total=None,\n                 name=\"LogProgress\",\n                 level=logging.INFO):\n        self.iterable = iterable\n        self.total = total or len(iterable)\n        self.updates = updates\n        self.name = name\n        self.logger = logger\n        self.level = level\n\n    def update(self, **infos):\n        self._infos = infos\n\n    def __iter__(self):\n        self._iterator = iter(self.iterable)\n        self._index = -1\n        self._infos = {}\n        self._begin = time.time()\n        return self\n\n    def __next__(self):\n        self._index += 1\n        try:\n            value = next(self._iterator)\n        except StopIteration:\n            raise\n        else:\n            return value\n        finally:\n            log_every = max(1, self.total // self.updates)\n            # logging is delayed by 1 it, in order to have the metrics from update\n            if self._index >= 1 and self._index % log_every == 0:\n                self._log()\n\n    def _log(self):\n        self._speed = (1 + self._index) / (time.time() - self._begin)\n        infos = \" | \".join(f\"{k.capitalize()} {v}\" for k, v in self._infos.items())\n        if self._speed < 1e-4:\n            speed = \"oo sec/it\"\n        elif self._speed < 0.1:\n            speed = f\"{1/self._speed:.1f} sec/it\"\n        else:\n            speed = f\"{self._speed:.1f} it/sec\"\n        out = f\"{self.name} | {self._index}/{self.total} | {speed}\"\n        if infos:\n            out += \" | \" + infos\n        self.logger.log(self.level, out)\n\n\ndef colorize(text, color):\n    \"\"\"\n    Display text with some ANSI color in the terminal.\n    \"\"\"\n    code = f\"\\033[{color}m\"\n    restore = \"\\033[0m\"\n    return \"\".join([code, text, restore])\n\n\ndef bold(text):\n    \"\"\"\n    Display text in bold in the terminal.\n    \"\"\"\n    return colorize(text, \"1\")\n\n\ndef cal_snr(lbl, est):\n    import torch\n    y = 10.0 * torch.log10(\n        torch.sum(lbl**2, dim=-1) / (torch.sum((est-lbl)**2, dim=-1) + EPS) +\n        EPS\n    )\n    return y\n"
  },
  {
    "path": "examples/speech_synthesis/preprocessing/get_common_voice_audio_manifest.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nfrom pathlib import Path\nfrom collections import defaultdict\nfrom typing import List, Dict, Tuple\n\nimport pandas as pd\nimport numpy as np\nimport torchaudio\nfrom tqdm import tqdm\n\nfrom examples.speech_to_text.data_utils import load_df_from_tsv, save_df_to_tsv\n\n\nlog = logging.getLogger(__name__)\n\nSPLITS = [\"train\", \"dev\", \"test\"]\n\n\ndef get_top_n(\n        root: Path, n_speakers: int = 10, min_n_tokens: int = 5\n) -> pd.DataFrame:\n    df = load_df_from_tsv(root / \"validated.tsv\")\n    df[\"n_tokens\"] = [len(s.split()) for s in df[\"sentence\"]]\n    df = df[df[\"n_tokens\"] >= min_n_tokens]\n    df[\"n_frames\"] = [\n        torchaudio.info((root / \"clips\" / p).as_posix()).num_frames\n        for p in tqdm(df[\"path\"])\n    ]\n    df[\"id\"] = [Path(p).stem for p in df[\"path\"]]\n    total_duration_ms = df.groupby(\"client_id\")[\"n_frames\"].agg([\"sum\"])\n    total_duration_ms = total_duration_ms.sort_values(\"sum\", ascending=False)\n\n    top_n_total_duration_ms = total_duration_ms.head(n_speakers)\n    top_n_client_ids = set(top_n_total_duration_ms.index.tolist())\n    df_top_n = df[df[\"client_id\"].isin(top_n_client_ids)]\n    return df_top_n\n\n\ndef get_splits(\n        df, train_split_ratio=0.99, speaker_in_all_splits=False, rand_seed=0\n) -> Tuple[Dict[str, str], List[str]]:\n    np.random.seed(rand_seed)\n    dev_split_ratio = (1. - train_split_ratio) / 3\n    grouped = list(df.groupby(\"client_id\"))\n    id_to_split = {}\n    for _, cur_df in tqdm(grouped):\n        cur_n_examples = len(cur_df)\n        if speaker_in_all_splits and cur_n_examples < 3:\n            continue\n        cur_n_train = int(cur_n_examples * train_split_ratio)\n        cur_n_dev = int(cur_n_examples * dev_split_ratio)\n        cur_n_test = cur_n_examples - cur_n_dev - cur_n_train\n        if speaker_in_all_splits and cur_n_dev * cur_n_test == 0:\n            cur_n_dev, cur_n_test = 1, 1\n            cur_n_train = cur_n_examples - cur_n_dev - cur_n_test\n        cur_indices = cur_df.index.tolist()\n        cur_shuffled_indices = np.random.permutation(cur_n_examples)\n        cur_shuffled_indices = [cur_indices[i] for i in cur_shuffled_indices]\n        cur_indices_by_split = {\n            \"train\": cur_shuffled_indices[:cur_n_train],\n            \"dev\": cur_shuffled_indices[cur_n_train: cur_n_train + cur_n_dev],\n            \"test\": cur_shuffled_indices[cur_n_train + cur_n_dev:]\n        }\n        for split in SPLITS:\n            for i in cur_indices_by_split[split]:\n                id_ = df[\"id\"].loc[i]\n                id_to_split[id_] = split\n    return id_to_split, sorted(df[\"client_id\"].unique())\n\n\ndef convert_to_wav(root: Path, filenames: List[str], target_sr=16_000):\n    out_root = root / \"wav\"\n    out_root.mkdir(exist_ok=True, parents=True)\n    print(\"Converting to WAV...\")\n    for n in tqdm(filenames):\n        in_path = (root / \"clips\" / n).as_posix()\n        waveform, sr = torchaudio.load(in_path)\n        converted, converted_sr = torchaudio.sox_effects.apply_effects_tensor(\n            waveform, sr, [[\"rate\", str(target_sr)], [\"channels\", \"1\"]]\n        )\n        out_path = (out_root / Path(n).with_suffix(\".wav\").name).as_posix()\n        torchaudio.save(out_path, converted, converted_sr, encoding=\"PCM_S\",\n                        bits_per_sample=16)\n\n\ndef process(args):\n    data_root = Path(args.data_root).absolute() / args.lang\n\n    # Generate TSV manifest\n    print(\"Generating manifest...\")\n\n    df_top_n = get_top_n(data_root)\n    id_to_split, speakers = get_splits(df_top_n)\n\n    if args.convert_to_wav:\n        convert_to_wav(data_root, df_top_n[\"path\"].tolist())\n\n    manifest_by_split = {split: defaultdict(list) for split in SPLITS}\n    for sample in tqdm(df_top_n.to_dict(orient=\"index\").values()):\n        sample_id = sample[\"id\"]\n        split = id_to_split[sample_id]\n        manifest_by_split[split][\"id\"].append(sample_id)\n        if args.convert_to_wav:\n            audio_path = data_root / \"wav\" / f\"{sample_id}.wav\"\n        else:\n            audio_path = data_root / \"clips\" / f\"{sample_id}.mp3\"\n        manifest_by_split[split][\"audio\"].append(audio_path.as_posix())\n        manifest_by_split[split][\"n_frames\"].append(sample[\"n_frames\"])\n        manifest_by_split[split][\"tgt_text\"].append(sample[\"sentence\"])\n        manifest_by_split[split][\"speaker\"].append(sample[\"client_id\"])\n        manifest_by_split[split][\"src_text\"].append(sample[\"sentence\"])\n\n    output_root = Path(args.output_manifest_root).absolute()\n    output_root.mkdir(parents=True, exist_ok=True)\n    for split in SPLITS:\n        save_df_to_tsv(\n            pd.DataFrame.from_dict(manifest_by_split[split]),\n            output_root / f\"{split}.audio.tsv\"\n        )\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--data-root\", \"-d\", required=True, type=str)\n    parser.add_argument(\"--output-manifest-root\", \"-m\", required=True, type=str)\n    parser.add_argument(\"--lang\", \"-l\", required=True, type=str)\n    parser.add_argument(\"--convert-to-wav\", action=\"store_true\")\n    args = parser.parse_args()\n\n    process(args)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_synthesis/preprocessing/get_feature_manifest.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nfrom pathlib import Path\nimport shutil\nfrom tempfile import NamedTemporaryFile\nfrom collections import Counter, defaultdict\n\nimport pandas as pd\nimport torchaudio\nfrom tqdm import tqdm\n\nfrom fairseq.data.audio.audio_utils import convert_waveform\nfrom examples.speech_to_text.data_utils import (\n    create_zip,\n    gen_config_yaml,\n    gen_vocab,\n    get_zip_manifest,\n    load_tsv_to_dicts,\n    save_df_to_tsv\n)\nfrom examples.speech_synthesis.data_utils import (\n    extract_logmel_spectrogram, extract_pitch, extract_energy, get_global_cmvn,\n    ipa_phonemize, get_mfa_alignment, get_unit_alignment,\n    get_feature_value_min_max\n)\n\n\nlog = logging.getLogger(__name__)\n\n\ndef process(args):\n    assert \"train\" in args.splits\n    out_root = Path(args.output_root).absolute()\n    out_root.mkdir(exist_ok=True)\n\n    print(\"Fetching data...\")\n    audio_manifest_root = Path(args.audio_manifest_root).absolute()\n    samples = []\n    for s in args.splits:\n        for e in load_tsv_to_dicts(audio_manifest_root / f\"{s}.audio.tsv\"):\n            e[\"split\"] = s\n            samples.append(e)\n    sample_ids = [s[\"id\"] for s in samples]\n\n    # Get alignment info\n    id_to_alignment = None\n    if args.textgrid_zip is not None:\n        assert args.id_to_units_tsv is None\n        id_to_alignment = get_mfa_alignment(\n            args.textgrid_zip, sample_ids, args.sample_rate, args.hop_length\n        )\n    elif args.id_to_units_tsv is not None:\n        # assume identical hop length on the unit sequence\n        id_to_alignment = get_unit_alignment(args.id_to_units_tsv, sample_ids)\n\n    # Extract features and pack features into ZIP\n    feature_name = \"logmelspec80\"\n    zip_path = out_root / f\"{feature_name}.zip\"\n    pitch_zip_path = out_root / \"pitch.zip\"\n    energy_zip_path = out_root / \"energy.zip\"\n    gcmvn_npz_path = out_root / \"gcmvn_stats.npz\"\n    if zip_path.exists() and gcmvn_npz_path.exists():\n        print(f\"{zip_path} and {gcmvn_npz_path} exist.\")\n    else:\n        feature_root = out_root / feature_name\n        feature_root.mkdir(exist_ok=True)\n        pitch_root = out_root / \"pitch\"\n        energy_root = out_root / \"energy\"\n        if args.add_fastspeech_targets:\n            pitch_root.mkdir(exist_ok=True)\n            energy_root.mkdir(exist_ok=True)\n        print(\"Extracting Mel spectrogram features...\")\n        for sample in tqdm(samples):\n            waveform, sample_rate = torchaudio.load(sample[\"audio\"])\n            waveform, sample_rate = convert_waveform(\n                waveform, sample_rate, normalize_volume=args.normalize_volume,\n                to_sample_rate=args.sample_rate\n            )\n            sample_id = sample[\"id\"]\n            target_length = None\n            if id_to_alignment is not None:\n                a = id_to_alignment[sample_id]\n                target_length = sum(a.frame_durations)\n                if a.start_sec is not None and a.end_sec is not None:\n                    start_frame = int(a.start_sec * sample_rate)\n                    end_frame = int(a.end_sec * sample_rate)\n                    waveform = waveform[:, start_frame: end_frame]\n            extract_logmel_spectrogram(\n                waveform, sample_rate, feature_root / f\"{sample_id}.npy\",\n                win_length=args.win_length, hop_length=args.hop_length,\n                n_fft=args.n_fft, n_mels=args.n_mels, f_min=args.f_min,\n                f_max=args.f_max, target_length=target_length\n            )\n            if args.add_fastspeech_targets:\n                assert id_to_alignment is not None\n                extract_pitch(\n                    waveform, sample_rate, pitch_root / f\"{sample_id}.npy\",\n                    hop_length=args.hop_length, log_scale=True,\n                    phoneme_durations=id_to_alignment[sample_id].frame_durations\n                )\n                extract_energy(\n                    waveform, energy_root / f\"{sample_id}.npy\",\n                    hop_length=args.hop_length, n_fft=args.n_fft,\n                    log_scale=True,\n                    phoneme_durations=id_to_alignment[sample_id].frame_durations\n                )\n        print(\"ZIPing features...\")\n        create_zip(feature_root, zip_path)\n        get_global_cmvn(feature_root, gcmvn_npz_path)\n        shutil.rmtree(feature_root)\n        if args.add_fastspeech_targets:\n            create_zip(pitch_root, pitch_zip_path)\n            shutil.rmtree(pitch_root)\n            create_zip(energy_root, energy_zip_path)\n            shutil.rmtree(energy_root)\n\n    print(\"Fetching ZIP manifest...\")\n    audio_paths, audio_lengths = get_zip_manifest(zip_path)\n    pitch_paths, pitch_lengths, energy_paths, energy_lengths = [None] * 4\n    if args.add_fastspeech_targets:\n        pitch_paths, pitch_lengths = get_zip_manifest(pitch_zip_path)\n        energy_paths, energy_lengths = get_zip_manifest(energy_zip_path)\n    # Generate TSV manifest\n    print(\"Generating manifest...\")\n    id_to_cer = None\n    if args.cer_threshold is not None:\n        assert Path(args.cer_tsv_path).is_file()\n        id_to_cer = {\n            x[\"id\"]: x[\"uer\"] for x in load_tsv_to_dicts(args.cer_tsv_path)\n        }\n    manifest_by_split = {split: defaultdict(list) for split in args.splits}\n    for sample in tqdm(samples):\n        sample_id, split = sample[\"id\"], sample[\"split\"]\n\n        if args.snr_threshold is not None and \"snr\" in sample \\\n                and sample[\"snr\"] < args.snr_threshold:\n            continue\n        if args.cer_threshold is not None \\\n                and id_to_cer[sample_id] > args.cer_threhold:\n            continue\n\n        normalized_utt = sample[\"tgt_text\"]\n        if id_to_alignment is not None:\n            normalized_utt = \" \".join(id_to_alignment[sample_id].tokens)\n        elif args.ipa_vocab:\n            normalized_utt = ipa_phonemize(\n                normalized_utt, lang=args.lang, use_g2p=args.use_g2p\n            )\n        manifest_by_split[split][\"id\"].append(sample_id)\n        manifest_by_split[split][\"audio\"].append(audio_paths[sample_id])\n        manifest_by_split[split][\"n_frames\"].append(audio_lengths[sample_id])\n        manifest_by_split[split][\"tgt_text\"].append(normalized_utt)\n        manifest_by_split[split][\"speaker\"].append(sample[\"speaker\"])\n        manifest_by_split[split][\"src_text\"].append(sample[\"src_text\"])\n        if args.add_fastspeech_targets:\n            assert id_to_alignment is not None\n            duration = \" \".join(\n                str(d) for d in id_to_alignment[sample_id].frame_durations\n            )\n            manifest_by_split[split][\"duration\"].append(duration)\n            manifest_by_split[split][\"pitch\"].append(pitch_paths[sample_id])\n            manifest_by_split[split][\"energy\"].append(energy_paths[sample_id])\n    for split in args.splits:\n        save_df_to_tsv(\n            pd.DataFrame.from_dict(manifest_by_split[split]),\n            out_root / f\"{split}.tsv\"\n        )\n    # Generate vocab\n    vocab_name, spm_filename = None, None\n    if id_to_alignment is not None or args.ipa_vocab:\n        vocab = Counter()\n        for t in manifest_by_split[\"train\"][\"tgt_text\"]:\n            vocab.update(t.split(\" \"))\n        vocab_name = \"vocab.txt\"\n        with open(out_root / vocab_name, \"w\") as f:\n            for s, c in vocab.most_common():\n                f.write(f\"{s} {c}\\n\")\n    else:\n        spm_filename_prefix = \"spm_char\"\n        spm_filename = f\"{spm_filename_prefix}.model\"\n        with NamedTemporaryFile(mode=\"w\") as f:\n            for t in manifest_by_split[\"train\"][\"tgt_text\"]:\n                f.write(t + \"\\n\")\n            f.flush()  # needed to ensure gen_vocab sees dumped text\n            gen_vocab(Path(f.name), out_root / spm_filename_prefix, \"char\")\n    # Generate speaker list\n    speakers = sorted({sample[\"speaker\"] for sample in samples})\n    speakers_path = out_root / \"speakers.txt\"\n    with open(speakers_path, \"w\") as f:\n        for speaker in speakers:\n            f.write(f\"{speaker}\\n\")\n    # Generate config YAML\n    win_len_t = args.win_length / args.sample_rate\n    hop_len_t = args.hop_length / args.sample_rate\n    extra = {\n        \"sample_rate\": args.sample_rate,\n        \"features\": {\n            \"type\": \"spectrogram+melscale+log\",\n            \"eps\": 1e-5, \"n_mels\": args.n_mels, \"n_fft\": args.n_fft,\n            \"window_fn\": \"hann\", \"win_length\": args.win_length,\n            \"hop_length\": args.hop_length, \"sample_rate\": args.sample_rate,\n            \"win_len_t\": win_len_t, \"hop_len_t\": hop_len_t,\n            \"f_min\": args.f_min, \"f_max\": args.f_max,\n            \"n_stft\": args.n_fft // 2 + 1\n        }\n    }\n    if len(speakers) > 1:\n        extra[\"speaker_set_filename\"] = \"speakers.txt\"\n    if args.add_fastspeech_targets:\n        pitch_min, pitch_max = get_feature_value_min_max(\n            [(out_root / n).as_posix() for n in pitch_paths.values()]\n        )\n        energy_min, energy_max = get_feature_value_min_max(\n            [(out_root / n).as_posix() for n in energy_paths.values()]\n        )\n        extra[\"features\"][\"pitch_min\"] = pitch_min\n        extra[\"features\"][\"pitch_max\"] = pitch_max\n        extra[\"features\"][\"energy_min\"] = energy_min\n        extra[\"features\"][\"energy_max\"] = energy_max\n    gen_config_yaml(\n        out_root, spm_filename=spm_filename, vocab_name=vocab_name,\n        audio_root=out_root.as_posix(), input_channels=None,\n        input_feat_per_channel=None, specaugment_policy=None,\n        cmvn_type=\"global\", gcmvn_path=gcmvn_npz_path, extra=extra\n    )\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--audio-manifest-root\", \"-m\", required=True, type=str)\n    parser.add_argument(\"--output-root\", \"-o\", required=True, type=str)\n    parser.add_argument(\"--splits\", \"-s\", type=str, nargs=\"+\",\n                        default=[\"train\", \"dev\", \"test\"])\n    parser.add_argument(\"--ipa-vocab\", action=\"store_true\")\n    parser.add_argument(\"--use-g2p\", action=\"store_true\")\n    parser.add_argument(\"--lang\", type=str, default=\"en-us\")\n    parser.add_argument(\"--win-length\", type=int, default=1024)\n    parser.add_argument(\"--hop-length\", type=int, default=256)\n    parser.add_argument(\"--n-fft\", type=int, default=1024)\n    parser.add_argument(\"--n-mels\", type=int, default=80)\n    parser.add_argument(\"--f-min\", type=int, default=20)\n    parser.add_argument(\"--f-max\", type=int, default=8000)\n    parser.add_argument(\"--sample-rate\", type=int, default=22050)\n    parser.add_argument(\"--normalize-volume\", \"-n\", action=\"store_true\")\n    parser.add_argument(\"--textgrid-zip\", type=str, default=None)\n    parser.add_argument(\"--id-to-units-tsv\", type=str, default=None)\n    parser.add_argument(\"--add-fastspeech-targets\", action=\"store_true\")\n    parser.add_argument(\"--snr-threshold\", type=float, default=None)\n    parser.add_argument(\"--cer-threshold\", type=float, default=None)\n    parser.add_argument(\"--cer-tsv-path\", type=str, default=\"\")\n    args = parser.parse_args()\n\n    process(args)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_synthesis/preprocessing/get_ljspeech_audio_manifest.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nfrom pathlib import Path\nfrom collections import defaultdict\n\nimport pandas as pd\nfrom torchaudio.datasets import LJSPEECH\nfrom tqdm import tqdm\n\nfrom examples.speech_to_text.data_utils import save_df_to_tsv\n\n\nlog = logging.getLogger(__name__)\n\nSPLITS = [\"train\", \"dev\", \"test\"]\n\n\ndef process(args):\n    out_root = Path(args.output_data_root).absolute()\n    out_root.mkdir(parents=True, exist_ok=True)\n\n    # Generate TSV manifest\n    print(\"Generating manifest...\")\n    # following FastSpeech's splits\n    dataset = LJSPEECH(out_root.as_posix(), download=True)\n    id_to_split = {}\n    for x in dataset._flist:\n        id_ = x[0]\n        speaker = id_.split(\"-\")[0]\n        id_to_split[id_] = {\n            \"LJ001\": \"test\", \"LJ002\": \"test\", \"LJ003\": \"dev\"\n        }.get(speaker, \"train\")\n    manifest_by_split = {split: defaultdict(list) for split in SPLITS}\n    progress = tqdm(enumerate(dataset), total=len(dataset))\n    for i, (waveform, _, utt, normalized_utt) in progress:\n        sample_id = dataset._flist[i][0]\n        split = id_to_split[sample_id]\n        manifest_by_split[split][\"id\"].append(sample_id)\n        audio_path = f\"{dataset._path}/{sample_id}.wav\"\n        manifest_by_split[split][\"audio\"].append(audio_path)\n        manifest_by_split[split][\"n_frames\"].append(len(waveform[0]))\n        manifest_by_split[split][\"tgt_text\"].append(normalized_utt)\n        manifest_by_split[split][\"speaker\"].append(\"ljspeech\")\n        manifest_by_split[split][\"src_text\"].append(utt)\n\n    manifest_root = Path(args.output_manifest_root).absolute()\n    manifest_root.mkdir(parents=True, exist_ok=True)\n    for split in SPLITS:\n        save_df_to_tsv(\n            pd.DataFrame.from_dict(manifest_by_split[split]),\n            manifest_root / f\"{split}.audio.tsv\"\n        )\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--output-data-root\", \"-d\", required=True, type=str)\n    parser.add_argument(\"--output-manifest-root\", \"-m\", required=True, type=str)\n    args = parser.parse_args()\n\n    process(args)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_synthesis/preprocessing/get_speaker_embedding.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport argparse\nfrom collections import defaultdict\nfrom itertools import chain\nfrom pathlib import Path\n\nimport numpy as np\nimport torchaudio\nimport torchaudio.sox_effects as ta_sox\nimport yaml\nfrom tqdm import tqdm\n\nfrom examples.speech_to_text.data_utils import load_tsv_to_dicts\nfrom examples.speech_synthesis.preprocessing.speaker_embedder import SpkrEmbedder\n\n\ndef extract_embedding(audio_path, embedder):\n    wav, sr = torchaudio.load(audio_path)  # 2D\n    if sr != embedder.RATE:\n        wav, sr = ta_sox.apply_effects_tensor(\n            wav, sr, [[\"rate\", str(embedder.RATE)]]\n        )\n    try:\n        emb = embedder([wav[0].cuda().float()]).cpu().numpy()\n    except RuntimeError:\n        emb = None\n    return emb\n\n\ndef process(args):\n    print(\"Fetching data...\")\n    raw_manifest_root = Path(args.raw_manifest_root).absolute()\n    samples = [load_tsv_to_dicts(raw_manifest_root / (s + \".tsv\"))\n               for s in args.splits]\n    samples = list(chain(*samples))\n    with open(args.config, \"r\") as f:\n        config = yaml.load(f, Loader=yaml.FullLoader)\n    with open(f\"{config['audio_root']}/{config['speaker_set_filename']}\") as f:\n        speaker_to_id = {r.strip(): i for i, r in enumerate(f)}\n\n    embedder = SpkrEmbedder(args.ckpt).cuda()\n    speaker_to_cnt = defaultdict(float)\n    speaker_to_emb = defaultdict(float)\n    for sample in tqdm(samples, desc=\"extract emb\"):\n        emb = extract_embedding(sample[\"audio\"], embedder)\n        if emb is not None:\n            speaker_to_cnt[sample[\"speaker\"]] += 1\n            speaker_to_emb[sample[\"speaker\"]] += emb\n    if len(speaker_to_emb) != len(speaker_to_id):\n        missed = set(speaker_to_id) - set(speaker_to_emb.keys())\n        print(\n            f\"WARNING: missing embeddings for {len(missed)} speaker:\\n{missed}\"\n        )\n    speaker_emb_mat = np.zeros((len(speaker_to_id), len(emb)), float)\n    for speaker in speaker_to_emb:\n        idx = speaker_to_id[speaker]\n        emb = speaker_to_emb[speaker]\n        cnt = speaker_to_cnt[speaker]\n        speaker_emb_mat[idx, :] = emb / cnt\n    speaker_emb_name = \"speaker_emb.npy\"\n    speaker_emb_path = f\"{config['audio_root']}/{speaker_emb_name}\"\n    np.save(speaker_emb_path, speaker_emb_mat)\n    config[\"speaker_emb_filename\"] = speaker_emb_name\n\n    with open(args.new_config, \"w\") as f:\n        yaml.dump(config, f)\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--raw-manifest-root\", \"-m\", required=True, type=str)\n    parser.add_argument(\"--splits\", \"-s\", type=str, nargs=\"+\",\n                        default=[\"train\"])\n    parser.add_argument(\"--config\", \"-c\", required=True, type=str)\n    parser.add_argument(\"--new-config\", \"-n\", required=True, type=str)\n    parser.add_argument(\"--ckpt\", required=True, type=str,\n                        help=\"speaker embedder checkpoint\")\n    args = parser.parse_args()\n\n    process(args)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_synthesis/preprocessing/get_vctk_audio_manifest.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nimport numpy as np\nimport re\nfrom pathlib import Path\nfrom collections import defaultdict\n\nimport pandas as pd\nfrom torchaudio.datasets import VCTK\nfrom tqdm import tqdm\n\nfrom examples.speech_to_text.data_utils import save_df_to_tsv\n\n\nlog = logging.getLogger(__name__)\n\nSPLITS = [\"train\", \"dev\", \"test\"]\n\n\ndef normalize_text(text):\n    return re.sub(r\"[^a-zA-Z.?!,'\\- ]\", '', text)\n\n\ndef process(args):\n    out_root = Path(args.output_data_root).absolute()\n    out_root.mkdir(parents=True, exist_ok=True)\n\n    # Generate TSV manifest\n    print(\"Generating manifest...\")\n    dataset = VCTK(out_root.as_posix(), download=False)\n    ids = list(dataset._walker)\n    np.random.seed(args.seed)\n    np.random.shuffle(ids)\n    n_train = len(ids) - args.n_dev - args.n_test\n    _split = [\"train\"] * n_train + [\"dev\"] * args.n_dev + [\"test\"] * args.n_test\n    id_to_split = dict(zip(ids, _split))\n    manifest_by_split = {split: defaultdict(list) for split in SPLITS}\n    progress = tqdm(enumerate(dataset), total=len(dataset))\n    for i, (waveform, _, text, speaker_id, _) in progress:\n        sample_id = dataset._walker[i]\n        _split = id_to_split[sample_id]\n        audio_dir = Path(dataset._path) / dataset._folder_audio / speaker_id\n        audio_path = audio_dir / f\"{sample_id}.wav\"\n        text = normalize_text(text)\n        manifest_by_split[_split][\"id\"].append(sample_id)\n        manifest_by_split[_split][\"audio\"].append(audio_path.as_posix())\n        manifest_by_split[_split][\"n_frames\"].append(len(waveform[0]))\n        manifest_by_split[_split][\"tgt_text\"].append(text)\n        manifest_by_split[_split][\"speaker\"].append(speaker_id)\n        manifest_by_split[_split][\"src_text\"].append(text)\n\n    manifest_root = Path(args.output_manifest_root).absolute()\n    manifest_root.mkdir(parents=True, exist_ok=True)\n    for _split in SPLITS:\n        save_df_to_tsv(\n            pd.DataFrame.from_dict(manifest_by_split[_split]),\n            manifest_root / f\"{_split}.audio.tsv\"\n        )\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--output-data-root\", \"-d\", required=True, type=str)\n    parser.add_argument(\"--output-manifest-root\", \"-m\", required=True, type=str)\n    parser.add_argument(\"--n-dev\", default=50, type=int)\n    parser.add_argument(\"--n-test\", default=100, type=int)\n    parser.add_argument(\"--seed\", \"-s\", default=1234, type=int)\n    args = parser.parse_args()\n\n    process(args)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_synthesis/preprocessing/speaker_embedder/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport librosa\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nimport torch.utils.data\nimport torchaudio\n\n\nEMBEDDER_PARAMS = {\n    'num_mels': 40,\n    'n_fft': 512,\n    'emb_dim': 256,\n    'lstm_hidden': 768,\n    'lstm_layers': 3,\n    'window': 80,\n    'stride': 40,\n}\n\n\ndef set_requires_grad(nets, requires_grad=False):\n    \"\"\"Set requies_grad=Fasle for all the networks to avoid unnecessary\n    computations\n    Parameters:\n        nets (network list)   -- a list of networks\n        requires_grad (bool)  -- whether the networks require gradients or not\n    \"\"\"\n    if not isinstance(nets, list):\n        nets = [nets]\n    for net in nets:\n        if net is not None:\n            for param in net.parameters():\n                param.requires_grad = requires_grad\n\n\nclass LinearNorm(nn.Module):\n    def __init__(self, hp):\n        super(LinearNorm, self).__init__()\n        self.linear_layer = nn.Linear(hp[\"lstm_hidden\"], hp[\"emb_dim\"])\n\n    def forward(self, x):\n        return self.linear_layer(x)\n\n\nclass SpeechEmbedder(nn.Module):\n    def __init__(self, hp):\n        super(SpeechEmbedder, self).__init__()\n        self.lstm = nn.LSTM(hp[\"num_mels\"],\n                            hp[\"lstm_hidden\"],\n                            num_layers=hp[\"lstm_layers\"],\n                            batch_first=True)\n        self.proj = LinearNorm(hp)\n        self.hp = hp\n\n    def forward(self, mel):\n        # (num_mels, T) -> (num_mels, T', window)\n        mels = mel.unfold(1, self.hp[\"window\"], self.hp[\"stride\"])\n        mels = mels.permute(1, 2, 0)  # (T', window, num_mels)\n        x, _ = self.lstm(mels)  # (T', window, lstm_hidden)\n        x = x[:, -1, :]  # (T', lstm_hidden), use last frame only\n        x = self.proj(x)  # (T', emb_dim)\n        x = x / torch.norm(x, p=2, dim=1, keepdim=True)  # (T', emb_dim)\n\n        x = x.mean(dim=0)\n        if x.norm(p=2) != 0:\n            x = x / x.norm(p=2)\n        return x\n\n\nclass SpkrEmbedder(nn.Module):\n    RATE = 16000\n\n    def __init__(\n        self,\n        embedder_path,\n        embedder_params=EMBEDDER_PARAMS,\n        rate=16000,\n        hop_length=160,\n        win_length=400,\n        pad=False,\n    ):\n        super(SpkrEmbedder, self).__init__()\n        embedder_pt = torch.load(embedder_path, map_location=\"cpu\")\n        self.embedder = SpeechEmbedder(embedder_params)\n        self.embedder.load_state_dict(embedder_pt)\n        self.embedder.eval()\n        set_requires_grad(self.embedder, requires_grad=False)\n        self.embedder_params = embedder_params\n\n        self.register_buffer('mel_basis', torch.from_numpy(\n            librosa.filters.mel(\n                sr=self.RATE,\n                n_fft=self.embedder_params[\"n_fft\"],\n                n_mels=self.embedder_params[\"num_mels\"])\n        )\n                             )\n\n        self.resample = None\n        if rate != self.RATE:\n            self.resample = torchaudio.transforms.Resample(rate, self.RATE)\n        self.hop_length = hop_length\n        self.win_length = win_length\n        self.pad = pad\n\n    def get_mel(self, y):\n        if self.pad and y.shape[-1] < 14000:\n            y = F.pad(y, (0, 14000 - y.shape[-1]))\n\n        window = torch.hann_window(self.win_length).to(y)\n        y = torch.stft(y, n_fft=self.embedder_params[\"n_fft\"],\n                       hop_length=self.hop_length,\n                       win_length=self.win_length,\n                       window=window)\n        magnitudes = torch.norm(y, dim=-1, p=2) ** 2\n        mel = torch.log10(self.mel_basis @ magnitudes + 1e-6)\n        return mel\n\n    def forward(self, inputs):\n        dvecs = []\n        for wav in inputs:\n            mel = self.get_mel(wav)\n            if mel.dim() == 3:\n                mel = mel.squeeze(0)\n            dvecs += [self.embedder(mel)]\n        dvecs = torch.stack(dvecs)\n\n        dvec = torch.mean(dvecs, dim=0)\n        dvec = dvec / torch.norm(dvec)\n\n        return dvec\n"
  },
  {
    "path": "examples/speech_synthesis/preprocessing/vad/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport collections\nimport contextlib\nimport wave\n\ntry:\n    import webrtcvad\nexcept ImportError:\n    raise ImportError(\"Please install py-webrtcvad: pip install webrtcvad\")\nimport argparse\nimport os\nimport logging\nfrom tqdm import tqdm\n\nAUDIO_SUFFIX = '.wav'\nFS_MS = 30\nSCALE = 6e-5\nTHRESHOLD = 0.3\n\n\ndef read_wave(path):\n    \"\"\"Reads a .wav file.\n    Takes the path, and returns (PCM audio data, sample rate).\n    \"\"\"\n    with contextlib.closing(wave.open(path, 'rb')) as wf:\n        num_channels = wf.getnchannels()\n        assert num_channels == 1\n        sample_width = wf.getsampwidth()\n        assert sample_width == 2\n        sample_rate = wf.getframerate()\n        assert sample_rate in (8000, 16000, 32000, 48000)\n        pcm_data = wf.readframes(wf.getnframes())\n        return pcm_data, sample_rate\n\n\ndef write_wave(path, audio, sample_rate):\n    \"\"\"Writes a .wav file.\n    Takes path, PCM audio data, and sample rate.\n    \"\"\"\n    with contextlib.closing(wave.open(path, 'wb')) as wf:\n        wf.setnchannels(1)\n        wf.setsampwidth(2)\n        wf.setframerate(sample_rate)\n        wf.writeframes(audio)\n\n\nclass Frame(object):\n    \"\"\"Represents a \"frame\" of audio data.\"\"\"\n    def __init__(self, bytes, timestamp, duration):\n        self.bytes = bytes\n        self.timestamp = timestamp\n        self.duration = duration\n\n\ndef frame_generator(frame_duration_ms, audio, sample_rate):\n    \"\"\"Generates audio frames from PCM audio data.\n    Takes the desired frame duration in milliseconds, the PCM data, and\n    the sample rate.\n    Yields Frames of the requested duration.\n    \"\"\"\n    n = int(sample_rate * (frame_duration_ms / 1000.0) * 2)\n    offset = 0\n    timestamp = 0.0\n    duration = (float(n) / sample_rate) / 2.0\n    while offset + n < len(audio):\n        yield Frame(audio[offset:offset + n], timestamp, duration)\n        timestamp += duration\n        offset += n\n\n\ndef vad_collector(sample_rate, frame_duration_ms,\n                  padding_duration_ms, vad, frames):\n    \"\"\"Filters out non-voiced audio frames.\n    Given a webrtcvad.Vad and a source of audio frames, yields only\n    the voiced audio.\n    Uses a padded, sliding window algorithm over the audio frames.\n    When more than 90% of the frames in the window are voiced (as\n    reported by the VAD), the collector triggers and begins yielding\n    audio frames. Then the collector waits until 90% of the frames in\n    the window are unvoiced to detrigger.\n    The window is padded at the front and back to provide a small\n    amount of silence or the beginnings/endings of speech around the\n    voiced frames.\n    Arguments:\n    sample_rate - The audio sample rate, in Hz.\n    frame_duration_ms - The frame duration in milliseconds.\n    padding_duration_ms - The amount to pad the window, in milliseconds.\n    vad - An instance of webrtcvad.Vad.\n    frames - a source of audio frames (sequence or generator).\n    Returns: A generator that yields PCM audio data.\n    \"\"\"\n    num_padding_frames = int(padding_duration_ms / frame_duration_ms)\n    # We use a deque for our sliding window/ring buffer.\n    ring_buffer = collections.deque(maxlen=num_padding_frames)\n    # We have two states: TRIGGERED and NOTTRIGGERED. We start in the\n    # NOTTRIGGERED state.\n    triggered = False\n\n    voiced_frames = []\n    for frame in frames:\n        is_speech = vad.is_speech(frame.bytes, sample_rate)\n\n        #  sys.stdout.write('1' if is_speech else '0')\n        if not triggered:\n            ring_buffer.append((frame, is_speech))\n            num_voiced = len([f for f, speech in ring_buffer if speech])\n            # If we're NOTTRIGGERED and more than 90% of the frames in\n            # the ring buffer are voiced frames, then enter the\n            # TRIGGERED state.\n            if num_voiced > 0.9 * ring_buffer.maxlen:\n                triggered = True\n                # We want to yield all the audio we see from now until\n                # we are NOTTRIGGERED, but we have to start with the\n                # audio that's already in the ring buffer.\n                for f, _ in ring_buffer:\n                    voiced_frames.append(f)\n                ring_buffer.clear()\n        else:\n            # We're in the TRIGGERED state, so collect the audio data\n            # and add it to the ring buffer.\n            voiced_frames.append(frame)\n            ring_buffer.append((frame, is_speech))\n            num_unvoiced = len([f for f, speech in ring_buffer if not speech])\n            # If more than 90% of the frames in the ring buffer are\n            # unvoiced, then enter NOTTRIGGERED and yield whatever\n            # audio we've collected.\n            if num_unvoiced > 0.9 * ring_buffer.maxlen:\n                triggered = False\n                yield [b''.join([f.bytes for f in voiced_frames]),\n                       voiced_frames[0].timestamp, voiced_frames[-1].timestamp]\n                ring_buffer.clear()\n                voiced_frames = []\n    # If we have any leftover voiced audio when we run out of input,\n    # yield it.\n    if voiced_frames:\n        yield [b''.join([f.bytes for f in voiced_frames]),\n               voiced_frames[0].timestamp, voiced_frames[-1].timestamp]\n\n\ndef main(args):\n    # create output folder\n    try:\n        cmd = f\"mkdir -p {args.out_path}\"\n        os.system(cmd)\n    except Exception:\n        logging.error(\"Can not create output folder\")\n        exit(-1)\n\n    # build vad object\n    vad = webrtcvad.Vad(int(args.agg))\n    # iterating over wavs in dir\n    for file in tqdm(os.listdir(args.in_path)):\n        if file.endswith(AUDIO_SUFFIX):\n            audio_inpath = os.path.join(args.in_path, file)\n            audio_outpath = os.path.join(args.out_path, file)\n            audio, sample_rate = read_wave(audio_inpath)\n            frames = frame_generator(FS_MS, audio, sample_rate)\n            frames = list(frames)\n            segments = vad_collector(sample_rate, FS_MS, 300, vad, frames)\n            merge_segments = list()\n            timestamp_start = 0.0\n            timestamp_end = 0.0\n            # removing start, end, and long sequences of sils\n            for i, segment in enumerate(segments):\n                merge_segments.append(segment[0])\n                if i and timestamp_start:\n                    sil_duration = segment[1] - timestamp_end\n                    if sil_duration > THRESHOLD:\n                        merge_segments.append(int(THRESHOLD / SCALE)*(b'\\x00'))\n                    else:\n                        merge_segments.append(int((sil_duration / SCALE))*(b'\\x00'))\n                timestamp_start = segment[1]\n                timestamp_end = segment[2]\n            segment = b''.join(merge_segments)\n            write_wave(audio_outpath, segment, sample_rate)\n\n\nif __name__ == '__main__':\n    parser = argparse.ArgumentParser(description='Apply vad to a file of fils.')\n    parser.add_argument('in_path', type=str, help='Path to the input files')\n    parser.add_argument('out_path', type=str,\n                        help='Path to save the processed files')\n    parser.add_argument('--agg', type=int, default=3,\n                        help='The level of aggressiveness of the VAD: [0-3]')\n    args = parser.parse_args()\n\n    main(args)\n"
  },
  {
    "path": "examples/speech_synthesis/utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\nfrom scipy.interpolate import interp1d\nimport torchaudio\n\nfrom fairseq.tasks.text_to_speech import (\n    batch_compute_distortion, compute_rms_dist\n)\n\n\ndef batch_mel_spectral_distortion(\n        y1, y2, sr, normalize_type=\"path\", mel_fn=None\n):\n    \"\"\"\n    https://arxiv.org/pdf/2011.03568.pdf\n\n    Same as Mel Cepstral Distortion, but computed on log-mel spectrograms.\n    \"\"\"\n    if mel_fn is None or mel_fn.sample_rate != sr:\n        mel_fn = torchaudio.transforms.MelSpectrogram(\n            sr, n_fft=int(0.05 * sr), win_length=int(0.05 * sr),\n            hop_length=int(0.0125 * sr), f_min=20, n_mels=80,\n            window_fn=torch.hann_window\n        ).to(y1[0].device)\n    offset = 1e-6\n    return batch_compute_distortion(\n        y1, y2, sr, lambda y: torch.log(mel_fn(y) + offset).transpose(-1, -2),\n        compute_rms_dist, normalize_type\n    )\n\n\n# This code is based on\n# \"https://github.com/bastibe/MAPS-Scripts/blob/master/helper.py\"\ndef _same_t_in_true_and_est(func):\n    def new_func(true_t, true_f, est_t, est_f):\n        assert type(true_t) is np.ndarray\n        assert type(true_f) is np.ndarray\n        assert type(est_t) is np.ndarray\n        assert type(est_f) is np.ndarray\n\n        interpolated_f = interp1d(\n            est_t, est_f, bounds_error=False, kind='nearest', fill_value=0\n        )(true_t)\n        return func(true_t, true_f, true_t, interpolated_f)\n\n    return new_func\n\n\n@_same_t_in_true_and_est\ndef gross_pitch_error(true_t, true_f, est_t, est_f):\n    \"\"\"The relative frequency in percent of pitch estimates that are\n    outside a threshold around the true pitch. Only frames that are\n    considered pitched by both the ground truth and the estimator (if\n    applicable) are considered.\n    \"\"\"\n\n    correct_frames = _true_voiced_frames(true_t, true_f, est_t, est_f)\n    gross_pitch_error_frames = _gross_pitch_error_frames(\n        true_t, true_f, est_t, est_f\n    )\n    return np.sum(gross_pitch_error_frames) / np.sum(correct_frames)\n\n\ndef _gross_pitch_error_frames(true_t, true_f, est_t, est_f, eps=1e-8):\n    voiced_frames = _true_voiced_frames(true_t, true_f, est_t, est_f)\n    true_f_p_eps = [x + eps for x in true_f]\n    pitch_error_frames = np.abs(est_f / true_f_p_eps - 1) > 0.2\n    return voiced_frames & pitch_error_frames\n\n\ndef _true_voiced_frames(true_t, true_f, est_t, est_f):\n    return (est_f != 0) & (true_f != 0)\n\n\ndef _voicing_decision_error_frames(true_t, true_f, est_t, est_f):\n    return (est_f != 0) != (true_f != 0)\n\n\n@_same_t_in_true_and_est\ndef f0_frame_error(true_t, true_f, est_t, est_f):\n    gross_pitch_error_frames = _gross_pitch_error_frames(\n        true_t, true_f, est_t, est_f\n    )\n    voicing_decision_error_frames = _voicing_decision_error_frames(\n        true_t, true_f, est_t, est_f\n    )\n    return (np.sum(gross_pitch_error_frames) +\n            np.sum(voicing_decision_error_frames)) / (len(true_t))\n\n\n@_same_t_in_true_and_est\ndef voicing_decision_error(true_t, true_f, est_t, est_f):\n    voicing_decision_error_frames = _voicing_decision_error_frames(\n        true_t, true_f, est_t, est_f\n    )\n    return np.sum(voicing_decision_error_frames) / (len(true_t))\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/README.md",
    "content": "# Joint Speech Text training in Fairseq\nAn extension of Fairseq s2t project with the speech to text task enhanced by the co-trained text to text mapping task. More details about Fairseq s2t can be found [here](../speech_to_text/README.md)\n\n## Examples\nExamples of speech text joint training in fairseq\n- [English-to-German MuST-C model](docs/ende-mustc.md)\n- [IWSLT 2021 Multilingual Speech Translation](docs/iwslt2021.md)\n- [Speech Text Joint Pre-training ](docs/pre-training.md)\n## Citation\nPlease cite as:\n```\n@inproceedings{Tang2022UnifiedSP,\n  title={Unified Speech-Text Pre-training for Speech Translation and Recognition},\n  author={Yun Tang and Hongyu Gong and Ning Dong and Changhan Wang and Wei-Ning Hsu and Jiatao Gu and Alexei Baevski and Xian Li and Abdelrahman Mohamed and Michael Auli and Juan Miguel Pino},\n  booktitle={ACL},\n  year={2022}\n}\n@inproceedings{Tang2021IST,\n  title = {Improving Speech Translation by Understanding and Learning from the Auxiliary Text Translation Task},\n  author = {Yun Tang and Juan Pino and Xian Li and Changhan Wang and Dmitriy Genzel},\n  booktitle = {ACL},\n  year = {2021},\n}\n\n@inproceedings{Tang2021FST,\n  title = {FST: the FAIR Speech Translation System for the IWSLT21 Multilingual Shared Task},\n  author = {Yun Tang and Hongyu Gong and Xian Li and Changhan Wang  and Juan Pino and  Holger Schwenk and  Naman Goyal},\n  booktitle = {IWSLT},\n  year = {2021},\n}\n@inproceedings{Tang2021AGM,\n  title={A General Multi-Task Learning Framework to Leverage Text Data for Speech to Text Tasks},\n  author={Yun Tang and J. Pino and Changhan Wang and Xutai Ma and Dmitriy Genzel},\n  booktitle={ICASSP},\n  year={2021}\n}\n\n@inproceedings{wang2020fairseqs2t,\n  title = {fairseq S2T: Fast Speech-to-Text Modeling with fairseq},\n  author = {Changhan Wang and Yun Tang and Xutai Ma and Anne Wu and Dmytro Okhonko and Juan Pino},\n  booktitle = {Proceedings of the 2020 Conference of the Asian Chapter of the Association for Computational Linguistics (AACL): System Demonstrations},\n  year = {2020},\n}\n\n@inproceedings{ott2019fairseq,\n  title = {fairseq: A Fast, Extensible Toolkit for Sequence Modeling},\n  author = {Myle Ott and Sergey Edunov and Alexei Baevski and Angela Fan and Sam Gross and Nathan Ng and David Grangier and Michael Auli},\n  booktitle = {Proceedings of NAACL-HLT 2019: Demonstrations},\n  year = {2019},\n}\n```\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import tasks, criterions, models  # noqa\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/configs/mustc_noise.list",
    "content": "\"(Applause) NOISE\n\"(Laughter) VOICE\n\"(Laughter)\" VOICE\n(Applause) NOISE\n(Applause). NOISE\n(Audience) VOICE\n(Audio) NOISE\n(Beat) NOISE\n(Beatboxing) VOICE\n(Beep) NOISE\n(Beeps) NOISE\n(Cheering) VOICE\n(Cheers) VOICE\n(Claps) NOISE\n(Clicking) NOISE\n(Clunk) NOISE\n(Coughs) NOISE\n(Drums) NOISE\n(Explosion) NOISE\n(Gasps) VOICE\n(Guitar) NOISE\n(Honk) NOISE\n(Laugher) VOICE\n(Laughing) VOICE\n(Laughs) VOICE\n(Laughter) VOICE\n(Laughter). VOICE\n(Laughter)... VOICE\n(Mumbling) VOICE\n(Music) NOISE\n(Noise) NOISE\n(Recording) VOICE\n(Ringing) NOISE\n(Shouts) VOICE\n(Sigh) VOICE\n(Sighs) VOICE\n(Silence) NOISE \n(Singing) VOICE\n(Sings) VOICE\n(Spanish) VOICE\n(Static) NOISE \n(Tones) NOISE\n(Trumpet) NOISE\n(Video) NOISE\n(Video): NOISE\n(Voice-over) NOISE\n(Whistle) NOISE\n(Whistling) NOISE\n(video): NOISE\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/criterions/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport importlib\nimport os\n\n\nfor file in os.listdir(os.path.dirname(__file__)):\n    if file.endswith(\".py\") and not file.startswith(\"_\"):\n        criterion_name = file[: file.find(\".py\")]\n        importlib.import_module(\n            \"examples.speech_text_joint_to_text.criterions.\" + criterion_name\n        )\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/criterions/multi_modality_compound.py",
    "content": "#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport logging\nimport math\nfrom dataclasses import dataclass, field\n\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.criterions.ctc import CtcCriterion, CtcCriterionConfig\nfrom fairseq.criterions.label_smoothed_cross_entropy import (\n    LabelSmoothedCrossEntropyCriterionConfig,\n)\nfrom fairseq.logging.meters import safe_round\n\nfrom .multi_modality_cross_entropy import SpeechTextPreTrainCrossEntCriterion\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass SpeechTextPreTrainCompoundCriterionConfig(\n    LabelSmoothedCrossEntropyCriterionConfig\n):\n    zero_infinity: bool = field(\n        default=False,\n        metadata={\"help\": \"zero inf loss when source length <= target length\"},\n    )\n    post_process: str = field(\n        default=\"none\",\n        metadata={\n            \"help\": \"how to post process predictions into words. can be letter, \"\n            \"wordpiece, BPE symbols, etc. \"\n            \"See fairseq.data.data_utils.post_process() for full list of options\"\n        },\n    )\n\n\n@register_criterion(\n    \"speech_text_pretrain_compound\", dataclass=SpeechTextPreTrainCompoundCriterionConfig\n)\nclass SpeechTextPreTrainCompoundCriterion(FairseqCriterion):\n    def __init__(\n        self,\n        task,\n        sentence_avg,\n        label_smoothing,\n        report_accuracy=False,\n        zero_infinity=False,\n        post_process=None,\n    ):\n        super().__init__(task)\n        self.xent = SpeechTextPreTrainCrossEntCriterion(\n            task, sentence_avg, label_smoothing, report_accuracy\n        )\n        cfg_dict = {\n            \"zero_infinity\": zero_infinity,\n            \"sentence_avg\": sentence_avg,\n            \"post_process\": post_process,\n        }\n        cfg_ctc = CtcCriterionConfig(**cfg_dict)\n        self.ctc = CtcCriterion(cfg_ctc, task)\n\n    def forward(self, model, sample, reduce=True):\n        mode = sample[\"net_input\"][\"mode\"]\n        if mode == \"sup_speech_ctc\":  # CTC\n            sample[\"net_input\"][\n                \"src_lengths\"\n            ] = None  # get downsampled src_lengths from padding_mask\n            loss, sample_size, logging_output = self.ctc(model, sample, reduce)\n            logging_output[\"mode\"] = SpeechTextPreTrainCompoundCriterion.mode2value(\n                \"CTC\"\n            )\n        else:\n            loss, sample_size, logging_output = self.xent(model, sample, reduce)\n            logging_output[\"mode\"] = SpeechTextPreTrainCompoundCriterion.mode2value(\n                \"xent\"\n            )\n\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n\n    @staticmethod\n    def mode2value(mode):  # make the logging_outputs_can_be_summed = True\n        if mode == \"CTC\":\n            return 907  # prime number\n        if mode == \"xent\":\n            return 887  # prime number\n        return 0\n\n    @staticmethod\n    def value2mode(value):\n        if value % 907 == 0:\n            return \"CTC\"\n        if value % 887 == 0:\n            return \"xent\"\n        raise ValueError(\"Unknow mode\")\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n\n        def _get_mode(logging_outputs):\n            mds = [\n                SpeechTextPreTrainCompoundCriterion.value2mode(log[\"mode\"])\n                for log in logging_outputs\n            ]\n            if sum([1 if l != mds[0] else 0 for l in mds]) > 0:\n                raise ValueError(\"mode in one mini-batch is expected to be the same!\")\n            return mds[0]\n\n        log_mode = _get_mode(logging_outputs)\n        if log_mode == \"xent\":\n            return SpeechTextPreTrainCrossEntCriterion.reduce_metrics(logging_outputs)\n\n        # ctc loss\n        loss_sum = utils.item(sum(log.get(\"loss\", 0) for log in logging_outputs))\n        ntokens = utils.item(sum(log.get(\"ntokens\", 0) for log in logging_outputs))\n        nsentences = utils.item(\n            sum(log.get(\"nsentences\", 0) for log in logging_outputs)\n        )\n        sample_size = utils.item(\n            sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        )\n\n        metrics.log_scalar(\n            \"ctc_loss\", loss_sum / sample_size / math.log(2), sample_size, round=3\n        )\n        metrics.log_scalar(\"ctc_ntokens\", ntokens)\n        metrics.log_scalar(\"ctc_nsentences\", nsentences)\n        if sample_size != ntokens:\n            metrics.log_scalar(\n                \"ctc_nll_loss\", loss_sum / ntokens / math.log(2), ntokens, round=3\n            )\n\n        c_errors = sum(log.get(\"c_errors\", 0) for log in logging_outputs)\n        metrics.log_scalar(\"_c_errors\", c_errors)\n        c_total = sum(log.get(\"c_total\", 0) for log in logging_outputs)\n        metrics.log_scalar(\"_c_total\", c_total)\n        w_errors = sum(log.get(\"w_errors\", 0) for log in logging_outputs)\n        metrics.log_scalar(\"_w_errors\", w_errors)\n        wv_errors = sum(log.get(\"wv_errors\", 0) for log in logging_outputs)\n        metrics.log_scalar(\"_wv_errors\", wv_errors)\n        w_total = sum(log.get(\"w_total\", 0) for log in logging_outputs)\n        metrics.log_scalar(\"_w_total\", w_total)\n\n        if c_total > 0:\n            metrics.log_derived(\n                \"uer\",\n                lambda meters: safe_round(\n                    meters[\"_c_errors\"].sum * 100.0 / meters[\"_c_total\"].sum, 3\n                )\n                if meters[\"_c_total\"].sum > 0\n                else float(\"nan\"),\n            )\n        if w_total > 0:\n            metrics.log_derived(\n                \"wer\",\n                lambda meters: safe_round(\n                    meters[\"_w_errors\"].sum * 100.0 / meters[\"_w_total\"].sum, 3\n                )\n                if meters[\"_w_total\"].sum > 0\n                else float(\"nan\"),\n            )\n            metrics.log_derived(\n                \"raw_wer\",\n                lambda meters: safe_round(\n                    meters[\"_wv_errors\"].sum * 100.0 / meters[\"_w_total\"].sum, 3\n                )\n                if meters[\"_w_total\"].sum > 0\n                else float(\"nan\"),\n            )\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/criterions/multi_modality_cross_entropy.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport torch\n\nfrom fairseq import utils\nfrom fairseq.criterions import register_criterion\nfrom fairseq.criterions.label_smoothed_cross_entropy import (\n    LabelSmoothedCrossEntropyCriterion,\n    LabelSmoothedCrossEntropyCriterionConfig,\n    label_smoothed_nll_loss,\n)\n\n\n@register_criterion(\n    \"speech_text_pretrain_cross_entropy\",\n    dataclass=LabelSmoothedCrossEntropyCriterionConfig,\n)\nclass SpeechTextPreTrainCrossEntCriterion(LabelSmoothedCrossEntropyCriterion):\n    def __init__(self, task, sentence_avg, label_smoothing, report_accuracy=False):\n        super().__init__(\n            task, sentence_avg, label_smoothing, report_accuracy=report_accuracy\n        )\n\n    def forward(self, model, sample, reduce=True):\n        net_output = model(**sample[\"net_input\"])\n        loss, nll_loss, nsentences, ntokens, n_correct = self.compute_loss(\n            model, net_output, sample, reduce=reduce\n        )\n        sample_size = nsentences if self.sentence_avg else ntokens\n        logging_output = {\n            \"loss\": loss.data,\n            \"nll_loss\": nll_loss.data,\n            \"ntokens\": ntokens,\n            \"nsentences\": nsentences,\n            \"sample_size\": sample_size,\n        }\n        if self.report_accuracy:\n            logging_output[\"n_correct\"] = utils.item(n_correct)\n            logging_output[\"total\"] = utils.item(ntokens)\n        return loss, sample_size, logging_output\n\n    def get_lprobs_and_target(self, model, net_output, sample):\n        lprobs = model.get_normalized_probs(net_output, log_probs=True)\n        target = model.get_targets(sample, net_output)\n        assert self.ignore_prefix_size == 0\n        if self.ignore_prefix_size > 0:\n            if getattr(lprobs, \"batch_first\", False):\n                lprobs = lprobs[:, self.ignore_prefix_size :, :].contiguous()\n                target = target[:, self.ignore_prefix_size :].contiguous()\n            else:\n                lprobs = lprobs[self.ignore_prefix_size :, :, :].contiguous()\n                target = target[self.ignore_prefix_size :, :].contiguous()\n        return lprobs, target\n\n    def compute_loss(self, model, net_output, sample, reduce=True):\n        lprobs, target = self.get_lprobs_and_target(model, net_output, sample)\n        n_correct = 0\n        if isinstance(target, dict):\n            t_lprobs = target[\"target_logprobs\"]\n\n            if not lprobs.batch_first:\n                lprobs = lprobs.transpose(0, 1)\n                t_lprobs = t_lprobs.transpose(0, 1)\n            nsentences, seq_len = lprobs.size()[:2]\n            ntokens = nsentences * seq_len\n            t_probs = t_lprobs.exp()\n            mask_indices = (\n                net_output[1][\"mask_indices\"][0]\n                if len(net_output[1][\"mask_indices\"]) > 0\n                else None\n            )\n\n            # mask_indices is True for those masking frames\n            if mask_indices is not None:  # B X T\n                t_probs = t_probs.masked_fill(mask_indices.eq(False).unsqueeze(-1), 0)\n                ntokens = mask_indices.int().sum()\n            t_probs = t_probs.detach()\n            t_lprobs = t_lprobs.detach()\n            loss = (\n                -(t_probs * (lprobs - t_lprobs)).sum()\n                if reduce\n                else -(t_probs * (lprobs - t_lprobs)).sum(-1, keepdim=True)\n            )\n            nll_loss = loss\n        else:\n            nsentences = target.size(0)\n            mask = target.ne(self.padding_idx)\n            loss, nll_loss = label_smoothed_nll_loss(\n                lprobs.view(-1, lprobs.size(-1)),\n                target.view(-1),\n                self.eps,\n                ignore_index=self.padding_idx,\n                reduce=reduce,\n            )\n            n_correct = torch.sum(\n                lprobs.argmax(-1).masked_select(mask).eq(target.masked_select(mask))\n            )\n            ntokens = torch.sum(mask)\n        return loss, nll_loss, nsentences, ntokens, n_correct\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/criterions/text_guide_cross_entropy_acc.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport math\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.criterions.label_smoothed_cross_entropy import label_smoothed_nll_loss\nfrom fairseq.logging import metrics\n\n\n@register_criterion(\"guided_label_smoothed_cross_entropy_with_accuracy\")\nclass GuidedCrossEntAccCriterion(FairseqCriterion):\n    def __init__(\n        self,\n        task,\n        sentence_avg,\n        guide_alpha,\n        text_input_cost_ratio,\n        label_smoothing,\n        disable_text_guide_update_num=0,\n        attentive_cost_regularization=0,\n    ):\n        \"\"\"\n        guide_alpha:            alpha to inteplate nll and kd loss\n        text_input_cost_ratio:  loss ratio for text only input data\n        label_smoothing:        label smoothing ratio\n        disable_text_guide_update_num:  only use nll loss for the first N updates\n        attentive_cost_regularization:  ratio fo attentive cost\n        \"\"\"\n        super().__init__(task)\n        self.alpha = guide_alpha\n        self.attn_beta = attentive_cost_regularization\n        self.sentence_avg = sentence_avg\n        self.eps = label_smoothing\n        self.text_input_cost_ratio = text_input_cost_ratio\n        self.disable_update_num = disable_text_guide_update_num\n        assert self.alpha >= 0 and self.alpha <= 1.0\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add criterion-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--label-smoothing', default=0., type=float, metavar='D',\n                            help='epsilon for label smoothing, 0 means no label smoothing')\n        # fmt: off\n        parser.add_argument('--guide-alpha', default=0., type=float, metavar='D',\n                            help='alpha to merge kd cost from text to speech input with ce loss')\n        # fmt: off\n        parser.add_argument('--disable-text-guide-update-num', default=0, type=int, metavar='D',\n                            help='disable guided target from text for the first N updates.')\n        parser.add_argument(\"--attentive-cost-regularization\", default=0.0, type=float, metavar='D',\n                            help=\"use encoder attentive loss regularization with cost ratio D\")\n        parser.add_argument(\"--attentive-cost-without-normalize\", action='store_true',\n                            help=\"Don't do normalization during attentive cost computation\")\n\n    def forward(self, model, sample, reduce=True):\n        reduction = 'sum' if reduce else 'none'\n        net_input = sample[\"net_input\"]\n        net_output = model(**net_input)\n        attn_cost = None\n        lprobs = model.get_normalized_probs(net_output, log_probs=True)\n        is_dual_input = True if net_input['src_tokens'] is not None and net_input.get('src_txt_tokens') is not None else False\n        target = model.get_targets(sample, net_output)\n        src_token_num = 0\n        if is_dual_input:\n            # lprobs_spch from speech encoder and lprobs_text from text encoder\n            lprobs_spch, lprobs_text = torch.chunk(lprobs, 2)\n            lprobs_spch.batch_first = lprobs.batch_first\n            lprobs_text.batch_first = lprobs.batch_first\n\n            speech_loss, speech_nll_loss, speech_correct, speech_total = \\\n                self.guide_loss_and_acc(model, lprobs_spch, lprobs_text, target, reduce=(reduction == 'sum'))\n            text_loss, text_nll_loss, text_correct, text_total = self.compute_loss_and_acc(model, lprobs_text, target, reduction=reduction)\n            loss = (speech_loss + text_loss)\n            nll_loss = (speech_nll_loss + text_nll_loss)\n            correct = speech_correct + text_correct\n            total = speech_total + text_total\n\n            attn_cost = net_output[1].get('attn_cost')\n            if attn_cost is not None:\n                # attn_cost is batch_first and padding tokens have been masked already\n                src_token_num = attn_cost.ne(0).sum()\n                attn_cost = attn_cost.sum()\n                loss = loss + attn_cost * self.attn_beta\n            else:\n                attn_cost = 0\n        else:\n            loss, nll_loss, correct, total = self.compute_loss_and_acc(model, lprobs, target, reduction=reduction)\n            if sample[\"net_input\"]['src_tokens'] is None:   # text input only\n                loss = loss * self.text_input_cost_ratio\n            speech_loss = None\n            speech_nll_loss = None\n\n        sample_size, logging_output = self.get_logging_output(\n            sample, loss, nll_loss, correct, total, src_token_num, speech_loss, speech_nll_loss, attn_cost, is_dual_input\n        )\n        return loss, sample_size, logging_output\n\n    def compute_loss_and_acc(self, model, lprobs, target, reduction='sum'):\n        if not lprobs.batch_first:\n            lprobs = lprobs.transpose(0, 1)\n        lprobs = lprobs.view(-1, lprobs.size(-1))  # -> (B x T) x C\n        target = target.view(-1)\n        loss, nll_loss = label_smoothed_nll_loss(\n            lprobs, target, self.eps, ignore_index=self.padding_idx, reduce=(reduction == 'sum'),\n        )\n\n        mask = target.ne(self.padding_idx)\n        correct = torch.sum(lprobs.argmax(1).masked_select(mask).eq(target.masked_select(mask)))\n        total = torch.sum(mask)\n        return loss, nll_loss, correct, total\n\n    def guide_loss_and_acc(self, model, lprobs, lprobs_teacher, target, reduce=True):\n        \"\"\" lprobs_teacher is used as guide for lprobs \"\"\"\n        if self.alpha == 0.0 or model.num_updates < self.disable_update_num:\n            return self.compute_loss_and_acc(model, lprobs, target, reduction=('sum' if reduce else 'none'))\n        if not lprobs.batch_first:\n            lprobs = lprobs.transpose(0, 1)\n            lprobs_teacher = lprobs_teacher.transpose(0, 1)\n\n        lprobs = lprobs.view(-1, lprobs.size(-1)).float()  # -> (B x T) x C\n        lprobs_teacher = lprobs_teacher.view(-1, lprobs_teacher.size(-1)).float()  # -> (B x T) x C\n        target = target.view(-1)\n        loss = F.nll_loss(lprobs, target, ignore_index=self.padding_idx, reduction='sum' if reduce else 'none')\n        nll_loss = loss\n        probs_teacher = lprobs_teacher.exp().masked_fill_(target.unsqueeze(-1).eq(self.padding_idx), 0)\n        probs_teacher = probs_teacher.detach()\n        guide_loss = -(probs_teacher*lprobs).sum() if reduce else -(probs_teacher*lprobs).sum(-1, keepdim=True)\n        loss = self.alpha*guide_loss + (1.0 - self.alpha)*loss\n\n        mask = target.ne(self.padding_idx)\n        correct = torch.sum(lprobs.argmax(1).masked_select(mask).eq(target.masked_select(mask)))\n        total = torch.sum(mask)\n        return loss, nll_loss, correct, total\n\n    def get_logging_output(\n        self,\n        sample,\n        loss,\n        nll_loss,\n        correct,\n        total,\n        src_token_num=0,\n        speech_loss=None,\n        speech_nll_loss=None,\n        attn_cost=None,\n        is_dual_input=False,\n    ):\n\n        sample_size = (\n            sample[\"target\"].size(0) if self.sentence_avg else sample[\"ntokens\"]\n        )\n        mul_size = 2 if is_dual_input else 1\n\n        logging_output = {\n            \"loss\": utils.item(loss.data),  # * sample['ntokens'],\n            \"nll_loss\": utils.item(nll_loss.data),  # * sample['ntokens'],\n            \"ntokens\": sample[\"ntokens\"]*mul_size,\n            \"nsentences\": sample[\"target\"].size(0)*mul_size,\n            \"sample_size\": sample_size*mul_size,\n            \"correct\": utils.item(correct.data),\n            \"total\": utils.item(total.data),\n            \"src_token_num\": utils.item(src_token_num.data) if src_token_num > 0 else 0,\n            \"nframes\": torch.sum(sample[\"net_input\"][\"src_lengths\"]).item(),\n        }\n\n        if speech_loss is not None:\n            logging_output[\"speech_loss\"] = utils.item(speech_loss.data)\n            logging_output[\"speech_nll_loss\"] = utils.item(speech_nll_loss.data)\n            logging_output[\"sample_size_speech_cost\"] = sample_size\n            logging_output[\"speech_attn_loss\"] = attn_cost\n\n        return sample_size*mul_size, logging_output\n\n    @staticmethod\n    def aggregate_logging_outputs(logging_outputs):\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        correct_sum = sum(log.get(\"correct\", 0) for log in logging_outputs)\n        total_sum = sum(log.get(\"total\", 0) for log in logging_outputs)\n        src_token_sum = sum(log.get(\"src_token_num\", 0) for log in logging_outputs)\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n        nll_loss_sum = sum(log.get(\"nll_loss\", 0) for log in logging_outputs)\n        ntokens = sum(log.get(\"ntokens\", 0) for log in logging_outputs)\n        nsentences = sum(log.get(\"nsentences\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        nframes = sum(log.get(\"nframes\", 0) for log in logging_outputs)\n        speech_loss_sum = sum(log.get(\"speech_loss\", 0) for log in logging_outputs)\n        speech_nll_loss_sum = sum(log.get(\"speech_nll_loss\", 0) for log in logging_outputs)\n        speech_attn_loss_sum = sum(log.get(\"speech_attn_loss\", 0) for log in logging_outputs)\n        sample_size_speech = sum(log.get(\"sample_size_speech_cost\", 0) for log in logging_outputs)\n\n        agg_output = {\n            \"loss\": loss_sum / sample_size / math.log(2) if sample_size > 0 else 0.0,\n            \"nll_loss\": nll_loss_sum / sample_size / math.log(2) if sample_size > 0 else 0.0,\n            # if args.sentence_avg, then sample_size is nsentences, and loss\n            # is per-sentence loss; else sample_size is ntokens, and the loss\n            # becomes per-output token loss\n            \"speech_loss\": speech_loss_sum / sample_size_speech / math.log(2) if sample_size_speech > 0 else 0.0,\n            \"speech_nll_loss\": speech_nll_loss_sum / sample_size_speech / math.log(2) if sample_size_speech > 0 else 0.0,\n            \"speech_attn_loss\": speech_attn_loss_sum / src_token_sum / math.log(2) if src_token_sum > 0 else 0.0,\n            \"ntokens\": ntokens,\n            \"nsentences\": nsentences,\n            \"nframes\": nframes,\n            \"sample_size\": sample_size,\n            \"acc\": correct_sum * 100.0 / total_sum if total_sum > 0 else 0.0,\n            \"correct\": correct_sum,\n            \"total\": total_sum,\n            \"src_token_num\": src_token_sum,\n            # total is the number of validate tokens\n        }\n        return agg_output\n\n    @classmethod\n    def reduce_metrics(cls, logging_outputs):\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        agg_logging_outputs = cls.aggregate_logging_outputs(logging_outputs)\n        for k, v in agg_logging_outputs.items():\n            if k in {'nsentences', 'ntokens', 'sample_size'}:\n                continue\n            metrics.log_scalar(k, v, round=3)\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/data/pair_denoising_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport copy\nimport math\nimport re\n\nimport torch\n\nfrom fairseq.data import data_utils\nfrom fairseq.data.language_pair_dataset import LanguagePairDataset\n\n\n# Part of the code is modified from DenoisingDataset\n# compared with DenoisingDataset, no permute_sentences or documents (rotate_ratio, permute_sentence_ratio)\nclass LanguagePairDenoisingDataset(LanguagePairDataset):\n    def __init__(\n        self,\n        src,\n        src_sizes,\n        src_dict,\n        tgt,\n        tgt_sizes,\n        tgt_dict,\n        mask_idx,\n        mask_whole_words,\n        seed,\n        args,\n        left_pad_source=True,\n        left_pad_target=False,\n        shuffle=True,\n        input_feeding=True,\n        remove_eos_from_source=False,\n        append_eos_to_target=False,\n        align_dataset=None,\n        constraints=None,\n        append_bos=False,\n        eos=None,\n        num_buckets=0,\n        src_lang_id=None,\n        tgt_lang_id=None,\n        pad_to_multiple=1,\n    ):\n        super().__init__(\n            src,\n            src_sizes,\n            src_dict,\n            tgt,\n            tgt_sizes,\n            tgt_dict,\n            left_pad_source,\n            left_pad_target,\n            shuffle,\n            input_feeding,\n            remove_eos_from_source,\n            append_eos_to_target,\n            align_dataset,\n            constraints,\n            append_bos,\n            eos,\n            num_buckets,\n            src_lang_id,\n            tgt_lang_id,\n            pad_to_multiple,\n        )\n\n        self.mask_idx = mask_idx\n        self.mask_whole_word = mask_whole_words\n        self.mask_ratio = args.mask\n        self.random_ratio = args.mask_random\n        self.insert_ratio = args.insert\n\n        self.replace_length = args.replace_length\n\n        if self.replace_length not in [-1, 0, 1]:\n            raise ValueError(f\"invalid arg: replace_length={self.replace_length}\")\n        if args.mask_length not in [\"subword\", \"word\", \"span-poisson\"]:\n            raise ValueError(f\"invalid arg: mask-length={args.mask_length}\")\n        if args.mask_length == \"subword\" and args.replace_length not in [0, 1]:\n            raise ValueError(\"if using subwords, use replace-length=1 or 0\")\n\n        self.mask_span_distribution = None\n        if args.mask_length == \"span-poisson\":\n            # Text infilling: \"A number of text spans are sampled, with span lengths drawn from a Poisson distribution (λ = 3). Each span is replaced with a single [MASK] token. 0-length spans correspond to the insertion of [MASK] tokens.\"\n            _lambda = args.poisson_lambda\n\n            lambda_to_the_k = 1\n            e_to_the_minus_lambda = math.exp(-_lambda)\n            k_factorial = 1\n            ps = []\n            for k in range(0, 128):\n                ps.append(e_to_the_minus_lambda * lambda_to_the_k / k_factorial)\n                lambda_to_the_k *= _lambda\n                k_factorial *= k + 1\n                if ps[-1] < 0.0000001:\n                    break\n            ps = torch.FloatTensor(ps)\n            self.mask_span_distribution = torch.distributions.Categorical(ps)\n\n        self.epoch = 0\n        self.seed = seed\n\n        def _is_phoneme(x):\n            if re.search(\"<lang:\", x) or x in (\n                \"<mask>\",\n                \"<sil>\",\n                \"<pad>\",\n                \"<s>\",\n                \"</s>\",\n                \"<unk>\",\n            ):\n                return False\n            return True\n\n        self.voc_valid_ids = torch.LongTensor(\n            [i for i, x in enumerate(self.src_dict.symbols) if _is_phoneme(x)]\n        )\n        self.voc_valid_size = self.voc_valid_ids.size(0)\n\n    @property\n    def can_reuse_epoch_itr_across_epochs(self):\n        return False\n\n    def set_epoch(self, epoch, **unused):\n        self.epoch = epoch\n\n    def __getitem__(self, index):\n        tgt_item = self.tgt[index] if self.tgt is not None else None\n        src_item = copy.deepcopy(self.src[index])\n        with data_utils.numpy_seed(self.seed, self.epoch, index):\n            source = src_item\n            assert source[-1] == self.eos\n            if self.mask_ratio > 0:\n                source = self.add_whole_word_mask(source, self.mask_ratio)\n\n            if self.insert_ratio > 0:\n                source = self.add_insertion_noise(source, self.insert_ratio)\n            src_item = source\n\n        if self.append_eos_to_target:\n            eos = self.tgt_dict.eos() if self.tgt_dict else self.src_dict.eos()\n            if self.tgt and self.tgt[index][-1] != eos:\n                tgt_item = torch.cat([self.tgt[index], torch.LongTensor([eos])])\n\n        if self.append_bos:\n            bos = self.tgt_dict.bos() if self.tgt_dict else self.src_dict.bos()\n            if self.tgt and self.tgt[index][0] != bos:\n                tgt_item = torch.cat([torch.LongTensor([bos]), self.tgt[index]])\n\n            bos = self.src_dict.bos()\n            if src_item[0] != bos:\n                src_item = torch.cat([torch.LongTensor([bos]), src_item])\n\n        if self.remove_eos_from_source:\n            eos = self.src_dict.eos()\n            if src_item[-1] == eos:\n                src_item = src_item[:-1]\n\n        example = {\n            \"id\": index,\n            \"source\": src_item,\n            \"target\": tgt_item,\n        }\n        if self.align_dataset is not None:\n            example[\"alignment\"] = self.align_dataset[index]\n        if self.constraints is not None:\n            example[\"constraints\"] = self.constraints[index]\n        if self.src_lang_id is not None:\n            example[\"src_lang_id\"] = self.src_lang_id\n        if self.tgt_lang_id is not None:\n            example[\"tgt_lang_id\"] = self.tgt_lang_id\n        return example\n\n    # following functions are borrowed from denoising_dataset\n    def word_starts(self, source):\n        if self.mask_whole_word is not None:\n            is_word_start = self.mask_whole_word.gather(0, source)\n        else:\n            is_word_start = torch.ones(source.size())\n        is_word_start[0] = 0\n        is_word_start[-1] = 0\n        return is_word_start\n\n    def add_whole_word_mask(self, source, p):\n        is_word_start = self.word_starts(source)\n        num_to_mask = int(math.ceil(is_word_start.float().sum() * p))\n        num_inserts = 0\n        if num_to_mask == 0:\n            return source\n\n        if self.mask_span_distribution is not None:\n            lengths = self.mask_span_distribution.sample(sample_shape=(num_to_mask,))\n\n            # Make sure we have enough to mask\n            cum_length = torch.cumsum(lengths, 0)\n            while cum_length[-1] < num_to_mask:\n                lengths = torch.cat(\n                    [\n                        lengths,\n                        self.mask_span_distribution.sample(sample_shape=(num_to_mask,)),\n                    ],\n                    dim=0,\n                )\n                cum_length = torch.cumsum(lengths, 0)\n\n            # Trim to masking budget\n            i = 0\n            while cum_length[i] < num_to_mask:\n                i += 1\n            lengths[i] = num_to_mask - (0 if i == 0 else cum_length[i - 1])\n            num_to_mask = i + 1\n            lengths = lengths[:num_to_mask]\n\n            # Handle 0-length mask (inserts) separately\n            lengths = lengths[lengths > 0]\n            num_inserts = num_to_mask - lengths.size(0)\n            num_to_mask -= num_inserts\n            if num_to_mask == 0:\n                return self.add_insertion_noise(source, num_inserts / source.size(0))\n\n            assert (lengths > 0).all()\n        else:\n            lengths = torch.ones((num_to_mask,)).long()\n        assert is_word_start[-1] == 0\n        word_starts = is_word_start.nonzero(as_tuple=False)\n        indices = word_starts[\n            torch.randperm(word_starts.size(0))[:num_to_mask]\n        ].squeeze(1)\n        mask_random = torch.FloatTensor(num_to_mask).uniform_() < self.random_ratio\n\n        source_length = source.size(0)\n        assert source_length - 1 not in indices\n        to_keep = torch.ones(source_length, dtype=torch.bool)\n        is_word_start[\n            -1\n        ] = 255  # acts as a long length, so spans don't go over the end of doc\n        if self.replace_length == 0:\n            to_keep[indices] = 0\n        else:\n            # keep index, but replace it with [MASK]\n            source[indices] = self.mask_idx\n            source[indices[mask_random]] = self.voc_valid_ids[\n                torch.randint(0, self.voc_valid_size - 1, size=(mask_random.sum(),))\n            ]\n\n        if self.mask_span_distribution is not None:\n            assert len(lengths.size()) == 1\n            assert lengths.size() == indices.size()\n            lengths -= 1\n            while indices.size(0) > 0:\n                assert lengths.size() == indices.size()\n                lengths -= is_word_start[indices + 1].long()\n                uncompleted = lengths >= 0\n                indices = indices[uncompleted] + 1\n                mask_random = mask_random[uncompleted]\n                lengths = lengths[uncompleted]\n                if self.replace_length != -1:\n                    # delete token\n                    to_keep[indices] = 0\n                else:\n                    # keep index, but replace it with [MASK]\n                    source[indices] = self.mask_idx\n                    source[indices[mask_random]] = self.voc_valid_ids[\n                        torch.randint(\n                            0, self.voc_valid_size - 1, size=(mask_random.sum(),)\n                        )\n                    ]\n        else:\n            # A bit faster when all lengths are 1\n            while indices.size(0) > 0:\n                uncompleted = is_word_start[indices + 1] == 0\n                indices = indices[uncompleted] + 1\n                mask_random = mask_random[uncompleted]\n                if self.replace_length != -1:\n                    # delete token\n                    to_keep[indices] = 0\n                else:\n                    # keep index, but replace it with [MASK]\n                    source[indices] = self.mask_idx\n                    source[indices[mask_random]] = self.voc_valid_ids[\n                        torch.randint(\n                            0, self.voc_valid_size - 1, size=(mask_random.sum(),)\n                        )\n                    ]\n\n                assert source_length - 1 not in indices\n\n        source = source[to_keep]\n\n        if num_inserts > 0:\n            source = self.add_insertion_noise(source, num_inserts / source.size(0))\n\n        return source\n\n    def add_insertion_noise(self, tokens, p):\n        if p == 0.0:\n            return tokens\n\n        num_tokens = len(tokens)\n        n = int(math.ceil(num_tokens * p))\n\n        noise_indices = torch.randperm(num_tokens + n - 2)[:n] + 1\n        noise_mask = torch.zeros(size=(num_tokens + n,), dtype=torch.bool)\n        noise_mask[noise_indices] = 1\n        result = torch.LongTensor(n + len(tokens)).fill_(-1)\n\n        num_random = int(math.ceil(n * self.random_ratio))\n        result[noise_indices[num_random:]] = self.mask_idx\n        result[noise_indices[:num_random]] = self.voc_valid_ids[\n            torch.randint(0, self.voc_valid_size - 1, size=(num_random,))\n        ]\n\n        result[~noise_mask] = tokens\n\n        assert (result >= 0).all()\n        return result\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/docs/ende-mustc.md",
    "content": "[[Back]](..)\n\n# Joint Speech Text Training for the MuST-C English to German Speech Translation task\n\nJoint Training Baseline: it is based on paper [\"A general multi-task learning framework to leverage text data for speech to text tasks\"](https://arxiv.org/pdf/2010.11338.pdf)\n\nEnhanced Joint Training: the joint training is enhanced with pre-trained models, cross attentive regularization and online knowledge distillation based on paper [\"Improving Speech Translation by Understanding and Learning from the Auxiliary Text Translation Task\"](https://research.fb.com/publications/improving-speech-translation-by-understanding-and-learning-from-the-auxiliary-text-translation-task)\n\n## Prepare Data\n#### Download files\n-   Sentence piece model [spm.model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/must_c/en_de/spm.model)\n-   Dictionary [dict.txt](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/must_c/en_de/dict.txt)\n-   config [config.yaml](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/must_c/en_de/config.yaml)\n#### Prepare MuST-C data set\n-   Please follow the data preparation in the [S2T example](https://github.com/pytorch/fairseq/blob/main/examples/speech_to_text/docs/mustc_example.md)\n-   Convert source text under the \"src_text\" column in the tsv file into phoneme representation.\n```bash\n    python examples/speech_text_joint_to_text/scripts/g2p_encode.py \\\n        --lower-case --do-filter --use-word-start --no-punc \\\n        --reserve-word examples/speech_text_joint_to_text/configs/mustc_noise.list \\\n        --data-path ${must_c_en_de_src_text} \\\n        --out-path ${must_c_en_de_src_text_pho}\n```\n-   Replace the source text under the \"src_text\" column in the tsv file with the corresponding phoneme reprentation generated in the step above.\nBelow is the snapshot for the MuST-C en-de dev tsv\n```\nid  audio   n_frames    tgt_text    src_text    speaker\nted_767_0   en-de/flac.zip:10071514743:48445    56160   Heute spreche ich zu Ihnen über Energie und Klima.  ▁AY1 M ▁G OW1 IH0 NG ▁T UW1 ▁T AO1 K ▁T AH0 D EY1 ▁AH0 B AW1 T ▁EH1 N ER0 JH IY0 ▁AH0 N D ▁K L AY1 M AH0 T  spk.767_\nted_767_1   en-de/flac.zip:1214217978:205678    226080  Und das überrascht vielleicht etwas, weil sich meine Vollzeitbeschäftigung bei der Stiftung hauptsächlich um Impfstoffe und Saatgut dreht, um die Dinge, die wir erfinden und liefern müssen um den ärmsten 2 Milliarden ein besseres Leben zu ermöglichen. ▁AH0 N D ▁DH AE1 T ▁M AY1 T ▁S IY1 M ▁AH0 ▁B IH1 T ▁S ER0 P R AY1 Z IH0 NG ▁B IH0 K AO1 Z ▁M AY1 ▁F UH1 L ▁T AY1 M ▁W ER1 K ▁AE1 T ▁DH AH0 ▁F AW0 N D EY1 SH AH0 N ▁IH1 Z ▁M OW1 S T L IY0 ▁AH0 B AW1 T ▁V AE2 K S IY1 N Z ▁AH0 N D ▁S IY1 D Z ▁AH0 B AW1 T ▁DH AH0 ▁TH IH1 NG Z ▁DH AE1 T ▁W IY1 ▁N IY1 D ▁T UW1 ▁IH0 N V EH1 N T ▁AH0 N D ▁D IH0 L IH1 V ER0 ▁T UW1 ▁HH EH1 L P ▁DH AH0 ▁P UH1 R IH0 S T ▁T UW1 ▁B IH1 L Y AH0 N ▁L AY1 V ▁B EH1 T ER0 ▁L IH1 V Z spk.767_\n```\n-   Prepare phoneme dictionary and save to $MANIFEST_ROOT as [src_dict.txt](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/must_c/en_de/src_dict.txt)\n#### Prepare WMT text data\n-   [Download wmt data](https://github.com/pytorch/fairseq/blob/main/examples/translation/prepare-wmt14en2de.sh)\n-   Convert source text (English) into phoneme representation as above\n-   Generate binary parallel files with \"fairseq-preprocess\" from fairseq for training and validation. The source input is English phoneme representation and the target input is German sentencepiece token .  The output is saved under $parallel_text_data\n\n## Training\nThe model is trained with 8 v100 GPUs.\n\n#### Download pretrained models\n-    [pretrain_encoder](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_joint_asr_transformer_m.pt)\n-    [pretrain_nmt](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/must_c/en_de/checkpoint_mt.pt)\n\n#### Training scripts\n- Jointly trained model from scratch\n```bash\npython train.py ${MANIFEST_ROOT} \\\n    --save-dir ${save_dir} \\\n    --num-workers 8 \\\n    --task speech_text_joint_to_text \\\n    --arch dualinputs2ttransformer_s \\\n    --user-dir examples/speech_text_joint_to_text \\\n    --max-epoch 100 --update-mix-data \\\n    --optimizer adam --lr-scheduler inverse_sqrt \\\n    --lr 0.001 --update-freq 4 --clip-norm 10.0 \\\n    --criterion guided_label_smoothed_cross_entropy_with_accuracy \\\n    --label-smoothing 0.1 --max-tokens 10000 --max-tokens-text 10000 \\\n    --max-positions-text 400 --seed 2 --speech-encoder-layers 12 \\\n    --text-encoder-layers 6 --encoder-shared-layers 6 --decoder-layers 6 \\\n    --dropout 0.1 --warmup-updates 20000  \\\n    --text-sample-ratio 0.25 --parallel-text-data ${parallel_text_data} \\\n    --text-input-cost-ratio 0.5 --enc-grad-mult 2.0 --add-speech-eos \\\n    --log-format json --langpairs en-de --noise-token '\"'\"'▁NOISE'\"'\"' \\\n    --mask-text-ratio 0.0 --max-tokens-valid 20000 --ddp-backend no_c10d \\\n    --log-interval 100 --data-buffer-size 50 --config-yaml config.yaml \\\n    --keep-last-epochs 10\n```\n- Jointly trained model with good initialization, cross attentive loss and online knowledge distillation\n```bash\npython train.py ${MANIFEST_ROOT} \\\n    --save-dir ${save_dir} \\\n    --num-workers 8 \\\n    --task speech_text_joint_to_text \\\n    --arch dualinputs2ttransformer_m \\\n    --user-dir examples/speech_text_joint_to_text \\\n    --max-epoch 100 --update-mix-data \\\n    --optimizer adam --lr-scheduler inverse_sqrt \\\n    --lr 0.002 --update-freq 4 --clip-norm 10.0 \\\n    --criterion guided_label_smoothed_cross_entropy_with_accuracy \\\n    --guide-alpha 0.8 --disable-text-guide-update-num 5000 \\\n    --label-smoothing 0.1 --max-tokens 10000 --max-tokens-text 10000 \\\n    --max-positions-text 400 --seed 2 --speech-encoder-layers 12 \\\n    --text-encoder-layers 6 --encoder-shared-layers 6 --decoder-layers 6 \\\n    --dropout 0.1 --warmup-updates 20000 --attentive-cost-regularization 0.02 \\\n    --text-sample-ratio 0.25 --parallel-text-data ${parallel_text_data} \\\n    --text-input-cost-ratio 0.5 --enc-grad-mult 2.0 --add-speech-eos \\\n    --log-format json --langpairs en-de --noise-token '\"'\"'▁NOISE'\"'\"' \\\n    --mask-text-ratio 0.0 --max-tokens-valid 20000 --ddp-backend no_c10d \\\n    --log-interval 100 --data-buffer-size 50 --config-yaml config.yaml \\\n    --load-pretrain-speech-encoder ${pretrain_encoder} \\\n    --load-pretrain-decoder ${pretrain_nmt} \\\n    --load-pretrain-text-encoder-last ${pretrain_nmt} \\\n    --keep-last-epochs 10\n```\n\n## Evaluation\n```bash\npython ./fairseq_cli/generate.py \\\n        ${MANIFEST_ROOT} \\\n        --task speech_text_joint_to_text \\\n        --max-tokens 25000 \\\n        --nbest 1 \\\n        --results-path ${infer_results} \\\n        --batch-size 512 \\\n        --path ${model} \\\n        --gen-subset tst-COMMON_st \\\n        --config-yaml config.yaml \\\n        --scoring sacrebleu \\\n        --beam 5 --lenpen 1.0 \\\n        --user-dir examples/speech_text_joint_to_text \\\n        --load-speech-only\n```\n\n## Results (Joint training with initialization + CAR + online KD)\n|Direction|En-De | En-Es | En-Fr |\n|---|---|---|---|\n|BLEU|27.4| 31.2 | 37.6 |\n|checkpoint | [link](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/must_c/en_de/checkpoint_ave_10.pt) |[link](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/must_c/en_es/checkpoint_ave_10.pt)|[link](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/must_c/en_fr/checkpoint_ave_10.pt)|\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/docs/iwslt2021.md",
    "content": "[[Back]](..)\n\n# Joint Speech Text Training for the 2021 IWSLT multilingual speech translation\n\nThis directory contains the code from paper [\"FST: the FAIR Speech Translation System for the IWSLT21 Multilingual Shared Task\"](https://arxiv.org/pdf/2107.06959.pdf).\n\n## Prepare Data\n#### Download files\n-   Sentence piece model [spm.model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/iwslt/iwslt_data/spm.model)\n-   Dictionary [tgt_dict.txt](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/iwslt/iwslt_data/dict.txt)\n-   Config [config.yaml](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/iwslt/iwslt_data/config.yaml)\n\n#### Prepare\n-   Please follow the data preparation in [speech-to-text](https://github.com/pytorch/fairseq/blob/main/examples/speech_to_text/docs/mtedx_example.md) with option \"--use-audio-input\" for raw audio tsv files. \n-   Prepare tsv files with phoneme based source text (under column 'src_text') as [MuST-C](ende-mustc.md) example.\n\n\n## Training\n\n#### Download pretrained models\n- [Pretrained mbart model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/iwslt/iwslt_data/mbart.pt)\n- [Pretrained w2v model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/iwslt/iwslt_data/xlsr_53_56k.pt)\n\n\n#### Training scripts\n\n```bash\npython train.py ${MANIFEST_ROOT} \\\n    --save-dir ${save_dir} \\\n    --user-dir examples/speech_text_joint_to_text \\\n    --train-subset train_es_en_tedx,train_es_es_tedx,train_fr_en_tedx,train_fr_es_tedx,train_fr_fr_tedx,train_it_it_tedx,train_pt_en_tedx,train_pt_pt_tedx \\\n    --valid-subset valid_es_en_tedx,valid_es_es_tedx,valid_es_fr_tedx,valid_es_it_tedx,valid_es_pt_tedx,valid_fr_en_tedx,valid_fr_es_tedx,valid_fr_fr_tedx,valid_fr_pt_tedx,valid_it_en_tedx,valid_it_es_tedx,valid_it_it_tedx,valid_pt_en_tedx,valid_pt_es_tedx,valid_pt_pt_tedx \\\n    --config-yaml config.yaml --ddp-backend no_c10d \\\n    --num-workers 2 --task speech_text_joint_to_text \\\n    --criterion guided_label_smoothed_cross_entropy_with_accuracy \\\n    --label-smoothing 0.3 --guide-alpha 0.8 \\\n    --disable-text-guide-update-num 5000 --arch dualinputxmtransformer_base \\\n    --max-tokens 500000 --max-sentences 3 --max-tokens-valid 800000 \\\n    --max-source-positions 800000 --enc-grad-mult 2.0 \\\n    --attentive-cost-regularization 0.02 --optimizer adam \\\n    --clip-norm 1.0 --log-format simple --log-interval 200 \\\n    --keep-last-epochs 5 --seed 1 \\\n    --w2v-path ${w2v_path} \\\n    --load-pretrained-mbart-from ${mbart_path} \\\n    --max-update 1000000 --update-freq 4 \\\n    --skip-invalid-size-inputs-valid-test \\\n    --skip-encoder-projection --save-interval 1 \\\n    --attention-dropout 0.3 --mbart-dropout 0.3 \\\n    --finetune-w2v-params all --finetune-mbart-decoder-params all \\\n    --finetune-mbart-encoder-params all --stack-w2v-mbart-encoder \\\n    --drop-w2v-layers 12 --normalize \\\n    --lr 5e-05 --lr-scheduler inverse_sqrt --warmup-updates 5000\n```\n\n## Evaluation\n```bash\npython ./fairseq_cli/generate.py\n   ${MANIFEST_ROOT} \\\n   --task speech_text_joint_to_text \\\n   --user-dir ./examples/speech_text_joint_to_text \\\n   --load-speech-only  --gen-subset  test_es_en_tedx \\\n   --path  ${model}  \\\n   --max-source-positions 800000 \\\n   --skip-invalid-size-inputs-valid-test \\\n   --config-yaml config.yaml \\\n   --infer-target-lang en  \\\n   --max-tokens 800000 \\\n   --beam 5 \\\n   --results-path ${RESULTS_DIR}  \\\n   --scoring sacrebleu\n```\nThe trained model can be downloaded [here](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/iwslt/iwslt_data/checkpoint17.pt)\n\n|direction|es_en|fr_en|pt_en|it_en|fr_es|pt_es|it_es|es_es|fr_fr|pt_pt|it_it|\n|---|---|---|---|---|---|---|---|---|---|---|---|\n|BLEU|31.62|36.93|35.07|27.12|38.87|35.57|34.13|74.59|74.64|70.84|69.76|\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/docs/pre-training.md",
    "content": "[[Back]](..)\n\n# Unified Speech-Text Pre-training for Speech Translation and Recognition\n\nThis directory contains the  pre-training recipes from paper [\"Unified Speech-Text Pre-training for Speech Translation and Recognition\"](https://arxiv.org/abs/2204.05409).\n\n## Librispeech ASR Pre-training\n### Prepare Data\n#### Download files\n#### Prepare pre-training data\n-   Text to text task (T2T): prepare the binary data following the similar steps in [EN_DE Joint training](./ende-mustc.md). The source  data is presented as phomeme token sequence and the target  data is coded as subword tokens via SentencePiece. The text data is downloaded from [openslr](https://www.openslr.org/12)\n-   Self-supervised speech learning task (SSL): The data is prepared as [wav2vec 2.0](https://github.com/pytorch/fairseq/tree/main/examples/wav2vec/README.md)\n-   Speech to phoneme classification task (S2P): The tsv file contains 5 fields: \"id\",  \"audio\",   \"n_frames\",    \"tgt_text\",  and  \"align\". The tgt_text field is corresponding to the phoneme based representation of the speech data. \"align\" field contains the alignment information. The phoneme level forced alignment for the labelled speech data (i.e. Librispeech) can be obtained via [kaldi](http://kaldi-asr.org) or [MFA](https://montrealcorpustools.github.io/Montreal-Forced-Aligner/). The segmentation information is normalized to 0$\\sim$1 for the whole utterance. The snapshot of the tsv file is below:\n```\nid  audio   n_frames    tgt_text    align\n116-288045-0000 /librispeech/dev-other/116/288045/116-288045-0000.flac    170400  <sil> ▁AE1 Z AY1 ▁AH0 P R OW1 CH T ▁DH AH1 ▁S IH1 T IY0 <sil> AY1 ▁HH ER1 D ▁B EH1 L Z ▁R IH1 NG IH0 NG <sil> ▁AE1 N D AH0 ▁L IH1 T AH0 L ▁L EY1 T ER0 AY1 ▁F AW1 N D ▁DH AH0 ▁S T R IY1 T S ▁AH0 S T IH1 R ▁W IH0 TH ▁TH R AO1 NG Z ▁AH0 V ▁W EH1 L ▁D R EH1 S T ▁P IY1 P AH0 L ▁IH1 N ▁F AE1 M L IY0 ▁G R UW1 P S <sil> ▁W EH1 N D IH0 NG ▁DH EH1 R ▁W EY1 <sil> ▁HH IH1 DH ER0 ▁AH0 N D ▁TH IH1 DH ER0 <sil> 0.047977 0.056444 0.064911 0.075259 0.081844 0.089370 0.095014 0.104421 0.109125 0.111947 0.115710 0.120414 0.134525 0.141110 0.143932 0.174036 0.176858 0.190028 0.199436 0.207902 0.218250 0.224835 0.231421 0.242709 0.251176 0.257761 0.263405 0.268109 0.270931 0.290687 0.342427 0.349953 0.353716 0.356538 0.360301 0.363123 0.365945 0.368768 0.371590 0.376294 0.384760 0.394167 0.401693 0.409219 0.419567 0.430856 0.441204 0.444026 0.446849 0.449671 0.456256 0.463782 0.471308 0.477893 0.486359 0.491063 0.494826 0.501411 0.512700 0.517404 0.520226 0.534337 0.540922 0.545626 0.550329 0.559737 0.568203 0.583255 0.592662 0.600188 0.603951 0.611477 0.619003 0.624647 0.634055 0.639699 0.646284 0.653810 0.659454 0.664158 0.670743 0.682032 0.687676 0.692380 0.708373 0.713076 0.719661 0.729069 0.740357 0.744120 0.748824 0.752587 0.761994 0.770461 0.781750 0.790216 0.805268 0.808090 0.823142 0.832549 0.836312 0.840075 0.843838 0.851364 0.854186 0.857008 0.862653 0.878645 0.898401 0.901223 0.906867 0.913452 0.920038 0.926623 0.934149 0.939793 0.942615 0.945437 0.952023 0.957667 0.977422 1.000000\n\n```\n-   Speech to text task (S2T): The data preparation follow the steps in [EN_DE Joint training](./ende-mustc.md).\n\n#### Prepare fine-tuning data:\nWe re-use the data from T2T and S2T tasks in the fine-tuning stage.\n\n### Model Build\n#### Pre-training\n```\npython train.py  $T2T_DATA \\\n    --save-dir $SAVE_PRE_PATH --user-dir examples/speech_text_joint_to_text --task speech_text_joint_denoising \\\n    --criterion speech_text_pretrain_cross_entropy --optimizer adam --weight-decay 0.01 --config-yaml config_s2p.yaml --config-s2s-yaml config.yaml --ddp-backend no_c10d \\\n    --lang-pairs pho-wrd --num-workers 4 --log-interval 500 --save-interval-updates 5000 --keep-interval-updates 1 --no-emb-update-unsup --report-accuracy --lr 0.001 --end-learning-rate 1e-06 \\\n    --lr-scheduler polynomial_decay --warmup-updates 10000 --total-num-update 800000 --update-freq 6 --validate-interval-updates 10000 --train-subset train \\\n    --valid-subset valid,valid_sup_speech,valid_sup_speech_s2s,valid_unsup_speech --dataset-impl mmap \\\n    --sup-speech-data $S2P_DATA_PATH --sup-speech-train-subset train_960.ali --sup-speech-valid-subset dev-clean.ali --sup-speech-s2s-data $S2T_DATA_PATH \\\n    --sup-speech-s2s-train-subset train --sup-speech-s2s-valid-subset dev-clean --unsup-speech-train-data $SSL_DATA_PATH/train.tsv --unsup-speech-valid-data $SSL_DATA_PATH/valid.tsv \\\n    --batch-size 200 --batch-size-valid 150 --max-source-positions 1024 --max-target-positions 1024 --max-text-tokens 3072 --max-speech-positions 600000 \\\n    --max-sample-size 750000 --min-sample-size 64000 --max-speech-tokens 750000 --max-tokens-valid 750000 --skip-invalid-size-inputs-valid-test \\\n    --unsupervised-speech-sample-ratio 3.0 --supervised-speech-sample-ratio 5 --supervised-speech-s2s-sample-ratio 5 --text-sample-ratio 1.0 --mask 0.3 --mask-random 0.1 \\\n    --mask-length span-poisson --speech-sup-mask-prob 0.3 --speech-unsup-mask-prob 0.7 --use-mask-whole-words --arch speech_text_pretrain_bart_base_stack \\\n    --no-scale-feature --activation-fn gelu --speech-extractor-mode default --stacked-encoder all --encoder-normalize-before --decoder-normalize-before \\\n    --encoder-learned-pos --decoder-learned-pos --dropout 0.1 --load-pretrained-mbart-encoder-from $BART --load-pretrained-mbart-decoder-from $BART\n```\nThe current implementation also supports model pre-training without the forced alignment supervised data. In this case, CTC is used to optimize the S2P task. We need to do following changes for the setting:\n1. options to be added\n```\n--use-sup-speech-ctc --criterion speech_text_pretrain_compound\n```\n2. options to be deleted\n```\n--same-data-update --criterion speech_text_pretrain_cross_entropy\n```\nHowever, we find the CTC based pre-training is still worse than the forced alignment based setting. It could be partially due to the inferior pre-training setting that we re-use the forced alignment based pre-training setting for the CTC based pre-training.\n\n#### Fine-tuning\n```\npython train.py  $S2T_DATA_PATH \\\n    --save-dir $SAVE_FT_PATH  --num-workers 8 --task speech_text_joint_to_text --arch dualinputs2twavtransformer_base_stack \\\n    --user-dir examples/speech_text_joint_to_text --max-update 100000 --optimizer adam --lr-scheduler inverse_sqrt --lr 0.0003 --update-freq 3 --clip-norm 10.0 \\\n    --criterion guided_label_smoothed_cross_entropy_with_accuracy --guide-alpha 0.8 --label-smoothing 0.1 --warmup-updates 20000 --attentive-cost-regularization 0.02 \\\n    --enc-grad-mult 2.0 --max-tokens 800000 --max-source-positions 800000 --max-tokens-text 10000 --max-positions-text 1024 --max-target-positions 1024 --no-scale-feature \\\n    --activation-fn gelu --load-pretrained-speech-text-encoder $SAVE_PRE_PATH/checkpoint_last.pt --load-pretrained-speech-text-decoder $SAVE_PRE_PATH/checkpoint_last.pt \\\n    --encoder-normalize-before --decoder-normalize-before --speech-extractor-mode default --speech-mask-channel-length 64 --speech-mask-channel-prob 0.5 \\\n    --speech-mask-length 10 --speech-mask-prob 0.65 --text-sample-ratio 0.25 --mask-text-ratio 0.3 --mask-text-type random --parallel-text-data text_bin \\\n    --text-input-cost-ratio 0.5 --langpairs pho-wrd --update-mix-data --log-format json --max-tokens-valid 800000 --ddp-backend no_c10d --log-interval 500 \\\n    --config-yaml config.yaml --skip-invalid-size-inputs-valid-test --keep-last-epochs 50 --layernorm-embedding --encoder-learned-pos --decoder-learned-pos\n```\n\n### Evaluation\nThe last 10 epoch models from fine-tuning is conducted model average to get $FINAL_MODEL\n```\npython ./fairseq_cli/generate.py \\\n    $S2T_DATA_PATH \\\n    --task speech_text_joint_to_text \\\n    --max-tokens 800000  \\\n    --max-source-positions 800000 \\\n    --nbest 1 \\\n    --results-path $RESULTS_LOG \\\n    --batch-size 512 \\\n    --path $FINAL_MODEL \\\n    --gen-subset $SUBSET \\\n    --config-yaml config.yaml \\\n    --scoring wer \\\n    --beam 10 --lenpen 1.0 examples/speech_text_joint_to_text \\\n    --user-dir examples/speech_text_joint_to_text --load-speech-only \\\n    --model-overrides {'load_pretrained_speech_text_decoder':'','load_pretrained_speech_text_encoder':''}\n```\n\n### Results and models\n| | dev-clean | dev-other | test-clean | test-other |\n|---|---|---|---|---|\n| WER| 2.0 | 4.4 | 2.1 |4.6 |\n\n**Model Links**:\n-   [config_s2p.yaml](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/librispeech/pretrain/config_s2p.yaml): Config for S2P\n-   [spm.model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/librispeech/finetuned/spm.model): Sentence Piece model\n-   [src_dict.txt](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/librispeech/finetuned/src_dict.txt): Source Phoneme Dictionary\n-   [tgt_dict.txt](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/librispeech/finetuned/tgt_dict.txt): Target Sentence Piece Dictionary\n-   [config.yaml](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/librispeech/finetuned/config.yaml): Config for S2T\n-   [BART](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/librispeech/pretrain/bart.pt): trained from Librispeech text data\n-   [Joint Pre-trained model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/librispeech/pretrain/checkpoint6.pt): model pre-trained with 960 hours Librispeech data (S2P, S2T) Librispeech text training data (T2T) and Librilight data (SSL)\n-   [Fine-tuned model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/librispeech/finetuned/checkpoint_ave_10.pt): the pre-trained model is fined one 960 hours Librispeech speech and text data. (S2T + T2T)\n\n## MuST-C\n### Prepare Data\nCompared with the ASR Librispeech ASR recipe, the differences are below:\n-   Replace the speech data with corresponding MuST-C data\n-   Parallel text data from WMT is replaced the Librispeech text data\n\n### Model Build\n#### Pre-training\nEN-DE is used as an example\n```\npython train.py  $TXT_DATA \\\n    --save-dir $SAVE_PRE_PATH  --user-dir examples/speech_text_joint_to_text --task speech_text_joint_denoising --criterion speech_text_pretrain_cross_entropy --optimizer adam --weight-decay 0.01 \\\n    --config-yaml config_s2p.yaml --config-s2s-yaml config.yaml --ddp-backend no_c10d --lang-pairs-bitext en-fr --num-workers 4 --log-interval 500 --save-interval-updates 5000 --keep-interval-updates 1 \\\n    --no-emb-update-unsup --use-decoder-output-proj --report-accuracy --lr 0.001 --end-learning-rate 1e-06 --lr-scheduler polynomial_decay --warmup-updates 10000 --total-num-update 800000 \\\n    --update-freq 8 --validate-interval-updates 10000 --train-subset train --valid-subset valid_sup_speech,valid_sup_speech_s2s,valid_unsup_speech --dataset-impl mmap \\\n    --sup-speech-data $S2P_DATA_PATH --sup-speech-train-subset train --sup-speech-valid-subset dev --sup-speech-s2s-data $S2T_DATA_PATH --sup-speech-s2s-train-subset train \\\n    --sup-speech-s2s-valid-subset dev --unsup-speech-train-data $SSL_DATA_PATH/train.tsv --unsup-speech-valid-data $SSL_DATA_PATH/valid.tsv --batch-size 200 --batch-size-valid 100 \\\n    --max-source-positions 1024 --max-target-positions 1024 --max-text-tokens 2048 --max-speech-positions 600000 --max-sample-size 600000 --min-sample-size 64000 \\\n    --max-speech-tokens 600000 --max-tokens-valid 600000 --skip-invalid-size-inputs-valid-test --unsupervised-speech-sample-ratio 1.2 --supervised-speech-sample-ratio 10 \\\n    --supervised-speech-s2s-sample-ratio 10 --bitext-sample-ratio 0.5 --mask 0.3 --mask-random 0.1 --mask-length span-poisson --speech-sup-mask-prob 0.3 \\\n    --speech-unsup-mask-prob 0.7 --use-mask-whole-words --arch speech_text_pretrain_bart_base_stack --no-scale-feature --activation-fn gelu --speech-extractor-mode default \\\n    --stacked-encoder s2s --encoder-normalize-before --decoder-normalize-before --encoder-learned-pos --decoder-learned-pos --dropout 0.1 \\\n    --load-pretrained-mbart-encoder-from $EN_FR_NMT --load-pretrained-mbart-decoder-from $EN_FR_NMT\n```\n#### Fine-tuning\n```\npython train.py $S2T_DATA_PATH \\\n    --save-dir $SAVE_FT_PATH --num-workers 8 --task speech_text_joint_to_text --arch dualinputs2twavtransformer_base_stack --user-dir examples/speech_text_joint_to_text \\\n    --max-epoch 25 --update-mix-data --optimizer adam --lr-scheduler inverse_sqrt --lr 0.0003 --update-freq 4 --clip-norm 10.0 --warmup-updates 20000 \\\n    --criterion guided_label_smoothed_cross_entropy_with_accuracy --guide-alpha 0.8 --attentive-cost-regularization 0.02 --enc-grad-mult 2.0 --label-smoothing 0.1 \\\n    --max-tokens 800000 --max-source-positions 800000 --max-tokens-text 10000 --max-positions-text 1024 --load-pretrained-speech-text-encoder $SAVE_PRE_PATH/checkpoint_last.pt \\\n    --load-pretrained-speech-text-decoder $SAVE_PRE_PATH/checkpoint_last.pt  --speech-mask-channel-length 64 --speech-mask-channel-prob 0.5 --speech-mask-length 10 \\\n    --speech-mask-prob 0.65 --text-sample-ratio 0.05 --mask-text-ratio 0.3 --mask-text-type random --parallel-text-data data-bin-wt --text-input-cost-ratio 0.5 \\\n    --langpairs en-fr --log-format json --max-tokens-valid 800000 --ddp-backend no_c10d --log-interval 100 --config-yaml config.yaml --skip-invalid-size-inputs-valid-test \\\n    --noise-token '▁NOISE' --keep-last-epochs 40 --layernorm-embedding --encoder-learned-pos --decoder-learned-pos --activation-fn gelu \\\n    --speech-extractor-mode default --max-target-positions 1024 --encoder-normalize-before --decoder-normalize-before\n```\n\n### Evaluation\nThe last 10 epoch models from fine-tuning is conducted model average to get $FINAL_MODEL\n```\npython fairseq_cli/generate.py \\\n    $S2T_DATA_PATH \\\n    --task speech_text_joint_to_text \\\n    --nbest 1 \\\n    --max-tokens 800000 \\\n    --max-source-positions 800000 \\\n    --results-path $RESULTS_LOG \\\n    --batch-size 512 \\\n    --path $FINAL_MODEL \\\n    --gen-subset $SUBSET \\\n    --config-yaml config.yaml \\\n    --scoring sacrebleu \\\n    --beam 10 --lenpen 1.0 examples/speech_text_joint_to_text \\\n    --user-dir examples/speech_text_joint_to_text --load-speech-only \\\n    --model-overrides {'load_pretrained_speech_text_decoder':'','load_pretrained_speech_text_encoder':''}\n```\n\n\n### Results and models\n| | en-fr | en-es | en-de |\n|---|---|---|---|\n| BLEU| 39.7 | 33.2 |29.2 |\n\n\n**Model Links**:\n1.  DE\n  - [de config.yaml](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/de/config.yaml)\n  - [de src_dict.txt](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/de/src_dict.txt)\n  - [de tgt_dict.txt](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/de/tgt_dict.txt)\n  - [de spm.model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/de/spm.model)\n  - [de pre-trained nmt model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/de/nmt.pt)\n  - [de pre-trained model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/de/checkpoint_pretraing.pt)\n  - [de fine-tuned model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/de/checkpoint_finetune_ave10.pt)\n2.  ES\n  - [es config.yaml](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/es/config.yaml)\n  - [es src_dict.txt](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/es/src_dict.txt)\n  - [es tgt_dict.txt](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/es/tgt_dict.txt)\n  - [es spm.model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/es/spm.model)\n  - [es pre-trained nmt model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/es/nmt.pt)\n  - [es pre-trained model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/es/checkpoint_pretraing.pt)\n  - [es fine-tuned model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/es/checkpoint_finetune_ave10.pt)\n3.  FR\n  - [fr config.yaml](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/fr/config.yaml)\n  - [fr src_dict.txt](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/fr/src_dict.txt)\n  - [fr tgt_dict.txt](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/fr/tgt_dict.txt)\n  - [fr spm.model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/fr/spm.model)\n  - [fr pre-trained nmt model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/fr/nmt.pt)\n  - [fr pre-trained model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/fr/checkpoint_pretraing.pt)\n  - [fr fine-tuned model](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/fr/checkpoint_finetune_ave10.pt)\n4. [config_s2p.yaml](https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/must_c/config_s2p.yaml)\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/models/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport importlib\nimport os\n\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/models/joint_speech_text_pretrain_transformer.py",
    "content": "#!/usr/bin/env python3\n\nimport logging\nfrom collections import OrderedDict, namedtuple\nfrom typing import Dict, Optional\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom torch import Tensor\n\nfrom fairseq import checkpoint_utils, utils\nfrom fairseq.file_io import PathManager\nfrom fairseq.models import (\n    FairseqDecoder,\n    FairseqEncoderDecoderModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.speech_to_text import (\n    MultiInputDecoder,\n    MultiModalityEncoder,\n    SpeechWavTransformerEncoder,\n    StackedSpeechWavTransformerEncoder,\n)\nfrom fairseq.models.transformer import (\n    TransformerDecoder,\n    TransformerEncoder,\n    TransformerModel,\n)\n\nlogger = logging.getLogger(__name__)\n\n\nclass SpeechTextPreTrainEncoder(MultiModalityEncoder):\n    def __init__(\n        self,\n        dictionary,\n        sup_speech_encoder,\n        sup_s2s_speech_encoder,\n        unsup_speech_encoder,\n        text_encoder,\n    ):\n        super().__init__(dictionary)\n        self.sup_speech_encoder = sup_speech_encoder\n        self.sup_s2s_speech_encoder = sup_s2s_speech_encoder\n        self.unsup_speech_encoder = unsup_speech_encoder\n        self.text_encoder = text_encoder\n\n    @classmethod\n    def update_transformer_encoder_cfg(cls, args, update_dict):\n        cfg = dict(args._get_kwargs())\n        for fkey in update_dict.keys():\n            cfg[fkey] = update_dict[fkey]\n        cfg.pop(\"_name\", None)  # remove keys start with _\n        model_args = namedtuple(\"args\", cfg.keys())(*cfg.values())\n        return model_args\n\n    @classmethod\n    def build_text_encoder(cls, args, src_dictionary):\n        enc_emb = nn.Embedding(\n            len(src_dictionary), args.encoder_embed_dim, src_dictionary.pad()\n        )\n        model_args = cls.update_transformer_encoder_cfg(\n            args, {\"encoder_layers\": args.text_encoder_layers}\n        )\n        text_encoder = TransformerEncoder(model_args, src_dictionary, enc_emb)\n        return text_encoder\n\n    @classmethod\n    def build_speech_encoder(cls, args):\n        model_args = cls.update_transformer_encoder_cfg(\n            args,\n            {\n                \"encoder_layers\": args.speech_encoder_layers,\n                \"speech_mask_prob\": args.speech_sup_mask_prob,\n            },\n        )\n        speech_encoder = SpeechWavTransformerEncoder(model_args)\n        return speech_encoder\n\n    @classmethod\n    def share_layers(cls, src_layers, tgt_layers):  # share layer but not dropout\n        # share parameters in src_layers with tgt_layers\n        assert len(src_layers) == len(tgt_layers)\n        for i, ly in enumerate(src_layers):\n            tly = tgt_layers[i]\n            tly.self_attn = ly.self_attn\n            tly.self_attn_layer_norm = ly.self_attn_layer_norm\n            tly.activation_fn = ly.activation_fn\n            tly.normalize_before = ly.normalize_before\n            tly.fc1 = ly.fc1\n            tly.fc2 = ly.fc2\n            tly.final_layer_norm = ly.final_layer_norm\n            if hasattr(tly, \"encoder_attn\"):\n                tly.encoder_attn = ly.encoder_attn\n                tly.encoder_attn_layer_norm = ly.encoder_attn_layer_norm\n        return tgt_layers\n\n    @classmethod\n    def build_unsup_speech_encoder(cls, args, sup_speech_encoder):\n        model_args = cls.update_transformer_encoder_cfg(\n            args,\n            {\n                \"encoder_layers\": args.speech_encoder_layers,\n                \"speech_mask_prob\": args.speech_unsup_mask_prob,\n                \"encoder_layerdrop\": 0.0,\n                \"decoder_layerdrop\": 0.0,\n                \"dropout\": args.speech_unsup_dropout,\n                \"activation_dropout\": args.speech_unsup_dropout,\n                \"attention_dropout\": 0.0,\n                \"dropout_features\": args.speech_unsup_feature_dropout,\n                \"dropout_input\": args.speech_unsup_feature_dropout,\n            },\n        )\n\n        unsup_speech_encoder = SpeechWavTransformerEncoder(model_args, alway_mask=True)\n        unsup_speech_encoder.layer_norm = sup_speech_encoder.layer_norm\n        unsup_speech_encoder.layers = cls.share_layers(\n            sup_speech_encoder.layers, unsup_speech_encoder.layers\n        )\n        unsup_speech_encoder.mask_emb = sup_speech_encoder.mask_emb\n        unsup_speech_encoder.embed_positions = sup_speech_encoder.embed_positions\n        unsup_speech_encoder.feat_layer_norm = sup_speech_encoder.feat_layer_norm\n        unsup_speech_encoder.feat_proj = sup_speech_encoder.feat_proj\n        unsup_speech_encoder.subsample = sup_speech_encoder.subsample\n        return unsup_speech_encoder\n\n    @classmethod\n    def build_encoder(cls, args, dictionary):\n        text_encoder = cls.build_text_encoder(args, dictionary)\n        if getattr(args, \"load_pretrained_mbart_encoder_from\", None):\n            text_encoder = checkpoint_utils.load_pretrained_component_from_model(\n                component=text_encoder,\n                checkpoint=args.load_pretrained_mbart_encoder_from,\n            )\n        speech_encoder = cls.build_speech_encoder(args)\n        if getattr(args, \"load_pretrained_feature_extractor_from\", None):\n\n            def load_feature_extractor(component, checkpoint):\n                if not PathManager.exists(checkpoint):\n                    raise IOError(\"Model file not found: {}\".format(checkpoint))\n                state = checkpoint_utils.load_checkpoint_to_cpu(checkpoint)\n                component_state_dict = OrderedDict()\n\n                component_prefix = \"feature_extractor\"\n                for key in state[\"model\"].keys():\n                    if key.startswith(component_prefix):\n                        component_subkey = key[len(component_prefix) + 1 :]\n                        component_state_dict[component_subkey] = state[\"model\"][key]\n                component.load_state_dict(component_state_dict, strict=True)\n                return component\n\n            speech_encoder.subsample = load_feature_extractor(\n                speech_encoder.subsample, args.load_pretrained_feature_extractor_from\n            )\n        speech_s2s_encoder = speech_encoder\n        unsup_speech_encoder = cls.build_unsup_speech_encoder(args, speech_encoder)\n        if getattr(args, \"stacked_encoder\", \"none\") != \"none\":\n            if args.encoder_shared_text_layers_from_begin > 0:\n                raise ValueError(\n                    \"We can not stack encoders and share encoders at the same time!\"\n                )\n            speech_s2s_encoder = StackedSpeechWavTransformerEncoder(\n                speech_encoder, text_encoder.layers, text_encoder.layer_norm\n            )\n            if args.stacked_encoder == \"all\":\n                speech_encoder = speech_s2s_encoder\n                unsup_speech_encoder = StackedSpeechWavTransformerEncoder(\n                    unsup_speech_encoder, text_encoder.layers, text_encoder.layer_norm\n                )\n        else:\n            cls.share_speech_text_encoder(\n                speech_encoder, text_encoder, args.encoder_shared_text_layers_from_begin\n            )\n        return SpeechTextPreTrainEncoder(\n            dictionary,\n            speech_encoder,\n            speech_s2s_encoder,\n            unsup_speech_encoder,\n            text_encoder,\n        )\n\n    @classmethod\n    def share_speech_text_encoder(\n        cls, speech_encoder, text_encoder, shared_layers_from_begin\n    ):\n        if shared_layers_from_begin > 0:\n            num_text_encoder_layers = len(text_encoder.layers)\n            assert len(speech_encoder.layers) >= shared_layers_from_begin\n            assert num_text_encoder_layers >= shared_layers_from_begin\n            assert len(speech_encoder.layers) >= num_text_encoder_layers\n            for i, ly in enumerate(\n                speech_encoder.layers[\n                    -num_text_encoder_layers : -num_text_encoder_layers\n                    + shared_layers_from_begin\n                ]\n            ):\n                assert isinstance(text_encoder.layers[i], type(ly))\n                text_encoder.layers[i] = ly\n\n    def select_encoder(self, mode, **kwargs):\n        if mode in (\"speech\", \"sup_speech_ctc\", \"sup_speech_ali\", \"sup_speech_s2s\"):\n            kwargs[\"features_only\"] = True\n            if mode == \"sup_speech_s2s\":\n                return self.sup_s2s_speech_encoder, kwargs\n            return self.sup_speech_encoder, kwargs\n        elif mode == \"unsup_speech\":\n            kwargs[\"features_only\"] = False\n            return self.unsup_speech_encoder, kwargs\n        elif mode in (\"text\", \"bitext\"):\n            return self.text_encoder, kwargs\n        else:\n            raise NotImplementedError(f\"{mode} is not supported\")\n        return None, kwargs\n\n    def forward(self, src_tokens, src_lengths=None, mode=\"\", alignment=None, **kwargs):\n        return super().forward(src_tokens, src_lengths, mode, **kwargs)\n\n\n# SpeechDummyDecoder works as an extension of encoder, so we could fit encoder only training into seq2seq training\nclass SpeechDummyDecoder(FairseqDecoder):\n    def __init__(\n        self,\n        dictionary,\n        output_embedding,\n        no_emb_update_unsup=False,\n        use_output_proj=False,\n    ):\n        super().__init__(dictionary)\n        self.output_embedding = output_embedding\n        num_embedding, num_dim = self.output_embedding.weight.size()\n        self.out_proj = (\n            None if use_output_proj is False else nn.Linear(num_dim, num_dim)\n        )\n        self.no_emb_update_unsup = no_emb_update_unsup\n\n    def extend_alignment(self, alignment, src_lengths, prev_output_tokens):\n        # alignment:    B X N\n        # src_lengths:  B X T\n        # prev_output_tokens:    B X (N + 1)\n        tgt_tokens = prev_output_tokens[\n            :, 1:\n        ]  # remove the leading start of sentence token\n        ext_alignment = (\n            torch.ones(len(src_lengths), src_lengths.max(), device=src_lengths.device)\n            .long()\n            .fill_(self.dictionary.pad())\n        )\n        for bs in range(src_lengths.size(0)):\n            tgt_length = tgt_tokens[bs].ne(self.dictionary.pad()).sum().item()\n            assert tgt_length == sum(alignment[bs].ne(1)) + 1\n            src_st = 0\n            for i in range(tgt_length):\n                tok = tgt_tokens[bs][i]\n                src_ed = (alignment[bs][i] * src_lengths[bs]).int().item()\n                ext_alignment[bs][src_st:src_ed].fill_(tok)\n                src_st = src_ed\n        return ext_alignment\n\n    def forward(\n        self,\n        prev_output_tokens,\n        encoder_out,\n        incremental_state=None,\n        mode=\"speech\",\n        alignment=None,\n        **kwargs,\n    ):\n        \"\"\"\n        Args:\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for teacher forcing\n            encoder_out (optional): output from the encoder, used for\n                encoder-side attention\n            incremental_state (dict): dictionary used for storing state during\n                :ref:`Incremental decoding`\n            features_only (bool, optional): only return features without\n                applying output layer (default: False).\n            full_context_alignment (bool, optional): don't apply\n                auto-regressive mask to self-attention (default: False).\n\n        Returns:\n            sup_speech_ctc:\n                dictionary{\"logits\": logits, \"padding_mask\": padding_mask}\n            sup_speech_ali and unsup_speech:\n                tuple:\n                    - the decoder's output of shape `(batch, tgt_len, vocab)`\n                    - a dictionary with any model-specific outputs\n        \"\"\"\n        emb_weight = self.output_embedding.weight\n        if (\n            mode == \"unsup_speech\" and self.no_emb_update_unsup\n        ):  # no gradient for embedding here\n            emb_weight = emb_weight.detach()\n        enc_out = (\n            encoder_out[\"encoder_out\"][0]\n            if self.out_proj is None\n            else self.out_proj(encoder_out[\"encoder_out\"][0])\n        )\n        logits = F.linear(enc_out, emb_weight, None).transpose(0, 1)  # B X T X C\n        others = None\n        if mode in (\n            \"speech\",\n            \"sup_speech_ctc\",\n        ):  # speech data with label, do forcealignment\n            if len(encoder_out[\"encoder_padding_mask\"]) > 0:\n                padding_mask = encoder_out[\"encoder_padding_mask\"][0]\n                logits = logits.masked_fill(padding_mask, float(\"-inf\"))\n            else:\n                seq_len, bsz = encoder_out[\"encoder_out\"][0].size()[:2]\n                padding_mask = torch.zeros(\n                    bsz, seq_len, device=encoder_out[\"encoder_out\"][0].device\n                ).bool()\n            return {\"x\": logits, \"padding_mask\": padding_mask}\n        elif mode == \"sup_speech_ali\":\n            src_lengths = None\n            if len(encoder_out[\"encoder_padding_mask\"]) > 0:\n                src_lengths = (1 - encoder_out[\"encoder_padding_mask\"][0].long()).sum(\n                    -1\n                )\n            else:\n                seq_len, bsz = encoder_out[\"encoder_out\"][0].size()[:2]\n                src_lengths = (\n                    torch.ones(bsz, device=encoder_out[\"encoder_out\"][0].device).long()\n                    * seq_len\n                )\n            assert alignment is not None\n            alignment = self.extend_alignment(\n                alignment, src_lengths, prev_output_tokens\n            )\n            others = {\"pseudo_target_tokens\": alignment}\n        elif mode == \"unsup_speech\":\n            enc_out_ori = (\n                encoder_out[\"encoder_unmasked_out\"][0]\n                if self.out_proj is None\n                else self.out_proj(encoder_out[\"encoder_unmasked_out\"][0])\n            )\n            logits_ori = F.linear(enc_out_ori, emb_weight, None).transpose(0, 1)\n            if len(encoder_out[\"encoder_padding_mask\"]) > 0:\n                encoder_padding_mask = encoder_out[\"encoder_padding_mask\"][0]\n                logits_ori = logits_ori.masked_fill(encoder_padding_mask, float(\"-inf\"))\n            pseudo_labels = utils.log_softmax(logits_ori, dim=-1)\n            others = {\n                \"pseudo_target_logprobs\": pseudo_labels,\n                \"padding_mask\": encoder_out[\"encoder_padding_mask\"],  # B X T\n                \"mask_indices\": encoder_out[\n                    \"mask_indices\"\n                ],  # True for masked frames B X T\n            }\n        return logits, others\n\n    def get_normalized_probs(\n        self,\n        net_output: Dict[str, Tensor],\n        log_probs: bool,\n        sample: Optional[Dict[str, Tensor]] = None,\n    ):\n        return self.get_normalized_probs_scriptable(\n            (net_output[\"x\"], None), log_probs, sample\n        )\n\n\nclass SpeechTextPreTrainDecoder(MultiInputDecoder):\n    def __init__(self, dictionary, speech_decoder, text_decoder):\n        super().__init__(dictionary)\n        self.speech_decoder = speech_decoder\n        self.text_decoder = text_decoder\n\n    def select_decoder(self, mode, **kwargs):\n        if mode == \"unsup_speech\":\n            kwargs[\"mode\"] = mode\n            return self.speech_decoder, kwargs\n        if mode in (\"text\", \"bitext\"):\n            return self.text_decoder, kwargs\n        if mode in (\"speech\", \"sup_speech_ctc\", \"sup_speech_ali\"):\n            kwargs[\"mode\"] = mode\n            return self.speech_decoder, kwargs\n        if mode in (\"speech\", \"sup_speech_s2s\"):\n            if \"alignment\" in kwargs:\n                del kwargs[\"alignment\"]\n            return self.text_decoder, kwargs\n\n        raise NotImplementedError(f\"{mode} is not supported\")\n        return None, kwargs\n\n    def get_normalized_probs(\n        self,\n        net_output,\n        log_probs,\n        sample=None,\n    ):\n        \"\"\"Get normalized probabilities (or log probs) from a net's output.\"\"\"\n        if isinstance(net_output, dict):\n            return self.speech_decoder.get_normalized_probs(\n                net_output, log_probs, sample\n            )\n        return self.text_decoder.get_normalized_probs(net_output, log_probs, sample)\n\n    @classmethod\n    def build_text_decoder(cls, args, tgt_dictionary, dec_emb_share=None):\n        dec_emb = (\n            nn.Embedding(\n                len(tgt_dictionary), args.decoder_embed_dim, tgt_dictionary.pad()\n            )\n            if dec_emb_share is None\n            else dec_emb_share\n        )\n        text_decoder = TransformerDecoder(args, tgt_dictionary, dec_emb)\n        return text_decoder\n\n    @classmethod\n    def build_dummy_speech_decoder(cls, args, dictionary, dec_emb_share=None):\n        dec_emb = (\n            nn.Embedding(len(dictionary), args.decoder_embed_dim, dictionary.pad())\n            if dec_emb_share is None\n            else dec_emb_share\n        )\n        speech_decoder = SpeechDummyDecoder(\n            dictionary,\n            dec_emb,\n            no_emb_update_unsup=getattr(args, \"no_emb_update_unsup\", False),\n            use_output_proj=getattr(args, \"use_decoder_output_proj\", False),\n        )\n        return speech_decoder\n\n    @classmethod\n    def build_decoder(\n        cls, args, text_dictionary, speech_dictionary, speech_output_embedding\n    ):\n        text_decoder = cls.build_text_decoder(args, text_dictionary)\n        speech_decoder = cls.build_dummy_speech_decoder(\n            args, speech_dictionary, speech_output_embedding\n        )\n        if getattr(args, \"load_pretrained_mbart_decoder_from\", None):\n            text_decoder = checkpoint_utils.load_pretrained_component_from_model(\n                component=text_decoder,\n                checkpoint=args.load_pretrained_mbart_decoder_from,\n            )\n        return SpeechTextPreTrainDecoder(text_dictionary, speech_decoder, text_decoder)\n\n\n@register_model(\"speech_text_pretrain_bart\")\nclass SpeechTextPreTrainModel(FairseqEncoderDecoderModel):\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n        self.num_updates = 0\n\n    def forward(\n        self, src_tokens, src_lengths, prev_output_tokens, src_lang_ids=None, **kwargs\n    ):\n        if src_lang_ids is not None:\n            encoder_out = self.encoder(\n                src_tokens, src_lengths=src_lengths, src_lang_ids=src_lang_ids, **kwargs\n            )\n        else:\n            encoder_out = self.encoder(src_tokens, src_lengths=src_lengths, **kwargs)\n        decoder_out = self.decoder(\n            prev_output_tokens, encoder_out=encoder_out, **kwargs\n        )\n        return decoder_out\n\n    def max_positions(self):\n        return None  # it is provided in task\n\n    def get_targets(self, sample, net_output):\n        mode = sample[\"net_input\"][\"mode\"]\n        if mode == \"unsup_speech\":\n            return {\"target_logprobs\": net_output[1][\"pseudo_target_logprobs\"]}\n        if mode == \"sup_speech_ali\":\n            return net_output[1][\"pseudo_target_tokens\"]\n        return sample[\"target\"]\n\n    def get_normalized_probs(\n        self,\n        net_output,\n        log_probs,\n        sample=None,\n    ):\n        # net_output['encoder_out'] is a (B, T, D) tensor\n        lprobs = self.get_normalized_probs_scriptable(net_output, log_probs, sample)\n        lprobs.batch_first = True\n        return lprobs\n\n    @staticmethod\n    def add_args(parser):\n        TransformerModel.add_args(parser)\n        SpeechWavTransformerEncoder.add_args(parser)\n        parser.add_argument(\n            \"--speech-sup-mask-prob\",\n            type=float,\n            help=\"probability of replacing a token with mask (sup-speech)\",\n        )\n        parser.add_argument(\n            \"--speech-unsup-mask-prob\",\n            type=float,\n            help=\"probability of replacing a token with mask (unsup-speech)\",\n        )\n        parser.add_argument(\n            \"--load-pretrained-mbart-encoder-from\",\n            type=str,\n            metavar=\"STR\",\n            help=\"model to take text encoder  weights from (for initialization)\",\n        )\n\n        parser.add_argument(\n            \"--load-pretrained-mbart-decoder-from\",\n            type=str,\n            metavar=\"STR\",\n            help=\"model to take text decoder  weights from (for initialization)\",\n        )\n\n        parser.add_argument(\n            \"--load-pretrained-feature-extractor-from\",\n            type=str,\n            metavar=\"STR\",\n            help=\"model to take feature extractor weights from (for initialization)\",\n        )\n\n        parser.add_argument(\n            \"--speech-unsup-dropout\",\n            type=float,\n            default=0,\n            help=\"dropout for unsupervised speech encoder\",\n        )\n\n        parser.add_argument(\n            \"--speech-unsup-feature-dropout\",\n            type=float,\n            default=0,\n            help=\"dropout for unsupervised speech feature encoder\",\n        )\n\n        parser.add_argument(\n            \"--encoder-shared-text-layers-from-begin\",\n            type=int,\n            help=\"number of text encoder layers shared with speech encoder (from first layer)\",\n        )\n\n        parser.add_argument(\n            \"--stacked-encoder\",\n            default=\"none\",\n            choices=[\"none\", \"s2s\", \"all\"],\n            help=\"stack speech and text encoders\",\n        )\n\n        parser.add_argument(\"--use-decoder-output-proj\", action=\"store_true\")\n\n    @classmethod\n    def build_model(cls, args, task):\n        encoder = SpeechTextPreTrainEncoder.build_encoder(args, task.src_dict)\n        decoder = SpeechTextPreTrainDecoder.build_decoder(\n            args, task.tgt_dict, task.src_dict, encoder.text_encoder.embed_tokens\n        )\n        model = SpeechTextPreTrainModel(encoder, decoder)\n        return model\n\n    def upgrade_state_dict(self, state_dict):\n        \"\"\"Upgrade old state dicts to work with newer code.\"\"\"\n        if \"decoder.speech_decoder.output_projection.weight\" in state_dict:\n            del state_dict[\"decoder.speech_decoder.output_projection.weight\"]\n        self.upgrade_state_dict_named(state_dict, \"\")\n\n\n@register_model_architecture(\n    \"speech_text_pretrain_bart\", \"speech_text_pretrain_bart_base\"\n)\ndef speech_text_pretrain_bart_base(args):\n    # speech masking\n    args.dropout_input = getattr(args, \"dropout_input\", 0)\n    args.dropout_features = getattr(args, \"dropout_features\", 0)\n    args.speech_mask_length = getattr(args, \"speech_mask_length\", 10)\n    args.speech_mask_prob = getattr(args, \"speech_mask_prob\", 0.65)\n    args.speech_sup_mask_prob = getattr(args, \"speech_sup_mask_prob\", 0.3)\n    args.speech_unsup_mask_prob = getattr(\n        args, \"speech_unsup_mask_prob\", args.speech_mask_prob\n    )\n    args.speech_mask_selection = getattr(args, \"speech_mask_selection\", \"static\")\n    args.speech_mask_other = getattr(args, \"speech_mask_other\", 0)\n    args.speech_mask_min_space = getattr(args, \"speech_mask_min_space\", 1)\n    args.speech_no_mask_overlap = getattr(args, \"speech_no_mask_overlap\", False)\n\n    args.speech_mask_channel_length = getattr(args, \"speech_mask_channel_length\", 10)\n    args.speech_mask_channel_prob = getattr(args, \"speech_mask_channel_prob\", 0.0)\n    args.speech_mask_channel_selection = getattr(\n        args, \"speech_mask_channel_selection\", \"static\"\n    )\n    args.speech_mask_channel_other = getattr(args, \"speech_mask_channel_other\", 0)\n    args.speech_mask_channel_min_space = getattr(\n        args, \"speech_mask_channel_min_space\", 1\n    )\n    args.speech_no_mask_channel_overlap = getattr(\n        args, \"speech_no_mask_channel_overlap\", False\n    )\n    args.no_scale_feature = getattr(args, \"\", False)\n    args.feature_grad_mult = getattr(args, \"feature_grad_mult\", 1.0)  # 0.1\n\n    # Transformer\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 768)\n    args.encoder_ffn_embed_dim = getattr(\n        args, \"encoder_ffn_embed_dim\", args.encoder_embed_dim * 4\n    )\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 12)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.encoder_layerdrop = getattr(args, \"encoder_layerdrop\", 0)\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", False)\n    args.speech_conv_bias = getattr(args, \"speech_conv_bias\", False)\n\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", args.encoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", args.encoder_ffn_embed_dim\n    )\n    args.decoder_attention_heads = getattr(\n        args, \"decoder_attention_heads\", args.encoder_attention_heads\n    )\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", False)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = getattr(args, \"attention_dropout\", args.dropout)\n    args.activation_dropout = getattr(args, \"activation_dropout\", 0.0)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")  # gelu?\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n\n    args.speech_unsup_dropout = getattr(args, \"speech_unsup_dropout\", 0)\n    args.speech_unsup_feature_dropout = getattr(args, \"speech_unsup_feature_dropout\", 0)\n\n    args.tie_adaptive_weights = getattr(args, \"tie_adaptive_weights\", False)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.decoder_layerdrop = getattr(args, \"decoder_layerdrop\", 0.0)\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.layernorm_embedding = getattr(args, \"layernorm_embedding\", False)\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", False)\n    args.quant_noise_pq = getattr(args, \"quant_noise_pq\", 0)\n\n    args.speech_encoder_layers = getattr(args, \"speech_encoder_layers\", 12)\n    args.text_encoder_layers = getattr(args, \"text_encoder_layers\", 6)\n    args.encoder_shared_text_layers_from_begin = getattr(\n        args, \"encoder_shared_text_layers_from_begin\", 6\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n\n    args.no_emb_update_unsup = getattr(args, \"no_emb_update_unsup\", False)\n\n\n@register_model_architecture(\n    \"speech_text_pretrain_bart\", \"speech_text_pretrain_bart_base_stack\"\n)\ndef speech_text_pretrain_bart_base_stack(args):\n    args.speech_encoder_layers = getattr(args, \"speech_encoder_layers\", 6)\n    args.text_encoder_layers = getattr(args, \"text_encoder_layers\", 6)\n    args.encoder_shared_text_layers_from_begin = getattr(\n        args, \"encoder_shared_text_layers_from_begin\", 0\n    )\n    args.stacked_encoder = getattr(args, \"stacked_encoder\", \"all\")\n    args.layernorm_embedding = getattr(args, \"layernorm_embedding\", True)\n    speech_text_pretrain_bart_base(args)\n\n\n@register_model_architecture(\n    \"speech_text_pretrain_bart\", \"speech_text_pretrain_bart_large\"\n)\ndef speech_text_pretrain_bart_large(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 16)\n    args.speech_encoder_layers = getattr(args, \"speech_encoder_layers\", 24)\n    args.text_encoder_layers = getattr(args, \"text_encoder_layers\", 12)\n    args.encoder_shared_text_layers_from_begin = getattr(\n        args, \"encoder_shared_text_layers_from_begin\", 12\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 12)\n    args.dropout = getattr(args, \"dropout\", 0.3)\n    speech_text_pretrain_bart_base(args)\n\n\n@register_model_architecture(\n    \"speech_text_pretrain_bart\", \"speech_text_pretrain_bart_large_stack\"\n)\ndef speech_text_pretrain_bart_large_stack(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 16)\n    args.speech_encoder_layers = getattr(args, \"speech_encoder_layers\", 6)\n    args.text_encoder_layers = getattr(args, \"text_encoder_layers\", 12)\n    args.encoder_shared_text_layers_from_begin = getattr(\n        args, \"encoder_shared_text_layers_from_begin\", 0\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 12)\n    args.stacked_encoder = getattr(args, \"stacked_encoder\", \"s2s\")\n    args.layernorm_embedding = getattr(args, \"layernorm_embedding\", True)\n    speech_text_pretrain_bart_base(args)\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/models/s2t_dualinputtransformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom collections import namedtuple\n\nimport torch\nimport torch.nn as nn\nfrom fairseq import checkpoint_utils\nfrom fairseq import utils\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqDecoder,\n    FairseqEncoderDecoderModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.fairseq_encoder import EncoderOut\nfrom fairseq.models.speech_to_text import (\n    TransformerDecoder,\n    S2TTransformerEncoder,\n)\nfrom fairseq.models.transformer import TransformerEncoder\nfrom fairseq.modules import (\n    TransformerEncoderLayer,\n    GradMultiply,\n    LayerNorm,\n)\n\nlogger = logging.getLogger(__name__)\n\n\nclass SpeechEoSEncoder(FairseqEncoder):\n    def __init__(self, encoder, eos_num, feat_dim, adapter_type=\"None\", adapter_dim=0):\n        super().__init__(None)\n        self.encoder = encoder\n        self.eos_num = eos_num  # downsampling rate for speech input feature\n        self.eos_emb = (\n            nn.Parameter(torch.zeros(1, feat_dim), requires_grad=True)\n            if eos_num > 0\n            else None\n        )\n        self.adapter = self.add_adapter(adapter_type, adapter_dim)\n\n    def add_adapter(self, adapter_type, adapter_dim):\n        def _make_identity(linear, eps=1e-5):\n            assert isinstance(linear, nn.Linear)\n            linear.weight.data.mul_(eps)\n            linear.weight.data.fill_diagonal_(1.0)\n            if linear.bias is not None:\n                linear.bias.data.mul_(eps)\n\n        adapter = None\n        if adapter_type == \"Linear\":\n            assert adapter_dim > 0\n            adapter = nn.Sequential(\n                nn.Linear(adapter_dim, adapter_dim), LayerNorm(adapter_dim)\n            )\n            # initialize the adapter as identity matrix first\n            _make_identity(adapter[0])\n\n        elif adapter_type == \"MLP\":\n            assert adapter_dim > 0\n            # assume the model is pre-norm model\n            adapter = nn.Sequential(\n                nn.Linear(adapter_dim, 2 * adapter_dim),\n                nn.ReLU(),\n                nn.Linear(2 * adapter_dim, adapter_dim),\n                LayerNorm(adapter_dim),\n            )\n            _make_identity(adapter[0])\n            _make_identity(adapter[2])\n        return adapter\n\n    def add_eos(self, src_tokens, src_lengths):\n        bsz, max_seq_len, fdim = src_tokens.size()\n        if self.eos_num > 0:\n            src_token_eos = torch.zeros(\n                [bsz, max_seq_len + self.eos_num, fdim],\n                dtype=src_tokens.dtype,\n                device=src_tokens.device,\n            )\n            src_token_eos[:, :max_seq_len] = src_tokens\n            for bi in range(bsz):\n                src_token_eos[bi][\n                    src_lengths[bi] : src_lengths[bi] + self.eos_num\n                ] = self.eos_emb.expand(self.eos_num, fdim)\n            src_lengths = src_lengths + self.eos_num\n            src_tokens = src_token_eos\n        return src_tokens, src_lengths\n\n    def apply_adapter(self, enc_out):\n        if self.adapter is None:\n            return enc_out\n        rst = self.adapter(enc_out.encoder_out)\n        if enc_out.encoder_padding_mask is not None:\n            rst.masked_fill_(\n                enc_out.encoder_padding_mask.transpose(0, 1).unsqueeze(-1), 0\n            )\n        return EncoderOut(\n            encoder_out=rst,\n            encoder_padding_mask=enc_out.encoder_padding_mask,\n            encoder_embedding=enc_out.encoder_embedding,\n            encoder_states=enc_out.encoder_states,\n            src_tokens=enc_out.src_tokens,\n            src_lengths=enc_out.src_lengths,\n        )\n\n    def forward(self, src_tokens, src_lengths=None, return_all_hiddens=False, **kwargs):\n        \"\"\"\n        src_tokens: padded tensor (B, T, C * feat)\n        src_lengths: tensor of original lengths of input utterances (B,)\n        \"\"\"\n        src_tokens, src_lengths = self.add_eos(src_tokens, src_lengths)\n        enc_out = self.encoder(src_tokens, src_lengths, return_all_hiddens)\n        enc_out = self.apply_adapter(enc_out)\n        return enc_out\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        return self.encoder.reorder_encoder_out(encoder_out, new_order)\n\n\nclass DualInputEncoder(FairseqEncoder):\n    def __init__(\n        self,\n        args,\n        spch_encoder,\n        text_encoder,\n        dictionary,\n        cross_attentive_loss_before_last_layer=-1,\n    ):\n        super().__init__(dictionary)\n\n        self.spch_encoder = spch_encoder\n        self.text_encoder = text_encoder\n        self.enc_grad_mult = args.enc_grad_mult\n        self.cross_attentive_loss_before_last_layer = (\n            cross_attentive_loss_before_last_layer\n        )\n        self.use_cross_attentive_loss = (\n            False if cross_attentive_loss_before_last_layer <= -1 else True\n        )\n        self.enc2_along_grad_mult = args.enc2_along_grad_mult\n\n    @classmethod\n    def set_shared_layer(cls, share_level, src_layer, tgt_layer):\n        \"\"\"\n        share parameters from tgt_layer to src_layer\n        share_level:\n            0: share everything\n            1: share everything but different model\n            2: share weight but not bias, layernorm\n        \"\"\"\n        if share_level == 0:\n            return tgt_layer\n        if isinstance(src_layer, nn.Linear):\n            return tgt_layer\n        if isinstance(src_layer, TransformerEncoderLayer):\n            assert src_layer.embed_dim == tgt_layer.embed_dim\n            assert src_layer.normalize_before == tgt_layer.normalize_before\n            if share_level == 1:\n                src_layer.fc1 = tgt_layer.fc1\n                src_layer.fc2 = tgt_layer.fc2\n                src_layer.self_attn = tgt_layer.self_attn\n                src_layer.final_layer_norm = tgt_layer.final_layer_norm\n                src_layer.self_attn_layer_norm = tgt_layer.self_attn_layer_norm\n                src_layer.layernorm_embedding = tgt_layer.layernorm_embedding\n            else:\n                src_layer.fc1.weight = tgt_layer.fc1.weight\n                src_layer.fc2.weight = tgt_layer.fc2.weight\n                src_layer.self_attn.k_proj.weight = tgt_layer.self_attn.k_proj.weight\n                src_layer.self_attn.v_proj.weight = tgt_layer.self_attn.v_proj.weight\n                src_layer.self_attn.q_proj.weight = tgt_layer.self_attn.q_proj.weight\n                src_layer.self_attn.out_proj.weight = (\n                    tgt_layer.self_attn.out_proj.weight\n                )\n        else:\n            if share_level == 1:\n                return tgt_layer\n        return src_layer\n\n    @classmethod\n    def build_spch_encoder(cls, args):\n        cfg = {\n            \"input_feat_per_channel\": args.input_feat_per_channel,\n            \"input_channels\": args.input_channels,\n            \"conv_kernel_sizes\": args.conv_kernel_sizes,\n            \"conv_channels\": args.conv_channels,\n            \"encoder_embed_dim\": args.encoder_embed_dim,\n            \"encoder_ffn_embed_dim\": args.encoder_ffn_embed_dim,\n            \"encoder_layers\": args.speech_encoder_layers,\n            \"encoder_layerdrop\": args.encoder_layerdrop,\n            \"encoder_attention_heads\": args.encoder_attention_heads,\n            \"max_source_positions\": args.max_source_positions,\n            \"dropout\": args.dropout,\n            \"encoder_normalize_before\": args.encoder_normalize_before,\n            \"activation_dropout\": args.activation_dropout,\n            \"attention_dropout\": args.attention_dropout,\n            \"activation_fn\": args.activation_fn,\n            \"layernorm_embedding\": args.layernorm_embedding,\n            \"no_token_positional_embeddings\": args.no_token_positional_embeddings,\n            \"no_scale_embedding\": args.no_scale_embedding,\n            \"quant_noise_pq\": args.quant_noise_pq,\n            \"encoder_freezing_updates\": 0,\n        }\n        model_args = namedtuple(\"args\", cfg.keys())(*cfg.values())\n        spch_encoder = S2TTransformerEncoder(model_args)\n        if args.add_speech_eos:\n            spch_encoder = SpeechEoSEncoder(\n                spch_encoder,\n                2 * len(args.conv_kernel_sizes.split(\",\")),\n                args.input_feat_per_channel,\n                adapter_type=getattr(args, \"speech_encoder_adapter_type\", \"None\"),\n                adapter_dim=args.encoder_embed_dim,\n            )\n        return spch_encoder\n\n    @classmethod\n    def build_text_encoder(cls, args, src_dictionary, spch_encoder):\n        if args.encoder_shared_layers > 0:\n            mx_shared_layers = (\n                args.speech_encoder_layers\n                if args.speech_encoder_layers < args.text_encoder_layers\n                else args.text_encoder_layers\n            )\n            args.encoder_shared_layers = (\n                args.encoder_shared_layers\n                if args.encoder_shared_layers <= mx_shared_layers\n                else mx_shared_layers\n            )\n        cfg = {\n            \"encoder_embed_dim\": args.encoder_text_embed_dim,\n            \"encoder_ffn_embed_dim\": args.encoder_ffn_embed_dim,\n            \"encoder_layers\": args.text_encoder_layers,\n            \"encoder_layerdrop\": args.encoder_layerdrop,\n            \"encoder_attention_heads\": args.encoder_attention_heads,\n            \"encoder_learned_pos\": args.encoder_learned_pos,\n            \"max_source_positions\": args.max_source_positions,\n            \"dropout\": args.dropout,\n            \"encoder_normalize_before\": args.encoder_normalize_before,\n            \"activation_dropout\": args.activation_dropout,\n            \"attention_dropout\": args.attention_dropout,\n            \"activation_fn\": args.activation_fn,\n            \"adaptive_input\": args.adaptive_input,\n            \"no_token_positional_embeddings\": args.no_token_positional_embeddings,\n            \"no_scale_embedding\": args.no_scale_embedding,\n            \"quant_noise_pq\": args.quant_noise_pq,\n        }\n        model_args = namedtuple(\"args\", cfg.keys())(*cfg.values())\n        enc_emb = nn.Embedding(\n            len(src_dictionary), model_args.encoder_embed_dim, src_dictionary.pad()\n        )\n        text_encoder = TransformerEncoder(model_args, src_dictionary, enc_emb)\n        if args.add_speech_eos:\n            spch_encoder = spch_encoder.encoder\n        if args.encoder_shared_layers > 0:\n            text_encoder.layer_norm = cls.set_shared_layer(\n                args.encoder_shared_layer_level,\n                text_encoder.layer_norm,\n                spch_encoder.layer_norm,\n            )\n            for i, ly in enumerate(\n                spch_encoder.transformer_layers[-args.encoder_shared_layers :]\n            ):\n                ly_id = i + args.text_encoder_layers - args.encoder_shared_layers\n                if not isinstance(text_encoder.layers[ly_id], type(ly)):\n                    if text_encoder.layers[ly_id]._get_name() not in ('TransformerEncoderLayerBase', 'TransformerEncoderLayer'):\n                        raise ValueError(\"The shared layers are expected from the same class\")\n                text_encoder.layers[ly_id] = cls.set_shared_layer(\n                    args.encoder_shared_layer_level,\n                    text_encoder.layers[ly_id],\n                    ly,\n                )\n        return text_encoder\n\n    def mult_rst_grad(self, rst, ratio):\n        assert isinstance(rst, dict)  # instead of EncoderOut\n        assert len(rst[\"encoder_out\"]) == 1\n        rst[\"encoder_out\"][0] = GradMultiply.apply(rst[\"encoder_out\"][0], ratio)\n        return rst\n\n    def process_attentive_loss_states(self, rst, interstates):\n        assert isinstance(rst, dict)  # instead of EncoderOut\n        rst[\"encoder_states\"] = interstates\n        return rst\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths=None,\n        src_txt_tokens=None,\n        src_txt_lengths=None,\n        **kwargs\n    ):\n        \"\"\"\n        Args:\n            src_tokens: padded tensor (B, T, C * feat)\n            src_lengths: tensor of original lengths of input utterances (speech) (B,)\n            src_txt_tokens: padded tensor (B, T)\n            src_txt_lengths: tensor of original lengths of input utterances (text) (B,)\n        \"\"\"\n        # src_tokens only: inference\n        # src_tokens, src_lengths: speech only training\n        # src_txt_tokens, src_txt_lengths: text only training\n        # all valid: speech + text training\n\n        if src_tokens is None and src_txt_tokens is None:\n            raise ValueError(\n                \"src_tokens and src_txt_tokens cannot be None at the same time\"\n            )\n        ret1 = None\n        ret2 = None\n        return_all_hiddens = False\n        if src_tokens is not None:\n            if (\n                self.use_cross_attentive_loss and src_txt_tokens is not None\n            ):  # remove self.training so we can get attn score during validation step\n                return_all_hiddens = True\n            ret1 = self.spch_encoder(\n                src_tokens, src_lengths, return_all_hiddens=return_all_hiddens\n            )\n\n            if self.use_cross_attentive_loss and src_txt_tokens is not None:\n                assert self.cross_attentive_loss_before_last_layer < len(\n                    ret1[\"encoder_states\"]\n                )\n                ret1 = self.process_attentive_loss_states(\n                    ret1,\n                    ret1[\"encoder_states\"][\n                        -self.cross_attentive_loss_before_last_layer - 1\n                    ],\n                )\n\n        if src_txt_tokens is not None:\n            ret2 = self.text_encoder(\n                src_txt_tokens, src_txt_lengths, return_all_hiddens=return_all_hiddens\n            )\n            if return_all_hiddens:\n                if self.cross_attentive_loss_before_last_layer == len(\n                    self.text_encoder.layers\n                ):\n                    text_embedding, _ = self.text_encoder.forward_embedding(\n                        src_txt_tokens\n                    )\n                    text_embedding = text_embedding.transpose(0, 1)\n                    ret2 = self.process_attentive_loss_states(ret2, text_embedding)\n                else:\n                    assert self.cross_attentive_loss_before_last_layer < len(\n                        self.text_encoder.layers\n                    )\n                    ret2 = self.process_attentive_loss_states(\n                        ret2,\n                        ret2[\"encoder_states\"][\n                            -self.cross_attentive_loss_before_last_layer - 1\n                        ],\n                    )\n\n        def merge_output(rst1, rst2):\n            if rst1 is None:\n                if not (self.enc2_along_grad_mult == 1.0 or self.training):\n                    rst2 = self.mult_rst_grad(rst2, self.enc2_along_grad_mult)\n                return rst2\n            if rst2 is None:\n                return rst1\n            if self.enc_grad_mult != 1.0 and self.training:\n                rst1 = self.mult_rst_grad(rst1, self.enc_grad_mult)\n                rst2 = self.mult_rst_grad(rst2, self.enc_grad_mult)\n            rst = (rst1, rst2)\n            return rst\n\n        return merge_output(ret1, ret2)\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        assert self.training is False  # used for inference only\n        return self.spch_encoder.reorder_encoder_out(encoder_out, new_order)\n\n\n# TransformerMultiInputDecoder: take one or two encoder inputs\nclass TransformerMultiInputDecoder(FairseqDecoder):\n    def __init__(\n        self,\n        dictionary,\n        spch_decoder,\n        text_decoder,\n        compute_cross_attentive_loss=False,\n        cross_attentive_loss_with_norm=True,\n        cross_attentive_loss_reverse=False,\n    ):\n\n        super().__init__(dictionary)\n        self.spch_decoder = spch_decoder\n        self.text_decoder = text_decoder\n        self.compute_cross_attentive_loss = compute_cross_attentive_loss\n        self.cross_attentive_loss_with_norm = cross_attentive_loss_with_norm\n        self.cross_attentive_loss_reverse = cross_attentive_loss_reverse\n\n    @classmethod\n    def share_spchdecoder(cls, task_args, text_decoder, spch_decoder):\n        if task_args.decoder_shared_layer_level == 0:\n            return text_decoder\n        assert text_decoder.embed_tokens == spch_decoder.embed_tokens\n        spch_decoder.project_in_dim = text_decoder.project_in_dim\n        spch_decoder.embed_positions = text_decoder.embed_positions\n        spch_decoder.layernorm_embedding = text_decoder.layernorm_embedding\n        spch_decoder.project_out_dim = text_decoder.project_out_dim\n        spch_decoder.adaptive_softmax = text_decoder.adaptive_softmax\n        if task_args.decoder_shared_layer_level == 1:\n            spch_decoder.output_projection = text_decoder.output_projection\n            spch_decoder.layer_norm = text_decoder.layer_norm\n        else:  # 2\n            spch_decoder.output_projection.weight = (\n                text_decoder.output_projection.weight\n            )\n        for i, ly in enumerate(text_decoder.layers):\n            sly = spch_decoder.layers[i]\n            sly.self_attn = ly.self_attn\n            sly.self_attn_layer_norm = ly.self_attn_layer_norm\n            # sly.encoder_attn = ly.encoder_attn\n            if (\n                task_args.decoder_shared_layer_level == 1\n            ):  # share everything, but under different models\n                sly.encoder_attn = ly.encoder_attn\n                sly.encoder_attn_layer_norm = ly.encoder_attn_layer_norm\n                sly.fc1 = ly.fc1\n                sly.fc2 = ly.fc2\n                sly.final_layer_norm = ly.final_layer_norm\n            else:  # task_args.decoder_shared_layer_level == 2: #separated encoder_attn_layer_norm and bias\n                sly.encoder_attn.k_proj.weight = ly.encoder_attn.k_proj.weight\n                sly.encoder_attn.v_proj.weight = ly.encoder_attn.v_proj.weight\n                sly.encoder_attn.q_proj.weight = ly.encoder_attn.q_proj.weight\n                sly.encoder_attn.out_proj.weight = ly.encoder_attn.out_proj.weight\n                sly.fc1.weight = ly.fc1.weight\n                sly.fc2.weight = ly.fc2.weight\n\n        return spch_decoder\n\n    def cross_attentive_loss(\n        self, teacher_states, student_states, teacher_masking, student_masking, eps=1e-6\n    ):\n        x = teacher_states.transpose(0, 1)  # from T X B X D to B X T X D\n        y = student_states.transpose(0, 1)\n        if self.cross_attentive_loss_with_norm:\n            x = x / (x.norm(dim=2, keepdim=True) + eps)\n            y = y / (y.norm(dim=2, keepdim=True) + eps)\n        dim = x.size(-1)\n        # lengths: batch X seqLen\n        sim_scores_xy = torch.bmm(x, y.transpose(1, 2))  # batch X lenx X leny ]\n        if y.dtype == torch.float16:\n            sim_scores_xy = sim_scores_xy.float()\n            y = y.float()\n            x = x.float()\n        if teacher_masking != []:\n            assert len(teacher_masking) == 1\n            sim_scores_xy = sim_scores_xy.masked_fill(\n                teacher_masking[0].unsqueeze(-1), float(\"-inf\")\n            )\n        if student_masking != []:\n            sim_scores_xy = sim_scores_xy.masked_fill(\n                student_masking[0].unsqueeze(1), float(\"-inf\")\n            )\n        # do masking\n        y_weights = utils.softmax(sim_scores_xy, dim=-1)\n        if teacher_masking != []:\n            y_weights = y_weights.masked_fill(teacher_masking[0].unsqueeze(-1), 0)\n        x_reconstruct_from_y = torch.bmm(y_weights, y)\n\n        sim_scores_xx = torch.bmm(x, x.transpose(1, 2))  # batch X lenx X lenx ]\n        x_weights = utils.softmax(sim_scores_xx, dim=-1)\n        if teacher_masking != []:\n            x_weights = x_weights.masked_fill(teacher_masking[0].unsqueeze(-1), 0)\n\n        # no gradient for teacher state\n        x_reconstruct_from_x = torch.bmm(x_weights, x).detach()\n        cost = (x_reconstruct_from_x - x_reconstruct_from_y).norm(dim=2)\n        if teacher_masking != []:\n            cost = cost.masked_fill(teacher_masking[0], 0)\n\n        if not self.cross_attentive_loss_with_norm:\n            cost = cost / dim\n        return cost\n\n    def forward(\n        self,\n        prev_output_tokens,\n        encoder_out,\n        incremental_state=None,\n        has_txt_input=False,\n        **kwargs\n    ):\n        \"\"\"\n        Args:\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for input feeding/teacher forcing. If there are\n                two or more input during training, they will share the same prev_output_tokens\n            encoder_out (tuple[Tensor]): output from the encoder, used for\n                encoder-side attention. It will be tuple if there are more inputs, but a tensor\n                if only one input\n            incremental_state ([dict]): dictionary used for storing state during\n                :ref:`Incremental decoding`. It is only valid for inference, only from single\n                input\n        Returns:\n            tuple:\n                - the last decoder layer's output of shape `(batch, tgt_len,\n                  vocab)`. If there are N inputs, batch will be N bigger than a single input\n                - the last decoder layer's attention weights of shape `(batch,\n                  tgt_len, src_len)`\n        \"\"\"\n        assert not isinstance(encoder_out, EncoderOut)\n        if isinstance(encoder_out, tuple):  # training with mulitple input\n            rst = []\n            assert len(encoder_out) == 2\n            for i, eo in enumerate(encoder_out):\n                assert incremental_state is None\n                if i == 0:\n                    rst.append(\n                        self.spch_decoder(prev_output_tokens, eo, incremental_state)\n                    )\n                else:\n                    rst.append(\n                        self.text_decoder(prev_output_tokens, eo, incremental_state)\n                    )\n            dec_out = torch.cat([r[0] for r in rst], dim=0)\n            attn_cost = None\n            if self.compute_cross_attentive_loss:\n                assert isinstance(encoder_out[0], dict)\n                if self.cross_attentive_loss_reverse:\n                    attn_cost = self.cross_attentive_loss(\n                        teacher_states=encoder_out[1][\"encoder_states\"],  # text_states\n                        student_states=encoder_out[0][\"encoder_states\"],  # spch_states\n                        teacher_masking=encoder_out[1][\"encoder_padding_mask\"],\n                        student_masking=encoder_out[0][\"encoder_padding_mask\"],\n                    )\n                else:\n                    attn_cost = self.cross_attentive_loss(\n                        teacher_states=encoder_out[0][\"encoder_states\"],  # spch_states\n                        student_states=encoder_out[1][\"encoder_states\"],  # text_states\n                        teacher_masking=encoder_out[0][\"encoder_padding_mask\"],\n                        student_masking=encoder_out[1][\"encoder_padding_mask\"],\n                    )\n\n            return (dec_out, {\"attn_cost\": attn_cost})\n        else:  # inference or training with one input\n            if has_txt_input:\n                return self.text_decoder(\n                    prev_output_tokens, encoder_out, incremental_state\n                )\n            return self.spch_decoder(prev_output_tokens, encoder_out, incremental_state)\n\n\n# Note:\n# dual input transformer:\n#    encoder: S2TTransformerEncoder for speech + TransformerEncoder for text\n#    decoder: TransformerDecoder for text\n@register_model(\"dual_input_s2t_transformer\")\nclass DualInputS2TTransformerModel(FairseqEncoderDecoderModel):\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n        self.num_updates = 0\n\n    def max_positions(self):\n        return None  # it is provided in task\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        # encoder 1: S2TTransformerEncoder for speech\n        parser.add_argument(\n            \"--conv-kernel-sizes\",\n            type=str,\n            metavar=\"N\",\n            help=\"kernel sizes of Conv1d subsampling layers\",\n        )\n        parser.add_argument(\n            \"--conv-channels\",\n            type=int,\n            metavar=\"N\",\n            help=\"# of channels in Conv1d subsampling layers\",\n        )\n        parser.add_argument(\n            \"--enc-output-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"\"\"\n                encoder output dimension, can be None. If specified, projecting the\n                transformer output to the specified dimension\"\"\",\n        )\n        # standard Transformer\n        parser.add_argument(\n            \"--activation-fn\",\n            type=str,\n            default=\"relu\",\n            choices=utils.get_available_activation_fns(),\n            help=\"activation function to use\",\n        )\n        parser.add_argument(\n            \"--dropout\", type=float, metavar=\"D\", help=\"dropout probability\"\n        )\n        parser.add_argument(\n            \"--attention-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for attention weights\",\n        )\n        parser.add_argument(\n            \"--activation-dropout\",\n            \"--relu-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability after activation in FFN.\",\n        )\n        parser.add_argument(\n            \"--encoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--encoder-text-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder text embedding dimension\",\n        )\n        parser.add_argument(\n            \"--encoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--encoder-attention-heads\",\n            type=int,\n            metavar=\"N\",\n            help=\"num encoder attention heads\",\n        )\n        parser.add_argument(\n            \"--decoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--decoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--decoder-layers\", type=int, metavar=\"N\", help=\"num decoder layers\"\n        )\n        parser.add_argument(\n            \"--decoder-attention-heads\",\n            type=int,\n            metavar=\"N\",\n            help=\"num decoder attention heads\",\n        )\n        parser.add_argument(\n            \"--layernorm-embedding\",\n            action=\"store_true\",\n            help=\"add layernorm to embedding\",\n        )\n        parser.add_argument(\n            \"--no-scale-embedding\",\n            action=\"store_true\",\n            help=\"if True, dont scale embeddings\",\n        )\n        # non-standard transformer parameters\n        parser.add_argument(\n            \"--speech-encoder-layers\",\n            type=int,\n            metavar=\"N\",\n            help=\"num speech encoder layers\",\n        )\n        parser.add_argument(\n            \"--text-encoder-layers\",\n            type=int,\n            metavar=\"N\",\n            help=\"num text encoder layers\",\n        )\n        parser.add_argument(\n            \"--encoder-shared-layers\",\n            type=int,\n            metavar=\"N\",\n            help=\"num shared encoder layers\",\n        )\n        parser.add_argument(\n            \"--encoder-shared-layer-level\",\n            type=int,\n            metavar=\"N\",\n            default=0,\n            choices=[0, 1, 2],\n            help=\"share layer level 0: all share 1: all share with separate model 2: share weight but not bias and layernorm\",\n        )\n\n        parser.add_argument(\n            \"--decoder-shared-layer-level\",\n            default=0,\n            choices=[0, 1, 2],\n            type=int,\n            metavar=\"N\",\n            help=\"0: share everything; 1: share everything with different model 2: no share layer_norm and bias\",\n        )\n        ###\n        parser.add_argument(\n            \"--text-input-cost-ratio\",\n            type=float,\n            default=1.0,\n            metavar=\"V\",\n            help=\"text input cost ratio relative to speech input cost\",\n        )\n        parser.add_argument(\n            \"--init-scale\",\n            type=float,\n            default=1.0,\n            metavar=\"V\",\n            help=\"scale the initial weight by given factor\",\n        )\n        parser.add_argument(\n            \"--enc-grad-mult\",\n            type=float,\n            metavar=\"V\",\n            default=1.0,\n            help=\"multiply enc1 and enc2 gradient by V\",\n        )\n        parser.add_argument(\n            \"--enc2-along-grad-mult\",\n            type=float,\n            metavar=\"V\",\n            default=1.0,\n            help=\"multiply enc2 gradient by V if only enc2 is used\",\n        )\n        parser.add_argument(\n            \"--load-pretrain-encoder\",\n            type=str,\n            default=\"\",\n            metavar=\"EXPR\",\n            help=\"\"\" path to the pretrained encoder \"\"\",\n        )\n        parser.add_argument(\n            \"--load-pretrain-speech-encoder\",\n            type=str,\n            default=\"\",\n            metavar=\"EXPR\",\n            help=\"\"\" path to the pretrained speech encoder \"\"\",\n        )\n        parser.add_argument(\n            \"--load-pretrain-text-encoder\",\n            type=str,\n            default=\"\",\n            metavar=\"EXPR\",\n            help=\"\"\" path to the pretrained text encoder \"\"\",\n        )\n        parser.add_argument(\n            \"--load-pretrain-text-encoder-last\",\n            type=str,\n            default=\"\",\n            metavar=\"EXPR\",\n            help=\"\"\" path to the pretrained text encoder \"\"\",\n        )\n        parser.add_argument(\n            \"--load-pretrain-decoder\",\n            type=str,\n            metavar=\"EXPR\",\n            default=\"\",\n            help=\"\"\" path to the pretrained encoder \"\"\",\n        )\n        parser.add_argument(\n            \"--add-speech-eos\",\n            action=\"store_true\",\n            help=\"add eos token at the end of input feature\",\n        )\n        parser.add_argument(\n            \"--speech-encoder-adapter-type\",\n            type=str,\n            metavar=\"EXPR\",\n            default=\"None\",\n            choices=[\"None\", \"Linear\", \"MLP\"],\n            help=\"add speech encoder adapter\",\n        )\n\n    @classmethod\n    def build_encoder(cls, args, task):\n        spch_encoder = DualInputEncoder.build_spch_encoder(args)\n        text_encoder = DualInputEncoder.build_text_encoder(\n            args, task.src_dict, spch_encoder\n        )\n        cross_attentive_loss_before_last_layer = (\n            0 if getattr(args, \"attentive_cost_regularization\", 0.0) > 0.0 else -1\n        )\n        encoder = DualInputEncoder(\n            args,\n            spch_encoder,\n            text_encoder,\n            task.src_dict,\n            cross_attentive_loss_before_last_layer,\n        )\n        if args.init_scale != 1.0:\n            with torch.no_grad():\n                for param in encoder.parameters():\n                    param.data.mul_(args.init_scale)\n        if args.load_pretrain_text_encoder != \"\":\n            checkpoint_utils.load_pretrained_component_from_model(\n                text_encoder, args.load_pretrain_text_encoder\n            )\n        if args.load_pretrain_speech_encoder != \"\":\n            if hasattr(spch_encoder, \"encoder\"):\n                checkpoint_utils.load_pretrained_component_from_model(\n                    spch_encoder.encoder, args.load_pretrain_speech_encoder\n                )\n            else:\n                checkpoint_utils.load_pretrained_component_from_model(\n                    spch_encoder, args.load_pretrain_speech_encoder\n                )\n        if (\n            args.load_pretrain_text_encoder_last != \"\"\n        ):  # if share encoder, speech encoder parameters will be used.\n            # It provides a chance to use pre-trained mt encoder instead\n            checkpoint_utils.load_pretrained_component_from_model(\n                text_encoder, args.load_pretrain_text_encoder_last\n            )\n\n        if args.load_pretrain_encoder != \"\":\n            checkpoint_utils.load_pretrained_component_from_model(\n                encoder, args.load_pretrain_encoder\n            )\n        return encoder\n\n    @classmethod\n    def build_decoder(cls, args, task):\n        dec_cfg = {\n            \"decoder_layerdrop\": args.decoder_layerdrop,\n            \"share_decoder_input_output_embed\": args.share_decoder_input_output_embed,\n            \"decoder_embed_dim\": args.decoder_embed_dim,\n            \"max_target_positions\": args.max_target_positions,\n            \"dropout\": args.dropout,\n            \"encoder_learned_pos\": args.encoder_learned_pos,\n            \"decoder_learned_pos\": args.decoder_learned_pos,\n            \"layernorm_embedding\": args.layernorm_embedding,\n            \"decoder_normalize_before\": args.decoder_normalize_before,\n            \"activation_dropout\": args.activation_dropout,\n            \"attention_dropout\": args.attention_dropout,\n            \"decoder_ffn_embed_dim\": args.decoder_ffn_embed_dim,\n            \"decoder_layers\": args.decoder_layers,\n            \"decoder_attention_heads\": args.decoder_attention_heads,\n            \"decoder_output_dim\": args.decoder_embed_dim,\n            \"no_scale_embedding\": args.no_scale_embedding,\n            \"adaptive_input\": args.adaptive_input,\n            \"quant_noise_pq\": args.quant_noise_pq,\n            \"adaptive_softmax_cutoff\": args.adaptive_softmax_cutoff,\n            \"tie_adaptive_weights\": args.tie_adaptive_weights,\n            \"no_token_positional_embeddings\": args.no_token_positional_embeddings,\n            \"encoder\": {\"embed_dim\":args.encoder_embed_dim}\n        }\n        dec_cfg = namedtuple(\"args\", dec_cfg.keys())(*dec_cfg.values())\n        dec_emb = nn.Embedding(\n            len(task.target_dictionary),\n            args.decoder_embed_dim,\n            task.target_dictionary.pad(),\n        )\n        compute_cross_attentive_loss = (\n            True if getattr(args, \"attentive_cost_regularization\", 0.0) > 0.0 else False\n        )\n        cross_attentive_loss_without_norm = getattr(\n            args, \"attentive_cost_without_normalize\", False\n        )\n        cross_attentive_loss_reverse = (\n            False  # getattr(args, \"attentive_cost_reverse\", False)\n        )\n\n        text_decoder = TransformerDecoder(dec_cfg, task.target_dictionary, dec_emb)\n        spch_decoder = TransformerDecoder(dec_cfg, task.target_dictionary, dec_emb)\n        spch_decoder = TransformerMultiInputDecoder.share_spchdecoder(\n            args, text_decoder, spch_decoder\n        )\n        decoder = TransformerMultiInputDecoder(\n            dictionary=task.target_dictionary,\n            spch_decoder=spch_decoder,\n            text_decoder=text_decoder,\n            compute_cross_attentive_loss=compute_cross_attentive_loss,\n            cross_attentive_loss_with_norm=True\n            if not cross_attentive_loss_without_norm\n            else False,\n            cross_attentive_loss_reverse=cross_attentive_loss_reverse,\n        )\n        if args.init_scale != 1.0:\n            with torch.no_grad():\n                for param in decoder.parameters():\n                    param.data.mul_(args.init_scale)\n        if args.load_pretrain_decoder != \"\":\n            try:\n                checkpoint_utils.load_pretrained_component_from_model(\n                    decoder, args.load_pretrain_decoder\n                )\n            except RuntimeError:\n                checkpoint_utils.load_pretrained_component_from_model(\n                    decoder.text_decoder, args.load_pretrain_decoder\n                )\n                if args.decoder_shared_layer_level > 0:\n                    checkpoint_utils.load_pretrained_component_from_model(\n                        decoder.spch_decoder, args.load_pretrain_decoder\n                    )\n\n        return decoder\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        # make sure that all args are properly defaulted\n        # (in case there are any new ones)\n        dualinputs2ttransformer_base(args)\n\n        encoder = cls.build_encoder(args, task)\n        decoder = cls.build_decoder(args, task)\n        return cls(encoder, decoder)\n\n    def get_normalized_probs(self, net_output, log_probs, sample=None):\n        # net_output['encoder_out'] is a (B, T, D) tensor\n        lprobs = super().get_normalized_probs(net_output, log_probs, sample)\n        lprobs.batch_first = True\n        return lprobs\n\n    def set_num_updates(self, num_updates):\n        \"\"\"Set the number of parameters updates.\"\"\"\n        super().set_num_updates(num_updates)\n        self.num_updates = num_updates\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths,\n        prev_output_tokens,\n        use_encoder_outputs=False,\n        src_txt_tokens=None,\n        src_txt_lengths=None,\n        mode=\"sup_speech\",\n        **kwargs\n    ):\n        \"\"\"\n        Run the forward pass for an encoder-decoder model.\n\n        First feed a batch of source tokens through the encoder. Then, feed the\n        encoder output and previous decoder outputs (i.e., teacher forcing) to\n        the decoder to produce the next outputs::\n\n            encoder_out = self.encoder(src_tokens, src_lengths)\n            return self.decoder(prev_output_tokens, encoder_out)\n\n        Args:\n            src_tokens (LongTensor): tokens in the source language of shape\n                `(batch, src_len)`\n            src_lengths (LongTensor): source sentence lengths of shape `(batch)`\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for teacher forcing\n            mode = 'sup_speech' or 'text'\n\n        Returns:\n            tuple:\n                - the decoder's output of shape `(batch, tgt_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        if mode == \"text\":\n            assert src_txt_tokens is None\n            src_txt_tokens = src_tokens\n            src_txt_lengths = src_lengths\n            src_tokens = None\n            src_lengths = None\n        encoder_out = self.encoder(\n            src_tokens,\n            src_lengths=src_lengths,\n            src_txt_tokens=src_txt_tokens,\n            src_txt_lengths=src_txt_lengths,\n            **kwargs\n        )\n        has_txt_input = True if src_txt_tokens is not None else False\n        decoder_out = self.decoder(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            has_txt_input=has_txt_input,\n            **kwargs\n        )\n        if use_encoder_outputs:\n            return decoder_out, encoder_out\n        return decoder_out\n\n\n@register_model_architecture(\n    \"dual_input_s2t_transformer\", \"dualinputs2ttransformer_base\"\n)\ndef dualinputs2ttransformer_base(args):\n    args.encoder_freezing_updates = getattr(args, \"encoder_freezing_updates\", 0)\n    # Convolutional subsampler\n    args.input_feat_per_channel = getattr(args, \"input_feat_per_channel\", 80)\n    args.conv_kernel_sizes = getattr(args, \"conv_kernel_sizes\", \"5,5\")\n    args.conv_channels = getattr(args, \"conv_channels\", 1024)\n    # Transformer\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_text_embed_dim = getattr(\n        args, \"encoder_text_embed_dim\", args.encoder_embed_dim\n    )\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", True)\n    args.encoder_layerdrop = getattr(args, \"encoder_layerdrop\", 0)\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", False)\n\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", args.encoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", args.encoder_ffn_embed_dim\n    )\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", True)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = getattr(args, \"attention_dropout\", args.dropout)\n    args.activation_dropout = getattr(args, \"activation_dropout\", args.dropout)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.tie_adaptive_weights = getattr(args, \"tie_adaptive_weights\", False)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.decoder_layerdrop = getattr(args, \"decoder_layerdrop\", 0.0)\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.layernorm_embedding = getattr(args, \"layernorm_embedding\", False)\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", False)\n    args.quant_noise_pq = getattr(args, \"quant_noise_pq\", 0)\n\n    args.speech_encoder_layers = getattr(args, \"speech_encoder_layers\", 10)\n    args.text_encoder_layers = getattr(args, \"text_encoder_layers\", 6)\n    args.encoder_shared_layers = getattr(args, \"encoder_shared_layers\", 0)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n\n    args.add_speech_eos = getattr(args, \"add_speech_eos\", False)\n\n\n@register_model_architecture(\"dual_input_s2t_transformer\", \"dualinputs2ttransformer_s\")\ndef dualinputs2ttransformer_s(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 256 * 4)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 4)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.speech_encoder_layers = getattr(args, \"speech_encoder_layers\", 7)\n    args.text_encoder_layers = getattr(args, \"text_encoder_layers\", 7)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 7)\n    dualinputs2ttransformer_base(args)\n\n\n@register_model_architecture(\"dual_input_s2t_transformer\", \"dualinputs2ttransformer_m\")\ndef dualinputs2ttransformer_m(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 512 * 4)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.dropout = getattr(args, \"dropout\", 0.15)\n    args.speech_encoder_layers = getattr(args, \"speech_encoder_layers\", 10)\n    args.text_encoder_layers = getattr(args, \"text_encoder_layers\", 6)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    dualinputs2ttransformer_base(args)\n\n\n@register_model_architecture(\"dual_input_s2t_transformer\", \"dualinputs2ttransformer_b\")\ndef dualinputs2ttransformer_b(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 768)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 768 * 4)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 12)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 12)\n    args.dropout = getattr(args, \"dropout\", 0.15)\n    args.speech_encoder_layers = getattr(args, \"speech_encoder_layers\", 12)\n    args.text_encoder_layers = getattr(args, \"text_encoder_layers\", 6)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    dualinputs2ttransformer_base(args)\n\n\n@register_model_architecture(\"dual_input_s2t_transformer\", \"dualinputs2ttransformer_l\")\ndef dualinputs2ttransformer_l(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 1024 * 4)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 16)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 16)\n    args.dropout = getattr(args, \"dropout\", 0.2)\n    args.speech_encoder_layers = getattr(args, \"speech_encoder_layers\", 12)\n    args.text_encoder_layers = getattr(args, \"text_encoder_layers\", 6)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    dualinputs2ttransformer_base(args)\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/models/s2t_dualinputwavtransformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom collections import OrderedDict, namedtuple\n\nimport torch.nn as nn\n\nfrom fairseq import checkpoint_utils, utils\nfrom fairseq.checkpoint_utils import load_checkpoint_to_cpu\nfrom fairseq.file_io import PathManager\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.speech_to_text import (\n    SpeechWavTransformerEncoder,\n    StackedSpeechWavTransformerEncoder,\n    TransformerDecoder,\n)\nfrom fairseq.models.transformer import TransformerEncoder\n\nfrom .s2t_dualinputtransformer import (\n    DualInputEncoder,\n    DualInputS2TTransformerModel,\n    TransformerMultiInputDecoder,\n)\n\nlogger = logging.getLogger(__name__)\n\n\n@register_model(\"dual_input_wav_transformer\")\nclass DualInputWavTransformerModel(DualInputS2TTransformerModel):\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @staticmethod\n    def add_args(parser):\n        def add_transformer_args(parser):\n            # We can't use TransformerModel.add_args(parser), since it defines max-source-positions which is duplicated with tasks/speech_to_text.py\n            # Transformer\n            parser.add_argument(\n                \"--activation-fn\",\n                type=str,\n                default=\"relu\",\n                choices=utils.get_available_activation_fns(),\n                help=\"activation function to use\",\n            )\n            parser.add_argument(\n                \"--dropout\", type=float, metavar=\"D\", help=\"dropout probability\"\n            )\n            parser.add_argument(\n                \"--attention-dropout\",\n                type=float,\n                metavar=\"D\",\n                help=\"dropout probability for attention weights\",\n            )\n            parser.add_argument(\n                \"--activation-dropout\",\n                \"--relu-dropout\",\n                type=float,\n                metavar=\"D\",\n                help=\"dropout probability after activation in FFN.\",\n            )\n            parser.add_argument(\n                \"--encoder-embed-dim\",\n                type=int,\n                metavar=\"N\",\n                help=\"encoder embedding dimension\",\n            )\n            parser.add_argument(\n                \"--encoder-ffn-embed-dim\",\n                type=int,\n                metavar=\"N\",\n                help=\"encoder embedding dimension for FFN\",\n            )\n            parser.add_argument(\n                \"--encoder-layers\", type=int, metavar=\"N\", help=\"num encoder layers\"\n            )\n            parser.add_argument(\n                \"--encoder-attention-heads\",\n                type=int,\n                metavar=\"N\",\n                help=\"num encoder attention heads\",\n            )\n            parser.add_argument(\n                \"--encoder-normalize-before\",\n                action=\"store_true\",\n                help=\"apply layernorm before each encoder block\",\n            )\n            parser.add_argument(\n                \"--decoder-embed-dim\",\n                type=int,\n                metavar=\"N\",\n                help=\"decoder embedding dimension\",\n            )\n            parser.add_argument(\n                \"--decoder-ffn-embed-dim\",\n                type=int,\n                metavar=\"N\",\n                help=\"decoder embedding dimension for FFN\",\n            )\n            parser.add_argument(\n                \"--decoder-layers\", type=int, metavar=\"N\", help=\"num decoder layers\"\n            )\n            parser.add_argument(\n                \"--decoder-attention-heads\",\n                type=int,\n                metavar=\"N\",\n                help=\"num decoder attention heads\",\n            )\n            parser.add_argument(\n                \"--decoder-normalize-before\",\n                action=\"store_true\",\n                help=\"apply layernorm before each decoder block\",\n            )\n            parser.add_argument(\n                \"--share-decoder-input-output-embed\",\n                action=\"store_true\",\n                help=\"share decoder input and output embeddings\",\n            )\n            parser.add_argument(\n                \"--layernorm-embedding\",\n                action=\"store_true\",\n                help=\"add layernorm to embedding\",\n            )\n            parser.add_argument(\n                \"--no-scale-embedding\",\n                action=\"store_true\",\n                help=\"if True, dont scale embeddings\",\n            )\n\n            parser.add_argument(\n                \"--encoder-learned-pos\",\n                action=\"store_true\",\n                help=\"use learned positional embeddings\",\n            )\n            parser.add_argument(\n                \"--decoder-learned-pos\",\n                action=\"store_true\",\n                help=\"use learned positional embeddings\",\n            )\n\n        add_transformer_args(parser)\n        SpeechWavTransformerEncoder.add_args(parser)\n        parser.add_argument(\n            \"--load-pretrained-speech-text-encoder\",\n            type=str,\n            default=\"\",\n            metavar=\"EXPR\",\n            help=\"\"\" path to the pretrained speech text encoder from SpeechTextPreTrainModel \"\"\",\n        )\n        parser.add_argument(\n            \"--load-pretrained-wav2vec-encoder\",\n            type=str,\n            default=\"\",\n            metavar=\"EXPR\",\n            help=\"\"\" path to the pretrained speech text encoder from wav2vec \"\"\",\n        )\n\n        parser.add_argument(\n            \"--load-pretrained-speech-text-decoder\",\n            type=str,\n            default=\"\",\n            metavar=\"EXPR\",\n            help=\"\"\" path to the pretrained speech text decoder from SpeechTextPreTrainModel \"\"\",\n        )\n        parser.add_argument(\n            \"--load-pretrained-text-decoder\",\n            type=str,\n            default=\"\",\n            metavar=\"EXPR\",\n            help=\"\"\" path to the pretrained  text decoder \"\"\",\n        )\n        parser.add_argument(\n            \"--load-init-encoder\",\n            type=str,\n            default=\"\",\n            metavar=\"EXPR\",\n            help=\"\"\" path to load seed encoder model \"\"\",\n        )\n        parser.add_argument(\n            \"--load-init-decoder\",\n            type=str,\n            default=\"\",\n            metavar=\"EXPR\",\n            help=\"\"\" path to load seed decoder model \"\"\",\n        )\n\n        parser.add_argument(\n            \"--text-input-cost-ratio\",\n            type=float,\n            default=1.0,\n            metavar=\"V\",\n            help=\"text input cost ratio relative to speech input cost\",\n        )\n        parser.add_argument(\n            \"--enc-grad-mult\",\n            type=float,\n            metavar=\"V\",\n            default=1.0,\n            help=\"multiply enc1 and enc2 gradient by V\",\n        )\n        parser.add_argument(\n            \"--enc2-along-grad-mult\",\n            type=float,\n            metavar=\"V\",\n            default=1.0,\n            help=\"multiply enc2 gradient by V if only enc2 is used\",\n        )\n        parser.add_argument(\n            \"--no-strict-check-pretrain-model\",\n            action=\"store_true\",\n            help=\"Don't apply strict model check for the pretrained model\",\n        )\n\n        parser.add_argument(\n            \"--stacked-encoder\",\n            action=\"store_true\",\n            help=\"stack speech and text encoders\",\n        )\n\n    @classmethod\n    def update_transformer_encoder_cfg(cls, args, update_dict):\n        cfg = dict(args._get_kwargs())\n        for fkey in update_dict.keys():\n            cfg[fkey] = update_dict[fkey]\n        cfg.pop(\"_name\", None)  # remove keys start with _\n        model_args = namedtuple(\"args\", cfg.keys())(*cfg.values())\n        return model_args\n\n    @classmethod\n    def build_text_encoder(cls, args, src_dictionary):\n        enc_emb = nn.Embedding(\n            len(src_dictionary), args.encoder_embed_dim, src_dictionary.pad()\n        )\n        model_args = cls.update_transformer_encoder_cfg(\n            args,\n            {\n                \"encoder_layers\": args.text_encoder_layers,\n                \"max_source_positions\": args.max_positions_text,\n            },\n        )\n        text_encoder = TransformerEncoder(model_args, src_dictionary, enc_emb)\n        return text_encoder\n\n    @classmethod\n    def build_speech_encoder(cls, args):\n        model_args = cls.update_transformer_encoder_cfg(\n            args, {\"encoder_layers\": args.speech_encoder_layers}\n        )\n        speech_encoder = SpeechWavTransformerEncoder(model_args)\n        return speech_encoder\n\n    @classmethod\n    def check_args(cls, condition, is_strict, msg):\n        if condition:\n            return\n        if is_strict:\n            raise ValueError(msg)\n        logger.warn(msg)\n\n    @classmethod\n    def build_encoder(cls, args, task):\n        # text_encoder = cls.build_text_encoder(args, task.source_dictionary )\n        text_encoder = cls.build_text_encoder(args, task.src_dict)\n        speech_encoder = cls.build_speech_encoder(args)\n        if args.load_pretrained_wav2vec_encoder:\n            component_pairs = (\n                (\"feature_extractor\", speech_encoder.subsample),\n                (\"post_extract_proj\", speech_encoder.feat_proj),\n                (\"layer_norm\", speech_encoder.feat_layer_norm),\n                (\"encoder.pos_conv\", speech_encoder.embed_positions),\n                (\"encoder.layers\", speech_encoder.layers),\n                (\"encoder.layer_norm\", speech_encoder.layer_norm),\n                (\"mask_emb\", speech_encoder.mask_emb),\n            )\n            state = cls.load_pretrained_speech_text_components(\n                args.load_pretrained_wav2vec_encoder, component_pairs\n            )\n            cls.check_args(\n                args.encoder_normalize_before\n                == state[\"cfg\"][\"model\"][\"layer_norm_first\"],\n                not args.no_strict_check_pretrain_model,\n                f\"encoder_normalize_before {args.encoder_normalize_before} doesn't match with the pretrained model\",\n            )\n            cls.check_args(\n                args.activation_fn == state[\"cfg\"][\"model\"][\"activation_fn\"],\n                not args.no_strict_check_pretrain_model,\n                f\"activation_fn {args.activation_fn} doesn't match with the pretrained model\",\n            )\n\n        if getattr(args, \"stacked_encoder\", False):\n            if args.encoder_shared_text_layers_from_begin > 0:\n                raise ValueError(\n                    \"We can not stack encoders and share encoders at the same time!\"\n                )\n            speech_encoder = StackedSpeechWavTransformerEncoder(\n                speech_encoder, text_encoder.layers, text_encoder.layer_norm\n            )\n        else:\n            cls.share_speech_text_encoder(\n                speech_encoder, text_encoder, args.encoder_shared_text_layers_from_begin\n            )\n\n        cross_attentive_loss_before_last_layer = (\n            0 if getattr(args, \"attentive_cost_regularization\", 0.0) > 0.0 else -1\n        )\n        encoder = DualInputEncoder(\n            args,\n            speech_encoder,\n            text_encoder,\n            task.src_dict,\n            cross_attentive_loss_before_last_layer,\n        )\n        if args.load_pretrained_speech_text_encoder:\n            component_pairs = (\n                (\"encoder.sup_s2s_speech_encoder\", encoder.spch_encoder),\n                (\"encoder.text_encoder\", encoder.text_encoder),\n            )\n            cls.load_pretrained_speech_text_components(\n                args.load_pretrained_speech_text_encoder, component_pairs\n            )\n        if getattr(args, \"load_init_encoder\", \"\") != \"\":\n            checkpoint_utils.load_pretrained_component_from_model(\n                encoder, args.load_init_encoder\n            )\n        return encoder\n\n    @classmethod\n    def build_text_decoder(cls, args, tgt_dictionary, dec_emb_share=None):\n        dec_emb = (\n            nn.Embedding(\n                len(tgt_dictionary), args.decoder_embed_dim, tgt_dictionary.pad()\n            )\n            if dec_emb_share is None\n            else dec_emb_share\n        )\n        text_decoder = TransformerDecoder(args, tgt_dictionary, dec_emb)\n        return text_decoder\n\n    @classmethod\n    def build_decoder(cls, args, task):\n        text_decoder = cls.build_text_decoder(args, task.target_dictionary)\n        compute_cross_attentive_loss = (\n            True if getattr(args, \"attentive_cost_regularization\", 0.0) > 0.0 else False\n        )\n        cross_attentive_loss_without_norm = getattr(\n            args, \"attentive_cost_without_normalize\", False\n        )\n        cross_attentive_loss_reverse = (\n            False  # getattr(args, \"attentive_cost_reverse\", False)\n        )\n        if getattr(args, \"load_pretrained_text_decoder\", \"\") != \"\":\n            checkpoint_utils.load_pretrained_component_from_model(\n                text_decoder, args.load_pretrained_text_decoder\n            )\n\n        if args.load_pretrained_speech_text_decoder:\n            component_pairs = ((\"decoder.text_decoder\", text_decoder),)\n            cls.load_pretrained_speech_text_components(\n                args.load_pretrained_speech_text_decoder, component_pairs\n            )\n\n        decoder = TransformerMultiInputDecoder(\n            dictionary=task.target_dictionary,\n            spch_decoder=text_decoder,\n            text_decoder=text_decoder,\n            compute_cross_attentive_loss=compute_cross_attentive_loss,\n            cross_attentive_loss_with_norm=True\n            if not cross_attentive_loss_without_norm\n            else False,\n            cross_attentive_loss_reverse=cross_attentive_loss_reverse,\n        )\n        if getattr(args, \"load_init_decoder\", \"\") != \"\":\n            checkpoint_utils.load_pretrained_component_from_model(\n                decoder, args.load_init_decoder\n            )\n        return decoder\n\n    @classmethod\n    def load_pretrained_speech_text_components(cls, checkpoint, component_pairs):\n        if not PathManager.exists(checkpoint):\n            raise IOError(\"Model file not found: {}\".format(checkpoint))\n        state = load_checkpoint_to_cpu(checkpoint)\n        for component_type, component in component_pairs:\n            if isinstance(component, nn.parameter.Parameter):\n                component.data.copy_(state[\"model\"][component_type])\n            else:\n                component_state_dict = OrderedDict()\n                for key in state[\"model\"].keys():\n                    if key.startswith(component_type):\n                        component_subkey = key[len(component_type) + 1 :]\n                        component_state_dict[component_subkey] = state[\"model\"][key]\n                component.load_state_dict(component_state_dict, strict=True)\n        return state\n\n    @classmethod\n    def share_speech_text_encoder(\n        cls, speech_encoder, text_encoder, shared_layers_from_begin\n    ):\n        if shared_layers_from_begin > 0:\n            num_text_encoder_layers = len(text_encoder.layers)\n            assert len(speech_encoder.layers) >= shared_layers_from_begin\n            assert num_text_encoder_layers >= shared_layers_from_begin\n            assert len(speech_encoder.layers) >= num_text_encoder_layers\n            for i, ly in enumerate(\n                speech_encoder.layers[\n                    -num_text_encoder_layers : -num_text_encoder_layers\n                    + shared_layers_from_begin\n                ]\n            ):\n                assert isinstance(text_encoder.layers[i], type(ly))\n                text_encoder.layers[i] = ly\n\n\n@register_model_architecture(\n    \"dual_input_wav_transformer\", \"dualinputs2twavtransformer_base\"\n)\ndef dualinputs2twavtransformer_base(args):\n    # speech masking\n    args.dropout_input = getattr(args, \"dropout_input\", 0)\n    args.dropout_features = getattr(args, \"dropout_features\", 0)\n    args.speech_mask_length = getattr(args, \"speech_mask_length\", 10)\n    args.speech_mask_prob = getattr(args, \"speech_mask_prob\", 0.65)\n    args.speech_mask_selection = getattr(args, \"speech_mask_selection\", \"static\")\n    args.speech_mask_other = getattr(args, \"speech_mask_other\", 0)\n    args.speech_mask_min_space = getattr(args, \"speech_mask_min_space\", 1)\n    args.speech_no_mask_overlap = getattr(args, \"speech_no_mask_overlap\", False)\n    args.speech_conv_bias = getattr(args, \"speech_conv_bias\", False)\n    args.speech_extractor_mode = getattr(args, \"speech_extractor_mode\", \"default\")\n    args.no_strict_check_pretrain_model = getattr(\n        args, \"no_strict_check_pretrain_model\", False\n    )\n\n    args.speech_mask_channel_length = getattr(args, \"speech_mask_channel_length\", 10)\n    args.speech_mask_channel_prob = getattr(args, \"speech_mask_channel_prob\", 0.0)\n    args.speech_mask_channel_selection = getattr(\n        args, \"speech_mask_channel_selection\", \"static\"\n    )\n    args.speech_mask_channel_other = getattr(args, \"speech_mask_channel_other\", 0)\n    args.speech_mask_channel_min_space = getattr(\n        args, \"speech_mask_channel_min_space\", 1\n    )\n    args.speech_no_mask_channel_overlap = getattr(\n        args, \"speech_no_mask_channel_overlap\", False\n    )\n    args.no_scale_feature = getattr(args, \"\", False)\n    args.feature_grad_mult = getattr(args, \"feature_grad_mult\", 0.0)  # 0.1\n\n    # Transformer\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 768)\n    args.encoder_ffn_embed_dim = getattr(\n        args, \"encoder_ffn_embed_dim\", args.encoder_embed_dim * 4\n    )\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 12)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.encoder_layerdrop = getattr(args, \"encoder_layerdrop\", 0.1)\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", False)\n\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", args.encoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", args.encoder_ffn_embed_dim\n    )\n    args.decoder_attention_heads = getattr(\n        args, \"decoder_attention_heads\", args.encoder_attention_heads\n    )\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", False)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0)\n    args.activation_dropout = getattr(args, \"activation_dropout\", args.dropout)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")  # gelu?\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.tie_adaptive_weights = getattr(args, \"tie_adaptive_weights\", False)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.decoder_layerdrop = getattr(args, \"decoder_layerdrop\", 0.0)\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.layernorm_embedding = getattr(args, \"layernorm_embedding\", False)\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", False)\n    args.quant_noise_pq = getattr(args, \"quant_noise_pq\", 0)\n\n    args.speech_encoder_layers = getattr(args, \"speech_encoder_layers\", 12)\n    args.text_encoder_layers = getattr(args, \"text_encoder_layers\", 6)\n    args.encoder_shared_text_layers_from_begin = getattr(\n        args, \"encoder_shared_text_layers_from_begin\", 6\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n\n\n@register_model_architecture(\n    \"dual_input_wav_transformer\", \"dualinputs2twavtransformer_base_stack\"\n)\ndef dualinputs2twavtransformer_base_stack(args):\n    args.speech_encoder_layers = getattr(args, \"speech_encoder_layers\", 6)\n    args.text_encoder_layers = getattr(args, \"text_encoder_layers\", 6)\n    args.encoder_shared_text_layers_from_begin = getattr(\n        args, \"encoder_shared_text_layers_from_begin\", 0\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.stacked_encoder = getattr(args, \"stacked_encoder\", True)\n    args.layernorm_embedding = getattr(args, \"layernorm_embedding\", True)\n    dualinputs2twavtransformer_base(args)\n\n\n@register_model_architecture(\n    \"dual_input_wav_transformer\", \"dualinputs2twavtransformer_large\"\n)\ndef dualinputs2twavtransformer_large(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 16)\n    args.speech_encoder_layers = getattr(args, \"speech_encoder_layers\", 24)\n    args.text_encoder_layers = getattr(args, \"text_encoder_layers\", 12)\n    args.encoder_shared_text_layers_from_begin = getattr(\n        args, \"encoder_shared_text_layers_from_begin\", 12\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 12)\n    dualinputs2twavtransformer_base(args)\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/models/s2t_dualinputxmtransformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport copy\n\nimport torch.nn as nn\nfrom fairseq import checkpoint_utils\nfrom fairseq import utils\nfrom fairseq.data.data_utils import lengths_to_padding_mask\nfrom fairseq.models import (\n    register_model,\n    register_model_architecture,\n    FairseqEncoder,\n)\nfrom fairseq.models.speech_to_text import Wav2VecEncoderWithAdaptor\nfrom fairseq.models.speech_to_text.xm_transformer import (\n    set_default_adaptor_args,\n    set_default_w2v_encoder_args,\n    need_finetuning\n)\nfrom fairseq.models.transformer import TransformerEncoder, TransformerDecoder\nfrom fairseq.models.wav2vec import TransformerSentenceEncoderLayer\nfrom fairseq.utils import safe_hasattr\n\nfrom .s2t_dualinputtransformer import (\n    DualInputS2TTransformerModel,\n    TransformerMultiInputDecoder,\n    DualInputEncoder,\n)\n\n\nclass TransformerSentenceEncoderLayerStd(TransformerSentenceEncoderLayer):\n    def __init__(self, sent_enc_layer):\n        super(TransformerSentenceEncoderLayer, self).__init__()\n        self.embedding_dim = sent_enc_layer.embedding_dim\n        self.dropout = sent_enc_layer.dropout\n        self.activation_dropout = sent_enc_layer.activation_dropout\n\n        # Initialize blocks\n        self.activation_fn = sent_enc_layer.activation_fn\n        self.self_attn = sent_enc_layer.self_attn\n\n        self.dropout1 = sent_enc_layer.dropout1\n        self.dropout2 = sent_enc_layer.dropout2\n        self.dropout3 = sent_enc_layer.dropout3\n\n        self.layer_norm_first = sent_enc_layer.layer_norm_first\n\n        # layer norm associated with the self attention layer\n        self.self_attn_layer_norm = sent_enc_layer.self_attn_layer_norm\n        self.fc1 = sent_enc_layer.fc1\n        self.fc2 = sent_enc_layer.fc2\n\n        # layer norm associated with the position wise feed-forward NN\n        self.final_layer_norm = sent_enc_layer.final_layer_norm\n\n    def forward(\n        self,\n        x,\n        self_attn_mask=None,\n        self_attn_padding_mask=None,\n        need_weights=None,\n        att_args=None,\n    ):\n        x, attn = super().forward(\n            x, self_attn_mask, self_attn_padding_mask, need_weights, att_args\n        )\n        return x\n\n\n# TODO retire SharedEncoder\nclass SharedEncoder(FairseqEncoder):\n    def __init__(self, wav2vec_enc, mbart_enc, adaptor, shared_layers):\n        super().__init__(None)\n        self.w2v_encoder = wav2vec_enc\n        self.shared_layers = self.w2v_encoder.w2v_model.encoder.layers[-shared_layers:]\n        self.w2v_encoder.w2v_model.encoder.layers = (\n            self.w2v_encoder.w2v_model.encoder.layers[:-shared_layers]\n        )\n        self.adaptor = adaptor\n        if self.shared_layers[-1].layer_norm_first:\n            self.final_layer_norm = mbart_enc.layer_norm\n        else:\n            mbart_enc.layer_norm = None\n            self.final_layer_norm = None\n        shared_layer_from = len(mbart_enc.layers) - shared_layers\n        if shared_layer_from < 0:\n            shared_layer_from = 0\n        for layer_id, layer in enumerate(self.shared_layers):\n            mbart_enc.layers[\n                shared_layer_from + layer_id\n            ] = TransformerSentenceEncoderLayerStd(layer)\n\n    def forward(self, src_tokens, src_lengths=None, **kwargs):\n        padding_mask = lengths_to_padding_mask(src_lengths)\n        if not padding_mask.any():\n            padding_mask = None\n\n        out = self.w2v_encoder.forward(src_tokens, padding_mask, tbc=True)\n        x = out[\"encoder_out\"]\n        enc_padding_mask = None\n        if out[\"encoder_padding_mask\"] is not None:\n            enc_padding_mask = out[\"encoder_padding_mask\"].transpose(\n                0, 1\n            )  # T X B --> B X T\n\n        x, enc_padding_mask = self.adaptor(x, enc_padding_mask)\n        for layer in self.shared_layers:\n            x, _ = layer(x, enc_padding_mask)\n        if self.final_layer_norm is not None:\n            x = self.final_layer_norm(x)\n\n        return {\n            \"encoder_out\": [x],  # T x B x C\n            \"encoder_padding_mask\": [enc_padding_mask]\n            if enc_padding_mask is not None\n            else [],  # B x T\n            \"encoder_embedding\": [],  # B x T x C\n            \"encoder_states\": [],  # List[T x B x C]\n            \"src_tokens\": [],\n            \"src_lengths\": [],\n        }\n\n\nclass StackedWav2VecEncoderWithAdaptor(FairseqEncoder):\n    def __init__(\n        self,\n        wav2vec_enc,\n        mbart_enc_layers,\n        mbart_layer_norm,\n        adaptor,\n        drop_w2v_layers=0,\n    ):\n        super().__init__(None)\n        self.w2v_encoder = wav2vec_enc\n        self.adaptor = adaptor\n        self.mbart_encoder_layers = mbart_enc_layers\n        self.final_layer_norm = mbart_layer_norm\n        if drop_w2v_layers > 0:\n            self.w2v_encoder.w2v_model.encoder.layers = (\n                self.w2v_encoder.w2v_model.encoder.layers[:-drop_w2v_layers]\n            )\n\n    def forward(self, src_tokens, src_lengths=None, return_all_hiddens=False, **kwargs):\n        padding_mask = lengths_to_padding_mask(src_lengths)\n        if not padding_mask.any():\n            padding_mask = None\n\n        out = self.w2v_encoder.forward(src_tokens, padding_mask, tbc=True)\n        x = out[\"encoder_out\"]\n        enc_padding_mask = None\n        if out[\"padding_mask\"] is not None:\n            enc_padding_mask = out[\"padding_mask\"]  # B X T\n\n        x, enc_padding_mask = self.adaptor(x, enc_padding_mask)\n        encoder_states = []\n        for layer in self.mbart_encoder_layers:\n            x = layer(x, enc_padding_mask)\n            if return_all_hiddens:\n                encoder_states.append(x)\n        if self.final_layer_norm is not None:\n            x = self.final_layer_norm(x)\n\n        return {\n            \"encoder_out\": [x],  # T x B x C\n            \"encoder_padding_mask\": [enc_padding_mask]\n            if enc_padding_mask is not None\n            else [],  # B x T\n            \"encoder_embedding\": [],  # B x T x C\n            \"encoder_states\": encoder_states,  # List[T x B x C]\n            \"src_tokens\": [],\n            \"src_lengths\": [],\n        }\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        new_encoder_out = (\n            []\n            if len(encoder_out[\"encoder_out\"]) == 0\n            else [x.index_select(1, new_order) for x in encoder_out[\"encoder_out\"]]\n        )\n\n        new_encoder_padding_mask = (\n            []\n            if len(encoder_out[\"encoder_padding_mask\"]) == 0\n            else [\n                x.index_select(0, new_order)\n                for x in encoder_out[\"encoder_padding_mask\"]\n            ]\n        )\n\n        new_encoder_embedding = (\n            []\n            if len(encoder_out[\"encoder_embedding\"]) == 0\n            else [\n                x.index_select(0, new_order) for x in encoder_out[\"encoder_embedding\"]\n            ]\n        )\n\n        encoder_states = encoder_out[\"encoder_states\"]\n        if len(encoder_states) > 0:\n            for idx, state in enumerate(encoder_states):\n                encoder_states[idx] = state.index_select(1, new_order)\n\n        return {\n            \"encoder_out\": new_encoder_out,  # T x B x C\n            \"encoder_padding_mask\": new_encoder_padding_mask,  # B x T\n            \"encoder_embedding\": new_encoder_embedding,  # B x T x C\n            \"encoder_states\": encoder_states,  # List[T x B x C]\n            \"src_tokens\": [],  # B x T\n            \"src_lengths\": [],  # B x 1\n        }\n\n\n# Note:\n# dual input transformer:\n#    encoder: wav2vec for speech + mbart encoder for text\n#    decoder: mbart decoder  for text\n@register_model(\"dual_input_xm_transformer\")\nclass DualInputXMTransformerModel(DualInputS2TTransformerModel):\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        # wav2vec encoder\n        Wav2VecEncoderWithAdaptor.add_args(parser)\n        # add_decoder_args(parser)\n        # mbart Transformer\n        parser.add_argument(\n            \"--activation-fn\",\n            type=str,\n            default=\"relu\",\n            choices=utils.get_available_activation_fns(),\n            help=\"activation function to use\",\n        )\n\n        parser.add_argument(\n            \"--mbart-dropout\", type=float, metavar=\"D\", help=\"dropout probability\"\n        )\n        parser.add_argument(\n            \"--mbart-attention-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for attention weights\",\n        )\n        parser.add_argument(\n            \"--mbart-activation-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability after activation in FFN.\",\n        )\n\n        parser.add_argument(\n            \"--encoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--encoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--encoder-layers\", type=int, metavar=\"N\", help=\"num encoder layers\"\n        )\n        parser.add_argument(\n            \"--encoder-attention-heads\",\n            type=int,\n            metavar=\"N\",\n            help=\"num encoder attention heads\",\n        )\n        parser.add_argument(\n            \"--encoder-normalize-before\",\n            action=\"store_true\",\n            help=\"apply layernorm before each encoder block\",\n        )\n\n        parser.add_argument(\n            \"--decoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--decoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--decoder-layers\", type=int, metavar=\"N\", help=\"num decoder layers\"\n        )\n        parser.add_argument(\n            \"--decoder-attention-heads\",\n            type=int,\n            metavar=\"N\",\n            help=\"num decoder attention heads\",\n        )\n        parser.add_argument(\n            \"--decoder-normalize-before\",\n            action=\"store_true\",\n            help=\"apply layernorm before each decoder block\",\n        )\n        parser.add_argument(\n            \"--layernorm-embedding\",\n            action=\"store_true\",\n            help=\"add layernorm to embedding\",\n        )\n        parser.add_argument(\n            \"--no-scale-embedding\",\n            action=\"store_true\",\n            help=\"if True, dont scale embeddings\",\n        )\n        parser.add_argument(\n            \"--load-pretrained-mbart-from\",\n            type=str,\n            metavar=\"STR\",\n            help=\"model to take text encoder decoder weights from (for initialization)\",\n        )\n        # parser.add_argument(\"--finetune-w2v-params\", type=str, metavar=\"STR\",\n        #                    help=\"comma-separated param strings to finetune.\")\n        parser.add_argument(\n            \"--finetune-mbart-decoder-params\",\n            type=str,\n            metavar=\"STR\",\n            help=\"comma-separated param strings to finetune.\",\n        )\n        parser.add_argument(\n            \"--finetune-mbart-encoder-params\",\n            type=str,\n            metavar=\"STR\",\n            help=\"comma-separated param strings to finetune.\",\n        )\n        parser.add_argument(\n            \"--skip-encoder-projection\",\n            action=\"store_true\",\n            help=\"skip the projection layer in encoder\",\n        )\n\n        parser.add_argument(\n            \"--enc-grad-mult\",\n            type=float,\n            metavar=\"V\",\n            default=1.0,\n            help=\"multiply enc1 and enc2 gradient by V\",\n        )\n        parser.add_argument(\n            \"--enc2-along-grad-mult\",\n            type=float,\n            metavar=\"V\",\n            default=1.0,\n            help=\"multiply enc2 gradient by V if only enc2 is used\",\n        )\n        parser.add_argument(\n            \"--text-input-cost-ratio\",\n            type=float,\n            default=1.0,\n            metavar=\"V\",\n            help=\"text input cost ratio relative to speech input cost\",\n        )\n        parser.add_argument(\n            \"--stack-w2v-mbart-encoder\",\n            action=\"store_true\",\n            help=\"stack w2v and mbart encoder\",\n        )\n        parser.add_argument(\n            \"--stack-w2v-mbart-nonorm-encoder\",\n            action=\"store_true\",\n            help=\"stack w2v and mbart encoder\",\n        )\n        parser.add_argument(\n            \"--no-final-norm-decoder\", action=\"store_true\", help=\"no layer norm\"\n        )\n        parser.add_argument(\n            \"--drop-w2v-layers\",\n            type=int,\n            default=0,\n            metavar=\"N\",\n            help=\"drop w2v encoder layers\",\n        )\n\n        parser.add_argument(\n            \"--share-w2v-text-encoder\",\n            action=\"store_true\",\n            help=\"share w2v encoder layers with text encoder\",\n        )\n        parser.add_argument(\n            \"--shared-w2v-layers\",\n            type=int,\n            default=0,\n            metavar=\"N\",\n            help=\"shared encoder layers from w2v encoder\",\n        )\n\n    @classmethod\n    def build_encoder(cls, args, task):\n        _args = copy.deepcopy(args)\n        _args.dropout = args.mbart_dropout\n        _args.attention_dropout = args.mbart_attention_dropout\n        _args.activation_dropout = args.mbart_activation_dropout\n        _args.max_source_positions = 1024\n        enc_emb = nn.Embedding(\n            len(task.src_dict), _args.encoder_embed_dim, task.src_dict.pad()\n        )\n        text_encoder = TransformerEncoder(_args, task.src_dict, enc_emb)\n        spch_encoder = Wav2VecEncoderWithAdaptor(args)\n        if getattr(args, \"load_pretrained_mbart_from\", None):\n            text_encoder = checkpoint_utils.load_pretrained_component_from_model(\n                component=text_encoder, checkpoint=args.load_pretrained_mbart_from\n            )\n        if getattr(args, \"stack_w2v_mbart_encoder\", False):\n            assert getattr(args, \"share_w2v_text_encoder\", False) is False\n            spch_encoder = StackedWav2VecEncoderWithAdaptor(\n                spch_encoder.w2v_encoder,\n                text_encoder.layers,\n                text_encoder.layer_norm,\n                spch_encoder.adaptor,\n                args.drop_w2v_layers,\n            )\n        elif getattr(args, \"stack_w2v_mbart_nonorm_encoder\", False):\n            text_encoder.layer_norm = None\n            spch_encoder = StackedWav2VecEncoderWithAdaptor(\n                spch_encoder.w2v_encoder,\n                text_encoder.layers,\n                text_encoder.layer_norm,\n                spch_encoder.adaptor,\n                args.drop_w2v_layers,\n            )\n        elif getattr(args, \"share_w2v_text_encoder\", False):\n            spch_encoder = SharedEncoder(\n                spch_encoder.w2v_encoder,\n                text_encoder,\n                spch_encoder.adaptor,\n                args.shared_w2v_layers,\n            )\n\n        for k, p in spch_encoder.named_parameters():\n            # Freeze pretrained models by default\n            if safe_hasattr(\n                args, \"finetune_w2v_params\"\n            ) and need_finetuning(args.finetune_w2v_params, k):\n                p.requires_grad = True\n            else:\n                p.requires_grad = False\n        for k, p in text_encoder.named_parameters():\n            # Freeze pretrained models by default\n            if safe_hasattr(\n                args, \"finetune_mbart_encoder_params\"\n            ) and need_finetuning(\n                args.finetune_mbart_encoder_params, k\n            ):\n                p.requires_grad = True\n            else:\n                p.requires_grad = False\n        cross_attentive_loss_before_last_layer = (\n            0 if getattr(args, \"attentive_cost_regularization\", 0.0) > 0.0 else -1\n        )\n        encoder = DualInputEncoder(\n            args,\n            spch_encoder,\n            text_encoder,\n            task.src_dict,\n            cross_attentive_loss_before_last_layer,\n        )\n        return encoder\n\n    @classmethod\n    def build_decoder(cls, args, task):\n        _args = copy.deepcopy(args)\n        _args.dropout = args.mbart_dropout\n        _args.attention_dropout = args.mbart_attention_dropout\n        _args.activation_dropout = args.mbart_activation_dropout\n        _args.max_target_positions = 1024\n        dec_emb = nn.Embedding(\n            len(task.tgt_dict), _args.encoder_embed_dim, task.tgt_dict.pad()\n        )\n        decoder = TransformerDecoder(_args, task.tgt_dict, dec_emb)\n        if getattr(args, \"load_pretrained_mbart_from\", None):\n            decoder = checkpoint_utils.load_pretrained_component_from_model(\n                component=decoder, checkpoint=args.load_pretrained_mbart_from\n            )\n        if getattr(args, \"no_final_norm_decoder\", False):\n            decoder.layer_norm = None\n        for k, p in decoder.named_parameters():\n            # Freeze pretrained models by default\n            if safe_hasattr(\n                args, \"finetune_mbart_decoder_params\"\n            ) and need_finetuning(\n                args.finetune_mbart_decoder_params, k\n            ):\n                p.requires_grad = True\n            else:\n                p.requires_grad = False\n\n        compute_cross_attentive_loss = (\n            True if getattr(args, \"attentive_cost_regularization\", 0.0) > 0.0 else False\n        )\n        cross_attentive_loss_without_norm = getattr(\n            args, \"attentive_cost_without_normalize\", False\n        )\n        cross_attentive_loss_reverse = (\n            False  # getattr(args, \"attentive_cost_reverse\", False)\n        )\n        decoder = TransformerMultiInputDecoder(\n            dictionary=task.target_dictionary,\n            spch_decoder=decoder,\n            text_decoder=decoder,\n            compute_cross_attentive_loss=compute_cross_attentive_loss,\n            cross_attentive_loss_with_norm=True\n            if not cross_attentive_loss_without_norm\n            else False,\n            cross_attentive_loss_reverse=cross_attentive_loss_reverse,\n        )\n        return decoder\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        # make sure that all args are properly defaulted\n        # (in case there are any new ones)\n        dualinputxmtransformer_base(args)\n\n        encoder = cls.build_encoder(args, task)\n        decoder = cls.build_decoder(args, task)\n        return cls(encoder, decoder)\n\n\n@register_model_architecture(\"dual_input_xm_transformer\", \"dualinputxmtransformer_base\")\ndef dualinputxmtransformer_base(args):\n    # wav2vec encoder\n    set_default_w2v_encoder_args(args)\n    set_default_adaptor_args(args)\n\n    # mbart model\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_ffn_embed_dim = getattr(\n        args, \"encoder_ffn_embed_dim\", 4 * args.encoder_embed_dim\n    )\n    args.encoder_layers = getattr(args, \"encoder_layers\", 12)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 16)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", True)\n    args.encoder_layerdrop = getattr(args, \"encoder_layerdrop\", 0)\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", True)\n\n    args.decoder_embed_path = getattr(args, \"decoder_embed_path\", None)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 1024)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 4 * 1024)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 12)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 16)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", True)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", True)\n    args.decoder_layerdrop = getattr(args, \"decoder_layerdrop\", 0.0)\n\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n\n    args.mbart_attention_dropout = getattr(args, \"mbart_attention_dropout\", 0.0)\n    args.mbart_activation_dropout = getattr(args, \"mbart_activation_dropout\", 0.0)\n    args.mbart_dropout = getattr(args, \"mbart_dropout\", 0.1)\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", True\n    )\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", False)\n    args.quant_noise_pq = getattr(args, \"quant_noise_pq\", 0)\n    args.layernorm_embedding = getattr(args, \"layernorm_embedding\", True)\n\n    args.activation_fn = getattr(args, \"activation_fn\", \"gelu\")\n    args.pooler_activation_fn = getattr(args, \"pooler_activation_fn\", \"tanh\")\n    args.pooler_dropout = getattr(args, \"pooler_dropout\", 0.0)\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/scripts/convert_model.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport re\nfrom collections import OrderedDict\n\nimport torch\n\nfrom fairseq.file_io import PathManager\n\n\ndef is_update(param_name, module_name):\n    if module_name in param_name:\n        return True\n    return False\n\n\ndef load_checkpoint(src_cpt):\n\n    with PathManager.open(src_cpt, \"rb\") as f:\n        state_src = torch.load(\n            f,\n            map_location=(\n                lambda s, _: torch.serialization.default_restore_location(s, \"cpu\")\n            ),\n        )\n\n    return state_src\n\n\ndef save_checkpoint(tgt_cpt, states):\n\n    with PathManager.open(tgt_cpt, \"wb\") as f:\n        torch.save(\n            states,\n            f,\n        )\n\n\n# convert the pre-trained model into bart model\ndef main():\n    parser = argparse.ArgumentParser()\n    # fmt: off\n    parser.add_argument('--input-model', required=True,\n                        help='Input checkpoint file path.')\n    parser.add_argument('--output-model', required=True,\n                        help='output checkpoint file path.')\n    # fmt: on\n    args = parser.parse_args()\n    print(args)\n\n    states = load_checkpoint(args.input_model)\n    model = states[\"model\"]\n    new_model = OrderedDict()\n    for key in model.keys():\n        if re.search(\"^encoder.text_encoder\", key):\n            new_key = re.sub(\"encoder.text_encoder\", \"encoder\", key)\n            new_model[new_key] = model[key]\n        elif re.search(\"^decoder.text_decoder\", key):\n            new_key = re.sub(\"decoder.text_decoder\", \"decoder\", key)\n            new_model[new_key] = model[key]\n    states[\"model\"] = new_model\n    save_checkpoint(args.output_model, states)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/scripts/g2p_encode.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport itertools\nimport logging\nimport re\nimport time\n\nfrom g2p_en import G2p\n\nlogger = logging.getLogger(__name__)\n\nFAIL_SENT = \"FAILED_SENTENCE\"\n\n\ndef parse():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--data-path\", type=str, required=True)\n    parser.add_argument(\"--out-path\", type=str, required=True)\n    parser.add_argument(\"--lower-case\", action=\"store_true\")\n    parser.add_argument(\"--do-filter\", action=\"store_true\")\n    parser.add_argument(\"--use-word-start\", action=\"store_true\")\n    parser.add_argument(\"--dup-vowel\", default=1, type=int)\n    parser.add_argument(\"--dup-consonant\", default=1, type=int)\n    parser.add_argument(\"--no-punc\", action=\"store_true\")\n    parser.add_argument(\"--reserve-word\", type=str, default=\"\")\n    parser.add_argument(\n        \"--reserve-first-column\",\n        action=\"store_true\",\n        help=\"first column is sentence id\",\n    )\n    ###\n    parser.add_argument(\"--parallel-process-num\", default=1, type=int)\n    parser.add_argument(\"--logdir\", default=\"\")\n    args = parser.parse_args()\n    return args\n\n\ndef process_sent(sent, g2p, res_wrds, args):\n    sents = pre_process_sent(sent, args.do_filter, args.lower_case, res_wrds)\n    pho_seqs = [do_g2p(g2p, s, res_wrds, i == 0) for i, s in enumerate(sents)]\n    pho_seq = (\n        [FAIL_SENT]\n        if [FAIL_SENT] in pho_seqs\n        else list(itertools.chain.from_iterable(pho_seqs))\n    )\n    if args.no_punc:\n        pho_seq = remove_punc(pho_seq)\n    if args.dup_vowel > 1 or args.dup_consonant > 1:\n        pho_seq = dup_pho(pho_seq, args.dup_vowel, args.dup_consonant)\n    if args.use_word_start:\n        pho_seq = add_word_start(pho_seq)\n    return \" \".join(pho_seq)\n\n\ndef remove_punc(sent):\n    ns = []\n    regex = re.compile(\"[^a-zA-Z0-9 ]\")\n    for p in sent:\n        if (not regex.search(p)) or p == FAIL_SENT:\n            if p == \" \" and (len(ns) == 0 or ns[-1] == \" \"):\n                continue\n            ns.append(p)\n    return ns\n\n\ndef do_g2p(g2p, sent, res_wrds, is_first_sent):\n    if sent in res_wrds:\n        pho_seq = [res_wrds[sent]]\n    else:\n        pho_seq = g2p(sent)\n    if not is_first_sent:\n        pho_seq = [\" \"] + pho_seq  # add space to separate\n    return pho_seq\n\n\ndef pre_process_sent(sent, do_filter, lower_case, res_wrds):\n    if do_filter:\n        sent = re.sub(\"-\", \" \", sent)\n        sent = re.sub(\"—\", \" \", sent)\n    if len(res_wrds) > 0:\n        wrds = sent.split()\n        wrds = [\"SPLIT_ME \" + w + \" SPLIT_ME\" if w in res_wrds else w for w in wrds]\n        sents = [x.strip() for x in \" \".join(wrds).split(\"SPLIT_ME\") if x.strip() != \"\"]\n    else:\n        sents = [sent]\n    if lower_case:\n        sents = [s.lower() if s not in res_wrds else s for s in sents]\n    return sents\n\n\ndef dup_pho(sent, dup_v_num, dup_c_num):\n    \"\"\"\n    duplicate phoneme defined as cmudict\n    http://www.speech.cs.cmu.edu/cgi-bin/cmudict\n    \"\"\"\n    if dup_v_num == 1 and dup_c_num == 1:\n        return sent\n    ns = []\n    for p in sent:\n        ns.append(p)\n        if re.search(r\"\\d$\", p):\n            for i in range(1, dup_v_num):\n                ns.append(f\"{p}-{i}P\")\n        elif re.search(r\"\\w\", p):\n            for i in range(1, dup_c_num):\n                ns.append(f\"{p}-{i}P\")\n    return ns\n\n\ndef add_word_start(sent):\n    ns = []\n    do_add = True\n    ws = \"▁\"\n    for p in sent:\n        if do_add:\n            p = ws + p\n            do_add = False\n        if p == \" \":\n            do_add = True\n        else:\n            ns.append(p)\n    return ns\n\n\ndef load_reserve_word(reserve_word):\n    if reserve_word == \"\":\n        return []\n    with open(reserve_word, \"r\") as fp:\n        res_wrds = [x.strip().split() for x in fp.readlines() if x.strip() != \"\"]\n        assert sum([0 if len(x) == 2 else 1 for x in res_wrds]) == 0\n        res_wrds = dict(res_wrds)\n    return res_wrds\n\n\ndef process_sents(sents, args):\n    g2p = G2p()\n    out_sents = []\n    res_wrds = load_reserve_word(args.reserve_word)\n    for sent in sents:\n        col1 = \"\"\n        if args.reserve_first_column:\n            col1, sent = sent.split(None, 1)\n        sent = process_sent(sent, g2p, res_wrds, args)\n        if args.reserve_first_column and col1 != \"\":\n            sent = f\"{col1} {sent}\"\n        out_sents.append(sent)\n    return out_sents\n\n\ndef main():\n    args = parse()\n    out_sents = []\n    with open(args.data_path, \"r\") as fp:\n        sent_list = [x.strip() for x in fp.readlines()]\n    if args.parallel_process_num > 1:\n        try:\n            import submitit\n        except ImportError:\n            logger.warn(\n                \"submitit is not found and only one job is used to process the data\"\n            )\n            submitit = None\n\n    if args.parallel_process_num == 1 or submitit is None:\n        out_sents = process_sents(sent_list, args)\n    else:\n        # process sentences with parallel computation\n        lsize = len(sent_list) // args.parallel_process_num + 1\n        executor = submitit.AutoExecutor(folder=args.logdir)\n        executor.update_parameters(timeout_min=1000, cpus_per_task=4)\n        jobs = []\n        for i in range(args.parallel_process_num):\n            job = executor.submit(\n                process_sents, sent_list[lsize * i : lsize * (i + 1)], args\n            )\n            jobs.append(job)\n        is_running = True\n        while is_running:\n            time.sleep(5)\n            is_running = sum([job.done() for job in jobs]) < len(jobs)\n        out_sents = list(itertools.chain.from_iterable([job.result() for job in jobs]))\n    with open(args.out_path, \"w\") as fp:\n        fp.write(\"\\n\".join(out_sents) + \"\\n\")\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/tasks/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport importlib\nimport os\n\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/tasks/pair_denoising.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport itertools\nimport logging\nimport os\nimport re\n\nimport numpy as np\nimport torch\n\nfrom examples.speech_text_joint_to_text.data.pair_denoising_dataset import (\n    LanguagePairDenoisingDataset,\n)\nfrom fairseq import utils\nfrom fairseq.data import (\n    ConcatDataset,\n    Dictionary,\n    LanguagePairDataset,\n    ResamplingDataset,\n    TransformEosConcatLangPairDataset,\n    TransformEosLangPairDataset,\n    data_utils,\n    indexed_dataset,\n)\nfrom fairseq.data.encoders.utils import get_whole_word_mask\nfrom fairseq.tasks import register_task\nfrom fairseq.tasks.translation import TranslationTask\n\nlogger = logging.getLogger(__name__)\n\n\ndef gen_whole_word_mask(args, dictionary):\n    def is_beginning_of_word(i):\n        if i < dictionary.nspecial:\n            # special elements are always considered beginnings\n            return True\n        tok = dictionary[i]\n        if tok.startswith(\"madeupword\"):\n            return True\n\n        if tok in [\"<unk>\", \"<s>\", \"</s>\", \"<pad>\"]:\n            return True\n        return tok.startswith(\"\\u2581\")\n\n    if args.use_mask_whole_words:\n        mask_whole_words = torch.ByteTensor(\n            list(map(is_beginning_of_word, range(len(dictionary))))\n        )\n    else:\n        # it will mask every token as word leading token, since no bpe model is loaded for phoneme tokens\n        return get_whole_word_mask(args, dictionary)\n    return mask_whole_words\n\n\n@register_task(\"paired_denoising\")\nclass PairedDenoisingTask(TranslationTask):\n\n    LANG_TAG_TEMPLATE = \"<lang:{}>\"  # Tag for language (target)\n\n    @staticmethod\n    def add_args(parser):\n        TranslationTask.add_args(parser)\n        # bart setting\n        parser.add_argument(\n            \"--mask\",\n            default=0.0,\n            type=float,\n            help=\"fraction of words/subwords that will be masked\",\n        )\n        parser.add_argument(\n            \"--mask-random\",\n            default=0.0,\n            type=float,\n            help=\"instead of using [MASK], use random token this often\",\n        )\n        parser.add_argument(\n            \"--insert\",\n            default=0.0,\n            type=float,\n            help=\"insert this percentage of additional random tokens\",\n        )\n        parser.add_argument(\n            \"--poisson-lambda\",\n            default=3.0,\n            type=float,\n            help=\"randomly shuffle sentences for this proportion of inputs\",\n        )\n        parser.add_argument(\n            \"--mask-length\",\n            default=\"span-poisson\",\n            type=str,\n            choices=[\"subword\", \"word\", \"span-poisson\"],\n            help=\"mask length to choose\",\n        )\n        parser.add_argument(\n            \"--replace-length\",\n            default=1,\n            type=int,\n            help=\"when masking N tokens, replace with 0, 1, or N tokens (use -1 for N)\",\n        )\n\n        # multi-lingual\n        parser.add_argument(\n            \"--multilang-sampling-alpha\",\n            type=float,\n            default=1.0,\n            help=\"smoothing alpha for sample ratios across multiple datasets\",\n        )\n        parser.add_argument(\n            \"--lang-pairs\",\n            default=\"\",\n            metavar=\"PAIRS\",\n            help=\"comma-separated list of language pairs (in training order): phnen-en,phnfr-fr,phnit-it. Do masking\",\n        )\n        parser.add_argument(\n            \"--lang-pairs-bitext\",\n            default=\"\",\n            metavar=\"PAIRS\",\n            help=\"comma-separated list of language pairs (in training order): en-de,en-fr,de-fr. No masking\",\n        )\n        parser.add_argument(\"--add-src-lang-token\", default=False, action=\"store_true\")\n        parser.add_argument(\"--add-tgt-lang-token\", default=False, action=\"store_true\")\n        parser.add_argument(\n            \"--no-whole-word-mask-langs\",\n            type=str,\n            default=\"\",\n            metavar=\"N\",\n            help=\"languages without spacing between words dont support whole word masking\",\n        )\n        parser.add_argument(\n            \"--use-mask-whole-words\", default=False, action=\"store_true\"\n        )\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        \"\"\"Setup the task.\"\"\"\n        paths = args.data.split(\":\")\n        assert len(paths) > 0\n        src_dict = Dictionary.load(\n            os.path.join(paths[0], \"src_dict.txt\")\n        )  # assume all languages share a source dictionary\n        tgt_dict = Dictionary.load(\n            os.path.join(paths[0], \"tgt_dict.txt\")\n        )  # assume all languages share a target dictionary\n\n        lang_pairs = args.lang_pairs + \",\" + args.lang_pairs_bitext\n        lang_pairs = re.sub(\",$\", \"\", re.sub(\"^,\", \"\", lang_pairs))\n        src_langs = [lp.split(\"-\")[0] for lp in lang_pairs.split(\",\")]\n        tgt_langs = [lp.split(\"-\")[1] for lp in lang_pairs.split(\",\")]\n\n        if args.add_src_lang_token:\n            for lang in src_langs:\n                assert (\n                    src_dict.index(PairedDenoisingTask.LANG_TAG_TEMPLATE.format(lang))\n                    != src_dict.unk()\n                )\n        if args.add_tgt_lang_token:\n            for lang in tgt_langs:\n                assert (\n                    tgt_dict.index(PairedDenoisingTask.LANG_TAG_TEMPLATE.format(lang))\n                    != tgt_dict.unk()\n                )\n\n        logger.info(\"source dictionary: {} types\".format(len(src_dict)))\n        logger.info(\"target dictionary: {} types\".format(len(tgt_dict)))\n        if not hasattr(args, \"shuffle_instance\"):\n            args.shuffle_instance = False\n        return cls(args, src_dict, tgt_dict)\n\n    def __init__(self, args, src_dict, tgt_dict):\n        super().__init__(args, src_dict, tgt_dict)\n        # check mask token\n        self.mask_idx = self.src_dict.index(\"<mask>\")\n        assert self.mask_idx != self.src_dict.unk()\n        self.lang_pairs = args.lang_pairs\n        self.lang_pairs_bitext = args.lang_pairs_bitext\n        self.args = args\n\n    @classmethod\n    def language_pair_denoising_dataset(\n        cls,\n        data_path,\n        do_mask,\n        split,\n        src,\n        src_dict,\n        tgt,\n        tgt_dict,\n        mask_idx,\n        mask_whole_words,\n        seed,\n        args,\n        dataset_impl,\n        combine=False,\n        left_pad_source=True,\n        left_pad_target=False,\n        max_source_positions=1024,\n        max_target_positions=1024,\n        shuffle=True,\n        src_lang_id=None,\n        tgt_lang_id=None,\n    ):\n        def split_exists(split, src, tgt, lang, data_path):\n            filename = os.path.join(\n                data_path, \"{}.{}-{}.{}\".format(split, src, tgt, lang)\n            )\n            return indexed_dataset.dataset_exists(filename, impl=dataset_impl)\n\n        src_datasets = []\n        tgt_datasets = []\n\n        for k in itertools.count():\n            split_k = split + (str(k) if k > 0 else \"\")\n\n            # infer langcode\n            if split_exists(split_k, src, tgt, src, data_path):\n                prefix = os.path.join(data_path, \"{}.{}-{}.\".format(split_k, src, tgt))\n            elif split_exists(split_k, tgt, src, src, data_path):\n                prefix = os.path.join(data_path, \"{}.{}-{}.\".format(split_k, tgt, src))\n            else:\n                if k > 0:\n                    break\n                else:\n                    raise FileNotFoundError(\n                        \"Dataset not found: {} ({})\".format(split, data_path)\n                    )\n\n            src_dataset = data_utils.load_indexed_dataset(\n                prefix + src, src_dict, dataset_impl\n            )\n            src_datasets.append(src_dataset)\n\n            tgt_dataset = data_utils.load_indexed_dataset(\n                prefix + tgt, tgt_dict, dataset_impl\n            )\n            if tgt_dataset is not None:\n                tgt_datasets.append(tgt_dataset)\n\n            logger.info(\n                \"{} {} {}-{} {} examples\".format(\n                    data_path, split_k, src, tgt, len(src_datasets[-1])\n                )\n            )\n\n            if not combine:\n                break\n\n        assert len(src_datasets) == len(tgt_datasets) or len(tgt_datasets) == 0\n\n        if len(src_datasets) == 1:\n            src_dataset = src_datasets[0]\n            tgt_dataset = tgt_datasets[0] if len(tgt_datasets) > 0 else None\n        else:\n            sample_ratios = [1] * len(src_datasets)\n            src_dataset = ConcatDataset(src_datasets, sample_ratios)\n            if len(tgt_datasets) > 0:\n                tgt_dataset = ConcatDataset(tgt_datasets, sample_ratios)\n            else:\n                tgt_dataset = None\n\n        eos = None\n\n        tgt_dataset_sizes = tgt_dataset.sizes if tgt_dataset is not None else None\n        if not do_mask:\n            return LanguagePairDataset(\n                src_dataset,\n                src_dataset.sizes,\n                src_dict,\n                tgt_dataset,\n                tgt_dataset_sizes,\n                tgt_dict,\n                left_pad_source=left_pad_source,\n                left_pad_target=left_pad_target,\n                eos=eos,\n                shuffle=shuffle,\n                src_lang_id=src_lang_id,\n                tgt_lang_id=tgt_lang_id,\n            )\n\n        return LanguagePairDenoisingDataset(\n            src_dataset,\n            src_dataset.sizes,\n            src_dict,\n            tgt_dataset,\n            tgt_dataset_sizes,\n            tgt_dict,\n            mask_idx,\n            mask_whole_words,\n            seed,\n            args,\n            left_pad_source=left_pad_source,\n            left_pad_target=left_pad_target,\n            eos=eos,\n            shuffle=shuffle,\n            src_lang_id=src_lang_id,\n            tgt_lang_id=tgt_lang_id,\n        )\n\n    def _get_sample_prob(self, dataset_lens):\n        \"\"\"\n        Get smoothed sampling porbability by languages. This helps low resource\n        languages by upsampling them.\n        \"\"\"\n        prob = dataset_lens / dataset_lens.sum()\n        smoothed_prob = prob ** self.args.multilang_sampling_alpha\n        smoothed_prob = smoothed_prob / smoothed_prob.sum()\n        return smoothed_prob\n\n    def resample_datasets(self, lang_datasets, lang_pairs_all, epoch):\n        # For train subset, additionally up or down sample languages.\n        if self.args.multilang_sampling_alpha == 1.0:\n            return lang_datasets\n\n        dataset_lengths = np.array(\n            [len(d) for d in lang_datasets],\n            dtype=float,\n        )\n        sample_probs = self._get_sample_prob(dataset_lengths)\n        logger.info(\n            \"Sample probability by language pair: {}\".format(\n                {\n                    lp: \"{0:.4f}\".format(sample_probs[id])\n                    for id, lp in enumerate(lang_pairs_all)\n                }\n            )\n        )\n        size_ratio = (sample_probs * dataset_lengths.sum()) / dataset_lengths\n        logger.info(\n            \"Up/Down Sampling ratio by language: {}\".format(\n                {\n                    lp: \"{0:.2f}\".format(size_ratio[id])\n                    for id, lp in enumerate(lang_pairs_all)\n                }\n            )\n        )\n\n        resampled_lang_datasets = [\n            ResamplingDataset(\n                lang_datasets[i],\n                size_ratio=size_ratio[i],\n                seed=self.args.seed,\n                epoch=epoch,\n                replace=size_ratio[i] >= 1.0,\n            )\n            for i, d in enumerate(lang_datasets)\n        ]\n        return resampled_lang_datasets\n\n    def load_dataset_only(\n        self, split, lang_pairs, do_mask=True, epoch=1, combine=False\n    ):\n        paths = utils.split_paths(self.args.data)\n        assert len(paths) > 0\n        data_path = paths[(epoch - 1) % len(paths)]\n\n        # TODO unk token will be considered as first word too, though it might be an unknown phoneme within a word\n        # get_whole_word_mask returns a tensor (size V by 1 ) to indicate if a token is a word start token\n        mask_whole_src_words = gen_whole_word_mask(self.args, self.src_dict)\n        language_without_segmentations = self.args.no_whole_word_mask_langs.split(\",\")\n        lang_datasets = []\n        eos_bos = []\n        lang_pairs = lang_pairs.split(\",\") if lang_pairs != \"\" else []\n        assert len(lang_pairs) > 0\n        for lp in lang_pairs:\n            src, tgt = lp.split(\"-\")\n            lang_mask_whole_src_words = (\n                mask_whole_src_words\n                if src not in language_without_segmentations\n                else None\n            )\n\n            end_token = (\n                self.source_dictionary.index(\n                    PairedDenoisingTask.LANG_TAG_TEMPLATE.format(src)\n                )\n                if self.args.add_src_lang_token\n                else None\n            )\n            bos_token = (\n                self.target_dictionary.index(\n                    PairedDenoisingTask.LANG_TAG_TEMPLATE.format(tgt)\n                )\n                if self.args.add_tgt_lang_token\n                else None\n            )\n            src_lang_id = None\n\n            if self.args.add_src_lang_token or self.args.add_tgt_lang_token:\n                eos_bos.append((end_token, bos_token))\n\n            dataset = PairedDenoisingTask.language_pair_denoising_dataset(\n                data_path,\n                do_mask,\n                split,\n                src,\n                self.source_dictionary,\n                tgt,\n                self.target_dictionary,\n                self.mask_idx,\n                lang_mask_whole_src_words,\n                self.args.seed,\n                self.args,\n                self.args.dataset_impl,\n                combine=combine,\n                left_pad_source=utils.eval_bool(self.args.left_pad_source),\n                left_pad_target=utils.eval_bool(self.args.left_pad_target),\n                max_source_positions=self.args.max_source_positions,\n                max_target_positions=self.args.max_target_positions,\n                src_lang_id=src_lang_id,\n            )\n\n            lang_datasets.append(dataset)\n\n        if len(lang_datasets) == 0:\n            return\n        elif len(lang_datasets) == 1:\n            dataset = lang_datasets[0]\n            if self.args.add_src_lang_token or self.args.add_tgt_lang_token:\n                end_token, bos_token = eos_bos[0]\n                dataset = TransformEosLangPairDataset(\n                    dataset,\n                    src_eos=self.source_dictionary.eos(),\n                    new_src_eos=end_token,\n                    tgt_bos=self.target_dictionary.eos(),\n                    new_tgt_bos=bos_token,\n                )\n        else:\n            end_tokens = [item[0] for item in eos_bos if item[0] is not None]\n            bos_tokens = [item[1] for item in eos_bos if item[1] is not None]\n            lang_datasets = self.resample_datasets(lang_datasets, lang_pairs, epoch)\n            dataset = TransformEosConcatLangPairDataset(\n                lang_datasets,\n                self.source_dictionary.eos(),\n                self.target_dictionary.eos(),\n                new_src_eos=end_tokens,\n                new_tgt_bos=bos_tokens,\n            )\n        return dataset\n\n    # split in (train, valid, test, ...)\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        self.datasets[split] = self.load_dataset_only(\n            split, self.lang_pairs, epoch=epoch, combine=combine\n        )\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/tasks/speech_text_denoise_pretrain.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport logging\nimport os\nimport re\nfrom argparse import Namespace\nfrom pathlib import Path\n\nfrom fairseq.data import ConcatDataset, Dictionary, encoders\nfrom fairseq.data.audio.multi_modality_dataset import (\n    FileAudioDatasetWrapper,\n    ModalityDatasetItem,\n    MultiModalityDataset,\n)\nfrom fairseq.data.audio.speech_to_text_joint_dataset import (\n    S2TJointDataConfig,\n    SpeechToTextJointDatasetCreator,\n)\nfrom fairseq.data.iterators import GroupedEpochBatchIterator\nfrom fairseq.tasks import register_task\n\nfrom .pair_denoising import PairedDenoisingTask\n\nlogger = logging.getLogger(__name__)\n\n\n@register_task(\"speech_text_joint_denoising\")\nclass SpeechTextJointDenoisingPreTask(PairedDenoisingTask):\n    \"\"\"\n    Joint denoising training task for speech and text.\n    \"\"\"\n\n    SIL_TOKEN = \"sil\"\n\n    @classmethod\n    def add_args(cls, parser):\n        PairedDenoisingTask.add_args(parser)\n        # set max tokens and position\n        parser.add_argument(\n            \"--max-text-tokens\",\n            type=int,\n            metavar=\"N\",\n            default=1024,\n            help=\"maximum samples for encoder text input \",\n        )\n        parser.add_argument(\n            \"--max-speech-tokens\",\n            type=int,\n            metavar=\"N\",\n            default=50000,\n            help=\"maximum samples for encoder speech input \",\n        )\n        parser.add_argument(\n            \"--max-speech-positions\",\n            type=int,\n            metavar=\"N\",\n            default=400,\n            help=\"maximum tokens for per encoder text input \",\n        )\n\n        parser.add_argument(\n            \"--max-sample-size\",\n            type=int,\n            metavar=\"N\",\n            default=32000,\n            help=\"max sample size to crop to for batching (unsupervised speech) \",\n        )\n        parser.add_argument(\n            \"--min-sample-size\",\n            type=int,\n            metavar=\"N\",\n            default=4000,\n            help=\"min sample size to crop to for batching (unsupervised speech) \",\n        )\n\n        # set mini-batch ratio for different modalities/subtasks\n        # s2p\n        parser.add_argument(\n            \"--supervised-speech-sample-ratio\",\n            default=\"1\",\n            type=str,\n            metavar=\"N\",\n            help=\"Multiple Ratio for speech dataset with transcripts \",\n        )\n        # s2t\n        parser.add_argument(\n            \"--supervised-speech-s2s-sample-ratio\",\n            default=\"1\",\n            type=str,\n            metavar=\"N\",\n            help=\"Multiple Ratio for speech dataset with transcripts \",\n        )\n        # ssl\n        parser.add_argument(\n            \"--unsupervised-speech-sample-ratio\",\n            default=\"1\",\n            type=str,\n            metavar=\"N\",\n            help=\"Multiple Ratio for speech dataset without transcripts \",\n        )\n        # t2t with monolingual data (masking)\n        parser.add_argument(\n            \"--text-sample-ratio\",\n            default=\"1\",\n            type=str,\n            metavar=\"N\",\n            help=\"Multiple Ratio for text set \",\n        )\n        # t2t with parallel data (no masking)\n        parser.add_argument(\n            \"--bitext-sample-ratio\",\n            default=\"1\",\n            type=str,\n            metavar=\"N\",\n            help=\"Multiple Ratio for text set (bitext) \",\n        )\n        # train_subset = \"train\", 'valid' or so\n        # parallel data is loaded according to string lang_pairs and lang_pairs_no_mask from args.data\n        # (un)supervised speech is loaded from args.(un)sup_speech_{train,valid}_subset\n        parser.add_argument(\n            \"--sup-speech-data\", default=\"\", help=\"path to supervised speech data\"\n        )\n        parser.add_argument(\n            \"--sup-speech-train-subset\",\n            default=\"\",\n            help=\"supervised speech training subsets\",\n        )\n        parser.add_argument(\n            \"--sup-speech-valid-subset\",\n            default=\"\",\n            help=\"supervised speech validation subsets\",\n        )\n        parser.add_argument(\n            \"--config-yaml\",\n            default=\"config.yaml\",\n            help=\"supervised speech configuration yaml file\",\n        )\n        parser.add_argument(\n            \"--sup-speech-s2s-data\", default=\"\", help=\"path to supervised speech data\"\n        )\n        parser.add_argument(\n            \"--sup-speech-s2s-train-subset\",\n            default=\"\",\n            help=\"supervised speech training subsets\",\n        )\n        parser.add_argument(\n            \"--sup-speech-s2s-valid-subset\",\n            default=\"\",\n            help=\"supervised speech validation subsets\",\n        )\n        parser.add_argument(\n            \"--config-s2s-yaml\",\n            default=\"config.yaml\",\n            help=\"supervised speech configuration yaml file\",\n        )\n        parser.add_argument(\n            \"--unsup-speech-train-data\",\n            default=\"\",\n            help=\"path to unsupervised speech training data (tsv)\",\n        )\n        parser.add_argument(\n            \"--unsup-speech-valid-data\",\n            default=\"\",\n            help=\"path to unsupervised speech valid data (tsv)\",\n        )\n        parser.add_argument(\n            \"--sample-rate\",\n            type=int,\n            metavar=\"N\",\n            default=16000,\n            help=\"input audio sampling rate\",\n        )\n        parser.add_argument(\n            \"--no-emb-update-unsup\",\n            default=False,\n            action=\"store_true\",\n            help=\"no update for output embedding during unsupervised_speech mode\",\n        )\n        parser.add_argument(\"--same-data-update\", default=False, action=\"store_true\")\n\n        # used for sup_speech_ali\n        parser.add_argument(\n            \"--use-sup-speech-ctc\",\n            default=False,\n            action=\"store_true\",\n            help=\"use speech_sup_ctc instead of speech_sup_ali\",\n        )\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        \"\"\"Setup the task.\"\"\"\n        paths = args.data.split(\":\")\n        assert len(paths) > 0\n        src_dict = Dictionary.load(\n            os.path.join(paths[0], \"src_dict.txt\")\n        )  # assume all languages share a source dictionary\n        tgt_dict = Dictionary.load(\n            os.path.join(paths[0], \"tgt_dict.txt\")\n        )  # assume all languages share a target dictionary\n\n        lang_pairs = args.lang_pairs + \",\" + args.lang_pairs_bitext\n        lang_pairs = re.sub(\",$\", \"\", re.sub(\"^,\", \"\", lang_pairs))\n        if lang_pairs != \"\":\n            src_langs = [lp.split(\"-\")[0] for lp in lang_pairs.split(\",\")]\n            tgt_langs = [lp.split(\"-\")[1] for lp in lang_pairs.split(\",\")]\n        else:\n            src_langs = []\n            tgt_langs = []\n\n        if args.add_src_lang_token:\n            for lang in src_langs:\n                assert (\n                    src_dict.index(PairedDenoisingTask.LANG_TAG_TEMPLATE.format(lang))\n                    != src_dict.unk()\n                )\n        if args.add_tgt_lang_token:\n            for lang in tgt_langs:\n                assert (\n                    tgt_dict.index(PairedDenoisingTask.LANG_TAG_TEMPLATE.format(lang))\n                    != tgt_dict.unk()\n                )\n\n        logger.info(\"source dictionary: {} types\".format(len(src_dict)))\n        logger.info(\"target dictionary: {} types\".format(len(tgt_dict)))\n        if not hasattr(args, \"shuffle_instance\"):\n            args.shuffle_instance = False\n        return cls(args, src_dict, tgt_dict)\n\n    def __init__(self, args, src_dict, tgt_dict):\n        super().__init__(args, src_dict, tgt_dict)\n        self.data_cfg = S2TJointDataConfig(\n            Path(args.sup_speech_data) / args.config_yaml\n        )\n        logger.info(\n            f\"load supervised speech data configure from {Path(args.sup_speech_data) / args.config_yaml}\"\n        )\n        self.data_s2s_cfg = (\n            S2TJointDataConfig(Path(args.sup_speech_s2s_data) / args.config_s2s_yaml)\n            if args.sup_speech_s2s_train_subset != \"\"\n            else None\n        )\n        if self.data_s2s_cfg is not None:\n            logger.info(\n                f\"load supervised sequece to sequence speech data configure from {Path(args.sup_speech_s2s_data) / args.config_yaml}\"\n            )\n\n        def parse_data_ratio(sample_ratio):\n            ratios = sample_ratio.split(\",\")\n            if len(ratios) == 1:\n                return [float(ratios[0])]\n            epoch_ratios = []\n            for item in ratios:\n                ep, r = item.split(\":\")\n                ep = int(ep)\n                r = float(r)\n                assert ep > 0  # epoch is 1 based\n                assert ep >= len(epoch_ratios)\n\n                if len(epoch_ratios) == 0:\n                    epoch_ratios.append(\n                        r\n                    )  # epoch_ratios[0] is not used, but we still set it to the first value to make thing simple.\n                while len(epoch_ratios) < ep:\n                    epoch_ratios.append(epoch_ratios[-1])\n                epoch_ratios.append(r)\n            return epoch_ratios\n\n        self.sup_ratio = parse_data_ratio(args.supervised_speech_sample_ratio)\n        self.sup_s2s_ratio = parse_data_ratio(args.supervised_speech_s2s_sample_ratio)\n        self.text_ratio = parse_data_ratio(args.text_sample_ratio)\n        self.bitext_ratio = parse_data_ratio(args.bitext_sample_ratio)\n        self.unsup_ratio = parse_data_ratio(args.unsupervised_speech_sample_ratio)\n        self.sample_mode = None\n\n    def build_model(self, args):\n        args.input_feat_per_channel = self.data_cfg.input_feat_per_channel\n        args.input_channels = self.data_cfg.input_channels\n        return super().build_model(args)\n\n    def build_tokenizer(self, data_cfg, msg=\"\"):\n        logger.info(f\"pre-tokenizer {msg}: {data_cfg.pre_tokenizer}\")\n        return encoders.build_tokenizer(Namespace(**data_cfg.pre_tokenizer))\n\n    def build_bpe(self, data_cfg, msg=\"\"):\n        logger.info(f\"tokenizer {msg}: {data_cfg.bpe_tokenizer}\")\n        return encoders.build_bpe(Namespace(**data_cfg.bpe_tokenizer))\n\n    @classmethod\n    def resolve_data_type(cls, split, use_sup_speech_ctc):\n        if len(split.split(\"_\")) == 1:\n            # default case, train or valid\n            is_train = split\n            dtype = \"text\"\n        else:\n            is_train, dtype = split.split(\"_\", 1)\n        is_train = True if is_train == \"train\" else False\n        if dtype == \"sup_speech\":\n            dtype = \"sup_speech_ctc\" if use_sup_speech_ctc else \"sup_speech_ali\"\n        assert dtype in (\n            \"text\",\n            \"bitext\",\n            \"sup_speech_ali\",\n            \"sup_speech_s2s\",\n            \"unsup_speech\",\n            \"sup_speech_ctc\",\n        ), f\"failed resolving {split} (it resulted into: {dtype} ; is_train={is_train})\"\n        return is_train, dtype\n\n    def create_modalitydatasetitem(self, dtype, dataset):\n        dsitem = None\n        if dtype in (\"text\", \"bitext\"):\n            dsitem = ModalityDatasetItem(\n                dtype,\n                dataset,\n                (self.args.max_source_positions, self.args.max_target_positions),\n                self.args.max_text_tokens,\n                self.args.batch_size,\n            )\n        elif dtype in (\"sup_speech_ctc\", \"sup_speech_ali\", \"sup_speech_s2s\"):\n            dsitem = ModalityDatasetItem(\n                dtype,\n                dataset,\n                (self.args.max_speech_positions, self.args.max_target_positions),\n                self.args.max_speech_tokens,\n                self.args.batch_size,\n            )\n        elif dtype == \"unsup_speech\":\n            dsitem = ModalityDatasetItem(\n                dtype, dataset, 1e8, self.args.max_speech_tokens, self.args.batch_size\n            )\n        else:\n            raise ValueError(f\"{dtype} is not supported\")\n        return dsitem\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        def _get_sup_src_tgt_dict(src_dict, tgt_dict, use_s2s_sup_decoder):\n            if use_s2s_sup_decoder:\n                return None, tgt_dict\n            # use src_dict as tgt_dict here, since we use source dictionary as target for forcealignment\n            return None, src_dict\n\n        is_train, dtype = self.resolve_data_type(split, self.args.use_sup_speech_ctc)\n\n        # Note we use --add-tgt-lang-token instead of data_cfg.prepend_tgt_lang_tag_no_change to set target language tag in the text dataset\n        # Verify add_tgt_lang_token and prepend_tgt_lang_tag_no_change are same\n\n        # Note we use --multilang-sampling-alpha instead of data_cfg.sampling_text_alpha to set text data sampling\n        if is_train:\n            msets = []\n            # train split, load everything into one\n            if self.lang_pairs != \"\":\n                text_dataset = self.load_dataset_only(\n                    \"train\", self.lang_pairs, epoch=epoch, combine=combine\n                )\n                dsitem = self.create_modalitydatasetitem(\"text\", text_dataset)\n                msets.append(dsitem)\n            if self.lang_pairs_bitext != \"\":  # load bitext\n                bitext_dataset = self.load_dataset_only(\n                    \"train_bitext\",\n                    self.lang_pairs_bitext,\n                    do_mask=False,\n                    epoch=epoch,\n                    combine=combine,\n                )\n                dsitem = self.create_modalitydatasetitem(\"bitext\", bitext_dataset)\n                msets.append(dsitem)\n            if self.args.sup_speech_train_subset != \"\":\n                pre_tokenizer = self.build_tokenizer(self.data_cfg)\n                bpe_tokenizer = self.build_bpe(self.data_cfg)\n\n                append_eos = True\n                sup_speech_type = \"sup_speech_ali\"\n                if self.args.use_sup_speech_ctc:\n                    # CTC mode\n                    sup_speech_type = \"sup_speech_ctc\"\n                    append_eos = False  # CTC doesn't need eos in the target\n\n                src_dict, tgt_dict = _get_sup_src_tgt_dict(\n                    self.src_dict, self.tgt_dict, False\n                )\n                sup_speech_dataset = SpeechToTextJointDatasetCreator.from_tsv(\n                    self.args.sup_speech_data,\n                    self.data_cfg,\n                    self.args.sup_speech_train_subset,\n                    tgt_dict=tgt_dict,\n                    src_dict=src_dict,\n                    pre_tokenizer=pre_tokenizer,\n                    bpe_tokenizer=bpe_tokenizer,\n                    src_pre_tokenizer=None,\n                    src_bpe_tokenizer=None,\n                    is_train_split=is_train,\n                    epoch=epoch,\n                    seed=self.args.seed,\n                    append_eos=append_eos,\n                )\n                dsitem = self.create_modalitydatasetitem(\n                    sup_speech_type, sup_speech_dataset\n                )\n                msets.append(dsitem)\n\n            if self.args.sup_speech_s2s_train_subset != \"\":\n                pre_tokenizer = self.build_tokenizer(self.data_s2s_cfg, msg=\"(s2s)\")\n                bpe_tokenizer = self.build_bpe(self.data_s2s_cfg, msg=\"(s2s)\")\n\n                # make sure self.data_cfg.prepend_tgt_lang_tag_no_change == self.args.add_tgt_lang_token\n                src_dict, tgt_dict = _get_sup_src_tgt_dict(\n                    self.src_dict, self.tgt_dict, True\n                )\n                sup_speech_s2s_dataset = SpeechToTextJointDatasetCreator.from_tsv(\n                    self.args.sup_speech_s2s_data,\n                    self.data_s2s_cfg,\n                    self.args.sup_speech_s2s_train_subset,\n                    tgt_dict=tgt_dict,\n                    src_dict=src_dict,\n                    pre_tokenizer=pre_tokenizer,\n                    bpe_tokenizer=bpe_tokenizer,\n                    src_pre_tokenizer=None,\n                    src_bpe_tokenizer=None,\n                    is_train_split=is_train,\n                    epoch=epoch,\n                    seed=self.args.seed,\n                )\n                dsitem = self.create_modalitydatasetitem(\n                    \"sup_speech_s2s\", sup_speech_s2s_dataset\n                )\n                msets.append(dsitem)\n            if self.args.unsup_speech_train_data != \"\":\n                unsup_speech_dataset = FileAudioDatasetWrapper(\n                    self.args.unsup_speech_train_data,\n                    self.args.sample_rate,\n                    max_sample_size=self.args.max_sample_size,\n                    min_sample_size=self.args.min_sample_size,\n                    normalize=False,\n                )\n                dsitem = self.create_modalitydatasetitem(\n                    \"unsup_speech\", unsup_speech_dataset\n                )\n                msets.append(dsitem)\n\n            pre_train_dataset = MultiModalityDataset(msets)\n            self.datasets[split] = pre_train_dataset\n        else:  # validation split, load them for each type of data\n            if dtype == \"text\":\n                text_dataset = self.load_dataset_only(\n                    split, self.lang_pairs, epoch=epoch, combine=combine\n                )\n                dsitem = self.create_modalitydatasetitem(\"text\", text_dataset)\n                self.datasets[split] = MultiModalityDataset([dsitem])\n            elif dtype == \"bitext\":\n                bitext_dataset = self.load_dataset_only(\n                    split,\n                    self.lang_pairs_bitext,\n                    do_mask=False,\n                    epoch=epoch,\n                    combine=combine,\n                )\n                dsitem = self.create_modalitydatasetitem(\"bitext\", bitext_dataset)\n                self.datasets[split] = MultiModalityDataset([dsitem])\n\n            elif dtype in (\"sup_speech_ctc\", \"sup_speech_ali\"):\n                assert self.args.sup_speech_valid_subset != \"\"\n                pre_tokenizer = self.build_tokenizer(self.data_cfg)\n                bpe_tokenizer = self.build_bpe(self.data_cfg)\n                append_eos = True\n                if dtype == \"sup_speech_ctc\":\n                    # CTC mode\n                    append_eos = False  # CTC doesn't need eos\n                    assert self.args.use_sup_speech_ctc\n\n                datasets = []\n                for split_name in self.args.sup_speech_valid_subset.split(\",\"):\n                    src_dict, tgt_dict = _get_sup_src_tgt_dict(\n                        self.src_dict, self.tgt_dict, False\n                    )\n                    datasets.append(\n                        SpeechToTextJointDatasetCreator.from_tsv(\n                            self.args.sup_speech_data,\n                            self.data_cfg,\n                            split_name,\n                            tgt_dict=tgt_dict,\n                            src_dict=src_dict,\n                            pre_tokenizer=pre_tokenizer,\n                            bpe_tokenizer=bpe_tokenizer,\n                            src_pre_tokenizer=None,\n                            src_bpe_tokenizer=None,\n                            is_train_split=is_train,\n                            epoch=epoch,\n                            seed=self.args.seed,\n                            append_eos=append_eos,\n                        )\n                    )\n\n                dset = datasets[0] if len(datasets) == 1 else ConcatDataset(datasets)\n                dsitem = self.create_modalitydatasetitem(dtype, dset)\n                self.datasets[split] = MultiModalityDataset([dsitem])\n\n            elif dtype == \"sup_speech_s2s\":\n                assert self.args.sup_speech_s2s_valid_subset != \"\"\n                pre_tokenizer = self.build_tokenizer(self.data_s2s_cfg)\n                bpe_tokenizer = self.build_bpe(self.data_s2s_cfg)\n                datasets = []\n                for split_name in self.args.sup_speech_s2s_valid_subset.split(\",\"):\n                    src_dict, tgt_dict = _get_sup_src_tgt_dict(\n                        self.src_dict, self.tgt_dict, True\n                    )\n                    datasets.append(\n                        SpeechToTextJointDatasetCreator.from_tsv(\n                            self.args.sup_speech_s2s_data,\n                            self.data_s2s_cfg,\n                            split_name,\n                            tgt_dict=tgt_dict,\n                            src_dict=src_dict,\n                            pre_tokenizer=pre_tokenizer,\n                            bpe_tokenizer=bpe_tokenizer,\n                            src_pre_tokenizer=None,\n                            src_bpe_tokenizer=None,\n                            is_train_split=is_train,\n                            epoch=epoch,\n                            seed=self.args.seed,\n                        )\n                    )\n\n                dset = datasets[0] if len(datasets) == 1 else ConcatDataset(datasets)\n                dsitem = self.create_modalitydatasetitem(\"sup_speech_s2s\", dset)\n                self.datasets[split] = MultiModalityDataset([dsitem])\n            elif dtype == \"unsup_speech\":\n                assert self.args.unsup_speech_valid_data != \"\"\n                unsup_speech_dataset = FileAudioDatasetWrapper(\n                    self.args.unsup_speech_valid_data,\n                    self.args.sample_rate,\n                    max_sample_size=self.args.max_sample_size,\n                    min_sample_size=self.args.min_sample_size,\n                    normalize=False,\n                )\n                dsitem = self.create_modalitydatasetitem(\n                    \"unsup_speech\", unsup_speech_dataset\n                )\n                self.datasets[split] = MultiModalityDataset([dsitem])\n            else:\n                raise ValueError(f\"Unsupported type {dtype}\")\n\n    def get_sample_ratio(self, epoch):\n        sup_ratio = (\n            self.sup_ratio[epoch] if len(self.sup_ratio) > epoch else self.sup_ratio[-1]\n        )\n        sup_s2s_ratio = (\n            self.sup_s2s_ratio[epoch]\n            if len(self.sup_s2s_ratio) > epoch\n            else self.sup_s2s_ratio[-1]\n        )\n        unsup_ratio = (\n            self.unsup_ratio[epoch]\n            if len(self.unsup_ratio) > epoch\n            else self.unsup_ratio[-1]\n        )\n        text_ratio = (\n            self.text_ratio[epoch]\n            if len(self.text_ratio) > epoch\n            else self.text_ratio[-1]\n        )\n        bitext_ratio = (\n            self.bitext_ratio[epoch]\n            if len(self.bitext_ratio) > epoch\n            else self.bitext_ratio[-1]\n        )\n        return text_ratio, bitext_ratio, sup_ratio, sup_s2s_ratio, unsup_ratio\n\n    def get_batch_iterator(\n        self,\n        dataset,\n        max_tokens=None,\n        max_sentences=None,\n        max_positions=None,\n        ignore_invalid_inputs=False,\n        required_batch_size_multiple=1,\n        seed=1,\n        num_shards=1,\n        shard_id=0,\n        num_workers=0,\n        epoch=0,\n        data_buffer_size=0,\n        disable_iterator_cache=False,\n        skip_remainder_batch=False,\n        grouped_shuffling=False,\n        update_epoch_batch_itr=False,\n    ):\n\n        assert isinstance(dataset, MultiModalityDataset)\n        if len(dataset.id_to_mode) == 1:\n            max_positions = dataset.max_positions[0]\n            max_tokens = dataset.max_tokens[0]\n            max_sentences = dataset.max_sentences[0]\n            return super().get_batch_iterator(\n                dataset,\n                max_tokens,\n                max_sentences,\n                max_positions,\n                ignore_invalid_inputs,\n                required_batch_size_multiple,\n                seed,\n                num_shards,\n                shard_id,\n                num_workers,\n                epoch,\n                data_buffer_size,\n                disable_iterator_cache,\n                skip_remainder_batch=skip_remainder_batch,\n            )\n\n        mult_ratio = []\n        (\n            text_ratio,\n            bitext_ratio,\n            sup_ratio,\n            sup_s2s_ratio,\n            unsup_ratio,\n        ) = self.get_sample_ratio(epoch)\n        for mode in dataset.id_to_mode:\n            if mode in (\"sup_speech_ctc\", \"sup_speech_ali\"):\n                mult_ratio.append(sup_ratio)\n            elif mode == \"sup_speech_s2s\":\n                mult_ratio.append(sup_s2s_ratio)\n            elif mode == \"text\":\n                mult_ratio.append(text_ratio)\n            elif mode == \"bitext\":\n                mult_ratio.append(bitext_ratio)\n            elif mode == \"unsup_speech\":\n                mult_ratio.append(unsup_ratio)\n\n        # initialize the dataset with the correct starting epoch\n        dataset.set_epoch(epoch)\n\n        batch_samplers = dataset.get_batch_samplers(\n            mult_ratio, required_batch_size_multiple, seed\n        )\n\n        # return a reusable, sharded iterator\n        epoch_iter = GroupedEpochBatchIterator(\n            dataset=dataset,\n            collate_fn=dataset.collater,\n            batch_samplers=batch_samplers,\n            seed=seed,\n            num_shards=num_shards,\n            shard_id=shard_id,\n            num_workers=num_workers,\n            epoch=epoch,\n            mult_rate=max(self.args.update_freq) if self.args.same_data_update else 1,\n            buffer_size=data_buffer_size,\n            skip_remainder_batch=skip_remainder_batch,\n        )\n        self.dataset_to_epoch_iter[dataset] = {}  # refresh it every epoch\n        return epoch_iter\n"
  },
  {
    "path": "examples/speech_text_joint_to_text/tasks/speech_text_joint.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport logging\nimport os\nfrom argparse import Namespace\nfrom pathlib import Path\n\nimport torch\nfrom fairseq.data import (\n    encoders,\n    Dictionary,\n    ResamplingDataset,\n    TransformEosLangPairDataset,\n    ConcatDataset,\n)\nfrom fairseq.data.iterators import GroupedEpochBatchIterator\nfrom fairseq.data.audio.multi_modality_dataset import (\n    MultiModalityDataset,\n    LangPairMaskDataset,\n    ModalityDatasetItem,\n)\nfrom fairseq.data.audio.speech_to_text_dataset import (\n    SpeechToTextDataset,\n    SpeechToTextDatasetCreator,\n)\nfrom fairseq.data.audio.speech_to_text_joint_dataset import (\n    S2TJointDataConfig,\n    SpeechToTextJointDatasetCreator,\n)\nfrom fairseq.tasks import register_task\nfrom fairseq.tasks.speech_to_text import SpeechToTextTask\nfrom fairseq.tasks.translation import load_langpair_dataset\n\nlogger = logging.getLogger(__name__)\nLANG_TAG_TEMPLATE = \"<lang:{}>\"\n\n\n@register_task(\"speech_text_joint_to_text\")\nclass SpeechTextJointToTextTask(SpeechToTextTask):\n    \"\"\"\n    Task for joint training speech and text to text.\n    \"\"\"\n\n    @classmethod\n    def add_args(cls, parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        super(SpeechTextJointToTextTask, cls).add_args(parser)\n        ###\n        parser.add_argument(\n            \"--parallel-text-data\",\n            default=\"\",\n            help=\"path to parallel text data directory\",\n        )\n        parser.add_argument(\n            \"--max-tokens-text\",\n            type=int,\n            metavar=\"N\",\n            help=\"maximum tokens for encoder text input \",\n        )\n        parser.add_argument(\n            \"--max-positions-text\",\n            type=int,\n            metavar=\"N\",\n            default=400,\n            help=\"maximum tokens for per encoder text input \",\n        )\n        parser.add_argument(\n            \"--langpairs\",\n            default=None,\n            metavar=\"S\",\n            help='language pairs for text training, separated with \",\"',\n        )\n        parser.add_argument(\n            \"--speech-sample-ratio\",\n            default=1,\n            type=float,\n            metavar=\"N\",\n            help=\"Multiple Ratio for speech dataset with transcripts \",\n        )\n        parser.add_argument(\n            \"--text-sample-ratio\",\n            default=1,\n            type=float,\n            metavar=\"N\",\n            help=\"Multiple Ratio for text set \",\n        )\n        parser.add_argument(\n            \"--update-mix-data\",\n            action=\"store_true\",\n            help=\"use mixed data in one update when update-freq  > 1\",\n        )\n        parser.add_argument(\n            \"--load-speech-only\", action=\"store_true\", help=\"load speech data only\",\n        )\n        parser.add_argument(\n            \"--mask-text-ratio\",\n            type=float,\n            metavar=\"V\",\n            default=0.0,\n            help=\"mask V source tokens for text only mode\",\n        )\n        parser.add_argument(\n            \"--mask-text-type\",\n            default=\"random\",\n            choices=[\"random\", \"tail\"],\n            help=\"mask text typed\",\n        )\n        parser.add_argument(\n            \"--noise-token\",\n            default=\"\",\n            help=\"noise token for masking src text tokens if mask-text-ratio > 0\",\n        )\n        parser.add_argument(\n            \"--infer-target-lang\",\n            default=\"\",\n            metavar=\"S\",\n            help=\"target language for inference\",\n        )\n\n    def __init__(self, args, src_dict, tgt_dict, infer_tgt_lang_id=None):\n        super().__init__(args, tgt_dict)\n        self.src_dict = src_dict\n        self.data_cfg = S2TJointDataConfig(Path(args.data) / args.config_yaml)\n        assert self.tgt_dict.pad() == self.src_dict.pad()\n        assert self.tgt_dict.eos() == self.src_dict.eos()\n        self.speech_only = args.load_speech_only\n        self._infer_tgt_lang_id = infer_tgt_lang_id\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        \"\"\"Setup the task (e.g., load dictionaries).\"\"\"\n        data_cfg = S2TJointDataConfig(Path(args.data) / args.config_yaml)\n        tgt_dict_path = Path(args.data) / data_cfg.vocab_filename\n        src_dict_path = Path(args.data) / data_cfg.src_vocab_filename\n        if (not os.path.isfile(src_dict_path)) or (not os.path.isfile(tgt_dict_path)):\n            raise FileNotFoundError(\"Dict not found: {}\".format(args.data))\n        src_dict = Dictionary.load(src_dict_path.as_posix())\n        tgt_dict = Dictionary.load(tgt_dict_path.as_posix())\n\n        print(\"| src dictionary: {} types\".format(len(src_dict)))\n        print(\"| tgt dictionary: {} types\".format(len(tgt_dict)))\n\n        if args.parallel_text_data != \"\":\n            if not os.path.isabs(args.parallel_text_data):\n                args.parallel_text_data = os.path.join(\n                    args.data, args.parallel_text_data\n                )\n\n            if args.langpairs is None:\n                raise Exception(\n                    \"Could not infer language pair, please provide it explicitly\"\n                )\n        infer_tgt_lang_id = None\n        if args.infer_target_lang != \"\" and data_cfg.prepend_tgt_lang_tag_no_change:\n            tgt_lang_tag = SpeechToTextDataset.LANG_TAG_TEMPLATE.format(\n                args.infer_target_lang\n            )\n            infer_tgt_lang_id = tgt_dict.index(tgt_lang_tag)\n            assert infer_tgt_lang_id != tgt_dict.unk()\n        return cls(args, src_dict, tgt_dict, infer_tgt_lang_id=infer_tgt_lang_id)\n\n    def load_langpair_dataset(\n        self, prepend_tgt_lang_tag=False, sampling_alpha=1.0, epoch=0\n    ):\n        lang_pairs = []\n        text_dataset = None\n        split = \"train\"\n        for lp in self.args.langpairs.split(\",\"):\n            src, tgt = lp.split(\"-\")\n            text_dataset = load_langpair_dataset(\n                self.args.parallel_text_data,\n                split,\n                src,\n                self.src_dict,\n                tgt,\n                self.tgt_dict,\n                combine=True,\n                dataset_impl=None,\n                upsample_primary=1,\n                left_pad_source=False,\n                left_pad_target=False,\n                max_source_positions=self.args.max_positions_text,\n                max_target_positions=self.args.max_target_positions,\n                load_alignments=False,\n                truncate_source=False,\n            )\n            if prepend_tgt_lang_tag:\n                # TODO\n                text_dataset = TransformEosLangPairDataset(\n                    text_dataset,\n                    src_eos=self.src_dict.eos(),\n                    tgt_bos=self.tgt_dict.eos(),  # 'prev_output_tokens' starts with eos\n                    new_tgt_bos=self.tgt_dict.index(LANG_TAG_TEMPLATE.format(tgt)),\n                )\n            lang_pairs.append(text_dataset)\n        if len(lang_pairs) > 1:\n            if sampling_alpha != 1.0:\n                size_ratios = SpeechToTextDatasetCreator.get_size_ratios(\n                    self.args.langpairs.split(\",\"),\n                    [len(s) for s in lang_pairs],\n                    alpha=sampling_alpha,\n                )\n                lang_pairs = [\n                    ResamplingDataset(d, size_ratio=r, epoch=epoch, replace=(r >= 1.0))\n                    for d, r in zip(lang_pairs, size_ratios)\n                ]\n            return ConcatDataset(lang_pairs)\n        return text_dataset\n\n    def inference_step(\n        self, generator, models, sample, prefix_tokens=None, constraints=None\n    ):\n        with torch.no_grad():\n            return generator.generate(\n                models,\n                sample,\n                prefix_tokens=prefix_tokens,\n                constraints=constraints,\n                bos_token=self._infer_tgt_lang_id,\n            )\n\n    def build_src_tokenizer(self, args):\n        logger.info(f\"src-pre-tokenizer: {self.data_cfg.src_pre_tokenizer}\")\n        return encoders.build_tokenizer(Namespace(**self.data_cfg.src_pre_tokenizer))\n\n    def build_src_bpe(self, args):\n        logger.info(f\"tokenizer: {self.data_cfg.src_bpe_tokenizer}\")\n        return encoders.build_bpe(Namespace(**self.data_cfg.src_bpe_tokenizer))\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        is_train_split = split.startswith(\"train\")\n        pre_tokenizer = self.build_tokenizer(self.args)\n        bpe_tokenizer = self.build_bpe(self.args)\n        src_pre_tokenizer = self.build_src_tokenizer(self.args)\n        src_bpe_tokenizer = self.build_src_bpe(self.args)\n        ast_dataset = SpeechToTextJointDatasetCreator.from_tsv(\n            self.args.data,\n            self.data_cfg,\n            split,\n            self.tgt_dict,\n            src_dict=None if self.speech_only else self.src_dict,\n            pre_tokenizer=pre_tokenizer,\n            bpe_tokenizer=bpe_tokenizer,\n            src_pre_tokenizer=src_pre_tokenizer,\n            src_bpe_tokenizer=src_bpe_tokenizer,\n            is_train_split=is_train_split,\n            epoch=epoch,\n            seed=self.args.seed,\n        )\n        noise_token_id = -1\n        text_dataset = None\n        if self.args.parallel_text_data != \"\" and is_train_split:\n            text_dataset = self.load_langpair_dataset(\n                self.data_cfg.prepend_tgt_lang_tag_no_change, 1.0, epoch=epoch,\n            )\n            if self.args.mask_text_ratio > 0:\n                # add mask\n                noise_token_id = (\n                    self.src_dict.unk()\n                    if self.args.noise_token == \"\"\n                    else self.src_dict.index(self.args.noise_token)\n                )\n                text_dataset = LangPairMaskDataset(\n                    text_dataset,\n                    src_bos=self.src_dict.bos(),\n                    src_eos=self.src_dict.eos(),\n                    noise_id=noise_token_id,\n                    mask_ratio=self.args.mask_text_ratio,\n                    mask_type=self.args.mask_text_type,\n                )\n\n        if text_dataset is not None:\n            mdsets = [\n                ModalityDatasetItem(\n                    \"sup_speech\",\n                    ast_dataset,\n                    (self.args.max_source_positions, self.args.max_target_positions),\n                    self.args.max_tokens,\n                    self.args.batch_size,\n                ),\n                ModalityDatasetItem(\n                    \"text\",\n                    text_dataset,\n                    (self.args.max_positions_text, self.args.max_target_positions),\n                    self.args.max_tokens_text\n                    if self.args.max_tokens_text is not None\n                    else self.args.max_tokens,\n                    self.args.batch_size,\n                ),\n            ]\n            ast_dataset = MultiModalityDataset(mdsets)\n        self.datasets[split] = ast_dataset\n\n    @property\n    def target_dictionary(self):\n        \"\"\"Return the :class:`~fairseq.data.Dictionary` for the language\n        model.\"\"\"\n        return self.tgt_dict\n\n    @property\n    def source_dictionary(self):\n        \"\"\"Return the source :class:`~fairseq.data.Dictionary` (if applicable\n        for this task).\"\"\"\n        return None if self.speech_only else self.src_dict\n\n    def get_batch_iterator(\n        self,\n        dataset,\n        max_tokens=None,\n        max_sentences=None,\n        max_positions=None,\n        ignore_invalid_inputs=False,\n        required_batch_size_multiple=1,\n        seed=1,\n        num_shards=1,\n        shard_id=0,\n        num_workers=0,\n        epoch=0,\n        data_buffer_size=0,\n        disable_iterator_cache=False,\n        skip_remainder_batch=False,\n        grouped_shuffling=False,\n        update_epoch_batch_itr=False,\n    ):\n\n        if not isinstance(dataset, MultiModalityDataset):\n            return super(SpeechTextJointToTextTask, self).get_batch_iterator(\n                dataset,\n                max_tokens,\n                max_sentences,\n                max_positions,\n                ignore_invalid_inputs,\n                required_batch_size_multiple,\n                seed,\n                num_shards,\n                shard_id,\n                num_workers,\n                epoch,\n                data_buffer_size,\n                disable_iterator_cache,\n                skip_remainder_batch=skip_remainder_batch,\n                update_epoch_batch_itr=update_epoch_batch_itr,\n            )\n\n        mult_ratio = [self.args.speech_sample_ratio, self.args.text_sample_ratio]\n        assert len(dataset.datasets) == 2\n\n        # initialize the dataset with the correct starting epoch\n        dataset.set_epoch(epoch)\n\n        batch_samplers = dataset.get_batch_samplers(\n            mult_ratio, required_batch_size_multiple, seed\n        )\n\n        # return a reusable, sharded iterator\n        epoch_iter = GroupedEpochBatchIterator(\n            dataset=dataset,\n            collate_fn=dataset.collater,\n            batch_samplers=batch_samplers,\n            seed=seed,\n            num_shards=num_shards,\n            shard_id=shard_id,\n            num_workers=num_workers,\n            epoch=epoch,\n            mult_rate=1 if self.args.update_mix_data else max(self.args.update_freq),\n            buffer_size=data_buffer_size,\n            skip_remainder_batch=skip_remainder_batch,\n        )\n        self.dataset_to_epoch_iter[dataset] = {}  # refresh it every epoch\n        return epoch_iter\n"
  },
  {
    "path": "examples/speech_to_speech/README.md",
    "content": "# Speech to speech translation (S2ST)\n\nWe provide the implementation and resources for the following work on speech-to-speech translation (S2ST):\n\n* [Direct speech-to-speech translation with discrete units (Lee et al. 2021)](docs/direct_s2st_discrete_units.md)\n* [Textless Speech-to-Speech Translation on Real Data (Lee et al. 2021)](docs/textless_s2st_real_data.md)\n* [Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation](docs/enhanced_direct_s2st_discrete_units.md)\n"
  },
  {
    "path": "examples/speech_to_speech/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import unity  # noqa\n"
  },
  {
    "path": "examples/speech_to_speech/asr_bleu/README.md",
    "content": "# ASR-BLEU evaluation toolkit\n\nThis toolkit provides a set of public ASR models used for evaluation of different speech-to-speech translation systems at FAIR. It enables easier score comparisons between different system's outputs.\n\nThe ASRGenerator wraps different CTC-based ASR models from HuggingFace and fairseq code bases. Torchaudio CTC decoder is built on top of it to decode given audio files.\n\nPlease see `asr_model_cfgs.json` for a list of languages covered currently.\n\nThe high-level pipeline is simple by design: given a lang tag, script loads the ASR model, transcribes model's predicted audio, and computes the BLEU score against provided reference translations using sacrebleu.\n\n# Dependencies\n\nPlease see `requirements.txt`. \n\n# Usage examples\n\nThis toolkit have been used with:\n\n* Speechmatrix project: https://github.com/facebookresearch/fairseq/tree/ust/examples/speech_matrix.\n\n* Hokkien speech-to-speech translation project: https://github.com/facebookresearch/fairseq/tree/ust/examples/hokkien.\n\n# Standalone run example\n\nHigh-level example, please substitute arguments per your case:\n\n```bash\npython compute_asr_bleu.py --lang <LANG> \\\n--audio_dirpath <PATH_TO_AUDIO_DIR> \\\n--reference_path <PATH_TO_REFERENCES_FILE> \\\n--reference_format txt\n```\n\nFor more details about arguments please see the script argparser help.\n"
  },
  {
    "path": "examples/speech_to_speech/asr_bleu/__init__.py",
    "content": ""
  },
  {
    "path": "examples/speech_to_speech/asr_bleu/asr_model_cfgs.json",
    "content": "{\n    \"en\": {\n        \"oct22\": {\n            \"desc\": \"Wav2Vec 2.0 Large (LV-60) + Self Training from https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec#pre-trained-models\",\n            \"ckpt_path\": \"https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_vox_960h_pl.pt\",\n            \"dict_path\": \"https://dl.fbaipublicfiles.com/fairseq/wav2vec/dict.ltr.txt\",\n            \"model_type\": \"fairseq\",\n            \"lang\": \"en\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"hok\": {\n        \"oct22\": {\n            \"desc\": \"Hokkien ASR model, for details check [TODO add paper link]\",\n            \"ckpt_path\": \"https://dl.fbaipublicfiles.com/ust_asr/hok/checkpoint_best.pt\",\n            \"dict_path\": \"https://dl.fbaipublicfiles.com/ust_asr/hok/dict.ltr.txt\",\n            \"model_type\": \"fairseq\",\n            \"lang\": \"hok\",\n            \"post_process\": \"none\"\n        }\n    },\n    \"es\": {\n        \"oct22\": {\n            \"model_path\": \"jonatasgrosman/wav2vec2-large-xlsr-53-spanish\",\n            \"model_type\": \"hf\",\n            \"lang\": \"es\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"fr\": {\n        \"oct22\": {\n            \"model_path\": \"jonatasgrosman/wav2vec2-large-fr-voxpopuli-french\",\n            \"model_type\": \"hf\",\n            \"lang\": \"fr\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"zh\": {\n        \"oct22\": {\n            \"model_path\": \"ydshieh/wav2vec2-large-xlsr-53-chinese-zh-cn-gpt\",\n            \"model_type\": \"hf\",\n            \"lang\": \"zh\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"tr\": {\n        \"oct22\": {\n            \"model_path\": \"cahya/wav2vec2-large-xlsr-turkish-artificial-cv\",\n            \"model_type\": \"hf\",\n            \"lang\": \"tr\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"ar\": {\n        \"oct22\": {\n            \"model_path\": \"jonatasgrosman/wav2vec2-large-xlsr-53-arabic\",\n            \"model_type\": \"hf\",\n            \"lang\": \"ar\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"vi\": {\n        \"oct22\": {\n            \"model_path\": \"not-tanh/wav2vec2-large-xlsr-53-vietnamese\",\n            \"model_type\": \"hf\",\n            \"lang\": \"vi\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"de\": {\n        \"oct22\": {\n            \"model_path\": \"jonatasgrosman/wav2vec2-xls-r-1b-german\",\n            \"model_type\": \"hf\",\n            \"lang\": \"de\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"pl\": {\n        \"oct22\": {\n            \"model_path\": \"jonatasgrosman/wav2vec2-xls-r-1b-polish\",\n            \"model_type\": \"hf\",\n            \"lang\": \"pl\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"it\": {\n        \"oct22\": {\n            \"model_path\": \"jonatasgrosman/wav2vec2-large-xlsr-53-italian\",\n            \"model_type\": \"hf\",\n            \"lang\": \"it\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"pt\": {\n        \"oct22\": {\n            \"model_path\": \"jonatasgrosman/wav2vec2-xls-r-1b-portuguese\",\n            \"model_type\": \"hf\",\n            \"lang\": \"pt\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"ro\": {\n        \"oct22\": {\n            \"model_path\": \"gigant/romanian-wav2vec2\",\n            \"model_type\": \"hf\",\n            \"lang\": \"ro\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"cs\": {\n        \"oct22\": {\n            \"model_path\": \"comodoro/wav2vec2-xls-r-300m-cs-250\",\n            \"model_type\": \"hf\",\n            \"lang\": \"cs\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"sk\": {\n        \"oct22\": {\n            \"model_path\": \"anuragshas/wav2vec2-xls-r-300m-sk-cv8-with-lm\",\n            \"model_type\": \"hf\",\n            \"lang\": \"sk\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"sl\": {\n        \"oct22\": {\n            \"model_path\": \"anuragshas/wav2vec2-xls-r-300m-sl-cv8-with-lm\",\n            \"model_type\": \"hf\",\n            \"lang\": \"sl\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"fi\": {\n        \"oct22\": {\n            \"model_path\": \"jonatasgrosman/wav2vec2-large-xlsr-53-finnish\",\n            \"model_type\": \"hf\",\n            \"lang\": \"fi\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"hu\": {\n        \"oct22\": {\n            \"model_path\": \"jonatasgrosman/wav2vec2-large-xlsr-53-hungarian\",\n            \"model_type\": \"hf\",\n            \"lang\": \"hu\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"et\": {\n        \"oct22\": {\n            \"model_path\": \"RASMUS/wav2vec2-xlsr-1b-et\",\n            \"model_type\": \"hf\",\n            \"lang\": \"et\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"lt\": {\n        \"oct22\": {\n            \"model_path\": \"sammy786/wav2vec2-xlsr-lithuanian\",\n            \"model_type\": \"hf\",\n            \"lang\": \"lt\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"nl\": {\n        \"oct22\": {\n            \"model_path\": \"jonatasgrosman/wav2vec2-xls-r-1b-dutch\",\n            \"model_type\": \"hf\",\n            \"lang\": \"nl\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"lv\": {\n        \"oct22\": {\n            \"model_path\": \"reach-vb/wav2vec2-large-xls-r-1B-common_voice7-lv-ft\",\n            \"model_type\": \"hf\",\n            \"lang\": \"lv\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"sv\": {\n        \"oct22\": {\n            \"model_path\": \"marinone94/xls-r-300m-sv-robust\",\n            \"model_type\": \"hf\",\n            \"lang\": \"sv\",\n            \"post_process\": \"collapse\"\n        }\n    },\n    \"hr\": {\n        \"oct22\": {\n            \"model_path\": \"classla/wav2vec2-xls-r-parlaspeech-hr\",\n            \"model_type\": \"hf\",\n            \"lang\": \"hr\",\n            \"post_process\": \"collapse\"\n        }\n    }\n}\n"
  },
  {
    "path": "examples/speech_to_speech/asr_bleu/compute_asr_bleu.py",
    "content": "import os\nfrom typing import Dict, List\nimport sacrebleu\nimport pandas as pd\nfrom glob import glob\nfrom pathlib import Path\nfrom utils import retrieve_asr_config, ASRGenerator\nfrom tqdm import tqdm\nfrom argparse import ArgumentParser\n\n\ndef merge_tailo_init_final(text):\n    \"\"\"\n    Hokkien ASR hypothesis post-processing.\n    \"\"\"\n    sps = text.strip().split()\n    results = []\n    last_syllable = \"\"\n    for sp in sps:\n        if sp == \"NULLINIT\" or sp == \"nullinit\":\n            continue\n        last_syllable += sp\n        if sp[-1].isnumeric():\n            results.append(last_syllable)\n            last_syllable = \"\"\n    if last_syllable != \"\":\n        results.append(last_syllable)\n    return \" \".join(results)\n\n\ndef remove_tone(text):\n    \"\"\"\n    Used for tone-less evaluation of Hokkien\n    \"\"\"\n    return \" \".join([t[:-1] for t in text.split()])\n\n\ndef extract_audio_for_eval(audio_dirpath: str, audio_format: str):\n    if audio_format == \"n_pred.wav\":\n        \"\"\"\n        The assumption here is that 0_pred.wav corresponds to the reference at line position 0 from the reference manifest\n        \"\"\"\n        audio_list = []\n        audio_fp_list = glob((Path(audio_dirpath) / \"*_pred.wav\").as_posix())\n        audio_fp_list = sorted(\n            audio_fp_list, key=lambda x: int(os.path.basename(x).split(\"_\")[0])\n        )\n        for i in range(len(audio_fp_list)):\n            try:\n                audio_fp = (Path(audio_dirpath) / f\"{i}_pred.wav\").as_posix()\n                assert (\n                    audio_fp in audio_fp_list\n                ), f\"{Path(audio_fp).name} does not exist in {audio_dirpath}\"\n            except AssertionError:\n                # check the audio with random speaker\n                audio_fp = Path(audio_dirpath) / f\"{i}_spk*_pred.wav\"\n                audio_fp = glob(\n                    audio_fp.as_posix()\n                )  # resolve audio filepath with random speaker\n                assert len(audio_fp) == 1\n                audio_fp = audio_fp[0]\n\n            audio_list.append(audio_fp)\n    else:\n        raise NotImplementedError\n\n    return audio_list\n\n\ndef extract_text_for_eval(\n    references_filepath: str, reference_format: str, reference_tsv_column: str = None\n):\n    if reference_format == \"txt\":\n        reference_sentences = open(references_filepath, \"r\").readlines()\n        reference_sentences = [l.strip() for l in reference_sentences]\n    elif reference_format == \"tsv\":\n        tsv_df = pd.read_csv(references_filepath, sep=\"\\t\", quoting=3)\n        reference_sentences = tsv_df[reference_tsv_column].to_list()\n        reference_sentences = [l.strip() for l in reference_sentences]\n    else:\n        raise NotImplementedError\n\n    return reference_sentences\n\n\ndef compose_eval_data(\n    audio_dirpath: str,\n    audio_format: str,\n    references_filepath: str,\n    reference_format: str,\n    reference_tsv_column: str = None,\n    save_manifest_filepath=None,\n):\n    \"\"\"\n    Speech matrix decoding pipeline produces audio with the following mask \"N_pred.wav\" where N is the order of the corresponding input sample\n    \"\"\"\n\n    reference_sentences = extract_text_for_eval(\n        references_filepath, reference_format, reference_tsv_column\n    )\n    predicted_audio_fp_list = extract_audio_for_eval(audio_dirpath, audio_format)\n    assert len(predicted_audio_fp_list) == len(reference_sentences)\n\n    audio_text_pairs = [\n        (audio, reference)\n        for audio, reference in zip(predicted_audio_fp_list, reference_sentences)\n    ]\n\n    tsv_manifest = pd.DataFrame(audio_text_pairs, columns=[\"prediction\", \"reference\"])\n\n    if save_manifest_filepath is not None:\n        tsv_manifest.to_csv(save_manifest_filepath, sep=\"\\t\", quoting=3)\n\n    return tsv_manifest\n\n\ndef load_eval_data_from_tsv(eval_data_filepath: str):\n    \"\"\"\n    We may load the result of `compose_eval_data` directly if needed\n    \"\"\"\n    eval_df = pd.from_csv(eval_data_filepath, sep=\"\\t\")\n\n    return eval_df\n\n\ndef run_asr_bleu(args):\n\n    asr_config = retrieve_asr_config(\n        args.lang, args.asr_version, json_path=\"./asr_model_cfgs.json\"\n    )\n    asr_model = ASRGenerator(asr_config)\n\n    eval_manifest = compose_eval_data(\n        audio_dirpath=args.audio_dirpath,\n        audio_format=args.audio_format,\n        references_filepath=args.reference_path,\n        reference_format=args.reference_format,\n        reference_tsv_column=args.reference_tsv_column,\n        save_manifest_filepath=None,\n    )\n\n    prediction_transcripts = []\n    for _, eval_pair in tqdm(\n        eval_manifest.iterrows(),\n        desc=\"Transcribing predictions\",\n        total=len(eval_manifest),\n    ):\n        transcription = asr_model.transcribe_audiofile(eval_pair.prediction)\n        prediction_transcripts.append(transcription.lower())\n\n    if args.lang == \"hok\":\n        prediction_transcripts = [\n            merge_tailo_init_final(text) for text in prediction_transcripts\n        ]\n\n    references = eval_manifest[\"reference\"].tolist()\n    bleu_score = sacrebleu.corpus_bleu(prediction_transcripts, [references])\n\n    print(bleu_score)\n\n    return prediction_transcripts, bleu_score\n\n\ndef main():\n    parser = ArgumentParser(\n        description=\"This script computes the ASR-BLEU metric between model's generated audio and the text reference sequences.\"\n    )\n\n    parser.add_argument(\n        \"--lang\",\n        help=\"The target language used to initialize ASR model, see asr_model_cfgs.json for available languages\",\n        type=str,\n    )\n    parser.add_argument(\n        \"--asr_version\",\n        type=str,\n        default=\"oct22\",\n        help=\"For future support we add and extra layer of asr versions. The current most recent version is oct22 meaning October 2022\",\n    )\n    parser.add_argument(\n        \"--audio_dirpath\",\n        type=str,\n        help=\"Path to the directory containing the audio predictions from the translation model\",\n    )\n    parser.add_argument(\n        \"--reference_path\",\n        type=str,\n        help=\"Path to the file containing reference translations in the form of normalized text (to be compared to ASR predictions\",\n    )\n    parser.add_argument(\n        \"--reference_format\",\n        choices=[\"txt\", \"tsv\"],\n        help=\"Format of reference file. Txt means plain text format where each line represents single reference sequence\",\n    )\n    parser.add_argument(\n        \"--reference_tsv_column\",\n        default=None,\n        type=str,\n        help=\"If format is tsv, then specify the column name which contains reference sequence\",\n    )\n    parser.add_argument(\n        \"--audio_format\",\n        default=\"n_pred.wav\",\n        choices=[\"n_pred.wav\"],\n        help=\"Audio format n_pred.wav corresponds to names like 94_pred.wav or 94_spk7_pred.wav where spk7 is the speaker id\",\n    )\n    parser.add_argument(\n        \"--results_dirpath\",\n        default=None,\n        type=str,\n        help=\"If specified, the resulting BLEU score will be written to this file path as txt file\",\n    )\n    parser.add_argument(\n        \"--transcripts_path\",\n        default=None,\n        type=str,\n        help=\"If specified, the predicted transcripts will be written to this path as a txt file.\",\n    )\n\n    args = parser.parse_args()\n\n    prediction_transcripts, bleu_score = run_asr_bleu(args)\n    result_filename = f\"{args.reference_format}_{args.lang}_bleu.txt\"\n    if args.results_dirpath is not None:\n        if not Path(args.results_dirpath).exists():\n            Path(args.results_dirpath).mkdir(parents=True)\n        with open(Path(args.results_dirpath) / result_filename, \"w\") as f:\n            f.write(bleu_score.format(width=2))\n\n    if args.transcripts_path is not None:\n        with open(args.transcripts_path, \"w\") as f:\n            for transcript in prediction_transcripts:\n                f.write(transcript + \"\\n\")\n\n\nif __name__ == \"__main__\":\n    main()\n\n\n\"\"\"\nExample to load Sl audio and references, compute BLEU:\n\nexport lang=fi; split=vp && python compute_asr_bleu.py --lang $lang --audio_dirpath /checkpoint/hygong/S2S/speech_matrix_release_ckpts/generated_waveform_release/en-$lang/test_$split/checkpoint.pt --audio_format n_pred.wav --reference_path /large_experiments/ust/hygong/S2S/SpeechEncoder/manifests/vp-vp/en-$lang/test_$split.$lang --reference_format txt --results_dirpath ./\n\"\"\"\n"
  },
  {
    "path": "examples/speech_to_speech/asr_bleu/requirements.txt",
    "content": "fairseq==0.12.2\npandas==1.4.3\nsacrebleu==2.2.0\ntorch==1.12.1\ntorchaudio==0.12.1\ntqdm==4.64.0\ntransformers==4.21.1\n"
  },
  {
    "path": "examples/speech_to_speech/asr_bleu/utils.py",
    "content": "import json\nimport re\nimport urllib.request\nfrom pathlib import Path\n\nimport fairseq\nimport torch\nfrom fairseq.data.data_utils import lengths_to_padding_mask\nfrom tqdm import tqdm\n\ntry:\n    import torchaudio\n    from torchaudio.models.decoder import ctc_decoder\nexcept ImportError:\n    raise ImportError(\"Upgrade torchaudio to 0.12 to enable CTC decoding\")\n\n\nclass DownloadProgressBar(tqdm):\n    \"\"\"A class to represent a download progress bar\"\"\"\n\n    def update_to(self, b=1, bsize=1, tsize=None) -> None:\n        \"\"\"\n        Update the download progress\n        \"\"\"\n        if tsize is not None:\n            self.total = tsize\n        self.update(b * bsize - self.n)\n\n\ndef retrieve_asr_config(lang_key: str, asr_version: str, json_path: str) -> dict:\n    \"\"\"\n    Retrieve the asr model configs\n\n    Args:\n        lang_key: the lanuage type as the key name\n        json_path: the path of the config json file\n\n    Returns:\n        Dict of all the configs in the json file\n    \"\"\"\n\n    with open(json_path, \"r\") as f:\n        asr_model_cfgs = json.load(f)\n    return asr_model_cfgs[lang_key][asr_version]\n\n\nclass ASRGenerator(object):\n    \"\"\"A class to represent a ASR generator\"\"\"\n\n    def __init__(\n        self,\n        model_cfg: dict,\n        cache_dirpath: str = (Path.home() / \".cache\" / \"ust_asr\").as_posix(),\n    ) -> None:\n        \"\"\"\n        Construct all the necessary attributes of the ASRGenerator class\n\n        Args:\n            model_cfg: the dict of the asr model config\n            cache_dirpath: the default cache path is \"Path.home()/.cache/ust_asr\"\n        \"\"\"\n\n        self.cache_dirpath = Path(cache_dirpath) / model_cfg[\"lang\"]\n        self.model_cfg = model_cfg\n\n        self.use_cuda = torch.cuda.is_available()\n\n        torchaudio.set_audio_backend(\"sox_io\")\n\n        if self.model_cfg[\"model_type\"] == \"hf\":\n            self.prepare_hf_model(self.model_cfg)\n        elif self.model_cfg[\"model_type\"] == \"fairseq\":\n            self.prepare_fairseq_model(self.model_cfg)\n        else:\n            raise NotImplementedError(\n                f\"Model type {self.model_cfg['model_type']} is not supported\"\n            )\n\n        if self.model_cfg[\"post_process\"] == \"collapse\":\n            self.post_process_fn = lambda hypo: \"\".join(hypo).replace(\n                self.sil_token, \" \"\n            )\n        elif self.model_cfg[\"post_process\"] == \"none\":\n            self.post_process_fn = lambda hypo: \" \".join(hypo).replace(\n                self.sil_token, \" \"\n            )\n        else:\n            raise NotImplementedError\n\n        if self.use_cuda:\n            self.model.cuda()\n        self.model.eval()\n\n        self.decoder = ctc_decoder(\n            lexicon=None,\n            tokens=self.tokens,\n            lm=None,\n            nbest=1,\n            beam_size=1,\n            beam_size_token=None,\n            lm_weight=0.0,\n            word_score=0.0,\n            unk_score=float(\"-inf\"),\n            sil_token=self.sil_token,\n            sil_score=0.0,\n            log_add=False,\n            blank_token=self.blank_token,\n        )\n\n    def prepare_hf_model(self, model_cfg: dict) -> None:\n        \"\"\"\n        Prepare the huggingface asr model\n\n        Args:\n            model_cfg: dict with the relevant ASR config\n        \"\"\"\n\n        def infer_silence_token(vocab: list):\n            \"\"\"\n            Different HF checkpoints have different notion of silence token\n            such as | or \" \" (space)\n            Important: when adding new HF asr model in, check what silence token it uses\n            \"\"\"\n            if \"|\" in vocab:\n                return \"|\"\n            elif \" \" in vocab:\n                return \" \"\n            else:\n                raise RuntimeError(\"Silence token is not found in the vocabulary\")\n\n        try:\n            from transformers import (AutoFeatureExtractor, AutoTokenizer,\n                                      Wav2Vec2ForCTC, Wav2Vec2Processor)\n        except ImportError:\n            raise ImportError(\"Install transformers to load HF wav2vec model\")\n\n        model_path = model_cfg[\"model_path\"]\n        self.model = Wav2Vec2ForCTC.from_pretrained(model_path)\n        self.tokenizer = AutoTokenizer.from_pretrained(model_path)\n        self.preprocessor = AutoFeatureExtractor.from_pretrained(model_path)\n        self.processor = Wav2Vec2Processor.from_pretrained(model_path)\n\n        # extra unk tokens are there to make some models work e.g. Finnish ASR has some vocab issue\n        vocab_list = [\n            self.tokenizer.decoder.get(i, f\"{self.tokenizer.unk_token}1\")\n            for i in range(self.tokenizer.vocab_size)\n        ]\n\n        self.sampling_rate = self.preprocessor.sampling_rate\n        self.normalize_input = self.preprocessor.do_normalize\n        self.tokens = vocab_list\n        self.sil_token = infer_silence_token(vocab_list)\n        self.blank_token = self.tokenizer.pad_token\n\n    def prepare_fairseq_model(self, model_cfg: dict) -> None:\n        \"\"\"\n        Prepare the fairseq asr model\n\n        Args:\n            model_cfg: the specific model config dict must have: (1) ckpt_path, (2) dict_path\n        \"\"\"\n\n        def download_file(url: str, cache_dir: Path):\n            download_path = cache_dir / url.split(\"/\")[-1]\n            if not (cache_dir / url.split(\"/\")[-1]).exists():\n                with DownloadProgressBar(\n                    unit=\"B\", unit_scale=True, miniters=1, desc=url.split(\"/\")[-1]\n                ) as t:\n                    cache_dir.mkdir(parents=True, exist_ok=True)\n                    urllib.request.urlretrieve(\n                        url, filename=download_path.as_posix(), reporthook=t.update_to\n                    )\n            else:\n                print(f\"'{url}' exists in {cache_dir}\")\n\n            return download_path.as_posix()\n\n        try:\n            ckpt_path = model_cfg[\"ckpt_path\"]\n            dict_path = model_cfg[\"dict_path\"]\n        except KeyError:\n            raise KeyError(\n                \"Fairseq model cfg must provide (1) ckpt_path, (2) dict_path\"\n            )\n\n        if re.search(\"^https\", ckpt_path):\n            ckpt_path = download_file(ckpt_path, self.cache_dirpath)\n        if re.search(\"^https\", dict_path):\n            dict_path = download_file(dict_path, self.cache_dirpath)\n\n        model, saved_cfg, _ = fairseq.checkpoint_utils.load_model_ensemble_and_task(\n            [ckpt_path],\n            arg_overrides={\n                \"task\": \"audio_finetuning\",\n                \"data\": self.cache_dirpath.as_posix(),\n            },  # data must have dict in it\n        )\n\n        dict_lines = open(dict_path, \"r\").readlines()\n        tokens = [l.split()[0] for l in dict_lines]\n        # adding default fairseq special tokens\n        tokens = [\"<s>\", \"<pad>\", \"</s>\", \"<unk>\"] + tokens\n\n        self.model = model[0]\n        self.tokens = tokens\n\n        if \"|\" in tokens:\n            self.sil_token = \"|\"\n        else:\n            self.sil_token = tokens[\n                2\n            ]  # use eos as silence token if | not presented e.g., Hok ASR model\n        print(f\"Inferring silence token from the dict: {self.sil_token}\")\n        self.blank_token = self.tokens[0]\n\n        self.sampling_rate = saved_cfg.task.sample_rate\n        self.normalize_input = saved_cfg.task.normalize\n\n    @torch.inference_mode()\n    def load_audiofile(self, audio_path: str) -> torch.Tensor:\n        \"\"\"\n        Load the audio files and apply resampling and normalizaion\n\n        Args:\n            audio_path: the audio file path\n\n        Returns:\n            audio_waveform: the audio waveform as a torch.Tensor object\n        \"\"\"\n\n        audio_waveform, sampling_rate = torchaudio.load(audio_path)\n        if audio_waveform.dim == 2:\n            audio_waveform = audio_waveform.mean(-1)\n        if self.sampling_rate != sampling_rate:\n            audio_waveform = torchaudio.functional.resample(\n                audio_waveform, sampling_rate, self.sampling_rate\n            )\n        if self.normalize_input:\n            # following fairseq raw audio dataset\n            audio_waveform = torch.nn.functional.layer_norm(\n                audio_waveform, audio_waveform.shape\n            )\n\n        return audio_waveform\n\n    @torch.inference_mode()\n    def compute_emissions(self, audio_input: torch.Tensor) -> torch.Tensor:\n        \"\"\"\n        Compute the emissions for either fairseq or huggingface asr model\n\n        Args:\n            audio_path: the input audio waveform\n\n        Returns:\n            emissions: the logits of the encoded prediction.\n        \"\"\"\n\n        if self.use_cuda:\n            audio_input = audio_input.to(\"cuda\")\n        if isinstance(self.model, fairseq.models.wav2vec.wav2vec2_asr.Wav2VecCtc):\n            padding_mask = lengths_to_padding_mask(torch.tensor([audio_input.numel()]))\n            emissions = self.model.w2v_encoder(audio_input, padding_mask)[\n                \"encoder_out\"\n            ].transpose(0, 1)\n        else:\n            emissions = self.model(audio_input).logits\n\n        return emissions\n\n    def decode_emissions(self, emissions: torch.Tensor) -> str:\n        \"\"\"\n        Decode the emissions and apply post process functions\n\n        Args:\n            emissions: the input Tensor object\n\n        Returns:\n            hypo: the str as the decoded transcriptions\n        \"\"\"\n\n        emissions = emissions.cpu()\n        results = self.decoder(emissions)\n\n        # assuming the lexicon-free decoder and working with tokens\n        hypo = self.decoder.idxs_to_tokens(results[0][0].tokens)\n        hypo = self.post_process_fn(hypo)\n\n        return hypo\n\n    def transcribe_audiofile(self, audio_path: str, lower=True) -> str:\n        \"\"\"\n        Transcribe the audio into string\n\n        Args:\n            audio_path: the input audio waveform\n            lower: the case of the transcriptions with lowercase as the default\n\n        Returns:\n            hypo: the transcription result\n        \"\"\"\n\n        asr_input = self.load_audiofile(audio_path)\n        emissions = self.compute_emissions(asr_input)\n        hypo = self.decode_emissions(emissions)\n\n        return hypo.strip().lower() if lower else hypo.strip()\n"
  },
  {
    "path": "examples/speech_to_speech/benchmarking/README.md",
    "content": "# Benchmarking\n\n## Overview\n\nThe goal of this framework is to support benchmarking various speech to speech translation(S2ST) models in terms of runtime, max-memory consumption and total number of floating point operations(FLOPS). It is a generic framework and can be easily extended to support any fairseq models. To accurately benchmark the performance, core inference modules are re-implemented based on fairseq_cli/generate.py (core.py/Processing) and examples/speech_to_text/generate_waveform.py(core.py/SpeechGeneration. To ensure that the end to end models and cascaded models are compared fairly, for cascaded models we only consider the performance metrics for model inference at all stages ignoring any intermediate data and io processing consumption. We run all the benchmarking runs on CPU as it is generally used in production environment and also due to lack of good benchmarking library support for GPUs.\n\n1. Runtime: Average time in seconds to run model inference on an example from a given dataset. We use [timeit](https://docs.python.org/3/library/timeit.html) library to measure the runtime.\n2. Max memory: Maximum memory in MiB averaged over by running the model inference on all examples from the given dataset. We use [memory_profiler](https://pypi.org/project/memory-profiler/) library to gather memory footprints for a code snippet and find the maximum to get the max memory used by the code. For cascaded models, we find the max of all stages to get the overall max_memory footprint.\n3. FLOPS: We compute the average number of floating point operations needed to run model inference for an example from the given dataset. We use [PAPI library](http://www.bnikolic.co.uk/blog/python/flops/2019/10/01/pytorch-count-flops.html) to benchmark the number of flops.\n\n## CLI Commands\n\n```{python}\nCUBLAS_WORKSPACE_CONFIG=:4096:8 python examples/speech_to_speech/benchmarking/get_metrics.py ‘’ --config $config\n```\n\n\n## Note:\n\n1. The npy dataset is a list of samples saved as a .npy file. Each sample is a dictionary with id, net_input.\n2. The raw dataset is a list of raw audio paths similar to wav2vec2 input tsv file\n\n```{python}\nsample: {\n    \"id\": xx,\n    \"net_input\": {\n        \"src_tokens\": torch.tensor([]),\n        \"src_lengths\": torch.tensor([])\n    }\n}\n```\n"
  },
  {
    "path": "examples/speech_to_speech/benchmarking/configs/2StageS2ST.yaml",
    "content": "general:\n  dataset_path: $npy_dataset\n  cpu: True\n  model_type: 2StageS2ST\n  dataset_size: 1\n\nstage1:\n  data: $data_bin_stage1\n  task: speech_to_text\n  path: $checkpoint_stage1\n  config_yaml: config.yaml\n  max_len_a: 2\n  max_len_b: 500\n\nstage2:\n  data: $data_bin_stage2\n  task: text_to_speech\n  path: $checkpoint_stage2\n  config_yaml: config.yaml\n"
  },
  {
    "path": "examples/speech_to_speech/benchmarking/configs/3StageS2ST.yaml",
    "content": "general:\n  dataset_path: $npy_dataset\n  cpu: True\n  model_type: 3StageS2ST\n  max_len_a: 2\n  max_len_b: 500\n  dataset_size: 1\n\nstage1:\n  data: $data_bin_stage1\n  task: speech_to_text\n  path: $checkpoint_stage1\n  config_yaml: config.yaml\n  max_len_a: 2\n  max_len_b: 500\n\nstage2:\n  data: $data_bin_stage2\n  task: translation\n  path: $checkpoint_stage2\n  config_yaml: config.yaml\n\n\nstage2:\n  data: $data_bin_stage3\n  task: text_to_speech\n  path: $checkpoint_stage3\n  config_yaml: config.yaml\n"
  },
  {
    "path": "examples/speech_to_speech/benchmarking/configs/DirectS2U.yaml",
    "content": "general:\n  dataset_path: $npy_dataset_path\n  cpu: True\n  model_type: S2UT\n  dataset_size: 5\n  dump_speech_waveforms_dir: $dump_waveforms_dir_path\n\nstage1:\n  data: $data_bin\n  task: speech_to_speech\n  path:  $checkpoint\n  config_yaml: config.yaml\n  max_len_b: 100000\n  beam: 10\n  target_is_code: True\n  max_target_positions: 3000\n  target_code_size: 100\n\nstage2:\n  vocoder: $vocoder_path\n  vocoder_cfg: $vocoder_cfg_json\n  dur_prediction: True\n"
  },
  {
    "path": "examples/speech_to_speech/benchmarking/configs/S2T.yaml",
    "content": "general:\n  dataset_path: $npy_dataset\n  cpu: True\n  model_type: S2T\n  dataset_size: 1\n\nstage1:\n  data: $data_bin\n  task: speech_to_text\n  path: $checkpoint\n  config_yaml: config.yaml\n  max_len_a: 2\n  max_len_b: 500\n"
  },
  {
    "path": "examples/speech_to_speech/benchmarking/core.py",
    "content": "import timeit\nimport logging\nimport torch\nfrom pypapi import events, papi_high as high\nfrom memory_profiler import memory_usage\nfrom torch import nn\nfrom argparse import Namespace\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.data import data_utils as fairseq_data_utils\nfrom fairseq import checkpoint_utils, tasks, utils\nfrom fairseq.models.text_to_speech.vocoder import CodeHiFiGANVocoder\nfrom examples.hubert.simple_kmeans.dump_hubert_feature import HubertFeatureReader\nfrom examples.hubert.simple_kmeans.dump_km_label import ApplyKmeans\nfrom fairseq_cli.generate import get_symbols_to_strip_from_output\nimport soundfile as sf\nimport ast\nimport json\n\nlogging.basicConfig()\nlogging.root.setLevel(logging.INFO)\nlogging.basicConfig(level=logging.INFO)\nlogger = logging.getLogger(__name__)\n\n\ntorch.manual_seed(1)\ntorch.set_deterministic(True)\n\n\nclass BenchmarkingBase(nn.Module):\n    def __init__(self):\n        nn.Module.__init__(self)\n        self.s2x_task = None\n\n    def warm_up(self, sample, repeat):\n        \"\"\"Warm up the model\"\"\"\n        for _i in range(repeat):\n            self.forward(sample)\n        logger.info(f\"Model warmed up by running inference {repeat} times\")\n\n    def benchmark_run_time(self, dataset, repeat):\n        \"\"\"Benchmark average runtime for the model by calling benchmark_run_time_single_sample function\"\"\"\n        logger.info(\"Starting run time benchmarking\")\n        time_elapsed = 0\n        for i, sample in enumerate(dataset):\n            time_elapsed += self.benchmark_run_time_single_sample(sample, repeat=repeat)\n            if i % 100 == 0:\n                logger.info(f\"Benchmarked run time for {i}/{len(dataset)} samples\")\n        total_time_elapsed = time_elapsed / len(dataset)\n        return total_time_elapsed\n\n    def benchmark_run_time_single_sample(self, sample, repeat):\n        \"\"\"Benchmark average runtime for a single sample using timeit library. Units are seconds\"\"\"\n        timer = timeit.Timer(lambda: self.forward(sample))\n        time_elapsed = timer.timeit(repeat)\n        return time_elapsed / repeat\n\n    def count_flops(\n        self,\n        dataset,\n        repeat,\n    ):\n        \"\"\"Use PYPAPI library to count average flops for model inference.\n        Note: It only works if the model is being run on cpu\"\"\"\n        logger.info(\"Starting flop counter\")\n        high.start_counters([events.PAPI_DP_OPS])\n        for i, sample in enumerate(dataset):\n            for _r in range(repeat):\n                self.forward(sample)\n            if i % 100 == 0:\n                logger.info(f\"Counted flops for {i}/{len(dataset)} samples\")\n        flops = high.stop_counters()\n        flops = round(flops[0] / (repeat * len(dataset)))\n        return flops\n\n    def max_memory(self, dataset, repeat):\n        \"\"\"Compute average max memory consumed by model inference. Units are MiB\"\"\"\n        logger.info(\"Starting memory benchmarking\")\n        total_memory = 0\n        for i, sample in enumerate(dataset):\n            for _r in range(repeat):\n                total_memory += max(memory_usage((self.forward, (sample,), {})))\n            if i % 100 == 0:\n                logger.info(f\"Benchmarked memory for {i}/{len(dataset)} samples\")\n        total_memory = total_memory / (repeat * len(dataset))\n        return total_memory\n\n    def gather_all_metrics(self, dataset, repeat):\n        run_time = self.benchmark_run_time(dataset, repeat)\n        max_memory = self.max_memory(dataset, repeat)\n        flops = self.count_flops(dataset, repeat)\n\n        return run_time, max_memory, flops\n\n    def dump_final_speech_output(\n        self, dataset, output_dir, resample_fn, sample_rate, prefix=None\n    ):\n\n        for i, sample in enumerate(dataset):\n            hypo = self.forward(sample)[0]\n\n            def to_np(x):\n                return x.detach().cpu().numpy()\n\n            try:\n                wave_preds = to_np(resample_fn(hypo[\"waveform\"]))\n                sf.write(\n                    f\"{output_dir}/{prefix}_{i}_pred.wav\",\n                    wave_preds,\n                    sample_rate,\n                )\n            except Exception as e:\n                raise Exception(\n                    f\" Encountered {e} - Invalid waveform. Make sure the model outputs a waveform\"\n                )\n\n\nclass Processing(BenchmarkingBase):\n    \"\"\"Class similar to fairseq_cli/generate.py. Supports ASR, MT and ST model inference\"\"\"\n\n    def __init__(self, args):\n        super().__init__()\n        self.use_cuda = not getattr(args, \"cpu\", False)\n        self.setUp(args)\n        self.training = False\n        self.s2x_task = self.task\n\n    def setUp(self, cfg):\n        if isinstance(cfg, Namespace):\n            cfg = convert_namespace_to_omegaconf(cfg)\n\n        self.task = tasks.setup_task(cfg.task)\n        self.tgt_dict = self.task.target_dictionary\n\n        # Load ensemble\n        logger.info(\"loading model(s) from {}\".format(cfg.common_eval.path))\n        models, _ = checkpoint_utils.load_model_ensemble(\n            utils.split_paths(cfg.common_eval.path),\n            arg_overrides={},\n            task=self.task,\n            suffix=cfg.checkpoint.checkpoint_suffix,\n            strict=False,\n            num_shards=cfg.checkpoint.checkpoint_shard_count,\n        )\n        if len(models) > 1:\n            raise Exception(\"Currently loading multiple models is not supported\")\n        self.model = models[0]\n\n        # Optimize model for generation\n        if cfg.common.fp16:\n            self.model.half()\n        if self.use_cuda:\n            self.model.cuda()\n        self.model.prepare_for_inference_(cfg)\n\n        self.generator = self.task.build_generator(\n            [self.model],\n            cfg.generation,\n            extra_gen_cls_kwargs={},\n        )\n        # Handle tokenization and BPE\n        self.tokenizer = self.task.build_tokenizer(cfg.tokenizer)\n        self.bpe = self.task.build_bpe(cfg.bpe)\n        self.remove_bpe = cfg.common_eval.post_process\n\n    def encode_source(self, src):\n        \"\"\"Method to generate source tokens from a string\"\"\"\n        if self.tokenizer is not None:\n            src = self.tokenizer.encode(src)\n        if self.bpe is not None:\n            src = self.bpe.encode(src)\n        src_tokens = self.task.source_dictionary.encode_line(src).long()\n        src_lens = src_tokens.size(0)\n        return {\n            \"net_input\": {\n                \"src_tokens\": src_tokens.view(1, src_lens),\n                \"src_lengths\": torch.tensor([src_lens]),\n            }\n        }\n\n    def decode_target(self, hypos):\n        \"\"\"Method to decode target string from tokens\"\"\"\n        hypo_str = self.tgt_dict.string(\n            hypos[0][0][\"tokens\"].int().cpu(),\n            self.remove_bpe,\n            get_symbols_to_strip_from_output(self.generator),\n        )\n        if self.bpe is not None:\n            hypo_str = self.bpe.decode(hypo_str)\n        if self.tokenizer is not None:\n            hypo_str = self.tokenizer.decode(hypo_str)\n        return hypo_str\n\n    def forward(self, sample):\n        hypos = self.task.inference_step(\n            self.generator,\n            [self.model],\n            sample,\n            prefix_tokens=None,\n            constraints=None,\n        )\n        return hypos\n\n\nclass GenerateWaveformFromCode(BenchmarkingBase):\n    \"\"\"Class to support waveform generation from code. Currently, vocoder only supports single speaker\"\"\"\n\n    def __init__(self, args):\n        super().__init__()\n        with open(args.vocoder_cfg) as f:\n            vocoder_cfg = json.load(f)\n        self.dur_prediction = args.dur_prediction\n        self.vocoder = CodeHiFiGANVocoder(args.vocoder, vocoder_cfg)\n\n    def format_units(self, input):\n        code = torch.LongTensor(list(map(int, input.strip().split()))).view(1, -1)\n        return {\"code\": code}\n\n    def generate_vocoder_input(self, dataset):\n        return [self.format_units(sample) for sample in dataset]\n\n    def forward(self, sample):\n        return [{\"waveform\": self.vocoder(sample, self.dur_prediction)}]\n\n\nclass HubertUnitExtractor(BenchmarkingBase):\n    def __init__(self, args):\n        self.feature_reader = HubertFeatureReader(\n            args.hubert_ckpt_path, args.hubert_layer\n        )\n        self.kmeans = ApplyKmeans(args.hubert_km_path)\n\n    def forward(self, sample):\n        with torch.no_grad():\n            feat = []\n            for start in range(0, sample.size(1), self.feature_reader.max_chunk):\n                x_chunk = sample[:, start : start + self.max_chunk]\n                feat_chunk, _ = self.feature_reader.model.extract_features(\n                    source=x_chunk,\n                    padding_mask=None,\n                    mask=False,\n                    output_layer=self.layer,\n                )\n                feat.append(feat_chunk)\n            torch.cat(feat, 1).squeeze(0)\n        return self.kmeans(feat).tolist()\n\n\nclass SpeechGeneration(BenchmarkingBase):\n    \"\"\"Class similar to examples/text_to_speech/generate_waveform.py.\n    Supports models with speech generation as end goal (TTS, Direct S2ST models etc)\"\"\"\n\n    def __init__(self, args):\n        super().__init__()\n        self.use_cuda = not getattr(args, \"cpu\", False)\n        self.setUp(args)\n        self.s2x_task = self.task\n\n    def setUp(self, args):\n        if args.task == \"speech_to_speech\":\n            args.normalize_waveform = False\n        self.task = tasks.setup_task(args)\n        self.pre_tokenizer = self.task.build_tokenizer(args)\n        self.bpe_tokenizer = self.task.build_bpe(args)\n        try:\n            self.src_dict = self.task.src_dict\n        except Exception:\n            self.src_dict = None\n        ensemble, saved_cfg, task = checkpoint_utils.load_model_ensemble_and_task(\n            [args.path],\n            arg_overrides=ast.literal_eval(args.model_overrides),\n            task=self.task,\n            strict=False,\n        )\n        self.model = ensemble[0]\n        if self.use_cuda:\n            self.model.cuda()\n            # criterion.cuda()\n        self.model.eval()\n        self.generator = self.task.build_generator(\n            [self.model],\n            args,\n        )\n\n    def processTextInput(self, text):\n        \"\"\"Generate source tokens from text input\"\"\"\n        if self.pre_tokenizer is not None:\n            text = self.pre_tokenizer.encode(text)\n        if self.bpe_tokenizer is not None:\n            text = self.bpe_tokenizer.encode(text)\n        target = self.src_dict.encode_line(\n            text, add_if_not_exist=False, append_eos=True\n        ).long()\n        target = fairseq_data_utils.collate_tokens(\n            [target],\n            self.src_dict.pad(),\n            self.src_dict.eos(),\n            left_pad=False,\n            move_eos_to_beginning=False,\n        )\n        src_lengths = torch.tensor([target.size(1)], dtype=torch.long)\n        prev_output_tokens = None\n        sample = {\n            \"net_input\": {\n                \"src_tokens\": target,\n                \"src_lengths\": src_lengths,\n                \"prev_output_tokens\": prev_output_tokens,\n            }\n        }\n        sample = utils.move_to_cuda(sample) if self.use_cuda else sample\n        return sample\n\n    def forward(self, sample):\n        sample[\"speaker\"] = None\n        output = self.generator.generate(self.model, sample)  # , has_targ=False\n        return output\n\n\nclass S2UT(BenchmarkingBase):\n    \"\"\"Class to support S2UT models. Also supports generating waveforms from the units predicted\"\"\"\n\n    def __init__(self, s2u_args, vocoder_args=None):\n        super().__init__()\n        self.s2u = Processing(s2u_args)\n        self.vocoder = None\n        if vocoder_args:\n            self.vocoder = GenerateWaveformFromCode(vocoder_args)\n        self.vocoder_input = None\n\n    def forward(self, sample):\n        s2u_hypos = self.s2u(sample)\n        s2u_output = self.s2u.decode_target(s2u_hypos)\n        if not self.vocoder:\n            return s2u_output\n        units = self.vocoder.format_units(s2u_output)\n        vocoder_output = self.vocoder(units)\n        return vocoder_output\n\n    def generate_s2u_outputs(self, dataset):\n        return [self.s2u.decode_target(self.s2u(sample)) for sample in dataset]\n\n    def compute_metrics(self, metric_type, dataset, repeat=None):\n        \"\"\"Generic function to compute metrics ignoring the io processing time\"\"\"\n        if self.vocoder and not self.vocoder_input:\n            self.s2u_output = self.generate_s2u_outputs(dataset)\n            self.vocoder_input = self.vocoder.generate_vocoder_input(self.s2u_output)\n\n        s2u_metrics = getattr(self.s2u, metric_type)(\n            dataset,\n            repeat,\n        )\n        vocoder_metrics = 0\n        if self.vocoder:\n            vocoder_metrics = getattr(self.vocoder, metric_type)(\n                self.vocoder_input,\n                repeat,\n            )\n        print(\n            f\"metric_type = {metric_type} s2u_metrics = {s2u_metrics} \\t vocoder_metrics = {vocoder_metrics}\"\n        )\n        if metric_type == \"max_memory\":\n            return max(s2u_metrics, vocoder_metrics)\n        else:\n            return s2u_metrics + vocoder_metrics\n\n    def benchmark_run_time(self, dataset, repeat):\n        return self.compute_metrics(\"benchmark_run_time\", dataset, repeat)\n\n    def count_flops(self, dataset, repeat):\n        return self.compute_metrics(\"count_flops\", dataset, repeat)\n\n    def max_memory(self, dataset, repeat):\n        return self.compute_metrics(\"max_memory\", dataset, repeat)\n\n\nclass Cascaded2StageS2ST(BenchmarkingBase):\n    \"\"\"ST + TTS\"\"\"\n\n    def __init__(self, s2t_args, tts_args):\n        super().__init__()\n        self.s2t = Processing(s2t_args)\n        self.s2x_task = self.s2t.task\n        self.tts = SpeechGeneration(tts_args) if tts_args else None\n        self.training = False\n        self.tts_inputs = None\n\n    def forward(self, sample):\n        if not self.tts:\n            raise Exception(\n                \"Forward function is not callable without tts. Reinitialize the class with tts_args\"\n            )\n        s2t_hypos = self.s2t(sample)\n        s2t_output = self.s2t.decode_target(s2t_hypos)\n        tts_input = self.tts.processTextInput(s2t_output)\n        tts_output = self.tts(tts_input)\n        return tts_output\n\n    def generate_s2t_outputs(self, dataset):\n        \"\"\"Process dataset and generate s2t outputs\"\"\"\n        return [self.s2t.decode_target(self.s2t(sample)) for sample in dataset]\n\n    def generate_tts_inputs(self, dataset):\n        \"\"\"Process dataset and generate tts inputs\"\"\"\n        return [self.tts.processTextInput(sample) for sample in dataset]\n\n    def compute_metrics(self, metric_type, dataset, repeat=None):\n        \"\"\"Generic function to compute metrics ignoring the io processing time\"\"\"\n        if not self.tts_inputs:\n            s2t_outputs = self.generate_s2t_outputs(dataset)\n            self.tts_inputs = self.generate_tts_inputs(s2t_outputs)\n\n        s2t_metrics = getattr(self.s2t, metric_type)(\n            dataset,\n            repeat,\n        )\n\n        tts_metrics = getattr(self.tts, metric_type)(\n            self.tts_inputs,\n            repeat,\n        )\n        print(\n            f\"metric_type = {metric_type} s2t_metrics = {s2t_metrics} \\t tts_metrics = {tts_metrics}\"\n        )\n        if metric_type == \"max_memory\":\n            return max(s2t_metrics, tts_metrics)\n        else:\n            return s2t_metrics + tts_metrics\n\n    def benchmark_run_time(self, dataset, repeat):\n        return self.compute_metrics(\"benchmark_run_time\", dataset, repeat)\n\n    def count_flops(self, dataset, repeat):\n        return self.compute_metrics(\"count_flops\", dataset, repeat)\n\n    def max_memory(self, dataset, repeat):\n        return self.compute_metrics(\"max_memory\", dataset, repeat)\n\n\nclass Cascaded3StageS2ST(Cascaded2StageS2ST):\n    \"\"\"ASR + MT + TTS\"\"\"\n\n    def __init__(self, s2t_args, tts_args, mt_args):\n        super().__init__(s2t_args, tts_args)\n        self.mt = Processing(mt_args)\n        self.mt_inputs = []\n\n    def forward(self, sample):\n        s2t_hypos = self.s2t(sample)\n        s2t_output = self.s2t.decode_target(s2t_hypos)\n        mt_input = self.mt.encode_source(s2t_output)\n        mt_hypos = self.mt(mt_input)\n        mt_output = self.mt.decode_target(mt_hypos)\n        tts_input = self.tts.processTextInput(mt_output)\n        tts_output = self.tts(tts_input)\n        return tts_output\n\n    def generate_mt_inputs(self, dataset):\n        \"\"\"Process dataset to generate mt model inputs\"\"\"\n        return [self.mt.encode_source(sample) for sample in dataset]\n\n    def generate_mt_outputs(self, dataset):\n        \"\"\"Process dataset to generate mt model outputs\"\"\"\n        return [self.mt.decode_target(self.mt(sample)) for sample in dataset]\n\n    def compute_metrics(self, metric_type, dataset, repeat=None):\n        \"\"\"Generic function to compute metrics ignoring the io processing time\"\"\"\n        if not self.tts_inputs:\n            s2t_outputs = self.generate_s2t_outputs(dataset)\n            self.mt_inputs = self.generate_mt_inputs(s2t_outputs)\n            mt_outputs = self.generate_mt_outputs(self.mt_inputs)\n            self.tts_inputs = self.generate_tts_inputs(mt_outputs)\n\n        s2t_metrics = getattr(self.s2t, metric_type)(\n            dataset,\n            repeat,\n        )\n        mt_metrics = getattr(self.mt, metric_type)(self.mt_inputs, repeat)\n        tts_metrics = getattr(self.tts, metric_type)(\n            self.tts_inputs,\n            repeat,\n        )\n        print(\n            f\"metric_type = {metric_type}  s2t_metrics = {s2t_metrics} \\t mt_metrics = {mt_metrics} \\t tts_metrics = {tts_metrics}\"\n        )\n        if metric_type == \"max_memory\":\n            return max(s2t_metrics, mt_metrics, tts_metrics)\n        else:\n            return s2t_metrics + mt_metrics + tts_metrics\n"
  },
  {
    "path": "examples/speech_to_speech/benchmarking/data_utils.py",
    "content": "from fairseq import tasks\nimport numpy as np\nimport logging\nimport random\nfrom fairseq import options\nimport torch\nimport os\nimport soundfile as sf\n\nfrom fairseq.data.audio.audio_utils import (\n    get_waveform,\n    parse_path,\n)\n\nlogging.basicConfig()\nlogging.root.setLevel(logging.INFO)\nlogging.basicConfig(level=logging.INFO)\nlogger = logging.getLogger(__name__)\n\nrandom.seed(1)\nnp.random.seed(1)\nrandom_number_generator = np.random.RandomState(30)\n\n\ndef generate_random_data_sample(T, B=1, D=80):\n    \"\"\"Generate random data sample given the T, B, D values\"\"\"\n    net_input = {\n        \"src_tokens\": torch.tensor(random_number_generator.randn(B, T, D)).float(),\n        \"src_lengths\": torch.tensor([T]),\n    }\n    return {\"net_input\": net_input}\n\n\ndef generate_random_dataset(T_range_min, T_range_max, B=1, D=80, dataset_size=100):\n    \"\"\"Generate random dataset with T values within a given range, B, D\"\"\"\n    T_values = [random.randint(T_range_min, T_range_max) for i in range(dataset_size)]\n    dataset = []\n    for t in T_values:\n        dataset.append(generate_random_data_sample(t, B, D))\n    return dataset, sum(T_values) / dataset_size\n\n\ndef load_dataset_npy(file_name, dataset_size=None):\n    \"\"\"Load dataset from a .npy file.\"\"\"\n    data = np.load(file_name, allow_pickle=True)\n    if dataset_size:\n        data = data[:dataset_size]\n    return data\n\n\ndef load_dataset_raw_to_waveforms(\n    file_name,\n    dataset_size=None,\n    need_waveform=True,\n    sample_rate=16000,\n    read_using_soundfile=False,\n):\n    \"\"\"Load raw dataset from w2v tsv file. Optionally get waveforms\"\"\"\n    data = []\n    with open(file_name, \"r\") as fp:\n        lines = fp.readlines()\n        data = [\n            os.path.join(lines[0].strip(), line.strip().split(\"\\t\")[0])\n            for line in lines[1:]\n        ]\n\n    if dataset_size:\n        data = data[:dataset_size]\n\n    if not need_waveform:\n        return data\n\n    features = []\n    if read_using_soundfile:\n        for _i, d in enumerate(data):\n            wav = sf.read(d)[0]\n            if wav.ndim == 2:\n                wav = wav.mean(-1)\n            features.append(torch.from_numpy(wav).float().view(1, -1))\n    else:\n        for i, d in enumerate(data):\n            _path, slice_ptr = parse_path(d)\n            if len(slice_ptr) == 0:\n                feat = get_waveform(\n                    _path, always_2d=True, output_sample_rate=sample_rate\n                )[0]\n                features.append(\n                    {\n                        \"id\": i,\n                        \"net_input\": {\n                            \"src_tokens\": torch.tensor(feat),\n                            \"src_lengths\": torch.tensor([feat.shape[1]]),\n                        },\n                    }\n                )\n            else:\n                raise Exception(\"Currently unsupported data format\")\n    return features\n\n\ndef load_dataset_task(\n    args,\n    batch_size=1,\n    limit_size=None,\n    ref_dataset=None,\n):\n    \"\"\"Loads dataset based on args by creating a task\"\"\"\n    if not args.data or not args.subset or not args.task:\n        raise Exception(\n            \"Please provide necessary arguments to load the dataset - data, subset and task\"\n        )\n    task = tasks.setup_task(args)\n\n    task.load_dataset(args.subset)\n    if not limit_size:\n        limit_size = len(task.dataset(args.subset))\n\n    iter = task.get_batch_iterator(\n        dataset=task.dataset(args.subset), max_sentences=batch_size\n    ).next_epoch_itr(shuffle=False)\n    dataset = []\n    for i, sample in enumerate(iter):\n        sample = {\n            \"id\": task.datasets[args.subset].ids[sample[\"id\"].item()],\n            \"net_input\": {\n                \"src_tokens\": sample[\"net_input\"][\"src_tokens\"],\n                \"src_lengths\": sample[\"net_input\"][\"src_lengths\"],\n            },\n        }\n        dataset.append(sample)\n        if i == limit_size - 1:\n            break\n\n    if ref_dataset:\n        try:\n            ids = get_ids_from_dataset(ref_dataset)\n        except Exception as e:\n            raise Exception(f\"{e} - Cannot extract ids from reference dataset\")\n\n        filtered_dataset = []\n        for sample in dataset:\n            if (\n                sample[\"id\"] in ids\n                or sample[\"id\"][5:] in ids\n                or f\"dev_{sample['id']}\" in ids\n            ):\n                filtered_dataset.append(sample)\n        dataset = filtered_dataset\n\n    max_len, min_len, avg_len = get_dataset_stats(dataset)\n    print(\n        f\"{args.subset} dataset stats : num_samples={len(dataset)} max_len = {max_len} min_len = {min_len} avg_len = {avg_len}\"\n    )\n\n    return dataset\n\n\ndef randomly_sample_subset(dataset, size=500):\n    \"\"\"Randomly sample subset from a dataset\"\"\"\n    random_indices = [random.randint(0, len(dataset) - 1) for i in range(size)]\n    return [dataset[i] for i in random_indices]\n\n\ndef get_short_data_subset(dataset, size=500):\n    \"\"\"Get a subset of desired size by sorting based on src_lengths\"\"\"\n    return sort_dataset(dataset)[:size]\n\n\ndef get_long_data_subset(dataset, size=500):\n    \"\"\"Get a subset of desired size by sorting based on src_lengths descending\"\"\"\n    return sort_dataset(dataset, reverse=True)[:size]\n\n\ndef sort_dataset(dataset, reverse=False):\n    return sorted(\n        dataset, key=lambda x: x[\"net_input\"][\"src_lengths\"].item(), reverse=reverse\n    )\n\n\ndef save_dataset_npy(dataset, file_name):\n    \"\"\"Save a dataset as .npy file\"\"\"\n    np.save(file_name, dataset)\n\n\ndef get_dataset_stats(dataset):\n    \"\"\"Get stats about dataset based on src_lengths of samples\"\"\"\n    max_len = 0\n    min_len = 100000\n    avg_len = 0\n    for d in dataset:\n        max_len = max(max_len, d[\"net_input\"][\"src_lengths\"].item())\n        min_len = min(min_len, d[\"net_input\"][\"src_lengths\"].item())\n        avg_len += d[\"net_input\"][\"src_lengths\"].item()\n\n    return max_len, min_len, avg_len / len(dataset)\n\n\ndef make_parser():\n    \"\"\"\n    Additional args:\n        1. Provide the dataset dir path using --data.\n        2. Loading the dataset doesn't require config, provide --config-yaml to apply additional feature transforms\n    \"\"\"\n    parser = options.get_speech_generation_parser()\n    parser.add_argument(\n        \"--subset\",\n        default=None,\n        type=str,\n        required=True,\n        help=\"Subset to use for dataset generation\",\n    )\n    parser.add_argument(\n        \"--dataset-save-dir\",\n        default=None,\n        type=str,\n        required=False,\n        help=\"Dir path in which the datasets are to be saved\",\n    )\n    parser.add_argument(\n        \"--ref-dataset\",\n        default=None,\n        type=str,\n        required=False,\n        help=\"If provided, the ids in the reference dataset will be used to filter the new dataset generated.\",\n    )\n    parser.add_argument(\"--dataset-save-token\", default=\"\", type=str, required=False)\n\n    options.add_generation_args(parser)\n    return parser\n\n\ndef get_ids_from_dataset(dataset):\n    return {sample[\"id\"]: 1 for sample in dataset}\n\n\ndef cli_main():\n    parser = make_parser()\n    args = options.parse_args_and_arch(parser)\n    dataset = load_dataset_task(args)\n\n    random_dataset = randomly_sample_subset(dataset)\n    short_dataset = get_short_data_subset(dataset)\n    long_dataset = get_long_data_subset(dataset)\n\n    if args.dataset_save_token:\n        args.dataset_save_token = f\"_{args.dataset_save_token}_\"\n\n    if args.dataset_save_dir:\n        save_dataset_npy(\n            random_dataset,\n            f\"{args.dataset_save_dir}/random_dataset{args.dataset_save_token}w_ids.npy\",\n        )\n        save_dataset_npy(\n            short_dataset,\n            f\"{args.dataset_save_dir}/short_dataset{args.dataset_save_token}w_ids.npy\",\n        )\n        save_dataset_npy(\n            long_dataset,\n            f\"{args.dataset_save_dir}/long_dataset{args.dataset_save_token}w_ids.npy\",\n        )\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/speech_to_speech/benchmarking/get_metrics.py",
    "content": "import copy\nimport torch\nimport logging\nfrom argparse import Namespace\nimport yaml\nfrom fairseq import options\nfrom examples.speech_to_speech.benchmarking.core import (\n    Processing,\n    SpeechGeneration,\n    Cascaded2StageS2ST,\n    Cascaded3StageS2ST,\n    S2UT,\n)\nfrom examples.speech_to_speech.benchmarking.data_utils import (\n    load_dataset_npy,\n    load_dataset_raw_to_waveforms,\n)\n\n\nlogging.basicConfig()\nlogging.root.setLevel(logging.INFO)\nlogging.basicConfig(level=logging.INFO)\nlogger = logging.getLogger(__name__)\n\ntorch.manual_seed(1)\ntorch.set_deterministic(True)\n\n\ndef make_parser():\n    \"\"\"Note: As the names indicate use s2x_args(ex:ST, ASR etc) for models with speech input,\n    x2s_args for models with speech output(ex:TTS) and mt_args for translation models (ex: mt, T2U etc).\n    For direct S2ST models, use x2s_args to provide model details.\n    \"\"\"\n    parser = options.get_speech_generation_parser()\n    parser.add_argument(\"--target-is-code\", action=\"store_true\", default=False)\n    parser.add_argument(\"--config\", type=str)\n    parser.add_argument(\n        \"--model-type\",\n        default=\"S2U\",\n        choices=[\"S2S\", \"TTS\", \"S2UT\", \"MT\", \"S2T\", \"2StageS2ST\", \"3StageS2ST\"],\n        help=\"Choose one of the models. For model inference implementation, refer to core.py\",\n    )\n    parser.add_argument(\n        \"--dataset-path\",\n        type=str,\n        help=\"\"\"File to load dataset from. Assumes dataset is a list of samples.\n        Each sample is a dict of format {'net_input':{'src_tokens':torch.tenor(),'src_lengths':torch.tensor()}}\"\"\",\n    )\n    parser.add_argument(\n        \"--dataset-type\",\n        type=str,\n        default=\"npy\",\n        choices=[\"npy\", \"raw\"],\n        help=\"\"\"Type of input dataset file\"\"\",\n    )\n    parser.add_argument(\n        \"--read-using-sf\",\n        type=str,\n        default=False,\n        help=\"\"\"If sound file should be used to read the raw dataset\"\"\",\n    )\n    parser.add_argument(\n        \"--dataset-size\",\n        default=None,\n        type=int,\n        help=\"Dataset size to use for benchmarking\",\n    )\n    parser.add_argument(\n        \"--dump-speech-waveforms-dir\",\n        default=None,\n        type=str,\n        help=\"Directory to dump the speech waveforms computed on the dataset.\",\n    )\n    parser.add_argument(\n        \"--dump-waveform-file-prefix\",\n        default=\"\",\n        type=str,\n        help=\"File name prefix for the saved speech waveforms\",\n    )\n    parser.add_argument(\n        \"--feat-dim\", default=80, type=int, help=\"Input feature dimension\"\n    )\n    parser.add_argument(\n        \"--target-sr\",\n        default=16000,\n        type=int,\n        help=\"Target sample rate for dumping waveforms\",\n    )\n\n    options.add_generation_args(parser)\n    options.get_interactive_generation_parser(parser)\n    return parser\n\n\ndef cli_main():\n    parser = make_parser()\n    args = options.parse_args_and_arch(parser)\n\n    with open(\n        args.config,\n        \"r\",\n    ) as f:\n        config = yaml.load(f, Loader=yaml.FullLoader)\n    dict_args = vars(args)\n    dict_args.update(config[\"general\"])\n    args = Namespace(**dict_args)\n\n    i = 1\n    stage_args = []\n    while i <= 3:\n        var = f\"stage{i}\"\n        tmp_args = copy.deepcopy(dict_args)\n        if var in config:\n            tmp_args.update(config[var])\n            stage_args.append(Namespace(**tmp_args))\n            i += 1\n        else:\n            break\n\n    if args.model_type == \"S2S\" or args.model_type == \"TTS\":\n        model = SpeechGeneration(stage_args[0])\n    elif args.model_type == \"S2UT\":\n        model = S2UT(stage_args[0], stage_args[1] if len(stage_args) > 1 else None)\n    elif args.model_type == \"MT\" or args.model_type == \"S2T\":\n        model = Processing(stage_args[0])\n    elif args.model_type == \"2StageS2ST\":\n        model = Cascaded2StageS2ST(stage_args[0], stage_args[1])\n    elif args.model_type == \"3StageS2ST\":\n        model = Cascaded3StageS2ST(stage_args[0], stage_args[2], stage_args[1])\n    else:\n        raise Exception(f\"Currently unsupported model type {args.model_type}\")\n\n    print(f\"Evaluating on dataset - {args.dataset_path}\\n\")\n\n    if args.dataset_type == \"npy\":\n        dataset = load_dataset_npy(args.dataset_path, dataset_size=args.dataset_size)\n    elif args.dataset_type == \"raw\":\n        dataset = load_dataset_raw_to_waveforms(\n            args.dataset_path,\n            dataset_size=args.dataset_size,\n            read_using_soundfile=args.read_using_sf,\n        )\n    else:\n        raise Exception(f\"Invalid dataset type {args.dataset_type}\")\n\n    model.warm_up(sample=dataset[0], repeat=2)\n\n    run_time, memory, flops = model.gather_all_metrics(dataset, repeat=1)\n    print(f\"run_time = {run_time}sec \\tmemory = {memory}MiB \\tflops = {flops}\")\n\n    if args.dump_speech_waveforms_dir:\n        model.dump_final_speech_output(\n            dataset,\n            args.dump_speech_waveforms_dir,\n            lambda x: x,\n            args.target_sr,\n            prefix=args.dump_waveform_file_prefix,\n        )\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/speech_to_speech/docs/data_augmentation.md",
    "content": "# Noise and audio augmentation techniques\n\nThe noise and data augmentation techniques were written in an effort to understand how augmenatation can affect model robustness and performance in both clean and noisy settings. \n\nAll transforms discussed in this section are subclasses of `AudioFeatureTransform`, `AudioWaveformTransform`, or `AudioDatasetTransform`. Each `Audio*Transform` has unique interaction with the data. If interested in implemented one's own transforms, it is highly advisable to review the differences (see [Adding your own transforms](https://github.com/facebookresearch/fairseq/blob/main/examples/speech_to_speech/docs/data_augmentation.md#adding-your-own-transforms)). If only applying the in-built transforms, then one only needs to be mindful that the correct kind of transform is listed in the config (see [Using transforms](https://github.com/facebookresearch/fairseq/blob/main/examples/speech_to_speech/docs/data_augmentation.md#using-transforms)). These transforms can be applied to instances of `SpeechToTextDataset`.\n\n### Contents\n[In-built transforms](https://github.com/facebookresearch/fairseq/blob/main/examples/speech_to_speech/docs/data_augmentation.md#in-built-transforms)\n\n[Benchmark studies](https://github.com/facebookresearch/fairseq/blob/main/examples/speech_to_speech/docs/data_augmentation.md#benchmark-studies)\n\n[Using transforms](https://github.com/facebookresearch/fairseq/blob/main/examples/speech_to_speech/docs/data_augmentation.md#using-transforms)\n\n[Adding your own transforms](https://github.com/facebookresearch/fairseq/blob/main/examples/speech_to_speech/docs/data_augmentation.md#adding-your-own-transforms)\n\n\n## In-built transforms \n### 1. Utterance concatenation \nUtterance concatenation is a data augmenation technique introduced as ConcatAug in [Translatotron 2: High-quality direct speech-to-speech translation\nwith voice preservation](https://arxiv.org/pdf/2107.08661.pdf).\nWith some parameterized probability, samples are concatenated with one other randomly chosen sample from the whole dataset. In the positive (concatenation) case, accessing `dataset[i]` will return a `SpeechToTextDatasetItem` where `source=source[i]+source[j]` and `target=target[i]+target[j]`. In the negative (skip concatenation) case, accessing `dataset[i]` will return a `SpeechToTextDatasetItem` where `source=source[i]` and `target=target[i]` as usual. \n\n**Usage**: `concataugment` is an `AudioDatasetTransform` and has three configurable hyperparameters:\n- `rate`: probability that any single access will result in the positive (concatenation) case. Defaults to 0.25. \n- `max_tokens`: maximum number of tokens allowed for concatenated source sequences. This parameter is meant to limit the length of concatenated samples to avoid out-of-memory errors. Defaults to 300. \n- `attempts`: maximum number of invalid concatenation attempts before defaulting to the negative (skip concatenation) case. This parameter aims to limit excessive time spent trying to find candidate samples that are short enough to concatenate with. Defaults to 5.\n\nPlease be wary of OOMs while using this augmentation technique; we used smaller batch sizes as a workaround to avoid OOMs. Batch size is determined by update frequency, batch size hyperparameter, and the number of GPU, so you may want to alter these to this end.\n\n### 2. Noise augmentation suite \n\nThe four noise augmentation methods in this suite adhere to the following principle: with some parameterized probability, samples are overlayed with a noise track. The content of the noise track is specific to the method. Signal-to-noise ratio with which the noise track is overlayed is determined by choosing a value from a random uniform distribution with parameterized endpoints. The first three methods are based off data augmentation methods suggested in Section 3.3 of [X-Vectors: Robust DNN Embeddings for Speaker Recognition](https://danielpovey.com/files/2018_icassp_xvectors.pdf).\n\n#### 2.1. Music augmentation\nFor music augmentation, the noise track consists of one file uniformly randomly selected from a corpus of music files. The music file is cut to size, including being repeated to fill the original sample length if necessary.  \n\n**Usage**: `musicaugment` is an `AudioWaveformTransform` and has four configurable hyperparameters:\n- `samples_path`: path where background music files are saved as audios (.wav files). No default. \n- `rate`: probability that any single access will result in the positive (background music) case. Defaults to 0.25. \n- `snr_min`: lower endpoint of the range from which a signal-to-noise ratio is uniformly randomly chosen with which to add background noise to the original source. Defaults to 5.\n- `snr_max`: higher endpoint of the range from which a signal-to-noise ratio is uniformly randomly chosen with which to add background noise to the original source. Defaults to 15.\n\n#### 2.2. Babble augmentation\nFor babble augmentation, the noise track consists of multiple audios uniformly randomly selected from a corpus of speech files. The number of speech audios in the background track is chosen randomly with equal probability between 3 and 7 audios.\n\n**Usage**: `babbleaugment` is an `AudioWaveformTransform` and has four configurable hyperparameters:\n- `samples_path`: path where background speech files are saved as audios (.wav files). No default. \n- `rate`: probability that any single access will result in the positive (background speech) case. Defaults to 0.25. \n- `snr_min`: lower endpoint of the range from which a signal-to-noise ratio is uniformly randomly chosen with which to add background noise to the original source. Defaults to 5.\n- `snr_max`: higher endpoint of the range from which a signal-to-noise ratio is uniformly randomly chosen with which to add background noise to the original source. Defaults to 15.\n\n#### 2.3. Sporadic noise augmentation\nFor sporadic noise augmentation, the noise track is mostly silent except for intermittent short clips of noise which are added at roughly a parameterized frequency. These clips are randomly chosen and cut from a corpus of noise files to lengths according to a parameterized Gaussian distribution.\n\n**Usage**: `sporadicnoiseaugment` is an `AudioWaveformTransform` and has seven configurable hyperparameters:\n- `samples_path`: path where background noise files are saved as audios (.wav files). No default.\n- `rate`: probability that any single access will result in the positive (add a sporadic noise track) case. Defaults to 0.25.\n- `snr_min`: lower endpoint of the range from which a signal-to-noise ratio is uniformly randomly chosen with which to add background noise to the original source. Defaults to 5.\n- `snr_max`: higher endpoint of the range from which a signal-to-noise ratio is uniformly randomly chosen with which to add background noise to the original source. Defaults to 15.\n- `noise_rate`: rate in noises per second at which noise clip will be added to the original sample\n- `noise_len_mean`: mean of Gaussian normal distribution from which length of noise clip is chosen \n- `noise_len_std`: standard deviation of Gaussian normal distribution from which length of noise clip is chosen \n\n#### 2.4. Background noise augmentation\nFor background noise augmentation, the noise track is a single track uniformly randomly selected from a corpus of noise files. The noise file is cut to size, including being repeated to fill the original sample length if necessary.  \n\n**Usage**: `backgroundnoiseaugment` is an `AudioWaveformTransform` and has four configurable hyperparameters:\n- `samples_path`: path where background noise files are saved as audios (.wav files). No default. \n- `rate`: probability that any single access will result in the positive (background noise) case. Defaults to 0.25. \n- `snr_min`: lower endpoint of the range from which a signal-to-noise ratio is uniformly randomly chosen with which to add background noise to the original source. Defaults to 5.\n- `snr_max`: higher endpoint of the range from which a signal-to-noise ratio is uniformly randomly chosen with which to add background noise to the original source. Defaults to 15.\n\n### 3. Mixed babble and background noise augmentation with recognizable source speaker\n\nThis augmentation technique is based on Algorithm 1 in [WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing](https://arxiv.org/abs/2110.13900) and is similar to the noise augmentation suite techniques in that it has a background noise track. The noise track consists of either (1) another audio sample from the batch or (2) a background noise track. A key difference is the length of the noise track is chosen from a uniform random distribution between 0 and half of the original sample length. \n\n**Usage**: `noisyoverlapaugment` is an `AudioDatasetTransform` and has seven configurable hyperparameters:\n- `noises_path`: path where background noise files are saved as audios (.wav files). No default. \n- `rate`: probability that any single access will result in the positive (background noise) case. Defaults to 0.25. \n- `mixing_noise_rate`: probability that in a positive (background noise) case, the noise track will consist of background noise (rather than babble from the batch). Defaults to 0.1.\n- `noise_snr_min`: lower endpoint of the range from which a signal-to-noise ratio is uniformly randomly chosen with which to add background noise to the original source. Defaults to -5.\n- `noise_snr_max`: higher endpoint of the range from which a signal-to-noise ratio is uniformly randomly chosen with which to add background noise to the original source. Defaults to 5.\n- `utterance_snr_min`: lower endpoint of the range from which a signal-to-noise ratio is uniformly randomly chosen with which to add **another audio from the batch** to the original source. Defaults to -5.\n- `utterance_snr_max`: higher endpoint of the range from which a signal-to-noise ratio is uniformly randomly chosen with which to add **another audio from the batch** to the original source. Defaults to 5.\n\n## Benchmark studies\n### Evaluation on clean data\nAugmentation in training data|Hyperparameters|Training loss|BLEU (covost)|BLEU (epst)|BLEU (mtedx)\n---|---|---|---|---|---\nNone||3.954|24.984|23.962|24.448\nConcatAugment|rate = 0.25, max_tokens = 3000, attempts = 5|3.940|25.322|26.124|26.19\nBabbleAugment|rate = 0.25, MUSAN speech, snr_min = (-5), snr_max = 5|3.957|24.226|23.186|22.368|\nBackgroundNoiseAugment|rate = 0.1, MUSAN noises, snr_min = (-10), snr_max = 10|3.955|24.745|23.513|23.819\nMusicAugment|rate = 0.25, MUSAN music, snr_min = 0, snr_max = 20|3.954|25.096|24.301|23.341|\nSporadicNoiseAugment|rate = 0.1, noise_rate = 0.25, MUSAN noises, snr_min = 10, snr_max = 35|3.954|24.924|23.951|23.484|\nMusicAugment + BabbleAugment + BackgroundNoiseAugment + SporadicNoiseAugment|as above, except limited rates to sum to 0.25: music (0.074), background (0.029), babble (0.074), sporadic (0.029)|3.953|24.874|23.675|24.249|\nNoisyOverlapAugment|rate = 0.25, mixing_noise_rate = 0.5, MUSAN noises, utterance_snr_min = (-10), utterance_snr_max = 0, noise_snr_min = (-5), noise_snr_max = 20|3.954|24.949|24.015|23.768|\n\n### Evaluation on data with music noise added at SNR = (-5) - 5\nAugmentation in training data|Training loss|BLEU (covost)|BLEU (epst)|BLEU (mtedx)\n---|---|---|---|---\nNone|3.954|15.785|21.105|16.944\nConcatAugment|3.940|17.186|23.255|18.24\nBabbleAugment|3.957|19.158|22.064|17.116\nBackgroundNoiseAugment|3.955|17.777|22.0|17.535|\nMusicAugment|3.954|20.345|23.126|19.433|\nSporadicNoiseAugment|3.954|15.927|21.382|14.736|\nMusicAugment + BabbleAugment + BackgroundNoiseAugment + SporadicNoiseAugment|3.953|19.724|22.659|17.852|\nNoisyOverlapAugment|3.954|17.49|22.142|17.207|\n\n### Evaluation on data with babble noise added at SNR = (-5) - 5 \nAugmentation in training data|Training loss|BLEU (covost)|BLEU (epst)|BLEU (mtedx)\n---|---|---|---|---\nNone|3.954|4.092|13.514|5.13\nConcatAugment|3.940|5.493|15.835|6.893\nBabbleAugment|3.957|16.12|21.097|13.996\nBackgroundNoiseAugment|3.955|4.691|15.784|5.982\nMusicAugment|3.954|8.06|17.764|9.008\nSporadicNoiseAugment|3.954|4.009|13.935|4.814\nMusicAugment + BabbleAugment + BackgroundNoiseAugment + SporadicNoiseAugment|3.953|14.692|20.882|14.45\nNoisyOverlapAugment|3.954|4.032|16.434|7.284\n\n### Evaluation on data with sporadic noise added at SNR = (-5) - 5 \nAugmentation in training data|Training loss|BLEU (covost)|BLEU (epst)|BLEU (mtedx)\n---|---|---|---|---\nNone|3.954|23.778|23.745|22.748\nConcatAugment|3.940|24.239|25.907|25.723\nBabbleAugment|3.957|23.42|23.048|21.076\nBackgroundNoiseAugment|3.955|23.998|23.467|22.494\nMusicAugment|3.954|24.142|24.181|19.143\nSporadicNoiseAugment|3.954|23.97|23.894|22.61\nMusicAugment + BabbleAugment + BackgroundNoiseAugment + SporadicNoiseAugment|3.953|24.118|23.59|23.717\nNoisyOverlapAugment|3.954|24.265|24.103|23.167\n\n### Evaluation on data with background noise added at SNR = (-5) - 5 \nAugmentation in training data|Training loss|BLEU (covost)|BLEU (epst)|BLEU (mtedx)\n---|---|---|---|---\nNone|3.954|20.201|22.525|19.66\nConcatAugment|3.940|20.904|24.706|21.353\nBabbleAugment|3.957|20.687|22.374|18.907\nBackgroundNoiseAugment|3.955|21.574|22.998|20.043\nMusicAugment|3.954|21.65|23.529|19.87\nSporadicNoiseAugment|3.954|20.578|22.577|19.096\nMusicAugment + BabbleAugment + BackgroundNoiseAugment + SporadicNoiseAugment|3.953|21.811|23.144|20.986\nNoisyOverlapAugment|3.954|21.312|23.153|20.302\n\n### Evaluation on data with all four types of noises added at SNR = (-5) - 5, each applied with prob 0.5\nAugmentation in training data|Training loss|BLEU (covost)|BLEU (epst)|BLEU (mtedx)\n---|---|---|---|---\nNone|3.954|10.895|19.319|12.748\nConcatAugment|3.940|13.517|21.658|15.428\nBabbleAugment|3.957|18.09|21.384|16.018\nBackgroundNoiseAugment|3.955|12.837|20.719|13.933\nMusicAugment|3.954|16.589|21.823|15.927\nSporadicNoiseAugment|3.954|11.238|19.91|13.31\nMusicAugment + BabbleAugment + BackgroundNoiseAugment + SporadicNoiseAugment|3.953|18.636|21.935|17.845\nNoisyOverlapAugment|3.954|12.829|20.856|15.048\n\n### Evaluation on data with noisy overlap augment \nAugmentation in training data|Training loss|BLEU (covost)|BLEU (epst)|BLEU (mtedx)\n---|---|---|---|---\nNone|3.954|21.245|22.24|20.994\nConcatAugment|3.940|21.611|24.247|23.068\nBabbleAugment|3.957|21.867|21.987|20.099|\nBackgroundNoiseAugment|3.955|21.533|21.806|19.717|\nMusicAugment|3.954|21.823|22.643|20.847|\nSporadicNoiseAugment|3.954|21.373|22.381|20.672|\nMusicAugment + BabbleAugment + BackgroundNoiseAugment + SporadicNoiseAugment|3.953|22.206|22.414|21.375|\nNoisyOverlapAugment|3.954|23.371|23.396|22.627|\n\n## Using transforms \nTransforms are configurable. \n\n1. Please pay careful attention to the type of transform you are applying. \n    - `concataugment` and `noisyoverlapaugment` are instances of `AudioDatasetTransform` and should be listed in the config under `dataset_transforms`.\n    - `musicaugment`, `babbleaugment`, `sporadicnoiseaugment`, and `backgroundnoiseaugment` are instances of `AudioWaveformTransform` and should be listed under `waveform_transforms`.\n    - Instances of `AudioFeatureTransform` should be listed under `feature_transforms`. \n2. Feel free to apply these augmentations in different contexts, e.g., you may use a `_train` or `_eval` flag to specify when the transform will be applied. If the dataset at hand contains `train` in its name, those transforms under the `_train` flag will be applied; else, the remaining transforms will be applied. \n\nFor example, you would add this to your config to apply the musicaugment transform to a training dataset: \n```yaml\nmusicaugment:\n  samples_path: ${MUSIC_PATH}\n  snr_min: 10 \n  snr_max: 15\n  rate: 0.25\nwaveform_transforms:\n  _train:\n  - musicaugment\n```\nor add this to apply the concataugment transform: \n```yaml\nconcataugment:\n  rate: 0.25\n  max_tokens: 3000\n  attempts: 5\ndataset_transforms:\n  _train:\n  - concataugment\n ```\nYou may also want to add multiple of one type of transform; here, we add multiple `AudioWaveformTransform`s: \n```yaml\nmusicaugment:\n  samples_path: ${MUSIC_PATH}\n  snr_min: 5 \n  snr_max: 20\n  rate: 0.25\nbackgroundnoiseaugment:\n  samples_path: ${NOISES_PATH}\n  snr_min: 10\n  snr_max: 20\n  rate: 0.1\nsporadicnoiseaugment:\n  samples_path: ${NOISES_PATH}\n  snr_min: 5\n  snr_max: 15\n  rate: 0.1\n  noise_rate: 0.25\nwaveform_transforms:\n  _train:\n  - musicaugment\n  - backgroundnoiseaugment\n  - sporadicnoiseaugment\n```\n\n## Adding your own transforms\nNote: We store transform implementations in `fairseq/data/audio/*_transforms` directories. You may refer to these as examples while implementing your own transform.\n\n### Step 1. Picking the right class for your transform\nThe integration into SpeechToTextDataset is quite different for each kind of transform, so it is important to understand which one is best suited to your purposes. \n\n**Feature transforms**\n`AudioFeatureTransform` is a base class which allows **some transform to be applied to audio spectrograms** in the data loading step. One thing to note is that the source data is either saved as `np.ndarrays` or as audio files, and is to be returned either as features (spectrogram) or waveform. If and only if the data is to be returned as a spectrogram, then `AudioFeatureTransform`s will be applied.\n\n**Waveform transforms**\n`AudioWaveformTransform` is a base class which allows some **transform to be applied to waveforms** in the data loading step. As mentioned above, there are two source and return types to data loading for this dataset. If and only if the data is saved in audio file format, then `AudioWaveformTransform`s will be applied, whichever return type is used.\n\n**Dataset transforms**\n`AudioDatasetTransform` is a base class for transforms **based on more than one item in a dataset**, ex. concatenation of two random samples in a dataset. Rather than being applied in a consistent way, i.e., to all features or to all waveforms, the integration of a dataset transform is entirely specific. Adding a dataset transform requires actually editing the `fairseq/data/audio/speech_to_text_dataset.py` file.\n\n### Step 2. Setting up your transform (generic to all types of transforms)\nNow that you know which kind of transform you would like to use, we are ready to implement it. This step is generic for all transform types, i.e., `TRANSFORM_TYPE` may be any of `feature`, `waveform`, or `dataset`. We will show how to build utterance concatenation (an `AudioDatasetTransform`) as an example. \n\nImport the base class and registration function for your transform. \n```python\nfrom fairseq.data.audio.dataset_transforms import (\n  AudioDatasetTransform,\n  register_audio_dataset_transform\n)\n```\n\nDefine the class and register the transform. The name passed into the registration function is how your transform should be named in the config.\n```python\n@register_audio_dataset_transform(\"concataugment\")\nclass ConcatAugment(AudioDatasetTransform):\n```\n\nWe are now ready to add the basic important functions to our new class. In this example, `_DEFAULTS` refers to a dictionary with the default hyperparameter values that we defined. `from_config_dict` is called to instantiate the transform given hyperparameters from the config. \n```python\n    @classmethod\n    def from_config_dict(cls, config=None):\n        _config = {} if config is None else config\n        return ConcatAugment(\n            _config.get(\"rate\", _DEFAULTS[\"rate\"]),\n            _config.get(\"max_tokens\", _DEFAULTS[\"max_tokens\"]),\n            _config.get(\"attempts\", _DEFAULTS[\"attempts\"]),\n        )\n```\nWe edit the instantiation function `__init__` to track hyperparameters and do any setup work.\n```python\n    def __init__(\n        self,\n        rate=_DEFAULTS[\"rate\"],\n        max_tokens=_DEFAULTS[\"max_tokens\"],\n        attempts=_DEFAULTS[\"attempts\"],\n    ):\n        self.rate, self.max_tokens, self.attempts = rate, max_tokens, attempts\n```\nLastly `__repr__` gives how the transform will be reported in an output log. \n```python\n    def __repr__(self):\n        return (\n            self.__class__.__name__\n            + \"(\"\n            + \", \".join(\n                [\n                    f\"rate={self.rate}\",\n                    f\"max_tokens={self.max_tokens}\",\n                    f\"attempts={self.attempts}\",\n                ]\n            )\n            + \")\"\n        )\n```\n\n### Step 3. Adding the transform logic \nAt this point, we are ready to implement the actual transform logic. The flow from here is different for each of the three transforms, so follow the path that is relevant to you.\n### ...for feature transforms\nThe final step is implementing the `__call__` function, which applies the transform logic and **returns** the spectrogram with transform applied. This supports and should take exactly **two arguments**: \n- `self`\n- `x` (np.ndarray): the spectrogram for one source sample. (This is a positional argument, so you can use another parameter name like `spectrogram` instead of `x`.)\n\nFor example, this is the `__call__` function for GlobalCMVN (cepstral mean and variance normalization). \n```python\n    def __call__(self, x):\n        x = np.subtract(x, self.mean)\n        x = np.divide(x, self.std)\n        return x\n\n```\n### ...for waveform transforms\nThe final step is implementing the `__call__` function, which applies the transform logic. This supports and should take exactly **three arguments**: \n- `self`\n- `source` (numpy.ndarray or torch.Tensor): source audio 2d waveform (channels x length)\n- `sample_rate` (optional, defaults to None): sample rate of `source`\n\n`__call__` **returns**:\n- transformed audio waveform \n- sample rate of transformed audio waveform\n\nFor example, this is the `__call__` function for augmentations in the Noise Augmentation Suite. \n```python\n    def __call__(self, source, sample_rate=None):\n        if np.random.random() > self.rate:\n            return source\n\n        noise = self._get_noise(\n            source.shape, always_2d=True, use_sample_rate=sample_rate\n        )\n        return self._mix(source, noise, rand_uniform(self.snr_min, self.snr_max)), sample_rate\n```\n\n### ...for dataset transforms\nDataset transforms are extremely flexible, and implementation involves directly integrating them into `fairseq/data/audio/speech_to_text_dataset.py` in transform-specific ways. \nThere are two basic components: (1) check whether or not this transform is part of this dataset instance using `self.dataset_transforms.has_transform(TRANSFORM_CLS)`, and (2) if so, get the transform using `self.dataset_transforms.get_transform(TRANSFORM_CLS)` & apply it.\nDue to the case-by-case specificity, it is easier to demonstrate this by examples. \n\n#### Example: NoisyOverlapAugment \nThis transform requires access to multiple items within the same batch at once. \n\n**Logic**: We still use the transform classes to keep away the transform logic. For example, `__call__` of `NoisyOverlapAugment` class takes a list of source tokens for items in a mini-batch, applies noise/utterance as dictated by the transform, and returns the list of transformed source tokens for items in the mini-batch.\n\n```python\n    def __call__(self, sources):\n        for i, source in enumerate(sources):\n            if np.random.random() > self.rate:\n                continue\n\n            pri = source.numpy()\n\n            # ... some transform code omitted \n            \n            pri[s_source : s_source + l] = np.add(\n                pri[s_source : s_source + l], np.multiply(scl, sec[s_sec : s_sec + l])\n            )\n            sources[i] = torch.from_numpy(pri).float()\n\n        return sources\n```\n\n**Integration**: The `collater` function for `SpeechToTextDataset` is responsible for preparing a mini-batch for training, so we integrate NOAug through adding a few lines to the top of this function: \n```python\ndef collater(\n    self, samples: List[SpeechToTextDatasetItem], return_order: bool = False\n) -> Dict:\n    if len(samples) == 0:\n        return {}\n    indices = torch.tensor([x.index for x in samples], dtype=torch.long)\n\n    sources = [x.source for x in samples]\n\n    # NOAUG INTEGRATION BLOCK\n    # (1) Check whether or not this transform is part of this dataset instance\n    has_NOAug = self.dataset_transforms.has_transform(NoisyOverlapAugment)\n    # (2) If so, get & apply the transform\n    if has_NOAug and self.cfg.use_audio_input:\n        NOAug = self.dataset_transforms.get_transform(NoisyOverlapAugment)\n        sources = NOAug(sources)\n\n    frames = _collate_frames(sources, self.cfg.use_audio_input)\n    # sort samples by descending number of frames\n    n_frames = torch.tensor([x.size(0) for x in sources], dtype=torch.long)\n    n_frames, order = n_frames.sort(descending=True)\n    indices = indices.index_select(0, order)\n    frames = frames.index_select(0, order)\n\n    # ... rest of function\n```\n\n#### Example: ConcatAugment\nThis transform requires access to another item within the dataset at once. \n\n**Logic**: We abstract the logic for picking indices to concatenate by adding a `find_indices` function to the `ConcatAugment` class, which takes one index in the dataset and finds a compatible second index to concatenate source and target tokens.\n```python\n    def find_indices(self, index: int, n_frames: List[int], n_samples: int):\n        # skip conditions: application rate, max_tokens limit exceeded\n        if np.random.random() > self.rate:\n            return [index]\n        if self.max_tokens and n_frames[index] > self.max_tokens:\n            return [index]\n\n        # pick second sample to concatenate\n        for _ in range(self.attempts):\n            index2 = np.random.randint(0, n_samples)\n            if index2 != index and (\n                not self.max_tokens\n                or n_frames[index] + n_frames[index2] < self.max_tokens\n            ):\n                return [index, index2]\n\n        return [index]\n```\n\n**Integration**: `SpeechToTextDataset` uses a custom `__getitem__(self, index)` function (called in the background when you write `dataset[i]`). We edited this function (as well as `_get_source_audio` and `get_tokenized_tgt_text`) to achieve the desired transform effect where accessing `dataset[i]` will return a `SpeechToTextDatasetItem` where `source=source[i]+source[j]` and `target=target[i]+target[j]`.\n```python\ndef __getitem__(self, index: int) -> SpeechToTextDatasetItem:\n    \n    # CONCATAUGMENT INTEGRATION BLOCK\n    # (1) Check whether or not this transform is part of this dataset instance\n    has_concat = self.dataset_transforms.has_transform(ConcatAugment)\n    # (2) If so, get & apply the transform\n    if has_concat:\n        concat = self.dataset_transforms.get_transform(ConcatAugment)\n        indices = concat.find_indices(index, self.n_frames, self.n_samples)\n\n    source = self._get_source_audio(indices if has_concat else index)\n    source = self.pack_frames(source)\n\n    target = None\n    if self.tgt_texts is not None:\n        tokenized = self.get_tokenized_tgt_text(indices if has_concat else index)\n        target = self.tgt_dict.encode_line(\n\n    # ... rest of function\n```\n"
  },
  {
    "path": "examples/speech_to_speech/docs/direct_s2st_discrete_units.md",
    "content": "# Direct speech-to-speech translation with discrete units\n\nWe provide the implementation for speech-to-unit translation (S2UT) proposed in \"[Direct speech-to-speech translation with discrete units (Lee et al. 2021)](https://arxiv.org/abs/2107.05604)\" and also the transformer-based implementation of the speech-to-spectrogram translation (S2SPECT, or transformer-based [Translatotron](https://arxiv.org/abs/1904.06037)) baseline in the paper.\n\n## Pretrained Models\n\n### Unit-based HiFi-GAN Vocoder\nUnit config | Unit size | Vocoder dataset | Model\n|---|---|---|---\n[HuBERT Base, Librispeech](https://github.com/fairinternal/fairseq-py/tree/main/examples/hubert), layer 6 | 100 | [LJSpeech](https://keithito.com/LJ-Speech-Dataset/) | [ckpt](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/hubert_base_100_lj/g_00500000), [config](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/hubert_base_100_lj/config.json)\n\n\n## Data preparation\n### Target speech\n0. (optional) To prepare S2S data from a speech-to-text translation (ST) dataset, see [fairseq-S^2](https://github.com/pytorch/fairseq/tree/main/examples/speech_synthesis) for pre-trained TTS models and instructions on how to train and decode TTS models.\n1. Prepare two folders, `$SRC_AUDIO` and `$TGT_AUDIO`, with `${SPLIT}/${SAMPLE_ID}.wav` for source and target speech under each folder, separately. Note that for S2UT experiments, target audio sampling rate should be in 16,000 Hz, and for S2SPECT experiments, target audio sampling rate is recommended to be in 22,050 Hz.\n2. To prepare target discrete units for S2UT model training, see [Generative Spoken Language Modeling (speech2unit)](https://github.com/pytorch/fairseq/tree/main/examples/textless_nlp/gslm/speech2unit) for pre-trained k-means models, checkpoints, and instructions on how to decode units from speech. Set the output target unit files (`--out_quantized_file_path`) as `${TGT_AUDIO}/${SPLIT}.txt`. In [Lee et al. 2021](https://arxiv.org/abs/2107.05604), we use 100 units from the sixth layer (`--layer 6`) of the HuBERT Base model.\n\n### Formatting data\n**Speech-to-speech data**\n\n_S2UT_\n  * Set `--reduce-unit` for training S2UT _reduced_ model\n  * Pre-trained vocoder and config (`$VOCODER_CKPT`, `$VOCODER_CFG`) can be downloaded from the **Pretrained Models** section. They are not required if `--eval-inference` is not going to be set during model training.\n```\n# $SPLIT1, $SPLIT2, etc. are split names such as train, dev, test, etc.\n\npython examples/speech_to_speech/preprocessing/prep_s2ut_data.py \\\n  --source-dir $SRC_AUDIO --target-dir $TGT_AUDIO --data-split $SPLIT1 $SPLIT2 \\\n  --output-root $DATA_ROOT --reduce-unit \\\n  --vocoder-checkpoint $VOCODER_CKPT --vocoder-cfg $VOCODER_CFG\n```\n\n_S2SPECT_\n```\n# $SPLIT1, $SPLIT2, etc. are split names such as train, dev, test, etc.\n\npython examples/speech_to_speech/preprocessing/prep_s2spect_data.py \\\n  --source-dir $SRC_AUDIO --target-dir $TGT_AUDIO --data-split $SPLIT1 $SPLIT2 \\\n  --output-root $DATA_ROOT\n```\n\n**Multitask data**\n  * For each multitask `$TASK_NAME`, prepare `${DATA_ROOT}/${TASK_NAME}/${SPLIT}.tsv` files for each split following the format below: (Two tab separated columns. The sample_ids should match with the sample_ids for the speech-to-speech data in `${DATA_ROOT}/${SPLIT}.tsv`.)\n```\nid  tgt_text\nsample_id_0 token1 token2 token3 ...\nsample_id_1 token1 token2 token3 ...\n...\n```\n  * For each multitask `$TASK_NAME`, prepare `${DATA_ROOT}/${TASK_NAME}/dict.txt`, a dictionary in fairseq format with all tokens for the targets for `$TASK_NAME`.\n  * Create `config_multitask.yaml`. Below is an example of the config used for S2UT _reduced_ with Fisher experiments including two encoder multitasks (`source_letter`, `target_letter`) and one decoder CTC task (`decoder_target_ctc`).\n```\nsource_letter:  # $TASK_NAME\n   decoder_type: transformer\n   dict: ${DATA_ROOT}/source_letter/dict.txt\n   data: ${DATA_ROOT}/source_letter\n   encoder_layer: 6\n   loss_weight: 8.0\ntarget_letter:\n   decoder_type: transformer\n   dict: ${DATA_ROOT}/target_letter/dict.txt\n   data: ${DATA_ROOT}/target_letter\n   encoder_layer: 8\n   loss_weight: 8.0\ndecoder_target_ctc:\n   decoder_type: ctc\n   dict: ${DATA_ROOT}/decoder_target_ctc/dict.txt\n   data: ${DATA_ROOT}/decoder_target_ctc\n   decoder_layer: 3\n   loss_weight: 1.6\n```\n\n\n## Training\n\n**Speech-to-unit translation (S2UT)**\n\nHere's an example for training Fisher S2UT models with 100 discrete units as target:\n```\nfairseq-train $DATA_ROOT \\\n  --config-yaml config.yaml --multitask-config-yaml config_multitask.yaml \\\n  --task speech_to_speech --target-is-code --target-code-size 100 --vocoder code_hifigan  \\\n  --criterion speech_to_unit --label-smoothing 0.2 \\\n  --arch s2ut_transformer_fisher --share-decoder-input-output-embed \\\n  --dropout 0.1 --attention-dropout 0.1 --relu-dropout 0.1 \\\n  --train-subset train --valid-subset dev \\\n  --save-dir ${MODEL_DIR} \\\n  --lr 0.0005 --lr-scheduler inverse_sqrt --warmup-init-lr 1e-7 --warmup-updates 10000 \\\n  --optimizer adam --adam-betas \"(0.9,0.98)\" --clip-norm 10.0 \\\n  --max-update 400000 --max-tokens 20000 --max-target-positions 3000 --update-freq 4 \\\n  --seed 1 --fp16 --num-workers 8\n```\n* Adjust `--update-freq` accordingly for different #GPUs. In the above we set `--update-freq 4` to simulate training with 4 GPUs.\n* Set `--n-frames-per-step 5` to train an S2UT _stacked_ system with reduction ratio r=5. (Use `$DATA_ROOT` prepared without `--reduce-unit`.)\n* (optional) one can turn on tracking MCD loss during training for checkpoint selection by setting `--eval-inference --eval-args '{\"beam\": 1, \"max_len_a\": 1}' --best-checkpoint-metric mcd_loss`. It is recommended to sample a smaller subset as the validation set as MCD loss computation is time-consuming.\n\n**Speech-to-spectrogram translation (S2SPECT)**\n\nHere's an example for training Fisher S2SPECT models with reduction ratio r=5:\n```\nfairseq-train $DATA_ROOT \\\n  --config-yaml config.yaml --multitask-config-yaml config_multitask.yaml \\\n  --task speech_to_speech --n-frames-per-step 5 \\\n  --criterion speech_to_spectrogram \\\n  --arch s2spect_transformer_fisher --decoder-normalize-before \\\n  --dropout 0.1 --attention-dropout 0.1 --relu-dropout 0.1 \\\n  --train-subset train --valid-subset dev \\\n  --save-dir ${MODEL_DIR} \\\n  --eval-inference --best-checkpoint-metric mcd_loss \\\n  --lr 0.0005 --lr-scheduler inverse_sqrt --warmup-init-lr 1e-7 --warmup-updates 10000 \\\n  --optimizer adam --adam-betas \"(0.9,0.98)\" --clip-norm 10.0 --weight-decay 1e-6 \\\n  --max-update 400000 --max-tokens 80000 --max-tokens-valid 30000  --required-batch-size-multiple 1 \\\n  --max-target-positions 3000 --update-freq 16 \\\n  --seed 1 --fp16 --num-workers 8\n```\n* Adjust `--update-freq` accordingly for different #GPUs. In the above we set `--update-freq 16` to simulate training with 16 GPUs.\n* We recommend turning on MCD loss during training for the best checkpoint selection.\n\n**Unit-based HiFi-GAN vocoder**\n\nThe vocoder is trained with the [speech-resynthesis repo](https://github.com/facebookresearch/speech-resynthesis). See [here](https://github.com/facebookresearch/speech-resynthesis/tree/main/examples/speech_to_speech_translation) for instructions on how to train the unit-based HiFi-GAN vocoder with duration prediction. The same vocoder can support waveform generation for both _reduced_ unit sequences (with `--dur-prediction` set during inference) and original unit sequences.\n\n## Inference\n\n**Speech-to-unit translation (S2UT)**\n\n1. Follow the same inference process as in [fairseq-S2T](https://github.com/pytorch/fairseq/tree/main/examples/speech_to_text) to generate unit sequences (`${RESULTS_PATH}/generate-${GEN_SUBSET}.txt`).\n```\nfairseq-generate $DATA_ROOT \\\n  --config-yaml config.yaml --multitask-config-yaml config_multitask.yaml \\\n  --task speech_to_speech --target-is-code --target-code-size 100 --vocoder code_hifigan \\\n  --path $MODEL_DIR/checkpoint_best.pt  --gen-subset $GEN_SUBSET \\\n  --max-tokens 50000 \\\n  --beam 10 --max-len-a 1 \\\n  --results-path ${RESULTS_PATH}\n```\n  * Set `--beam 1 --n-frames-per-step $r` for decoding with S2UT _stacked_ models.\n\n2. Convert unit sequences to waveform.\n```\ngrep \"^D\\-\" ${RESULTS_PATH}/generate-${GEN_SUBSET}.txt | \\\n  sed 's/^D-//ig' | sort -nk1 | cut -f3 \\\n  > ${RESULTS_PATH}/generate-${GEN_SUBSET}.unit\n\npython examples/speech_to_speech/generate_waveform_from_code.py \\\n  --in-code-file ${RESULTS_PATH}/generate-${GEN_SUBSET}.unit \\\n  --vocoder $VOCODER_CKPT --vocoder-cfg $VOCODER_CFG \\\n  --results-path ${RESULTS_PATH} --dur-prediction\n```\n * Set `--dur-prediction` for generating audio for S2UT _reduced_ models.\n\n\n**Speech-to-spectrogram translation (S2SPECT)**\n\nFollow the same inference process as in [fairseq-S^2](https://github.com/pytorch/fairseq/tree/main/examples/speech_synthesis) to generate waveform.\n\n```\n# assume using a default Griffin-Lim vocoder\n\npython examples/speech_synthesis/generate_waveform.py $DATA_ROOT \\\n  --config-yaml config.yaml --multitask-config-yaml config_multitask.yaml \\\n  --task speech_to_speech --n-frames-per-step 5 \\\n  --path $MODEL_DIR/checkpoint_best.pt  --gen-subset $GEN_SUBSET \\\n  --max-tokens 50000 \\\n  --results-path ${RESULTS_PATH} --dump-waveforms --output-sample-rate 16000\n```\n\nIn addition to using the default Griffin-Lim vocoder, one can also finetune a HiFi-GAN vocoder for the S2SPECT model by following the instructions in the [HiFi-GAN repo](https://github.com/jik876/hifi-gan).\n\n**Multitask decoding**\n\nComing soon.\n\n## Evaluation\n\nTo evaluate speech translation output, we first apply ASR on the speech output and then compute BLEU score betweent the ASR decoded text and the references using sacreBLEU.\n\n**En**\n* ASR: We use the \"[Wav2Vec 2.0 Large (LV-60) + Self Training / 960 hours / Libri-Light + Librispeech](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_vox_960h_pl.pt)\" En ASR model open-sourced by the [wav2vec](https://github.com/pytorch/fairseq/tree/main/examples/wav2vec) project. See [instructions](https://github.com/pytorch/fairseq/tree/main/examples/wav2vec#evaluating-a-ctc-model) on how to run inference with a wav2vec-based ASR model. The model is also available on [Hugging Face](https://huggingface.co/facebook/wav2vec2-large-960h-lv60-self).\n* Text normalization: We use the text cleaner at [https://github.com/keithito/tacotron](https://github.com/keithito/tacotron) for pre-processing reference English text for ASR BLEU evaluation.\n"
  },
  {
    "path": "examples/speech_to_speech/docs/enhanced_direct_s2st_discrete_units.md",
    "content": "# Speech to speech translation (S2ST)\n\nWe provide the implementation for speech-to-unit translation (S2UT) proposed in [Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation (Popuri et al. 2022)](https://arxiv.org/abs/2204.02967) and the various pretrained models used.\n\n## Pretrained Models\n\n### Unit extraction\n\nWe used the multilingual HuBERT model open sourced in [Textless S2ST with Real Data](textless_s2st_real_data.md)\n\n### Wav2vec 2.0\n\nLanguage | Block type | Model size | Dataset | Model |\n--- | --- | --- | --- | --- |\nEs | Transformer | BASE | Voxpopuli | [ckpt](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/w2v2/es/transformer_B.pt) |\nEs | Transformer | LARGE | Voxpopuli | [ckpt](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/w2v2/es/transformer_L.pt) |\nEs | Conformer | LARGE | Voxpopuli | [ckpt](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/w2v2/es/conformer_L.pt) |\nEn | Transformer | BASE | Librilight| [ckpt](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/w2v2/en/transformer_B.pt) |\nEn | Conformer | LARGE | Librilight | [ckpt](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/w2v2/en/conformer_L.pt) |\n\n### Unit mBART\n\nUnit size | Dataset | Unit config | Model |\n--- | --- | --- | --- |\n1000 | [Voxpopuli](https://aclanthology.org/2021.acl-long.80) En, Es unlabelled speech  | [mbart_large](https://github.com/pytorch/fairseq/blob/f591cc94caa85098ccf125a4782f91125b6a086d/fairseq/models/bart/model.py#L368) |[ckpt](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/unit_mBART/checkpoint.pt) |\n\n## Data preparation\n\n1. To prepare data for S2UT finetuning, follow the steps from [Direct S2ST with Discrete Units](./direct_s2st_discrete_units.md) and format the data in the _S2UT_ format. Note that we use 1000 units from the eleventh layer (`--layer 11`) of the multilingual hubert model linked above instead\n2. Run\n\n```\nvar=\"id\\taudio\\tn_frames\\ttgt_text\\ttgt_n_frames\"\nsed -i \"1s/.*/$var/\" ${SPLIT}.tsv\n```\n\n## Training\n\n**Speech-to-unit translation (S2UT)**\n\nHere's an example for finetuning S2UT models with 1000 discrete units as target. You can download the sample [config](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/config.yaml) file and [vocabulary](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/dict.txt) for Es-En from here:\n\n```\nfairseq-train $DATA_ROOT \\\n  --config-yaml config.yaml  \\\n  --task speech_to_text --arch xm_transformer\\\n  --criterion l --label-smoothing 0.2 \\\n  --share-decoder-input-output-embed --adaptor-n-layers 1 --normalize\\\n  --dropout 0.1 --attention-dropout 0.1 --relu-dropout 0.1 \\\n  --train-subset train --valid-subset dev \\\n  --load-pretrained-decoder-from ${unit_mBART} --w2v-path ${wav2vec2.0} \\\n  --mask-prob 0.3 --mask-channel-length 32 --mask-channel-prob 0.25\\\n  --save-dir ${MODEL_DIR} --checkpoint-activations --encoder-proj \\\n  --lr 0.0005 --dropout 0.1 --attention-dropout 0.1 --lr-scheduler inverse_sqrt\\\n  --warmup-init-lr 1e-7 --warmup-updates 10000 \\\n  --optimizer adam --adam-betas \"(0.9,0.98)\" --clip-norm 10.0 \\\n  --max-update 20000 --max-tokens 4000 --max-tokens-valid 4000 --max-source-positions 4000 \\\n  --max-target-positions 4000 --update-freq 120 \\\n  --seed 1 --fp16 --num-workers 1\n```\n\n* Adjust `--update-freq` accordingly for different #GPUs. In the above we set `--update-freq 15` to simulate training with 120 GPUs.\n* In the above setting we finetune the model end to end, corresponding to the full setup in the paper.\n* To apply LNA-E partial finetuning, add `--finetune-w2v-params layer_norm,self_attn`\n* For LNA-D partial finetuning add `--finetune-decoder-params encoder_attn,layer_norm,self_attn`. To optionally freeze the encoder by k updates, use `--freeze-finetune-updates ${K}`\n* For LNA-E,D partial finetuning add both the above options.\n\n**Unit-based HiFi-GAN vocoder**\n\nWe apply the open-sourced unit-based HiFi-GAN vocoders to convert the predicted unit sequences to waveform. They are open sourced in [Textless S2ST with Real Data](textless_s2st_real_data.md)\n\n## Inference\n\n**Speech-to-unit translation (S2UT)**\n\n1. Follow the same inference process as in [fairseq-S2T](https://github.com/pytorch/fairseq/tree/main/examples/speech_to_text) to generate unit sequences (`${RESULTS_PATH}/generate-${GEN_SUBSET}.txt`).\n\n```\nfairseq-generate $DATA_ROOT \\\n  --config-yaml config.yaml \\\n  --task speech_to_text  \\\n  --path $MODEL_DIR/checkpoint_best.pt  --gen-subset $GEN_SUBSET \\\n  --max-tokens 10000 --max-source-positions 10000 --max-target-positions 10000\\\n  --beam 10 --max-len-a 1 --max-len-b 200 \\\n  --results-path ${RESULTS_PATH}\n```\n\n2. Convert unit sequences to waveform.\n\n```\ngrep \"^D\\-\" ${RESULTS_PATH}/generate-${GEN_SUBSET}.txt | \\\n  sed 's/^D-//ig' | sort -nk1 | cut -f3 \\\n  > ${RESULTS_PATH}/generate-${GEN_SUBSET}.unit\n\npython examples/speech_to_speech/generate_waveform_from_code.py \\\n  --in-code-file ${RESULTS_PATH}/generate-${GEN_SUBSET}.unit \\\n  --vocoder $VOCODER_CKPT --vocoder-cfg $VOCODER_CFG \\\n  --results-path ${RESULTS_PATH} --dur-prediction\n```\n\n## Evaluation\n\nTo evaluate speech translation output, we first apply ASR on the speech output and then compute BLEU score betweent the ASR decoded text and the references using sacreBLEU.\n\n* Text normalization: We use the text cleaner at [https://github.com/keithito/tacotron](https://github.com/keithito/tacotron) for pre-processing reference English text for ASR BLEU evaluation. The text cleaner used for Spanish text normalization will be updated here shortly.\n* En ASR: We use the \"[Wav2Vec 2.0 Large (LV-60) + Self Training / 960 hours / Libri-Light + Librispeech](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_vox_960h_pl.pt)\" En ASR model open-sourced by the [wav2vec](https://github.com/pytorch/fairseq/tree/main/examples/wav2vec) project. The model is also available on [Hugging Face](https://huggingface.co/facebook/wav2vec2-large-960h-lv60-self).\n* Es ASR: We use the [Wav2Vec2-Large-XLSR-53-Spanish](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) finetuned on spanish Common Voice Es ASR model open-sourced by Jonatasgrosman(<https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-spanish>) on [Hugging Face](https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-spanish).\n* See [instructions](https://github.com/pytorch/fairseq/tree/main/examples/wav2vec#evaluating-a-ctc-model) on how to run inference with a wav2vec-based ASR model.\n\n\n## Finetuned Model Checkpoints\n\nID | En - Es | Es - En |\n| --- | --- | --- |\n**S2UT systems without pre-training**\nS2UT with multitask | [checkpoint](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/en_es//S2UT_w_multitask.pt) | [checkpoint](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/es_en//S2UT_w_multitask.pt) |\n**S2UT systems with model pre-training**\nw2v2-L | [checkpoint](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/en_es//w2v2_only.pt ) | [checkpoint](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/es_en//w2v2_only.pt) |\nw2v2-L + mBART (LNA-E) | [checkpoint](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/en_es//w2v2_mbart_LNE.pt) | [checkpoint](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/es_en//w2v2_mbart_LNE.pt) |\nw2v2-L + mBART (LNA-D) | [checkpoint](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/en_es//w2v2_mbart_LND.pt) | [checkpoint](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/es_en//w2v2_mbart_LND.pt) |\nw2v2-L + mBART (LNA-E,D) | [checkpoint](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/en_es//w2v2_mbart_LNED.pt) | [checkpoint](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/es_en//w2v2_mbart_LNED.pt) |\n**S2UT systems with model pre-training and data augmentation**\nw2v2-L + mBART (LNA-D) | [checkpoint](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/en_es//w2v2_mbart_LND_w_ASR.pt) | [checkpoint](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/s2st_finetuning/es_en//w2v2_mbart_LND_w_ASR.pt) |\n\nNote: Some of the tasks use speech_to_text_sharded task which is yet to be open sourced. So make sure to override the task to speech_to_text to use those models.\n"
  },
  {
    "path": "examples/speech_to_speech/docs/textless_s2st_real_data.md",
    "content": "# Textless Speech-to-Speech Translation (S2ST) on Real Data\n\nWe provide instructions and pre-trained models for the work \"[Textless Speech-to-Speech Translation on Real Data (Lee et al. 2021)](https://arxiv.org/abs/2112.08352)\".\n\n## Pre-trained Models\n\n### HuBERT\nModel | Pretraining Data | Model | Quantizer\n|---|---|---|---\nmHuBERT Base | [VoxPopuli](https://github.com/facebookresearch/voxpopuli) En, Es, Fr speech from the 100k subset | [download](https://dl.fbaipublicfiles.com/hubert/mhubert_base_vp_en_es_fr_it3.pt) | [L11 km1000](https://dl.fbaipublicfiles.com/hubert/mhubert_base_vp_en_es_fr_it3_L11_km1000.bin)\n\n\n### Unit-based HiFi-GAN vocoder\nUnit config | Unit size | Vocoder language | Dataset | Model\n|---|---|---|---|---\nmHuBERT, layer 11 | 1000 | En | [LJSpeech](https://keithito.com/LJ-Speech-Dataset/) | [ckpt](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_lj/g_00500000), [config](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_lj/config.json)\nmHuBERT, layer 11 | 1000 | Es | [CSS10](https://github.com/Kyubyong/css10) | [ckpt](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_es_css10/g_00500000), [config](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_es_css10/config.json)\nmHuBERT, layer 11 | 1000 | Fr | [CSS10](https://github.com/Kyubyong/css10) | [ckpt](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_fr_css10/g_00500000), [config](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_fr_css10/config.json)\n\n\n### Speech normalizer\nLanguage | Training data | Target unit config | Model\n|---|---|---|---\nEn | 10 mins | mHuBERT, layer 11, km1000 | [download](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/speech_normalizer/en/en_10min.tar.gz)\nEn | 1 hr | mHuBERT, layer 11, km1000 | [download](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/speech_normalizer/en/en_1h.tar.gz)\nEn | 10 hrs | mHuBERT, layer 11, km1000 | [download](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/speech_normalizer/en/en_10h.tar.gz)\nEs | 10 mins | mHuBERT, layer 11, km1000 | [download](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/speech_normalizer/es/es_10min.tar.gz)\nEs | 1 hr | mHuBERT, layer 11, km1000 | [download](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/speech_normalizer/es/es_1h.tar.gz)\nEs | 10 hrs | mHuBERT, layer 11, km1000 | [download](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/speech_normalizer/es/es_10h.tar.gz)\nFr | 10 mins | mHuBERT, layer 11, km1000 | [download](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/speech_normalizer/fr/fr_10min.tar.gz)\nFr | 1 hr | mHuBERT, layer 11, km1000 | [download](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/speech_normalizer/fr/fr_1h.tar.gz)\nFr | 10 hrs | mHuBERT, layer 11, km1000 | [download](https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/speech_normalizer/fr/fr_10h.tar.gz)\n\n* Refer to the paper for the details of the training data.\n\n## Inference with Pre-trained Models\n\n### Speech normalizer\n1. Download the pre-trained models, including the dictionary, to `DATA_DIR`.\n2. Format the audio data.\n```bash\n# AUDIO_EXT: audio extension, e.g. wav, flac, etc.\n# Assume all audio files are at ${AUDIO_DIR}/*.${AUDIO_EXT}\n\npython examples/speech_to_speech/preprocessing/prep_sn_data.py \\\n  --audio-dir ${AUDIO_DIR} --ext ${AUIDO_EXT} \\\n  --data-name ${GEN_SUBSET} --output-dir ${DATA_DIR} \\\n  --for-inference\n```\n\n3. Run the speech normalizer and post-process the output.\n```bash\nmkdir -p ${RESULTS_PATH}\n\npython examples/speech_recognition/new/infer.py \\\n    --config-dir examples/hubert/config/decode/ \\\n    --config-name infer_viterbi \\\n    task.data=${DATA_DIR} \\\n    task.normalize=false \\\n    common_eval.results_path=${RESULTS_PATH}/log \\\n    common_eval.path=${DATA_DIR}/checkpoint_best.pt \\\n    dataset.gen_subset=${GEN_SUBSET} \\\n    '+task.labels=[\"unit\"]' \\\n    +decoding.results_path=${RESULTS_PATH} \\\n    common_eval.post_process=none \\\n    +dataset.batch_size=1 \\\n    common_eval.quiet=True\n\n# Post-process and generate output at ${RESULTS_PATH}/${GEN_SUBSET}.txt\npython examples/speech_to_speech/preprocessing/prep_sn_output_data.py \\\n  --in-unit ${RESULTS_PATH}/hypo.units \\\n  --in-audio ${DATA_DIR}/${GEN_SUBSET}.tsv \\\n  --output-root ${RESULTS_PATH}\n```\n\n\n### Unit-to-waveform conversion with unit vocoder\nThe pre-trained vocoders can support generating audio for both full unit sequences and reduced unit sequences (i.e. duplicating consecutive units removed). Set `--dur-prediction` for generating audio with reduced unit sequences.\n```bash\n# IN_CODE_FILE contains one unit sequence per line. Units are separated by space.\n\npython examples/speech_to_speech/generate_waveform_from_code.py \\\n  --in-code-file ${IN_CODE_FILE} \\\n  --vocoder ${VOCODER_CKPT} --vocoder-cfg ${VOCODER_CFG} \\\n  --results-path ${RESULTS_PATH} --dur-prediction\n```\n\n## Training new models\nTo be updated.\n"
  },
  {
    "path": "examples/speech_to_speech/generate_waveform_from_code.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport json\nimport logging\nfrom pathlib import Path\nimport random\nimport soundfile as sf\nimport torch\n\nfrom tqdm import tqdm\n\nfrom fairseq import utils\nfrom fairseq.models.text_to_speech.vocoder import CodeHiFiGANVocoder\n\n\nlogging.basicConfig()\nlogging.root.setLevel(logging.INFO)\nlogging.basicConfig(level=logging.INFO)\nlogger = logging.getLogger(__name__)\n\n\ndef dump_result(args, sample_id, pred_wav, suffix=\"\"):\n    sf.write(\n        f\"{args.results_path}/{sample_id}{suffix}_pred.wav\",\n        pred_wav.detach().cpu().numpy(),\n        16000,\n    )\n\n\ndef load_code(in_file):\n    with open(in_file) as f:\n        out = [list(map(int, line.strip().split())) for line in f]\n    return out\n\n\ndef main(args):\n    logger.info(args)\n\n    use_cuda = torch.cuda.is_available() and not args.cpu\n\n    with open(args.vocoder_cfg) as f:\n        vocoder_cfg = json.load(f)\n    vocoder = CodeHiFiGANVocoder(args.vocoder, vocoder_cfg)\n    if use_cuda:\n        vocoder = vocoder.cuda()\n\n    multispkr = vocoder.model.multispkr\n    if multispkr:\n        logger.info(\"multi-speaker vocoder\")\n        num_speakers = vocoder_cfg.get(\n            \"num_speakers\", 200\n        )  # following the default in codehifigan to set to 200\n        assert (\n            args.speaker_id < num_speakers\n        ), f\"invalid --speaker-id ({args.speaker_id}) with total #speakers = {num_speakers}\"\n\n    data = load_code(args.in_code_file)\n    Path(args.results_path).mkdir(exist_ok=True, parents=True)\n    for i, d in tqdm(enumerate(data), total=len(data)):\n        x = {\n            \"code\": torch.LongTensor(d).view(1, -1),\n        }\n        suffix = \"\"\n        if multispkr:\n            spk = (\n                random.randint(0, num_speakers - 1)\n                if args.speaker_id == -1\n                else args.speaker_id\n            )\n            suffix = f\"_spk{spk}\"\n            x[\"spkr\"] = torch.LongTensor([spk]).view(1, 1)\n\n        x = utils.move_to_cuda(x) if use_cuda else x\n        wav = vocoder(x, args.dur_prediction)\n        dump_result(args, i, wav, suffix=suffix)\n\n\ndef cli_main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--in-code-file\", type=str, required=True, help=\"one unit sequence per line\"\n    )\n    parser.add_argument(\n        \"--vocoder\", type=str, required=True, help=\"path to the CodeHiFiGAN vocoder\"\n    )\n    parser.add_argument(\n        \"--vocoder-cfg\",\n        type=str,\n        required=True,\n        help=\"path to the CodeHiFiGAN vocoder config\",\n    )\n    parser.add_argument(\"--results-path\", type=str, required=True)\n    parser.add_argument(\n        \"--dur-prediction\",\n        action=\"store_true\",\n        help=\"enable duration prediction (for reduced/unique code sequences)\",\n    )\n    parser.add_argument(\n        \"--speaker-id\",\n        type=int,\n        default=-1,\n        help=\"Speaker id (for vocoder that supports multispeaker). Set to -1 to randomly sample speakers.\",\n    )\n    parser.add_argument(\"--cpu\", action=\"store_true\", help=\"run on CPU\")\n\n    args = parser.parse_args()\n\n    main(args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/speech_to_speech/preprocessing/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n"
  },
  {
    "path": "examples/speech_to_speech/preprocessing/data_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom pathlib import Path\nfrom typing import List, Optional\n\nfrom examples.speech_to_text.data_utils import S2TDataConfigWriter\n\n\ndef gen_config_yaml(\n    manifest_root: Path,\n    yaml_filename: str = \"config.yaml\",\n    specaugment_policy: Optional[str] = \"lb\",\n    feature_transform: Optional[List[str]] = None,\n    input_channels: Optional[int] = 1,\n    input_feat_per_channel: Optional[int] = 80,\n    audio_root: str = \"\",\n    vocoder_type: Optional[str] = None,\n    vocoder_checkpoint: Optional[str] = None,\n    vocoder_cfg: Optional[str] = None,\n    extra=None,\n):\n    manifest_root = manifest_root.absolute()\n    writer = S2TDataConfigWriter(manifest_root / yaml_filename)\n\n    if input_channels is not None:\n        writer.set_input_channels(input_channels)\n    if input_feat_per_channel is not None:\n        writer.set_input_feat_per_channel(input_feat_per_channel)\n    specaugment_setters = {\n        \"lb\": writer.set_specaugment_lb_policy,\n        \"ld\": writer.set_specaugment_ld_policy,\n        \"sm\": writer.set_specaugment_sm_policy,\n        \"ss\": writer.set_specaugment_ss_policy,\n    }\n    specaugment_setter = specaugment_setters.get(specaugment_policy, None)\n    if specaugment_setter is not None:\n        specaugment_setter()\n\n    if feature_transform is None:\n        feature_transform = []\n    else:\n        writer.set_feature_transforms(\"*\", feature_transform)\n\n    if specaugment_policy is not None:\n        writer.set_feature_transforms(\"_train\", feature_transform + [\"specaugment\"])\n\n    if len(audio_root) > 0:\n        writer.set_audio_root(audio_root)\n\n    if (\n        vocoder_type is not None\n        and vocoder_checkpoint is not None\n        and vocoder_cfg is not None\n    ):\n        writer.set_extra(\n            {\n                \"vocoder\": {\n                    \"type\": vocoder_type,\n                    \"config\": vocoder_cfg,\n                    \"checkpoint\": vocoder_checkpoint,\n                }\n            }\n        )\n\n    if extra is not None:\n        writer.set_extra(extra)\n    writer.flush()\n\n\ndef load_units(in_file):\n    out = {}\n    with open(in_file) as f:\n        for line in f:\n            sample_id, units = line.strip().split(\"|\", 1)\n            out[sample_id] = units.split()\n\n    return out\n\n\ndef process_units(units, reduce=False):\n    if not reduce:\n        return units\n\n    out = [u for i, u in enumerate(units) if i == 0 or u != units[i - 1]]\n    return out\n"
  },
  {
    "path": "examples/speech_to_speech/preprocessing/prep_s2spect_data.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nimport os\nfrom pathlib import Path\nimport shutil\nimport torchaudio\n\nimport soundfile as sf\nfrom tqdm import tqdm\nimport pandas as pd\n\nfrom examples.speech_synthesis.data_utils import extract_logmel_spectrogram\nfrom examples.speech_to_speech.preprocessing.data_utils import gen_config_yaml\nfrom examples.speech_to_text.data_utils import create_zip, get_zip_manifest, save_df_to_tsv\nfrom fairseq.data.audio.audio_utils import convert_waveform\n\n\nlogger = logging.getLogger(__name__)\n\nMANIFEST_COLUMNS = [\"id\", \"src_audio\", \"src_n_frames\", \"tgt_audio\", \"tgt_n_frames\"]\n\n\ndef prepare_target_data(args, tgt_audios):\n    feature_name = \"logmelspec80\"\n    zip_path = args.output_root / f\"{feature_name}.zip\"\n    if zip_path.exists():\n        print(f\"{zip_path} exists.\")\n        return zip_path\n\n    feature_root = args.output_root / feature_name\n    feature_root.mkdir(exist_ok=True)\n\n    print(\"Extracting Mel spectrogram features...\")\n    for tgt_audio in tqdm(tgt_audios):\n        sample_id = tgt_audio.stem\n        waveform, sample_rate = torchaudio.load(tgt_audio.as_posix())\n        waveform, sample_rate = convert_waveform(\n            waveform, sample_rate, normalize_volume=args.normalize_volume,\n            to_sample_rate=args.sample_rate\n        )\n        extract_logmel_spectrogram(\n            waveform, sample_rate, feature_root / f\"{sample_id}.npy\",\n            win_length=args.win_length, hop_length=args.hop_length,\n            n_fft=args.n_fft, n_mels=args.n_mels, f_min=args.f_min,\n            f_max=args.f_max\n        )\n    print(\"ZIPing features...\")\n    create_zip(feature_root, zip_path)\n    shutil.rmtree(feature_root)\n\n    return zip_path\n\n\ndef process(args):\n    os.makedirs(args.output_root, exist_ok=True)\n\n    manifest = {}\n    tgt_audios = []\n    for split in args.data_split:\n        print(f\"Processing {split}...\")\n\n        manifest[split] = {c: [] for c in MANIFEST_COLUMNS}\n        missing_tgt_audios = []\n        src_audios = list(args.source_dir.glob(f\"{split}/*.wav\"))\n        for src_audio in tqdm(src_audios):\n            sample_id = src_audio.stem\n\n            tgt_audio = args.target_dir / split / f\"{sample_id}.wav\"\n            if not tgt_audio.is_file():\n                missing_tgt_audios.append(sample_id)\n                continue\n\n            tgt_audios.append(tgt_audio)\n\n            src_n_frames = sf.info(src_audio.as_posix()).frames\n            manifest[split][\"id\"].append(sample_id)\n            manifest[split][\"src_audio\"].append(src_audio.as_posix())\n            manifest[split][\"src_n_frames\"].append(\n                src_n_frames // 160\n            )  # estimation of 10-ms frame for 16kHz audio\n\n        print(f\"Processed {len(manifest[split]['id'])} samples\")\n        if len(missing_tgt_audios) > 0:\n            print(\n                f\"{len(missing_tgt_audios)} with missing target data (first 3 examples: {', '.join(missing_tgt_audios[:3])})\"\n            )\n\n    # Extract features and pack features into ZIP\n    zip_path = prepare_target_data(args, tgt_audios)\n\n    print(\"Fetching ZIP manifest...\")\n    tgt_audio_paths, tgt_audio_lengths = get_zip_manifest(zip_path)\n\n    print(\"Generating manifest...\")\n    for split in args.data_split:\n        print(f\"Processing {split}...\")\n\n        for sample_id in tqdm(manifest[split][\"id\"]):\n            manifest[split][\"tgt_audio\"].append(tgt_audio_paths[sample_id])\n            manifest[split][\"tgt_n_frames\"].append(tgt_audio_lengths[sample_id])\n\n        out_manifest = args.output_root / f\"{split}.tsv\"\n        print(f\"Writing manifest to {out_manifest}...\")\n        save_df_to_tsv(pd.DataFrame.from_dict(manifest[split]), out_manifest)\n\n    # Generate config YAML\n    win_len_t = args.win_length / args.sample_rate\n    hop_len_t = args.hop_length / args.sample_rate\n    extra = {\n        \"features\": {\n            \"type\": \"spectrogram+melscale+log\",\n            \"sample_rate\": args.sample_rate,\n            \"eps\": 1e-5, \"n_mels\": args.n_mels, \"n_fft\": args.n_fft,\n            \"window_fn\": \"hann\", \"win_length\": args.win_length,\n            \"hop_length\": args.hop_length,\n            \"win_len_t\": win_len_t, \"hop_len_t\": hop_len_t,\n            \"f_min\": args.f_min, \"f_max\": args.f_max,\n            \"n_stft\": args.n_fft // 2 + 1\n        }\n    }\n    gen_config_yaml(\n        args.output_root,\n        audio_root=args.output_root.as_posix(),\n        specaugment_policy=\"lb\",\n        feature_transform=[\"utterance_cmvn\", \"delta_deltas\"],\n        extra=extra,\n    )\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--source-dir\", required=True, type=Path, help=\"source audio directory\"\n    )\n    parser.add_argument(\n        \"--target-dir\", required=True, type=Path, help=\"target audio directory\"\n    )\n    parser.add_argument(\n        \"--data-split\",\n        default=[\"train\", \"valid\", \"test\"],\n        nargs=\"+\",\n        help=\"data split names\",\n    )\n    parser.add_argument(\n        \"--output-root\", required=True, type=Path, help=\"output directory\"\n    )\n    # target feature related\n    parser.add_argument(\"--win-length\", type=int, default=1024)\n    parser.add_argument(\"--hop-length\", type=int, default=256)\n    parser.add_argument(\"--n-fft\", type=int, default=1024)\n    parser.add_argument(\"--n-mels\", type=int, default=80)\n    parser.add_argument(\"--f-min\", type=int, default=20)\n    parser.add_argument(\"--f-max\", type=int, default=8000)\n    parser.add_argument(\"--sample-rate\", type=int, default=22050)\n    parser.add_argument(\"--normalize-volume\", \"-n\", action=\"store_true\")\n\n    args = parser.parse_args()\n\n    process(args)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_to_speech/preprocessing/prep_s2ut_data.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nfrom pathlib import Path\n\nimport soundfile as sf\nfrom tqdm import tqdm\nimport pandas as pd\n\nfrom examples.speech_to_speech.preprocessing.data_utils import (\n    gen_config_yaml,\n    load_units,\n    process_units,\n)\nfrom examples.speech_to_text.data_utils import save_df_to_tsv\n\nlogger = logging.getLogger(__name__)\n\nMANIFEST_COLUMNS = [\"id\", \"src_audio\", \"src_n_frames\", \"tgt_audio\", \"tgt_n_frames\"]\n\n\ndef process(args):\n    args.output_root.mkdir(exist_ok=True)\n\n    print(\"Generating manifest...\")\n    for split in args.data_split:\n        print(f\"Processing {split}\")\n\n        # load target units\n        target_unit_data = load_units(args.target_dir / f\"{split}.txt\")\n\n        manifest = {c: [] for c in MANIFEST_COLUMNS}\n        missing_tgt_audios = []\n        src_audios = list(args.source_dir.glob(f\"{split}/*.wav\"))\n        for src_audio in tqdm(src_audios):\n            sample_id = src_audio.stem\n\n            if sample_id not in target_unit_data:\n                missing_tgt_audios.append(sample_id)\n                continue\n\n            src_n_frames = sf.info(src_audio.as_posix()).frames\n            manifest[\"id\"].append(sample_id)\n            manifest[\"src_audio\"].append(src_audio.as_posix())\n            manifest[\"src_n_frames\"].append(\n                src_n_frames // 160\n            )  # estimation of 10-ms frame for 16kHz audio\n\n            target_units = process_units(target_unit_data[sample_id], args.reduce_unit)\n            manifest[\"tgt_audio\"].append(\" \".join(target_units))\n            manifest[\"tgt_n_frames\"].append(len(target_units))\n\n        print(f\"Processed {len(manifest['id'])} samples\")\n        if len(missing_tgt_audios) > 0:\n            print(\n                f\"{len(missing_tgt_audios)} with missing target data (first 3 examples: {', '.join(missing_tgt_audios[:3])})\"\n            )\n\n        out_manifest = args.output_root / f\"{split}.tsv\"\n        print(f\"Writing manifest to {out_manifest}...\")\n        save_df_to_tsv(pd.DataFrame.from_dict(manifest), out_manifest)\n\n    # Generate config YAML\n    gen_config_yaml(\n        args.output_root,\n        specaugment_policy=\"lb\",\n        feature_transform=[\"utterance_cmvn\"],\n        vocoder_type=\"code_hifigan\",\n        vocoder_checkpoint=args.vocoder_checkpoint,\n        vocoder_cfg=args.vocoder_cfg,\n    )\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--source-dir\", required=True, type=Path, help=\"source audio directory\"\n    )\n    parser.add_argument(\n        \"--target-dir\", required=True, type=Path, help=\"target audio directory\"\n    )\n    parser.add_argument(\n        \"--data-split\",\n        default=[\"train\", \"valid\", \"test\"],\n        nargs=\"+\",\n        help=\"data split names\",\n    )\n    parser.add_argument(\n        \"--output-root\", required=True, type=Path, help=\"output directory\"\n    )\n    parser.add_argument(\n        \"--reduce-unit\",\n        action=\"store_true\",\n        help=\"reduce a target unit sequence to a unique unit sequence, i.e. '1 1 1 2 2' -> '1 2'\",\n    )\n    parser.add_argument(\n        \"--vocoder-checkpoint\", default=None, type=str, help=\"vocoder checkpoint\"\n    )\n    parser.add_argument(\n        \"--vocoder-cfg\", default=None, type=str, help=\"vocoder config file\"\n    )\n\n    args = parser.parse_args()\n\n    process(args)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_to_speech/preprocessing/prep_sn_data.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n#\n# Adapted from examples/wav2vec/wav2vec_manifest.py\n\"\"\"\nData preparation for the speech normalizer\n\"\"\"\n\nimport argparse\nimport glob\nimport os\n\nimport soundfile\n\nfrom examples.speech_to_speech.preprocessing.data_utils import load_units, process_units\n\n\ndef process(args):\n    assert (\n        args.for_inference or args.target_unit is not None\n    ), \"missing --target-unit or --for-inference\"\n\n    if not os.path.exists(args.output_dir):\n        os.makedirs(args.output_dir)\n\n    dir_path = os.path.realpath(args.audio_dir)\n    search_path = os.path.join(dir_path, \"**/*.\" + args.ext)\n\n    if args.target_unit:\n        unit_data = load_units(args.target_unit)\n\n    with open(os.path.join(args.output_dir, f\"{args.data_name}.tsv\"), \"w\") as o_t, open(\n        os.path.join(args.output_dir, f\"{args.data_name}.unit\"), \"w\"\n    ) as o_u:\n        print(dir_path, file=o_t)\n        for fname in glob.iglob(search_path, recursive=True):\n            file_path = os.path.realpath(fname)\n            frames = soundfile.info(fname).frames\n            print(\n                \"{}\\t{}\".format(os.path.relpath(file_path, dir_path), frames), file=o_t\n            )\n\n            if args.for_inference:\n                print(\"0\", file=o_u)\n            else:\n                sample_id = os.path.basename(file_path)[: -len(args.ext) - 1]\n                assert (\n                    sample_id in unit_data\n                ), f'{fname} does not have unit data in {args.target_unit}. Expecting sample_id \"{sample_id}\".'\n                target_units = process_units(unit_data[sample_id], reduce=True)\n                print(\" \".join(target_units), file=o_u)\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--audio-dir\", required=True, type=str, help=\"audio directory\")\n    parser.add_argument(\"--ext\", default=\"flac\", type=str, help=\"audio extension\")\n    parser.add_argument(\n        \"--data-name\",\n        required=True,\n        type=str,\n        help=\"dataset name\",\n    )\n    parser.add_argument(\n        \"--output-dir\", required=True, type=str, help=\"output directory\"\n    )\n    parser.add_argument(\n        \"--for-inference\",\n        action=\"store_true\",\n        help=\"set this if preparing data for running inference with a speech normalizer\",\n    )\n    parser.add_argument(\n        \"--target-unit\",\n        default=None,\n        type=str,\n        help=\"a file containing unit sequences in the format: sample_id|u1 u2 ...\",\n    )\n\n    args = parser.parse_args()\n\n    process(args)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_to_speech/preprocessing/prep_sn_output_data.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nfrom pathlib import Path\n\nfrom tqdm import tqdm\n\n\ndef process(args):\n    args.output_root.mkdir(exist_ok=True)\n\n    # load units\n    units = {}\n    with open(args.in_unit) as f:\n        for line in f:\n            unit_seq, utt_id = line.strip().rsplit(\" \", 1)\n            utt_id = int(utt_id[6:-1])  # remove \"(None-\"\n            units[utt_id] = unit_seq\n\n    with open(args.in_audio) as f, open(\n        args.output_root / f\"{args.in_audio.stem}.txt\", \"w\"\n    ) as o:\n        f.readline()\n        for i, line in enumerate(tqdm(f.readlines())):\n            audio, _ = line.strip().split(\"\\t\", 1)\n            sample_id = Path(audio).stem\n            o.write(f\"{sample_id}|{units[i]}\\n\")\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--in-unit\",\n        required=True,\n        type=Path,\n        help=\"unit file (output from the speech normalizer)\",\n    )\n    parser.add_argument(\n        \"--in-audio\",\n        required=True,\n        type=Path,\n        help=\"tsv file (input to the normalizer)\",\n    )\n    parser.add_argument(\n        \"--output-root\", required=True, type=Path, help=\"output directory\"\n    )\n\n    args = parser.parse_args()\n\n    process(args)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_to_speech/unity/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import sequence_generator  # noqa\nfrom . import sequence_generator_multi_decoder  # noqa\n"
  },
  {
    "path": "examples/speech_to_speech/unity/sequence_generator.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nimport sys\nfrom typing import Dict, List, Optional\n\nimport torch\nfrom torch import Tensor\n\nfrom fairseq.sequence_generator import EnsembleModel as EnsembleModelBase\nfrom fairseq.sequence_generator import SequenceGenerator as SequenceGeneratorBase\n\n\nclass SequenceGenerator(SequenceGeneratorBase):\n    def __init__(\n        self,\n        models,\n        tgt_dict,\n        beam_size=1,\n        max_len_a=0,\n        max_len_b=200,\n        max_len=0,\n        min_len=1,\n        normalize_scores=True,\n        len_penalty=1.0,\n        unk_penalty=0.0,\n        temperature=1.0,\n        match_source_len=False,\n        no_repeat_ngram_size=0,\n        search_strategy=None,\n        eos=None,\n        symbols_to_strip_from_output=None,\n        lm_model=None,\n        lm_weight=1.0,\n        tokens_to_suppress=(),\n    ):\n        \"\"\"Generates translations of a given source sentence.\n\n        Args:\n            models (List[~fairseq.models.FairseqModel]): ensemble of models,\n                currently support fairseq.models.TransformerModel for scripting\n            beam_size (int, optional): beam width (default: 1)\n            max_len_a/b (int, optional): generate sequences of maximum length\n                ax + b, where x is the source length\n            max_len (int, optional): the maximum length of the generated output\n                (not including end-of-sentence)\n            min_len (int, optional): the minimum length of the generated output\n                (not including end-of-sentence)\n            normalize_scores (bool, optional): normalize scores by the length\n                of the output (default: True)\n            len_penalty (float, optional): length penalty, where <1.0 favors\n                shorter, >1.0 favors longer sentences (default: 1.0)\n            unk_penalty (float, optional): unknown word penalty, where <0\n                produces more unks, >0 produces fewer (default: 0.0)\n            temperature (float, optional): temperature, where values\n                >1.0 produce more uniform samples and values <1.0 produce\n                sharper samples (default: 1.0)\n            match_source_len (bool, optional): outputs should match the source\n                length (default: False)\n        \"\"\"\n        super().__init__(\n            models=models,\n            tgt_dict=tgt_dict,\n            beam_size=beam_size,\n            max_len_a=max_len_a,\n            max_len_b=max_len_b,\n            max_len=max_len,\n            min_len=min_len,\n            normalize_scores=normalize_scores,\n            len_penalty=len_penalty,\n            unk_penalty=unk_penalty,\n            temperature=temperature,\n            match_source_len=match_source_len,\n            no_repeat_ngram_size=no_repeat_ngram_size,\n            search_strategy=search_strategy,\n            eos=eos,\n            symbols_to_strip_from_output=symbols_to_strip_from_output,\n            lm_model=lm_model,\n            lm_weight=lm_weight,\n            tokens_to_suppress=tokens_to_suppress,\n        )\n\n        if isinstance(models, EnsembleModel):\n            self.model = models\n        else:\n            self.model = EnsembleModel(models)\n\n        self.model.set_decoder_beam_size(self.beam_size)\n        self.model.eval()\n\n    def _generate(\n        self,\n        sample: Dict[str, Dict[str, Tensor]],\n        prefix_tokens: Optional[Tensor] = None,\n        constraints: Optional[Tensor] = None,\n        bos_token: Optional[int] = None,\n    ):\n        net_input = sample[\"net_input\"]\n\n        if \"src_tokens\" in net_input:\n            src_tokens = net_input[\"src_tokens\"]\n            # length of the source text being the character length except EndOfSentence and pad\n            # if src_lengths exists in net_input (speech_to_text dataset case), then use it\n            if \"src_lengths\" in net_input:\n                src_lengths = net_input[\"src_lengths\"]\n            else:\n                src_lengths = (\n                    (src_tokens.ne(self.eos) & src_tokens.ne(self.pad))\n                    .long()\n                    .sum(dim=1)\n                )\n        elif \"source\" in net_input:\n            src_tokens = net_input[\"source\"]\n            src_lengths = (\n                net_input[\"padding_mask\"].size(-1) - net_input[\"padding_mask\"].sum(-1)\n                if net_input[\"padding_mask\"] is not None\n                else torch.tensor(src_tokens.size(-1)).to(src_tokens)\n            )\n        elif \"features\" in net_input:\n            src_tokens = net_input[\"features\"]\n            src_lengths = (\n                net_input[\"padding_mask\"].size(-1) - net_input[\"padding_mask\"].sum(-1)\n                if net_input[\"padding_mask\"] is not None\n                else torch.tensor(src_tokens.size(-1)).to(src_tokens)\n            )\n        else:\n            raise Exception(\n                \"expected src_tokens or source in net input. input keys: \"\n                + str(net_input.keys())\n            )\n\n        if constraints is not None and not self.search.supports_constraints:\n            raise NotImplementedError(\n                \"Target-side constraints were provided, but search method doesn't support them\"\n            )\n\n        # Initialize constraints, when active\n        self.search.init_constraints(constraints, self.beam_size)\n\n        # compute the encoder output for each beam\n        with torch.autograd.profiler.record_function(\"EnsembleModel: forward_encoder\"):\n            encoder_outs = self.model.forward_encoder(net_input)\n\n        finalized = self.generate_decoder(\n            encoder_outs,\n            src_tokens,\n            src_lengths,\n            sample,\n            prefix_tokens,\n            constraints,\n            bos_token,\n        )\n        return finalized\n\n    def generate_decoder(\n        self,\n        encoder_outs,\n        src_tokens,\n        src_lengths,\n        sample: Dict[str, Dict[str, Tensor]],\n        prefix_tokens: Optional[Tensor] = None,\n        constraints: Optional[Tensor] = None,\n        bos_token: Optional[int] = None,\n        aux_task_name=\"\",\n        encoder_outs_aug: Optional[\n            Tensor\n        ] = None,  # an additional/augmented encoder_outs\n    ):\n        incremental_states = torch.jit.annotate(\n            List[Dict[str, Dict[str, Optional[Tensor]]]],\n            [\n                torch.jit.annotate(Dict[str, Dict[str, Optional[Tensor]]], {})\n                for i in range(self.model.models_size)\n            ],\n        )\n\n        # bsz: total number of sentences in beam\n        # Note that src_tokens may have more than 2 dimensions (i.e. audio features)\n        bsz, src_len = src_tokens.size()[:2]\n        beam_size = self.beam_size\n\n        decoder_name = f\"{aux_task_name}_decoder\" if aux_task_name else \"decoder\"\n\n        max_len: int = -1\n        if self.match_source_len:\n            max_len = src_lengths.max().item()\n        else:\n            max_len = min(\n                int(self.max_len_a * src_len + self.max_len_b),\n                self.max_len - 1,\n            )\n        assert (\n            self.min_len <= max_len\n        ), \"min_len cannot be larger than max_len, please adjust these!\"\n\n        # placeholder of indices for bsz * beam_size to hold tokens and accumulative scores\n        new_order = torch.arange(bsz).view(-1, 1).repeat(1, beam_size).view(-1)\n        new_order = new_order.to(src_tokens.device).long()\n        encoder_outs = self.model.reorder_encoder_out(encoder_outs, new_order)\n        # ensure encoder_outs is a List.\n        assert encoder_outs is not None\n        if encoder_outs_aug is not None:\n            encoder_outs_aug = self.model.reorder_encoder_out(\n                encoder_outs_aug, new_order\n            )\n\n        # initialize buffers\n        scores = (\n            torch.zeros(bsz * beam_size, max_len + 1).to(src_tokens).float()\n        )  # +1 for eos; pad is never chosen for scoring\n        tokens = (\n            torch.zeros(bsz * beam_size, max_len + 2)\n            .to(src_tokens)\n            .long()\n            .fill_(self.pad)\n        )  # +2 for eos and pad\n        tokens[:, 0] = self.eos if bos_token is None else bos_token\n        attn: Optional[Tensor] = None\n\n        # A list that indicates candidates that should be ignored.\n        # For example, suppose we're sampling and have already finalized 2/5\n        # samples. Then cands_to_ignore would mark 2 positions as being ignored,\n        # so that we only finalize the remaining 3 samples.\n        cands_to_ignore = (\n            torch.zeros(bsz, beam_size).to(src_tokens).eq(-1)\n        )  # forward and backward-compatible False mask\n\n        # list of completed sentences\n        finalized = torch.jit.annotate(\n            List[List[Dict[str, Tensor]]],\n            [torch.jit.annotate(List[Dict[str, Tensor]], []) for i in range(bsz)],\n        )  # contains lists of dictionaries of infomation about the hypothesis being finalized at each step\n\n        # a boolean array indicating if the sentence at the index is finished or not\n        finished = [False for i in range(bsz)]\n        num_remaining_sent = bsz  # number of sentences remaining\n\n        # number of candidate hypos per step\n        cand_size = 2 * beam_size  # 2 x beam size in case half are EOS\n\n        # offset arrays for converting between different indexing schemes\n        bbsz_offsets = (\n            (torch.arange(0, bsz) * beam_size)\n            .unsqueeze(1)\n            .type_as(tokens)\n            .to(src_tokens.device)\n        )\n        cand_offsets = torch.arange(0, cand_size).type_as(tokens).to(src_tokens.device)\n\n        reorder_state: Optional[Tensor] = None\n        batch_idxs: Optional[Tensor] = None\n\n        original_batch_idxs: Optional[Tensor] = None\n        if \"id\" in sample and isinstance(sample[\"id\"], Tensor):\n            original_batch_idxs = sample[\"id\"]\n        else:\n            original_batch_idxs = torch.arange(0, bsz).type_as(tokens)\n\n        for step in range(max_len + 1):  # one extra step for EOS marker\n            # reorder decoder internal states based on the prev choice of beams\n            if reorder_state is not None:\n                if batch_idxs is not None:\n                    # update beam indices to take into account removed sentences\n                    corr = batch_idxs - torch.arange(batch_idxs.numel()).type_as(\n                        batch_idxs\n                    )\n                    reorder_state.view(-1, beam_size).add_(\n                        corr.unsqueeze(-1) * beam_size\n                    )\n                    original_batch_idxs = original_batch_idxs[batch_idxs]\n                self.model.reorder_incremental_state(\n                    incremental_states, reorder_state, decoder_name\n                )\n                encoder_outs = self.model.reorder_encoder_out(\n                    encoder_outs, reorder_state\n                )\n                if encoder_outs_aug is not None:\n                    encoder_outs_aug = self.model.reorder_encoder_out(\n                        encoder_outs_aug, reorder_state\n                    )\n            with torch.autograd.profiler.record_function(\n                \"EnsembleModel: forward_decoder\"\n            ):\n                lprobs, avg_attn_scores = self.model.forward_decoder(\n                    tokens[:, : step + 1],\n                    encoder_outs,\n                    incremental_states,\n                    self.temperature,\n                    decoder_name=decoder_name,\n                    encoder_outs_aug=encoder_outs_aug,\n                )\n\n            if self.lm_model is not None and not aux_task_name:\n                lm_out = self.lm_model(tokens[:, : step + 1])\n                probs = self.lm_model.get_normalized_probs(\n                    lm_out, log_probs=True, sample=None\n                )\n                probs = probs[:, -1, :] * self.lm_weight\n                lprobs += probs\n\n            lprobs[lprobs != lprobs] = torch.tensor(-math.inf).to(lprobs)\n\n            lprobs[:, self.pad] = -math.inf  # never select pad\n            lprobs[:, self.unk] -= self.unk_penalty  # apply unk penalty\n\n            # handle max length constraint\n            if step >= max_len:\n                lprobs[:, : self.eos] = -math.inf\n                lprobs[:, self.eos + 1 :] = -math.inf\n\n            # handle prefix tokens (possibly with different lengths)\n            if (\n                prefix_tokens is not None\n                and step < prefix_tokens.size(1)\n                and step < max_len\n            ):\n                lprobs, tokens, scores = self._prefix_tokens(\n                    step, lprobs, scores, tokens, prefix_tokens, beam_size\n                )\n            else:\n                if step < self.min_len:\n                    # minimum length constraint (does not apply if using prefix_tokens)\n                    lprobs[:, self.eos] = -math.inf\n\n                if self.token_indices_to_suppress is not None:\n                    lprobs[:, self.token_indices_to_suppress] = -math.inf\n\n            # Record attention scores, only support avg_attn_scores is a Tensor\n            if avg_attn_scores is not None:\n                if attn is None:\n                    attn = torch.empty(\n                        bsz * beam_size, avg_attn_scores.size(1), max_len + 2\n                    ).to(scores)\n                attn[:, :, step + 1].copy_(avg_attn_scores)\n\n            scores = scores.type_as(lprobs)\n            eos_bbsz_idx = torch.empty(0).to(\n                tokens\n            )  # indices of hypothesis ending with eos (finished sentences)\n            eos_scores = torch.empty(0).to(\n                scores\n            )  # scores of hypothesis ending with eos (finished sentences)\n\n            if self.should_set_src_lengths:\n                self.search.set_src_lengths(src_lengths)\n\n            if self.repeat_ngram_blocker is not None:\n                lprobs = self.repeat_ngram_blocker(tokens, lprobs, bsz, beam_size, step)\n\n            # Shape: (batch, cand_size)\n            cand_scores, cand_indices, cand_beams = self.search.step(\n                step,\n                lprobs.view(bsz, -1, self.vocab_size),\n                scores.view(bsz, beam_size, -1)[:, :, :step],\n                tokens[:, : step + 1],\n                original_batch_idxs,\n            )\n\n            # cand_bbsz_idx contains beam indices for the top candidate\n            # hypotheses, with a range of values: [0, bsz*beam_size),\n            # and dimensions: [bsz, cand_size]\n            cand_bbsz_idx = cand_beams.add(bbsz_offsets)\n\n            # finalize hypotheses that end in eos\n            # Shape of eos_mask: (batch size, beam size)\n            eos_mask = cand_indices.eq(self.eos) & cand_scores.ne(-math.inf)\n            eos_mask[:, :beam_size][cands_to_ignore] = torch.tensor(0).to(eos_mask)\n\n            # only consider eos when it's among the top beam_size indices\n            # Now we know what beam item(s) to finish\n            # Shape: 1d list of absolute-numbered\n            eos_bbsz_idx = torch.masked_select(\n                cand_bbsz_idx[:, :beam_size], mask=eos_mask[:, :beam_size]\n            )\n\n            finalized_sents: List[int] = []\n            if eos_bbsz_idx.numel() > 0:\n                eos_scores = torch.masked_select(\n                    cand_scores[:, :beam_size], mask=eos_mask[:, :beam_size]\n                )\n\n                finalized_sents = self.finalize_hypos(\n                    step,\n                    eos_bbsz_idx,\n                    eos_scores,\n                    tokens,\n                    scores,\n                    finalized,\n                    finished,\n                    beam_size,\n                    attn,\n                    src_lengths,\n                    max_len,\n                )\n                num_remaining_sent -= len(finalized_sents)\n\n            assert num_remaining_sent >= 0\n            if num_remaining_sent == 0:\n                break\n            if self.search.stop_on_max_len and step >= max_len:\n                break\n            assert step < max_len, f\"{step} < {max_len}\"\n\n            # Remove finalized sentences (ones for which {beam_size}\n            # finished hypotheses have been generated) from the batch.\n            if len(finalized_sents) > 0:\n                new_bsz = bsz - len(finalized_sents)\n\n                # construct batch_idxs which holds indices of batches to keep for the next pass\n                batch_mask = torch.ones(\n                    bsz, dtype=torch.bool, device=cand_indices.device\n                )\n                batch_mask[finalized_sents] = False\n                # TODO replace `nonzero(as_tuple=False)` after TorchScript supports it\n                batch_idxs = torch.arange(\n                    bsz, device=cand_indices.device\n                ).masked_select(batch_mask)\n\n                # Choose the subset of the hypothesized constraints that will continue\n                self.search.prune_sentences(batch_idxs)\n\n                eos_mask = eos_mask[batch_idxs]\n                cand_beams = cand_beams[batch_idxs]\n                bbsz_offsets.resize_(new_bsz, 1)\n                cand_bbsz_idx = cand_beams.add(bbsz_offsets)\n                cand_scores = cand_scores[batch_idxs]\n                cand_indices = cand_indices[batch_idxs]\n\n                if prefix_tokens is not None:\n                    prefix_tokens = prefix_tokens[batch_idxs]\n                src_lengths = src_lengths[batch_idxs]\n                cands_to_ignore = cands_to_ignore[batch_idxs]\n\n                scores = scores.view(bsz, -1)[batch_idxs].view(new_bsz * beam_size, -1)\n                tokens = tokens.view(bsz, -1)[batch_idxs].view(new_bsz * beam_size, -1)\n                if attn is not None:\n                    attn = attn.view(bsz, -1)[batch_idxs].view(\n                        new_bsz * beam_size, attn.size(1), -1\n                    )\n                bsz = new_bsz\n            else:\n                batch_idxs = None\n\n            # Set active_mask so that values > cand_size indicate eos hypos\n            # and values < cand_size indicate candidate active hypos.\n            # After, the min values per row are the top candidate active hypos\n\n            # Rewrite the operator since the element wise or is not supported in torchscript.\n\n            eos_mask[:, :beam_size] = ~((~cands_to_ignore) & (~eos_mask[:, :beam_size]))\n            active_mask = torch.add(\n                eos_mask.type_as(cand_offsets) * cand_size,\n                cand_offsets[: eos_mask.size(1)],\n            )\n\n            # get the top beam_size active hypotheses, which are just\n            # the hypos with the smallest values in active_mask.\n            # {active_hypos} indicates which {beam_size} hypotheses\n            # from the list of {2 * beam_size} candidates were\n            # selected. Shapes: (batch size, beam size)\n            new_cands_to_ignore, active_hypos = torch.topk(\n                active_mask, k=beam_size, dim=1, largest=False\n            )\n\n            # update cands_to_ignore to ignore any finalized hypos.\n            cands_to_ignore = new_cands_to_ignore.ge(cand_size)[:, :beam_size]\n            # Make sure there is at least one active item for each sentence in the batch.\n            assert (~cands_to_ignore).any(dim=1).all()\n\n            # update cands_to_ignore to ignore any finalized hypos\n\n            # {active_bbsz_idx} denotes which beam number is continued for each new hypothesis (a beam\n            # can be selected more than once).\n            active_bbsz_idx = torch.gather(cand_bbsz_idx, dim=1, index=active_hypos)\n            active_scores = torch.gather(cand_scores, dim=1, index=active_hypos)\n\n            active_bbsz_idx = active_bbsz_idx.view(-1)\n            active_scores = active_scores.view(-1)\n\n            # copy tokens and scores for active hypotheses\n\n            # Set the tokens for each beam (can select the same row more than once)\n            tokens[:, : step + 1] = torch.index_select(\n                tokens[:, : step + 1], dim=0, index=active_bbsz_idx\n            )\n            # Select the next token for each of them\n            tokens.view(bsz, beam_size, -1)[:, :, step + 1] = torch.gather(\n                cand_indices, dim=1, index=active_hypos\n            )\n            if step > 0:\n                scores[:, :step] = torch.index_select(\n                    scores[:, :step], dim=0, index=active_bbsz_idx\n                )\n            scores.view(bsz, beam_size, -1)[:, :, step] = torch.gather(\n                cand_scores, dim=1, index=active_hypos\n            )\n\n            # Update constraints based on which candidates were selected for the next beam\n            self.search.update_constraints(active_hypos)\n\n            # copy attention for active hypotheses\n            if attn is not None:\n                attn[:, :, : step + 2] = torch.index_select(\n                    attn[:, :, : step + 2], dim=0, index=active_bbsz_idx\n                )\n\n            # reorder incremental state in decoder\n            reorder_state = active_bbsz_idx\n\n        # sort by score descending\n        for sent in range(len(finalized)):\n            scores = torch.tensor(\n                [float(elem[\"score\"].item()) for elem in finalized[sent]]\n            )\n            _, sorted_scores_indices = torch.sort(scores, descending=True)\n            finalized[sent] = [finalized[sent][ssi] for ssi in sorted_scores_indices]\n            finalized[sent] = torch.jit.annotate(\n                List[Dict[str, Tensor]], finalized[sent]\n            )\n        return finalized\n\n\nclass EnsembleModel(EnsembleModelBase):\n    \"\"\"A wrapper around an ensemble of models.\"\"\"\n\n    def __init__(self, models):\n        super().__init__(models)\n\n    @torch.jit.export\n    def forward_decoder(\n        self,\n        tokens,\n        encoder_outs: List[Dict[str, List[Tensor]]],\n        incremental_states: List[Dict[str, Dict[str, Optional[Tensor]]]],\n        temperature: float = 1.0,\n        decoder_name=\"decoder\",\n        encoder_outs_aug: List[Dict[str, List[Tensor]]] = None,\n    ):\n        log_probs = []\n        avg_attn: Optional[Tensor] = None\n        encoder_out: Optional[Dict[str, List[Tensor]]] = None\n        encoder_out_aug: Optional[Dict[str, List[Tensor]]] = None\n        for i, model in enumerate(self.models):\n            if self.has_encoder():\n                encoder_out = encoder_outs[i]\n                if encoder_outs_aug is not None:\n                    encoder_out_aug = encoder_outs_aug[i]\n            # decode each model\n            if self.has_incremental_states():\n                if encoder_out_aug is not None:\n                    decoder_out = getattr(model, decoder_name).forward(\n                        tokens,\n                        encoder_out=encoder_out,\n                        encoder_out_aug=encoder_out_aug,\n                        incremental_state=incremental_states[i],\n                    )\n                else:\n                    decoder_out = getattr(model, decoder_name).forward(\n                        tokens,\n                        encoder_out=encoder_out,\n                        incremental_state=incremental_states[i],\n                    )\n            else:\n                if hasattr(model, decoder_name):\n                    decoder_out = getattr(model, decoder_name).forward(\n                        tokens, encoder_out=encoder_out\n                    )\n                else:\n                    decoder_out = model.forward(tokens)\n\n            attn: Optional[Tensor] = None\n            decoder_len = len(decoder_out)\n            if decoder_len > 1 and decoder_out[1] is not None:\n                if isinstance(decoder_out[1], Tensor):\n                    attn = decoder_out[1]\n                else:\n                    attn_holder = decoder_out[1][\"attn\"]\n                    if isinstance(attn_holder, Tensor):\n                        attn = attn_holder\n                    elif attn_holder is not None:\n                        attn = attn_holder[0]\n                if attn is not None:\n                    attn = attn[:, -1, :]\n\n            decoder_out_tuple = (\n                decoder_out[0][:, -1:, :].div_(temperature),\n                None if decoder_len <= 1 else decoder_out[1],\n            )\n            probs = getattr(model, decoder_name).get_normalized_probs(\n                decoder_out_tuple, log_probs=True, sample=None\n            )\n            probs = probs[:, -1, :]\n            if self.models_size == 1:\n                return probs, attn\n\n            log_probs.append(probs)\n            if attn is not None:\n                if avg_attn is None:\n                    avg_attn = attn\n                else:\n                    avg_attn.add_(attn)\n\n        avg_probs = torch.logsumexp(torch.stack(log_probs, dim=0), dim=0) - math.log(\n            self.models_size\n        )\n\n        if avg_attn is not None:\n            avg_attn.div_(self.models_size)\n        return avg_probs, avg_attn\n\n    @torch.jit.export\n    def reorder_incremental_state(\n        self,\n        incremental_states: List[Dict[str, Dict[str, Optional[Tensor]]]],\n        new_order,\n        decoder_name=\"decoder\",\n    ):\n        if not self.has_incremental_states():\n            return\n        for i, model in enumerate(self.models):\n            getattr(model, decoder_name).reorder_incremental_state_scripting(\n                incremental_states[i], new_order\n            )\n"
  },
  {
    "path": "examples/speech_to_speech/unity/sequence_generator_multi_decoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Dict, List, Optional\n\nimport torch\nimport torch.nn as nn\nfrom torch import Tensor\n\nfrom fairseq import search\n\n\nclass MultiDecoderSequenceGenerator(nn.Module):\n    def __init__(\n        self,\n        models,\n        tgt_dict,\n        tgt_dict_mt,\n        beam_size=1,\n        beam_size_mt=1,\n        max_len_a=0,\n        max_len_b=200,\n        max_len_a_mt=0,\n        max_len_b_mt=200,\n        max_len=0,\n        min_len=1,\n        normalize_scores=True,\n        len_penalty=1.0,\n        len_penalty_mt=1.0,\n        unk_penalty=0.0,\n        temperature=1.0,\n        match_source_len=False,\n        no_repeat_ngram_size=0,\n        eos=None,\n        eos_mt=None,\n        symbols_to_strip_from_output=None,\n        lm_model=None,\n        lm_weight=1.0,\n    ):\n        \"\"\"Generates translations of a given source sentence.\n\n        Args:\n            models (List[~fairseq.models.FairseqModel]): ensemble of models,\n                currently support fairseq.models.TransformerModel for scripting\n            beam_size (int, optional): beam width (default: 1)\n            max_len_a/b (int, optional): generate sequences of maximum length\n                ax + b, where x is the source length for the second pass\n            max_len_a_mt/b_mt (int, optional): generate sequences of maximum length\n                ax + b, where x is the source length for the first pass\n            max_len (int, optional): the maximum length of the generated output\n                (not including end-of-sentence)\n            min_len (int, optional): the minimum length of the generated output\n                (not including end-of-sentence)\n            normalize_scores (bool, optional): normalize scores by the length\n                of the output (default: True)\n            len_penalty (float, optional): length penalty in the second pass, where <1.0 favors\n                shorter, >1.0 favors longer sentences (default: 1.0)\n            len_penalty (float, optional): length penalty in the first pass, where <1.0 favors\n                shorter, >1.0 favors longer sentences (default: 1.0)\n            unk_penalty (float, optional): unknown word penalty, where <0\n                produces more unks, >0 produces fewer (default: 0.0)\n            temperature (float, optional): temperature, where values\n                >1.0 produce more uniform samples and values <1.0 produce\n                sharper samples (default: 1.0)\n            match_source_len (bool, optional): outputs should match the source\n                length (default: False)\n        \"\"\"\n        super().__init__()\n\n        from examples.speech_to_speech.unity.sequence_generator import SequenceGenerator\n\n        self.generator = SequenceGenerator(\n            models,\n            tgt_dict,\n            beam_size=beam_size,\n            max_len_a=max_len_a,\n            max_len_b=max_len_b,\n            max_len=max_len,\n            min_len=min_len,\n            normalize_scores=normalize_scores,\n            len_penalty=len_penalty,\n            unk_penalty=unk_penalty,\n            temperature=temperature,\n            match_source_len=match_source_len,\n            no_repeat_ngram_size=no_repeat_ngram_size,\n            search_strategy=search.BeamSearch(tgt_dict),\n            eos=eos,\n            symbols_to_strip_from_output=symbols_to_strip_from_output,\n            lm_model=lm_model,\n            lm_weight=lm_weight,\n        )\n        self.eos = self.generator.eos\n\n        self.generator_mt = SequenceGenerator(\n            models,\n            tgt_dict_mt,\n            beam_size=beam_size_mt,\n            max_len_a=max_len_a_mt,\n            max_len_b=max_len_b_mt,\n            max_len=max_len,\n            min_len=min_len,\n            normalize_scores=normalize_scores,\n            len_penalty=len_penalty_mt,\n            unk_penalty=unk_penalty,\n            temperature=temperature,\n            match_source_len=match_source_len,\n            no_repeat_ngram_size=no_repeat_ngram_size,\n            search_strategy=search.BeamSearch(tgt_dict_mt),\n            eos=eos_mt,\n            symbols_to_strip_from_output=symbols_to_strip_from_output,\n        )\n\n    @torch.no_grad()\n    def generate(\n        self, models, sample: Dict[str, Dict[str, Tensor]], **kwargs\n    ) -> List[List[Dict[str, Tensor]]]:\n        \"\"\"Generate translations. Match the api of other fairseq generators.\n\n        Args:\n            models (List[~fairseq.models.FairseqModel]): ensemble of models\n            sample (dict): batch\n            prefix_tokens (torch.LongTensor, optional): force decoder to begin\n                with these tokens\n            constraints (torch.LongTensor, optional): force decoder to include\n                the list of constraints\n            bos_token (int, optional): beginning of sentence token\n                (default: self.eos)\n        \"\"\"\n        return self._generate(sample, **kwargs)\n\n    def _generate(\n        self,\n        sample: Dict[str, Dict[str, Tensor]],\n        prefix_tokens: Optional[Tensor] = None,\n        constraints: Optional[Tensor] = None,\n        bos_token: Optional[int] = None,\n    ):\n        net_input = sample[\"net_input\"]\n\n        if \"src_tokens\" in net_input:\n            src_tokens = net_input[\"src_tokens\"]\n            # length of the source text being the character length except EndOfSentence and pad\n            # if src_lengths exists in net_input (speech_to_text dataset case), then use it\n            if \"src_lengths\" in net_input:\n                src_lengths = net_input[\"src_lengths\"]\n            else:\n                src_lengths = (\n                    (\n                        src_tokens.ne(self.generator.eos)\n                        & src_tokens.ne(self.generator.pad)\n                    )\n                    .long()\n                    .sum(dim=1)\n                )\n        else:\n            raise Exception(\n                \"expected src_tokens or source in net input. input keys: \"\n                + str(net_input.keys())\n            )\n\n        if constraints is not None and not self.generator.search.supports_constraints:\n            raise NotImplementedError(\n                \"Target-side constraints were provided, but search method doesn't support them\"\n            )\n\n        # Initialize constraints, when active\n        self.generator.search.init_constraints(constraints, self.generator.beam_size)\n        self.generator_mt.search.init_constraints(\n            constraints, self.generator_mt.beam_size\n        )\n\n        # compute the encoder output for each beam\n        with torch.autograd.profiler.record_function(\"EnsembleModel: forward_encoder\"):\n            encoder_outs = self.generator.model.forward_encoder(net_input)\n\n        single_model = self.generator.model.single_model\n        mt_decoder = getattr(single_model, f\"{single_model.mt_task_name}_decoder\")\n\n        # 1. MT decoder\n        finalized_mt = self.generator_mt.generate_decoder(\n            encoder_outs,\n            src_tokens,\n            src_lengths,\n            sample,\n            prefix_tokens,\n            constraints,\n            bos_token,\n            aux_task_name=single_model.mt_task_name,\n        )\n\n        # extract decoder output corresponding to the best hypothesis\n        max_tgt_len = max([len(hypo[0][\"tokens\"]) for hypo in finalized_mt])\n        prev_output_tokens_mt = (\n            src_tokens.new_zeros(src_tokens.shape[0], max_tgt_len)\n            .fill_(mt_decoder.padding_idx)\n            .int()\n        )  # B x T\n        for i, hypo in enumerate(finalized_mt):\n            i_beam = 0\n            tmp = hypo[i_beam][\"tokens\"].int()  # hyp + eos\n            prev_output_tokens_mt[i, 0] = self.generator_mt.eos\n            if tmp[-1] == self.generator_mt.eos:\n                tmp = tmp[:-1]\n            prev_output_tokens_mt[i, 1 : len(tmp) + 1] = tmp\n\n            text = \"\".join([self.generator_mt.tgt_dict[c] for c in tmp])\n            text = text.replace(\"_\", \" \")\n            text = text.replace(\"▁\", \" \")\n            text = text.replace(\"<unk>\", \" \")\n            text = text.replace(\"<s>\", \"\")\n            text = text.replace(\"</s>\", \"\")\n            if len(text) > 0 and text[0] == \" \":\n                text = text[1:]\n            sample_id = sample[\"id\"].tolist()[i]\n            print(\"{} (None-{})\".format(text, sample_id))\n\n        x = mt_decoder(\n            prev_output_tokens_mt,\n            encoder_out=encoder_outs[0],\n            features_only=True,\n        )[0].transpose(0, 1)\n\n        if getattr(single_model, \"proj\", None) is not None:\n            x = single_model.proj(x)\n\n        mt_decoder_padding_mask = None\n        if prev_output_tokens_mt.eq(mt_decoder.padding_idx).any():\n            mt_decoder_padding_mask = prev_output_tokens_mt.eq(mt_decoder.padding_idx)\n\n        # 2. T2U encoder\n        if getattr(single_model, \"synthesizer_encoder\", None) is not None:\n            t2u_encoder_out = single_model.synthesizer_encoder(\n                x,\n                mt_decoder_padding_mask,\n            )\n        else:\n            t2u_encoder_out = {\n                \"encoder_out\": [x],  # T x B x C\n                \"encoder_padding_mask\": [mt_decoder_padding_mask]\n                if mt_decoder_padding_mask is not None\n                else [],  # B x T\n                \"encoder_embedding\": [],\n                \"encoder_states\": [],\n                \"src_tokens\": [],\n                \"src_lengths\": [],\n            }\n\n        if getattr(single_model, \"t2u_augmented_cross_attn\", False):\n            encoder_outs_aug = [t2u_encoder_out]\n        else:\n            encoder_outs = [t2u_encoder_out]\n            encoder_outs_aug = None\n\n        # 3. T2U decoder\n        finalized = self.generator.generate_decoder(\n            encoder_outs,\n            src_tokens,\n            src_lengths,\n            sample,\n            prefix_tokens,\n            constraints,\n            bos_token,\n            encoder_outs_aug=encoder_outs_aug,\n        )\n        return finalized\n"
  },
  {
    "path": "examples/speech_to_text/README.md",
    "content": "# Speech-to-Text (S2T) Modeling\n\n[https://www.aclweb.org/anthology/2020.aacl-demo.6](https://www.aclweb.org/anthology/2020.aacl-demo.6.pdf)\n\nSpeech recognition (ASR) and speech-to-text translation (ST) with fairseq.\n\n## Data Preparation\nS2T modeling data consists of source speech features, target text and other optional information\n(source text, speaker id, etc.). Fairseq S2T uses per-dataset-split TSV manifest files\nto store these information. Each data field is represented by a column in the TSV file.\n\nUnlike text token embeddings, speech features (e.g. log mel-scale filter banks) are usually fixed\nduring model training and can be pre-computed. The manifest file contains the path to\neither the feature file in NumPy format or the WAV/FLAC audio file. For the latter,\nfeatures will be extracted on-the-fly by fairseq S2T. Optionally, feature/audio files can be packed\ninto uncompressed ZIP files (then accessed via byte offset and length) to improve I/O performance.\n\nFairseq S2T also employs a YAML file for data related configurations: tokenizer type and dictionary path\nfor the target text, feature transforms such as CMVN (cepstral mean and variance normalization) and SpecAugment,\ntemperature-based resampling, etc.\n\n## Model Training\nFairseq S2T uses the unified `fairseq-train` interface for model training. It requires arguments `--task speech_to_text`,\n `--arch <model architecture in fairseq.models.speech_to_text.*>` and `--config-yaml <config YAML filename>`.\n\n## Inference & Evaluation\nFairseq S2T uses the unified `fairseq-generate`/`fairseq-interactive` interface for inference and evaluation. It\nrequires arguments `--task speech_to_text` and `--config-yaml <config YAML filename>`. The interactive console takes\naudio paths (one per line) as inputs.\n\n\n## Examples\n- [Speech Recognition (ASR) on LibriSpeech](docs/librispeech_example.md)\n\n- [Speech-to-Text Translation (ST) on MuST-C](docs/mustc_example.md)\n\n- [Speech-to-Text Translation (ST) on CoVoST 2](docs/covost_example.md)\n\n- [Speech-to-Text Translation (ST) on Multilingual TEDx](docs/mtedx_example.md)\n- [Simultaneous Speech-to-Text Translation (SimulST) on MuST-C](docs/simulst_mustc_example.md)\n\n## Updates\n- 02/04/2021: Added interactive decoding (`fairseq-interactive`) support. Examples:\n  [ASR (LibriSpeech)](docs/librispeech_example.md#interactive-decoding)\n  and [ST (CoVoST 2)](docs/covost_example.md#interactive-decoding).\n- 01/08/2021: Several fixes for S2T Transformer model, inference-time de-tokenization, scorer configuration and data\n  preparation scripts. We also add pre-trained models to the examples and revise the instructions.\n  Breaking changes: the data preparation scripts now extract filterbank features without CMVN. CMVN is instead applied\n  on-the-fly (defined in the config YAML).\n\n## What's Next\n- We are migrating the old fairseq [ASR example](../speech_recognition) into this S2T framework and\n  merging the features from both sides.\n- The following papers also base their experiments on fairseq S2T. We are adding more examples for replication.\n  - [Improving Cross-Lingual Transfer Learning for End-to-End Speech Recognition with Speech Translation (Wang et al., 2020)](https://arxiv.org/abs/2006.05474)\n  - [Self-Supervised Representations Improve End-to-End Speech Translation (Wu et al., 2020)](https://arxiv.org/abs/2006.12124)\n  - [Self-Training for End-to-End Speech Translation (Pino et al., 2020)](https://arxiv.org/abs/2006.02490)\n  - [CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus (Wang et al., 2020)](https://arxiv.org/abs/2002.01320)\n  - [Harnessing Indirect Training Data for End-to-End Automatic Speech Translation: Tricks of the Trade (Pino et al., 2019)](https://arxiv.org/abs/1909.06515)\n\n## Citation\nPlease cite as:\n```\n@inproceedings{wang2020fairseqs2t,\n  title = {fairseq S2T: Fast Speech-to-Text Modeling with fairseq},\n  author = {Changhan Wang and Yun Tang and Xutai Ma and Anne Wu and Dmytro Okhonko and Juan Pino},\n  booktitle = {Proceedings of the 2020 Conference of the Asian Chapter of the Association for Computational Linguistics (AACL): System Demonstrations},\n  year = {2020},\n}\n\n@inproceedings{ott2019fairseq,\n  title = {fairseq: A Fast, Extensible Toolkit for Sequence Modeling},\n  author = {Myle Ott and Sergey Edunov and Alexei Baevski and Angela Fan and Sam Gross and Nathan Ng and David Grangier and Michael Auli},\n  booktitle = {Proceedings of NAACL-HLT 2019: Demonstrations},\n  year = {2019},\n}\n```\n"
  },
  {
    "path": "examples/speech_to_text/data_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport csv\nfrom pathlib import Path\nimport zipfile\nfrom functools import reduce\nfrom multiprocessing import cpu_count\nfrom typing import Any, Dict, List, Optional, Union\nimport io\n\nimport numpy as np\nimport pandas as pd\nimport sentencepiece as sp\nfrom fairseq.data.audio.audio_utils import (\n    convert_waveform, _get_kaldi_fbank, _get_torchaudio_fbank, is_npy_data,\n    is_sf_audio_data\n)\nimport torch\nimport soundfile as sf\nfrom tqdm import tqdm\n\n\nUNK_TOKEN, UNK_TOKEN_ID = \"<unk>\", 3\nBOS_TOKEN, BOS_TOKEN_ID = \"<s>\", 0\nEOS_TOKEN, EOS_TOKEN_ID = \"</s>\", 2\nPAD_TOKEN, PAD_TOKEN_ID = \"<pad>\", 1\n\n\ndef gen_vocab(\n    input_path: Path, output_path_prefix: Path, model_type=\"bpe\",\n    vocab_size=1000, special_symbols: Optional[List[str]] = None\n):\n    # Train SentencePiece Model\n    arguments = [\n        f\"--input={input_path.as_posix()}\",\n        f\"--model_prefix={output_path_prefix.as_posix()}\",\n        f\"--model_type={model_type}\",\n        f\"--vocab_size={vocab_size}\",\n        \"--character_coverage=1.0\",\n        f\"--num_threads={cpu_count()}\",\n        f\"--unk_id={UNK_TOKEN_ID}\",\n        f\"--bos_id={BOS_TOKEN_ID}\",\n        f\"--eos_id={EOS_TOKEN_ID}\",\n        f\"--pad_id={PAD_TOKEN_ID}\",\n    ]\n    if special_symbols is not None:\n        _special_symbols = \",\".join(special_symbols)\n        arguments.append(f\"--user_defined_symbols={_special_symbols}\")\n    sp.SentencePieceTrainer.Train(\" \".join(arguments))\n    # Export fairseq dictionary\n    spm = sp.SentencePieceProcessor()\n    spm.Load(output_path_prefix.as_posix() + \".model\")\n    vocab = {i: spm.IdToPiece(i) for i in range(spm.GetPieceSize())}\n    assert (\n        vocab.get(UNK_TOKEN_ID) == UNK_TOKEN\n        and vocab.get(PAD_TOKEN_ID) == PAD_TOKEN\n        and vocab.get(BOS_TOKEN_ID) == BOS_TOKEN\n        and vocab.get(EOS_TOKEN_ID) == EOS_TOKEN\n    )\n    vocab = {\n        i: s\n        for i, s in vocab.items()\n        if s not in {UNK_TOKEN, BOS_TOKEN, EOS_TOKEN, PAD_TOKEN}\n    }\n    with open(output_path_prefix.as_posix() + \".txt\", \"w\") as f_out:\n        for _, s in sorted(vocab.items(), key=lambda x: x[0]):\n            f_out.write(f\"{s} 1\\n\")\n\n\ndef extract_fbank_features(\n    waveform: torch.FloatTensor,\n    sample_rate: int,\n    output_path: Optional[Path] = None,\n    n_mel_bins: int = 80,\n    overwrite: bool = False,\n):\n    if output_path is not None and output_path.is_file() and not overwrite:\n        return\n\n    _waveform, _ = convert_waveform(waveform, sample_rate, to_mono=True)\n    # Kaldi compliance: 16-bit signed integers\n    _waveform = _waveform * (2 ** 15)\n    _waveform = _waveform.numpy()\n\n    features = _get_kaldi_fbank(_waveform, sample_rate, n_mel_bins)\n    if features is None:\n        features = _get_torchaudio_fbank(_waveform, sample_rate, n_mel_bins)\n    if features is None:\n        raise ImportError(\n            \"Please install pyKaldi or torchaudio to enable fbank feature extraction\"\n        )\n\n    if output_path is not None:\n        np.save(output_path.as_posix(), features)\n    return features\n\n\ndef create_zip(data_root: Path, zip_path: Path):\n    paths = list(data_root.glob(\"*.npy\"))\n    paths.extend(data_root.glob(\"*.flac\"))\n    with zipfile.ZipFile(zip_path, \"w\", zipfile.ZIP_STORED) as f:\n        for path in tqdm(paths):\n            f.write(path, arcname=path.name)\n\n\ndef get_zip_manifest(\n        zip_path: Path, zip_root: Optional[Path] = None, is_audio=False\n):\n    _zip_path = Path.joinpath(zip_root or Path(\"\"), zip_path)\n    with zipfile.ZipFile(_zip_path, mode=\"r\") as f:\n        info = f.infolist()\n    paths, lengths = {}, {}\n    for i in tqdm(info):\n        utt_id = Path(i.filename).stem\n        offset, file_size = i.header_offset + 30 + len(i.filename), i.file_size\n        paths[utt_id] = f\"{zip_path.as_posix()}:{offset}:{file_size}\"\n        with open(_zip_path, \"rb\") as f:\n            f.seek(offset)\n            byte_data = f.read(file_size)\n            assert len(byte_data) > 1\n            if is_audio:\n                assert is_sf_audio_data(byte_data), i\n            else:\n                assert is_npy_data(byte_data), i\n            byte_data_fp = io.BytesIO(byte_data)\n            if is_audio:\n                lengths[utt_id] = sf.info(byte_data_fp).frames\n            else:\n                lengths[utt_id] = np.load(byte_data_fp).shape[0]\n    return paths, lengths\n\n\ndef gen_config_yaml(\n    manifest_root: Path,\n    spm_filename: Optional[str] = None,\n    vocab_name: Optional[str] = None,\n    yaml_filename: str = \"config.yaml\",\n    specaugment_policy: Optional[str] = \"lb\",\n    prepend_tgt_lang_tag: bool = False,\n    sampling_alpha: Optional[float] = None,\n    input_channels: Optional[int] = 1,\n    input_feat_per_channel: Optional[int] = 80,\n    audio_root: str = \"\",\n    cmvn_type: str = \"utterance\",\n    gcmvn_path: Optional[Path] = None,\n    extra=None\n):\n    manifest_root = manifest_root.absolute()\n    writer = S2TDataConfigWriter(manifest_root / yaml_filename)\n    assert spm_filename is not None or vocab_name is not None\n    vocab_name = spm_filename.replace(\".model\", \".txt\") if vocab_name is None \\\n        else vocab_name\n    writer.set_vocab_filename(vocab_name)\n    if input_channels is not None:\n        writer.set_input_channels(input_channels)\n    if input_feat_per_channel is not None:\n        writer.set_input_feat_per_channel(input_feat_per_channel)\n    specaugment_setters = {\n        \"lb\": writer.set_specaugment_lb_policy,\n        \"ld\": writer.set_specaugment_ld_policy,\n        \"sm\": writer.set_specaugment_sm_policy,\n        \"ss\": writer.set_specaugment_ss_policy,\n    }\n    specaugment_setter = specaugment_setters.get(specaugment_policy, None)\n    if specaugment_setter is not None:\n        specaugment_setter()\n    if spm_filename is not None:\n        writer.set_bpe_tokenizer(\n            {\n                \"bpe\": \"sentencepiece\",\n                \"sentencepiece_model\": (manifest_root / spm_filename).as_posix(),\n            }\n        )\n    if prepend_tgt_lang_tag:\n        writer.set_prepend_tgt_lang_tag(True)\n    if sampling_alpha is not None:\n        writer.set_sampling_alpha(sampling_alpha)\n\n    if cmvn_type not in [\"global\", \"utterance\"]:\n        raise NotImplementedError\n\n    if specaugment_policy is not None:\n        writer.set_feature_transforms(\n            \"_train\", [f\"{cmvn_type}_cmvn\", \"specaugment\"]\n        )\n    writer.set_feature_transforms(\"*\", [f\"{cmvn_type}_cmvn\"])\n\n    if cmvn_type == \"global\":\n        if gcmvn_path is None:\n            raise ValueError(\"Please provide path of global cmvn file.\")\n        else:\n            writer.set_global_cmvn(gcmvn_path.as_posix())\n\n    if len(audio_root) > 0:\n        writer.set_audio_root(audio_root)\n\n    if extra is not None:\n        writer.set_extra(extra)\n    writer.flush()\n\n\ndef load_df_from_tsv(path: Union[str, Path]) -> pd.DataFrame:\n    _path = path if isinstance(path, str) else path.as_posix()\n    return pd.read_csv(\n        _path,\n        sep=\"\\t\",\n        header=0,\n        encoding=\"utf-8\",\n        escapechar=\"\\\\\",\n        quoting=csv.QUOTE_NONE,\n        na_filter=False,\n    )\n\n\ndef save_df_to_tsv(dataframe, path: Union[str, Path]):\n    _path = path if isinstance(path, str) else path.as_posix()\n    dataframe.to_csv(\n        _path,\n        sep=\"\\t\",\n        header=True,\n        index=False,\n        encoding=\"utf-8\",\n        escapechar=\"\\\\\",\n        quoting=csv.QUOTE_NONE,\n    )\n\n\ndef load_tsv_to_dicts(path: Union[str, Path]) -> List[dict]:\n    with open(path, \"r\") as f:\n        reader = csv.DictReader(\n            f,\n            delimiter=\"\\t\",\n            quotechar=None,\n            doublequote=False,\n            lineterminator=\"\\n\",\n            quoting=csv.QUOTE_NONE,\n        )\n        rows = [dict(e) for e in reader]\n    return rows\n\n\ndef filter_manifest_df(\n    df, is_train_split=False, extra_filters=None, min_n_frames=5, max_n_frames=3000\n):\n    filters = {\n        \"no speech\": df[\"audio\"] == \"\",\n        f\"short speech (<{min_n_frames} frames)\": df[\"n_frames\"] < min_n_frames,\n        \"empty sentence\": df[\"tgt_text\"] == \"\",\n    }\n    if is_train_split:\n        filters[f\"long speech (>{max_n_frames} frames)\"] = df[\"n_frames\"] > max_n_frames\n    if extra_filters is not None:\n        filters.update(extra_filters)\n    invalid = reduce(lambda x, y: x | y, filters.values())\n    valid = ~invalid\n    print(\n        \"| \"\n        + \", \".join(f\"{n}: {f.sum()}\" for n, f in filters.items())\n        + f\", total {invalid.sum()} filtered, {valid.sum()} remained.\"\n    )\n    return df[valid]\n\n\ndef cal_gcmvn_stats(features_list):\n    features = np.concatenate(features_list)\n    square_sums = (features ** 2).sum(axis=0)\n    mean = features.mean(axis=0)\n    features = np.subtract(features, mean)\n    var = square_sums / features.shape[0] - mean ** 2\n    std = np.sqrt(np.maximum(var, 1e-8))\n    return {\"mean\": mean.astype(\"float32\"), \"std\": std.astype(\"float32\")}\n\n\nclass S2TDataConfigWriter(object):\n    DEFAULT_VOCAB_FILENAME = \"dict.txt\"\n    DEFAULT_INPUT_FEAT_PER_CHANNEL = 80\n    DEFAULT_INPUT_CHANNELS = 1\n\n    def __init__(self, yaml_path: Path):\n        try:\n            import yaml\n        except ImportError:\n            print(\"Please install PyYAML for S2T data config YAML files\")\n        self.yaml = yaml\n        self.yaml_path = yaml_path\n        self.config = {}\n\n    def flush(self):\n        with open(self.yaml_path, \"w\") as f:\n            self.yaml.dump(self.config, f)\n\n    def set_audio_root(self, audio_root=\"\"):\n        self.config[\"audio_root\"] = audio_root\n\n    def set_vocab_filename(self, vocab_filename: str = \"dict.txt\"):\n        self.config[\"vocab_filename\"] = vocab_filename\n\n    def set_specaugment(\n        self,\n        time_wrap_w: int,\n        freq_mask_n: int,\n        freq_mask_f: int,\n        time_mask_n: int,\n        time_mask_t: int,\n        time_mask_p: float,\n    ):\n        self.config[\"specaugment\"] = {\n            \"time_wrap_W\": time_wrap_w,\n            \"freq_mask_N\": freq_mask_n,\n            \"freq_mask_F\": freq_mask_f,\n            \"time_mask_N\": time_mask_n,\n            \"time_mask_T\": time_mask_t,\n            \"time_mask_p\": time_mask_p,\n        }\n\n    def set_specaugment_lb_policy(self):\n        self.set_specaugment(\n            time_wrap_w=0,\n            freq_mask_n=1,\n            freq_mask_f=27,\n            time_mask_n=1,\n            time_mask_t=100,\n            time_mask_p=1.0,\n        )\n\n    def set_specaugment_ld_policy(self):\n        self.set_specaugment(\n            time_wrap_w=0,\n            freq_mask_n=2,\n            freq_mask_f=27,\n            time_mask_n=2,\n            time_mask_t=100,\n            time_mask_p=1.0,\n        )\n\n    def set_specaugment_sm_policy(self):\n        self.set_specaugment(\n            time_wrap_w=0,\n            freq_mask_n=2,\n            freq_mask_f=15,\n            time_mask_n=2,\n            time_mask_t=70,\n            time_mask_p=0.2,\n        )\n\n    def set_specaugment_ss_policy(self):\n        self.set_specaugment(\n            time_wrap_w=0,\n            freq_mask_n=2,\n            freq_mask_f=27,\n            time_mask_n=2,\n            time_mask_t=70,\n            time_mask_p=0.2,\n        )\n\n    def set_input_channels(self, input_channels: int = 1):\n        self.config[\"input_channels\"] = input_channels\n\n    def set_input_feat_per_channel(self, input_feat_per_channel: int = 80):\n        self.config[\"input_feat_per_channel\"] = input_feat_per_channel\n\n    def set_bpe_tokenizer(self, bpe_tokenizer: Dict[str, Any]):\n        self.config[\"bpe_tokenizer\"] = bpe_tokenizer\n\n    def set_global_cmvn(self, stats_npz_path: str):\n        self.config[\"global_cmvn\"] = {\"stats_npz_path\": stats_npz_path}\n\n    def set_feature_transforms(self, split: str, transforms: List[str]):\n        if \"transforms\" not in self.config:\n            self.config[\"transforms\"] = {}\n        self.config[\"transforms\"][split] = transforms\n\n    def set_prepend_tgt_lang_tag(self, flag: bool = True):\n        self.config[\"prepend_tgt_lang_tag\"] = flag\n\n    def set_sampling_alpha(self, sampling_alpha: float = 1.0):\n        self.config[\"sampling_alpha\"] = sampling_alpha\n\n    def set_extra(self, data):\n        self.config.update(data)\n"
  },
  {
    "path": "examples/speech_to_text/docs/covost_example.md",
    "content": "[[Back]](..)\n\n# S2T Example: ST on CoVoST\n\nWe replicate the experiments in\n[CoVoST 2 and Massively Multilingual Speech-to-Text Translation (Wang et al., 2020)](https://arxiv.org/abs/2007.10310).\n\n## Data Preparation\n\n[Download](https://commonvoice.mozilla.org/en/datasets) and unpack Common Voice v4 to a path\n`${COVOST_ROOT}/${SOURCE_LANG_ID}`, then preprocess it with\n\n```bash\n# additional Python packages for S2T data processing/model training\npip install pandas torchaudio sentencepiece\n\n# En ASR\npython examples/speech_to_text/prep_covost_data.py \\\n  --data-root ${COVOST_ROOT} --vocab-type char --src-lang en\n# ST\npython examples/speech_to_text/prep_covost_data.py \\\n  --data-root ${COVOST_ROOT} --vocab-type char \\\n  --src-lang fr --tgt-lang en\n```\n\nThe generated files (manifest, features, vocabulary and data configuration) will be added to\n`${COVOST_ROOT}/${SOURCE_LANG_ID}`.\n\nDownload our vocabulary files if you want to use our pre-trained models:\n\n- ASR: [En](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_en_asr_vocab_char.zip)\n- ST: [Fr-En](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_fr_en_st_vocab_char.zip), [De-En](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_de_en_st_vocab_char.zip), [Es-En](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_es_en_st_vocab_char.zip), [Ca-En](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_ca_en_st_vocab_char.zip), [En-De](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_en_de_st_vocab_char.zip), [En-Ca](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_en_ca_st_vocab_char.zip), [En-Fa](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_en_fa_st_vocab_char.zip), [En-Et](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_en_et_st_vocab_char.zip)\n\n## ASR\n\n#### Training\n\nWe train an En ASR model for encoder pre-training some of the ST models.\n\n```bash\nfairseq-train ${COVOST_ROOT}/en \\\n  --config-yaml config_asr_en.yaml --train-subset train_asr_en --valid-subset dev_asr_en \\\n  --save-dir ${ASR_SAVE_DIR} --num-workers 4 --max-tokens 50000 --max-update 60000 \\\n  --task speech_to_text --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n  --report-accuracy --arch s2t_transformer_s --dropout 0.15 --optimizer adam --lr 2e-3 \\\n  --lr-scheduler inverse_sqrt --warmup-updates 10000 --clip-norm 10.0 --seed 1 --update-freq 8 \\\n  --attn-type None --pos-enc-type ${POS_ENC_TYPE}\n```\n\nwhere `ASR_SAVE_DIR` is the checkpoint root path and `POS_ENC_TYPE` refers to positional encoding to be used in the conformer encoder.\nSet it to `abs`, `rope` or `rel_pos` to use the absolute positional encoding, rotary positional encoding or relative positional encoding in the conformer layer respectively.\nTransformer encoder only supports absolute positional encoding and by default, the transformer encoder will be used.\nTo switch to conformer, set `--attn-type espnet` and `--POS_ENC_TYPE`. We set `--update-freq 8` to simulate 8 GPUs with 1 GPU. You may want to update it accordingly when using more than 1 GPU.\n\n#### Inference & Evaluation\n\n```bash\nCHECKPOINT_FILENAME=avg_last_10_checkpoint.pt\npython scripts/average_checkpoints.py \\\n  --inputs ${ASR_SAVE_DIR} --num-epoch-checkpoints 10 \\\n  --output \"${ASR_SAVE_DIR}/${CHECKPOINT_FILENAME}\"\nfairseq-generate ${COVOST_ROOT}/en \\\n  --config-yaml config_asr_en.yaml --gen-subset test_asr_en --task speech_to_text \\\n  --path ${ASR_SAVE_DIR}/${CHECKPOINT_FILENAME} --max-tokens 50000 --beam 5 \\\n  --scoring wer --wer-tokenizer 13a --wer-lowercase --wer-remove-punct\n```\n\n#### Results\n\n| --arch | --pos-enc-type | Params | En | Model |\n|---|---|---|---|---|\n| s2t_transformer_s | - | 31M | 25.6 | [Download](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_en_asr_transformer_s.pt) |\n| s2t_conformer | rel_pos | 42.9M | 23.18| [Download](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_asr/rel_pos_asr_checkpoint_best.pt) |\n| s2t_conformer | rope | 42.1M | 23.8| [Download](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_asr/rope_pos_asr_checkpoint_best.pt) |\n| s2t_conformer | abs | 42.1M | 23.8| [Download](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_asr/abs_asr_checkpoint_best.pt) |\n\n## ST\n\n#### Training\n\nFr-En as example:\n\n```bash\nfairseq-train ${COVOST_ROOT}/fr \\\n  --config-yaml config_st_fr_en.yaml --train-subset train_st_fr_en --valid-subset dev_st_fr_en \\\n  --save-dir ${ST_SAVE_DIR} --num-workers 4 --max-update 30000 --max-tokens 40000 \\  # --max-tokens 50000 for en-*\n  --task speech_to_text --criterion label_smoothed_cross_entropy --label-smoothing 0.1 --report-accuracy \\\n  --arch s2t_transformer_s --encoder-freezing-updates 1000 --optimizer adam --lr 2e-3 \\\n  --lr-scheduler inverse_sqrt --warmup-updates 10000 --clip-norm 10.0 --seed 1 --update-freq 8 \\\n  --attn-type None --pos-enc-type ${POS_ENC_TYPE} \\\n  --load-pretrained-encoder-from ${ASR_SAVE_DIR}/${CHECKPOINT_FILENAME}\n```\n\nwhere `ST_SAVE_DIR` is the checkpoint root path and `POS_ENC_TYPE` refers to positional encoding to be used in the conformer encoder.\nSet it to `abs`, `rope` or `rel_pos` to use the absolute positional encoding, rotary positional encoding or relative positional encoding in the conformer layer respectively.\nTransformer encoder only supports absolute positional encoding and by default, the transformer encoder will be used.\nTo switch to conformer, set `--attn-type espnet` and `--POS_ENC_TYPE`. Optionally load the pre-trained En ASR encoder for faster training and better\nperformance: `--load-pretrained-encoder-from <ASR checkpoint path>`. We set `--update-freq 8` to simulate 8 GPUs with 1 GPU.\nYou may want to update it accordingly when using more than 1 GPU.\n\n#### Inference & Evaluation\n\nAverage the last 10 checkpoints and evaluate on test split:\n\n```bash\nCHECKPOINT_FILENAME=avg_last_10_checkpoint.pt\npython scripts/average_checkpoints.py \\\n  --inputs ${ST_SAVE_DIR} --num-epoch-checkpoints 10 \\\n  --output \"${ST_SAVE_DIR}/${CHECKPOINT_FILENAME}\"\nfairseq-generate ${COVOST_ROOT}/fr \\\n  --config-yaml config_st_fr_en.yaml --gen-subset test_st_fr_en --task speech_to_text \\\n  --path ${ST_SAVE_DIR}/${CHECKPOINT_FILENAME} \\\n  --max-tokens 50000 --beam 5 --scoring sacrebleu\n```\n\n## Interactive Decoding\n\nLaunch the interactive console via\n\n```bash\nfairseq-interactive ${COVOST_ROOT}/fr --config-yaml config_st_fr_en.yaml \\\n  --task speech_to_text --path ${SAVE_DIR}/${CHECKPOINT_FILENAME} \\\n  --max-tokens 50000 --beam 5\n```\n\nType in WAV/FLAC/OGG audio paths (one per line) after the prompt.\n\n#### Results\n\n| --arch | --pos-enc-type | Params | ASR PT | Fr-En | De-En | Es-En | Ca-En | En-De | En-Ca | En-Fa | En-Et | Model |\n|---|---|---|---|---|---|---|---|---|---|---|---|---|\n| s2t_transformer | - | 31M | Yes | [27.2](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_fr_en_st_transformer_s.pt) | [17.7](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_de_en_st_transformer_s.pt) | [23.1](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_es_en_st_transformer_s.pt) | [19.3](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_ca_en_st_transformer_s.pt) | [16.1](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_en_de_st_transformer_s.pt) | [21.6](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_en_ca_st_transformer_s.pt) | [12.9](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_en_fa_st_transformer_s.pt) | [12.8](https://dl.fbaipublicfiles.com/fairseq/s2t/covost2_en_et_st_transformer_s.pt) | (<-Download) |\n| s2t_conformer | rel_pos | 42.9M | No | [28.32](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/fr_en/rel_pos_from_scratch_avg_last_10_checkpoint.pt) | [18.21](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/de_en/rel_pos_from_scratch_avg_last_10_checkpoint.pt) | [25.98](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/es_en/rel_pos_from_scratch_avg_last_10_checkpoint.pt) | [21.13](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/ca_en/rel_pos_from_scratch_avg_last_10_checkpoint.pt) | [20.37](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_de/rel_pos_from_scratch_avg_last_10_checkpoint.pt) | [25.89](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_ca/rel_pos_from_scratch_avg_last_10_checkpoint.pt) | [15.59](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_fa/rel_pos_from_scratch_avg_last_10_checkpoint.pt) | [14.49](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_et/rel_pos_from_scratch_avg_last_10_checkpoint.pt) | (<-Download) |\n| s2t_conformer | rel_pos | 42.9M | Yes| [27.15](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/fr_en/rel_pos_asr_pt_avg_last_10_checkpoint.pt) | [18.22](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/de_en/rel_pos_asr_pt_avg_last_10_checkpoint.pt) | [25.14](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/es_en/rel_pos_asr_pt_avg_last_10_checkpoint.pt) | [21.68](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/ca_en/rel_pos_asr_pt_avg_last_10_checkpoint.pt) | [20.35](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_de/rel_pos_asr_pt_avg_last_10_checkpoint.pt) | [25.92](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_ca/rel_pos_asr_pt_avg_last_10_checkpoint.pt) | [15.76](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_fa/rel_pos_asr_pt_avg_last_10_checkpoint.pt) | [16.52](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_et/rel_pos_asr_pt_avg_last_10_checkpoint.pt) | (<-Download) |\n| s2t_conformer | rope | 42.1M | No | [27.61](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/fr_en/rope_from_scratch_avg_last_10_checkpoint.pt) | [17.6](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/de_en/rope_from_scratch_avg_last_10_checkpoint.pt) | [24.91](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/es_en/rope_from_scratch_avg_last_10_checkpoint.pt) | [20.78](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/ca_en/rope_from_scratch_avg_last_10_checkpoint.pt) | [19.7](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_de/rope_from_scratch_avg_last_10_checkpoint.pt) | [25.13](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_ca/rope_from_scratch_avg_last_10_checkpoint.pt) | [15.22](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_fa/rope_from_scratch_avg_last_10_checkpoint.pt) | [15.87](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_et/rope_from_scratch_avg_last_10_checkpoint.pt) | (<-Download) |\n| s2t_conformer | rope | 42.1M | Yes | [26.99](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/fr_en/rope_asr_pt_avg_last_10_checkpoint.pt) | [17.71](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/de_en/rope_asr_pt_avg_last_10_checkpoint.pt) | [24.24](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/es_en/rope_asr_pt_avg_last_10_checkpoint.pt) | [21.24](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/ca_en/rope_asr_pt_avg_last_10_checkpoint.pt) | [19.9](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_de/rope_asr_pt_avg_last_10_checkpoint.pt) | [25.25](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_ca/rope_asr_pt_avg_last_10_checkpoint.pt) | [15.58](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_fa/rope_asr_pt_avg_last_10_checkpoint.pt) | [15.97](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_et/rope_asr_pt_avg_last_10_checkpoint.pt) | (<-Download) |\n| s2t_conformer | abs | 42.1M | No | [27.45](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/fr_en/abs_from_scratch_avg_last_10_checkpoint.pt) | [17.25](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/de_en/abs_from_scratch_avg_last_10_checkpoint.pt) | [25.01](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/es_en/abs_from_scratch_avg_last_10_checkpoint.pt) |  [20.26](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/ca_en/abs_from_scratch_avg_last_10_checkpoint.pt) | [19.86](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_de/abs_from_scratch_avg_last_10_checkpoint.pt) | [25.25](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_ca/abs_from_scratch_avg_last_10_checkpoint.pt) | [15.46](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_fa/abs_from_scratch_avg_last_10_checkpoint.pt) | [15.81](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_et/abs_from_scratch_avg_last_10_checkpoint.pt) | (<-Download) |\n| s2t_conforme | abs | 42.1M | Yes| [26.52](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/fr_en/abs_asr_pt_avg_last_10_checkpoint.pt) | [17.37](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/de_en/abs_asr_pt_avg_last_10_checkpoint.pt) | [25.40](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/es_en/abs_asr_pt_avg_last_10_checkpoint.pt) | [20.45](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/ca_en/abs_asr_pt_avg_last_10_checkpoint.pt) | [19.57](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_de/abs_asr_pt_avg_last_10_checkpoint.pt) | [25.40](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_ca/abs_asr_pt_avg_last_10_checkpoint.pt) | [15.17](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_fa/abs_asr_pt_avg_last_10_checkpoint.pt) | [15.83](https://dl.fbaipublicfiles.com/fairseq/conformer/covost2/en_et/abs_asr_pt_avg_last_10_checkpoint.pt) | (<-Download) |\n\n[[Back]](..)\n"
  },
  {
    "path": "examples/speech_to_text/docs/librispeech_example.md",
    "content": "[[Back]](..)\n\n# S2T Example: Speech Recognition (ASR) on LibriSpeech\n[LibriSpeech](https://www.danielpovey.com/files/2015_icassp_librispeech.pdf) is a de-facto standard English ASR\nbenchmark. We provide competitive\nvanilla [Transformer](https://papers.nips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf) baselines.\n\n## Data preparation\nDownload and preprocess LibriSpeech data with\n```bash\n# additional Python packages for S2T data processing/model training\npip install pandas torchaudio sentencepiece\n\npython examples/speech_to_text/prep_librispeech_data.py \\\n  --output-root ${LS_ROOT} --vocab-type unigram --vocab-size 10000\n```\nwhere `LS_ROOT` is the root path for downloaded data as well as generated files (manifest, features, vocabulary and\ndata configuration).\n\n[Download](https://dl.fbaipublicfiles.com/fairseq/s2t/librispeech_vocab_unigram10000.zip) our vocabulary files\nif you want to use our pre-trained models.\n\n## Training\n```bash\nfairseq-train ${LS_ROOT} --save-dir ${SAVE_DIR} \\\n  --config-yaml config.yaml --train-subset train-clean-100,train-clean-360,train-other-500 --valid-subset dev-clean,dev-other \\\n  --num-workers 4 --max-tokens 40000 --max-update 300000 \\\n  --task speech_to_text --criterion label_smoothed_cross_entropy --label-smoothing 0.1 --report-accuracy \\\n  --arch s2t_transformer_s --share-decoder-input-output-embed \\\n  --optimizer adam --lr 2e-3 --lr-scheduler inverse_sqrt --warmup-updates 10000 \\\n  --clip-norm 10.0 --seed 1 --update-freq 8\n```\nwhere `SAVE_DIR` is the checkpoint root path. Here we use `--arch s2t_transformer_s` (31M parameters) as example.\nFor better performance, you may switch to `s2t_transformer_m` (71M, with `--lr 1e-3`) or `s2t_transformer_l`\n(268M, with `--lr 5e-4`). We set `--update-freq 8` to simulate 8 GPUs with 1 GPU. You may want to update it accordingly\nwhen using more than 1 GPU.\n\n## Inference & Evaluation\nAverage the last 10 checkpoints and evaluate on the 4 splits\n(`dev-clean`, `dev-other`, `test-clean` and `test-other`):\n```bash\nCHECKPOINT_FILENAME=avg_last_10_checkpoint.pt\npython scripts/average_checkpoints.py --inputs ${SAVE_DIR} \\\n  --num-epoch-checkpoints 10 \\\n  --output \"${SAVE_DIR}/${CHECKPOINT_FILENAME}\"\nfor SUBSET in dev-clean dev-other test-clean test-other; do\n  fairseq-generate ${LS_ROOT} --config-yaml config.yaml --gen-subset ${SUBSET} \\\n    --task speech_to_text --path ${SAVE_DIR}/${CHECKPOINT_FILENAME} \\\n    --max-tokens 50000 --beam 5 --scoring wer\ndone\n```\n\n## Interactive Decoding\nLaunch the interactive console via\n```bash\nfairseq-interactive ${LS_ROOT} --config-yaml config.yaml --task speech_to_text \\\n  --path ${SAVE_DIR}/${CHECKPOINT_FILENAME} --max-tokens 50000 --beam 5\n```\nType in WAV/FLAC/OGG audio paths (one per line) after the prompt.\n\n## Results\n\n| --arch | Params | dev-clean | dev-other | test-clean | test-other | Model |\n|---|---|---|---|---|---|---|\n| s2t_transformer_s | 30M | 3.8 | 8.9 | 4.4 | 9.0 | [Download](https://dl.fbaipublicfiles.com/fairseq/s2t/librispeech_transformer_s.pt) |\n| s2t_transformer_m | 71M | 3.2 | 8.0 | 3.4 | 7.9 | [Download](https://dl.fbaipublicfiles.com/fairseq/s2t/librispeech_transformer_m.pt) |\n| s2t_transformer_l | 268M | 3.0 | 7.5 | 3.2 | 7.5 | [Download](https://dl.fbaipublicfiles.com/fairseq/s2t/librispeech_transformer_l.pt) |\n\n[[Back]](..)\n"
  },
  {
    "path": "examples/speech_to_text/docs/mtedx_example.md",
    "content": "[[Back]](..)\n\n# S2T Example: Speech Translation (ST) on Multilingual TEDx\n\n[Multilingual TEDx](https://arxiv.org/abs/2102.01757) is multilingual corpus for speech recognition and\nspeech translation. The data is derived from TEDx talks in 8 source languages\nwith translations to a subset of 5 target languages.\n\n## Data Preparation\n[Download](http://openslr.org/100/) and unpack Multilingual TEDx data to a path\n`${MTEDX_ROOT}/${LANG_PAIR}`, then preprocess it with\n```bash\n# additional Python packages for S2T data processing/model training\npip install pandas torchaudio soundfile sentencepiece\n\n# Generate TSV manifests, features, vocabulary\n# and configuration for each language\npython examples/speech_to_text/prep_mtedx_data.py \\\n  --data-root ${MTEDX_ROOT} --task asr \\\n  --vocab-type unigram --vocab-size 1000\npython examples/speech_to_text/prep_mtedx_data.py \\\n  --data-root ${MTEDX_ROOT} --task st \\\n  --vocab-type unigram --vocab-size 1000\n\n# Add vocabulary and configuration for joint data\n# (based on the manifests and features generated above)\npython examples/speech_to_text/prep_mtedx_data.py \\\n  --data-root ${MTEDX_ROOT} --task asr --joint \\\n  --vocab-type unigram --vocab-size 8000\npython examples/speech_to_text/prep_mtedx_data.py \\\n  --data-root ${MTEDX_ROOT} --task st --joint \\\n  --vocab-type unigram --vocab-size 8000\n```\nThe generated files (manifest, features, vocabulary and data configuration) will be added to\n`${MTEDX_ROOT}/${LANG_PAIR}` (per-language data) and `MTEDX_ROOT` (joint data).\n\n\n## ASR\n#### Training\nSpanish as example:\n```bash\nfairseq-train ${MTEDX_ROOT}/es-es \\\n    --config-yaml config_asr.yaml --train-subset train_asr --valid-subset valid_asr \\\n    --save-dir ${ASR_SAVE_DIR} --num-workers 4 --max-tokens 40000 --max-epoch 200 \\\n    --task speech_to_text --criterion label_smoothed_cross_entropy --report-accuracy \\\n    --arch s2t_transformer_xs --optimizer adam --lr 2e-3 --lr-scheduler inverse_sqrt \\\n    --warmup-updates 10000 --clip-norm 10.0 --seed 1 --dropout 0.3 --label-smoothing 0.1 \\\n    --load-pretrained-encoder-from ${PRETRAINED_ENCODER} \\\n    --skip-invalid-size-inputs-valid-test \\\n    --keep-last-epochs 10 --update-freq 8 --patience 10\n```\nFor joint model (using ASR data from all 8 languages):\n```bash\nfairseq-train ${MTEDX_ROOT} \\\n    --config-yaml config_asr.yaml \\\n    --train-subset train_es-es_asr,train_fr-fr_asr,train_pt-pt_asr,train_it-it_asr,train_ru-ru_asr,train_el-el_asr,train_ar-ar_asr,train_de-de_asr \\\n    --valid-subset valid_es-es_asr,valid_fr-fr_asr,valid_pt-pt_asr,valid_it-it_asr,valid_ru-ru_asr,valid_el-el_asr,valid_ar-ar_asr,valid_de-de_asr \\\n    --save-dir ${MULTILINGUAL_ASR_SAVE_DIR} --num-workers 4 --max-tokens 40000 --max-epoch 200 \\\n    --task speech_to_text --criterion label_smoothed_cross_entropy --report-accuracy \\\n    --arch s2t_transformer_s --optimizer adam --lr 2e-3 --lr-scheduler inverse_sqrt \\\n    --warmup-updates 10000 --clip-norm 10.0 --seed 1 --dropout 0.3 --label-smoothing 0.1 \\\n    --skip-invalid-size-inputs-valid-test \\\n    --keep-last-epochs 10 --update-freq 8 --patience 10 \\\n    --ignore-prefix-size 1\n```\nwhere `MULTILINGUAL_ASR_SAVE_DIR` is the checkpoint root path. We set `--update-freq 8` to simulate 8 GPUs\nwith 1 GPU. You may want to update it accordingly when using more than 1 GPU.\nFor multilingual models, we prepend target language ID token as target BOS, which should be excluded from\nthe training loss via `--ignore-prefix-size 1`.\n\n#### Inference & Evaluation\n```bash\nCHECKPOINT_FILENAME=avg_last_10_checkpoint.pt\npython scripts/average_checkpoints.py \\\n  --inputs ${ASR_SAVE_DIR} --num-epoch-checkpoints 10 \\\n  --output \"${ASR_SAVE_DIR}/${CHECKPOINT_FILENAME}\"\n\nfairseq-generate ${MTEDX_ROOT}/es-es \\\n  --config-yaml config_asr.yaml --gen-subset test --task speech_to_text \\\n  --path ${ASR_SAVE_DIR}/${CHECKPOINT_FILENAME} --max-tokens 50000 --beam 5 \\\n  --skip-invalid-size-inputs-valid-test \\\n  --scoring wer --wer-tokenizer 13a --wer-lowercase --wer-remove-punct --remove-bpe\n\n# For models trained on joint data\nCHECKPOINT_FILENAME=avg_last_10_checkpoint.pt\npython scripts/average_checkpoints.py \\\n  --inputs ${MULTILINGUAL_ASR_SAVE_DIR} --num-epoch-checkpoints 10 \\\n  --output \"${MULTILINGUAL_ASR_SAVE_DIR}/${CHECKPOINT_FILENAME}\"\n\nfor LANG in es fr pt it ru el ar de; do\n  fairseq-generate ${MTEDX_ROOT} \\\n    --config-yaml config_asr.yaml --gen-subset test_${LANG}-${LANG}_asr --task speech_to_text \\\n    --prefix-size 1 --path ${MULTILINGUAL_ASR_SAVE_DIR}/${CHECKPOINT_FILENAME} \\\n    --max-tokens 40000 --beam 5 \\\n    --skip-invalid-size-inputs-valid-test \\\n    --scoring wer --wer-tokenizer 13a --wer-lowercase --wer-remove-punct --remove-bpe\ndone\n```\n#### Results\n| Data         | --arch             | Params |  Es  |  Fr  |  Pt  |  It  |  Ru  |   El  |   Ar  |   De  |\n|--------------|--------------------|--------|------|------|------|------|------|-------|-------|-------|\n| Monolingual  | s2t_transformer_xs |    10M | 46.4 | 45.6 | 54.8 | 48.0 | 74.7 | 109.5 | 104.4 | 111.1 |\n\n\n## ST\n#### Training\nEs-En as example:\n```bash\nfairseq-train ${MTEDX_ROOT}/es-en \\\n    --config-yaml config_st.yaml --train-subset train_st --valid-subset valid_st \\\n    --save-dir ${ST_SAVE_DIR} --num-workers 4 --max-tokens 40000 --max-epoch 200 \\\n    --task speech_to_text --criterion label_smoothed_cross_entropy --report-accuracy \\\n    --arch s2t_transformer_xs --optimizer adam --lr 2e-3 --lr-scheduler inverse_sqrt \\\n    --warmup-updates 10000 --clip-norm 10.0 --seed 1 --dropout 0.3 --label-smoothing 0.1 \\\n    --load-pretrained-encoder-from ${PRETRAINED_ENCODER} \\\n    --skip-invalid-size-inputs-valid-test \\\n    --keep-last-epochs 10 --update-freq 8 --patience 10\n```\nFor multilingual model (all 12 directions):\n```bash\nfairseq-train ${MTEDX_ROOT} \\\n    --config-yaml config_st.yaml \\\n    --train-subset train_el-en_st,train_es-en_st,train_es-fr_st,train_es-it_st,train_es-pt_st,train_fr-en_st,train_fr-es_st,train_fr-pt_st,train_it-en_st,train_it-es_st,train_pt-en_st,train_pt-es_st,train_ru-en_st \\\n    --valid-subset valid_el-en_st,valid_es-en_st,valid_es-fr_st,valid_es-it_st,valid_es-pt_st,valid_fr-en_st,valid_fr-es_st,valid_fr-pt_st,valid_it-en_st,valid_it-es_st,valid_pt-en_st,valid_pt-es_st,valid_ru-en_st \\\n    --save-dir ${MULTILINGUAL_ST_SAVE_DIR} --num-workers 4 --max-tokens 40000 --max-epoch 200 \\\n    --task speech_to_text --criterion label_smoothed_cross_entropy --report-accuracy \\\n    --arch s2t_transformer_s --optimizer adam --lr 2e-3 --lr-scheduler inverse_sqrt \\\n    --warmup-updates 10000 --clip-norm 10.0 --seed 1 --dropout 0.3 --label-smoothing 0.1 \\\n    --skip-invalid-size-inputs-valid-test \\\n    --keep-last-epochs 10 --update-freq 8 --patience 10 \\\n    --ignore-prefix-size 1 \\\n    --load-pretrained-encoder-from ${PRETRAINED_ENCODER}\n```\nwhere `ST_SAVE_DIR` (`MULTILINGUAL_ST_SAVE_DIR`) is the checkpoint root path. The ST encoder is pre-trained by ASR\nfor faster training and better performance: `--load-pretrained-encoder-from <(JOINT_)ASR checkpoint path>`. We set\n`--update-freq 8` to simulate 8 GPUs with 1 GPU. You may want to update it accordingly when using more than 1 GPU.\nFor multilingual models, we prepend target language ID token as target BOS, which should be excluded from\nthe training loss via `--ignore-prefix-size 1`.\n\n#### Inference & Evaluation\nAverage the last 10 checkpoints and evaluate on the `test` split:\n```bash\nCHECKPOINT_FILENAME=avg_last_10_checkpoint.pt\npython scripts/average_checkpoints.py \\\n  --inputs ${ST_SAVE_DIR} --num-epoch-checkpoints 10 \\\n  --output \"${ST_SAVE_DIR}/${CHECKPOINT_FILENAME}\"\n\nfairseq-generate ${MTEDX_ROOT}/es-en \\\n  --config-yaml config_st.yaml --gen-subset test --task speech_to_text \\\n  --path ${ST_SAVE_DIR}/${CHECKPOINT_FILENAME} \\\n  --max-tokens 50000 --beam 5 --scoring sacrebleu --remove-bpe\n\n# For multilingual models\npython scripts/average_checkpoints.py \\\n  --inputs ${MULTILINGUAL_ST_SAVE_DIR} --num-epoch-checkpoints 10 \\\n  --output \"${MULTILINGUAL_ST_SAVE_DIR}/${CHECKPOINT_FILENAME}\"\n\nfor LANGPAIR in es-en es-fr es-pt fr-en fr-es fr-pt pt-en pt-es it-en it-es ru-en el-en; do\n  fairseq-generate ${MTEDX_ROOT} \\\n    --config-yaml config_st.yaml --gen-subset test_${LANGPAIR}_st --task speech_to_text \\\n    --prefix-size 1 --path ${MULTILINGUAL_ST_SAVE_DIR}/${CHECKPOINT_FILENAME} \\\n    --max-tokens 40000 --beam 5 \\\n    --skip-invalid-size-inputs-valid-test \\\n    --scoring sacrebleu --remove-bpe\ndone\n```\nFor multilingual models, we force decoding from the target language ID token (as BOS) via `--prefix-size 1`.\n\n#### Results\n| Data         | --arch          | Params | Es-En | Es-Pt | Es-Fr | Fr-En | Fr-Es | Fr-Pt | Pt-En | Pt-Es | It-En | It-Es | Ru-En | El-En |\n|--------------|--------------------|-----|-------|-------|-------|-------|-------|-------|-------|-------|-------|-------|-------|-------|\n| Bilingual    | s2t_transformer_xs | 10M |  7.0  |  12.2 |  1.7  |  8.9  |  10.6 |  7.9  |  8.1  |  8.7  |   6.4 |  1.0  |  0.7  |  0.6  |\n| Multilingual | s2t_transformer_s  | 31M |  12.3 |  17.4 |   6.1 |  12.0 |  13.6 |  13.2 |  12.0 |  13.7 |  10.7 |  13.1 |  0.6  |  0.8  |\n\n\n## Citation\nPlease cite as:\n```\n@inproceedings{salesky2021mtedx,\n  title={Multilingual TEDx Corpus for Speech Recognition and Translation},\n  author={Elizabeth Salesky and Matthew Wiesner and Jacob Bremerman and Roldano Cattoni and Matteo Negri and Marco Turchi and Douglas W. Oard and Matt Post},\n  booktitle={Proceedings of Interspeech},\n  year={2021},\n}\n\n@inproceedings{wang2020fairseqs2t,\n  title = {fairseq S2T: Fast Speech-to-Text Modeling with fairseq},\n  author = {Changhan Wang and Yun Tang and Xutai Ma and Anne Wu and Dmytro Okhonko and Juan Pino},\n  booktitle = {Proceedings of the 2020 Conference of the Asian Chapter of the Association for Computational Linguistics (AACL): System Demonstrations},\n  year = {2020},\n}\n\n@inproceedings{ott2019fairseq,\n  title = {fairseq: A Fast, Extensible Toolkit for Sequence Modeling},\n  author = {Myle Ott and Sergey Edunov and Alexei Baevski and Angela Fan and Sam Gross and Nathan Ng and David Grangier and Michael Auli},\n  booktitle = {Proceedings of NAACL-HLT 2019: Demonstrations},\n  year = {2019},\n}\n```\n\n[[Back]](..)\n"
  },
  {
    "path": "examples/speech_to_text/docs/mustc_example.md",
    "content": "[[Back]](..)\n\n# S2T Example: Speech Translation (ST) on MuST-C\n\n[MuST-C](https://www.aclweb.org/anthology/N19-1202) is multilingual speech-to-text translation corpus with\n8-language translations on English TED talks. We match the state-of-the-art performance in\n[ESPNet-ST](https://arxiv.org/pdf/2004.10234.pdf) with a simpler model training pipeline.\n\n## Data Preparation\n[Download](https://ict.fbk.eu/must-c) and unpack MuST-C data to a path\n`${MUSTC_ROOT}/en-${TARGET_LANG_ID}`, then preprocess it with\n```bash\n# additional Python packages for S2T data processing/model training\npip install pandas torchaudio soundfile sentencepiece\n\n# Generate TSV manifests, features, vocabulary\n# and configuration for each language\npython examples/speech_to_text/prep_mustc_data.py \\\n  --data-root ${MUSTC_ROOT} --task asr \\\n  --vocab-type unigram --vocab-size 5000\npython examples/speech_to_text/prep_mustc_data.py \\\n  --data-root ${MUSTC_ROOT} --task st \\\n  --vocab-type unigram --vocab-size 8000\n\n# Add vocabulary and configuration for joint data\n# (based on the manifests and features generated above)\npython examples/speech_to_text/prep_mustc_data.py \\\n  --data-root ${MUSTC_ROOT} --task asr --joint \\\n  --vocab-type unigram --vocab-size 10000\npython examples/speech_to_text/prep_mustc_data.py \\\n  --data-root ${MUSTC_ROOT} --task st --joint \\\n  --vocab-type unigram --vocab-size 10000\n```\nThe generated files (manifest, features, vocabulary and data configuration) will be added to\n`${MUSTC_ROOT}/en-${TARGET_LANG_ID}` (per-language data) and `MUSTC_ROOT` (joint data).\n\nDownload our vocabulary files if you want to use our pre-trained models:\n- ASR: [En-De](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_de_asr_vocab_unigram5000.zip), [En-Nl](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_nl_asr_vocab_unigram5000.zip), [En-Es](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_es_asr_vocab_unigram5000.zip), [En-Fr](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_fr_asr_vocab_unigram5000.zip), [En-It](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_it_asr_vocab_unigram5000.zip), [En-Pt](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_pt_asr_vocab_unigram5000.zip), [En-Ro](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_ro_asr_vocab_unigram5000.zip), [En-Ru](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_ru_asr_vocab_unigram5000.zip), [Joint](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_joint_asr_vocab_unigram10000.zip)\n- ST: [En-De](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_de_st_vocab_unigram8000.zip), [En-Nl](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_nl_st_vocab_unigram8000.zip), [En-Es](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_es_st_vocab_unigram8000.zip), [En-Fr](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_fr_st_vocab_unigram8000.zip), [En-It](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_it_st_vocab_unigram8000.zip), [En-Pt](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_pt_st_vocab_unigram8000.zip), [En-Ro](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_ro_st_vocab_unigram8000.zip), [En-Ru](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_ru_st_vocab_unigram8000.zip), [Multilingual](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_multilingual_st_vocab_unigram10000.zip)\n\n## ASR\n#### Training\nEn-De as example:\n```bash\nfairseq-train ${MUSTC_ROOT}/en-de \\\n  --config-yaml config_asr.yaml --train-subset train_asr --valid-subset dev_asr \\\n  --save-dir ${ASR_SAVE_DIR} --num-workers 4 --max-tokens 40000 --max-update 100000 \\\n  --task speech_to_text --criterion label_smoothed_cross_entropy --label-smoothing 0.1 --report-accuracy \\\n  --arch s2t_transformer_s --optimizer adam --lr 1e-3 --lr-scheduler inverse_sqrt \\\n  --warmup-updates 10000 --clip-norm 10.0 --seed 1 --update-freq 8\n```\nFor joint model (using ASR data from all 8 directions):\n```bash\nfairseq-train ${MUSTC_ROOT} \\\n  --config-yaml config_asr.yaml \\\n  --train-subset train_de_asr,train_nl_asr,train_es_asr,train_fr_asr,train_it_asr,train_pt_asr,train_ro_asr,train_ru_asr \\\n  --valid-subset dev_de_asr,dev_nl_asr,dev_es_asr,dev_fr_asr,dev_it_asr,dev_pt_asr,dev_ro_asr,dev_ru_asr \\\n  --save-dir ${JOINT_ASR_SAVE_DIR} --num-workers 4 --max-tokens 40000 --max-update 100000 \\\n  --task speech_to_text --criterion label_smoothed_cross_entropy --label-smoothing 0.1 --report-accuracy \\\n  --arch s2t_transformer_s --optimizer adam --lr 1e-3 --lr-scheduler inverse_sqrt \\\n  --warmup-updates 10000 --clip-norm 10.0 --seed 1 --update-freq 8\n```\nwhere `ASR_SAVE_DIR` (`JOINT_ASR_SAVE_DIR`) is the checkpoint root path. We set `--update-freq 8` to simulate 8 GPUs\nwith 1 GPU. You may want to update it accordingly when using more than 1 GPU.\n\n#### Inference & Evaluation\n```bash\nCHECKPOINT_FILENAME=avg_last_10_checkpoint.pt\npython scripts/average_checkpoints.py \\\n  --inputs ${ASR_SAVE_DIR} --num-epoch-checkpoints 10 \\\n  --output \"${ASR_SAVE_DIR}/${CHECKPOINT_FILENAME}\"\nfairseq-generate ${MUSTC_ROOT}/en-de \\\n  --config-yaml config_asr.yaml --gen-subset tst-COMMON_asr --task speech_to_text \\\n  --path ${ASR_SAVE_DIR}/${CHECKPOINT_FILENAME} --max-tokens 50000 --beam 5 \\\n  --scoring wer --wer-tokenizer 13a --wer-lowercase --wer-remove-punct\n\n# For models trained on joint data\npython scripts/average_checkpoints.py \\\n  --inputs ${JOINT_ASR_SAVE_DIR} --num-epoch-checkpoints 10 \\\n  --output \"${JOINT_ASR_SAVE_DIR}/${CHECKPOINT_FILENAME}\"\nfor LANG in de nl es fr it pt ro ru; do\n  fairseq-generate ${MUSTC_ROOT} \\\n  --config-yaml config_asr.yaml --gen-subset tst-COMMON_${LANG}_asr --task speech_to_text \\\n    --path ${JOINT_ASR_SAVE_DIR}/${CHECKPOINT_FILENAME} --max-tokens 50000 --beam 5 \\\n    --scoring wer --wer-tokenizer 13a --wer-lowercase --wer-remove-punct\ndone\n```\n#### Results\n| Data | --arch | Params | En-De | En-Nl | En-Es | En-Fr | En-It | En-Pt | En-Ro | En-Ru | Model |\n|---|---|---|---|---|---|---|---|---|---|---|---|\n| Single | s2t_transformer_s | 31M | [18.2](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_de_asr_transformer_s.pt) | [17.6](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_nl_asr_transformer_s.pt) | [17.7](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_es_asr_transformer_s.pt) | [17.2](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_fr_asr_transformer_s.pt) | [17.9](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_it_asr_transformer_s.pt) | [19.1](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_pt_asr_transformer_s.pt) | [18.1](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_ro_asr_transformer_s.pt) | [17.7](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_ru_asr_transformer_s.pt) | (<-Download) |\n| Joint | s2t_transformer_m | 76M | 16.8 | 16.7 | 16.9 | 16.9 | 17.0 | 17.4 | 17.0 | 16.9 | [Download](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_joint_asr_transformer_m.pt) |\n\n## ST\n#### Training\nEn-De as example:\n```bash\nfairseq-train ${MUSTC_ROOT}/en-de \\\n  --config-yaml config_st.yaml --train-subset train_st --valid-subset dev_st \\\n  --save-dir ${ST_SAVE_DIR} --num-workers 4 --max-tokens 40000 --max-update 100000 \\\n  --task speech_to_text --criterion label_smoothed_cross_entropy --label-smoothing 0.1 --report-accuracy \\\n  --arch s2t_transformer_s --optimizer adam --lr 2e-3 --lr-scheduler inverse_sqrt \\\n  --warmup-updates 10000 --clip-norm 10.0 --seed 1 --update-freq 8 \\\n  --load-pretrained-encoder-from ${ASR_SAVE_DIR}/${CHECKPOINT_FILENAME}\n```\nFor multilingual model (all 8 directions):\n```bash\nfairseq-train ${MUSTC_ROOT} \\\n  --config-yaml config_st.yaml \\\n  --train-subset train_de_st,train_nl_st,train_es_st,train_fr_st,train_it_st,train_pt_st,train_ro_st,train_ru_st \\\n  --valid-subset dev_de_st,dev_nl_st,dev_es_st,dev_fr_st,dev_it_st,dev_pt_st,dev_ro_st,dev_ru_st \\\n  --save-dir ${MULTILINGUAL_ST_SAVE_DIR} --num-workers 4 --max-tokens 40000 --max-update 100000 \\\n  --task speech_to_text --criterion label_smoothed_cross_entropy --label-smoothing 0.1 --report-accuracy \\\n  --arch s2t_transformer_s --ignore-prefix-size 1 --optimizer adam --lr 2e-3 --lr-scheduler inverse_sqrt \\\n  --warmup-updates 10000 --clip-norm 10.0 --seed 1 --update-freq 8 \\\n  --load-pretrained-encoder-from ${JOINT_ASR_SAVE_DIR}/${CHECKPOINT_FILENAME}\n```\nwhere `ST_SAVE_DIR` (`MULTILINGUAL_ST_SAVE_DIR`) is the checkpoint root path. The ST encoder is pre-trained by ASR\nfor faster training and better performance: `--load-pretrained-encoder-from <(JOINT_)ASR checkpoint path>`. We set\n`--update-freq 8` to simulate 8 GPUs with 1 GPU. You may want to update it accordingly when using more than 1 GPU.\nFor multilingual models, we prepend target language ID token as target BOS, which should be excluded from\nthe training loss via `--ignore-prefix-size 1`.\n\n#### Inference & Evaluation\nAverage the last 10 checkpoints and evaluate on the `tst-COMMON` split:\n```bash\nCHECKPOINT_FILENAME=avg_last_10_checkpoint.pt\npython scripts/average_checkpoints.py \\\n  --inputs ${ST_SAVE_DIR} --num-epoch-checkpoints 10 \\\n  --output \"${ST_SAVE_DIR}/${CHECKPOINT_FILENAME}\"\nfairseq-generate ${MUSTC_ROOT}/en-de \\\n  --config-yaml config_st.yaml --gen-subset tst-COMMON_st --task speech_to_text \\\n  --path ${ST_SAVE_DIR}/${CHECKPOINT_FILENAME} \\\n  --max-tokens 50000 --beam 5 --scoring sacrebleu\n\n# For multilingual models\npython scripts/average_checkpoints.py \\\n  --inputs ${MULTILINGUAL_ST_SAVE_DIR} --num-epoch-checkpoints 10 \\\n  --output \"${MULTILINGUAL_ST_SAVE_DIR}/${CHECKPOINT_FILENAME}\"\nfor LANG in de nl es fr it pt ro ru; do\n  fairseq-generate ${MUSTC_ROOT} \\\n    --config-yaml config_st.yaml --gen-subset tst-COMMON_${LANG}_st --task speech_to_text \\\n    --prefix-size 1 --path ${MULTILINGUAL_ST_SAVE_DIR}/${CHECKPOINT_FILENAME} \\\n    --max-tokens 50000 --beam 5 --scoring sacrebleu\ndone\n```\nFor multilingual models, we force decoding from the target language ID token (as BOS) via `--prefix-size 1`.\n\n#### Results\n| Data | --arch | Params | En-De | En-Nl | En-Es | En-Fr | En-It | En-Pt | En-Ro | En-Ru | Model |\n|---|---|---|---|---|---|---|---|---|---|---|---|\n| Bilingual | s2t_transformer_s | 31M | [22.7](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_de_st_transformer_s.pt) | [27.3](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_nl_st_transformer_s.pt) | [27.2](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_es_st_transformer_s.pt) | [32.9](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_fr_st_transformer_s.pt) | [22.7](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_it_st_transformer_s.pt) | [28.1](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_pt_st_transformer_s.pt) | [21.9](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_ro_st_transformer_s.pt) | [15.3](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_ru_st_transformer_s.pt) | (<-Download) |\n| Multilingual | s2t_transformer_m | 76M | 24.5 | 28.6 | 28.2 | 34.9 | 24.6 | 31.1 | 23.8 | 16.0 | [Download](https://dl.fbaipublicfiles.com/fairseq/s2t/mustc_multilingual_st_transformer_m.pt) |\n\n[[Back]](..)\n"
  },
  {
    "path": "examples/speech_to_text/docs/simulst_mustc_example.md",
    "content": "# Simultaneous Speech Translation (SimulST) on MuST-C\n\nThis is a tutorial of training and evaluating a transformer *wait-k* simultaneous model on MUST-C English-Germen Dataset, from [SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation](https://www.aclweb.org/anthology/2020.aacl-main.58.pdf).\n\n[MuST-C](https://www.aclweb.org/anthology/N19-1202) is multilingual speech-to-text translation corpus with 8-language translations on English TED talks.\n\n## Data Preparation\nThis section introduces the data preparation for training and evaluation.\nIf you only want to evaluate the model, please jump to [Inference & Evaluation](#inference--evaluation)\n\n[Download](https://ict.fbk.eu/must-c) and unpack MuST-C data to a path\n`${MUSTC_ROOT}/en-${TARGET_LANG_ID}`, then preprocess it with\n```bash\n# Additional Python packages for S2T data processing/model training\npip install pandas torchaudio sentencepiece\n\n# Generate TSV manifests, features, vocabulary,\n# global cepstral and mean estimation,\n# and configuration for each language\ncd fairseq\n\npython examples/speech_to_text/prep_mustc_data.py \\\n  --data-root ${MUSTC_ROOT} --task asr \\\n  --vocab-type unigram --vocab-size 10000 \\\n  --cmvn-type global\n\npython examples/speech_to_text/prep_mustc_data.py \\\n  --data-root ${MUSTC_ROOT} --task st \\\n  --vocab-type unigram --vocab-size 10000 \\\n  --cmvn-type global\n```\n\n## ASR Pretraining\nWe need a pretrained offline ASR model. Assuming the save directory of the ASR model is `${ASR_SAVE_DIR}`.\nThe following command (and the subsequent training commands in this tutorial) assume training on 1 GPU (you can also train on 8 GPUs and remove the `--update-freq 8` option).\n```\nfairseq-train ${MUSTC_ROOT}/en-de \\\n  --config-yaml config_asr.yaml --train-subset train_asr --valid-subset dev_asr \\\n  --save-dir ${ASR_SAVE_DIR} --num-workers 4 --max-tokens 40000 --max-update 100000 \\\n  --task speech_to_text --criterion label_smoothed_cross_entropy --report-accuracy \\\n  --arch convtransformer_espnet --optimizer adam --lr 0.0005 --lr-scheduler inverse_sqrt \\\n  --warmup-updates 10000 --clip-norm 10.0 --seed 1 --update-freq 8\n```\nA pretrained ASR checkpoint can be downloaded [here](https://dl.fbaipublicfiles.com/simultaneous_translation/must_c_v1_en_de_pretrained_asr)\n\n## Simultaneous Speech Translation Training\n\n### Wait-K with fixed pre-decision module\nFixed pre-decision indicates that the model operate simultaneous policy on the boundaries of fixed chunks.\nHere is a example of fixed pre-decision ratio 7 (the simultaneous decision is made every 7 encoder states) and\na wait-3 policy model. Assuming the save directory is `${ST_SAVE_DIR}`\n```bash\n fairseq-train ${MUSTC_ROOT}/en-de \\\n        --config-yaml config_st.yaml --train-subset train_st --valid-subset dev_st \\\n        --save-dir ${ST_SAVE_DIR} --num-workers 8  \\\n        --optimizer adam --lr 0.0001 --lr-scheduler inverse_sqrt --clip-norm 10.0 \\\n        --criterion label_smoothed_cross_entropy \\\n        --warmup-updates 4000 --max-update 100000 --max-tokens 40000 --seed 2 \\\n        --load-pretrained-encoder-from ${ASR_SAVE_DIR}/checkpoint_best.pt \\\n        --task speech_to_text  \\\n        --arch convtransformer_simul_trans_espnet  \\\n        --simul-type waitk_fixed_pre_decision  \\\n        --waitk-lagging 3 \\\n        --fixed-pre-decision-ratio 7 \\\n        --update-freq 8\n\n```\n### Monotonic multihead attention with fixed pre-decision module\n```\n fairseq-train ${MUSTC_ROOT}/en-de \\\n        --config-yaml config_st.yaml --train-subset train_st --valid-subset dev_st \\\n        --save-dir ${ST_SAVE_DIR} --num-workers 8  \\\n        --optimizer adam --lr 0.0001 --lr-scheduler inverse_sqrt --clip-norm 10.0 \\\n        --warmup-updates 4000 --max-update 100000 --max-tokens 40000 --seed 2 \\\n        --load-pretrained-encoder-from ${ASR_SAVE_DIR}/${CHECKPOINT_FILENAME} \\\n        --task speech_to_text  \\\n        --criterion latency_augmented_label_smoothed_cross_entropy \\\n        --latency-weight-avg 0.1 \\\n        --arch convtransformer_simul_trans_espnet  \\\n        --simul-type infinite_lookback_fixed_pre_decision  \\\n        --fixed-pre-decision-ratio 7 \\\n        --update-freq 8\n```\n## Inference & Evaluation\n[SimulEval](https://github.com/facebookresearch/SimulEval) is used for evaluation.\nThe following command is for evaluation.\n\n```\ngit clone https://github.com/facebookresearch/SimulEval.git\ncd SimulEval\npip install -e .\n\nsimuleval \\\n    --agent ${FAIRSEQ}/examples/speech_to_text/simultaneous_translation/agents/fairseq_simul_st_agent.py\n    --source ${SRC_LIST_OF_AUDIO}\n    --target ${TGT_FILE}\n    --data-bin ${MUSTC_ROOT}/en-de \\\n    --config config_st.yaml \\\n    --model-path ${ST_SAVE_DIR}/${CHECKPOINT_FILENAME} \\\n    --output ${OUTPUT} \\\n    --scores\n```\n\nThe source file `${SRC_LIST_OF_AUDIO}` is a list of paths of audio files. Assuming your audio files stored at `/home/user/data`,\nit should look like this\n\n```bash\n/home/user/data/audio-1.wav\n/home/user/data/audio-2.wav\n```\n\nEach line of target file `${TGT_FILE}` is the translation for each audio file input.\n```bash\nTranslation_1\nTranslation_2\n```\nThe evaluation runs on the original MUSTC segmentation.\nThe following command will generate the wav list and text file for a evaluation set `${SPLIT}` (chose from `dev`, `tst-COMMON` and `tst-HE`) in MUSTC to `${EVAL_DATA}`.\n```bash\npython ${FAIRSEQ}/examples/speech_to_text/seg_mustc_data.py \\\n  --data-root ${MUSTC_ROOT} --lang de \\\n  --split ${SPLIT} --task st \\\n  --output ${EVAL_DATA}\n```\n\nThe `--data-bin` and `--config` should be the same in previous section if you prepare the data from the scratch.\nIf only for evaluation, a prepared data directory can be found [here](https://dl.fbaipublicfiles.com/simultaneous_translation/must_c_v1.0_en_de_databin.tgz). It contains\n- `spm_unigram10000_st.model`: a sentencepiece model binary.\n- `spm_unigram10000_st.txt`: the dictionary file generated by the sentencepiece model.\n- `gcmvn.npz`: the binary for global cepstral mean and variance.\n- `config_st.yaml`: the config yaml file. It looks like this.\nYou will need to set the absolute paths for `sentencepiece_model` and `stats_npz_path` if the data directory is downloaded.\n```yaml\nbpe_tokenizer:\n  bpe: sentencepiece\n  sentencepiece_model: ABS_PATH_TO_SENTENCEPIECE_MODEL\nglobal_cmvn:\n  stats_npz_path: ABS_PATH_TO_GCMVN_FILE\ninput_channels: 1\ninput_feat_per_channel: 80\nsampling_alpha: 1.0\nspecaugment:\n  freq_mask_F: 27\n  freq_mask_N: 1\n  time_mask_N: 1\n  time_mask_T: 100\n  time_mask_p: 1.0\n  time_wrap_W: 0\ntransforms:\n  '*':\n  - global_cmvn\n  _train:\n  - global_cmvn\n  - specaugment\nvocab_filename: spm_unigram10000_st.txt\n```\n\nNotice that once a `--data-bin` is set, the `--config` is the base name of the config yaml, not the full path.\n\nSet `--model-path` to the model checkpoint.\nA pretrained checkpoint can be downloaded from [here](https://dl.fbaipublicfiles.com/simultaneous_translation/convtransformer_wait5_pre7), which is a wait-5 model with a pre-decision of 280 ms.\n\nThe result of this model on `tst-COMMON` is:\n```bash\n{\n    \"Quality\": {\n        \"BLEU\": 13.94974229366959\n    },\n    \"Latency\": {\n        \"AL\": 1751.8031870037803,\n        \"AL_CA\": 2338.5911762796536,\n        \"AP\": 0.7931395378788959,\n        \"AP_CA\": 0.9405103863210942,\n        \"DAL\": 1987.7811616943081,\n        \"DAL_CA\": 2425.2751560926167\n    }\n}\n```\n\nIf `--output ${OUTPUT}` option is used, the detailed log and scores will be stored under the `${OUTPUT}` directory.\n\n\nThe quality is measured by detokenized BLEU. So make sure that the predicted words sent to the server are detokenized.\n\nThe latency metrics are\n* Average Proportion\n* Average Lagging\n* Differentiable Average Lagging\n\nAgain they will also be evaluated on detokenized text.\n"
  },
  {
    "path": "examples/speech_to_text/prep_covost_data.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nfrom pathlib import Path\nimport shutil\nfrom tempfile import NamedTemporaryFile\nfrom typing import Optional, Tuple\n\nimport pandas as pd\nimport torchaudio\nfrom examples.speech_to_text.data_utils import (\n    create_zip,\n    extract_fbank_features,\n    filter_manifest_df,\n    gen_config_yaml,\n    gen_vocab,\n    get_zip_manifest,\n    load_df_from_tsv,\n    save_df_to_tsv,\n)\nfrom torch import Tensor\nfrom torch.utils.data import Dataset\nfrom torchaudio.datasets.utils import download_url, extract_archive\nfrom tqdm import tqdm\n\n\nlog = logging.getLogger(__name__)\n\n\nMANIFEST_COLUMNS = [\"id\", \"audio\", \"n_frames\", \"tgt_text\", \"speaker\"]\n\n\nclass CoVoST(Dataset):\n    \"\"\"Create a Dataset for CoVoST (https://github.com/facebookresearch/covost).\n\n    Args:\n        root (str): root path to the dataset and generated manifests/features\n        source_language (str): source (audio) language\n        target_language (str, optional): target (text) language,\n        None for no translation (default: None)\n        version (int, optional): CoVoST version. (default: 2)\n        download (bool, optional): Whether to download the dataset if it is not\n        found at root path. (default: ``False``).\n    \"\"\"\n\n    COVOST_URL_TEMPLATE = (\n        \"https://dl.fbaipublicfiles.com/covost/\"\n        \"covost_v2.{src_lang}_{tgt_lang}.tsv.tar.gz\"\n    )\n\n    VERSIONS = {2}\n    SPLITS = [\"train\", \"dev\", \"test\"]\n\n    XX_EN_LANGUAGES = {\n        1: [\"fr\", \"de\", \"nl\", \"ru\", \"es\", \"it\", \"tr\", \"fa\", \"sv-SE\", \"mn\", \"zh-CN\"],\n        2: [\n            \"fr\",\n            \"de\",\n            \"es\",\n            \"ca\",\n            \"it\",\n            \"ru\",\n            \"zh-CN\",\n            \"pt\",\n            \"fa\",\n            \"et\",\n            \"mn\",\n            \"nl\",\n            \"tr\",\n            \"ar\",\n            \"sv-SE\",\n            \"lv\",\n            \"sl\",\n            \"ta\",\n            \"ja\",\n            \"id\",\n            \"cy\",\n        ],\n    }\n    EN_XX_LANGUAGES = {\n        1: [],\n        2: [\n            \"de\",\n            \"tr\",\n            \"fa\",\n            \"sv-SE\",\n            \"mn\",\n            \"zh-CN\",\n            \"cy\",\n            \"ca\",\n            \"sl\",\n            \"et\",\n            \"id\",\n            \"ar\",\n            \"ta\",\n            \"lv\",\n            \"ja\",\n        ],\n    }\n\n    def __init__(\n        self,\n        root: str,\n        split: str,\n        source_language: str,\n        target_language: Optional[str] = None,\n        version: int = 2,\n    ) -> None:\n        assert version in self.VERSIONS and split in self.SPLITS\n        assert source_language is not None\n        self.no_translation = target_language is None\n        if not self.no_translation:\n            assert \"en\" in {source_language, target_language}\n            if source_language == \"en\":\n                assert target_language in self.EN_XX_LANGUAGES[version]\n            else:\n                assert source_language in self.XX_EN_LANGUAGES[version]\n        else:\n            # Hack here so that we can get \"split\" column from CoVoST TSV.\n            # Note that we use CoVoST train split for ASR which is an extension\n            # to Common Voice train split.\n            target_language = \"de\" if source_language == \"en\" else \"en\"\n\n        self.root: Path = Path(root)\n\n        cv_tsv_path = self.root / \"validated.tsv\"\n        assert cv_tsv_path.is_file()\n\n        covost_url = self.COVOST_URL_TEMPLATE.format(\n            src_lang=source_language, tgt_lang=target_language\n        )\n        covost_archive = self.root / Path(covost_url).name\n        if not covost_archive.is_file():\n            download_url(covost_url, self.root.as_posix(), hash_value=None)\n        extract_archive(covost_archive.as_posix())\n\n        cv_tsv = load_df_from_tsv(cv_tsv_path)\n        covost_tsv = load_df_from_tsv(\n            self.root / Path(covost_url).name.replace(\".tar.gz\", \"\")\n        )\n        df = pd.merge(\n            left=cv_tsv[[\"path\", \"sentence\", \"client_id\"]],\n            right=covost_tsv[[\"path\", \"translation\", \"split\"]],\n            how=\"inner\",\n            on=\"path\",\n        )\n        if split == \"train\":\n            df = df[(df[\"split\"] == split) | (df[\"split\"] == f\"{split}_covost\")]\n        else:\n            df = df[df[\"split\"] == split]\n        data = df.to_dict(orient=\"index\").items()\n        data = [v for k, v in sorted(data, key=lambda x: x[0])]\n        self.data = []\n        for e in data:\n            try:\n                path = self.root / \"clips\" / e[\"path\"]\n                _ = torchaudio.info(path.as_posix())\n                self.data.append(e)\n            except RuntimeError:\n                pass\n\n    def __getitem__(\n        self, n: int\n    ) -> Tuple[Tensor, int, str, str, Optional[str], str, str]:\n        \"\"\"Load the n-th sample from the dataset.\n\n        Args:\n            n (int): The index of the sample to be loaded\n\n        Returns:\n            tuple: ``(waveform, sample_rate, sentence, translation, speaker_id,\n            sample_id)``\n        \"\"\"\n        data = self.data[n]\n        path = self.root / \"clips\" / data[\"path\"]\n        waveform, sample_rate = torchaudio.load(path)\n        sentence = data[\"sentence\"]\n        translation = None if self.no_translation else data[\"translation\"]\n        speaker_id = data[\"client_id\"]\n        _id = data[\"path\"].replace(\".mp3\", \"\")\n        return waveform, sample_rate, sentence, translation, speaker_id, _id\n\n    def __len__(self) -> int:\n        return len(self.data)\n\n\ndef process(args):\n    root = Path(args.data_root).absolute() / args.src_lang\n    if not root.is_dir():\n        raise NotADirectoryError(f\"{root} does not exist\")\n    # Extract features\n    feature_root = root / \"fbank80\"\n    feature_root.mkdir(exist_ok=True)\n    for split in CoVoST.SPLITS:\n        print(f\"Fetching split {split}...\")\n        dataset = CoVoST(root, split, args.src_lang, args.tgt_lang)\n        print(\"Extracting log mel filter bank features...\")\n        for waveform, sample_rate, _, _, _, utt_id in tqdm(dataset):\n            extract_fbank_features(\n                waveform, sample_rate, feature_root / f\"{utt_id}.npy\"\n            )\n    # Pack features into ZIP\n    zip_path = root / \"fbank80.zip\"\n    print(\"ZIPing features...\")\n    create_zip(feature_root, zip_path)\n    print(\"Fetching ZIP manifest...\")\n    audio_paths, audio_lengths = get_zip_manifest(zip_path)\n    # Generate TSV manifest\n    print(\"Generating manifest...\")\n    train_text = []\n    task = f\"asr_{args.src_lang}\"\n    if args.tgt_lang is not None:\n        task = f\"st_{args.src_lang}_{args.tgt_lang}\"\n    for split in CoVoST.SPLITS:\n        manifest = {c: [] for c in MANIFEST_COLUMNS}\n        dataset = CoVoST(root, split, args.src_lang, args.tgt_lang)\n        for _, _, src_utt, tgt_utt, speaker_id, utt_id in tqdm(dataset):\n            manifest[\"id\"].append(utt_id)\n            manifest[\"audio\"].append(audio_paths[utt_id])\n            manifest[\"n_frames\"].append(audio_lengths[utt_id])\n            manifest[\"tgt_text\"].append(src_utt if args.tgt_lang is None else tgt_utt)\n            manifest[\"speaker\"].append(speaker_id)\n        is_train_split = split.startswith(\"train\")\n        if is_train_split:\n            train_text.extend(manifest[\"tgt_text\"])\n        df = pd.DataFrame.from_dict(manifest)\n        df = filter_manifest_df(df, is_train_split=is_train_split)\n        save_df_to_tsv(df, root / f\"{split}_{task}.tsv\")\n    # Generate vocab\n    vocab_size_str = \"\" if args.vocab_type == \"char\" else str(args.vocab_size)\n    spm_filename_prefix = f\"spm_{args.vocab_type}{vocab_size_str}_{task}\"\n    with NamedTemporaryFile(mode=\"w\") as f:\n        for t in train_text:\n            f.write(t + \"\\n\")\n        gen_vocab(\n            Path(f.name),\n            root / spm_filename_prefix,\n            args.vocab_type,\n            args.vocab_size\n        )\n    # Generate config YAML\n    gen_config_yaml(\n        root,\n        spm_filename=spm_filename_prefix + \".model\",\n        yaml_filename=f\"config_{task}.yaml\",\n        specaugment_policy=\"lb\",\n    )\n    # Clean up\n    shutil.rmtree(feature_root)\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--data-root\", \"-d\", required=True, type=str,\n        help=\"data root with sub-folders for each language <root>/<src_lang>\"\n    )\n    parser.add_argument(\n        \"--vocab-type\",\n        default=\"unigram\",\n        required=True,\n        type=str,\n        choices=[\"bpe\", \"unigram\", \"char\"],\n    ),\n    parser.add_argument(\"--vocab-size\", default=1000, type=int)\n    parser.add_argument(\"--src-lang\", \"-s\", required=True, type=str)\n    parser.add_argument(\"--tgt-lang\", \"-t\", type=str)\n    args = parser.parse_args()\n\n    process(args)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_to_text/prep_librispeech_data.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nfrom pathlib import Path\nimport shutil\nfrom tempfile import NamedTemporaryFile\n\nimport pandas as pd\nfrom examples.speech_to_text.data_utils import (\n    create_zip,\n    extract_fbank_features,\n    gen_config_yaml,\n    gen_vocab,\n    get_zip_manifest,\n    save_df_to_tsv,\n)\nfrom torchaudio.datasets import LIBRISPEECH\nfrom tqdm import tqdm\n\n\nlog = logging.getLogger(__name__)\n\nSPLITS = [\n    \"train-clean-100\",\n    \"train-clean-360\",\n    \"train-other-500\",\n    \"dev-clean\",\n    \"dev-other\",\n    \"test-clean\",\n    \"test-other\",\n]\n\nMANIFEST_COLUMNS = [\"id\", \"audio\", \"n_frames\", \"tgt_text\", \"speaker\"]\n\n\ndef process(args):\n    out_root = Path(args.output_root).absolute()\n    out_root.mkdir(exist_ok=True)\n    # Extract features\n    feature_root = out_root / \"fbank80\"\n    feature_root.mkdir(exist_ok=True)\n    for split in SPLITS:\n        print(f\"Fetching split {split}...\")\n        dataset = LIBRISPEECH(out_root.as_posix(), url=split, download=True)\n        print(\"Extracting log mel filter bank features...\")\n        for wav, sample_rate, _, spk_id, chapter_no, utt_no in tqdm(dataset):\n            sample_id = f\"{spk_id}-{chapter_no}-{utt_no}\"\n            extract_fbank_features(\n                wav, sample_rate, feature_root / f\"{sample_id}.npy\"\n            )\n    # Pack features into ZIP\n    zip_path = out_root / \"fbank80.zip\"\n    print(\"ZIPing features...\")\n    create_zip(feature_root, zip_path)\n    print(\"Fetching ZIP manifest...\")\n    audio_paths, audio_lengths = get_zip_manifest(zip_path)\n    # Generate TSV manifest\n    print(\"Generating manifest...\")\n    train_text = []\n    for split in SPLITS:\n        manifest = {c: [] for c in MANIFEST_COLUMNS}\n        dataset = LIBRISPEECH(out_root.as_posix(), url=split)\n        for _, _, utt, spk_id, chapter_no, utt_no in tqdm(dataset):\n            sample_id = f\"{spk_id}-{chapter_no}-{utt_no}\"\n            manifest[\"id\"].append(sample_id)\n            manifest[\"audio\"].append(audio_paths[sample_id])\n            manifest[\"n_frames\"].append(audio_lengths[sample_id])\n            manifest[\"tgt_text\"].append(utt.lower())\n            manifest[\"speaker\"].append(spk_id)\n        save_df_to_tsv(\n            pd.DataFrame.from_dict(manifest), out_root / f\"{split}.tsv\"\n        )\n        if split.startswith(\"train\"):\n            train_text.extend(manifest[\"tgt_text\"])\n    # Generate vocab\n    vocab_size = \"\" if args.vocab_type == \"char\" else str(args.vocab_size)\n    spm_filename_prefix = f\"spm_{args.vocab_type}{vocab_size}\"\n    with NamedTemporaryFile(mode=\"w\") as f:\n        for t in train_text:\n            f.write(t + \"\\n\")\n        gen_vocab(\n            Path(f.name),\n            out_root / spm_filename_prefix,\n            args.vocab_type,\n            args.vocab_size,\n        )\n    # Generate config YAML\n    gen_config_yaml(\n        out_root,\n        spm_filename=spm_filename_prefix + \".model\",\n        specaugment_policy=\"ld\"\n    )\n    # Clean up\n    shutil.rmtree(feature_root)\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--output-root\", \"-o\", required=True, type=str)\n    parser.add_argument(\n        \"--vocab-type\",\n        default=\"unigram\",\n        required=True,\n        type=str,\n        choices=[\"bpe\", \"unigram\", \"char\"],\n    ),\n    parser.add_argument(\"--vocab-size\", default=10000, type=int)\n    args = parser.parse_args()\n\n    process(args)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_to_text/prep_mtedx_data.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nimport os\nfrom pathlib import Path\nimport shutil\nfrom itertools import groupby\nfrom tempfile import NamedTemporaryFile\nfrom typing import Tuple\n\nimport pandas as pd\nimport soundfile as sf\nfrom examples.speech_to_text.data_utils import (\n    create_zip,\n    extract_fbank_features,\n    filter_manifest_df,\n    gen_config_yaml,\n    gen_vocab,\n    get_zip_manifest,\n    load_df_from_tsv,\n    save_df_to_tsv,\n)\nimport torch\nfrom torch.utils.data import Dataset\nfrom tqdm import tqdm\n\nfrom fairseq.data.audio.audio_utils import get_waveform, convert_waveform\n\n\nlog = logging.getLogger(__name__)\n\n\nMANIFEST_COLUMNS = [\n    \"id\", \"audio\", \"n_frames\", \"tgt_text\", \"speaker\", \"tgt_lang\"\n]\n\n\nclass mTEDx(Dataset):\n    \"\"\"\n    Create a Dataset for Multilingual TEDx.\n    Each item is a tuple of the form: waveform, sample_rate, source utterance,\n    target utterance, speaker_id, utterance_id\n    \"\"\"\n\n    SPLITS = [\"train\", \"valid\", \"test\"]\n    LANGPAIRS = [\"es-es\", \"fr-fr\", \"pt-pt\", \"it-it\", \"ru-ru\", \"el-el\", \"ar-ar\",\n                 \"de-de\", \"es-en\", \"es-fr\", \"es-pt\", \"es-it\", \"fr-en\", \"fr-es\",\n                 \"fr-pt\", \"pt-en\", \"pt-es\", \"it-en\", \"it-es\", \"ru-en\", \"el-en\"]\n\n    def __init__(self, root: str, lang: str, split: str) -> None:\n        assert split in self.SPLITS and lang in self.LANGPAIRS\n        _root = Path(root) / f\"{lang}\" / \"data\" / split\n        wav_root, txt_root = _root / \"wav\", _root / \"txt\"\n        assert _root.is_dir() and wav_root.is_dir() and txt_root.is_dir()\n        # Load audio segments\n        try:\n            import yaml\n        except ImportError:\n            print(\n                \"Please install PyYAML to load the Multilingual TEDx YAML files\"\n            )\n        with open(txt_root / f\"{split}.yaml\") as f:\n            segments = yaml.load(f, Loader=yaml.BaseLoader)\n        # Load source and target utterances\n        src, tgt = lang.split(\"-\")\n        for _lang in [src, tgt]:\n            with open(txt_root / f\"{split}.{_lang}\") as f:\n                utterances = [r.strip() for r in f]\n            assert len(segments) == len(utterances)\n            for i, u in enumerate(utterances):\n                segments[i][_lang] = u\n        # Gather info\n        self.data = []\n        for wav_filename, _seg_group in groupby(segments, lambda x: x[\"wav\"]):\n            wav_filename = wav_filename.replace(\".wav\", \".flac\")\n            wav_path = wav_root / wav_filename\n            sample_rate = sf.info(wav_path.as_posix()).samplerate\n            seg_group = sorted(_seg_group, key=lambda x: float(x[\"offset\"]))\n            for i, segment in enumerate(seg_group):\n                offset = int(float(segment[\"offset\"]) * sample_rate)\n                n_frames = int(float(segment[\"duration\"]) * sample_rate)\n                _id = f\"{wav_path.stem}_{i}\"\n                self.data.append(\n                    (\n                        wav_path.as_posix(),\n                        offset,\n                        n_frames,\n                        sample_rate,\n                        segment[src],\n                        segment[tgt],\n                        segment[\"speaker_id\"],\n                        tgt,\n                        _id,\n                    )\n                )\n\n    def __getitem__(\n            self, n: int\n    ) -> Tuple[torch.Tensor, int, str, str, str, str, str]:\n        wav_path, offset, n_frames, sr, src_utt, tgt_utt, spk_id, tgt_lang, \\\n            utt_id = self.data[n]\n        waveform, _ = get_waveform(wav_path, frames=n_frames, start=offset)\n        waveform = torch.from_numpy(waveform)\n        return waveform, sr, src_utt, tgt_utt, spk_id, tgt_lang, utt_id\n\n    def __len__(self) -> int:\n        return len(self.data)\n\n\ndef process(args):\n    root = Path(args.data_root).absolute()\n    for lang in mTEDx.LANGPAIRS:\n        cur_root = root / f\"{lang}\"\n        if not cur_root.is_dir():\n            print(f\"{cur_root.as_posix()} does not exist. Skipped.\")\n            continue\n        # Extract features\n        audio_root = cur_root / (\"flac\" if args.use_audio_input else \"fbank80\")\n        audio_root.mkdir(exist_ok=True)\n        for split in mTEDx.SPLITS:\n            print(f\"Fetching split {split}...\")\n            dataset = mTEDx(root.as_posix(), lang, split)\n            if args.use_audio_input:\n                print(\"Converting audios...\")\n                for waveform, sample_rate, _, _, _, utt_id in tqdm(dataset):\n                    tgt_sample_rate = 16_000\n                    _wavform, _ = convert_waveform(\n                        waveform, sample_rate, to_mono=True,\n                        to_sample_rate=tgt_sample_rate\n                    )\n                    sf.write(\n                        (audio_root / f\"{utt_id}.flac\").as_posix(),\n                        _wavform.numpy(), tgt_sample_rate\n                    )\n            else:\n                print(\"Extracting log mel filter bank features...\")\n                for waveform, sample_rate, _, _, _, _, utt_id in tqdm(dataset):\n                    extract_fbank_features(\n                        waveform, sample_rate, audio_root / f\"{utt_id}.npy\"\n                    )\n        # Pack features into ZIP\n        zip_path = cur_root / f\"{audio_root.name}.zip\"\n        print(\"ZIPing audios/features...\")\n        create_zip(audio_root, zip_path)\n        print(\"Fetching ZIP manifest...\")\n        audio_paths, audio_lengths = get_zip_manifest(zip_path)\n        # Generate TSV manifest\n        print(\"Generating manifest...\")\n        train_text = []\n        for split in mTEDx.SPLITS:\n            is_train_split = split.startswith(\"train\")\n            manifest = {c: [] for c in MANIFEST_COLUMNS}\n            ds = mTEDx(args.data_root, lang, split)\n            for _, _, src_utt, tgt_utt, spk_id, tgt_lang, utt_id in tqdm(ds):\n                manifest[\"id\"].append(utt_id)\n                manifest[\"audio\"].append(audio_paths[utt_id])\n                manifest[\"n_frames\"].append(audio_lengths[utt_id])\n                manifest[\"tgt_text\"].append(\n                    src_utt if args.task == \"asr\" else tgt_utt\n                )\n                manifest[\"speaker\"].append(spk_id)\n                manifest[\"tgt_lang\"].append(tgt_lang)\n            if is_train_split:\n                train_text.extend(manifest[\"tgt_text\"])\n            df = pd.DataFrame.from_dict(manifest)\n            df = filter_manifest_df(df, is_train_split=is_train_split)\n            save_df_to_tsv(df, cur_root / f\"{split}_{args.task}.tsv\")\n        # Generate vocab\n        v_size_str = \"\" if args.vocab_type == \"char\" else str(args.vocab_size)\n        spm_filename_prefix = f\"spm_{args.vocab_type}{v_size_str}_{args.task}\"\n        with NamedTemporaryFile(mode=\"w\") as f:\n            for t in train_text:\n                f.write(t + \"\\n\")\n            gen_vocab(\n                Path(f.name),\n                cur_root / spm_filename_prefix,\n                args.vocab_type,\n                args.vocab_size,\n            )\n        # Generate config YAML\n        if args.use_audio_input:\n            gen_config_yaml(\n                cur_root,\n                spm_filename=spm_filename_prefix + \".model\",\n                yaml_filename=f\"config_{args.task}.yaml\",\n                specaugment_policy=None,\n                extra={\"use_audio_input\": True}\n            )\n        else:\n            gen_config_yaml(\n                cur_root,\n                spm_filename=spm_filename_prefix + \".model\",\n                yaml_filename=f\"config_{args.task}.yaml\",\n                specaugment_policy=\"lb\",\n            )\n        # Clean up\n        shutil.rmtree(audio_root)\n\n\ndef process_joint(args):\n    cur_root = Path(args.data_root)\n    assert all((cur_root / f\"{lang}\").is_dir() for lang in mTEDx.LANGPAIRS), \\\n        \"do not have downloaded data available for all languages\"\n    # Generate vocab\n    vocab_size_str = \"\" if args.vocab_type == \"char\" else str(args.vocab_size)\n    spm_filename_prefix = f\"spm_{args.vocab_type}{vocab_size_str}_{args.task}\"\n    with NamedTemporaryFile(mode=\"w\") as f:\n        for lang in mTEDx.LANGPAIRS:\n            tsv_path = cur_root / f\"{lang}\" / f\"train_{args.task}.tsv\"\n            df = load_df_from_tsv(tsv_path)\n            for t in df[\"tgt_text\"]:\n                f.write(t + \"\\n\")\n        special_symbols = None\n        if args.joint:\n            # Add tgt_lang tags to dict\n            special_symbols = list(\n                {f'<lang:{lang.split(\"-\")[1]}>' for lang in mTEDx.LANGPAIRS}\n            )\n        gen_vocab(\n            Path(f.name),\n            cur_root / spm_filename_prefix,\n            args.vocab_type,\n            args.vocab_size,\n            special_symbols=special_symbols\n        )\n    # Generate config YAML\n    gen_config_yaml(\n        cur_root,\n        spm_filename=spm_filename_prefix + \".model\",\n        yaml_filename=f\"config_{args.task}.yaml\",\n        specaugment_policy=\"ld\",\n        prepend_tgt_lang_tag=(args.joint),\n    )\n    # Make symbolic links to manifests\n    for lang in mTEDx.LANGPAIRS:\n        for split in mTEDx.SPLITS:\n            src_path = cur_root / f\"{lang}\" / f\"{split}_{args.task}.tsv\"\n            desc_path = cur_root / f\"{split}_{lang}_{args.task}.tsv\"\n            if not desc_path.is_symlink():\n                os.symlink(src_path, desc_path)\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--data-root\", \"-d\", required=True, type=str)\n    parser.add_argument(\n        \"--vocab-type\",\n        default=\"unigram\",\n        required=True,\n        type=str,\n        choices=[\"bpe\", \"unigram\", \"char\"],\n    ),\n    parser.add_argument(\"--vocab-size\", default=8000, type=int)\n    parser.add_argument(\"--task\", type=str, choices=[\"asr\", \"st\"])\n    parser.add_argument(\"--joint\", action=\"store_true\", help=\"\")\n    parser.add_argument(\"--use-audio-input\", action=\"store_true\")\n    args = parser.parse_args()\n\n    if args.joint:\n        process_joint(args)\n    else:\n        process(args)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_to_text/prep_mustc_data.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nimport os\nfrom pathlib import Path\nimport shutil\nfrom itertools import groupby\nfrom tempfile import NamedTemporaryFile\nfrom typing import Tuple\n\nimport numpy as np\nimport pandas as pd\nimport soundfile as sf\nfrom examples.speech_to_text.data_utils import (\n    create_zip,\n    extract_fbank_features,\n    filter_manifest_df,\n    gen_config_yaml,\n    gen_vocab,\n    get_zip_manifest,\n    load_df_from_tsv,\n    save_df_to_tsv,\n    cal_gcmvn_stats,\n)\nimport torch\nfrom torch.utils.data import Dataset\nfrom tqdm import tqdm\n\nfrom fairseq.data.audio.audio_utils import get_waveform, convert_waveform\n\n\nlog = logging.getLogger(__name__)\n\n\nMANIFEST_COLUMNS = [\"id\", \"audio\", \"n_frames\", \"tgt_text\", \"speaker\"]\n\n\nclass MUSTC(Dataset):\n    \"\"\"\n    Create a Dataset for MuST-C. Each item is a tuple of the form:\n    waveform, sample_rate, source utterance, target utterance, speaker_id,\n    utterance_id\n    \"\"\"\n\n    SPLITS = [\"train\", \"dev\", \"tst-COMMON\", \"tst-HE\"]\n    LANGUAGES = [\"de\", \"es\", \"fr\", \"it\", \"nl\", \"pt\", \"ro\", \"ru\"]\n\n    def __init__(self, root: str, lang: str, split: str) -> None:\n        assert split in self.SPLITS and lang in self.LANGUAGES\n        _root = Path(root) / f\"en-{lang}\" / \"data\" / split\n        wav_root, txt_root = _root / \"wav\", _root / \"txt\"\n        assert _root.is_dir() and wav_root.is_dir() and txt_root.is_dir()\n        # Load audio segments\n        try:\n            import yaml\n        except ImportError:\n            print(\"Please install PyYAML to load the MuST-C YAML files\")\n        with open(txt_root / f\"{split}.yaml\") as f:\n            segments = yaml.load(f, Loader=yaml.BaseLoader)\n        # Load source and target utterances\n        for _lang in [\"en\", lang]:\n            with open(txt_root / f\"{split}.{_lang}\") as f:\n                utterances = [r.strip() for r in f]\n            assert len(segments) == len(utterances)\n            for i, u in enumerate(utterances):\n                segments[i][_lang] = u\n        # Gather info\n        self.data = []\n        for wav_filename, _seg_group in groupby(segments, lambda x: x[\"wav\"]):\n            wav_path = wav_root / wav_filename\n            sample_rate = sf.info(wav_path.as_posix()).samplerate\n            seg_group = sorted(_seg_group, key=lambda x: x[\"offset\"])\n            for i, segment in enumerate(seg_group):\n                offset = int(float(segment[\"offset\"]) * sample_rate)\n                n_frames = int(float(segment[\"duration\"]) * sample_rate)\n                _id = f\"{wav_path.stem}_{i}\"\n                self.data.append(\n                    (\n                        wav_path.as_posix(),\n                        offset,\n                        n_frames,\n                        sample_rate,\n                        segment[\"en\"],\n                        segment[lang],\n                        segment[\"speaker_id\"],\n                        _id,\n                    )\n                )\n\n    def __getitem__(\n            self, n: int\n    ) -> Tuple[torch.Tensor, int, str, str, str, str]:\n        wav_path, offset, n_frames, sr, src_utt, tgt_utt, spk_id, \\\n            utt_id = self.data[n]\n        waveform, _ = get_waveform(wav_path, frames=n_frames, start=offset)\n        waveform = torch.from_numpy(waveform)\n        return waveform, sr, src_utt, tgt_utt, spk_id, utt_id\n\n    def __len__(self) -> int:\n        return len(self.data)\n\n\ndef process(args):\n    root = Path(args.data_root).absolute()\n    for lang in MUSTC.LANGUAGES:\n        cur_root = root / f\"en-{lang}\"\n        if not cur_root.is_dir():\n            print(f\"{cur_root.as_posix()} does not exist. Skipped.\")\n            continue\n        # Extract features\n        audio_root = cur_root / (\"flac\" if args.use_audio_input else \"fbank80\")\n        audio_root.mkdir(exist_ok=True)\n\n        for split in MUSTC.SPLITS:\n            print(f\"Fetching split {split}...\")\n            dataset = MUSTC(root.as_posix(), lang, split)\n            if args.use_audio_input:\n                print(\"Converting audios...\")\n                for waveform, sample_rate, _, _, _, utt_id in tqdm(dataset):\n                    tgt_sample_rate = 16_000\n                    _wavform, _ = convert_waveform(\n                        waveform, sample_rate, to_mono=True,\n                        to_sample_rate=tgt_sample_rate\n                    )\n                    sf.write(\n                        (audio_root / f\"{utt_id}.flac\").as_posix(),\n                        _wavform.T.numpy(), tgt_sample_rate\n                    )\n            else:\n                print(\"Extracting log mel filter bank features...\")\n                gcmvn_feature_list = []\n                if split == 'train' and args.cmvn_type == \"global\":\n                    print(\"And estimating cepstral mean and variance stats...\")\n\n                for waveform, sample_rate, _, _, _, utt_id in tqdm(dataset):\n                    features = extract_fbank_features(\n                        waveform, sample_rate, audio_root / f\"{utt_id}.npy\"\n                    )\n                    if split == 'train' and args.cmvn_type == \"global\":\n                        if len(gcmvn_feature_list) < args.gcmvn_max_num:\n                            gcmvn_feature_list.append(features)\n\n                if split == 'train' and args.cmvn_type == \"global\":\n                    # Estimate and save cmv\n                    stats = cal_gcmvn_stats(gcmvn_feature_list)\n                    with open(cur_root / \"gcmvn.npz\", \"wb\") as f:\n                        np.savez(f, mean=stats[\"mean\"], std=stats[\"std\"])\n\n        # Pack features into ZIP\n        zip_path = cur_root / f\"{audio_root.name}.zip\"\n        print(\"ZIPing audios/features...\")\n        create_zip(audio_root, zip_path)\n        print(\"Fetching ZIP manifest...\")\n        audio_paths, audio_lengths = get_zip_manifest(\n            zip_path,\n            is_audio=args.use_audio_input,\n        )\n        # Generate TSV manifest\n        print(\"Generating manifest...\")\n        train_text = []\n        for split in MUSTC.SPLITS:\n            is_train_split = split.startswith(\"train\")\n            manifest = {c: [] for c in MANIFEST_COLUMNS}\n            dataset = MUSTC(args.data_root, lang, split)\n            for _, _, src_utt, tgt_utt, speaker_id, utt_id in tqdm(dataset):\n                manifest[\"id\"].append(utt_id)\n                manifest[\"audio\"].append(audio_paths[utt_id])\n                manifest[\"n_frames\"].append(audio_lengths[utt_id])\n                manifest[\"tgt_text\"].append(\n                    src_utt if args.task == \"asr\" else tgt_utt\n                )\n                manifest[\"speaker\"].append(speaker_id)\n            if is_train_split:\n                train_text.extend(manifest[\"tgt_text\"])\n            df = pd.DataFrame.from_dict(manifest)\n            df = filter_manifest_df(df, is_train_split=is_train_split)\n            save_df_to_tsv(df, cur_root / f\"{split}_{args.task}.tsv\")\n        # Generate vocab\n        v_size_str = \"\" if args.vocab_type == \"char\" else str(args.vocab_size)\n        spm_filename_prefix = f\"spm_{args.vocab_type}{v_size_str}_{args.task}\"\n        with NamedTemporaryFile(mode=\"w\") as f:\n            for t in train_text:\n                f.write(t + \"\\n\")\n            gen_vocab(\n                Path(f.name),\n                cur_root / spm_filename_prefix,\n                args.vocab_type,\n                args.vocab_size,\n            )\n        # Generate config YAML\n        if args.use_audio_input:\n            gen_config_yaml(\n                cur_root,\n                spm_filename=spm_filename_prefix + \".model\",\n                yaml_filename=f\"config_{args.task}.yaml\",\n                specaugment_policy=None,\n                extra={\"use_audio_input\": True}\n            )\n        else:\n            gen_config_yaml(\n                cur_root,\n                spm_filename=spm_filename_prefix + \".model\",\n                yaml_filename=f\"config_{args.task}.yaml\",\n                specaugment_policy=\"lb\",\n                cmvn_type=args.cmvn_type,\n                gcmvn_path=(\n                    cur_root / \"gcmvn.npz\" if args.cmvn_type == \"global\"\n                    else None\n                ),\n            )\n        # Clean up\n        shutil.rmtree(audio_root)\n\n\ndef process_joint(args):\n    cur_root = Path(args.data_root)\n    assert all(\n        (cur_root / f\"en-{lang}\").is_dir() for lang in MUSTC.LANGUAGES\n    ), \"do not have downloaded data available for all 8 languages\"\n    # Generate vocab\n    vocab_size_str = \"\" if args.vocab_type == \"char\" else str(args.vocab_size)\n    spm_filename_prefix = f\"spm_{args.vocab_type}{vocab_size_str}_{args.task}\"\n    with NamedTemporaryFile(mode=\"w\") as f:\n        for lang in MUSTC.LANGUAGES:\n            tsv_path = cur_root / f\"en-{lang}\" / f\"train_{args.task}.tsv\"\n            df = load_df_from_tsv(tsv_path)\n            for t in df[\"tgt_text\"]:\n                f.write(t + \"\\n\")\n        special_symbols = None\n        if args.task == 'st':\n            special_symbols = [f'<lang:{lang}>' for lang in MUSTC.LANGUAGES]\n        gen_vocab(\n            Path(f.name),\n            cur_root / spm_filename_prefix,\n            args.vocab_type,\n            args.vocab_size,\n            special_symbols=special_symbols\n        )\n    # Generate config YAML\n    gen_config_yaml(\n        cur_root,\n        spm_filename=spm_filename_prefix + \".model\",\n        yaml_filename=f\"config_{args.task}.yaml\",\n        specaugment_policy=\"ld\",\n        prepend_tgt_lang_tag=(args.task == \"st\"),\n    )\n    # Make symbolic links to manifests\n    for lang in MUSTC.LANGUAGES:\n        for split in MUSTC.SPLITS:\n            src_path = cur_root / f\"en-{lang}\" / f\"{split}_{args.task}.tsv\"\n            desc_path = cur_root / f\"{split}_{lang}_{args.task}.tsv\"\n            if not desc_path.is_symlink():\n                os.symlink(src_path, desc_path)\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--data-root\", \"-d\", required=True, type=str)\n    parser.add_argument(\n        \"--vocab-type\",\n        default=\"unigram\",\n        required=True,\n        type=str,\n        choices=[\"bpe\", \"unigram\", \"char\"],\n    ),\n    parser.add_argument(\"--vocab-size\", default=8000, type=int)\n    parser.add_argument(\"--task\", type=str, choices=[\"asr\", \"st\"])\n    parser.add_argument(\"--joint\", action=\"store_true\", help=\"\")\n    parser.add_argument(\n        \"--cmvn-type\", default=\"utterance\",\n        choices=[\"global\", \"utterance\"],\n        help=\"The type of cepstral mean and variance normalization\"\n    )\n    parser.add_argument(\n        \"--gcmvn-max-num\", default=150000, type=int,\n        help=\"Maximum number of sentences to use to estimate global mean and \"\n             \"variance\"\n        )\n    parser.add_argument(\"--use-audio-input\", action=\"store_true\")\n    args = parser.parse_args()\n\n    if args.joint:\n        process_joint(args)\n    else:\n        process(args)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/speech_to_text/seg_mustc_data.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nfrom pathlib import Path\nimport soundfile as sf\nfrom examples.speech_to_text.prep_mustc_data import (\n    MUSTC\n)\n\nfrom tqdm import tqdm\n\nlog = logging.getLogger(__name__)\n\n\ndef main(args):\n    root = Path(args.data_root).absolute()\n    lang = args.lang\n    split = args.split\n\n    cur_root = root / f\"en-{lang}\"\n    assert cur_root.is_dir(), (\n        f\"{cur_root.as_posix()} does not exist. Skipped.\"\n    )\n\n    dataset = MUSTC(root.as_posix(), lang, split)\n    output = Path(args.output).absolute()\n    output.mkdir(exist_ok=True)\n    f_text = open(output / f\"{split}.{lang}\", \"w\")\n    f_wav_list = open(output / f\"{split}.wav_list\", \"w\")\n    for waveform, sample_rate, _, text, _, utt_id in tqdm(dataset):\n        sf.write(\n            output / f\"{utt_id}.wav\",\n            waveform.squeeze(0).numpy(),\n            samplerate=int(sample_rate)\n        )\n        f_text.write(text + \"\\n\")\n        f_wav_list.write(str(output / f\"{utt_id}.wav\") + \"\\n\")\n\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--data-root\", \"-d\", required=True, type=str)\n    parser.add_argument(\"--task\", required=True, type=str, choices=[\"asr\", \"st\"])\n    parser.add_argument(\"--lang\", required=True, type=str)\n    parser.add_argument(\"--output\", required=True, type=str)\n    parser.add_argument(\"--split\", required=True, choices=MUSTC.SPLITS)\n    args = parser.parse_args()\n\n    main(args)\n"
  },
  {
    "path": "examples/speech_to_text/simultaneous_translation/agents/fairseq_simul_st_agent.py",
    "content": "import math\nimport os\nimport json\nimport numpy as np\nimport torch\nimport torchaudio.compliance.kaldi as kaldi\nimport yaml\nfrom fairseq import checkpoint_utils, tasks\nfrom fairseq.file_io import PathManager\n\ntry:\n    from simuleval import READ_ACTION, WRITE_ACTION, DEFAULT_EOS\n    from simuleval.agents import SpeechAgent\n    from simuleval.states import ListEntry, SpeechStates\nexcept ImportError:\n    print(\"Please install simuleval 'pip install simuleval'\")\n\nSHIFT_SIZE = 10\nWINDOW_SIZE = 25\nSAMPLE_RATE = 16000\nFEATURE_DIM = 80\nBOW_PREFIX = \"\\u2581\"\n\n\nclass OnlineFeatureExtractor:\n    \"\"\"\n    Extract speech feature on the fly.\n    \"\"\"\n\n    def __init__(self, args):\n        self.shift_size = args.shift_size\n        self.window_size = args.window_size\n        assert self.window_size >= self.shift_size\n\n        self.sample_rate = args.sample_rate\n        self.feature_dim = args.feature_dim\n        self.num_samples_per_shift = int(self.shift_size * self.sample_rate / 1000)\n        self.num_samples_per_window = int(self.window_size * self.sample_rate / 1000)\n        self.len_ms_to_samples = lambda x: x * self.sample_rate / 1000\n        self.previous_residual_samples = []\n        self.global_cmvn = args.global_cmvn\n\n    def clear_cache(self):\n        self.previous_residual_samples = []\n\n    def __call__(self, new_samples):\n        samples = self.previous_residual_samples + new_samples\n        if len(samples) < self.num_samples_per_window:\n            self.previous_residual_samples = samples\n            return\n\n        # num_frames is the number of frames from the new segment\n        num_frames = math.floor(\n            (len(samples) - self.len_ms_to_samples(self.window_size - self.shift_size))\n            / self.num_samples_per_shift\n        )\n\n        # the number of frames used for feature extraction\n        # including some part of thte previous segment\n        effective_num_samples = int(\n            num_frames * self.len_ms_to_samples(self.shift_size)\n            + self.len_ms_to_samples(self.window_size - self.shift_size)\n        )\n\n        input_samples = samples[:effective_num_samples]\n        self.previous_residual_samples = samples[\n            num_frames * self.num_samples_per_shift:\n        ]\n\n        torch.manual_seed(1)\n        output = kaldi.fbank(\n            torch.FloatTensor(input_samples).unsqueeze(0),\n            num_mel_bins=self.feature_dim,\n            frame_length=self.window_size,\n            frame_shift=self.shift_size,\n        ).numpy()\n\n        output = self.transform(output)\n\n        return torch.from_numpy(output)\n\n    def transform(self, input):\n        if self.global_cmvn is None:\n            return input\n\n        mean = self.global_cmvn[\"mean\"]\n        std = self.global_cmvn[\"std\"]\n\n        x = np.subtract(input, mean)\n        x = np.divide(x, std)\n        return x\n\n\nclass TensorListEntry(ListEntry):\n    \"\"\"\n    Data structure to store a list of tensor.\n    \"\"\"\n\n    def append(self, value):\n\n        if len(self.value) == 0:\n            self.value = value\n            return\n\n        self.value = torch.cat([self.value] + [value], dim=0)\n\n    def info(self):\n        return {\n            \"type\": str(self.new_value_type),\n            \"length\": self.__len__(),\n            \"value\": \"\" if type(self.value) is list else self.value.size(),\n        }\n\n\nclass FairseqSimulSTAgent(SpeechAgent):\n\n    speech_segment_size = 40  # in ms, 4 pooling ratio * 10 ms step size\n\n    def __init__(self, args):\n        super().__init__(args)\n\n        self.eos = DEFAULT_EOS\n\n        self.gpu = getattr(args, \"gpu\", False)\n\n        self.args = args\n\n        self.load_model_vocab(args)\n\n        if getattr(\n            self.model.decoder.layers[0].encoder_attn,\n            'pre_decision_ratio',\n            None\n        ) is not None:\n            self.speech_segment_size *= (\n                self.model.decoder.layers[0].encoder_attn.pre_decision_ratio\n            )\n\n        args.global_cmvn = None\n        if args.config:\n            with open(os.path.join(args.data_bin, args.config), \"r\") as f:\n                config = yaml.load(f, Loader=yaml.BaseLoader)\n\n            if \"global_cmvn\" in config:\n                args.global_cmvn = np.load(config[\"global_cmvn\"][\"stats_npz_path\"])\n\n        if args.global_stats:\n            with PathManager.open(args.global_stats, \"r\") as f:\n                global_cmvn = json.loads(f.read())\n                self.global_cmvn = {\"mean\": global_cmvn[\"mean\"], \"std\": global_cmvn[\"stddev\"]}\n\n        self.feature_extractor = OnlineFeatureExtractor(args)\n\n        self.max_len = args.max_len\n\n        self.force_finish = args.force_finish\n\n        torch.set_grad_enabled(False)\n\n    def build_states(self, args, client, sentence_id):\n        # Initialize states here, for example add customized entry to states\n        # This function will be called at beginning of every new sentence\n        states = SpeechStates(args, client, sentence_id, self)\n        self.initialize_states(states)\n        return states\n\n    def to_device(self, tensor):\n        if self.gpu:\n            return tensor.cuda()\n        else:\n            return tensor.cpu()\n\n    @staticmethod\n    def add_args(parser):\n        # fmt: off\n        parser.add_argument('--model-path', type=str, required=True,\n                            help='path to your pretrained model.')\n        parser.add_argument(\"--data-bin\", type=str, required=True,\n                            help=\"Path of data binary\")\n        parser.add_argument(\"--config\", type=str, default=None,\n                            help=\"Path to config yaml file\")\n        parser.add_argument(\"--global-stats\", type=str, default=None,\n                            help=\"Path to json file containing cmvn stats\")\n        parser.add_argument(\"--tgt-splitter-type\", type=str, default=\"SentencePiece\",\n                            help=\"Subword splitter type for target text\")\n        parser.add_argument(\"--tgt-splitter-path\", type=str, default=None,\n                            help=\"Subword splitter model path for target text\")\n        parser.add_argument(\"--user-dir\", type=str, default=\"examples/simultaneous_translation\",\n                            help=\"User directory for simultaneous translation\")\n        parser.add_argument(\"--max-len\", type=int, default=200,\n                            help=\"Max length of translation\")\n        parser.add_argument(\"--force-finish\", default=False, action=\"store_true\",\n                            help=\"Force the model to finish the hypothsis if the source is not finished\")\n        parser.add_argument(\"--shift-size\", type=int, default=SHIFT_SIZE,\n                            help=\"Shift size of feature extraction window.\")\n        parser.add_argument(\"--window-size\", type=int, default=WINDOW_SIZE,\n                            help=\"Window size of feature extraction window.\")\n        parser.add_argument(\"--sample-rate\", type=int, default=SAMPLE_RATE,\n                            help=\"Sample rate\")\n        parser.add_argument(\"--feature-dim\", type=int, default=FEATURE_DIM,\n                            help=\"Acoustic feature dimension.\")\n\n        # fmt: on\n        return parser\n\n    def load_model_vocab(self, args):\n\n        filename = args.model_path\n        if not os.path.exists(filename):\n            raise IOError(\"Model file not found: {}\".format(filename))\n\n        state = checkpoint_utils.load_checkpoint_to_cpu(filename)\n\n        task_args = state[\"cfg\"][\"task\"]\n        task_args.data = args.data_bin\n\n        if args.config is not None:\n            task_args.config_yaml = args.config\n\n        task = tasks.setup_task(task_args)\n\n        # build model for ensemble\n        state[\"cfg\"][\"model\"].load_pretrained_encoder_from = None\n        state[\"cfg\"][\"model\"].load_pretrained_decoder_from = None\n        self.model = task.build_model(state[\"cfg\"][\"model\"])\n        self.model.load_state_dict(state[\"model\"], strict=True)\n        self.model.eval()\n        self.model.share_memory()\n\n        if self.gpu:\n            self.model.cuda()\n\n        # Set dictionary\n        self.dict = {}\n        self.dict[\"tgt\"] = task.target_dictionary\n\n    def initialize_states(self, states):\n        self.feature_extractor.clear_cache()\n        states.units.source = TensorListEntry()\n        states.units.target = ListEntry()\n        states.incremental_states = dict()\n\n    def segment_to_units(self, segment, states):\n        # Convert speech samples to features\n        features = self.feature_extractor(segment)\n        if features is not None:\n            return [features]\n        else:\n            return []\n\n    def units_to_segment(self, units, states):\n        # Merge sub word to full word.\n        if self.model.decoder.dictionary.eos() == units[0]:\n            return DEFAULT_EOS\n\n        segment = []\n        if None in units.value:\n            units.value.remove(None)\n\n        for index in units:\n            if index is None:\n                units.pop()\n            token = self.model.decoder.dictionary.string([index])\n            if token.startswith(BOW_PREFIX):\n                if len(segment) == 0:\n                    segment += [token.replace(BOW_PREFIX, \"\")]\n                else:\n                    for j in range(len(segment)):\n                        units.pop()\n\n                    string_to_return = [\"\".join(segment)]\n\n                    if self.model.decoder.dictionary.eos() == units[0]:\n                        string_to_return += [DEFAULT_EOS]\n\n                    return string_to_return\n            else:\n                segment += [token.replace(BOW_PREFIX, \"\")]\n\n        if (\n            len(units) > 0\n            and self.model.decoder.dictionary.eos() == units[-1]\n            or len(states.units.target) > self.max_len\n        ):\n            tokens = [self.model.decoder.dictionary.string([unit]) for unit in units]\n            return [\"\".join(tokens).replace(BOW_PREFIX, \"\")] + [DEFAULT_EOS]\n\n        return None\n\n    def update_model_encoder(self, states):\n        if len(states.units.source) == 0:\n            return\n        src_indices = self.to_device(\n            states.units.source.value.unsqueeze(0)\n        )\n        src_lengths = self.to_device(\n            torch.LongTensor([states.units.source.value.size(0)])\n        )\n\n        states.encoder_states = self.model.encoder(src_indices, src_lengths)\n        torch.cuda.empty_cache()\n\n    def update_states_read(self, states):\n        # Happens after a read action.\n        self.update_model_encoder(states)\n\n    def policy(self, states):\n        if not getattr(states, \"encoder_states\", None):\n            return READ_ACTION\n\n        tgt_indices = self.to_device(\n            torch.LongTensor(\n                [self.model.decoder.dictionary.eos()]\n                + [x for x in states.units.target.value if x is not None]\n            ).unsqueeze(0)\n        )\n\n        states.incremental_states[\"steps\"] = {\n            \"src\": states.encoder_states[\"encoder_out\"][0].size(0),\n            \"tgt\": 1 + len(states.units.target),\n        }\n\n        states.incremental_states[\"online\"] = {\"only\": torch.tensor(not states.finish_read())}\n\n        x, outputs = self.model.decoder.forward(\n            prev_output_tokens=tgt_indices,\n            encoder_out=states.encoder_states,\n            incremental_state=states.incremental_states,\n        )\n\n        states.decoder_out = x\n\n        states.decoder_out_extra = outputs\n\n        torch.cuda.empty_cache()\n\n        if outputs.action == 0:\n            return READ_ACTION\n        else:\n            return WRITE_ACTION\n\n    def predict(self, states):\n        decoder_states = states.decoder_out\n\n        lprobs = self.model.get_normalized_probs(\n            [decoder_states[:, -1:]], log_probs=True\n        )\n\n        index = lprobs.argmax(dim=-1)\n\n        index = index[0, 0].item()\n\n        if (\n            self.force_finish\n            and index == self.model.decoder.dictionary.eos()\n            and not states.finish_read()\n        ):\n            # If we want to force finish the translation\n            # (don't stop before finish reading), return a None\n            # self.model.decoder.clear_cache(states.incremental_states)\n            index = None\n\n        return index\n"
  },
  {
    "path": "examples/stories/README.md",
    "content": "# Hierarchical Neural Story Generation (Fan et al., 2018)\n\nThe following commands provide an example of pre-processing data, training a model, and generating text for story generation with the WritingPrompts dataset.\n\n## Pre-trained models\n\nDescription | Dataset | Model | Test set(s)\n---|---|---|---\nStories with Convolutional Model <br> ([Fan et al., 2018](https://arxiv.org/abs/1805.04833)) | [WritingPrompts](https://dl.fbaipublicfiles.com/fairseq/data/writingPrompts.tar.gz) | [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/models/stories_checkpoint.tar.bz2) | [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/stories_test.tar.bz2)\n\nWe provide sample stories generated by the [convolutional seq2seq model](https://dl.fbaipublicfiles.com/fairseq/data/seq2seq_stories.txt) and [fusion model](https://dl.fbaipublicfiles.com/fairseq/data/fusion_stories.txt) from [Fan et al., 2018](https://arxiv.org/abs/1805.04833). The corresponding prompts for the fusion model can be found [here](https://dl.fbaipublicfiles.com/fairseq/data/fusion_prompts.txt). Note that there are unk in the file, as we modeled a small full vocabulary (no BPE or pre-training). We did not use these unk prompts for human evaluation.\n\n## Dataset\n\nThe dataset can be downloaded like this:\n\n```bash\ncd examples/stories\ncurl https://dl.fbaipublicfiles.com/fairseq/data/writingPrompts.tar.gz | tar xvzf -\n```\n\nand contains a train, test, and valid split. The dataset is described here: https://arxiv.org/abs/1805.04833. We model only the first 1000 words of each story, including one newLine token.\n\n## Example usage\n\nFirst we will preprocess the dataset. Note that the dataset release is the full data, but the paper models the first 1000 words of each story. Here is example code that trims the dataset to the first 1000 words of each story:\n```python\ndata = [\"train\", \"test\", \"valid\"]\nfor name in data:\n    with open(name + \".wp_target\") as f:\n        stories = f.readlines()\n    stories = [\" \".join(i.split()[0:1000]) for i in stories]\n    with open(name + \".wp_target\", \"w\") as o:\n        for line in stories:\n            o.write(line.strip() + \"\\n\")\n```\n\nOnce we've trimmed the data we can binarize it and train our model:\n```bash\n# Binarize the dataset:\nexport TEXT=examples/stories/writingPrompts\nfairseq-preprocess --source-lang wp_source --target-lang wp_target \\\n    --trainpref $TEXT/train --validpref $TEXT/valid --testpref $TEXT/test \\\n    --destdir data-bin/writingPrompts --padding-factor 1 --thresholdtgt 10 --thresholdsrc 10\n\n# Train the model:\nfairseq-train data-bin/writingPrompts -a fconv_self_att_wp --lr 0.25 --optimizer nag --clip-norm 0.1 --max-tokens 1500 --lr-scheduler reduce_lr_on_plateau --decoder-attention True --encoder-attention False --criterion label_smoothed_cross_entropy --weight-decay .0000001 --label-smoothing 0 --source-lang wp_source --target-lang wp_target --gated-attention True --self-attention True --project-input True --pretrained False\n\n# Train a fusion model:\n# add the arguments: --pretrained True --pretrained-checkpoint path/to/checkpoint\n\n# Generate:\n# Note: to load the pretrained model at generation time, you need to pass in a model-override argument to communicate to the fusion model at generation time where you have placed the pretrained checkpoint. By default, it will load the exact path of the fusion model's pretrained model from training time. You should use model-override if you have moved the pretrained model (or are using our provided models). If you are generating from a non-fusion model, the model-override argument is not necessary.\n\nfairseq-generate data-bin/writingPrompts --path /path/to/trained/model/checkpoint_best.pt --batch-size 32 --beam 1 --sampling --sampling-topk 10 --temperature 0.8 --nbest 1 --model-overrides \"{'pretrained_checkpoint':'/path/to/pretrained/model/checkpoint'}\"\n```\n\n## Citation\n```bibtex\n@inproceedings{fan2018hierarchical,\n  title = {Hierarchical Neural Story Generation},\n  author = {Fan, Angela and Lewis, Mike and Dauphin, Yann},\n  booktitle = {Conference of the Association for Computational Linguistics (ACL)},\n  year = 2018,\n}\n```\n"
  },
  {
    "path": "examples/textless_nlp/dgslm/README.md",
    "content": "# Generative Spoken Dialogue Language Modeling\n[[paper]](https://arxiv.org/abs/2203.16502) [[demo samples]](https://speechbot.github.io/dgslm/index.html) [[blog]](https://ai.facebook.com/blog/generating-chit-chat-including-laughs-yawns-ums-and-other-nonverbal-cues-from-raw-audio/)\n\nThis repo contains the code and pre-trained models for the paper _Generative Spoken Dialogue Language Modeling_.\n<details>\n  <summary>Paper abstract </summary>\n\n> We introduce dGSLM, the first \"textless\" model able to generate audio samples of naturalistic spoken dialogues. It uses recent work on unsupervised spoken unit discovery coupled with a dual-tower transformer architecture with cross-attention trained on 2000 hours of two-channel raw conversational audio (Fisher dataset) without any text or labels. We show that our model is able to generate speech, laughter and other paralinguistic signals in the two channels simultaneously and reproduces more naturalistic and fluid turn taking compared to a text-based cascaded model.\n\n</details>\n\n## [Speech-to-Unit Encoder for dGSLM: The Fisher HuBERT model](hubert_fisher/)\nThe [hubert_fisher](hubert_fisher/) repository contains the pre-trained models and recipies to produce discrete units for the dGSLM model.\n\n## [Unit-to-Speech Decoder for dGSLM](vocoder_hifigan/)\nThe [vocoder_hifigan](vocoder_hifigan/) repo contains the vocoder and recipies to synthesize the waveform from the discrete units.\n\n## Spoken Dialogue Transformer Language Model (SpeechDLM)\n### Pre-trained model\nWe share the pre-trained model checkpoint for the best configuration in the paper (DLM-5 model, with Edge Unit Prediction & Delayed Duration Prediction objectives), dubbed as `SpeechDLM`, trained on the 2000 hours of Fisher dataset :\n| Pre-trained SpeechDLM model trained on Fisher dataset |\n|-----------------------------------------------|\n|[model checkpoint](https://dl.fbaipublicfiles.com/textless_nlp/dgslm/checkpoints/speech_dlm/speech_dlm_base.pt) - [dictionary 1](https://dl.fbaipublicfiles.com/textless_nlp/dgslm/checkpoints/speech_dlm/dict.unitA.txt) - [dictionary 2](https://dl.fbaipublicfiles.com/textless_nlp/dgslm/checkpoints/speech_dlm/dict.unitB.txt)|\nthe two dictionary files correspond to the two channels, and actually have the same content.\n\n### Sample from a trained model\nYou can sample from a trained SpeechDLM model interactively :\n```python\nfrom fairseq.models.speech_dlm import SpeechDLM\n\n# Load SpeechDLM model\nspeech_dlm = SpeechDLM.from_pretrained(\n                model_name_or_path='/path/to/model/dir',\n                checkpoint_file='speech_dlm_base.pt',\n                data_name_or_path='/path/to/data/dir'\n            )\n# Disable dropout\nspeech_dlm.eval()\n# Move model to GPU\nspeech_dlm.cuda()\n\n# Define the input sequences\ninput_sequences = [{\n      'unitA': '7 376 376 133 178 486 486 486 486 486 486 486 486 2 486',\n      'unitB': '7 499 415 177 7 7 7 7 7 7 136 136 289 289 408'\n    }]\n\n# Sample from the SpeechDLM model\ngenerated_units = speech_dlm.sample(\n        input_sequences,\n        max_len_a = 0,\n        max_len_b = 500,\n        sampling=True,\n        beam=5,\n    )\n# >> {'unitA': '7 376 376 133 178 486 486 486 486 486 486 486 486 2 486 486 178 486 486 2 2 376 376 486 486 486 376 376 387 387 ...',\n# >> 'unitB': '7 499 415 177 7 7 7 7 7 7 136 136 289 289 408 32 428 95 356 141 331 439 350 350 192 331 445 202 104 104 ...'}\n```\n\nOr using the `sample_speech_dlm.py` script :\n```bash\npython sample_speech_dlm.py \\\n    --in-file $INPUT_CODE_FILE --out-file $OUTPUT_FILE \\\n    --ckpt $CHECKPOINT_PATH --data $DATA_DIR\n```\nwhere each line of INPUT_CODE_FILE is a dictionary with keys `'audio', 'unitA', 'unitB'` as follows :\n```\n{'audio': 'file_1', 'unitA': '8 8 ... 352 352', 'unitB': '217 8 ... 8 8'}\n{'audio': 'file_2', 'unitA': '5 5 ... 65 65', 'unitB': '6 35 ... 8 9'}\n...\n```\nThis code file can be created with the script `create_input_code.py` (using the outputs of `quantize_with_kmeans.py` [here](hubert_fisher/#encode-audio-to-discrete-units)) :\n```bash\npython examples/textless_nlp/dgslm/vocoder_hifigan/create_input_code.py \\\n    $CHANNEL1_UNITS $CHANNEL2_UNITS $OUTPUT_CODE_FILE\n```\n\n### Training a SpeechDLM model\n#### 1) Data preparation\nFirst, you need to prepare the raw dataset. For each `split` (train, valid), you need two files corresponding to two channels (namely `unitA` and `unitB` for example) containing the units from each channel separately. Make sure that 2 files have the same number of lines and each corresponding line has the same number of units.\n\nHere is an example of `.unitA` file :\n```\n7 376 376 133 178\n486 486 486\n486 376\n```\nand the corresponding `.unitB` file :\n```\n7 499 415 177 7\n7 7 136\n331 445\n```\nThese two files can be obtained using the [example command](hubert_fisher/#encode-audio-to-discrete-units) of hubert fisher, with the `--hide-fname` option added.\n\nThe raw dataset directory should contain the following files :\n```\ntrain.unitA valid.unitA\ntrain.unitB valid.unitB\n```\n\nNext preprocess/binarize the data with `fairseq-preprocess`, but make sure to preprocess each channel separately, and **rename** the preprocessed files under the following format `${split}.${channel}.{bin, idx}`. Each channel also needs a separate dictionary file under the name `dict.${channel}.txt` .\n\nHere is an example pre-processing code :\n\n```bash\n# Preprocess the first channel (unitA)\nfairseq-preprocess --source-lang unitA \\\n    --only-source \\\n    --trainpref $RAW_DATA_DIR/train \\\n    --validpref $RAW_DATA_DIR/valid \\\n    --destdir $BIN_DATA_DIR \\\n    --workers 20\n\n# Preprocess the second channel (unitB) and reuse the dictionary from the first channel\nfairseq-preprocess --source-lang unitB \\\n    --srcdict $BIN_DATA_DIR/dict.unitA.txt \\\n    --only-source \\\n    --trainpref $RAW_DATA_DIR/train \\\n    --validpref $RAW_DATA_DIR/valid \\\n    --destdir $BIN_DATA_DIR \\\n    --workers 20\n\n# Rename the bin & index files\nfor channel in unitA unitB; do\n  for split in train valid; do\n    mv $BIN_DATA_DIR/${split}.${channel}-None.${channel}.bin $BIN_DATA_DIR/${split}.${channel}.bin\n    mv $BIN_DATA_DIR/${split}.${channel}-None.${channel}.idx $BIN_DATA_DIR/${split}.${channel}.idx\n  done\ndone\n```\nFinally, the preprocessed (bin) dataset directory should contain the following files :\n```\ndict.unitA.txt  train.unitA.idx train.unitA.bin valid.unitA.idx valid.unitA.bin\ndict.unitB.txt  train.unitB.idx train.unitB.bin valid.unitB.idx valid.unitB.bin\n```\n\n#### 2) Train the model\nTo train the SpeechDLM (with the configuration as the pre-trained model) on 2 GPUs :\n```bash\nfairseq-train $BIN_DATA_DIR \\\n    --save-dir $CHECKPOINT_DIR \\\n    --tensorboard-logdir $CHECKPOINT_DIR \\\n    --task speech_dlm_task --channels unitA,unitB \\\n    --next-unit-prediction \"False\" --edge-unit-prediction \"True\" \\\n    --duration-prediction \"True\" --delayed-duration-target \"True\" \\\n    --criterion speech_dlm_criterion \\\n    --arch speech_dlm --decoder-cross-layers 4 \\\n    --share-decoder-input-output-embed \\\n    --dropout 0.1 --attention-dropout 0.1 \\\n    --optimizer adam --adam-betas \"(0.9, 0.98)\" --clip-norm 1.0 \\\n    --lr 0.0005 --lr-scheduler inverse_sqrt --warmup-init-lr 1e-07 \\\n    --max-tokens 18432 --tokens-per-sample 6144 --sample-break-mode none \\\n    --update-freq 16 --num-workers 4 --skip-invalid-size-inputs-valid-test \\\n    --max-update 250000 --warmup-updates 20000 \\\n    --save-interval-updates 10000 --keep-last-epochs 1 --no-epoch-checkpoints \\\n    --log-interval 50 --seed 100501 \\\n    --fp16 --checkpoint-activations\n```\n\n#### 3) Validate\nThe model can be validated via the `fairseq-validate` command :\n```bash\nfairseq-validate $BIN_DATA_DIR \\\n    --task speech_dlm_task \\\n    --path $CHECKPOINT_PATH \\\n    --max-tokens 6144\n```\n\n## Reference\n\nIf you find our work useful in your research, please consider citing our paper:\n\n```bibtex\n@article{nguyen2022dgslm,\n  title   = {Generative Spoken Dialogue Language Modeling},\n  author  = {Nguyen, Tu Anh and Kharitonov, Eugene and Copet, Jade and Adi, Yossi and Hsu, Wei-Ning and Elkahky, Ali and Tomasello, Paden and Algayres, Robin and Sagot, Benoit and Mohamed, Abdelrahman and Dupoux, Emmanuel},\n  eprint={2203.16502},\n  archivePrefix={arXiv},\n  primaryClass={cs.CL},\n  year={2022}\n}\n```\n"
  },
  {
    "path": "examples/textless_nlp/dgslm/create_code_file.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\n\n\ndef main():\n    \"\"\"\n    Create code file with the following format:\n        {'audio': 'file1', 'unitA': 'file1_chnl1_units', 'unitB': 'file1_chnl2_units'}\n        {'audio': 'file2', 'unitA': 'file2_chnl1_units', 'unitB': 'file2_chnl2_units'}\n        ...\n\n    Given the input units files\n        - channel1_units_file:\n            file1|file1_chnl1_units\n            file2|file2_chnl1_units\n            ...\n        - channel2_units_file:\n            file1|file1_chnl2_units\n            file2|file2_chnl2_units\n            ...\n    \"\"\"\n\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"channel1_units_file\",\n        type=str,\n        help=\"Units of the first channel.\",\n    )\n    parser.add_argument(\n        \"channel2_units_file\",\n        type=str,\n        help=\"Units of the second channel.\",\n    )\n    parser.add_argument(\n        \"output_file\",\n        type=str,\n        help=\"Output file.\",\n    )\n    parser.add_argument(\n        \"--channels\",\n        type=str,\n        default='unitA,unitB',\n        help=\"Comma-separated list of the channel names to create in the code\"\n             \"(Default: 'unitA,unitB').\",\n    )\n\n    args = parser.parse_args()\n\n    channel_names = args.channels.split(',')\n\n    with open(args.channel1_units_file) as funit1, \\\n            open(args.channel2_units_file) as funit2, \\\n            open(args.output_file, 'w') as fout:\n        for line1, line2 in zip(funit1, funit2):\n            fname1, units1 = line1.strip().split('|')\n            fname2, units2 = line2.strip().split('|')\n            assert len(units1.split()) == len(units2.split()), \\\n                f\"Mismatch units length ({len(units1.split())} vs {len(units2.split())})\"\n            base_fname1 = fname1[:-9]\n            base_fname2 = fname2[:-9]\n            assert base_fname1 == base_fname2, \\\n                f\"Mismatch filenames ({base_fname1} vs {base_fname2}). \" \\\n                f\"Expected $filename-channel1 and $filename-channel2 in two files\"\n            code = {\n                \"audio\" : base_fname1,\n                channel_names[0] : units1,\n                channel_names[1] : units2,\n            }\n            fout.write(str(code))\n            fout.write(\"\\n\")\n    print(f\"Codes written to {args.output_file}\")\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/textless_nlp/dgslm/dgslm_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\nimport json\n\nfrom fairseq import utils\nfrom fairseq.models.text_to_speech.vocoder import CodeHiFiGANVocoder\n\n# from examples.hubert.simple_kmeans.dump_hubert_feature import HubertFeatureReader\nfrom examples.textless_nlp.gslm.speech2unit.pretrained.hubert_feature_reader import HubertFeatureReader\nfrom examples.hubert.simple_kmeans.dump_km_label import ApplyKmeans\n\n\n# Hubert tokenizer\nclass HubertTokenizer:\n    def __init__(\n                self,\n                hubert_path,\n                hubert_layer,\n                km_path,\n                use_cuda=True,\n            ):\n        self.feature_extractor = HubertFeatureReader(hubert_path, hubert_layer, use_cuda=use_cuda)\n        self.quantizer = ApplyKmeans(km_path)\n        if not use_cuda:\n            self.quantizer.C = self.quantizer.C.cpu()\n            self.quantizer.Cnorm = self.quantizer.Cnorm.cpu()\n\n    def wav2code(self, path, channel_id=1):\n        feat = self.feature_extractor.get_feats(path, channel_id=channel_id)\n        code = self.quantizer(feat)\n        return ' '.join(map(str, code))\n\n    def wav2codes(self, path):\n        codes = [\n            self.wav2code(path, channel_id=1),\n            self.wav2code(path, channel_id=2)\n        ]\n        return codes\n\n\n# Vocoder\nclass HifiganVocoder:\n    def __init__(\n                self,\n                vocoder_path,\n                vocoder_cfg_path,\n                use_cuda=True,\n            ):\n        with open(vocoder_cfg_path) as f:\n            cfg = json.load(f)\n        self.vocoder = CodeHiFiGANVocoder(vocoder_path, cfg).eval()\n        self.use_cuda = use_cuda\n        if self.use_cuda:\n            self.vocoder.cuda()\n\n    def code2wav(self, code, speaker_id=0, pred_dur=False):\n        if isinstance(code, str):\n            code = list(map(int, code.split()))\n        inp = {\"code\": torch.LongTensor(code).view(1, -1)}\n        if self.vocoder.model.multispkr:\n            inp[\"spkr\"] = torch.LongTensor([speaker_id]).view(1, 1)\n        if self.use_cuda:\n            inp = utils.move_to_cuda(inp)\n        return self.vocoder(inp, pred_dur).detach().cpu().numpy()\n\n    def codes2wav(self, codes, speaker_ids=[0, 4], pred_dur=False):\n        if isinstance(codes, dict):\n            codes = list(codes.values())\n        assert len(codes) == 2\n        wav1 = self.code2wav(codes[0], speaker_ids[0], pred_dur)\n        wav2 = self.code2wav(codes[1], speaker_ids[1], pred_dur)\n        wav = np.stack([wav1, wav2])\n        return wav\n"
  },
  {
    "path": "examples/textless_nlp/dgslm/hubert_fisher/README.md",
    "content": "# Dialogue Speech-to-Unit Encoder for dGSLM: The Fisher HuBERT model\nFor the speech2unit encoder, we train a [HuBERT model](https://arxiv.org/pdf/2106.07447.pdf) on the [Fisher dataset](http://www.lrec-conf.org/proceedings/lrec2004/pdf/767.pdf) for 3 iterations (see [our paper](https://arxiv.org/pdf/2203.16502.pdf) for more details) and train a k-means model with 500 units on the layer 12 features of the HuBERT model.\n\n## Model checkpoints\nThe pre-trained HuBERT and k-means model checkpoints can be found here:\n\n| Fisher HuBERT model | k-means model |\n|---------------------|---------------|\n|[download](https://dl.fbaipublicfiles.com/textless_nlp/dgslm/checkpoints/hubert/hubert_fisher.pt)|[download](https://dl.fbaipublicfiles.com/textless_nlp/dgslm/checkpoints/hubert/hubert_fisher_km_500.bin)|\n\n\n## Encode audio to discrete units\nBelow is an example command to encode a stereo dataset to discrete units using the pre-trained model checkpoints :\n```bash\nfor CHANNEL_ID in 1 2; do\n    python examples/textless_nlp/gslm/speech2unit/clustering/quantize_with_kmeans.py \\\n        --feature_type hubert \\\n        --kmeans_model_path path/to/hubert_fisher_km_500.bin \\\n        --acoustic_model_path path/to/hubert_fisher.pt \\\n        --layer 12 \\\n        --manifest_path $MANIFEST_FILE \\\n        --out_quantized_file_path ${OUTPUT_FILE}-channel${CHANNEL_ID} \\\n        --extension $EXTENSION \\\n        --channel_id $CHANNEL_ID\ndone\n```\nwhere MANIFEST_FILE is the output of [wav2vec manifest script](https://github.com/facebookresearch/fairseq/blob/main/examples/wav2vec/wav2vec_manifest.py), which can be obtained through the following command :\n```\npython examples/wav2vec/wav2vec_manifest.py --valid-percent=0.0 $AUDIO_DIR --dest=$OUTPUT_DIR --ext=$EXTENSION\n```\n\nOtherwise, you can encode an audio file in python interactively with the HubertTokenizer class :\n```python\n# Load the Hubert tokenizer\nfrom examples.textless_nlp.dgslm.dgslm_utils import HubertTokenizer\nencoder = HubertTokenizer(\n    hubert_path = \"/path/to/hubert_ckpt.pt\",\n    hubert_layer = 12,\n    km_path = \"path/to/km.bin\"\n)\n\n# Encode the audio to units\npath = \"/path/to/stereo/audio.wav\"\ncodes = encoder.wav2codes(path)\n# > ['7 376 376 133 178 486 486 486 486 486 486 486 486 2 486',\n# >  '7 499 415 177 7 7 7 7 7 7 136 136 289 289 408']\n```"
  },
  {
    "path": "examples/textless_nlp/dgslm/sample_speech_dlm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport ast\nimport argparse\nimport logging\nimport torch\n\nfrom fairseq import utils\nfrom fairseq.models.speech_dlm import SpeechDLM\n\nlogging.basicConfig()\nlogging.root.setLevel(logging.INFO)\nlogging.basicConfig(level=logging.INFO)\nlogger = logging.getLogger(__name__)\n\n\ndef load_data(in_file):\n    with open(in_file) as f:\n        data = [ast.literal_eval(line.strip()) for line in f]\n    return data\n\n\ndef write_data(out_file, data):\n    with open(out_file, 'w') as f:\n        for d in data:\n            f.write(str(d))\n            f.write('\\n')\n\n\ndef limit(codes, n):\n    new_codes = {}\n    for k, v in codes.items():\n        new_codes[k] = ' '.join(v.split()[:n])\n    return new_codes\n\n\ndef main(args):\n    logger.info(args)\n\n    use_cuda = torch.cuda.is_available()\n\n    # Load the data\n    data = load_data(args.in_file)\n    channels = args.channels.split(',')\n    unit_sequences = [{\n        channels[0]: d[channels[0]],\n        channels[1]: d[channels[1]],\n    } for d in data]\n    fnames = [d['audio'] for d in data]\n    print(f\"Found {len(data)} sequences from {args.in_file}\")\n\n    # Limit the prefix size\n    if args.prefix_size is not None:\n        print(f\"Limit the prefix size to {args.prefix_size}\")\n        unit_sequences = [limit(codes, args.prefix_size) for codes in unit_sequences]\n\n    # Load model from ckpt\n    print(f\"Loading the SpeechDLM model from {args.ckpt}\")\n    model = SpeechDLM.from_pretrained(\n                model_name_or_path=os.path.dirname(args.ckpt),\n                checkpoint_file=os.path.basename(args.ckpt),\n                data_name_or_path=args.data\n            )\n    model.eval()\n    if use_cuda:\n        model.cuda()\n\n    # Set batch sizes\n    model.cfg.dataset.max_tokens = args.batch_max_tokens\n    model.max_positions = args.batch_max_positions\n    if args.batch_max_sentences is not None:\n        model.cfg.dataset.batch_size = args.batch_max_sentences\n\n    # Set seed (if needed)\n    if args.seed is not None:\n        utils.set_torch_seed(args.seed)\n\n    # Sample from the SpeechDLM model\n    print(f\"Generating {len(unit_sequences)} sequences with SpeechDLM model...\\n\"\n          f\"Generation args: sampling={(not args.beam_search)}, \"\n          f\"sampling_topk={args.sampling_topk}, sampling_topp={args.sampling_topp}, \"\n          f\"beam={args.beam_size}, min_len={args.min_len}, \"\n          f\"max_len_a={args.max_len_a}, max_len_b={args.max_len_b}, \"\n          f\"temperature={args.temperature}, dur_temperature={args.dur_temperature}, \"\n          f\"seed={args.seed}\")\n    generated_units = model.sample(\n            unit_sequences,\n            sampling=(not args.beam_search),\n            sampling_topk=args.sampling_topk,\n            sampling_topp=args.sampling_topp,\n            beam=args.beam_size,\n            max_len_a=args.max_len_a,\n            max_len_b=args.max_len_b,\n            min_len=args.min_len,\n            temperature=args.temperature,\n            duration_temperature=args.dur_temperature,\n            verbose=args.verbose,\n            skip_invalid_size_inputs=args.skip_invalid_size_batch,\n        )\n\n    # Create the generated sequences\n    generated_data = []\n    for fname, gen_units in zip(fnames, generated_units):\n        d = {\n            \"audio\" : fname+'-generated',\n            **gen_units\n        }\n        generated_data.append(d)\n\n    # Write the generated sequences\n    print(f\"Write the generated units to {args.out_file}\")\n    if args.out_file:\n        os.makedirs(os.path.dirname(args.out_file), exist_ok=True)\n    write_data(args.out_file, generated_data)\n\n\ndef cli_main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--in-file\",\n        type=str,\n        required=True,\n        help=\"Input file following the same format of the output from create_input.py\",\n    )\n    parser.add_argument(\n        \"--ckpt\",\n        type=str,\n        required=True,\n        help=\"Path to the model checkpoint.\"\n    )\n    parser.add_argument(\n        \"--data\",\n        type=str,\n        required=True,\n        help=\"path to the model data dir (containing dict files)\",\n    )\n    parser.add_argument(\n        \"--out-file\",\n        type=str,\n        required=True,\n        help=\"Path of the output file.\",\n    )\n    parser.add_argument(\n        \"--channels\",\n        type=str,\n        default='unitA,unitB',\n        help=\"Comma-separated list of the channel names\"\n             \"(Default: 'unitA,unitB').\",\n    )\n    parser.add_argument(\"--prefix-size\", type=int, default=None,\n                        help='Limit the prefix size')\n\n    # Batch sizes\n    parser.add_argument(\"--batch-max-tokens\", type=int, default=9216,\n                        help='maximum number of tokens considered in a batch')\n    parser.add_argument(\"--batch-max-positions\", type=int, default=6144,\n                        help='maximum number of tokens allowed for a sentence in a batch')\n    parser.add_argument(\"--batch-max-sentences\", type=int, default=None,\n                        help='maximum number of sentences considered in a batch')\n    parser.add_argument(\"--skip-invalid-size-batch\", action='store_true',\n                        help='skip sentences with more tokens than --batch-max-positions')\n\n    # Generation args\n    parser.add_argument(\"--beam-search\", action='store_true',\n                        help='perform beam search instead of sampling')\n    parser.add_argument(\"--beam-size\", type=int, default=5,\n                        help=\"beam width (used in both sampling and beam search mode) \"\n                        \"(default: 5)\")\n    parser.add_argument(\"--sampling-topk\", type=int, default=-1,\n                        help=\"only sample from top-k candidates (default: -1, non applied)\")\n    parser.add_argument(\"--sampling-topp\", type=float, default=-1.0,\n                        help=\"only sample among the smallest set of elements whose cumulative \"\n                        \"probability mass exceeds p (default: -1.0, non applied)\")\n    parser.add_argument(\"--max-len-a\", type=int, default=0,\n                        help=\"generate sequences of maximum length ax + b, \"\n                        \"where x is the source length (default: 0)\")\n    parser.add_argument(\"--max-len-b\", type=int, default=500,\n                        help=\"generate sequences of maximum length ax + b, \"\n                        \"where x is the source length (default: 500 ~ 10s)\")\n    parser.add_argument(\"--min-len\", type=int, default=1,\n                        help=\"generate sequences of maximum length ax + b, \"\n                        \"where x is the source length (default: 1)\")\n    parser.add_argument(\"--temperature\", type=float, default=1.0,\n                        help=\"temperature when generating unit tokens (default: 1.0)\")\n    parser.add_argument(\"--dur-temperature\", type=float, default=1.0,\n                        help=\"temperature when generating duration tokens (default: 1.0)\")\n    parser.add_argument(\"--verbose\", action='store_true',\n                        help=\"print the scores given by the model to generated sequences\")\n    parser.add_argument(\"--seed\", type=int, default=123,\n                        help=\"seed of the generation model\")\n\n    args = parser.parse_args()\n\n    main(args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/textless_nlp/dgslm/vocoder_hifigan/README.md",
    "content": "# Dialogue Unit-to-Speech Decoder for dGSLM\nFor the unit2speech decoder, we train a [discrete unit-based HiFi-GAN vocoder](https://arxiv.org/pdf/2104.00355.pdf) on the [Fisher dataset](http://www.lrec-conf.org/proceedings/lrec2004/pdf/767.pdf).\n\n## Model checkpoint\nThe pre-trained model checkpoint can be found here :\n\n| HiFi-GAN vocoder based on HuBERT Fisher Units |\n|-----------------------------------------------|\n|[model checkpoint](https://dl.fbaipublicfiles.com/textless_nlp/dgslm/checkpoints/hifigan/hifigan_vocoder) - [config](https://dl.fbaipublicfiles.com/textless_nlp/dgslm/checkpoints/hifigan/config.json) |\n\n## Decode discrete units to audio\nTo create waveform from discrete units, use the script `generate_stereo_waveform.py` :\n```bash\npython examples/textless_nlp/dgslm/vocoder_hifigan/generate_stereo_waveform.py \\\n    --in-file $INPUT_CODE_FILE \\\n    --vocoder $VOCODER_PATH \\\n    --vocoder-cfg $VOCODER_CONFIG \\\n    --results-path $OUTPUT_DIR\n```\nwhere INPUT_CODE_FILE is expected to have the following format :\n```\n{'audio': 'file_1', 'unitA': '8 8 ... 352 352', 'unitB': '217 8 ... 8 8'}\n{'audio': 'file_2', 'unitA': '5 5 ... 65 65', 'unitB': '6 35 ... 8 9'}\n...\n```\n\nYou can also use the HifiganVocoder class to generate waveform from the codes interactively :\n```python\n# Load the Hifigan vocoder\nfrom examples.textless_nlp.dgslm.dgslm_utils import HifiganVocoder\ndecoder = HifiganVocoder(\n    vocoder_path = \"/path/to/hifigan_vocoder\",\n    vocoder_cfg_path = \"/path/to/config.json\",\n)\n\n# Decode the units to waveform\ncodes = [\n    '7 376 376 133 178 486 486 486 486 486 486 486 486 2 486',\n    '7 499 415 177 7 7 7 7 7 7 136 136 289 289 408',\n]\nwav = decoder.codes2wav(codes)\n# > array of shape (2, 4800)\n\n# Play the waveform\nimport IPython.display as ipd\nipd.Audio(wav, rate=16_000)\n```\n"
  },
  {
    "path": "examples/textless_nlp/dgslm/vocoder_hifigan/generate_stereo_waveform.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport ast\nimport argparse\nimport json\nimport logging\nfrom pathlib import Path\nimport soundfile as sf\nimport torch\n\nfrom tqdm import tqdm\n\nfrom fairseq import utils\nfrom fairseq.models.text_to_speech.vocoder import CodeHiFiGANVocoder\n\n\nlogging.basicConfig()\nlogging.root.setLevel(logging.INFO)\nlogging.basicConfig(level=logging.INFO)\nlogger = logging.getLogger(__name__)\n\n\ndef dump_result(args, data, sample_id, pred_wav):\n    assert \"audio\" in data or args.results_path is not None\n    if args.results_path:\n        fname = Path(data[\"audio\"]).stem + \".wav\" if \"audio\" in data else f\"{sample_id}_pred.wav\"\n        out_file = Path(args.results_path) / fname\n\n    sf.write(\n        out_file.as_posix(),\n        pred_wav.detach().cpu().numpy(),\n        args.sample_rate,\n    )\n\n\ndef load_data(in_file):\n    with open(in_file) as f:\n        data = [ast.literal_eval(line.strip()) for line in f]\n\n    return data\n\n\ndef load_vocoder(vocoder_path, vocoder_cfg_path, use_cuda=True):\n    with open(vocoder_cfg_path) as f:\n        cfg = json.load(f)\n    vocoder = CodeHiFiGANVocoder(vocoder_path, cfg).eval()\n    if use_cuda:\n        vocoder = vocoder.cuda()\n    return vocoder\n\n\ndef code2wav(vocoder, code, speaker_id, use_cuda=True):\n    if isinstance(code, str):\n        code = list(map(int, code.split()))\n    inp = dict()\n    inp[\"code\"] = torch.LongTensor(code).view(1, -1)\n    if vocoder.model.multispkr:\n        inp[\"spkr\"] = torch.LongTensor([speaker_id]).view(1, 1)\n    if use_cuda:\n        inp = utils.move_to_cuda(inp)\n    return vocoder(inp)\n\n\ndef main(args):\n    logger.info(args)\n\n    use_cuda = torch.cuda.is_available() and not args.cpu\n\n    vocoder = load_vocoder(args.vocoder, args.vocoder_cfg, use_cuda)\n\n    data = load_data(args.in_file)\n\n    if args.results_path:\n        Path(args.results_path).mkdir(exist_ok=True, parents=True)\n\n    channels = args.channels.split(',')\n    speakers = [args.channel1_spk, args.channel2_spk]\n\n    for i, d in tqdm(enumerate(data), total=len(data)):\n        wavs = []\n        for key, speaker_id in zip(channels, speakers):\n            wav = code2wav(vocoder, d[key], speaker_id, use_cuda=use_cuda)\n            wavs.append(wav)\n\n        wav = torch.stack(wavs, dim=-1)\n        if args.mix:\n            wav = torch.mean(wav, dim=-1)\n\n        dump_result(args, d, i, wav)\n\n\ndef cli_main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--in-file\",\n        type=str,\n        required=True,\n        help=\"Input file following the same format of the output from create_input.py\",\n    )\n    parser.add_argument(\n        \"--vocoder\", type=str, required=True, help=\"path to the vocoder\"\n    )\n    parser.add_argument(\n        \"--vocoder-cfg\",\n        type=str,\n        required=True,\n        help=\"path to the vocoder config\",\n    )\n    parser.add_argument(\n        \"--channels\",\n        type=str,\n        default='unitA,unitB',\n        help=\"Comma-separated list of the channel names\"\n             \"(Default: 'unitA,unitB').\",\n    )\n    parser.add_argument(\"--sample-rate\", type=int, default=16_000)\n    parser.add_argument(\n        \"--results-path\",\n        type=str,\n        default=None,\n        help=\"Output directory. If not set, the audios will be stored following the 'audio' field specified in the input file\",\n    )\n    parser.add_argument(\"--channel1-spk\", type=int, default=0, help=\"Speaker of the first channel\",)\n    parser.add_argument(\"--channel2-spk\", type=int, default=4, help=\"Speaker of the second channel\",)\n    parser.add_argument(\"--mix\", action=\"store_true\", help=\"Mix the two channels to create output mono files\")\n    parser.add_argument(\"--cpu\", action=\"store_true\", help=\"run on CPU\")\n\n    args = parser.parse_args()\n\n    main(args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/textless_nlp/gslm/README.md",
    "content": "# Generative Spoken Language Modeling\n\n* [Paper](https://arxiv.org/abs/2102.01192)\n* [Demo](https://speechbot.github.io/gslm/index.html)\n\nWe build and evaluate generative speech2speech systems using [Log Mel Filtebank](https://pytorch.org/audio/stable/compliance.kaldi.html#fbank), [Modified CPC](https://github.com/facebookresearch/CPC_audio), [HuBERT Base](https://github.com/pytorch/fairseq/tree/main/examples/hubert) and [Wav2Vec 2.0 Large](https://github.com/pytorch/fairseq/tree/main/examples/wav2vec). Our system is composed of three components, namely, *speech2unit*, *ulm* and *unit2speech*. We explain about models and usage of these components in their respective sub-directories. See the links below.\n\n## Speech to Unit Model (speech2unit)\nSpeech to unit model is used for quantizing raw speech into learned discrete speech units. [More details](speech2unit)\n\n## Unit Language Model (ulm)\nUnit Language Model is a generative language model trained on discrete speech units. [More details](ulm)\n\n## Unit to Speech Model (unit2speech)\nUnit to speech model is used for synthesizing speech from discrete speech units. [More details](unit2speech)\n\n## Metrics\nWe show how to compute ASR based metrics as well as zero-shot metrics proposed in our paper [here](metrics).\n\n## Tools\nWe share two tools to resynthesize a given spoken utterance, and generate novel spoken language given a spoken prompt. [More detail](tools)\n"
  },
  {
    "path": "examples/textless_nlp/gslm/metrics/README.md",
    "content": "# GSLM Metrics\n\n## ASR Metrics\nThe suite of metrics here uses an ASR model to transcribe the synthesized speech into text, and then uses text-based metrics. We also use word error rate from ASR transcription itself as one of the metrics. [More details](asr_metrics)\n\n## ABX Metrics\nWe use [ABX](https://www.semanticscholar.org/paper/ABX-Discriminability-Measures-and-Applications-Schatz/13d3537228f728c1063cc83743cb118bba3367a0) to evaluate how well-separated phonetic categories are with quantized representations. [More details](abx_metrics)\n\n## sWUGGY and sBLIMP\nWe refer to [ZeroSpeech challenge](https://www.zerospeech.com/2021/track_s.html#scoring-based-metrics) for details on the sWUGGY and sBLIMP metrics.\n"
  },
  {
    "path": "examples/textless_nlp/gslm/metrics/abx_metrics/README.md",
    "content": "# ABX-based evaluation\n\nABX is used to evaluate the quality of the obtained discrete units.\n\nThe life cycle of the ABX-based evaluation for the Speech-to-Unit contains the following steps:\n1. Training an acoustic model (or use an existing acoustic model) ([description](./../..))\n2. Perform quantization of speech by learning a K-means clustering model ([description](./../..))\n3. Compute discrete features for ABX computation using the learned clusters\n4. Compute the ABX score over the discrete features taking advantage of [libri-light's ABX evaluation script][ll-abx]\n\nHere we assume that you already went throught the first two steps and focus solely on extracting features and computing ABX scores.\n\n## Libri-light setup\n\nFollow [libri-light's instructions][ll-instructions] for installation and [ABX evaluation setup][ll-abx] (including the download of the data items required for ABX computation).\n\n## Computing ABX\n\n### Dumping quantized features\n\nThe first step for the ABX computation is to dump the quantized representations corresponding to the test files.\n\n```shell\nTYPE=\"hubert\"\nLAYER=6\nCKPT_PATH=\"<PATH_TO_HUBERT_MODEL_CHECKPOINT_FILE>\"\nKM_MODEL_PATH=\"<PATH_TO_PRETRAINED_KM_MODEL_FILE>\"\n\nSUBSET=\"dev-clean\"\nMANIFEST=\"<PATH_TO_MANIFEST_FOR_LS_DEV-CLEAN>\"\nDATA_DIR=\"<PATH_TO_DIR_TO_STORE_FEATURES>/$SUBSET\"\n\nPYTHONPATH=. python examples/textless_nlp/gslm/metrics/abx_metrics/dump_abx_feats.py \\\n    --feature_type $TYPE \\\n    --kmeans_model_path $KM_MODEL_PATH \\\n    --checkpoint_path $CKPT_PATH \\\n    --layer $LAYER \\\n    --manifest_path $MANIFEST \\\n    --out_dir_path $DATA_DIR \\\n    --extension \".flac\"\n```\n\nAgain the manifest file follows the same structure than elsewhere in the codebase.\n\n### Compute ABX with Libri-light\n\nUse libri-light's `eval_ABX.py` script (within the appropriate environment set up) as followed:\n\n```shell\nLIBRILIGHT_ROOT=\"<PATH_TO_LIBRILIGHT>\"\n\nSUBSET=\"dev-clean\"\nDATA_DIR=\"<PATH_TO_DIR_TO_STORE_FEATURES>/$SUBSET\"\nITEM_FILE_PATH=\"$LIBRILIGHT_ROOT/eval/ABX_data/$SUBSET.item\"\nOUT_DIR=\"<PATH_TO_DIR_TO_STORE_ABX_SCORES>/$SUBSET\"\n\nFILE_EXTENSION=\".npy\"\nFEATURE_SIZE=0.02 # depends on the model used\n\nPYTHONPATH=$LIBRILIGHT_ROOT \\\n  python $LIBRILIGHT_ROOT/eval/eval_ABX.py \\\n    $DATA_DIR \\\n    $ITEM_FILE_PATH \\\n    --file_extension $FILE_EXTENSION \\\n    --feature_size $FEATURE_SIZE \\\n    --out $OUT_DIR \\\n    --mode \"all\"\n```\n\nNote that `FEATURE_SIZE` will depend on the model type you are using to extract the acoustic features:\n* For HuBERT and Wav2Vec2.0, use `FEATURE_SIZE=0.02`\n* For CPC and Log Mel, use `FEATURE_SIZE=0.01`\n\nIf you have a gpu available, make sure you add the `--cuda` flag for faster computation.\n\n[ll-instructions]: https://github.com/facebookresearch/libri-light\n[ll-abx]: https://github.com/facebookresearch/libri-light/tree/master/eval#abx\n"
  },
  {
    "path": "examples/textless_nlp/gslm/metrics/abx_metrics/dump_abx_feats.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nimport os\n\nimport joblib\nimport numpy as np\n\nfrom examples.textless_nlp.gslm.speech2unit.clustering.utils import get_audio_files\nfrom examples.textless_nlp.gslm.speech2unit.pretrained.utils import get_features\n\ndef get_logger():\n    log_format = \"[%(asctime)s] [%(levelname)s]: %(message)s\"\n    logging.basicConfig(format=log_format, level=logging.INFO)\n    logger = logging.getLogger(__name__)\n    return logger\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"Quantize using K-means clustering over acoustic features.\"\n    )\n    parser.add_argument(\n        \"--feature_type\",\n        type=str,\n        choices=[\"logmel\", \"hubert\", \"w2v2\", \"cpc\"],\n        default=None,\n        required=True,\n        help=\"Acoustic feature type\",\n    )\n    parser.add_argument(\n        \"--kmeans_model_path\",\n        type=str,\n        required=True,\n        help=\"K-means model file path to use for inference\",\n    )\n    parser.add_argument(\n        \"--manifest_path\",\n        type=str,\n        default=None,\n        help=\"Manifest file containing the root dir and file names\",\n    )\n    parser.add_argument(\n        \"--checkpoint_path\",\n        type=str,\n        help=\"Pretrained model checkpoint\",\n    )\n    parser.add_argument(\n        \"--layer\",\n        type=int,\n        help=\"The layer of the pretrained model to extract features from\",\n        default=-1,\n    )\n    parser.add_argument(\n        \"--out_dir_path\",\n        required=True,\n        type=str,\n        help=\"File path of quantized output.\",\n    )\n    parser.add_argument(\n        \"--extension\", type=str, default=\".flac\", help=\"Features file path\"\n    )\n    return parser\n\n\ndef one_hot(feat, n_clusters):\n    return np.eye(n_clusters)[feat]\n\ndef main(args, logger):\n    # Feature extraction\n    logger.info(f\"Extracting {args.feature_type} acoustic features...\")\n    features_batch = get_features(\n        feature_type=args.feature_type,\n        checkpoint_path=args.checkpoint_path,\n        layer=args.layer,\n        manifest_path=args.manifest_path,\n        sample_pct=1.0,\n        flatten=False,\n    )\n    logger.info(f\"Features extracted for {len(features_batch)} utterances.\\n\")\n    logger.info(f\"Dimensionality of representation = {features_batch[0].shape[1]}\")\n\n    logger.info(f\"Loading K-means model from {args.kmeans_model_path} ...\")\n    kmeans_model = joblib.load(open(args.kmeans_model_path, \"rb\"))\n    kmeans_model.verbose = False\n\n    _, fnames, _ = get_audio_files(args.manifest_path)\n\n    os.makedirs(args.out_dir_path, exist_ok=True)\n    logger.info(f\"Writing quantized features to {args.out_dir_path}\")\n    for i, feats in enumerate(features_batch):\n        pred = kmeans_model.predict(feats)\n        emb = one_hot(pred, kmeans_model.n_clusters)\n        base_fname = os.path.basename(fnames[i]).rstrip(args.extension)\n        output_path = os.path.join(args.out_dir_path, f\"{base_fname}.npy\")\n        with open(output_path, \"wb\") as f:\n            np.save(f, emb)\n\nif __name__ == \"__main__\":\n    parser = get_parser()\n    args = parser.parse_args()\n    logger = get_logger()\n    logger.info(args)\n    main(args, logger)\n"
  },
  {
    "path": "examples/textless_nlp/gslm/metrics/asr_metrics/README.md",
    "content": "# ASR-based evaluation\n\nOverall, the life cycle of the ASR-based evaluation for an ULM contains the following steps:\n 1. Training an ULM and sampling from it [[description]](./../../ulm)\n 2. Running UTS on the sampled unit sequences [[description]](./../../unit2speech)\n 3. Pre-processing for the ASR (down-sampling to 16 KHz, aligning length of the generated audio with ground-truth utterances)\n 4. Running ASR\n 5. Calculation of the post-ASR evaluation metrics\n\nHere we assume that you have already went throught the first two steps and focus on the rest.\n\n## Preprocessing\n### Down-sampling to 16KHz\nThe bulk conversion can be done by running\n```bash\n python $FAIRSEQ_ROOT/examples/textless_nlp/gslm/unit2speech/convert_to_16k.py $UTS_OUTPUT $UTS_OUTPUT_DOWNSAMPLE\n ```\n where `$UTS_OUTPUT` specifies the directory with the generated audio and `$UTS_OUTPUT_DOWNSAMPLE` is the directory where downsampled audio would be saved.\n\n ### Matching by length\nThis step is somewhat optional. However, if you want to compare the fluency and diversity of a generated speech utterance to that of the ground-truth speech with the same prefix, it is a good idea to force them to be of the same length.\n```bash\npython $FAIRSEQ_ROOT/examples/textless_nlp/asr_metrics/cut_as.py \\\n    --samples_dir=$UTS_OUTPUT_DOWNSAMPLE --out_dir=$UTS_OUTPUT_DOWNSAMPLE_CUT \\\n    --prompts_description=data/ground_truth_continuation_dev.json\n```\n\nHere `ground_truth_continuation_dev.json` is a json file with ground-truth text from LibriSpeech dev-clean, associated with some meta-data (assuming the evaluation is done on dev-clean). This file can be downloaded [[here]](https://dl.fbaipublicfiles.com/textless_nlp/gslm/eval_data/ground_truth_continuation_dev.json). A similar file for the test-clean is [[here]](https://dl.fbaipublicfiles.com/textless_nlp/gslm/eval_data/ground_truth_continuation_test.json). These files are used for the evaluation and contain texts for audio sequences that are at least 6s long.\n\n## Running ASR\nWe use a pre-trained wav2vec model to run the ASR step. We firstly need to prepare manifest files which, roughly, tell the ASR system which files we want to transcribe. You can find more details and download the `960h_scratch.pt` checkpoint\n[[here]](https://github.com/pytorch/fairseq/blob/main/examples/wav2vec/README.md)). To run ASR, you would also need to\ninstall KenLM, Flashlight decoder, and download the KenLM 4-gram English language model.\n\n```bash\n python $FAIRSEQ_ROOT/examples/wav2vec/wav2vec_manifest.py  \\\n    $UTS_OUTPUT_DOWNSAMPLE_CUT --valid-percent 0.0  --dest $MANIFEST_DIR --ext wav\n```\nwhere `$UTS_OUTPUT_DOWNSAMPLE_CUT` speficies the directory with the preprocessed UTS outputs and `$MANIFEST_DIR` is the output directory.\n\nWe will be running an out-of-the-box evaluation script which requires ground-truth transcripts to measure quality metrics. We are only\ninterested in the transcripts (and we don't have ground-truth outputs for when our ULM generated!), hence we will just generate\nsome dummy transcripts instead:\n```bash\ncp $FAIRSEQ_ROOT/examples/textless_nlp/gslm/asr_metrics/misc/dict.ltr.txt $MANIFEST_DIR\npython $FAIRSEQ_ROOT/examples/textless_nlp/gslm/asr_metrics/misc/dummy_asr_data.py  --tsv=$MANIFEST_DIR/train.tsv \\\n --output-dir=$MANIFEST_DIR\n```\n\nNow we are ready for running ASR:\n```\nmkdir -p asr\npython $FAIRSEQ_ROOT/examples/speech_recognition/infer.py  \\\n    $MANIFEST_DIR \\\n    --task audio_pretraining --nbest 1 --path 960h_scratch.pt \\\n    --gen-subset=train --results-path $PATH_TO_ASR_OUTPUT \\\n    --w2l-decoder kenlm --lm-model 4-gram.bin \\\n    --lexicon librispeech/lexicon_ltr.lst --word-score -1 \\\n    --sil-weight 0 --lm-weight 2 --criterion ctc --labels ltr --max-tokens 300000 --remove-bpe letter\n```\nwhere `lexicon_ltr.lst` is the LibriSpeech lexicon and `$PATH_TO_ASR_OUTPUT` is the output directory (can be downloaded [[here]](https://dl.fbaipublicfiles.com/textless_nlp/gslm/eval_data/lexicon_ltr.lst)).\n\n## Evaluation metrics\nWe run evaluation on the 1_000 shortest sequences that are at least 6s long. To filter those from the ASR transcript, we additionally provide each metric script with the paths to the manifest and `ground_truth_continuation_*` files.\n\n### Perplexity (PPX)\nTo get a PPX metric estimate on an ASR transcript, you need to run the following command:\n```bash\npython ppx.py $PATH_TO_ASR_OUTPUT/hypo.word-960h_scratch.pt-train.txt --cut-tail\\\n  --manifest=$MANIFEST_DIR/train.tsv --prompts-description=data/ground_truth_continuation_dev.json\n```\nwhere `--cut-tail` tells the script to ignore the last token on each line (ASR puts the sequence ID there).\n\n### Self- and Auto-BLEU\n```bash\npython self_bleu.py $PATH_TO_ASR_OUTPUT/hypo.word-960h_scratch.pt-train.txt  --cut-tail \\\n  --manifest=$MANIFEST_DIR/train.tsv --prompts-description=data/ground_truth_continuation_dev.json\n```\n\n### Continuation-BLEU\n```bash\npython continuation_eval.py --asr-transcript $PATH_TO_ASR_OUTPUT/hypo.word-960h_scratch.pt-train.txt \\\n   --manifest=$MANIFEST_DIR/train.tsv --prompts-description=data/ground_truth_continuation_dev.json\n```\n\n### AUC\nBased on the metrics calculated above, we can estimate the AUC of the perplexity/diversity trade-off. We provide an illustration in a [Colab notebook](https://colab.research.google.com/drive/1pVPfOVax_PU3MkYdHRSsa-SI8GBUldNt?usp=sharing).\n"
  },
  {
    "path": "examples/textless_nlp/gslm/metrics/asr_metrics/continuation_eval.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom collections import defaultdict\nimport numpy as np\nfrom misc.bleu_utils import sentence_bleu\nimport json\nimport warnings\n\n\ndef get_args():\n    import argparse\n\n    parser = argparse.ArgumentParser(\"Tool to calculate Continuation-BLEU2\")\n    parser.add_argument('--asr-transcript', type=str,\n                        help='Path to the transcript file.')\n    parser.add_argument('--prompts-description', type=str,\n                        help='Path to the ground-truth continuation')\n    parser.add_argument('--manifest', type=str, required=True)\n    parser.add_argument('--take-shortest', type=int, default=1000)\n\n    args = parser.parse_args()\n\n    return args\n\n\ndef main():\n    # NLTK produces warnings\n    warnings.filterwarnings(\"ignore\")\n\n    args = get_args()\n\n    with open(args.prompts_description, 'r') as fin:\n        original_continuations = json.loads(fin.read())\n\n    sequence2length = [(k, v[0]) for k, v in original_continuations.items()]\n    assert all(float(v) >= 6.0 for (_, v) in sequence2length)  # 6 seconds\n\n    sequence2length.sort(key=lambda x: x[1])\n    to_take = set(v[0] for v in sequence2length[:args.take_shortest])\n\n    with open(args.manifest, 'r') as fin:\n        fin.readline()\n\n        linenum2file = dict([\n            (i, l.split(\"__\")[0]) for (i, l) in enumerate(fin)\n        ])\n\n    max_files = max(linenum2file.keys())\n    continuations = defaultdict(list)\n\n    mean_length_after = 0\n    n_examples = 0\n\n    with open(args.asr_transcript, 'r') as fin:\n        for line in fin:\n            n_examples += 1\n            line = line.split()\n            sequence_id = int(line[-1].split('-')[1][:-1])\n\n            assert sequence_id <= max_files\n\n            sequence_name = linenum2file[sequence_id]\n\n            continuations[sequence_name].append(line[:-1])\n            mean_length_after += len(line)\n\n    mean_length_after /= n_examples\n    print(f'Mean length of continuations, in words: {mean_length_after}')\n    metric_values = []\n\n    mean_ground_truth_words = 0\n    n_examples = 0\n    n_candidates = 0\n\n    for k, candidates in continuations.items():\n        if k not in to_take:\n            continue\n\n        n_examples += 1\n\n        ground_truth = original_continuations[k][1].split()\n        n_candidates += len(candidates)\n        bleu = sentence_bleu(candidates, ground_truth, weights=(\n            0.5, 0.5), no_length_penalty=True, averaging_mode=\"geometric\")\n        mean_ground_truth_words += len(ground_truth)\n\n        metric_values.append(bleu)\n\n    n = len(metric_values)\n    print(\n        f'Median BLEU over {n} examples: {np.median(metric_values)} +- {np.std(metric_values) / np.sqrt(n)}')\n\n\nif __name__ == '__main__':\n    main()\n"
  },
  {
    "path": "examples/textless_nlp/gslm/metrics/asr_metrics/misc/bleu_utils.py",
    "content": "\"\"\"\n\nTODO: the code is take from Apache-2 Licensed NLTK: make sure we do this properly!\n\n\nCopied over from nltk.tranlate.bleu_score. This code has two major changes:\n - allows to turn off length/brevity penalty --- it has no sense for self-bleu,\n - allows to use arithmetic instead of geometric mean\n\"\"\"\n\nimport math\nimport sys\nfrom fractions import Fraction\nimport warnings\nfrom collections import Counter\nfrom nltk.translate.bleu_score import modified_precision, closest_ref_length, brevity_penalty, SmoothingFunction\n\n\ndef corpus_bleu(\n    list_of_references,\n    hypotheses,\n    weights=(0.25, 0.25, 0.25, 0.25),\n    smoothing_function=None,\n    auto_reweigh=False,\n    averaging_mode=\"geometric\",\n    no_length_penalty=False\n):\n    \"\"\"\n    Calculate a single corpus-level BLEU score (aka. system-level BLEU) for all\n    the hypotheses and their respective references.\n\n    Instead of averaging the sentence level BLEU scores (i.e. marco-average\n    precision), the original BLEU metric (Papineni et al. 2002) accounts for\n    the micro-average precision (i.e. summing the numerators and denominators\n    for each hypothesis-reference(s) pairs before the division).\n\n    >>> hyp1 = ['It', 'is', 'a', 'guide', 'to', 'action', 'which',\n    ...         'ensures', 'that', 'the', 'military', 'always',\n    ...         'obeys', 'the', 'commands', 'of', 'the', 'party']\n    >>> ref1a = ['It', 'is', 'a', 'guide', 'to', 'action', 'that',\n    ...          'ensures', 'that', 'the', 'military', 'will', 'forever',\n    ...          'heed', 'Party', 'commands']\n    >>> ref1b = ['It', 'is', 'the', 'guiding', 'principle', 'which',\n    ...          'guarantees', 'the', 'military', 'forces', 'always',\n    ...          'being', 'under', 'the', 'command', 'of', 'the', 'Party']\n    >>> ref1c = ['It', 'is', 'the', 'practical', 'guide', 'for', 'the',\n    ...          'army', 'always', 'to', 'heed', 'the', 'directions',\n    ...          'of', 'the', 'party']\n\n    >>> hyp2 = ['he', 'read', 'the', 'book', 'because', 'he', 'was',\n    ...         'interested', 'in', 'world', 'history']\n    >>> ref2a = ['he', 'was', 'interested', 'in', 'world', 'history',\n    ...          'because', 'he', 'read', 'the', 'book']\n\n    >>> list_of_references = [[ref1a, ref1b, ref1c], [ref2a]]\n    >>> hypotheses = [hyp1, hyp2]\n    >>> corpus_bleu(list_of_references, hypotheses) # doctest: +ELLIPSIS\n    0.5920...\n\n    The example below show that corpus_bleu() is different from averaging\n    sentence_bleu() for hypotheses\n\n    >>> score1 = sentence_bleu([ref1a, ref1b, ref1c], hyp1)\n    >>> score2 = sentence_bleu([ref2a], hyp2)\n    >>> (score1 + score2) / 2 # doctest: +ELLIPSIS\n    0.6223...\n\n    :param list_of_references: a corpus of lists of reference sentences, w.r.t. hypotheses\n    :type list_of_references: list(list(list(str)))\n    :param hypotheses: a list of hypothesis sentences\n    :type hypotheses: list(list(str))\n    :param weights: weights for unigrams, bigrams, trigrams and so on\n    :type weights: list(float)\n    :param smoothing_function:\n    :type smoothing_function: SmoothingFunction\n    :param auto_reweigh: Option to re-normalize the weights uniformly.\n    :type auto_reweigh: bool\n    :return: The corpus-level BLEU score.\n    :rtype: float\n    \"\"\"\n    # Before proceeding to compute BLEU, perform sanity checks.\n\n    p_numerators = Counter()  # Key = ngram order, and value = no. of ngram matches.\n    p_denominators = Counter()  # Key = ngram order, and value = no. of ngram in ref.\n    hyp_lengths, ref_lengths = 0, 0\n\n    assert len(list_of_references) == len(hypotheses), (\n        \"The number of hypotheses and their reference(s) should be the \" \"same \"\n    )\n\n    # Iterate through each hypothesis and their corresponding references.\n    for references, hypothesis in zip(list_of_references, hypotheses):\n        # For each order of ngram, calculate the numerator and\n        # denominator for the corpus-level modified precision.\n        for i, _ in enumerate(weights, start=1):\n            p_i = modified_precision(references, hypothesis, i)\n            p_numerators[i] += p_i.numerator\n            p_denominators[i] += p_i.denominator\n\n        # Calculate the hypothesis length and the closest reference length.\n        # Adds them to the corpus-level hypothesis and reference counts.\n        hyp_len = len(hypothesis)\n        hyp_lengths += hyp_len\n        ref_lengths += closest_ref_length(references, hyp_len)\n\n    # Calculate corpus-level brevity penalty.\n    if no_length_penalty and averaging_mode == 'geometric':\n        bp = 1.0\n    elif no_length_penalty and averaging_mode == 'arithmetic':\n        bp = 0.0\n    else:\n        assert not no_length_penalty\n        assert averaging_mode != 'arithmetic', 'Not sure how to apply length penalty when aurithmetic mode'\n        bp = brevity_penalty(ref_lengths, hyp_lengths)\n\n    # Uniformly re-weighting based on maximum hypothesis lengths if largest\n    # order of n-grams < 4 and weights is set at default.\n    if auto_reweigh:\n        if hyp_lengths < 4 and weights == (0.25, 0.25, 0.25, 0.25):\n            weights = (1 / hyp_lengths,) * hyp_lengths\n\n    # Collects the various precision values for the different ngram orders.\n    p_n = [\n        Fraction(p_numerators[i], p_denominators[i], _normalize=False)\n        for i, _ in enumerate(weights, start=1)\n    ]\n\n    # Returns 0 if there's no matching n-grams\n    # We only need to check for p_numerators[1] == 0, since if there's\n    # no unigrams, there won't be any higher order ngrams.\n    if p_numerators[1] == 0:\n        return 0\n\n    # If there's no smoothing, set use method0 from SmoothinFunction class.\n    if not smoothing_function:\n        smoothing_function = SmoothingFunction().method0\n    # Smoothen the modified precision.\n    # Note: smoothing_function() may convert values into floats;\n    #       it tries to retain the Fraction object as much as the\n    #       smoothing method allows.\n    p_n = smoothing_function(\n        p_n, references=references, hypothesis=hypothesis, hyp_len=hyp_lengths\n    )\n\n    if averaging_mode == \"geometric\":\n        s = (w_i * math.log(p_i) for w_i, p_i in zip(weights, p_n))\n        s = bp * math.exp(math.fsum(s))\n    elif averaging_mode == \"arithmetic\":\n        s = (w_i * p_i for w_i, p_i in zip(weights, p_n))\n        s = math.fsum(s)\n\n    return s\n\n\ndef sentence_bleu(\n    references,\n    hypothesis,\n    weights=(0.25, 0.25, 0.25, 0.25),\n    smoothing_function=None,\n    auto_reweigh=False,\n    averaging_mode=\"geometric\",\n    no_length_penalty=False\n):\n    return corpus_bleu(\n        [references], [hypothesis], weights, smoothing_function, auto_reweigh, averaging_mode, no_length_penalty\n    )"
  },
  {
    "path": "examples/textless_nlp/gslm/metrics/asr_metrics/misc/cut_as.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport torchaudio\nimport argparse\nimport json\nimport pathlib\n\n\ndef get_args():\n    parser = argparse.ArgumentParser(\n        \"Assuring generated audio have the same length as ground-truth audio\")\n    parser.add_argument('--samples_dir', required=True, type=str)\n    parser.add_argument('--out_dir', required=True, type=str)\n    parser.add_argument('--prompts_description', required=True, type=str)\n    return parser.parse_args()\n\n\ndef cut(src, tgt, l):\n    x, sr = torchaudio.load(str(src))\n    assert sr == 16_000\n\n    x = x.squeeze()\n    target_frames = int(l * sr)\n\n    flag = 0\n    if target_frames <= x.size(0):\n        x = x[:target_frames]\n        flag = 1\n    else:\n        flag = 0\n    torchaudio.save(str(tgt), x.unsqueeze(0), sr)\n    return flag\n\n\ndef main():\n    args = get_args()\n    tgt_dir = pathlib.Path(args.out_dir)\n    tgt_dir.mkdir(exist_ok=True, parents=True)\n\n    total_files, sufficiently_long = 0, 0\n\n    with open(args.prompts_description, 'r') as f:\n        description = json.loads(f.read())\n\n    for src_f in pathlib.Path(args.samples_dir).glob('*.wav'):\n        name_prompt = src_f.with_suffix('').name.split('__')[0]\n\n        assert name_prompt in description, f'Cannot find {name_prompt}!'\n\n        target_length = description[name_prompt][0]\n        tgt_f = tgt_dir / (src_f.name)\n\n        is_long_enough = cut(src_f, tgt_f, target_length)\n        sufficiently_long += is_long_enough\n        if not is_long_enough:\n            print(f'{src_f} is not long enough')\n\n        total_files += 1\n\n    print(\n        f'Total files: {total_files}; sufficiently long: {sufficiently_long}')\n\n\nif __name__ == '__main__':\n    main()\n"
  },
  {
    "path": "examples/textless_nlp/gslm/metrics/asr_metrics/misc/dict.ltr.txt",
    "content": "| 94802\nE 51860\nT 38431\nA 33152\nO 31495\nN 28855\nI 28794\nH 27187\nS 26071\nR 23546\nD 18289\nL 16308\nU 12400\nM 10685\nW 10317\nC 9844\nF 9062\nG 8924\nY 8226\nP 6890\nB 6339\nV 3936\nK 3456\n' 1023\nX 636\nJ 598\nQ 437\nZ 213\n"
  },
  {
    "path": "examples/textless_nlp/gslm/metrics/asr_metrics/ppx.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport torch\nimport numpy as np\nimport warnings\n\n\ndef get_target_sequences(manifest, ground_truth, to_take=1000):\n    import json\n    import pathlib\n\n    with open(ground_truth, 'r') as fin:\n        original_continuations = json.loads(fin.read())\n\n    sequence2length = [(k, v[0]) for k, v in original_continuations.items()]\n    assert all(float(v) >= 6.0 for (_, v) in sequence2length)  # 6 seconds\n\n    sequence2length.sort(key=lambda x: x[1])\n    to_take_sequences = set(v[0] for v in sequence2length[:to_take])\n    to_take_ids = []\n\n    with open(manifest, 'r') as f:\n        f.readline()\n\n        for i, line in enumerate(f.readlines()):\n            seq_id = line.split()[0]\n            seq_id = pathlib.Path(seq_id).name.split('__')[0]\n\n            if seq_id in to_take_sequences:\n                to_take_ids.append(i)\n\n    print(f'Took {len(to_take_ids)} ids')\n    return set(to_take_ids)\n\n\ndef get_args():\n    import argparse\n\n    parser = argparse.ArgumentParser(\"Evaluate PPX metric of a transcript.\")\n    parser.add_argument('--asr-transcript', type=str,\n                        help='Path to the transcript file.')\n    parser.add_argument('--cut-id', action='store_true',\n                        help='Whether cut the first token (typically a seq id)')\n    parser.add_argument('--cut-tail', action='store_true',\n                        help='Whether cut the last token (typically a speaker id)')\n\n    parser.add_argument('--manifest', type=str, default=None)\n    parser.add_argument('--prompts-description', type=str, default=None)\n\n    args = parser.parse_args()\n\n    return args\n\n\ndef main():\n    args = get_args()\n\n    lm = torch.hub.load(\n        'pytorch/fairseq', 'transformer_lm.wmt19.en', tokenizer='moses', bpe='fastbpe')\n\n    lm.eval().cuda()  # disable dropout\n\n    if args.manifest is None and args.prompts_description is None:\n        target_ids = None\n    else:\n        target_ids = get_target_sequences(\n            args.manifest, args.prompts_description)\n\n    with open(args.asr_transcript, 'r') as fin:\n        lines = fin.readlines()\n\n    if target_ids is not None:\n        filtered = []\n        for line in lines:\n            line_id = line.split()[-1]\n            line_id = int(line_id.split('-')[1][:-1])\n            if line_id in target_ids:\n                filtered.append(line)\n        lines = filtered\n    else:\n        pass\n\n    if args.cut_id:\n        lines = [' '.join(x.split()[1:]) for x in lines]\n    if args.cut_tail:\n        lines = [' '.join(x.split()[:-1]) for x in lines]\n    lines = [x.strip().lower() for x in lines]\n\n    def get_logprob(sent): return \\\n        lm.score(sent)['positional_scores'].mean().neg().item()\n\n    logprobs = [get_logprob(l) for l in lines]\n\n    filtered = [x for x in logprobs if not np.isnan(x)]\n    if len(filtered) != len(logprobs):\n        warnings.warn(\"NaNs detected!\")\n        logprobs = filtered\n\n    perplexities = [np.exp(l) for l in logprobs]\n\n    for name, stats in [('logprob', logprobs), ('perplexity', perplexities)]:\n        mean = np.mean(stats)\n        sem = np.std(stats) / np.sqrt(len(stats))\n\n        median = np.median(stats)\n        interval = list(np.percentile(stats, [10, 90]))\n\n        mean, sem, median, percentile10, percentile90 = [\n            round(x, 2) for x in [mean, sem, median] + interval]\n\n        print(name)\n        print(f\"\\tMean {mean} +- {sem}\")\n        print(\n            f\"\\tMedian {median}, 90% confidence interval {percentile10}...{percentile90}\")\n\n\nif __name__ == '__main__':\n    main()\n"
  },
  {
    "path": "examples/textless_nlp/gslm/metrics/asr_metrics/self_auto_bleu.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport nltk\nfrom misc.bleu_utils import sentence_bleu\nimport warnings\n\n\ndef get_target_sequences(manifest, ground_truth, to_take=1000):\n    import json\n    import pathlib\n\n    with open(ground_truth, 'r') as fin:\n        original_continuations = json.loads(fin.read())\n\n    sequence2length = [(k, v[0]) for k, v in original_continuations.items()]\n    assert all(float(v) >= 6.0 for (_, v) in sequence2length)  # 6 seconds\n\n    sequence2length.sort(key=lambda x: x[1])\n    to_take_sequences = set(v[0] for v in sequence2length[:to_take])\n    to_take_ids = []\n\n    with open(manifest, 'r') as f:\n        f.readline()\n\n        for i, line in enumerate(f.readlines()):\n            seq_id = line.split()[0]\n            seq_id = pathlib.Path(seq_id).name.split('__')[0]\n\n            if seq_id in to_take_sequences:\n                to_take_ids.append(i)\n\n    print(f'Took {len(to_take_ids)} ids')\n    return set(to_take_ids)\n\n\ndef get_args():\n    import argparse\n\n    parser = argparse.ArgumentParser()\n    parser.add_argument('--asr-transcript', type=str,\n                        help='Path to the transcript file.')\n\n    parser.add_argument('--manifest', required=True)\n    parser.add_argument('--prompts-description', required=True)\n\n    parser.add_argument('--cut-id', action='store_true',\n                        help='Whether cut the first token (typically a seq id)')\n    parser.add_argument('--cut-tail', action='store_true',\n                        help='Whether cut the last token (typically a speaker id)')\n    parser.add_argument('--debug', action='store_true')\n\n    args = parser.parse_args()\n\n    return args\n\n\ndef get_self_bleu(utterances, averaging_mode, weights):\n    self_bleu = []\n\n    for i in range(len(utterances)):\n        hypo = utterances[i]\n        rest = utterances[:i] + utterances[i+1:]\n\n        self_bleu.append(sentence_bleu(rest, hypo, weights,\n                         no_length_penalty=True, averaging_mode=averaging_mode))\n\n    return self_bleu\n\n\ndef get_self_bleu2_arithmetic(utterances):\n    weights = (0.5, 0.5)  # equal weight for unigrams and bigrams\n    return get_self_bleu(utterances, averaging_mode='arithmetic', weights=weights)\n\n\ndef get_self_bleu2_geometric(utterances):\n    weights = (0.5, 0.5)\n    return get_self_bleu(utterances, averaging_mode='geometric', weights=weights)\n\n\ndef get_auto_bleu2_arithmetic(utterances):\n    weights = (0.5, 0.5)\n    return [auto_bleu(u, mean_mode='arithmetic', weights=weights) for u in utterances]\n\n\ndef get_auto_bleu2_geometric(utterances):\n    weights = (0.5, 0.5)\n    return [auto_bleu(u, mean_mode='geometric', weights=weights) for u in utterances]\n\n\ndef get_auto_bleu3_geometric(utterances):\n    weights = (1./3, 1./3, 1./3)\n    return [auto_bleu(u, mean_mode='geometric', weights=weights) for u in utterances]\n\n\ndef get_auto_bleu3_arithmetic(utterances):\n    weights = (1./3, 1./3, 1./3)\n    return [auto_bleu(u, mean_mode='arithmetic', weights=weights) for u in utterances]\n\n\ndef get_self_bleu3_arithmetic(utterances):\n    weights = (1./3, 1./3, 1./3)\n    return get_self_bleu(utterances, averaging_mode='arithmetic', weights=weights)\n\n\ndef get_self_bleu3_geometric(utterances):\n    weights = (1./3, 1./3, 1./3)\n    return get_self_bleu(utterances, averaging_mode='geometric', weights=weights)\n\n\ndef auto_bleu(sentence, weights, mean_mode='arithmetic'):\n    if len(sentence) <= 1:\n        return 0\n\n    N = len(weights)\n\n    bleu_n = np.zeros([N])\n    for n in range(N):\n        targ_ngrams = list(nltk.ngrams(sentence, n+1))\n        for p in range(len(targ_ngrams)):\n            left = sentence[:p]\n            right = sentence[(p+n+1):]\n            rest_ngrams = list(nltk.ngrams(left, n+1)) + \\\n                list(nltk.ngrams(right, n+1))\n            # compute the nb of matching ngrams\n            bleu_n[n] += targ_ngrams[p] in rest_ngrams\n        bleu_n[n] /= len(targ_ngrams)  # average them to get a proportion\n\n    weights = np.array(weights)\n    if mean_mode == 'arithmetic':\n        return (bleu_n * weights).sum()\n    elif mean_mode == 'geometric':\n        return (bleu_n ** weights).prod()\n    else:\n        raise ValueError(f'Unknown agggregation mode {mean_mode}')\n\n\ndef main():\n    from multiprocessing import Pool\n\n    args = get_args()\n    target_ids = get_target_sequences(args.manifest, args.prompts_description)\n\n    with open(args.asr_transcript, 'r') as fin:\n        lines = fin.readlines()\n\n    terms = [x.strip().split() for x in lines]\n    filtered = []\n    for term in terms:\n        line_id = int(term[-1].split('-')[1][:-1])\n        if line_id in target_ids:\n            filtered.append(term)\n    terms = filtered\n\n    if args.cut_id:\n        terms = [x[1:] for x in terms]\n    if args.cut_tail:\n        terms = [x[:-1] for x in terms]\n\n    if args.debug:\n        terms = terms[:10]\n\n    tasks = [\n        ('Self-BLEU2-arithmetic', get_self_bleu2_arithmetic),\n        ('Self-BLEU2-geometric', get_self_bleu2_geometric),\n        ('Auto-BLEU2-arithmetic', get_auto_bleu2_arithmetic),\n        ('Auto-BLEU2-geometric', get_auto_bleu2_geometric),\n\n        ('Self-BLEU3-arithmetic', get_self_bleu3_arithmetic),\n        ('Self-BLEU3-geometric', get_self_bleu3_geometric),\n        ('Auto-BLEU3-arithmetic', get_auto_bleu3_arithmetic),\n        ('Auto-BLEU3-geometric', get_auto_bleu3_geometric),\n    ]\n\n    n_processes = min(16, len(tasks))\n    with Pool(n_processes) as pool:\n        metrics = pool.map(run_f, [(t[1], terms) for t in tasks])\n\n    for (metric_name, _), metric in zip(tasks, metrics):\n        metric, sem = np.mean(metric), np.std(metric) / np.sqrt(len(metric))\n\n        metric, sem = [\n            round(100 * x, 2) for x in [metric, sem]\n        ]\n\n        print(f'{metric_name} {metric} +- {sem}')\n\n\ndef run_f(task_params):\n    f, terms = task_params\n    return f(terms)\n\n\nif __name__ == '__main__':\n    # NLTK produces warnings\n    warnings.filterwarnings(\"ignore\")\n\n    main()\n"
  },
  {
    "path": "examples/textless_nlp/gslm/speech2unit/README.md",
    "content": "# Speech to Unit Model (speech2unit)\n\n## Acoustic Model\nFor quantizing speech we learn a K-means clustering over acoustic representations for which we either use Log-Mel Filterbank or pretrained acoustic representation models. For using pretrained models, please download from their respective locations linked below.\n* [Modified CPC](https://dl.fbaipublicfiles.com/textless_nlp/gslm/cpc/cpc_big_ll6kh_top_ctc.pt)\n* [HuBERT-Base](https://dl.fbaipublicfiles.com/hubert/hubert_base_ls960.pt)\n* [Wav2Vec 2.0-Base](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_vox_new.pt)\n\n## Quantization Model\nYou can download pretrained quantized model from the list below.\n\nK-Means Model | Download Link\n|-|-\nLog Mel Filterbank + KM50 | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/logmel/km50/km.bin)\nLog Mel Filterbank + KM100 | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/logmel/km100/km.bin)\nLog Mel Filterbank + KM200 | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/logmel/km200/km.bin)\nModified CPC + KM50 | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/cpc/km50/km.bin)\nModified CPC + KM100 | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/cpc/km100/km.bin)\nModified CPC + KM200 | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/cpc/km200/km.bin)\nHuBERT Base + KM50 | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/hubert/km50/km.bin)\nHuBERT Base + KM100 | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/hubert/km100/km.bin)\nHuBERT Base + KM200 | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/hubert/km200/km.bin)\nwav2vec 2.0 Large + KM50 | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/w2v2/km50/km.bin)\nwav2vec 2.0 Large + KM100 | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/w2v2/km100/km.bin)\nwav2vec 2.0 Large + KM200 | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/w2v2/km200/km.bin)\n\n### Quantization\nFor quantizing speech with a given acoustic representation, please follow the steps below.\n1. Learn K-means clustering model\n```\nN_CLUSTERS=<number_of_clusters_used_for_kmeans>\nTYPE=<one_of_logmel/cpc/hubert/w2v2>\nCKPT_PATH=<path_of_pretrained_acoustic_model>\nLAYER=<layer_of_acoustic_model_to_extract_features_from>\nMANIFEST=<tab_separated_manifest_of_audio_files_for_training_kmeans>\nKM_MODEL_PATH=<output_path_of_the_kmeans_model>\n\nPYTHONPATH=. python examples/textless_nlp/gslm/speech2unit/clustering/cluster_kmeans.py \\\n    --num_clusters $N_CLUSTERS \\\n    --feature_type $TYPE \\\n    --checkpoint_path $CKPT_PATH \\\n    --layer $LAYER \\\n    --manifest_path $MANIFEST \\\n    --out_kmeans_model_path $KM_MODEL_PATH\n```\n2. Quantize using the learned clusters\n```\nMANIFEST=<tab_separated_manifest_of_audio_files_to_quantize>\nOUT_QUANTIZED_FILE=<output_quantized_audio_file_path>\n\npython examples/textless_nlp/gslm/speech2unit/clustering/quantize_with_kmeans.py \\\n    --feature_type $TYPE \\\n    --kmeans_model_path $KM_MODEL_PATH \\\n    --acoustic_model_path $CKPT_PATH \\\n    --layer $LAYER \\\n    --manifest_path $MANIFEST \\\n    --out_quantized_file_path $OUT_QUANTIZED_FILE \\\n    --extension \".flac\"\n```\n\nNote about the manifest file is a file with paths and length of input audio files. The format of the file is as follows:\n```\n<path_of_root_directory_containing_audio_files>\n<relative_path_of_audio_file_1>\\t<number_of_frames_1>\n<relative_path_of_audio_file_2>\\t<number_of_frames_1>\n...\n```\n\n"
  },
  {
    "path": "examples/textless_nlp/gslm/speech2unit/__init__.py",
    "content": ""
  },
  {
    "path": "examples/textless_nlp/gslm/speech2unit/clustering/__init__.py",
    "content": ""
  },
  {
    "path": "examples/textless_nlp/gslm/speech2unit/clustering/cluster_kmeans.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nimport os\nimport time\n\nimport numpy as np\nfrom sklearn.cluster import MiniBatchKMeans\n\nimport joblib\nfrom examples.textless_nlp.gslm.speech2unit.pretrained.utils import (\n    get_and_dump_features,\n    get_features,\n)\n\n\ndef get_logger():\n    log_format = \"[%(asctime)s] [%(levelname)s]: %(message)s\"\n    logging.basicConfig(format=log_format, level=logging.INFO)\n    logger = logging.getLogger(__name__)\n    return logger\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"Learn K-means clustering over acoustic features.\"\n    )\n\n    # Features arguments\n    parser.add_argument(\n        \"--in_features_path\", type=str, default=None, help=\"Features file path\"\n    )\n    parser.add_argument(\n        \"--feature_type\",\n        type=str,\n        choices=[\"logmel\", \"hubert\", \"w2v2\", \"cpc\"],\n        default=None,\n        help=\"Acoustic feature type\",\n    )\n    parser.add_argument(\n        \"--manifest_path\",\n        type=str,\n        default=None,\n        help=\"Manifest file containing the root dir and file names\",\n    )\n    parser.add_argument(\n        \"--out_features_path\",\n        type=str,\n        default=None,\n        help=\"Features file path to write to\",\n    )\n    parser.add_argument(\n        \"--checkpoint_path\",\n        type=str,\n        help=\"Pretrained acoustic model checkpoint\",\n    )\n    parser.add_argument(\n        \"--layer\",\n        type=int,\n        help=\"The layer of the pretrained model to extract features from\",\n        default=-1,\n    )\n    parser.add_argument(\n        \"--sample_pct\",\n        type=float,\n        help=\"Percent data to use for K-means training\",\n        default=0.1,\n    )\n\n    # K-means arguments\n    parser.add_argument(\n        \"--num_clusters\", type=int, help=\"Nubmer of clusters\", default=50\n    )\n    parser.add_argument(\"--init\", default=\"k-means++\")\n    parser.add_argument(\n        \"--max_iter\",\n        type=int,\n        help=\"Maximum number of iterations for K-means training\",\n        default=150,\n    )\n    parser.add_argument(\n        \"--batch_size\",\n        type=int,\n        help=\"Batch size for K-means training\",\n        default=10000,\n    )\n    parser.add_argument(\"--tol\", default=0.0, type=float)\n    parser.add_argument(\"--max_no_improvement\", default=100, type=int)\n    parser.add_argument(\"--n_init\", default=20, type=int)\n    parser.add_argument(\"--reassignment_ratio\", default=0.5, type=float)\n    parser.add_argument(\n        \"--out_kmeans_model_path\",\n        type=str,\n        required=True,\n        help=\"Path to save K-means model\",\n    )\n\n    # Leftovers\n    parser.add_argument(\n        \"--seed\",\n        type=int,\n        help=\"Random seed to use for K-means training\",\n        default=1369,\n    )\n\n    return parser\n\n\ndef get_kmeans_model(\n    n_clusters,\n    init,\n    max_iter,\n    batch_size,\n    tol,\n    max_no_improvement,\n    n_init,\n    reassignment_ratio,\n    random_state,\n):\n    return MiniBatchKMeans(\n        n_clusters=n_clusters,\n        init=init,\n        max_iter=max_iter,\n        batch_size=batch_size,\n        tol=tol,\n        max_no_improvement=max_no_improvement,\n        n_init=n_init,\n        reassignment_ratio=reassignment_ratio,\n        random_state=random_state,\n        verbose=1,\n        compute_labels=True,\n        init_size=None,\n    )\n\n\ndef train_kmeans(kmeans_model, features_batch):\n    start_time = time.time()\n    kmeans_model.fit(features_batch)\n    time_taken = round((time.time() - start_time) // 60, 2)\n    return kmeans_model, time_taken\n\n\ndef main(args, logger):\n    # Features loading/extraction for K-means\n    if args.in_features_path:\n        # Feature loading\n        logger.info(f\"Loading features from {args.in_features_path}...\")\n        features_batch = np.load(args.in_features_path, allow_pickle=True)\n    else:\n        # Feature extraction\n        logger.info(f\"Extracting {args.feature_type} acoustic features...\")\n        features_batch = (\n            get_features(\n                feature_type=args.feature_type,\n                checkpoint_path=args.checkpoint_path,\n                layer=args.layer,\n                manifest_path=args.manifest_path,\n                sample_pct=args.sample_pct,\n                flatten=True,\n            )\n            if not args.out_features_path\n            else get_and_dump_features(\n                feature_type=args.feature_type,\n                checkpoint_path=args.checkpoint_path,\n                layer=args.layer,\n                manifest_path=args.manifest_path,\n                sample_pct=args.sample_pct,\n                flatten=True,\n                out_features_path=args.out_features_path,\n            )\n        )\n        if args.out_features_path:\n            logger.info(\n                f\"Saved extracted features at {args.out_features_path}\"\n            )\n    logger.info(f\"Features shape = {features_batch.shape}\\n\")\n\n    # Learn and save K-means model\n    kmeans_model = get_kmeans_model(\n        n_clusters=args.num_clusters,\n        init=args.init,\n        max_iter=args.max_iter,\n        batch_size=args.batch_size,\n        tol=args.tol,\n        max_no_improvement=args.max_no_improvement,\n        n_init=args.n_init,\n        reassignment_ratio=args.reassignment_ratio,\n        random_state=args.seed,\n    )\n    logger.info(\"Starting k-means training...\")\n    kmeans_model, time_taken = train_kmeans(\n        kmeans_model=kmeans_model, features_batch=features_batch\n    )\n    logger.info(f\"...done k-means training in {time_taken} minutes\")\n    inertia = -kmeans_model.score(features_batch) / len(features_batch)\n    logger.info(f\"Total intertia: {round(inertia, 2)}\\n\")\n\n    logger.info(f\"Saving k-means model to {args.out_kmeans_model_path}\")\n    os.makedirs(os.path.dirname(args.out_kmeans_model_path), exist_ok=True)\n    joblib.dump(kmeans_model, open(args.out_kmeans_model_path, \"wb\"))\n\n\nif __name__ == \"__main__\":\n    parser = get_parser()\n    args = parser.parse_args()\n    logger = get_logger()\n    logger.info(args)\n    main(args, logger)\n"
  },
  {
    "path": "examples/textless_nlp/gslm/speech2unit/clustering/dump_feats.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\n\nfrom examples.textless_nlp.gslm.speech2unit.pretrained.utils import (\n    get_and_dump_features,\n)\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"Compute and dump log mel fbank features.\"\n    )\n    parser.add_argument(\n        \"--feature_type\",\n        type=str,\n        choices=[\"logmel\", \"hubert\", \"w2v2\", \"cpc\"],\n        default=None,\n        help=\"Acoustic feature type\",\n    )\n    parser.add_argument(\n        \"--manifest_path\",\n        type=str,\n        default=None,\n        help=\"Manifest file containing the root dir and file names\",\n    )\n    parser.add_argument(\n        \"--out_features_path\",\n        type=str,\n        default=None,\n        help=\"Features file path to write to\",\n    )\n    parser.add_argument(\n        \"--checkpoint_path\",\n        type=str,\n        help=\"Pretrained acoustic model checkpoint\",\n    )\n    parser.add_argument(\n        \"--layer\",\n        type=int,\n        help=\"The layer of the pretrained model to extract features from\",\n        default=-1,\n    )\n    parser.add_argument(\n        \"--sample_pct\",\n        type=float,\n        help=\"Percent data to use for K-means training\",\n        default=0.1,\n    )\n    parser.add_argument(\n        \"--out_features_path\",\n        type=str,\n        help=\"Path to save log mel fbank features\",\n    )\n    return parser\n\n\ndef get_logger():\n    log_format = \"[%(asctime)s] [%(levelname)s]: %(message)s\"\n    logging.basicConfig(format=log_format, level=logging.INFO)\n    logger = logging.getLogger(__name__)\n    return logger\n\n\nif __name__ == \"__main__\":\n    \"\"\"\n    Example command:\n    python ~/speechbot/clustering/dump_logmelfank_feats.py \\\n        --manifest_path /checkpoint/kushall/data/LJSpeech-1.1/asr_input_wavs_16k/train.tsv\n        --out_features_path /checkpoint/kushall/experiments/speechbot/logmelfbank/features/ljspeech/train.npy\n    \"\"\"\n    parser = get_parser()\n    args = parser.parse_args()\n    logger = get_logger()\n    logger.info(args)\n\n    logger.info(f\"Extracting {args.feature_type} acoustic features...\")\n    get_and_dump_features(\n        feature_type=args.feature_type,\n        checkpoint_path=args.checkpoint_path,\n        layer=args.layer,\n        manifest_path=args.manifest_path,\n        sample_pct=args.sample_pct,\n        flatten=True,\n        out_features_path=args.out_features_path,\n    )\n    logger.info(f\"Saved extracted features at {args.out_features_path}\")\n"
  },
  {
    "path": "examples/textless_nlp/gslm/speech2unit/clustering/quantize_with_kmeans.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nimport os\n\nimport numpy as np\n\nimport joblib\nfrom examples.textless_nlp.gslm.speech2unit.clustering.utils import (\n    get_audio_files,\n)\nfrom examples.textless_nlp.gslm.speech2unit.pretrained.utils import (\n    get_features,\n)\n\n\ndef get_logger():\n    log_format = \"[%(asctime)s] [%(levelname)s]: %(message)s\"\n    logging.basicConfig(format=log_format, level=logging.INFO)\n    logger = logging.getLogger(__name__)\n    return logger\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"Quantize using K-means clustering over acoustic features.\"\n    )\n    parser.add_argument(\n        \"--feature_type\",\n        type=str,\n        choices=[\"logmel\", \"hubert\", \"w2v2\", \"cpc\"],\n        default=None,\n        required=True,\n        help=\"Acoustic feature type\",\n    )\n    parser.add_argument(\n        \"--acoustic_model_path\",\n        type=str,\n        help=\"Pretrained acoustic model checkpoint\"\n    )\n    parser.add_argument(\n        \"--layer\",\n        type=int,\n        help=\"The layer of the pretrained model to extract features from\",\n        default=-1,\n    )\n    parser.add_argument(\n        \"--kmeans_model_path\",\n        type=str,\n        required=True,\n        help=\"K-means model file path to use for inference\",\n    )\n    parser.add_argument(\n        \"--features_path\",\n        type=str,\n        default=None,\n        help=\"Features file path. You don't need to enter acoustic model details if you have dumped features\",\n    )\n    parser.add_argument(\n        \"--manifest_path\",\n        type=str,\n        default=None,\n        help=\"Manifest file containing the root dir and file names\",\n    )\n    parser.add_argument(\n        \"--out_quantized_file_path\",\n        required=True,\n        type=str,\n        help=\"File path of quantized output.\",\n    )\n    parser.add_argument(\n        \"--extension\", type=str, default=\".flac\", help=\"Features file path\"\n    )\n    parser.add_argument(\n        \"--channel_id\",\n        choices=['1', '2'],\n        help=\"The audio channel to extract the units in case of stereo file.\",\n        default=None,\n    )\n    parser.add_argument(\n        \"--hide-fname\", action='store_true',\n        help=\"Hide file names in the output file.\"\n    )\n    return parser\n\n\ndef main(args, logger):\n    # Feature extraction\n    if args.features_path is not None:\n        logger.info(f\"Loading acoustic features from {args.features_path}...\")\n        features_batch = np.load(args.features_path)\n    else:\n        logger.info(f\"Extracting {args.feature_type} acoustic features...\")\n        features_batch = get_features(\n            feature_type=args.feature_type,\n            checkpoint_path=args.acoustic_model_path,\n            layer=args.layer,\n            manifest_path=args.manifest_path,\n            sample_pct=1.0,\n            flatten=False,\n            channel_id=int(args.channel_id) if args.channel_id else None,\n        )\n        logger.info(\n            f\"Features extracted for {len(features_batch)} utterances.\\n\"\n        )\n        logger.info(\n            f\"Dimensionality of representation = {features_batch[0].shape[1]}\"\n        )\n\n    # K-means model\n    logger.info(f\"Loading K-means model from {args.kmeans_model_path} ...\")\n    kmeans_model = joblib.load(open(args.kmeans_model_path, \"rb\"))\n    kmeans_model.verbose = False\n\n    _, fnames, _ = get_audio_files(args.manifest_path)\n\n    os.makedirs(os.path.dirname(args.out_quantized_file_path), exist_ok=True)\n    print(f\"Writing quantized predictions to {args.out_quantized_file_path}\")\n    with open(args.out_quantized_file_path, \"w\") as fout:\n        for i, feats in enumerate(features_batch):\n            pred = kmeans_model.predict(feats)\n            pred_str = \" \".join(str(p) for p in pred)\n            base_fname = os.path.basename(fnames[i]).rstrip('.'+args.extension.lstrip('.'))\n            if args.channel_id is not None:\n                base_fname = base_fname+f'-channel{args.channel_id}'\n            if not args.hide_fname:\n                fout.write(f\"{base_fname}|{pred_str}\\n\")\n            else:\n                fout.write(f\"{pred_str}\\n\")\n\n\nif __name__ == \"__main__\":\n    parser = get_parser()\n    args = parser.parse_args()\n    logger = get_logger()\n    logger.info(args)\n    main(args, logger)\n"
  },
  {
    "path": "examples/textless_nlp/gslm/speech2unit/clustering/utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import List, Tuple\n\n\ndef get_audio_files(manifest_path: str) -> Tuple[str, List[str], List[int]]:\n    fnames, sizes = [], []\n    with open(manifest_path, \"r\") as f:\n        root_dir = f.readline().strip()\n        for line in f:\n            items = line.strip().split(\"\\t\")\n            assert (\n                len(items) == 2\n            ), f\"File must have two columns separated by tab. Got {line}\"\n            fnames.append(items[0])\n            sizes.append(int(items[1]))\n    return root_dir, fnames, sizes\n"
  },
  {
    "path": "examples/textless_nlp/gslm/speech2unit/pretrained/cpc_feature_reader.py",
    "content": "import soundfile as sf\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\n\nclass CpcFeatureReader:\n    \"\"\"\n    Wrapper class to run inference on CPC model.\n    Helps extract features for a given audio file.\n    \"\"\"\n\n    def __init__(\n        self,\n        checkpoint_path,\n        layer,\n        use_encoder_layer=False,\n        norm_features=False,\n        sample_rate=16000,\n        max_chunk=64000,\n        use_cuda=True,\n    ):\n        self.model = load_cpc_model(checkpoint_path, layer).eval()\n        self.sample_rate = sample_rate\n        self.max_chunk = max_chunk\n        self.norm_features = norm_features\n        self.use_encoder_layer = use_encoder_layer\n        self.use_cuda = use_cuda\n        if self.use_cuda:\n            self.model.cuda()\n\n    def read_audio(self, path, ref_len=None, channel_id=None):\n        wav, sr = sf.read(path)\n        if channel_id is not None:\n            assert wav.ndim == 2, \\\n                f\"Expected stereo input when channel_id is given ({path})\"\n            assert channel_id in [1, 2], \\\n                \"channel_id is expected to be in [1, 2]\"\n            wav = wav[:, channel_id-1]\n        if wav.ndim == 2:\n            wav = wav.mean(-1)\n        assert wav.ndim == 1, wav.ndim\n        assert sr == self.sample_rate, sr\n        if ref_len is not None and abs(ref_len - len(wav)) > 160:\n            print(f\"ref {ref_len} != read {len(wav)} ({path})\")\n        return wav\n\n    def get_feats(self, file_path, ref_len=None, channel_id=None):\n        x = self.read_audio(file_path, ref_len, channel_id)\n        # Inspired from CPC_audio feature_loader.py\n        with torch.no_grad():\n            x = torch.from_numpy(x).float()\n            if self.use_cuda:\n                x = x.cuda()\n            x = x.view(1, 1, -1)\n            size = x.size(2)\n            feat = []\n            start = 0\n            while start < size:\n                if start + self.max_chunk > size:\n                    break\n                x_chunk = x[..., start : start + self.max_chunk]\n                feat_chunk = self.model.extract_features(\n                    source=x_chunk,\n                    get_encoded=self.use_encoder_layer,\n                    norm_output=self.norm_features,\n                )\n                feat.append(feat_chunk)\n                start += self.max_chunk\n\n            if start < size:\n                x_chunk = x[:, -self.max_chunk :]\n                feat_chunk = self.model.extract_features(\n                    source=x_chunk,\n                    get_encoded=self.use_encoder_layer,\n                    norm_output=self.norm_features,\n                )\n                df = x_chunk.size(2) // feat_chunk.size(1)\n                delta = (size - start) // df\n                feat.append(feat_chunk[:, -delta:])\n        return torch.cat(feat, 1).squeeze(0)\n\n\ndef load_cpc_model(checkpoint_path, layer=None):\n    state_dict = torch.load(checkpoint_path)\n    weights = state_dict[\"weights\"]\n    config = state_dict[\"config\"]\n    if layer is not None:\n        config[\"nLevelsGRU\"] = layer\n\n    encoder = CPCEncoder(config[\"hiddenEncoder\"])\n    ar_net = CPCAR(\n        config[\"hiddenEncoder\"], config[\"hiddenGar\"], False, config[\"nLevelsGRU\"]\n    )\n\n    model = CPCModel(encoder, ar_net)\n    model.load_state_dict(weights, strict=False)\n    model.config = config\n\n    return model\n\n\nclass ChannelNorm(nn.Module):\n    def __init__(self, num_features, epsilon=1e-05, affine=True):\n        super(ChannelNorm, self).__init__()\n        if affine:\n            self.weight = nn.parameter.Parameter(torch.Tensor(1, num_features, 1))\n            self.bias = nn.parameter.Parameter(torch.Tensor(1, num_features, 1))\n        else:\n            self.weight = None\n            self.bias = None\n        self.epsilon = epsilon\n        self.p = 0\n        self.affine = affine\n        self.reset_parameters()\n\n    def reset_parameters(self):\n        if self.affine:\n            torch.nn.init.ones_(self.weight)\n            torch.nn.init.zeros_(self.bias)\n\n    def forward(self, x):\n        cum_mean = x.mean(dim=1, keepdim=True)\n        cum_var = x.var(dim=1, keepdim=True)\n        x = (x - cum_mean) * torch.rsqrt(cum_var + self.epsilon)\n        if self.weight is not None:\n            x = x * self.weight + self.bias\n        return x\n\n\nclass CPCEncoder(nn.Module):\n    def __init__(self, hidden_dim=512):\n        super(CPCEncoder, self).__init__()\n        self.conv0 = nn.Conv1d(1, hidden_dim, 10, stride=5, padding=3)\n        self.batchNorm0 = ChannelNorm(hidden_dim)\n        self.conv1 = nn.Conv1d(hidden_dim, hidden_dim, 8, stride=4, padding=2)\n        self.batchNorm1 = ChannelNorm(hidden_dim)\n        self.conv2 = nn.Conv1d(hidden_dim, hidden_dim, 4, stride=2, padding=1)\n        self.batchNorm2 = ChannelNorm(hidden_dim)\n        self.conv3 = nn.Conv1d(hidden_dim, hidden_dim, 4, stride=2, padding=1)\n        self.batchNorm3 = ChannelNorm(hidden_dim)\n        self.conv4 = nn.Conv1d(hidden_dim, hidden_dim, 4, stride=2, padding=1)\n        self.batchNorm4 = ChannelNorm(hidden_dim)\n        self.DOWNSAMPLING = 160\n\n    def get_output_dim(self):\n        return self.conv4.out_channels\n\n    def forward(self, x):\n        x = F.relu(self.batchNorm0(self.conv0(x)))\n        x = F.relu(self.batchNorm1(self.conv1(x)))\n        x = F.relu(self.batchNorm2(self.conv2(x)))\n        x = F.relu(self.batchNorm3(self.conv3(x)))\n        x = F.relu(self.batchNorm4(self.conv4(x)))\n        return x\n\n\nclass CPCAR(nn.Module):\n    def __init__(self, dim_encoded, dim_output, keep_hidden, num_layers):\n        super(CPCAR, self).__init__()\n        self.baseNet = nn.LSTM(\n            dim_encoded, dim_output, num_layers=num_layers, batch_first=True\n        )\n        self.hidden = None\n        self.keep_hidden = keep_hidden\n\n    def get_output_dim(self):\n        return self.baseNet.hidden_size\n\n    def forward(self, x):\n        try:\n            self.baseNet.flatten_parameters()\n        except RuntimeError:\n            pass\n        x, h = self.baseNet(x, self.hidden)\n        if self.keep_hidden:\n            if isinstance(h, tuple):\n                self.hidden = tuple(x.detach() for x in h)\n            else:\n                self.hidden = h.detach()\n        return x\n\n\nclass CPCModel(nn.Module):\n    def __init__(self, encoder, ar_net):\n        super(CPCModel, self).__init__()\n        self.gEncoder = encoder\n        self.gAR = ar_net\n        self.config = None\n\n    def forward(self, x, label):\n        encoded = self.gEncoder(x).permute(0, 2, 1)\n        cpc_feature = self.gAR(encoded)\n        return cpc_feature, encoded, label\n\n    def extract_features(self, source, get_encoded=False, norm_output=False):\n        cpc_feature, encoded, _ = self.forward(source, None)\n        if get_encoded:\n            cpc_feature = encoded\n        if norm_output:\n            mean = cpc_feature.mean(dim=1, keepdim=True)\n            var = cpc_feature.var(dim=1, keepdim=True)\n            cpc_feature = (cpc_feature - mean) / torch.sqrt(var + 1e-08)\n        return cpc_feature\n"
  },
  {
    "path": "examples/textless_nlp/gslm/speech2unit/pretrained/hubert_feature_reader.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport fairseq\nimport soundfile as sf\nimport torch.nn.functional as F\n\n\nclass HubertFeatureReader:\n    \"\"\"\n    Wrapper class to run inference on HuBERT model.\n    Helps extract features for a given audio file.\n    \"\"\"\n\n    def __init__(self, checkpoint_path, layer, max_chunk=1600000, use_cuda=True):\n        (\n            model,\n            cfg,\n            task,\n        ) = fairseq.checkpoint_utils.load_model_ensemble_and_task(\n            [checkpoint_path]\n        )\n        self.model = model[0].eval()\n        self.task = task\n        self.layer = layer\n        self.max_chunk = max_chunk\n        self.use_cuda = use_cuda\n        if self.use_cuda:\n            self.model.cuda()\n\n    def read_audio(self, path, ref_len=None, channel_id=None):\n        wav, sr = sf.read(path)\n        if channel_id is not None:\n            assert wav.ndim == 2, \\\n                f\"Expected stereo input when channel_id is given ({path})\"\n            assert channel_id in [1, 2], \\\n                \"channel_id is expected to be in [1, 2]\"\n            wav = wav[:, channel_id-1]\n        if wav.ndim == 2:\n            wav = wav.mean(-1)\n        assert wav.ndim == 1, wav.ndim\n        assert sr == self.task.cfg.sample_rate, sr\n        if ref_len is not None and abs(ref_len - len(wav)) > 160:\n            print(f\"ref {ref_len} != read {len(wav)} ({path})\")\n        return wav\n\n    def get_feats(self, file_path, ref_len=None, channel_id=None):\n        x = self.read_audio(file_path, ref_len, channel_id)\n        with torch.no_grad():\n            x = torch.from_numpy(x).float()\n            if self.use_cuda:\n                x = x.cuda()\n            if self.task.cfg.normalize:\n                x = F.layer_norm(x, x.shape)\n            x = x.view(1, -1)\n\n            feat = []\n            for start in range(0, x.size(1), self.max_chunk):\n                x_chunk = x[:, start: start + self.max_chunk]\n                feat_chunk, _ = self.model.extract_features(\n                    source=x_chunk,\n                    padding_mask=None,\n                    mask=False,\n                    output_layer=self.layer,\n                )\n                feat.append(feat_chunk)\n        return torch.cat(feat, 1).squeeze(0)\n"
  },
  {
    "path": "examples/textless_nlp/gslm/speech2unit/pretrained/logmel_feature_reader.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport soundfile as sf\nimport torch\nimport torchaudio.compliance.kaldi as kaldi\n\n\nclass LogMelFeatureReader:\n    \"\"\"\n    Wrapper class to run inference on HuBERT model.\n    Helps extract features for a given audio file.\n    \"\"\"\n\n    def __init__(self, *args, **kwargs):\n        self.num_mel_bins = kwargs.get(\"num_mel_bins\", 80)\n        self.frame_length = kwargs.get(\"frame_length\", 25.0)\n\n    def get_feats(self, file_path, channel_id=None):\n        wav, sr = sf.read(file_path)\n        if channel_id is not None:\n            assert wav.ndim == 2, \\\n                f\"Expected stereo input when channel_id is given ({file_path})\"\n            wav = wav[:, channel_id-1]\n        feats = torch.from_numpy(wav).float()\n        feats = kaldi.fbank(\n            feats.unsqueeze(0),\n            num_mel_bins=self.num_mel_bins,\n            frame_length=self.frame_length,\n            sample_frequency=sr,\n        )\n        return feats\n"
  },
  {
    "path": "examples/textless_nlp/gslm/speech2unit/pretrained/utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport gc\nimport os\nimport random\nimport shutil\nimport numpy as np\n\nimport torch\nimport tqdm\nfrom examples.textless_nlp.gslm.speech2unit.pretrained.cpc_feature_reader import (\n    CpcFeatureReader,\n)\nfrom examples.textless_nlp.gslm.speech2unit.pretrained.hubert_feature_reader import (\n    HubertFeatureReader,\n)\nfrom examples.textless_nlp.gslm.speech2unit.pretrained.logmel_feature_reader import (\n    LogMelFeatureReader,\n)\nfrom examples.textless_nlp.gslm.speech2unit.pretrained.w2v2_feature_reader import (\n    Wav2VecFeatureReader,\n)\n\n\ndef get_feature_reader(feature_type):\n    if feature_type == \"logmel\":\n        return LogMelFeatureReader\n    elif feature_type == \"hubert\":\n        return HubertFeatureReader\n    elif feature_type == \"w2v2\":\n        return Wav2VecFeatureReader\n    elif feature_type == \"cpc\":\n        return CpcFeatureReader\n    else:\n        raise NotImplementedError(f\"{feature_type} is not supported.\")\n\n\ndef get_feature_iterator(\n    feature_type, checkpoint_path, layer, manifest_path, sample_pct, channel_id\n):\n    feature_reader_cls = get_feature_reader(feature_type)\n    with open(manifest_path, \"r\") as fp:\n        lines = fp.read().split(\"\\n\")\n        root = lines.pop(0).strip()\n        file_path_list = [\n            os.path.join(root, line.split(\"\\t\")[0])\n            for line in lines\n            if len(line) > 0\n        ]\n        if sample_pct < 1.0:\n            file_path_list = random.sample(\n                file_path_list, int(sample_pct * len(file_path_list))\n            )\n        num_files = len(file_path_list)\n        reader = feature_reader_cls(\n            checkpoint_path=checkpoint_path, layer=layer\n        )\n\n        def iterate():\n            for file_path in file_path_list:\n                feats = reader.get_feats(file_path, channel_id=channel_id)\n                yield feats.cpu().numpy()\n\n    return iterate, num_files\n\n\ndef get_features(\n    feature_type, checkpoint_path, layer, manifest_path, sample_pct, flatten, channel_id\n):\n    generator, num_files = get_feature_iterator(\n        feature_type=feature_type,\n        checkpoint_path=checkpoint_path,\n        layer=layer,\n        manifest_path=manifest_path,\n        sample_pct=sample_pct,\n        channel_id=channel_id\n    )\n    iterator = generator()\n\n    features_list = []\n    for features in tqdm.tqdm(iterator, total=num_files):\n        features_list.append(features)\n\n    # Explicit clean up\n    del iterator\n    del generator\n    gc.collect()\n    torch.cuda.empty_cache()\n\n    if flatten:\n        return np.concatenate(features_list)\n\n    return features_list\n\n\ndef get_and_dump_features(\n    feature_type,\n    checkpoint_path,\n    layer,\n    manifest_path,\n    sample_pct,\n    flatten,\n    out_features_path,\n):\n    # Feature extraction\n    features_batch = get_features(\n        feature_type=feature_type,\n        checkpoint_path=checkpoint_path,\n        layer=layer,\n        manifest_path=manifest_path,\n        sample_pct=sample_pct,\n        flatten=flatten,\n    )\n\n    # Save features\n    out_dir_path = os.path.dirname(out_features_path)\n    os.makedirs(out_dir_path, exist_ok=True)\n    shutil.copyfile(\n        manifest_path,\n        os.path.join(out_dir_path, os.path.basename(manifest_path)),\n    )\n    np.save(out_features_path, features_batch)\n\n    return features_batch\n"
  },
  {
    "path": "examples/textless_nlp/gslm/speech2unit/pretrained/w2v2_feature_reader.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport fairseq\nimport soundfile as sf\n\n\nclass Wav2VecFeatureReader:\n    \"\"\"\n    Wrapper class to run inference on Wav2Vec 2.0 model.\n    Helps extract features for a given audio file.\n    \"\"\"\n\n    def __init__(self, checkpoint_path, layer, use_cuda=True):\n        state = fairseq.checkpoint_utils.load_checkpoint_to_cpu(\n            checkpoint_path\n        )\n\n        w2v_args = state[\"args\"]\n        self.task = fairseq.tasks.setup_task(w2v_args)\n        model = self.task.build_model(w2v_args)\n        model.load_state_dict(state[\"model\"], strict=True)\n        model.eval()\n        self.model = model\n        self.layer = layer\n        self.use_cuda = use_cuda\n        if self.use_cuda:\n            self.model.cuda()\n\n    def read_audio(self, fname, channel_id=None):\n        wav, sr = sf.read(fname)\n        if channel_id is not None:\n            assert wav.ndim == 2, \\\n                f\"Expected stereo input when channel_id is given ({fname})\"\n            assert channel_id in [1, 2], \\\n                \"channel_id is expected to be in [1, 2]\"\n            wav = wav[:, channel_id-1]\n        if wav.ndim == 2:\n            wav = wav.mean(-1)\n        assert wav.ndim == 1, wav.ndim\n        assert sr == self.task.cfg.sample_rate, sr\n        return wav\n\n    def get_feats(self, file_path, channel_id=None):\n        x = self.read_audio(file_path, channel_id)\n        with torch.no_grad():\n            source = torch.from_numpy(x).view(1, -1).float()\n            if self.use_cuda:\n                source = source.cuda()\n            res = self.model(\n                source=source, mask=False, features_only=True, layer=self.layer\n            )\n            return res[\"layer_results\"][self.layer][0].squeeze(1)\n"
  },
  {
    "path": "examples/textless_nlp/gslm/tools/README.md",
    "content": "# GSLM Tools\n\n## Resynthesis\nYou can use the command line tool below to input an audio file and get the resynthesized audio. This tool implements the unsupervised method for resynthesis described in the paper. The way to invoke the command line tool is shown below.\n```\nFAIRSEQ_ROOT=<path_to_your_fairseq_repo_root>\nTYPE=<one_of_logmel/cpc/hubert/w2v2>\nACOUSTIC_MODEL_PATH=<path_of_pretrained_acoustic_model>\nLAYER=<layer_of_acoustic_model_to_extract_features_from>\nKM_MODEL_PATH=<output_path_of_the_kmeans_model>\nTTS_MODEL_PATH=<unit2speech_model_file_path>\n# A text file containing the codes, one per line\nCODE_DICT_PATH=<unit2speech_code_dict_path>\nWAVEGLOW_PATH=<path_where_you_have_downloaded_waveglow_checkpoint>\n\nPYTHONPATH=${FAIRSEQ_ROOT}:${FAIRSEQ_ROOT}/examples/textless_nlp/gslm/unit2speech python ${FAIRSEQ_ROOT}/examples/textless_nlp/gslm/tools/resynthesize_speech.py \\\n    --feature_type $TYPE \\\n    --acoustic_model_path $ACOUSTIC_MODEL_PATH \\\n    --layer $LAYER \\\n    --kmeans_model_path $KM_MODEL_PATH \\\n    --tts_model_path $TTS_MODEL_PATH \\\n    --code_dict_path $CODE_DICT_PATH \\\n    --waveglow_path $WAVEGLOW_PATH \\\n    --max_decoder_steps 2000\n```"
  },
  {
    "path": "examples/textless_nlp/gslm/tools/resynthesize_speech.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport gc\nimport logging\nimport os\n\nimport joblib\nimport soundfile as sf\nimport torch\nfrom examples.textless_nlp.gslm.speech2unit.pretrained.utils import get_feature_reader\nfrom examples.textless_nlp.gslm.unit2speech.tts_data import TacotronInputDataset\nfrom examples.textless_nlp.gslm.unit2speech.utils import (\n    load_tacotron,\n    load_waveglow,\n    synthesize_audio,\n)\n\n\ndef get_logger():\n    log_format = \"[%(asctime)s] [%(levelname)s]: %(message)s\"\n    logging.basicConfig(format=log_format, level=logging.INFO)\n    logger = logging.getLogger(__name__)\n    return logger\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(description=\"GSLM U2S tool\")\n    parser.add_argument(\n        \"--feature_type\",\n        type=str,\n        choices=[\"logmel\", \"hubert\", \"w2v2\", \"cpc\"],\n        default=None,\n        required=True,\n        help=\"Acoustic feature type\",\n    )\n    parser.add_argument(\n        \"--acoustic_model_path\",\n        type=str,\n        help=\"Pretrained acoustic model checkpoint\",\n    )\n    parser.add_argument(\"--layer\", type=int, help=\"Layer of acoustic model\")\n    parser.add_argument(\n        \"--kmeans_model_path\",\n        type=str,\n        required=True,\n        help=\"K-means model file path to use for inference\",\n    )\n    parser.add_argument(\n        \"--tts_model_path\",\n        type=str,\n        help=\"TTS model file path to use for inference\",\n    )\n    parser.add_argument(\n        \"--code_dict_path\",\n        type=str,\n        help=\"Code dict file path to use for inference\",\n    )\n    parser.add_argument(\n        \"--waveglow_path\",\n        type=str,\n        help=\"Waveglow (vocoder) model file path to use for inference\",\n    )\n    parser.add_argument(\"--max_decoder_steps\", type=int, default=2000)\n    parser.add_argument(\"--denoiser_strength\", type=float, default=0.1)\n    return parser\n\n\n################################################\ndef main(args, logger):\n    # Acoustic Model\n    logger.info(f\"Loading acoustic model from {args.tts_model_path}...\")\n    feature_reader_cls = get_feature_reader(args.feature_type)\n    reader = feature_reader_cls(\n        checkpoint_path=args.acoustic_model_path, layer=args.layer\n    )\n\n    # K-means Model\n    logger.info(f\"Loading K-means model from {args.kmeans_model_path} ...\")\n    kmeans_model = joblib.load(open(args.kmeans_model_path, \"rb\"))\n    kmeans_model.verbose = False\n\n    # TTS Model\n    logger.info(f\"Loading TTS model from {args.tts_model_path}...\")\n    tacotron_model, sample_rate, hparams = load_tacotron(\n        tacotron_model_path=args.tts_model_path,\n        max_decoder_steps=args.max_decoder_steps,\n    )\n\n    # Waveglow Model\n    logger.info(f\"Loading Waveglow model from {args.waveglow_path}...\")\n    waveglow, denoiser = load_waveglow(waveglow_path=args.waveglow_path)\n\n    # Dataset\n    if not os.path.exists(hparams.code_dict):\n        hparams.code_dict = args.code_dict_path\n    tts_dataset = TacotronInputDataset(hparams)\n\n    iters = 0\n    while True:\n        in_file_path = input(\"Input: Enter the full file path of audio file...\\n\")\n        out_file_path = input(\"Output: Enter the full file path of audio file...\\n\")\n        feats = reader.get_feats(in_file_path).cpu().numpy()\n        iters += 1\n        if iters == 1000:\n            gc.collect()\n            torch.cuda.empty_cache()\n\n        quantized_units = kmeans_model.predict(feats)\n        quantized_units_str = \" \".join(map(str, quantized_units))\n\n        tts_input = tts_dataset.get_tensor(quantized_units_str)\n        mel, aud, aud_dn, has_eos = synthesize_audio(\n            tacotron_model,\n            waveglow,\n            denoiser,\n            tts_input.unsqueeze(0),\n            strength=args.denoiser_strength,\n        )\n        sf.write(f\"{out_file_path}\", aud_dn[0].cpu().float().numpy(), sample_rate)\n        logger.info(\"Resynthesis done!\\n\")\n\n\nif __name__ == \"__main__\":\n    parser = get_parser()\n    args = parser.parse_args()\n    logger = get_logger()\n    logger.info(args)\n    main(args, logger)\n"
  },
  {
    "path": "examples/textless_nlp/gslm/ulm/README.md",
    "content": "# Unit Language Model (ULM)\n\nHere you can find links to the pre-trained ULMs and instructions on training new models using fairseq. At the end of the page, we also share how to run sampling for those models and provide pointers to the transcribed prompts we used.\n\n## Pre-trained models\n\nUsing the links below, you can download pre-trained models for various unit types and vocabulary sizes:\n\n| | 50 | 100 | 200\n|-|-|-|-\n| LogMel Filterbank | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/logmel/lm_km50/logmel50_lm.tgz)  |  [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/logmel/lm_km100/logmel100_lm.tgz) | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/logmel/lm_km200/logmel200_lm.tgz)\n| Modified CPC | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/cpc/lm_km50/cpc50_lm.tgz) | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/cpc/lm_km100/cpc100_lm.tgz) | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/cpc/lm_km200/cpc200_lm.tgz)\n| HuBERT | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/hubert/lm_km50/hubert50_lm.tgz) | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/hubert/lm_km100/hubert100_lm.tgz) | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/hubert/lm_km200/hubert200_lm.tgz)\n| Wav2Vec 2.0 | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/w2v2/lm_km50/w2v2_50_lm.tgz) | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/w2v2/lm_km100/w2v2_100_lm.tgz) | [download](https://dl.fbaipublicfiles.com/textless_nlp/gslm/w2v2/lm_km200/w2v2_200_lm.tgz)     \n\n\n## Preprocessing data\nAssuming that unit-transcribed train, valid, and test sets are located in `data/train.txt`, `data/valid.txt`, and `data/test.txt`, respectively,\nwe run the following command to get a preprocessed version of the datast in `data-bin`:\n\n```bash\nfairseq-preprocess --only-source \\\n        --trainpref data/train.txt --validpref data/valid.txt --testpref data/test.txt \\\n        --destdir data-bin/ --workers 40\n```\nAs a result, the `data-bin` directory should appear.\n\n## Fitting a Unit Language Model (ULM)\nAs an ULM, we train a standard fairseq Transformer LM. Assuming 8 GPUs used for training, a good starting point for an ULM training would be:\n```bash\n\tfairseq-train data-bin/ \\\n        --task=language_modeling \\\n        --arch=transformer_lm_big \\\n        --share-decoder-input-output-embed \\\n        --dropout=0.1 \\\n        --attention-dropout=0.1 \\\n        --optimizer=adam \\\n        --adam-betas='(0.9, 0.98)' \\\n        --clip-norm=1.0 \\\n        --lr=0.0005 \\\n        --lr-scheduler=inverse_sqrt \\\n        --warmup-updates=4000 \\\n        --warmup-init-lr=1e-07 \\\n        --tokens-per-sample=3072 \\\n        --update-freq=16 \\\n        --max-tokens=4096 \\\n        --num-workers=4 \\\n        --skip-invalid-size-inputs-valid-test \\\n        --max-update=500000 \\\n        --log-interval=10 \\\n        --seed=100501 \\\n        --fp16 \\\n        --sample-break-mode=eos\n```\nThis command will train a Transformer-large model (12 layers). You can train other standard LM models provided by fairseq, e.g. specify `--arch=transformer_lm` to train a smaller (6-layer) Transformer model. When training with a different number of GPUs, it might be a good idea to adjust the `update-freq` parameter. To save the GPU memory at an expense of additional computation, it can be useful to enable activation checkpointing with `--checkpoint-activations`.\n\n## Sampling from an ULM\nOnce an ULM was trained, we can use it for generating new utterances. Suppose, that the prompts are given in a file named `prompts.txt`. Then we can sample continuations by running the following command:\n\n```bash\n    python sample.py  data-bin/ \\\n        --path=checkpoints/checkpoint_best.pt --task=language_modeling --sampling --temperature=0.7 \\\n        --seed=1  --prompts=prompts.txt  --output=samples.txt --max-len-a=0 --max-len-b=500 \\\n        --prefix-size=-1 --batch-size=16 --fp16 --samples-per-prompt=10\n```\nHere, `--prefix-size` controls the number of tokens that are used to prime the ULM. When set to a positive value, the sampling script will take first `prefix-size` tokens to prompt the ULM; with `0` it runs unconditional sampling and with `-1` the entire prompt is used. \n`--samples-per-prompt` specifies how many utterances are generated with every prompt which can be useful when generating multiple prompt continuations. In this command, `--max-len-a` and `--max-len-b` control the number of generated tokens. \n\nWhen using a pretrained model from above, `data-bin` should point to the unpacked directory (with `dict.txt` file).\n\nEvaluation-time, to generate prompts, we used utterances from LibriSpeech dev-clean and test-clean that are longer than 6s. We took first 3s from an utterance as a prompt. Unit transcripts of those prompts can be downloaded here: [[dev]](https://dl.fbaipublicfiles.com/textless_nlp/gslm/eval_data/dev_prompts.tgz) [[test]](https://dl.fbaipublicfiles.com/textless_nlp/gslm/eval_data/test_prompts.tgz)\n\n"
  },
  {
    "path": "examples/textless_nlp/gslm/ulm/sample.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nSample from a trained LM; hacked fairseq-interactive\n\"\"\"\nfrom collections import namedtuple\nimport os\nimport ast\nimport numpy as np\n\nfrom fairseq import checkpoint_utils, options, tasks, utils\n\nimport tqdm\n\nBatch = namedtuple('Batch', 'ids src_tokens src_lengths')\nTranslation = namedtuple('Translation', 'src_str hypos pos_scores alignments')\n\n\ndef make_batches(lines, args, task, max_positions):\n    tokens = [\n        task.source_dictionary.encode_line(\n            src_str, add_if_not_exist=False\n        ).long()\n        for src_str in lines\n    ]\n    lengths = [t.numel() for t in tokens]\n    itr = task.get_batch_iterator(\n        dataset=task.build_dataset_for_inference(tokens, lengths),\n        max_tokens=args.dataset.max_tokens,\n        max_sentences=args.dataset.batch_size,\n        max_positions=max_positions,\n        ignore_invalid_inputs=args.dataset.skip_invalid_size_inputs_valid_test\n    ).next_epoch_itr(shuffle=False)\n    for batch in itr:\n        yield Batch(\n            ids=batch['id'],\n            src_tokens=batch['net_input']['src_tokens'], src_lengths=batch['net_input']['src_lengths'],\n        )\n\n\ndef main(args):\n    arg_prompts = args.prompts\n    arg_output = args.output\n    arg_debug = args.debug\n    arg_sample_size = args.samples_per_prompt\n\n    try:\n        from fairseq.dataclass.utils import convert_namespace_to_omegaconf\n        args = convert_namespace_to_omegaconf(args)\n    except:\n        pass\n\n    # if args.max_tokens is None and args.max_sentences is None:\n    if args.common.seed is not None:\n        np.random.seed(args.common.seed)\n        utils.set_torch_seed(args.common.seed)\n\n    if args.generation.sampling:\n        args.generation.nbest = args.generation.beam = arg_sample_size\n\n    task = tasks.setup_task(args.task)\n\n    overrides = ast.literal_eval(args.common_eval.model_overrides)\n\n    models, _model_args = checkpoint_utils.load_model_ensemble(\n        args.common_eval.path.split(os.pathsep),\n        arg_overrides=overrides,\n        task=task,\n        suffix=getattr(args, \"checkpoint_suffix\", \"\"),\n    )\n\n    # Set dictionaries\n    src_dict = task.source_dictionary\n    tgt_dict = task.target_dictionary\n\n    # Optimize ensemble for generation\n    for model in models:\n        model.prepare_for_inference_(args)\n        model.cuda()\n\n    # Load alignment dictionary for unknown word replacement\n    # (None if no unknown word replacement, empty if no path to align dictionary)\n    align_dict = utils.load_align_dict(args.generation.replace_unk)\n\n    max_positions = utils.resolve_max_positions(\n        task.max_positions(),\n        *[model.max_positions() for model in models]\n    )\n\n    output_file = open(arg_output, 'w')\n\n    with open(arg_prompts, 'r') as fin:\n        lines = fin.readlines()\n\n    split = [x.split('|', 1) for x in lines]\n    seq_id = [x[0] for x in split]\n    prompts = [x[1] for x in split]\n\n    if args.generation.prefix_size >= 0:\n        prompts = [' '.join(l.split()[:args.generation.prefix_size])\n                   for l in prompts]\n\n    if arg_debug:\n        prompts = prompts[:10]\n\n    generator = task.build_generator(models, args.generation)\n\n    start_id = 0\n    pbar = tqdm.tqdm(total=len(prompts))\n    for batch in make_batches(prompts, args, task, max_positions):\n        src_tokens = batch.src_tokens\n        src_lengths = batch.src_lengths\n        src_tokens = src_tokens.cuda()\n        src_lengths = src_lengths.cuda()\n\n        sample = {\n            'net_input': {\n                'src_tokens': src_tokens,\n                'src_lengths': src_lengths,\n            },\n        }\n\n        results = []\n        translations = task.inference_step(generator, models, sample)\n        for i, (id, hypos) in enumerate(zip(batch.ids.tolist(), translations)):\n            src_tokens_i = utils.strip_pad(src_tokens[i], tgt_dict.pad())\n            results.append((i + start_id, src_tokens_i, hypos))\n\n        # sort output to match input order\n        for id, src_tokens, hypos in sorted(results, key=lambda x: x[0]):\n            if src_dict is not None:\n                src_str = src_dict.string(\n                    src_tokens, args.common_eval.post_process)\n\n            # Process top predictions\n            for hypo_id, hypo in enumerate(hypos):\n                _hypo_tokens, hypo_str, _alignment = utils.post_process_prediction(\n                    hypo_tokens=hypo['tokens'].int().cpu(),\n                    src_str=src_str,\n                    alignment=hypo['alignment'],\n                    align_dict=align_dict,\n                    tgt_dict=tgt_dict,\n                    remove_bpe=args.common_eval.post_process,\n                )\n\n                detok_hypo_str = hypo_str\n                utterance = detok_hypo_str\n                print(f'{seq_id[id]}__{hypo_id}|{utterance}', file=output_file)\n            pbar.update(1)\n        start_id += len(results)\n\n    # output_file.close()\n\n\ndef cli_main():\n    parser = options.get_interactive_generation_parser()\n    parser.add_argument('--prompts', type=str, default=None, required=True)\n    parser.add_argument('--output', type=str, default=None, required=True)\n    parser.add_argument('--debug', action='store_true')\n    parser.add_argument('--samples-per-prompt', type=int, default=1)\n\n    args = options.parse_args_and_arch(parser)\n\n    np.random.seed(args.seed)\n    utils.set_torch_seed(args.seed)\n\n    main(args)\n\n\nif __name__ == '__main__':\n    cli_main()\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/README.md",
    "content": "# Unit to Speech Model (unit2speech)\n\nUnit to speech model is modified Tacotron2 model that learns to synthesize speech from discrete speech units. All models are trained on quantized [LJSpeech](https://keithito.com/LJ-Speech-Dataset/).\n\nUpstream Units | Download Links | model md5\n|-|-|-\nLog Mel Filterbank + KM50 | [model](https://dl.fbaipublicfiles.com/textless_nlp/gslm/logmel/tts_km50/tts_checkpoint_best.pt) - [code_dict](https://dl.fbaipublicfiles.com/textless_nlp/gslm/logmel/tts_km50/code_dict) | 932b3b8527c0125f5f964b57762eba49\nLog Mel Filterbank + KM100 | [model](https://dl.fbaipublicfiles.com/textless_nlp/gslm/logmel/tts_km100/tts_checkpoint_best.pt) - [code_dict](https://dl.fbaipublicfiles.com/textless_nlp/gslm/logmel/tts_km100/code_dict) | cde0b0d278a39011d0acbd5df27abdf4\nLog Mel Filterbank + KM200 | [model](https://dl.fbaipublicfiles.com/textless_nlp/gslm/logmel/tts_km200/tts_checkpoint_best.pt) - [code_dict](https://dl.fbaipublicfiles.com/textless_nlp/gslm/logmel/tts_km200/code_dict) | dba0f1d4de64bc7976718834010b23e7\nModified CPC + KM50 | [model](https://dl.fbaipublicfiles.com/textless_nlp/gslm/cpc/tts_km50/tts_checkpoint_best.pt) - [code_dict](https://dl.fbaipublicfiles.com/textless_nlp/gslm/cpc/tts_km50/code_dict) | a585e8dd8890ea56164f17635dd8e613\nModified CPC + KM100 | [model](https://dl.fbaipublicfiles.com/textless_nlp/gslm/cpc/tts_km100/tts_checkpoint_best.pt) - [code_dict](https://dl.fbaipublicfiles.com/textless_nlp/gslm/cpc/tts_km100/code_dict) | 5c0ee2869b4f483d17f37f1a41a548e0\nModified CPC + KM200 | [model](https://dl.fbaipublicfiles.com/textless_nlp/gslm/cpc/tts_km200/tts_checkpoint_best.pt) - [code_dict](https://dl.fbaipublicfiles.com/textless_nlp/gslm/cpc/tts_km200/code_dict) | 2f0c9951cf37020d9464514bff48bc5d\nHuBERT Base + KM50 | [model](https://dl.fbaipublicfiles.com/textless_nlp/gslm/hubert/tts_km50/tts_checkpoint_best.pt) - [code_dict](https://dl.fbaipublicfiles.com/textless_nlp/gslm/hubert/tts_km50/code_dict) | 85ffce8baec5aa90035ab696fe676fce\nHuBERT Base + KM100 | [model](https://dl.fbaipublicfiles.com/textless_nlp/gslm/hubert/tts_km100/tts_checkpoint_best.pt) - [code_dict](https://dl.fbaipublicfiles.com/textless_nlp/gslm/hubert/tts_km100/code_dict) | df4a9c6ffd1bb00c91405432c234aba3\nHuBERT Base + KM200 | [model](https://dl.fbaipublicfiles.com/textless_nlp/gslm/hubert/tts_km200/tts_checkpoint_best.pt) - [code_dict](https://dl.fbaipublicfiles.com/textless_nlp/gslm/hubert/tts_km200/code_dict) | ac72f2c0c563589819bec116c7f8d274\nwav2vec 2.0 Large + KM50 | [model](https://dl.fbaipublicfiles.com/textless_nlp/gslm/w2v2/tts_km50/tts_checkpoint_best.pt) - [code_dict](https://dl.fbaipublicfiles.com/textless_nlp/gslm/w2v2/tts_km50/code_dict) | e3503d0ad822b2c24b89f68b857fedff\nwav2vec 2.0 Large + KM100 | [model](https://dl.fbaipublicfiles.com/textless_nlp/gslm/w2v2/tts_km100/tts_checkpoint_best.pt) - [code_dict](https://dl.fbaipublicfiles.com/textless_nlp/gslm/w2v2/tts_km100/code_dict) | eb3666e456ae4c96bf2a1eec825c13ed\nwav2vec 2.0 Large + KM200 | [model](https://dl.fbaipublicfiles.com/textless_nlp/gslm/w2v2/tts_km200/tts_checkpoint_best.pt)  - [code_dict](https://dl.fbaipublicfiles.com/textless_nlp/gslm/w2v2/tts_km200/code_dict) | 777d343e963c4d64f04d78eef032f4e8\n\n## Run inference using a unit2speech model\n* Install librosa, unidecode and inflect using `pip install librosa, unidecode, inflect`\n* Download [Waveglow checkpoint](https://dl.fbaipublicfiles.com/textless_nlp/gslm/waveglow_256channels_new.pt). This is the vocoder.\n\nSample commnd to run inference using trained unit2speech models. Please note that the quantized audio to synthesized should be using the same units as the unit2speech model was trained with.\n```\nFAIRSEQ_ROOT=<path_to_your_fairseq_repo_root>\nTTS_MODEL_PATH=<unit2speech_model_file_path>\nQUANTIZED_UNIT_PATH=<quantized_audio_file_path>\nOUT_DIR=<dir_to_dump_synthesized_audio_files>\nWAVEGLOW_PATH=<path_where_you_have_downloaded_waveglow_checkpoint>\nCODE_DICT_PATH=<unit2speech_code_dict_path>\n\nPYTHONPATH=${FAIRSEQ_ROOT}:${FAIRSEQ_ROOT}/examples/textless_nlp/gslm/unit2speech python ${FAIRSEQ_ROOT}/examples/textless_nlp/gslm/unit2speech/synthesize_audio_from_units.py \\\n    --tts_model_path $TTS_MODEL_PATH \\\n    --quantized_unit_path $QUANTIZED_UNIT_PATH \\\n    --out_audio_dir $OUT_DIR \\\n    --waveglow_path  $WAVEGLOW_PATH \\\n    --code_dict_path $CODE_DICT_PATH \\\n    --max_decoder_steps 2000\n```\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/convert_to_16k.py",
    "content": "import os\nimport shlex\nimport subprocess\nimport progressbar\nfrom time import time\nfrom pathlib import Path\n\ndef find_all_files(path_dir, extension):\n    out = []\n    for root, dirs, filenames in os.walk(path_dir):\n        for f in filenames:\n            if f.endswith(extension):\n                out.append(((str(Path(f).stem)), os.path.join(root, f)))\n    return out\n\ndef convert16k(inputfile, outputfile16k):\n    command = ('sox -c 1 -b 16 {} -t wav {} rate 16k'.format(inputfile, outputfile16k))\n    subprocess.call(shlex.split(command))\n\nif __name__ == \"__main__\":\n    import argparse\n\n    parser = argparse.ArgumentParser(description='Convert to wav 16k audio using sox.')\n    parser.add_argument('input_dir', type=str,\n                    help='Path to the input dir.')\n    parser.add_argument('output_dir', type=str,\n                    help='Path to the output dir.')\n    parser.add_argument('--extension', type=str, default='wav',\n                    help='Audio file extension in the input. Default: mp3')\n    args = parser.parse_args()\n\n    # Find all sequences\n    print(f\"Finding all audio files with extension '{args.extension}' from {args.input_dir}...\")\n    audio_files = find_all_files(args.input_dir, args.extension)\n    print(f\"Done! Found {len(audio_files)} files.\")\n\n    # Convert to relative path\n    audio_files = [os.path.relpath(file[-1], start=args.input_dir) for file in audio_files]\n\n    # Create all the directories needed\n    rel_dirs_set = set([os.path.dirname(file) for file in audio_files])\n    for rel_dir in rel_dirs_set:\n        Path(os.path.join(args.output_dir, rel_dir)).mkdir(parents=True, exist_ok=True)\n\n    # Converting wavs files\n    print(\"Converting the audio to wav files...\")\n    bar = progressbar.ProgressBar(maxval=len(audio_files))\n    bar.start()\n    start_time = time()\n    for index, file in enumerate(audio_files):\n        bar.update(index)\n        input_file = os.path.join(args.input_dir, file)\n        output_file = os.path.join(args.output_dir, os.path.splitext(file)[0]+\".wav\")\n        convert16k(input_file, output_file)\n    bar.finish()\n    print(f\"...done {len(audio_files)} files in {time()-start_time} seconds.\")"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/glow.py",
    "content": "# *****************************************************************************\n#  Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.\n#\n#  Redistribution and use in source and binary forms, with or without\n#  modification, are permitted provided that the following conditions are met:\n#      * Redistributions of source code must retain the above copyright\n#        notice, this list of conditions and the following disclaimer.\n#      * Redistributions in binary form must reproduce the above copyright\n#        notice, this list of conditions and the following disclaimer in the\n#        documentation and/or other materials provided with the distribution.\n#      * Neither the name of the NVIDIA CORPORATION nor the\n#        names of its contributors may be used to endorse or promote products\n#        derived from this software without specific prior written permission.\n#\n#  THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS \"AS IS\" AND\n#  ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED\n#  WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE\n#  DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE FOR ANY\n#  DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES\n#  (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;\n#  LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND\n#  ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT\n#  (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS\n#  SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.\n#\n# *****************************************************************************\nimport copy\nimport torch\nfrom torch.autograd import Variable\nimport torch.nn.functional as F\n\n\n@torch.jit.script\ndef fused_add_tanh_sigmoid_multiply(input_a, input_b, n_channels):\n    n_channels_int = n_channels[0]\n    in_act = input_a+input_b\n    t_act = torch.tanh(in_act[:, :n_channels_int, :])\n    s_act = torch.sigmoid(in_act[:, n_channels_int:, :])\n    acts = t_act * s_act\n    return acts\n\n\nclass WaveGlowLoss(torch.nn.Module):\n    def __init__(self, sigma=1.0):\n        super(WaveGlowLoss, self).__init__()\n        self.sigma = sigma\n\n    def forward(self, model_output):\n        z, log_s_list, log_det_W_list = model_output\n        for i, log_s in enumerate(log_s_list):\n            if i == 0:\n                log_s_total = torch.sum(log_s)\n                log_det_W_total = log_det_W_list[i]\n            else:\n                log_s_total = log_s_total + torch.sum(log_s)\n                log_det_W_total += log_det_W_list[i]\n\n        loss = torch.sum(z*z)/(2*self.sigma*self.sigma) - log_s_total - log_det_W_total\n        return loss/(z.size(0)*z.size(1)*z.size(2))\n\n\nclass Invertible1x1Conv(torch.nn.Module):\n    \"\"\"\n    The layer outputs both the convolution, and the log determinant\n    of its weight matrix.  If reverse=True it does convolution with\n    inverse\n    \"\"\"\n    def __init__(self, c):\n        super(Invertible1x1Conv, self).__init__()\n        self.conv = torch.nn.Conv1d(c, c, kernel_size=1, stride=1, padding=0,\n                                    bias=False)\n\n        # Sample a random orthonormal matrix to initialize weights\n        _qr = torch.linalg.qr if torch.__version__ >= \"1.8\" else torch.qr\n        W = _qr(torch.FloatTensor(c, c).normal_())[0]\n\n        # Ensure determinant is 1.0 not -1.0\n        if torch.det(W) < 0:\n            W[:,0] = -1*W[:,0]\n        W = W.view(c, c, 1)\n        self.conv.weight.data = W\n\n    def forward(self, z, reverse=False):\n        # shape\n        batch_size, group_size, n_of_groups = z.size()\n\n        W = self.conv.weight.squeeze()\n\n        if reverse:\n            if not hasattr(self, 'W_inverse'):\n                # Reverse computation\n                W_inverse = W.float().inverse()\n                W_inverse = Variable(W_inverse[..., None])\n                if z.type() == 'torch.cuda.HalfTensor':\n                    W_inverse = W_inverse.half()\n                self.W_inverse = W_inverse\n            z = F.conv1d(z, self.W_inverse, bias=None, stride=1, padding=0)\n            return z\n        else:\n            # Forward computation\n            log_det_W = batch_size * n_of_groups * torch.logdet(W)\n            z = self.conv(z)\n            return z, log_det_W\n\n\nclass WN(torch.nn.Module):\n    \"\"\"\n    This is the WaveNet like layer for the affine coupling.  The primary difference\n    from WaveNet is the convolutions need not be causal.  There is also no dilation\n    size reset.  The dilation only doubles on each layer\n    \"\"\"\n    def __init__(self, n_in_channels, n_mel_channels, n_layers, n_channels,\n                 kernel_size):\n        super(WN, self).__init__()\n        assert(kernel_size % 2 == 1)\n        assert(n_channels % 2 == 0)\n        self.n_layers = n_layers\n        self.n_channels = n_channels\n        self.in_layers = torch.nn.ModuleList()\n        self.res_skip_layers = torch.nn.ModuleList()\n\n        start = torch.nn.Conv1d(n_in_channels, n_channels, 1)\n        start = torch.nn.utils.weight_norm(start, name='weight')\n        self.start = start\n\n        # Initializing last layer to 0 makes the affine coupling layers\n        # do nothing at first.  This helps with training stability\n        end = torch.nn.Conv1d(n_channels, 2*n_in_channels, 1)\n        end.weight.data.zero_()\n        end.bias.data.zero_()\n        self.end = end\n\n        cond_layer = torch.nn.Conv1d(n_mel_channels, 2*n_channels*n_layers, 1)\n        self.cond_layer = torch.nn.utils.weight_norm(cond_layer, name='weight')\n\n        for i in range(n_layers):\n            dilation = 2 ** i\n            padding = int((kernel_size*dilation - dilation)/2)\n            in_layer = torch.nn.Conv1d(n_channels, 2*n_channels, kernel_size,\n                                       dilation=dilation, padding=padding)\n            in_layer = torch.nn.utils.weight_norm(in_layer, name='weight')\n            self.in_layers.append(in_layer)\n\n\n            # last one is not necessary\n            if i < n_layers - 1:\n                res_skip_channels = 2*n_channels\n            else:\n                res_skip_channels = n_channels\n            res_skip_layer = torch.nn.Conv1d(n_channels, res_skip_channels, 1)\n            res_skip_layer = torch.nn.utils.weight_norm(res_skip_layer, name='weight')\n            self.res_skip_layers.append(res_skip_layer)\n\n    def forward(self, forward_input):\n        audio, spect = forward_input\n        audio = self.start(audio)\n        output = torch.zeros_like(audio)\n        n_channels_tensor = torch.IntTensor([self.n_channels])\n\n        spect = self.cond_layer(spect)\n\n        for i in range(self.n_layers):\n            spect_offset = i*2*self.n_channels\n            acts = fused_add_tanh_sigmoid_multiply(\n                self.in_layers[i](audio),\n                spect[:,spect_offset:spect_offset+2*self.n_channels,:],\n                n_channels_tensor)\n\n            res_skip_acts = self.res_skip_layers[i](acts)\n            if i < self.n_layers - 1:\n                audio = audio + res_skip_acts[:,:self.n_channels,:]\n                output = output + res_skip_acts[:,self.n_channels:,:]\n            else:\n                output = output + res_skip_acts\n\n        return self.end(output)\n\n\nclass WaveGlow(torch.nn.Module):\n    def __init__(self, n_mel_channels, n_flows, n_group, n_early_every,\n                 n_early_size, WN_config):\n        super(WaveGlow, self).__init__()\n\n        self.upsample = torch.nn.ConvTranspose1d(n_mel_channels,\n                                                 n_mel_channels,\n                                                 1024, stride=256)\n        assert(n_group % 2 == 0)\n        self.n_flows = n_flows\n        self.n_group = n_group\n        self.n_early_every = n_early_every\n        self.n_early_size = n_early_size\n        self.WN = torch.nn.ModuleList()\n        self.convinv = torch.nn.ModuleList()\n\n        n_half = int(n_group/2)\n\n        # Set up layers with the right sizes based on how many dimensions\n        # have been output already\n        n_remaining_channels = n_group\n        for k in range(n_flows):\n            if k % self.n_early_every == 0 and k > 0:\n                n_half = n_half - int(self.n_early_size/2)\n                n_remaining_channels = n_remaining_channels - self.n_early_size\n            self.convinv.append(Invertible1x1Conv(n_remaining_channels))\n            self.WN.append(WN(n_half, n_mel_channels*n_group, **WN_config))\n        self.n_remaining_channels = n_remaining_channels  # Useful during inference\n\n    def forward(self, forward_input):\n        \"\"\"\n        forward_input[0] = mel_spectrogram:  batch x n_mel_channels x frames\n        forward_input[1] = audio: batch x time\n        \"\"\"\n        spect, audio = forward_input\n\n        #  Upsample spectrogram to size of audio\n        spect = self.upsample(spect)\n        assert(spect.size(2) >= audio.size(1))\n        if spect.size(2) > audio.size(1):\n            spect = spect[:, :, :audio.size(1)]\n\n        spect = spect.unfold(2, self.n_group, self.n_group).permute(0, 2, 1, 3)\n        spect = spect.contiguous().view(spect.size(0), spect.size(1), -1).permute(0, 2, 1)\n\n        audio = audio.unfold(1, self.n_group, self.n_group).permute(0, 2, 1)\n        output_audio = []\n        log_s_list = []\n        log_det_W_list = []\n\n        for k in range(self.n_flows):\n            if k % self.n_early_every == 0 and k > 0:\n                output_audio.append(audio[:,:self.n_early_size,:])\n                audio = audio[:,self.n_early_size:,:]\n\n            audio, log_det_W = self.convinv[k](audio)\n            log_det_W_list.append(log_det_W)\n\n            n_half = int(audio.size(1)/2)\n            audio_0 = audio[:,:n_half,:]\n            audio_1 = audio[:,n_half:,:]\n\n            output = self.WN[k]((audio_0, spect))\n            log_s = output[:, n_half:, :]\n            b = output[:, :n_half, :]\n            audio_1 = torch.exp(log_s)*audio_1 + b\n            log_s_list.append(log_s)\n\n            audio = torch.cat([audio_0, audio_1],1)\n\n        output_audio.append(audio)\n        return torch.cat(output_audio,1), log_s_list, log_det_W_list\n\n    def infer(self, spect, sigma=1.0):\n        spect = self.upsample(spect)\n        # trim conv artifacts. maybe pad spec to kernel multiple\n        time_cutoff = self.upsample.kernel_size[0] - self.upsample.stride[0]\n        spect = spect[:, :, :-time_cutoff]\n\n        spect = spect.unfold(2, self.n_group, self.n_group).permute(0, 2, 1, 3)\n        spect = spect.contiguous().view(spect.size(0), spect.size(1), -1).permute(0, 2, 1)\n\n        if spect.type() == 'torch.cuda.HalfTensor':\n            audio = torch.cuda.HalfTensor(spect.size(0),\n                                          self.n_remaining_channels,\n                                          spect.size(2)).normal_()\n        else:\n            audio = torch.cuda.FloatTensor(spect.size(0),\n                                           self.n_remaining_channels,\n                                           spect.size(2)).normal_()\n\n        audio = torch.autograd.Variable(sigma*audio)\n\n        for k in reversed(range(self.n_flows)):\n            n_half = int(audio.size(1)/2)\n            audio_0 = audio[:,:n_half,:]\n            audio_1 = audio[:,n_half:,:]\n\n            output = self.WN[k]((audio_0, spect))\n\n            s = output[:, n_half:, :]\n            b = output[:, :n_half, :]\n            audio_1 = (audio_1 - b)/torch.exp(s)\n            audio = torch.cat([audio_0, audio_1],1)\n\n            audio = self.convinv[k](audio, reverse=True)\n\n            if k % self.n_early_every == 0 and k > 0:\n                if spect.type() == 'torch.cuda.HalfTensor':\n                    z = torch.cuda.HalfTensor(spect.size(0), self.n_early_size, spect.size(2)).normal_()\n                else:\n                    z = torch.cuda.FloatTensor(spect.size(0), self.n_early_size, spect.size(2)).normal_()\n                audio = torch.cat((sigma*z, audio),1)\n\n        audio = audio.permute(0,2,1).contiguous().view(audio.size(0), -1).data\n        return audio\n\n    @staticmethod\n    def remove_weightnorm(model):\n        waveglow = model\n        for WN in waveglow.WN:\n            WN.start = torch.nn.utils.remove_weight_norm(WN.start)\n            WN.in_layers = remove(WN.in_layers)\n            WN.cond_layer = torch.nn.utils.remove_weight_norm(WN.cond_layer)\n            WN.res_skip_layers = remove(WN.res_skip_layers)\n        return waveglow\n\n\ndef remove(conv_list):\n    new_conv_list = torch.nn.ModuleList()\n    for old_conv in conv_list:\n        old_conv = torch.nn.utils.remove_weight_norm(old_conv)\n        new_conv_list.append(old_conv)\n    return new_conv_list\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/multiproc.py",
    "content": "import os\nimport time\nimport torch\nimport sys\nimport subprocess\n\nargslist = list(sys.argv)[1:]\nlog_dir = argslist[-1]\nnum_gpus = torch.cuda.device_count()\nargslist.append('--n_gpus={}'.format(num_gpus))\nworkers = []\njob_id = time.strftime(\"%Y_%m_%d-%H%M%S\")\nargslist.append(\"--group_name=group_{}\".format(job_id))\n\nprint(\"GPU log directory is {}\".format(log_dir))\nos.makedirs(log_dir, exist_ok=True)\nfor i in range(num_gpus):\n    argslist.append('--rank={}'.format(i))\n    stdout = None if i == 0 else open(\"{}/{}_GPU_{}.log\".format(log_dir, job_id, i),\n                                      \"w\")\n    print(argslist)\n    p = subprocess.Popen([str(sys.executable)]+argslist, stdout=stdout)\n    workers.append(p)\n    argslist = argslist[:-1]\n\nfor p in workers:\n    p.wait()\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/synthesize_audio_from_units.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nimport os\n\nimport soundfile as sf\nfrom examples.textless_nlp.gslm.unit2speech.tts_data import (\n    TacotronInputDataset,\n)\nfrom examples.textless_nlp.gslm.unit2speech.utils import (\n    load_quantized_audio_from_file,\n    load_tacotron,\n    load_waveglow,\n    synthesize_audio,\n)\n\n\ndef get_logger():\n    log_format = \"[%(asctime)s] [%(levelname)s]: %(message)s\"\n    logging.basicConfig(format=log_format, level=logging.INFO)\n    logger = logging.getLogger(__name__)\n    return logger\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"Wav2Vec 2.0 speech generator.\"\n    )\n    parser.add_argument(\n        \"--quantized_unit_path\",\n        type=str,\n        help=\"K-means model file path to use for inference\",\n    )\n    parser.add_argument(\n        \"--tts_model_path\",\n        type=str,\n        help=\"TTS model file path to use for inference\",\n    )\n    parser.add_argument(\n        \"--waveglow_path\",\n        type=str,\n        help=\"Path to the waveglow checkpoint (vocoder).\",\n    )\n    parser.add_argument(\n        \"--code_dict_path\",\n        type=str,\n        help=\"Code dict file path to use for inference\",\n    )\n    parser.add_argument(\"--max_decoder_steps\", type=int, default=2000)\n    parser.add_argument(\"--denoiser_strength\", type=float, default=0.1)\n    parser.add_argument(\n        \"--out_audio_dir\",\n        type=str,\n        help=\"Output directory to dump audio files\",\n    )\n\n    return parser\n\n\ndef main(args, logger):\n    # Load quantized audio\n    logger.info(f\"Loading quantized audio from {args.quantized_unit_path}...\")\n    names_batch, quantized_units_batch = load_quantized_audio_from_file(\n        file_path=args.quantized_unit_path\n    )\n\n    logger.info(f\"Loading TTS model from {args.tts_model_path}...\")\n    tacotron_model, sample_rate, hparams = load_tacotron(\n        tacotron_model_path=args.tts_model_path,\n        max_decoder_steps=args.max_decoder_steps,\n    )\n\n    logger.info(f\"Loading Waveglow model from {args.waveglow_path}...\")\n    waveglow, denoiser = load_waveglow(waveglow_path=args.waveglow_path)\n\n    if not os.path.exists(hparams.code_dict):\n        hparams.code_dict = args.code_dict_path\n    tts_dataset = TacotronInputDataset(hparams)\n\n    for name, quantized_units in zip(names_batch, quantized_units_batch):\n        quantized_units_str = \" \".join(map(str, quantized_units))\n        tts_input = tts_dataset.get_tensor(quantized_units_str)\n        mel, aud, aud_dn, has_eos = synthesize_audio(\n            tacotron_model,\n            waveglow,\n            denoiser,\n            tts_input.unsqueeze(0),\n            strength=args.denoiser_strength,\n        )\n        out_file_path = os.path.join(args.out_audio_dir, f\"{name}.wav\")\n        sf.write(\n            f\"{out_file_path}\", aud_dn[0].cpu().float().numpy(), sample_rate\n        )\n\n\nif __name__ == \"__main__\":\n    parser = get_parser()\n    args = parser.parse_args()\n    logger = get_logger()\n    logger.info(args)\n    main(args, logger)\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/tacotron2/__init__.py",
    "content": ""
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/tacotron2/audio_processing.py",
    "content": "import torch\nimport numpy as np\nfrom scipy.signal import get_window\nimport librosa.util as librosa_util\n\n\ndef window_sumsquare(window, n_frames, hop_length=200, win_length=800,\n                     n_fft=800, dtype=np.float32, norm=None):\n    \"\"\"\n    # from librosa 0.6\n    Compute the sum-square envelope of a window function at a given hop length.\n\n    This is used to estimate modulation effects induced by windowing\n    observations in short-time fourier transforms.\n\n    Parameters\n    ----------\n    window : string, tuple, number, callable, or list-like\n        Window specification, as in `get_window`\n\n    n_frames : int > 0\n        The number of analysis frames\n\n    hop_length : int > 0\n        The number of samples to advance between frames\n\n    win_length : [optional]\n        The length of the window function.  By default, this matches `n_fft`.\n\n    n_fft : int > 0\n        The length of each analysis frame.\n\n    dtype : np.dtype\n        The data type of the output\n\n    Returns\n    -------\n    wss : np.ndarray, shape=`(n_fft + hop_length * (n_frames - 1))`\n        The sum-squared envelope of the window function\n    \"\"\"\n    if win_length is None:\n        win_length = n_fft\n\n    n = n_fft + hop_length * (n_frames - 1)\n    x = np.zeros(n, dtype=dtype)\n\n    # Compute the squared window at the desired length\n    win_sq = get_window(window, win_length, fftbins=True)\n    win_sq = librosa_util.normalize(win_sq, norm=norm)**2\n    win_sq = librosa_util.pad_center(win_sq, n_fft)\n\n    # Fill the envelope\n    for i in range(n_frames):\n        sample = i * hop_length\n        x[sample:min(n, sample + n_fft)] += win_sq[:max(0, min(n_fft, n - sample))]\n    return x\n\n\ndef griffin_lim(magnitudes, stft_fn, n_iters=30):\n    \"\"\"\n    PARAMS\n    ------\n    magnitudes: spectrogram magnitudes\n    stft_fn: STFT class with transform (STFT) and inverse (ISTFT) methods\n    \"\"\"\n\n    angles = np.angle(np.exp(2j * np.pi * np.random.rand(*magnitudes.size())))\n    angles = angles.astype(np.float32)\n    angles = torch.autograd.Variable(torch.from_numpy(angles))\n    signal = stft_fn.inverse(magnitudes, angles).squeeze(1)\n\n    for i in range(n_iters):\n        _, angles = stft_fn.transform(signal)\n        signal = stft_fn.inverse(magnitudes, angles).squeeze(1)\n    return signal\n\n\ndef dynamic_range_compression(x, C=1, clip_val=1e-5):\n    \"\"\"\n    PARAMS\n    ------\n    C: compression factor\n    \"\"\"\n    return torch.log(torch.clamp(x, min=clip_val) * C)\n\n\ndef dynamic_range_decompression(x, C=1):\n    \"\"\"\n    PARAMS\n    ------\n    C: compression factor used to compress\n    \"\"\"\n    return torch.exp(x) / C\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/tacotron2/cleaners.py",
    "content": "\"\"\" from https://github.com/keithito/tacotron \"\"\"\n\n'''\nCleaners are transformations that run over the input text at both training and eval time.\n\nCleaners can be selected by passing a comma-delimited list of cleaner names as the \"cleaners\"\nhyperparameter. Some cleaners are English-specific. You'll typically want to use:\n  1. \"english_cleaners\" for English text\n  2. \"transliteration_cleaners\" for non-English text that can be transliterated to ASCII using\n     the Unidecode library (https://pypi.python.org/pypi/Unidecode)\n  3. \"basic_cleaners\" if you do not want to transliterate (in this case, you should also update\n     the symbols in symbols.py to match your data).\n'''\n\nimport re\nfrom unidecode import unidecode\nfrom .numbers import normalize_numbers\n\n\n# Regular expression matching whitespace:\n_whitespace_re = re.compile(r'\\s+')\n\n# List of (regular expression, replacement) pairs for abbreviations:\n_abbreviations = [(re.compile('\\\\b%s\\\\.' % x[0], re.IGNORECASE), x[1]) for x in [\n  ('mrs', 'misess'),\n  ('mr', 'mister'),\n  ('dr', 'doctor'),\n  ('st', 'saint'),\n  ('co', 'company'),\n  ('jr', 'junior'),\n  ('maj', 'major'),\n  ('gen', 'general'),\n  ('drs', 'doctors'),\n  ('rev', 'reverend'),\n  ('lt', 'lieutenant'),\n  ('hon', 'honorable'),\n  ('sgt', 'sergeant'),\n  ('capt', 'captain'),\n  ('esq', 'esquire'),\n  ('ltd', 'limited'),\n  ('col', 'colonel'),\n  ('ft', 'fort'),\n]]\n\n\ndef expand_abbreviations(text):\n  for regex, replacement in _abbreviations:\n    text = re.sub(regex, replacement, text)\n  return text\n\n\ndef expand_numbers(text):\n  return normalize_numbers(text)\n\n\ndef lowercase(text):\n  return text.lower()\n\n\ndef collapse_whitespace(text):\n  return re.sub(_whitespace_re, ' ', text)\n\n\ndef convert_to_ascii(text):\n  return unidecode(text)\n\n\ndef basic_cleaners(text):\n  '''Basic pipeline that lowercases and collapses whitespace without transliteration.'''\n  text = lowercase(text)\n  text = collapse_whitespace(text)\n  return text\n\n\ndef transliteration_cleaners(text):\n  '''Pipeline for non-English text that transliterates to ASCII.'''\n  text = convert_to_ascii(text)\n  text = lowercase(text)\n  text = collapse_whitespace(text)\n  return text\n\n\ndef english_cleaners(text):\n  '''Pipeline for English text, including number and abbreviation expansion.'''\n  text = convert_to_ascii(text)\n  text = lowercase(text)\n  text = expand_numbers(text)\n  text = expand_abbreviations(text)\n  text = collapse_whitespace(text)\n  return text\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/tacotron2/cmudict.py",
    "content": "\"\"\" from https://github.com/keithito/tacotron \"\"\"\n\nimport re\n\n\nvalid_symbols = [\n  'AA', 'AA0', 'AA1', 'AA2', 'AE', 'AE0', 'AE1', 'AE2', 'AH', 'AH0', 'AH1', 'AH2',\n  'AO', 'AO0', 'AO1', 'AO2', 'AW', 'AW0', 'AW1', 'AW2', 'AY', 'AY0', 'AY1', 'AY2',\n  'B', 'CH', 'D', 'DH', 'EH', 'EH0', 'EH1', 'EH2', 'ER', 'ER0', 'ER1', 'ER2', 'EY',\n  'EY0', 'EY1', 'EY2', 'F', 'G', 'HH', 'IH', 'IH0', 'IH1', 'IH2', 'IY', 'IY0', 'IY1',\n  'IY2', 'JH', 'K', 'L', 'M', 'N', 'NG', 'OW', 'OW0', 'OW1', 'OW2', 'OY', 'OY0',\n  'OY1', 'OY2', 'P', 'R', 'S', 'SH', 'T', 'TH', 'UH', 'UH0', 'UH1', 'UH2', 'UW',\n  'UW0', 'UW1', 'UW2', 'V', 'W', 'Y', 'Z', 'ZH'\n]\n\n_valid_symbol_set = set(valid_symbols)\n\n\nclass CMUDict:\n  '''Thin wrapper around CMUDict data. http://www.speech.cs.cmu.edu/cgi-bin/cmudict'''\n  def __init__(self, file_or_path, keep_ambiguous=True):\n    if isinstance(file_or_path, str):\n      with open(file_or_path, encoding='latin-1') as f:\n        entries = _parse_cmudict(f)\n    else:\n      entries = _parse_cmudict(file_or_path)\n    if not keep_ambiguous:\n      entries = {word: pron for word, pron in entries.items() if len(pron) == 1}\n    self._entries = entries\n\n\n  def __len__(self):\n    return len(self._entries)\n\n\n  def lookup(self, word):\n    '''Returns list of ARPAbet pronunciations of the given word.'''\n    return self._entries.get(word.upper())\n\n\n\n_alt_re = re.compile(r'\\([0-9]+\\)')\n\n\ndef _parse_cmudict(file):\n  cmudict = {}\n  for line in file:\n    if len(line) and (line[0] >= 'A' and line[0] <= 'Z' or line[0] == \"'\"):\n      parts = line.split('  ')\n      word = re.sub(_alt_re, '', parts[0])\n      pronunciation = _get_pronunciation(parts[1])\n      if pronunciation:\n        if word in cmudict:\n          cmudict[word].append(pronunciation)\n        else:\n          cmudict[word] = [pronunciation]\n  return cmudict\n\n\ndef _get_pronunciation(s):\n  parts = s.strip().split(' ')\n  for part in parts:\n    if part not in _valid_symbol_set:\n      return None\n  return ' '.join(parts)\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/tacotron2/layers.py",
    "content": "import torch\nfrom librosa.filters import mel as librosa_mel_fn\nfrom .audio_processing import dynamic_range_compression\nfrom .audio_processing import dynamic_range_decompression\nfrom .stft import STFT\nfrom .utils import get_mask_from_lengths\n\n\nclass LinearNorm(torch.nn.Module):\n    def __init__(self, in_dim, out_dim, bias=True, w_init_gain='linear'):\n        super(LinearNorm, self).__init__()\n        self.linear_layer = torch.nn.Linear(in_dim, out_dim, bias=bias)\n\n        torch.nn.init.xavier_uniform_(\n            self.linear_layer.weight,\n            gain=torch.nn.init.calculate_gain(w_init_gain))\n\n    def forward(self, x):\n        return self.linear_layer(x)\n\n\nclass ConvNorm(torch.nn.Module):\n    def __init__(self, in_channels, out_channels, kernel_size=1, stride=1,\n                 padding=None, dilation=1, bias=True, w_init_gain='linear'):\n        super(ConvNorm, self).__init__()\n        if padding is None:\n            assert(kernel_size % 2 == 1)\n            padding = int(dilation * (kernel_size - 1) / 2)\n\n        self.conv = torch.nn.Conv1d(in_channels, out_channels,\n                                    kernel_size=kernel_size, stride=stride,\n                                    padding=padding, dilation=dilation,\n                                    bias=bias)\n\n        torch.nn.init.xavier_uniform_(\n            self.conv.weight, gain=torch.nn.init.calculate_gain(w_init_gain))\n\n    def forward(self, signal):\n        conv_signal = self.conv(signal)\n        return conv_signal\n\n\nclass GlobalAvgPool(torch.nn.Module):\n    def __init__(self):\n        super(GlobalAvgPool, self).__init__()\n\n    def forward(self, x, lengths=None):\n        \"\"\"Average pooling across time steps (dim=1) with optionally lengths.\n        Args:\n            x: torch.Tensor of shape (N, T, ...)\n            lengths: None or torch.Tensor of shape (N,)\n            dim: dimension to pool\n        \"\"\"\n        if lengths is None:\n            return x.mean(dim=1, keepdim=False)\n        else:\n            mask = get_mask_from_lengths(lengths).type(x.type()).to(x.device)\n            mask_shape = list(mask.size()) + [1 for _ in range(x.ndimension()-2)]\n            mask = mask.reshape(*mask_shape)\n            numer = (x * mask).sum(dim=1, keepdim=False)\n            denom = mask.sum(dim=1, keepdim=False)\n            return numer / denom\n\n\nclass TacotronSTFT(torch.nn.Module):\n    def __init__(self, filter_length=1024, hop_length=256, win_length=1024,\n                 n_mel_channels=80, sampling_rate=22050, mel_fmin=0.0,\n                 mel_fmax=8000.0):\n        super(TacotronSTFT, self).__init__()\n        self.n_mel_channels = n_mel_channels\n        self.sampling_rate = sampling_rate\n        self.stft_fn = STFT(filter_length, hop_length, win_length)\n        mel_basis = librosa_mel_fn(\n            sampling_rate, filter_length, n_mel_channels, mel_fmin, mel_fmax)\n        mel_basis = torch.from_numpy(mel_basis).float()\n        self.register_buffer('mel_basis', mel_basis)\n\n    def spectral_normalize(self, magnitudes):\n        output = dynamic_range_compression(magnitudes)\n        return output\n\n    def spectral_de_normalize(self, magnitudes):\n        output = dynamic_range_decompression(magnitudes)\n        return output\n\n    def mel_spectrogram(self, y):\n        \"\"\"Computes mel-spectrograms from a batch of waves\n        PARAMS\n        ------\n        y: Variable(torch.FloatTensor) with shape (B, T) in range [-1, 1]\n\n        RETURNS\n        -------\n        mel_output: torch.FloatTensor of shape (B, n_mel_channels, T)\n        \"\"\"\n        assert(torch.min(y.data) >= -1)\n        assert(torch.max(y.data) <= 1)\n\n        magnitudes, phases = self.stft_fn.transform(y)\n        magnitudes = magnitudes.data\n        mel_output = torch.matmul(self.mel_basis, magnitudes)\n        mel_output = self.spectral_normalize(mel_output)\n        return mel_output\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/tacotron2/model.py",
    "content": "from math import sqrt\nimport torch\nimport torch.distributions as distr\nfrom torch.autograd import Variable\nfrom torch import nn\nfrom torch.nn import functional as F\nfrom .layers import ConvNorm, LinearNorm, GlobalAvgPool\nfrom .utils import to_gpu, get_mask_from_lengths\n\n\nclass LocationLayer(nn.Module):\n    def __init__(self, attention_n_filters, attention_kernel_size,\n                 attention_dim):\n        super(LocationLayer, self).__init__()\n        padding = int((attention_kernel_size - 1) / 2)\n        self.location_conv = ConvNorm(2, attention_n_filters,\n                                      kernel_size=attention_kernel_size,\n                                      padding=padding, bias=False, stride=1,\n                                      dilation=1)\n        self.location_dense = LinearNorm(attention_n_filters, attention_dim,\n                                         bias=False, w_init_gain='tanh')\n\n    def forward(self, attention_weights_cat):\n        processed_attention = self.location_conv(attention_weights_cat)\n        processed_attention = processed_attention.transpose(1, 2)\n        processed_attention = self.location_dense(processed_attention)\n        return processed_attention\n\n\nclass Attention(nn.Module):\n    def __init__(self, attention_rnn_dim, embedding_dim, attention_dim,\n                 attention_location_n_filters, attention_location_kernel_size):\n        super(Attention, self).__init__()\n        self.query_layer = LinearNorm(attention_rnn_dim, attention_dim,\n                                      bias=False, w_init_gain='tanh')\n        self.memory_layer = LinearNorm(embedding_dim, attention_dim, bias=False,\n                                       w_init_gain='tanh')\n        self.v = LinearNorm(attention_dim, 1, bias=False)\n        self.location_layer = LocationLayer(attention_location_n_filters,\n                                            attention_location_kernel_size,\n                                            attention_dim)\n        self.score_mask_value = -float(\"inf\")\n\n    def get_alignment_energies(self, query, processed_memory,\n                               attention_weights_cat):\n        \"\"\"\n        PARAMS\n        ------\n        query: decoder output (batch, n_mel_channels * n_frames_per_step)\n        processed_memory: processed encoder outputs (B, T_in, attention_dim)\n        attention_weights_cat: cumulative and prev. att weights (B, 2, max_time)\n\n        RETURNS\n        -------\n        alignment (batch, max_time)\n        \"\"\"\n\n        processed_query = self.query_layer(query.unsqueeze(1))\n        processed_attention_weights = self.location_layer(attention_weights_cat)\n        energies = self.v(torch.tanh(\n            processed_query + processed_attention_weights + processed_memory))\n\n        energies = energies.squeeze(-1)\n        return energies\n\n    def forward(self, attention_hidden_state, memory, processed_memory,\n                attention_weights_cat, mask):\n        \"\"\"\n        PARAMS\n        ------\n        attention_hidden_state: attention rnn last output\n        memory: encoder outputs\n        processed_memory: processed encoder outputs\n        attention_weights_cat: previous and cummulative attention weights\n        mask: binary mask for padded data\n        \"\"\"\n        alignment = self.get_alignment_energies(\n            attention_hidden_state, processed_memory, attention_weights_cat)\n\n        if mask is not None:\n            alignment.data.masked_fill_(mask, self.score_mask_value)\n\n        attention_weights = F.softmax(alignment, dim=1)\n        attention_context = torch.bmm(attention_weights.unsqueeze(1), memory)\n        attention_context = attention_context.squeeze(1)\n\n        return attention_context, attention_weights\n\n\nclass Prenet(nn.Module):\n    def __init__(self, in_dim, sizes):\n        super(Prenet, self).__init__()\n        in_sizes = [in_dim] + sizes[:-1]\n        self.layers = nn.ModuleList(\n            [LinearNorm(in_size, out_size, bias=False)\n             for (in_size, out_size) in zip(in_sizes, sizes)])\n\n    def forward(self, x):\n        for linear in self.layers:\n            x = F.dropout(F.relu(linear(x)), p=0.5, training=True)\n        return x\n\n\nclass Postnet(nn.Module):\n    \"\"\"Postnet\n        - Five 1-d convolution with 512 channels and kernel size 5\n    \"\"\"\n\n    def __init__(self, hparams):\n        super(Postnet, self).__init__()\n        self.convolutions = nn.ModuleList()\n\n        self.convolutions.append(\n            nn.Sequential(\n                ConvNorm(hparams.n_mel_channels, hparams.postnet_embedding_dim,\n                         kernel_size=hparams.postnet_kernel_size, stride=1,\n                         padding=int((hparams.postnet_kernel_size - 1) / 2),\n                         dilation=1, w_init_gain='tanh'),\n                nn.BatchNorm1d(hparams.postnet_embedding_dim))\n        )\n\n        for i in range(1, hparams.postnet_n_convolutions - 1):\n            self.convolutions.append(\n                nn.Sequential(\n                    ConvNorm(hparams.postnet_embedding_dim,\n                             hparams.postnet_embedding_dim,\n                             kernel_size=hparams.postnet_kernel_size, stride=1,\n                             padding=int((hparams.postnet_kernel_size - 1) / 2),\n                             dilation=1, w_init_gain='tanh'),\n                    nn.BatchNorm1d(hparams.postnet_embedding_dim))\n            )\n\n        self.convolutions.append(\n            nn.Sequential(\n                ConvNorm(hparams.postnet_embedding_dim, hparams.n_mel_channels,\n                         kernel_size=hparams.postnet_kernel_size, stride=1,\n                         padding=int((hparams.postnet_kernel_size - 1) / 2),\n                         dilation=1, w_init_gain='linear'),\n                nn.BatchNorm1d(hparams.n_mel_channels))\n            )\n\n    def forward(self, x):\n        for i in range(len(self.convolutions) - 1):\n            x = F.dropout(torch.tanh(self.convolutions[i](x)), 0.5, self.training)\n        x = F.dropout(self.convolutions[-1](x), 0.5, self.training)\n\n        return x\n\n\nclass Encoder(nn.Module):\n    \"\"\"Encoder module:\n        - Three 1-d convolution banks\n        - Bidirectional LSTM\n    \"\"\"\n    def __init__(self, hparams):\n        super(Encoder, self).__init__()\n\n        convolutions = []\n        for _ in range(hparams.encoder_n_convolutions):\n            conv_layer = nn.Sequential(\n                ConvNorm(hparams.encoder_embedding_dim,\n                         hparams.encoder_embedding_dim,\n                         kernel_size=hparams.encoder_kernel_size, stride=1,\n                         padding=int((hparams.encoder_kernel_size - 1) / 2),\n                         dilation=1, w_init_gain='relu'),\n                nn.BatchNorm1d(hparams.encoder_embedding_dim))\n            convolutions.append(conv_layer)\n        self.convolutions = nn.ModuleList(convolutions)\n\n        self.lstm = nn.LSTM(hparams.encoder_embedding_dim,\n                            int(hparams.encoder_embedding_dim / 2), 1,\n                            batch_first=True, bidirectional=True)\n\n    def forward(self, x, input_lengths):\n        for conv in self.convolutions:\n            x = F.dropout(F.relu(conv(x)), 0.5, self.training)\n\n        x = x.transpose(1, 2)\n\n        # pytorch tensor are not reversible, hence the conversion\n        input_lengths = input_lengths.cpu().numpy()\n        x = nn.utils.rnn.pack_padded_sequence(\n            x, input_lengths, batch_first=True)\n\n        self.lstm.flatten_parameters()\n        outputs, _ = self.lstm(x)\n\n        outputs, _ = nn.utils.rnn.pad_packed_sequence(\n            outputs, batch_first=True)\n\n        return outputs\n\n    def inference(self, x):\n        for conv in self.convolutions:\n            x = F.dropout(F.relu(conv(x)), 0.5, self.training)\n\n        x = x.transpose(1, 2)\n\n        self.lstm.flatten_parameters()\n        outputs, _ = self.lstm(x)\n\n        return outputs\n\n\nclass AudioEncoder(nn.Module):\n    def __init__(self, hparams):\n        super(AudioEncoder, self).__init__()\n\n        assert hparams.lat_dim > 0\n\n        convolutions = []\n        inp_dim = hparams.n_mel_channels\n        for _ in range(hparams.lat_n_convolutions):\n            conv_layer = nn.Sequential(\n                ConvNorm(inp_dim, hparams.lat_n_filters,\n                         kernel_size=hparams.lat_kernel_size, stride=1,\n                         padding=int((hparams.lat_kernel_size - 1) / 2),\n                         dilation=1, w_init_gain='tanh'),\n                nn.BatchNorm1d(hparams.lat_n_filters))\n            inp_dim = hparams.lat_n_filters\n            convolutions.append(conv_layer)\n        self.convolutions = nn.ModuleList(convolutions)\n\n        self.lstm = nn.LSTM(hparams.lat_n_filters,\n                            int(hparams.lat_n_filters / 2),\n                            hparams.lat_n_blstms, batch_first=True,\n                            bidirectional=True)\n        self.pool = GlobalAvgPool()\n\n        self.mu_proj = LinearNorm(hparams.lat_n_filters, hparams.lat_dim)\n        self.logvar_proj = LinearNorm(hparams.lat_n_filters, hparams.lat_dim)\n        self.lat_dim = hparams.lat_dim\n\n    def forward(self, x, lengths):\n        \"\"\"\n        Args:\n            x (torch.Tensor): (B, F, T)\n        \"\"\"\n\n        for conv in self.convolutions:\n            x = F.dropout(F.tanh(conv(x)), 0.5, self.training)\n\n        x = x.transpose(1, 2)  # (B, T, D)\n\n        # x may not be sorted by length. Sort->process->unsort\n        max_len = x.size(1)\n        assert max_len == torch.max(lengths).item()\n\n        lengths, perm_idx = lengths.sort(0, descending=True)\n        x = x[perm_idx]\n        x = nn.utils.rnn.pack_padded_sequence(x, lengths, batch_first=True)\n\n        self.lstm.flatten_parameters()\n        outputs, _ = self.lstm(x)\n        outputs, _ = nn.utils.rnn.pad_packed_sequence(outputs, batch_first=True)\n\n        _, unperm_idx = perm_idx.sort(0)\n        outputs = outputs[unperm_idx]  # (B, T, D)\n        lengths = lengths[unperm_idx]  # (B, T, D)\n\n        outputs = self.pool(outputs, lengths)  # (B, D)\n\n        mu = self.mu_proj(outputs)\n        logvar = self.logvar_proj(outputs)\n        z = distr.Normal(mu, logvar).rsample()\n        return z, mu, logvar\n\n\nclass Decoder(nn.Module):\n    def __init__(self, hparams):\n        super(Decoder, self).__init__()\n        self.n_mel_channels = hparams.n_mel_channels\n        self.n_frames_per_step = hparams.n_frames_per_step\n        self.encoder_embedding_dim = hparams.encoder_embedding_dim\n        self.obs_dim = hparams.obs_dim\n        self.lat_dim = hparams.lat_dim\n        self.attention_rnn_dim = hparams.attention_rnn_dim\n        self.decoder_rnn_dim = hparams.decoder_rnn_dim\n        self.prenet_dim = hparams.prenet_dim\n        self.max_decoder_steps = hparams.max_decoder_steps\n        self.gate_threshold = hparams.gate_threshold\n        self.p_attention_dropout = hparams.p_attention_dropout\n        self.p_decoder_dropout = hparams.p_decoder_dropout\n\n        self.prenet = Prenet(\n            hparams.n_mel_channels * hparams.n_frames_per_step,\n            [hparams.prenet_dim, hparams.prenet_dim])\n\n        self.attention_rnn = nn.LSTMCell(\n            hparams.prenet_dim + hparams.encoder_embedding_dim,\n            hparams.attention_rnn_dim)\n\n        self.attention_layer = Attention(\n            hparams.attention_rnn_dim, hparams.encoder_embedding_dim,\n            hparams.attention_dim, hparams.attention_location_n_filters,\n            hparams.attention_location_kernel_size)\n\n        encoder_tot_dim = (hparams.encoder_embedding_dim + \\\n                           hparams.lat_dim + hparams.obs_dim)\n        self.decoder_rnn = nn.LSTMCell(\n            hparams.attention_rnn_dim + encoder_tot_dim,\n            hparams.decoder_rnn_dim, 1)\n\n        self.linear_projection = LinearNorm(\n            hparams.decoder_rnn_dim + encoder_tot_dim,\n            hparams.n_mel_channels * hparams.n_frames_per_step)\n\n        self.gate_layer = LinearNorm(\n            hparams.decoder_rnn_dim + encoder_tot_dim, 1,\n            bias=True, w_init_gain='sigmoid')\n\n    def get_go_frame(self, memory):\n        \"\"\" Gets all zeros frames to use as first decoder input\n        PARAMS\n        ------\n        memory: decoder outputs\n\n        RETURNS\n        -------\n        decoder_input: all zeros frames\n        \"\"\"\n        B = memory.size(0)\n        decoder_input = Variable(memory.data.new(\n            B, self.n_mel_channels * self.n_frames_per_step).zero_())\n        return decoder_input\n\n    def initialize_decoder_states(self, memory, obs_and_lat, mask):\n        \"\"\" Initializes attention rnn states, decoder rnn states, attention\n        weights, attention cumulative weights, attention context, stores memory\n        and stores processed memory\n        PARAMS\n        ------\n        memory: Encoder outputs\n        obs_and_lat: Observed and latent attribute embeddings\n        mask: Mask for padded data if training, expects None for inference\n        \"\"\"\n        B = memory.size(0)\n        MAX_TIME = memory.size(1)\n\n        self.attention_hidden = Variable(memory.data.new(\n            B, self.attention_rnn_dim).zero_())\n        self.attention_cell = Variable(memory.data.new(\n            B, self.attention_rnn_dim).zero_())\n\n        self.decoder_hidden = Variable(memory.data.new(\n            B, self.decoder_rnn_dim).zero_())\n        self.decoder_cell = Variable(memory.data.new(\n            B, self.decoder_rnn_dim).zero_())\n\n        self.attention_weights = Variable(memory.data.new(\n            B, MAX_TIME).zero_())\n        self.attention_weights_cum = Variable(memory.data.new(\n            B, MAX_TIME).zero_())\n        self.attention_context = Variable(memory.data.new(\n            B, self.encoder_embedding_dim).zero_())\n\n        self.memory = memory\n        self.processed_memory = self.attention_layer.memory_layer(memory)\n        self.obs_and_lat = obs_and_lat\n        self.mask = mask\n\n    def parse_decoder_inputs(self, decoder_inputs):\n        \"\"\" Prepares decoder inputs, i.e. mel outputs\n        PARAMS\n        ------\n        decoder_inputs: inputs used for teacher-forced training, i.e. mel-specs\n\n        RETURNS\n        -------\n        inputs: processed decoder inputs\n\n        \"\"\"\n        # (B, n_mel_channels, T_out) -> (B, T_out, n_mel_channels)\n        decoder_inputs = decoder_inputs.transpose(1, 2)\n        decoder_inputs = decoder_inputs.view(\n            decoder_inputs.size(0),\n            int(decoder_inputs.size(1)/self.n_frames_per_step), -1)\n        # (B, T_out, n_mel_channels) -> (T_out, B, n_mel_channels)\n        decoder_inputs = decoder_inputs.transpose(0, 1)\n        return decoder_inputs\n\n    def parse_decoder_outputs(self, mel_outputs, gate_outputs, alignments):\n        \"\"\" Prepares decoder outputs for output\n        PARAMS\n        ------\n        mel_outputs:\n        gate_outputs: gate output energies\n        alignments:\n\n        RETURNS\n        -------\n        mel_outputs:\n        gate_outpust: gate output energies\n        alignments:\n        \"\"\"\n        # (T_out, B) -> (B, T_out)\n        alignments = torch.stack(alignments).transpose(0, 1)\n        # (T_out, B) -> (B, T_out)\n        gate_outputs = torch.stack(gate_outputs).transpose(0, 1)\n        gate_outputs = gate_outputs.contiguous()\n        # (T_out, B, n_mel_channels) -> (B, T_out, n_mel_channels)\n        mel_outputs = torch.stack(mel_outputs).transpose(0, 1).contiguous()\n        # decouple frames per step\n        mel_outputs = mel_outputs.view(\n            mel_outputs.size(0), -1, self.n_mel_channels)\n        # (B, T_out, n_mel_channels) -> (B, n_mel_channels, T_out)\n        mel_outputs = mel_outputs.transpose(1, 2)\n\n        return mel_outputs, gate_outputs, alignments\n\n    def decode(self, decoder_input):\n        \"\"\" Decoder step using stored states, attention and memory\n        PARAMS\n        ------\n        decoder_input: previous mel output\n\n        RETURNS\n        -------\n        mel_output:\n        gate_output: gate output energies\n        attention_weights:\n        \"\"\"\n        cell_input = torch.cat((decoder_input, self.attention_context), -1)\n        self.attention_hidden, self.attention_cell = self.attention_rnn(\n            cell_input, (self.attention_hidden, self.attention_cell))\n        self.attention_hidden = F.dropout(\n            self.attention_hidden, self.p_attention_dropout, self.training)\n\n        attention_weights_cat = torch.cat(\n            (self.attention_weights.unsqueeze(1),\n             self.attention_weights_cum.unsqueeze(1)), dim=1)\n        self.attention_context, self.attention_weights = self.attention_layer(\n            self.attention_hidden, self.memory, self.processed_memory,\n            attention_weights_cat, self.mask)\n\n        self.attention_weights_cum += self.attention_weights\n        decoder_input = torch.cat(\n            (self.attention_hidden, self.attention_context), -1)\n        if self.obs_and_lat is not None:\n            decoder_input = torch.cat((decoder_input, self.obs_and_lat), -1)\n        self.decoder_hidden, self.decoder_cell = self.decoder_rnn(\n            decoder_input, (self.decoder_hidden, self.decoder_cell))\n        self.decoder_hidden = F.dropout(\n            self.decoder_hidden, self.p_decoder_dropout, self.training)\n\n        decoder_hidden_attention_context = torch.cat(\n            (self.decoder_hidden, self.attention_context), dim=1)\n        if self.obs_and_lat is not None:\n            decoder_hidden_attention_context = torch.cat(\n                    (decoder_hidden_attention_context, self.obs_and_lat), dim=1)\n        decoder_output = self.linear_projection(\n            decoder_hidden_attention_context)\n\n        gate_prediction = self.gate_layer(decoder_hidden_attention_context)\n        return decoder_output, gate_prediction, self.attention_weights\n\n    def forward(self, memory, obs_and_lat, decoder_inputs, memory_lengths):\n        \"\"\" Decoder forward pass for training\n        PARAMS\n        ------\n        memory: Encoder outputs\n        obs_and_lat: Observed and latent attribute embeddings\n        decoder_inputs: Decoder inputs for teacher forcing. i.e. mel-specs\n        memory_lengths: Encoder output lengths for attention masking.\n\n        RETURNS\n        -------\n        mel_outputs: mel outputs from the decoder\n        gate_outputs: gate outputs from the decoder\n        alignments: sequence of attention weights from the decoder\n        \"\"\"\n\n        decoder_input = self.get_go_frame(memory).unsqueeze(0)\n        decoder_inputs = self.parse_decoder_inputs(decoder_inputs)\n        decoder_inputs = torch.cat((decoder_input, decoder_inputs), dim=0)\n        decoder_inputs = self.prenet(decoder_inputs)\n\n        self.initialize_decoder_states(\n            memory, obs_and_lat, mask=~get_mask_from_lengths(memory_lengths))\n\n        mel_outputs, gate_outputs, alignments = [], [], []\n        while len(mel_outputs) < decoder_inputs.size(0) - 1:\n            decoder_input = decoder_inputs[len(mel_outputs)]\n            mel_output, gate_output, attention_weights = self.decode(\n                decoder_input)\n            mel_outputs += [mel_output.squeeze(1)]\n            gate_outputs += [gate_output.squeeze()]\n            alignments += [attention_weights]\n\n        mel_outputs, gate_outputs, alignments = self.parse_decoder_outputs(\n            mel_outputs, gate_outputs, alignments)\n\n        return mel_outputs, gate_outputs, alignments\n\n    def inference(self, memory, obs_and_lat, ret_has_eos=False):\n        \"\"\" Decoder inference\n        PARAMS\n        ------\n        memory: Encoder outputs\n        obs_and_lat: Observed and latent attribute embeddings\n\n        RETURNS\n        -------\n        mel_outputs: mel outputs from the decoder\n        gate_outputs: gate outputs from the decoder\n        alignments: sequence of attention weights from the decoder\n        \"\"\"\n        decoder_input = self.get_go_frame(memory)\n\n        self.initialize_decoder_states(memory, obs_and_lat, mask=None)\n\n        mel_outputs, gate_outputs, alignments = [], [], []\n        has_eos = False\n        while True:\n            decoder_input = self.prenet(decoder_input)\n            mel_output, gate_output, alignment = self.decode(decoder_input)\n\n            mel_outputs += [mel_output.squeeze(1)]\n            gate_outputs += [gate_output]\n            alignments += [alignment]\n\n            if torch.sigmoid(gate_output.data) > self.gate_threshold:\n                has_eos = True\n                break\n            elif len(mel_outputs) == self.max_decoder_steps:\n                # print(\"Warning! Reached max decoder steps\")\n                break\n\n            decoder_input = mel_output\n\n        mel_outputs, gate_outputs, alignments = self.parse_decoder_outputs(\n            mel_outputs, gate_outputs, alignments)\n\n        if ret_has_eos:\n            return mel_outputs, gate_outputs, alignments, has_eos\n        else:\n            return mel_outputs, gate_outputs, alignments\n\n\nclass Tacotron2(nn.Module):\n    def __init__(self, hparams):\n        super(Tacotron2, self).__init__()\n        self.mask_padding = hparams.mask_padding\n        self.fp16_run = hparams.fp16_run\n        self.n_mel_channels = hparams.n_mel_channels\n        self.n_frames_per_step = hparams.n_frames_per_step\n\n        # initialize text encoder embedding\n        self.embedding = nn.Embedding(\n            hparams.n_symbols, hparams.symbols_embedding_dim)\n        std = sqrt(2.0 / (hparams.n_symbols + hparams.symbols_embedding_dim))\n        val = sqrt(3.0) * std  # uniform bounds for std\n        self.embedding.weight.data.uniform_(-val, val)\n\n        # initialize observed attribute embedding\n        self.obs_embedding = None\n        if hparams.obs_dim > 0:\n            self.obs_embedding = nn.Embedding(\n                hparams.obs_n_class, hparams.obs_dim)\n            std = sqrt(2.0 / (hparams.obs_n_class + hparams.obs_dim))\n            val = sqrt(3.0) * std  # uniform bounds for std\n            self.obs_embedding.weight.data.uniform_(-val, val)\n\n        self.encoder = Encoder(hparams)\n        self.decoder = Decoder(hparams)\n        self.postnet = Postnet(hparams)\n\n        self.lat_encoder = None\n        if hparams.lat_dim > 0:\n            self.lat_encoder = AudioEncoder(hparams)\n\n    def parse_batch(self, batch):\n        (text_padded, input_lengths, obs_labels,\n         mel_padded, gate_padded, output_lengths) = batch\n        text_padded = to_gpu(text_padded).long()\n        input_lengths = to_gpu(input_lengths).long()\n        obs_labels = to_gpu(obs_labels).long()\n        max_len = torch.max(input_lengths.data).item()\n        mel_padded = to_gpu(mel_padded).float()\n        gate_padded = to_gpu(gate_padded).float()\n        output_lengths = to_gpu(output_lengths).long()\n\n        return (\n            (text_padded, input_lengths, obs_labels,\n             mel_padded, max_len, output_lengths),\n            (mel_padded, gate_padded))\n\n    def parse_output(self, outputs, output_lengths=None):\n        if self.mask_padding and output_lengths is not None:\n            mask = ~get_mask_from_lengths(output_lengths)\n            mask = mask.expand(self.n_mel_channels, mask.size(0), mask.size(1))\n            mask = mask.permute(1, 0, 2)\n\n            outputs[0].data.masked_fill_(mask, 0.0)\n            outputs[1].data.masked_fill_(mask, 0.0)\n            outputs[2].data.masked_fill_(mask[:, 0, :], 1e3)  # gate energies\n\n        return outputs\n\n    def forward(self, inputs):\n        (text_inputs, text_lengths, obs_labels,\n         mels, max_len, output_lengths) = inputs\n        text_lengths, output_lengths = text_lengths.data, output_lengths.data\n\n        embedded_inputs = self.embedding(text_inputs).transpose(1, 2)\n\n        encoder_outputs = self.encoder(embedded_inputs, text_lengths)\n\n        obs = None\n        if self.obs_embedding is not None:\n            obs = self.obs_embedding(obs_labels)\n\n        lat, lat_mu, lat_logvar = None, None, None\n        if self.lat_encoder is not None:\n            (lat, lat_mu, lat_logvar) = self.lat_encoder(mels, output_lengths)\n\n        obs_and_lat = [x for x in [obs, lat] if x is not None]\n        if bool(obs_and_lat):\n            obs_and_lat = torch.cat(obs_and_lat, dim=-1)\n        else:\n            obs_and_lat = None\n\n        mel_outputs, gate_outputs, alignments = self.decoder(\n            encoder_outputs, obs_and_lat, mels, memory_lengths=text_lengths)\n\n        mel_outputs_postnet = self.postnet(mel_outputs)\n        mel_outputs_postnet = mel_outputs + mel_outputs_postnet\n\n        return self.parse_output(\n            [mel_outputs, mel_outputs_postnet, gate_outputs, alignments,\n             lat_mu, lat_logvar],\n            output_lengths)\n\n    def inference(self, inputs, obs_labels=None, lat=None, ret_has_eos=False):\n        embedded_inputs = self.embedding(inputs).transpose(1, 2)\n        encoder_outputs = self.encoder.inference(embedded_inputs)\n\n        if obs_labels is None:\n            obs_labels = torch.LongTensor(len(inputs))\n            obs_labels = obs_labels.to(inputs.device).zero_()\n\n        obs = None\n        if self.obs_embedding is not None:\n            obs = self.obs_embedding(obs_labels)\n\n        if self.lat_encoder is not None:\n            if lat is None:\n                lat = torch.FloatTensor(len(inputs), self.lat_encoder.lat_dim)\n                lat = lat.to(inputs.device).zero_().type(encoder_outputs.type())\n\n        obs_and_lat = [x for x in [obs, lat] if x is not None]\n        if bool(obs_and_lat):\n            obs_and_lat = torch.cat(obs_and_lat, dim=-1)\n        else:\n            obs_and_lat = None\n\n        mel_outputs, gate_outputs, alignments, has_eos = self.decoder.inference(\n            encoder_outputs, obs_and_lat, ret_has_eos=True)\n\n        mel_outputs_postnet = self.postnet(mel_outputs)\n        mel_outputs_postnet = mel_outputs + mel_outputs_postnet\n\n        outputs = self.parse_output(\n            [mel_outputs, mel_outputs_postnet, gate_outputs, alignments])\n\n        if ret_has_eos:\n            return outputs + [has_eos]\n        else:\n            return outputs\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/tacotron2/numbers.py",
    "content": "\"\"\" from https://github.com/keithito/tacotron \"\"\"\n\nimport inflect\nimport re\n\n\n_inflect = inflect.engine()\n_comma_number_re = re.compile(r'([0-9][0-9\\,]+[0-9])')\n_decimal_number_re = re.compile(r'([0-9]+\\.[0-9]+)')\n_pounds_re = re.compile(r'£([0-9\\,]*[0-9]+)')\n_dollars_re = re.compile(r'\\$([0-9\\.\\,]*[0-9]+)')\n_ordinal_re = re.compile(r'[0-9]+(st|nd|rd|th)')\n_number_re = re.compile(r'[0-9]+')\n\n\ndef _remove_commas(m):\n  return m.group(1).replace(',', '')\n\n\ndef _expand_decimal_point(m):\n  return m.group(1).replace('.', ' point ')\n\n\ndef _expand_dollars(m):\n  match = m.group(1)\n  parts = match.split('.')\n  if len(parts) > 2:\n    return match + ' dollars'  # Unexpected format\n  dollars = int(parts[0]) if parts[0] else 0\n  cents = int(parts[1]) if len(parts) > 1 and parts[1] else 0\n  if dollars and cents:\n    dollar_unit = 'dollar' if dollars == 1 else 'dollars'\n    cent_unit = 'cent' if cents == 1 else 'cents'\n    return '%s %s, %s %s' % (dollars, dollar_unit, cents, cent_unit)\n  elif dollars:\n    dollar_unit = 'dollar' if dollars == 1 else 'dollars'\n    return '%s %s' % (dollars, dollar_unit)\n  elif cents:\n    cent_unit = 'cent' if cents == 1 else 'cents'\n    return '%s %s' % (cents, cent_unit)\n  else:\n    return 'zero dollars'\n\n\ndef _expand_ordinal(m):\n  return _inflect.number_to_words(m.group(0))\n\n\ndef _expand_number(m):\n  num = int(m.group(0))\n  if num > 1000 and num < 3000:\n    if num == 2000:\n      return 'two thousand'\n    elif num > 2000 and num < 2010:\n      return 'two thousand ' + _inflect.number_to_words(num % 100)\n    elif num % 100 == 0:\n      return _inflect.number_to_words(num // 100) + ' hundred'\n    else:\n      return _inflect.number_to_words(num, andword='', zero='oh', group=2).replace(', ', ' ')\n  else:\n    return _inflect.number_to_words(num, andword='')\n\n\ndef normalize_numbers(text):\n  text = re.sub(_comma_number_re, _remove_commas, text)\n  text = re.sub(_pounds_re, r'\\1 pounds', text)\n  text = re.sub(_dollars_re, _expand_dollars, text)\n  text = re.sub(_decimal_number_re, _expand_decimal_point, text)\n  text = re.sub(_ordinal_re, _expand_ordinal, text)\n  text = re.sub(_number_re, _expand_number, text)\n  return text\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/tacotron2/stft.py",
    "content": "\"\"\"\nBSD 3-Clause License\n\nCopyright (c) 2017, Prem Seetharaman\nAll rights reserved.\n\n* Redistribution and use in source and binary forms, with or without\n  modification, are permitted provided that the following conditions are met:\n\n* Redistributions of source code must retain the above copyright notice,\n  this list of conditions and the following disclaimer.\n\n* Redistributions in binary form must reproduce the above copyright notice, this\n  list of conditions and the following disclaimer in the\n  documentation and/or other materials provided with the distribution.\n\n* Neither the name of the copyright holder nor the names of its\n  contributors may be used to endorse or promote products derived from this\n  software without specific prior written permission.\n\nTHIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS \"AS IS\" AND\nANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED\nWARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE\nDISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR\nANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES\n(INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;\nLOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON\nANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT\n(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS\nSOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.\n\"\"\"\n\nimport torch\nimport numpy as np\nimport torch.nn.functional as F\nfrom torch.autograd import Variable\nfrom scipy.signal import get_window\nfrom librosa.util import pad_center, tiny\nfrom .audio_processing import window_sumsquare\n\n\nclass STFT(torch.nn.Module):\n    \"\"\"adapted from Prem Seetharaman's https://github.com/pseeth/pytorch-stft\"\"\"\n    def __init__(self, filter_length=800, hop_length=200, win_length=800,\n                 window='hann'):\n        super(STFT, self).__init__()\n        self.filter_length = filter_length\n        self.hop_length = hop_length\n        self.win_length = win_length\n        self.window = window\n        self.forward_transform = None\n        scale = self.filter_length / self.hop_length\n        fourier_basis = np.fft.fft(np.eye(self.filter_length))\n\n        cutoff = int((self.filter_length / 2 + 1))\n        fourier_basis = np.vstack([np.real(fourier_basis[:cutoff, :]),\n                                   np.imag(fourier_basis[:cutoff, :])])\n\n        forward_basis = torch.FloatTensor(fourier_basis[:, None, :])\n        inverse_basis = torch.FloatTensor(\n            np.linalg.pinv(scale * fourier_basis).T[:, None, :])\n\n        if window is not None:\n            assert(filter_length >= win_length)\n            # get window and zero center pad it to filter_length\n            fft_window = get_window(window, win_length, fftbins=True)\n            fft_window = pad_center(fft_window, filter_length)\n            fft_window = torch.from_numpy(fft_window).float()\n\n            # window the bases\n            forward_basis *= fft_window\n            inverse_basis *= fft_window\n\n        self.register_buffer('forward_basis', forward_basis.float())\n        self.register_buffer('inverse_basis', inverse_basis.float())\n\n    def transform(self, input_data):\n        num_batches = input_data.size(0)\n        num_samples = input_data.size(1)\n\n        self.num_samples = num_samples\n\n        # similar to librosa, reflect-pad the input\n        input_data = input_data.view(num_batches, 1, num_samples)\n        input_data = F.pad(\n            input_data.unsqueeze(1),\n            (int(self.filter_length / 2), int(self.filter_length / 2), 0, 0),\n            mode='reflect')\n        input_data = input_data.squeeze(1)\n\n        forward_transform = F.conv1d(\n            input_data,\n            Variable(self.forward_basis, requires_grad=False),\n            stride=self.hop_length,\n            padding=0)\n\n        cutoff = int((self.filter_length / 2) + 1)\n        real_part = forward_transform[:, :cutoff, :]\n        imag_part = forward_transform[:, cutoff:, :]\n\n        magnitude = torch.sqrt(real_part**2 + imag_part**2)\n        phase = torch.autograd.Variable(\n            torch.atan2(imag_part.data, real_part.data))\n\n        return magnitude, phase\n\n    def inverse(self, magnitude, phase):\n        recombine_magnitude_phase = torch.cat(\n            [magnitude*torch.cos(phase), magnitude*torch.sin(phase)], dim=1)\n\n        inverse_transform = F.conv_transpose1d(\n            recombine_magnitude_phase,\n            Variable(self.inverse_basis, requires_grad=False),\n            stride=self.hop_length,\n            padding=0)\n\n        if self.window is not None:\n            window_sum = window_sumsquare(\n                self.window, magnitude.size(-1), hop_length=self.hop_length,\n                win_length=self.win_length, n_fft=self.filter_length,\n                dtype=np.float32)\n            # remove modulation effects\n            approx_nonzero_indices = torch.from_numpy(\n                np.where(window_sum > tiny(window_sum))[0])\n            window_sum = torch.autograd.Variable(\n                torch.from_numpy(window_sum), requires_grad=False)\n            window_sum = window_sum.cuda() if magnitude.is_cuda else window_sum\n            inverse_transform[:, :, approx_nonzero_indices] /= window_sum[approx_nonzero_indices]\n\n            # scale by hop ratio\n            inverse_transform *= float(self.filter_length) / self.hop_length\n\n        inverse_transform = inverse_transform[:, :, int(self.filter_length/2):]\n        inverse_transform = inverse_transform[:, :, :-int(self.filter_length/2):]\n\n        return inverse_transform\n\n    def forward(self, input_data):\n        self.magnitude, self.phase = self.transform(input_data)\n        reconstruction = self.inverse(self.magnitude, self.phase)\n        return reconstruction\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/tacotron2/symbols.py",
    "content": "\"\"\" from https://github.com/keithito/tacotron \"\"\"\n\n'''\nDefines the set of symbols used in text input to the model.\n\nThe default is a set of ASCII characters that works well for English or text that has been run through Unidecode. For other data, you can modify _characters. See TRAINING_DATA.md for details. '''\nfrom . import cmudict\n\n_pad        = '_'\n_punctuation = '!\\'(),.:;? '\n_special = '-'\n_letters = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz'\n\n# Prepend \"@\" to ARPAbet symbols to ensure uniqueness (some are the same as uppercase letters):\n_arpabet = ['@' + s for s in cmudict.valid_symbols]\n\n# Export all symbols:\nsymbols = [_pad] + list(_special) + list(_punctuation) + list(_letters) + _arpabet\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/tacotron2/text.py",
    "content": "\"\"\" from https://github.com/keithito/tacotron \"\"\"\nimport numpy as np\nimport re\nfrom . import cleaners\nfrom .symbols import symbols\n\n\n# Mappings from symbol to numeric ID and vice versa:\n_symbol_to_id = {s: i for i, s in enumerate(symbols)}\n_id_to_symbol = {i: s for i, s in enumerate(symbols)}\n\n# Regular expression matching text enclosed in curly braces:\n_curly_re = re.compile(r'(.*?)\\{(.+?)\\}(.*)')\n\n# Special symbols\nSOS_TOK = '<s>'\nEOS_TOK = '</s>'\n\ndef text_to_sequence(text, cleaner_names):\n  '''Converts a string of text to a sequence of IDs corresponding to the symbols in the text.\n\n    The text can optionally have ARPAbet sequences enclosed in curly braces embedded\n    in it. For example, \"Turn left on {HH AW1 S S T AH0 N} Street.\"\n\n    Args:\n      text: string to convert to a sequence\n      cleaner_names: names of the cleaner functions to run the text through\n\n    Returns:\n      List of integers corresponding to the symbols in the text\n  '''\n  sequence = []\n\n  # Check for curly braces and treat their contents as ARPAbet:\n  while len(text):\n    m = _curly_re.match(text)\n    if not m:\n      sequence += _symbols_to_sequence(_clean_text(text, cleaner_names))\n      break\n    sequence += _symbols_to_sequence(_clean_text(m.group(1), cleaner_names))\n    sequence += _arpabet_to_sequence(m.group(2))\n    text = m.group(3)\n\n  return sequence\n\n\ndef sample_code_chunk(code, size):\n    assert(size > 0 and size <= len(code))\n    start = np.random.randint(len(code) - size + 1)\n    end = start + size\n    return code[start:end], start, end\n\n\ndef code_to_sequence(code, code_dict, collapse_code):\n    if collapse_code:\n        prev_c = None\n        sequence = []\n        for c in code:\n            if c in code_dict and c != prev_c:\n                sequence.append(code_dict[c])\n                prev_c = c\n    else:\n        sequence = [code_dict[c] for c in code if c in code_dict]\n        if len(sequence) < 0.95 * len(code):\n            print('WARNING : over 5%% codes are OOV')\n\n    return sequence\n\n\ndef sequence_to_text(sequence):\n  '''Converts a sequence of IDs back to a string'''\n  result = ''\n  for symbol_id in sequence:\n    if symbol_id in _id_to_symbol:\n      s = _id_to_symbol[symbol_id]\n      # Enclose ARPAbet back in curly braces:\n      if len(s) > 1 and s[0] == '@':\n        s = '{%s}' % s[1:]\n      result += s\n  return result.replace('}{', ' ')\n\n\ndef sequence_to_code(sequence, code_dict):\n    '''Analogous to sequence_to_text'''\n    id_to_code = {i: c for c, i in code_dict.items()}\n    return ' '.join([id_to_code[i] for i in sequence])\n\n\ndef _clean_text(text, cleaner_names):\n  for name in cleaner_names:\n    cleaner = getattr(cleaners, name)\n    if not cleaner:\n      raise Exception('Unknown cleaner: %s' % name)\n    text = cleaner(text)\n  return text\n\n\ndef _symbols_to_sequence(symbols):\n  return [_symbol_to_id[s] for s in symbols if _should_keep_symbol(s)]\n\n\ndef _arpabet_to_sequence(text):\n  return _symbols_to_sequence(['@' + s for s in text.split()])\n\n\ndef _should_keep_symbol(s):\n  return s in _symbol_to_id and s != '_' and s != '~'\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/tacotron2/utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport collections\nimport io\nimport json\nimport librosa\nimport numpy as np\nimport soundfile as sf\nimport time\nimport torch\nfrom scipy.io.wavfile import read\nfrom .text import SOS_TOK, EOS_TOK\n\n\ndef get_mask_from_lengths(lengths):\n    max_len = torch.max(lengths).item()\n    ids = torch.arange(0, max_len, out=torch.cuda.LongTensor(max_len))\n    mask = (ids < lengths.unsqueeze(1))\n    return mask\n\n\ndef load_wav_to_torch(full_path, sr=None):\n    data, sr = librosa.load(full_path, sr=sr)\n    data = np.clip(data, -1, 1)  # potentially out of [-1, 1] due to resampling\n    data = data * 32768.0  # match values loaded by scipy\n    return torch.FloatTensor(data.astype(np.float32)), sr\n\n\ndef read_binary_audio(bin_data, tar_sr=None):\n    \"\"\"\n    read binary audio (`bytes` or `uint8` `numpy.ndarray`) to `float32`\n    `numpy.ndarray`\n\n    RETURNS:\n        data (np.ndarray) : audio of shape (n,) or (2, n)\n        tar_sr (int) : sample rate\n    \"\"\"\n    data, ori_sr = sf.read(io.BytesIO(bin_data), dtype='float32')\n    data = data.T\n    if (tar_sr is not None) and (ori_sr != tar_sr):\n        data = librosa.resample(data, ori_sr, tar_sr)\n    else:\n        tar_sr = ori_sr\n    data = np.clip(data, -1, 1)\n    data = data * 32768.0\n    return torch.FloatTensor(data.astype(np.float32)), tar_sr\n\n\ndef load_filepaths_and_text(filename):\n    with open(filename, encoding='utf-8') as f:\n        data = [json.loads(line.rstrip()) for line in f]\n    return data\n\n\ndef to_gpu(x):\n    x = x.contiguous()\n\n    if torch.cuda.is_available():\n        x = x.cuda(non_blocking=True)\n    return torch.autograd.Variable(x)\n\n\ndef load_code_dict(path, add_sos=False, add_eos=False):\n    if not path:\n        return {}\n\n    with open(path, 'r') as f:\n        codes = ['_'] + [line.rstrip() for line in f]  # '_' for pad\n    code_dict = {c: i for i, c in enumerate(codes)}\n\n    if add_sos:\n        code_dict[SOS_TOK] = len(code_dict)\n    if add_eos:\n        code_dict[EOS_TOK] = len(code_dict)\n    assert(set(code_dict.values()) == set(range(len(code_dict))))\n\n    return code_dict\n\n\ndef load_obs_label_dict(path):\n    if not path:\n        return {}\n    with open(path, 'r') as f:\n        obs_labels = [line.rstrip() for line in f]\n    return {c: i for i, c in enumerate(obs_labels)}\n\n\n# A simple timer class inspired from `tnt.TimeMeter`\nclass CudaTimer:\n    def __init__(self, keys):\n        self.keys = keys\n        self.reset()\n\n    def start(self, key):\n        s = torch.cuda.Event(enable_timing=True)\n        s.record()\n        self.start_events[key].append(s)\n        return self\n\n    def stop(self, key):\n        e = torch.cuda.Event(enable_timing=True)\n        e.record()\n        self.end_events[key].append(e)\n        return self\n\n    def reset(self):\n        self.start_events = collections.defaultdict(list)\n        self.end_events = collections.defaultdict(list)\n        self.running_times = collections.defaultdict(float)\n        self.n = collections.defaultdict(int)\n        return self\n\n    def value(self):\n        self._synchronize()\n        return {k: self.running_times[k] / self.n[k] for k in self.keys}\n\n    def _synchronize(self):\n        torch.cuda.synchronize()\n        for k in self.keys:\n            starts = self.start_events[k]\n            ends = self.end_events[k]\n            if len(starts) == 0:\n                raise ValueError(\"Trying to divide by zero in TimeMeter\")\n            if len(ends) != len(starts):\n                raise ValueError(\"Call stop before checking value!\")\n            time = 0\n            for start, end in zip(starts, ends):\n                time += start.elapsed_time(end)\n            self.running_times[k] += time * 1e-3\n            self.n[k] += len(starts)\n        self.start_events = collections.defaultdict(list)\n        self.end_events = collections.defaultdict(list)\n\n\n# Used to measure the time taken for multiple events\nclass Timer:\n    def __init__(self, keys):\n        self.keys = keys\n        self.n = {}\n        self.running_time = {}\n        self.total_time = {}\n        self.reset()\n\n    def start(self, key):\n        self.running_time[key] = time.time()\n        return self\n\n    def stop(self, key):\n        self.total_time[key] = time.time() - self.running_time[key]\n        self.n[key] += 1\n        self.running_time[key] = None\n        return self\n\n    def reset(self):\n        for k in self.keys:\n            self.total_time[k] = 0\n            self.running_time[k] = None\n            self.n[k] = 0\n        return self\n\n    def value(self):\n        vals = {}\n        for k in self.keys:\n            if self.n[k] == 0:\n                raise ValueError(\"Trying to divide by zero in TimeMeter\")\n            else:\n                vals[k] = self.total_time[k] / self.n[k]\n        return vals\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/tacotron2/waveglow_denoiser.py",
    "content": "# import sys\n# sys.path.append('tacotron2')\nimport torch\nfrom .layers import STFT\n\n\nclass Denoiser(torch.nn.Module):\n    \"\"\" Removes model bias from audio produced with waveglow \"\"\"\n\n    def __init__(self, waveglow, filter_length=1024, n_overlap=4,\n                 win_length=1024, mode='zeros'):\n        super(Denoiser, self).__init__()\n        self.stft = STFT(filter_length=filter_length,\n                         hop_length=int(filter_length/n_overlap),\n                         win_length=win_length).cuda()\n        if mode == 'zeros':\n            mel_input = torch.zeros(\n                (1, 80, 88),\n                dtype=waveglow.upsample.weight.dtype,\n                device=waveglow.upsample.weight.device)\n        elif mode == 'normal':\n            mel_input = torch.randn(\n                (1, 80, 88),\n                dtype=waveglow.upsample.weight.dtype,\n                device=waveglow.upsample.weight.device)\n        else:\n            raise Exception(\"Mode {} if not supported\".format(mode))\n\n        with torch.no_grad():\n            bias_audio = waveglow.infer(mel_input, sigma=0.0).float()\n            bias_spec, _ = self.stft.transform(bias_audio)\n\n        self.register_buffer('bias_spec', bias_spec[:, :, 0][:, :, None])\n\n    def forward(self, audio, strength=0.1):\n        audio_spec, audio_angles = self.stft.transform(audio.cuda().float())\n        audio_spec_denoised = audio_spec - self.bias_spec * strength\n        audio_spec_denoised = torch.clamp(audio_spec_denoised, 0.0)\n        audio_denoised = self.stft.inverse(audio_spec_denoised, audio_angles)\n        return audio_denoised\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/tts_data.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport torch\nimport numpy as np\nfrom examples.textless_nlp.gslm.unit2speech.tacotron2.text import (\n    EOS_TOK,\n    SOS_TOK,\n    code_to_sequence,\n    text_to_sequence,\n)\nfrom examples.textless_nlp.gslm.unit2speech.tacotron2.utils import (\n    load_code_dict,\n)\n\n\nclass TacotronInputDataset:\n    def __init__(self, hparams, append_str=\"\"):\n        self.is_text = getattr(hparams, \"text_or_code\", \"text\") == \"text\"\n        if not self.is_text:\n            self.code_dict = load_code_dict(\n                hparams.code_dict, hparams.add_sos, hparams.add_eos\n            )\n            self.code_key = hparams.code_key\n        self.add_sos = hparams.add_sos\n        self.add_eos = hparams.add_eos\n        self.collapse_code = hparams.collapse_code\n        self.append_str = append_str\n\n    def process_code(self, inp_str):\n        inp_toks = inp_str.split()\n        if self.add_sos:\n            inp_toks = [SOS_TOK] + inp_toks\n        if self.add_eos:\n            inp_toks = inp_toks + [EOS_TOK]\n        return code_to_sequence(inp_toks, self.code_dict, self.collapse_code)\n\n    def process_text(self, inp_str):\n        return text_to_sequence(inp_str, [\"english_cleaners\"])\n\n    def get_tensor(self, inp_str):\n        # uid, txt, inp_str = self._get_data(idx)\n        inp_str = inp_str + self.append_str\n        if self.is_text:\n            inp_toks = self.process_text(inp_str)\n        else:\n            inp_toks = self.process_code(inp_str)\n        return torch.from_numpy(np.array(inp_toks)).long()\n\n    def __len__(self):\n        return len(self.data)\n"
  },
  {
    "path": "examples/textless_nlp/gslm/unit2speech/utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport torch\nfrom examples.textless_nlp.gslm.unit2speech.tacotron2.model import Tacotron2\nfrom examples.textless_nlp.gslm.unit2speech.tacotron2.waveglow_denoiser import (\n    Denoiser,\n)\n\n\ndef load_quantized_audio_from_file(file_path):\n    base_fname_batch, quantized_units_batch = [], []\n    with open(file_path) as f:\n        for line in f:\n            base_fname, quantized_units_str = line.rstrip().split(\"|\")\n            quantized_units = [int(q) for q in quantized_units_str.split(\" \")]\n            base_fname_batch.append(base_fname)\n            quantized_units_batch.append(quantized_units)\n    return base_fname_batch, quantized_units_batch\n\n\ndef synthesize_audio(model, waveglow, denoiser, inp, lab=None, strength=0.0):\n    assert inp.size(0) == 1\n    inp = inp.cuda()\n    if lab is not None:\n        lab = torch.LongTensor(1).cuda().fill_(lab)\n\n    with torch.no_grad():\n        _, mel, _, ali, has_eos = model.inference(inp, lab, ret_has_eos=True)\n        aud = waveglow.infer(mel, sigma=0.666)\n        aud_dn = denoiser(aud, strength=strength).squeeze(1)\n    return mel, aud, aud_dn, has_eos\n\n\ndef load_tacotron(tacotron_model_path, max_decoder_steps):\n    ckpt_dict = torch.load(tacotron_model_path)\n    hparams = ckpt_dict[\"hparams\"]\n    hparams.max_decoder_steps = max_decoder_steps\n    sr = hparams.sampling_rate\n    model = Tacotron2(hparams)\n    model.load_state_dict(ckpt_dict[\"model_dict\"])\n    model = model.cuda().eval().half()\n    return model, sr, hparams\n\n\ndef load_waveglow(waveglow_path):\n    waveglow = torch.load(waveglow_path)[\"model\"]\n    waveglow = waveglow.cuda().eval().half()\n    for k in waveglow.convinv:\n        k.float()\n    denoiser = Denoiser(waveglow)\n    return waveglow, denoiser\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/README.md",
    "content": "# Text-Free Prosody-Aware Generative Spoken Language Modeling\n\nThis folder contains code and recipes to reproduce results reported in a paper _Text-Free Prosody-Aware Generative Spoken Language Modeling_,\nEugene Kharitonov*, Ann Lee*, Adam Polyak, Yossi Adi, Jade Copet, Kushal Lakhotia, Tu-Anh Nguyen, Morgane Rivière, Abdelrahman Mohamed, Emmanuel Dupoux, Wei-Ning Hsu, 2021. arxiv/2109.03264 [[arxiv]](https://arxiv.org/abs/2109.03264).\n\n`*` denotes equal contribution.\n\nYou can find demo samples [[here]](https://speechbot.github.io/pgslm/index.html).\n\n<details>\n  <summary>If you find this code useful, please consider citing our work using this bibtex </summary>\n  \n```\n  @misc{Kharitonov2021,\n      title={Text-Free Prosody-Aware Generative Spoken Language Modeling}, \n      author={Eugene Kharitonov and Ann Lee and Adam Polyak and Yossi Adi and Jade Copet and Kushal Lakhotia and Tu-Anh Nguyen and Morgane Rivière and Abdelrahman Mohamed and Emmanuel Dupoux and Wei-Ning Hsu},\n      year={2021},\n      eprint={2109.03264},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL}\n}\n```\n</details>\n\n\n## Additional requirements\nThree packages are required in addition to fairseq, they are installable with pip:\n```bash \npip install AMFM-decompy SoundFile scipy sklearn torchaudio npy-append-array\n```\n\n## Data preprocessing\n\n### Prepare unit pseudo-text transcriptions of the audio\nTo get unit trascripts of the speech data we rely on the preprocessing steps of [GSLM](https://github.com/pytorch/fairseq/tree/main/examples/textless_nlp/gslm/speech2unit/) work.\n\nFirstly, we will need to prepare manifest files for the dataset we want to preprocess\n```\nmkdir manifests/\npython examples/wav2vec/wav2vec_manifest.py --valid-percent=0.0 $DATA_PATH --dest=manifests/train/\n```\nNext, we need a pre-trained HuBERT-base-ls960 model [[download]](https://dl.fbaipublicfiles.com/hubert/hubert_base_ls960.pt) and a corresponding kmeans-100 quantizer [[download]](https://dl.fbaipublicfiles.com/textless_nlp/gslm/hubert/km100/km.bin). Having those we can quantize the dataset:\n```\npython examples/textless_nlp/gslm/speech2unit/clustering/quantize_with_kmeans.py \\\n    --feature_type hubert \\\n    --kmeans_model_path km.bin \\\n    --acoustic_model_path hubert_base_ls960.pt \\\n    --layer 6 \\\n    --manifest_path manifests/train/train.tsv \\\n    --out_quantized_file_path manifests/train/units\n```\n\nFinally, by running\n```\npython examples/textless_nlp/pgslm/scripts/join_units_manifest.py --manifest=manifests/train/train.tsv --units=manifests/train/units --output=train.txt\n```\nWe will get the training data description `train.txt` in the format that pGSLM expects. The above steps have to be repeated for \ndev/test sets. Importantly, we rely on an assumption that the directories are structured as in LibriSpeech, i.e. the file paths follow the\n`<spk_id>/<session_id>/<sample_id>.wav` format.\n\n### Preprocess data for pGSLM\nThe very first step is to obtain the F0 quantization bins.\nAssume the vocoder training manifest is `vocoder_train.txt` (in pGSLM data format prepared with the same process above).\nWe prepare the quantized F0 from the vocoder training data by running\n```sh\nbash examples/textless_nlp/pgslm/scripts/prepare_f0_quantization.sh \\\n  vocoder_train.txt <sample_rate> 32 <preprocessed_dir> <output_prefix> # we use 32 bins in the paper\n```\n- `<sample_rate>`: sampling rate of the audio files in the manifest\n- `<preprocessed_dir>`: where to output the output files\n- `<output_prefix>`: prefix of the output files\n\nThe script will generate \n- `<output_prefix>.f0_stat.pt`: the speaker-level F0 statistics, which can be used in vocoder training\n- `<output_prefix>_mean_norm_log_f0_bin.th`: the quantized F0, which should be used in `prepare_data.sh` below\n\n**Note:** See \"Pre-trained models\" for the pre-computed speaker-level F0 statistics and quantized F0 bins. We suggest using the pre-computed statistics for the data preparation below in order to take advantage of the pre-trained vocoder for waveform generation.\n\nNext prepare the pGSLM data.\nAssume train/valid/test manifests are `{train,valid,test}.txt`.\nHere is an example of how to preprocess data:\n\n```sh\nbash examples/textless_nlp/pgslm/scripts/prepare_data.sh \\\n  train.txt valid.txt test.txt <n_unit> <hop_size> <sample_rate> \\\n  <preprocessed_dir>/<output_prefix>_mean_norm_log_f0_bin.th <preprocessed_dir>\n```\n- `<n_unit>`: discrete unit vocabulary size (we used a kmeans quantizer with the number of units equal to 100 in the example above)\n- `<hop_size>`: downsampling rate relative to the waveform (e.g., 320 for HuBERT units)\n- `<sample_rate>`: sampling rate of the audio files in the manifest\n- `<preprocessed_dir>`: where to output the preprocessed files\n\nThis will create the dataset json config used for the next section at\n`<preprocessed_dir>/data_config.json`.\n\nNote that the example script uses only one thread to compute F0, which can take\n_very long_ for preprocessing large datasets. It is suggested to distribute\njobs over multiple nodes/processes with `--nshards=x` and `--rank=z` (where z is\nin [1, x]) in `preprocess_f0.py`, and set `--nshards_list=x` in\n`prepare_data.py` correspondingly to collect sharded F0 data.\n\nNow, everything is ready for training a model.\n\n## Training Multi-Stream Transformer Unit Language Model (MS-TLM)\n\nBelow is an example command that trains Multi-Stream Transformer Language Model (MS-TLM) on a prepared dataset:\n```bash\nDATASET=data_config.json\n\nfairseq-train $DATASET \\\n  --task=speech_unit_modeling \\\n  --arch=\"transformer_ulm_tiny\" \\\n  --criterion=speech_unit_lm_criterion \\\n  --share-decoder-input-output-embed \\\n  --dropout=0.1 \\\n  --attention-dropout=0.1 \\\n  --optimizer=\"adam\" \\\n  --adam-betas=\"(0.9, 0.98)\" \\\n  --clip-norm=1.0 \\\n  --lr=0.0005 \\\n  --lr-scheduler=\"inverse_sqrt\" \\\n  --warmup-updates=4000 \\\n  --warmup-init-lr=1e-07 \\\n  --tokens-per-sample=3072 \\\n  --max-tokens=3072 \\\n  --update-freq=4 \\\n  --max-epoch=70 \\\n  --num-workers=0 \\\n  --skip-invalid-size-inputs-valid-test \\\n  --loss-weights=\"1.0;0.5;0.0\" \\\n  --ignore-f0-input \\\n  --checkpoint-activations \\\n  --fp16 \\\n  --max-target-positions=4096 \\\n  --stream-shifts=\"1,1\" \\\n  --log-f0 --normalize-f0-mean --interpolate-f0 \\\n  --ignore-unused-valid-subsets \\\n  --discrete-duration --discrete-f0\n```\n\nSome of the important parameters that are specific to MS-TLM:\n *  `arch`: specifies the Transformer architecture used. Supported options are:\n    * `transformer_ulm_tiny` - a tiny model that can be used for debugging; it has 2 layers, 1 attention head, FFN and embedding dimensions of 64,\n    * `transformer_ulm` - a base model with 6 layers, 8 heads, embedding dimension 512, and FFN dimensionality of 2048,\n    * `transformer_ulm_big` - the largest model we experiment with in the paper: 12-layer/16 heads, 1024/4096 embedding and FFN dimensions;\n * `loss-weights`: this parameter sets importance weights (must be non-negative) for the components of the loss that correspond to unit, duration, and F0 streams. To turn off a component of the loss, its weight has to be set to 0. For instance, to predict only unit stream the parameter should be set to \"1;0;0\";\n * `stream-shifts`: specifies relative shifts of the two prosodic streams w.r.t. the unit stream (duration and F0, respectively). No shift corresponds to \"0,0\";\n * `ignore-duration-input`/`ignore-f0-input`: setting these flags would zero-out correpsonding input streams;\n * `max-token-duration`: duration values would be max-capped by the specified value;\n * `discrete-duration`/`discrete-f0`: whether duration and F0 streams should be quantized;\n * `log_f0`, `normalize-f0-mean`, `normalize-f0-std`, `interpolate-f0`: configure how F0 stream is treated. `log_f0` sets up modelling in the log-space, `normalize-f0-mean`/`normalize-f0-std` control per-speaker normalization, and `interpolate-f0` enables F0 interpolation for unvoiced regions where F0 was set to 0,\n * `mask-dur-prob`, `mask-f0-prob`, `mask-dur-seg-prob`, `mask-f0-seg-prob`, `mask-unit-seg-prob`, `mask-unit-seg-leng`: this family of parameters sets the probababilities of masking individual steps and spans on each stream as well as lengths of the maked spans.\n\n\n## Pre-trained models\n### MS-TLM\nBelow you can find checkpoints for four best-performing models from the paper (IDs 9..12 in Table 1). These models are trained on Hubert-100 transcripts of the LibriLight-6K dataset. They have the prosody streams shifted by 1 w.r.t. the unit stream. All models predict all three streams (units, duration, and F0), but two\nof them only have unit steam in their input.\n\n|                   | Continuous prosody | Quantized prosody |\n|-------------------|--------------------|-------------------|\n| No prosody input  | [[download]](https://dl.fbaipublicfiles.com/textless_nlp/pgslm/ulm_checkpoints/continuous_no_prosody_shift_1_1.pt) | [[download]](https://dl.fbaipublicfiles.com/textless_nlp/pgslm/ulm_checkpoints/discrete_no_prosody_shift_1_1.pt)  |\n| Has prosody input | [[download]](https://dl.fbaipublicfiles.com/textless_nlp/pgslm/ulm_checkpoints/continuous_prosody_shift_1_1.pt) | [[download]](https://dl.fbaipublicfiles.com/textless_nlp/pgslm/ulm_checkpoints/discrete_prosody_shift_1_1.pt)|\n\nThe optimal per-stream sampling temperatures/scaling parameters that we have identified for these models, in the (`T-token, T-duration, T-f0`) format:\n\n|                   | Continuous prosody | Quantized prosody |\n|-------------------|--------------------|-------------------|\n| No prosody input  |  0.7, 0.125, 0.0003125|    0.7, 0.25, 0.5 |\n| Has prosody input |  0.7, 0.125, 0.00125  |   0.7, 0.25, 0.7  |\n\n## Vocoder\n|       Units       | Prosody | F0 stats     | Checkpoint | Config |\n|-------------------|---------|--------------|------------|--------|\n| HuBERT-base-ls960, kmeans-100 | [[Quantized 32 bins]](https://dl.fbaipublicfiles.com/textless_nlp/pgslm/vocoder/blizzard2013/mean_norm_log_f0_seg_bin.th) | [[download]](https://dl.fbaipublicfiles.com/textless_nlp/pgslm/vocoder/blizzard2013/f0_stats.pt) | [[download]](https://dl.fbaipublicfiles.com/textless_nlp/pgslm/vocoder/blizzard2013/naive_quant_32_norm_log_seg_hubert/checkpoint.pt) | [[download]](https://dl.fbaipublicfiles.com/textless_nlp/pgslm/vocoder/blizzard2013/naive_quant_32_norm_log_seg_hubert/config.json) |\n| HuBERT-base-ls960, kmeans-100 | Continuous | [[download]](https://dl.fbaipublicfiles.com/textless_nlp/pgslm/vocoder/blizzard2013/f0_stats.pt) | [[download]](https://dl.fbaipublicfiles.com/textless_nlp/pgslm/vocoder/blizzard2013/mean_norm_log_f0_hubert/checkpoint.pt) | [[download]](https://dl.fbaipublicfiles.com/textless_nlp/pgslm/vocoder/blizzard2013/mean_norm_log_f0_hubert/config.json) |\n\n\n## Evaluating a trained model\nEvaluation is done with the `eval/cont_metrics.py` scripts. As described in the paper, there are several metrics used.\n\n**Teacher-forced metrics**\n```bash\nSET=valid\nCHECKPOINT_PATH=discrete_prosody_shift_1_1.pt\nDATA=data_config.json\n\npython examples/textless_nlp/pgslm/eval/cont_metrics.py $DATA \\\n  --metric=teacher_force_everything \\\n  --path=$CHECKPOINT_PATH \\\n  --batch-size=16 \\\n  --fp16 \\\n  --seed=111 \\\n  --eval-subset=$SET \\\n  --f0-discretization-bounds=mean_norm_log_f0_seg_bin.th --dequantize-prosody \n```\n(Using this command, our provided `discrete_prosody_shift_1_1.pt` checkpoint should produce `{'token_loss': 1.408..., 'duration_loss': 0.5424..., 'f0_loss': 0.0474...}` on LibriSpeech dev-clean).\n\nThe parameters `--f0-discretization-bounds=mean_norm_log_f0_seg_bin.th --dequantize-prosody` are specific for quantized-prosody models. They signal that the prosody streams must be decoded into the continuous domain before calculating correlation. It is the same `*_mean_norm_log_f0_bin.th` file as we prepared before.\nThe `mean_norm_log_f0_seg_bin.th` file we used with the pre-trained models can be downloaded [[here]](https://dl.fbaipublicfiles.com/textless_nlp/pgslm/vocoder/blizzard2013/mean_norm_log_f0_seg_bin.th).\n\n\n**Consistency (aka Correlation) metrics**\n\nThe following command estimates correlation between mean values of the F0 stream in the prompt and in the generated continuation (unit and duration steams are fixed).\n\n```bash\nT_F0=0.7\nEXPLOSION=20\nSET=test\nCHECKPOINT_PATH=discrete_prosody_shift_1_1.pt\nDATA=data_config.json\n\npython examples/textless_nlp/pgslm/eval/cont_metrics.py $DATA \\\n    --prefix-length=150 \\\n    --metric=correlation \\\n    --path=$CHECKPOINT_PATH \\\n    --batch-size=16 \\\n    --fp16 \\\n    --seed=111 \\\n    --teacher-force-tokens \\\n    --teacher-force-duration  \\\n    --min-length=300  \\\n    --batch-explosion-rate=$EXPLOSION \\\n    --T-f0=$T_F0 \\\n    --eval-subset=$SET \\\n    --f0-discretization-bounds=mean_norm_log_f0_seg_bin.th \\\n    --dequantize-prosody --n-workers=8\n```\n(Using this command, our provided `discrete_prosody_shift_1_1.pt` checkpoint should produce `{...'F0 corr': 0.315 ..}` on LibriSpeech test-clean).\n\n * By using flags `--teacher-force-tokens, --teacher-force-duration, --teacher-force-f0` one can calculate correlations along each stream while having other two streams fixed to ground-truth values (or freeze all three streams to get ground-truth correlation values);\n * The parameters `T-f0`, `T-duration`, and `T-token` specify per-stream temperatures and, in the case of continuous-valued prosody, scaling parameter of the corresponding Laplace distribution (setting a temperature to 0 will enforce greedy sampling);\n * `min-length` filters out sequences that are shorter then 300 duration units (i.e. 6s in the case of Hubert units);\n * `prefix-length` specifies that we want to use first 150 duration units are prompt (i.e. 3s in the case of Hubert units)\n\n\n**Correctness (aka Continuation) and Expressiveness (aka Std) metrics**\n\nBy running the following command, we can get minMAE and Std for the log-F0 stream for the model with quantized prosody.\n```bash\nDATA=data_config.json\nEXPLOSION=20\nSET=test\nCHECKPOINT_PATH=discrete_prosody_shift_1_1.pt\nT_F0=0.7\n\npython examples/textless_nlp/pgslm/eval/cont_metrics.py $DATA \\\n  --prefix-length=150 \\\n  --metric=continuation \\\n  --path=$CHECKPOINT_PATH \\\n  --batch-size=16 \\\n  --fp16 \\\n  --seed=111 \\\n  --batch-explosion-rate=$EXPLOSION \\\n  --teacher-force-tokens \\\n  --teacher-force-duration \\\n  --T-f0=$T_F0 \\\n  --eval-subset=$SET \\\n  --f0-discretization-bounds=mean_norm_log_f0_seg_bin.th --dequantize-prosody\n```\n(Using this command, our provided `discrete_prosody_shift_1_1.pt` checkpoint should produce `{...'F0 MAE': 0.0772, 'F0 Std': 0.1489...}` on LibriSpeech test-clean).\n\nAgain, by setting `--teacher-force-tokens, --teacher-force-duration, --teacher-force-f0` we can calculate Token BLEU for the token stream (when `--teacher-force-duration` &  `--teacher-force-f0` are on) and per-stream min MAE for each prosody stream individually.\n\nFinally, `cont_metrics.py` allows to specify the number of workers (e.g., `n-workers=8`) which allows to speed up the computation by spreading multiple worker processes \nover the available GPUs.\n\n**Cont Word BLEU**\n\nWe used the code and the evaluation protocol of [(Lakhotia et al., 2021)](https://arxiv.org/abs/2102.01192).\n\n## Sampling from a trained model\n\nTo get (prompted or not) samples from a trained model it is enough to run `sample.py`:\n```bash\nCHECKPOINT_PATH=checkpoints/checkpoint_best.pt\nDATASET=examples/textless_nlp/pgslm/repro/dataset/data_config.json \npython examples/textless_nlp/pgslm/sample/sample.py $DATASET \\\n  --output=$SAMPLES \\\n  --path=$CHECKPOINT_PATH \\\n  --sampling \\\n  --T-token=0.7 \\\n  --T-duration=0.25 \\\n  --T-f0=0.7 \\\n  --max-length=500 \\\n  --prefix-length=150 \\\n  --subset=valid \\\n  --seed=1 \\\n  --match-duration \\\n  --code-type=hubert \\\n  --batch-explosion-rate=2\n```\n\nSome useful parameters:\n * `T-token`, `T-duration`, `T-f0` specify sampling temperature for the three streams. Setting a temperature to `0` switches sample to the greedy (argmax) one;\n * `prefix-length`: length of the prompt, measured in timesteps (e.g. for Hubert (CPC) each timestep is 20 (10) ms);\n * `subset`: which subset of the dataset to use as prompts (can be `train`, `valid`, `test`);\n * `teacher-force-tokens`, `teacher-force-duration`, `teacher-force-f0`: if set, at each autoregressive step, ground-truth values replace the produced one;\n * `short-curcuit`: replace sampling by ground-truth inputs;\n * `match-duration`: forces the produced sample to have the same duration (in time), as the entire sequence (beyond the prompt if there is any);\n * `batch-explosion-rate`: number of samples per prompt;\n * `f0-discretization-bounds`: path to a file with quantization boundaries. If it is set, F0 values are de-quantized back to the continuous domain\n      (the model must be a quanized one);\n  * `max-length` sets the maximal number of segment steps to be produced.\n\nNote that `sample.py` automatically uses all available GPUs, to avoid that please use environment variable `CUDA_VISIBLE_DEVICES`.\n\n## Vocoding samples\nTo generate audios for output from `sample.py` (`$IN_FILE`):\n```bash\npython examples/textless_nlp/pgslm/generate_waveform.py \\\n  --in-file=$IN_FILE \\\n  --vocoder=$VODOER \\\n  --vocoder-cfg=$VOCODER_CFG \\\n  --results-path=$RESULTS_PATH\n```\nSee \"Pre-trained model\" for `$VOCODER` and `VOCODER_CFG`.\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/data_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport torch\n\nfrom tqdm import tqdm\n\n\nclass Stat:\n    def __init__(self, keep_raw=False):\n        self.x = 0.0\n        self.x2 = 0.0\n        self.z = 0.0  # z = logx\n        self.z2 = 0.0\n        self.n = 0.0\n        self.u = 0.0\n        self.keep_raw = keep_raw\n        self.raw = []\n\n    def update(self, new_x):\n        new_z = new_x.log()\n\n        self.x += new_x.sum()\n        self.x2 += (new_x**2).sum()\n        self.z += new_z.sum()\n        self.z2 += (new_z**2).sum()\n        self.n += len(new_x)\n        self.u += 1\n\n        if self.keep_raw:\n            self.raw.append(new_x)\n\n    @property\n    def mean(self):\n        return self.x / self.n\n\n    @property\n    def std(self):\n        return (self.x2 / self.n - self.mean**2) ** 0.5\n\n    @property\n    def mean_log(self):\n        return self.z / self.n\n\n    @property\n    def std_log(self):\n        return (self.z2 / self.n - self.mean_log**2) ** 0.5\n\n    @property\n    def n_frms(self):\n        return self.n\n\n    @property\n    def n_utts(self):\n        return self.u\n\n    @property\n    def raw_data(self):\n        assert self.keep_raw, \"does not support storing raw data!\"\n        return torch.cat(self.raw)\n\n\nclass F0Stat(Stat):\n    def update(self, new_x):\n        # assume unvoiced frames are 0 and consider only voiced frames\n        if new_x is not None:\n            super().update(new_x[new_x != 0])\n\n\ndef dump_speaker_f0_stat(speaker_to_f0_stat, out_prefix):\n    path = f\"{out_prefix}.f0_stat.pt\"\n    assert not os.path.exists(path)\n\n    d = {\n        speaker: {\n            \"f0_mean\": speaker_to_f0_stat[speaker].mean,\n            \"f0_std\": speaker_to_f0_stat[speaker].std,\n            \"logf0_mean\": speaker_to_f0_stat[speaker].mean_log,\n            \"logf0_std\": speaker_to_f0_stat[speaker].std_log,\n        }\n        for speaker in speaker_to_f0_stat\n    }\n    torch.save(d, path)\n\n    return d\n\n\ndef load_audio_path(path):\n    audio_paths = []\n    with open(path) as f:\n        for line in f.readlines():\n            sample = eval(line.strip())\n            audio_paths.append(sample[\"audio\"])\n\n    return audio_paths\n\n\ndef load_f0(f0_dir, nshards):\n    path_to_f0 = {}\n    for rank in tqdm(range(1, nshards + 1), desc=f\"load f0\"):\n        f0_shard_path = f\"{f0_dir}/f0_{rank}_{nshards}.pt\"\n        shard_path_to_f0 = torch.load(f0_shard_path)\n        path_to_f0.update(shard_path_to_f0)\n    return path_to_f0\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/eval/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/eval/cont_metrics.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport numpy as np\nimport scipy\n\nimport torch\nimport torch.multiprocessing as mp\nfrom fairseq import checkpoint_utils, options\nfrom fairseq.data.codedataset import CodeDataset, ExpressiveCodeDataConfig\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom torch.utils.data import DataLoader, DistributedSampler\nfrom fairseq.utils import move_to_cuda\nfrom fairseq import utils\nfrom fairseq.criterions.speech_ulm_criterion import nll_loss, mae_loss\n\nimport time\nfrom types import SimpleNamespace\n\nimport sys, pathlib\n\nsys.path.append(str(pathlib.Path(__file__).parent.parent.resolve()))\n\nfrom naive_decoder import Naive_F0_Decoder\nfrom inference_dataset import InferenceDataset, explode_batch\nfrom sample.sample import do_sampling, TemperatureDecoder, FilterNamesDataset\n\ntry:\n    from nltk.translate.bleu_score import sentence_bleu\nexcept ImportError:\n    print(\"Please install nltk: `pip install --user -U nltk`\")\n    raise\n\n\n@torch.no_grad()\ndef teacher_force_everything(\n    args, dataset, model, criterion, tgt_dict, rank, world_size\n):\n    prefix = args.prefix_length\n\n    f0_decoder = None\n    if args.dequantize_prosody:\n        assert dataset.discrete_f0\n        print(\"Reporting MAE for a discrete model\")\n        f0_decoder = Naive_F0_Decoder(\n            args.f0_discretization_bounds, dataset.config.f0_vq_n_units\n        ).cuda()\n\n    dataset = InferenceDataset(\n        dataset,\n        prefix=args.prefix_length,\n        only_prefix=False,\n        filter_short=True,\n        presort_by_length=True,\n    )\n    sampler = (\n        None\n        if world_size == 1\n        else DistributedSampler(\n            dataset, num_replicas=world_size, rank=rank, shuffle=False\n        )\n    )\n    dataloader = DataLoader(\n        dataset,\n        args.batch_size,\n        shuffle=False,\n        collate_fn=dataset.collater,\n        sampler=sampler,\n    )\n\n    total_token_loss, total_duration_loss, total_f0_loss, total_tokens = (\n        0.0,\n        0.0,\n        0.0,\n        0.0,\n    )\n\n    i = 0\n    for batch in dataloader:\n        i += 1\n        batch = move_to_cuda(batch)\n        output = model(**batch[\"net_input\"])\n\n        tokens, durations, f0 = output[\"token\"], output[\"duration\"], output[\"f0\"]\n        durations, f0 = durations.squeeze(), f0.squeeze()\n\n        token_loss = nll_loss(\n            tokens[:, prefix - 1 :],\n            batch[\"target\"][:, prefix - 1 :].contiguous(),\n            batch[\"mask\"][:, prefix - 1 :].contiguous(),\n            reduce=True,\n        )\n\n        if args.dequantize_prosody:\n            durations = durations.argmax(dim=-1)\n            duration_loss = mae_loss(\n                durations[:, prefix - 1 :].contiguous().float(),\n                batch[\"dur_target\"][:, prefix - 1 :].contiguous().float(),\n                batch[\"dur_mask\"][:, prefix - 1 :].contiguous(),\n                reduce=True,\n            )\n        else:\n            duration_loss = criterion.dur_loss_fn(\n                durations[:, prefix - 1 :].contiguous(),\n                batch[\"dur_target\"][:, prefix - 1 :].contiguous(),\n                batch[\"dur_mask\"][:, prefix - 1 :].contiguous(),\n                reduce=True,\n            )\n\n        if f0_decoder:\n            f0 = f0.argmax(dim=-1)\n            f0 = f0_decoder(f0).squeeze(-1)\n\n            f0_target = batch[\"raw_f0\"]\n            f0_loss = mae_loss(\n                f0[:, prefix - 1 :].contiguous(),\n                f0_target[:, prefix - 1 :].contiguous(),\n                batch[\"f0_mask\"][:, prefix - 1 :].contiguous(),\n                reduce=True,\n            )\n        else:\n            f0_loss = criterion.f0_loss_fn(\n                f0[:, prefix - 1 :].contiguous(),\n                batch[\"f0_target\"][:, prefix - 1 :].contiguous(),\n                batch[\"f0_mask\"][:, prefix - 1 :].contiguous(),\n                reduce=True,\n            )\n\n        n_tokens = (~batch[\"dur_mask\"])[:, prefix - 1 :].sum()\n\n        total_token_loss += token_loss.item()\n        total_duration_loss += duration_loss.item()\n        total_f0_loss += f0_loss.item()\n\n        total_tokens += n_tokens.item()\n        if args.debug and i > 5:\n            break\n\n    values = torch.tensor([total_token_loss, total_duration_loss, total_f0_loss])\n    normalizers = torch.tensor([total_tokens for _ in range(3)])\n\n    return values, normalizers\n\n\ndef get_bleu(produced_tokens, target_tokens, tgt_dict):\n    assert target_tokens.ndim == 1\n    assert produced_tokens.size(1) == target_tokens.size(0)\n\n    # we can have padding due to shifted channels\n    shift = 0\n    for token in reversed(target_tokens.cpu().tolist()):\n        if token in [tgt_dict.pad(), tgt_dict.eos()]:\n            shift += 1\n        else:\n            break\n    target_tokens = target_tokens[:-shift]\n    produced_tokens = produced_tokens[:, :-shift]\n\n    string_target = tgt_dict.string(target_tokens).split()\n    string_candidates = [\n        tgt_dict.string(produced_tokens[i, :]).split()\n        for i in range(produced_tokens.size(0))\n    ]\n\n    bleu3 = sentence_bleu(\n        references=string_candidates,\n        hypothesis=string_target,\n        weights=(1.0 / 3, 1.0 / 3, 1.0 / 3),\n    )\n    return bleu3\n\n\n@torch.no_grad()\ndef continuation(args, dataset, model, criterion, tgt_dict, rank, world_size):\n    is_discrete_duration = dataset.discrete_dur\n    is_discrete_f0 = dataset.discrete_f0\n\n    f0_decoder = None\n    if args.dequantize_prosody:\n        assert dataset.discrete_f0\n        print(\"Reporting MAE F0 for a discrete model\")\n        f0_decoder = Naive_F0_Decoder(\n            args.f0_discretization_bounds, dataset.config.f0_vq_n_units\n        ).cuda()\n\n    dataset = InferenceDataset(\n        dataset, args.prefix_length, filter_short=True, presort_by_length=True\n    )\n    sampler = (\n        None\n        if world_size == 1\n        else DistributedSampler(\n            dataset, num_replicas=world_size, rank=rank, shuffle=False\n        )\n    )\n    dataloader = DataLoader(\n        dataset,\n        batch_size=1,\n        shuffle=False,\n        collate_fn=dataset.collater,\n        sampler=sampler,\n    )\n\n    Ts = args.T_token, args.T_duration, args.T_f0\n    decoder = TemperatureDecoder(\n        Ts, discrete_dur=is_discrete_duration, discrete_f0=is_discrete_f0\n    )\n\n    running_stats = SimpleNamespace(\n        token_bleu=0.0,\n        duration_nll=0.0,\n        duration_mae=0.0,\n        f0_nll=0.0,\n        f0_mae=0.0,\n        n_tokens=0.0,\n        n_sentences=0.0,\n        f0_sum=0.0,\n        f0_sum_sq=0.0,\n        dur_sum=0.0,\n        dur_sum_sq=0.0,\n    )\n\n    for i, batch in enumerate(dataloader):\n        batch = explode_batch(batch, args.batch_explosion_rate)\n        bsz = batch[\"target\"].size(0)\n\n        batch = move_to_cuda(batch)\n        prefix = batch[\"prefix\"][0]\n\n        max_length_to_unroll = batch[\"target\"].size(1)\n        prefix_length = batch[\"net_input\"][\"src_tokens\"].size(1)\n        steps = max_length_to_unroll - prefix_length + 1\n\n        assert steps > 0\n        produced_tokens, produced_durations, produced_f0, outputs = do_sampling(\n            model,\n            batch,\n            tgt_dict.eos(),\n            decoder,\n            autoregressive_steps=steps,\n            teacher_force_tokens=args.teacher_force_tokens,\n            teacher_force_duration=args.teacher_force_duration,\n            teacher_force_f0=args.teacher_force_f0,\n        )\n\n        if args.teacher_force_tokens:\n            assert (produced_tokens[:, 1:] == batch[\"target\"]).all()\n        if args.teacher_force_duration:\n            assert (produced_durations[:, 1:] == batch[\"dur_target\"]).all()\n        if args.teacher_force_f0:\n            assert (produced_f0[:, 1:] == batch[\"f0_target\"]).all()\n\n        dur_target = batch[\"dur_target\"][:, prefix - 1 :].contiguous()\n        f0_target = batch[\"f0_target\"][:, prefix - 1 :].contiguous()\n\n        f0_mask = batch[\"f0_mask\"][:, prefix - 1 :].contiguous()\n        dur_mask = batch[\"dur_mask\"][:, prefix - 1 :].contiguous()\n\n        duration_mae = mae_loss(\n            produced_durations[:, prefix:].float(),\n            dur_target.float(),\n            dur_mask,\n            reduce=False,\n        )\n        min_duration_mae = duration_mae.view(bsz, -1).sum(dim=-1).min(dim=0)[0]\n        running_stats.duration_mae += min_duration_mae\n\n        running_stats.dur_sum += (\n            produced_durations[:, prefix:].float() * (~dur_mask)\n        ).sum() / args.batch_explosion_rate\n        running_stats.dur_sum_sq += (\n            produced_durations[:, prefix:].float() * (~dur_mask)\n        ).pow(2.0).sum() / args.batch_explosion_rate\n\n        if is_discrete_duration:\n            duration_loss = criterion.dur_loss_fn(\n                torch.stack([x[1] for x in outputs], dim=1),\n                dur_target,\n                dur_mask,\n                reduce=False,\n            )\n            min_duration_loss = duration_loss.view(bsz, -1).sum(dim=-1).min(dim=0)[0]\n            running_stats.duration_nll += min_duration_loss\n\n        if f0_decoder:  # can only exist for discrete F0 models\n            decoded_produced_f0 = f0_decoder(produced_f0[:, prefix:])\n            decoded_f0_target = batch[\"raw_f0\"][:, prefix - 1 :].contiguous()\n\n            if produced_f0.ndim == 3:\n                decoded_produced_f0 = decoded_produced_f0.squeeze(2)\n                decoded_f0_target = decoded_f0_target.squeeze(2)\n\n            f0_mae = mae_loss(\n                decoded_produced_f0, decoded_f0_target, f0_mask, reduce=False\n            )\n            f0_mae = f0_mae.view(bsz, -1).sum(dim=-1).min(dim=0)[0]\n            running_stats.f0_mae += f0_mae\n\n            f0_loss = criterion.f0_loss_fn(\n                torch.stack([x[2] for x in outputs], dim=1),\n                f0_target.long(),\n                f0_mask,\n                reduce=False,\n            )\n            f0_loss = f0_loss.view(bsz, -1).sum(dim=-1).min(dim=0)[0]\n            running_stats.f0_nll += f0_loss\n\n            running_stats.f0_sum += (\n                decoded_produced_f0 * (~f0_mask)\n            ).sum() / args.batch_explosion_rate\n            running_stats.f0_sum_sq += (decoded_produced_f0 * (~f0_mask)).pow(\n                2.0\n            ).sum() / args.batch_explosion_rate\n\n        else:\n            assert not is_discrete_duration\n\n            f0_loss = mae_loss(\n                produced_f0[:, prefix:], f0_target, f0_mask, reduce=False\n            )\n            f0_loss = f0_loss.view(bsz, -1).sum(dim=-1).min(dim=0)[0]\n            running_stats.f0_mae += f0_loss\n\n            running_stats.f0_sum += (\n                produced_f0[:, prefix:].sum() / args.batch_explosion_rate\n            )\n            running_stats.f0_sum_sq += (\n                produced_f0[:, prefix:].pow(2.0).sum() / args.batch_explosion_rate\n            )\n\n        running_stats.n_tokens += (~dur_mask)[0, ...].sum()\n\n        token_loss = get_bleu(\n            produced_tokens[:, prefix:], batch[\"target\"][0, prefix - 1 :], tgt_dict\n        )\n        running_stats.token_bleu += token_loss\n        running_stats.n_sentences += 1\n\n        if args.debug:\n            break\n\n    values = torch.tensor(\n        [\n            running_stats.token_bleu,\n            running_stats.duration_nll,\n            running_stats.duration_mae,\n            running_stats.f0_nll,\n            running_stats.f0_mae,\n            running_stats.f0_sum,\n            running_stats.f0_sum_sq,\n            running_stats.dur_sum,\n            running_stats.dur_sum_sq,\n        ]\n    )\n    normalizers = torch.tensor(\n        [running_stats.n_sentences] + [running_stats.n_tokens] * 8\n    )\n\n    return values, normalizers\n\n\n@torch.no_grad()\ndef correlation(args, dataset, model, criterion, tgt_dict, rank, world_size):\n    is_discrete_duration = dataset.discrete_dur\n    is_discrete_f0 = dataset.discrete_f0\n\n    f0_decoder = None\n    if is_discrete_f0:\n        assert dataset.discrete_f0\n        f0_decoder = Naive_F0_Decoder(\n            args.f0_discretization_bounds, dataset.config.f0_vq_n_units\n        ).cuda()\n\n    if is_discrete_f0:\n        assert f0_decoder  # correlation on tokens is meaningless\n\n    dataset = InferenceDataset(\n        dataset,\n        args.prefix_length,\n        filter_short=True,\n        presort_by_length=True,\n        min_length=args.min_length,\n    )\n    sampler = (\n        None\n        if world_size == 1\n        else DistributedSampler(\n            dataset, num_replicas=world_size, rank=rank, shuffle=False\n        )\n    )\n    dataloader = DataLoader(\n        dataset,\n        batch_size=1,\n        shuffle=False,\n        collate_fn=dataset.collater,\n        sampler=sampler,\n    )\n\n    Ts = args.T_token, args.T_duration, args.T_f0\n    decoder = TemperatureDecoder(\n        Ts, discrete_dur=is_discrete_duration, discrete_f0=is_discrete_f0\n    )\n\n    mean_dur_prefix, mean_dur_cont = [], []\n    mean_f0_prefix, mean_f0_cont = [], []\n\n    for batch in dataloader:\n        batch = explode_batch(batch, args.batch_explosion_rate)\n        batch = move_to_cuda(batch)\n\n        assert len(batch[\"prefix\"]) == 1\n\n        if args.teacher_force_tokens:\n            autoregressive_steps = batch[\"target\"].size(1) - args.prefix_length - 1\n        else:\n            autoregressive_steps = args.max_length - args.prefix_length  # + max_shift?\n\n        if args.copy_target:\n            produced_durations, produced_f0 = batch[\"dur_target\"], batch[\"f0_target\"]\n        else:\n            _, produced_durations, produced_f0, outputs = do_sampling(\n                model,\n                batch,\n                tgt_dict.eos(),\n                decoder,\n                autoregressive_steps=autoregressive_steps,\n                teacher_force_tokens=args.teacher_force_tokens,\n                teacher_force_duration=args.teacher_force_duration,\n                teacher_force_f0=args.teacher_force_f0,\n            )\n\n            # first tokens actually correspond to BOS\n            produced_durations = produced_durations[:, 1:]\n            produced_f0 = produced_f0[:, 1:]\n\n        dur_target = batch[\"dur_target\"]\n        if is_discrete_duration:\n            produced_durations = produced_durations.float()\n            dur_target = dur_target.float()\n\n        if is_discrete_f0:\n            produced_f0 = f0_decoder(produced_f0).squeeze(-1)\n            f0_target = batch[\"raw_f0\"]\n        else:\n            f0_target = batch[\"f0_target\"]\n\n        # prefix values\n        prefix = batch[\"prefix\"][0]\n        dur_prefix_mean = dur_target[:, :prefix].sum(dim=-1) / (\n            (~batch[\"dur_mask\"][:, :prefix]).sum(dim=-1)\n        )\n\n        non_voiced = f0_target[:, :prefix] == 0.0\n        f0_mask = batch[\"f0_mask\"][:, :prefix].logical_or(non_voiced)\n        f0_prefix_mean = f0_target[:, :prefix].sum(dim=-1) / ((~f0_mask).sum(dim=-1))\n\n        # continuation values\n        dur_cont_mean = produced_durations[:, prefix:].sum(dim=-1) / (\n            (~batch[\"dur_mask\"][:, prefix:]).sum(dim=-1)\n        )\n\n        non_voiced = produced_f0[:, prefix:] == 0.0\n        f0_mask = non_voiced\n        f0_cont_mean = produced_f0[:, prefix:].sum(dim=-1) / ((~f0_mask).sum(dim=-1))\n\n        assert not f0_cont_mean.isnan().any()\n\n        mean_dur_prefix.append(dur_prefix_mean.cpu())\n        mean_dur_cont.append(dur_cont_mean.cpu())\n\n        mean_f0_prefix.append(f0_prefix_mean.cpu())\n        mean_f0_cont.append(f0_cont_mean.cpu())\n\n        if args.debug and len(mean_dur_prefix) > 10:\n            break\n\n    mean_dur_prefix, mean_dur_cont = torch.cat(mean_dur_prefix), torch.cat(\n        mean_dur_cont\n    )\n    mean_f0_prefix, mean_f0_cont = torch.cat(mean_f0_prefix), torch.cat(mean_f0_cont)\n\n    return mean_dur_prefix, mean_dur_cont, mean_f0_prefix, mean_f0_cont\n\n\ndef main(rank, world_size, args):\n    start = time.time()\n\n    if world_size > 1:\n        torch.distributed.init_process_group(\n            backend=\"gloo\", init_method=\"env://\", world_size=world_size, rank=rank\n        )\n        torch.cuda.set_device(rank % torch.cuda.device_count())\n\n    raw_args = args\n\n    args = convert_namespace_to_omegaconf(args)\n    if args.common.seed is not None:\n        np.random.seed(args.common.seed)\n        utils.set_torch_seed(args.common.seed)\n\n    models, model_args, task = checkpoint_utils.load_model_ensemble_and_task(\n        [raw_args.path], arg_overrides={\"data\": args.task.data}\n    )\n\n    tgt_dict = task.target_dictionary\n\n    for model in models:\n        model.prepare_for_inference_(args)\n        model.cuda().eval()\n        if raw_args.fp16:\n            model = model.half()\n    model = models[0]\n\n    config = ExpressiveCodeDataConfig(args.task.data)\n\n    dataset = CodeDataset(\n        manifest=config.manifests[raw_args.eval_subset],\n        dictionary=task.source_dictionary,\n        dur_dictionary=task.source_duration_dictionary,\n        f0_dictionary=task.source_f0_dictionary,\n        config=config,\n        discrete_dur=task.cfg.discrete_duration,\n        discrete_f0=task.cfg.discrete_f0,\n        log_f0=task.cfg.log_f0,\n        normalize_f0_mean=task.cfg.normalize_f0_mean,\n        normalize_f0_std=task.cfg.normalize_f0_std,\n        interpolate_f0=task.cfg.interpolate_f0,\n        shifts=task.cfg.stream_shifts,\n        return_filename=True,\n        strip_filename=False,\n        return_continuous_f0=raw_args.dequantize_prosody,\n    )\n\n    if raw_args.filter_names:\n        dataset = FilterNamesDataset(dataset, raw_args.filter_names)\n\n    criterion = task.build_criterion(model_args.criterion)\n\n    name2metric = {\n        \"continuation\": continuation,\n        \"teacher_force_everything\": teacher_force_everything,\n        \"correlation\": correlation,\n    }\n\n    name2keys = {\n        \"continuation\": (\n            \"Token BLEU3\",\n            \"Duration NLL\",\n            \"Duration MAE\",\n            \"F0 NLL\",\n            \"F0 MAE\",\n            \"F0 sum\",\n            \"F0 sum_sq\",\n            \"Dur sum\",\n            \"Dur sum_sq\",\n        ),\n        \"teacher_force_everything\": (\"token_loss\", \"duration_loss\", \"f0_loss\"),\n        \"correlation\": (\"Duration corr\", \"F0 corr\"),\n    }\n    metric_name = raw_args.metric\n\n    metric = name2metric[metric_name]\n    results = metric(raw_args, dataset, model, criterion, tgt_dict, rank, world_size)\n\n    values = None\n\n    if metric_name not in [\n        \"correlation\",\n    ]:\n        values, normalizers = results\n        values = maybe_aggregate_normalize(values, normalizers, world_size)\n    elif metric_name == \"correlation\":\n        values = maybe_aggregate_correlations(results, world_size)\n    else:\n        assert False\n\n    assert values is not None\n    summary = dict(zip(name2keys[raw_args.metric], values.tolist()))\n    if metric_name == \"continuation\":\n        summary[\"F0 Std\"] = np.sqrt(-summary[\"F0 sum\"] ** 2 + summary[\"F0 sum_sq\"])\n        summary[\"Dur Std\"] = np.sqrt(-summary[\"Dur sum\"] ** 2 + summary[\"Dur sum_sq\"])\n        del summary[\"F0 sum\"]\n        del summary[\"F0 sum_sq\"]\n        del summary[\"Dur sum\"]\n        del summary[\"Dur sum_sq\"]\n\n    summary[\"metric\"] = metric_name\n\n    if rank == 0:\n        print(summary)\n        if raw_args.wandb:\n            wandb_results(summary, raw_args)\n        print(\"# finished in \", time.time() - start, \"seconds\")\n\n\ndef wandb_results(summary, raw_args):\n    import wandb\n\n    run = wandb.init(\n        project=raw_args.wandb_project_name, tags=raw_args.wandb_tags.split(\",\")\n    )\n    run.config.metric = raw_args.metric\n    run.config.model = raw_args.path\n    run.config.data = raw_args.data\n\n    if raw_args.wandb_run_name:\n        run.name = raw_args.wandb_run_name\n        run.save()\n\n    wandb.log(summary)\n    wandb.finish()\n\n\ndef maybe_aggregate_normalize(values, normalizers, world_size):\n    if world_size > 1:\n        torch.distributed.barrier()\n\n        torch.distributed.all_reduce_multigpu([values])\n        torch.distributed.all_reduce_multigpu([normalizers])\n\n    return values / normalizers\n\n\ndef maybe_aggregate_correlations(results, world_size):\n    if world_size > 1:\n        output = [None for _ in range(world_size)]\n        torch.distributed.all_gather_object(output, results)\n        mean_dur_prefix, mean_dur_cont, mean_f0_prefix, mean_f0_cont = [\n            torch.cat([x[i] for x in output]) for i in range(4)\n        ]\n    else:\n        mean_dur_prefix, mean_dur_cont, mean_f0_prefix, mean_f0_cont = results\n\n    corr_dur = scipy.stats.pearsonr(mean_dur_prefix.numpy(), mean_dur_cont.numpy())[0]\n    corr_f0 = scipy.stats.pearsonr(mean_f0_prefix.numpy(), mean_f0_cont.numpy())[0]\n    values = torch.tensor([corr_dur, corr_f0])\n\n    return values\n\n\ndef cli_main():\n    parser = options.get_interactive_generation_parser()\n    parser.add_argument(\n        \"--prefix-length\",\n        type=int,\n        default=1,\n        help=\"Prompt prefix length (including <s>)\",\n    )\n    parser.add_argument(\n        \"--duration-scale\",\n        type=float,\n        default=1,\n        help=\"Multiply durations by the given scaler\",\n    )\n    parser.add_argument(\n        \"--debug\", action=\"store_true\", help=\"Process only the first batch\"\n    )\n    parser.add_argument(\"--n_hypotheses\", type=int, default=1)\n    parser.add_argument(\"--filter-names\", type=str, default=None)\n    parser.add_argument(\n        \"--max-length\", type=int, default=200, help=\"Maximal produced length\"\n    )\n\n    parser.add_argument(\"--teacher-force-tokens\", action=\"store_true\", default=False)\n    parser.add_argument(\"--teacher-force-duration\", action=\"store_true\", default=False)\n    parser.add_argument(\"--teacher-force-f0\", action=\"store_true\", default=False)\n\n    parser.add_argument(\"--copy-target\", action=\"store_true\", default=False)\n    parser.add_argument(\"--min-length\", type=int, default=None)\n    parser.add_argument(\"--f0-discretization-bounds\", type=str, default=None)\n    parser.add_argument(\"--dequantize-prosody\", action=\"store_true\")\n    parser.add_argument(\"--batch-explosion-rate\", type=int, default=1)\n\n    parser.add_argument(\n        \"--metric\",\n        choices=[\"continuation\", \"teacher_force_everything\", \"correlation\"],\n        required=True,\n    )\n\n    parser.add_argument(\"--wandb\", action=\"store_true\")\n    parser.add_argument(\"--wandb-project-name\", type=str, default=\"eslm\")\n    parser.add_argument(\"--wandb-tags\", type=str, default=\"\")\n    parser.add_argument(\"--wandb-run-name\", type=str, default=\"\")\n\n    parser.add_argument(\"--T-token\", type=float, default=1.0)\n    parser.add_argument(\"--T-duration\", type=float, default=1.0)\n    parser.add_argument(\"--T-f0\", type=float, default=1.0)\n\n    parser.add_argument(\"--n-workers\", type=int, default=1)\n\n    parser.add_argument(\n        \"--eval-subset\", type=str, default=\"valid\", choices=[\"valid\", \"test\"]\n    )\n\n    args = options.parse_args_and_arch(parser)\n\n    assert (\n        args.prefix_length >= 1\n    ), \"Prefix length includes bos token <s>, hence the minimum is 1.\"\n    assert args.temperature >= 0.0, \"T must be non-negative!\"\n\n    if args.dequantize_prosody:\n        assert args.f0_discretization_bounds\n\n    world_size = args.n_workers or torch.cuda.device_count()\n    if world_size > 1:\n        import random\n\n        mp.set_start_method(\"spawn\", force=True)\n        os.environ[\"MASTER_ADDR\"] = \"localhost\"\n        os.environ[\"MASTER_PORT\"] = str(random.randint(10_000, 50_000))\n\n        mp.spawn(\n            main,\n            nprocs=world_size,\n            args=(\n                world_size,\n                args,\n            ),\n            join=True,\n        )\n    else:\n        main(rank=0, world_size=world_size, args=args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/generate_waveform.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport ast\nimport argparse\nimport json\nimport logging\nfrom pathlib import Path\nimport soundfile as sf\nimport torch\n\nfrom tqdm import tqdm\n\nfrom fairseq import utils\nfrom fairseq.models.text_to_speech.vocoder import CodeHiFiGANVocoder\n\n\nlogging.basicConfig()\nlogging.root.setLevel(logging.INFO)\nlogging.basicConfig(level=logging.INFO)\nlogger = logging.getLogger(__name__)\n\n\ndef dump_result(args, data, sample_id, pred_wav):\n    assert \"audio\" in data or args.results_path is not None\n    if args.results_path:\n        fname = Path(data[\"audio\"]).name if \"audio\" in data else f\"{sample_id}_pred.wav\"\n        out_file = Path(args.results_path) / fname\n\n    sf.write(\n        out_file.as_posix(),\n        pred_wav.detach().cpu().numpy(),\n        args.sample_rate,\n    )\n\n\ndef load_data(in_file):\n    with open(in_file) as f:\n        data = [ast.literal_eval(line.strip()) for line in f]\n\n    return data\n\n\ndef get_f0_upsample_ratio(code_hop_size, f_hop_size):\n    ratio = (code_hop_size // 160) // (f_hop_size // 256) * 2\n    return ratio\n\n\ndef main(args):\n    logger.info(args)\n\n    use_cuda = torch.cuda.is_available() and not args.cpu\n\n    with open(args.vocoder_cfg) as f:\n        vocoder_cfg = json.load(f)\n    vocoder = CodeHiFiGANVocoder(args.vocoder, vocoder_cfg)\n    if use_cuda:\n        vocoder = vocoder.cuda()\n\n    data = load_data(args.in_file)\n\n    if args.results_path:\n        Path(args.results_path).mkdir(exist_ok=True, parents=True)\n\n    for i, d in tqdm(enumerate(data), total=len(data)):\n        code_key = \"cpc_km100\" if \"cpc_km100\" in d else \"hubert\"\n        code = list(map(int, d[code_key].split()))\n\n        x = {\n            \"code\": torch.LongTensor(code).view(1, -1),\n            \"f0\": torch.Tensor(d[\"f0\"]).view(1, -1),\n        }\n\n        f0_up_ratio = get_f0_upsample_ratio(\n            vocoder_cfg[\"code_hop_size\"], vocoder_cfg[\"hop_size\"]\n        )\n        if f0_up_ratio > 1:\n            bsz, cond_length = x[\"f0\"].size()\n            x[\"f0\"] = x[\"f0\"].unsqueeze(2).repeat(1, 1, f0_up_ratio).view(bsz, -1)\n\n        x = utils.move_to_cuda(x) if use_cuda else x\n        wav = vocoder(x)\n        dump_result(args, d, i, wav)\n\n\ndef cli_main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--in-file\",\n        type=str,\n        required=True,\n        help=\"Input file following the same format of the output from sample.py ('f0' and 'cpc_km100/hubert' are required fields)\",\n    )\n    parser.add_argument(\n        \"--vocoder\", type=str, required=True, help=\"path to the vocoder\"\n    )\n    parser.add_argument(\n        \"--vocoder-cfg\",\n        type=str,\n        required=True,\n        help=\"path to the vocoder config\",\n    )\n    parser.add_argument(\"--sample-rate\", type=int, default=16_000)\n    parser.add_argument(\n        \"--results-path\",\n        type=str,\n        default=None,\n        help=\"Output directory. If not set, the audios will be stored following the 'audio' field specified in the input file.\",\n    )\n    parser.add_argument(\"--cpu\", action=\"store_true\", help=\"run on CPU\")\n\n    args = parser.parse_args()\n\n    main(args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/inference_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport torch\n\n\nclass InferenceDataset:\n    def __init__(\n        self,\n        dataset,\n        prefix,\n        only_prefix=True,\n        presort_by_length=True,\n        filter_short=False,\n        min_length=None,\n    ):\n        self.dataset = dataset\n        self.collater = self.dataset.collater\n        self.prefix = prefix\n        self.only_prefix = only_prefix\n        self.filter_short = filter_short\n\n        self.remapping = list(range(len(self.dataset)))\n        if min_length:\n            assert min_length >= prefix + 1\n\n        length_thr = prefix + 1 if not min_length else min_length\n\n        if filter_short:\n            self.remapping = list(\n                filter(\n                    lambda i: self.dataset[i][\"dur_source\"].sum() > length_thr,\n                    self.remapping,\n                )\n            )\n            print(\n                f\"# the initial dataset of {len(self.dataset)} examples became {len(self.remapping)} after filtering\"\n                f\" examples shorter than {length_thr} (in duration units)\"\n            )\n\n        if presort_by_length:\n            lengths = {index: dataset.size(index) for index in self.remapping}\n            self.remapping.sort(key=lambda i: lengths[i])\n\n    @property\n    def pads(self):\n        return self.dataset.pads\n\n    def __len__(self):\n        return len(self.remapping)\n\n    def original_size(self, k):\n        k = self.remapping[k]\n        return self.dataset.size(k)\n\n    def __getitem__(self, k):\n        k = self.remapping[k]\n        channels = self.dataset[k]\n\n        if self.prefix and self.only_prefix:\n            dur_channel = channels[\"dur_source\"]\n            assert dur_channel.sum() >= self.prefix\n\n            token_times = dur_channel.cumsum(dim=-1)\n            cut_after = torch.searchsorted(token_times, torch.tensor(self.prefix))\n\n            r = {}\n            for channel_name, value in channels.items():\n                if isinstance(value, torch.Tensor) and \"source\" in channel_name:\n                    # if self.filter_short: assert value.size(0) >= self.prefix\n                    r[channel_name] = value[: cut_after + 1]\n                else:\n                    r[channel_name] = value\n\n            r[\"prefix\"] = cut_after + 1\n        else:\n            r = channels\n\n        return r\n\n\ndef explode_batch(batch, times):\n    if times == 1:\n        return batch\n\n    new_batch = {}\n\n    for key, value in batch.items():\n        if isinstance(value, torch.Tensor):\n            assert value.size(0) == 1\n            new_batch[key] = torch.cat([value] * times)\n        elif key in [\"ntokens\", \"nsentences\"]:\n            new_batch[key] = value * times\n        elif key in [\"prefix\", \"filename\"]:\n            new_batch[key] = value\n        elif key == \"net_input\":\n            new_batch[key] = explode_batch(value, times)\n        else:\n            assert False, key\n    return new_batch\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/naive_decoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport warnings\n\n\nclass Naive_F0_Decoder(torch.nn.Module):\n    def __init__(self, bounds_path, n_units=32):\n        super().__init__()\n\n        bounds = torch.load(bounds_path)\n        bounds = torch.from_numpy(bounds[n_units])\n        assert bounds.ndim == 1\n\n        pad = torch.tensor([-5.0, -5.0])  # bos, eos, pad are in the dictionary\n        centers = torch.cat(\n            [bounds[0:1], 0.5 * (bounds[1:] + bounds[:-1]), bounds[-1:], pad[:]]\n        )\n\n        self.embedding = torch.nn.Embedding.from_pretrained(\n            centers.unsqueeze(-1), freeze=True\n        )\n        self.max_n = self.embedding.weight.numel()\n\n    def forward(self, discrete_f0: torch.Tensor):\n        in_bounds = (0 <= discrete_f0).all() and (discrete_f0 < self.max_n).all()\n        if not in_bounds:\n            warnings.warn(\n                f\"F0 contains some weird outputs: discrete_f0.max().item()={discrete_f0.max().item()} discrete_f0.min().item()={discrete_f0.min().item()}; \"\n                f\"while we have embeddings for {self.max_n} values. \"\n                \"Assuming this is a no-prosody model -- but be careful!\"\n            )\n\n            mask = discrete_f0 >= self.max_n\n            discrete_f0 = discrete_f0.masked_fill(mask, self.max_n - 1)\n\n        return self.embedding(discrete_f0).squeeze(-1)\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/prepare_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom multiprocessing import Pool\n\nimport os\nfrom collections import defaultdict\nfrom itertools import starmap\n\nimport torch\nfrom npy_append_array import NpyAppendArray\nfrom tqdm import tqdm\n\nfrom data_utils import dump_speaker_f0_stat, F0Stat, load_f0\nfrom fairseq.data.codedataset import (\n    ExpressiveCodeDataConfig,\n    parse_manifest,\n    F0_FRAME_SPACE,\n    align_f0_to_durations,\n)\nfrom fairseq.tasks.speech_ulm_task import UnitDictionary\n\n\ndef load_meta(meta_path, split):\n    config = ExpressiveCodeDataConfig(meta_path)\n    manifest_path = config.manifests[split]\n    dictionary = UnitDictionary(n_units=config.n_units)\n    audio_paths, codes, durs, speakers = parse_manifest(manifest_path, dictionary)\n    return config, audio_paths, codes, durs, speakers\n\n\ndef _align_f0(f0, dur, ratio, frm_tol=5):\n    if f0 is None:\n        seg_f0 = torch.zeros_like(dur, dtype=torch.float)\n    else:\n        seg_f0 = align_f0_to_durations(f0, dur, ratio, tol=frm_tol * ratio)\n    return seg_f0.numpy()  # try a hacky stuff\n\n\ndef align_f0(path_to_f0, audio_paths, durs, ratio, mp=False):\n    chunk_size = 2000\n    num_procs = 40\n    iterable = ((path_to_f0[p], d, ratio) for p, d in zip(audio_paths, durs))\n\n    seg_f0s = []\n    if mp:\n        with Pool(num_procs) as pool:\n            iterator = tqdm(\n                pool.istarmap(_align_f0, iterable, chunk_size),\n                desc=\"align f0\",\n                total=len(durs),\n            )\n            for seg_f0 in iterator:\n                seg_f0s.append(torch.from_numpy(seg_f0).float())\n    else:\n        iterator = tqdm(starmap(_align_f0, iterable), desc=\"align f0\", total=len(durs))\n        for seg_f0 in iterator:\n            seg_f0s.append(torch.from_numpy(seg_f0).float())\n\n    return seg_f0s\n\n\ndef prepare_seg_data(config, audio_paths, codes, durs, speakers, path_to_f0):\n    ratio = config.code_hop_size / (config.sampling_rate * F0_FRAME_SPACE)\n    seg_f0s = align_f0(path_to_f0, audio_paths, durs, ratio)\n    data = {\n        \"codes\": codes,\n        \"duration\": durs,\n        \"f0\": seg_f0s,\n        \"speaker\": speakers,\n        \"path\": audio_paths,\n    }\n    return data\n\n\ndef dump_seg_data(data, out_prefix):\n    key_targs = {\n        \"codes\": f\"{out_prefix}.code.npy\",\n        \"duration\": f\"{out_prefix}.dur.npy\",\n        \"f0\": f\"{out_prefix}.f0.npy\",\n    }\n    for key, targ in key_targs.items():\n        assert not os.path.exists(targ)\n        npaa = NpyAppendArray(targ)\n        for utt_data in tqdm(data[key], desc=f\"dumping {key}\"):\n            npaa.append(utt_data.numpy())\n\n    assert not os.path.exists(f\"{out_prefix}.path.txt\")\n    with open(f\"{out_prefix}.path.txt\", \"w\") as f:\n        for x in data[\"path\"]:\n            f.write(f\"{str(x)}\\n\")\n\n    assert not os.path.exists(f\"{out_prefix}.leng.txt\")\n    with open(f\"{out_prefix}.leng.txt\", \"w\") as f:\n        for x in data[\"codes\"]:\n            f.write(f\"{len(x)}\\n\")\n\n    assert not os.path.exists(f\"{out_prefix}.speaker.txt\")\n    with open(f\"{out_prefix}.speaker.txt\", \"w\") as f:\n        for x in data[\"speaker\"]:\n            f.write(f\"{str(x)}\\n\")\n\n    print(f\"wrote to files with prefix {out_prefix}\")\n\n\ndef main(meta_path, f0_dir, splits, nshards_list):\n    speaker_to_stat = defaultdict(F0Stat)\n    if len(nshards_list) == 1:\n        nshards_list = nshards_list * len(splits)\n    else:\n        assert len(nshards_list) == len(splits)\n\n    for split, nshards in zip(splits, nshards_list):\n        config, audio_paths, codes, durs, speakers = load_meta(meta_path, split)\n        path_to_f0 = load_f0(f\"{f0_dir}/{split}\", nshards)\n\n        # segment-level data\n        data = prepare_seg_data(config, audio_paths, codes, durs, speakers, path_to_f0)\n        dump_seg_data(data, config.manifests[split])\n\n        # speaker f0\n        for audio_path, speaker in tqdm(zip(audio_paths, speakers)):\n            f0 = path_to_f0[audio_path]\n            speaker_to_stat[speaker].update(f0)\n        dump_speaker_f0_stat(speaker_to_stat, config.manifests[split])\n\n\nif __name__ == \"__main__\":\n    import argparse\n\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"meta_path\")\n    parser.add_argument(\"f0_dir\", help=\"out_dir from preprocess_f0\")\n    parser.add_argument(\"--splits\", nargs=\"+\", default=[\"train\", \"valid\"])\n    parser.add_argument(\n        \"--nshards_list\", type=int, nargs=\"+\", default=[20], help=\"number of f0 shards\"\n    )\n    args = parser.parse_args()\n    print(args)\n\n    main(**vars(args))\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/preprocess_f0.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport torch\nfrom tqdm import tqdm\nfrom data_utils import load_audio_path\nfrom fairseq.data.codedataset import get_f0_by_filename\n\n\ndef process_one(path, sr):\n    \"\"\"\n    Args:\n        path: audio file path\n        sr: sampling rate\n    \"\"\"\n    try:\n        # YAAPT throws errors in some rare cases\n        f0 = get_f0_by_filename(path, sr)\n    except Exception as e:\n        print(\n            f\"WARNING: error when processing {path}. set f0 to zero. original error message:\\n{e}\"\n        )\n        f0 = None\n    return f0\n\n\ndef main(file_path, out_dir, nshards, rank, sampling_rate):\n    # load data\n    audio_paths = load_audio_path(file_path)\n\n    # shard\n    assert nshards <= len(audio_paths) and nshards > 0\n    shard_size = len(audio_paths) / nshards\n    s = int(round((rank - 1) * shard_size))\n    e = int(round(rank * shard_size))\n    audio_paths = audio_paths[s:e]\n\n    # process\n    path_to_f0 = {}\n    for i, audio_path in enumerate(tqdm(audio_paths)):\n        f0 = process_one(audio_path, sampling_rate)\n        path_to_f0[audio_path] = f0\n    print(f\"finished processing {len(path_to_f0)} utterances ({s}-{e})\")\n\n    f0_path = f\"{out_dir}/f0_{rank}_{nshards}.pt\"\n    os.makedirs(out_dir, exist_ok=True)\n    torch.save(path_to_f0, f0_path)\n    print(f\"saved to {f0_path}\")\n\n\nif __name__ == \"__main__\":\n    import argparse\n\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"file_path\")\n    parser.add_argument(\"out_dir\")\n    parser.add_argument(\"--nshards\", type=int, default=20)\n    parser.add_argument(\"--rank\", type=int, default=1)\n    parser.add_argument(\"--sampling_rate\", type=int, default=16000)\n    args = parser.parse_args()\n\n    main(**vars(args))\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/quantize_f0.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom collections import defaultdict\nfrom functools import partial\n\nimport numpy as np\nimport torch\nfrom tqdm import tqdm\n\nfrom data_utils import dump_speaker_f0_stat, F0Stat, load_audio_path, load_f0\n\n\ndef load_speaker(path):\n    speakers = []\n    with open(path) as f:\n        for line in f.readlines():\n            sample = eval(line.strip())\n            assert \"speaker\" in sample\n            speakers.append(sample[\"speaker\"])\n    return speakers\n\n\ndef quantize_f0(speaker_to_f0, f0_stats, nbins, normalize, log):\n    f0_all = []\n    for speaker, f0 in speaker_to_f0.items():\n        f0 = f0.raw_data\n        if log:\n            f0 = f0.log()\n        mean = f0_stats[speaker][\"logf0_mean\"] if log else f0_stats[speaker][\"f0_mean\"]\n        std = f0_stats[speaker][\"logf0_std\"] if log else f0_stats[speaker][\"f0_std\"]\n        if normalize == \"mean\":\n            f0 = f0 - mean\n        elif normalize == \"meanstd\":\n            f0 = (f0 - mean) / std\n        f0_all.extend(f0.tolist())\n\n    hist, bin_x = np.histogram(f0_all, 100000)\n    cum_hist = np.cumsum(hist) / len(f0_all) * 100\n\n    f0_bin = {}\n    for num_bin in nbins:\n        bin_offset = []\n        bin_size = 100 / num_bin\n        threshold = bin_size\n        for i in range(num_bin - 1):\n            index = (np.abs(cum_hist - threshold)).argmin()\n            bin_offset.append(bin_x[index])\n            threshold += bin_size\n        f0_bin[num_bin] = np.array(bin_offset)\n\n    return f0_bin\n\n\ndef main(file_path, f0_dir, out_dir, out_prefix, nbins, nshards, normalize, log):\n    audio_paths = load_audio_path(file_path)\n    path_to_f0 = load_f0(f0_dir, nshards)\n\n    speakers = load_speaker(file_path)\n    speaker_to_f0 = defaultdict(partial(F0Stat, True))\n\n    # speaker f0 stats\n    for audio_path, speaker in tqdm(zip(audio_paths, speakers)):\n        f0 = path_to_f0[audio_path]\n        speaker_to_f0[speaker].update(f0)\n    f0_stats = dump_speaker_f0_stat(speaker_to_f0, f\"{out_dir}/{out_prefix}\")\n\n    # quantize\n    f0_bin = quantize_f0(speaker_to_f0, f0_stats, nbins, normalize, log)\n    log_suffix = \"_log\" if log else \"\"\n    f0_bin_out_file = f\"{out_dir}/{out_prefix}_{normalize}_norm{log_suffix}_f0_bin.th\"\n    torch.save(f0_bin, f0_bin_out_file)\n\n\nif __name__ == \"__main__\":\n    import argparse\n\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"file_path\")\n    parser.add_argument(\"f0_dir\", help=\"out_dir from preprocess_f0\")\n    parser.add_argument(\"out_dir\")\n    parser.add_argument(\"out_prefix\")\n    parser.add_argument(\"--nbins\", nargs=\"+\", type=int, default=[32])\n    parser.add_argument(\"--nshards\", type=int, default=20, help=\"number of f0 shards\")\n    parser.add_argument(\n        \"--normalize\", type=str, choices=[\"meanstd\", \"mean\", \"none\"], default=\"mean\"\n    )\n    parser.add_argument(\"--log\", action=\"store_true\")\n    args = parser.parse_args()\n    print(args)\n\n    main(**vars(args))\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/sample/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/sample/sample.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport torch.multiprocessing as mp\nimport numpy as np\nimport json\n\nimport torch\nfrom torch.distributions.categorical import Categorical\n\nfrom fairseq import checkpoint_utils, options, utils\nfrom fairseq.data.codedataset import CodeDataset, ExpressiveCodeDataConfig\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom torch.utils.data import DataLoader, DistributedSampler\nfrom fairseq.utils import move_to_cuda\n\nimport tqdm\nimport random\nimport pathlib\n\nimport sys, pathlib\n\nsys.path.append(str(pathlib.Path(__file__).parent.parent))\nfrom inference_dataset import InferenceDataset, explode_batch\nfrom naive_decoder import Naive_F0_Decoder\nfrom truncated_laplace import truncated_laplace\n\nCODETYPE_TO_FRAMETIME = {\"cpc_km100\": 0.01, \"hubert\": 0.02}  # 10ms  # 20ms\n\n\nclass TemperatureDecoder:\n    def __init__(self, Ts, discrete_dur=False, discrete_f0=False):\n        self.T_token, self.T_dur, self.T_f0 = Ts\n        self.discrete_dur = discrete_dur\n        self.discrete_f0 = discrete_f0\n\n    def __call__(self, output):\n        def sample_multinomial(key, T):\n            logits = output[key][:, -1, :].float()\n            return Categorical(logits=logits / T).sample().unsqueeze(-1)\n\n        def sample_laplace(key, T, truncate_at_zero):\n            mean = output[key][:, -1, :].float()\n            return truncated_laplace(mean=mean, T=T, truncate_by_zero=truncate_at_zero)\n\n        if self.T_token > 0:\n            new_tokens = sample_multinomial(\"token\", self.T_token)\n        else:\n            new_tokens = output[\"token\"][:, -1, :].argmax(dim=-1, keepdim=True)\n\n        if not self.discrete_dur and self.T_dur == 0:\n            new_durations = output[\"duration\"][:, -1].round().int()\n        elif not self.discrete_dur and self.T_dur > 0:\n            new_durations = (\n                sample_laplace(\"duration\", self.T_dur, truncate_at_zero=True)\n                .round()\n                .int()\n            )\n        elif self.discrete_dur and self.T_dur > 0:\n            new_durations = sample_multinomial(\"duration\", self.T_dur)\n        elif self.discrete_dur and self.T_dur == 0:\n            new_durations = output[\"duration\"][:, -1, :].argmax(dim=-1, keepdim=True)\n        else:\n            assert False\n\n        if not self.discrete_f0 and self.T_f0 == 0:\n            new_f0 = output[\"f0\"][:, -1]\n        elif not self.discrete_f0 and self.T_f0 > 0:\n            new_f0 = sample_laplace(\"f0\", self.T_f0, truncate_at_zero=False)\n        elif self.discrete_f0 and self.T_f0 > 0:\n            new_f0 = sample_multinomial(\"f0\", self.T_f0)\n        elif self.discrete_f0 and self.T_f0 == 0:\n            new_f0 = output[\"f0\"][:, -1, :].argmax(dim=-1, keepdim=True)\n        else:\n            assert False\n\n        return new_tokens, new_durations, new_f0\n\n\nclass FilterNamesDataset:\n    def __init__(self, dataset, fnames_path):\n        self.dataset = dataset\n\n        with open(fnames_path, \"r\") as fin:\n            fnames = set((eval(line)[\"audio\"] for line in fin))\n            print(f\"# will retrict the dataset for {len(fnames)} files\")\n\n        self.indexes = []\n\n        for i, datapoint in enumerate(dataset):\n            if datapoint[\"filename\"] in fnames:\n                self.indexes.append(i)\n        assert len(self.indexes) == len(fnames), f\"{len(self.indexes)} {len(fnames)}\"\n\n        self.collater = self.dataset.collater\n        self.discrete_dur = self.dataset.discrete_dur\n        self.discrete_f0 = self.dataset.discrete_f0\n\n    def __len__(self):\n        return len(self.indexes)\n\n    def __getitem__(self, k):\n        k = self.indexes[k]\n        return self.dataset[k]\n\n    def size(self, k):\n        k = self.indexes[k]\n        return self.dataset.size(k)\n\n\n@torch.no_grad()\ndef do_sampling(\n    model,\n    batch,\n    eos_token,\n    decoder,\n    autoregressive_steps=100,\n    teacher_force_tokens=False,\n    teacher_force_duration=False,\n    teacher_force_f0=False,\n    match_duration=False,\n):\n    def autoregressive_step_(output, autoregressive_steps):\n        new_tokens, new_durations, new_f0 = decoder(output)\n\n        n = output[\"token\"].size(1) if output[\"token\"].ndim == 3 else 1\n\n        if teacher_force_tokens:\n            new_tokens = batch[\"target\"][:, n - 1].unsqueeze(-1)\n        if teacher_force_duration:\n            new_durations = batch[\"dur_target\"][:, n - 1].unsqueeze(-1)\n        if teacher_force_f0:\n            new_f0 = batch[\"f0_target\"][:, n - 1].unsqueeze(-1)\n\n        batch[\"net_input\"][\"src_tokens\"] = torch.cat(\n            [batch[\"net_input\"][\"src_tokens\"], new_tokens], dim=1\n        )\n        batch[\"net_input\"][\"dur_src\"] = torch.cat(\n            [batch[\"net_input\"][\"dur_src\"], new_durations], dim=1\n        )\n        batch[\"net_input\"][\"f0_src\"] = torch.cat(\n            [batch[\"net_input\"][\"f0_src\"], new_f0], dim=1\n        )\n\n    outputs = []\n\n    if teacher_force_tokens or teacher_force_duration or teacher_force_f0:\n        max_time = batch[\"target\"].size(1)\n        prefix_time = batch[\"net_input\"][\"src_tokens\"].size(1)\n\n        autoregressive_steps = max_time - prefix_time + 1  # should be 0\n\n    for _ in range(autoregressive_steps):\n        output = model(**batch[\"net_input\"])\n\n        last_steps = (\n            output[\"token\"][:, -1, ...],\n            output[\"duration\"][:, -1, ...],\n            output[\"f0\"][:, -1, ...],\n        )\n        outputs.append(last_steps)\n\n        autoregressive_step_(output, autoregressive_steps)\n        tokens, duration, f0 = (\n            batch[\"net_input\"][\"src_tokens\"],\n            batch[\"net_input\"][\"dur_src\"],\n            batch[\"net_input\"][\"f0_src\"],\n        )\n\n        if (\n            match_duration\n            and (batch[\"dur_target\"].sum(dim=-1) < duration.sum(dim=-1)).all()\n        ):\n            break\n\n    return tokens, duration, f0, outputs\n\n\ndef unroll_duration(token_stream, duration_stream):\n    assert len(token_stream) == len(\n        duration_stream\n    ), f\"{len(token_stream)} != {len(duration_stream)}\"\n    non_positive_durations = sum(d <= 0 for d in duration_stream)\n    if non_positive_durations > 0:\n        print(\n            f\"# {non_positive_durations} durations are non-positive, they will be capped to 1\"\n        )\n\n    result = []\n\n    duration_stream_rounded_capped = [max(1, int(round(x))) for x in duration_stream]\n    for t, d in zip(token_stream, duration_stream_rounded_capped):\n        result.extend([t] * d)\n\n    return result\n\n\ndef realign_shifted_streams(tokens, durations, F0s, shifts):\n    \"\"\"\n    Durations are shifted by 1, F0 by 2\n    >>> tokens = [\"<s>\", \"t1\",  \"t2\", \"t3\", \"</s>\", \"x\", \"x\"]\n    >>> durations = [\"<0>\", \"<0>\", \"d1\", \"d2\", \"d3\", \"<0>\", \"x\"]\n    >>> F0s    = [\"<0>\", \"<0>\", \"<0>\", \"f1\", \"f2\", \"f3\", \"<0>\"]\n    >>> shifts = [1,2]\n    >>> realign_shifted_streams(tokens, durations, F0s, shifts)\n    (['<s>', 't1', 't2', 't3', '</s>'], ['<0>', 'd1', 'd2', 'd3', '<0>'], ['<0>', 'f1', 'f2', 'f3', '<0>'])\n    \"\"\"\n    max_shift = max(shifts)\n    if max_shift > 0:\n        shift_durations, shift_F0s = shifts\n\n        tokens = tokens[:-max_shift]\n        durations = durations[shift_durations:]\n        if shift_durations < max_shift:\n            durations = durations[: -(max_shift - shift_durations)]\n\n        if F0s is not None:\n            F0s = F0s[shift_F0s:]\n            if shift_F0s < max_shift:\n                F0s = F0s[: -(max_shift - shift_F0s)]\n\n    assert len(tokens) == len(durations), f\"{len(tokens)} =! {len(durations)}\"\n    if F0s is not None:\n        assert len(tokens) == len(F0s), f\"{len(tokens)} =! {len(F0s)}\"\n\n    return tokens, durations, F0s\n\n\ndef maybe_cut_eos(produced_tokens, produced_duration, produced_f0, eos_idx):\n    if eos_idx in produced_tokens:\n        eos_index = produced_tokens.index(eos_idx)\n        produced_tokens = produced_tokens[:eos_index]\n        produced_duration = produced_duration[:eos_index]\n        produced_f0 = produced_f0[:eos_index]\n    return produced_tokens, produced_duration, produced_f0\n\n\ndef maybe_filter_pad(produced_tokens, produced_duration, produced_f0, pad_idx):\n    if pad_idx not in produced_tokens:\n        return produced_tokens, produced_duration, produced_f0\n\n    assert len(produced_tokens) == len(produced_duration) == len(produced_f0)\n\n    print(\"<pad> is detected in the output!\")\n    filtered_tokens, filtered_duration, filtered_f0 = [], [], []\n\n    for t, d, f in zip(produced_tokens, produced_duration, produced_f0):\n        if t != pad_idx:\n            filtered_tokens.append(t)\n            filtered_duration.append(d)\n            filtered_f0.append(f)\n    return filtered_tokens, filtered_duration, filtered_f0\n\n\ndef match_duration(produced_tokens, produced_duration, produced_f0, target_duration):\n    \"\"\"\n    >>> tokens = ['t'] * 4\n    >>> F0s    = ['f0'] * 4\n    >>> produced_duration = [1, 10, 10, 10]\n    >>> match_duration(tokens, produced_duration, F0s, target_duration=100)\n    (['t', 't', 't', 't'], [1, 10, 10, 10], ['f0', 'f0', 'f0', 'f0'])\n    >>> match_duration(tokens, produced_duration, F0s, target_duration=5)\n    (['t', 't'], [1, 4], ['f0', 'f0'])\n    \"\"\"\n    if sum(produced_duration) <= target_duration:\n        return produced_tokens, produced_duration, produced_f0\n\n    running_duration = 0\n    filtered_duration = []\n\n    for next_tok_duration in produced_duration:\n        if running_duration + next_tok_duration < target_duration:\n            filtered_duration.append(next_tok_duration)\n            running_duration += next_tok_duration\n        else:\n            to_add = target_duration - running_duration\n            assert to_add <= next_tok_duration\n            filtered_duration.append(to_add)\n            break\n\n    produced_duration = filtered_duration\n    assert sum(produced_duration) == target_duration\n\n    n_tok = len(filtered_duration)\n\n    return produced_tokens[:n_tok], produced_duration, produced_f0[:n_tok]\n\n\ndef main(rank, world_size, args):\n    if world_size > 1:\n        torch.distributed.init_process_group(\n            backend=\"gloo\", init_method=\"env://\", world_size=world_size, rank=rank\n        )\n        torch.cuda.set_device(rank)\n\n    raw_args = args\n    args = convert_namespace_to_omegaconf(args)\n    if args.common.seed is not None:\n        random.seed(args.common.seed)\n        np.random.seed(args.common.seed)\n        utils.set_torch_seed(args.common.seed)\n\n    models, model_args, task = checkpoint_utils.load_model_ensemble_and_task(\n        [raw_args.path], arg_overrides={\"data\": args.task.data}\n    )\n    tgt_dict = task.target_dictionary\n\n    for model in models:\n        model.prepare_for_inference_(args)\n        model.cuda().eval()\n        if raw_args.fp16:\n            model = model.half()\n    model = models[0]\n\n    config = ExpressiveCodeDataConfig(args.task.data)\n\n    dataset = CodeDataset(\n        manifest=config.manifests[raw_args.subset],\n        dictionary=task.source_dictionary,\n        dur_dictionary=task.source_duration_dictionary,\n        f0_dictionary=task.source_f0_dictionary,\n        config=config,\n        discrete_dur=task.cfg.discrete_duration,\n        discrete_f0=task.cfg.discrete_f0,\n        log_f0=task.cfg.log_f0,\n        normalize_f0_mean=task.cfg.normalize_f0_mean,\n        normalize_f0_std=task.cfg.normalize_f0_std,\n        interpolate_f0=task.cfg.interpolate_f0,\n        shifts=task.cfg.stream_shifts,\n        return_filename=True,\n        strip_filename=False,\n    )\n    tgt_dict = task.target_dictionary\n    shifts = dataset.shifts.dur, dataset.shifts.f0\n    max_shift = max(shifts)\n\n    fname = raw_args.output\n    if world_size > 1:\n        fname += f\"_{rank}\"\n    output_file = open(fname, \"w\")\n\n    if raw_args.filter_names:\n        dataset = FilterNamesDataset(dataset, raw_args.filter_names)\n\n    dataset = InferenceDataset(dataset, raw_args.prefix_length, filter_short=True)\n    print(f\"Dataset size {len(dataset)}\")\n    sampler = (\n        None\n        if world_size == 1\n        else DistributedSampler(\n            dataset, num_replicas=world_size, rank=rank, shuffle=False\n        )\n    )\n    dataloader = DataLoader(\n        dataset,\n        batch_size=1,\n        shuffle=False,\n        collate_fn=dataset.collater,\n        sampler=sampler,\n    )\n\n    Ts = raw_args.T_token, raw_args.T_duration, raw_args.T_f0\n    decoder = TemperatureDecoder(\n        Ts, discrete_dur=task.cfg.discrete_duration, discrete_f0=task.cfg.discrete_f0\n    )\n\n    dataset_size = len(dataset)\n\n    f0_decoder = None\n    if raw_args.f0_discretization_bounds:\n        assert task.cfg.discrete_f0\n        f0_decoder = Naive_F0_Decoder(raw_args.f0_discretization_bounds).cuda()\n\n    pbar = (\n        tqdm.tqdm(\n            total=dataset_size\n            if raw_args.max_samples is None\n            else min(raw_args.max_samples, dataset_size)\n        )\n        if world_size == 1\n        else None\n    )\n\n    samples_produced = 0\n\n    for batch in dataloader:\n        if (\n            raw_args.max_samples is not None\n            and samples_produced >= raw_args.max_samples\n        ):\n            break\n\n        prefix = batch[\"prefix\"][0]\n\n        batch = explode_batch(batch, raw_args.batch_explosion_rate)\n        batch = move_to_cuda(batch)\n\n        if not raw_args.short_curcuit:\n            produced_tokens, produced_durations, produced_f0, _ = do_sampling(\n                models[0],\n                batch,\n                tgt_dict.eos(),\n                decoder,\n                autoregressive_steps=raw_args.max_length - prefix + max_shift,\n                teacher_force_tokens=raw_args.teacher_force_tokens,\n                match_duration=raw_args.match_duration,\n                teacher_force_duration=raw_args.teacher_force_duration,\n                teacher_force_f0=raw_args.teacher_force_f0,\n            )\n\n            # stip entries corresponding to <s>\n            produced_tokens = produced_tokens[:, 1:]\n            produced_durations = produced_durations[:, 1:]\n            produced_f0 = produced_f0[:, 1:]\n\n        else:\n            max_length = raw_args.max_length + max_shift\n            produced_tokens, produced_durations, produced_f0 = (\n                batch[\"target\"][:, :max_length],\n                batch[\"dur_target\"][:, :max_length],\n                batch[\"f0_target\"][:, :max_length],\n            )\n\n        if f0_decoder is not None:\n            produced_f0 = f0_decoder(produced_f0)\n\n        produced_tokens, produced_durations, produced_f0 = (\n            produced_tokens.cpu().tolist(),\n            produced_durations.cpu().tolist(),\n            produced_f0.cpu().tolist(),\n        )\n\n        bsz = batch[\"target\"].size(0)\n        assert bsz == raw_args.batch_explosion_rate\n\n        for i in range(bsz):\n            if (\n                raw_args.max_samples is not None\n                and samples_produced >= raw_args.max_samples\n            ):\n                break\n\n            produced_tokens_i = produced_tokens[i]\n            produced_durations_i = produced_durations[i]\n            produced_f0_i = produced_f0[i]\n\n            (\n                produced_tokens_i,\n                produced_durations_i,\n                produced_f0_i,\n            ) = realign_shifted_streams(\n                produced_tokens_i, produced_durations_i, produced_f0_i, shifts\n            )\n\n            produced_tokens_i, produced_durations_i, produced_f0_i = maybe_cut_eos(\n                produced_tokens_i, produced_durations_i, produced_f0_i, tgt_dict.eos()\n            )\n\n            produced_tokens_i, produced_durations_i, produced_f0_i = maybe_filter_pad(\n                produced_tokens_i, produced_durations_i, produced_f0_i, tgt_dict.pad()\n            )\n\n            if raw_args.match_duration:\n                # NB: here we cheat a bit and use that padding has duration 0\n                # so no need to re-align and remove padding\n                dur_target_i = batch[\"dur_target\"][i, :].sum().item()\n                produced_tokens_i, produced_durations_i, produced_f0_i = match_duration(\n                    produced_tokens_i, produced_durations_i, produced_f0_i, dur_target_i\n                )\n\n            if raw_args.cut_prompt:\n                produced_tokens_i, produced_durations_i, produced_f0_i = (\n                    produced_tokens_i[prefix:],\n                    produced_durations_i[prefix:],\n                    produced_f0_i[prefix:],\n                )\n\n            prompt_fname = batch[\"filename\"][0]\n            fname = str(pathlib.Path(prompt_fname).with_suffix(\"\")) + f\"__{i}.wav\"\n\n            token_stream = unroll_duration(produced_tokens_i, produced_durations_i)\n            f0_stream = unroll_duration(produced_f0_i, produced_durations_i)\n            output_line = json.dumps(\n                {\n                    \"audio\": fname,\n                    \"prompt\": prompt_fname,\n                    raw_args.code_type: \" \".join(map(str, token_stream)),\n                    \"duration\": round(\n                        sum(produced_durations_i)\n                        * CODETYPE_TO_FRAMETIME[raw_args.code_type],\n                        3,\n                    ),\n                    \"raw_duration\": produced_durations_i,\n                    \"raw_f0\": produced_f0_i,\n                    \"f0\": [round(f0, 3) for f0 in f0_stream],\n                }\n            )\n            print(output_line, file=output_file)\n\n            if pbar:\n                pbar.update(1)\n            samples_produced += 1\n\n        if raw_args.debug:\n            break\n\n    output_file.close()\n\n    if world_size > 1:\n        # important that everything is flushed before aggregating\n        torch.distributed.barrier()\n\n    if world_size > 1 and rank == 0:\n        with open(raw_args.output, \"w\") as fout:\n            for i in range(world_size):\n                f = raw_args.output + f\"_{i}\"\n                with open(f, \"r\") as fin:\n                    fout.write(fin.read())\n                os.remove(f)\n\n\ndef cli_main():\n    parser = options.get_interactive_generation_parser()\n    parser.add_argument(\n        \"--prefix-length\",\n        type=int,\n        default=1,\n        help=\"Prompt prefix length (including <s>)\",\n    )\n    parser.add_argument(\"--output\", type=str, default=None, required=True)\n    parser.add_argument(\n        \"--debug\", action=\"store_true\", help=\"Process only the first batch\"\n    )\n    parser.add_argument(\n        \"--ignore-durations\",\n        action=\"store_true\",\n        help=\"If set, the duration stream is ignored\",\n    )\n    parser.add_argument(\n        \"--max-length\", type=int, default=200, help=\"Maximal produced length\"\n    )\n    parser.add_argument(\n        \"--code-type\", choices=[\"cpc_km100\", \"hubert\"], default=\"cpc_km100\"\n    )\n    parser.add_argument(\"--max-samples\", type=int, default=None)\n    parser.add_argument(\"--prompt-duration-scaler\", type=float, default=1.0)\n    parser.add_argument(\"--teacher-force-tokens\", action=\"store_true\", default=False)\n    parser.add_argument(\"--teacher-force-duration\", action=\"store_true\", default=False)\n    parser.add_argument(\"--teacher-force-f0\", action=\"store_true\", default=False)\n    parser.add_argument(\"--filter-names\", type=str, default=None)\n    parser.add_argument(\n        \"--match-duration\",\n        action=\"store_true\",\n        help=\"Do not produce sequences longer that ground-truth\",\n    )\n    parser.add_argument(\n        \"--cut-prompt\",\n        action=\"store_true\",\n        help=\"Remove prompt from the produced audio\",\n    )\n    parser.add_argument(\n        \"--short-curcuit\", action=\"store_true\", help=\"Use 'target' as a sample\"\n    )\n    parser.add_argument(\"--f0-discretization-bounds\", type=str, default=None)\n\n    parser.add_argument(\"--batch-explosion-rate\", type=int, default=1)\n\n    parser.add_argument(\"--T-token\", type=float, default=1.0)\n    parser.add_argument(\"--T-duration\", type=float, default=1.0)\n    parser.add_argument(\"--T-f0\", type=float, default=1.0)\n\n    parser.add_argument(\n        \"--subset\", type=str, default=\"valid\", choices=[\"test\", \"valid\"]\n    )\n\n    args = options.parse_args_and_arch(parser)\n\n    assert (\n        args.prefix_length >= 1\n    ), \"Prefix length includes bos token <s>, hence the minimum is 1.\"\n    assert all(\n        t >= 0 for t in [args.T_token, args.T_f0, args.T_duration]\n    ), \"T must be non-negative!\"\n\n    world_size = torch.cuda.device_count()\n    if world_size > 1:\n        import random\n\n        mp.set_start_method(\"spawn\", force=True)\n        os.environ[\"MASTER_ADDR\"] = \"localhost\"\n        os.environ[\"MASTER_PORT\"] = str(random.randint(10_000, 50_000))\n\n        print(f\"Using {world_size} devices, master port {os.environ['MASTER_PORT']}\")\n\n        mp.spawn(\n            main,\n            nprocs=world_size,\n            args=(\n                world_size,\n                args,\n            ),\n            join=True,\n        )\n    else:\n        main(rank=0, world_size=world_size, args=args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/scripts/join_units_manifest.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport json\nimport argparse\nimport pathlib\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--manifest\", required=True)\n    parser.add_argument(\"--units\", required=True)\n    parser.add_argument(\"--output\", required=True)\n    parser.add_argument(\"--sample_rate\", type=int, default=16_000)\n\n    args = parser.parse_args()\n\n    with open(args.manifest, \"r\") as manifest, open(args.units, \"r\") as units, open(\n        args.output, \"w\"\n    ) as outp:\n        root = manifest.readline().strip()\n        root = pathlib.Path(root)\n\n        for manifest_line, unit_line in zip(manifest.readlines(), units.readlines()):\n            path, frames = manifest_line.split()\n            duration = int(frames) / float(args.sample_rate)\n            fname = root / path\n            speaker = fname.parent.parent.name\n\n            units = unit_line.split(\"|\")[1]\n\n            print(\n                json.dumps(\n                    dict(\n                        audio=str(root / path),\n                        duration=duration,\n                        hubert_km100=units.strip(),\n                        speaker=speaker,\n                    )\n                ),\n                file=outp,\n            )\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/scripts/prepare_data.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nset -eu\n\ntrain_json=$1\nvalid_json=$2\ntest_json=$3\nn_units=$4\nhop_size=$5\nsr=$6\nf0_quantizer=$7\nout_dir=$8\n\nmeta_path=\"$out_dir/data_config.json\"\nf0_dir=\"$out_dir/f0\"\n\nmkdir -p $out_dir\nln -sf $train_json $out_dir/train.txt\nln -sf $valid_json $out_dir/valid.txt\nln -sf $test_json $out_dir/test.txt\n\ncat <<EOF >$meta_path\n{\n    \"manifests\": {\n      \"train\": \"$out_dir/train.txt\",\n      \"valid\": \"$out_dir/valid.txt\",\n      \"test\": \"$out_dir/test.txt\"\n    },\n    \"n_units\": $n_units,\n    \"code_hop_size\": $hop_size,\n    \"sampling_rate\": $sr,\n    \"multispkr\": \"parent_parent_name\",\n\n    \"f0_vq_type\": \"naive\",\n    \"f0_vq_naive_quantizer\": {\n      \"log_mean_norm\": \"$f0_quantizer\"\n    },\n    \"f0_vq_n_units\": 32\n}\nEOF\n\nfor split in train valid test; do\n  python examples/textless_nlp/pgslm/preprocess_f0.py \\\n    $out_dir/$split.txt $f0_dir/$split --nshards=1 --rank=1 --sampling_rate=$sr\n\n  #NSHARDS=16\n  #seq 1 $NSHARDS | parallel -j $NSHARDS python examples/textless_nlp/pgslm/preprocess_f0.py \\\n  #  $out_dir/$split.txt $f0_dir/$split --nshards=$NSHARDS --sampling_rate=$sr --rank\ndone\n\n# Please make sure that the number of shards (--nshards_list) is consistent across commands\npython examples/textless_nlp/pgslm/prepare_dataset.py \\\n  $meta_path $f0_dir --splits test valid train --nshards_list 1\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/scripts/prepare_f0_quantization.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nset -eu\n\ntrain_json=$1\nsr=$2\nnbins=$3\nout_dir=$4\nout_prefix=$5\n\nf0_dir=\"$out_dir/f0\"\n\npython examples/textless_nlp/pgslm/preprocess_f0.py \\\n    $train_json $f0_dir/${out_prefix}_f0_quant --nshards 1 --rank 1 --sampling_rate $sr\n\n# NB: one can use parallel here:\n# NSHARDS=16\n#\n#seq 1 $NSHARDS | parallel -j $NSHARDS python examples/textless_nlp/pgslm/preprocess_f0.py \\\n#    $train_json $f0_dir/${out_prefix}_f0_quant --nshards $NSHARDS --sampling_rate $sr --rank\n\npython examples/textless_nlp/pgslm/quantize_f0.py \\\n    $train_json $f0_dir/${out_prefix}_f0_quant $out_dir $out_prefix --nbins $nbins --nshards 1 --normalize mean --log\n"
  },
  {
    "path": "examples/textless_nlp/pgslm/truncated_laplace.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport warnings\n\n\ndef truncated_laplace(mean, T, truncate_by_zero=False):\n    \"\"\"Generating a sample from a Laplace distribution, possible left-truncated at zero.\n    A bit of explanation here https://stats.stackexchange.com/a/357598 .\n    \"\"\"\n    assert isinstance(mean, torch.Tensor)\n\n    if not truncate_by_zero:\n        percentile = 0.0\n    else:\n        if not (mean >= 0.0).all():\n            warnings.warn(f\"means are supposed to be non-negative, but got {mean}\")\n            mean = torch.clamp_min(mean, 0.0)\n\n        lower_bound = mean.new_tensor([0.0])\n        percentile = 0.5 + 0.5 * torch.sign(lower_bound - mean) * (\n            1.0 - torch.exp(-1.0 / T * torch.abs(mean - lower_bound))\n        )\n\n    p = torch.empty_like(mean).uniform_() * (1.0 - percentile) + percentile\n    return mean - T * torch.sign(p - 0.5) * torch.log(1 - 2 * torch.abs(p - 0.5))\n"
  },
  {
    "path": "examples/textless_nlp/speech-resynth/README.md",
    "content": "\n# Speech Resynthesis from Discrete Disentangled Self-Supervised Representations\nLanding page with usfull resources for the [Speech Resynthesis from Discrete Disentangled Self-Supervised Representations](https://arxiv.org/abs/2104.00355) paper.\n\n<p align=\"center\"><img width=\"70%\" src=\"img/fig.png\" /></p>\n\n__Abstract__: We propose using self-supervised discrete representations for the task of speech resynthesis. To generate disentangled representation, we separately extract low-bitrate representations for speech content, prosodic information, and speaker identity. This allows to synthesize speech in a controllable manner. We analyze various state-of-the-art, self-supervised representation learning methods and shed light on the advantages of each method while considering reconstruction quality and disentanglement properties. Specifically, we evaluate the F0 reconstruction, speaker identification performance (for both resynthesis and voice conversion), recordings' intelligibility, and overall quality using subjective human evaluation. Lastly, we demonstrate how these representations can be used for an ultra-lightweight speech codec. Using the obtained representations, we can get to a rate of 365 bits per second while providing better speech quality than the baseline methods.\n\n\n## Quick Links\n- [Paper](https://arxiv.org/pdf/2104.00355.pdf)\n- [Samples](https://speechbot.github.io/resynthesis/index.html)\n- [Code](https://github.com/facebookresearch/speech-resynthesis)\n\nThe codebase for the [Speech Resynthesis from Discrete Disentangled Self-Supervised Representations](https://arxiv.org/abs/2104.00355) paper can be found under the following [repository](https://github.com/facebookresearch/speech-resynthesis). \n\n\n## Citation\n```\n@inproceedings{polyak21_interspeech,\n  author={Adam Polyak and Yossi Adi and Jade Copet and \n          Eugene Kharitonov and Kushal Lakhotia and \n          Wei-Ning Hsu and Abdelrahman Mohamed and Emmanuel Dupoux},\n  title={{Speech Resynthesis from Discrete Disentangled Self-Supervised Representations}},\n  year=2021,\n  booktitle={Proc. Interspeech 2021},\n}\n``` \n"
  },
  {
    "path": "examples/translation/README.md",
    "content": "# Neural Machine Translation\n\nThis README contains instructions for [using pretrained translation models](#example-usage-torchhub)\nas well as [training new models](#training-a-new-model).\n\n## Pre-trained models\n\nModel | Description | Dataset | Download\n---|---|---|---\n`conv.wmt14.en-fr` | Convolutional <br> ([Gehring et al., 2017](https://arxiv.org/abs/1705.03122)) | [WMT14 English-French](http://statmt.org/wmt14/translation-task.html#Download) | model: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/models/wmt14.v2.en-fr.fconv-py.tar.bz2) <br> newstest2014: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt14.v2.en-fr.newstest2014.tar.bz2) <br> newstest2012/2013: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt14.v2.en-fr.ntst1213.tar.bz2)\n`conv.wmt14.en-de` | Convolutional <br> ([Gehring et al., 2017](https://arxiv.org/abs/1705.03122)) | [WMT14 English-German](http://statmt.org/wmt14/translation-task.html#Download) | model: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/models/wmt14.en-de.fconv-py.tar.bz2) <br> newstest2014: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt14.en-de.newstest2014.tar.bz2)\n`conv.wmt17.en-de` | Convolutional <br> ([Gehring et al., 2017](https://arxiv.org/abs/1705.03122)) | [WMT17 English-German](http://statmt.org/wmt17/translation-task.html#Download) | model: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/models/wmt17.v2.en-de.fconv-py.tar.bz2) <br> newstest2014: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt17.v2.en-de.newstest2014.tar.bz2)\n`transformer.wmt14.en-fr` | Transformer <br> ([Ott et al., 2018](https://arxiv.org/abs/1806.00187)) | [WMT14 English-French](http://statmt.org/wmt14/translation-task.html#Download) | model: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/models/wmt14.en-fr.joined-dict.transformer.tar.bz2) <br> newstest2014: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt14.en-fr.joined-dict.newstest2014.tar.bz2)\n`transformer.wmt16.en-de` | Transformer <br> ([Ott et al., 2018](https://arxiv.org/abs/1806.00187)) | [WMT16 English-German](https://drive.google.com/uc?export=download&id=0B_bZck-ksdkpM25jRUN2X2UxMm8) | model: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/models/wmt16.en-de.joined-dict.transformer.tar.bz2) <br> newstest2014: <br> [download (.tar.bz2)](https://dl.fbaipublicfiles.com/fairseq/data/wmt16.en-de.joined-dict.newstest2014.tar.bz2)\n`transformer.wmt18.en-de` | Transformer <br> ([Edunov et al., 2018](https://arxiv.org/abs/1808.09381)) <br> WMT'18 winner | [WMT'18 English-German](http://www.statmt.org/wmt18/translation-task.html) | model: <br> [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt18.en-de.ensemble.tar.gz) <br> See NOTE in the archive\n`transformer.wmt19.en-de` | Transformer <br> ([Ng et al., 2019](https://arxiv.org/abs/1907.06616)) <br> WMT'19 winner | [WMT'19 English-German](http://www.statmt.org/wmt19/translation-task.html) | model: <br> [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt19.en-de.joined-dict.ensemble.tar.gz)\n`transformer.wmt19.de-en` | Transformer <br> ([Ng et al., 2019](https://arxiv.org/abs/1907.06616)) <br> WMT'19 winner | [WMT'19 German-English](http://www.statmt.org/wmt19/translation-task.html) | model: <br> [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt19.de-en.joined-dict.ensemble.tar.gz)\n`transformer.wmt19.en-ru` | Transformer <br> ([Ng et al., 2019](https://arxiv.org/abs/1907.06616)) <br> WMT'19 winner | [WMT'19 English-Russian](http://www.statmt.org/wmt19/translation-task.html) | model: <br> [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt19.en-ru.ensemble.tar.gz)\n`transformer.wmt19.ru-en` | Transformer <br> ([Ng et al., 2019](https://arxiv.org/abs/1907.06616)) <br> WMT'19 winner | [WMT'19 Russian-English](http://www.statmt.org/wmt19/translation-task.html) | model: <br> [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt19.ru-en.ensemble.tar.gz)\n\n## Example usage (torch.hub)\n\nWe require a few additional Python dependencies for preprocessing:\n```bash\npip install fastBPE sacremoses subword_nmt\n```\n\nInteractive translation via PyTorch Hub:\n```python\nimport torch\n\n# List available models\ntorch.hub.list('pytorch/fairseq')  # [..., 'transformer.wmt16.en-de', ... ]\n\n# Load a transformer trained on WMT'16 En-De\n# Note: WMT'19 models use fastBPE instead of subword_nmt, see instructions below\nen2de = torch.hub.load('pytorch/fairseq', 'transformer.wmt16.en-de',\n                       tokenizer='moses', bpe='subword_nmt')\nen2de.eval()  # disable dropout\n\n# The underlying model is available under the *models* attribute\nassert isinstance(en2de.models[0], fairseq.models.transformer.TransformerModel)\n\n# Move model to GPU for faster translation\nen2de.cuda()\n\n# Translate a sentence\nen2de.translate('Hello world!')\n# 'Hallo Welt!'\n\n# Batched translation\nen2de.translate(['Hello world!', 'The cat sat on the mat.'])\n# ['Hallo Welt!', 'Die Katze saß auf der Matte.']\n```\n\nLoading custom models:\n```python\nfrom fairseq.models.transformer import TransformerModel\nzh2en = TransformerModel.from_pretrained(\n  '/path/to/checkpoints',\n  checkpoint_file='checkpoint_best.pt',\n  data_name_or_path='data-bin/wmt17_zh_en_full',\n  bpe='subword_nmt',\n  bpe_codes='data-bin/wmt17_zh_en_full/zh.code'\n)\nzh2en.translate('你好 世界')\n# 'Hello World'\n```\n\nIf you are using a `transformer.wmt19` models, you will need to set the `bpe`\nargument to `'fastbpe'` and (optionally) load the 4-model ensemble:\n```python\nen2de = torch.hub.load('pytorch/fairseq', 'transformer.wmt19.en-de',\n                       checkpoint_file='model1.pt:model2.pt:model3.pt:model4.pt',\n                       tokenizer='moses', bpe='fastbpe')\nen2de.eval()  # disable dropout\n```\n\n## Example usage (CLI tools)\n\nGeneration with the binarized test sets can be run in batch mode as follows, e.g. for WMT 2014 English-French on a GTX-1080ti:\n```bash\nmkdir -p data-bin\ncurl https://dl.fbaipublicfiles.com/fairseq/models/wmt14.v2.en-fr.fconv-py.tar.bz2 | tar xvjf - -C data-bin\ncurl https://dl.fbaipublicfiles.com/fairseq/data/wmt14.v2.en-fr.newstest2014.tar.bz2 | tar xvjf - -C data-bin\nfairseq-generate data-bin/wmt14.en-fr.newstest2014  \\\n    --path data-bin/wmt14.en-fr.fconv-py/model.pt \\\n    --beam 5 --batch-size 128 --remove-bpe | tee /tmp/gen.out\n# ...\n# | Translated 3003 sentences (96311 tokens) in 166.0s (580.04 tokens/s)\n# | Generate test with beam=5: BLEU4 = 40.83, 67.5/46.9/34.4/25.5 (BP=1.000, ratio=1.006, syslen=83262, reflen=82787)\n\n# Compute BLEU score\ngrep ^H /tmp/gen.out | cut -f3- > /tmp/gen.out.sys\ngrep ^T /tmp/gen.out | cut -f2- > /tmp/gen.out.ref\nfairseq-score --sys /tmp/gen.out.sys --ref /tmp/gen.out.ref\n# BLEU4 = 40.83, 67.5/46.9/34.4/25.5 (BP=1.000, ratio=1.006, syslen=83262, reflen=82787)\n```\n\n## Training a new model\n\n### IWSLT'14 German to English (Transformer)\n\nThe following instructions can be used to train a Transformer model on the [IWSLT'14 German to English dataset](http://workshop2014.iwslt.org/downloads/proceeding.pdf).\n\nFirst download and preprocess the data:\n```bash\n# Download and prepare the data\ncd examples/translation/\nbash prepare-iwslt14.sh\ncd ../..\n\n# Preprocess/binarize the data\nTEXT=examples/translation/iwslt14.tokenized.de-en\nfairseq-preprocess --source-lang de --target-lang en \\\n    --trainpref $TEXT/train --validpref $TEXT/valid --testpref $TEXT/test \\\n    --destdir data-bin/iwslt14.tokenized.de-en \\\n    --workers 20\n```\n\nNext we'll train a Transformer translation model over this data:\n```bash\nCUDA_VISIBLE_DEVICES=0 fairseq-train \\\n    data-bin/iwslt14.tokenized.de-en \\\n    --arch transformer_iwslt_de_en --share-decoder-input-output-embed \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' --clip-norm 0.0 \\\n    --lr 5e-4 --lr-scheduler inverse_sqrt --warmup-updates 4000 \\\n    --dropout 0.3 --weight-decay 0.0001 \\\n    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n    --max-tokens 4096 \\\n    --eval-bleu \\\n    --eval-bleu-args '{\"beam\": 5, \"max_len_a\": 1.2, \"max_len_b\": 10}' \\\n    --eval-bleu-detok moses \\\n    --eval-bleu-remove-bpe \\\n    --eval-bleu-print-samples \\\n    --best-checkpoint-metric bleu --maximize-best-checkpoint-metric\n```\n\nFinally we can evaluate our trained model:\n```bash\nfairseq-generate data-bin/iwslt14.tokenized.de-en \\\n    --path checkpoints/checkpoint_best.pt \\\n    --batch-size 128 --beam 5 --remove-bpe\n```\n\n### WMT'14 English to German (Convolutional)\n\nThe following instructions can be used to train a Convolutional translation model on the WMT English to German dataset.\nSee the [Scaling NMT README](../scaling_nmt/README.md) for instructions to train a Transformer translation model on this data.\n\nThe WMT English to German dataset can be preprocessed using the `prepare-wmt14en2de.sh` script.\nBy default it will produce a dataset that was modeled after [Attention Is All You Need (Vaswani et al., 2017)](https://arxiv.org/abs/1706.03762), but with additional news-commentary-v12 data from WMT'17.\n\nTo use only data available in WMT'14 or to replicate results obtained in the original [Convolutional Sequence to Sequence Learning (Gehring et al., 2017)](https://arxiv.org/abs/1705.03122) paper, please use the `--icml17` option.\n\n```bash\n# Download and prepare the data\ncd examples/translation/\n# WMT'17 data:\nbash prepare-wmt14en2de.sh\n# or to use WMT'14 data:\n# bash prepare-wmt14en2de.sh --icml17\ncd ../..\n\n# Binarize the dataset\nTEXT=examples/translation/wmt17_en_de\nfairseq-preprocess \\\n    --source-lang en --target-lang de \\\n    --trainpref $TEXT/train --validpref $TEXT/valid --testpref $TEXT/test \\\n    --destdir data-bin/wmt17_en_de --thresholdtgt 0 --thresholdsrc 0 \\\n    --workers 20\n\n# Train the model\nmkdir -p checkpoints/fconv_wmt_en_de\nfairseq-train \\\n    data-bin/wmt17_en_de \\\n    --arch fconv_wmt_en_de \\\n    --dropout 0.2 \\\n    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n    --optimizer nag --clip-norm 0.1 \\\n    --lr 0.5 --lr-scheduler fixed --force-anneal 50 \\\n    --max-tokens 4000 \\\n    --save-dir checkpoints/fconv_wmt_en_de\n\n# Evaluate\nfairseq-generate data-bin/wmt17_en_de \\\n    --path checkpoints/fconv_wmt_en_de/checkpoint_best.pt \\\n    --beam 5 --remove-bpe\n```\n\n### WMT'14 English to French\n```bash\n# Download and prepare the data\ncd examples/translation/\nbash prepare-wmt14en2fr.sh\ncd ../..\n\n# Binarize the dataset\nTEXT=examples/translation/wmt14_en_fr\nfairseq-preprocess \\\n    --source-lang en --target-lang fr \\\n    --trainpref $TEXT/train --validpref $TEXT/valid --testpref $TEXT/test \\\n    --destdir data-bin/wmt14_en_fr --thresholdtgt 0 --thresholdsrc 0 \\\n    --workers 60\n\n# Train the model\nmkdir -p checkpoints/fconv_wmt_en_fr\nfairseq-train \\\n    data-bin/wmt14_en_fr \\\n    --arch fconv_wmt_en_fr \\\n    --dropout 0.1 \\\n    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \\\n    --optimizer nag --clip-norm 0.1 \\\n    --lr 0.5 --lr-scheduler fixed --force-anneal 50 \\\n    --max-tokens 3000 \\\n    --save-dir checkpoints/fconv_wmt_en_fr\n\n# Evaluate\nfairseq-generate \\\n    data-bin/fconv_wmt_en_fr \\\n    --path checkpoints/fconv_wmt_en_fr/checkpoint_best.pt \\\n    --beam 5 --remove-bpe\n```\n\n## Multilingual Translation\n\nWe also support training multilingual translation models. In this example we'll\ntrain a multilingual `{de,fr}-en` translation model using the IWSLT'17 datasets.\n\nNote that we use slightly different preprocessing here than for the IWSLT'14\nEn-De data above. In particular we learn a joint BPE code for all three\nlanguages and use fairseq-interactive and sacrebleu for scoring the test set.\n\n```bash\n# First install sacrebleu and sentencepiece\npip install sacrebleu sentencepiece\n\n# Then download and preprocess the data\ncd examples/translation/\nbash prepare-iwslt17-multilingual.sh\ncd ../..\n\n# Binarize the de-en dataset\nTEXT=examples/translation/iwslt17.de_fr.en.bpe16k\nfairseq-preprocess --source-lang de --target-lang en \\\n    --trainpref $TEXT/train.bpe.de-en \\\n    --validpref $TEXT/valid0.bpe.de-en,$TEXT/valid1.bpe.de-en,$TEXT/valid2.bpe.de-en,$TEXT/valid3.bpe.de-en,$TEXT/valid4.bpe.de-en,$TEXT/valid5.bpe.de-en \\\n    --destdir data-bin/iwslt17.de_fr.en.bpe16k \\\n    --workers 10\n\n# Binarize the fr-en dataset\n# NOTE: it's important to reuse the en dictionary from the previous step\nfairseq-preprocess --source-lang fr --target-lang en \\\n    --trainpref $TEXT/train.bpe.fr-en \\\n    --validpref $TEXT/valid0.bpe.fr-en,$TEXT/valid1.bpe.fr-en,$TEXT/valid2.bpe.fr-en,$TEXT/valid3.bpe.fr-en,$TEXT/valid4.bpe.fr-en,$TEXT/valid5.bpe.fr-en \\\n    --tgtdict data-bin/iwslt17.de_fr.en.bpe16k/dict.en.txt \\\n    --destdir data-bin/iwslt17.de_fr.en.bpe16k \\\n    --workers 10\n\n# Train a multilingual transformer model\n# NOTE: the command below assumes 1 GPU, but accumulates gradients from\n#       8 fwd/bwd passes to simulate training on 8 GPUs\nmkdir -p checkpoints/multilingual_transformer\nCUDA_VISIBLE_DEVICES=0 fairseq-train data-bin/iwslt17.de_fr.en.bpe16k/ \\\n    --max-epoch 50 \\\n    --ddp-backend=legacy_ddp \\\n    --task multilingual_translation --lang-pairs de-en,fr-en \\\n    --arch multilingual_transformer_iwslt_de_en \\\n    --share-decoders --share-decoder-input-output-embed \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' \\\n    --lr 0.0005 --lr-scheduler inverse_sqrt \\\n    --warmup-updates 4000 --warmup-init-lr '1e-07' \\\n    --label-smoothing 0.1 --criterion label_smoothed_cross_entropy \\\n    --dropout 0.3 --weight-decay 0.0001 \\\n    --save-dir checkpoints/multilingual_transformer \\\n    --max-tokens 4000 \\\n    --update-freq 8\n\n# Generate and score the test set with sacrebleu\nSRC=de\nsacrebleu --test-set iwslt17 --language-pair ${SRC}-en --echo src \\\n    | python scripts/spm_encode.py --model examples/translation/iwslt17.de_fr.en.bpe16k/sentencepiece.bpe.model \\\n    > iwslt17.test.${SRC}-en.${SRC}.bpe\ncat iwslt17.test.${SRC}-en.${SRC}.bpe \\\n    | fairseq-interactive data-bin/iwslt17.de_fr.en.bpe16k/ \\\n      --task multilingual_translation --lang-pairs de-en,fr-en \\\n      --source-lang ${SRC} --target-lang en \\\n      --path checkpoints/multilingual_transformer/checkpoint_best.pt \\\n      --buffer-size 2000 --batch-size 128 \\\n      --beam 5 --remove-bpe=sentencepiece \\\n    > iwslt17.test.${SRC}-en.en.sys\ngrep ^H iwslt17.test.${SRC}-en.en.sys | cut -f3 \\\n    | sacrebleu --test-set iwslt17 --language-pair ${SRC}-en\n```\n\n##### Argument format during inference\n\nDuring inference it is required to specify a single `--source-lang` and\n`--target-lang`, which indicates the inference langauge direction.\n`--lang-pairs`, `--encoder-langtok`, `--decoder-langtok` have to be set to\nthe same value as training.\n"
  },
  {
    "path": "examples/translation/prepare-iwslt14.sh",
    "content": "#!/usr/bin/env bash\n#\n# Adapted from https://github.com/facebookresearch/MIXER/blob/master/prepareData.sh\n\necho 'Cloning Moses github repository (for tokenization scripts)...'\ngit clone https://github.com/moses-smt/mosesdecoder.git\n\necho 'Cloning Subword NMT repository (for BPE pre-processing)...'\ngit clone https://github.com/rsennrich/subword-nmt.git\n\nSCRIPTS=mosesdecoder/scripts\nTOKENIZER=$SCRIPTS/tokenizer/tokenizer.perl\nLC=$SCRIPTS/tokenizer/lowercase.perl\nCLEAN=$SCRIPTS/training/clean-corpus-n.perl\nBPEROOT=subword-nmt/subword_nmt\nBPE_TOKENS=10000\n\nURL=\"http://dl.fbaipublicfiles.com/fairseq/data/iwslt14/de-en.tgz\"\nGZ=de-en.tgz\n\nif [ ! -d \"$SCRIPTS\" ]; then\n    echo \"Please set SCRIPTS variable correctly to point to Moses scripts.\"\n    exit\nfi\n\nsrc=de\ntgt=en\nlang=de-en\nprep=iwslt14.tokenized.de-en\ntmp=$prep/tmp\norig=orig\n\nmkdir -p $orig $tmp $prep\n\necho \"Downloading data from ${URL}...\"\ncd $orig\nwget \"$URL\"\n\nif [ -f $GZ ]; then\n    echo \"Data successfully downloaded.\"\nelse\n    echo \"Data not successfully downloaded.\"\n    exit\nfi\n\ntar zxvf $GZ\ncd ..\n\necho \"pre-processing train data...\"\nfor l in $src $tgt; do\n    f=train.tags.$lang.$l\n    tok=train.tags.$lang.tok.$l\n\n    cat $orig/$lang/$f | \\\n    grep -v '<url>' | \\\n    grep -v '<talkid>' | \\\n    grep -v '<keywords>' | \\\n    sed -e 's/<title>//g' | \\\n    sed -e 's/<\\/title>//g' | \\\n    sed -e 's/<description>//g' | \\\n    sed -e 's/<\\/description>//g' | \\\n    perl $TOKENIZER -threads 8 -l $l > $tmp/$tok\n    echo \"\"\ndone\nperl $CLEAN -ratio 1.5 $tmp/train.tags.$lang.tok $src $tgt $tmp/train.tags.$lang.clean 1 175\nfor l in $src $tgt; do\n    perl $LC < $tmp/train.tags.$lang.clean.$l > $tmp/train.tags.$lang.$l\ndone\n\necho \"pre-processing valid/test data...\"\nfor l in $src $tgt; do\n    for o in `ls $orig/$lang/IWSLT14.TED*.$l.xml`; do\n    fname=${o##*/}\n    f=$tmp/${fname%.*}\n    echo $o $f\n    grep '<seg id' $o | \\\n        sed -e 's/<seg id=\"[0-9]*\">\\s*//g' | \\\n        sed -e 's/\\s*<\\/seg>\\s*//g' | \\\n        sed -e \"s/\\’/\\'/g\" | \\\n    perl $TOKENIZER -threads 8 -l $l | \\\n    perl $LC > $f\n    echo \"\"\n    done\ndone\n\n\necho \"creating train, valid, test...\"\nfor l in $src $tgt; do\n    awk '{if (NR%23 == 0)  print $0; }' $tmp/train.tags.de-en.$l > $tmp/valid.$l\n    awk '{if (NR%23 != 0)  print $0; }' $tmp/train.tags.de-en.$l > $tmp/train.$l\n\n    cat $tmp/IWSLT14.TED.dev2010.de-en.$l \\\n        $tmp/IWSLT14.TEDX.dev2012.de-en.$l \\\n        $tmp/IWSLT14.TED.tst2010.de-en.$l \\\n        $tmp/IWSLT14.TED.tst2011.de-en.$l \\\n        $tmp/IWSLT14.TED.tst2012.de-en.$l \\\n        > $tmp/test.$l\ndone\n\nTRAIN=$tmp/train.en-de\nBPE_CODE=$prep/code\nrm -f $TRAIN\nfor l in $src $tgt; do\n    cat $tmp/train.$l >> $TRAIN\ndone\n\necho \"learn_bpe.py on ${TRAIN}...\"\npython $BPEROOT/learn_bpe.py -s $BPE_TOKENS < $TRAIN > $BPE_CODE\n\nfor L in $src $tgt; do\n    for f in train.$L valid.$L test.$L; do\n        echo \"apply_bpe.py to ${f}...\"\n        python $BPEROOT/apply_bpe.py -c $BPE_CODE < $tmp/$f > $prep/$f\n    done\ndone\n"
  },
  {
    "path": "examples/translation/prepare-iwslt17-multilingual.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\nSRCS=(\n    \"de\"\n    \"fr\"\n)\nTGT=en\n\nROOT=$(dirname \"$0\")\nSCRIPTS=$ROOT/../../scripts\nSPM_TRAIN=$SCRIPTS/spm_train.py\nSPM_ENCODE=$SCRIPTS/spm_encode.py\n\nBPESIZE=16384\nORIG=$ROOT/iwslt17_orig\nDATA=$ROOT/iwslt17.de_fr.en.bpe16k\nmkdir -p \"$ORIG\" \"$DATA\"\n\nTRAIN_MINLEN=1  # remove sentences with <1 BPE token\nTRAIN_MAXLEN=250  # remove sentences with >250 BPE tokens\n\nURLS=(\n    \"https://wit3.fbk.eu/archive/2017-01-trnted/texts/de/en/de-en.tgz\"\n    \"https://wit3.fbk.eu/archive/2017-01-trnted/texts/fr/en/fr-en.tgz\"\n)\nARCHIVES=(\n    \"de-en.tgz\"\n    \"fr-en.tgz\"\n)\nVALID_SETS=(\n    \"IWSLT17.TED.dev2010.de-en IWSLT17.TED.tst2010.de-en IWSLT17.TED.tst2011.de-en IWSLT17.TED.tst2012.de-en IWSLT17.TED.tst2013.de-en IWSLT17.TED.tst2014.de-en IWSLT17.TED.tst2015.de-en\"\n    \"IWSLT17.TED.dev2010.fr-en IWSLT17.TED.tst2010.fr-en IWSLT17.TED.tst2011.fr-en IWSLT17.TED.tst2012.fr-en IWSLT17.TED.tst2013.fr-en IWSLT17.TED.tst2014.fr-en IWSLT17.TED.tst2015.fr-en\"\n)\n\n# download and extract data\nfor ((i=0;i<${#URLS[@]};++i)); do\n    ARCHIVE=$ORIG/${ARCHIVES[i]}\n    if [ -f \"$ARCHIVE\" ]; then\n        echo \"$ARCHIVE already exists, skipping download\"\n    else\n        URL=${URLS[i]}\n        wget -P \"$ORIG\" \"$URL\"\n        if [ -f \"$ARCHIVE\" ]; then\n            echo \"$URL successfully downloaded.\"\n        else\n            echo \"$URL not successfully downloaded.\"\n            exit 1\n        fi\n    fi\n    FILE=${ARCHIVE: -4}\n    if [ -e \"$FILE\" ]; then\n        echo \"$FILE already exists, skipping extraction\"\n    else\n        tar -C \"$ORIG\" -xzvf \"$ARCHIVE\"\n    fi\ndone\n\necho \"pre-processing train data...\"\nfor SRC in \"${SRCS[@]}\"; do\n    for LANG in \"${SRC}\" \"${TGT}\"; do\n        cat \"$ORIG/${SRC}-${TGT}/train.tags.${SRC}-${TGT}.${LANG}\" \\\n            | grep -v '<url>' \\\n            | grep -v '<talkid>' \\\n            | grep -v '<keywords>' \\\n            | grep -v '<speaker>' \\\n            | grep -v '<reviewer' \\\n            | grep -v '<translator' \\\n            | grep -v '<doc' \\\n            | grep -v '</doc>' \\\n            | sed -e 's/<title>//g' \\\n            | sed -e 's/<\\/title>//g' \\\n            | sed -e 's/<description>//g' \\\n            | sed -e 's/<\\/description>//g' \\\n            | sed 's/^\\s*//g' \\\n            | sed 's/\\s*$//g' \\\n            > \"$DATA/train.${SRC}-${TGT}.${LANG}\"\n    done\ndone\n\necho \"pre-processing valid data...\"\nfor ((i=0;i<${#SRCS[@]};++i)); do\n    SRC=${SRCS[i]}\n    VALID_SET=(${VALID_SETS[i]})\n    for ((j=0;j<${#VALID_SET[@]};++j)); do\n        FILE=${VALID_SET[j]}\n        for LANG in \"$SRC\" \"$TGT\"; do\n            grep '<seg id' \"$ORIG/${SRC}-${TGT}/${FILE}.${LANG}.xml\" \\\n                | sed -e 's/<seg id=\"[0-9]*\">\\s*//g' \\\n                | sed -e 's/\\s*<\\/seg>\\s*//g' \\\n                | sed -e \"s/\\’/\\'/g\" \\\n                > \"$DATA/valid${j}.${SRC}-${TGT}.${LANG}\"\n        done\n    done\ndone\n\n# learn BPE with sentencepiece\nTRAIN_FILES=$(for SRC in \"${SRCS[@]}\"; do echo $DATA/train.${SRC}-${TGT}.${SRC}; echo $DATA/train.${SRC}-${TGT}.${TGT}; done | tr \"\\n\" \",\")\necho \"learning joint BPE over ${TRAIN_FILES}...\"\npython \"$SPM_TRAIN\" \\\n    --input=$TRAIN_FILES \\\n    --model_prefix=$DATA/sentencepiece.bpe \\\n    --vocab_size=$BPESIZE \\\n    --character_coverage=1.0 \\\n    --model_type=bpe\n\n# encode train/valid\necho \"encoding train with learned BPE...\"\nfor SRC in \"${SRCS[@]}\"; do\n    python \"$SPM_ENCODE\" \\\n        --model \"$DATA/sentencepiece.bpe.model\" \\\n        --output_format=piece \\\n        --inputs $DATA/train.${SRC}-${TGT}.${SRC} $DATA/train.${SRC}-${TGT}.${TGT} \\\n        --outputs $DATA/train.bpe.${SRC}-${TGT}.${SRC} $DATA/train.bpe.${SRC}-${TGT}.${TGT} \\\n        --min-len $TRAIN_MINLEN --max-len $TRAIN_MAXLEN\ndone\n\necho \"encoding valid with learned BPE...\"\nfor ((i=0;i<${#SRCS[@]};++i)); do\n    SRC=${SRCS[i]}\n    VALID_SET=(${VALID_SETS[i]})\n    for ((j=0;j<${#VALID_SET[@]};++j)); do\n        python \"$SPM_ENCODE\" \\\n            --model \"$DATA/sentencepiece.bpe.model\" \\\n            --output_format=piece \\\n            --inputs $DATA/valid${j}.${SRC}-${TGT}.${SRC} $DATA/valid${j}.${SRC}-${TGT}.${TGT} \\\n            --outputs $DATA/valid${j}.bpe.${SRC}-${TGT}.${SRC} $DATA/valid${j}.bpe.${SRC}-${TGT}.${TGT}\n    done\ndone\n"
  },
  {
    "path": "examples/translation/prepare-wmt14en2de.sh",
    "content": "#!/bin/bash\n# Adapted from https://github.com/facebookresearch/MIXER/blob/master/prepareData.sh\n\necho 'Cloning Moses github repository (for tokenization scripts)...'\ngit clone https://github.com/moses-smt/mosesdecoder.git\n\necho 'Cloning Subword NMT repository (for BPE pre-processing)...'\ngit clone https://github.com/rsennrich/subword-nmt.git\n\nSCRIPTS=mosesdecoder/scripts\nTOKENIZER=$SCRIPTS/tokenizer/tokenizer.perl\nCLEAN=$SCRIPTS/training/clean-corpus-n.perl\nNORM_PUNC=$SCRIPTS/tokenizer/normalize-punctuation.perl\nREM_NON_PRINT_CHAR=$SCRIPTS/tokenizer/remove-non-printing-char.perl\nBPEROOT=subword-nmt/subword_nmt\nBPE_TOKENS=40000\n\nURLS=(\n    \"http://statmt.org/wmt13/training-parallel-europarl-v7.tgz\"\n    \"http://statmt.org/wmt13/training-parallel-commoncrawl.tgz\"\n    \"http://data.statmt.org/wmt17/translation-task/training-parallel-nc-v12.tgz\"\n    \"http://data.statmt.org/wmt17/translation-task/dev.tgz\"\n    \"http://statmt.org/wmt14/test-full.tgz\"\n)\nFILES=(\n    \"training-parallel-europarl-v7.tgz\"\n    \"training-parallel-commoncrawl.tgz\"\n    \"training-parallel-nc-v12.tgz\"\n    \"dev.tgz\"\n    \"test-full.tgz\"\n)\nCORPORA=(\n    \"training/europarl-v7.de-en\"\n    \"commoncrawl.de-en\"\n    \"training/news-commentary-v12.de-en\"\n)\n\n# This will make the dataset compatible to the one used in \"Convolutional Sequence to Sequence Learning\"\n# https://arxiv.org/abs/1705.03122\nif [ \"$1\" == \"--icml17\" ]; then\n    URLS[2]=\"http://statmt.org/wmt14/training-parallel-nc-v9.tgz\"\n    FILES[2]=\"training-parallel-nc-v9.tgz\"\n    CORPORA[2]=\"training/news-commentary-v9.de-en\"\n    OUTDIR=wmt14_en_de\nelse\n    OUTDIR=wmt17_en_de\nfi\n\nif [ ! -d \"$SCRIPTS\" ]; then\n    echo \"Please set SCRIPTS variable correctly to point to Moses scripts.\"\n    exit\nfi\n\nsrc=en\ntgt=de\nlang=en-de\nprep=$OUTDIR\ntmp=$prep/tmp\norig=orig\ndev=dev/newstest2013\n\nmkdir -p $orig $tmp $prep\n\ncd $orig\n\nfor ((i=0;i<${#URLS[@]};++i)); do\n    file=${FILES[i]}\n    if [ -f $file ]; then\n        echo \"$file already exists, skipping download\"\n    else\n        url=${URLS[i]}\n        wget \"$url\"\n        if [ -f $file ]; then\n            echo \"$url successfully downloaded.\"\n        else\n            echo \"$url not successfully downloaded.\"\n            exit -1\n        fi\n        if [ ${file: -4} == \".tgz\" ]; then\n            tar zxvf $file\n        elif [ ${file: -4} == \".tar\" ]; then\n            tar xvf $file\n        fi\n    fi\ndone\ncd ..\n\necho \"pre-processing train data...\"\nfor l in $src $tgt; do\n    rm $tmp/train.tags.$lang.tok.$l\n    for f in \"${CORPORA[@]}\"; do\n        cat $orig/$f.$l | \\\n            perl $NORM_PUNC $l | \\\n            perl $REM_NON_PRINT_CHAR | \\\n            perl $TOKENIZER -threads 8 -a -l $l >> $tmp/train.tags.$lang.tok.$l\n    done\ndone\n\necho \"pre-processing test data...\"\nfor l in $src $tgt; do\n    if [ \"$l\" == \"$src\" ]; then\n        t=\"src\"\n    else\n        t=\"ref\"\n    fi\n    grep '<seg id' $orig/test-full/newstest2014-deen-$t.$l.sgm | \\\n        sed -e 's/<seg id=\"[0-9]*\">\\s*//g' | \\\n        sed -e 's/\\s*<\\/seg>\\s*//g' | \\\n        sed -e \"s/\\’/\\'/g\" | \\\n    perl $TOKENIZER -threads 8 -a -l $l > $tmp/test.$l\n    echo \"\"\ndone\n\necho \"splitting train and valid...\"\nfor l in $src $tgt; do\n    awk '{if (NR%100 == 0)  print $0; }' $tmp/train.tags.$lang.tok.$l > $tmp/valid.$l\n    awk '{if (NR%100 != 0)  print $0; }' $tmp/train.tags.$lang.tok.$l > $tmp/train.$l\ndone\n\nTRAIN=$tmp/train.de-en\nBPE_CODE=$prep/code\nrm -f $TRAIN\nfor l in $src $tgt; do\n    cat $tmp/train.$l >> $TRAIN\ndone\n\necho \"learn_bpe.py on ${TRAIN}...\"\npython $BPEROOT/learn_bpe.py -s $BPE_TOKENS < $TRAIN > $BPE_CODE\n\nfor L in $src $tgt; do\n    for f in train.$L valid.$L test.$L; do\n        echo \"apply_bpe.py to ${f}...\"\n        python $BPEROOT/apply_bpe.py -c $BPE_CODE < $tmp/$f > $tmp/bpe.$f\n    done\ndone\n\nperl $CLEAN -ratio 1.5 $tmp/bpe.train $src $tgt $prep/train 1 250\nperl $CLEAN -ratio 1.5 $tmp/bpe.valid $src $tgt $prep/valid 1 250\n\nfor L in $src $tgt; do\n    cp $tmp/bpe.test.$L $prep/test.$L\ndone\n"
  },
  {
    "path": "examples/translation/prepare-wmt14en2fr.sh",
    "content": "#!/bin/bash\n# Adapted from https://github.com/facebookresearch/MIXER/blob/master/prepareData.sh\n\necho 'Cloning Moses github repository (for tokenization scripts)...'\ngit clone https://github.com/moses-smt/mosesdecoder.git\n\necho 'Cloning Subword NMT repository (for BPE pre-processing)...'\ngit clone https://github.com/rsennrich/subword-nmt.git\n\nSCRIPTS=mosesdecoder/scripts\nTOKENIZER=$SCRIPTS/tokenizer/tokenizer.perl\nCLEAN=$SCRIPTS/training/clean-corpus-n.perl\nNORM_PUNC=$SCRIPTS/tokenizer/normalize-punctuation.perl\nREM_NON_PRINT_CHAR=$SCRIPTS/tokenizer/remove-non-printing-char.perl\nBPEROOT=subword-nmt/subword_nmt\nBPE_TOKENS=40000\n\nURLS=(\n    \"http://statmt.org/wmt13/training-parallel-europarl-v7.tgz\"\n    \"http://statmt.org/wmt13/training-parallel-commoncrawl.tgz\"\n    \"http://statmt.org/wmt13/training-parallel-un.tgz\"\n    \"http://statmt.org/wmt14/training-parallel-nc-v9.tgz\"\n    \"http://statmt.org/wmt10/training-giga-fren.tar\"\n    \"http://statmt.org/wmt14/test-full.tgz\"\n)\nFILES=(\n    \"training-parallel-europarl-v7.tgz\"\n    \"training-parallel-commoncrawl.tgz\"\n    \"training-parallel-un.tgz\"\n    \"training-parallel-nc-v9.tgz\"\n    \"training-giga-fren.tar\"\n    \"test-full.tgz\"\n)\nCORPORA=(\n    \"training/europarl-v7.fr-en\"\n    \"commoncrawl.fr-en\"\n    \"un/undoc.2000.fr-en\"\n    \"training/news-commentary-v9.fr-en\"\n    \"giga-fren.release2.fixed\"\n)\n\nif [ ! -d \"$SCRIPTS\" ]; then\n    echo \"Please set SCRIPTS variable correctly to point to Moses scripts.\"\n    exit\nfi\n\nsrc=en\ntgt=fr\nlang=en-fr\nprep=wmt14_en_fr\ntmp=$prep/tmp\norig=orig\n\nmkdir -p $orig $tmp $prep\n\ncd $orig\n\nfor ((i=0;i<${#URLS[@]};++i)); do\n    file=${FILES[i]}\n    if [ -f $file ]; then\n        echo \"$file already exists, skipping download\"\n    else\n        url=${URLS[i]}\n        wget \"$url\"\n        if [ -f $file ]; then\n            echo \"$url successfully downloaded.\"\n        else\n            echo \"$url not successfully downloaded.\"\n            exit -1\n        fi\n        if [ ${file: -4} == \".tgz\" ]; then\n            tar zxvf $file\n        elif [ ${file: -4} == \".tar\" ]; then\n            tar xvf $file\n        fi\n    fi\ndone\n\ngunzip giga-fren.release2.fixed.*.gz\ncd ..\n\necho \"pre-processing train data...\"\nfor l in $src $tgt; do\n    rm $tmp/train.tags.$lang.tok.$l\n    for f in \"${CORPORA[@]}\"; do\n        cat $orig/$f.$l | \\\n            perl $NORM_PUNC $l | \\\n            perl $REM_NON_PRINT_CHAR | \\\n            perl $TOKENIZER -threads 8 -a -l $l >> $tmp/train.tags.$lang.tok.$l\n    done\ndone\n\necho \"pre-processing test data...\"\nfor l in $src $tgt; do\n    if [ \"$l\" == \"$src\" ]; then\n        t=\"src\"\n    else\n        t=\"ref\"\n    fi\n    grep '<seg id' $orig/test-full/newstest2014-fren-$t.$l.sgm | \\\n        sed -e 's/<seg id=\"[0-9]*\">\\s*//g' | \\\n        sed -e 's/\\s*<\\/seg>\\s*//g' | \\\n        sed -e \"s/\\’/\\'/g\" | \\\n    perl $TOKENIZER -threads 8 -a -l $l > $tmp/test.$l\n    echo \"\"\ndone\n\necho \"splitting train and valid...\"\nfor l in $src $tgt; do\n    awk '{if (NR%1333 == 0)  print $0; }' $tmp/train.tags.$lang.tok.$l > $tmp/valid.$l\n    awk '{if (NR%1333 != 0)  print $0; }' $tmp/train.tags.$lang.tok.$l > $tmp/train.$l\ndone\n\nTRAIN=$tmp/train.fr-en\nBPE_CODE=$prep/code\nrm -f $TRAIN\nfor l in $src $tgt; do\n    cat $tmp/train.$l >> $TRAIN\ndone\n\necho \"learn_bpe.py on ${TRAIN}...\"\npython $BPEROOT/learn_bpe.py -s $BPE_TOKENS < $TRAIN > $BPE_CODE\n\nfor L in $src $tgt; do\n    for f in train.$L valid.$L test.$L; do\n        echo \"apply_bpe.py to ${f}...\"\n        python $BPEROOT/apply_bpe.py -c $BPE_CODE < $tmp/$f > $tmp/bpe.$f\n    done\ndone\n\nperl $CLEAN -ratio 1.5 $tmp/bpe.train $src $tgt $prep/train 1 250\nperl $CLEAN -ratio 1.5 $tmp/bpe.valid $src $tgt $prep/valid 1 250\n\nfor L in $src $tgt; do\n    cp $tmp/bpe.test.$L $prep/test.$L\ndone\n"
  },
  {
    "path": "examples/translation_moe/README.md",
    "content": "# Mixture Models for Diverse Machine Translation: Tricks of the Trade (Shen et al., 2019)\n\nThis page includes instructions for reproducing results from the paper [Mixture Models for Diverse Machine Translation: Tricks of the Trade (Shen et al., 2019)](https://arxiv.org/abs/1902.07816).\n\n## Download data\n\nFirst, follow the [instructions to download and preprocess the WMT'17 En-De dataset](../translation#prepare-wmt14en2desh).\nMake sure to learn a joint vocabulary by passing the `--joined-dictionary` option to `fairseq-preprocess`.\n\n## Train a model\n\nThen we can train a mixture of experts model using the `translation_moe` task.\nUse the `--method` flag to choose the MoE variant; we support hard mixtures with a learned or uniform prior (`--method hMoElp` and `hMoEup`, respectively) and soft mixures (`--method sMoElp` and `sMoEup`).\nThe model is trained with online responsibility assignment and shared parameterization.\n\nThe following command will train a `hMoElp` model with `3` experts:\n```bash\nfairseq-train --ddp-backend='legacy_ddp' \\\n    data-bin/wmt17_en_de \\\n    --max-update 100000 \\\n    --task translation_moe --user-dir examples/translation_moe/translation_moe_src \\\n    --method hMoElp --mean-pool-gating-network \\\n    --num-experts 3 \\\n    --arch transformer_wmt_en_de --share-all-embeddings \\\n    --optimizer adam --adam-betas '(0.9, 0.98)' --clip-norm 0.0 \\\n    --lr-scheduler inverse_sqrt --warmup-init-lr 1e-07 --warmup-updates 4000 \\\n    --lr 0.0007 \\\n    --dropout 0.1 --weight-decay 0.0 --criterion cross_entropy \\\n    --max-tokens 3584\n```\n\n## Translate\n\nOnce a model is trained, we can generate translations from different experts using the `--gen-expert` option.\nFor example, to generate from expert 0:\n```bash\nfairseq-generate data-bin/wmt17_en_de \\\n    --path checkpoints/checkpoint_best.pt \\\n    --beam 1 --remove-bpe \\\n    --task translation_moe --user-dir examples/translation_moe/translation_moe_src \\\n    --method hMoElp --mean-pool-gating-network \\\n    --num-experts 3 \\\n    --gen-expert 0\n```\n\n## Evaluate\n\nFirst download a tokenized version of the WMT'14 En-De test set with multiple references:\n```bash\nwget dl.fbaipublicfiles.com/fairseq/data/wmt14-en-de.extra_refs.tok\n```\n\nNext apply BPE on the fly and run generation for each expert:\n```bash\nBPE_CODE=examples/translation/wmt17_en_de/code\nfor EXPERT in $(seq 0 2); do \\\n    cat wmt14-en-de.extra_refs.tok \\\n    | grep ^S | cut -f 2 \\\n    | fairseq-interactive data-bin/wmt17_en_de \\\n        --path checkpoints/checkpoint_best.pt \\\n        --beam 1 \\\n        --bpe subword_nmt --bpe-codes $BPE_CODE \\\n        --buffer-size 500 --max-tokens 6000 \\\n        --task translation_moe --user-dir examples/translation_moe/translation_moe_src \\\n        --method hMoElp --mean-pool-gating-network \\\n        --num-experts 3 \\\n        --gen-expert $EXPERT ; \\\ndone > wmt14-en-de.extra_refs.tok.gen.3experts\n```\n\nFinally use `score_moe.py` to compute pairwise BLUE and average oracle BLEU:\n```bash\npython examples/translation_moe/score.py --sys wmt14-en-de.extra_refs.tok.gen.3experts --ref wmt14-en-de.extra_refs.tok\n# pairwise BLEU: 48.26\n# #refs covered: 2.11\n# multi-reference BLEU (leave-one-out): 59.46\n```\nThis matches row 3 from Table 7 in the paper.\n\n## Citation\n\n```bibtex\n@article{shen2019mixture,\n  title = {Mixture Models for Diverse Machine Translation: Tricks of the Trade},\n  author = {Tianxiao Shen and Myle Ott and Michael Auli and Marc'Aurelio Ranzato},\n  journal = {International Conference on Machine Learning},\n  year = 2019,\n}\n```\n"
  },
  {
    "path": "examples/translation_moe/score.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nScoring script for computing pairwise BLEU and multi-ref BLEU over a set of\ncandidate hypotheses.\n\nSee `\"Mixture Models for Diverse Machine Translation: Tricks of the Trade\"\n(Shen et al., 2019) <https://arxiv.org/abs/1902.07816>`_.\n\"\"\"\n\nimport argparse\nimport random\nimport sys\nfrom itertools import chain\n\nimport numpy as np\nimport sacrebleu\nfrom sacrebleu import corpus_bleu as _corpus_bleu\n\ndef main():\n    parser = argparse.ArgumentParser(sys.argv[0])\n    parser.add_argument(\n        \"--sys\", nargs=\"*\", default=\"\", metavar=\"FILE\", help=\"path to system output\"\n    )\n    parser.add_argument(\"--ref\", default=\"\", metavar=\"FILE\", help=\"path to references\")\n    parser.add_argument(\n        \"--output\",\n        default=\"\",\n        metavar=\"FILE\",\n        help=\"print outputs into a pretty format\",\n    )\n    args = parser.parse_args()\n\n    if args.sys:\n        src, tgt, hypos, log_probs = load_sys(args.sys)\n        print(\"pairwise BLEU: %.2f\" % pairwise(hypos))\n        if args.output:\n            merge(src, tgt, hypos, log_probs, args.output)\n\n    if args.ref:\n        _, _, refs = load_ref(args.ref)\n        if args.sys:\n            multi_ref(refs, hypos)\n        else:\n            intra_ref(refs)\n\n\ndef dictolist(d):\n    a = sorted(d.items(), key=lambda i: i[0])\n    return [i[1] for i in a]\n\n\ndef load_sys(paths):\n    src, tgt, hypos, log_probs = {}, {}, {}, {}\n    for path in paths:\n        with open(path) as f:\n            for line in f:\n                line = line.rstrip()\n                # S: source\n                # T: target\n                # D: detokenized system output\n                if line.startswith((\"S-\", \"T-\", \"D-\")):\n                    i = int(line[line.find(\"-\") + 1 : line.find(\"\\t\")])\n                    if line.startswith(\"S-\"):\n                        src[i] = line.split(\"\\t\")[1]\n                    if line.startswith(\"T-\"):\n                        tgt[i] = line.split(\"\\t\")[1]\n                    if line.startswith(\"D-\"):\n                        if i not in hypos:\n                            hypos[i] = []\n                            log_probs[i] = []\n                        hypos[i].append(line.split(\"\\t\")[2])\n                        log_probs[i].append(float(line.split(\"\\t\")[1]))\n    return dictolist(src), dictolist(tgt), dictolist(hypos), dictolist(log_probs)\n\n\ndef load_ref(path):\n    with open(path) as f:\n        lines = f.readlines()\n    src, tgt, refs = [], [], []\n    i = 0\n    while i < len(lines):\n        if lines[i].startswith(\"S-\"):\n            src.append(lines[i].split(\"\\t\")[1].rstrip())\n            i += 1\n        elif lines[i].startswith(\"T-\"):\n            tgt.append(lines[i].split(\"\\t\")[1].rstrip())\n            i += 1\n        else:\n            a = []\n            while i < len(lines) and lines[i].startswith(\"R\"):\n                a.append(lines[i].split(\"\\t\")[1].rstrip())\n                i += 1\n            refs.append(a)\n    return src, tgt, refs\n\n\ndef merge(src, tgt, hypos, log_probs, path):\n    with open(path, \"w\") as f:\n        for s, t, hs, lps in zip(src, tgt, hypos, log_probs):\n            f.write(s + \"\\n\")\n            f.write(t + \"\\n\")\n            f.write(\"\\n\")\n            for h, lp in zip(hs, lps):\n                f.write(\"\\t%f\\t%s\\n\" % (lp, h.strip()))\n            f.write(\"------------------------------------------------------\\n\")\n\n\ndef corpus_bleu(sys_stream, ref_streams):\n    bleu = _corpus_bleu(sys_stream, ref_streams, tokenize=\"none\")\n    return bleu.score\n\n\ndef sentence_bleu(hypothesis, reference):\n    bleu = _corpus_bleu(hypothesis, reference)\n    for i in range(1, 4):\n        bleu.counts[i] += 1\n        bleu.totals[i] += 1\n    bleu = sacrebleu.BLEU.compute_bleu(\n        bleu.counts,\n        bleu.totals,\n        bleu.sys_len,\n        bleu.ref_len,\n        smooth_method=\"exp\",\n    )\n    return bleu.score\n\n\ndef pairwise(sents):\n    _ref, _hypo = [], []\n    for s in sents:\n        for i in range(len(s)):\n            for j in range(len(s)):\n                if i != j:\n                    _ref.append(s[i])\n                    _hypo.append(s[j])\n    return corpus_bleu(_hypo, [_ref])\n\n\ndef multi_ref(refs, hypos):\n    _ref, _hypo = [], []\n    ref_cnt = 0\n    assert len(refs) == len(hypos)\n\n    # count number of refs covered\n    for rs, hs in zip(refs, hypos):\n        a = set()\n        for h in hs:\n            s = [sentence_bleu(h, r) for r in rs]\n            j = np.argmax(s)\n            _ref.append(rs[j])\n            _hypo.append(h)\n            best = [k for k in range(len(rs)) if s[k] == s[j]]\n            a.add(random.choice(best))\n        ref_cnt += len(a)\n    print(\"#refs covered: %.2f\" % (ref_cnt / len(refs)))\n\n    # transpose refs and hypos\n    refs = list(zip(*refs))\n    hypos = list(zip(*hypos))\n\n    # compute multi-ref corpus BLEU (leave-one-out to be comparable to intra_ref)\n    k = len(hypos)\n    m = len(refs)\n    flat_hypos = [hypos[j][i] for i in range(len(hypos[0])) for j in range(k)]\n    duplicated_refs = [[ref for ref in refs_i for _ in range(k)] for refs_i in refs]\n    loo_bleus = []\n    for held_out_ref in range(m):\n        remaining_refs = (\n            duplicated_refs[:held_out_ref] + duplicated_refs[held_out_ref + 1 :]\n        )\n        assert len(remaining_refs) == m - 1\n        loo_bleus.append(corpus_bleu(flat_hypos, remaining_refs))\n    print(\"average multi-reference BLEU (leave-one-out): %.2f\" % np.mean(loo_bleus))\n\n\ndef intra_ref(refs):\n    print(\"ref pairwise BLEU: %.2f\" % pairwise(refs))\n    refs = list(zip(*refs))\n    m = len(refs)\n    concat_h = []\n    concat_rest = [[] for j in range(m - 1)]\n    for i, h in enumerate(refs):\n        rest = refs[:i] + refs[i + 1 :]\n        concat_h.append(h)\n        for j in range(m - 1):\n            concat_rest[j].extend(rest[j])\n    concat_h = list(chain.from_iterable(concat_h))\n    bleu = corpus_bleu(concat_h, concat_rest)\n    print(\"multi-reference BLEU (leave-one-out): %.2f\" % bleu)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/translation_moe/translation_moe_src/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import translation_moe  # noqa\n"
  },
  {
    "path": "examples/translation_moe/translation_moe_src/logsumexp_moe.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\n\nclass LogSumExpMoE(torch.autograd.Function):\n    \"\"\"Standard LogSumExp forward pass, but use *posterior* for the backward.\n\n    See `\"Mixture Models for Diverse Machine Translation: Tricks of the Trade\"\n    (Shen et al., 2019) <https://arxiv.org/abs/1902.07816>`_.\n    \"\"\"\n\n    @staticmethod\n    def forward(ctx, logp, posterior, dim=-1):\n        ctx.save_for_backward(posterior)\n        ctx.dim = dim\n        return torch.logsumexp(logp, dim=dim)\n\n    @staticmethod\n    def backward(ctx, grad_output):\n        (posterior,) = ctx.saved_tensors\n        grad_logp = grad_output.unsqueeze(ctx.dim) * posterior\n        return grad_logp, None, None\n"
  },
  {
    "path": "examples/translation_moe/translation_moe_src/mean_pool_gating_network.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn.functional as F\n\n\nclass MeanPoolGatingNetwork(torch.nn.Module):\n    \"\"\"A simple mean-pooling gating network for selecting experts.\n\n    This module applies mean pooling over an encoder's output and returns\n    reponsibilities for each expert. The encoder format is expected to match\n    :class:`fairseq.models.transformer.TransformerEncoder`.\n    \"\"\"\n\n    def __init__(self, embed_dim, num_experts, dropout=None):\n        super().__init__()\n        self.embed_dim = embed_dim\n        self.num_experts = num_experts\n\n        self.fc1 = torch.nn.Linear(embed_dim, embed_dim)\n        self.dropout = torch.nn.Dropout(dropout) if dropout is not None else None\n        self.fc2 = torch.nn.Linear(embed_dim, num_experts)\n\n    def forward(self, encoder_out):\n        if not (\n            \"encoder_out\" in encoder_out\n            and \"encoder_padding_mask\" in encoder_out\n            and encoder_out[\"encoder_out\"][0].size(2) == self.embed_dim\n        ):\n            raise ValueError(\"Unexpected format for encoder_out\")\n\n        # mean pooling over time\n        encoder_padding_mask = encoder_out[\"encoder_padding_mask\"][0]  # B x T\n        encoder_out = encoder_out[\"encoder_out\"][0].transpose(0, 1)    # B x T x C\n        if encoder_padding_mask is not None:\n            encoder_out = encoder_out.clone()  # required because of transpose above\n            encoder_out[encoder_padding_mask] = 0\n            ntokens = torch.sum(~encoder_padding_mask, dim=1, keepdim=True)\n            x = torch.sum(encoder_out, dim=1) / ntokens.type_as(encoder_out)\n        else:\n            x = torch.mean(encoder_out, dim=1)\n\n        x = torch.tanh(self.fc1(x))\n        if self.dropout is not None:\n            x = self.dropout(x)\n        x = self.fc2(x)\n        return F.log_softmax(x, dim=-1, dtype=torch.float32).type_as(x)\n"
  },
  {
    "path": "examples/translation_moe/translation_moe_src/translation_moe.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\nimport torch\nfrom omegaconf import II\n\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.dataclass import ChoiceEnum\nfrom fairseq.tasks import register_task\nfrom fairseq.tasks.translation import TranslationConfig, TranslationTask\n\nfrom .logsumexp_moe import LogSumExpMoE\nfrom .mean_pool_gating_network import MeanPoolGatingNetwork\n\n\nMETHOD_CHOICES = ChoiceEnum([\"sMoElp\", \"sMoEup\", \"hMoElp\", \"hMoEup\"])\n\n\n@dataclass\nclass TranslationMoEConfig(TranslationConfig):\n    method: METHOD_CHOICES = field(\n        default=\"hMoEup\",\n        metadata={\"help\": \"MoE method\"},\n    )\n    num_experts: int = field(\n        default=3,\n        metadata={\"help\": \"number of experts\"},\n    )\n    mean_pool_gating_network: bool = field(\n        default=False,\n        metadata={\"help\": \"use a simple mean-pooling gating network\"},\n    )\n    mean_pool_gating_network_dropout: float = field(\n        default=0,\n        metadata={\"help\": \"dropout for mean-pooling gating network\"},\n    )\n    mean_pool_gating_network_encoder_dim: int = field(\n        default=0,\n        metadata={\"help\": \"encoder output dim for mean-pooling gating network\"},\n    )\n    gen_expert: int = field(\n        default=0,\n        metadata={\"help\": \"which expert to use for generation\"},\n    )\n    sentence_avg: bool = II(\"optimization.sentence_avg\")\n\n\n@register_task(\"translation_moe\", dataclass=TranslationMoEConfig)\nclass TranslationMoETask(TranslationTask):\n    \"\"\"\n    Translation task for Mixture of Experts (MoE) models.\n\n    See `\"Mixture Models for Diverse Machine Translation: Tricks of the Trade\"\n    (Shen et al., 2019) <https://arxiv.org/abs/1902.07816>`_.\n\n    Args:\n        src_dict (~fairseq.data.Dictionary): dictionary for the source language\n        tgt_dict (~fairseq.data.Dictionary): dictionary for the target language\n\n    .. note::\n\n        The translation task is compatible with :mod:`fairseq-train`,\n        :mod:`fairseq-generate` and :mod:`fairseq-interactive`.\n\n    The translation task provides the following additional command-line\n    arguments:\n\n    .. argparse::\n        :ref: fairseq.tasks.translation_parser\n        :prog:\n    \"\"\"\n\n    cfg: TranslationMoEConfig\n\n    def __init__(self, cfg: TranslationMoEConfig, src_dict, tgt_dict):\n        if cfg.method == \"sMoElp\":\n            # soft MoE with learned prior\n            self.uniform_prior = False\n            self.hard_selection = False\n        elif cfg.method == \"sMoEup\":\n            # soft MoE with uniform prior\n            self.uniform_prior = True\n            self.hard_selection = False\n        elif cfg.method == \"hMoElp\":\n            # hard MoE with learned prior\n            self.uniform_prior = False\n            self.hard_selection = True\n        elif cfg.method == \"hMoEup\":\n            # hard MoE with uniform prior\n            self.uniform_prior = True\n            self.hard_selection = True\n\n        # add indicator tokens for each expert\n        for i in range(cfg.num_experts):\n            # add to both dictionaries in case we're sharing embeddings\n            src_dict.add_symbol(\"<expert_{}>\".format(i))\n            tgt_dict.add_symbol(\"<expert_{}>\".format(i))\n\n        super().__init__(cfg, src_dict, tgt_dict)\n\n    def build_model(self, cfg, from_checkpoint=False):\n        from fairseq import models\n\n        model = models.build_model(cfg, self)\n        if not self.uniform_prior and not hasattr(model, \"gating_network\"):\n            if self.cfg.mean_pool_gating_network:\n                if self.cfg.mean_pool_gating_network_encoder_dim > 0:\n                    encoder_dim = self.cfg.mean_pool_gating_network_encoder_dim\n                elif getattr(cfg, \"encoder_embed_dim\", None):\n                    # assume that encoder_embed_dim is the encoder's output dimension\n                    encoder_dim = cfg.encoder_embed_dim\n                else:\n                    raise ValueError(\n                        \"Must specify --mean-pool-gating-network-encoder-dim\"\n                    )\n\n                if self.cfg.mean_pool_gating_network_dropout > 0:\n                    dropout = self.cfg.mean_pool_gating_network_dropout\n                elif getattr(cfg, \"dropout\", None):\n                    dropout = cfg.dropout\n                else:\n                    raise ValueError(\"Must specify task.mean_pool_gating_network_dropout\")\n\n                model.gating_network = MeanPoolGatingNetwork(\n                    encoder_dim,\n                    self.cfg.num_experts,\n                    dropout,\n                )\n            else:\n                raise ValueError(\n                    \"translation_moe task with learned prior requires the model to \"\n                    \"have a gating network; try using --mean-pool-gating-network\"\n                )\n        return model\n\n    def expert_index(self, i):\n        return i + self.tgt_dict.index(\"<expert_0>\")\n\n    def _get_loss(self, sample, model, criterion):\n        assert hasattr(\n            criterion, \"compute_loss\"\n        ), \"translation_moe task requires the criterion to implement the compute_loss() method\"\n\n        k = self.cfg.num_experts\n        bsz = sample[\"target\"].size(0)\n\n        def get_lprob_y(encoder_out, prev_output_tokens_k):\n            net_output = model.decoder(\n                prev_output_tokens=prev_output_tokens_k,\n                encoder_out=encoder_out,\n            )\n            loss, _ = criterion.compute_loss(model, net_output, sample, reduce=False)\n            loss = loss.view(bsz, -1)\n            return -loss.sum(dim=1, keepdim=True)  # -> B x 1\n\n        def get_lprob_yz(winners=None):\n            encoder_out = model.encoder(\n                src_tokens=sample[\"net_input\"][\"src_tokens\"],\n                src_lengths=sample[\"net_input\"][\"src_lengths\"],\n            )\n\n            if winners is None:\n                lprob_y = []\n                for i in range(k):\n                    prev_output_tokens_k = sample[\"net_input\"][\n                        \"prev_output_tokens\"\n                    ].clone()\n                    assert not prev_output_tokens_k.requires_grad\n                    prev_output_tokens_k[:, 0] = self.expert_index(i)\n                    lprob_y.append(get_lprob_y(encoder_out, prev_output_tokens_k))\n                lprob_y = torch.cat(lprob_y, dim=1)  # -> B x K\n            else:\n                prev_output_tokens_k = sample[\"net_input\"][\"prev_output_tokens\"].clone()\n                prev_output_tokens_k[:, 0] = self.expert_index(winners)\n                lprob_y = get_lprob_y(encoder_out, prev_output_tokens_k)  # -> B\n\n            if self.uniform_prior:\n                lprob_yz = lprob_y\n            else:\n                lprob_z = model.gating_network(encoder_out)  # B x K\n                if winners is not None:\n                    lprob_z = lprob_z.gather(dim=1, index=winners.unsqueeze(-1))\n                lprob_yz = lprob_y + lprob_z.type_as(lprob_y)  # B x K\n\n            return lprob_yz\n\n        # compute responsibilities without dropout\n        with utils.model_eval(model):  # disable dropout\n            with torch.no_grad():  # disable autograd\n                lprob_yz = get_lprob_yz()  # B x K\n                prob_z_xy = torch.nn.functional.softmax(lprob_yz, dim=1)\n        assert not prob_z_xy.requires_grad\n\n        # compute loss with dropout\n        if self.hard_selection:\n            winners = prob_z_xy.max(dim=1)[1]\n            loss = -get_lprob_yz(winners)\n        else:\n            lprob_yz = get_lprob_yz()  # B x K\n            loss = -LogSumExpMoE.apply(lprob_yz, prob_z_xy, 1)\n\n        loss = loss.sum()\n        sample_size = (\n            sample[\"target\"].size(0) if self.cfg.sentence_avg else sample[\"ntokens\"]\n        )\n        logging_output = {\n            \"loss\": utils.item(loss.data),\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": bsz,\n            \"sample_size\": sample_size,\n            \"posterior\": prob_z_xy.float().sum(dim=0).cpu(),\n        }\n        return loss, sample_size, logging_output\n\n    def train_step(\n        self, sample, model, criterion, optimizer, update_num, ignore_grad=False\n    ):\n        model.train()\n        loss, sample_size, logging_output = self._get_loss(sample, model, criterion)\n        if ignore_grad:\n            loss *= 0\n        optimizer.backward(loss)\n        return loss, sample_size, logging_output\n\n    def valid_step(self, sample, model, criterion):\n        model.eval()\n        with torch.no_grad():\n            loss, sample_size, logging_output = self._get_loss(sample, model, criterion)\n        return loss, sample_size, logging_output\n\n    def inference_step(\n        self,\n        generator,\n        models,\n        sample,\n        prefix_tokens=None,\n        expert=None,\n        constraints=None,\n    ):\n        expert = expert or self.cfg.gen_expert\n        with torch.no_grad():\n            return generator.generate(\n                models,\n                sample,\n                prefix_tokens=prefix_tokens,\n                constraints=constraints,\n                bos_token=self.expert_index(expert),\n            )\n\n    def reduce_metrics(self, logging_outputs, criterion):\n        super().reduce_metrics(logging_outputs, criterion)\n        metrics.log_scalar(\n            \"posterior\",\n            sum(log[\"posterior\"] for log in logging_outputs if \"posterior\" in log),\n        )\n"
  },
  {
    "path": "examples/truncated_bptt/README.md",
    "content": "# Truncated Backpropagation Through Time (BPTT)\n\nTruncated BPTT is a useful technique for training language models on very long\nsequences. Typically a long sequences is split into chunks and a language model\nis trained over the chunks sequentially. The LM may condition on previous\nchunks, but gradients only flow through the current chunk. This technique was\nthe basis for the paper: [Transformer-XL: Attentive Language Models Beyond a\nFixed-Length Context](https://arxiv.org/abs/1901.02860), which achieved\nstate-of-the-art language modeling results at the time of publication.\n\nIt is slightly tricky to implement Truncated BPTT efficiently in fairseq, since\nwe need to iterate over the data sequentially and disable any batch shuffling\nlogic. The code provided in this example illustrates how to implement Truncated\nBPTT in fairseq by overriding ``FairseqTask::get_batch_iterator`` to iterate\nover the data sequentially. Crucially, this example supports batching and\nmulti-GPU (data parallel) training.\n\n##### 0. Setup\n\nFirst, see the general [language modeling README](README.md) for instructions on\npreprocessing the WikiText-103 data.\n\n##### 1. Train a Transformer-XL model on WikiText-103\n\nWe will train a 16-layer Transformer-XL model following the [hyperparameters\nused in the original\npaper](https://github.com/kimiyoung/transformer-xl/blob/master/pytorch/run_wt103_base.sh).\n\nThe following command assumes 4 GPUs, so that the total batch size is 60\nsequences (15 x 4). Training should take ~24 hours on 4 V100 GPUs:\n```bash\nCUDA_VISIBLE_DEVICES=0,1,2,3 fairseq-train \\\n    --user-dir examples/truncated_bptt \\\n    data-bin/wikitext-103/ \\\n    --task truncated_bptt_lm --tokens-per-sample 150 \\\n    --batch-size 15 --max-update 200000 \\\n    --arch transformer_xl --n-layer 16 --d-model 410 --n-head 10 \\\n    --d-head 41 --d-inner 2100 --dropout 0.1 --dropatt 0.0 --mem-len 150 \\\n    --optimizer adam --clip-norm 0.25 \\\n    --lr-scheduler cosine --warmup-updates 0 --min-lr 0.0 --lr 0.00025  \\\n    --log-format json --log-interval 25 \\\n    --fp16\n```\n\nIf training on a single GPU, set `--update-freq=4` to accumulate 4x gradients\nand simulate training on 4 GPUs.\n\n##### 2. Evaluate\n\n```bash\nfairseq-eval-lm data-bin/wikitext-103/ \\\n    --path checkpoints/checkpoint_best.pt \\\n    --user-dir examples/truncated_bptt/ \\\n    --task truncated_bptt_lm \\\n    --batch-size 1 --required-batch-size-multiple 1 \\\n    --model-overrides '{\"mem_len\":640,\"clamp_len\":400,\"same_length\":True}' \\\n    --tokens-per-sample 64\n# ... | INFO | fairseq_cli.eval_lm | num. model params: 151123537\n# ... | INFO | fairseq_cli.eval_lm | Evaluated 245569 tokens in 83.1s (2956.82 tokens/s)\n# ... | INFO | fairseq_cli.eval_lm | Loss (base 2): 4.5668, Perplexity: 23.70\n# Compare to 24.0 test perplexity from the paper\n```\n\n*Note:* During training the model saw 150 tokens of context\n(``--tokens-per-sample=150``) and 150 extra memory tokens (``--mem-len=150``).\nDuring evaluation we measure perplexity on sequences of 64 tokens\n(``--tokens-per-sample=64``) and increase the memory length\n(``--model-overrides='{\"mem_len\":640}'``). These settings match the evaluation\nsettings from [the original\npaper](https://github.com/kimiyoung/transformer-xl/blob/master/pytorch/run_wt103_base.sh).\n"
  },
  {
    "path": "examples/truncated_bptt/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import transformer_xl_model, truncated_bptt_lm_task  # noqa\n"
  },
  {
    "path": "examples/truncated_bptt/transformer_xl_model.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom dataclasses import dataclass, field\nfrom typing import Dict, List, Optional\n\nimport torch\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.models import (\n    FairseqIncrementalDecoder,\n    FairseqLanguageModel,\n    register_model,\n)\nfrom fairseq.modules.checkpoint_activations import checkpoint_wrapper\nfrom omegaconf import II\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass TransformerXLConfig(FairseqDataclass):\n    # defaults come from the original Transformer-XL code\n    cutoffs: List[int] = field(default_factory=lambda: [20000, 40000, 200000])\n    d_model: int = 500\n    n_head: int = 10\n    d_head: int = 50\n    d_inner: int = 1000\n    div_val: int = 1\n    n_layer: int = 12\n    mem_len: int = 0\n    clamp_len: int = -1\n    same_length: bool = False\n    dropout: float = 0.0\n    dropatt: float = 0.0\n    checkpoint_activations: bool = False\n    offload_activations: bool = False\n    max_target_positions: int = II(\"task.max_target_positions\")\n\n\n@register_model(\"transformer_xl\", dataclass=TransformerXLConfig)\nclass TransformerXLLanguageModel(FairseqLanguageModel):\n    @classmethod\n    def build_model(cls, cfg: TransformerXLConfig, task):\n        return cls(TransformerXLDecoder(cfg, task))\n\n\nclass TransformerXLDecoder(FairseqIncrementalDecoder):\n    def __init__(self, cfg, task):\n        try:\n            from transformers.models.transfo_xl import (\n                TransfoXLConfig,\n                TransfoXLLMHeadModel,\n            )\n        except ImportError:\n            from transformers.configuration_transfo_xl import TransfoXLConfig\n            from transformers.modeling_transfo_xl import TransfoXLLMHeadModel\n\n        super().__init__(task.target_dictionary)\n        self.cfg = cfg\n\n        # remove any cutoffs larger than the vocab size\n        cutoffs = [\n            cutoff for cutoff in cfg.cutoffs if cutoff < len(task.target_dictionary)\n        ]\n\n        config = TransfoXLConfig(\n            vocab_size=len(task.target_dictionary),\n            cutoffs=cutoffs,\n            d_model=cfg.d_model,\n            d_embed=cfg.d_model,\n            n_head=cfg.n_head,\n            d_head=cfg.d_head,\n            d_inner=cfg.d_inner,\n            div_val=cfg.div_val,\n            n_layer=cfg.n_layer,\n            mem_len=cfg.mem_len,\n            clamp_len=cfg.clamp_len,\n            same_length=cfg.same_length,\n            dropout=cfg.dropout,\n            dropatt=cfg.dropatt,\n        )\n        logger.info(config)\n        self.model = TransfoXLLMHeadModel(config)\n\n        if cfg.checkpoint_activations or cfg.offload_activations:\n            for i in range(len(self.model.transformer.layers)):\n                self.model.transformer.layers[i] = checkpoint_wrapper(\n                    self.model.transformer.layers[i],\n                    offload_to_cpu=cfg.offload_activations,\n                )\n                # TODO: may save mem to wrap(layer.pos_ff.CoreNet[3])\n\n        self._mems = None\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths=None,  # unused\n        incremental_state: Optional[Dict[str, List[torch.Tensor]]] = None,\n        encoder_out=None,\n    ):\n        if incremental_state is not None:  # used during inference\n            mems = self.get_incremental_state(incremental_state, \"mems\")\n            src_tokens = src_tokens[:, -1:]  # only keep the most recent token\n        else:\n            mems = self._mems\n\n        output = self.model(\n            input_ids=src_tokens,\n            mems=mems,\n            return_dict=False,\n        )\n\n        if len(output) >= 2:\n            if incremental_state is not None:\n                self.set_incremental_state(incremental_state, \"mems\", output[1])\n            else:\n                self._mems = output[1]\n\n        return (output[0],)\n\n    def max_positions(self):\n        return self.cfg.max_target_positions\n\n    def reorder_incremental_state(\n        self,\n        incremental_state: Dict[str, Dict[str, Optional[torch.Tensor]]],\n        new_order: torch.Tensor,\n    ):\n        \"\"\"Reorder incremental state.\n\n        This will be called when the order of the input has changed from the\n        previous time step. A typical use case is beam search, where the input\n        order changes between time steps based on the selection of beams.\n        \"\"\"\n        mems = self.get_incremental_state(incremental_state, \"mems\")\n        if mems is not None:\n            new_mems = [mems_i.index_select(1, new_order) for mems_i in mems]\n            self.set_incremental_state(incremental_state, \"mems\", new_mems)\n"
  },
  {
    "path": "examples/truncated_bptt/truncated_bptt_lm_task.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nfrom dataclasses import dataclass, field\nfrom typing import List, Optional, Tuple\n\nimport torch\nfrom fairseq import utils\nfrom fairseq.data import (\n    Dictionary,\n    TokenBlockDataset,\n    data_utils,\n    iterators,\n)\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.distributed import utils as dist_utils\nfrom fairseq.tasks import FairseqTask, register_task\nfrom omegaconf import II\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass TruncatedBPTTLMConfig(FairseqDataclass):\n    data: str = field(default=\"???\", metadata={\"help\": \"path to data directory\"})\n    tokens_per_sample: int = field(\n        default=1024, metadata={\"help\": \"max number of tokens per sequence\"},\n    )\n    batch_size: int = II(\"dataset.batch_size\")\n    # Some models use *max_target_positions* to know how many positional\n    # embeddings to learn. We use II(...) to make it default to\n    # *tokens_per_sample*, but in principle there could be more positional\n    # embeddings than tokens in a single batch. This may also be irrelevant for\n    # custom model implementations.\n    max_target_positions: int = II(\"task.tokens_per_sample\")\n    # these will be populated automatically if not provided\n    data_parallel_rank: Optional[int] = None\n    data_parallel_size: Optional[int] = None\n\n\n@register_task(\"truncated_bptt_lm\", dataclass=TruncatedBPTTLMConfig)\nclass TruncatedBPTTLMTask(FairseqTask):\n    def __init__(self, cfg: TruncatedBPTTLMConfig):\n        super().__init__(cfg)\n\n        if cfg.data_parallel_rank is None or cfg.data_parallel_size is None:\n            if torch.distributed.is_initialized():\n                cfg.data_parallel_rank = dist_utils.get_data_parallel_rank()\n                cfg.data_parallel_size = dist_utils.get_data_parallel_world_size()\n            else:\n                cfg.data_parallel_rank = 0\n                cfg.data_parallel_size = 1\n\n        # load the dictionary\n        paths = utils.split_paths(cfg.data)\n        assert len(paths) > 0\n        self.dictionary = Dictionary.load(os.path.join(paths[0], \"dict.txt\"))\n        logger.info(\"dictionary: {} types\".format(len(self.dictionary)))\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split (e.g., train, valid, test)\"\"\"\n\n        # support sharded datasets\n        paths = utils.split_paths(self.cfg.data)\n        assert len(paths) > 0\n        data_path = paths[(epoch - 1) % len(paths)]\n        split_path = os.path.join(data_path, split)\n\n        # each element of *data* will be a tensorized line from the original\n        # text dataset, similar to ``open(split_path).readlines()``\n        data = data_utils.load_indexed_dataset(\n            split_path, self.dictionary, combine=combine\n        )\n        if data is None:\n            raise FileNotFoundError(\n                \"Dataset not found: {} ({})\".format(split, split_path)\n            )\n\n        # this is similar to ``data.view(-1).split(tokens_per_sample)``\n        data = TokenBlockDataset(\n            data,\n            data.sizes,\n            block_size=self.cfg.tokens_per_sample,\n            pad=None,  # unused\n            eos=None,  # unused\n            break_mode=\"none\",\n        )\n\n        self.datasets[split] = TruncatedBPTTDataset(\n            data=data,\n            bsz_per_shard=self.cfg.batch_size,\n            shard_id=self.cfg.data_parallel_rank,\n            num_shards=self.cfg.data_parallel_size,\n        )\n\n    def dataset(self, split):\n        return self.datasets[split]\n\n    def get_batch_iterator(\n        self,\n        dataset,\n        num_workers=0,\n        epoch=1,\n        data_buffer_size=0,\n        skip_remainder_batch=False,\n        **kwargs\n    ):\n        return iterators.EpochBatchIterator(\n            dataset=dataset,\n            collate_fn=self._collate_fn,\n            num_workers=num_workers,\n            epoch=epoch,\n            buffer_size=data_buffer_size,\n            # we don't use the batching functionality from EpochBatchIterator;\n            # instead every item in *dataset* is a whole batch\n            batch_sampler=[[i] for i in range(len(dataset))],\n            disable_shuffling=True,\n            skip_remainder_batch=skip_remainder_batch,\n        )\n\n    def _collate_fn(self, items: List[List[torch.Tensor]]):\n        # we don't use fairseq's batching functionality, so we expect a single\n        # Tensor of type List[torch.Tensor]\n        assert len(items) == 1\n\n        # item will have shape B x T (the last batch may have length < T)\n        id, item = items[0]\n        item = data_utils.collate_tokens(item, pad_idx=self.source_dictionary.pad())\n        B, T = item.size()\n\n        # shift item one position over and append a padding token for the target\n        target = torch.nn.functional.pad(\n            item[:, 1:], (0, 1, 0, 0), value=self.target_dictionary.pad()\n        )\n\n        # fairseq expects batches to have the following structure\n        return {\n            \"id\": torch.tensor([id] * item.size(0)),\n            \"net_input\": {\"src_tokens\": item,},\n            \"target\": target,\n            \"nsentences\": item.size(0),\n            \"ntokens\": item.numel(),\n        }\n\n    def build_dataset_for_inference(\n        self, src_tokens: List[torch.Tensor], src_lengths: List[int], **kwargs\n    ) -> torch.utils.data.Dataset:\n        eos = self.source_dictionary.eos()\n        dataset = TokenBlockDataset(\n            src_tokens,\n            src_lengths,\n            block_size=None,  # ignored for \"eos\" break mode\n            pad=self.source_dictionary.pad(),\n            eos=eos,\n            break_mode=\"eos\",\n        )\n\n        class Dataset(torch.utils.data.Dataset):\n            def __getitem__(self, i):\n                item = dataset[i]\n                if item[-1] == eos:\n                    # remove eos to support generating with a prefix\n                    item = item[:-1]\n                return (i, [item])\n\n            def __len__(self):\n                return len(dataset)\n\n        return Dataset()\n\n    def inference_step(\n        self, generator, models, sample, prefix_tokens=None, constraints=None\n    ):\n        with torch.no_grad():\n            if constraints is not None:\n                raise NotImplementedError\n\n            # SequenceGenerator doesn't use *src_tokens* directly, we need to\n            # pass the *prefix_tokens* argument instead.\n            if prefix_tokens is None and sample[\"net_input\"][\"src_tokens\"].nelement():\n                prefix_tokens = sample[\"net_input\"][\"src_tokens\"]\n\n            # begin generation with the end-of-sentence token\n            bos_token = self.source_dictionary.eos()\n\n            return generator.generate(\n                models, sample, prefix_tokens=prefix_tokens, bos_token=bos_token\n            )\n\n    def eval_lm_dataloader(\n        self,\n        dataset,\n        max_tokens: Optional[int] = 36000,\n        batch_size: Optional[int] = None,\n        max_positions: Optional[int] = None,\n        num_shards: int = 1,\n        shard_id: int = 0,\n        num_workers: int = 1,\n        data_buffer_size: int = 10,\n        context_window: int = 0,\n    ):\n        if context_window > 0:\n            raise NotImplementedError(\n                \"Transformer-XL doesn't need --context-window, try \"\n                \"--model-overrides '{\\\"mem_len\\\":42}' instead \"\n            )\n        return self.get_batch_iterator(\n            dataset=dataset,\n            max_tokens=max_tokens,\n            max_sentences=batch_size,\n            max_positions=max_positions,\n            ignore_invalid_inputs=True,\n            num_shards=num_shards,\n            shard_id=shard_id,\n            num_workers=num_workers,\n            data_buffer_size=data_buffer_size,\n        ).next_epoch_itr(shuffle=False)\n\n    @property\n    def source_dictionary(self):\n        return self.dictionary\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n\n\nclass TruncatedBPTTDataset(torch.utils.data.Dataset):\n    def __init__(\n        self,\n        data: List[torch.Tensor],  # ordered list of items\n        bsz_per_shard,  # number of items processed per GPUs per forward\n        shard_id,  # current GPU ID\n        num_shards,  # number of GPUs\n    ):\n        super().__init__()\n        self.data = data\n\n        def batchify(data, bsz):\n            # Work out how cleanly we can divide the dataset into bsz parts.\n            nbatch = data.size(0) // bsz\n            # Trim off any extra elements that wouldn't cleanly fit (remainders).\n            data = data.narrow(0, 0, nbatch * bsz)\n            # Evenly divide the data across the bsz batches.\n            data = data.view(bsz, -1).contiguous()\n            return data\n\n        # total number of sequences processed by all GPUs in each forward pass\n        global_batch_size = bsz_per_shard * num_shards\n\n        \"\"\"\n        With a 16 item dataset, bsz_per_shard=2 and num_shards=3,\n        *indices* might look like:\n\n            indices = [[0, 1],\n                       [2, 3],\n                       [4, 5],\n                       [6, 7],\n                       [8, 9],\n                       [10, 11]]\n\n        The size of the TruncatedBPTTDataset instance will be 2,\n        and shard 1 will see items:\n\n            [(0, [data[4], data[6]]),\n             (1, [data[5], data[7]])]\n        \"\"\"\n        indices = batchify(torch.arange(len(data)), global_batch_size)\n        assert indices.size(0) == global_batch_size\n\n        self.my_indices = indices[\n            shard_id * bsz_per_shard : (shard_id + 1) * bsz_per_shard\n        ]\n        assert self.my_indices.size(0) == bsz_per_shard\n\n    def __len__(self):\n        return self.my_indices.size(1)\n\n    def __getitem__(self, i) -> Tuple[int, List[torch.Tensor]]:\n        return (i, [self.data[idx] for idx in self.my_indices[:, i]])\n"
  },
  {
    "path": "examples/unsupervised_quality_estimation/README.md",
    "content": "# Unsupervised Quality Estimation for Neural Machine Translation (Fomicheva et al., 2020)\n\nThis page includes instructions for reproducing results from the paper [Unsupervised Quality Estimation for Neural\nMachine Translation (Fomicheva et al., 2020)](https://arxiv.org/abs/2005.10608)\n\n## Requirements:\n\n* mosesdecoder: https://github.com/moses-smt/mosesdecoder\n* subword-nmt: https://github.com/rsennrich/subword-nmt\n* flores: https://github.com/facebookresearch/flores\n\n## Download Models and Test Data\n\nDownload translation models and test data from [MLQE dataset repository](https://github.com/facebookresearch/mlqe).\n\n## Set up:\n\nGiven a testset consisting of source sentences and reference translations:\n\n* `SRC_LANG`: source language\n* `TGT_LANG`: target language\n* `INPUT`: input prefix, such that the file `$INPUT.$SRC_LANG` contains source sentences and `$INPUT.$TGT_LANG`\ncontains the reference sentences\n* `OUTPUT_DIR`: output path to store results\n* `MOSES_DECODER`: path to mosesdecoder installation\n* `BPE_ROOT`: path to subword-nmt installation\n* `BPE`: path to BPE model\n* `MODEL_DIR`: directory containing the NMT model `.pt` file as well as the source and target vocabularies.\n* `TMP`: directory for intermediate temporary files\n* `GPU`: if translating with GPU, id of the GPU to use for inference\n* `DROPOUT_N`: number of stochastic forward passes\n\n`$DROPOUT_N` is set to 30 in the experiments reported in the paper. However, we observed that increasing it beyond 10\ndoes not bring substantial improvements.\n\n## Translate the data using standard decoding\n\nPreprocess the input data:\n```\nfor LANG in $SRC_LANG $TGT_LANG; do\n  perl $MOSES_DECODER/scripts/tokenizer/tokenizer.perl -threads 80 -a -l $LANG < $INPUT.$LANG > $TMP/preprocessed.tok.$LANG\n  python $BPE_ROOT/apply_bpe.py -c ${BPE} < $TMP/preprocessed.tok.$LANG > $TMP/preprocessed.tok.bpe.$LANG\ndone\n```\n\nBinarize the data for faster translation:\n\n```\nfairseq-preprocess --srcdict $MODEL_DIR/dict.$SRC_LANG.txt --tgtdict $MODEL_DIR/dict.$TGT_LANG.txt\n--source-lang ${SRC_LANG} --target-lang ${TGT_LANG} --testpref $TMP/preprocessed.tok.bpe --destdir $TMP/bin --workers 4\n```\n\nTranslate\n\n```\nCUDA_VISIBLE_DEVICES=$GPU fairseq-generate $TMP/bin --path ${MODEL_DIR}/${SRC_LANG}-${TGT_LANG}.pt --beam 5\n--source-lang $SRC_LANG --target-lang $TGT_LANG --no-progress-bar --unkpen 5 > $TMP/fairseq.out\ngrep ^H $TMP/fairseq.out | cut -d- -f2- | sort -n | cut -f3- > $TMP/mt.out\n```\n\nPost-process\n\n```\nsed -r 's/(@@ )| (@@ ?$)//g' < $TMP/mt.out | perl $MOSES_DECODER/scripts/tokenizer/detokenizer.perl\n-l $TGT_LANG > $OUTPUT_DIR/mt.out\n```\n\n## Produce uncertainty estimates\n\n### Scoring\n\nMake temporary files to store the translations repeated N times.\n\n```\npython ${SCRIPTS}/scripts/uncertainty/repeat_lines.py -i $TMP/preprocessed.tok.bpe.$SRC_LANG -n $DROPOUT_N\n-o $TMP/repeated.$SRC_LANG\npython ${SCRIPTS}/scripts/uncertainty/repeat_lines.py -i $TMP/mt.out -n $DROPOUT_N -o $TMP/repeated.$TGT_LANG\n\nfairseq-preprocess --srcdict ${MODEL_DIR}/dict.${SRC_LANG}.txt $TGT_DIC --source-lang ${SRC_LANG}\n--target-lang ${TGT_LANG} --testpref ${TMP}/repeated --destdir ${TMP}/bin-repeated\n```\n\nProduce model scores for the generated translations using `--retain-dropout` option to apply dropout at inference time:\n\n```\nCUDA_VISIBLE_DEVICES=${GPU} fairseq-generate ${TMP}/bin-repeated --path ${MODEL_DIR}/${LP}.pt --beam 5\n --source-lang $SRC_LANG --target-lang $TGT_LANG --no-progress-bar --unkpen 5 --score-reference --retain-dropout\n --retain-dropout-modules '[\"TransformerModel\",\"TransformerEncoder\",\"TransformerDecoder\",\"TransformerEncoderLayer\"]'\n TransformerDecoderLayer --seed 46 > $TMP/dropout.scoring.out\n\ngrep ^H $TMP/dropout.scoring.out | cut -d- -f2- | sort -n | cut -f2 > $TMP/dropout.scores\n\n```\n\nUse `--retain-dropout-modules` to specify the modules. By default, dropout is applied in the same places\nas for training.\n\nCompute the mean of the resulting output distribution:\n\n```\npython $SCRIPTS/scripts/uncertainty/aggregate_scores.py -i $TMP/dropout.scores -o $OUTPUT_DIR/dropout.scores.mean\n-n $DROPOUT_N\n```\n\n### Generation\n\nProduce multiple translation hypotheses for the same source using `--retain-dropout` option:\n\n```\nCUDA_VISIBLE_DEVICES=${GPU} fairseq-generate ${TMP}/bin-repeated --path ${MODEL_DIR}/${LP}.pt\n --beam 5 --source-lang $SRC_LANG --target-lang $TGT_LANG --no-progress-bar --retain-dropout\n --unkpen 5 --retain-dropout-modules TransformerModel TransformerEncoder TransformerDecoder\nTransformerEncoderLayer TransformerDecoderLayer --seed 46 > $TMP/dropout.generation.out\n\ngrep ^H $TMP/dropout.generation.out | cut -d- -f2- | sort -n | cut -f3- > $TMP/dropout.hypotheses_\n\nsed -r 's/(@@ )| (@@ ?$)//g' < $TMP/dropout.hypotheses_ | perl $MOSES_DECODER/scripts/tokenizer/detokenizer.perl\n-l $TGT_LANG > $TMP/dropout.hypotheses\n```\n\nCompute similarity between multiple hypotheses corresponding to the same source sentence using Meteor\nevaluation metric:\n```\npython meteor.py -i $TMP/dropout.hypotheses -m <path_to_meteor_installation> -n $DROPOUT_N -o\n$OUTPUT_DIR/dropout.gen.sim.meteor\n```\n"
  },
  {
    "path": "examples/unsupervised_quality_estimation/aggregate_scores.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport sys\n\nimport numpy as np\n\n\naggregate_funcs = {\n    \"std\": np.std,\n    \"var\": np.var,\n    \"median\": np.median,\n    \"mean\": np.mean,\n    \"min\": np.min,\n    \"max\": np.max,\n}\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"-i\", \"--input_file\", required=True, type=str)\n    parser.add_argument(\"-n\", \"--repeat_times\", required=True, type=int)\n    parser.add_argument(\"-o\", \"--output_file\", required=False)\n    parser.add_argument(\"-f\", \"--func\", required=False, default=\"mean\")\n    args = parser.parse_args()\n\n    stream = open(args.output_file, \"w\") if args.output_file else sys.stdout\n\n    segment_scores = []\n    for line in open(args.input_file):\n        segment_scores.append(float(line.strip()))\n        if len(segment_scores) == args.repeat_times:\n            stream.write(\"{}\\n\".format(aggregate_funcs[args.func](segment_scores)))\n            segment_scores = []\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/unsupervised_quality_estimation/meteor.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport math\nimport os\nimport subprocess\nimport sys\nimport tempfile\nfrom collections import defaultdict\nfrom itertools import combinations\n\n\ndef read_translations(path, n_repeats):\n    segment_counter = 0\n    segment_translations = []\n    translations = defaultdict(list)\n    for line in open(path):\n        segment_translations.append(\" \".join(line.split()))\n        if len(segment_translations) == n_repeats:\n            translations[segment_counter] = segment_translations\n            segment_translations = []\n            segment_counter += 1\n    return translations\n\n\ndef generate_input(translations, n_repeats):\n    _, ref_path = tempfile.mkstemp()\n    _, mt_path = tempfile.mkstemp()\n    ref_fh = open(ref_path, \"w\")\n    mt_fh = open(mt_path, \"w\")\n    for segid in sorted(translations.keys()):\n        assert len(translations[segid]) == n_repeats\n        indexes = combinations(range(n_repeats), 2)\n        for idx1, idx2 in indexes:\n            mt_fh.write(translations[segid][idx1].strip() + \"\\n\")\n            ref_fh.write(translations[segid][idx2].strip() + \"\\n\")\n    sys.stderr.write(\"\\nSaved translations to %s and %s\" % (ref_path, mt_path))\n    return ref_path, mt_path\n\n\ndef run_meteor(ref_path, mt_path, metric_path, lang=\"en\"):\n    _, out_path = tempfile.mkstemp()\n    subprocess.call(\n        [\n            \"java\",\n            \"-Xmx2G\",\n            \"-jar\",\n            metric_path,\n            mt_path,\n            ref_path,\n            \"-p\",\n            \"0.5 0.2 0.6 0.75\",  # default parameters, only changed alpha to give equal weight to P and R\n            \"-norm\",\n            \"-l\",\n            lang,\n        ],\n        stdout=open(out_path, \"w\"),\n    )\n    os.remove(ref_path)\n    os.remove(mt_path)\n    sys.stderr.write(\"\\nSaved Meteor output to %s\" % out_path)\n    return out_path\n\n\ndef read_output(meteor_output_path, n_repeats):\n    n_combinations = math.factorial(n_repeats) / (\n        math.factorial(2) * math.factorial(n_repeats - 2)\n    )\n    raw_scores = []\n    average_scores = []\n    for line in open(meteor_output_path):\n        if not line.startswith(\"Segment \"):\n            continue\n        score = float(line.strip().split(\"\\t\")[1])\n        raw_scores.append(score)\n        if len(raw_scores) == n_combinations:\n            average_scores.append(sum(raw_scores) / n_combinations)\n            raw_scores = []\n    os.remove(meteor_output_path)\n    return average_scores\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"-i\", \"--infile\")\n    parser.add_argument(\"-n\", \"--repeat_times\", type=int)\n    parser.add_argument(\"-m\", \"--meteor\")\n    parser.add_argument(\"-o\", \"--output\")\n    args = parser.parse_args()\n\n    translations = read_translations(args.infile, args.repeat_times)\n    sys.stderr.write(\"\\nGenerating input for Meteor...\")\n    ref_path, mt_path = generate_input(translations, args.repeat_times)\n    sys.stderr.write(\"\\nRunning Meteor...\")\n    out_path = run_meteor(ref_path, mt_path, args.meteor)\n    sys.stderr.write(\"\\nReading output...\")\n    scores = read_output(out_path, args.repeat_times)\n    sys.stderr.write(\"\\nWriting results...\")\n    with open(args.output, \"w\") as o:\n        for scr in scores:\n            o.write(\"{}\\n\".format(scr))\n    o.close()\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/unsupervised_quality_estimation/repeat_lines.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport sys\n\n\ndef _normalize_spaces(line):\n    return \" \".join(line.split())\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"-i\", \"--input_file\", required=True, type=str)\n    parser.add_argument(\"-n\", \"--repeat_times\", required=True, type=int)\n    parser.add_argument(\"-o\", \"--output_file\", required=False, type=str)\n    args = parser.parse_args()\n    stream = open(args.output_file, \"w\") if args.output_file else sys.stdout\n\n    for line in open(args.input_file):\n        for _ in range(args.repeat_times):\n            stream.write(_normalize_spaces(line) + \"\\n\")\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/README.md",
    "content": "# wav2vec 2.0\n\nwav2vec 2.0 learns speech representations on unlabeled data as described in [wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations (Baevski et al., 2020)](https://arxiv.org/abs/2006.11477).\n\nWe learned speech representations in multiple languages as well in [Unsupervised Cross-lingual Representation Learning for Speech Recognition (Conneau et al., 2020)](https://arxiv.org/abs/2006.13979).\n\nWe also combined wav2vec 2.0 with self-training in [Self-training and Pre-training are Complementary for Speech Recognition (Xu et al., 2020)](https://arxiv.org/abs/2010.11430).\n\nWe combined speech data from multiple domains in [Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised Pre-Training (Hsu, et al., 2021)](https://arxiv.org/abs/2104.01027).\n\nWe finetuned XLSR-53 on multiple languages to transcribe unseen languages in [Simple and Effective Zero-shot Cross-lingual Phoneme Recognition (Xu et al., 2021)](https://arxiv.org/abs/2109.11680).\n\n## Pre-trained models\n\nModel | Finetuning split | Dataset | Model\n|---|---|---|---\nWav2Vec 2.0 Base | No finetuning | [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_small.pt)\nWav2Vec 2.0 Base | 10 minutes | [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_small_10m.pt)\nWav2Vec 2.0 Base | 100 hours | [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_small_100h.pt)\nWav2Vec 2.0 Base | 960 hours | [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_small_960h.pt)\nWav2Vec 2.0 Large | No finetuning | [Librispeech](http://www.openslr.org/12)  | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/libri960_big.pt)\nWav2Vec 2.0 Large | 10 minutes | [Librispeech](http://www.openslr.org/12)  | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_big_10m.pt)\nWav2Vec 2.0 Large | 100 hours | [Librispeech](http://www.openslr.org/12)  | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_big_100h.pt)\nWav2Vec 2.0 Large | 960 hours | [Librispeech](http://www.openslr.org/12)  | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_big_960h.pt)\nWav2Vec 2.0 Large (LV-60)* | No finetuning | [Libri-Light](https://github.com/facebookresearch/libri-light) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_vox_new.pt)\nWav2Vec 2.0 Large conformer - rel_pos (LV-60)* | No finetuning | [Libri-Light](https://github.com/facebookresearch/libri-light) | [download](s3://dl.fbaipublicfiles.com/fairseq/conformer/wav2vec2/librilight/LL_relpos_PT_no_FT)\nWav2Vec 2.0 Large conformer - rope (LV-60)* | No finetuning | [Libri-Light](https://github.com/facebookresearch/libri-light) | [download](s3://dl.fbaipublicfiles.com/fairseq/conformer/wav2vec2/librilight/LL_rope_PT_no_FT)\nWav2Vec 2.0 Large (LV-60)* | 10 minutes | [Libri-Light](https://github.com/facebookresearch/libri-light) + [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_vox_10m_new.pt)\nWav2Vec 2.0 Large (LV-60)* | 100 hours | [Libri-Light](https://github.com/facebookresearch/libri-light) + [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_vox_100h_new.pt)\nWav2Vec 2.0 Large conformer - rel_pos (LV-60)* | 100 hours | [Libri-Light](https://github.com/facebookresearch/libri-light) | [download](s3://dl.fbaipublicfiles.com/fairseq/conformer/wav2vec2/librilight/LL_relpos_PT_100h_FT.pt)\nWav2Vec 2.0 Large conformer - rope (LV-60)* | 100 hours | [Libri-Light](https://github.com/facebookresearch/libri-light) | [download](s3://dl.fbaipublicfiles.com/fairseq/conformer/wav2vec2/librilight/LL_rope_PT_100h_FT.pt)\nWav2Vec 2.0 Large (LV-60)* | 960 hours | [Libri-Light](https://github.com/facebookresearch/libri-light) + [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec2_vox_960h_new.pt)\nWav2Vec 2.0 Large conformer - rel_pos (LV-60)* | 960 hours | [Libri-Light](https://github.com/facebookresearch/libri-light) | [download](s3://dl.fbaipublicfiles.com/fairseq/conformer/wav2vec2/librilight/LL_relpos_PT_960h_FT.pt)\nWav2Vec 2.0 Large conformer - rope (LV-60)* | 960 hours | [Libri-Light](https://github.com/facebookresearch/libri-light) | [download](s3://dl.fbaipublicfiles.com/fairseq/conformer/wav2vec2/librilight/LL_rope_PT_960h_FT.pt)\nWav2Vec 2.0 Large (LV-60) + Self Training * | 10 minutes | [Libri-Light](https://github.com/facebookresearch/libri-light) + [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_vox_10m_pl.pt)\nWav2Vec 2.0 Large (LV-60) + Self Training * | 100 hours | [Libri-Light](https://github.com/facebookresearch/libri-light) + [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_vox_100h_pl.pt)\nWav2Vec 2.0 Large (LV-60) + Self Training * | 960 hours | [Libri-Light](https://github.com/facebookresearch/libri-light) + [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_vox_960h_pl.pt)\nWav2Vec 2.0 Large (LV-60 + CV + SWBD + FSH) ** | No finetuning | [Libri-Light](https://github.com/facebookresearch/libri-light) + [CommonVoice](https://commonvoice.mozilla.org/en/languages) + [Switchboard](https://catalog.ldc.upenn.edu/LDC97S62) + [Fisher](https://catalog.ldc.upenn.edu/LDC2004T19) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/w2v_large_lv_fsh_swbd_cv.pt)\nWav2Vec 2.0 Large (LV-60 + CV + SWBD + FSH) ** | 960 hours Librispeech | [Libri-Light](https://github.com/facebookresearch/libri-light) + [CommonVoice](https://commonvoice.mozilla.org/en/languages) + [Switchboard](https://catalog.ldc.upenn.edu/LDC97S62) + [Fisher](https://catalog.ldc.upenn.edu/LDC2004T19) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/w2v_large_lv_fsh_swbd_cv_ftls960_updated.pt)\nWav2Vec 2.0 Large (LV-60 + CV + SWBD + FSH) ** | 300 hours Switchboard | [Libri-Light](https://github.com/facebookresearch/libri-light) + [CommonVoice](https://commonvoice.mozilla.org/en/languages) + [Switchboard](https://catalog.ldc.upenn.edu/LDC97S62) + [Fisher](https://catalog.ldc.upenn.edu/LDC2004T19) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/w2v_large_lv_fsh_swbd_cv_ftsb300_updated.pt)\n\n\\* updated (Oct. 24, 2020)\\\n** updated (Nov. 13, 2021)\n\nWe also release multilingual pre-trained wav2vec 2.0 (XLSR) models:\n\nModel | Architecture | Hours | Languages | Datasets | Model\n|---|---|---|---|---|---\nXLSR-53 | Large | 56k | 53 | MLS, CommonVoice, BABEL | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/xlsr_53_56k.pt)\n\nThe XLSR model uses the following datasets for multilingual pretraining:\n\n* **[MLS: Multilingual LibriSpeech](https://indico2.conference4me.psnc.pl/event/35/contributions/3585/attachments/1060/1101/Wed-2-6-10.pdf)** (8 languages, 50.7k hours): *Dutch, English, French, German, Italian, Polish, Portuguese, Spanish*\n\n* **[CommonVoice](https://commonvoice.mozilla.org/en/languages)** (36 languages, 3.6k hours): *Arabic, Basque, Breton, Chinese (CN), Chinese (HK), Chinese (TW), Chuvash, Dhivehi, Dutch, English, Esperanto, Estonian, French, German, Hakh-Chin, Indonesian, Interlingua, Irish, Italian, Japanese, Kabyle, Kinyarwanda, Kyrgyz, Latvian, Mongolian, Persian, Portuguese, Russian, Sakha, Slovenian, Spanish, Swedish, Tamil, Tatar, Turkish, Welsh* (see also [finetuning splits]([https://dl.fbaipublicfiles.com/cpc_audio/common_voices_splits.tar.gz]) from [this paper](https://arxiv.org/abs/2002.02848)).\n\n* **[Babel](https://catalog.ldc.upenn.edu/byyear)** (17 languages, 1.7k hours): *Assamese, Bengali, Cantonese, Cebuano, Georgian, Haitian, Kazakh, Kurmanji, Lao, Pashto, Swahili, Tagalog, Tamil, Tok, Turkish, Vietnamese, Zulu*\n\nWe also finetuned several models on languages from [CommonVoice](https://commonvoice.mozilla.org/en/languages) (version 6.1) and [Babel](https://catalog.ldc.upenn.edu/byyear). Please refer to [our paper](https://arxiv.org/abs/2109.11680) for details about which languages are used.\n\nPretrained Model | Fintune Dataset | # Languages | Phonemizer | Model | Dictionary\n|---|---|---|---|---|---\nLV-60 | CommonVoice | 26 | [Espeak](https://github.com/espeak-ng/espeak-ng/blob/master/docs/languages.md) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/zero_shot/espeak_en_26lang_m10.pt) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/zero_shot/espeak_dict.txt)\nXLSR-53 | CommonVoice | 26 | [Espeak](https://github.com/espeak-ng/espeak-ng/blob/master/docs/languages.md) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/zero_shot/espeak_26lang_m10.pt) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/zero_shot/espeak_dict.txt)\nXLSR-53 | CommonVoice | 21 | [Phonetisaurus](https://github.com/AdolfVonKleist/Phonetisaurus) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/zero_shot/phonetisaurus_21lang_m10.pt) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/zero_shot/phonetisaurus_dict.txt)\nXLSR-53 | CommonVoice, BABEL | 21, 19 | [Phonetisaurus](https://github.com/AdolfVonKleist/Phonetisaurus) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/zero_shot/phonetisaurus_40lang_m10.pt) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/zero_shot/phonetisaurus_40lang.dict.txt)\n\nWe release 2 models that are finetuned on data from 2 different phonemizers. Although the phonemes are all [IPA](https://en.wikipedia.org/wiki/International_Phonetic_Alphabet) symbols, there are still subtle differences between the phonemized transcriptions from the 2 phonemizers. Thus, it's better to use the corresponding model, if your data is phonemized by either phonemizer above.\n\n## Training a new model with the CLI tools\n\nGiven a directory containing wav files to be used for pretraining (we recommend splitting each file into separate file 10 to 30 seconds in length)\n\n### Prepare training data manifest\n\nFirst, install the `soundfile` library:\n\n```shell script\npip install soundfile\n```\n\nNext, run:\n\n```shell script\npython examples/wav2vec/wav2vec_manifest.py /path/to/waves --dest /manifest/path --ext $ext --valid-percent $valid\n```\n\n$ext should be set to flac, wav, or whatever format your dataset happens to use that soundfile can read.\n\n$valid should be set to some reasonable percentage (like 0.01) of training data to use for validation.\nTo use a pre-defined validation set (like dev-other from librispeech), set to it 0 and then overwrite valid.tsv with a\nseparately pre-processed manifest file.\n\n### Train a wav2vec 2.0 base model\n\nThis configuration was used for the base model trained on the Librispeech dataset in the wav2vec 2.0 paper\n\nNote that the input is expected to be single channel, sampled at 16 kHz\n\n```shell script\n$ fairseq-hydra-train \\\n    task.data=/path/to/data \\\n    --config-dir /path/to/fairseq-py/examples/wav2vec/config/pretraining \\\n    --config-name wav2vec2_base_librispeech\n```\n\nNote: you can simulate 64 GPUs by using k GPUs and adding command line parameters (before `--config-dir`)\n`distributed_training.distributed_world_size=k` `+optimization.update_freq='[x]'` where x = 64/k\n\n### Train a wav2vec 2.0 large model\n\nThis configuration was used for the large model trained on the Libri-light dataset in the wav2vec 2.0 paper\n\n```shell script\n$ fairseq-hydra-train \\\n    task.data=/path/to/data \\\n    --config-dir /path/to/fairseq-py/examples/wav2vec/config/pretraining \\\n    --config-name wav2vec2_large_librivox\n```\n\nNote: you can simulate 128 GPUs by using k GPUs and adding command line parameters (before `--config-dir`)\n`distributed_training.distributed_world_size=k` `+optimization.update_freq='[x]'` where x = 128/k\n\n### Train a wav2vec 2.0 model with conformer backbone\n\nTo replace the transformer layers in the encoder with the conformer layers, set `--layer-type conformer --attn-type espnet --pos-enc-type ${POS_ENC_TYPE}`. `POS_ENC_TYPE` refers to positional encoding to be used in the conformer encoder.\nSet it to `abs`, `rope` or `rel_pos` to use the absolute positional encoding, rotary positional encoding or relative positional encoding in the conformer layer respectively.\n\nTo train a base model with conformer:\n\n```shell script\n$ fairseq-hydra-train \\\n    task.data=/path/to/data \\\n    --config-dir /path/to/fairseq-py/examples/wav2vec/config/pretraining \\\n    --config-name wav2vec2_conformer_base_librispeech \\\n    --attn-type espnet --pos-enc-type ${POS_ENC_TYPE}\n```\n\nTo train a large model with conformer:\n\n```shell script\n$ fairseq-hydra-train \\\n    task.data=/path/to/data \\\n    --config-dir /path/to/fairseq-py/examples/wav2vec/config/pretraining \\\n    --config-name wav2vec2_conformer_large_librivox\n    --attn-type espnet --pos-enc-type ${POS_ENC_TYPE}\n\n```\n\n### Fine-tune a pre-trained model with CTC\n\nFine-tuning a model requires parallel audio and labels file, as well as a vocabulary file in fairseq format.\nA letter vocabulary can be downloaded [here](https://dl.fbaipublicfiles.com/fairseq/wav2vec/dict.ltr.txt).\nAn example [script](libri_labels.py) that generates labels for the Librispeech dataset from the tsv file produced by wav2vec_manifest.py can be used as follows:\n\n```shell script\nsplit=train\n$ python libri_labels.py /path/to/tsv --output-dir /output/dir --output-name $split\n```\n\nFine-tuning on 100h of Librispeech with letter targets:\n\n```shell script\n$ fairseq-hydra-train \\\n    distributed_training.distributed_port=$PORT \\\n    task.data=/path/to/data \\\n    model.w2v_path=/path/to/model.pt \\\n    --config-dir /path/to/fairseq-py/examples/wav2vec/config/finetuning \\\n    --config-name base_100h\n```\n\nThere are other config files in the config/finetuning directory that can be used to fine-tune on other splits.\nYou can specify the right config via the `--config-name` parameter.\n\nNote: you can simulate 24 GPUs by using k GPUs and adding command line parameters (before `--config-dir`)\n`distributed_training.distributed_world_size=k` `+optimization.update_freq='[x]'` where x = 24/k\n\nDecoding with a language model during training requires flashlight [python bindings](https://github.com/facebookresearch/flashlight/tree/master/bindings/python) (previously called [wav2letter](https://github.com/facebookresearch/wav2letter).\nIf you want to use a language model, add `+criterion.wer_args='[/path/to/kenlm, /path/to/lexicon, 2, -1]'` to the command line.\n\n### Evaluating a CTC model\n\nEvaluating a CTC model with a language model requires [flashlight python bindings](https://github.com/facebookresearch/flashlight/tree/master/bindings/python) (previously called [wav2letter](https://github.com/facebookresearch/wav2letter) to be installed.\n\nFairseq transformer language model used in the wav2vec 2.0 paper can be obtained from the [wav2letter model repository](https://github.com/facebookresearch/wav2letter/tree/master/recipes/sota/2019).\nBe sure to upper-case the language model vocab after downloading it.\n\nLetter dictionary for pre-trained models can be found [here](https://dl.fbaipublicfiles.com/fairseq/wav2vec/dict.ltr.txt).\n\nNext, run the evaluation command:\n\n```shell script\n$subset=dev_other\npython examples/speech_recognition/infer.py /checkpoint/abaevski/data/speech/libri/10h/wav2vec/raw --task audio_finetuning \\\n--nbest 1 --path /path/to/model --gen-subset $subset --results-path /path/to/save/results/for/sclite --w2l-decoder kenlm \\\n--lm-model /path/to/kenlm.bin --lm-weight 2 --word-score -1 --sil-weight 0 --criterion ctc --labels ltr --max-tokens 4000000 \\\n--post-process letter\n```\n\nTo get raw numbers, use --w2l-decoder viterbi and omit the lexicon. To use the transformer language model, use --w2l-decoder fairseqlm.\n\n## Use wav2vec 2.0 with 🤗Transformers\n\nWav2Vec2 is also available in the [🤗Transformers library](https://github.com/huggingface/transformers) since version 4.4.\n\nPretrained Models can be found on the [hub](https://huggingface.co/models?filter=wav2vec2)\nand documentation can be found [here](https://huggingface.co/transformers/master/model_doc/wav2vec2.html).\n\nUsage example:\n\n```python\n# !pip install transformers\n# !pip install datasets\nimport soundfile as sf\nimport torch\nfrom datasets import load_dataset\nfrom transformers import Wav2Vec2ForCTC, Wav2Vec2Processor\n\n# load pretrained model\nprocessor = Wav2Vec2Processor.from_pretrained(\"facebook/wav2vec2-base-960h\")\nmodel = Wav2Vec2ForCTC.from_pretrained(\"facebook/wav2vec2-base-960h\")\n\n\nlibrispeech_samples_ds = load_dataset(\"patrickvonplaten/librispeech_asr_dummy\", \"clean\", split=\"validation\")\n\n# load audio\naudio_input, sample_rate = sf.read(librispeech_samples_ds[0][\"file\"])\n\n# pad input values and return pt tensor\ninput_values = processor(audio_input, sampling_rate=sample_rate, return_tensors=\"pt\").input_values\n\n# INFERENCE\n\n# retrieve logits & take argmax\nlogits = model(input_values).logits\npredicted_ids = torch.argmax(logits, dim=-1)\n\n# transcribe\ntranscription = processor.decode(predicted_ids[0])\n\n# FINE-TUNE\n\ntarget_transcription = \"A MAN SAID TO THE UNIVERSE I EXIST\"\n\n# encode labels\nwith processor.as_target_processor():\n  labels = processor(target_transcription, return_tensors=\"pt\").input_ids\n\n# compute loss by passing labels\nloss = model(input_values, labels=labels).loss\nloss.backward()\n```\n\n# wav2vec\n\nExample to train a wav2vec model as described in [wav2vec: Unsupervised Pre-training for Speech Recognition (Schneider et al., 2019)](https://arxiv.org/abs/1904.05862).\n\n## Pre-trained models\n\nDescription | Dataset | Model\n---|---|---\nWav2Vec large | [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_large.pt)\n\n#### Example usage\n\n```python\nimport torch\nimport fairseq\n\ncp_path = '/path/to/wav2vec.pt'\nmodel, cfg, task = fairseq.checkpoint_utils.load_model_ensemble_and_task([cp_path])\nmodel = model[0]\nmodel.eval()\n\nwav_input_16khz = torch.randn(1,10000)\nz = model.feature_extractor(wav_input_16khz)\nc = model.feature_aggregator(z)\n```\n\n## Training a new model with the CLI tools\n\nGiven a directory containing wav files to be used for pretraining (we recommend splitting each file into separate files 10 to 30 seconds in length)\n\n### Prepare training data manifest\n\n```\npython examples/wav2vec/wav2vec_manifest.py /path/to/waves --dest /manifest/path --ext wav\n```\n\n### Train a wav2vec model\n\n```\n$ python train.py /manifest/path --save-dir /model/path --num-workers 6 --fp16 --max-update 400000 --save-interval 1 --no-epoch-checkpoints \\\n--arch wav2vec --task audio_pretraining --min-lr 1e-06 --stop-min-lr 1e-09 --optimizer adam --lr 0.005 --lr-scheduler cosine \\\n--conv-feature-layers [(512, 10, 5), (512, 8, 4), (512, 4, 2), (512, 4, 2), (512, 4, 2), (512, 1, 1), (512, 1, 1)] \\\n--conv-aggregator-layers [(512, 2, 1), (512, 3, 1), (512, 4, 1), (512, 5, 1), (512, 6, 1), (512, 7, 1), (512, 8, 1), (512, 9, 1), (512, 10, 1), (512, 11, 1), (512, 12, 1), (512, 13, 1)] \\\n--skip-connections-agg --residual-scale 0.5 --log-compression --warmup-updates 500 --warmup-init-lr 1e-07 --criterion wav2vec --num-negatives 10 \\\n--max-sample-size 150000 --max-tokens 1500000 --skip-invalid-size-inputs-valid-test\n```\n\n### Run wav2vec2 pre-training on Google Cloud TPUs\n\nWav2Vec2 is now supported on TPUs! It's currently pre-training only.\n\n#### Using hydra on a v3-8\n\n```\n$ OMP_NUM_THREADS=1 fairseq-hydra-train \\\n  task.data=/manifest/path \\\n  --config-dir /PATH/TO/FAIRSEQ/examples/wav2vec/config/pretraining \\\n  --config-name wav2vec2_large_librivox_tpu.yaml\n```\n\n#### Using command line arguments on a v3-8\n\nNote: Commandline arguments way of execution has a [known-problem](https://github.com/pytorch/fairseq/issues/3741) currently.\n\n```\n$ OMP_NUM_THREADS=1 python train.py /manifest/path --save-dir /model/path --num-workers 6 --fp16 --max-update 400000 --save-interval 1 --no-epoch-checkpoints \\\n--arch wav2vec2 --task audio_pretraining --min-lr 1e-06 --stop-min-lr 1e-09 --optimizer adam --lr 0.005 --lr-scheduler cosine \\\n--conv-feature-layers [(512, 10, 5), (512, 8, 4), (512, 4, 2), (512, 4, 2), (512, 4, 2), (512, 1, 1), (512, 1, 1)] \\\n--conv-aggregator-layers [(512, 2, 1), (512, 3, 1), (512, 4, 1), (512, 5, 1), (512, 6, 1), (512, 7, 1), (512, 8, 1), (512, 9, 1), (512, 10, 1), (512, 11, 1), (512, 12, 1), (512, 13, 1)] \\\n--skip-connections-agg --residual-scale 0.5 --log-compression --warmup-updates 500 --warmup-init-lr 1e-07 --criterion wav2vec --num-negatives 10 \\\n--max-sample-size 150000 --max-tokens 1500000 --skip-invalid-size-inputs-valid-test \\\n--tpu --distributed-world-size 8 --num-batch-buckets 3 --enable-padding \\\n--encoder-layerdrop 0 --mask-channel-prob 0.1\n```\n\n#### Using hydra on a pod slice (v3-N with N > 8)\n\n```\n$ OMP_NUM_THREADS=1 fairseq-hydra-train \\\n  task.data=/manifest/path \\\n  --config-dir /PATH/TO/FAIRSEQ/examples/wav2vec/config/pretraining \\\n  --config-name wav2vec2_large_librivox_tpu-pod.yaml  # edit distributed-world-size accordingly\n```\n\n#### Using command line arguments on a pod slice (v3-N with N > 8)\n\nNote: Commandline arguments way of execution has a [known-problem](https://github.com/pytorch/fairseq/issues/3741) currently.\n\n```\n$ python -m torch_xla.distributed.xla_dist \\\n  --tpu ${TPUNAME} --conda-env=torch-xla-${TORCH_XLA_VERSION} --env OMP_NUM_THREADS=1 \\\n  -- \\\npython train.py /manifest/path --save-dir /model/path --num-workers 6 --fp16 --max-update 400000 --save-interval 1 --no-epoch-checkpoints \\\n--arch wav2vec2 --task audio_pretraining --min-lr 1e-06 --stop-min-lr 1e-09 --optimizer adam --lr 0.005 --lr-scheduler cosine \\\n--conv-feature-layers [(512, 10, 5), (512, 8, 4), (512, 4, 2), (512, 4, 2), (512, 4, 2), (512, 1, 1), (512, 1, 1)] \\\n--conv-aggregator-layers [(512, 2, 1), (512, 3, 1), (512, 4, 1), (512, 5, 1), (512, 6, 1), (512, 7, 1), (512, 8, 1), (512, 9, 1), (512, 10, 1), (512, 11, 1), (512, 12, 1), (512, 13, 1)] \\\n--skip-connections-agg --residual-scale 0.5 --log-compression --warmup-updates 500 --warmup-init-lr 1e-07 --criterion wav2vec --num-negatives 10 \\\n--max-sample-size 150000 --max-tokens 1500000 --skip-invalid-size-inputs-valid-test \\\n--tpu --distributed-world-size ${WORLD_SIZE} --num-batch-buckets 3 --enable-padding \\\n--encoder-layerdrop 0 --mask-channel-prob 0.1\n```\n\n### Extract embeddings from the downstream task data\n\n```\n$ PYTHONPATH=/path/to/fairseq python examples/wav2vec/wav2vec_featurize.py --input /path/to/task/waves --output /path/to/output \\\n--model /model/path/checkpoint_best.pt --split train valid test\n```\n\n# vq-wav2vec\n\nExample to train a vq-wav2vec model as described in [vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations (Baevski et al., 2019)](https://arxiv.org/abs/1910.05453).\n\nThese models are also used in [Effectiveness of self-supervised pre-training for speech recognition (Baevski et al., 2019)](https://arxiv.org/abs/1911.03912).\n\n## Pre-trained models\n\nDescription | Dataset | Model\n---|---|---\nvq-wav2vec Gumbel | [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/vq-wav2vec.pt)\nvq-wav2vec K-means | [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/vq-wav2vec_kmeans.pt)\nRoberta on K-means codes | [Librispeech](http://www.openslr.org/12) | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/bert_kmeans.tar)\n\n#### Example usage\n\n```python\nimport torch\nimport fairseq\n\ncp = torch.load('/path/to/vq-wav2vec.pt')\nmodel, cfg, task = fairseq.checkpoint_utils.load_model_ensemble_and_task([cp])\nmodel = model[0]\nmodel.eval()\n\nwav_input_16khz = torch.randn(1,10000)\nz = model.feature_extractor(wav_input_16khz)\n_, idxs = model.vector_quantizer.forward_idx(z)\nprint(idxs.shape) # output: torch.Size([1, 60, 2]), 60 timesteps with 2 indexes corresponding to 2 groups in the model\n```\n\n## Training a new model with the CLI tools\n\nGiven a directory containing wav files to be used for pretraining (we recommend splitting each file into separate file 10 to 30 seconds in length)\n\n### Prepare training data manifest\n\n```\npython examples/wav2vec/wav2vec_manifest.py /path/to/waves --dest /manifest/path --ext wav\n```\n\n### Train a gumbel vq-wav2vec model\n\n```\n$ python train.py /manifest/path --save-dir /model/path --num-workers 6 --fp16 --max-update 400000 \\\n--save-interval 1 --no-epoch-checkpoints --arch wav2vec --task audio_pretraining --min-lr 1e-06 --stop-min-lr 1e-09 \\\n--optimizer adam --lr 1e-05 --lr-scheduler cosine \\\n--conv-feature-layers [(512, 10, 5), (512, 8, 4), (512, 4, 2), (512, 4, 2), (512, 4, 2), (512, 1, 1), (512, 1, 1), (512, 1, 1)] \\\n--conv-aggregator-layers [(512, 2, 1), (512, 3, 1), (512, 4, 1), (512, 5, 1), (512, 6, 1), (512, 7, 1), (512, 8, 1), (512, 9, 1), (512, 10, 1), (512, 11, 1), (512, 12, 1), (512, 13, 1)] \\\n--activation gelu --offset auto --skip-connections-agg --residual-scale 0.5 \\\n--log-keys [\"prob_perplexity\",\"code_perplexity\",\"temp\"] --vq-type gumbel --vq-groups 2 --vq-depth 2 \\\n--combine-groups --vq-vars 320 --vq-temp (2,0.5,0.999995) --prediction-steps 12 --warmup-updates 1000 \\\n--warmup-init-lr 1e-07 --criterion wav2vec --num-negatives 10 --max-sample-size 150000 \\\n--max-tokens 300000 --cross-sample-negatives 0 --update-freq 1 --seed 2 --skip-invalid-size-inputs-valid-test\n```\n\nfor k-means training, set vq-type with \"kmeans\" and add --loss-weights [1] argument. Pre-trained models were trained on 16 GPUs.\n\n### Tokenize audio data (e.g. for BERT training)\n\n```\n$ PYTHONPATH=/path/to/fairseq python examples/wav2vec/vq-wav2vec_featurize.py --data-dir /manifest/path --output-dir /path/to/output \\\n--checkpoint /model/path/checkpoint_best.pt --split train valid test --extension tsv\n```\n"
  },
  {
    "path": "examples/wav2vec/__init__.py",
    "content": ""
  },
  {
    "path": "examples/wav2vec/config/finetuning/base_100h.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n\ncheckpoint:\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: ???\n  normalize: false\n  labels: ltr\n\ndataset:\n  num_workers: 6\n  max_tokens: 3200000\n  skip_invalid_size_inputs_valid_test: true\n  valid_subset: dev_other\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 2\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 80000\n  lr: [0.00003]\n  sentence_avg: true\n  update_freq: [4]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.65\n  mask_channel_prob: 0.5\n  mask_channel_length: 64\n  layerdrop: 0.1\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 0\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/base_10h.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n\ncheckpoint:\n  save_interval: 50\n  save_interval_updates: 10000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: ???\n  normalize: false\n  labels: ltr\n\ndataset:\n  num_workers: 6\n  max_tokens: 3200000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 10000\n  validate_interval: 50\n  valid_subset: dev_other\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 2\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 20000\n  lr: [0.00005]\n  sentence_avg: true\n  update_freq: [4]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.65\n  mask_channel_prob: 0.5\n  mask_channel_length: 64\n  layerdrop: 0.05\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/base_10m.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n\ncheckpoint:\n  save_interval: 1000\n  save_interval_updates: 50\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: ???\n  normalize: false\n  labels: ltr\n\ndataset:\n  num_workers: 6\n  max_tokens: 3200000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 10000\n  validate_interval: 1000\n  valid_subset: dev_other\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 2\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 13000\n  lr: [0.00005]\n  sentence_avg: true\n  update_freq: [4]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.65\n  mask_channel_prob: 0.25\n  mask_channel_length: 64\n  layerdrop: 0.1\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/base_1h.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n\ncheckpoint:\n  save_interval: 50\n  save_interval_updates: 1000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: ???\n  normalize: false\n  labels: ltr\n\ndataset:\n  num_workers: 6\n  max_tokens: 3200000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 10000\n  validate_interval: 1000\n  valid_subset: dev_other\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 2\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 13000\n  lr: [0.00005]\n  sentence_avg: true\n  update_freq: [4]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.65\n  mask_channel_prob: 0.25\n  mask_channel_length: 64\n  layerdrop: 0.1\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/base_960h.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n\ncheckpoint:\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: ???\n  normalize: false\n  labels: ltr\n\ndataset:\n  num_workers: 6\n  max_tokens: 3200000\n  skip_invalid_size_inputs_valid_test: true\n  valid_subset: dev_other\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 8\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 320000\n  lr: [0.0001]\n  sentence_avg: true\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.5\n  mask_channel_prob: 0.1\n  mask_channel_length: 64\n  layerdrop: 0.1\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 0\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/run_config/slurm_1.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30"
  },
  {
    "path": "examples/wav2vec/config/finetuning/run_config/slurm_16.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 450\n    nodes: 16\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n    exclude: learnfair1381,learnfair5192,learnfair2304"
  },
  {
    "path": "examples/wav2vec/config/finetuning/run_config/slurm_1_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.local_cache_path\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 0\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/run_config/slurm_1_old.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 450\n    nodes: 1\n    name: ${env:PREFIX}_wav2vec3_small_librispeech\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n    exclude: learnfair1381"
  },
  {
    "path": "examples/wav2vec/config/finetuning/run_config/slurm_2.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 2\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n    exclude: learnfair7491,learnfair7477,learnfair7487"
  },
  {
    "path": "examples/wav2vec/config/finetuning/run_config/slurm_2_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.local_cache_path\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 8\n    tasks_per_node: 1\n    mem_gb: 0\n    nodes: 2\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/run_config/slurm_2g.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 2\n    tasks_per_node: 2\n    mem_gb: 200\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/run_config/slurm_3.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 450\n    nodes: 3\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n    exclude: learnfair7491,learnfair7477,learnfair7487"
  },
  {
    "path": "examples/wav2vec/config/finetuning/run_config/slurm_4g.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 4\n    tasks_per_node: 4\n    mem_gb: 200\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/run_config/slurm_4g_aws.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '/'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - distributed_training.distributed_world_size\n          - model.pretrained_model_path\n          - model.target_network_path\n          - next_script\n          - task.cache_in_scratch\n          - task.local_cache_path\n          - task.data\n          - checkpoint.save_interval_updates\n          - checkpoint.keep_interval_updates\n          - checkpoint.save_on_overflow\n          - common.log_interval\n          - common.user_dir\n  sweep:\n    dir: /fsx-wav2vec/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ''\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 80\n    gpus_per_node: 4\n    tasks_per_node: 1\n    mem_gb: 0\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab,learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/run_config/slurm_8.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 4320\n    cpus_per_task: 10\n    gpus_per_node: 8\n    tasks_per_node: 8\n    mem_gb: 400\n    nodes: 8\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_100h.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n\ncheckpoint:\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: ???\n  normalize: true\n  labels: ltr\n\ndataset:\n  num_workers: 6\n  max_tokens: 1280000\n  skip_invalid_size_inputs_valid_test: true\n  valid_subset: dev_other\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 4\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 80000\n  lr: [0.00003]\n  sentence_avg: true\n  update_freq: [5]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.5\n  mask_channel_prob: 0.5\n  mask_channel_length: 64\n  layerdrop: 0.1\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_100h_2.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  user_dir: /private/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /checkpoint/abaevski/data/speech/libri/1h/wav2vec/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1280000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 100\n  validate_interval: 1\n  valid_subset: dev_other\n  required_batch_size_multiple: 1\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 8\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /checkpoint/abaevski/data/speech/libri/4-gram.bin\n  wer_lexicon: /checkpoint/abaevski/data/speech/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 2.0\n  wer_word_score: 0\n  wer_sil_weight: -2\n\noptimization:\n  max_update: 100000\n  lr: [1e-5]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [1]  # base 10h we -> 2/4\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: null\n  warmup_steps: 8000\n  hold_steps: 0\n  decay_steps: 72000\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.4\n  mask_length: 5\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.1\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0.1\n#  layerdrop: 0.05  # base 10h wer\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 100\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 3000\n    cpus_per_task: 10\n    gpus_per_node: 4\n    tasks_per_node: 4\n    mem_gb: 250\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_100h_2_aws.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  user_dir: /data/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /fsx-wav2vec/abaevski/data/libri/100h/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1280000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 100\n  validate_interval: 1\n  valid_subset: dev_other\n  required_batch_size_multiple: 1\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 8\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /fsx-wav2vec/abaevski/data/libri/4-gram.bin\n  wer_lexicon: /fsx-wav2vec/abaevski/data/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 2.0\n  wer_word_score: 0\n  wer_sil_weight: -2\n\noptimization:\n  max_update: 100000\n  lr: [1e-5]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [1]  # base 10h we -> 2/4\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: null\n  warmup_steps: 8000\n  hold_steps: 0\n  decay_steps: 82000\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.4\n  mask_length: 7\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.1\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0\n#  layerdrop: 0.05  # base 10h wer\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 100\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_100h_3.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  user_dir: /private/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /checkpoint/abaevski/data/speech/libri/1h/wav2vec/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1000000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 100\n  validate_interval: 1\n  valid_subset: dev_other\n  required_batch_size_multiple: 1\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 8\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /checkpoint/abaevski/data/speech/libri/4-gram.bin\n  wer_lexicon: /checkpoint/abaevski/data/speech/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 2.0\n  wer_word_score: -1.0\n\noptimization:\n  max_update: 100000\n  lr: [1e-5]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [1]  # base 10h we -> 2/4\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: cosine\n  warmup_updates: 8000\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.4\n  mask_length: 5\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.1\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0.1\n#  layerdrop: 0.05  # base 10h wer\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 100\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 3000\n    cpus_per_task: 10\n    gpus_per_node: 4\n    tasks_per_node: 4\n    mem_gb: 250\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_10h.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n\ncheckpoint:\n  save_interval: 50\n  save_interval_updates: 10000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: ???\n  normalize: true\n  labels: ltr\n\ndataset:\n  num_workers: 6\n  max_tokens: 1280000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 10000\n  validate_interval: 50\n  valid_subset: dev_other\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 4\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 20000\n  lr: [0.0001]\n  sentence_avg: true\n  update_freq: [5]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.75\n  mask_channel_prob: 0.25\n  mask_channel_length: 64\n  layerdrop: 0.1\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_10h_2.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  user_dir: /private/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 10\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n  keep_interval_updates: 1\n\ntask:\n  _name: audio_finetuning\n  data: /checkpoint/abaevski/data/speech/libri/10h/wav2vec/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1280000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 100\n  validate_interval: 10\n  valid_subset: dev_other\n  required_batch_size_multiple: 1\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 4\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /checkpoint/abaevski/data/speech/libri/4-gram.bin\n  wer_lexicon: /checkpoint/abaevski/data/speech/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 2.0\n  wer_word_score: -1.0\n\noptimization:\n  max_update: 60000\n  lr: [2e-5]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [1]  # base 10h we -> 2/4\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: cosine\n  warmup_updates: 8000\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.5\n  mask_length: 5\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.1\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0.1\n#  layerdrop: 0.05  # base 10h wer\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 100\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 3000\n    cpus_per_task: 10\n    gpus_per_node: 4\n    tasks_per_node: 4\n    mem_gb: 250\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_10h_2_aws.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  user_dir: /data/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 10\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /fsx-wav2vec/abaevski/data/libri/10h/wav2vec/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1280000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 100\n  validate_interval: 10\n  valid_subset: dev_other\n  required_batch_size_multiple: 1\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 4\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /fsx-wav2vec/abaevski/data/libri/4-gram.bin\n  wer_lexicon: /fsx-wav2vec/abaevski/data/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 2.0\n  wer_word_score: 4\n  wer_sil_weight: -5\n\noptimization:\n  max_update: 60000\n  lr: [1e-5]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [1]  # base 10h we -> 2/4\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: null\n  warmup_steps: 8000\n  hold_steps: 0\n  decay_steps: 72000\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.75\n  mask_length: 5\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.1\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0\n#  layerdrop: 0.05  # base 10h wer\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 100\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_10h_aws.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  user_dir: /data/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 10\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /fsx-wav2vec/abaevski/data/libri/10h/wav2vec/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1280000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 100\n  validate_interval: 10\n  valid_subset: dev_other\n  required_batch_size_multiple: 1\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 4\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n#  wer_kenlm_model: /fsx-wav2vec/abaevski/data/libri/4-gram.bin\n#  wer_lexicon: /fsx-wav2vec/abaevski/data/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n#  wer_lm_weight: 2.0\n#  wer_word_score: -1.0\n\noptimization:\n  max_update: 60000\n  lr: [2e-5]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [1]  # base 10h we -> 2/4\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: null\n  warmup_steps: 8000\n  hold_steps: 0\n  decay_steps: 72000\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.4\n  mask_length: 5\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.1\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0.1\n#  layerdrop: 0.05  # base 10h wer\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 100\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 3000\n    cpus_per_task: 10\n    gpus_per_node: 4\n    tasks_per_node: 4\n    mem_gb: 0\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: wav2vec,learnlab\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_10h_aws_v100.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 10\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /fsx/abaevski/data/libri/10h/wav2vec/raw\n  labels: ltr\n  cache_in_scratch: true\n\n\ndataset:\n  num_workers: 10\n  max_tokens: 1280000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 100\n  validate_interval: 10\n  valid_subset: dev_other\n  required_batch_size_multiple: 1\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 4\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_lexicon: /fsx/abaevski/data/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 2.0\n  wer_word_score: -1.0\n\noptimization:\n  max_update: 60000\n  lr: [2e-5]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [1]  # base 10h we -> 2/4\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: null\n  warmup_steps: 8000\n  hold_steps: 0\n  decay_steps: 72000\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.6\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.1\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0.1\n#  layerdrop: 0.05  # base 10h wer\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 100\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /fsx/${env:USER}/w2v_ft/${env:PREFIX}/${hydra.job.config_name}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 3000\n    cpus_per_task: 10\n    gpus_per_node: 4\n    tasks_per_node: 4\n    mem_gb: 0\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: learnfair\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_10m.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n\ncheckpoint:\n  save_interval: 1000\n  save_interval_updates: 50\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: ???\n  normalize: true\n  labels: ltr\n\ndataset:\n  num_workers: 6\n  max_tokens: 1280000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 10000\n  validate_interval: 1000\n  valid_subset: dev_other\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 4\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 13000\n  lr: [0.0001]\n  sentence_avg: true\n  update_freq: [5]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.65\n  mask_channel_prob: 0.25\n  mask_channel_length: 64\n  layerdrop: 0.1\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_10m_2.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_no_flatten_grads: true\n  log_format: json\n  log_interval: 200\n  user_dir: /private/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 500\n  save_interval_updates: 500\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /checkpoint/abaevski/data/speech/libri/10m/wav2vec/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1000000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 100\n  validate_interval: 500\n  valid_subset: dev_other\n  required_batch_size_multiple: 1\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 4\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /checkpoint/abaevski/data/speech/libri/4-gram.bin\n  wer_lexicon: /checkpoint/abaevski/data/speech/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 5\n  wer_word_score: 2\n  wer_sil_weight: -2\n\noptimization:\n  max_update: 10000\n  lr: [2e-6]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [4]  # base 10h we -> 2/4\n\noptimizer:\n  _name: composite\n  dynamic_groups: true\n  groups:\n    default:\n      lr_float: 2e-6\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.95]\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 1000\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.4\n  mask_length: 3\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.25\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0.1\n#  layerdrop: 0.05  # base 10h wer\n  freeze_finetune_updates: 100\n\n  zero_mask: true\n  feature_grad_mult: 0.0\n  activation_dropout: 0.1\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n  update_alibi: false\n\n#hydra:\n#  job:\n#    config:\n#      override_dirname:\n#        kv_sep: ':'\n#        item_sep: '__'\n#        exclude_keys:\n#          - run_config\n#          - distributed_training.distributed_port\n#  sweep:\n#    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}/${hydra.job.override_dirname}\n#    subdir: ${hydra.job.num}\n#  launcher:\n#    submitit_folder: ${hydra.sweep.dir}\n#    timeout_min: 3000\n#    cpus_per_task: 10\n#    gpus_per_node: 4\n#    tasks_per_node: 4\n#    mem_gb: 250\n#    nodes: 1\n#    name: ${env:PREFIX}_${hydra.job.config_name}\n#    partition: devlab,learnlab,learnfair,scavenge\n#    constraint: volta32gb\n#    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_10m_2_aws.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_no_flatten_grads: true\n  log_format: json\n  log_interval: 200\n  user_dir: /data/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 500\n  save_interval_updates: 500\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /fsx-wav2vec/abaevski/data/libri/10m/wav2vec/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1000000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 100\n  validate_interval: 500\n  valid_subset: dev_other\n  required_batch_size_multiple: 1\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 4\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /fsx-wav2vec/abaevski/data/libri/4-gram.bin\n  wer_lexicon: /fsx-wav2vec/abaevski/data/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 5\n  wer_word_score: 2\n  wer_sil_weight: -2\n\noptimization:\n  max_update: 10000\n  lr: [2e-6]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [4]  # base 10h we -> 2/4\n\noptimizer:\n  _name: composite\n  dynamic_groups: true\n  groups:\n    default:\n      lr_float: 2e-6\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.95]\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 1000\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.4\n  mask_length: 3\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.25\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0.1\n#  layerdrop: 0.05  # base 10h wer\n  freeze_finetune_updates: 100\n\n  zero_mask: true\n  feature_grad_mult: 0.0\n  activation_dropout: 0.1\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n  update_alibi: false\n\n#hydra:\n#  job:\n#    config:\n#      override_dirname:\n#        kv_sep: ':'\n#        item_sep: '__'\n#        exclude_keys:\n#          - run_config\n#          - distributed_training.distributed_port\n#  sweep:\n#    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}/${hydra.job.override_dirname}\n#    subdir: ${hydra.job.num}\n#  launcher:\n#    submitit_folder: ${hydra.sweep.dir}\n#    timeout_min: 3000\n#    cpus_per_task: 10\n#    gpus_per_node: 4\n#    tasks_per_node: 4\n#    mem_gb: 250\n#    nodes: 1\n#    name: ${env:PREFIX}_${hydra.job.config_name}\n#    partition: devlab,learnlab,learnfair,scavenge\n#    constraint: volta32gb\n#    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_10m_3.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  user_dir: /private/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 1000\n  save_interval_updates: 100\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /checkpoint/abaevski/data/speech/libri/10m/wav2vec/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1280000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 10000\n  validate_interval: 500\n  valid_subset: dev_other\n  required_batch_size_multiple: 8\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 4\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /checkpoint/abaevski/data/speech/libri/4-gram.bin\n  wer_lexicon: /checkpoint/abaevski/data/speech/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 8\n  wer_word_score: 5.8\n  wer_sil_weight: -8\n\noptimization:\n  max_update: 13000\n  lr: [2e-5]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [5]  # base 10h we -> 2/4\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.65\n  mask_length: 10\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.25\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0.1\n#  layerdrop: 0.05  # base 10h wer\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 3000\n    cpus_per_task: 10\n    gpus_per_node: 4\n    tasks_per_node: 4\n    mem_gb: 250\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_1h.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n\ncheckpoint:\n  save_interval: 1000\n  save_interval_updates: 50\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: ???\n  normalize: true\n  labels: ltr\n\ndataset:\n  num_workers: 6\n  max_tokens: 1280000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 10000\n  validate_interval: 1000\n  valid_subset: dev_other\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 4\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 13000\n  lr: [0.0003]\n  sentence_avg: true\n  update_freq: [5]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.75\n  mask_channel_prob: 0.25\n  mask_channel_length: 64\n  layerdrop: 0.1\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_1h_2.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  user_dir: /private/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 100\n  save_interval_updates: 500\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /checkpoint/abaevski/data/speech/libri/1h/wav2vec/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1000000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 100\n  validate_interval: 100\n  valid_subset: dev_other\n  required_batch_size_multiple: 1\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 8\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /checkpoint/abaevski/data/speech/libri/4-gram.bin\n  wer_lexicon: /checkpoint/abaevski/data/speech/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 6\n  wer_word_score: -0.1\n  wer_sil_weight: -4.7\n\noptimization:\n  max_update: 60000\n  lr: [1e-5]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [1]  # base 10h we -> 2/4\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: cosine\n  warmup_updates: 4000\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.65\n  mask_length: 5\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.25\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0.1\n#  layerdrop: 0.05  # base 10h wer\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 100\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 3000\n    cpus_per_task: 10\n    gpus_per_node: 4\n    tasks_per_node: 4\n    mem_gb: 250\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_1h_2_aws.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  fp16_no_flatten_grads: true\n  log_format: json\n  log_interval: 200\n  user_dir: /data/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 100\n  save_interval_updates: 500\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /fsx-wav2vec/abaevski/data/libri/1h/wav2vec/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1000000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 100\n  validate_interval: 500\n  valid_subset: dev_other\n  required_batch_size_multiple: 1\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 4\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /fsx-wav2vec/abaevski/data/libri/4-gram.bin\n  wer_lexicon: /fsx-wav2vec/abaevski/data/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 5\n  wer_word_score: 0\n  wer_sil_weight: -4\n\noptimization:\n  max_update: 10000\n  lr: [2e-6]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [4]  # base 10h we -> 2/4\n\noptimizer:\n  _name: composite\n  dynamic_groups: true\n  groups:\n    default:\n      lr_float: 2e-6\n      optimizer:\n        _name: adam\n        adam_betas: [0.9,0.95]\n      lr_scheduler:\n        _name: cosine\n        warmup_updates: 1000\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.4\n  mask_length: 3\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.25\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0.1\n#  layerdrop: 0.05  # base 10h wer\n  freeze_finetune_updates: 100\n\n  zero_mask: true\n  feature_grad_mult: 0.0\n  activation_dropout: 0.1\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n  update_alibi: false\n\n#hydra:\n#  job:\n#    config:\n#      override_dirname:\n#        kv_sep: ':'\n#        item_sep: '__'\n#        exclude_keys:\n#          - run_config\n#          - distributed_training.distributed_port\n#  sweep:\n#    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}/${hydra.job.override_dirname}\n#    subdir: ${hydra.job.num}\n#  launcher:\n#    submitit_folder: ${hydra.sweep.dir}\n#    timeout_min: 3000\n#    cpus_per_task: 10\n#    gpus_per_node: 4\n#    tasks_per_node: 4\n#    mem_gb: 250\n#    nodes: 1\n#    name: ${env:PREFIX}_${hydra.job.config_name}\n#    partition: devlab,learnlab,learnfair,scavenge\n#    constraint: volta32gb\n#    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_1h_3.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  user_dir: /private/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 100\n  save_interval_updates: 500\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /checkpoint/abaevski/data/speech/libri/1h/wav2vec/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 640000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 10000\n  validate_interval: 100\n  valid_subset: dev_other\n  required_batch_size_multiple: 8\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 8\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /checkpoint/abaevski/data/speech/libri/4-gram.bin\n  wer_lexicon: /checkpoint/abaevski/data/speech/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 6\n  wer_word_score: -0.1\n  wer_sil_weight: -4.7\n\noptimization:\n  max_update: 13000\n  lr: [6e-5]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [5]  # base 10h we -> 2/4\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: cosine\n  warmup_updates: 4000\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.3\n  mask_length: 3\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.25\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0.1\n#  layerdrop: 0.05  # base 10h wer\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 3000\n    cpus_per_task: 10\n    gpus_per_node: 4\n    tasks_per_node: 4\n    mem_gb: 250\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_1h_4.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  user_dir: /private/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 100\n  save_interval_updates: 1000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /checkpoint/abaevski/data/speech/libri/1h/wav2vec/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 640000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 10000\n  validate_interval: 100\n  valid_subset: dev_other\n  required_batch_size_multiple: 8\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 8\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /checkpoint/abaevski/data/speech/libri/4-gram.bin\n  wer_lexicon: /checkpoint/abaevski/data/speech/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 2.0\n  wer_word_score: -1.0\n\noptimization:\n  max_update: 13000\n  lr: [6e-5]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [5]  # base 10h we -> 2/4\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.65\n  mask_length: 10\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.25\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0.1\n#  layerdrop: 0.05  # base 10h wer\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 3000\n    cpus_per_task: 10\n    gpus_per_node: 4\n    tasks_per_node: 4\n    mem_gb: 250\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_1h_aws.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  user_dir: /data/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 100\n  save_interval_updates: 500\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /fsx-wav2vec/abaevski/data/libri/10m/wav2vec/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1000000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 10000\n  validate_interval: 100\n  valid_subset: dev_other\n  required_batch_size_multiple: 8\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 8\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /fsx-wav2vec/abaevski/data/libri/4-gram.bin\n    wer_lexicon: /fsx-wav2vec/abaevski/data/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 5\n  wer_word_score: -0.1\n  wer_sil_weight: -4.7\n\noptimization:\n  max_update: 13000\n  lr: [6e-5]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [5]  # base 10h we -> 2/4\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: cosine\n  warmup_updates: 4000\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.3\n  mask_length: 3\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.25\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0.1\n#  layerdrop: 0.05  # base 10h wer\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n  update_alibi: false\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_960h.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n\ncheckpoint:\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: ???\n  normalize: true\n  labels: ltr\n\ndataset:\n  num_workers: 6\n  max_tokens: 1280000\n  skip_invalid_size_inputs_valid_test: true\n  valid_subset: dev_other\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 24\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: 320000\n  lr: [0.00003]\n  sentence_avg: true\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.5\n  mask_channel_prob: 0.25\n  mask_channel_length: 64\n  layerdrop: 0.1\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_960h_2.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  user_dir: /private/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /checkpoint/abaevski/data/speech/libri/960h/wav2vec/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1000000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 100\n  validate_interval: 1\n  valid_subset: dev_other\n  required_batch_size_multiple: 1\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 16\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /checkpoint/abaevski/data/speech/libri/4-gram.bin\n  wer_lexicon: /checkpoint/abaevski/data/speech/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 2.0\n  wer_word_score: -1.0\n\noptimization:\n  max_update: 200000\n  lr: [1e-5]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [1]  # base 10h we -> 2/4\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: null\n  warmup_steps: 8000\n  hold_steps: 0\n  decay_steps: 200000\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.4\n  mask_length: 5\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.1\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0.1\n#  layerdrop: 0.05  # base 10h wer\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 100\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 3000\n    cpus_per_task: 10\n    gpus_per_node: 4\n    tasks_per_node: 4\n    mem_gb: 250\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_960h_2_aws.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  user_dir: /data/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /fsx-wav2vec/abaevski/data/librispeech\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1280000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 100\n  validate_interval: 1\n  valid_subset: dev_other\n  required_batch_size_multiple: 1\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 16\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /fsx-wav2vec/abaevski/data/libri/4-gram.bin\n  wer_lexicon: /fsx-wav2vec/abaevski/data/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 1.5\n  wer_word_score: 0\n  wer_sil_weight: -1\n\noptimization:\n  max_update: 200000\n  lr: [2e-5]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [1]  # base 10h we -> 2/4\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: null\n  warmup_steps: 8000\n  hold_steps: 0\n  decay_steps: 192000\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.3\n  mask_length: 5\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.1\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0\n#  layerdrop: 0.05  # base 10h wer\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 100\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n\n"
  },
  {
    "path": "examples/wav2vec/config/finetuning/vox_960h_3.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  user_dir: /private/home/abaevski/fairseq-py/examples/data2vec\n#  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: /checkpoint/abaevski/data/speech/libri/1h/wav2vec/raw\n  labels: ltr\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1000000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 100\n  validate_interval: 1\n  valid_subset: dev_other\n  required_batch_size_multiple: 1\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 16\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n  wer_kenlm_model: /checkpoint/abaevski/data/speech/libri/4-gram.bin\n  wer_lexicon: /checkpoint/abaevski/data/speech/libri/10h/wav2vec/raw/lexicon_ltr2.lst\n  wer_lm_weight: 2.0\n  wer_word_score: -1.0\n\noptimization:\n  max_update: 200000\n  lr: [1e-5]\n#  lr: [1e-5]  # base 10h wer\n  sentence_avg: true\n  update_freq: [1]  # base 10h we -> 2/4\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: cosine\n  warmup_updates: 8000\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.4\n  mask_length: 5\n#  mask_prob: 0.65  # base 10h wer\n  mask_channel_prob: 0.1\n#  mask_channel_prob: 0.6  # base 10h wer\n  mask_channel_length: 64\n  layerdrop: 0.1\n#  layerdrop: 0.05  # base 10h wer\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 100\n  dropout: 0\n  final_dropout: 0\n  attention_dropout: 0\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 3000\n    cpus_per_task: 10\n    gpus_per_node: 4\n    tasks_per_node: 4\n    mem_gb: 250\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    constraint: volta32gb\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/config/pretraining/wav2vec2_base_librispeech.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n\ncheckpoint:\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: audio_pretraining\n  data: ???\n  max_sample_size: 250000\n  min_sample_size: 32000\n  normalize: false\n\ndataset:\n  num_workers: 6\n  max_tokens: 1400000\n  skip_invalid_size_inputs_valid_test: true\n\ndistributed_training:\n  distributed_world_size: 64\n  ddp_backend: legacy_ddp\n\ncriterion:\n  _name: wav2vec\n  infonce: true\n  log_keys: [\"prob_perplexity\",\"code_perplexity\",\"temp\"]\n  loss_weights: [0.1, 10]\n\noptimization:\n  max_update: 400000\n  lr: [0.0005]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 32000\n\nmodel:\n  _name: wav2vec2\n  quantize_targets: true\n  final_dim: 256\n  encoder_layerdrop: 0.05\n  dropout_input: 0.1\n  dropout_features: 0.1\n  feature_grad_mult: 0.1\n  encoder_embed_dim: 768\n"
  },
  {
    "path": "examples/wav2vec/config/pretraining/wav2vec2_conformer_base_librispeech.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n\ncheckpoint:\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: audio_pretraining\n  data: ???\n  max_sample_size: 250000\n  min_sample_size: 32000\n  normalize: false\n\ndataset:\n  num_workers: 6\n  max_tokens: 1400000\n  skip_invalid_size_inputs_valid_test: true\n\ndistributed_training:\n  distributed_world_size: 64\n  ddp_backend: legacy_ddp\n\ncriterion:\n  _name: wav2vec\n  infonce: true\n  log_keys: [\"prob_perplexity\",\"code_perplexity\",\"temp\"]\n  loss_weights: [0.1, 10]\n\noptimization:\n  max_update: 400000\n  lr: [0.0005]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 32000\n\nmodel:\n  _name: wav2vec2\n  quantize_targets: true\n  final_dim: 256\n  encoder_layerdrop: 0.05\n  dropout_input: 0.1\n  dropout_features: 0.1\n  feature_grad_mult: 0.1\n  encoder_embed_dim: 768\n  layer_type: conformer\n  attn_type: espnet\n  pos_enc_type: rel_pos\n"
  },
  {
    "path": "examples/wav2vec/config/pretraining/wav2vec2_conformer_large_librivox.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n\ncheckpoint:\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: audio_pretraining\n  data: ???\n  max_sample_size: 320000\n  min_sample_size: 32000\n  normalize: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1200000\n  skip_invalid_size_inputs_valid_test: true\n\ndistributed_training:\n  distributed_world_size: 128\n  ddp_backend: legacy_ddp\n\ncriterion:\n  _name: wav2vec\n  infonce: true\n  log_keys: [\"prob_perplexity\",\"code_perplexity\",\"temp\"]\n  loss_weights: [0.1, 0]\n\noptimization:\n  max_update: 1000000\n  lr: [0.005]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 32000\n\nmodel:\n  _name: wav2vec2\n  quantize_targets: true\n  extractor_mode: layer_norm\n  layer_norm_first: true\n  final_dim: 768\n  latent_temp: [2.0,0.1,0.999995]\n  encoder_layerdrop: 0.00\n  dropout_input: 0.0\n  dropout_features: 0.0\n  dropout: 0.0\n  attention_dropout: 0.0\n  conv_bias: true\n\n  encoder_layers: 24\n  encoder_embed_dim: 1024\n  encoder_ffn_embed_dim: 4096\n  encoder_attention_heads: 16\n\n  feature_grad_mult: 1.0\n\n  layer_type: conformer\n  attn_type: espnet\n  pos_enc_type: rel_pos\n"
  },
  {
    "path": "examples/wav2vec/config/pretraining/wav2vec2_large_librivox.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n\ncheckpoint:\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: audio_pretraining\n  data: ???\n  max_sample_size: 320000\n  min_sample_size: 32000\n  normalize: true\n\ndataset:\n  batch_size: 4\n  num_workers: 6\n  max_tokens: 1200000\n  skip_invalid_size_inputs_valid_test: true\n\ndistributed_training:\n  distributed_world_size: 128\n  ddp_backend: legacy_ddp\n\ncriterion:\n  _name: wav2vec\n  infonce: true\n  log_keys: [\"prob_perplexity\",\"code_perplexity\",\"temp\"]\n  loss_weights: [0.1, 0]\n\noptimization:\n  max_update: 1000000\n  lr: [0.005]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 32000\n\nmodel:\n  _name: wav2vec2\n  quantize_targets: true\n  extractor_mode: layer_norm\n  layer_norm_first: true\n  final_dim: 768\n  latent_temp: [2.0,0.1,0.999995]\n  encoder_layerdrop: 0.00\n  dropout_input: 0.0\n  dropout_features: 0.0\n  dropout: 0.0\n  attention_dropout: 0.0\n  conv_bias: true\n\n  encoder_layers: 24\n  encoder_embed_dim: 1024\n  encoder_ffn_embed_dim: 4096\n  encoder_attention_heads: 16\n\n  feature_grad_mult: 1.0\n\n"
  },
  {
    "path": "examples/wav2vec/config/pretraining/wav2vec2_large_librivox_tpu-pod.yaml",
    "content": "# @package _group_\n\ncommon:\n  tpu: true\n  fp16: false\n  log_format: json\n  log_interval: 10\n\ncheckpoint:\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: audio_pretraining\n  data: ???\n  max_sample_size: 250000\n  min_sample_size: 32000\n  normalize: true\n  num_batch_buckets: 3\n  precompute_mask_indices: true\n  enable_padding: true\n\ndataset:\n  num_workers: 6\n  max_tokens: 1200000\n  skip_invalid_size_inputs_valid_test: true\n\ndistributed_training:\n  distributed_world_size: 128\n  ddp_backend: legacy_ddp\n\ncriterion:\n  _name: wav2vec\n  infonce: true\n  log_keys: [\"prob_perplexity\",\"code_perplexity\",\"temp\"]\n  loss_weights: [0.1, 0]\n\noptimization:\n  max_update: 1000000\n  lr: [0.005]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 32000\n\nmodel:\n  _name: wav2vec2\n  quantize_targets: true\n  extractor_mode: layer_norm\n  layer_norm_first: true\n  final_dim: 768\n  latent_temp: [2.0,0.1,0.999995]\n  encoder_layerdrop: 0.00\n  dropout_input: 0.0\n  dropout_features: 0.0\n  dropout: 0.0\n  attention_dropout: 0.0\n  conv_bias: true\n\n  encoder_layers: 24\n  encoder_embed_dim: 1024\n  encoder_ffn_embed_dim: 4096\n  encoder_attention_heads: 16\n\n  feature_grad_mult: 1.0\n"
  },
  {
    "path": "examples/wav2vec/config/pretraining/wav2vec2_large_librivox_tpu.yaml",
    "content": "# @package _group_\n\ncommon:\n  tpu: true\n  fp16: false\n  log_format: json\n  log_interval: 10\n\ncheckpoint:\n  save_interval_updates: 25000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n\ntask:\n  _name: audio_pretraining\n  data: ???\n  max_sample_size: 250000\n  min_sample_size: 32000\n  normalize: true\n  num_batch_buckets: 3\n  precompute_mask_indices: true\n  enable_padding: true\n  inferred_w2v_config:\n      mask_prob: 0.65\n      mask_selection: 'static'\n      mask_other: 0\n      mask_channel_prob: 0.1\n\ndataset:\n  num_workers: 6\n  max_tokens: 1200000\n  skip_invalid_size_inputs_valid_test: true\n\ndistributed_training:\n  distributed_world_size: 8\n  ddp_backend: legacy_ddp\n\ncriterion:\n  _name: wav2vec\n  infonce: true\n  log_keys: [\"prob_perplexity\",\"code_perplexity\",\"temp\"]\n  loss_weights: [0.1, 0]\n\noptimization:\n  max_update: 1000000\n  lr: [0.005]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-06\n  weight_decay: 0.01\n\nlr_scheduler:\n  _name: polynomial_decay\n  warmup_updates: 32000\n\nmodel:\n  _name: wav2vec2\n  quantize_targets: true\n  extractor_mode: layer_norm\n  layer_norm_first: true\n  final_dim: 768\n  latent_temp: [2.0,0.1,0.999995]\n  encoder_layerdrop: 0.00\n  dropout_input: 0.0\n  dropout_features: 0.0\n  dropout: 0.0\n  attention_dropout: 0.0\n  conv_bias: true\n\n  encoder_layers: 24\n  encoder_embed_dim: 1024\n  encoder_ffn_embed_dim: 4096\n  encoder_attention_heads: 16\n\n  feature_grad_mult: 1.0\n"
  },
  {
    "path": "examples/wav2vec/libri_labels.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nHelper script to pre-compute embeddings for a flashlight (previously called wav2letter++) dataset\n\"\"\"\n\nimport argparse\nimport os\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"tsv\")\n    parser.add_argument(\"--output-dir\", required=True)\n    parser.add_argument(\"--output-name\", required=True)\n    args = parser.parse_args()\n\n    os.makedirs(args.output_dir, exist_ok=True)\n\n    transcriptions = {}\n\n    with open(args.tsv, \"r\") as tsv, open(\n        os.path.join(args.output_dir, args.output_name + \".ltr\"), \"w\"\n    ) as ltr_out, open(\n        os.path.join(args.output_dir, args.output_name + \".wrd\"), \"w\"\n    ) as wrd_out:\n        root = next(tsv).strip()\n        for line in tsv:\n            line = line.strip()\n            dir = os.path.dirname(line)\n            if dir not in transcriptions:\n                parts = dir.split(os.path.sep)\n                trans_path = f\"{parts[-2]}-{parts[-1]}.trans.txt\"\n                path = os.path.join(root, dir, trans_path)\n                assert os.path.exists(path)\n                texts = {}\n                with open(path, \"r\") as trans_f:\n                    for tline in trans_f:\n                        items = tline.strip().split()\n                        texts[items[0]] = \" \".join(items[1:])\n                transcriptions[dir] = texts\n            part = os.path.basename(line).split(\".\")[0]\n            assert part in transcriptions[dir]\n            print(transcriptions[dir][part], file=wrd_out)\n            print(\n                \" \".join(list(transcriptions[dir][part].replace(\" \", \"|\"))) + \" |\",\n                file=ltr_out,\n            )\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/scripts/binarize_manifest.sh",
    "content": "#!/usr/bin/env bash\n\n# usage: bash binarize_manifest <dest_dir> <train_split> <valid_split>\n\nDEST_DIR=$1\nTRAIN_SPLIT=$2\nVALID_SPLIT=$3\nFAIRSEQ_ROOT=$4\n\nmkdir -p $DEST_DIR\n\n# split file path and lengths into separate files\ncut -f1 $TRAIN_SPLIT.tsv > $DEST_DIR/train_fnames.txt\ncut -f1 $VALID_SPLIT.tsv > $DEST_DIR/valid_fnames.txt\ncut -f2 $TRAIN_SPLIT.tsv > $DEST_DIR/train.lengths\ncut -f2 $VALID_SPLIT.tsv > $DEST_DIR/valid.lengths\n\n# copy root directory\nhead -1 $TRAIN_SPLIT.tsv > $DEST_DIR/train.root\nhead -1 $VALID_SPLIT.tsv > $DEST_DIR/valid.root\n\n# remove root directory\nsed -i '1d' $DEST_DIR/train_fnames.txt\nsed -i '1d' $DEST_DIR/valid_fnames.txt\nsed -i '1d' $DEST_DIR/train.lengths\nsed -i '1d' $DEST_DIR/valid.lengths\n\n# insert spaces between characters\nsed -i -e 's/\\(.\\)/\\1 /g' $DEST_DIR/train_fnames.txt\nsed -i -e 's/\\(.\\)/\\1 /g' $DEST_DIR/valid_fnames.txt\n\n# run preprocessor\nPYTHONPATH=$FAIRSEQ_ROOT python $FAIRSEQ_ROOT/fairseq_cli/preprocess.py --dataset-impl mmap --trainpref $DEST_DIR/train_fnames.txt --validpref $DEST_DIR/valid_fnames.txt --workers 60 --only-source --destdir $DEST_DIR\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/README.md",
    "content": "# wav2vec Unsupervised  (wav2vec-U)\n  \nWav2vec Unsupervised (wav2vec-U) and the 2.0 version are frameworks for building speech recognition systems without any labeled training data as described in [Unsupervised Speech Recognition (Baevski et al., 2021)](https://ai.facebook.com/research/publications/unsupervised-speech-recognition) and [Towards End-to-end Unsupervised Speech Recognition (Liu, et al., 2022)](https://arxiv.org/abs/2204.02492).  The model takes as input wav2vec 2.0 or XLSR representations (see [pretrained models](https://github.com/pytorch/fairseq/blob/main/examples/wav2vec)) as well as unlabeled speech and text data.\n  \n  The training procedure consists of three consecutive main steps:\n* Preparation of speech representations and text data\n* Generative adversarial training (GAN)\n* Iterative self-training + Kaldi LM-decoding\n\n## Preparation of speech and text data\nSimilar to [wav2vec 2.0](https://github.com/pytorch/fairseq/blob/main/examples/wav2vec/README.md),  data folders contain {train,valid,test}.{tsv,wrd,phn} files, where audio paths are stored in tsv files, and word, letter or phoneme transcriptions are stored in .{wrd,ltr,phn}.\n\nIn **/path/to/data/with_silence** you need a *train.tsv* file as well as (optionally) *{valid,test}.{tsv,wrd,phn}*. It is nice to have *10h.{tsv,phn}* files there too for reproducing the ablation study on  layer selection. In **/path/to/data/without_silence** you have the same files, except *.tsv* files contain audios with silences removed using rVAD.\n\nPre-requisites:\n* set FAIRSEQ_ROOT environmental variable to your fairseq installation\n* set RVAD_ROOT environmental variable to a checkout of [rVADfast](https://github.com/zhenghuatan/rVADfast)\n* set KENLM_ROOT environmental variable to the location of [KenLM](https://github.com/kpu/kenlm) binaries\n* install [PyKaldi](https://github.com/pykaldi/pykaldi) and set KALDI_ROOT environmental variable to the location of your kaldi installation. To use the version bundled with PyKaldi, you can use /path/to/pykaldi/tools/kaldi\n\nCreate new audio files without silences:\n```shell\n# create a manifest file for the set original of audio files\npython $FAIRSEQ_ROOT/examples/wav2vec/wav2vec_manifest.py /dir/to/save/audio/files --ext wav --dest /path/to/new/train.tsv --valid-percent 0\n\npython scripts/vads.py -r $RVAD_ROOT < /path/to/train.tsv > train.vads\n\npython scripts/remove_silence.py --tsv /path/to/train.tsv --vads train.vads --out /dir/to/save/audio/files\n\npython $FAIRSEQ_ROOT/examples/wav2vec/wav2vec_manifest.py /dir/to/save/audio/files --ext wav --dest /path/to/new/train.tsv --valid-percent 0.01\n```\n\nNext, we need to preprocess the audio data to better match phonemized text data:\n\n```shell\n# wav2vec-U\nzsh scripts/prepare_audio.sh /dir/with/{train,test,valid}.tsv /output/dir /path/to/wav2vec2/model.pt 512 14\n# wav2vec-U 2.0\nzsh scripts/prepare_audio_v2.sh /dir/with/{train,test,valid}.tsv /output/dir /path/to/wav2vec2/model.pt 64 14\n```\nNote that if you have splits different than train/valid/test, you will need to modify this script. The thrid argument is the PCA dimensionality for wav2vec-U and the number of MFCC clusters for wav2vec-U 2.0. The last argument is the 0-based index of the layer from which to extract representations.\n\nNow we need to prepare text data:\n```shell\nzsh scripts/prepare_text.sh language /path/to/text/file /output/dir 1000 espeak /path/to/fasttext/lid/model sil_prob\n```\n\nThe fourth argument is minimum number observations of phones to keep. If your text corpus is small, you might want to reduce this number.\n\nThe fifth argument is which phonemizer to use. Supported values are [espeak](http://espeak.sourceforge.net/), [espeak-ng](https://github.com/espeak-ng/espeak-ng), and [G2P](https://github.com/Kyubyong/g2p) (english only).\n\nPre-trained fasttext LID models can be downloaded [here](https://fasttext.cc/docs/en/language-identification.html).\n\nThe last argument is the probability to introduce silence (`<SIL>`) between the word boundaries. We found the value `0.25`/`0.5` works in general for wav2vec-U and the 2.0  version respectively, but you might want to vary for languages that are never tested.\n\n### Prepare TIMIT data\nTIMIT transcripts include silence. Therefore VAD is not used for audio preprocessing, and we do not wrap transcripts with silences or insert random silence in between words.\n\nTo prepare TIMIT data for both the matched an unmatched setup:\n```shell\nbash scripts/prepare_timit.sh /dir/to/timit/raw/data /output/dir /path/to/wav2vec2/model.pt\n```\n\nNote that we assume the TIMIT distribution with capitalized directories and filenames are used (e.g., `TRAIN/DR1/FCJF0/SA1.PHN`).\n\n## Generative adversarial training (GAN)\n\nWe then use a GAN model to build a first unsupervised ASR model. The data preparation above of both speech features and text data is a necessary procedure that enables the generator to match speech to text in an unsupervised way. \n\nLaunching GAN training on top of preprocessed features, with default hyperparameters can be done with:\n\n```\nPREFIX=w2v_unsup_gan_xp\n\n# For wav2vec-U, audio features are pre-segmented\nCONFIG_NAME=w2vu\nTASK_DATA=/path/to/features/precompute_unfiltered_pca512_cls128_mean_pooled\n\n# For wav2vec-U 2.0, use raw audio features\nCONFIG_NAME=w2vu2\nTASK_DATA=/path/to/features/\n\n# Unpaired text input\nTEXT_DATA=/path/to/data/phones  # path to fairseq-preprocessed GAN data (phones dir)\nKENLM_PATH=/path/to/data/phones/kenlm.phn.o4.bin  # KenLM 4-gram phoneme language model (LM data = GAN data here)\n\nPYTHONPATH=$FAIRSEQ_ROOT PREFIX=$PREFIX fairseq-hydra-train \\\n    -m --config-dir config/gan \\\n    --config-name $CONFIG_NAME \\\n    task.data=${TASK_DATA} \\\n    task.text_data=${TEXT_DATA} \\\n    task.kenlm_path=${KENLM_PATH} \\\n    common.user_dir=${FAIRSEQ_ROOT}/examples/wav2vec/unsupervised \\\n    model.code_penalty=2,4 model.gradient_penalty=1.5,2.0 \\\n    model.smoothness_weight=0.5,0.75,1.0 'common.seed=range(0,5)'\n```\n\n\nOnce we find the best checkpoint (chosen using unsupervised metric that combined language model perplexity and vocabulary usage), we can use it to generate phone labels (or word labels with an appropriate kaldi WFST):\n\n```shell\npython w2vu_generate.py --config-dir config/generate --config-name viterbi \\\nfairseq.common.user_dir=${FAIRSEQ_ROOT}/examples/wav2vec/unsupervised \\\nfairseq.task.data=/path/to/dir/with/features \\\nfairseq.common_eval.path=/path/to/gan/checkpoint \\ \nfairseq.dataset.gen_subset=valid results_path=/where/to/save/transcriptions\n```\n\nThe decoding without LM works best on the same adjacent-mean-pooled features that the gan was trained on, while decoding with LM works better on features before the adjacent timestep mean-pooling step (without the \"_pooled\" suffix).\n\nWhile the generator of wav2vec-U 2.0 is trained with an output frequency of 16hz, we found decoding at a higher frequency produces better results. This can be done by adding `decode_stride=1` or `2` to the argument.\n\n## Iterative self-training + Kaldi LM-decoding\nAfter the GAN training provides a first unsupervised model, we can then progressively refine the quality of transcriptions using several iterations of semi-supervised learning. We perform two iterations: first, pseudo-label the training data with the unsupervised GAN model and train an HMM on the pseudo-labels. Second, we relabel the training data with the HMM and then fine-tune the original wav2vec 2.0 model using the HMM pseudo-labels with a CTC loss. Note that HMM models use phonemes as output, while wav2vec 2.0 use letter. Both are decoded using WFST decoders into words.\n\n\nPlease see [this README](kaldi_self_train/README.md) for more instructions on how to do iterative self-training + Kaldi LM-decoding.\n\n*** Note: these instructions are a work in progress and will be updated over the next few days\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/__init__.py",
    "content": ""
  },
  {
    "path": "examples/wav2vec/unsupervised/config/finetuning/w2v_finetune.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n\ncheckpoint:\n  no_epoch_checkpoints: true\n  save_interval_updates: 20000\n\ntask:\n  _name: audio_finetuning\n  data: ???\n  normalize: true\n  labels: ltr\n\ndataset:\n  num_workers: 6\n  max_tokens: 800000\n  skip_invalid_size_inputs_valid_test: true\n  train_subset: train\n  valid_subset: valid\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 8\n  find_unused_parameters: True\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n  post_process: letter\n\noptimization:\n  max_update: 80000\n  lr: [0.00003]\n  sentence_avg: true\n  update_freq: [1]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.25\n  mask_channel_prob: 0.1\n  mask_channel_length: 64\n  layerdrop: 0.1\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 0\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/config/gan/w2vu.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: false\n  fp16_no_flatten_grads: true\n  log_format: json\n  log_interval: 100\n  tensorboard_logdir: tb\n  reset_logging: false\n  suppress_crashes: false\n\ncheckpoint:\n  save_interval: 1000\n  save_interval_updates: 1000\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: weighted_lm_ppl\n  save_dir: .\n\ndistributed_training:\n  distributed_world_size: 1\n\ntask:\n  _name: unpaired_audio_text\n  data: ???\n  text_data: ???\n  labels: phn\n  sort_by_length: false\n  unfiltered: false\n  max_length: null\n  append_eos: false\n  kenlm_path: ???\n\ndataset:\n  num_workers: 6\n  batch_size: 160\n  skip_invalid_size_inputs_valid_test: true\n  valid_subset: valid\n  validate_interval: 1000\n  validate_interval_updates: 1000\n\ncriterion:\n  _name: model\n  log_keys:\n    - accuracy_dense\n    - accuracy_token\n    - temp\n    - code_ppl\n\noptimization:\n  max_update: 150000\n  clip_norm: 5.0\n  lr: [0]\n\noptimizer:\n  _name: composite\n  groups:\n    generator:\n      lr: [0.0004]\n      lr_float: null\n      optimizer:\n        _name: adam\n        adam_betas: [0.5,0.98]\n        adam_eps: 1e-06\n        weight_decay: 0\n        amsgrad: false\n      lr_scheduler:\n        _name: fixed\n        warmup_updates: 0\n    discriminator:\n      lr: [ 0.0005 ]\n      lr_float: null\n      optimizer:\n        _name: adam\n        adam_betas: [0.5,0.98]\n        adam_eps: 1e-06\n        weight_decay: 0.0001\n        amsgrad: false\n      lr_scheduler:\n        _name: fixed\n        warmup_updates: 0\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: wav2vec_u\n\n  discriminator_dim: 384\n  discriminator_depth: 2\n  discriminator_kernel: 6\n  discriminator_linear_emb: false\n  discriminator_causal: true\n  discriminator_max_pool: false\n  discriminator_act_after_linear: false\n  discriminator_dropout: 0.0\n  discriminator_weight_norm: false\n\n  generator_stride: 1\n  generator_kernel: 4\n  generator_bias: false\n  generator_dropout: 0.1\n\n  smoothness_weight: 0.5\n  smoothing: 0\n  smoothing_one_sided: false\n  gumbel: false\n  hard_gumbel: false\n  gradient_penalty: 1.5\n  code_penalty: 4.0\n  temp: [ 2,0.1,0.99995 ]\n  input_dim: 512\n\n  segmentation:\n    type: JOIN\n    mean_pool_join: false\n    remove_zeros: false\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/config/gan/w2vu2.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: false\n  fp16_no_flatten_grads: true\n  log_format: json\n  log_interval: 100\n  tensorboard_logdir: tb\n  reset_logging: false\n  suppress_crashes: false\n\ncheckpoint:\n  save_interval: 1000\n  save_interval_updates: 1000\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: weighted_lm_ppl\n  save_dir: .\n\ndistributed_training:\n  distributed_world_size: 1\n\ntask:\n  _name: unpaired_audio_text\n  data: ???\n  text_data: ???\n  labels: phn\n  sort_by_length: false\n  unfiltered: false\n  max_length: null\n  append_eos: false\n  kenlm_path: ???\n  aux_target_postfix: km\n\ndataset:\n  num_workers: 6\n  batch_size: 160\n  skip_invalid_size_inputs_valid_test: true\n  valid_subset: valid\n  validate_interval: 1000\n  validate_interval_updates: 1000\n\ncriterion:\n  _name: model\n  log_keys:\n    - accuracy_dense\n    - accuracy_token\n    - temp\n    - code_ppl\n\noptimization:\n  max_update: 150000\n  clip_norm: 5.0\n  lr: [0]\n\noptimizer:\n  _name: composite\n  groups:\n    generator:\n      lr: [0.00005]\n      lr_float: null\n      optimizer:\n        _name: adam\n        adam_betas: [0.5,0.98]\n        adam_eps: 1e-06\n        weight_decay: 0\n        amsgrad: false\n      lr_scheduler:\n        _name: fixed\n        warmup_updates: 0\n    discriminator:\n      lr: [ 0.0003 ]\n      lr_float: null\n      optimizer:\n        _name: adam\n        adam_betas: [0.5,0.98]\n        adam_eps: 1e-06\n        weight_decay: 0.0001\n        amsgrad: false\n      lr_scheduler:\n        _name: fixed\n        warmup_updates: 0\n\nlr_scheduler: pass_through\n\nmodel:\n  _name: wav2vec_u\n\n  discriminator_dim: 384\n  discriminator_depth: 2\n  discriminator_kernel: 8\n  discriminator_linear_emb: false\n  discriminator_causal: true\n  discriminator_max_pool: false\n  discriminator_act_after_linear: false\n  discriminator_dropout: 0.0\n  discriminator_weight_norm: false\n\n  generator_stride: 3\n  generator_kernel: 9\n  generator_bias: false\n  generator_dropout: 0.1\n  generator_batch_norm: 30\n  generator_residual: true\n\n  smoothness_weight: 1.5\n  smoothing: 0\n  smoothing_one_sided: false\n  gumbel: false\n  hard_gumbel: false\n  gradient_penalty: 1.0\n  code_penalty: 3.0\n  temp: [ 2,0.1,0.99995 ]\n  input_dim: 1024\n  mmi_weight: 0.5\n  target_dim: 64\n\n  segmentation:\n    type: JOIN\n    mean_pool_join: false\n    remove_zeros: false\n\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - run_config\n          - distributed_training.distributed_port\n          - common.user_dir\n          - task.data\n          - task.kenlm_path\n          - task.text_data\n          - model.generator_layers\n          - task.labels\n          - task.force_model_seed\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}/${hydra.job.override_dirname}\n    subdir: ${hydra.job.num}\n  launcher:\n    submitit_folder: ${hydra.sweep.dir}\n    timeout_min: 3000\n    cpus_per_task: 10\n    gpus_per_node: 1\n    tasks_per_node: 1\n    mem_gb: 120\n    nodes: 1\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    partition: devlab,learnlab,learnfair,scavenge\n    comment: intern_endding_soon\n    constraint: volta32gb\n    max_num_timeout: 30\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/config/generate/viterbi.yaml",
    "content": "# @package _group_\n\nfairseq:\n  task:\n    _name: unpaired_audio_text\n    labels: phn\n    data: ???\n    sort_by_length: false\n    shuffle: false\n    text_data: ''\n\n  common_eval:\n    path: ???\n    quiet: true\n\n  dataset:\n    gen_subset: valid\n    batch_size: 1\n\nw2l_decoder: VITERBI\npost_process: silence\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/config/timit_matched/test.uid",
    "content": "FDHC0_SI1559\nFDHC0_SI2189\nFDHC0_SI929\nFDHC0_SX119\nFDHC0_SX209\nFDHC0_SX29\nFDHC0_SX299\nFDHC0_SX389\nFELC0_SI1386\nFELC0_SI2016\nFELC0_SI756\nFELC0_SX126\nFELC0_SX216\nFELC0_SX306\nFELC0_SX36\nFELC0_SX396\nFJLM0_SI1043\nFJLM0_SI1673\nFJLM0_SI2303\nFJLM0_SX143\nFJLM0_SX233\nFJLM0_SX323\nFJLM0_SX413\nFJLM0_SX53\nFMGD0_SI1564\nFMGD0_SI2194\nFMGD0_SI934\nFMGD0_SX124\nFMGD0_SX214\nFMGD0_SX304\nFMGD0_SX34\nFMGD0_SX394\nFMLD0_SI2185\nFMLD0_SI822\nFMLD0_SI925\nFMLD0_SX115\nFMLD0_SX205\nFMLD0_SX25\nFMLD0_SX295\nFMLD0_SX385\nFNLP0_SI1308\nFNLP0_SI1938\nFNLP0_SI678\nFNLP0_SX138\nFNLP0_SX228\nFNLP0_SX318\nFNLP0_SX408\nFNLP0_SX48\nFPAS0_SI1272\nFPAS0_SI2204\nFPAS0_SI944\nFPAS0_SX134\nFPAS0_SX224\nFPAS0_SX314\nFPAS0_SX404\nFPAS0_SX44\nFPKT0_SI1538\nFPKT0_SI2168\nFPKT0_SI908\nFPKT0_SX188\nFPKT0_SX278\nFPKT0_SX368\nFPKT0_SX8\nFPKT0_SX98\nMBPM0_SI1577\nMBPM0_SI1584\nMBPM0_SI947\nMBPM0_SX137\nMBPM0_SX227\nMBPM0_SX317\nMBPM0_SX407\nMBPM0_SX47\nMCMJ0_SI1094\nMCMJ0_SI464\nMCMJ0_SI602\nMCMJ0_SX104\nMCMJ0_SX14\nMCMJ0_SX194\nMCMJ0_SX284\nMCMJ0_SX374\nMDAB0_SI1039\nMDAB0_SI1669\nMDAB0_SI2299\nMDAB0_SX139\nMDAB0_SX229\nMDAB0_SX319\nMDAB0_SX409\nMDAB0_SX49\nMGRT0_SI1450\nMGRT0_SI2080\nMGRT0_SI820\nMGRT0_SX10\nMGRT0_SX100\nMGRT0_SX190\nMGRT0_SX280\nMGRT0_SX370\nMJDH0_SI1354\nMJDH0_SI1984\nMJDH0_SI724\nMJDH0_SX184\nMJDH0_SX274\nMJDH0_SX364\nMJDH0_SX4\nMJDH0_SX94\nMJLN0_SI1449\nMJLN0_SI2079\nMJLN0_SI819\nMJLN0_SX189\nMJLN0_SX279\nMJLN0_SX369\nMJLN0_SX9\nMJLN0_SX99\nMJMP0_SI1535\nMJMP0_SI1791\nMJMP0_SI905\nMJMP0_SX185\nMJMP0_SX275\nMJMP0_SX365\nMJMP0_SX5\nMJMP0_SX95\nMKLT0_SI1213\nMKLT0_SI1843\nMKLT0_SI583\nMKLT0_SX133\nMKLT0_SX223\nMKLT0_SX313\nMKLT0_SX403\nMKLT0_SX43\nMLLL0_SI1363\nMLLL0_SI1993\nMLLL0_SI733\nMLLL0_SX103\nMLLL0_SX13\nMLLL0_SX193\nMLLL0_SX283\nMLLL0_SX373\nMLNT0_SI1574\nMLNT0_SI1902\nMLNT0_SI642\nMLNT0_SX102\nMLNT0_SX12\nMLNT0_SX192\nMLNT0_SX282\nMLNT0_SX372\nMNJM0_SI1580\nMNJM0_SI2210\nMNJM0_SI950\nMNJM0_SX140\nMNJM0_SX230\nMNJM0_SX320\nMNJM0_SX410\nMNJM0_SX50\nMPAM0_SI1189\nMPAM0_SI1819\nMPAM0_SI1961\nMPAM0_SX109\nMPAM0_SX19\nMPAM0_SX199\nMPAM0_SX289\nMPAM0_SX379\nMTAS1_SI1473\nMTAS1_SI2098\nMTAS1_SI838\nMTAS1_SX118\nMTAS1_SX208\nMTAS1_SX28\nMTAS1_SX298\nMTAS1_SX388\nMTLS0_SI1370\nMTLS0_SI2000\nMTLS0_SI740\nMTLS0_SX110\nMTLS0_SX20\nMTLS0_SX200\nMTLS0_SX290\nMTLS0_SX380\nMWBT0_SI1553\nMWBT0_SI2183\nMWBT0_SI923\nMWBT0_SX113\nMWBT0_SX203\nMWBT0_SX23\nMWBT0_SX293\nMWBT0_SX383\nMWEW0_SI1361\nMWEW0_SI1991\nMWEW0_SI731\nMWEW0_SX101\nMWEW0_SX11\nMWEW0_SX191\nMWEW0_SX281\nMWEW0_SX371\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/config/timit_matched/train.uid",
    "content": "FAEM0_SI1392\nFAEM0_SI2022\nFAEM0_SI762\nFAEM0_SX132\nFAEM0_SX222\nFAEM0_SX312\nFAEM0_SX402\nFAEM0_SX42\nFAJW0_SI1263\nFAJW0_SI1893\nFAJW0_SI633\nFAJW0_SX183\nFAJW0_SX273\nFAJW0_SX3\nFAJW0_SX363\nFAJW0_SX93\nFALK0_SI1086\nFALK0_SI456\nFALK0_SI658\nFALK0_SX186\nFALK0_SX276\nFALK0_SX366\nFALK0_SX6\nFALK0_SX96\nFALR0_SI1325\nFALR0_SI1955\nFALR0_SI695\nFALR0_SX155\nFALR0_SX245\nFALR0_SX335\nFALR0_SX425\nFALR0_SX65\nFAPB0_SI1063\nFAPB0_SI1693\nFAPB0_SI2323\nFAPB0_SX163\nFAPB0_SX253\nFAPB0_SX343\nFAPB0_SX433\nFAPB0_SX73\nFBAS0_SI1387\nFBAS0_SI1472\nFBAS0_SI2066\nFBAS0_SX127\nFBAS0_SX217\nFBAS0_SX307\nFBAS0_SX37\nFBAS0_SX397\nFBCG1_SI1612\nFBCG1_SI2242\nFBCG1_SI982\nFBCG1_SX172\nFBCG1_SX262\nFBCG1_SX352\nFBCG1_SX442\nFBCG1_SX82\nFBCH0_SI1586\nFBCH0_SI956\nFBCH0_SI959\nFBCH0_SX146\nFBCH0_SX236\nFBCH0_SX326\nFBCH0_SX416\nFBCH0_SX56\nFBJL0_SI1552\nFBJL0_SI2182\nFBJL0_SI922\nFBJL0_SX112\nFBJL0_SX202\nFBJL0_SX22\nFBJL0_SX292\nFBJL0_SX382\nFBLV0_SI1058\nFBLV0_SI1688\nFBLV0_SI2318\nFBLV0_SX158\nFBLV0_SX248\nFBLV0_SX338\nFBLV0_SX428\nFBLV0_SX68\nFBMH0_SI1136\nFBMH0_SI1766\nFBMH0_SI970\nFBMH0_SX146\nFBMH0_SX236\nFBMH0_SX326\nFBMH0_SX416\nFBMH0_SX56\nFBMJ0_SI1776\nFBMJ0_SI516\nFBMJ0_SI815\nFBMJ0_SX156\nFBMJ0_SX246\nFBMJ0_SX336\nFBMJ0_SX426\nFBMJ0_SX66\nFCAG0_SI1503\nFCAG0_SI1641\nFCAG0_SI2133\nFCAG0_SX153\nFCAG0_SX243\nFCAG0_SX333\nFCAG0_SX423\nFCAG0_SX63\nFCAJ0_SI1479\nFCAJ0_SI1804\nFCAJ0_SI849\nFCAJ0_SX129\nFCAJ0_SX219\nFCAJ0_SX309\nFCAJ0_SX39\nFCAJ0_SX399\nFCDR1_SI1186\nFCDR1_SI1816\nFCDR1_SI556\nFCDR1_SX106\nFCDR1_SX16\nFCDR1_SX196\nFCDR1_SX286\nFCDR1_SX376\nFCEG0_SI1248\nFCEG0_SI1878\nFCEG0_SI618\nFCEG0_SX168\nFCEG0_SX258\nFCEG0_SX348\nFCEG0_SX438\nFCEG0_SX78\nFCJF0_SI1027\nFCJF0_SI1657\nFCJF0_SI648\nFCJF0_SX127\nFCJF0_SX217\nFCJF0_SX307\nFCJF0_SX37\nFCJF0_SX397\nFCJS0_SI1607\nFCJS0_SI2237\nFCJS0_SI977\nFCJS0_SX167\nFCJS0_SX257\nFCJS0_SX347\nFCJS0_SX437\nFCJS0_SX77\nFCKE0_SI1111\nFCKE0_SI1741\nFCKE0_SI481\nFCKE0_SX121\nFCKE0_SX211\nFCKE0_SX301\nFCKE0_SX31\nFCKE0_SX391\nFCLT0_SI1438\nFCLT0_SI2068\nFCLT0_SI808\nFCLT0_SX178\nFCLT0_SX268\nFCLT0_SX358\nFCLT0_SX448\nFCLT0_SX88\nFCMG0_SI1142\nFCMG0_SI1242\nFCMG0_SI1872\nFCMG0_SX162\nFCMG0_SX252\nFCMG0_SX342\nFCMG0_SX432\nFCMG0_SX72\nFCMM0_SI1083\nFCMM0_SI1957\nFCMM0_SI453\nFCMM0_SX183\nFCMM0_SX273\nFCMM0_SX363\nFCMM0_SX420\nFCMM0_SX93\nFCRZ0_SI1913\nFCRZ0_SI2053\nFCRZ0_SI793\nFCRZ0_SX163\nFCRZ0_SX253\nFCRZ0_SX343\nFCRZ0_SX433\nFCRZ0_SX73\nFCYL0_SI1297\nFCYL0_SI1927\nFCYL0_SI667\nFCYL0_SX127\nFCYL0_SX217\nFCYL0_SX349\nFCYL0_SX37\nFCYL0_SX397\nFDAS1_SI1461\nFDAS1_SI2091\nFDAS1_SI831\nFDAS1_SX111\nFDAS1_SX201\nFDAS1_SX21\nFDAS1_SX291\nFDAS1_SX381\nFDAW0_SI1271\nFDAW0_SI1406\nFDAW0_SI2036\nFDAW0_SX146\nFDAW0_SX236\nFDAW0_SX326\nFDAW0_SX416\nFDAW0_SX56\nFDFB0_SI1318\nFDFB0_SI1948\nFDFB0_SI2010\nFDFB0_SX148\nFDFB0_SX238\nFDFB0_SX328\nFDFB0_SX418\nFDFB0_SX58\nFDJH0_SI1565\nFDJH0_SI2195\nFDJH0_SI935\nFDJH0_SX125\nFDJH0_SX215\nFDJH0_SX305\nFDJH0_SX35\nFDJH0_SX395\nFDKN0_SI1081\nFDKN0_SI1202\nFDKN0_SI1711\nFDKN0_SX181\nFDKN0_SX271\nFDKN0_SX361\nFDKN0_SX451\nFDKN0_SX91\nFDML0_SI1149\nFDML0_SI1779\nFDML0_SI2075\nFDML0_SX159\nFDML0_SX249\nFDML0_SX339\nFDML0_SX429\nFDML0_SX69\nFDMY0_SI1197\nFDMY0_SI567\nFDMY0_SI714\nFDMY0_SX117\nFDMY0_SX207\nFDMY0_SX27\nFDMY0_SX297\nFDMY0_SX387\nFDNC0_SI1278\nFDNC0_SI1908\nFDNC0_SI2287\nFDNC0_SX108\nFDNC0_SX18\nFDNC0_SX198\nFDNC0_SX288\nFDNC0_SX378\nFDTD0_SI1561\nFDTD0_SI2191\nFDTD0_SI931\nFDTD0_SX121\nFDTD0_SX211\nFDTD0_SX301\nFDTD0_SX321\nFDTD0_SX391\nFDXW0_SI1511\nFDXW0_SI2141\nFDXW0_SI881\nFDXW0_SX161\nFDXW0_SX251\nFDXW0_SX341\nFDXW0_SX431\nFDXW0_SX71\nFEAC0_SI1245\nFEAC0_SI1875\nFEAC0_SI615\nFEAC0_SX165\nFEAC0_SX255\nFEAC0_SX345\nFEAC0_SX435\nFEAC0_SX75\nFEAR0_SI1252\nFEAR0_SI1882\nFEAR0_SI622\nFEAR0_SX172\nFEAR0_SX262\nFEAR0_SX352\nFEAR0_SX442\nFEAR0_SX82\nFECD0_SI1418\nFECD0_SI2048\nFECD0_SI788\nFECD0_SX158\nFECD0_SX248\nFECD0_SX338\nFECD0_SX428\nFECD0_SX68\nFEEH0_SI1112\nFEEH0_SI1742\nFEEH0_SI471\nFEEH0_SX122\nFEEH0_SX212\nFEEH0_SX302\nFEEH0_SX32\nFEEH0_SX392\nFEME0_SI1505\nFEME0_SI2135\nFEME0_SI875\nFEME0_SX155\nFEME0_SX245\nFEME0_SX335\nFEME0_SX425\nFEME0_SX65\nFETB0_SI1148\nFETB0_SI1778\nFETB0_SI518\nFETB0_SX158\nFETB0_SX248\nFETB0_SX338\nFETB0_SX428\nFETB0_SX68\nFEXM0_SI1101\nFEXM0_SI1731\nFEXM0_SI482\nFEXM0_SX111\nFEXM0_SX201\nFEXM0_SX291\nFEXM0_SX366\nFEXM0_SX381\nFGCS0_SI1486\nFGCS0_SI2116\nFGCS0_SI856\nFGCS0_SX136\nFGCS0_SX226\nFGCS0_SX316\nFGCS0_SX406\nFGCS0_SX46\nFGDP0_SI1618\nFGDP0_SI2248\nFGDP0_SI988\nFGDP0_SX178\nFGDP0_SX268\nFGDP0_SX358\nFGDP0_SX448\nFGDP0_SX88\nFGMB0_SI1145\nFGMB0_SI1775\nFGMB0_SI515\nFGMB0_SX155\nFGMB0_SX245\nFGMB0_SX335\nFGMB0_SX425\nFGMB0_SX65\nFGRW0_SI1152\nFGRW0_SI1782\nFGRW0_SI1990\nFGRW0_SX162\nFGRW0_SX252\nFGRW0_SX342\nFGRW0_SX432\nFGRW0_SX72\nFHLM0_SI1560\nFHLM0_SI2190\nFHLM0_SI930\nFHLM0_SX120\nFHLM0_SX210\nFHLM0_SX300\nFHLM0_SX349\nFHLM0_SX390\nFHXS0_SI1075\nFHXS0_SI2302\nFHXS0_SI2335\nFHXS0_SX175\nFHXS0_SX265\nFHXS0_SX355\nFHXS0_SX445\nFHXS0_SX85\nFJDM2_SI1582\nFJDM2_SI1964\nFJDM2_SI2212\nFJDM2_SX142\nFJDM2_SX232\nFJDM2_SX322\nFJDM2_SX412\nFJDM2_SX52\nFJEN0_SI1047\nFJEN0_SI1677\nFJEN0_SI2307\nFJEN0_SX147\nFJEN0_SX237\nFJEN0_SX327\nFJEN0_SX417\nFJEN0_SX57\nFJHK0_SI1022\nFJHK0_SI1652\nFJHK0_SI2282\nFJHK0_SX122\nFJHK0_SX212\nFJHK0_SX302\nFJHK0_SX32\nFJHK0_SX392\nFJKL0_SI1562\nFJKL0_SI2192\nFJKL0_SI932\nFJKL0_SX122\nFJKL0_SX212\nFJKL0_SX302\nFJKL0_SX32\nFJKL0_SX392\nFJLG0_SI1506\nFJLG0_SI1889\nFJLG0_SI2306\nFJLG0_SX179\nFJLG0_SX269\nFJLG0_SX359\nFJLG0_SX449\nFJLG0_SX89\nFJLR0_SI1231\nFJLR0_SI1861\nFJLR0_SI601\nFJLR0_SX151\nFJLR0_SX241\nFJLR0_SX331\nFJLR0_SX421\nFJLR0_SX61\nFJRB0_SI1302\nFJRB0_SI1932\nFJRB0_SI672\nFJRB0_SX132\nFJRB0_SX222\nFJRB0_SX312\nFJRB0_SX402\nFJRB0_SX42\nFJRP1_SI1432\nFJRP1_SI2062\nFJRP1_SI802\nFJRP1_SX172\nFJRP1_SX262\nFJRP1_SX352\nFJRP1_SX442\nFJRP1_SX82\nFJSK0_SI1052\nFJSK0_SI1682\nFJSK0_SI2312\nFJSK0_SX152\nFJSK0_SX242\nFJSK0_SX332\nFJSK0_SX422\nFJSK0_SX62\nFJSP0_SI1434\nFJSP0_SI1763\nFJSP0_SI804\nFJSP0_SX174\nFJSP0_SX264\nFJSP0_SX354\nFJSP0_SX444\nFJSP0_SX84\nFJWB1_SI2055\nFJWB1_SI748\nFJWB1_SI795\nFJWB1_SX165\nFJWB1_SX255\nFJWB1_SX345\nFJWB1_SX435\nFJWB1_SX75\nFJXM0_SI1211\nFJXM0_SI1971\nFJXM0_SI581\nFJXM0_SX131\nFJXM0_SX221\nFJXM0_SX311\nFJXM0_SX401\nFJXM0_SX41\nFJXP0_SI1122\nFJXP0_SI1752\nFJXP0_SI492\nFJXP0_SX132\nFJXP0_SX222\nFJXP0_SX312\nFJXP0_SX402\nFJXP0_SX42\nFKAA0_SI1208\nFKAA0_SI1838\nFKAA0_SI578\nFKAA0_SX128\nFKAA0_SX218\nFKAA0_SX308\nFKAA0_SX38\nFKAA0_SX398\nFKDE0_SI1141\nFKDE0_SI1771\nFKDE0_SI2221\nFKDE0_SX151\nFKDE0_SX241\nFKDE0_SX331\nFKDE0_SX421\nFKDE0_SX61\nFKDW0_SI1207\nFKDW0_SI1891\nFKDW0_SI577\nFKDW0_SX127\nFKDW0_SX217\nFKDW0_SX307\nFKDW0_SX37\nFKDW0_SX397\nFKFB0_SI1608\nFKFB0_SI2238\nFKFB0_SI978\nFKFB0_SX168\nFKFB0_SX258\nFKFB0_SX348\nFKFB0_SX438\nFKFB0_SX78\nFKKH0_SI1290\nFKKH0_SI1920\nFKKH0_SI660\nFKKH0_SX120\nFKKH0_SX210\nFKKH0_SX30\nFKKH0_SX300\nFKKH0_SX390\nFKLC0_SI1615\nFKLC0_SI2245\nFKLC0_SI985\nFKLC0_SX175\nFKLC0_SX265\nFKLC0_SX355\nFKLC0_SX445\nFKLC0_SX85\nFKLC1_SI1048\nFKLC1_SI1678\nFKLC1_SI2308\nFKLC1_SX148\nFKLC1_SX238\nFKLC1_SX328\nFKLC1_SX418\nFKLC1_SX58\nFKLH0_SI1257\nFKLH0_SI1887\nFKLH0_SI627\nFKLH0_SX177\nFKLH0_SX267\nFKLH0_SX357\nFKLH0_SX447\nFKLH0_SX87\nFKSR0_SI1117\nFKSR0_SI1747\nFKSR0_SI487\nFKSR0_SX161\nFKSR0_SX217\nFKSR0_SX366\nFKSR0_SX37\nFKSR0_SX397\nFLAC0_SI1339\nFLAC0_SI2161\nFLAC0_SI901\nFLAC0_SX181\nFLAC0_SX271\nFLAC0_SX361\nFLAC0_SX451\nFLAC0_SX91\nFLAG0_SI1464\nFLAG0_SI2094\nFLAG0_SI834\nFLAG0_SX114\nFLAG0_SX204\nFLAG0_SX24\nFLAG0_SX294\nFLAG0_SX384\nFLEH0_SI1051\nFLEH0_SI1681\nFLEH0_SI2311\nFLEH0_SX151\nFLEH0_SX241\nFLEH0_SX331\nFLEH0_SX421\nFLEH0_SX61\nFLET0_SI1137\nFLET0_SI1767\nFLET0_SI507\nFLET0_SX147\nFLET0_SX237\nFLET0_SX277\nFLET0_SX417\nFLET0_SX57\nFLHD0_SI1344\nFLHD0_SI1827\nFLHD0_SI1974\nFLHD0_SX174\nFLHD0_SX264\nFLHD0_SX354\nFLHD0_SX444\nFLHD0_SX84\nFLJA0_SI1078\nFLJA0_SI1708\nFLJA0_SI2338\nFLJA0_SX178\nFLJA0_SX268\nFLJA0_SX358\nFLJA0_SX448\nFLJA0_SX88\nFLJD0_SI1516\nFLJD0_SI2146\nFLJD0_SI886\nFLJD0_SX166\nFLJD0_SX256\nFLJD0_SX346\nFLJD0_SX436\nFLJD0_SX76\nFLJG0_SI1611\nFLJG0_SI2241\nFLJG0_SI981\nFLJG0_SX171\nFLJG0_SX261\nFLJG0_SX351\nFLJG0_SX441\nFLJG0_SX81\nFLKM0_SI1880\nFLKM0_SI620\nFLKM0_SI686\nFLKM0_SX116\nFLKM0_SX260\nFLKM0_SX350\nFLKM0_SX440\nFLKM0_SX80\nFLMA0_SI1243\nFLMA0_SI1873\nFLMA0_SI613\nFLMA0_SX163\nFLMA0_SX253\nFLMA0_SX343\nFLMA0_SX433\nFLMA0_SX73\nFLMC0_SI1372\nFLMC0_SI2002\nFLMC0_SI742\nFLMC0_SX112\nFLMC0_SX22\nFLMC0_SX292\nFLMC0_SX336\nFLMC0_SX382\nFLMK0_SI1035\nFLMK0_SI1229\nFLMK0_SI2295\nFLMK0_SX135\nFLMK0_SX225\nFLMK0_SX315\nFLMK0_SX405\nFLMK0_SX45\nFLOD0_SI1287\nFLOD0_SI1917\nFLOD0_SI657\nFLOD0_SX117\nFLOD0_SX171\nFLOD0_SX207\nFLOD0_SX297\nFLOD0_SX387\nFLTM0_SI1070\nFLTM0_SI1700\nFLTM0_SI2330\nFLTM0_SX170\nFLTM0_SX260\nFLTM0_SX350\nFLTM0_SX440\nFLTM0_SX80\nFMAH1_SI1509\nFMAH1_SI2139\nFMAH1_SI879\nFMAH1_SX159\nFMAH1_SX249\nFMAH1_SX339\nFMAH1_SX429\nFMAH1_SX69\nFMBG0_SI1160\nFMBG0_SI1790\nFMBG0_SI2264\nFMBG0_SX260\nFMBG0_SX3\nFMBG0_SX350\nFMBG0_SX440\nFMBG0_SX80\nFMEM0_SI1377\nFMEM0_SI2007\nFMEM0_SI747\nFMEM0_SX117\nFMEM0_SX207\nFMEM0_SX297\nFMEM0_SX333\nFMEM0_SX387\nFMJB0_SI1177\nFMJB0_SI1807\nFMJB0_SI547\nFMJB0_SX187\nFMJB0_SX277\nFMJB0_SX367\nFMJB0_SX7\nFMJB0_SX97\nFMJF0_SI1254\nFMJF0_SI1884\nFMJF0_SI624\nFMJF0_SX174\nFMJF0_SX264\nFMJF0_SX354\nFMJF0_SX444\nFMJF0_SX84\nFMJU0_SI1389\nFMJU0_SI2019\nFMJU0_SI759\nFMJU0_SX129\nFMJU0_SX219\nFMJU0_SX309\nFMJU0_SX39\nFMJU0_SX399\nFMKC0_SI1041\nFMKC0_SI1072\nFMKC0_SI1702\nFMKC0_SX172\nFMKC0_SX262\nFMKC0_SX352\nFMKC0_SX442\nFMKC0_SX82\nFMKF0_SI1018\nFMKF0_SI1536\nFMKF0_SI906\nFMKF0_SX186\nFMKF0_SX276\nFMKF0_SX366\nFMKF0_SX6\nFMKF0_SX96\nFMMH0_SI1537\nFMMH0_SI2167\nFMMH0_SI907\nFMMH0_SX187\nFMMH0_SX367\nFMMH0_SX420\nFMMH0_SX7\nFMMH0_SX97\nFMPG0_SI1602\nFMPG0_SI2232\nFMPG0_SI972\nFMPG0_SX162\nFMPG0_SX252\nFMPG0_SX342\nFMPG0_SX432\nFMPG0_SX72\nFNKL0_SI1522\nFNKL0_SI2152\nFNKL0_SI892\nFNKL0_SX172\nFNKL0_SX196\nFNKL0_SX262\nFNKL0_SX442\nFNKL0_SX82\nFNTB0_SI1203\nFNTB0_SI573\nFNTB0_SI679\nFNTB0_SX123\nFNTB0_SX213\nFNTB0_SX303\nFNTB0_SX33\nFNTB0_SX393\nFPAB1_SI1471\nFPAB1_SI2101\nFPAB1_SI841\nFPAB1_SX121\nFPAB1_SX211\nFPAB1_SX301\nFPAB1_SX31\nFPAB1_SX391\nFPAC0_SI1921\nFPAC0_SI2011\nFPAC0_SI661\nFPAC0_SX121\nFPAC0_SX211\nFPAC0_SX301\nFPAC0_SX31\nFPAC0_SX391\nFPAD0_SI1346\nFPAD0_SI1976\nFPAD0_SI716\nFPAD0_SX176\nFPAD0_SX266\nFPAD0_SX356\nFPAD0_SX446\nFPAD0_SX86\nFPAF0_SI1054\nFPAF0_SI1684\nFPAF0_SI2314\nFPAF0_SX154\nFPAF0_SX244\nFPAF0_SX334\nFPAF0_SX424\nFPAF0_SX64\nFPAZ0_SI1593\nFPAZ0_SI2223\nFPAZ0_SI963\nFPAZ0_SX153\nFPAZ0_SX243\nFPAZ0_SX27\nFPAZ0_SX423\nFPAZ0_SX63\nFPJF0_SI1046\nFPJF0_SI1259\nFPJF0_SI1676\nFPJF0_SX146\nFPJF0_SX236\nFPJF0_SX326\nFPJF0_SX352\nFPJF0_SX56\nFPLS0_SI1590\nFPLS0_SI2220\nFPLS0_SI960\nFPLS0_SX150\nFPLS0_SX240\nFPLS0_SX3\nFPLS0_SX330\nFPLS0_SX60\nFPMY0_SI1153\nFPMY0_SI1783\nFPMY0_SI523\nFPMY0_SX163\nFPMY0_SX196\nFPMY0_SX253\nFPMY0_SX343\nFPMY0_SX73\nFREH0_SI1315\nFREH0_SI1945\nFREH0_SI685\nFREH0_SX145\nFREH0_SX235\nFREH0_SX325\nFREH0_SX415\nFREH0_SX55\nFRJB0_SI1427\nFRJB0_SI1470\nFRJB0_SI1794\nFRJB0_SX167\nFRJB0_SX257\nFRJB0_SX347\nFRJB0_SX437\nFRJB0_SX77\nFRLL0_SI1514\nFRLL0_SI805\nFRLL0_SI884\nFRLL0_SX164\nFRLL0_SX254\nFRLL0_SX344\nFRLL0_SX434\nFRLL0_SX74\nFSAG0_SI1323\nFSAG0_SI1953\nFSAG0_SI693\nFSAG0_SX153\nFSAG0_SX243\nFSAG0_SX333\nFSAG0_SX423\nFSAG0_SX63\nFSAH0_SI1244\nFSAH0_SI1874\nFSAH0_SI614\nFSAH0_SX164\nFSAH0_SX327\nFSAH0_SX344\nFSAH0_SX434\nFSAH0_SX74\nFSAK0_SI1300\nFSAK0_SI1930\nFSAK0_SI670\nFSAK0_SX130\nFSAK0_SX220\nFSAK0_SX310\nFSAK0_SX40\nFSAK0_SX400\nFSBK0_SI1069\nFSBK0_SI1699\nFSBK0_SI2329\nFSBK0_SX169\nFSBK0_SX259\nFSBK0_SX349\nFSBK0_SX439\nFSBK0_SX79\nFSCN0_SI1886\nFSCN0_SI626\nFSCN0_SI705\nFSCN0_SX176\nFSCN0_SX266\nFSCN0_SX356\nFSCN0_SX446\nFSCN0_SX86\nFSDC0_SI1312\nFSDC0_SI1942\nFSDC0_SI2234\nFSDC0_SX142\nFSDC0_SX232\nFSDC0_SX322\nFSDC0_SX412\nFSDC0_SX52\nFSDJ0_SI1115\nFSDJ0_SI1745\nFSDJ0_SI485\nFSDJ0_SX125\nFSDJ0_SX215\nFSDJ0_SX305\nFSDJ0_SX35\nFSDJ0_SX395\nFSGF0_SI1557\nFSGF0_SI2187\nFSGF0_SI927\nFSGF0_SX117\nFSGF0_SX207\nFSGF0_SX27\nFSGF0_SX297\nFSGF0_SX387\nFSJG0_SI1570\nFSJG0_SI2200\nFSJG0_SI940\nFSJG0_SX130\nFSJG0_SX220\nFSJG0_SX310\nFSJG0_SX40\nFSJG0_SX400\nFSJK1_SI1025\nFSJK1_SI2285\nFSJK1_SI696\nFSJK1_SX125\nFSJK1_SX215\nFSJK1_SX305\nFSJK1_SX35\nFSJK1_SX395\nFSJS0_SI1171\nFSJS0_SI1801\nFSJS0_SI541\nFSJS0_SX181\nFSJS0_SX271\nFSJS0_SX361\nFSJS0_SX451\nFSJS0_SX91\nFSJW0_SI1333\nFSJW0_SI1963\nFSJW0_SI703\nFSJW0_SX163\nFSJW0_SX253\nFSJW0_SX343\nFSJW0_SX433\nFSJW0_SX73\nFSKC0_SI1416\nFSKC0_SI2046\nFSKC0_SI786\nFSKC0_SX156\nFSKC0_SX246\nFSKC0_SX336\nFSKC0_SX426\nFSKC0_SX66\nFSKL0_SI1529\nFSKL0_SI2159\nFSKL0_SI899\nFSKL0_SX179\nFSKL0_SX269\nFSKL0_SX359\nFSKL0_SX449\nFSKL0_SX89\nFSKP0_SI1098\nFSKP0_SI1728\nFSKP0_SI468\nFSKP0_SX108\nFSKP0_SX18\nFSKP0_SX198\nFSKP0_SX288\nFSKP0_SX378\nFSLS0_SI1056\nFSLS0_SI1686\nFSLS0_SI2316\nFSLS0_SX156\nFSLS0_SX202\nFSLS0_SX246\nFSLS0_SX426\nFSLS0_SX66\nFSMA0_SI1621\nFSMA0_SI2251\nFSMA0_SI991\nFSMA0_SX181\nFSMA0_SX271\nFSMA0_SX361\nFSMA0_SX451\nFSMA0_SX91\nFSMM0_SI1314\nFSMM0_SI1944\nFSMM0_SI684\nFSMM0_SX144\nFSMM0_SX234\nFSMM0_SX324\nFSMM0_SX414\nFSMM0_SX54\nFSMS1_SI1504\nFSMS1_SI2134\nFSMS1_SI874\nFSMS1_SX154\nFSMS1_SX244\nFSMS1_SX334\nFSMS1_SX347\nFSMS1_SX64\nFSPM0_SI1241\nFSPM0_SI1871\nFSPM0_SI611\nFSPM0_SX161\nFSPM0_SX251\nFSPM0_SX341\nFSPM0_SX431\nFSPM0_SX71\nFSRH0_SI1719\nFSRH0_SI1931\nFSRH0_SI671\nFSRH0_SX131\nFSRH0_SX221\nFSRH0_SX311\nFSRH0_SX401\nFSRH0_SX41\nFSSB0_SI1082\nFSSB0_SI1712\nFSSB0_SI2342\nFSSB0_SX182\nFSSB0_SX272\nFSSB0_SX362\nFSSB0_SX452\nFSSB0_SX92\nFTAJ0_SI1329\nFTAJ0_SI474\nFTAJ0_SI699\nFTAJ0_SX159\nFTAJ0_SX249\nFTAJ0_SX339\nFTAJ0_SX429\nFTAJ0_SX69\nFTBR0_SI1402\nFTBR0_SI2181\nFTBR0_SI921\nFTBR0_SX111\nFTBR0_SX201\nFTBR0_SX21\nFTBR0_SX291\nFTBR0_SX381\nFTBW0_SI1345\nFTBW0_SI1975\nFTBW0_SI715\nFTBW0_SX175\nFTBW0_SX265\nFTBW0_SX355\nFTBW0_SX445\nFTBW0_SX85\nFTLG0_SI1743\nFTLG0_SI483\nFTLG0_SI840\nFTLG0_SX123\nFTLG0_SX213\nFTLG0_SX303\nFTLG0_SX33\nFTLG0_SX393\nFTMG0_SI1532\nFTMG0_SI2162\nFTMG0_SI902\nFTMG0_SX182\nFTMG0_SX272\nFTMG0_SX362\nFTMG0_SX452\nFTMG0_SX92\nFVFB0_SI1032\nFVFB0_SI1510\nFVFB0_SI2292\nFVFB0_SX132\nFVFB0_SX222\nFVFB0_SX312\nFVFB0_SX402\nFVFB0_SX42\nFVKB0_SI1159\nFVKB0_SI1789\nFVKB0_SI529\nFVKB0_SX169\nFVKB0_SX259\nFVKB0_SX349\nFVKB0_SX439\nFVKB0_SX79\nFVMH0_SI1466\nFVMH0_SI2096\nFVMH0_SI836\nFVMH0_SX116\nFVMH0_SX206\nFVMH0_SX26\nFVMH0_SX296\nFVMH0_SX386\nMABC0_SI1620\nMABC0_SI2041\nMABC0_SI781\nMABC0_SX151\nMABC0_SX241\nMABC0_SX331\nMABC0_SX421\nMABC0_SX61\nMADC0_SI1367\nMADC0_SI1997\nMADC0_SI737\nMADC0_SX107\nMADC0_SX17\nMADC0_SX197\nMADC0_SX287\nMADC0_SX377\nMADD0_SI1295\nMADD0_SI1798\nMADD0_SI538\nMADD0_SX178\nMADD0_SX268\nMADD0_SX358\nMADD0_SX448\nMADD0_SX88\nMAEB0_SI1411\nMAEB0_SI2250\nMAEB0_SI990\nMAEB0_SX180\nMAEB0_SX270\nMAEB0_SX360\nMAEB0_SX450\nMAEB0_SX90\nMAEO0_SI1326\nMAEO0_SI1655\nMAEO0_SI1956\nMAEO0_SX156\nMAEO0_SX246\nMAEO0_SX336\nMAEO0_SX426\nMAEO0_SX66\nMAFM0_SI1569\nMAFM0_SI2199\nMAFM0_SI939\nMAFM0_SX129\nMAFM0_SX219\nMAFM0_SX309\nMAFM0_SX39\nMAFM0_SX399\nMAJP0_SI1074\nMAJP0_SI1704\nMAJP0_SI2334\nMAJP0_SX174\nMAJP0_SX264\nMAJP0_SX354\nMAJP0_SX444\nMAJP0_SX84\nMAKB0_SI1016\nMAKB0_SI1646\nMAKB0_SI2276\nMAKB0_SX116\nMAKB0_SX206\nMAKB0_SX26\nMAKB0_SX296\nMAKB0_SX386\nMAKR0_SI1352\nMAKR0_SI1982\nMAKR0_SI722\nMAKR0_SX182\nMAKR0_SX272\nMAKR0_SX362\nMAKR0_SX452\nMAKR0_SX92\nMAPV0_SI1293\nMAPV0_SI1923\nMAPV0_SI663\nMAPV0_SX123\nMAPV0_SX213\nMAPV0_SX303\nMAPV0_SX33\nMAPV0_SX393\nMARC0_SI1188\nMARC0_SI1818\nMARC0_SI558\nMARC0_SX108\nMARC0_SX18\nMARC0_SX198\nMARC0_SX288\nMARC0_SX378\nMARW0_SI1276\nMARW0_SI1906\nMARW0_SI646\nMARW0_SX106\nMARW0_SX16\nMARW0_SX286\nMARW0_SX349\nMARW0_SX376\nMBAR0_SI1319\nMBAR0_SI1949\nMBAR0_SI689\nMBAR0_SX149\nMBAR0_SX239\nMBAR0_SX329\nMBAR0_SX419\nMBAR0_SX59\nMBBR0_SI1055\nMBBR0_SI1685\nMBBR0_SI2315\nMBBR0_SX155\nMBBR0_SX245\nMBBR0_SX335\nMBBR0_SX425\nMBBR0_SX65\nMBCG0_SI2217\nMBCG0_SI486\nMBCG0_SI957\nMBCG0_SX147\nMBCG0_SX237\nMBCG0_SX327\nMBCG0_SX417\nMBCG0_SX57\nMBEF0_SI1281\nMBEF0_SI1911\nMBEF0_SI651\nMBEF0_SX111\nMBEF0_SX201\nMBEF0_SX21\nMBEF0_SX291\nMBEF0_SX381\nMBGT0_SI1341\nMBGT0_SI1841\nMBGT0_SI711\nMBGT0_SX171\nMBGT0_SX261\nMBGT0_SX351\nMBGT0_SX441\nMBGT0_SX81\nMBJV0_SI1247\nMBJV0_SI1877\nMBJV0_SI617\nMBJV0_SX167\nMBJV0_SX257\nMBJV0_SX347\nMBJV0_SX437\nMBJV0_SX77\nMBMA0_SI1222\nMBMA0_SI1852\nMBMA0_SI592\nMBMA0_SX142\nMBMA0_SX232\nMBMA0_SX322\nMBMA0_SX412\nMBMA0_SX52\nMBMA1_SI2207\nMBMA1_SI2214\nMBMA1_SI954\nMBMA1_SX144\nMBMA1_SX234\nMBMA1_SX324\nMBMA1_SX414\nMBMA1_SX54\nMBML0_SI1169\nMBML0_SI1799\nMBML0_SI539\nMBML0_SX179\nMBML0_SX269\nMBML0_SX359\nMBML0_SX449\nMBML0_SX89\nMBOM0_SI1014\nMBOM0_SI1644\nMBOM0_SI2274\nMBOM0_SX114\nMBOM0_SX204\nMBOM0_SX294\nMBOM0_SX311\nMBOM0_SX384\nMBSB0_SI1353\nMBSB0_SI1983\nMBSB0_SI723\nMBSB0_SX183\nMBSB0_SX273\nMBSB0_SX3\nMBSB0_SX363\nMBSB0_SX93\nMBTH0_SI2102\nMBTH0_SI505\nMBTH0_SI757\nMBTH0_SX122\nMBTH0_SX212\nMBTH0_SX302\nMBTH0_SX32\nMBTH0_SX392\nMBWP0_SI1531\nMBWP0_SI1969\nMBWP0_SI709\nMBWP0_SX169\nMBWP0_SX259\nMBWP0_SX349\nMBWP0_SX439\nMBWP0_SX79\nMCAE0_SI1447\nMCAE0_SI2077\nMCAE0_SI817\nMCAE0_SX187\nMCAE0_SX277\nMCAE0_SX367\nMCAE0_SX7\nMCAE0_SX97\nMCAL0_SI1138\nMCAL0_SI1768\nMCAL0_SI508\nMCAL0_SX148\nMCAL0_SX238\nMCAL0_SX328\nMCAL0_SX418\nMCAL0_SX58\nMCDC0_SI1292\nMCDC0_SI1922\nMCDC0_SI662\nMCDC0_SX122\nMCDC0_SX212\nMCDC0_SX302\nMCDC0_SX32\nMCDC0_SX392\nMCDD0_SI1513\nMCDD0_SI2143\nMCDD0_SI883\nMCDD0_SX163\nMCDD0_SX253\nMCDD0_SX343\nMCDD0_SX433\nMCDD0_SX73\nMCDR0_SI1154\nMCDR0_SI1784\nMCDR0_SI524\nMCDR0_SX164\nMCDR0_SX254\nMCDR0_SX344\nMCDR0_SX434\nMCDR0_SX74\nMCEF0_SI1135\nMCEF0_SI1765\nMCEF0_SI842\nMCEF0_SX145\nMCEF0_SX235\nMCEF0_SX325\nMCEF0_SX415\nMCEF0_SX55\nMCEW0_SI1442\nMCEW0_SI2072\nMCEW0_SI812\nMCEW0_SX182\nMCEW0_SX272\nMCEW0_SX362\nMCEW0_SX452\nMCEW0_SX92\nMCHL0_SI1347\nMCHL0_SI1404\nMCHL0_SI1977\nMCHL0_SX177\nMCHL0_SX267\nMCHL0_SX357\nMCHL0_SX447\nMCHL0_SX87\nMCLK0_SI1660\nMCLK0_SI2290\nMCLK0_SI650\nMCLK0_SX130\nMCLK0_SX220\nMCLK0_SX310\nMCLK0_SX40\nMCLK0_SX400\nMCLM0_SI1456\nMCLM0_SI2086\nMCLM0_SI826\nMCLM0_SX106\nMCLM0_SX16\nMCLM0_SX196\nMCLM0_SX286\nMCLM0_SX376\nMCPM0_SI1194\nMCPM0_SI1824\nMCPM0_SI564\nMCPM0_SX114\nMCPM0_SX204\nMCPM0_SX24\nMCPM0_SX294\nMCPM0_SX384\nMCRE0_SI1121\nMCRE0_SI1725\nMCRE0_SI1751\nMCRE0_SX131\nMCRE0_SX221\nMCRE0_SX24\nMCRE0_SX401\nMCRE0_SX41\nMCSS0_SI1380\nMCSS0_SI688\nMCSS0_SI750\nMCSS0_SX120\nMCSS0_SX210\nMCSS0_SX30\nMCSS0_SX300\nMCSS0_SX390\nMCTH0_SI1209\nMCTH0_SI1839\nMCTH0_SI579\nMCTH0_SX129\nMCTH0_SX219\nMCTH0_SX309\nMCTH0_SX39\nMCTH0_SX399\nMCTM0_SI1350\nMCTM0_SI1980\nMCTM0_SI720\nMCTM0_SX180\nMCTM0_SX270\nMCTM0_SX360\nMCTM0_SX450\nMCTM0_SX90\nMCXM0_SI1351\nMCXM0_SI1981\nMCXM0_SI721\nMCXM0_SX181\nMCXM0_SX271\nMCXM0_SX361\nMCXM0_SX451\nMCXM0_SX91\nMDAC0_SI1261\nMDAC0_SI1837\nMDAC0_SI631\nMDAC0_SX181\nMDAC0_SX271\nMDAC0_SX361\nMDAC0_SX451\nMDAC0_SX91\nMDAS0_SI1266\nMDAS0_SI1896\nMDAS0_SI636\nMDAS0_SX186\nMDAS0_SX21\nMDAS0_SX276\nMDAS0_SX6\nMDAS0_SX96\nMDBB1_SI1006\nMDBB1_SI1636\nMDBB1_SI2056\nMDBB1_SX106\nMDBB1_SX16\nMDBB1_SX196\nMDBB1_SX286\nMDBB1_SX376\nMDBP0_SI1158\nMDBP0_SI1788\nMDBP0_SI528\nMDBP0_SX168\nMDBP0_SX258\nMDBP0_SX348\nMDBP0_SX438\nMDBP0_SX78\nMDCD0_SI1415\nMDCD0_SI2045\nMDCD0_SI785\nMDCD0_SX155\nMDCD0_SX245\nMDCD0_SX335\nMDCD0_SX425\nMDCD0_SX65\nMDCM0_SI1480\nMDCM0_SI2110\nMDCM0_SI850\nMDCM0_SX130\nMDCM0_SX220\nMDCM0_SX310\nMDCM0_SX40\nMDCM0_SX400\nMDDC0_SI1419\nMDDC0_SI2049\nMDDC0_SI789\nMDDC0_SX159\nMDDC0_SX249\nMDDC0_SX339\nMDDC0_SX429\nMDDC0_SX69\nMDED0_SI1170\nMDED0_SI1800\nMDED0_SI540\nMDED0_SX180\nMDED0_SX270\nMDED0_SX360\nMDED0_SX450\nMDED0_SX90\nMDEF0_SI1123\nMDEF0_SI1563\nMDEF0_SI2193\nMDEF0_SX123\nMDEF0_SX213\nMDEF0_SX303\nMDEF0_SX33\nMDEF0_SX393\nMDEM0_SI1868\nMDEM0_SI608\nMDEM0_SI800\nMDEM0_SX158\nMDEM0_SX248\nMDEM0_SX338\nMDEM0_SX428\nMDEM0_SX68\nMDHL0_SI1439\nMDHL0_SI2069\nMDHL0_SI809\nMDHL0_SX179\nMDHL0_SX269\nMDHL0_SX359\nMDHL0_SX449\nMDHL0_SX89\nMDHS0_SI1530\nMDHS0_SI2160\nMDHS0_SI900\nMDHS0_SX180\nMDHS0_SX270\nMDHS0_SX360\nMDHS0_SX450\nMDHS0_SX90\nMDJM0_SI1455\nMDJM0_SI2085\nMDJM0_SI825\nMDJM0_SX105\nMDJM0_SX15\nMDJM0_SX195\nMDJM0_SX285\nMDJM0_SX375\nMDKS0_SI1066\nMDKS0_SI1696\nMDKS0_SI2326\nMDKS0_SX166\nMDKS0_SX256\nMDKS0_SX346\nMDKS0_SX436\nMDKS0_SX76\nMDLB0_SI1306\nMDLB0_SI1936\nMDLB0_SI676\nMDLB0_SX136\nMDLB0_SX226\nMDLB0_SX316\nMDLB0_SX406\nMDLB0_SX46\nMDLC0_SI1395\nMDLC0_SI2025\nMDLC0_SI765\nMDLC0_SX135\nMDLC0_SX225\nMDLC0_SX315\nMDLC0_SX405\nMDLC0_SX45\nMDLC1_SI1435\nMDLC1_SI2065\nMDLC1_SI2144\nMDLC1_SX175\nMDLC1_SX265\nMDLC1_SX355\nMDLC1_SX445\nMDLC1_SX85\nMDLC2_SI1614\nMDLC2_SI2244\nMDLC2_SI984\nMDLC2_SX174\nMDLC2_SX264\nMDLC2_SX354\nMDLC2_SX444\nMDLC2_SX84\nMDLH0_SI1960\nMDLH0_SI574\nMDLH0_SI700\nMDLH0_SX160\nMDLH0_SX250\nMDLH0_SX340\nMDLH0_SX430\nMDLH0_SX70\nMDLM0_SI1234\nMDLM0_SI1864\nMDLM0_SI604\nMDLM0_SX154\nMDLM0_SX244\nMDLM0_SX334\nMDLM0_SX424\nMDLM0_SX64\nMDLR0_SI1233\nMDLR0_SI1863\nMDLR0_SI603\nMDLR0_SX153\nMDLR0_SX243\nMDLR0_SX333\nMDLR0_SX423\nMDLR0_SX63\nMDLR1_SI1299\nMDLR1_SI1929\nMDLR1_SI669\nMDLR1_SX129\nMDLR1_SX219\nMDLR1_SX309\nMDLR1_SX39\nMDLR1_SX399\nMDMA0_SI1238\nMDMA0_SI1430\nMDMA0_SI2060\nMDMA0_SX170\nMDMA0_SX260\nMDMA0_SX350\nMDMA0_SX440\nMDMA0_SX80\nMDMT0_SI1832\nMDMT0_SI2341\nMDMT0_SI572\nMDMT0_SX122\nMDMT0_SX212\nMDMT0_SX302\nMDMT0_SX32\nMDMT0_SX392\nMDNS0_SI1011\nMDNS0_SI2271\nMDNS0_SI873\nMDNS0_SX111\nMDNS0_SX201\nMDNS0_SX21\nMDNS0_SX291\nMDNS0_SX381\nMDPB0_SI1760\nMDPB0_SI2126\nMDPB0_SI866\nMDPB0_SX146\nMDPB0_SX236\nMDPB0_SX326\nMDPB0_SX416\nMDPB0_SX56\nMDPK0_SI1053\nMDPK0_SI1683\nMDPK0_SI552\nMDPK0_SX153\nMDPK0_SX243\nMDPK0_SX333\nMDPK0_SX423\nMDPK0_SX63\nMDPS0_SI1651\nMDPS0_SI1979\nMDPS0_SI719\nMDPS0_SX179\nMDPS0_SX269\nMDPS0_SX359\nMDPS0_SX449\nMDPS0_SX89\nMDRD0_SI1382\nMDRD0_SI2012\nMDRD0_SI752\nMDRD0_SX122\nMDRD0_SX212\nMDRD0_SX302\nMDRD0_SX32\nMDRD0_SX392\nMDSJ0_SI1462\nMDSJ0_SI2092\nMDSJ0_SI832\nMDSJ0_SX112\nMDSJ0_SX22\nMDSJ0_SX292\nMDSJ0_SX382\nMDSJ0_SX438\nMDSS0_SI1881\nMDSS0_SI2087\nMDSS0_SI621\nMDSS0_SX171\nMDSS0_SX261\nMDSS0_SX351\nMDSS0_SX441\nMDSS0_SX81\nMDSS1_SI1327\nMDSS1_SI1713\nMDSS1_SI697\nMDSS1_SX157\nMDSS1_SX247\nMDSS1_SX337\nMDSS1_SX427\nMDSS1_SX67\nMDTB0_SI1200\nMDTB0_SI1830\nMDTB0_SI570\nMDTB0_SX120\nMDTB0_SX210\nMDTB0_SX300\nMDTB0_SX321\nMDTB0_SX390\nMDWD0_SI1260\nMDWD0_SI1890\nMDWD0_SI557\nMDWD0_SX180\nMDWD0_SX270\nMDWD0_SX360\nMDWD0_SX450\nMDWD0_SX90\nMDWH0_SI1168\nMDWH0_SI1925\nMDWH0_SI665\nMDWH0_SX125\nMDWH0_SX215\nMDWH0_SX305\nMDWH0_SX35\nMDWH0_SX395\nMDWM0_SI1546\nMDWM0_SI2176\nMDWM0_SI916\nMDWM0_SX106\nMDWM0_SX16\nMDWM0_SX286\nMDWM0_SX376\nMDWM0_SX433\nMEAL0_SI1547\nMEAL0_SI2177\nMEAL0_SI917\nMEAL0_SX107\nMEAL0_SX197\nMEAL0_SX287\nMEAL0_SX347\nMEAL0_SX377\nMEDR0_SI1374\nMEDR0_SI2004\nMEDR0_SI744\nMEDR0_SX114\nMEDR0_SX204\nMEDR0_SX24\nMEDR0_SX294\nMEDR0_SX384\nMEFG0_SI465\nMEFG0_SI491\nMEFG0_SI598\nMEFG0_SX105\nMEFG0_SX15\nMEFG0_SX195\nMEFG0_SX285\nMEFG0_SX375\nMEGJ0_SI1337\nMEGJ0_SI1967\nMEGJ0_SI707\nMEGJ0_SX167\nMEGJ0_SX257\nMEGJ0_SX3\nMEGJ0_SX437\nMEGJ0_SX77\nMEJL0_SI1592\nMEJL0_SI1654\nMEJL0_SI962\nMEJL0_SX152\nMEJL0_SX242\nMEJL0_SX332\nMEJL0_SX422\nMEJL0_SX62\nMEJS0_SI1240\nMEJS0_SI1870\nMEJS0_SI610\nMEJS0_SX160\nMEJS0_SX250\nMEJS0_SX340\nMEJS0_SX430\nMEJS0_SX70\nMESG0_SI1332\nMESG0_SI1962\nMESG0_SI702\nMESG0_SX162\nMESG0_SX252\nMESG0_SX342\nMESG0_SX432\nMESG0_SX72\nMESJ0_SI2039\nMESJ0_SI2257\nMESJ0_SI997\nMESJ0_SX187\nMESJ0_SX277\nMESJ0_SX367\nMESJ0_SX7\nMESJ0_SX97\nMEWM0_SI1348\nMEWM0_SI1978\nMEWM0_SI718\nMEWM0_SX178\nMEWM0_SX268\nMEWM0_SX358\nMEWM0_SX448\nMEWM0_SX88\nMFER0_SI1492\nMFER0_SI2122\nMFER0_SI862\nMFER0_SX142\nMFER0_SX232\nMFER0_SX322\nMFER0_SX412\nMFER0_SX52\nMFMC0_SI1132\nMFMC0_SI1762\nMFMC0_SI502\nMFMC0_SX142\nMFMC0_SX232\nMFMC0_SX322\nMFMC0_SX412\nMFMC0_SX52\nMFRM0_SI1155\nMFRM0_SI1717\nMFRM0_SI1785\nMFRM0_SX165\nMFRM0_SX255\nMFRM0_SX345\nMFRM0_SX435\nMFRM0_SX75\nMFWK0_SI1249\nMFWK0_SI1879\nMFWK0_SI619\nMFWK0_SX169\nMFWK0_SX259\nMFWK0_SX349\nMFWK0_SX439\nMFWK0_SX79\nMFXS0_SI1674\nMFXS0_SI2225\nMFXS0_SI2304\nMFXS0_SX144\nMFXS0_SX234\nMFXS0_SX324\nMFXS0_SX414\nMFXS0_SX54\nMFXV0_SI1005\nMFXV0_SI1342\nMFXV0_SI1635\nMFXV0_SX105\nMFXV0_SX15\nMFXV0_SX195\nMFXV0_SX285\nMFXV0_SX375\nMGAF0_SI1282\nMGAF0_SI1912\nMGAF0_SI652\nMGAF0_SX112\nMGAF0_SX202\nMGAF0_SX22\nMGAF0_SX292\nMGAF0_SX382\nMGAG0_SI1321\nMGAG0_SI645\nMGAG0_SI691\nMGAG0_SX151\nMGAG0_SX241\nMGAG0_SX331\nMGAG0_SX421\nMGAG0_SX61\nMGAK0_SI1036\nMGAK0_SI1666\nMGAK0_SI2296\nMGAK0_SX136\nMGAK0_SX226\nMGAK0_SX316\nMGAK0_SX406\nMGAK0_SX46\nMGAR0_SI1212\nMGAR0_SI1694\nMGAR0_SI1842\nMGAR0_SX132\nMGAR0_SX222\nMGAR0_SX312\nMGAR0_SX402\nMGAR0_SX42\nMGAW0_SI1165\nMGAW0_SI1802\nMGAW0_SI535\nMGAW0_SX175\nMGAW0_SX265\nMGAW0_SX355\nMGAW0_SX445\nMGAW0_SX85\nMGES0_SI1481\nMGES0_SI2111\nMGES0_SI851\nMGES0_SX131\nMGES0_SX221\nMGES0_SX311\nMGES0_SX401\nMGES0_SX41\nMGJC0_SI1256\nMGJC0_SI1335\nMGJC0_SI1965\nMGJC0_SX165\nMGJC0_SX255\nMGJC0_SX345\nMGJC0_SX435\nMGJC0_SX75\nMGRL0_SI1497\nMGRL0_SI2127\nMGRL0_SI867\nMGRL0_SX147\nMGRL0_SX237\nMGRL0_SX327\nMGRL0_SX417\nMGRL0_SX57\nMGRP0_SI1317\nMGRP0_SI1947\nMGRP0_SI687\nMGRP0_SX147\nMGRP0_SX237\nMGRP0_SX327\nMGRP0_SX417\nMGRP0_SX57\nMGSH0_SI1176\nMGSH0_SI1806\nMGSH0_SI546\nMGSH0_SX127\nMGSH0_SX186\nMGSH0_SX276\nMGSH0_SX6\nMGSH0_SX96\nMGSL0_SI1164\nMGSL0_SI534\nMGSL0_SI797\nMGSL0_SX174\nMGSL0_SX264\nMGSL0_SX354\nMGSL0_SX444\nMGSL0_SX84\nMGXP0_SI1087\nMGXP0_SI457\nMGXP0_SI525\nMGXP0_SX187\nMGXP0_SX277\nMGXP0_SX367\nMGXP0_SX7\nMGXP0_SX97\nMHBS0_SI1575\nMHBS0_SI2205\nMHBS0_SI945\nMHBS0_SX135\nMHBS0_SX225\nMHBS0_SX315\nMHBS0_SX405\nMHBS0_SX45\nMHIT0_SI1613\nMHIT0_SI2243\nMHIT0_SI983\nMHIT0_SX173\nMHIT0_SX263\nMHIT0_SX353\nMHIT0_SX443\nMHIT0_SX83\nMHJB0_SI1017\nMHJB0_SI1647\nMHJB0_SI2277\nMHJB0_SX117\nMHJB0_SX207\nMHJB0_SX27\nMHJB0_SX297\nMHJB0_SX387\nMHMG0_SI1365\nMHMG0_SI1995\nMHMG0_SI735\nMHMG0_SX105\nMHMG0_SX15\nMHMG0_SX195\nMHMG0_SX285\nMHMG0_SX375\nMHMR0_SI1119\nMHMR0_SI1692\nMHMR0_SI489\nMHMR0_SX129\nMHMR0_SX219\nMHMR0_SX309\nMHMR0_SX39\nMHMR0_SX399\nMHRM0_SI1475\nMHRM0_SI2218\nMHRM0_SI958\nMHRM0_SX148\nMHRM0_SX238\nMHRM0_SX328\nMHRM0_SX418\nMHRM0_SX58\nMHXL0_SI1772\nMHXL0_SI512\nMHXL0_SI612\nMHXL0_SX152\nMHXL0_SX242\nMHXL0_SX332\nMHXL0_SX422\nMHXL0_SX62\nMILB0_SI2163\nMILB0_SI807\nMILB0_SI903\nMILB0_SX183\nMILB0_SX273\nMILB0_SX3\nMILB0_SX363\nMILB0_SX93\nMJAC0_SI1331\nMJAC0_SI2148\nMJAC0_SI701\nMJAC0_SX251\nMJAC0_SX307\nMJAC0_SX341\nMJAC0_SX431\nMJAC0_SX71\nMJAE0_SI1524\nMJAE0_SI1999\nMJAE0_SI2154\nMJAE0_SX174\nMJAE0_SX264\nMJAE0_SX354\nMJAE0_SX444\nMJAE0_SX84\nMJAI0_SI1604\nMJAI0_SI682\nMJAI0_SI710\nMJAI0_SX164\nMJAI0_SX254\nMJAI0_SX344\nMJAI0_SX434\nMJAI0_SX74\nMJBG0_SI1232\nMJBG0_SI1724\nMJBG0_SI1862\nMJBG0_SX152\nMJBG0_SX242\nMJBG0_SX332\nMJBG0_SX422\nMJBG0_SX62\nMJDA0_SI1031\nMJDA0_SI1661\nMJDA0_SI2291\nMJDA0_SX131\nMJDA0_SX221\nMJDA0_SX311\nMJDA0_SX401\nMJDA0_SX41\nMJDC0_SI1161\nMJDC0_SI2165\nMJDC0_SI531\nMJDC0_SX171\nMJDC0_SX261\nMJDC0_SX351\nMJDC0_SX441\nMJDC0_SX81\nMJDE0_SI1120\nMJDE0_SI463\nMJDE0_SI490\nMJDE0_SX130\nMJDE0_SX220\nMJDE0_SX310\nMJDE0_SX40\nMJDE0_SX400\nMJDG0_SI1042\nMJDG0_SI1672\nMJDG0_SI1705\nMJDG0_SX142\nMJDG0_SX232\nMJDG0_SX322\nMJDG0_SX412\nMJDG0_SX52\nMJDM0_SI1340\nMJDM0_SI1937\nMJDM0_SI974\nMJDM0_SX170\nMJDM0_SX260\nMJDM0_SX350\nMJDM0_SX440\nMJDM0_SX80\nMJEB0_SI1286\nMJEB0_SI1916\nMJEB0_SI656\nMJEB0_SX170\nMJEB0_SX206\nMJEB0_SX26\nMJEB0_SX296\nMJEB0_SX386\nMJEB1_SI1467\nMJEB1_SI2097\nMJEB1_SI837\nMJEB1_SX117\nMJEB1_SX207\nMJEB1_SX27\nMJEB1_SX297\nMJEB1_SX387\nMJEE0_SI1237\nMJEE0_SI1867\nMJEE0_SI607\nMJEE0_SX157\nMJEE0_SX247\nMJEE0_SX337\nMJEE0_SX427\nMJEE0_SX67\nMJFH0_SI1107\nMJFH0_SI1737\nMJFH0_SI477\nMJFH0_SX117\nMJFH0_SX207\nMJFH0_SX27\nMJFH0_SX297\nMJFH0_SX387\nMJFR0_SI1605\nMJFR0_SI2235\nMJFR0_SI975\nMJFR0_SX165\nMJFR0_SX255\nMJFR0_SX345\nMJFR0_SX435\nMJFR0_SX75\nMJHI0_SI1328\nMJHI0_SI555\nMJHI0_SI698\nMJHI0_SX158\nMJHI0_SX248\nMJHI0_SX338\nMJHI0_SX428\nMJHI0_SX68\nMJJB0_SI1139\nMJJB0_SI1277\nMJJB0_SI1769\nMJJB0_SX149\nMJJB0_SX239\nMJJB0_SX329\nMJJB0_SX419\nMJJB0_SX59\nMJJJ0_SI1163\nMJJJ0_SI1793\nMJJJ0_SI533\nMJJJ0_SX173\nMJJJ0_SX263\nMJJJ0_SX353\nMJJJ0_SX443\nMJJJ0_SX83\nMJJM0_SI1251\nMJJM0_SI1457\nMJJM0_SI827\nMJJM0_SX107\nMJJM0_SX17\nMJJM0_SX197\nMJJM0_SX287\nMJJM0_SX377\nMJKR0_SI1201\nMJKR0_SI1831\nMJKR0_SI571\nMJKR0_SX121\nMJKR0_SX211\nMJKR0_SX301\nMJKR0_SX31\nMJKR0_SX391\nMJLB0_SI1616\nMJLB0_SI2246\nMJLB0_SI986\nMJLB0_SX176\nMJLB0_SX266\nMJLB0_SX356\nMJLB0_SX446\nMJLB0_SX86\nMJLG1_SI1012\nMJLG1_SI1642\nMJLG1_SI2272\nMJLG1_SX112\nMJLG1_SX202\nMJLG1_SX22\nMJLG1_SX292\nMJLG1_SX382\nMJLS0_SI1096\nMJLS0_SI1726\nMJLS0_SI466\nMJLS0_SX106\nMJLS0_SX16\nMJLS0_SX196\nMJLS0_SX286\nMJLS0_SX376\nMJMA0_SI1495\nMJMA0_SI2125\nMJMA0_SI865\nMJMA0_SX145\nMJMA0_SX235\nMJMA0_SX325\nMJMA0_SX415\nMJMA0_SX55\nMJMD0_SI1028\nMJMD0_SI1658\nMJMD0_SI2288\nMJMD0_SX128\nMJMD0_SX218\nMJMD0_SX308\nMJMD0_SX38\nMJMD0_SX398\nMJMM0_SI1255\nMJMM0_SI1885\nMJMM0_SI625\nMJMM0_SX175\nMJMM0_SX265\nMJMM0_SX355\nMJMM0_SX445\nMJMM0_SX85\nMJPG0_SI1191\nMJPG0_SI1821\nMJPG0_SI561\nMJPG0_SX111\nMJPG0_SX201\nMJPG0_SX21\nMJPG0_SX291\nMJPG0_SX381\nMJPM0_SI1368\nMJPM0_SI1998\nMJPM0_SI738\nMJPM0_SX108\nMJPM0_SX18\nMJPM0_SX198\nMJPM0_SX288\nMJPM0_SX378\nMJPM1_SI1897\nMJPM1_SI2280\nMJPM1_SI761\nMJPM1_SX131\nMJPM1_SX221\nMJPM1_SX311\nMJPM1_SX401\nMJPM1_SX41\nMJRA0_SI1236\nMJRA0_SI1866\nMJRA0_SI606\nMJRA0_SX156\nMJRA0_SX246\nMJRA0_SX336\nMJRA0_SX426\nMJRA0_SX66\nMJRG0_SI1366\nMJRG0_SI1996\nMJRG0_SI736\nMJRG0_SX106\nMJRG0_SX16\nMJRG0_SX286\nMJRG0_SX352\nMJRG0_SX376\nMJRH0_SI1125\nMJRH0_SI1755\nMJRH0_SI1840\nMJRH0_SX135\nMJRH0_SX225\nMJRH0_SX315\nMJRH0_SX405\nMJRH0_SX45\nMJRH1_SI1558\nMJRH1_SI1774\nMJRH1_SI514\nMJRH1_SX154\nMJRH1_SX244\nMJRH1_SX334\nMJRH1_SX424\nMJRH1_SX64\nMJRK0_SI1662\nMJRK0_SI2103\nMJRK0_SI880\nMJRK0_SX160\nMJRK0_SX250\nMJRK0_SX340\nMJRK0_SX430\nMJRK0_SX70\nMJRP0_SI1835\nMJRP0_SI1845\nMJRP0_SI585\nMJRP0_SX135\nMJRP0_SX225\nMJRP0_SX315\nMJRP0_SX405\nMJRP0_SX45\nMJSR0_SI1424\nMJSR0_SI2054\nMJSR0_SI794\nMJSR0_SX164\nMJSR0_SX254\nMJSR0_SX344\nMJSR0_SX434\nMJSR0_SX74\nMJWG0_SI2155\nMJWG0_SI813\nMJWG0_SI895\nMJWG0_SX175\nMJWG0_SX265\nMJWG0_SX355\nMJWG0_SX445\nMJWG0_SX85\nMJWS0_SI1143\nMJWS0_SI1773\nMJWS0_SI513\nMJWS0_SX153\nMJWS0_SX243\nMJWS0_SX333\nMJWS0_SX423\nMJWS0_SX63\nMJWT0_SI1291\nMJWT0_SI1381\nMJWT0_SI751\nMJWT0_SX121\nMJWT0_SX211\nMJWT0_SX301\nMJWT0_SX31\nMJWT0_SX391\nMJXA0_SI1507\nMJXA0_SI2137\nMJXA0_SI877\nMJXA0_SX157\nMJXA0_SX247\nMJXA0_SX337\nMJXA0_SX427\nMJXA0_SX67\nMJXL0_SI1172\nMJXL0_SI1795\nMJXL0_SI542\nMJXL0_SX182\nMJXL0_SX272\nMJXL0_SX362\nMJXL0_SX452\nMJXL0_SX92\nMKAG0_SI1609\nMKAG0_SI2239\nMKAG0_SI979\nMKAG0_SX169\nMKAG0_SX259\nMKAG0_SX30\nMKAG0_SX439\nMKAG0_SX79\nMKAH0_SI1528\nMKAH0_SI2158\nMKAH0_SI898\nMKAH0_SX178\nMKAH0_SX268\nMKAH0_SX358\nMKAH0_SX448\nMKAH0_SX88\nMKAJ0_SI1414\nMKAJ0_SI2044\nMKAJ0_SI784\nMKAJ0_SX154\nMKAJ0_SX244\nMKAJ0_SX334\nMKAJ0_SX424\nMKAJ0_SX64\nMKAM0_SI1250\nMKAM0_SI1316\nMKAM0_SI1465\nMKAM0_SX146\nMKAM0_SX236\nMKAM0_SX326\nMKAM0_SX416\nMKAM0_SX56\nMKDB0_SI2132\nMKDB0_SI588\nMKDB0_SI872\nMKDB0_SX152\nMKDB0_SX242\nMKDB0_SX332\nMKDB0_SX422\nMKDB0_SX62\nMKDD0_SI1567\nMKDD0_SI2197\nMKDD0_SI937\nMKDD0_SX127\nMKDD0_SX217\nMKDD0_SX307\nMKDD0_SX37\nMKDD0_SX397\nMKDT0_SI2153\nMKDT0_SI814\nMKDT0_SI893\nMKDT0_SX173\nMKDT0_SX263\nMKDT0_SX353\nMKDT0_SX443\nMKDT0_SX83\nMKES0_SI1253\nMKES0_SI1883\nMKES0_SI623\nMKES0_SX173\nMKES0_SX263\nMKES0_SX353\nMKES0_SX443\nMKES0_SX83\nMKJO0_SI1517\nMKJO0_SI2147\nMKJO0_SI887\nMKJO0_SX167\nMKJO0_SX257\nMKJO0_SX424\nMKJO0_SX437\nMKJO0_SX77\nMKLN0_SI1598\nMKLN0_SI2228\nMKLN0_SI968\nMKLN0_SX158\nMKLN0_SX248\nMKLN0_SX338\nMKLN0_SX428\nMKLN0_SX68\nMKLR0_SI1059\nMKLR0_SI1689\nMKLR0_SI2319\nMKLR0_SX159\nMKLR0_SX249\nMKLR0_SX339\nMKLR0_SX429\nMKLR0_SX69\nMKLS0_SI1437\nMKLS0_SI1533\nMKLS0_SI2067\nMKLS0_SX177\nMKLS0_SX267\nMKLS0_SX357\nMKLS0_SX447\nMKLS0_SX87\nMKLS1_SI1545\nMKLS1_SI2175\nMKLS1_SI915\nMKLS1_SX105\nMKLS1_SX15\nMKLS1_SX195\nMKLS1_SX285\nMKLS1_SX375\nMKLW0_SI1571\nMKLW0_SI1844\nMKLW0_SI2201\nMKLW0_SX131\nMKLW0_SX221\nMKLW0_SX311\nMKLW0_SX401\nMKLW0_SX41\nMKRG0_SI1491\nMKRG0_SI2121\nMKRG0_SI861\nMKRG0_SX141\nMKRG0_SX231\nMKRG0_SX31\nMKRG0_SX411\nMKRG0_SX51\nMKXL0_SI1185\nMKXL0_SI1815\nMKXL0_SI1958\nMKXL0_SX105\nMKXL0_SX15\nMKXL0_SX195\nMKXL0_SX285\nMKXL0_SX375\nMLBC0_SI1239\nMLBC0_SI1869\nMLBC0_SI609\nMLBC0_SX159\nMLBC0_SX249\nMLBC0_SX339\nMLBC0_SX429\nMLBC0_SX69\nMLEL0_SI1246\nMLEL0_SI1876\nMLEL0_SI616\nMLEL0_SX166\nMLEL0_SX256\nMLEL0_SX346\nMLEL0_SX436\nMLEL0_SX76\nMLJC0_SI1225\nMLJC0_SI1855\nMLJC0_SI595\nMLJC0_SX145\nMLJC0_SX235\nMLJC0_SX325\nMLJC0_SX415\nMLJC0_SX55\nMLJH0_SI1324\nMLJH0_SI1422\nMLJH0_SI694\nMLJH0_SX154\nMLJH0_SX244\nMLJH0_SX334\nMLJH0_SX424\nMLJH0_SX64\nMLNS0_SI1407\nMLNS0_SI2037\nMLNS0_SI777\nMLNS0_SX147\nMLNS0_SX237\nMLNS0_SX327\nMLNS0_SX417\nMLNS0_SX57\nMLSH0_SI1417\nMLSH0_SI2047\nMLSH0_SI787\nMLSH0_SX157\nMLSH0_SX247\nMLSH0_SX337\nMLSH0_SX427\nMLSH0_SX67\nMMAA0_SI1588\nMMAA0_SI2105\nMMAA0_SI845\nMMAA0_SX125\nMMAA0_SX215\nMMAA0_SX305\nMMAA0_SX35\nMMAA0_SX395\nMMAB1_SI1494\nMMAB1_SI2124\nMMAB1_SI864\nMMAB1_SX144\nMMAB1_SX234\nMMAB1_SX324\nMMAB1_SX414\nMMAB1_SX54\nMMAG0_SI1126\nMMAG0_SI1756\nMMAG0_SI496\nMMAG0_SX136\nMMAG0_SX226\nMMAG0_SX316\nMMAG0_SX406\nMMAG0_SX46\nMMAM0_SI1597\nMMAM0_SI1668\nMMAM0_SI2227\nMMAM0_SX157\nMMAM0_SX247\nMMAM0_SX337\nMMAM0_SX427\nMMAM0_SX67\nMMAR0_SI1336\nMMAR0_SI1966\nMMAR0_SI706\nMMAR0_SX166\nMMAR0_SX256\nMMAR0_SX346\nMMAR0_SX436\nMMAR0_SX76\nMMBS0_SI1151\nMMBS0_SI1781\nMMBS0_SI521\nMMBS0_SX161\nMMBS0_SX251\nMMBS0_SX341\nMMBS0_SX431\nMMBS0_SX71\nMMCC0_SI1338\nMMCC0_SI1968\nMMCC0_SI708\nMMCC0_SX168\nMMCC0_SX258\nMMCC0_SX348\nMMCC0_SX438\nMMCC0_SX78\nMMDB0_SI1358\nMMDB0_SI1617\nMMDB0_SI987\nMMDB0_SX177\nMMDB0_SX267\nMMDB0_SX357\nMMDB0_SX447\nMMDB0_SX87\nMMDG0_SI1780\nMMDG0_SI2035\nMMDG0_SI520\nMMDG0_SX160\nMMDG0_SX250\nMMDG0_SX340\nMMDG0_SX430\nMMDG0_SX70\nMMDM0_SI1311\nMMDM0_SI1941\nMMDM0_SI681\nMMDM0_SX141\nMMDM0_SX231\nMMDM0_SX321\nMMDM0_SX411\nMMDM0_SX51\nMMDM1_SI1650\nMMDM1_SI2043\nMMDM1_SI783\nMMDM1_SX153\nMMDM1_SX243\nMMDM1_SX333\nMMDM1_SX423\nMMDM1_SX63\nMMDS0_SI1343\nMMDS0_SI1973\nMMDS0_SI713\nMMDS0_SX173\nMMDS0_SX263\nMMDS0_SX353\nMMDS0_SX443\nMMDS0_SX83\nMMEA0_SI1388\nMMEA0_SI2018\nMMEA0_SI758\nMMEA0_SX128\nMMEA0_SX218\nMMEA0_SX308\nMMEA0_SX38\nMMEA0_SX398\nMMEB0_SI1357\nMMEB0_SI1987\nMMEB0_SI727\nMMEB0_SX187\nMMEB0_SX327\nMMEB0_SX367\nMMEB0_SX7\nMMEB0_SX97\nMMGC0_SI1305\nMMGC0_SI1935\nMMGC0_SI2184\nMMGC0_SX135\nMMGC0_SX225\nMMGC0_SX315\nMMGC0_SX405\nMMGC0_SX45\nMMGG0_SI1079\nMMGG0_SI1709\nMMGG0_SI2339\nMMGG0_SX179\nMMGG0_SX269\nMMGG0_SX359\nMMGG0_SX449\nMMGG0_SX89\nMMGK0_SI1322\nMMGK0_SI1952\nMMGK0_SI692\nMMGK0_SX152\nMMGK0_SX242\nMMGK0_SX332\nMMGK0_SX422\nMMGK0_SX62\nMMJB1_SI1408\nMMJB1_SI2038\nMMJB1_SI778\nMMJB1_SX148\nMMJB1_SX238\nMMJB1_SX328\nMMJB1_SX418\nMMJB1_SX58\nMMLM0_SI1527\nMMLM0_SI2150\nMMLM0_SI897\nMMLM0_SX177\nMMLM0_SX267\nMMLM0_SX357\nMMLM0_SX447\nMMLM0_SX87\nMMPM0_SI1061\nMMPM0_SI1691\nMMPM0_SI2321\nMMPM0_SX161\nMMPM0_SX251\nMMPM0_SX341\nMMPM0_SX431\nMMPM0_SX71\nMMRP0_SI2034\nMMRP0_SI717\nMMRP0_SI774\nMMRP0_SX144\nMMRP0_SX234\nMMRP0_SX324\nMMRP0_SX414\nMMRP0_SX54\nMMSM0_SI1106\nMMSM0_SI1736\nMMSM0_SI476\nMMSM0_SX116\nMMSM0_SX206\nMMSM0_SX26\nMMSM0_SX296\nMMSM0_SX386\nMMVP0_SI1284\nMMVP0_SI1914\nMMVP0_SI654\nMMVP0_SX114\nMMVP0_SX204\nMMVP0_SX294\nMMVP0_SX347\nMMVP0_SX384\nMMWB0_SI1619\nMMWB0_SI2249\nMMWB0_SI989\nMMWB0_SX179\nMMWB0_SX269\nMMWB0_SX359\nMMWB0_SX449\nMMWB0_SX89\nMMWS0_SI1518\nMMWS0_SI559\nMMWS0_SI888\nMMWS0_SX168\nMMWS0_SX258\nMMWS0_SX348\nMMWS0_SX438\nMMWS0_SX78\nMMWS1_SI1071\nMMWS1_SI1701\nMMWS1_SI2331\nMMWS1_SX261\nMMWS1_SX27\nMMWS1_SX351\nMMWS1_SX441\nMMWS1_SX81\nMMXS0_SI2136\nMMXS0_SI629\nMMXS0_SI876\nMMXS0_SX156\nMMXS0_SX246\nMMXS0_SX336\nMMXS0_SX426\nMMXS0_SX66\nMNET0_SI1446\nMNET0_SI2076\nMNET0_SI816\nMNET0_SX186\nMNET0_SX276\nMNET0_SX366\nMNET0_SX6\nMNET0_SX96\nMNTW0_SI1068\nMNTW0_SI1698\nMNTW0_SI2328\nMNTW0_SX168\nMNTW0_SX202\nMNTW0_SX258\nMNTW0_SX348\nMNTW0_SX78\nMPAR0_SI1576\nMPAR0_SI2206\nMPAR0_SI946\nMPAR0_SX136\nMPAR0_SX226\nMPAR0_SX316\nMPAR0_SX406\nMPAR0_SX46\nMPEB0_SI1034\nMPEB0_SI1860\nMPEB0_SI600\nMPEB0_SX150\nMPEB0_SX240\nMPEB0_SX330\nMPEB0_SX420\nMPEB0_SX60\nMPFU0_SI1258\nMPFU0_SI1888\nMPFU0_SI628\nMPFU0_SX178\nMPFU0_SX268\nMPFU0_SX358\nMPFU0_SX448\nMPFU0_SX88\nMPGH0_SI1554\nMPGH0_SI675\nMPGH0_SI924\nMPGH0_SX114\nMPGH0_SX204\nMPGH0_SX24\nMPGH0_SX294\nMPGH0_SX384\nMPGR0_SI1410\nMPGR0_SI2040\nMPGR0_SI780\nMPGR0_SX150\nMPGR0_SX240\nMPGR0_SX330\nMPGR0_SX420\nMPGR0_SX60\nMPGR1_SI1269\nMPGR1_SI1499\nMPGR1_SI2129\nMPGR1_SX149\nMPGR1_SX239\nMPGR1_SX329\nMPGR1_SX419\nMPGR1_SX59\nMPMB0_SI1501\nMPMB0_SI2131\nMPMB0_SI871\nMPMB0_SX151\nMPMB0_SX241\nMPMB0_SX331\nMPMB0_SX421\nMPMB0_SX61\nMPPC0_SI1412\nMPPC0_SI2042\nMPPC0_SI782\nMPPC0_SX152\nMPPC0_SX242\nMPPC0_SX332\nMPPC0_SX422\nMPPC0_SX62\nMPRB0_SI1205\nMPRB0_SI1215\nMPRB0_SI575\nMPRB0_SX125\nMPRB0_SX215\nMPRB0_SX305\nMPRB0_SX35\nMPRB0_SX395\nMPRD0_SI1431\nMPRD0_SI2061\nMPRD0_SI801\nMPRD0_SX171\nMPRD0_SX261\nMPRD0_SX351\nMPRD0_SX441\nMPRD0_SX81\nMPRK0_SI1097\nMPRK0_SI1727\nMPRK0_SI467\nMPRK0_SX107\nMPRK0_SX17\nMPRK0_SX197\nMPRK0_SX287\nMPRK0_SX377\nMPRT0_SI1210\nMPRT0_SI495\nMPRT0_SI580\nMPRT0_SX130\nMPRT0_SX220\nMPRT0_SX310\nMPRT0_SX40\nMPRT0_SX400\nMPSW0_SI1067\nMPSW0_SI1697\nMPSW0_SI2327\nMPSW0_SX167\nMPSW0_SX24\nMPSW0_SX257\nMPSW0_SX437\nMPSW0_SX77\nMRAB0_SI1224\nMRAB0_SI1854\nMRAB0_SI594\nMRAB0_SX144\nMRAB0_SX234\nMRAB0_SX324\nMRAB0_SX414\nMRAB0_SX54\nMRAB1_SI1478\nMRAB1_SI2108\nMRAB1_SI848\nMRAB1_SX128\nMRAB1_SX218\nMRAB1_SX308\nMRAB1_SX38\nMRAB1_SX398\nMRAI0_SI1954\nMRAI0_SI2052\nMRAI0_SI792\nMRAI0_SX162\nMRAI0_SX252\nMRAI0_SX342\nMRAI0_SX432\nMRAI0_SX72\nMRAM0_SI1275\nMRAM0_SI1905\nMRAM0_SI1951\nMRAM0_SX105\nMRAM0_SX15\nMRAM0_SX195\nMRAM0_SX285\nMRAM0_SX375\nMRAV0_SI1008\nMRAV0_SI1638\nMRAV0_SI2268\nMRAV0_SX108\nMRAV0_SX18\nMRAV0_SX198\nMRAV0_SX288\nMRAV0_SX378\nMRBC0_SI1665\nMRBC0_SI1859\nMRBC0_SI599\nMRBC0_SX149\nMRBC0_SX239\nMRBC0_SX329\nMRBC0_SX419\nMRBC0_SX59\nMRCG0_SI1428\nMRCG0_SI2058\nMRCG0_SI798\nMRCG0_SX168\nMRCG0_SX258\nMRCG0_SX348\nMRCG0_SX438\nMRCG0_SX78\nMRCW0_SI1371\nMRCW0_SI2001\nMRCW0_SI741\nMRCW0_SX111\nMRCW0_SX201\nMRCW0_SX21\nMRCW0_SX291\nMRCW0_SX381\nMRDD0_SI1050\nMRDD0_SI1680\nMRDD0_SI2310\nMRDD0_SX150\nMRDD0_SX240\nMRDD0_SX277\nMRDD0_SX330\nMRDD0_SX60\nMRDM0_SI1044\nMRDM0_SI1595\nMRDM0_SI965\nMRDM0_SX155\nMRDM0_SX245\nMRDM0_SX335\nMRDM0_SX425\nMRDM0_SX65\nMRDS0_SI1167\nMRDS0_SI1797\nMRDS0_SI537\nMRDS0_SX177\nMRDS0_SX267\nMRDS0_SX357\nMRDS0_SX447\nMRDS0_SX87\nMREE0_SI1104\nMREE0_SI1734\nMREE0_SI1959\nMREE0_SX114\nMREE0_SX204\nMREE0_SX24\nMREE0_SX294\nMREE0_SX384\nMREH1_SI1599\nMREH1_SI2229\nMREH1_SI969\nMREH1_SX159\nMREH1_SX249\nMREH1_SX339\nMREH1_SX429\nMREH1_SX69\nMREM0_SI1591\nMREM0_SI511\nMREM0_SI961\nMREM0_SX151\nMREM0_SX241\nMREM0_SX331\nMREM0_SX421\nMREM0_SX61\nMREW1_SI1500\nMREW1_SI2130\nMREW1_SI870\nMREW1_SX150\nMREW1_SX240\nMREW1_SX330\nMREW1_SX420\nMREW1_SX60\nMRFK0_SI1076\nMRFK0_SI1706\nMRFK0_SI2336\nMRFK0_SX176\nMRFK0_SX266\nMRFK0_SX356\nMRFK0_SX446\nMRFK0_SX86\nMRFL0_SI1156\nMRFL0_SI1786\nMRFL0_SI526\nMRFL0_SX166\nMRFL0_SX256\nMRFL0_SX346\nMRFL0_SX436\nMRFL0_SX76\nMRGM0_SI1162\nMRGM0_SI1792\nMRGM0_SI532\nMRGM0_SX172\nMRGM0_SX262\nMRGM0_SX416\nMRGM0_SX442\nMRGM0_SX82\nMRGS0_SI1356\nMRGS0_SI1986\nMRGS0_SI726\nMRGS0_SX186\nMRGS0_SX276\nMRGS0_SX366\nMRGS0_SX6\nMRGS0_SX96\nMRHL0_SI1515\nMRHL0_SI2145\nMRHL0_SI885\nMRHL0_SX165\nMRHL0_SX255\nMRHL0_SX345\nMRHL0_SX435\nMRHL0_SX75\nMRJB1_SI1020\nMRJB1_SI1413\nMRJB1_SI2021\nMRJB1_SX120\nMRJB1_SX210\nMRJB1_SX30\nMRJB1_SX300\nMRJB1_SX390\nMRJH0_SI1519\nMRJH0_SI889\nMRJH0_SI914\nMRJH0_SX169\nMRJH0_SX259\nMRJH0_SX307\nMRJH0_SX439\nMRJH0_SX79\nMRJM0_SI1095\nMRJM0_SI1228\nMRJM0_SI1858\nMRJM0_SX148\nMRJM0_SX238\nMRJM0_SX328\nMRJM0_SX418\nMRJM0_SX58\nMRJM1_SI1298\nMRJM1_SI1928\nMRJM1_SI668\nMRJM1_SX128\nMRJM1_SX218\nMRJM1_SX308\nMRJM1_SX38\nMRJM1_SX398\nMRJT0_SI1498\nMRJT0_SI1805\nMRJT0_SI868\nMRJT0_SX148\nMRJT0_SX238\nMRJT0_SX328\nMRJT0_SX418\nMRJT0_SX58\nMRKM0_SI1267\nMRKM0_SI1391\nMRKM0_SI637\nMRKM0_SX187\nMRKM0_SX277\nMRKM0_SX367\nMRKM0_SX7\nMRKM0_SX97\nMRLD0_SI1594\nMRLD0_SI2224\nMRLD0_SI964\nMRLD0_SX154\nMRLD0_SX244\nMRLD0_SX334\nMRLD0_SX424\nMRLD0_SX64\nMRLJ0_SI1420\nMRLJ0_SI2050\nMRLJ0_SI790\nMRLJ0_SX160\nMRLJ0_SX250\nMRLJ0_SX340\nMRLJ0_SX430\nMRLJ0_SX70\nMRLJ1_SI1671\nMRLJ1_SI2301\nMRLJ1_SI2332\nMRLJ1_SX141\nMRLJ1_SX231\nMRLJ1_SX321\nMRLJ1_SX411\nMRLJ1_SX51\nMRLK0_SI1468\nMRLK0_SI2140\nMRLK0_SI843\nMRLK0_SX123\nMRLK0_SX213\nMRLK0_SX303\nMRLK0_SX33\nMRLK0_SX393\nMRLR0_SI1196\nMRLR0_SI1826\nMRLR0_SI566\nMRLR0_SX116\nMRLR0_SX206\nMRLR0_SX26\nMRLR0_SX296\nMRLR0_SX386\nMRMB0_SI1581\nMRMB0_SI2211\nMRMB0_SI951\nMRMB0_SX141\nMRMB0_SX231\nMRMB0_SX321\nMRMB0_SX411\nMRMB0_SX51\nMRMG0_SI1080\nMRMG0_SI1710\nMRMG0_SI2340\nMRMG0_SX180\nMRMG0_SX270\nMRMG0_SX360\nMRMG0_SX450\nMRMG0_SX90\nMRMH0_SI1021\nMRMH0_SI1349\nMRMH0_SI2281\nMRMH0_SX121\nMRMH0_SX211\nMRMH0_SX301\nMRMH0_SX31\nMRMH0_SX391\nMRML0_SI1421\nMRML0_SI2051\nMRML0_SI791\nMRML0_SX161\nMRML0_SX251\nMRML0_SX341\nMRML0_SX431\nMRML0_SX71\nMRMS0_SI1113\nMRMS0_SI2057\nMRMS0_SI2100\nMRMS0_SX120\nMRMS0_SX210\nMRMS0_SX30\nMRMS0_SX300\nMRMS0_SX390\nMRPC1_SI1482\nMRPC1_SI2026\nMRPC1_SI2112\nMRPC1_SX132\nMRPC1_SX222\nMRPC1_SX312\nMRPC1_SX402\nMRPC1_SX42\nMRRE0_SI1334\nMRRE0_SI704\nMRRE0_SI952\nMRRE0_SX164\nMRRE0_SX254\nMRRE0_SX344\nMRRE0_SX434\nMRRE0_SX74\nMRSO0_SI1206\nMRSO0_SI1659\nMRSO0_SI2289\nMRSO0_SX129\nMRSO0_SX219\nMRSO0_SX309\nMRSO0_SX39\nMRSO0_SX399\nMRSP0_SI1429\nMRSP0_SI2059\nMRSP0_SI799\nMRSP0_SX169\nMRSP0_SX196\nMRSP0_SX259\nMRSP0_SX439\nMRSP0_SX79\nMRTC0_SI1458\nMRTC0_SI2088\nMRTC0_SI828\nMRTC0_SX108\nMRTC0_SX18\nMRTC0_SX198\nMRTC0_SX288\nMRTC0_SX378\nMRTJ0_SI1551\nMRTJ0_SI2032\nMRTJ0_SI772\nMRTJ0_SX142\nMRTJ0_SX232\nMRTJ0_SX322\nMRTJ0_SX412\nMRTJ0_SX52\nMRVG0_SI1140\nMRVG0_SI1770\nMRVG0_SI510\nMRVG0_SX150\nMRVG0_SX240\nMRVG0_SX330\nMRVG0_SX420\nMRVG0_SX60\nMRWA0_SI1603\nMRWA0_SI2233\nMRWA0_SI973\nMRWA0_SX163\nMRWA0_SX253\nMRWA0_SX343\nMRWA0_SX433\nMRWA0_SX73\nMRWS0_SI1102\nMRWS0_SI1732\nMRWS0_SI472\nMRWS0_SX112\nMRWS0_SX202\nMRWS0_SX22\nMRWS0_SX292\nMRWS0_SX382\nMRXB0_SI1585\nMRXB0_SI2215\nMRXB0_SI955\nMRXB0_SX145\nMRXB0_SX235\nMRXB0_SX325\nMRXB0_SX415\nMRXB0_SX55\nMSAH1_SI1049\nMSAH1_SI1679\nMSAH1_SI2309\nMSAH1_SX149\nMSAH1_SX239\nMSAH1_SX329\nMSAH1_SX419\nMSAH1_SX59\nMSAS0_SI1376\nMSAS0_SI2006\nMSAS0_SI746\nMSAS0_SX116\nMSAS0_SX206\nMSAS0_SX26\nMSAS0_SX296\nMSAS0_SX386\nMSAT0_SI1526\nMSAT0_SI2156\nMSAT0_SI896\nMSAT0_SX176\nMSAT0_SX266\nMSAT0_SX356\nMSAT0_SX446\nMSAT0_SX86\nMSAT1_SI1073\nMSAT1_SI1703\nMSAT1_SI2333\nMSAT1_SX173\nMSAT1_SX263\nMSAT1_SX353\nMSAT1_SX443\nMSAT1_SX83\nMSDB0_SI1007\nMSDB0_SI1637\nMSDB0_SI2267\nMSDB0_SX107\nMSDB0_SX17\nMSDB0_SX197\nMSDB0_SX287\nMSDB0_SX377\nMSDH0_SI2113\nMSDH0_SI2240\nMSDH0_SI980\nMSDH0_SX170\nMSDH0_SX260\nMSDH0_SX350\nMSDH0_SX440\nMSDH0_SX80\nMSDS0_SI1077\nMSDS0_SI1707\nMSDS0_SI2337\nMSDS0_SX177\nMSDS0_SX267\nMSDS0_SX357\nMSDS0_SX447\nMSDS0_SX87\nMSEM1_SI1440\nMSEM1_SI2070\nMSEM1_SI810\nMSEM1_SX180\nMSEM1_SX270\nMSEM1_SX360\nMSEM1_SX450\nMSEM1_SX90\nMSES0_SI1589\nMSES0_SI2216\nMSES0_SI2219\nMSES0_SX149\nMSES0_SX239\nMSES0_SX329\nMSES0_SX419\nMSES0_SX59\nMSFH0_SI1216\nMSFH0_SI1738\nMSFH0_SI586\nMSFH0_SX136\nMSFH0_SX226\nMSFH0_SX316\nMSFH0_SX406\nMSFH0_SX46\nMSFV0_SI1262\nMSFV0_SI1892\nMSFV0_SI632\nMSFV0_SX182\nMSFV0_SX272\nMSFV0_SX362\nMSFV0_SX452\nMSFV0_SX92\nMSJK0_SI1596\nMSJK0_SI2226\nMSJK0_SI966\nMSJK0_SX156\nMSJK0_SX246\nMSJK0_SX336\nMSJK0_SX426\nMSJK0_SX66\nMSMC0_SI1907\nMSMC0_SI509\nMSMC0_SI647\nMSMC0_SX107\nMSMC0_SX17\nMSMC0_SX197\nMSMC0_SX287\nMSMC0_SX377\nMSMR0_SI1150\nMSMR0_SI1405\nMSMR0_SI775\nMSMR0_SX145\nMSMR0_SX235\nMSMR0_SX325\nMSMR0_SX415\nMSMR0_SX55\nMSMS0_SI1433\nMSMS0_SI2063\nMSMS0_SI803\nMSMS0_SX173\nMSMS0_SX263\nMSMS0_SX353\nMSMS0_SX443\nMSMS0_SX83\nMSRG0_SI1221\nMSRG0_SI1851\nMSRG0_SI591\nMSRG0_SX141\nMSRG0_SX231\nMSRG0_SX321\nMSRG0_SX411\nMSRG0_SX51\nMSRR0_SI1131\nMSRR0_SI1761\nMSRR0_SI501\nMSRR0_SX141\nMSRR0_SX231\nMSRR0_SX30\nMSRR0_SX411\nMSRR0_SX51\nMSTF0_SI1396\nMSTF0_SI766\nMSTF0_SI852\nMSTF0_SX136\nMSTF0_SX226\nMSTF0_SX316\nMSTF0_SX406\nMSTF0_SX46\nMSVS0_SI1568\nMSVS0_SI2198\nMSVS0_SI938\nMSVS0_SX128\nMSVS0_SX218\nMSVS0_SX308\nMSVS0_SX38\nMSVS0_SX398\nMTAB0_SI1572\nMTAB0_SI2202\nMTAB0_SI942\nMTAB0_SX132\nMTAB0_SX222\nMTAB0_SX312\nMTAB0_SX402\nMTAB0_SX42\nMTAS0_SI1385\nMTAS0_SI2015\nMTAS0_SI755\nMTAS0_SX125\nMTAS0_SX215\nMTAS0_SX305\nMTAS0_SX35\nMTAS0_SX395\nMTAT0_SI1110\nMTAT0_SI1740\nMTAT0_SI811\nMTAT0_SX120\nMTAT0_SX210\nMTAT0_SX30\nMTAT0_SX300\nMTAT0_SX390\nMTAT1_SI1409\nMTAT1_SI1627\nMTAT1_SI779\nMTAT1_SX149\nMTAT1_SX239\nMTAT1_SX329\nMTAT1_SX419\nMTAT1_SX59\nMTBC0_SI1173\nMTBC0_SI1803\nMTBC0_SI543\nMTBC0_SX183\nMTBC0_SX273\nMTBC0_SX347\nMTBC0_SX363\nMTBC0_SX93\nMTCS0_SI1972\nMTCS0_SI2265\nMTCS0_SI712\nMTCS0_SX172\nMTCS0_SX262\nMTCS0_SX352\nMTCS0_SX442\nMTCS0_SX82\nMTDB0_SI1401\nMTDB0_SI2031\nMTDB0_SI771\nMTDB0_SX141\nMTDB0_SX231\nMTDB0_SX321\nMTDB0_SX411\nMTDB0_SX51\nMTDP0_SI1274\nMTDP0_SI1521\nMTDP0_SI2151\nMTDP0_SX171\nMTDP0_SX261\nMTDP0_SX351\nMTDP0_SX441\nMTDP0_SX81\nMTER0_SI1157\nMTER0_SI1787\nMTER0_SI527\nMTER0_SX167\nMTER0_SX17\nMTER0_SX257\nMTER0_SX437\nMTER0_SX77\nMTJG0_SI1520\nMTJG0_SI2157\nMTJG0_SI890\nMTJG0_SX170\nMTJG0_SX260\nMTJG0_SX350\nMTJG0_SX440\nMTJG0_SX80\nMTJM0_SI1226\nMTJM0_SI1856\nMTJM0_SI655\nMTJM0_SX146\nMTJM0_SX236\nMTJM0_SX326\nMTJM0_SX416\nMTJM0_SX56\nMTJS0_SI1192\nMTJS0_SI1822\nMTJS0_SI562\nMTJS0_SX112\nMTJS0_SX202\nMTJS0_SX22\nMTJS0_SX292\nMTJS0_SX382\nMTJU0_SI2020\nMTJU0_SI2269\nMTJU0_SI760\nMTJU0_SX130\nMTJU0_SX220\nMTJU0_SX310\nMTJU0_SX40\nMTJU0_SX400\nMTKD0_SI1187\nMTKD0_SI1817\nMTKD0_SI630\nMTKD0_SX107\nMTKD0_SX17\nMTKD0_SX197\nMTKD0_SX287\nMTKD0_SX377\nMTKP0_SI1023\nMTKP0_SI2283\nMTKP0_SI454\nMTKP0_SX123\nMTKP0_SX213\nMTKP0_SX303\nMTKP0_SX33\nMTKP0_SX393\nMTLB0_SI1134\nMTLB0_SI1764\nMTLB0_SI504\nMTLB0_SX144\nMTLB0_SX234\nMTLB0_SX324\nMTLB0_SX414\nMTLB0_SX54\nMTLC0_SI1313\nMTLC0_SI1477\nMTLC0_SI847\nMTLC0_SX127\nMTLC0_SX217\nMTLC0_SX307\nMTLC0_SX37\nMTLC0_SX397\nMTML0_SI1065\nMTML0_SI1695\nMTML0_SI2325\nMTML0_SX165\nMTML0_SX255\nMTML0_SX345\nMTML0_SX435\nMTML0_SX75\nMTMN0_SI1064\nMTMN0_SI2324\nMTMN0_SI582\nMTMN0_SX164\nMTMN0_SX254\nMTMN0_SX344\nMTMN0_SX434\nMTMN0_SX74\nMTMT0_SI1118\nMTMT0_SI1748\nMTMT0_SI488\nMTMT0_SX128\nMTMT0_SX218\nMTMT0_SX308\nMTMT0_SX38\nMTMT0_SX398\nMTPF0_SI1235\nMTPF0_SI1865\nMTPF0_SI605\nMTPF0_SX155\nMTPF0_SX245\nMTPF0_SX335\nMTPF0_SX425\nMTPF0_SX65\nMTPG0_SI1383\nMTPG0_SI2013\nMTPG0_SI753\nMTPG0_SX123\nMTPG0_SX213\nMTPG0_SX303\nMTPG0_SX33\nMTPG0_SX393\nMTPP0_SI1508\nMTPP0_SI2138\nMTPP0_SI878\nMTPP0_SX158\nMTPP0_SX248\nMTPP0_SX338\nMTPP0_SX428\nMTPP0_SX68\nMTPR0_SI1600\nMTPR0_SI2230\nMTPR0_SI506\nMTPR0_SX160\nMTPR0_SX250\nMTPR0_SX340\nMTPR0_SX430\nMTPR0_SX70\nMTQC0_SI1441\nMTQC0_SI2071\nMTQC0_SI480\nMTQC0_SX181\nMTQC0_SX271\nMTQC0_SX361\nMTQC0_SX451\nMTQC0_SX91\nMTRC0_SI1623\nMTRC0_SI589\nMTRC0_SI993\nMTRC0_SX170\nMTRC0_SX183\nMTRC0_SX273\nMTRC0_SX363\nMTRC0_SX93\nMTRR0_SI1548\nMTRR0_SI2178\nMTRR0_SI918\nMTRR0_SX108\nMTRR0_SX18\nMTRR0_SX198\nMTRR0_SX288\nMTRR0_SX378\nMTRT0_SI1227\nMTRT0_SI1857\nMTRT0_SI597\nMTRT0_SX147\nMTRT0_SX237\nMTRT0_SX254\nMTRT0_SX417\nMTRT0_SX57\nMTWH1_SI1512\nMTWH1_SI2142\nMTWH1_SI882\nMTWH1_SX162\nMTWH1_SX252\nMTWH1_SX342\nMTWH1_SX432\nMTWH1_SX72\nMTXS0_SI1060\nMTXS0_SI1690\nMTXS0_SI2320\nMTXS0_SX160\nMTXS0_SX250\nMTXS0_SX340\nMTXS0_SX430\nMTXS0_SX70\nMVJH0_SI1556\nMVJH0_SI2186\nMVJH0_SI926\nMVJH0_SX116\nMVJH0_SX206\nMVJH0_SX26\nMVJH0_SX296\nMVJH0_SX386\nMVLO0_SI1147\nMVLO0_SI1777\nMVLO0_SI517\nMVLO0_SX157\nMVLO0_SX247\nMVLO0_SX337\nMVLO0_SX427\nMVLO0_SX67\nMVRW0_SI1485\nMVRW0_SI2115\nMVRW0_SI855\nMVRW0_SX135\nMVRW0_SX225\nMVRW0_SX315\nMVRW0_SX405\nMVRW0_SX45\nMWAC0_SI1601\nMWAC0_SI2231\nMWAC0_SI971\nMWAC0_SX161\nMWAC0_SX251\nMWAC0_SX341\nMWAC0_SX431\nMWAC0_SX71\nMWAD0_SI1062\nMWAD0_SI1749\nMWAD0_SI2322\nMWAD0_SX162\nMWAD0_SX252\nMWAD0_SX342\nMWAD0_SX432\nMWAD0_SX72\nMWAR0_SI1045\nMWAR0_SI1675\nMWAR0_SI2305\nMWAR0_SX145\nMWAR0_SX235\nMWAR0_SX325\nMWAR0_SX415\nMWAR0_SX55\nMWCH0_SI1622\nMWCH0_SI1895\nMWCH0_SI2252\nMWCH0_SX182\nMWCH0_SX272\nMWCH0_SX362\nMWCH0_SX452\nMWCH0_SX92\nMWDK0_SI1436\nMWDK0_SI2017\nMWDK0_SI806\nMWDK0_SX176\nMWDK0_SX266\nMWDK0_SX356\nMWDK0_SX446\nMWDK0_SX86\nMWEM0_SI1320\nMWEM0_SI1393\nMWEM0_SI1950\nMWEM0_SX150\nMWEM0_SX240\nMWEM0_SX330\nMWEM0_SX420\nMWEM0_SX60\nMWGR0_SI1606\nMWGR0_SI2236\nMWGR0_SI976\nMWGR0_SX166\nMWGR0_SX256\nMWGR0_SX346\nMWGR0_SX436\nMWGR0_SX76\nMWRE0_SI1057\nMWRE0_SI1687\nMWRE0_SI2317\nMWRE0_SX157\nMWRE0_SX247\nMWRE0_SX337\nMWRE0_SX427\nMWRE0_SX67\nMWRP0_SI1443\nMWRP0_SI1525\nMWRP0_SI2073\nMWRP0_SX183\nMWRP0_SX273\nMWRP0_SX3\nMWRP0_SX363\nMWRP0_SX93\nMWSB0_SI1626\nMWSB0_SI2256\nMWSB0_SI996\nMWSB0_SX186\nMWSB0_SX276\nMWSB0_SX366\nMWSB0_SX6\nMWSB0_SX96\nMWSH0_SI1426\nMWSH0_SI2266\nMWSH0_SI796\nMWSH0_SX166\nMWSH0_SX256\nMWSH0_SX346\nMWSH0_SX436\nMWSH0_SX76\nMZMB0_SI1166\nMZMB0_SI1796\nMZMB0_SI536\nMZMB0_SX176\nMZMB0_SX266\nMZMB0_SX356\nMZMB0_SX446\nMZMB0_SX86\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/config/timit_matched/train_text.uid",
    "content": "FAEM0_SI1392\nFAEM0_SI2022\nFAEM0_SI762\nFAEM0_SX132\nFAEM0_SX222\nFAEM0_SX312\nFAEM0_SX402\nFAEM0_SX42\nFAJW0_SI1263\nFAJW0_SI1893\nFAJW0_SI633\nFAJW0_SX183\nFAJW0_SX273\nFAJW0_SX3\nFAJW0_SX363\nFAJW0_SX93\nFALK0_SI1086\nFALK0_SI456\nFALK0_SI658\nFALK0_SX186\nFALK0_SX276\nFALK0_SX366\nFALK0_SX6\nFALK0_SX96\nFALR0_SI1325\nFALR0_SI1955\nFALR0_SI695\nFALR0_SX155\nFALR0_SX245\nFALR0_SX335\nFALR0_SX425\nFALR0_SX65\nFAPB0_SI1063\nFAPB0_SI1693\nFAPB0_SI2323\nFAPB0_SX163\nFAPB0_SX253\nFAPB0_SX343\nFAPB0_SX433\nFAPB0_SX73\nFBAS0_SI1387\nFBAS0_SI1472\nFBAS0_SI2066\nFBAS0_SX127\nFBAS0_SX217\nFBAS0_SX307\nFBAS0_SX37\nFBAS0_SX397\nFBCG1_SI1612\nFBCG1_SI2242\nFBCG1_SI982\nFBCG1_SX172\nFBCG1_SX262\nFBCG1_SX352\nFBCG1_SX442\nFBCG1_SX82\nFBCH0_SI1586\nFBCH0_SI956\nFBCH0_SI959\nFBCH0_SX146\nFBCH0_SX236\nFBCH0_SX326\nFBCH0_SX416\nFBCH0_SX56\nFBJL0_SI1552\nFBJL0_SI2182\nFBJL0_SI922\nFBJL0_SX112\nFBJL0_SX202\nFBJL0_SX22\nFBJL0_SX292\nFBJL0_SX382\nFBLV0_SI1058\nFBLV0_SI1688\nFBLV0_SI2318\nFBLV0_SX158\nFBLV0_SX248\nFBLV0_SX338\nFBLV0_SX428\nFBLV0_SX68\nFBMH0_SI1136\nFBMH0_SI1766\nFBMH0_SI970\nFBMH0_SX146\nFBMH0_SX236\nFBMH0_SX326\nFBMH0_SX416\nFBMH0_SX56\nFBMJ0_SI1776\nFBMJ0_SI516\nFBMJ0_SI815\nFBMJ0_SX156\nFBMJ0_SX246\nFBMJ0_SX336\nFBMJ0_SX426\nFBMJ0_SX66\nFCAG0_SI1503\nFCAG0_SI1641\nFCAG0_SI2133\nFCAG0_SX153\nFCAG0_SX243\nFCAG0_SX333\nFCAG0_SX423\nFCAG0_SX63\nFCAJ0_SI1479\nFCAJ0_SI1804\nFCAJ0_SI849\nFCAJ0_SX129\nFCAJ0_SX219\nFCAJ0_SX309\nFCAJ0_SX39\nFCAJ0_SX399\nFCDR1_SI1186\nFCDR1_SI1816\nFCDR1_SI556\nFCDR1_SX106\nFCDR1_SX16\nFCDR1_SX196\nFCDR1_SX286\nFCDR1_SX376\nFCEG0_SI1248\nFCEG0_SI1878\nFCEG0_SI618\nFCEG0_SX168\nFCEG0_SX258\nFCEG0_SX348\nFCEG0_SX438\nFCEG0_SX78\nFCJF0_SI1027\nFCJF0_SI1657\nFCJF0_SI648\nFCJF0_SX127\nFCJF0_SX217\nFCJF0_SX307\nFCJF0_SX37\nFCJF0_SX397\nFCJS0_SI1607\nFCJS0_SI2237\nFCJS0_SI977\nFCJS0_SX167\nFCJS0_SX257\nFCJS0_SX347\nFCJS0_SX437\nFCJS0_SX77\nFCKE0_SI1111\nFCKE0_SI1741\nFCKE0_SI481\nFCKE0_SX121\nFCKE0_SX211\nFCKE0_SX301\nFCKE0_SX31\nFCKE0_SX391\nFCLT0_SI1438\nFCLT0_SI2068\nFCLT0_SI808\nFCLT0_SX178\nFCLT0_SX268\nFCLT0_SX358\nFCLT0_SX448\nFCLT0_SX88\nFCMG0_SI1142\nFCMG0_SI1242\nFCMG0_SI1872\nFCMG0_SX162\nFCMG0_SX252\nFCMG0_SX342\nFCMG0_SX432\nFCMG0_SX72\nFCMM0_SI1083\nFCMM0_SI1957\nFCMM0_SI453\nFCMM0_SX183\nFCMM0_SX273\nFCMM0_SX363\nFCMM0_SX420\nFCMM0_SX93\nFCRZ0_SI1913\nFCRZ0_SI2053\nFCRZ0_SI793\nFCRZ0_SX163\nFCRZ0_SX253\nFCRZ0_SX343\nFCRZ0_SX433\nFCRZ0_SX73\nFCYL0_SI1297\nFCYL0_SI1927\nFCYL0_SI667\nFCYL0_SX127\nFCYL0_SX217\nFCYL0_SX349\nFCYL0_SX37\nFCYL0_SX397\nFDAS1_SI1461\nFDAS1_SI2091\nFDAS1_SI831\nFDAS1_SX111\nFDAS1_SX201\nFDAS1_SX21\nFDAS1_SX291\nFDAS1_SX381\nFDAW0_SI1271\nFDAW0_SI1406\nFDAW0_SI2036\nFDAW0_SX146\nFDAW0_SX236\nFDAW0_SX326\nFDAW0_SX416\nFDAW0_SX56\nFDFB0_SI1318\nFDFB0_SI1948\nFDFB0_SI2010\nFDFB0_SX148\nFDFB0_SX238\nFDFB0_SX328\nFDFB0_SX418\nFDFB0_SX58\nFDJH0_SI1565\nFDJH0_SI2195\nFDJH0_SI935\nFDJH0_SX125\nFDJH0_SX215\nFDJH0_SX305\nFDJH0_SX35\nFDJH0_SX395\nFDKN0_SI1081\nFDKN0_SI1202\nFDKN0_SI1711\nFDKN0_SX181\nFDKN0_SX271\nFDKN0_SX361\nFDKN0_SX451\nFDKN0_SX91\nFDML0_SI1149\nFDML0_SI1779\nFDML0_SI2075\nFDML0_SX159\nFDML0_SX249\nFDML0_SX339\nFDML0_SX429\nFDML0_SX69\nFDMY0_SI1197\nFDMY0_SI567\nFDMY0_SI714\nFDMY0_SX117\nFDMY0_SX207\nFDMY0_SX27\nFDMY0_SX297\nFDMY0_SX387\nFDNC0_SI1278\nFDNC0_SI1908\nFDNC0_SI2287\nFDNC0_SX108\nFDNC0_SX18\nFDNC0_SX198\nFDNC0_SX288\nFDNC0_SX378\nFDTD0_SI1561\nFDTD0_SI2191\nFDTD0_SI931\nFDTD0_SX121\nFDTD0_SX211\nFDTD0_SX301\nFDTD0_SX321\nFDTD0_SX391\nFDXW0_SI1511\nFDXW0_SI2141\nFDXW0_SI881\nFDXW0_SX161\nFDXW0_SX251\nFDXW0_SX341\nFDXW0_SX431\nFDXW0_SX71\nFEAC0_SI1245\nFEAC0_SI1875\nFEAC0_SI615\nFEAC0_SX165\nFEAC0_SX255\nFEAC0_SX345\nFEAC0_SX435\nFEAC0_SX75\nFEAR0_SI1252\nFEAR0_SI1882\nFEAR0_SI622\nFEAR0_SX172\nFEAR0_SX262\nFEAR0_SX352\nFEAR0_SX442\nFEAR0_SX82\nFECD0_SI1418\nFECD0_SI2048\nFECD0_SI788\nFECD0_SX158\nFECD0_SX248\nFECD0_SX338\nFECD0_SX428\nFECD0_SX68\nFEEH0_SI1112\nFEEH0_SI1742\nFEEH0_SI471\nFEEH0_SX122\nFEEH0_SX212\nFEEH0_SX302\nFEEH0_SX32\nFEEH0_SX392\nFEME0_SI1505\nFEME0_SI2135\nFEME0_SI875\nFEME0_SX155\nFEME0_SX245\nFEME0_SX335\nFEME0_SX425\nFEME0_SX65\nFETB0_SI1148\nFETB0_SI1778\nFETB0_SI518\nFETB0_SX158\nFETB0_SX248\nFETB0_SX338\nFETB0_SX428\nFETB0_SX68\nFEXM0_SI1101\nFEXM0_SI1731\nFEXM0_SI482\nFEXM0_SX111\nFEXM0_SX201\nFEXM0_SX291\nFEXM0_SX366\nFEXM0_SX381\nFGCS0_SI1486\nFGCS0_SI2116\nFGCS0_SI856\nFGCS0_SX136\nFGCS0_SX226\nFGCS0_SX316\nFGCS0_SX406\nFGCS0_SX46\nFGDP0_SI1618\nFGDP0_SI2248\nFGDP0_SI988\nFGDP0_SX178\nFGDP0_SX268\nFGDP0_SX358\nFGDP0_SX448\nFGDP0_SX88\nFGMB0_SI1145\nFGMB0_SI1775\nFGMB0_SI515\nFGMB0_SX155\nFGMB0_SX245\nFGMB0_SX335\nFGMB0_SX425\nFGMB0_SX65\nFGRW0_SI1152\nFGRW0_SI1782\nFGRW0_SI1990\nFGRW0_SX162\nFGRW0_SX252\nFGRW0_SX342\nFGRW0_SX432\nFGRW0_SX72\nFHLM0_SI1560\nFHLM0_SI2190\nFHLM0_SI930\nFHLM0_SX120\nFHLM0_SX210\nFHLM0_SX300\nFHLM0_SX349\nFHLM0_SX390\nFHXS0_SI1075\nFHXS0_SI2302\nFHXS0_SI2335\nFHXS0_SX175\nFHXS0_SX265\nFHXS0_SX355\nFHXS0_SX445\nFHXS0_SX85\nFJDM2_SI1582\nFJDM2_SI1964\nFJDM2_SI2212\nFJDM2_SX142\nFJDM2_SX232\nFJDM2_SX322\nFJDM2_SX412\nFJDM2_SX52\nFJEN0_SI1047\nFJEN0_SI1677\nFJEN0_SI2307\nFJEN0_SX147\nFJEN0_SX237\nFJEN0_SX327\nFJEN0_SX417\nFJEN0_SX57\nFJHK0_SI1022\nFJHK0_SI1652\nFJHK0_SI2282\nFJHK0_SX122\nFJHK0_SX212\nFJHK0_SX302\nFJHK0_SX32\nFJHK0_SX392\nFJKL0_SI1562\nFJKL0_SI2192\nFJKL0_SI932\nFJKL0_SX122\nFJKL0_SX212\nFJKL0_SX302\nFJKL0_SX32\nFJKL0_SX392\nFJLG0_SI1506\nFJLG0_SI1889\nFJLG0_SI2306\nFJLG0_SX179\nFJLG0_SX269\nFJLG0_SX359\nFJLG0_SX449\nFJLG0_SX89\nFJLR0_SI1231\nFJLR0_SI1861\nFJLR0_SI601\nFJLR0_SX151\nFJLR0_SX241\nFJLR0_SX331\nFJLR0_SX421\nFJLR0_SX61\nFJRB0_SI1302\nFJRB0_SI1932\nFJRB0_SI672\nFJRB0_SX132\nFJRB0_SX222\nFJRB0_SX312\nFJRB0_SX402\nFJRB0_SX42\nFJRP1_SI1432\nFJRP1_SI2062\nFJRP1_SI802\nFJRP1_SX172\nFJRP1_SX262\nFJRP1_SX352\nFJRP1_SX442\nFJRP1_SX82\nFJSK0_SI1052\nFJSK0_SI1682\nFJSK0_SI2312\nFJSK0_SX152\nFJSK0_SX242\nFJSK0_SX332\nFJSK0_SX422\nFJSK0_SX62\nFJSP0_SI1434\nFJSP0_SI1763\nFJSP0_SI804\nFJSP0_SX174\nFJSP0_SX264\nFJSP0_SX354\nFJSP0_SX444\nFJSP0_SX84\nFJWB1_SI2055\nFJWB1_SI748\nFJWB1_SI795\nFJWB1_SX165\nFJWB1_SX255\nFJWB1_SX345\nFJWB1_SX435\nFJWB1_SX75\nFJXM0_SI1211\nFJXM0_SI1971\nFJXM0_SI581\nFJXM0_SX131\nFJXM0_SX221\nFJXM0_SX311\nFJXM0_SX401\nFJXM0_SX41\nFJXP0_SI1122\nFJXP0_SI1752\nFJXP0_SI492\nFJXP0_SX132\nFJXP0_SX222\nFJXP0_SX312\nFJXP0_SX402\nFJXP0_SX42\nFKAA0_SI1208\nFKAA0_SI1838\nFKAA0_SI578\nFKAA0_SX128\nFKAA0_SX218\nFKAA0_SX308\nFKAA0_SX38\nFKAA0_SX398\nFKDE0_SI1141\nFKDE0_SI1771\nFKDE0_SI2221\nFKDE0_SX151\nFKDE0_SX241\nFKDE0_SX331\nFKDE0_SX421\nFKDE0_SX61\nFKDW0_SI1207\nFKDW0_SI1891\nFKDW0_SI577\nFKDW0_SX127\nFKDW0_SX217\nFKDW0_SX307\nFKDW0_SX37\nFKDW0_SX397\nFKFB0_SI1608\nFKFB0_SI2238\nFKFB0_SI978\nFKFB0_SX168\nFKFB0_SX258\nFKFB0_SX348\nFKFB0_SX438\nFKFB0_SX78\nFKKH0_SI1290\nFKKH0_SI1920\nFKKH0_SI660\nFKKH0_SX120\nFKKH0_SX210\nFKKH0_SX30\nFKKH0_SX300\nFKKH0_SX390\nFKLC0_SI1615\nFKLC0_SI2245\nFKLC0_SI985\nFKLC0_SX175\nFKLC0_SX265\nFKLC0_SX355\nFKLC0_SX445\nFKLC0_SX85\nFKLC1_SI1048\nFKLC1_SI1678\nFKLC1_SI2308\nFKLC1_SX148\nFKLC1_SX238\nFKLC1_SX328\nFKLC1_SX418\nFKLC1_SX58\nFKLH0_SI1257\nFKLH0_SI1887\nFKLH0_SI627\nFKLH0_SX177\nFKLH0_SX267\nFKLH0_SX357\nFKLH0_SX447\nFKLH0_SX87\nFKSR0_SI1117\nFKSR0_SI1747\nFKSR0_SI487\nFKSR0_SX161\nFKSR0_SX217\nFKSR0_SX366\nFKSR0_SX37\nFKSR0_SX397\nFLAC0_SI1339\nFLAC0_SI2161\nFLAC0_SI901\nFLAC0_SX181\nFLAC0_SX271\nFLAC0_SX361\nFLAC0_SX451\nFLAC0_SX91\nFLAG0_SI1464\nFLAG0_SI2094\nFLAG0_SI834\nFLAG0_SX114\nFLAG0_SX204\nFLAG0_SX24\nFLAG0_SX294\nFLAG0_SX384\nFLEH0_SI1051\nFLEH0_SI1681\nFLEH0_SI2311\nFLEH0_SX151\nFLEH0_SX241\nFLEH0_SX331\nFLEH0_SX421\nFLEH0_SX61\nFLET0_SI1137\nFLET0_SI1767\nFLET0_SI507\nFLET0_SX147\nFLET0_SX237\nFLET0_SX277\nFLET0_SX417\nFLET0_SX57\nFLHD0_SI1344\nFLHD0_SI1827\nFLHD0_SI1974\nFLHD0_SX174\nFLHD0_SX264\nFLHD0_SX354\nFLHD0_SX444\nFLHD0_SX84\nFLJA0_SI1078\nFLJA0_SI1708\nFLJA0_SI2338\nFLJA0_SX178\nFLJA0_SX268\nFLJA0_SX358\nFLJA0_SX448\nFLJA0_SX88\nFLJD0_SI1516\nFLJD0_SI2146\nFLJD0_SI886\nFLJD0_SX166\nFLJD0_SX256\nFLJD0_SX346\nFLJD0_SX436\nFLJD0_SX76\nFLJG0_SI1611\nFLJG0_SI2241\nFLJG0_SI981\nFLJG0_SX171\nFLJG0_SX261\nFLJG0_SX351\nFLJG0_SX441\nFLJG0_SX81\nFLKM0_SI1880\nFLKM0_SI620\nFLKM0_SI686\nFLKM0_SX116\nFLKM0_SX260\nFLKM0_SX350\nFLKM0_SX440\nFLKM0_SX80\nFLMA0_SI1243\nFLMA0_SI1873\nFLMA0_SI613\nFLMA0_SX163\nFLMA0_SX253\nFLMA0_SX343\nFLMA0_SX433\nFLMA0_SX73\nFLMC0_SI1372\nFLMC0_SI2002\nFLMC0_SI742\nFLMC0_SX112\nFLMC0_SX22\nFLMC0_SX292\nFLMC0_SX336\nFLMC0_SX382\nFLMK0_SI1035\nFLMK0_SI1229\nFLMK0_SI2295\nFLMK0_SX135\nFLMK0_SX225\nFLMK0_SX315\nFLMK0_SX405\nFLMK0_SX45\nFLOD0_SI1287\nFLOD0_SI1917\nFLOD0_SI657\nFLOD0_SX117\nFLOD0_SX171\nFLOD0_SX207\nFLOD0_SX297\nFLOD0_SX387\nFLTM0_SI1070\nFLTM0_SI1700\nFLTM0_SI2330\nFLTM0_SX170\nFLTM0_SX260\nFLTM0_SX350\nFLTM0_SX440\nFLTM0_SX80\nFMAH1_SI1509\nFMAH1_SI2139\nFMAH1_SI879\nFMAH1_SX159\nFMAH1_SX249\nFMAH1_SX339\nFMAH1_SX429\nFMAH1_SX69\nFMBG0_SI1160\nFMBG0_SI1790\nFMBG0_SI2264\nFMBG0_SX260\nFMBG0_SX3\nFMBG0_SX350\nFMBG0_SX440\nFMBG0_SX80\nFMEM0_SI1377\nFMEM0_SI2007\nFMEM0_SI747\nFMEM0_SX117\nFMEM0_SX207\nFMEM0_SX297\nFMEM0_SX333\nFMEM0_SX387\nFMJB0_SI1177\nFMJB0_SI1807\nFMJB0_SI547\nFMJB0_SX187\nFMJB0_SX277\nFMJB0_SX367\nFMJB0_SX7\nFMJB0_SX97\nFMJF0_SI1254\nFMJF0_SI1884\nFMJF0_SI624\nFMJF0_SX174\nFMJF0_SX264\nFMJF0_SX354\nFMJF0_SX444\nFMJF0_SX84\nFMJU0_SI1389\nFMJU0_SI2019\nFMJU0_SI759\nFMJU0_SX129\nFMJU0_SX219\nFMJU0_SX309\nFMJU0_SX39\nFMJU0_SX399\nFMKC0_SI1041\nFMKC0_SI1072\nFMKC0_SI1702\nFMKC0_SX172\nFMKC0_SX262\nFMKC0_SX352\nFMKC0_SX442\nFMKC0_SX82\nFMKF0_SI1018\nFMKF0_SI1536\nFMKF0_SI906\nFMKF0_SX186\nFMKF0_SX276\nFMKF0_SX366\nFMKF0_SX6\nFMKF0_SX96\nFMMH0_SI1537\nFMMH0_SI2167\nFMMH0_SI907\nFMMH0_SX187\nFMMH0_SX367\nFMMH0_SX420\nFMMH0_SX7\nFMMH0_SX97\nFMPG0_SI1602\nFMPG0_SI2232\nFMPG0_SI972\nFMPG0_SX162\nFMPG0_SX252\nFMPG0_SX342\nFMPG0_SX432\nFMPG0_SX72\nFNKL0_SI1522\nFNKL0_SI2152\nFNKL0_SI892\nFNKL0_SX172\nFNKL0_SX196\nFNKL0_SX262\nFNKL0_SX442\nFNKL0_SX82\nFNTB0_SI1203\nFNTB0_SI573\nFNTB0_SI679\nFNTB0_SX123\nFNTB0_SX213\nFNTB0_SX303\nFNTB0_SX33\nFNTB0_SX393\nFPAB1_SI1471\nFPAB1_SI2101\nFPAB1_SI841\nFPAB1_SX121\nFPAB1_SX211\nFPAB1_SX301\nFPAB1_SX31\nFPAB1_SX391\nFPAC0_SI1921\nFPAC0_SI2011\nFPAC0_SI661\nFPAC0_SX121\nFPAC0_SX211\nFPAC0_SX301\nFPAC0_SX31\nFPAC0_SX391\nFPAD0_SI1346\nFPAD0_SI1976\nFPAD0_SI716\nFPAD0_SX176\nFPAD0_SX266\nFPAD0_SX356\nFPAD0_SX446\nFPAD0_SX86\nFPAF0_SI1054\nFPAF0_SI1684\nFPAF0_SI2314\nFPAF0_SX154\nFPAF0_SX244\nFPAF0_SX334\nFPAF0_SX424\nFPAF0_SX64\nFPAZ0_SI1593\nFPAZ0_SI2223\nFPAZ0_SI963\nFPAZ0_SX153\nFPAZ0_SX243\nFPAZ0_SX27\nFPAZ0_SX423\nFPAZ0_SX63\nFPJF0_SI1046\nFPJF0_SI1259\nFPJF0_SI1676\nFPJF0_SX146\nFPJF0_SX236\nFPJF0_SX326\nFPJF0_SX352\nFPJF0_SX56\nFPLS0_SI1590\nFPLS0_SI2220\nFPLS0_SI960\nFPLS0_SX150\nFPLS0_SX240\nFPLS0_SX3\nFPLS0_SX330\nFPLS0_SX60\nFPMY0_SI1153\nFPMY0_SI1783\nFPMY0_SI523\nFPMY0_SX163\nFPMY0_SX196\nFPMY0_SX253\nFPMY0_SX343\nFPMY0_SX73\nFREH0_SI1315\nFREH0_SI1945\nFREH0_SI685\nFREH0_SX145\nFREH0_SX235\nFREH0_SX325\nFREH0_SX415\nFREH0_SX55\nFRJB0_SI1427\nFRJB0_SI1470\nFRJB0_SI1794\nFRJB0_SX167\nFRJB0_SX257\nFRJB0_SX347\nFRJB0_SX437\nFRJB0_SX77\nFRLL0_SI1514\nFRLL0_SI805\nFRLL0_SI884\nFRLL0_SX164\nFRLL0_SX254\nFRLL0_SX344\nFRLL0_SX434\nFRLL0_SX74\nFSAG0_SI1323\nFSAG0_SI1953\nFSAG0_SI693\nFSAG0_SX153\nFSAG0_SX243\nFSAG0_SX333\nFSAG0_SX423\nFSAG0_SX63\nFSAH0_SI1244\nFSAH0_SI1874\nFSAH0_SI614\nFSAH0_SX164\nFSAH0_SX327\nFSAH0_SX344\nFSAH0_SX434\nFSAH0_SX74\nFSAK0_SI1300\nFSAK0_SI1930\nFSAK0_SI670\nFSAK0_SX130\nFSAK0_SX220\nFSAK0_SX310\nFSAK0_SX40\nFSAK0_SX400\nFSBK0_SI1069\nFSBK0_SI1699\nFSBK0_SI2329\nFSBK0_SX169\nFSBK0_SX259\nFSBK0_SX349\nFSBK0_SX439\nFSBK0_SX79\nFSCN0_SI1886\nFSCN0_SI626\nFSCN0_SI705\nFSCN0_SX176\nFSCN0_SX266\nFSCN0_SX356\nFSCN0_SX446\nFSCN0_SX86\nFSDC0_SI1312\nFSDC0_SI1942\nFSDC0_SI2234\nFSDC0_SX142\nFSDC0_SX232\nFSDC0_SX322\nFSDC0_SX412\nFSDC0_SX52\nFSDJ0_SI1115\nFSDJ0_SI1745\nFSDJ0_SI485\nFSDJ0_SX125\nFSDJ0_SX215\nFSDJ0_SX305\nFSDJ0_SX35\nFSDJ0_SX395\nFSGF0_SI1557\nFSGF0_SI2187\nFSGF0_SI927\nFSGF0_SX117\nFSGF0_SX207\nFSGF0_SX27\nFSGF0_SX297\nFSGF0_SX387\nFSJG0_SI1570\nFSJG0_SI2200\nFSJG0_SI940\nFSJG0_SX130\nFSJG0_SX220\nFSJG0_SX310\nFSJG0_SX40\nFSJG0_SX400\nFSJK1_SI1025\nFSJK1_SI2285\nFSJK1_SI696\nFSJK1_SX125\nFSJK1_SX215\nFSJK1_SX305\nFSJK1_SX35\nFSJK1_SX395\nFSJS0_SI1171\nFSJS0_SI1801\nFSJS0_SI541\nFSJS0_SX181\nFSJS0_SX271\nFSJS0_SX361\nFSJS0_SX451\nFSJS0_SX91\nFSJW0_SI1333\nFSJW0_SI1963\nFSJW0_SI703\nFSJW0_SX163\nFSJW0_SX253\nFSJW0_SX343\nFSJW0_SX433\nFSJW0_SX73\nFSKC0_SI1416\nFSKC0_SI2046\nFSKC0_SI786\nFSKC0_SX156\nFSKC0_SX246\nFSKC0_SX336\nFSKC0_SX426\nFSKC0_SX66\nFSKL0_SI1529\nFSKL0_SI2159\nFSKL0_SI899\nFSKL0_SX179\nFSKL0_SX269\nFSKL0_SX359\nFSKL0_SX449\nFSKL0_SX89\nFSKP0_SI1098\nFSKP0_SI1728\nFSKP0_SI468\nFSKP0_SX108\nFSKP0_SX18\nFSKP0_SX198\nFSKP0_SX288\nFSKP0_SX378\nFSLS0_SI1056\nFSLS0_SI1686\nFSLS0_SI2316\nFSLS0_SX156\nFSLS0_SX202\nFSLS0_SX246\nFSLS0_SX426\nFSLS0_SX66\nFSMA0_SI1621\nFSMA0_SI2251\nFSMA0_SI991\nFSMA0_SX181\nFSMA0_SX271\nFSMA0_SX361\nFSMA0_SX451\nFSMA0_SX91\nFSMM0_SI1314\nFSMM0_SI1944\nFSMM0_SI684\nFSMM0_SX144\nFSMM0_SX234\nFSMM0_SX324\nFSMM0_SX414\nFSMM0_SX54\nFSMS1_SI1504\nFSMS1_SI2134\nFSMS1_SI874\nFSMS1_SX154\nFSMS1_SX244\nFSMS1_SX334\nFSMS1_SX347\nFSMS1_SX64\nFSPM0_SI1241\nFSPM0_SI1871\nFSPM0_SI611\nFSPM0_SX161\nFSPM0_SX251\nFSPM0_SX341\nFSPM0_SX431\nFSPM0_SX71\nFSRH0_SI1719\nFSRH0_SI1931\nFSRH0_SI671\nFSRH0_SX131\nFSRH0_SX221\nFSRH0_SX311\nFSRH0_SX401\nFSRH0_SX41\nFSSB0_SI1082\nFSSB0_SI1712\nFSSB0_SI2342\nFSSB0_SX182\nFSSB0_SX272\nFSSB0_SX362\nFSSB0_SX452\nFSSB0_SX92\nFTAJ0_SI1329\nFTAJ0_SI474\nFTAJ0_SI699\nFTAJ0_SX159\nFTAJ0_SX249\nFTAJ0_SX339\nFTAJ0_SX429\nFTAJ0_SX69\nFTBR0_SI1402\nFTBR0_SI2181\nFTBR0_SI921\nFTBR0_SX111\nFTBR0_SX201\nFTBR0_SX21\nFTBR0_SX291\nFTBR0_SX381\nFTBW0_SI1345\nFTBW0_SI1975\nFTBW0_SI715\nFTBW0_SX175\nFTBW0_SX265\nFTBW0_SX355\nFTBW0_SX445\nFTBW0_SX85\nFTLG0_SI1743\nFTLG0_SI483\nFTLG0_SI840\nFTLG0_SX123\nFTLG0_SX213\nFTLG0_SX303\nFTLG0_SX33\nFTLG0_SX393\nFTMG0_SI1532\nFTMG0_SI2162\nFTMG0_SI902\nFTMG0_SX182\nFTMG0_SX272\nFTMG0_SX362\nFTMG0_SX452\nFTMG0_SX92\nFVFB0_SI1032\nFVFB0_SI1510\nFVFB0_SI2292\nFVFB0_SX132\nFVFB0_SX222\nFVFB0_SX312\nFVFB0_SX402\nFVFB0_SX42\nFVKB0_SI1159\nFVKB0_SI1789\nFVKB0_SI529\nFVKB0_SX169\nFVKB0_SX259\nFVKB0_SX349\nFVKB0_SX439\nFVKB0_SX79\nFVMH0_SI1466\nFVMH0_SI2096\nFVMH0_SI836\nFVMH0_SX116\nFVMH0_SX206\nFVMH0_SX26\nFVMH0_SX296\nFVMH0_SX386\nMABC0_SI1620\nMABC0_SI2041\nMABC0_SI781\nMABC0_SX151\nMABC0_SX241\nMABC0_SX331\nMABC0_SX421\nMABC0_SX61\nMADC0_SI1367\nMADC0_SI1997\nMADC0_SI737\nMADC0_SX107\nMADC0_SX17\nMADC0_SX197\nMADC0_SX287\nMADC0_SX377\nMADD0_SI1295\nMADD0_SI1798\nMADD0_SI538\nMADD0_SX178\nMADD0_SX268\nMADD0_SX358\nMADD0_SX448\nMADD0_SX88\nMAEB0_SI1411\nMAEB0_SI2250\nMAEB0_SI990\nMAEB0_SX180\nMAEB0_SX270\nMAEB0_SX360\nMAEB0_SX450\nMAEB0_SX90\nMAEO0_SI1326\nMAEO0_SI1655\nMAEO0_SI1956\nMAEO0_SX156\nMAEO0_SX246\nMAEO0_SX336\nMAEO0_SX426\nMAEO0_SX66\nMAFM0_SI1569\nMAFM0_SI2199\nMAFM0_SI939\nMAFM0_SX129\nMAFM0_SX219\nMAFM0_SX309\nMAFM0_SX39\nMAFM0_SX399\nMAJP0_SI1074\nMAJP0_SI1704\nMAJP0_SI2334\nMAJP0_SX174\nMAJP0_SX264\nMAJP0_SX354\nMAJP0_SX444\nMAJP0_SX84\nMAKB0_SI1016\nMAKB0_SI1646\nMAKB0_SI2276\nMAKB0_SX116\nMAKB0_SX206\nMAKB0_SX26\nMAKB0_SX296\nMAKB0_SX386\nMAKR0_SI1352\nMAKR0_SI1982\nMAKR0_SI722\nMAKR0_SX182\nMAKR0_SX272\nMAKR0_SX362\nMAKR0_SX452\nMAKR0_SX92\nMAPV0_SI1293\nMAPV0_SI1923\nMAPV0_SI663\nMAPV0_SX123\nMAPV0_SX213\nMAPV0_SX303\nMAPV0_SX33\nMAPV0_SX393\nMARC0_SI1188\nMARC0_SI1818\nMARC0_SI558\nMARC0_SX108\nMARC0_SX18\nMARC0_SX198\nMARC0_SX288\nMARC0_SX378\nMARW0_SI1276\nMARW0_SI1906\nMARW0_SI646\nMARW0_SX106\nMARW0_SX16\nMARW0_SX286\nMARW0_SX349\nMARW0_SX376\nMBAR0_SI1319\nMBAR0_SI1949\nMBAR0_SI689\nMBAR0_SX149\nMBAR0_SX239\nMBAR0_SX329\nMBAR0_SX419\nMBAR0_SX59\nMBBR0_SI1055\nMBBR0_SI1685\nMBBR0_SI2315\nMBBR0_SX155\nMBBR0_SX245\nMBBR0_SX335\nMBBR0_SX425\nMBBR0_SX65\nMBCG0_SI2217\nMBCG0_SI486\nMBCG0_SI957\nMBCG0_SX147\nMBCG0_SX237\nMBCG0_SX327\nMBCG0_SX417\nMBCG0_SX57\nMBEF0_SI1281\nMBEF0_SI1911\nMBEF0_SI651\nMBEF0_SX111\nMBEF0_SX201\nMBEF0_SX21\nMBEF0_SX291\nMBEF0_SX381\nMBGT0_SI1341\nMBGT0_SI1841\nMBGT0_SI711\nMBGT0_SX171\nMBGT0_SX261\nMBGT0_SX351\nMBGT0_SX441\nMBGT0_SX81\nMBJV0_SI1247\nMBJV0_SI1877\nMBJV0_SI617\nMBJV0_SX167\nMBJV0_SX257\nMBJV0_SX347\nMBJV0_SX437\nMBJV0_SX77\nMBMA0_SI1222\nMBMA0_SI1852\nMBMA0_SI592\nMBMA0_SX142\nMBMA0_SX232\nMBMA0_SX322\nMBMA0_SX412\nMBMA0_SX52\nMBMA1_SI2207\nMBMA1_SI2214\nMBMA1_SI954\nMBMA1_SX144\nMBMA1_SX234\nMBMA1_SX324\nMBMA1_SX414\nMBMA1_SX54\nMBML0_SI1169\nMBML0_SI1799\nMBML0_SI539\nMBML0_SX179\nMBML0_SX269\nMBML0_SX359\nMBML0_SX449\nMBML0_SX89\nMBOM0_SI1014\nMBOM0_SI1644\nMBOM0_SI2274\nMBOM0_SX114\nMBOM0_SX204\nMBOM0_SX294\nMBOM0_SX311\nMBOM0_SX384\nMBSB0_SI1353\nMBSB0_SI1983\nMBSB0_SI723\nMBSB0_SX183\nMBSB0_SX273\nMBSB0_SX3\nMBSB0_SX363\nMBSB0_SX93\nMBTH0_SI2102\nMBTH0_SI505\nMBTH0_SI757\nMBTH0_SX122\nMBTH0_SX212\nMBTH0_SX302\nMBTH0_SX32\nMBTH0_SX392\nMBWP0_SI1531\nMBWP0_SI1969\nMBWP0_SI709\nMBWP0_SX169\nMBWP0_SX259\nMBWP0_SX349\nMBWP0_SX439\nMBWP0_SX79\nMCAE0_SI1447\nMCAE0_SI2077\nMCAE0_SI817\nMCAE0_SX187\nMCAE0_SX277\nMCAE0_SX367\nMCAE0_SX7\nMCAE0_SX97\nMCAL0_SI1138\nMCAL0_SI1768\nMCAL0_SI508\nMCAL0_SX148\nMCAL0_SX238\nMCAL0_SX328\nMCAL0_SX418\nMCAL0_SX58\nMCDC0_SI1292\nMCDC0_SI1922\nMCDC0_SI662\nMCDC0_SX122\nMCDC0_SX212\nMCDC0_SX302\nMCDC0_SX32\nMCDC0_SX392\nMCDD0_SI1513\nMCDD0_SI2143\nMCDD0_SI883\nMCDD0_SX163\nMCDD0_SX253\nMCDD0_SX343\nMCDD0_SX433\nMCDD0_SX73\nMCDR0_SI1154\nMCDR0_SI1784\nMCDR0_SI524\nMCDR0_SX164\nMCDR0_SX254\nMCDR0_SX344\nMCDR0_SX434\nMCDR0_SX74\nMCEF0_SI1135\nMCEF0_SI1765\nMCEF0_SI842\nMCEF0_SX145\nMCEF0_SX235\nMCEF0_SX325\nMCEF0_SX415\nMCEF0_SX55\nMCEW0_SI1442\nMCEW0_SI2072\nMCEW0_SI812\nMCEW0_SX182\nMCEW0_SX272\nMCEW0_SX362\nMCEW0_SX452\nMCEW0_SX92\nMCHL0_SI1347\nMCHL0_SI1404\nMCHL0_SI1977\nMCHL0_SX177\nMCHL0_SX267\nMCHL0_SX357\nMCHL0_SX447\nMCHL0_SX87\nMCLK0_SI1660\nMCLK0_SI2290\nMCLK0_SI650\nMCLK0_SX130\nMCLK0_SX220\nMCLK0_SX310\nMCLK0_SX40\nMCLK0_SX400\nMCLM0_SI1456\nMCLM0_SI2086\nMCLM0_SI826\nMCLM0_SX106\nMCLM0_SX16\nMCLM0_SX196\nMCLM0_SX286\nMCLM0_SX376\nMCPM0_SI1194\nMCPM0_SI1824\nMCPM0_SI564\nMCPM0_SX114\nMCPM0_SX204\nMCPM0_SX24\nMCPM0_SX294\nMCPM0_SX384\nMCRE0_SI1121\nMCRE0_SI1725\nMCRE0_SI1751\nMCRE0_SX131\nMCRE0_SX221\nMCRE0_SX24\nMCRE0_SX401\nMCRE0_SX41\nMCSS0_SI1380\nMCSS0_SI688\nMCSS0_SI750\nMCSS0_SX120\nMCSS0_SX210\nMCSS0_SX30\nMCSS0_SX300\nMCSS0_SX390\nMCTH0_SI1209\nMCTH0_SI1839\nMCTH0_SI579\nMCTH0_SX129\nMCTH0_SX219\nMCTH0_SX309\nMCTH0_SX39\nMCTH0_SX399\nMCTM0_SI1350\nMCTM0_SI1980\nMCTM0_SI720\nMCTM0_SX180\nMCTM0_SX270\nMCTM0_SX360\nMCTM0_SX450\nMCTM0_SX90\nMCXM0_SI1351\nMCXM0_SI1981\nMCXM0_SI721\nMCXM0_SX181\nMCXM0_SX271\nMCXM0_SX361\nMCXM0_SX451\nMCXM0_SX91\nMDAC0_SI1261\nMDAC0_SI1837\nMDAC0_SI631\nMDAC0_SX181\nMDAC0_SX271\nMDAC0_SX361\nMDAC0_SX451\nMDAC0_SX91\nMDAS0_SI1266\nMDAS0_SI1896\nMDAS0_SI636\nMDAS0_SX186\nMDAS0_SX21\nMDAS0_SX276\nMDAS0_SX6\nMDAS0_SX96\nMDBB1_SI1006\nMDBB1_SI1636\nMDBB1_SI2056\nMDBB1_SX106\nMDBB1_SX16\nMDBB1_SX196\nMDBB1_SX286\nMDBB1_SX376\nMDBP0_SI1158\nMDBP0_SI1788\nMDBP0_SI528\nMDBP0_SX168\nMDBP0_SX258\nMDBP0_SX348\nMDBP0_SX438\nMDBP0_SX78\nMDCD0_SI1415\nMDCD0_SI2045\nMDCD0_SI785\nMDCD0_SX155\nMDCD0_SX245\nMDCD0_SX335\nMDCD0_SX425\nMDCD0_SX65\nMDCM0_SI1480\nMDCM0_SI2110\nMDCM0_SI850\nMDCM0_SX130\nMDCM0_SX220\nMDCM0_SX310\nMDCM0_SX40\nMDCM0_SX400\nMDDC0_SI1419\nMDDC0_SI2049\nMDDC0_SI789\nMDDC0_SX159\nMDDC0_SX249\nMDDC0_SX339\nMDDC0_SX429\nMDDC0_SX69\nMDED0_SI1170\nMDED0_SI1800\nMDED0_SI540\nMDED0_SX180\nMDED0_SX270\nMDED0_SX360\nMDED0_SX450\nMDED0_SX90\nMDEF0_SI1123\nMDEF0_SI1563\nMDEF0_SI2193\nMDEF0_SX123\nMDEF0_SX213\nMDEF0_SX303\nMDEF0_SX33\nMDEF0_SX393\nMDEM0_SI1868\nMDEM0_SI608\nMDEM0_SI800\nMDEM0_SX158\nMDEM0_SX248\nMDEM0_SX338\nMDEM0_SX428\nMDEM0_SX68\nMDHL0_SI1439\nMDHL0_SI2069\nMDHL0_SI809\nMDHL0_SX179\nMDHL0_SX269\nMDHL0_SX359\nMDHL0_SX449\nMDHL0_SX89\nMDHS0_SI1530\nMDHS0_SI2160\nMDHS0_SI900\nMDHS0_SX180\nMDHS0_SX270\nMDHS0_SX360\nMDHS0_SX450\nMDHS0_SX90\nMDJM0_SI1455\nMDJM0_SI2085\nMDJM0_SI825\nMDJM0_SX105\nMDJM0_SX15\nMDJM0_SX195\nMDJM0_SX285\nMDJM0_SX375\nMDKS0_SI1066\nMDKS0_SI1696\nMDKS0_SI2326\nMDKS0_SX166\nMDKS0_SX256\nMDKS0_SX346\nMDKS0_SX436\nMDKS0_SX76\nMDLB0_SI1306\nMDLB0_SI1936\nMDLB0_SI676\nMDLB0_SX136\nMDLB0_SX226\nMDLB0_SX316\nMDLB0_SX406\nMDLB0_SX46\nMDLC0_SI1395\nMDLC0_SI2025\nMDLC0_SI765\nMDLC0_SX135\nMDLC0_SX225\nMDLC0_SX315\nMDLC0_SX405\nMDLC0_SX45\nMDLC1_SI1435\nMDLC1_SI2065\nMDLC1_SI2144\nMDLC1_SX175\nMDLC1_SX265\nMDLC1_SX355\nMDLC1_SX445\nMDLC1_SX85\nMDLC2_SI1614\nMDLC2_SI2244\nMDLC2_SI984\nMDLC2_SX174\nMDLC2_SX264\nMDLC2_SX354\nMDLC2_SX444\nMDLC2_SX84\nMDLH0_SI1960\nMDLH0_SI574\nMDLH0_SI700\nMDLH0_SX160\nMDLH0_SX250\nMDLH0_SX340\nMDLH0_SX430\nMDLH0_SX70\nMDLM0_SI1234\nMDLM0_SI1864\nMDLM0_SI604\nMDLM0_SX154\nMDLM0_SX244\nMDLM0_SX334\nMDLM0_SX424\nMDLM0_SX64\nMDLR0_SI1233\nMDLR0_SI1863\nMDLR0_SI603\nMDLR0_SX153\nMDLR0_SX243\nMDLR0_SX333\nMDLR0_SX423\nMDLR0_SX63\nMDLR1_SI1299\nMDLR1_SI1929\nMDLR1_SI669\nMDLR1_SX129\nMDLR1_SX219\nMDLR1_SX309\nMDLR1_SX39\nMDLR1_SX399\nMDMA0_SI1238\nMDMA0_SI1430\nMDMA0_SI2060\nMDMA0_SX170\nMDMA0_SX260\nMDMA0_SX350\nMDMA0_SX440\nMDMA0_SX80\nMDMT0_SI1832\nMDMT0_SI2341\nMDMT0_SI572\nMDMT0_SX122\nMDMT0_SX212\nMDMT0_SX302\nMDMT0_SX32\nMDMT0_SX392\nMDNS0_SI1011\nMDNS0_SI2271\nMDNS0_SI873\nMDNS0_SX111\nMDNS0_SX201\nMDNS0_SX21\nMDNS0_SX291\nMDNS0_SX381\nMDPB0_SI1760\nMDPB0_SI2126\nMDPB0_SI866\nMDPB0_SX146\nMDPB0_SX236\nMDPB0_SX326\nMDPB0_SX416\nMDPB0_SX56\nMDPK0_SI1053\nMDPK0_SI1683\nMDPK0_SI552\nMDPK0_SX153\nMDPK0_SX243\nMDPK0_SX333\nMDPK0_SX423\nMDPK0_SX63\nMDPS0_SI1651\nMDPS0_SI1979\nMDPS0_SI719\nMDPS0_SX179\nMDPS0_SX269\nMDPS0_SX359\nMDPS0_SX449\nMDPS0_SX89\nMDRD0_SI1382\nMDRD0_SI2012\nMDRD0_SI752\nMDRD0_SX122\nMDRD0_SX212\nMDRD0_SX302\nMDRD0_SX32\nMDRD0_SX392\nMDSJ0_SI1462\nMDSJ0_SI2092\nMDSJ0_SI832\nMDSJ0_SX112\nMDSJ0_SX22\nMDSJ0_SX292\nMDSJ0_SX382\nMDSJ0_SX438\nMDSS0_SI1881\nMDSS0_SI2087\nMDSS0_SI621\nMDSS0_SX171\nMDSS0_SX261\nMDSS0_SX351\nMDSS0_SX441\nMDSS0_SX81\nMDSS1_SI1327\nMDSS1_SI1713\nMDSS1_SI697\nMDSS1_SX157\nMDSS1_SX247\nMDSS1_SX337\nMDSS1_SX427\nMDSS1_SX67\nMDTB0_SI1200\nMDTB0_SI1830\nMDTB0_SI570\nMDTB0_SX120\nMDTB0_SX210\nMDTB0_SX300\nMDTB0_SX321\nMDTB0_SX390\nMDWD0_SI1260\nMDWD0_SI1890\nMDWD0_SI557\nMDWD0_SX180\nMDWD0_SX270\nMDWD0_SX360\nMDWD0_SX450\nMDWD0_SX90\nMDWH0_SI1168\nMDWH0_SI1925\nMDWH0_SI665\nMDWH0_SX125\nMDWH0_SX215\nMDWH0_SX305\nMDWH0_SX35\nMDWH0_SX395\nMDWM0_SI1546\nMDWM0_SI2176\nMDWM0_SI916\nMDWM0_SX106\nMDWM0_SX16\nMDWM0_SX286\nMDWM0_SX376\nMDWM0_SX433\nMEAL0_SI1547\nMEAL0_SI2177\nMEAL0_SI917\nMEAL0_SX107\nMEAL0_SX197\nMEAL0_SX287\nMEAL0_SX347\nMEAL0_SX377\nMEDR0_SI1374\nMEDR0_SI2004\nMEDR0_SI744\nMEDR0_SX114\nMEDR0_SX204\nMEDR0_SX24\nMEDR0_SX294\nMEDR0_SX384\nMEFG0_SI465\nMEFG0_SI491\nMEFG0_SI598\nMEFG0_SX105\nMEFG0_SX15\nMEFG0_SX195\nMEFG0_SX285\nMEFG0_SX375\nMEGJ0_SI1337\nMEGJ0_SI1967\nMEGJ0_SI707\nMEGJ0_SX167\nMEGJ0_SX257\nMEGJ0_SX3\nMEGJ0_SX437\nMEGJ0_SX77\nMEJL0_SI1592\nMEJL0_SI1654\nMEJL0_SI962\nMEJL0_SX152\nMEJL0_SX242\nMEJL0_SX332\nMEJL0_SX422\nMEJL0_SX62\nMEJS0_SI1240\nMEJS0_SI1870\nMEJS0_SI610\nMEJS0_SX160\nMEJS0_SX250\nMEJS0_SX340\nMEJS0_SX430\nMEJS0_SX70\nMESG0_SI1332\nMESG0_SI1962\nMESG0_SI702\nMESG0_SX162\nMESG0_SX252\nMESG0_SX342\nMESG0_SX432\nMESG0_SX72\nMESJ0_SI2039\nMESJ0_SI2257\nMESJ0_SI997\nMESJ0_SX187\nMESJ0_SX277\nMESJ0_SX367\nMESJ0_SX7\nMESJ0_SX97\nMEWM0_SI1348\nMEWM0_SI1978\nMEWM0_SI718\nMEWM0_SX178\nMEWM0_SX268\nMEWM0_SX358\nMEWM0_SX448\nMEWM0_SX88\nMFER0_SI1492\nMFER0_SI2122\nMFER0_SI862\nMFER0_SX142\nMFER0_SX232\nMFER0_SX322\nMFER0_SX412\nMFER0_SX52\nMFMC0_SI1132\nMFMC0_SI1762\nMFMC0_SI502\nMFMC0_SX142\nMFMC0_SX232\nMFMC0_SX322\nMFMC0_SX412\nMFMC0_SX52\nMFRM0_SI1155\nMFRM0_SI1717\nMFRM0_SI1785\nMFRM0_SX165\nMFRM0_SX255\nMFRM0_SX345\nMFRM0_SX435\nMFRM0_SX75\nMFWK0_SI1249\nMFWK0_SI1879\nMFWK0_SI619\nMFWK0_SX169\nMFWK0_SX259\nMFWK0_SX349\nMFWK0_SX439\nMFWK0_SX79\nMFXS0_SI1674\nMFXS0_SI2225\nMFXS0_SI2304\nMFXS0_SX144\nMFXS0_SX234\nMFXS0_SX324\nMFXS0_SX414\nMFXS0_SX54\nMFXV0_SI1005\nMFXV0_SI1342\nMFXV0_SI1635\nMFXV0_SX105\nMFXV0_SX15\nMFXV0_SX195\nMFXV0_SX285\nMFXV0_SX375\nMGAF0_SI1282\nMGAF0_SI1912\nMGAF0_SI652\nMGAF0_SX112\nMGAF0_SX202\nMGAF0_SX22\nMGAF0_SX292\nMGAF0_SX382\nMGAG0_SI1321\nMGAG0_SI645\nMGAG0_SI691\nMGAG0_SX151\nMGAG0_SX241\nMGAG0_SX331\nMGAG0_SX421\nMGAG0_SX61\nMGAK0_SI1036\nMGAK0_SI1666\nMGAK0_SI2296\nMGAK0_SX136\nMGAK0_SX226\nMGAK0_SX316\nMGAK0_SX406\nMGAK0_SX46\nMGAR0_SI1212\nMGAR0_SI1694\nMGAR0_SI1842\nMGAR0_SX132\nMGAR0_SX222\nMGAR0_SX312\nMGAR0_SX402\nMGAR0_SX42\nMGAW0_SI1165\nMGAW0_SI1802\nMGAW0_SI535\nMGAW0_SX175\nMGAW0_SX265\nMGAW0_SX355\nMGAW0_SX445\nMGAW0_SX85\nMGES0_SI1481\nMGES0_SI2111\nMGES0_SI851\nMGES0_SX131\nMGES0_SX221\nMGES0_SX311\nMGES0_SX401\nMGES0_SX41\nMGJC0_SI1256\nMGJC0_SI1335\nMGJC0_SI1965\nMGJC0_SX165\nMGJC0_SX255\nMGJC0_SX345\nMGJC0_SX435\nMGJC0_SX75\nMGRL0_SI1497\nMGRL0_SI2127\nMGRL0_SI867\nMGRL0_SX147\nMGRL0_SX237\nMGRL0_SX327\nMGRL0_SX417\nMGRL0_SX57\nMGRP0_SI1317\nMGRP0_SI1947\nMGRP0_SI687\nMGRP0_SX147\nMGRP0_SX237\nMGRP0_SX327\nMGRP0_SX417\nMGRP0_SX57\nMGSH0_SI1176\nMGSH0_SI1806\nMGSH0_SI546\nMGSH0_SX127\nMGSH0_SX186\nMGSH0_SX276\nMGSH0_SX6\nMGSH0_SX96\nMGSL0_SI1164\nMGSL0_SI534\nMGSL0_SI797\nMGSL0_SX174\nMGSL0_SX264\nMGSL0_SX354\nMGSL0_SX444\nMGSL0_SX84\nMGXP0_SI1087\nMGXP0_SI457\nMGXP0_SI525\nMGXP0_SX187\nMGXP0_SX277\nMGXP0_SX367\nMGXP0_SX7\nMGXP0_SX97\nMHBS0_SI1575\nMHBS0_SI2205\nMHBS0_SI945\nMHBS0_SX135\nMHBS0_SX225\nMHBS0_SX315\nMHBS0_SX405\nMHBS0_SX45\nMHIT0_SI1613\nMHIT0_SI2243\nMHIT0_SI983\nMHIT0_SX173\nMHIT0_SX263\nMHIT0_SX353\nMHIT0_SX443\nMHIT0_SX83\nMHJB0_SI1017\nMHJB0_SI1647\nMHJB0_SI2277\nMHJB0_SX117\nMHJB0_SX207\nMHJB0_SX27\nMHJB0_SX297\nMHJB0_SX387\nMHMG0_SI1365\nMHMG0_SI1995\nMHMG0_SI735\nMHMG0_SX105\nMHMG0_SX15\nMHMG0_SX195\nMHMG0_SX285\nMHMG0_SX375\nMHMR0_SI1119\nMHMR0_SI1692\nMHMR0_SI489\nMHMR0_SX129\nMHMR0_SX219\nMHMR0_SX309\nMHMR0_SX39\nMHMR0_SX399\nMHRM0_SI1475\nMHRM0_SI2218\nMHRM0_SI958\nMHRM0_SX148\nMHRM0_SX238\nMHRM0_SX328\nMHRM0_SX418\nMHRM0_SX58\nMHXL0_SI1772\nMHXL0_SI512\nMHXL0_SI612\nMHXL0_SX152\nMHXL0_SX242\nMHXL0_SX332\nMHXL0_SX422\nMHXL0_SX62\nMILB0_SI2163\nMILB0_SI807\nMILB0_SI903\nMILB0_SX183\nMILB0_SX273\nMILB0_SX3\nMILB0_SX363\nMILB0_SX93\nMJAC0_SI1331\nMJAC0_SI2148\nMJAC0_SI701\nMJAC0_SX251\nMJAC0_SX307\nMJAC0_SX341\nMJAC0_SX431\nMJAC0_SX71\nMJAE0_SI1524\nMJAE0_SI1999\nMJAE0_SI2154\nMJAE0_SX174\nMJAE0_SX264\nMJAE0_SX354\nMJAE0_SX444\nMJAE0_SX84\nMJAI0_SI1604\nMJAI0_SI682\nMJAI0_SI710\nMJAI0_SX164\nMJAI0_SX254\nMJAI0_SX344\nMJAI0_SX434\nMJAI0_SX74\nMJBG0_SI1232\nMJBG0_SI1724\nMJBG0_SI1862\nMJBG0_SX152\nMJBG0_SX242\nMJBG0_SX332\nMJBG0_SX422\nMJBG0_SX62\nMJDA0_SI1031\nMJDA0_SI1661\nMJDA0_SI2291\nMJDA0_SX131\nMJDA0_SX221\nMJDA0_SX311\nMJDA0_SX401\nMJDA0_SX41\nMJDC0_SI1161\nMJDC0_SI2165\nMJDC0_SI531\nMJDC0_SX171\nMJDC0_SX261\nMJDC0_SX351\nMJDC0_SX441\nMJDC0_SX81\nMJDE0_SI1120\nMJDE0_SI463\nMJDE0_SI490\nMJDE0_SX130\nMJDE0_SX220\nMJDE0_SX310\nMJDE0_SX40\nMJDE0_SX400\nMJDG0_SI1042\nMJDG0_SI1672\nMJDG0_SI1705\nMJDG0_SX142\nMJDG0_SX232\nMJDG0_SX322\nMJDG0_SX412\nMJDG0_SX52\nMJDM0_SI1340\nMJDM0_SI1937\nMJDM0_SI974\nMJDM0_SX170\nMJDM0_SX260\nMJDM0_SX350\nMJDM0_SX440\nMJDM0_SX80\nMJEB0_SI1286\nMJEB0_SI1916\nMJEB0_SI656\nMJEB0_SX170\nMJEB0_SX206\nMJEB0_SX26\nMJEB0_SX296\nMJEB0_SX386\nMJEB1_SI1467\nMJEB1_SI2097\nMJEB1_SI837\nMJEB1_SX117\nMJEB1_SX207\nMJEB1_SX27\nMJEB1_SX297\nMJEB1_SX387\nMJEE0_SI1237\nMJEE0_SI1867\nMJEE0_SI607\nMJEE0_SX157\nMJEE0_SX247\nMJEE0_SX337\nMJEE0_SX427\nMJEE0_SX67\nMJFH0_SI1107\nMJFH0_SI1737\nMJFH0_SI477\nMJFH0_SX117\nMJFH0_SX207\nMJFH0_SX27\nMJFH0_SX297\nMJFH0_SX387\nMJFR0_SI1605\nMJFR0_SI2235\nMJFR0_SI975\nMJFR0_SX165\nMJFR0_SX255\nMJFR0_SX345\nMJFR0_SX435\nMJFR0_SX75\nMJHI0_SI1328\nMJHI0_SI555\nMJHI0_SI698\nMJHI0_SX158\nMJHI0_SX248\nMJHI0_SX338\nMJHI0_SX428\nMJHI0_SX68\nMJJB0_SI1139\nMJJB0_SI1277\nMJJB0_SI1769\nMJJB0_SX149\nMJJB0_SX239\nMJJB0_SX329\nMJJB0_SX419\nMJJB0_SX59\nMJJJ0_SI1163\nMJJJ0_SI1793\nMJJJ0_SI533\nMJJJ0_SX173\nMJJJ0_SX263\nMJJJ0_SX353\nMJJJ0_SX443\nMJJJ0_SX83\nMJJM0_SI1251\nMJJM0_SI1457\nMJJM0_SI827\nMJJM0_SX107\nMJJM0_SX17\nMJJM0_SX197\nMJJM0_SX287\nMJJM0_SX377\nMJKR0_SI1201\nMJKR0_SI1831\nMJKR0_SI571\nMJKR0_SX121\nMJKR0_SX211\nMJKR0_SX301\nMJKR0_SX31\nMJKR0_SX391\nMJLB0_SI1616\nMJLB0_SI2246\nMJLB0_SI986\nMJLB0_SX176\nMJLB0_SX266\nMJLB0_SX356\nMJLB0_SX446\nMJLB0_SX86\nMJLG1_SI1012\nMJLG1_SI1642\nMJLG1_SI2272\nMJLG1_SX112\nMJLG1_SX202\nMJLG1_SX22\nMJLG1_SX292\nMJLG1_SX382\nMJLS0_SI1096\nMJLS0_SI1726\nMJLS0_SI466\nMJLS0_SX106\nMJLS0_SX16\nMJLS0_SX196\nMJLS0_SX286\nMJLS0_SX376\nMJMA0_SI1495\nMJMA0_SI2125\nMJMA0_SI865\nMJMA0_SX145\nMJMA0_SX235\nMJMA0_SX325\nMJMA0_SX415\nMJMA0_SX55\nMJMD0_SI1028\nMJMD0_SI1658\nMJMD0_SI2288\nMJMD0_SX128\nMJMD0_SX218\nMJMD0_SX308\nMJMD0_SX38\nMJMD0_SX398\nMJMM0_SI1255\nMJMM0_SI1885\nMJMM0_SI625\nMJMM0_SX175\nMJMM0_SX265\nMJMM0_SX355\nMJMM0_SX445\nMJMM0_SX85\nMJPG0_SI1191\nMJPG0_SI1821\nMJPG0_SI561\nMJPG0_SX111\nMJPG0_SX201\nMJPG0_SX21\nMJPG0_SX291\nMJPG0_SX381\nMJPM0_SI1368\nMJPM0_SI1998\nMJPM0_SI738\nMJPM0_SX108\nMJPM0_SX18\nMJPM0_SX198\nMJPM0_SX288\nMJPM0_SX378\nMJPM1_SI1897\nMJPM1_SI2280\nMJPM1_SI761\nMJPM1_SX131\nMJPM1_SX221\nMJPM1_SX311\nMJPM1_SX401\nMJPM1_SX41\nMJRA0_SI1236\nMJRA0_SI1866\nMJRA0_SI606\nMJRA0_SX156\nMJRA0_SX246\nMJRA0_SX336\nMJRA0_SX426\nMJRA0_SX66\nMJRG0_SI1366\nMJRG0_SI1996\nMJRG0_SI736\nMJRG0_SX106\nMJRG0_SX16\nMJRG0_SX286\nMJRG0_SX352\nMJRG0_SX376\nMJRH0_SI1125\nMJRH0_SI1755\nMJRH0_SI1840\nMJRH0_SX135\nMJRH0_SX225\nMJRH0_SX315\nMJRH0_SX405\nMJRH0_SX45\nMJRH1_SI1558\nMJRH1_SI1774\nMJRH1_SI514\nMJRH1_SX154\nMJRH1_SX244\nMJRH1_SX334\nMJRH1_SX424\nMJRH1_SX64\nMJRK0_SI1662\nMJRK0_SI2103\nMJRK0_SI880\nMJRK0_SX160\nMJRK0_SX250\nMJRK0_SX340\nMJRK0_SX430\nMJRK0_SX70\nMJRP0_SI1835\nMJRP0_SI1845\nMJRP0_SI585\nMJRP0_SX135\nMJRP0_SX225\nMJRP0_SX315\nMJRP0_SX405\nMJRP0_SX45\nMJSR0_SI1424\nMJSR0_SI2054\nMJSR0_SI794\nMJSR0_SX164\nMJSR0_SX254\nMJSR0_SX344\nMJSR0_SX434\nMJSR0_SX74\nMJWG0_SI2155\nMJWG0_SI813\nMJWG0_SI895\nMJWG0_SX175\nMJWG0_SX265\nMJWG0_SX355\nMJWG0_SX445\nMJWG0_SX85\nMJWS0_SI1143\nMJWS0_SI1773\nMJWS0_SI513\nMJWS0_SX153\nMJWS0_SX243\nMJWS0_SX333\nMJWS0_SX423\nMJWS0_SX63\nMJWT0_SI1291\nMJWT0_SI1381\nMJWT0_SI751\nMJWT0_SX121\nMJWT0_SX211\nMJWT0_SX301\nMJWT0_SX31\nMJWT0_SX391\nMJXA0_SI1507\nMJXA0_SI2137\nMJXA0_SI877\nMJXA0_SX157\nMJXA0_SX247\nMJXA0_SX337\nMJXA0_SX427\nMJXA0_SX67\nMJXL0_SI1172\nMJXL0_SI1795\nMJXL0_SI542\nMJXL0_SX182\nMJXL0_SX272\nMJXL0_SX362\nMJXL0_SX452\nMJXL0_SX92\nMKAG0_SI1609\nMKAG0_SI2239\nMKAG0_SI979\nMKAG0_SX169\nMKAG0_SX259\nMKAG0_SX30\nMKAG0_SX439\nMKAG0_SX79\nMKAH0_SI1528\nMKAH0_SI2158\nMKAH0_SI898\nMKAH0_SX178\nMKAH0_SX268\nMKAH0_SX358\nMKAH0_SX448\nMKAH0_SX88\nMKAJ0_SI1414\nMKAJ0_SI2044\nMKAJ0_SI784\nMKAJ0_SX154\nMKAJ0_SX244\nMKAJ0_SX334\nMKAJ0_SX424\nMKAJ0_SX64\nMKAM0_SI1250\nMKAM0_SI1316\nMKAM0_SI1465\nMKAM0_SX146\nMKAM0_SX236\nMKAM0_SX326\nMKAM0_SX416\nMKAM0_SX56\nMKDB0_SI2132\nMKDB0_SI588\nMKDB0_SI872\nMKDB0_SX152\nMKDB0_SX242\nMKDB0_SX332\nMKDB0_SX422\nMKDB0_SX62\nMKDD0_SI1567\nMKDD0_SI2197\nMKDD0_SI937\nMKDD0_SX127\nMKDD0_SX217\nMKDD0_SX307\nMKDD0_SX37\nMKDD0_SX397\nMKDT0_SI2153\nMKDT0_SI814\nMKDT0_SI893\nMKDT0_SX173\nMKDT0_SX263\nMKDT0_SX353\nMKDT0_SX443\nMKDT0_SX83\nMKES0_SI1253\nMKES0_SI1883\nMKES0_SI623\nMKES0_SX173\nMKES0_SX263\nMKES0_SX353\nMKES0_SX443\nMKES0_SX83\nMKJO0_SI1517\nMKJO0_SI2147\nMKJO0_SI887\nMKJO0_SX167\nMKJO0_SX257\nMKJO0_SX424\nMKJO0_SX437\nMKJO0_SX77\nMKLN0_SI1598\nMKLN0_SI2228\nMKLN0_SI968\nMKLN0_SX158\nMKLN0_SX248\nMKLN0_SX338\nMKLN0_SX428\nMKLN0_SX68\nMKLR0_SI1059\nMKLR0_SI1689\nMKLR0_SI2319\nMKLR0_SX159\nMKLR0_SX249\nMKLR0_SX339\nMKLR0_SX429\nMKLR0_SX69\nMKLS0_SI1437\nMKLS0_SI1533\nMKLS0_SI2067\nMKLS0_SX177\nMKLS0_SX267\nMKLS0_SX357\nMKLS0_SX447\nMKLS0_SX87\nMKLS1_SI1545\nMKLS1_SI2175\nMKLS1_SI915\nMKLS1_SX105\nMKLS1_SX15\nMKLS1_SX195\nMKLS1_SX285\nMKLS1_SX375\nMKLW0_SI1571\nMKLW0_SI1844\nMKLW0_SI2201\nMKLW0_SX131\nMKLW0_SX221\nMKLW0_SX311\nMKLW0_SX401\nMKLW0_SX41\nMKRG0_SI1491\nMKRG0_SI2121\nMKRG0_SI861\nMKRG0_SX141\nMKRG0_SX231\nMKRG0_SX31\nMKRG0_SX411\nMKRG0_SX51\nMKXL0_SI1185\nMKXL0_SI1815\nMKXL0_SI1958\nMKXL0_SX105\nMKXL0_SX15\nMKXL0_SX195\nMKXL0_SX285\nMKXL0_SX375\nMLBC0_SI1239\nMLBC0_SI1869\nMLBC0_SI609\nMLBC0_SX159\nMLBC0_SX249\nMLBC0_SX339\nMLBC0_SX429\nMLBC0_SX69\nMLEL0_SI1246\nMLEL0_SI1876\nMLEL0_SI616\nMLEL0_SX166\nMLEL0_SX256\nMLEL0_SX346\nMLEL0_SX436\nMLEL0_SX76\nMLJC0_SI1225\nMLJC0_SI1855\nMLJC0_SI595\nMLJC0_SX145\nMLJC0_SX235\nMLJC0_SX325\nMLJC0_SX415\nMLJC0_SX55\nMLJH0_SI1324\nMLJH0_SI1422\nMLJH0_SI694\nMLJH0_SX154\nMLJH0_SX244\nMLJH0_SX334\nMLJH0_SX424\nMLJH0_SX64\nMLNS0_SI1407\nMLNS0_SI2037\nMLNS0_SI777\nMLNS0_SX147\nMLNS0_SX237\nMLNS0_SX327\nMLNS0_SX417\nMLNS0_SX57\nMLSH0_SI1417\nMLSH0_SI2047\nMLSH0_SI787\nMLSH0_SX157\nMLSH0_SX247\nMLSH0_SX337\nMLSH0_SX427\nMLSH0_SX67\nMMAA0_SI1588\nMMAA0_SI2105\nMMAA0_SI845\nMMAA0_SX125\nMMAA0_SX215\nMMAA0_SX305\nMMAA0_SX35\nMMAA0_SX395\nMMAB1_SI1494\nMMAB1_SI2124\nMMAB1_SI864\nMMAB1_SX144\nMMAB1_SX234\nMMAB1_SX324\nMMAB1_SX414\nMMAB1_SX54\nMMAG0_SI1126\nMMAG0_SI1756\nMMAG0_SI496\nMMAG0_SX136\nMMAG0_SX226\nMMAG0_SX316\nMMAG0_SX406\nMMAG0_SX46\nMMAM0_SI1597\nMMAM0_SI1668\nMMAM0_SI2227\nMMAM0_SX157\nMMAM0_SX247\nMMAM0_SX337\nMMAM0_SX427\nMMAM0_SX67\nMMAR0_SI1336\nMMAR0_SI1966\nMMAR0_SI706\nMMAR0_SX166\nMMAR0_SX256\nMMAR0_SX346\nMMAR0_SX436\nMMAR0_SX76\nMMBS0_SI1151\nMMBS0_SI1781\nMMBS0_SI521\nMMBS0_SX161\nMMBS0_SX251\nMMBS0_SX341\nMMBS0_SX431\nMMBS0_SX71\nMMCC0_SI1338\nMMCC0_SI1968\nMMCC0_SI708\nMMCC0_SX168\nMMCC0_SX258\nMMCC0_SX348\nMMCC0_SX438\nMMCC0_SX78\nMMDB0_SI1358\nMMDB0_SI1617\nMMDB0_SI987\nMMDB0_SX177\nMMDB0_SX267\nMMDB0_SX357\nMMDB0_SX447\nMMDB0_SX87\nMMDG0_SI1780\nMMDG0_SI2035\nMMDG0_SI520\nMMDG0_SX160\nMMDG0_SX250\nMMDG0_SX340\nMMDG0_SX430\nMMDG0_SX70\nMMDM0_SI1311\nMMDM0_SI1941\nMMDM0_SI681\nMMDM0_SX141\nMMDM0_SX231\nMMDM0_SX321\nMMDM0_SX411\nMMDM0_SX51\nMMDM1_SI1650\nMMDM1_SI2043\nMMDM1_SI783\nMMDM1_SX153\nMMDM1_SX243\nMMDM1_SX333\nMMDM1_SX423\nMMDM1_SX63\nMMDS0_SI1343\nMMDS0_SI1973\nMMDS0_SI713\nMMDS0_SX173\nMMDS0_SX263\nMMDS0_SX353\nMMDS0_SX443\nMMDS0_SX83\nMMEA0_SI1388\nMMEA0_SI2018\nMMEA0_SI758\nMMEA0_SX128\nMMEA0_SX218\nMMEA0_SX308\nMMEA0_SX38\nMMEA0_SX398\nMMEB0_SI1357\nMMEB0_SI1987\nMMEB0_SI727\nMMEB0_SX187\nMMEB0_SX327\nMMEB0_SX367\nMMEB0_SX7\nMMEB0_SX97\nMMGC0_SI1305\nMMGC0_SI1935\nMMGC0_SI2184\nMMGC0_SX135\nMMGC0_SX225\nMMGC0_SX315\nMMGC0_SX405\nMMGC0_SX45\nMMGG0_SI1079\nMMGG0_SI1709\nMMGG0_SI2339\nMMGG0_SX179\nMMGG0_SX269\nMMGG0_SX359\nMMGG0_SX449\nMMGG0_SX89\nMMGK0_SI1322\nMMGK0_SI1952\nMMGK0_SI692\nMMGK0_SX152\nMMGK0_SX242\nMMGK0_SX332\nMMGK0_SX422\nMMGK0_SX62\nMMJB1_SI1408\nMMJB1_SI2038\nMMJB1_SI778\nMMJB1_SX148\nMMJB1_SX238\nMMJB1_SX328\nMMJB1_SX418\nMMJB1_SX58\nMMLM0_SI1527\nMMLM0_SI2150\nMMLM0_SI897\nMMLM0_SX177\nMMLM0_SX267\nMMLM0_SX357\nMMLM0_SX447\nMMLM0_SX87\nMMPM0_SI1061\nMMPM0_SI1691\nMMPM0_SI2321\nMMPM0_SX161\nMMPM0_SX251\nMMPM0_SX341\nMMPM0_SX431\nMMPM0_SX71\nMMRP0_SI2034\nMMRP0_SI717\nMMRP0_SI774\nMMRP0_SX144\nMMRP0_SX234\nMMRP0_SX324\nMMRP0_SX414\nMMRP0_SX54\nMMSM0_SI1106\nMMSM0_SI1736\nMMSM0_SI476\nMMSM0_SX116\nMMSM0_SX206\nMMSM0_SX26\nMMSM0_SX296\nMMSM0_SX386\nMMVP0_SI1284\nMMVP0_SI1914\nMMVP0_SI654\nMMVP0_SX114\nMMVP0_SX204\nMMVP0_SX294\nMMVP0_SX347\nMMVP0_SX384\nMMWB0_SI1619\nMMWB0_SI2249\nMMWB0_SI989\nMMWB0_SX179\nMMWB0_SX269\nMMWB0_SX359\nMMWB0_SX449\nMMWB0_SX89\nMMWS0_SI1518\nMMWS0_SI559\nMMWS0_SI888\nMMWS0_SX168\nMMWS0_SX258\nMMWS0_SX348\nMMWS0_SX438\nMMWS0_SX78\nMMWS1_SI1071\nMMWS1_SI1701\nMMWS1_SI2331\nMMWS1_SX261\nMMWS1_SX27\nMMWS1_SX351\nMMWS1_SX441\nMMWS1_SX81\nMMXS0_SI2136\nMMXS0_SI629\nMMXS0_SI876\nMMXS0_SX156\nMMXS0_SX246\nMMXS0_SX336\nMMXS0_SX426\nMMXS0_SX66\nMNET0_SI1446\nMNET0_SI2076\nMNET0_SI816\nMNET0_SX186\nMNET0_SX276\nMNET0_SX366\nMNET0_SX6\nMNET0_SX96\nMNTW0_SI1068\nMNTW0_SI1698\nMNTW0_SI2328\nMNTW0_SX168\nMNTW0_SX202\nMNTW0_SX258\nMNTW0_SX348\nMNTW0_SX78\nMPAR0_SI1576\nMPAR0_SI2206\nMPAR0_SI946\nMPAR0_SX136\nMPAR0_SX226\nMPAR0_SX316\nMPAR0_SX406\nMPAR0_SX46\nMPEB0_SI1034\nMPEB0_SI1860\nMPEB0_SI600\nMPEB0_SX150\nMPEB0_SX240\nMPEB0_SX330\nMPEB0_SX420\nMPEB0_SX60\nMPFU0_SI1258\nMPFU0_SI1888\nMPFU0_SI628\nMPFU0_SX178\nMPFU0_SX268\nMPFU0_SX358\nMPFU0_SX448\nMPFU0_SX88\nMPGH0_SI1554\nMPGH0_SI675\nMPGH0_SI924\nMPGH0_SX114\nMPGH0_SX204\nMPGH0_SX24\nMPGH0_SX294\nMPGH0_SX384\nMPGR0_SI1410\nMPGR0_SI2040\nMPGR0_SI780\nMPGR0_SX150\nMPGR0_SX240\nMPGR0_SX330\nMPGR0_SX420\nMPGR0_SX60\nMPGR1_SI1269\nMPGR1_SI1499\nMPGR1_SI2129\nMPGR1_SX149\nMPGR1_SX239\nMPGR1_SX329\nMPGR1_SX419\nMPGR1_SX59\nMPMB0_SI1501\nMPMB0_SI2131\nMPMB0_SI871\nMPMB0_SX151\nMPMB0_SX241\nMPMB0_SX331\nMPMB0_SX421\nMPMB0_SX61\nMPPC0_SI1412\nMPPC0_SI2042\nMPPC0_SI782\nMPPC0_SX152\nMPPC0_SX242\nMPPC0_SX332\nMPPC0_SX422\nMPPC0_SX62\nMPRB0_SI1205\nMPRB0_SI1215\nMPRB0_SI575\nMPRB0_SX125\nMPRB0_SX215\nMPRB0_SX305\nMPRB0_SX35\nMPRB0_SX395\nMPRD0_SI1431\nMPRD0_SI2061\nMPRD0_SI801\nMPRD0_SX171\nMPRD0_SX261\nMPRD0_SX351\nMPRD0_SX441\nMPRD0_SX81\nMPRK0_SI1097\nMPRK0_SI1727\nMPRK0_SI467\nMPRK0_SX107\nMPRK0_SX17\nMPRK0_SX197\nMPRK0_SX287\nMPRK0_SX377\nMPRT0_SI1210\nMPRT0_SI495\nMPRT0_SI580\nMPRT0_SX130\nMPRT0_SX220\nMPRT0_SX310\nMPRT0_SX40\nMPRT0_SX400\nMPSW0_SI1067\nMPSW0_SI1697\nMPSW0_SI2327\nMPSW0_SX167\nMPSW0_SX24\nMPSW0_SX257\nMPSW0_SX437\nMPSW0_SX77\nMRAB0_SI1224\nMRAB0_SI1854\nMRAB0_SI594\nMRAB0_SX144\nMRAB0_SX234\nMRAB0_SX324\nMRAB0_SX414\nMRAB0_SX54\nMRAB1_SI1478\nMRAB1_SI2108\nMRAB1_SI848\nMRAB1_SX128\nMRAB1_SX218\nMRAB1_SX308\nMRAB1_SX38\nMRAB1_SX398\nMRAI0_SI1954\nMRAI0_SI2052\nMRAI0_SI792\nMRAI0_SX162\nMRAI0_SX252\nMRAI0_SX342\nMRAI0_SX432\nMRAI0_SX72\nMRAM0_SI1275\nMRAM0_SI1905\nMRAM0_SI1951\nMRAM0_SX105\nMRAM0_SX15\nMRAM0_SX195\nMRAM0_SX285\nMRAM0_SX375\nMRAV0_SI1008\nMRAV0_SI1638\nMRAV0_SI2268\nMRAV0_SX108\nMRAV0_SX18\nMRAV0_SX198\nMRAV0_SX288\nMRAV0_SX378\nMRBC0_SI1665\nMRBC0_SI1859\nMRBC0_SI599\nMRBC0_SX149\nMRBC0_SX239\nMRBC0_SX329\nMRBC0_SX419\nMRBC0_SX59\nMRCG0_SI1428\nMRCG0_SI2058\nMRCG0_SI798\nMRCG0_SX168\nMRCG0_SX258\nMRCG0_SX348\nMRCG0_SX438\nMRCG0_SX78\nMRCW0_SI1371\nMRCW0_SI2001\nMRCW0_SI741\nMRCW0_SX111\nMRCW0_SX201\nMRCW0_SX21\nMRCW0_SX291\nMRCW0_SX381\nMRDD0_SI1050\nMRDD0_SI1680\nMRDD0_SI2310\nMRDD0_SX150\nMRDD0_SX240\nMRDD0_SX277\nMRDD0_SX330\nMRDD0_SX60\nMRDM0_SI1044\nMRDM0_SI1595\nMRDM0_SI965\nMRDM0_SX155\nMRDM0_SX245\nMRDM0_SX335\nMRDM0_SX425\nMRDM0_SX65\nMRDS0_SI1167\nMRDS0_SI1797\nMRDS0_SI537\nMRDS0_SX177\nMRDS0_SX267\nMRDS0_SX357\nMRDS0_SX447\nMRDS0_SX87\nMREE0_SI1104\nMREE0_SI1734\nMREE0_SI1959\nMREE0_SX114\nMREE0_SX204\nMREE0_SX24\nMREE0_SX294\nMREE0_SX384\nMREH1_SI1599\nMREH1_SI2229\nMREH1_SI969\nMREH1_SX159\nMREH1_SX249\nMREH1_SX339\nMREH1_SX429\nMREH1_SX69\nMREM0_SI1591\nMREM0_SI511\nMREM0_SI961\nMREM0_SX151\nMREM0_SX241\nMREM0_SX331\nMREM0_SX421\nMREM0_SX61\nMREW1_SI1500\nMREW1_SI2130\nMREW1_SI870\nMREW1_SX150\nMREW1_SX240\nMREW1_SX330\nMREW1_SX420\nMREW1_SX60\nMRFK0_SI1076\nMRFK0_SI1706\nMRFK0_SI2336\nMRFK0_SX176\nMRFK0_SX266\nMRFK0_SX356\nMRFK0_SX446\nMRFK0_SX86\nMRFL0_SI1156\nMRFL0_SI1786\nMRFL0_SI526\nMRFL0_SX166\nMRFL0_SX256\nMRFL0_SX346\nMRFL0_SX436\nMRFL0_SX76\nMRGM0_SI1162\nMRGM0_SI1792\nMRGM0_SI532\nMRGM0_SX172\nMRGM0_SX262\nMRGM0_SX416\nMRGM0_SX442\nMRGM0_SX82\nMRGS0_SI1356\nMRGS0_SI1986\nMRGS0_SI726\nMRGS0_SX186\nMRGS0_SX276\nMRGS0_SX366\nMRGS0_SX6\nMRGS0_SX96\nMRHL0_SI1515\nMRHL0_SI2145\nMRHL0_SI885\nMRHL0_SX165\nMRHL0_SX255\nMRHL0_SX345\nMRHL0_SX435\nMRHL0_SX75\nMRJB1_SI1020\nMRJB1_SI1413\nMRJB1_SI2021\nMRJB1_SX120\nMRJB1_SX210\nMRJB1_SX30\nMRJB1_SX300\nMRJB1_SX390\nMRJH0_SI1519\nMRJH0_SI889\nMRJH0_SI914\nMRJH0_SX169\nMRJH0_SX259\nMRJH0_SX307\nMRJH0_SX439\nMRJH0_SX79\nMRJM0_SI1095\nMRJM0_SI1228\nMRJM0_SI1858\nMRJM0_SX148\nMRJM0_SX238\nMRJM0_SX328\nMRJM0_SX418\nMRJM0_SX58\nMRJM1_SI1298\nMRJM1_SI1928\nMRJM1_SI668\nMRJM1_SX128\nMRJM1_SX218\nMRJM1_SX308\nMRJM1_SX38\nMRJM1_SX398\nMRJT0_SI1498\nMRJT0_SI1805\nMRJT0_SI868\nMRJT0_SX148\nMRJT0_SX238\nMRJT0_SX328\nMRJT0_SX418\nMRJT0_SX58\nMRKM0_SI1267\nMRKM0_SI1391\nMRKM0_SI637\nMRKM0_SX187\nMRKM0_SX277\nMRKM0_SX367\nMRKM0_SX7\nMRKM0_SX97\nMRLD0_SI1594\nMRLD0_SI2224\nMRLD0_SI964\nMRLD0_SX154\nMRLD0_SX244\nMRLD0_SX334\nMRLD0_SX424\nMRLD0_SX64\nMRLJ0_SI1420\nMRLJ0_SI2050\nMRLJ0_SI790\nMRLJ0_SX160\nMRLJ0_SX250\nMRLJ0_SX340\nMRLJ0_SX430\nMRLJ0_SX70\nMRLJ1_SI1671\nMRLJ1_SI2301\nMRLJ1_SI2332\nMRLJ1_SX141\nMRLJ1_SX231\nMRLJ1_SX321\nMRLJ1_SX411\nMRLJ1_SX51\nMRLK0_SI1468\nMRLK0_SI2140\nMRLK0_SI843\nMRLK0_SX123\nMRLK0_SX213\nMRLK0_SX303\nMRLK0_SX33\nMRLK0_SX393\nMRLR0_SI1196\nMRLR0_SI1826\nMRLR0_SI566\nMRLR0_SX116\nMRLR0_SX206\nMRLR0_SX26\nMRLR0_SX296\nMRLR0_SX386\nMRMB0_SI1581\nMRMB0_SI2211\nMRMB0_SI951\nMRMB0_SX141\nMRMB0_SX231\nMRMB0_SX321\nMRMB0_SX411\nMRMB0_SX51\nMRMG0_SI1080\nMRMG0_SI1710\nMRMG0_SI2340\nMRMG0_SX180\nMRMG0_SX270\nMRMG0_SX360\nMRMG0_SX450\nMRMG0_SX90\nMRMH0_SI1021\nMRMH0_SI1349\nMRMH0_SI2281\nMRMH0_SX121\nMRMH0_SX211\nMRMH0_SX301\nMRMH0_SX31\nMRMH0_SX391\nMRML0_SI1421\nMRML0_SI2051\nMRML0_SI791\nMRML0_SX161\nMRML0_SX251\nMRML0_SX341\nMRML0_SX431\nMRML0_SX71\nMRMS0_SI1113\nMRMS0_SI2057\nMRMS0_SI2100\nMRMS0_SX120\nMRMS0_SX210\nMRMS0_SX30\nMRMS0_SX300\nMRMS0_SX390\nMRPC1_SI1482\nMRPC1_SI2026\nMRPC1_SI2112\nMRPC1_SX132\nMRPC1_SX222\nMRPC1_SX312\nMRPC1_SX402\nMRPC1_SX42\nMRRE0_SI1334\nMRRE0_SI704\nMRRE0_SI952\nMRRE0_SX164\nMRRE0_SX254\nMRRE0_SX344\nMRRE0_SX434\nMRRE0_SX74\nMRSO0_SI1206\nMRSO0_SI1659\nMRSO0_SI2289\nMRSO0_SX129\nMRSO0_SX219\nMRSO0_SX309\nMRSO0_SX39\nMRSO0_SX399\nMRSP0_SI1429\nMRSP0_SI2059\nMRSP0_SI799\nMRSP0_SX169\nMRSP0_SX196\nMRSP0_SX259\nMRSP0_SX439\nMRSP0_SX79\nMRTC0_SI1458\nMRTC0_SI2088\nMRTC0_SI828\nMRTC0_SX108\nMRTC0_SX18\nMRTC0_SX198\nMRTC0_SX288\nMRTC0_SX378\nMRTJ0_SI1551\nMRTJ0_SI2032\nMRTJ0_SI772\nMRTJ0_SX142\nMRTJ0_SX232\nMRTJ0_SX322\nMRTJ0_SX412\nMRTJ0_SX52\nMRVG0_SI1140\nMRVG0_SI1770\nMRVG0_SI510\nMRVG0_SX150\nMRVG0_SX240\nMRVG0_SX330\nMRVG0_SX420\nMRVG0_SX60\nMRWA0_SI1603\nMRWA0_SI2233\nMRWA0_SI973\nMRWA0_SX163\nMRWA0_SX253\nMRWA0_SX343\nMRWA0_SX433\nMRWA0_SX73\nMRWS0_SI1102\nMRWS0_SI1732\nMRWS0_SI472\nMRWS0_SX112\nMRWS0_SX202\nMRWS0_SX22\nMRWS0_SX292\nMRWS0_SX382\nMRXB0_SI1585\nMRXB0_SI2215\nMRXB0_SI955\nMRXB0_SX145\nMRXB0_SX235\nMRXB0_SX325\nMRXB0_SX415\nMRXB0_SX55\nMSAH1_SI1049\nMSAH1_SI1679\nMSAH1_SI2309\nMSAH1_SX149\nMSAH1_SX239\nMSAH1_SX329\nMSAH1_SX419\nMSAH1_SX59\nMSAS0_SI1376\nMSAS0_SI2006\nMSAS0_SI746\nMSAS0_SX116\nMSAS0_SX206\nMSAS0_SX26\nMSAS0_SX296\nMSAS0_SX386\nMSAT0_SI1526\nMSAT0_SI2156\nMSAT0_SI896\nMSAT0_SX176\nMSAT0_SX266\nMSAT0_SX356\nMSAT0_SX446\nMSAT0_SX86\nMSAT1_SI1073\nMSAT1_SI1703\nMSAT1_SI2333\nMSAT1_SX173\nMSAT1_SX263\nMSAT1_SX353\nMSAT1_SX443\nMSAT1_SX83\nMSDB0_SI1007\nMSDB0_SI1637\nMSDB0_SI2267\nMSDB0_SX107\nMSDB0_SX17\nMSDB0_SX197\nMSDB0_SX287\nMSDB0_SX377\nMSDH0_SI2113\nMSDH0_SI2240\nMSDH0_SI980\nMSDH0_SX170\nMSDH0_SX260\nMSDH0_SX350\nMSDH0_SX440\nMSDH0_SX80\nMSDS0_SI1077\nMSDS0_SI1707\nMSDS0_SI2337\nMSDS0_SX177\nMSDS0_SX267\nMSDS0_SX357\nMSDS0_SX447\nMSDS0_SX87\nMSEM1_SI1440\nMSEM1_SI2070\nMSEM1_SI810\nMSEM1_SX180\nMSEM1_SX270\nMSEM1_SX360\nMSEM1_SX450\nMSEM1_SX90\nMSES0_SI1589\nMSES0_SI2216\nMSES0_SI2219\nMSES0_SX149\nMSES0_SX239\nMSES0_SX329\nMSES0_SX419\nMSES0_SX59\nMSFH0_SI1216\nMSFH0_SI1738\nMSFH0_SI586\nMSFH0_SX136\nMSFH0_SX226\nMSFH0_SX316\nMSFH0_SX406\nMSFH0_SX46\nMSFV0_SI1262\nMSFV0_SI1892\nMSFV0_SI632\nMSFV0_SX182\nMSFV0_SX272\nMSFV0_SX362\nMSFV0_SX452\nMSFV0_SX92\nMSJK0_SI1596\nMSJK0_SI2226\nMSJK0_SI966\nMSJK0_SX156\nMSJK0_SX246\nMSJK0_SX336\nMSJK0_SX426\nMSJK0_SX66\nMSMC0_SI1907\nMSMC0_SI509\nMSMC0_SI647\nMSMC0_SX107\nMSMC0_SX17\nMSMC0_SX197\nMSMC0_SX287\nMSMC0_SX377\nMSMR0_SI1150\nMSMR0_SI1405\nMSMR0_SI775\nMSMR0_SX145\nMSMR0_SX235\nMSMR0_SX325\nMSMR0_SX415\nMSMR0_SX55\nMSMS0_SI1433\nMSMS0_SI2063\nMSMS0_SI803\nMSMS0_SX173\nMSMS0_SX263\nMSMS0_SX353\nMSMS0_SX443\nMSMS0_SX83\nMSRG0_SI1221\nMSRG0_SI1851\nMSRG0_SI591\nMSRG0_SX141\nMSRG0_SX231\nMSRG0_SX321\nMSRG0_SX411\nMSRG0_SX51\nMSRR0_SI1131\nMSRR0_SI1761\nMSRR0_SI501\nMSRR0_SX141\nMSRR0_SX231\nMSRR0_SX30\nMSRR0_SX411\nMSRR0_SX51\nMSTF0_SI1396\nMSTF0_SI766\nMSTF0_SI852\nMSTF0_SX136\nMSTF0_SX226\nMSTF0_SX316\nMSTF0_SX406\nMSTF0_SX46\nMSVS0_SI1568\nMSVS0_SI2198\nMSVS0_SI938\nMSVS0_SX128\nMSVS0_SX218\nMSVS0_SX308\nMSVS0_SX38\nMSVS0_SX398\nMTAB0_SI1572\nMTAB0_SI2202\nMTAB0_SI942\nMTAB0_SX132\nMTAB0_SX222\nMTAB0_SX312\nMTAB0_SX402\nMTAB0_SX42\nMTAS0_SI1385\nMTAS0_SI2015\nMTAS0_SI755\nMTAS0_SX125\nMTAS0_SX215\nMTAS0_SX305\nMTAS0_SX35\nMTAS0_SX395\nMTAT0_SI1110\nMTAT0_SI1740\nMTAT0_SI811\nMTAT0_SX120\nMTAT0_SX210\nMTAT0_SX30\nMTAT0_SX300\nMTAT0_SX390\nMTAT1_SI1409\nMTAT1_SI1627\nMTAT1_SI779\nMTAT1_SX149\nMTAT1_SX239\nMTAT1_SX329\nMTAT1_SX419\nMTAT1_SX59\nMTBC0_SI1173\nMTBC0_SI1803\nMTBC0_SI543\nMTBC0_SX183\nMTBC0_SX273\nMTBC0_SX347\nMTBC0_SX363\nMTBC0_SX93\nMTCS0_SI1972\nMTCS0_SI2265\nMTCS0_SI712\nMTCS0_SX172\nMTCS0_SX262\nMTCS0_SX352\nMTCS0_SX442\nMTCS0_SX82\nMTDB0_SI1401\nMTDB0_SI2031\nMTDB0_SI771\nMTDB0_SX141\nMTDB0_SX231\nMTDB0_SX321\nMTDB0_SX411\nMTDB0_SX51\nMTDP0_SI1274\nMTDP0_SI1521\nMTDP0_SI2151\nMTDP0_SX171\nMTDP0_SX261\nMTDP0_SX351\nMTDP0_SX441\nMTDP0_SX81\nMTER0_SI1157\nMTER0_SI1787\nMTER0_SI527\nMTER0_SX167\nMTER0_SX17\nMTER0_SX257\nMTER0_SX437\nMTER0_SX77\nMTJG0_SI1520\nMTJG0_SI2157\nMTJG0_SI890\nMTJG0_SX170\nMTJG0_SX260\nMTJG0_SX350\nMTJG0_SX440\nMTJG0_SX80\nMTJM0_SI1226\nMTJM0_SI1856\nMTJM0_SI655\nMTJM0_SX146\nMTJM0_SX236\nMTJM0_SX326\nMTJM0_SX416\nMTJM0_SX56\nMTJS0_SI1192\nMTJS0_SI1822\nMTJS0_SI562\nMTJS0_SX112\nMTJS0_SX202\nMTJS0_SX22\nMTJS0_SX292\nMTJS0_SX382\nMTJU0_SI2020\nMTJU0_SI2269\nMTJU0_SI760\nMTJU0_SX130\nMTJU0_SX220\nMTJU0_SX310\nMTJU0_SX40\nMTJU0_SX400\nMTKD0_SI1187\nMTKD0_SI1817\nMTKD0_SI630\nMTKD0_SX107\nMTKD0_SX17\nMTKD0_SX197\nMTKD0_SX287\nMTKD0_SX377\nMTKP0_SI1023\nMTKP0_SI2283\nMTKP0_SI454\nMTKP0_SX123\nMTKP0_SX213\nMTKP0_SX303\nMTKP0_SX33\nMTKP0_SX393\nMTLB0_SI1134\nMTLB0_SI1764\nMTLB0_SI504\nMTLB0_SX144\nMTLB0_SX234\nMTLB0_SX324\nMTLB0_SX414\nMTLB0_SX54\nMTLC0_SI1313\nMTLC0_SI1477\nMTLC0_SI847\nMTLC0_SX127\nMTLC0_SX217\nMTLC0_SX307\nMTLC0_SX37\nMTLC0_SX397\nMTML0_SI1065\nMTML0_SI1695\nMTML0_SI2325\nMTML0_SX165\nMTML0_SX255\nMTML0_SX345\nMTML0_SX435\nMTML0_SX75\nMTMN0_SI1064\nMTMN0_SI2324\nMTMN0_SI582\nMTMN0_SX164\nMTMN0_SX254\nMTMN0_SX344\nMTMN0_SX434\nMTMN0_SX74\nMTMT0_SI1118\nMTMT0_SI1748\nMTMT0_SI488\nMTMT0_SX128\nMTMT0_SX218\nMTMT0_SX308\nMTMT0_SX38\nMTMT0_SX398\nMTPF0_SI1235\nMTPF0_SI1865\nMTPF0_SI605\nMTPF0_SX155\nMTPF0_SX245\nMTPF0_SX335\nMTPF0_SX425\nMTPF0_SX65\nMTPG0_SI1383\nMTPG0_SI2013\nMTPG0_SI753\nMTPG0_SX123\nMTPG0_SX213\nMTPG0_SX303\nMTPG0_SX33\nMTPG0_SX393\nMTPP0_SI1508\nMTPP0_SI2138\nMTPP0_SI878\nMTPP0_SX158\nMTPP0_SX248\nMTPP0_SX338\nMTPP0_SX428\nMTPP0_SX68\nMTPR0_SI1600\nMTPR0_SI2230\nMTPR0_SI506\nMTPR0_SX160\nMTPR0_SX250\nMTPR0_SX340\nMTPR0_SX430\nMTPR0_SX70\nMTQC0_SI1441\nMTQC0_SI2071\nMTQC0_SI480\nMTQC0_SX181\nMTQC0_SX271\nMTQC0_SX361\nMTQC0_SX451\nMTQC0_SX91\nMTRC0_SI1623\nMTRC0_SI589\nMTRC0_SI993\nMTRC0_SX170\nMTRC0_SX183\nMTRC0_SX273\nMTRC0_SX363\nMTRC0_SX93\nMTRR0_SI1548\nMTRR0_SI2178\nMTRR0_SI918\nMTRR0_SX108\nMTRR0_SX18\nMTRR0_SX198\nMTRR0_SX288\nMTRR0_SX378\nMTRT0_SI1227\nMTRT0_SI1857\nMTRT0_SI597\nMTRT0_SX147\nMTRT0_SX237\nMTRT0_SX254\nMTRT0_SX417\nMTRT0_SX57\nMTWH1_SI1512\nMTWH1_SI2142\nMTWH1_SI882\nMTWH1_SX162\nMTWH1_SX252\nMTWH1_SX342\nMTWH1_SX432\nMTWH1_SX72\nMTXS0_SI1060\nMTXS0_SI1690\nMTXS0_SI2320\nMTXS0_SX160\nMTXS0_SX250\nMTXS0_SX340\nMTXS0_SX430\nMTXS0_SX70\nMVJH0_SI1556\nMVJH0_SI2186\nMVJH0_SI926\nMVJH0_SX116\nMVJH0_SX206\nMVJH0_SX26\nMVJH0_SX296\nMVJH0_SX386\nMVLO0_SI1147\nMVLO0_SI1777\nMVLO0_SI517\nMVLO0_SX157\nMVLO0_SX247\nMVLO0_SX337\nMVLO0_SX427\nMVLO0_SX67\nMVRW0_SI1485\nMVRW0_SI2115\nMVRW0_SI855\nMVRW0_SX135\nMVRW0_SX225\nMVRW0_SX315\nMVRW0_SX405\nMVRW0_SX45\nMWAC0_SI1601\nMWAC0_SI2231\nMWAC0_SI971\nMWAC0_SX161\nMWAC0_SX251\nMWAC0_SX341\nMWAC0_SX431\nMWAC0_SX71\nMWAD0_SI1062\nMWAD0_SI1749\nMWAD0_SI2322\nMWAD0_SX162\nMWAD0_SX252\nMWAD0_SX342\nMWAD0_SX432\nMWAD0_SX72\nMWAR0_SI1045\nMWAR0_SI1675\nMWAR0_SI2305\nMWAR0_SX145\nMWAR0_SX235\nMWAR0_SX325\nMWAR0_SX415\nMWAR0_SX55\nMWCH0_SI1622\nMWCH0_SI1895\nMWCH0_SI2252\nMWCH0_SX182\nMWCH0_SX272\nMWCH0_SX362\nMWCH0_SX452\nMWCH0_SX92\nMWDK0_SI1436\nMWDK0_SI2017\nMWDK0_SI806\nMWDK0_SX176\nMWDK0_SX266\nMWDK0_SX356\nMWDK0_SX446\nMWDK0_SX86\nMWEM0_SI1320\nMWEM0_SI1393\nMWEM0_SI1950\nMWEM0_SX150\nMWEM0_SX240\nMWEM0_SX330\nMWEM0_SX420\nMWEM0_SX60\nMWGR0_SI1606\nMWGR0_SI2236\nMWGR0_SI976\nMWGR0_SX166\nMWGR0_SX256\nMWGR0_SX346\nMWGR0_SX436\nMWGR0_SX76\nMWRE0_SI1057\nMWRE0_SI1687\nMWRE0_SI2317\nMWRE0_SX157\nMWRE0_SX247\nMWRE0_SX337\nMWRE0_SX427\nMWRE0_SX67\nMWRP0_SI1443\nMWRP0_SI1525\nMWRP0_SI2073\nMWRP0_SX183\nMWRP0_SX273\nMWRP0_SX3\nMWRP0_SX363\nMWRP0_SX93\nMWSB0_SI1626\nMWSB0_SI2256\nMWSB0_SI996\nMWSB0_SX186\nMWSB0_SX276\nMWSB0_SX366\nMWSB0_SX6\nMWSB0_SX96\nMWSH0_SI1426\nMWSH0_SI2266\nMWSH0_SI796\nMWSH0_SX166\nMWSH0_SX256\nMWSH0_SX346\nMWSH0_SX436\nMWSH0_SX76\nMZMB0_SI1166\nMZMB0_SI1796\nMZMB0_SI536\nMZMB0_SX176\nMZMB0_SX266\nMZMB0_SX356\nMZMB0_SX446\nMZMB0_SX86\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/config/timit_matched/valid.uid",
    "content": "FADG0_SI1279\nFADG0_SI1909\nFADG0_SI649\nFADG0_SX109\nFADG0_SX19\nFADG0_SX199\nFADG0_SX289\nFADG0_SX379\nFAKS0_SI1573\nFAKS0_SI2203\nFAKS0_SI943\nFAKS0_SX133\nFAKS0_SX223\nFAKS0_SX313\nFAKS0_SX403\nFAKS0_SX43\nFCAL1_SI1403\nFCAL1_SI2033\nFCAL1_SI773\nFCAL1_SX143\nFCAL1_SX233\nFCAL1_SX323\nFCAL1_SX413\nFCAL1_SX53\nFCMH0_SI1454\nFCMH0_SI2084\nFCMH0_SI824\nFCMH0_SX104\nFCMH0_SX14\nFCMH0_SX194\nFCMH0_SX284\nFCMH0_SX374\nFDAC1_SI1474\nFDAC1_SI2104\nFDAC1_SI844\nFDAC1_SX124\nFDAC1_SX214\nFDAC1_SX304\nFDAC1_SX34\nFDAC1_SX394\nFDMS0_SI1218\nFDMS0_SI1502\nFDMS0_SI1848\nFDMS0_SX138\nFDMS0_SX228\nFDMS0_SX318\nFDMS0_SX408\nFDMS0_SX48\nFDRW0_SI1283\nFDRW0_SI1423\nFDRW0_SI653\nFDRW0_SX113\nFDRW0_SX203\nFDRW0_SX23\nFDRW0_SX293\nFDRW0_SX383\nFEDW0_SI1084\nFEDW0_SI1653\nFEDW0_SI1714\nFEDW0_SX184\nFEDW0_SX274\nFEDW0_SX364\nFEDW0_SX4\nFEDW0_SX94\nFGJD0_SI1179\nFGJD0_SI549\nFGJD0_SI818\nFGJD0_SX189\nFGJD0_SX279\nFGJD0_SX369\nFGJD0_SX9\nFGJD0_SX99\nFJEM0_SI1264\nFJEM0_SI1894\nFJEM0_SI634\nFJEM0_SX184\nFJEM0_SX274\nFJEM0_SX364\nFJEM0_SX4\nFJEM0_SX94\nFJMG0_SI1181\nFJMG0_SI1811\nFJMG0_SI551\nFJMG0_SX101\nFJMG0_SX11\nFJMG0_SX191\nFJMG0_SX281\nFJMG0_SX371\nFJSJ0_SI1484\nFJSJ0_SI2114\nFJSJ0_SI854\nFJSJ0_SX134\nFJSJ0_SX224\nFJSJ0_SX314\nFJSJ0_SX404\nFJSJ0_SX44\nFKMS0_SI1490\nFKMS0_SI2120\nFKMS0_SI860\nFKMS0_SX140\nFKMS0_SX230\nFKMS0_SX320\nFKMS0_SX410\nFKMS0_SX50\nFMAH0_SI1289\nFMAH0_SI1919\nFMAH0_SI659\nFMAH0_SX119\nFMAH0_SX209\nFMAH0_SX29\nFMAH0_SX299\nFMAH0_SX389\nFMML0_SI1040\nFMML0_SI1670\nFMML0_SI2300\nFMML0_SX140\nFMML0_SX230\nFMML0_SX320\nFMML0_SX410\nFMML0_SX50\nFNMR0_SI1399\nFNMR0_SI2029\nFNMR0_SI769\nFNMR0_SX139\nFNMR0_SX229\nFNMR0_SX319\nFNMR0_SX409\nFNMR0_SX49\nFREW0_SI1030\nFREW0_SI1280\nFREW0_SI1910\nFREW0_SX110\nFREW0_SX20\nFREW0_SX200\nFREW0_SX290\nFREW0_SX380\nFSEM0_SI1198\nFSEM0_SI1828\nFSEM0_SI568\nFSEM0_SX118\nFSEM0_SX208\nFSEM0_SX28\nFSEM0_SX298\nFSEM0_SX388\nMAJC0_SI1946\nMAJC0_SI2095\nMAJC0_SI835\nMAJC0_SX115\nMAJC0_SX205\nMAJC0_SX25\nMAJC0_SX295\nMAJC0_SX385\nMBDG0_SI1463\nMBDG0_SI2093\nMBDG0_SI833\nMBDG0_SX113\nMBDG0_SX203\nMBDG0_SX23\nMBDG0_SX293\nMBDG0_SX383\nMBNS0_SI1220\nMBNS0_SI1850\nMBNS0_SI590\nMBNS0_SX140\nMBNS0_SX230\nMBNS0_SX320\nMBNS0_SX410\nMBNS0_SX50\nMBWM0_SI1304\nMBWM0_SI1934\nMBWM0_SI674\nMBWM0_SX134\nMBWM0_SX224\nMBWM0_SX314\nMBWM0_SX404\nMBWM0_SX44\nMCSH0_SI1549\nMCSH0_SI2179\nMCSH0_SI919\nMCSH0_SX109\nMCSH0_SX19\nMCSH0_SX199\nMCSH0_SX289\nMCSH0_SX379\nMDLF0_SI1583\nMDLF0_SI2213\nMDLF0_SI953\nMDLF0_SX143\nMDLF0_SX233\nMDLF0_SX323\nMDLF0_SX413\nMDLF0_SX53\nMDLS0_SI1628\nMDLS0_SI2258\nMDLS0_SI998\nMDLS0_SX188\nMDLS0_SX278\nMDLS0_SX368\nMDLS0_SX8\nMDLS0_SX98\nMDVC0_SI2174\nMDVC0_SI2196\nMDVC0_SI936\nMDVC0_SX126\nMDVC0_SX216\nMDVC0_SX306\nMDVC0_SX36\nMDVC0_SX396\nMERS0_SI1019\nMERS0_SI1649\nMERS0_SI497\nMERS0_SX119\nMERS0_SX209\nMERS0_SX29\nMERS0_SX299\nMERS0_SX389\nMGJF0_SI1901\nMGJF0_SI641\nMGJF0_SI776\nMGJF0_SX101\nMGJF0_SX11\nMGJF0_SX191\nMGJF0_SX281\nMGJF0_SX371\nMGLB0_SI1534\nMGLB0_SI2164\nMGLB0_SI904\nMGLB0_SX184\nMGLB0_SX274\nMGLB0_SX364\nMGLB0_SX4\nMGLB0_SX94\nMGWT0_SI1539\nMGWT0_SI2169\nMGWT0_SI909\nMGWT0_SX189\nMGWT0_SX279\nMGWT0_SX369\nMGWT0_SX9\nMGWT0_SX99\nMJAR0_SI1988\nMJAR0_SI2247\nMJAR0_SI728\nMJAR0_SX188\nMJAR0_SX278\nMJAR0_SX368\nMJAR0_SX8\nMJAR0_SX98\nMJFC0_SI1033\nMJFC0_SI1663\nMJFC0_SI2293\nMJFC0_SX133\nMJFC0_SX223\nMJFC0_SX313\nMJFC0_SX403\nMJFC0_SX43\nMJSW0_SI1010\nMJSW0_SI1640\nMJSW0_SI2270\nMJSW0_SX110\nMJSW0_SX20\nMJSW0_SX200\nMJSW0_SX290\nMJSW0_SX380\nMMDB1_SI1625\nMMDB1_SI2255\nMMDB1_SI995\nMMDB1_SX185\nMMDB1_SX275\nMMDB1_SX365\nMMDB1_SX5\nMMDB1_SX95\nMMDM2_SI1452\nMMDM2_SI1555\nMMDM2_SI2082\nMMDM2_SX102\nMMDM2_SX12\nMMDM2_SX192\nMMDM2_SX282\nMMDM2_SX372\nMMJR0_SI1648\nMMJR0_SI2166\nMMJR0_SI2278\nMMJR0_SX118\nMMJR0_SX208\nMMJR0_SX28\nMMJR0_SX298\nMMJR0_SX388\nMMWH0_SI1089\nMMWH0_SI1301\nMMWH0_SI459\nMMWH0_SX189\nMMWH0_SX279\nMMWH0_SX369\nMMWH0_SX9\nMMWH0_SX99\nMPDF0_SI1542\nMPDF0_SI2172\nMPDF0_SI912\nMPDF0_SX102\nMPDF0_SX12\nMPDF0_SX192\nMPDF0_SX282\nMPDF0_SX372\nMRCS0_SI1223\nMRCS0_SI1853\nMRCS0_SI593\nMRCS0_SX143\nMRCS0_SX233\nMRCS0_SX323\nMRCS0_SX413\nMRCS0_SX53\nMREB0_SI1375\nMREB0_SI2005\nMREB0_SI745\nMREB0_SX115\nMREB0_SX205\nMREB0_SX25\nMREB0_SX295\nMREB0_SX385\nMRJM4_SI1489\nMRJM4_SI2119\nMRJM4_SI859\nMRJM4_SX139\nMRJM4_SX229\nMRJM4_SX319\nMRJM4_SX409\nMRJM4_SX49\nMRJR0_SI1182\nMRJR0_SI1812\nMRJR0_SI2313\nMRJR0_SX102\nMRJR0_SX12\nMRJR0_SX192\nMRJR0_SX282\nMRJR0_SX372\nMROA0_SI1307\nMROA0_SI1970\nMROA0_SI677\nMROA0_SX137\nMROA0_SX227\nMROA0_SX317\nMROA0_SX407\nMROA0_SX47\nMRTK0_SI1093\nMRTK0_SI1723\nMRTK0_SI1750\nMRTK0_SX103\nMRTK0_SX13\nMRTK0_SX193\nMRTK0_SX283\nMRTK0_SX373\nMRWS1_SI1130\nMRWS1_SI1496\nMRWS1_SI500\nMRWS1_SX140\nMRWS1_SX230\nMRWS1_SX320\nMRWS1_SX410\nMRWS1_SX50\nMTAA0_SI1285\nMTAA0_SI1915\nMTAA0_SI596\nMTAA0_SX115\nMTAA0_SX205\nMTAA0_SX25\nMTAA0_SX295\nMTAA0_SX385\nMTDT0_SI1994\nMTDT0_SI2254\nMTDT0_SI994\nMTDT0_SX184\nMTDT0_SX274\nMTDT0_SX364\nMTDT0_SX4\nMTDT0_SX94\nMTEB0_SI1133\nMTEB0_SI2064\nMTEB0_SI503\nMTEB0_SX143\nMTEB0_SX233\nMTEB0_SX323\nMTEB0_SX413\nMTEB0_SX53\nMTHC0_SI1015\nMTHC0_SI1645\nMTHC0_SI2275\nMTHC0_SX115\nMTHC0_SX205\nMTHC0_SX25\nMTHC0_SX295\nMTHC0_SX385\nMWJG0_SI1124\nMWJG0_SI1754\nMWJG0_SI494\nMWJG0_SX134\nMWJG0_SX224\nMWJG0_SX314\nMWJG0_SX404\nMWJG0_SX44\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/config/timit_unmatched/test.uid",
    "content": "FADG0_SA1\nFADG0_SA2\nFADG0_SI1279\nFADG0_SI1909\nFADG0_SI649\nFADG0_SX109\nFADG0_SX19\nFADG0_SX199\nFADG0_SX289\nFADG0_SX379\nFAKS0_SA1\nFAKS0_SA2\nFAKS0_SI1573\nFAKS0_SI2203\nFAKS0_SI943\nFAKS0_SX133\nFAKS0_SX223\nFAKS0_SX313\nFAKS0_SX403\nFAKS0_SX43\nFASW0_SA1\nFASW0_SA2\nFASW0_SI1550\nFASW0_SI2180\nFASW0_SI920\nFASW0_SX110\nFASW0_SX20\nFASW0_SX200\nFASW0_SX290\nFASW0_SX380\nFAWF0_SA1\nFAWF0_SA2\nFAWF0_SI1000\nFAWF0_SI1630\nFAWF0_SI2260\nFAWF0_SX10\nFAWF0_SX100\nFAWF0_SX190\nFAWF0_SX280\nFAWF0_SX370\nFCAL1_SA1\nFCAL1_SA2\nFCAL1_SI1403\nFCAL1_SI2033\nFCAL1_SI773\nFCAL1_SX143\nFCAL1_SX233\nFCAL1_SX323\nFCAL1_SX413\nFCAL1_SX53\nFCAU0_SA1\nFCAU0_SA2\nFCAU0_SI1037\nFCAU0_SI1667\nFCAU0_SI2297\nFCAU0_SX137\nFCAU0_SX227\nFCAU0_SX317\nFCAU0_SX407\nFCAU0_SX47\nFCFT0_SA1\nFCFT0_SA2\nFCFT0_SI1178\nFCFT0_SI1808\nFCFT0_SI548\nFCFT0_SX188\nFCFT0_SX278\nFCFT0_SX368\nFCFT0_SX8\nFCFT0_SX98\nFCMH0_SA1\nFCMH0_SA2\nFCMH0_SI1454\nFCMH0_SI2084\nFCMH0_SI824\nFCMH0_SX104\nFCMH0_SX14\nFCMH0_SX194\nFCMH0_SX284\nFCMH0_SX374\nFCMH1_SA1\nFCMH1_SA2\nFCMH1_SI1493\nFCMH1_SI2123\nFCMH1_SI863\nFCMH1_SX143\nFCMH1_SX233\nFCMH1_SX323\nFCMH1_SX413\nFCMH1_SX53\nFCMR0_SA1\nFCMR0_SA2\nFCMR0_SI1105\nFCMR0_SI1735\nFCMR0_SI475\nFCMR0_SX115\nFCMR0_SX205\nFCMR0_SX25\nFCMR0_SX295\nFCMR0_SX385\nFCRH0_SA1\nFCRH0_SA2\nFCRH0_SI1088\nFCRH0_SI1718\nFCRH0_SI458\nFCRH0_SX188\nFCRH0_SX278\nFCRH0_SX368\nFCRH0_SX8\nFCRH0_SX98\nFDAC1_SA1\nFDAC1_SA2\nFDAC1_SI1474\nFDAC1_SI2104\nFDAC1_SI844\nFDAC1_SX124\nFDAC1_SX214\nFDAC1_SX304\nFDAC1_SX34\nFDAC1_SX394\nFDHC0_SA1\nFDHC0_SA2\nFDHC0_SI1559\nFDHC0_SI2189\nFDHC0_SI929\nFDHC0_SX119\nFDHC0_SX209\nFDHC0_SX29\nFDHC0_SX299\nFDHC0_SX389\nFDMS0_SA1\nFDMS0_SA2\nFDMS0_SI1218\nFDMS0_SI1502\nFDMS0_SI1848\nFDMS0_SX138\nFDMS0_SX228\nFDMS0_SX318\nFDMS0_SX408\nFDMS0_SX48\nFDRD1_SA1\nFDRD1_SA2\nFDRD1_SI1544\nFDRD1_SI1566\nFDRD1_SI2149\nFDRD1_SX104\nFDRD1_SX14\nFDRD1_SX194\nFDRD1_SX284\nFDRD1_SX374\nFDRW0_SA1\nFDRW0_SA2\nFDRW0_SI1283\nFDRW0_SI1423\nFDRW0_SI653\nFDRW0_SX113\nFDRW0_SX203\nFDRW0_SX23\nFDRW0_SX293\nFDRW0_SX383\nFEDW0_SA1\nFEDW0_SA2\nFEDW0_SI1084\nFEDW0_SI1653\nFEDW0_SI1714\nFEDW0_SX184\nFEDW0_SX274\nFEDW0_SX364\nFEDW0_SX4\nFEDW0_SX94\nFELC0_SA1\nFELC0_SA2\nFELC0_SI1386\nFELC0_SI2016\nFELC0_SI756\nFELC0_SX126\nFELC0_SX216\nFELC0_SX306\nFELC0_SX36\nFELC0_SX396\nFGJD0_SA1\nFGJD0_SA2\nFGJD0_SI1179\nFGJD0_SI549\nFGJD0_SI818\nFGJD0_SX189\nFGJD0_SX279\nFGJD0_SX369\nFGJD0_SX9\nFGJD0_SX99\nFGMD0_SA1\nFGMD0_SA2\nFGMD0_SI1943\nFGMD0_SI2107\nFGMD0_SI683\nFGMD0_SX143\nFGMD0_SX233\nFGMD0_SX323\nFGMD0_SX413\nFGMD0_SX53\nFGWR0_SA1\nFGWR0_SA2\nFGWR0_SI1578\nFGWR0_SI2208\nFGWR0_SI948\nFGWR0_SX138\nFGWR0_SX228\nFGWR0_SX318\nFGWR0_SX408\nFGWR0_SX48\nFHES0_SA1\nFHES0_SA2\nFHES0_SI1109\nFHES0_SI1739\nFHES0_SI479\nFHES0_SX119\nFHES0_SX209\nFHES0_SX29\nFHES0_SX299\nFHES0_SX389\nFHEW0_SA1\nFHEW0_SA2\nFHEW0_SI2023\nFHEW0_SI690\nFHEW0_SI763\nFHEW0_SX133\nFHEW0_SX223\nFHEW0_SX313\nFHEW0_SX403\nFHEW0_SX43\nFISB0_SA1\nFISB0_SA2\nFISB0_SI1579\nFISB0_SI2209\nFISB0_SI949\nFISB0_SX139\nFISB0_SX229\nFISB0_SX319\nFISB0_SX409\nFISB0_SX49\nFJAS0_SA1\nFJAS0_SA2\nFJAS0_SI1400\nFJAS0_SI2030\nFJAS0_SI770\nFJAS0_SX140\nFJAS0_SX230\nFJAS0_SX320\nFJAS0_SX410\nFJAS0_SX50\nFJCS0_SA1\nFJCS0_SA2\nFJCS0_SI1309\nFJCS0_SI1833\nFJCS0_SI1939\nFJCS0_SX139\nFJCS0_SX229\nFJCS0_SX319\nFJCS0_SX409\nFJCS0_SX49\nFJEM0_SA1\nFJEM0_SA2\nFJEM0_SI1264\nFJEM0_SI1894\nFJEM0_SI634\nFJEM0_SX184\nFJEM0_SX274\nFJEM0_SX364\nFJEM0_SX4\nFJEM0_SX94\nFJLM0_SA1\nFJLM0_SA2\nFJLM0_SI1043\nFJLM0_SI1673\nFJLM0_SI2303\nFJLM0_SX143\nFJLM0_SX233\nFJLM0_SX323\nFJLM0_SX413\nFJLM0_SX53\nFJMG0_SA1\nFJMG0_SA2\nFJMG0_SI1181\nFJMG0_SI1811\nFJMG0_SI551\nFJMG0_SX101\nFJMG0_SX11\nFJMG0_SX191\nFJMG0_SX281\nFJMG0_SX371\nFJRE0_SA1\nFJRE0_SA2\nFJRE0_SI1116\nFJRE0_SI1587\nFJRE0_SI1746\nFJRE0_SX126\nFJRE0_SX216\nFJRE0_SX306\nFJRE0_SX36\nFJRE0_SX396\nFJSA0_SA1\nFJSA0_SA2\nFJSA0_SI1379\nFJSA0_SI2009\nFJSA0_SI749\nFJSA0_SX119\nFJSA0_SX209\nFJSA0_SX29\nFJSA0_SX299\nFJSA0_SX389\nFJSJ0_SA1\nFJSJ0_SA2\nFJSJ0_SI1484\nFJSJ0_SI2114\nFJSJ0_SI854\nFJSJ0_SX134\nFJSJ0_SX224\nFJSJ0_SX314\nFJSJ0_SX404\nFJSJ0_SX44\nFJWB0_SA1\nFJWB0_SA2\nFJWB0_SI1265\nFJWB0_SI635\nFJWB0_SI992\nFJWB0_SX185\nFJWB0_SX275\nFJWB0_SX365\nFJWB0_SX5\nFJWB0_SX95\nFKMS0_SA1\nFKMS0_SA2\nFKMS0_SI1490\nFKMS0_SI2120\nFKMS0_SI860\nFKMS0_SX140\nFKMS0_SX230\nFKMS0_SX320\nFKMS0_SX410\nFKMS0_SX50\nFLAS0_SA1\nFLAS0_SA2\nFLAS0_SI1026\nFLAS0_SI1488\nFLAS0_SI858\nFLAS0_SX138\nFLAS0_SX228\nFLAS0_SX318\nFLAS0_SX408\nFLAS0_SX48\nFLBW0_SA1\nFLBW0_SA2\nFLBW0_SI1219\nFLBW0_SI1849\nFLBW0_SI2253\nFLBW0_SX139\nFLBW0_SX229\nFLBW0_SX319\nFLBW0_SX409\nFLBW0_SX49\nFLKD0_SA1\nFLKD0_SA2\nFLKD0_SI1369\nFLKD0_SI739\nFLKD0_SI894\nFLKD0_SX109\nFLKD0_SX19\nFLKD0_SX199\nFLKD0_SX289\nFLKD0_SX379\nFLNH0_SA1\nFLNH0_SA2\nFLNH0_SI1214\nFLNH0_SI584\nFLNH0_SI941\nFLNH0_SX134\nFLNH0_SX224\nFLNH0_SX314\nFLNH0_SX404\nFLNH0_SX44\nFMAF0_SA1\nFMAF0_SA2\nFMAF0_SI1459\nFMAF0_SI2089\nFMAF0_SI829\nFMAF0_SX109\nFMAF0_SX19\nFMAF0_SX199\nFMAF0_SX289\nFMAF0_SX379\nFMAH0_SA1\nFMAH0_SA2\nFMAH0_SI1289\nFMAH0_SI1919\nFMAH0_SI659\nFMAH0_SX119\nFMAH0_SX209\nFMAH0_SX29\nFMAH0_SX299\nFMAH0_SX389\nFMCM0_SA1\nFMCM0_SA2\nFMCM0_SI1180\nFMCM0_SI1810\nFMCM0_SI550\nFMCM0_SX10\nFMCM0_SX100\nFMCM0_SX190\nFMCM0_SX280\nFMCM0_SX370\nFMGD0_SA1\nFMGD0_SA2\nFMGD0_SI1564\nFMGD0_SI2194\nFMGD0_SI934\nFMGD0_SX124\nFMGD0_SX214\nFMGD0_SX304\nFMGD0_SX34\nFMGD0_SX394\nFMLD0_SA1\nFMLD0_SA2\nFMLD0_SI2185\nFMLD0_SI822\nFMLD0_SI925\nFMLD0_SX115\nFMLD0_SX205\nFMLD0_SX25\nFMLD0_SX295\nFMLD0_SX385\nFMML0_SA1\nFMML0_SA2\nFMML0_SI1040\nFMML0_SI1670\nFMML0_SI2300\nFMML0_SX140\nFMML0_SX230\nFMML0_SX320\nFMML0_SX410\nFMML0_SX50\nFNLP0_SA1\nFNLP0_SA2\nFNLP0_SI1308\nFNLP0_SI1938\nFNLP0_SI678\nFNLP0_SX138\nFNLP0_SX228\nFNLP0_SX318\nFNLP0_SX408\nFNLP0_SX48\nFNMR0_SA1\nFNMR0_SA2\nFNMR0_SI1399\nFNMR0_SI2029\nFNMR0_SI769\nFNMR0_SX139\nFNMR0_SX229\nFNMR0_SX319\nFNMR0_SX409\nFNMR0_SX49\nFPAS0_SA1\nFPAS0_SA2\nFPAS0_SI1272\nFPAS0_SI2204\nFPAS0_SI944\nFPAS0_SX134\nFPAS0_SX224\nFPAS0_SX314\nFPAS0_SX404\nFPAS0_SX44\nFPKT0_SA1\nFPKT0_SA2\nFPKT0_SI1538\nFPKT0_SI2168\nFPKT0_SI908\nFPKT0_SX188\nFPKT0_SX278\nFPKT0_SX368\nFPKT0_SX8\nFPKT0_SX98\nFRAM1_SA1\nFRAM1_SA2\nFRAM1_SI1360\nFRAM1_SI522\nFRAM1_SI730\nFRAM1_SX10\nFRAM1_SX100\nFRAM1_SX190\nFRAM1_SX280\nFRAM1_SX370\nFREW0_SA1\nFREW0_SA2\nFREW0_SI1030\nFREW0_SI1280\nFREW0_SI1910\nFREW0_SX110\nFREW0_SX20\nFREW0_SX200\nFREW0_SX290\nFREW0_SX380\nFRNG0_SA1\nFRNG0_SA2\nFRNG0_SI1355\nFRNG0_SI1985\nFRNG0_SI725\nFRNG0_SX185\nFRNG0_SX275\nFRNG0_SX365\nFRNG0_SX5\nFRNG0_SX95\nFSEM0_SA1\nFSEM0_SA2\nFSEM0_SI1198\nFSEM0_SI1828\nFSEM0_SI568\nFSEM0_SX118\nFSEM0_SX208\nFSEM0_SX28\nFSEM0_SX298\nFSEM0_SX388\nFSLB1_SA1\nFSLB1_SA2\nFSLB1_SI1904\nFSLB1_SI644\nFSLB1_SI891\nFSLB1_SX104\nFSLB1_SX14\nFSLB1_SX194\nFSLB1_SX284\nFSLB1_SX374\nFSXA0_SA1\nFSXA0_SA2\nFSXA0_SI1108\nFSXA0_SI1846\nFSXA0_SI478\nFSXA0_SX118\nFSXA0_SX208\nFSXA0_SX28\nFSXA0_SX298\nFSXA0_SX388\nFTLH0_SA1\nFTLH0_SA2\nFTLH0_SI1009\nFTLH0_SI1390\nFTLH0_SI1639\nFTLH0_SX109\nFTLH0_SX19\nFTLH0_SX199\nFTLH0_SX289\nFTLH0_SX379\nFUTB0_SA1\nFUTB0_SA2\nFUTB0_SI1204\nFUTB0_SI1330\nFUTB0_SI1834\nFUTB0_SX124\nFUTB0_SX214\nFUTB0_SX304\nFUTB0_SX34\nFUTB0_SX394\nMABW0_SA1\nMABW0_SA2\nMABW0_SI1230\nMABW0_SI1664\nMABW0_SI2294\nMABW0_SX134\nMABW0_SX224\nMABW0_SX314\nMABW0_SX404\nMABW0_SX44\nMAHH0_SA1\nMAHH0_SA2\nMAHH0_SI1294\nMAHH0_SI1924\nMAHH0_SI664\nMAHH0_SX124\nMAHH0_SX214\nMAHH0_SX304\nMAHH0_SX34\nMAHH0_SX394\nMAJC0_SA1\nMAJC0_SA2\nMAJC0_SI1946\nMAJC0_SI2095\nMAJC0_SI835\nMAJC0_SX115\nMAJC0_SX205\nMAJC0_SX25\nMAJC0_SX295\nMAJC0_SX385\nMBDG0_SA1\nMBDG0_SA2\nMBDG0_SI1463\nMBDG0_SI2093\nMBDG0_SI833\nMBDG0_SX113\nMBDG0_SX203\nMBDG0_SX23\nMBDG0_SX293\nMBDG0_SX383\nMBJK0_SA1\nMBJK0_SA2\nMBJK0_SI1175\nMBJK0_SI2128\nMBJK0_SI545\nMBJK0_SX185\nMBJK0_SX275\nMBJK0_SX365\nMBJK0_SX5\nMBJK0_SX95\nMBNS0_SA1\nMBNS0_SA2\nMBNS0_SI1220\nMBNS0_SI1850\nMBNS0_SI590\nMBNS0_SX140\nMBNS0_SX230\nMBNS0_SX320\nMBNS0_SX410\nMBNS0_SX50\nMBPM0_SA1\nMBPM0_SA2\nMBPM0_SI1577\nMBPM0_SI1584\nMBPM0_SI947\nMBPM0_SX137\nMBPM0_SX227\nMBPM0_SX317\nMBPM0_SX407\nMBPM0_SX47\nMBWM0_SA1\nMBWM0_SA2\nMBWM0_SI1304\nMBWM0_SI1934\nMBWM0_SI674\nMBWM0_SX134\nMBWM0_SX224\nMBWM0_SX314\nMBWM0_SX404\nMBWM0_SX44\nMCCS0_SA1\nMCCS0_SA2\nMCCS0_SI1469\nMCCS0_SI2099\nMCCS0_SI839\nMCCS0_SX119\nMCCS0_SX209\nMCCS0_SX29\nMCCS0_SX299\nMCCS0_SX389\nMCEM0_SA1\nMCEM0_SA2\nMCEM0_SI1398\nMCEM0_SI2028\nMCEM0_SI768\nMCEM0_SX138\nMCEM0_SX228\nMCEM0_SX318\nMCEM0_SX408\nMCEM0_SX48\nMCHH0_SA1\nMCHH0_SA2\nMCHH0_SI1004\nMCHH0_SI1634\nMCHH0_SI530\nMCHH0_SX104\nMCHH0_SX14\nMCHH0_SX194\nMCHH0_SX284\nMCHH0_SX374\nMCMB0_SA1\nMCMB0_SA2\nMCMB0_SI1268\nMCMB0_SI1898\nMCMB0_SI638\nMCMB0_SX188\nMCMB0_SX278\nMCMB0_SX368\nMCMB0_SX8\nMCMB0_SX98\nMCMJ0_SA1\nMCMJ0_SA2\nMCMJ0_SI1094\nMCMJ0_SI464\nMCMJ0_SI602\nMCMJ0_SX104\nMCMJ0_SX14\nMCMJ0_SX194\nMCMJ0_SX284\nMCMJ0_SX374\nMCRC0_SA1\nMCRC0_SA2\nMCRC0_SI1092\nMCRC0_SI1722\nMCRC0_SI462\nMCRC0_SX102\nMCRC0_SX12\nMCRC0_SX192\nMCRC0_SX282\nMCRC0_SX372\nMCSH0_SA1\nMCSH0_SA2\nMCSH0_SI1549\nMCSH0_SI2179\nMCSH0_SI919\nMCSH0_SX109\nMCSH0_SX19\nMCSH0_SX199\nMCSH0_SX289\nMCSH0_SX379\nMCTT0_SA1\nMCTT0_SA2\nMCTT0_SI1144\nMCTT0_SI2188\nMCTT0_SI928\nMCTT0_SX118\nMCTT0_SX208\nMCTT0_SX28\nMCTT0_SX298\nMCTT0_SX388\nMCTW0_SA1\nMCTW0_SA2\nMCTW0_SI1373\nMCTW0_SI2003\nMCTW0_SI743\nMCTW0_SX113\nMCTW0_SX203\nMCTW0_SX23\nMCTW0_SX293\nMCTW0_SX383\nMDAB0_SA1\nMDAB0_SA2\nMDAB0_SI1039\nMDAB0_SI1669\nMDAB0_SI2299\nMDAB0_SX139\nMDAB0_SX229\nMDAB0_SX319\nMDAB0_SX409\nMDAB0_SX49\nMDAC2_SA1\nMDAC2_SA2\nMDAC2_SI2259\nMDAC2_SI560\nMDAC2_SI999\nMDAC2_SX189\nMDAC2_SX279\nMDAC2_SX369\nMDAC2_SX9\nMDAC2_SX99\nMDAW1_SA1\nMDAW1_SA2\nMDAW1_SI1453\nMDAW1_SI2083\nMDAW1_SI823\nMDAW1_SX103\nMDAW1_SX13\nMDAW1_SX193\nMDAW1_SX283\nMDAW1_SX373\nMDBB0_SA1\nMDBB0_SA2\nMDBB0_SI1195\nMDBB0_SI1825\nMDBB0_SI565\nMDBB0_SX115\nMDBB0_SX205\nMDBB0_SX25\nMDBB0_SX295\nMDBB0_SX385\nMDLD0_SA1\nMDLD0_SA2\nMDLD0_SI1543\nMDLD0_SI2173\nMDLD0_SI913\nMDLD0_SX103\nMDLD0_SX13\nMDLD0_SX193\nMDLD0_SX283\nMDLD0_SX373\nMDLF0_SA1\nMDLF0_SA2\nMDLF0_SI1583\nMDLF0_SI2213\nMDLF0_SI953\nMDLF0_SX143\nMDLF0_SX233\nMDLF0_SX323\nMDLF0_SX413\nMDLF0_SX53\nMDLS0_SA1\nMDLS0_SA2\nMDLS0_SI1628\nMDLS0_SI2258\nMDLS0_SI998\nMDLS0_SX188\nMDLS0_SX278\nMDLS0_SX368\nMDLS0_SX8\nMDLS0_SX98\nMDRB0_SA1\nMDRB0_SA2\nMDRB0_SI1174\nMDRB0_SI2109\nMDRB0_SI544\nMDRB0_SX184\nMDRB0_SX274\nMDRB0_SX364\nMDRB0_SX4\nMDRB0_SX94\nMDRM0_SA1\nMDRM0_SA2\nMDRM0_SI1013\nMDRM0_SI1643\nMDRM0_SI2273\nMDRM0_SX113\nMDRM0_SX203\nMDRM0_SX23\nMDRM0_SX293\nMDRM0_SX383\nMDSC0_SA1\nMDSC0_SA2\nMDSC0_SI1038\nMDSC0_SI2298\nMDSC0_SI967\nMDSC0_SX138\nMDSC0_SX228\nMDSC0_SX318\nMDSC0_SX408\nMDSC0_SX48\nMDVC0_SA1\nMDVC0_SA2\nMDVC0_SI2174\nMDVC0_SI2196\nMDVC0_SI936\nMDVC0_SX126\nMDVC0_SX216\nMDVC0_SX306\nMDVC0_SX36\nMDVC0_SX396\nMDWA0_SA1\nMDWA0_SA2\nMDWA0_SI1146\nMDWA0_SI1445\nMDWA0_SI519\nMDWA0_SX185\nMDWA0_SX275\nMDWA0_SX365\nMDWA0_SX5\nMDWA0_SX95\nMDWK0_SA1\nMDWK0_SA2\nMDWK0_SI1540\nMDWK0_SI2170\nMDWK0_SI910\nMDWK0_SX10\nMDWK0_SX100\nMDWK0_SX190\nMDWK0_SX280\nMDWK0_SX370\nMERS0_SA1\nMERS0_SA2\nMERS0_SI1019\nMERS0_SI1649\nMERS0_SI497\nMERS0_SX119\nMERS0_SX209\nMERS0_SX29\nMERS0_SX299\nMERS0_SX389\nMESD0_SA1\nMESD0_SA2\nMESD0_SI1002\nMESD0_SI1632\nMESD0_SI2262\nMESD0_SX102\nMESD0_SX12\nMESD0_SX192\nMESD0_SX282\nMESD0_SX372\nMFGK0_SA1\nMFGK0_SA2\nMFGK0_SI1451\nMFGK0_SI1744\nMFGK0_SI484\nMFGK0_SX124\nMFGK0_SX214\nMFGK0_SX304\nMFGK0_SX34\nMFGK0_SX394\nMGJF0_SA1\nMGJF0_SA2\nMGJF0_SI1901\nMGJF0_SI641\nMGJF0_SI776\nMGJF0_SX101\nMGJF0_SX11\nMGJF0_SX191\nMGJF0_SX281\nMGJF0_SX371\nMGLB0_SA1\nMGLB0_SA2\nMGLB0_SI1534\nMGLB0_SI2164\nMGLB0_SI904\nMGLB0_SX184\nMGLB0_SX274\nMGLB0_SX364\nMGLB0_SX4\nMGLB0_SX94\nMGMM0_SA1\nMGMM0_SA2\nMGMM0_SI1129\nMGMM0_SI1759\nMGMM0_SI499\nMGMM0_SX139\nMGMM0_SX229\nMGMM0_SX319\nMGMM0_SX409\nMGMM0_SX49\nMGRT0_SA1\nMGRT0_SA2\nMGRT0_SI1450\nMGRT0_SI2080\nMGRT0_SI820\nMGRT0_SX10\nMGRT0_SX100\nMGRT0_SX190\nMGRT0_SX280\nMGRT0_SX370\nMGWT0_SA1\nMGWT0_SA2\nMGWT0_SI1539\nMGWT0_SI2169\nMGWT0_SI909\nMGWT0_SX189\nMGWT0_SX279\nMGWT0_SX369\nMGWT0_SX9\nMGWT0_SX99\nMHPG0_SA1\nMHPG0_SA2\nMHPG0_SI1090\nMHPG0_SI1720\nMHPG0_SI460\nMHPG0_SX10\nMHPG0_SX100\nMHPG0_SX190\nMHPG0_SX280\nMHPG0_SX370\nMJAR0_SA1\nMJAR0_SA2\nMJAR0_SI1988\nMJAR0_SI2247\nMJAR0_SI728\nMJAR0_SX188\nMJAR0_SX278\nMJAR0_SX368\nMJAR0_SX8\nMJAR0_SX98\nMJBR0_SA1\nMJBR0_SA2\nMJBR0_SI1001\nMJBR0_SI1631\nMJBR0_SI2261\nMJBR0_SX101\nMJBR0_SX11\nMJBR0_SX191\nMJBR0_SX281\nMJBR0_SX371\nMJDH0_SA1\nMJDH0_SA2\nMJDH0_SI1354\nMJDH0_SI1984\nMJDH0_SI724\nMJDH0_SX184\nMJDH0_SX274\nMJDH0_SX364\nMJDH0_SX4\nMJDH0_SX94\nMJDM1_SA1\nMJDM1_SA2\nMJDM1_SI1085\nMJDM1_SI1715\nMJDM1_SI455\nMJDM1_SX185\nMJDM1_SX275\nMJDM1_SX365\nMJDM1_SX5\nMJDM1_SX95\nMJES0_SA1\nMJES0_SA2\nMJES0_SI1384\nMJES0_SI2014\nMJES0_SI754\nMJES0_SX124\nMJES0_SX214\nMJES0_SX304\nMJES0_SX34\nMJES0_SX394\nMJFC0_SA1\nMJFC0_SA2\nMJFC0_SI1033\nMJFC0_SI1663\nMJFC0_SI2293\nMJFC0_SX133\nMJFC0_SX223\nMJFC0_SX313\nMJFC0_SX403\nMJFC0_SX43\nMJJG0_SA1\nMJJG0_SA2\nMJJG0_SI1003\nMJJG0_SI1633\nMJJG0_SI2263\nMJJG0_SX103\nMJJG0_SX13\nMJJG0_SX193\nMJJG0_SX283\nMJJG0_SX373\nMJLN0_SA1\nMJLN0_SA2\nMJLN0_SI1449\nMJLN0_SI2079\nMJLN0_SI819\nMJLN0_SX189\nMJLN0_SX279\nMJLN0_SX369\nMJLN0_SX9\nMJLN0_SX99\nMJMP0_SA1\nMJMP0_SA2\nMJMP0_SI1535\nMJMP0_SI1791\nMJMP0_SI905\nMJMP0_SX185\nMJMP0_SX275\nMJMP0_SX365\nMJMP0_SX5\nMJMP0_SX95\nMJRF0_SA1\nMJRF0_SA2\nMJRF0_SI1114\nMJRF0_SI2081\nMJRF0_SI821\nMJRF0_SX101\nMJRF0_SX11\nMJRF0_SX191\nMJRF0_SX281\nMJRF0_SX371\nMJSW0_SA1\nMJSW0_SA2\nMJSW0_SI1010\nMJSW0_SI1640\nMJSW0_SI2270\nMJSW0_SX110\nMJSW0_SX20\nMJSW0_SX200\nMJSW0_SX290\nMJSW0_SX380\nMJTC0_SA1\nMJTC0_SA2\nMJTC0_SI1460\nMJTC0_SI2090\nMJTC0_SI830\nMJTC0_SX110\nMJTC0_SX20\nMJTC0_SX200\nMJTC0_SX290\nMJTC0_SX380\nMJTH0_SA1\nMJTH0_SA2\nMJTH0_SI1296\nMJTH0_SI1926\nMJTH0_SI666\nMJTH0_SX126\nMJTH0_SX216\nMJTH0_SX306\nMJTH0_SX36\nMJTH0_SX396\nMJVW0_SA1\nMJVW0_SA2\nMJVW0_SI1733\nMJVW0_SI1758\nMJVW0_SI473\nMJVW0_SX113\nMJVW0_SX203\nMJVW0_SX23\nMJVW0_SX293\nMJVW0_SX383\nMKCH0_SA1\nMKCH0_SA2\nMKCH0_SI1378\nMKCH0_SI1425\nMKCH0_SI2008\nMKCH0_SX118\nMKCH0_SX208\nMKCH0_SX28\nMKCH0_SX298\nMKCH0_SX388\nMKCL0_SA1\nMKCL0_SA2\nMKCL0_SI1091\nMKCL0_SI1721\nMKCL0_SI461\nMKCL0_SX101\nMKCL0_SX11\nMKCL0_SX191\nMKCL0_SX281\nMKCL0_SX371\nMKDR0_SA1\nMKDR0_SA2\nMKDR0_SI1273\nMKDR0_SI1903\nMKDR0_SI643\nMKDR0_SX103\nMKDR0_SX13\nMKDR0_SX193\nMKDR0_SX283\nMKDR0_SX373\nMKJL0_SA1\nMKJL0_SA2\nMKJL0_SI1100\nMKJL0_SI1730\nMKJL0_SI470\nMKJL0_SX110\nMKJL0_SX20\nMKJL0_SX200\nMKJL0_SX290\nMKJL0_SX380\nMKLT0_SA1\nMKLT0_SA2\nMKLT0_SI1213\nMKLT0_SI1843\nMKLT0_SI583\nMKLT0_SX133\nMKLT0_SX223\nMKLT0_SX313\nMKLT0_SX403\nMKLT0_SX43\nMLIH0_SA1\nMLIH0_SA2\nMLIH0_SI1183\nMLIH0_SI1813\nMLIH0_SI553\nMLIH0_SX103\nMLIH0_SX13\nMLIH0_SX193\nMLIH0_SX283\nMLIH0_SX373\nMLJB0_SA1\nMLJB0_SA2\nMLJB0_SI1310\nMLJB0_SI1940\nMLJB0_SI680\nMLJB0_SX140\nMLJB0_SX230\nMLJB0_SX320\nMLJB0_SX410\nMLJB0_SX50\nMLLL0_SA1\nMLLL0_SA2\nMLLL0_SI1363\nMLLL0_SI1993\nMLLL0_SI733\nMLLL0_SX103\nMLLL0_SX13\nMLLL0_SX193\nMLLL0_SX283\nMLLL0_SX373\nMLNT0_SA1\nMLNT0_SA2\nMLNT0_SI1574\nMLNT0_SI1902\nMLNT0_SI642\nMLNT0_SX102\nMLNT0_SX12\nMLNT0_SX192\nMLNT0_SX282\nMLNT0_SX372\nMMAB0_SA1\nMMAB0_SA2\nMMAB0_SI1362\nMMAB0_SI1992\nMMAB0_SI732\nMMAB0_SX102\nMMAB0_SX12\nMMAB0_SX192\nMMAB0_SX282\nMMAB0_SX372\nMMDB1_SA1\nMMDB1_SA2\nMMDB1_SI1625\nMMDB1_SI2255\nMMDB1_SI995\nMMDB1_SX185\nMMDB1_SX275\nMMDB1_SX365\nMMDB1_SX5\nMMDB1_SX95\nMMDH0_SA1\nMMDH0_SA2\nMMDH0_SI1656\nMMDH0_SI2118\nMMDH0_SI2286\nMMDH0_SX126\nMMDH0_SX216\nMMDH0_SX306\nMMDH0_SX36\nMMDH0_SX396\nMMDM2_SA1\nMMDM2_SA2\nMMDM2_SI1452\nMMDM2_SI1555\nMMDM2_SI2082\nMMDM2_SX102\nMMDM2_SX12\nMMDM2_SX192\nMMDM2_SX282\nMMDM2_SX372\nMMJR0_SA1\nMMJR0_SA2\nMMJR0_SI1648\nMMJR0_SI2166\nMMJR0_SI2278\nMMJR0_SX118\nMMJR0_SX208\nMMJR0_SX28\nMMJR0_SX298\nMMJR0_SX388\nMMWH0_SA1\nMMWH0_SA2\nMMWH0_SI1089\nMMWH0_SI1301\nMMWH0_SI459\nMMWH0_SX189\nMMWH0_SX279\nMMWH0_SX369\nMMWH0_SX9\nMMWH0_SX99\nMNJM0_SA1\nMNJM0_SA2\nMNJM0_SI1580\nMNJM0_SI2210\nMNJM0_SI950\nMNJM0_SX140\nMNJM0_SX230\nMNJM0_SX320\nMNJM0_SX410\nMNJM0_SX50\nMNLS0_SA1\nMNLS0_SA2\nMNLS0_SI1483\nMNLS0_SI1610\nMNLS0_SI853\nMNLS0_SX133\nMNLS0_SX223\nMNLS0_SX313\nMNLS0_SX403\nMNLS0_SX43\nMPAB0_SA1\nMPAB0_SA2\nMPAB0_SI1103\nMPAB0_SI1128\nMPAB0_SI498\nMPAB0_SX138\nMPAB0_SX228\nMPAB0_SX318\nMPAB0_SX408\nMPAB0_SX48\nMPAM0_SA1\nMPAM0_SA2\nMPAM0_SI1189\nMPAM0_SI1819\nMPAM0_SI1961\nMPAM0_SX109\nMPAM0_SX19\nMPAM0_SX199\nMPAM0_SX289\nMPAM0_SX379\nMPAM1_SA1\nMPAM1_SA2\nMPAM1_SI1029\nMPAM1_SI1836\nMPAM1_SI576\nMPAM1_SX126\nMPAM1_SX216\nMPAM1_SX306\nMPAM1_SX36\nMPAM1_SX396\nMPCS0_SA1\nMPCS0_SA2\nMPCS0_SI1359\nMPCS0_SI1989\nMPCS0_SI729\nMPCS0_SX189\nMPCS0_SX279\nMPCS0_SX369\nMPCS0_SX9\nMPCS0_SX99\nMPDF0_SA1\nMPDF0_SA2\nMPDF0_SI1542\nMPDF0_SI2172\nMPDF0_SI912\nMPDF0_SX102\nMPDF0_SX12\nMPDF0_SX192\nMPDF0_SX282\nMPDF0_SX372\nMPGL0_SA1\nMPGL0_SA2\nMPGL0_SI1099\nMPGL0_SI1729\nMPGL0_SI469\nMPGL0_SX109\nMPGL0_SX19\nMPGL0_SX199\nMPGL0_SX289\nMPGL0_SX379\nMPLB0_SA1\nMPLB0_SA2\nMPLB0_SI1394\nMPLB0_SI2024\nMPLB0_SI764\nMPLB0_SX134\nMPLB0_SX224\nMPLB0_SX314\nMPLB0_SX404\nMPLB0_SX44\nMPWM0_SA1\nMPWM0_SA2\nMPWM0_SI1127\nMPWM0_SI1757\nMPWM0_SI2279\nMPWM0_SX137\nMPWM0_SX227\nMPWM0_SX317\nMPWM0_SX407\nMPWM0_SX47\nMRCS0_SA1\nMRCS0_SA2\nMRCS0_SI1223\nMRCS0_SI1853\nMRCS0_SI593\nMRCS0_SX143\nMRCS0_SX233\nMRCS0_SX323\nMRCS0_SX413\nMRCS0_SX53\nMRCZ0_SA1\nMRCZ0_SA2\nMRCZ0_SI1541\nMRCZ0_SI2171\nMRCZ0_SI911\nMRCZ0_SX101\nMRCZ0_SX11\nMRCZ0_SX191\nMRCZ0_SX281\nMRCZ0_SX371\nMREB0_SA1\nMREB0_SA2\nMREB0_SI1375\nMREB0_SI2005\nMREB0_SI745\nMREB0_SX115\nMREB0_SX205\nMREB0_SX25\nMREB0_SX295\nMREB0_SX385\nMRES0_SA1\nMRES0_SA2\nMRES0_SI1217\nMRES0_SI1847\nMRES0_SI587\nMRES0_SX137\nMRES0_SX227\nMRES0_SX317\nMRES0_SX407\nMRES0_SX47\nMRGG0_SA1\nMRGG0_SA2\nMRGG0_SI1199\nMRGG0_SI1829\nMRGG0_SI569\nMRGG0_SX119\nMRGG0_SX209\nMRGG0_SX29\nMRGG0_SX299\nMRGG0_SX389\nMRJM3_SA1\nMRJM3_SA2\nMRJM3_SI1448\nMRJM3_SI1809\nMRJM3_SI2078\nMRJM3_SX188\nMRJM3_SX278\nMRJM3_SX368\nMRJM3_SX8\nMRJM3_SX98\nMRJM4_SA1\nMRJM4_SA2\nMRJM4_SI1489\nMRJM4_SI2119\nMRJM4_SI859\nMRJM4_SX139\nMRJM4_SX229\nMRJM4_SX319\nMRJM4_SX409\nMRJM4_SX49\nMRJO0_SA1\nMRJO0_SA2\nMRJO0_SI1364\nMRJO0_SI1624\nMRJO0_SI734\nMRJO0_SX104\nMRJO0_SX14\nMRJO0_SX194\nMRJO0_SX284\nMRJO0_SX374\nMRJR0_SA1\nMRJR0_SA2\nMRJR0_SI1182\nMRJR0_SI1812\nMRJR0_SI2313\nMRJR0_SX102\nMRJR0_SX12\nMRJR0_SX192\nMRJR0_SX282\nMRJR0_SX372\nMRJS0_SA1\nMRJS0_SA2\nMRJS0_SI1444\nMRJS0_SI1523\nMRJS0_SI2074\nMRJS0_SX184\nMRJS0_SX274\nMRJS0_SX364\nMRJS0_SX4\nMRJS0_SX94\nMRKO0_SA1\nMRKO0_SA2\nMRKO0_SI1397\nMRKO0_SI2027\nMRKO0_SI767\nMRKO0_SX137\nMRKO0_SX227\nMRKO0_SX317\nMRKO0_SX407\nMRKO0_SX47\nMRMS1_SA1\nMRMS1_SA2\nMRMS1_SI1487\nMRMS1_SI2117\nMRMS1_SI857\nMRMS1_SX137\nMRMS1_SX227\nMRMS1_SX317\nMRMS1_SX407\nMRMS1_SX47\nMROA0_SA1\nMROA0_SA2\nMROA0_SI1307\nMROA0_SI1970\nMROA0_SI677\nMROA0_SX137\nMROA0_SX227\nMROA0_SX317\nMROA0_SX407\nMROA0_SX47\nMRPC0_SA1\nMRPC0_SA2\nMRPC0_SI1753\nMRPC0_SI493\nMRPC0_SI933\nMRPC0_SX133\nMRPC0_SX223\nMRPC0_SX313\nMRPC0_SX403\nMRPC0_SX43\nMRPP0_SA1\nMRPP0_SA2\nMRPP0_SI1184\nMRPP0_SI1814\nMRPP0_SI554\nMRPP0_SX104\nMRPP0_SX14\nMRPP0_SX194\nMRPP0_SX284\nMRPP0_SX374\nMRRK0_SA1\nMRRK0_SA2\nMRRK0_SI1288\nMRRK0_SI1716\nMRRK0_SI1918\nMRRK0_SX118\nMRRK0_SX208\nMRRK0_SX28\nMRRK0_SX298\nMRRK0_SX388\nMRTK0_SA1\nMRTK0_SA2\nMRTK0_SI1093\nMRTK0_SI1723\nMRTK0_SI1750\nMRTK0_SX103\nMRTK0_SX13\nMRTK0_SX193\nMRTK0_SX283\nMRTK0_SX373\nMRWS1_SA1\nMRWS1_SA2\nMRWS1_SI1130\nMRWS1_SI1496\nMRWS1_SI500\nMRWS1_SX140\nMRWS1_SX230\nMRWS1_SX320\nMRWS1_SX410\nMRWS1_SX50\nMSFH1_SA1\nMSFH1_SA2\nMSFH1_SI1270\nMSFH1_SI1900\nMSFH1_SI640\nMSFH1_SX10\nMSFH1_SX100\nMSFH1_SX190\nMSFH1_SX280\nMSFH1_SX370\nMSJS1_SA1\nMSJS1_SA2\nMSJS1_SI1899\nMSJS1_SI639\nMSJS1_SI869\nMSJS1_SX189\nMSJS1_SX279\nMSJS1_SX369\nMSJS1_SX9\nMSJS1_SX99\nMSLB0_SA1\nMSLB0_SA2\nMSLB0_SI1193\nMSLB0_SI1823\nMSLB0_SI563\nMSLB0_SX113\nMSLB0_SX203\nMSLB0_SX23\nMSLB0_SX293\nMSLB0_SX383\nMSTK0_SA1\nMSTK0_SA2\nMSTK0_SI1024\nMSTK0_SI2222\nMSTK0_SI2284\nMSTK0_SX124\nMSTK0_SX214\nMSTK0_SX304\nMSTK0_SX34\nMSTK0_SX394\nMTAA0_SA1\nMTAA0_SA2\nMTAA0_SI1285\nMTAA0_SI1915\nMTAA0_SI596\nMTAA0_SX115\nMTAA0_SX205\nMTAA0_SX25\nMTAA0_SX295\nMTAA0_SX385\nMTAS1_SA1\nMTAS1_SA2\nMTAS1_SI1473\nMTAS1_SI2098\nMTAS1_SI838\nMTAS1_SX118\nMTAS1_SX208\nMTAS1_SX28\nMTAS1_SX298\nMTAS1_SX388\nMTDT0_SA1\nMTDT0_SA2\nMTDT0_SI1994\nMTDT0_SI2254\nMTDT0_SI994\nMTDT0_SX184\nMTDT0_SX274\nMTDT0_SX364\nMTDT0_SX4\nMTDT0_SX94\nMTEB0_SA1\nMTEB0_SA2\nMTEB0_SI1133\nMTEB0_SI2064\nMTEB0_SI503\nMTEB0_SX143\nMTEB0_SX233\nMTEB0_SX323\nMTEB0_SX413\nMTEB0_SX53\nMTHC0_SA1\nMTHC0_SA2\nMTHC0_SI1015\nMTHC0_SI1645\nMTHC0_SI2275\nMTHC0_SX115\nMTHC0_SX205\nMTHC0_SX25\nMTHC0_SX295\nMTHC0_SX385\nMTLS0_SA1\nMTLS0_SA2\nMTLS0_SI1370\nMTLS0_SI2000\nMTLS0_SI740\nMTLS0_SX110\nMTLS0_SX20\nMTLS0_SX200\nMTLS0_SX290\nMTLS0_SX380\nMTMR0_SA1\nMTMR0_SA2\nMTMR0_SI1303\nMTMR0_SI1933\nMTMR0_SI673\nMTMR0_SX133\nMTMR0_SX223\nMTMR0_SX313\nMTMR0_SX403\nMTMR0_SX43\nMTWH0_SA1\nMTWH0_SA2\nMTWH0_SI1190\nMTWH0_SI1629\nMTWH0_SI1820\nMTWH0_SX110\nMTWH0_SX20\nMTWH0_SX200\nMTWH0_SX290\nMTWH0_SX380\nMWBT0_SA1\nMWBT0_SA2\nMWBT0_SI1553\nMWBT0_SI2183\nMWBT0_SI923\nMWBT0_SX113\nMWBT0_SX203\nMWBT0_SX23\nMWBT0_SX293\nMWBT0_SX383\nMWEW0_SA1\nMWEW0_SA2\nMWEW0_SI1361\nMWEW0_SI1991\nMWEW0_SI731\nMWEW0_SX101\nMWEW0_SX11\nMWEW0_SX191\nMWEW0_SX281\nMWEW0_SX371\nMWJG0_SA1\nMWJG0_SA2\nMWJG0_SI1124\nMWJG0_SI1754\nMWJG0_SI494\nMWJG0_SX134\nMWJG0_SX224\nMWJG0_SX314\nMWJG0_SX404\nMWJG0_SX44\nMWVW0_SA1\nMWVW0_SA2\nMWVW0_SI1476\nMWVW0_SI2106\nMWVW0_SI846\nMWVW0_SX126\nMWVW0_SX216\nMWVW0_SX306\nMWVW0_SX36\nMWVW0_SX396\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/config/timit_unmatched/train.uid",
    "content": "FAEM0_SA1\nFAEM0_SA2\nFAEM0_SI2022\nFAEM0_SX132\nFAEM0_SX222\nFAEM0_SX312\nFAEM0_SX402\nFAJW0_SA2\nFAJW0_SI1893\nFAJW0_SX183\nFAJW0_SX273\nFAJW0_SX363\nFALK0_SA1\nFALK0_SA2\nFALK0_SI1086\nFALK0_SI456\nFALK0_SX276\nFALK0_SX366\nFALK0_SX96\nFALR0_SA1\nFALR0_SA2\nFALR0_SI1955\nFALR0_SI695\nFALR0_SX155\nFALR0_SX245\nFALR0_SX425\nFALR0_SX65\nFAPB0_SA1\nFAPB0_SA2\nFAPB0_SI1693\nFAPB0_SX163\nFAPB0_SX253\nFAPB0_SX343\nFAPB0_SX73\nFBAS0_SA2\nFBAS0_SI1387\nFBAS0_SX127\nFBAS0_SX307\nFBAS0_SX37\nFBAS0_SX397\nFBCG1_SA2\nFBCG1_SI1612\nFBCG1_SI2242\nFBCG1_SI982\nFBCG1_SX262\nFBCG1_SX82\nFBCH0_SA1\nFBCH0_SA2\nFBCH0_SI1586\nFBCH0_SI956\nFBCH0_SX146\nFBCH0_SX326\nFBCH0_SX56\nFBJL0_SA1\nFBJL0_SA2\nFBJL0_SI1552\nFBJL0_SI2182\nFBJL0_SX112\nFBJL0_SX202\nFBJL0_SX22\nFBJL0_SX292\nFBJL0_SX382\nFBLV0_SA2\nFBLV0_SI2318\nFBLV0_SX158\nFBLV0_SX248\nFBLV0_SX428\nFBMH0_SA2\nFBMH0_SI1766\nFBMH0_SX146\nFBMH0_SX236\nFBMH0_SX326\nFBMH0_SX416\nFBMH0_SX56\nFBMJ0_SA2\nFBMJ0_SX156\nFBMJ0_SX246\nFBMJ0_SX426\nFBMJ0_SX66\nFCAG0_SA2\nFCAG0_SI1503\nFCAG0_SI1641\nFCAG0_SI2133\nFCAG0_SX333\nFCAG0_SX423\nFCAG0_SX63\nFCAJ0_SA1\nFCAJ0_SA2\nFCAJ0_SI1804\nFCAJ0_SI849\nFCAJ0_SX129\nFCAJ0_SX219\nFCAJ0_SX39\nFCAJ0_SX399\nFCDR1_SA1\nFCDR1_SA2\nFCDR1_SX16\nFCDR1_SX376\nFCEG0_SA1\nFCEG0_SI1248\nFCEG0_SI1878\nFCEG0_SI618\nFCEG0_SX168\nFCEG0_SX258\nFCEG0_SX348\nFCEG0_SX438\nFCEG0_SX78\nFCJF0_SA2\nFCJF0_SI1027\nFCJF0_SI1657\nFCJF0_SI648\nFCJF0_SX217\nFCJF0_SX307\nFCJF0_SX37\nFCJF0_SX397\nFCJS0_SA1\nFCJS0_SA2\nFCJS0_SI977\nFCJS0_SX167\nFCJS0_SX347\nFCJS0_SX437\nFCJS0_SX77\nFCKE0_SA1\nFCKE0_SI1111\nFCKE0_SX211\nFCKE0_SX301\nFCKE0_SX31\nFCKE0_SX391\nFCLT0_SA1\nFCLT0_SA2\nFCLT0_SI1438\nFCLT0_SX178\nFCLT0_SX268\nFCLT0_SX358\nFCMG0_SA1\nFCMG0_SI1242\nFCMG0_SX162\nFCMG0_SX252\nFCMG0_SX342\nFCMM0_SI1083\nFCMM0_SI453\nFCMM0_SX273\nFCMM0_SX363\nFCMM0_SX93\nFCRZ0_SA1\nFCRZ0_SA2\nFCRZ0_SI1913\nFCRZ0_SI793\nFCRZ0_SX163\nFCRZ0_SX253\nFCRZ0_SX343\nFCRZ0_SX73\nFCYL0_SA2\nFCYL0_SI1297\nFCYL0_SI1927\nFCYL0_SX127\nFCYL0_SX217\nFCYL0_SX397\nFDAS1_SA1\nFDAS1_SA2\nFDAS1_SX111\nFDAS1_SX21\nFDAS1_SX291\nFDAW0_SA1\nFDAW0_SA2\nFDAW0_SX146\nFDAW0_SX236\nFDAW0_SX326\nFDAW0_SX416\nFDAW0_SX56\nFDFB0_SI1318\nFDFB0_SI1948\nFDFB0_SX148\nFDFB0_SX238\nFDFB0_SX328\nFDFB0_SX418\nFDJH0_SA1\nFDJH0_SA2\nFDJH0_SI1565\nFDJH0_SI2195\nFDJH0_SX125\nFDJH0_SX215\nFDJH0_SX35\nFDJH0_SX395\nFDKN0_SA1\nFDKN0_SA2\nFDKN0_SI1081\nFDKN0_SI1711\nFDKN0_SX271\nFDKN0_SX361\nFDKN0_SX91\nFDML0_SA1\nFDML0_SI1149\nFDML0_SI1779\nFDML0_SI2075\nFDML0_SX339\nFDML0_SX69\nFDMY0_SI1197\nFDMY0_SX117\nFDMY0_SX207\nFDMY0_SX297\nFDNC0_SA1\nFDNC0_SA2\nFDNC0_SI2287\nFDNC0_SX108\nFDNC0_SX18\nFDNC0_SX378\nFDTD0_SA2\nFDTD0_SI1561\nFDTD0_SI2191\nFDTD0_SI931\nFDTD0_SX121\nFDTD0_SX301\nFDTD0_SX391\nFDXW0_SA2\nFDXW0_SI1511\nFDXW0_SI2141\nFDXW0_SI881\nFDXW0_SX161\nFDXW0_SX431\nFEAC0_SA1\nFEAC0_SA2\nFEAC0_SI1245\nFEAC0_SI1875\nFEAC0_SX255\nFEAC0_SX345\nFEAC0_SX435\nFEAR0_SA1\nFEAR0_SA2\nFEAR0_SI1252\nFEAR0_SI1882\nFEAR0_SX172\nFEAR0_SX262\nFEAR0_SX442\nFEAR0_SX82\nFECD0_SA2\nFECD0_SI2048\nFECD0_SX158\nFECD0_SX248\nFECD0_SX338\nFECD0_SX428\nFEEH0_SA2\nFEEH0_SI1112\nFEEH0_SX212\nFEEH0_SX302\nFEEH0_SX32\nFEEH0_SX392\nFEME0_SA2\nFEME0_SI1505\nFEME0_SI2135\nFEME0_SX245\nFEME0_SX425\nFETB0_SA2\nFETB0_SI1778\nFETB0_SI518\nFETB0_SX248\nFETB0_SX338\nFETB0_SX428\nFETB0_SX68\nFEXM0_SA2\nFEXM0_SI1731\nFEXM0_SX111\nFEXM0_SX201\nFEXM0_SX291\nFEXM0_SX381\nFGCS0_SA1\nFGCS0_SA2\nFGCS0_SI1486\nFGCS0_SI2116\nFGCS0_SI856\nFGCS0_SX46\nFGDP0_SA2\nFGDP0_SI1618\nFGDP0_SI2248\nFGDP0_SX178\nFGDP0_SX268\nFGDP0_SX358\nFGDP0_SX448\nFGMB0_SA1\nFGMB0_SA2\nFGMB0_SI515\nFGMB0_SX155\nFGMB0_SX425\nFGMB0_SX65\nFGRW0_SA2\nFGRW0_SI1782\nFGRW0_SI1990\nFGRW0_SX252\nFGRW0_SX342\nFGRW0_SX72\nFHLM0_SA1\nFHLM0_SA2\nFHLM0_SI1560\nFHLM0_SI2190\nFHLM0_SI930\nFHLM0_SX210\nFHLM0_SX300\nFHXS0_SI2335\nFHXS0_SX265\nFHXS0_SX355\nFHXS0_SX85\nFJDM2_SI1582\nFJDM2_SI1964\nFJDM2_SI2212\nFJDM2_SX322\nFJDM2_SX412\nFJEN0_SA2\nFJEN0_SI1047\nFJEN0_SI1677\nFJEN0_SI2307\nFJEN0_SX147\nFJEN0_SX237\nFJEN0_SX57\nFJHK0_SA1\nFJHK0_SA2\nFJHK0_SI1022\nFJHK0_SI1652\nFJHK0_SX122\nFJHK0_SX212\nFJHK0_SX32\nFJHK0_SX392\nFJKL0_SA1\nFJKL0_SA2\nFJKL0_SI1562\nFJKL0_SI2192\nFJKL0_SX122\nFJKL0_SX302\nFJKL0_SX32\nFJLG0_SA1\nFJLG0_SA2\nFJLG0_SI1506\nFJLG0_SX179\nFJLG0_SX269\nFJLG0_SX359\nFJLG0_SX449\nFJLG0_SX89\nFJLR0_SA2\nFJLR0_SI1861\nFJLR0_SI601\nFJLR0_SX151\nFJLR0_SX241\nFJLR0_SX331\nFJLR0_SX421\nFJLR0_SX61\nFJRB0_SA1\nFJRB0_SA2\nFJRB0_SI1302\nFJRB0_SI1932\nFJRB0_SI672\nFJRB0_SX132\nFJRB0_SX222\nFJRB0_SX312\nFJRB0_SX42\nFJRP1_SA2\nFJRP1_SI802\nFJRP1_SX172\nFJRP1_SX442\nFJSK0_SA2\nFJSK0_SI1682\nFJSK0_SI2312\nFJSK0_SX152\nFJSK0_SX242\nFJSK0_SX332\nFJSK0_SX422\nFJSK0_SX62\nFJSP0_SA1\nFJSP0_SA2\nFJSP0_SI1763\nFJSP0_SI804\nFJSP0_SX174\nFJSP0_SX84\nFJWB1_SA2\nFJWB1_SI2055\nFJWB1_SI795\nFJWB1_SX165\nFJWB1_SX255\nFJWB1_SX75\nFJXM0_SA2\nFJXM0_SI1211\nFJXM0_SI1971\nFJXM0_SX131\nFJXM0_SX221\nFJXP0_SA2\nFJXP0_SI492\nFJXP0_SX222\nFJXP0_SX312\nFJXP0_SX402\nFJXP0_SX42\nFKAA0_SA2\nFKAA0_SI1208\nFKAA0_SI1838\nFKAA0_SI578\nFKAA0_SX218\nFKAA0_SX308\nFKAA0_SX38\nFKDE0_SA2\nFKDE0_SI2221\nFKDE0_SX331\nFKDW0_SA1\nFKDW0_SA2\nFKDW0_SI577\nFKDW0_SX127\nFKDW0_SX217\nFKDW0_SX307\nFKDW0_SX37\nFKFB0_SA1\nFKFB0_SI2238\nFKFB0_SI978\nFKFB0_SX168\nFKFB0_SX258\nFKKH0_SI660\nFKKH0_SX210\nFKKH0_SX30\nFKKH0_SX300\nFKLC0_SA1\nFKLC0_SA2\nFKLC0_SI1615\nFKLC0_SI2245\nFKLC0_SX265\nFKLC0_SX445\nFKLC0_SX85\nFKLC1_SA1\nFKLC1_SA2\nFKLC1_SI1678\nFKLC1_SX148\nFKLC1_SX58\nFKLH0_SA1\nFKLH0_SI1887\nFKLH0_SI627\nFKLH0_SX267\nFKLH0_SX357\nFKLH0_SX447\nFKLH0_SX87\nFKSR0_SI1117\nFKSR0_SX161\nFKSR0_SX37\nFKSR0_SX397\nFLAC0_SA1\nFLAC0_SA2\nFLAC0_SI2161\nFLAC0_SI901\nFLAC0_SX181\nFLAC0_SX271\nFLAC0_SX361\nFLAC0_SX91\nFLAG0_SA1\nFLAG0_SI2094\nFLAG0_SX294\nFLEH0_SA1\nFLEH0_SA2\nFLEH0_SX151\nFLEH0_SX241\nFLEH0_SX421\nFLEH0_SX61\nFLET0_SA2\nFLET0_SI1137\nFLET0_SI1767\nFLET0_SX147\nFLET0_SX237\nFLET0_SX277\nFLET0_SX417\nFLET0_SX57\nFLHD0_SA1\nFLHD0_SA2\nFLHD0_SI1344\nFLHD0_SI1974\nFLHD0_SX174\nFLHD0_SX264\nFLHD0_SX444\nFLHD0_SX84\nFLJA0_SA2\nFLJA0_SI1708\nFLJA0_SX268\nFLJA0_SX358\nFLJA0_SX448\nFLJA0_SX88\nFLJD0_SA1\nFLJD0_SA2\nFLJD0_SI2146\nFLJD0_SX166\nFLJD0_SX256\nFLJD0_SX346\nFLJD0_SX436\nFLJG0_SA1\nFLJG0_SI1611\nFLJG0_SI2241\nFLJG0_SX261\nFLJG0_SX441\nFLJG0_SX81\nFLKM0_SI1880\nFLKM0_SX116\nFLMA0_SA2\nFLMA0_SI1243\nFLMA0_SI1873\nFLMA0_SX163\nFLMA0_SX253\nFLMA0_SX343\nFLMC0_SA1\nFLMC0_SA2\nFLMC0_SI2002\nFLMC0_SI742\nFLMC0_SX112\nFLMC0_SX292\nFLMC0_SX336\nFLMC0_SX382\nFLMK0_SA2\nFLMK0_SI2295\nFLMK0_SX135\nFLMK0_SX225\nFLMK0_SX45\nFLOD0_SA1\nFLOD0_SA2\nFLOD0_SI1287\nFLOD0_SI657\nFLOD0_SX207\nFLOD0_SX387\nFLTM0_SA2\nFLTM0_SI1700\nFLTM0_SX260\nFLTM0_SX80\nFMAH1_SA1\nFMAH1_SI1509\nFMAH1_SI2139\nFMAH1_SX249\nFMAH1_SX339\nFMAH1_SX429\nFMAH1_SX69\nFMBG0_SA1\nFMBG0_SI1790\nFMBG0_SX260\nFMBG0_SX3\nFMBG0_SX350\nFMBG0_SX440\nFMBG0_SX80\nFMEM0_SA2\nFMEM0_SI1377\nFMEM0_SI2007\nFMEM0_SX117\nFMEM0_SX207\nFMEM0_SX297\nFMJB0_SA1\nFMJB0_SA2\nFMJB0_SI1807\nFMJB0_SX187\nFMJB0_SX277\nFMJB0_SX367\nFMJB0_SX7\nFMJF0_SA1\nFMJF0_SI1254\nFMJF0_SI1884\nFMJF0_SX264\nFMJF0_SX354\nFMJF0_SX444\nFMJU0_SA1\nFMJU0_SA2\nFMJU0_SI2019\nFMJU0_SI759\nFMJU0_SX129\nFMJU0_SX219\nFMJU0_SX39\nFMKC0_SA1\nFMKC0_SA2\nFMKC0_SI1072\nFMKC0_SX172\nFMKC0_SX262\nFMKC0_SX352\nFMKF0_SA1\nFMKF0_SA2\nFMKF0_SI1536\nFMKF0_SI906\nFMKF0_SX276\nFMKF0_SX366\nFMKF0_SX6\nFMKF0_SX96\nFMMH0_SA1\nFMMH0_SA2\nFMMH0_SI1537\nFMMH0_SI2167\nFMMH0_SI907\nFMMH0_SX187\nFMMH0_SX367\nFMMH0_SX420\nFMMH0_SX7\nFMMH0_SX97\nFMPG0_SI1602\nFMPG0_SI2232\nFMPG0_SX252\nFMPG0_SX72\nFNKL0_SA1\nFNKL0_SA2\nFNKL0_SI2152\nFNKL0_SX172\nFNKL0_SX196\nFNKL0_SX262\nFNKL0_SX442\nFNKL0_SX82\nFNTB0_SA1\nFNTB0_SA2\nFNTB0_SX123\nFNTB0_SX213\nFNTB0_SX33\nFNTB0_SX393\nFPAB1_SA2\nFPAB1_SX121\nFPAB1_SX301\nFPAB1_SX31\nFPAB1_SX391\nFPAC0_SA1\nFPAC0_SI2011\nFPAC0_SX121\nFPAC0_SX211\nFPAC0_SX301\nFPAC0_SX31\nFPAC0_SX391\nFPAD0_SA1\nFPAD0_SI1346\nFPAD0_SI1976\nFPAD0_SX266\nFPAD0_SX446\nFPAF0_SI1684\nFPAF0_SI2314\nFPAF0_SX244\nFPAF0_SX334\nFPAF0_SX424\nFPAF0_SX64\nFPAZ0_SI1593\nFPAZ0_SX153\nFPAZ0_SX27\nFPAZ0_SX423\nFPAZ0_SX63\nFPJF0_SA2\nFPJF0_SI1046\nFPJF0_SI1676\nFPJF0_SX236\nFPJF0_SX326\nFPLS0_SA1\nFPLS0_SA2\nFPLS0_SI2220\nFPLS0_SX150\nFPLS0_SX240\nFPLS0_SX3\nFPLS0_SX60\nFPMY0_SA2\nFPMY0_SI1783\nFPMY0_SX163\nFPMY0_SX196\nFPMY0_SX253\nFPMY0_SX73\nFREH0_SI1315\nFREH0_SI685\nFREH0_SX145\nFREH0_SX235\nFREH0_SX325\nFREH0_SX55\nFRJB0_SA1\nFRJB0_SA2\nFRJB0_SI1427\nFRJB0_SI1470\nFRJB0_SI1794\nFRJB0_SX167\nFRJB0_SX257\nFRJB0_SX437\nFRJB0_SX77\nFRLL0_SA1\nFRLL0_SA2\nFRLL0_SI1514\nFRLL0_SI884\nFRLL0_SX164\nFRLL0_SX254\nFRLL0_SX344\nFRLL0_SX74\nFSAG0_SA2\nFSAG0_SI1953\nFSAG0_SI693\nFSAG0_SX63\nFSAH0_SI1244\nFSAH0_SI1874\nFSAH0_SX344\nFSAH0_SX74\nFSAK0_SA1\nFSAK0_SA2\nFSAK0_SI1930\nFSAK0_SI670\nFSAK0_SX130\nFSAK0_SX220\nFSAK0_SX310\nFSAK0_SX40\nFSAK0_SX400\nFSBK0_SA1\nFSBK0_SI1699\nFSBK0_SI2329\nFSBK0_SX259\nFSBK0_SX439\nFSBK0_SX79\nFSCN0_SI1886\nFSCN0_SX356\nFSDC0_SA1\nFSDC0_SI1942\nFSDC0_SI2234\nFSDC0_SX232\nFSDC0_SX412\nFSDJ0_SA1\nFSDJ0_SA2\nFSDJ0_SI1745\nFSDJ0_SX125\nFSDJ0_SX35\nFSGF0_SA1\nFSGF0_SA2\nFSGF0_SI1557\nFSGF0_SX207\nFSGF0_SX27\nFSGF0_SX297\nFSGF0_SX387\nFSJG0_SI1570\nFSJG0_SI2200\nFSJG0_SX310\nFSJK1_SA1\nFSJK1_SI1025\nFSJK1_SI2285\nFSJK1_SI696\nFSJK1_SX215\nFSJK1_SX305\nFSJK1_SX395\nFSJS0_SA2\nFSJS0_SI1171\nFSJS0_SI1801\nFSJS0_SI541\nFSJS0_SX271\nFSJS0_SX361\nFSJS0_SX91\nFSJW0_SA1\nFSJW0_SA2\nFSJW0_SI703\nFSJW0_SX163\nFSJW0_SX253\nFSJW0_SX343\nFSJW0_SX73\nFSKC0_SA1\nFSKC0_SA2\nFSKC0_SI2046\nFSKC0_SX156\nFSKC0_SX336\nFSKC0_SX426\nFSKC0_SX66\nFSKL0_SA1\nFSKL0_SA2\nFSKL0_SI2159\nFSKL0_SI899\nFSKL0_SX179\nFSKL0_SX269\nFSKL0_SX359\nFSKL0_SX89\nFSKP0_SA1\nFSKP0_SI1728\nFSKP0_SI468\nFSKP0_SX108\nFSKP0_SX18\nFSKP0_SX198\nFSKP0_SX288\nFSKP0_SX378\nFSLS0_SA1\nFSLS0_SA2\nFSLS0_SI1056\nFSLS0_SI1686\nFSLS0_SI2316\nFSLS0_SX202\nFSLS0_SX246\nFSLS0_SX66\nFSMA0_SA1\nFSMA0_SI1621\nFSMA0_SI2251\nFSMA0_SX271\nFSMA0_SX361\nFSMA0_SX91\nFSMM0_SA1\nFSMM0_SA2\nFSMM0_SI1314\nFSMM0_SI1944\nFSMM0_SI684\nFSMM0_SX414\nFSMM0_SX54\nFSMS1_SA1\nFSMS1_SA2\nFSMS1_SI1504\nFSMS1_SI2134\nFSMS1_SI874\nFSMS1_SX154\nFSMS1_SX334\nFSMS1_SX64\nFSPM0_SA1\nFSPM0_SI1871\nFSPM0_SI611\nFSPM0_SX341\nFSPM0_SX431\nFSRH0_SA1\nFSRH0_SA2\nFSRH0_SI1719\nFSRH0_SX131\nFSRH0_SX41\nFSSB0_SA1\nFSSB0_SA2\nFSSB0_SI1082\nFSSB0_SI2342\nFSSB0_SX182\nFSSB0_SX272\nFSSB0_SX452\nFSSB0_SX92\nFTAJ0_SA1\nFTAJ0_SA2\nFTAJ0_SI1329\nFTAJ0_SI474\nFTAJ0_SX339\nFTAJ0_SX69\nFTBR0_SA1\nFTBR0_SA2\nFTBR0_SI2181\nFTBR0_SX111\nFTBR0_SX201\nFTBR0_SX291\nFTBR0_SX381\nFTBW0_SA2\nFTBW0_SI1345\nFTBW0_SI1975\nFTBW0_SX265\nFTBW0_SX355\nFTBW0_SX445\nFTBW0_SX85\nFTLG0_SA1\nFTLG0_SA2\nFTLG0_SI840\nFTLG0_SX123\nFTLG0_SX213\nFTLG0_SX303\nFTLG0_SX33\nFTLG0_SX393\nFTMG0_SA1\nFTMG0_SA2\nFTMG0_SX182\nFTMG0_SX272\nFTMG0_SX362\nFTMG0_SX92\nFVFB0_SA1\nFVFB0_SI1032\nFVFB0_SI2292\nFVFB0_SX222\nFVFB0_SX312\nFVFB0_SX402\nFVKB0_SA2\nFVKB0_SI1159\nFVKB0_SI1789\nFVKB0_SI529\nFVKB0_SX169\nFVKB0_SX259\nFVKB0_SX439\nFVKB0_SX79\nFVMH0_SA1\nFVMH0_SI2096\nFVMH0_SX206\nFVMH0_SX296\nFVMH0_SX386\nMABC0_SA1\nMABC0_SA2\nMABC0_SX151\nMABC0_SX241\nMABC0_SX331\nMABC0_SX421\nMABC0_SX61\nMADC0_SA1\nMADC0_SA2\nMADC0_SI1997\nMADC0_SX17\nMADC0_SX197\nMADC0_SX287\nMADD0_SA1\nMADD0_SI1798\nMADD0_SI538\nMADD0_SX358\nMADD0_SX448\nMAEB0_SA1\nMAEB0_SA2\nMAEB0_SI2250\nMAEB0_SI990\nMAEB0_SX180\nMAEB0_SX270\nMAEB0_SX360\nMAEB0_SX90\nMAEO0_SA2\nMAEO0_SI1655\nMAEO0_SI1956\nMAEO0_SX156\nMAEO0_SX246\nMAEO0_SX336\nMAEO0_SX426\nMAEO0_SX66\nMAFM0_SA1\nMAFM0_SA2\nMAFM0_SI1569\nMAFM0_SI2199\nMAFM0_SX219\nMAFM0_SX39\nMAFM0_SX399\nMAJP0_SA1\nMAJP0_SI1074\nMAJP0_SI2334\nMAJP0_SX264\nMAJP0_SX354\nMAJP0_SX444\nMAJP0_SX84\nMAKB0_SA1\nMAKB0_SX206\nMAKB0_SX296\nMAKR0_SA1\nMAKR0_SA2\nMAKR0_SI1352\nMAKR0_SI1982\nMAKR0_SI722\nMAKR0_SX182\nMAKR0_SX272\nMAKR0_SX452\nMAPV0_SA1\nMAPV0_SA2\nMAPV0_SI1923\nMAPV0_SX123\nMAPV0_SX303\nMAPV0_SX33\nMAPV0_SX393\nMARC0_SA1\nMARC0_SI1188\nMARC0_SI1818\nMARC0_SI558\nMARC0_SX288\nMARC0_SX378\nMARW0_SA1\nMARW0_SA2\nMARW0_SI1276\nMARW0_SI646\nMARW0_SX106\nMARW0_SX16\nMARW0_SX376\nMBAR0_SA2\nMBAR0_SI1319\nMBAR0_SI1949\nMBAR0_SI689\nMBAR0_SX149\nMBAR0_SX239\nMBAR0_SX329\nMBBR0_SA1\nMBBR0_SA2\nMBBR0_SI1685\nMBBR0_SX155\nMBBR0_SX245\nMBBR0_SX425\nMBCG0_SA2\nMBCG0_SI2217\nMBCG0_SX147\nMBCG0_SX237\nMBCG0_SX417\nMBCG0_SX57\nMBEF0_SA1\nMBEF0_SA2\nMBEF0_SX111\nMBEF0_SX201\nMBEF0_SX291\nMBGT0_SA1\nMBGT0_SI1341\nMBGT0_SI711\nMBGT0_SX81\nMBJV0_SA2\nMBJV0_SI1247\nMBJV0_SI1877\nMBJV0_SX167\nMBJV0_SX257\nMBJV0_SX437\nMBJV0_SX77\nMBMA0_SA1\nMBMA0_SA2\nMBMA0_SI1852\nMBMA0_SX142\nMBMA0_SX322\nMBMA0_SX412\nMBMA1_SA1\nMBMA1_SA2\nMBMA1_SI2207\nMBMA1_SX144\nMBMA1_SX234\nMBMA1_SX414\nMBML0_SA1\nMBML0_SI1799\nMBML0_SI539\nMBML0_SX179\nMBML0_SX269\nMBML0_SX359\nMBML0_SX449\nMBOM0_SA1\nMBOM0_SI1014\nMBOM0_SI1644\nMBOM0_SX114\nMBOM0_SX204\nMBOM0_SX311\nMBOM0_SX384\nMBSB0_SA2\nMBSB0_SI1353\nMBSB0_SI1983\nMBSB0_SI723\nMBSB0_SX183\nMBSB0_SX273\nMBSB0_SX363\nMBSB0_SX93\nMBTH0_SA1\nMBTH0_SI505\nMBTH0_SI757\nMBTH0_SX212\nMBTH0_SX302\nMBTH0_SX392\nMBWP0_SA1\nMBWP0_SA2\nMBWP0_SI1531\nMBWP0_SI1969\nMBWP0_SI709\nMBWP0_SX169\nMBWP0_SX259\nMBWP0_SX439\nMBWP0_SX79\nMCAE0_SA1\nMCAE0_SA2\nMCAE0_SX187\nMCAE0_SX367\nMCAE0_SX7\nMCAE0_SX97\nMCAL0_SA1\nMCAL0_SI508\nMCAL0_SX148\nMCAL0_SX238\nMCAL0_SX328\nMCAL0_SX418\nMCAL0_SX58\nMCDC0_SA2\nMCDC0_SI1292\nMCDC0_SI1922\nMCDC0_SI662\nMCDC0_SX122\nMCDC0_SX302\nMCDC0_SX32\nMCDC0_SX392\nMCDD0_SA1\nMCDD0_SI1513\nMCDD0_SI2143\nMCDD0_SX163\nMCDD0_SX343\nMCDD0_SX73\nMCDR0_SA1\nMCDR0_SA2\nMCDR0_SX164\nMCDR0_SX254\nMCDR0_SX344\nMCDR0_SX434\nMCDR0_SX74\nMCEF0_SA1\nMCEF0_SA2\nMCEF0_SI1135\nMCEF0_SI1765\nMCEF0_SX145\nMCEF0_SX325\nMCEF0_SX55\nMCEW0_SI1442\nMCEW0_SX182\nMCEW0_SX272\nMCEW0_SX92\nMCHL0_SA1\nMCHL0_SA2\nMCHL0_SI1977\nMCHL0_SX177\nMCHL0_SX267\nMCHL0_SX357\nMCHL0_SX447\nMCLK0_SA1\nMCLK0_SA2\nMCLK0_SI1660\nMCLK0_SX130\nMCLK0_SX220\nMCLK0_SX40\nMCLK0_SX400\nMCLM0_SA2\nMCLM0_SI1456\nMCLM0_SX106\nMCLM0_SX16\nMCLM0_SX196\nMCLM0_SX286\nMCLM0_SX376\nMCPM0_SA2\nMCPM0_SI1194\nMCPM0_SI564\nMCPM0_SX204\nMCPM0_SX24\nMCRE0_SA1\nMCRE0_SA2\nMCRE0_SI1121\nMCRE0_SI1725\nMCRE0_SI1751\nMCRE0_SX131\nMCRE0_SX221\nMCRE0_SX24\nMCRE0_SX401\nMCRE0_SX41\nMCSS0_SA1\nMCSS0_SA2\nMCSS0_SX120\nMCSS0_SX210\nMCSS0_SX30\nMCSS0_SX300\nMCSS0_SX390\nMCTH0_SA2\nMCTH0_SI1209\nMCTH0_SI1839\nMCTH0_SI579\nMCTH0_SX129\nMCTH0_SX219\nMCTH0_SX309\nMCTH0_SX399\nMCTM0_SA1\nMCTM0_SA2\nMCTM0_SI720\nMCTM0_SX180\nMCTM0_SX270\nMCTM0_SX360\nMCTM0_SX450\nMCTM0_SX90\nMCXM0_SA1\nMCXM0_SA2\nMCXM0_SI1351\nMCXM0_SI1981\nMCXM0_SI721\nMCXM0_SX181\nMCXM0_SX271\nMCXM0_SX361\nMCXM0_SX451\nMDAC0_SA2\nMDAC0_SI1261\nMDAC0_SI1837\nMDAC0_SX271\nMDAC0_SX451\nMDAC0_SX91\nMDAS0_SA1\nMDAS0_SA2\nMDAS0_SI1266\nMDAS0_SX186\nMDAS0_SX21\nMDAS0_SX276\nMDAS0_SX96\nMDBB1_SA1\nMDBB1_SA2\nMDBB1_SI1006\nMDBB1_SI1636\nMDBB1_SI2056\nMDBB1_SX196\nMDBB1_SX286\nMDBP0_SA1\nMDBP0_SA2\nMDBP0_SI1158\nMDBP0_SI1788\nMDBP0_SX258\nMDBP0_SX348\nMDBP0_SX78\nMDCD0_SA1\nMDCD0_SA2\nMDCD0_SI2045\nMDCD0_SX155\nMDCD0_SX65\nMDCM0_SA1\nMDCM0_SA2\nMDCM0_SI2110\nMDCM0_SI850\nMDCM0_SX130\nMDCM0_SX220\nMDCM0_SX310\nMDDC0_SA1\nMDDC0_SA2\nMDDC0_SX249\nMDDC0_SX339\nMDDC0_SX429\nMDED0_SI1170\nMDED0_SI1800\nMDED0_SX180\nMDED0_SX270\nMDED0_SX360\nMDED0_SX450\nMDED0_SX90\nMDEF0_SA1\nMDEF0_SA2\nMDEF0_SI1563\nMDEF0_SI2193\nMDEF0_SX213\nMDEF0_SX33\nMDEF0_SX393\nMDEM0_SA2\nMDEM0_SI1868\nMDEM0_SX158\nMDEM0_SX248\nMDEM0_SX338\nMDEM0_SX68\nMDHL0_SA1\nMDHL0_SA2\nMDHL0_SI2069\nMDHL0_SI809\nMDHL0_SX179\nMDHL0_SX359\nMDHL0_SX89\nMDHS0_SX180\nMDHS0_SX270\nMDHS0_SX360\nMDHS0_SX450\nMDHS0_SX90\nMDJM0_SA1\nMDJM0_SA2\nMDJM0_SI2085\nMDJM0_SI825\nMDJM0_SX195\nMDJM0_SX285\nMDJM0_SX375\nMDKS0_SA1\nMDKS0_SA2\nMDKS0_SI1066\nMDKS0_SI1696\nMDKS0_SI2326\nMDKS0_SX256\nMDKS0_SX76\nMDLB0_SA1\nMDLB0_SI1936\nMDLB0_SI676\nMDLB0_SX226\nMDLB0_SX316\nMDLB0_SX46\nMDLC0_SA1\nMDLC0_SA2\nMDLC0_SI765\nMDLC0_SX135\nMDLC0_SX225\nMDLC0_SX315\nMDLC0_SX45\nMDLC1_SA1\nMDLC1_SX175\nMDLC1_SX265\nMDLC1_SX355\nMDLC1_SX85\nMDLC2_SA1\nMDLC2_SA2\nMDLC2_SI1614\nMDLC2_SI984\nMDLC2_SX174\nMDLC2_SX264\nMDLC2_SX444\nMDLC2_SX84\nMDLH0_SA1\nMDLH0_SI1960\nMDLH0_SI574\nMDLH0_SI700\nMDLH0_SX250\nMDLH0_SX340\nMDLH0_SX70\nMDLM0_SA1\nMDLM0_SA2\nMDLM0_SX244\nMDLM0_SX334\nMDLM0_SX64\nMDLR0_SI1233\nMDLR0_SX243\nMDLR0_SX423\nMDLR0_SX63\nMDLR1_SI1299\nMDLR1_SI1929\nMDLR1_SX129\nMDLR1_SX219\nMDLR1_SX309\nMDLR1_SX39\nMDLR1_SX399\nMDMA0_SA1\nMDMA0_SA2\nMDMA0_SI1238\nMDMA0_SI2060\nMDMT0_SI2341\nMDMT0_SI572\nMDMT0_SX212\nMDMT0_SX302\nMDMT0_SX392\nMDNS0_SA1\nMDNS0_SX111\nMDNS0_SX291\nMDNS0_SX381\nMDPB0_SA1\nMDPB0_SA2\nMDPB0_SI2126\nMDPB0_SX146\nMDPB0_SX236\nMDPB0_SX326\nMDPB0_SX56\nMDPK0_SA1\nMDPK0_SA2\nMDPK0_SI1683\nMDPK0_SI552\nMDPK0_SX153\nMDPK0_SX243\nMDPK0_SX63\nMDPS0_SA1\nMDPS0_SA2\nMDPS0_SI1651\nMDPS0_SI1979\nMDPS0_SX179\nMDPS0_SX269\nMDPS0_SX449\nMDPS0_SX89\nMDRD0_SA2\nMDRD0_SI1382\nMDRD0_SI2012\nMDRD0_SX122\nMDRD0_SX212\nMDRD0_SX302\nMDRD0_SX392\nMDSJ0_SA1\nMDSJ0_SA2\nMDSJ0_SI832\nMDSJ0_SX112\nMDSJ0_SX22\nMDSJ0_SX292\nMDSJ0_SX382\nMDSS0_SA1\nMDSS0_SI1881\nMDSS0_SI2087\nMDSS0_SI621\nMDSS0_SX171\nMDSS0_SX261\nMDSS0_SX351\nMDSS0_SX81\nMDSS1_SA2\nMDSS1_SI1713\nMDSS1_SX247\nMDSS1_SX337\nMDSS1_SX427\nMDTB0_SA1\nMDTB0_SA2\nMDTB0_SI570\nMDTB0_SX210\nMDTB0_SX300\nMDTB0_SX321\nMDTB0_SX390\nMDWD0_SA1\nMDWD0_SI1890\nMDWD0_SI557\nMDWD0_SX180\nMDWD0_SX360\nMDWD0_SX450\nMDWH0_SA2\nMDWH0_SI1925\nMDWH0_SX125\nMDWH0_SX35\nMDWH0_SX395\nMDWM0_SI1546\nMDWM0_SI2176\nMDWM0_SX106\nMDWM0_SX376\nMDWM0_SX433\nMEAL0_SA1\nMEAL0_SI1547\nMEAL0_SI917\nMEAL0_SX197\nMEAL0_SX287\nMEAL0_SX377\nMEDR0_SI744\nMEDR0_SX114\nMEDR0_SX204\nMEDR0_SX24\nMEDR0_SX294\nMEDR0_SX384\nMEFG0_SA2\nMEFG0_SI465\nMEFG0_SX105\nMEFG0_SX15\nMEFG0_SX195\nMEFG0_SX285\nMEFG0_SX375\nMEGJ0_SI1967\nMEGJ0_SX437\nMEGJ0_SX77\nMEJL0_SA2\nMEJL0_SI1592\nMEJL0_SI1654\nMEJL0_SI962\nMEJL0_SX332\nMEJL0_SX422\nMEJL0_SX62\nMEJS0_SA1\nMEJS0_SA2\nMEJS0_SI1870\nMEJS0_SX250\nMEJS0_SX430\nMEJS0_SX70\nMESG0_SA1\nMESG0_SA2\nMESG0_SI1332\nMESG0_SI1962\nMESG0_SX162\nMESG0_SX252\nMESG0_SX342\nMESG0_SX72\nMESJ0_SA1\nMESJ0_SA2\nMESJ0_SI2257\nMESJ0_SI997\nMESJ0_SX277\nMESJ0_SX367\nMESJ0_SX7\nMEWM0_SA1\nMEWM0_SA2\nMEWM0_SI1348\nMEWM0_SI1978\nMEWM0_SX268\nMEWM0_SX358\nMEWM0_SX448\nMFER0_SA1\nMFER0_SA2\nMFER0_SI1492\nMFER0_SI2122\nMFER0_SX232\nMFER0_SX322\nMFER0_SX412\nMFER0_SX52\nMFMC0_SA1\nMFMC0_SA2\nMFMC0_SI1132\nMFMC0_SI1762\nMFMC0_SI502\nMFMC0_SX142\nMFMC0_SX232\nMFMC0_SX322\nMFMC0_SX412\nMFMC0_SX52\nMFRM0_SA1\nMFRM0_SA2\nMFRM0_SI1155\nMFRM0_SI1717\nMFRM0_SI1785\nMFRM0_SX165\nMFRM0_SX255\nMFRM0_SX75\nMFWK0_SA1\nMFWK0_SA2\nMFWK0_SI1249\nMFWK0_SI619\nMFWK0_SX259\nMFWK0_SX439\nMFWK0_SX79\nMFXS0_SA1\nMFXS0_SA2\nMFXS0_SI1674\nMFXS0_SI2225\nMFXS0_SI2304\nMFXS0_SX144\nMFXS0_SX234\nMFXS0_SX414\nMFXV0_SA1\nMFXV0_SI1635\nMFXV0_SX15\nMFXV0_SX195\nMFXV0_SX285\nMFXV0_SX375\nMGAF0_SA2\nMGAF0_SI1912\nMGAF0_SI652\nMGAF0_SX112\nMGAF0_SX202\nMGAF0_SX292\nMGAG0_SA1\nMGAG0_SI1321\nMGAG0_SI645\nMGAG0_SX151\nMGAG0_SX241\nMGAG0_SX331\nMGAG0_SX421\nMGAG0_SX61\nMGAK0_SA1\nMGAK0_SA2\nMGAK0_SI1666\nMGAK0_SI2296\nMGAK0_SX316\nMGAK0_SX406\nMGAR0_SA1\nMGAR0_SA2\nMGAR0_SI1212\nMGAR0_SI1694\nMGAR0_SI1842\nMGAR0_SX222\nMGAR0_SX402\nMGAR0_SX42\nMGAW0_SA1\nMGAW0_SA2\nMGAW0_SI1802\nMGAW0_SX265\nMGAW0_SX355\nMGAW0_SX445\nMGAW0_SX85\nMGES0_SA2\nMGES0_SI1481\nMGES0_SX131\nMGES0_SX221\nMGES0_SX401\nMGES0_SX41\nMGJC0_SA1\nMGJC0_SI1256\nMGJC0_SI1335\nMGJC0_SI1965\nMGJC0_SX165\nMGJC0_SX255\nMGJC0_SX345\nMGRL0_SA1\nMGRL0_SA2\nMGRL0_SI1497\nMGRL0_SX237\nMGRL0_SX417\nMGRL0_SX57\nMGRP0_SA1\nMGRP0_SI1947\nMGRP0_SI687\nMGRP0_SX147\nMGRP0_SX237\nMGRP0_SX417\nMGRP0_SX57\nMGSH0_SA1\nMGSH0_SX186\nMGSH0_SX96\nMGSL0_SA2\nMGSL0_SI1164\nMGSL0_SX174\nMGSL0_SX354\nMGSL0_SX444\nMGSL0_SX84\nMGXP0_SA1\nMGXP0_SA2\nMGXP0_SI457\nMGXP0_SX277\nMGXP0_SX367\nMGXP0_SX97\nMHBS0_SA1\nMHBS0_SA2\nMHBS0_SI1575\nMHBS0_SI2205\nMHBS0_SX135\nMHBS0_SX225\nMHBS0_SX405\nMHIT0_SA2\nMHIT0_SI1613\nMHIT0_SI2243\nMHIT0_SX173\nMHIT0_SX263\nMHIT0_SX353\nMHIT0_SX443\nMHIT0_SX83\nMHJB0_SA2\nMHJB0_SI1647\nMHJB0_SI2277\nMHJB0_SX117\nMHJB0_SX207\nMHJB0_SX27\nMHJB0_SX297\nMHJB0_SX387\nMHMG0_SA1\nMHMG0_SA2\nMHMG0_SI1365\nMHMG0_SI1995\nMHMG0_SX105\nMHMG0_SX15\nMHMG0_SX285\nMHMG0_SX375\nMHMR0_SA2\nMHMR0_SI1119\nMHMR0_SX129\nMHMR0_SX219\nMHMR0_SX309\nMHMR0_SX39\nMHMR0_SX399\nMHRM0_SA2\nMHRM0_SI1475\nMHRM0_SI2218\nMHRM0_SX238\nMHRM0_SX328\nMHRM0_SX418\nMHXL0_SA1\nMHXL0_SA2\nMHXL0_SI512\nMHXL0_SI612\nMHXL0_SX152\nMHXL0_SX332\nMHXL0_SX422\nMHXL0_SX62\nMILB0_SA1\nMILB0_SI2163\nMILB0_SI807\nMILB0_SX183\nMILB0_SX273\nMILB0_SX3\nMILB0_SX363\nMILB0_SX93\nMJAC0_SA1\nMJAC0_SA2\nMJAC0_SI1331\nMJAC0_SI2148\nMJAC0_SX341\nMJAC0_SX431\nMJAE0_SA1\nMJAE0_SA2\nMJAE0_SI1524\nMJAE0_SI1999\nMJAE0_SI2154\nMJAE0_SX264\nMJAE0_SX354\nMJAE0_SX444\nMJAI0_SI1604\nMJAI0_SX164\nMJAI0_SX254\nMJAI0_SX344\nMJAI0_SX434\nMJAI0_SX74\nMJBG0_SA1\nMJBG0_SA2\nMJBG0_SI1232\nMJBG0_SI1724\nMJBG0_SI1862\nMJBG0_SX152\nMJBG0_SX242\nMJBG0_SX332\nMJBG0_SX422\nMJDA0_SA1\nMJDA0_SA2\nMJDA0_SI1661\nMJDA0_SI2291\nMJDA0_SX131\nMJDA0_SX221\nMJDA0_SX401\nMJDA0_SX41\nMJDC0_SA1\nMJDC0_SA2\nMJDC0_SI1161\nMJDC0_SI2165\nMJDC0_SX171\nMJDC0_SX261\nMJDC0_SX351\nMJDC0_SX441\nMJDC0_SX81\nMJDE0_SA2\nMJDE0_SX130\nMJDE0_SX310\nMJDE0_SX40\nMJDE0_SX400\nMJDG0_SA1\nMJDG0_SI1672\nMJDG0_SX142\nMJDG0_SX232\nMJDG0_SX322\nMJDG0_SX412\nMJDG0_SX52\nMJDM0_SA2\nMJDM0_SI1937\nMJDM0_SX260\nMJDM0_SX440\nMJDM0_SX80\nMJEB0_SA1\nMJEB0_SA2\nMJEB0_SI1286\nMJEB0_SI1916\nMJEB0_SX206\nMJEB0_SX26\nMJEB0_SX386\nMJEB1_SA1\nMJEB1_SI2097\nMJEB1_SX117\nMJEB1_SX27\nMJEB1_SX297\nMJEE0_SA2\nMJEE0_SI1237\nMJEE0_SI1867\nMJEE0_SI607\nMJEE0_SX157\nMJEE0_SX427\nMJEE0_SX67\nMJFH0_SA1\nMJFH0_SI1737\nMJFH0_SI477\nMJFH0_SX117\nMJFH0_SX207\nMJFH0_SX27\nMJFH0_SX297\nMJFH0_SX387\nMJFR0_SA2\nMJFR0_SI1605\nMJFR0_SI2235\nMJFR0_SI975\nMJFR0_SX165\nMJFR0_SX255\nMJFR0_SX345\nMJHI0_SA2\nMJHI0_SI555\nMJHI0_SI698\nMJHI0_SX248\nMJHI0_SX338\nMJHI0_SX428\nMJHI0_SX68\nMJJB0_SA2\nMJJB0_SI1139\nMJJB0_SI1277\nMJJB0_SI1769\nMJJB0_SX149\nMJJB0_SX329\nMJJB0_SX419\nMJJB0_SX59\nMJJJ0_SA1\nMJJJ0_SA2\nMJJJ0_SI1793\nMJJJ0_SI533\nMJJJ0_SX173\nMJJJ0_SX263\nMJJJ0_SX353\nMJJJ0_SX83\nMJJM0_SA1\nMJJM0_SI1457\nMJJM0_SX17\nMJJM0_SX197\nMJJM0_SX287\nMJJM0_SX377\nMJKR0_SA2\nMJKR0_SI1201\nMJKR0_SI1831\nMJKR0_SX121\nMJKR0_SX211\nMJKR0_SX301\nMJKR0_SX31\nMJKR0_SX391\nMJLB0_SA1\nMJLB0_SA2\nMJLB0_SI2246\nMJLB0_SI986\nMJLB0_SX266\nMJLB0_SX356\nMJLB0_SX446\nMJLB0_SX86\nMJLG1_SA1\nMJLG1_SA2\nMJLG1_SI1012\nMJLG1_SI1642\nMJLG1_SI2272\nMJLG1_SX112\nMJLG1_SX202\nMJLG1_SX22\nMJLG1_SX382\nMJLS0_SA1\nMJLS0_SA2\nMJLS0_SI1096\nMJLS0_SI466\nMJLS0_SX16\nMJLS0_SX196\nMJLS0_SX286\nMJLS0_SX376\nMJMA0_SI1495\nMJMA0_SI865\nMJMA0_SX145\nMJMA0_SX235\nMJMA0_SX325\nMJMA0_SX415\nMJMA0_SX55\nMJMD0_SA1\nMJMD0_SI1028\nMJMD0_SI1658\nMJMD0_SX128\nMJMD0_SX218\nMJMD0_SX398\nMJMM0_SA1\nMJMM0_SA2\nMJMM0_SI1885\nMJMM0_SI625\nMJMM0_SX265\nMJMM0_SX355\nMJMM0_SX445\nMJPG0_SA1\nMJPG0_SA2\nMJPG0_SI561\nMJPG0_SX291\nMJPG0_SX381\nMJPM0_SA1\nMJPM0_SI1998\nMJPM0_SI738\nMJPM0_SX108\nMJPM0_SX18\nMJPM0_SX198\nMJPM0_SX288\nMJPM1_SA1\nMJPM1_SA2\nMJPM1_SI1897\nMJPM1_SI761\nMJPM1_SX131\nMJPM1_SX221\nMJPM1_SX41\nMJRA0_SI606\nMJRA0_SX156\nMJRA0_SX246\nMJRA0_SX66\nMJRG0_SA1\nMJRG0_SA2\nMJRG0_SX106\nMJRG0_SX16\nMJRG0_SX286\nMJRH0_SA1\nMJRH0_SA2\nMJRH0_SI1125\nMJRH0_SI1755\nMJRH0_SX135\nMJRH0_SX315\nMJRH0_SX405\nMJRH0_SX45\nMJRH1_SA2\nMJRH1_SI1774\nMJRH1_SX334\nMJRH1_SX64\nMJRK0_SI2103\nMJRK0_SX340\nMJRK0_SX70\nMJRP0_SI1835\nMJRP0_SI585\nMJRP0_SX135\nMJRP0_SX315\nMJRP0_SX405\nMJRP0_SX45\nMJSR0_SA2\nMJSR0_SX164\nMJSR0_SX254\nMJSR0_SX434\nMJSR0_SX74\nMJWG0_SA2\nMJWG0_SI2155\nMJWG0_SX355\nMJWG0_SX445\nMJWG0_SX85\nMJWS0_SA1\nMJWS0_SA2\nMJWS0_SI1143\nMJWS0_SI1773\nMJWS0_SX243\nMJWS0_SX423\nMJWT0_SA2\nMJWT0_SI751\nMJXA0_SA1\nMJXA0_SA2\nMJXA0_SI1507\nMJXA0_SI2137\nMJXA0_SI877\nMJXA0_SX157\nMJXA0_SX247\nMJXA0_SX337\nMJXA0_SX67\nMJXL0_SA1\nMJXL0_SA2\nMJXL0_SI1795\nMJXL0_SX182\nMJXL0_SX272\nMJXL0_SX362\nMJXL0_SX452\nMJXL0_SX92\nMKAG0_SA2\nMKAG0_SI1609\nMKAG0_SI2239\nMKAG0_SX169\nMKAG0_SX30\nMKAG0_SX439\nMKAG0_SX79\nMKAH0_SA1\nMKAH0_SA2\nMKAH0_SI1528\nMKAH0_SI2158\nMKAH0_SI898\nMKAH0_SX268\nMKAH0_SX358\nMKAH0_SX448\nMKAH0_SX88\nMKAJ0_SA1\nMKAJ0_SI1414\nMKAJ0_SI2044\nMKAJ0_SI784\nMKAJ0_SX244\nMKAJ0_SX334\nMKAJ0_SX424\nMKAJ0_SX64\nMKAM0_SA2\nMKAM0_SI1316\nMKAM0_SX236\nMKAM0_SX416\nMKDB0_SI2132\nMKDB0_SI588\nMKDB0_SI872\nMKDB0_SX242\nMKDB0_SX332\nMKDB0_SX422\nMKDB0_SX62\nMKDD0_SA1\nMKDD0_SX127\nMKDD0_SX217\nMKDD0_SX307\nMKDD0_SX37\nMKDD0_SX397\nMKDT0_SA1\nMKDT0_SA2\nMKDT0_SI2153\nMKDT0_SI893\nMKDT0_SX173\nMKDT0_SX263\nMKDT0_SX353\nMKDT0_SX443\nMKDT0_SX83\nMKES0_SA2\nMKES0_SX263\nMKES0_SX353\nMKES0_SX443\nMKES0_SX83\nMKJO0_SA1\nMKJO0_SA2\nMKJO0_SI2147\nMKJO0_SX167\nMKJO0_SX257\nMKJO0_SX424\nMKJO0_SX77\nMKLN0_SA1\nMKLN0_SA2\nMKLN0_SI1598\nMKLN0_SI2228\nMKLN0_SX158\nMKLN0_SX338\nMKLN0_SX428\nMKLN0_SX68\nMKLR0_SA1\nMKLR0_SI1059\nMKLR0_SI2319\nMKLR0_SX159\nMKLR0_SX249\nMKLR0_SX339\nMKLR0_SX429\nMKLR0_SX69\nMKLS0_SA2\nMKLS0_SI1533\nMKLS0_SX177\nMKLS0_SX267\nMKLS0_SX447\nMKLS1_SI1545\nMKLS1_SI2175\nMKLS1_SX105\nMKLS1_SX15\nMKLS1_SX195\nMKLS1_SX285\nMKLW0_SA2\nMKLW0_SI1844\nMKLW0_SI2201\nMKLW0_SX131\nMKLW0_SX221\nMKLW0_SX401\nMKLW0_SX41\nMKRG0_SA1\nMKRG0_SA2\nMKRG0_SI1491\nMKRG0_SI2121\nMKRG0_SX141\nMKRG0_SX231\nMKRG0_SX31\nMKRG0_SX51\nMKXL0_SA1\nMKXL0_SI1185\nMKXL0_SX105\nMKXL0_SX195\nMKXL0_SX285\nMLBC0_SA2\nMLBC0_SI609\nMLBC0_SX159\nMLBC0_SX339\nMLBC0_SX429\nMLBC0_SX69\nMLEL0_SI1876\nMLEL0_SX346\nMLEL0_SX76\nMLJC0_SA1\nMLJC0_SA2\nMLJC0_SI1855\nMLJC0_SI595\nMLJC0_SX235\nMLJC0_SX325\nMLJC0_SX55\nMLJH0_SI1324\nMLJH0_SX154\nMLJH0_SX334\nMLJH0_SX424\nMLNS0_SA1\nMLNS0_SA2\nMLNS0_SI1407\nMLNS0_SI777\nMLNS0_SX147\nMLNS0_SX237\nMLNS0_SX327\nMLNS0_SX417\nMLNS0_SX57\nMLSH0_SA1\nMLSH0_SA2\nMLSH0_SI2047\nMLSH0_SI787\nMLSH0_SX157\nMLSH0_SX337\nMLSH0_SX427\nMLSH0_SX67\nMMAA0_SI2105\nMMAA0_SX125\nMMAA0_SX215\nMMAA0_SX305\nMMAA0_SX395\nMMAB1_SA1\nMMAB1_SA2\nMMAB1_SI2124\nMMAB1_SX144\nMMAB1_SX414\nMMAB1_SX54\nMMAG0_SI496\nMMAG0_SX226\nMMAG0_SX406\nMMAG0_SX46\nMMAM0_SA1\nMMAM0_SA2\nMMAM0_SI1597\nMMAM0_SI1668\nMMAM0_SX247\nMMAM0_SX337\nMMAM0_SX67\nMMAR0_SA1\nMMAR0_SA2\nMMAR0_SI1336\nMMAR0_SI706\nMMAR0_SX436\nMMAR0_SX76\nMMBS0_SA1\nMMBS0_SA2\nMMBS0_SI1151\nMMBS0_SX251\nMMBS0_SX341\nMMBS0_SX431\nMMBS0_SX71\nMMCC0_SA1\nMMCC0_SI1968\nMMCC0_SI708\nMMCC0_SX168\nMMCC0_SX258\nMMCC0_SX348\nMMCC0_SX438\nMMCC0_SX78\nMMDB0_SA1\nMMDB0_SA2\nMMDB0_SI1358\nMMDB0_SI1617\nMMDB0_SX267\nMMDB0_SX357\nMMDB0_SX447\nMMDB0_SX87\nMMDG0_SI2035\nMMDG0_SX340\nMMDG0_SX430\nMMDG0_SX70\nMMDM0_SA1\nMMDM0_SA2\nMMDM0_SX231\nMMDM0_SX321\nMMDM0_SX411\nMMDM0_SX51\nMMDM1_SA1\nMMDM1_SI1650\nMMDM1_SI783\nMMDM1_SX243\nMMDS0_SA2\nMMDS0_SI1343\nMMDS0_SI1973\nMMDS0_SI713\nMMDS0_SX173\nMMDS0_SX263\nMMDS0_SX353\nMMDS0_SX443\nMMDS0_SX83\nMMEA0_SA2\nMMEA0_SI1388\nMMEA0_SI2018\nMMEA0_SI758\nMMEA0_SX218\nMMEA0_SX308\nMMEA0_SX38\nMMEB0_SA1\nMMEB0_SI1357\nMMEB0_SI1987\nMMEB0_SI727\nMMEB0_SX7\nMMEB0_SX97\nMMGC0_SA1\nMMGC0_SI1935\nMMGC0_SI2184\nMMGC0_SX315\nMMGC0_SX405\nMMGC0_SX45\nMMGG0_SA1\nMMGG0_SA2\nMMGG0_SI1709\nMMGG0_SI2339\nMMGG0_SX179\nMMGG0_SX359\nMMGG0_SX89\nMMGK0_SA1\nMMGK0_SA2\nMMGK0_SI1322\nMMGK0_SI1952\nMMGK0_SI692\nMMGK0_SX152\nMMGK0_SX242\nMMGK0_SX422\nMMJB1_SA1\nMMJB1_SI1408\nMMJB1_SI2038\nMMJB1_SI778\nMMJB1_SX148\nMMJB1_SX238\nMMJB1_SX328\nMMJB1_SX418\nMMJB1_SX58\nMMLM0_SA1\nMMLM0_SA2\nMMLM0_SI1527\nMMLM0_SI897\nMMLM0_SX177\nMMLM0_SX267\nMMLM0_SX357\nMMLM0_SX447\nMMLM0_SX87\nMMPM0_SA1\nMMPM0_SA2\nMMPM0_SI1061\nMMPM0_SI1691\nMMPM0_SI2321\nMMPM0_SX251\nMMPM0_SX341\nMMPM0_SX431\nMMPM0_SX71\nMMRP0_SA1\nMMRP0_SI2034\nMMRP0_SI717\nMMRP0_SI774\nMMRP0_SX234\nMMRP0_SX414\nMMRP0_SX54\nMMSM0_SA1\nMMSM0_SA2\nMMSM0_SI1736\nMMSM0_SX26\nMMSM0_SX296\nMMSM0_SX386\nMMVP0_SI1284\nMMVP0_SI1914\nMMVP0_SX114\nMMVP0_SX204\nMMVP0_SX294\nMMVP0_SX384\nMMWB0_SA2\nMMWB0_SI1619\nMMWB0_SX179\nMMWB0_SX269\nMMWS0_SA1\nMMWS0_SI1518\nMMWS0_SI559\nMMWS0_SI888\nMMWS0_SX258\nMMWS0_SX78\nMMWS1_SA1\nMMWS1_SA2\nMMWS1_SI1071\nMMWS1_SI2331\nMMWS1_SX261\nMMWS1_SX27\nMMWS1_SX351\nMMWS1_SX441\nMMWS1_SX81\nMMXS0_SA1\nMMXS0_SA2\nMMXS0_SI629\nMMXS0_SI876\nMMXS0_SX156\nMMXS0_SX336\nMMXS0_SX66\nMNET0_SA1\nMNET0_SA2\nMNET0_SI1446\nMNET0_SI2076\nMNET0_SX186\nMNET0_SX276\nMNET0_SX366\nMNET0_SX96\nMNTW0_SA1\nMNTW0_SI2328\nMNTW0_SX202\nMNTW0_SX258\nMNTW0_SX348\nMPAR0_SA1\nMPAR0_SA2\nMPAR0_SI1576\nMPAR0_SX226\nMPAR0_SX406\nMPAR0_SX46\nMPEB0_SA1\nMPEB0_SA2\nMPEB0_SX150\nMPEB0_SX420\nMPEB0_SX60\nMPFU0_SA1\nMPFU0_SA2\nMPFU0_SI1888\nMPFU0_SX178\nMPFU0_SX268\nMPFU0_SX358\nMPFU0_SX88\nMPGH0_SA1\nMPGH0_SA2\nMPGH0_SI1554\nMPGH0_SI924\nMPGH0_SX204\nMPGH0_SX294\nMPGH0_SX384\nMPGR0_SA1\nMPGR0_SA2\nMPGR0_SI2040\nMPGR0_SI780\nMPGR0_SX150\nMPGR0_SX420\nMPGR0_SX60\nMPGR1_SA1\nMPGR1_SA2\nMPGR1_SI1269\nMPGR1_SI2129\nMPGR1_SX239\nMPGR1_SX329\nMPGR1_SX419\nMPGR1_SX59\nMPMB0_SX241\nMPPC0_SA2\nMPPC0_SI2042\nMPPC0_SI782\nMPPC0_SX152\nMPPC0_SX242\nMPPC0_SX332\nMPPC0_SX422\nMPPC0_SX62\nMPRB0_SA1\nMPRB0_SA2\nMPRB0_SI1205\nMPRB0_SX125\nMPRB0_SX215\nMPRB0_SX305\nMPRB0_SX35\nMPRB0_SX395\nMPRD0_SA2\nMPRD0_SI1431\nMPRD0_SI2061\nMPRK0_SA2\nMPRK0_SX17\nMPRK0_SX197\nMPRT0_SA2\nMPRT0_SI1210\nMPRT0_SI495\nMPRT0_SI580\nMPRT0_SX130\nMPRT0_SX220\nMPRT0_SX40\nMPRT0_SX400\nMPSW0_SA1\nMPSW0_SA2\nMPSW0_SI1697\nMPSW0_SI2327\nMPSW0_SX24\nMPSW0_SX257\nMPSW0_SX77\nMRAB0_SA1\nMRAB0_SA2\nMRAB0_SI1224\nMRAB0_SI594\nMRAB0_SX144\nMRAB0_SX234\nMRAB0_SX324\nMRAB0_SX414\nMRAB0_SX54\nMRAB1_SA1\nMRAB1_SA2\nMRAB1_SI1478\nMRAB1_SI2108\nMRAB1_SX218\nMRAB1_SX38\nMRAB1_SX398\nMRAI0_SI1954\nMRAI0_SX162\nMRAI0_SX252\nMRAI0_SX342\nMRAM0_SI1275\nMRAM0_SI1905\nMRAM0_SX105\nMRAM0_SX195\nMRAM0_SX285\nMRAM0_SX375\nMRAV0_SA1\nMRAV0_SA2\nMRAV0_SI1008\nMRAV0_SI1638\nMRAV0_SI2268\nMRAV0_SX108\nMRAV0_SX18\nMRAV0_SX198\nMRAV0_SX288\nMRAV0_SX378\nMRBC0_SA1\nMRBC0_SA2\nMRBC0_SI1665\nMRBC0_SI599\nMRBC0_SX149\nMRBC0_SX239\nMRBC0_SX59\nMRCG0_SA1\nMRCG0_SI2058\nMRCG0_SX258\nMRCG0_SX78\nMRCW0_SA2\nMRCW0_SI1371\nMRCW0_SI2001\nMRCW0_SX111\nMRCW0_SX201\nMRCW0_SX21\nMRCW0_SX381\nMRDD0_SA1\nMRDD0_SA2\nMRDD0_SI1050\nMRDD0_SI2310\nMRDD0_SX240\nMRDD0_SX330\nMRDM0_SA1\nMRDM0_SA2\nMRDM0_SI965\nMRDM0_SX155\nMRDM0_SX245\nMRDM0_SX425\nMRDS0_SA2\nMRDS0_SI1167\nMRDS0_SI1797\nMRDS0_SI537\nMRDS0_SX177\nMRDS0_SX267\nMRDS0_SX357\nMRDS0_SX447\nMRDS0_SX87\nMREE0_SA1\nMREE0_SA2\nMREE0_SI1734\nMREE0_SX114\nMREE0_SX204\nMREE0_SX294\nMREE0_SX384\nMREH1_SA2\nMREH1_SI2229\nMREH1_SX159\nMREH1_SX339\nMREH1_SX429\nMREM0_SA1\nMREM0_SI1591\nMREM0_SI961\nMREM0_SX151\nMREM0_SX241\nMREM0_SX331\nMREM0_SX421\nMREM0_SX61\nMREW1_SA1\nMREW1_SA2\nMREW1_SI1500\nMREW1_SI2130\nMREW1_SX150\nMREW1_SX240\nMREW1_SX330\nMREW1_SX420\nMREW1_SX60\nMRFK0_SA1\nMRFK0_SA2\nMRFK0_SI1706\nMRFK0_SI2336\nMRFK0_SX176\nMRFK0_SX266\nMRFK0_SX356\nMRFK0_SX86\nMRFL0_SA2\nMRFL0_SI1786\nMRFL0_SX346\nMRGM0_SA1\nMRGM0_SI1162\nMRGM0_SI1792\nMRGM0_SX416\nMRGM0_SX82\nMRGS0_SA1\nMRGS0_SI1986\nMRGS0_SX276\nMRGS0_SX366\nMRGS0_SX96\nMRHL0_SA1\nMRHL0_SA2\nMRHL0_SI1515\nMRHL0_SI2145\nMRHL0_SX165\nMRHL0_SX255\nMRHL0_SX75\nMRJB1_SI1020\nMRJB1_SX300\nMRJH0_SA1\nMRJH0_SI914\nMRJH0_SX259\nMRJH0_SX439\nMRJM0_SA1\nMRJM0_SA2\nMRJM0_SI1095\nMRJM0_SI1228\nMRJM0_SI1858\nMRJM0_SX238\nMRJM0_SX328\nMRJM0_SX418\nMRJM0_SX58\nMRJM1_SA1\nMRJM1_SI668\nMRJM1_SX218\nMRJM1_SX308\nMRJM1_SX38\nMRJM1_SX398\nMRJT0_SA1\nMRJT0_SI1805\nMRJT0_SX148\nMRJT0_SX238\nMRKM0_SA1\nMRKM0_SX187\nMRKM0_SX277\nMRKM0_SX7\nMRKM0_SX97\nMRLD0_SA1\nMRLD0_SI1594\nMRLD0_SI964\nMRLD0_SX244\nMRLD0_SX334\nMRLD0_SX64\nMRLJ0_SA2\nMRLJ0_SI1420\nMRLJ0_SI2050\nMRLJ0_SX160\nMRLJ0_SX430\nMRLJ0_SX70\nMRLJ1_SI1671\nMRLJ1_SI2332\nMRLJ1_SX141\nMRLJ1_SX231\nMRLJ1_SX411\nMRLJ1_SX51\nMRLK0_SA1\nMRLK0_SA2\nMRLK0_SI2140\nMRLK0_SX303\nMRLK0_SX33\nMRLK0_SX393\nMRLR0_SA1\nMRLR0_SA2\nMRLR0_SI1826\nMRLR0_SI566\nMRLR0_SX116\nMRLR0_SX206\nMRLR0_SX26\nMRLR0_SX296\nMRLR0_SX386\nMRMB0_SA1\nMRMB0_SI2211\nMRMB0_SI951\nMRMB0_SX141\nMRMB0_SX231\nMRMB0_SX321\nMRMB0_SX51\nMRMG0_SA2\nMRMG0_SI1710\nMRMG0_SI2340\nMRMG0_SX180\nMRMG0_SX270\nMRMG0_SX360\nMRMG0_SX90\nMRMH0_SA1\nMRMH0_SA2\nMRMH0_SI1021\nMRMH0_SX211\nMRMH0_SX301\nMRMH0_SX31\nMRMH0_SX391\nMRML0_SI2051\nMRML0_SI791\nMRML0_SX431\nMRML0_SX71\nMRMS0_SA1\nMRMS0_SA2\nMRMS0_SI1113\nMRMS0_SI2100\nMRMS0_SX120\nMRMS0_SX210\nMRMS0_SX30\nMRMS0_SX300\nMRMS0_SX390\nMRPC1_SA1\nMRPC1_SA2\nMRPC1_SI1482\nMRPC1_SI2026\nMRPC1_SX132\nMRPC1_SX222\nMRPC1_SX312\nMRPC1_SX402\nMRPC1_SX42\nMRRE0_SI704\nMRRE0_SX254\nMRRE0_SX434\nMRSO0_SA1\nMRSO0_SA2\nMRSO0_SI1659\nMRSO0_SI2289\nMRSO0_SX219\nMRSO0_SX309\nMRSO0_SX399\nMRSP0_SA1\nMRSP0_SA2\nMRSP0_SI2059\nMRSP0_SI799\nMRSP0_SX169\nMRSP0_SX196\nMRSP0_SX439\nMRSP0_SX79\nMRTC0_SA1\nMRTC0_SA2\nMRTC0_SI2088\nMRTC0_SI828\nMRTC0_SX108\nMRTC0_SX18\nMRTC0_SX198\nMRTC0_SX288\nMRTJ0_SA2\nMRTJ0_SI1551\nMRTJ0_SI2032\nMRTJ0_SX322\nMRTJ0_SX412\nMRVG0_SA1\nMRVG0_SA2\nMRVG0_SI1770\nMRVG0_SI510\nMRVG0_SX150\nMRVG0_SX330\nMRVG0_SX420\nMRVG0_SX60\nMRWA0_SA1\nMRWA0_SA2\nMRWA0_SI1603\nMRWA0_SI2233\nMRWA0_SX253\nMRWA0_SX343\nMRWA0_SX433\nMRWS0_SA1\nMRWS0_SA2\nMRWS0_SX112\nMRWS0_SX202\nMRWS0_SX292\nMRXB0_SA1\nMRXB0_SI1585\nMRXB0_SX145\nMRXB0_SX235\nMRXB0_SX325\nMRXB0_SX55\nMSAH1_SA1\nMSAH1_SA2\nMSAH1_SI1049\nMSAH1_SI2309\nMSAH1_SX149\nMSAH1_SX239\nMSAH1_SX329\nMSAH1_SX419\nMSAH1_SX59\nMSAS0_SA1\nMSAS0_SA2\nMSAS0_SI2006\nMSAS0_SX26\nMSAS0_SX296\nMSAT0_SA2\nMSAT0_SI1526\nMSAT0_SI2156\nMSAT0_SI896\nMSAT0_SX176\nMSAT0_SX266\nMSAT0_SX356\nMSAT0_SX446\nMSAT0_SX86\nMSAT1_SA1\nMSAT1_SA2\nMSAT1_SI1073\nMSAT1_SI1703\nMSAT1_SI2333\nMSAT1_SX173\nMSAT1_SX353\nMSDB0_SA1\nMSDB0_SA2\nMSDB0_SI1007\nMSDB0_SI1637\nMSDB0_SI2267\nMSDB0_SX107\nMSDB0_SX17\nMSDH0_SA1\nMSDH0_SA2\nMSDH0_SI2113\nMSDH0_SX260\nMSDH0_SX350\nMSDS0_SA2\nMSDS0_SI1707\nMSDS0_SI2337\nMSDS0_SX177\nMSDS0_SX447\nMSDS0_SX87\nMSEM1_SA1\nMSEM1_SA2\nMSEM1_SX360\nMSEM1_SX450\nMSEM1_SX90\nMSES0_SA1\nMSES0_SA2\nMSES0_SI2216\nMSES0_SI2219\nMSES0_SX149\nMSES0_SX329\nMSES0_SX59\nMSFH0_SA2\nMSFH0_SI1216\nMSFH0_SI586\nMSFH0_SX226\nMSFH0_SX46\nMSFV0_SA1\nMSFV0_SA2\nMSFV0_SI1262\nMSFV0_SX182\nMSFV0_SX272\nMSFV0_SX452\nMSJK0_SA1\nMSJK0_SA2\nMSJK0_SI2226\nMSJK0_SI966\nMSJK0_SX156\nMSJK0_SX246\nMSJK0_SX426\nMSJK0_SX66\nMSMC0_SA1\nMSMC0_SA2\nMSMC0_SI1907\nMSMC0_SI647\nMSMC0_SX107\nMSMC0_SX17\nMSMC0_SX197\nMSMC0_SX287\nMSMC0_SX377\nMSMR0_SA1\nMSMR0_SA2\nMSMR0_SI1405\nMSMR0_SI775\nMSMR0_SX145\nMSMR0_SX235\nMSMR0_SX325\nMSMR0_SX55\nMSMS0_SA2\nMSMS0_SI2063\nMSMS0_SI803\nMSMS0_SX263\nMSMS0_SX353\nMSMS0_SX443\nMSRG0_SA2\nMSRG0_SI1851\nMSRG0_SI591\nMSRG0_SX141\nMSRG0_SX231\nMSRG0_SX321\nMSRG0_SX411\nMSRG0_SX51\nMSRR0_SA1\nMSRR0_SA2\nMSRR0_SI1131\nMSRR0_SX141\nMSRR0_SX231\nMSRR0_SX30\nMSRR0_SX411\nMSRR0_SX51\nMSTF0_SA1\nMSTF0_SA2\nMSTF0_SI1396\nMSTF0_SX136\nMSTF0_SX226\nMSTF0_SX406\nMSVS0_SA1\nMSVS0_SI1568\nMSVS0_SX128\nMSVS0_SX218\nMSVS0_SX38\nMTAB0_SA1\nMTAB0_SA2\nMTAB0_SI2202\nMTAB0_SI942\nMTAB0_SX132\nMTAB0_SX222\nMTAB0_SX402\nMTAB0_SX42\nMTAS0_SA1\nMTAS0_SA2\nMTAS0_SI1385\nMTAS0_SI2015\nMTAS0_SI755\nMTAS0_SX125\nMTAS0_SX305\nMTAT0_SA2\nMTAT0_SI1740\nMTAT0_SX120\nMTAT0_SX210\nMTAT0_SX30\nMTAT0_SX300\nMTAT1_SA1\nMTAT1_SA2\nMTAT1_SI1409\nMTAT1_SI1627\nMTAT1_SX239\nMTAT1_SX419\nMTBC0_SA1\nMTBC0_SA2\nMTBC0_SI1173\nMTBC0_SX183\nMTBC0_SX273\nMTBC0_SX347\nMTBC0_SX363\nMTBC0_SX93\nMTCS0_SA1\nMTCS0_SI1972\nMTCS0_SX172\nMTCS0_SX262\nMTCS0_SX352\nMTCS0_SX442\nMTDB0_SA1\nMTDB0_SA2\nMTDB0_SI2031\nMTDB0_SX141\nMTDB0_SX231\nMTDB0_SX321\nMTDB0_SX411\nMTDB0_SX51\nMTDP0_SI1274\nMTDP0_SI2151\nMTDP0_SX261\nMTDP0_SX441\nMTDP0_SX81\nMTER0_SI527\nMTER0_SX167\nMTER0_SX17\nMTER0_SX257\nMTER0_SX77\nMTJG0_SA2\nMTJG0_SI1520\nMTJG0_SI890\nMTJG0_SX350\nMTJG0_SX440\nMTJG0_SX80\nMTJM0_SA1\nMTJM0_SA2\nMTJM0_SI1226\nMTJM0_SI655\nMTJM0_SX236\nMTJM0_SX326\nMTJM0_SX416\nMTJM0_SX56\nMTJS0_SA1\nMTJS0_SI1192\nMTJS0_SX112\nMTJS0_SX202\nMTJS0_SX22\nMTJS0_SX292\nMTJU0_SA1\nMTJU0_SA2\nMTJU0_SI2269\nMTJU0_SI760\nMTJU0_SX220\nMTJU0_SX310\nMTJU0_SX40\nMTKD0_SA1\nMTKD0_SA2\nMTKD0_SI1187\nMTKD0_SI1817\nMTKD0_SX17\nMTKD0_SX197\nMTKD0_SX377\nMTKP0_SA1\nMTKP0_SA2\nMTKP0_SX123\nMTKP0_SX213\nMTKP0_SX303\nMTKP0_SX33\nMTKP0_SX393\nMTLB0_SA2\nMTLB0_SI1764\nMTLB0_SI504\nMTLB0_SX144\nMTLB0_SX414\nMTLB0_SX54\nMTLC0_SA2\nMTLC0_SI847\nMTLC0_SX127\nMTLC0_SX217\nMTLC0_SX307\nMTLC0_SX37\nMTLC0_SX397\nMTML0_SA1\nMTML0_SA2\nMTML0_SI1065\nMTML0_SI1695\nMTML0_SX255\nMTML0_SX345\nMTML0_SX75\nMTMN0_SA1\nMTMN0_SX164\nMTMN0_SX254\nMTMN0_SX344\nMTMN0_SX74\nMTMT0_SA1\nMTMT0_SI1118\nMTMT0_SX128\nMTMT0_SX218\nMTMT0_SX308\nMTMT0_SX38\nMTMT0_SX398\nMTPF0_SA1\nMTPF0_SA2\nMTPF0_SI1235\nMTPF0_SI1865\nMTPF0_SI605\nMTPF0_SX155\nMTPF0_SX245\nMTPF0_SX335\nMTPF0_SX425\nMTPG0_SA1\nMTPG0_SA2\nMTPG0_SI2013\nMTPG0_SX123\nMTPG0_SX213\nMTPG0_SX33\nMTPG0_SX393\nMTPP0_SA1\nMTPP0_SA2\nMTPP0_SI2138\nMTPP0_SI878\nMTPP0_SX158\nMTPP0_SX248\nMTPP0_SX428\nMTPP0_SX68\nMTPR0_SA1\nMTPR0_SA2\nMTPR0_SI1600\nMTPR0_SI506\nMTPR0_SX250\nMTPR0_SX70\nMTQC0_SA2\nMTQC0_SI2071\nMTQC0_SX271\nMTQC0_SX361\nMTRC0_SA1\nMTRC0_SA2\nMTRC0_SI1623\nMTRC0_SI993\nMTRC0_SX170\nMTRC0_SX183\nMTRC0_SX273\nMTRC0_SX363\nMTRC0_SX93\nMTRR0_SA1\nMTRR0_SA2\nMTRR0_SI1548\nMTRR0_SI2178\nMTRR0_SX108\nMTRR0_SX18\nMTRR0_SX378\nMTRT0_SA1\nMTRT0_SI1857\nMTRT0_SI597\nMTRT0_SX147\nMTRT0_SX237\nMTRT0_SX417\nMTWH1_SA1\nMTWH1_SA2\nMTWH1_SI1512\nMTWH1_SI2142\nMTWH1_SI882\nMTWH1_SX162\nMTWH1_SX252\nMTWH1_SX342\nMTWH1_SX432\nMTXS0_SI1690\nMTXS0_SX250\nMTXS0_SX340\nMTXS0_SX70\nMVJH0_SA1\nMVJH0_SA2\nMVJH0_SI2186\nMVJH0_SX116\nMVJH0_SX26\nMVJH0_SX386\nMVLO0_SA2\nMVLO0_SI1147\nMVLO0_SI1777\nMVLO0_SX157\nMVLO0_SX247\nMVLO0_SX337\nMVLO0_SX427\nMVLO0_SX67\nMVRW0_SA1\nMVRW0_SI1485\nMVRW0_SI2115\nMVRW0_SI855\nMVRW0_SX315\nMVRW0_SX405\nMVRW0_SX45\nMWAC0_SA1\nMWAC0_SI2231\nMWAC0_SI971\nMWAC0_SX71\nMWAD0_SA1\nMWAD0_SA2\nMWAD0_SI1062\nMWAD0_SI1749\nMWAD0_SI2322\nMWAD0_SX162\nMWAD0_SX252\nMWAD0_SX342\nMWAR0_SA2\nMWAR0_SI2305\nMWAR0_SX145\nMWAR0_SX235\nMWAR0_SX325\nMWAR0_SX415\nMWAR0_SX55\nMWCH0_SA1\nMWCH0_SA2\nMWCH0_SI1622\nMWCH0_SX272\nMWCH0_SX362\nMWCH0_SX92\nMWDK0_SX266\nMWDK0_SX356\nMWDK0_SX446\nMWEM0_SA1\nMWEM0_SI1950\nMWEM0_SX240\nMWEM0_SX330\nMWEM0_SX60\nMWGR0_SA1\nMWGR0_SA2\nMWGR0_SI1606\nMWGR0_SI2236\nMWGR0_SI976\nMWGR0_SX166\nMWGR0_SX256\nMWGR0_SX436\nMWGR0_SX76\nMWRE0_SA1\nMWRE0_SI1687\nMWRE0_SI2317\nMWRE0_SX157\nMWRP0_SA2\nMWRP0_SI1525\nMWRP0_SI2073\nMWRP0_SX183\nMWRP0_SX3\nMWRP0_SX93\nMWSB0_SA1\nMWSB0_SA2\nMWSB0_SI1626\nMWSB0_SI2256\nMWSB0_SX186\nMWSB0_SX366\nMWSB0_SX6\nMWSB0_SX96\nMWSH0_SA1\nMWSH0_SA2\nMWSH0_SI2266\nMWSH0_SX346\nMWSH0_SX436\nMZMB0_SA2\nMZMB0_SI1166\nMZMB0_SI1796\nMZMB0_SI536\nMZMB0_SX176\nMZMB0_SX266\nMZMB0_SX356\nMZMB0_SX446\nMZMB0_SX86\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/config/timit_unmatched/train_text.uid",
    "content": "FAEM0_SI762\nFAEM0_SX42\nFAJW0_SA1\nFAJW0_SX3\nFAJW0_SX93\nFALK0_SX186\nFALK0_SX6\nFALR0_SI1325\nFBAS0_SA1\nFBAS0_SX217\nFBCG1_SA1\nFBCG1_SX172\nFBCG1_SX442\nFBCH0_SX236\nFBCH0_SX416\nFBLV0_SA1\nFBLV0_SI1058\nFBLV0_SX338\nFBLV0_SX68\nFBMH0_SA1\nFBMJ0_SI815\nFCAG0_SA1\nFCAG0_SX153\nFCAG0_SX243\nFCAJ0_SI1479\nFCAJ0_SX309\nFCDR1_SX106\nFCDR1_SX196\nFCEG0_SA2\nFCJF0_SA1\nFCJF0_SX127\nFCJS0_SI1607\nFCJS0_SI2237\nFCJS0_SX257\nFCKE0_SA2\nFCKE0_SX121\nFCLT0_SI2068\nFCLT0_SX448\nFCLT0_SX88\nFCMG0_SA2\nFCMG0_SI1872\nFCMG0_SX72\nFCMM0_SA1\nFCMM0_SA2\nFCMM0_SX183\nFCRZ0_SI2053\nFCRZ0_SX433\nFCYL0_SA1\nFCYL0_SX37\nFDAS1_SI2091\nFDAS1_SX201\nFDAS1_SX381\nFDAW0_SI1406\nFDFB0_SA1\nFDFB0_SA2\nFDFB0_SI2010\nFDFB0_SX58\nFDJH0_SX305\nFDML0_SA2\nFDML0_SX159\nFDML0_SX249\nFDML0_SX429\nFDMY0_SA2\nFDMY0_SX27\nFDNC0_SX198\nFDNC0_SX288\nFDTD0_SX211\nFDXW0_SA1\nFDXW0_SX251\nFDXW0_SX341\nFDXW0_SX71\nFEAC0_SX165\nFEAC0_SX75\nFEAR0_SI622\nFECD0_SX68\nFEEH0_SA1\nFEEH0_SI1742\nFEEH0_SI471\nFEEH0_SX122\nFEME0_SA1\nFEME0_SX155\nFEME0_SX65\nFETB0_SA1\nFETB0_SI1148\nFETB0_SX158\nFEXM0_SI1101\nFGCS0_SX136\nFGCS0_SX226\nFGCS0_SX316\nFGCS0_SX406\nFGDP0_SA1\nFGMB0_SI1775\nFGMB0_SX245\nFHLM0_SX390\nFHXS0_SA2\nFHXS0_SX445\nFJDM2_SA1\nFJDM2_SX232\nFJDM2_SX52\nFJHK0_SX302\nFJKL0_SX212\nFJKL0_SX392\nFJLG0_SI2306\nFJLR0_SA1\nFJRP1_SI2062\nFJRP1_SX82\nFJSK0_SA1\nFJSP0_SX264\nFJSP0_SX354\nFJSP0_SX444\nFJWB1_SA1\nFJWB1_SX345\nFJWB1_SX435\nFJXM0_SA1\nFJXM0_SI581\nFJXM0_SX401\nFJXP0_SA1\nFJXP0_SI1122\nFJXP0_SX132\nFKAA0_SX128\nFKAA0_SX398\nFKDE0_SA1\nFKDE0_SX151\nFKDE0_SX241\nFKDE0_SX421\nFKDE0_SX61\nFKDW0_SX397\nFKFB0_SA2\nFKFB0_SX348\nFKFB0_SX78\nFKKH0_SA1\nFKKH0_SA2\nFKKH0_SX120\nFKKH0_SX390\nFKLC0_SX355\nFKLC1_SI2308\nFKLC1_SX238\nFKLC1_SX328\nFKLC1_SX418\nFKLH0_SA2\nFKLH0_SX177\nFKSR0_SA1\nFKSR0_SA2\nFKSR0_SI1747\nFKSR0_SI487\nFKSR0_SX217\nFLAC0_SX451\nFLAG0_SA2\nFLAG0_SX114\nFLAG0_SX204\nFLAG0_SX24\nFLAG0_SX384\nFLEH0_SI1681\nFLEH0_SI2311\nFLEH0_SX331\nFLET0_SA1\nFLHD0_SI1827\nFLHD0_SX354\nFLJA0_SA1\nFLJA0_SI2338\nFLJD0_SI886\nFLJD0_SX76\nFLJG0_SA2\nFLKM0_SA2\nFLKM0_SI686\nFLKM0_SX260\nFLKM0_SX80\nFLMA0_SA1\nFLMA0_SI613\nFLMA0_SX433\nFLMA0_SX73\nFLMC0_SX22\nFLMK0_SI1035\nFLMK0_SX315\nFLMK0_SX405\nFLOD0_SI1917\nFLOD0_SX117\nFLOD0_SX171\nFLOD0_SX297\nFLTM0_SA1\nFLTM0_SI1070\nFLTM0_SI2330\nFMAH1_SA2\nFMAH1_SX159\nFMBG0_SA2\nFMBG0_SI2264\nFMEM0_SI747\nFMEM0_SX387\nFMJB0_SI547\nFMJB0_SX97\nFMJF0_SA2\nFMJU0_SX309\nFMJU0_SX399\nFMKC0_SI1702\nFMKC0_SX442\nFMKC0_SX82\nFMKF0_SX186\nFMPG0_SA2\nFNKL0_SI1522\nFNTB0_SI1203\nFNTB0_SI573\nFNTB0_SX303\nFPAB1_SI1471\nFPAB1_SX211\nFPAC0_SA2\nFPAD0_SA2\nFPAD0_SX356\nFPAD0_SX86\nFPAF0_SA2\nFPAF0_SX154\nFPAZ0_SA1\nFPAZ0_SA2\nFPAZ0_SX243\nFPJF0_SA1\nFPJF0_SX146\nFPJF0_SX56\nFPLS0_SI1590\nFPLS0_SX330\nFPMY0_SA1\nFPMY0_SX343\nFREH0_SA1\nFREH0_SA2\nFREH0_SX415\nFRJB0_SX347\nFRLL0_SX434\nFSAG0_SA1\nFSAG0_SX243\nFSAH0_SA1\nFSAH0_SA2\nFSAH0_SX164\nFSAH0_SX434\nFSBK0_SA2\nFSBK0_SI1069\nFSBK0_SX169\nFSCN0_SA2\nFSCN0_SI626\nFSCN0_SX266\nFSCN0_SX446\nFSCN0_SX86\nFSDC0_SA2\nFSDC0_SX142\nFSDC0_SX322\nFSDC0_SX52\nFSDJ0_SI485\nFSDJ0_SX215\nFSDJ0_SX305\nFSDJ0_SX395\nFSGF0_SX117\nFSJG0_SX130\nFSJK1_SA2\nFSJK1_SX125\nFSJK1_SX35\nFSJS0_SX181\nFSJW0_SI1963\nFSJW0_SX433\nFSKC0_SI1416\nFSKC0_SI786\nFSKC0_SX246\nFSKL0_SI1529\nFSKL0_SX449\nFSKP0_SA2\nFSLS0_SX156\nFSLS0_SX426\nFSMA0_SA2\nFSMA0_SX181\nFSMM0_SX144\nFSMM0_SX234\nFSMS1_SX244\nFSMS1_SX347\nFSPM0_SA2\nFSPM0_SX161\nFSPM0_SX71\nFSRH0_SI1931\nFSRH0_SI671\nFSRH0_SX221\nFSRH0_SX401\nFTAJ0_SI699\nFTAJ0_SX159\nFTAJ0_SX249\nFTAJ0_SX429\nFTBR0_SX21\nFTBW0_SA1\nFTMG0_SI1532\nFTMG0_SI2162\nFTMG0_SX452\nFVFB0_SA2\nFVFB0_SX132\nFVFB0_SX42\nFVKB0_SA1\nFVMH0_SA2\nFVMH0_SX116\nFVMH0_SX26\nMABC0_SI1620\nMABC0_SI2041\nMABC0_SI781\nMADC0_SX107\nMADC0_SX377\nMADD0_SA2\nMADD0_SI1295\nMADD0_SX178\nMADD0_SX268\nMADD0_SX88\nMAEB0_SX450\nMAEO0_SA1\nMAFM0_SI939\nMAFM0_SX129\nMAFM0_SX309\nMAJP0_SA2\nMAKB0_SI1646\nMAKB0_SX26\nMAKB0_SX386\nMAKR0_SX362\nMAKR0_SX92\nMAPV0_SX213\nMARC0_SA2\nMARC0_SX108\nMARC0_SX18\nMARC0_SX198\nMARW0_SI1906\nMBAR0_SA1\nMBAR0_SX419\nMBAR0_SX59\nMBBR0_SI2315\nMBBR0_SX65\nMBCG0_SA1\nMBCG0_SI486\nMBEF0_SI1281\nMBEF0_SI1911\nMBEF0_SI651\nMBEF0_SX21\nMBEF0_SX381\nMBGT0_SA2\nMBGT0_SX261\nMBGT0_SX351\nMBGT0_SX441\nMBJV0_SA1\nMBJV0_SI617\nMBJV0_SX347\nMBMA0_SI592\nMBMA0_SX232\nMBMA0_SX52\nMBMA1_SI2214\nMBMA1_SX54\nMBML0_SA2\nMBML0_SI1169\nMBML0_SX89\nMBOM0_SA2\nMBOM0_SI2274\nMBOM0_SX294\nMBSB0_SA1\nMBSB0_SX3\nMBTH0_SA2\nMBTH0_SX122\nMBTH0_SX32\nMCAE0_SX277\nMCAL0_SA2\nMCAL0_SI1768\nMCDC0_SA1\nMCDC0_SX212\nMCDD0_SA2\nMCDD0_SI883\nMCDD0_SX253\nMCDD0_SX433\nMCDR0_SI1154\nMCEF0_SX235\nMCEF0_SX415\nMCEW0_SA2\nMCHL0_SX87\nMCLK0_SX310\nMCLM0_SA1\nMCLM0_SI2086\nMCLM0_SI826\nMCPM0_SA1\nMCPM0_SX114\nMCPM0_SX294\nMCPM0_SX384\nMCSS0_SI750\nMCTH0_SA1\nMCTH0_SX39\nMCXM0_SX91\nMDAC0_SA1\nMDAC0_SX181\nMDAC0_SX361\nMDAS0_SX6\nMDBB1_SX106\nMDBB1_SX16\nMDBB1_SX376\nMDBP0_SX168\nMDCD0_SI1415\nMDCD0_SX245\nMDCD0_SX425\nMDCM0_SX40\nMDCM0_SX400\nMDDC0_SI2049\nMDDC0_SI789\nMDDC0_SX159\nMDDC0_SX69\nMDED0_SA1\nMDED0_SA2\nMDEF0_SX123\nMDEF0_SX303\nMDHL0_SI1439\nMDHL0_SX269\nMDHL0_SX449\nMDHS0_SA1\nMDHS0_SA2\nMDHS0_SI1530\nMDHS0_SI2160\nMDJM0_SX105\nMDJM0_SX15\nMDKS0_SX436\nMDLB0_SA2\nMDLC0_SX405\nMDLC1_SA2\nMDLC1_SI2065\nMDLC1_SI2144\nMDLC1_SX445\nMDLC2_SI2244\nMDLC2_SX354\nMDLH0_SA2\nMDLM0_SI1234\nMDLM0_SI1864\nMDLM0_SX154\nMDLM0_SX424\nMDLR0_SA1\nMDLR0_SA2\nMDLR0_SI1863\nMDLR0_SI603\nMDLR0_SX153\nMDLR1_SA1\nMDLR1_SA2\nMDMA0_SI1430\nMDMA0_SX260\nMDMA0_SX80\nMDMT0_SA1\nMDMT0_SA2\nMDMT0_SI1832\nMDMT0_SX122\nMDMT0_SX32\nMDNS0_SA2\nMDNS0_SI2271\nMDNS0_SX201\nMDNS0_SX21\nMDPB0_SX416\nMDPK0_SI1053\nMDPK0_SX333\nMDPK0_SX423\nMDPS0_SI719\nMDPS0_SX359\nMDRD0_SA1\nMDRD0_SX32\nMDSJ0_SI2092\nMDSS0_SA2\nMDSS0_SX441\nMDSS1_SA1\nMDSS1_SI1327\nMDSS1_SI697\nMDSS1_SX157\nMDSS1_SX67\nMDTB0_SI1200\nMDTB0_SI1830\nMDTB0_SX120\nMDWD0_SA2\nMDWD0_SX270\nMDWD0_SX90\nMDWH0_SX215\nMDWH0_SX305\nMDWM0_SA1\nMDWM0_SA2\nMDWM0_SX16\nMDWM0_SX286\nMEAL0_SA2\nMEAL0_SI2177\nMEAL0_SX107\nMEAL0_SX347\nMEDR0_SA1\nMEDR0_SA2\nMEDR0_SI1374\nMEFG0_SA1\nMEGJ0_SA2\nMEGJ0_SX257\nMEGJ0_SX3\nMEJL0_SA1\nMEJL0_SX152\nMEJL0_SX242\nMEJS0_SI610\nMEJS0_SX160\nMEJS0_SX340\nMESG0_SX432\nMESJ0_SX187\nMESJ0_SX97\nMEWM0_SI718\nMEWM0_SX178\nMEWM0_SX88\nMFER0_SI862\nMFER0_SX142\nMFRM0_SX345\nMFRM0_SX435\nMFWK0_SI1879\nMFWK0_SX169\nMFXS0_SX54\nMFXV0_SA2\nMFXV0_SX105\nMGAF0_SA1\nMGAF0_SX22\nMGAF0_SX382\nMGAG0_SA2\nMGAK0_SX226\nMGAK0_SX46\nMGAR0_SX132\nMGAW0_SI535\nMGAW0_SX175\nMGES0_SA1\nMGES0_SI2111\nMGES0_SI851\nMGJC0_SA2\nMGJC0_SX75\nMGRL0_SI2127\nMGRL0_SI867\nMGRL0_SX147\nMGRP0_SA2\nMGSH0_SA2\nMGSH0_SI1806\nMGSH0_SX127\nMGSH0_SX276\nMGSH0_SX6\nMGSL0_SA1\nMGSL0_SI534\nMGSL0_SX264\nMGXP0_SX187\nMGXP0_SX7\nMHBS0_SX315\nMHBS0_SX45\nMHIT0_SA1\nMHJB0_SA1\nMHJB0_SI1017\nMHMG0_SX195\nMHMR0_SA1\nMHMR0_SI489\nMHRM0_SA1\nMHRM0_SI958\nMHRM0_SX148\nMHRM0_SX58\nMHXL0_SI1772\nMHXL0_SX242\nMILB0_SA2\nMJAC0_SX307\nMJAC0_SX71\nMJAE0_SX174\nMJAI0_SA1\nMJAI0_SA2\nMJBG0_SX62\nMJDA0_SI1031\nMJDA0_SX311\nMJDE0_SI463\nMJDG0_SA2\nMJDG0_SI1042\nMJDG0_SI1705\nMJDM0_SA1\nMJDM0_SI974\nMJEB0_SI656\nMJEB0_SX296\nMJEB1_SA2\nMJEB1_SX207\nMJEB1_SX387\nMJEE0_SA1\nMJEE0_SX247\nMJEE0_SX337\nMJFH0_SA2\nMJFH0_SI1107\nMJFR0_SX75\nMJHI0_SA1\nMJHI0_SX158\nMJJB0_SA1\nMJJB0_SX239\nMJJJ0_SX443\nMJJM0_SA2\nMJJM0_SI827\nMJJM0_SX107\nMJKR0_SA1\nMJKR0_SI571\nMJLB0_SX176\nMJLG1_SX292\nMJLS0_SX106\nMJMA0_SA1\nMJMA0_SA2\nMJMD0_SA2\nMJMD0_SX308\nMJMD0_SX38\nMJMM0_SX85\nMJPG0_SI1191\nMJPG0_SX111\nMJPG0_SX201\nMJPG0_SX21\nMJPM0_SA2\nMJPM0_SX378\nMJPM1_SI2280\nMJPM1_SX401\nMJRA0_SA1\nMJRA0_SA2\nMJRA0_SI1236\nMJRA0_SI1866\nMJRA0_SX426\nMJRG0_SI1366\nMJRG0_SI1996\nMJRG0_SX376\nMJRH0_SX225\nMJRH1_SA1\nMJRH1_SI514\nMJRH1_SX154\nMJRH1_SX244\nMJRH1_SX424\nMJRK0_SA1\nMJRK0_SA2\nMJRK0_SI1662\nMJRK0_SX160\nMJRK0_SX250\nMJRK0_SX430\nMJRP0_SA1\nMJRP0_SA2\nMJRP0_SX225\nMJSR0_SA1\nMJSR0_SI1424\nMJSR0_SX344\nMJWG0_SA1\nMJWG0_SX265\nMJWS0_SI513\nMJWS0_SX153\nMJWS0_SX63\nMJWT0_SA1\nMJWT0_SX121\nMJWT0_SX211\nMJWT0_SX301\nMJWT0_SX31\nMJWT0_SX391\nMJXA0_SX427\nMJXL0_SI542\nMKAG0_SA1\nMKAG0_SX259\nMKAJ0_SA2\nMKAJ0_SX154\nMKAM0_SA1\nMKAM0_SX146\nMKAM0_SX326\nMKAM0_SX56\nMKDB0_SA1\nMKDB0_SA2\nMKDB0_SX152\nMKDD0_SA2\nMKES0_SA1\nMKES0_SI1253\nMKES0_SI1883\nMKES0_SX173\nMKJO0_SI1517\nMKJO0_SI887\nMKJO0_SX437\nMKLN0_SI968\nMKLN0_SX248\nMKLR0_SA2\nMKLR0_SI1689\nMKLS0_SA1\nMKLS0_SX357\nMKLS0_SX87\nMKLS1_SA1\nMKLS1_SA2\nMKLS1_SX375\nMKLW0_SA1\nMKRG0_SX411\nMKXL0_SA2\nMKXL0_SX15\nMKXL0_SX375\nMLBC0_SA1\nMLBC0_SI1869\nMLBC0_SX249\nMLEL0_SA1\nMLEL0_SA2\nMLEL0_SI1246\nMLEL0_SX256\nMLEL0_SX436\nMLJC0_SX145\nMLJC0_SX415\nMLJH0_SX64\nMLNS0_SI2037\nMMAA0_SA1\nMMAA0_SA2\nMMAA0_SX35\nMMAB1_SI1494\nMMAB1_SX234\nMMAG0_SA2\nMMAG0_SI1126\nMMAG0_SX316\nMMAM0_SI2227\nMMAM0_SX157\nMMAM0_SX427\nMMAR0_SX256\nMMBS0_SI1781\nMMCC0_SA2\nMMDB0_SX177\nMMDG0_SA1\nMMDG0_SA2\nMMDG0_SI520\nMMDG0_SX160\nMMDG0_SX250\nMMDM0_SI1941\nMMDM0_SI681\nMMDM0_SX141\nMMDM1_SA2\nMMDM1_SI2043\nMMDM1_SX423\nMMDM1_SX63\nMMDS0_SA1\nMMEA0_SA1\nMMEA0_SX128\nMMEA0_SX398\nMMEB0_SA2\nMMEB0_SX187\nMMEB0_SX367\nMMGC0_SA2\nMMGC0_SX135\nMMGC0_SX225\nMMGG0_SX269\nMMGK0_SX332\nMMGK0_SX62\nMMJB1_SA2\nMMRP0_SA2\nMMRP0_SX144\nMMSM0_SX116\nMMSM0_SX206\nMMVP0_SA1\nMMVP0_SA2\nMMWB0_SI989\nMMWB0_SX89\nMMWS0_SA2\nMMWS0_SX168\nMMWS0_SX348\nMMWS0_SX438\nMMWS1_SI1701\nMMXS0_SI2136\nMMXS0_SX246\nMMXS0_SX426\nMNET0_SI816\nMNET0_SX6\nMNTW0_SA2\nMNTW0_SX168\nMNTW0_SX78\nMPAR0_SI2206\nMPAR0_SI946\nMPAR0_SX136\nMPAR0_SX316\nMPEB0_SI1034\nMPEB0_SI1860\nMPEB0_SX240\nMPEB0_SX330\nMPFU0_SI628\nMPFU0_SX448\nMPGH0_SX114\nMPGH0_SX24\nMPGR0_SX240\nMPGR0_SX330\nMPGR1_SX149\nMPPC0_SA1\nMPRD0_SA1\nMPRD0_SX261\nMPRD0_SX351\nMPRD0_SX441\nMPRD0_SX81\nMPRK0_SI1727\nMPRK0_SX107\nMPRK0_SX377\nMPRT0_SA1\nMPRT0_SX310\nMPSW0_SI1067\nMPSW0_SX167\nMPSW0_SX437\nMRAB1_SX128\nMRAB1_SX308\nMRAI0_SA1\nMRAI0_SA2\nMRAI0_SX72\nMRAM0_SA1\nMRAM0_SA2\nMRAM0_SX15\nMRBC0_SI1859\nMRBC0_SX329\nMRBC0_SX419\nMRCG0_SI798\nMRCG0_SX168\nMRCW0_SA1\nMRCW0_SX291\nMRDD0_SI1680\nMRDD0_SX150\nMRDD0_SX277\nMRDD0_SX60\nMRDM0_SI1595\nMRDM0_SX65\nMRDS0_SA1\nMREE0_SX24\nMREH1_SX249\nMREH1_SX69\nMREM0_SA2\nMREW1_SI870\nMRFK0_SX446\nMRFL0_SA1\nMRFL0_SX256\nMRFL0_SX436\nMRFL0_SX76\nMRGM0_SA2\nMRGM0_SX262\nMRGS0_SA2\nMRGS0_SX186\nMRHL0_SI885\nMRHL0_SX345\nMRHL0_SX435\nMRJB1_SA1\nMRJB1_SA2\nMRJB1_SX210\nMRJB1_SX30\nMRJB1_SX390\nMRJH0_SA2\nMRJH0_SX307\nMRJH0_SX79\nMRJM0_SX148\nMRJM1_SA2\nMRJM1_SI1298\nMRJM1_SI1928\nMRJM1_SX128\nMRJT0_SA2\nMRJT0_SI1498\nMRJT0_SX328\nMRJT0_SX418\nMRKM0_SA2\nMRKM0_SX367\nMRLD0_SA2\nMRLD0_SI2224\nMRLD0_SX154\nMRLD0_SX424\nMRLJ0_SA1\nMRLJ0_SX250\nMRLJ0_SX340\nMRLJ1_SA1\nMRLJ1_SA2\nMRLJ1_SX321\nMRLK0_SI843\nMRLK0_SX123\nMRLK0_SX213\nMRMB0_SA2\nMRMB0_SI1581\nMRMB0_SX411\nMRMG0_SA1\nMRMG0_SI1080\nMRMG0_SX450\nMRMH0_SI1349\nMRMH0_SI2281\nMRMH0_SX121\nMRML0_SA2\nMRML0_SX341\nMRPC1_SI2112\nMRRE0_SA2\nMRRE0_SX164\nMRRE0_SX344\nMRRE0_SX74\nMRSO0_SX129\nMRSO0_SX39\nMRSP0_SX259\nMRTC0_SX378\nMRVG0_SI1140\nMRVG0_SX240\nMRWA0_SI973\nMRWA0_SX163\nMRWA0_SX73\nMRWS0_SI1732\nMRWS0_SI472\nMRWS0_SX22\nMRWS0_SX382\nMRXB0_SA2\nMRXB0_SX415\nMSAH1_SI1679\nMSAS0_SX116\nMSAS0_SX206\nMSAS0_SX386\nMSAT0_SA1\nMSAT1_SX263\nMSAT1_SX443\nMSAT1_SX83\nMSDB0_SX197\nMSDB0_SX287\nMSDB0_SX377\nMSDH0_SI2240\nMSDH0_SX440\nMSDH0_SX80\nMSDS0_SA1\nMSEM1_SI1440\nMSEM1_SX180\nMSEM1_SX270\nMSES0_SI1589\nMSES0_SX239\nMSES0_SX419\nMSFH0_SX316\nMSFV0_SI1892\nMSFV0_SX362\nMSFV0_SX92\nMSMR0_SX415\nMSMS0_SA1\nMSMS0_SX173\nMSMS0_SX83\nMSRG0_SA1\nMSRG0_SI1221\nMSTF0_SI766\nMSTF0_SX316\nMSTF0_SX46\nMSVS0_SA2\nMSVS0_SX308\nMTAS0_SX215\nMTAS0_SX35\nMTAS0_SX395\nMTAT0_SX390\nMTAT1_SX59\nMTBC0_SI1803\nMTCS0_SA2\nMTCS0_SI2265\nMTCS0_SX82\nMTDP0_SA2\nMTER0_SA2\nMTER0_SI1787\nMTJG0_SA1\nMTJG0_SI2157\nMTJG0_SX260\nMTJM0_SI1856\nMTJM0_SX146\nMTJU0_SX130\nMTJU0_SX400\nMTKD0_SX107\nMTKD0_SX287\nMTKP0_SI1023\nMTLB0_SA1\nMTLB0_SX234\nMTLC0_SA1\nMTML0_SI2325\nMTML0_SX165\nMTMN0_SA2\nMTMN0_SI1064\nMTMN0_SI2324\nMTMN0_SX434\nMTMT0_SA2\nMTMT0_SI1748\nMTPF0_SX65\nMTPG0_SI1383\nMTPG0_SI753\nMTPG0_SX303\nMTPP0_SX338\nMTPR0_SX340\nMTQC0_SI480\nMTQC0_SX91\nMTRR0_SX198\nMTRR0_SX288\nMTRT0_SA2\nMTRT0_SX254\nMTRT0_SX57\nMTWH1_SX72\nMTXS0_SA1\nMTXS0_SA2\nMVJH0_SI926\nMVJH0_SX206\nMVJH0_SX296\nMVLO0_SA1\nMVRW0_SA2\nMVRW0_SX135\nMVRW0_SX225\nMWAC0_SA2\nMWAC0_SX341\nMWAC0_SX431\nMWAD0_SX432\nMWAD0_SX72\nMWAR0_SA1\nMWAR0_SI1675\nMWCH0_SI1895\nMWCH0_SI2252\nMWCH0_SX182\nMWCH0_SX452\nMWDK0_SA1\nMWDK0_SA2\nMWDK0_SI2017\nMWDK0_SI806\nMWDK0_SX176\nMWDK0_SX86\nMWEM0_SA2\nMWEM0_SI1320\nMWEM0_SI1393\nMWEM0_SX150\nMWGR0_SX346\nMWRE0_SX247\nMWRE0_SX337\nMWRE0_SX427\nMWRP0_SA1\nMWRP0_SX273\nMWRP0_SX363\nMWSB0_SX276\nMWSH0_SX256\nMWSH0_SX76\nMZMB0_SA1\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/config/timit_unmatched/valid.uid",
    "content": "FAEM0_SI1392\nFAJW0_SI1263\nFAJW0_SI633\nFALK0_SI658\nFALR0_SX335\nFAPB0_SI1063\nFAPB0_SI2323\nFAPB0_SX433\nFBAS0_SI1472\nFBAS0_SI2066\nFBCG1_SX352\nFBCH0_SI959\nFBJL0_SI922\nFBLV0_SI1688\nFBMH0_SI1136\nFBMH0_SI970\nFBMJ0_SA1\nFBMJ0_SI1776\nFBMJ0_SI516\nFBMJ0_SX336\nFCDR1_SI1186\nFCDR1_SI1816\nFCDR1_SI556\nFCDR1_SX286\nFCKE0_SI1741\nFCKE0_SI481\nFCLT0_SI808\nFCMG0_SI1142\nFCMG0_SX432\nFCMM0_SI1957\nFCMM0_SX420\nFCYL0_SI667\nFCYL0_SX349\nFDAS1_SI1461\nFDAS1_SI831\nFDAW0_SI1271\nFDAW0_SI2036\nFDJH0_SI935\nFDKN0_SI1202\nFDKN0_SX181\nFDKN0_SX451\nFDMY0_SA1\nFDMY0_SI567\nFDMY0_SI714\nFDMY0_SX387\nFDNC0_SI1278\nFDNC0_SI1908\nFDTD0_SA1\nFDTD0_SX321\nFEAC0_SI615\nFEAR0_SX352\nFECD0_SA1\nFECD0_SI1418\nFECD0_SI788\nFEME0_SI875\nFEME0_SX335\nFEXM0_SA1\nFEXM0_SI482\nFEXM0_SX366\nFGDP0_SI988\nFGDP0_SX88\nFGMB0_SI1145\nFGMB0_SX335\nFGRW0_SA1\nFGRW0_SI1152\nFGRW0_SX162\nFGRW0_SX432\nFHLM0_SX120\nFHLM0_SX349\nFHXS0_SA1\nFHXS0_SI1075\nFHXS0_SI2302\nFHXS0_SX175\nFJDM2_SA2\nFJDM2_SX142\nFJEN0_SA1\nFJEN0_SX327\nFJEN0_SX417\nFJHK0_SI2282\nFJKL0_SI932\nFJLG0_SI1889\nFJLR0_SI1231\nFJRB0_SX402\nFJRP1_SA1\nFJRP1_SI1432\nFJRP1_SX262\nFJRP1_SX352\nFJSK0_SI1052\nFJSP0_SI1434\nFJWB1_SI748\nFJXM0_SX311\nFJXM0_SX41\nFJXP0_SI1752\nFKAA0_SA1\nFKDE0_SI1141\nFKDE0_SI1771\nFKDW0_SI1207\nFKDW0_SI1891\nFKFB0_SI1608\nFKFB0_SX438\nFKKH0_SI1290\nFKKH0_SI1920\nFKLC0_SI985\nFKLC0_SX175\nFKLC1_SI1048\nFKLH0_SI1257\nFKSR0_SX366\nFLAC0_SI1339\nFLAG0_SI1464\nFLAG0_SI834\nFLEH0_SI1051\nFLET0_SI507\nFLJA0_SI1078\nFLJA0_SX178\nFLJD0_SI1516\nFLJG0_SI981\nFLJG0_SX171\nFLJG0_SX351\nFLKM0_SA1\nFLKM0_SI620\nFLKM0_SX350\nFLKM0_SX440\nFLMC0_SI1372\nFLMK0_SA1\nFLMK0_SI1229\nFLTM0_SX170\nFLTM0_SX350\nFLTM0_SX440\nFMAH1_SI879\nFMBG0_SI1160\nFMEM0_SA1\nFMEM0_SX333\nFMJB0_SI1177\nFMJF0_SI624\nFMJF0_SX174\nFMJF0_SX84\nFMJU0_SI1389\nFMKC0_SI1041\nFMKF0_SI1018\nFMPG0_SA1\nFMPG0_SI972\nFMPG0_SX162\nFMPG0_SX342\nFMPG0_SX432\nFNKL0_SI892\nFNTB0_SI679\nFPAB1_SA1\nFPAB1_SI2101\nFPAB1_SI841\nFPAC0_SI1921\nFPAC0_SI661\nFPAD0_SI716\nFPAD0_SX176\nFPAF0_SA1\nFPAF0_SI1054\nFPAZ0_SI2223\nFPAZ0_SI963\nFPJF0_SI1259\nFPJF0_SX352\nFPLS0_SI960\nFPMY0_SI1153\nFPMY0_SI523\nFREH0_SI1945\nFRLL0_SI805\nFSAG0_SI1323\nFSAG0_SX153\nFSAG0_SX333\nFSAG0_SX423\nFSAH0_SI614\nFSAH0_SX327\nFSAK0_SI1300\nFSBK0_SX349\nFSCN0_SA1\nFSCN0_SI705\nFSCN0_SX176\nFSDC0_SI1312\nFSDJ0_SI1115\nFSGF0_SI2187\nFSGF0_SI927\nFSJG0_SA1\nFSJG0_SA2\nFSJG0_SI940\nFSJG0_SX220\nFSJG0_SX40\nFSJG0_SX400\nFSJS0_SA1\nFSJS0_SX451\nFSJW0_SI1333\nFSKP0_SI1098\nFSMA0_SI991\nFSMA0_SX451\nFSMM0_SX324\nFSPM0_SI1241\nFSPM0_SX251\nFSRH0_SX311\nFSSB0_SI1712\nFSSB0_SX362\nFTBR0_SI1402\nFTBR0_SI921\nFTBW0_SI715\nFTBW0_SX175\nFTLG0_SI1743\nFTLG0_SI483\nFTMG0_SI902\nFVFB0_SI1510\nFVKB0_SX349\nFVMH0_SI1466\nFVMH0_SI836\nMADC0_SI1367\nMADC0_SI737\nMAEB0_SI1411\nMAEO0_SI1326\nMAJP0_SI1704\nMAJP0_SX174\nMAKB0_SA2\nMAKB0_SI1016\nMAKB0_SI2276\nMAKB0_SX116\nMAPV0_SI1293\nMAPV0_SI663\nMARW0_SX286\nMARW0_SX349\nMBBR0_SI1055\nMBBR0_SX335\nMBCG0_SI957\nMBCG0_SX327\nMBGT0_SI1841\nMBGT0_SX171\nMBMA0_SI1222\nMBMA1_SI954\nMBMA1_SX324\nMBTH0_SI2102\nMBWP0_SX349\nMCAE0_SI1447\nMCAE0_SI2077\nMCAE0_SI817\nMCAL0_SI1138\nMCDR0_SI1784\nMCDR0_SI524\nMCEF0_SI842\nMCEW0_SA1\nMCEW0_SI2072\nMCEW0_SI812\nMCEW0_SX362\nMCEW0_SX452\nMCHL0_SI1347\nMCHL0_SI1404\nMCLK0_SI2290\nMCLK0_SI650\nMCPM0_SI1824\nMCSS0_SI1380\nMCSS0_SI688\nMCTM0_SI1350\nMCTM0_SI1980\nMDAC0_SI631\nMDAS0_SI1896\nMDAS0_SI636\nMDBP0_SI528\nMDBP0_SX438\nMDCD0_SI785\nMDCD0_SX335\nMDCM0_SI1480\nMDDC0_SI1419\nMDED0_SI540\nMDEF0_SI1123\nMDEM0_SA1\nMDEM0_SI608\nMDEM0_SI800\nMDEM0_SX428\nMDHS0_SI900\nMDJM0_SI1455\nMDKS0_SX166\nMDKS0_SX346\nMDLB0_SI1306\nMDLB0_SX136\nMDLB0_SX406\nMDLC0_SI1395\nMDLC0_SI2025\nMDLC1_SI1435\nMDLH0_SX160\nMDLH0_SX430\nMDLM0_SI604\nMDLR0_SX333\nMDLR1_SI669\nMDMA0_SX170\nMDMA0_SX350\nMDMA0_SX440\nMDNS0_SI1011\nMDNS0_SI873\nMDPB0_SI1760\nMDPB0_SI866\nMDRD0_SI752\nMDSJ0_SI1462\nMDSJ0_SX438\nMDWD0_SI1260\nMDWH0_SA1\nMDWH0_SI1168\nMDWH0_SI665\nMDWM0_SI916\nMEDR0_SI2004\nMEFG0_SI491\nMEFG0_SI598\nMEGJ0_SA1\nMEGJ0_SI1337\nMEGJ0_SI707\nMEGJ0_SX167\nMEJS0_SI1240\nMESG0_SI702\nMESJ0_SI2039\nMFWK0_SX349\nMFXS0_SX324\nMFXV0_SI1005\nMFXV0_SI1342\nMGAF0_SI1282\nMGAG0_SI691\nMGAK0_SI1036\nMGAK0_SX136\nMGAR0_SX312\nMGAW0_SI1165\nMGES0_SX311\nMGJC0_SX435\nMGRL0_SX327\nMGRP0_SI1317\nMGRP0_SX327\nMGSH0_SI1176\nMGSH0_SI546\nMGSL0_SI797\nMGXP0_SI1087\nMGXP0_SI525\nMHBS0_SI945\nMHIT0_SI983\nMHMG0_SI735\nMHMR0_SI1692\nMILB0_SI903\nMJAC0_SI701\nMJAC0_SX251\nMJAE0_SX84\nMJAI0_SI682\nMJAI0_SI710\nMJDC0_SI531\nMJDE0_SA1\nMJDE0_SI1120\nMJDE0_SI490\nMJDE0_SX220\nMJDM0_SI1340\nMJDM0_SX170\nMJDM0_SX350\nMJEB0_SX170\nMJEB1_SI1467\nMJEB1_SI837\nMJFR0_SA1\nMJFR0_SX435\nMJHI0_SI1328\nMJJJ0_SI1163\nMJJM0_SI1251\nMJLB0_SI1616\nMJLS0_SI1726\nMJMA0_SI2125\nMJMD0_SI2288\nMJMM0_SI1255\nMJMM0_SX175\nMJPG0_SI1821\nMJPM0_SI1368\nMJPM1_SX311\nMJRA0_SX336\nMJRG0_SI736\nMJRG0_SX352\nMJRH0_SI1840\nMJRH1_SI1558\nMJRK0_SI880\nMJRP0_SI1845\nMJSR0_SI2054\nMJSR0_SI794\nMJWG0_SI813\nMJWG0_SI895\nMJWG0_SX175\nMJWS0_SX333\nMJWT0_SI1291\nMJWT0_SI1381\nMJXL0_SI1172\nMKAG0_SI979\nMKAH0_SX178\nMKAM0_SI1250\nMKAM0_SI1465\nMKDD0_SI1567\nMKDD0_SI2197\nMKDD0_SI937\nMKDT0_SI814\nMKES0_SI623\nMKLS0_SI1437\nMKLS0_SI2067\nMKLS1_SI915\nMKLW0_SI1571\nMKLW0_SX311\nMKRG0_SI861\nMKXL0_SI1815\nMKXL0_SI1958\nMLBC0_SI1239\nMLEL0_SI616\nMLEL0_SX166\nMLJC0_SI1225\nMLJH0_SA1\nMLJH0_SA2\nMLJH0_SI1422\nMLJH0_SI694\nMLJH0_SX244\nMLSH0_SI1417\nMLSH0_SX247\nMMAA0_SI1588\nMMAA0_SI845\nMMAB1_SI864\nMMAB1_SX324\nMMAG0_SA1\nMMAG0_SI1756\nMMAG0_SX136\nMMAR0_SI1966\nMMAR0_SX166\nMMAR0_SX346\nMMBS0_SI521\nMMBS0_SX161\nMMCC0_SI1338\nMMDB0_SI987\nMMDG0_SI1780\nMMDM0_SI1311\nMMDM1_SX153\nMMDM1_SX333\nMMEB0_SX327\nMMGC0_SI1305\nMMGG0_SI1079\nMMGG0_SX449\nMMLM0_SI2150\nMMPM0_SX161\nMMRP0_SX324\nMMSM0_SI1106\nMMSM0_SI476\nMMVP0_SI654\nMMVP0_SX347\nMMWB0_SA1\nMMWB0_SI2249\nMMWB0_SX359\nMMWB0_SX449\nMNTW0_SI1068\nMNTW0_SI1698\nMPEB0_SI600\nMPFU0_SI1258\nMPGH0_SI675\nMPGR0_SI1410\nMPGR1_SI1499\nMPMB0_SA1\nMPMB0_SA2\nMPMB0_SI1501\nMPMB0_SI2131\nMPMB0_SI871\nMPMB0_SX151\nMPMB0_SX331\nMPMB0_SX421\nMPMB0_SX61\nMPPC0_SI1412\nMPRB0_SI1215\nMPRB0_SI575\nMPRD0_SI801\nMPRD0_SX171\nMPRK0_SA1\nMPRK0_SI1097\nMPRK0_SI467\nMPRK0_SX287\nMRAB0_SI1854\nMRAB1_SI848\nMRAI0_SI2052\nMRAI0_SI792\nMRAI0_SX432\nMRAM0_SI1951\nMRCG0_SA2\nMRCG0_SI1428\nMRCG0_SX348\nMRCG0_SX438\nMRCW0_SI741\nMRDM0_SI1044\nMRDM0_SX335\nMREE0_SI1104\nMREE0_SI1959\nMREH1_SA1\nMREH1_SI1599\nMREH1_SI969\nMREM0_SI511\nMRFK0_SI1076\nMRFL0_SI1156\nMRFL0_SI526\nMRFL0_SX166\nMRGM0_SI532\nMRGM0_SX172\nMRGM0_SX442\nMRGS0_SI1356\nMRGS0_SI726\nMRGS0_SX6\nMRJB1_SI1413\nMRJB1_SI2021\nMRJB1_SX120\nMRJH0_SI1519\nMRJH0_SI889\nMRJH0_SX169\nMRJT0_SI868\nMRJT0_SX58\nMRKM0_SI1267\nMRKM0_SI1391\nMRKM0_SI637\nMRLJ0_SI790\nMRLJ1_SI2301\nMRLK0_SI1468\nMRLR0_SI1196\nMRML0_SA1\nMRML0_SI1421\nMRML0_SX161\nMRML0_SX251\nMRMS0_SI2057\nMRRE0_SA1\nMRRE0_SI1334\nMRRE0_SI952\nMRSO0_SI1206\nMRSP0_SI1429\nMRTC0_SI1458\nMRTJ0_SA1\nMRTJ0_SI772\nMRTJ0_SX142\nMRTJ0_SX232\nMRTJ0_SX52\nMRWS0_SI1102\nMRXB0_SI2215\nMRXB0_SI955\nMSAS0_SI1376\nMSAS0_SI746\nMSDH0_SI980\nMSDH0_SX170\nMSDS0_SI1077\nMSDS0_SX267\nMSDS0_SX357\nMSEM1_SI2070\nMSEM1_SI810\nMSFH0_SA1\nMSFH0_SI1738\nMSFH0_SX136\nMSFH0_SX406\nMSFV0_SI632\nMSJK0_SI1596\nMSJK0_SX336\nMSMC0_SI509\nMSMR0_SI1150\nMSMS0_SI1433\nMSRR0_SI1761\nMSRR0_SI501\nMSTF0_SI852\nMSVS0_SI2198\nMSVS0_SI938\nMSVS0_SX398\nMTAB0_SI1572\nMTAB0_SX312\nMTAT0_SA1\nMTAT0_SI1110\nMTAT0_SI811\nMTAT1_SI779\nMTAT1_SX149\nMTAT1_SX329\nMTBC0_SI543\nMTCS0_SI712\nMTDB0_SI1401\nMTDB0_SI771\nMTDP0_SA1\nMTDP0_SI1521\nMTDP0_SX171\nMTDP0_SX351\nMTER0_SA1\nMTER0_SI1157\nMTER0_SX437\nMTJG0_SX170\nMTJS0_SA2\nMTJS0_SI1822\nMTJS0_SI562\nMTJS0_SX382\nMTJU0_SI2020\nMTKD0_SI630\nMTKP0_SI2283\nMTKP0_SI454\nMTLB0_SI1134\nMTLB0_SX324\nMTLC0_SI1313\nMTLC0_SI1477\nMTML0_SX435\nMTMN0_SI582\nMTMT0_SI488\nMTPP0_SI1508\nMTPR0_SI2230\nMTPR0_SX160\nMTPR0_SX430\nMTQC0_SA1\nMTQC0_SI1441\nMTQC0_SX181\nMTQC0_SX451\nMTRC0_SI589\nMTRR0_SI918\nMTRT0_SI1227\nMTXS0_SI1060\nMTXS0_SI2320\nMTXS0_SX160\nMTXS0_SX430\nMVJH0_SI1556\nMVLO0_SI517\nMWAC0_SI1601\nMWAC0_SX161\nMWAC0_SX251\nMWAR0_SI1045\nMWDK0_SI1436\nMWEM0_SX420\nMWRE0_SA2\nMWRE0_SI1057\nMWRE0_SX67\nMWRP0_SI1443\nMWSB0_SI996\nMWSH0_SI1426\nMWSH0_SI796\nMWSH0_SX166\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/data/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .extracted_features_dataset import ExtractedFeaturesDataset\nfrom .random_input_dataset import RandomInputDataset\n\n\n__all__ = [\n    \"ExtractedFeaturesDataset\",\n    \"RandomInputDataset\",\n]\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/data/extracted_features_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport logging\nimport os\nimport contextlib\n\nimport numpy as np\nimport torch\n\nfrom fairseq.data import FairseqDataset, data_utils\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass ExtractedFeaturesDataset(FairseqDataset):\n    def __init__(\n        self,\n        path,\n        split,\n        min_length=3,\n        max_length=None,\n        labels=None,\n        label_dict=None,\n        shuffle=True,\n        sort_by_length=True,\n        aux_target_postfix=None,\n    ):\n        super().__init__()\n\n        self.min_length = min_length\n        self.max_length = max_length\n        self.shuffle = shuffle\n        self.sort_by_length = sort_by_length\n        self.label_dict = label_dict\n\n        if labels is not None:\n            assert label_dict is not None\n\n        self.sizes = []\n        self.offsets = []\n        self.labels = []\n        self.aux_tgt = None\n\n        path = os.path.join(path, split)\n        data_path = path\n        self.data = np.load(data_path + \".npy\", mmap_mode=\"r\")\n\n        offset = 0\n        skipped = 0\n\n        if not os.path.exists(path + f\".{labels}\"):\n            labels = None\n\n        with open(data_path + \".lengths\", \"r\") as len_f, open(\n            path + f\".{labels}\", \"r\"\n        ) if labels is not None else contextlib.ExitStack() as lbl_f:\n            for line in len_f:\n                length = int(line.rstrip())\n                lbl = None if labels is None else next(lbl_f).rstrip().split()\n                if length >= min_length and (\n                    max_length is None or length <= max_length\n                ):\n                    self.sizes.append(length)\n                    self.offsets.append(offset)\n                    if lbl is not None:\n                        self.labels.append(lbl)\n                offset += length\n\n        self.sizes = np.asarray(self.sizes)\n        self.offsets = np.asarray(self.offsets)\n        \n        if aux_target_postfix is not None:\n            if not os.path.exists(path+f\".{aux_target_postfix}\"):\n                logger.info(f\"auxaliry target for {split} missing\")\n            else:\n                with open(path+f\".{aux_target_postfix}\", \"r\") as t_f:\n                    self.aux_tgt = [\n                        torch.LongTensor(list(map(int,seg.strip().split())))\\\n                                    for seg in t_f]\n \n        logger.info(f\"loaded {len(self.offsets)}, skipped {skipped} samples\")\n\n    def __getitem__(self, index):\n        offset = self.offsets[index]\n        end = self.sizes[index] + offset\n        feats = torch.from_numpy(self.data[offset:end].copy()).float()\n\n        res = {\"id\": index, \"features\": feats}\n        if len(self.labels) > 0:\n            res[\"target\"] = self.label_dict.encode_line(\n                self.labels[index],\n                line_tokenizer=lambda x: x,\n                append_eos=False,\n            )\n        \n        if self.aux_tgt:\n            res[\"aux_target\"] = self.aux_tgt[index]\n\n        return res\n\n    def __len__(self):\n        return len(self.sizes)\n\n    def collater(self, samples):\n        if len(samples) == 0:\n            return {}\n\n        features = [s[\"features\"] for s in samples]\n        sizes = [len(s) for s in features]\n\n        target_size = max(sizes)\n\n        collated_features = features[0].new_zeros(\n            len(features), target_size, features[0].size(-1)\n        )\n        padding_mask = torch.BoolTensor(collated_features.shape[:-1]).fill_(False)\n        for i, (f, size) in enumerate(zip(features, sizes)):\n            collated_features[i, :size] = f\n            padding_mask[i, size:] = True\n\n        res = {\n            \"id\": torch.LongTensor([s[\"id\"] for s in samples]),\n            \"net_input\": {\"features\": collated_features, \"padding_mask\": padding_mask},\n        }\n\n        if len(self.labels) > 0:\n            target = data_utils.collate_tokens(\n                [s[\"target\"] for s in samples],\n                pad_idx=self.label_dict.pad(),\n                left_pad=False,\n            )\n            res[\"target\"] = target\n        \n        if self.aux_tgt:\n            idxs = torch.nn.utils.rnn.pad_sequence(\n                [s[\"aux_target\"] for s in samples],\n                batch_first=True,\n                padding_value=-1,\n            )\n            res[\"net_input\"][\"aux_target\"] = idxs\n        \n        return res\n\n    def num_tokens(self, index):\n        return self.size(index)\n\n    def size(self, index):\n        return self.sizes[index]\n\n    def ordered_indices(self):\n        \"\"\"Return an ordered list of indices. Batches will be constructed based\n        on this order.\"\"\"\n        if self.shuffle:\n            order = [np.random.permutation(len(self))]\n        else:\n            order = [np.arange(len(self))]\n\n        if self.sort_by_length:\n            order.append(self.sizes)\n            return np.lexsort(order)[::-1]\n        else:\n            return order[0]\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/data/random_input_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport random\nfrom typing import List\n\nfrom fairseq.data import BaseWrapperDataset, data_utils\n\n\nclass RandomInputDataset(BaseWrapperDataset):\n    def __init__(\n        self,\n        dataset,\n        random_input_dataset,\n        input_key_path: List[str],\n        add_to_input,\n        pad_idx,\n    ):\n        super().__init__(dataset)\n        self.random_input_dataset = random_input_dataset\n        if isinstance(input_key_path, str):\n            input_key_path = [input_key_path]\n        assert len(input_key_path) > 0\n        self.input_key_path = input_key_path\n        self.add_to_input = add_to_input\n        self.pad_idx = pad_idx\n\n    def get_target(self, item):\n        target_loc = item\n        for p in self.input_key_path[:-1]:\n            target_loc = target_loc[p]\n        return self.input_key_path[-1], target_loc\n\n    def get_target_value(self, item):\n        k, target_loc = self.get_target(item)\n        return target_loc[k]\n\n    def __getitem__(self, index):\n        item = self.dataset[index]\n        k, target_loc = self.get_target(item)\n        target_loc[k] = random.choice(self.random_input_dataset)\n        return item\n\n    def collater(self, samples):\n        collated = self.dataset.collater(samples)\n        if len(collated) == 0:\n            return collated\n        indices = set(collated[\"id\"].tolist())\n\n        random_inputs = data_utils.collate_tokens(\n            [self.get_target_value(s) for s in samples if s[\"id\"] in indices],\n            pad_idx=self.pad_idx,\n            left_pad=False,\n        )\n        k, target_loc = self.get_target(\n            collated if not self.add_to_input else collated[\"net_input\"]\n        )\n        target_loc[k] = random_inputs\n\n        return collated\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/README.md",
    "content": "# Self-Training with Kaldi HMM Models\nThis folder contains recipes for self-training on pseudo phone transcripts and\ndecoding into phones or words with [kaldi](https://github.com/kaldi-asr/kaldi).\n\nTo start, download and install kaldi follow its instruction, and place this\nfolder in `path/to/kaldi/egs`.\n\n## Training\nAssuming the following has been prepared:\n- `w2v_dir`: contains features `{train,valid}.{npy,lengths}`, real transcripts `{train,valid}.${label}`, and dict `dict.${label}.txt`\n- `lab_dir`: contains pseudo labels `{train,valid}.txt`\n- `arpa_lm`: Arpa-format n-gram phone LM for decoding\n- `arpa_lm_bin`: Arpa-format n-gram phone LM for unsupervised model selection to be used with KenLM\n\nSet these variables in `train.sh`, as well as `out_dir`, the output directory,\nand then run it.\n\nThe output will be:\n```\n==== WER w.r.t. real transcript (select based on unsupervised metric)\nINFO:root:./out/exp/mono/decode_valid/scoring/14.0.0.tra.txt: score 0.9178 wer 28.71% lm_ppl 24.4500 gt_wer 25.57%\nINFO:root:./out/exp/tri1/decode_valid/scoring/17.1.0.tra.txt: score 0.9257 wer 26.99% lm_ppl 30.8494 gt_wer 21.90%\nINFO:root:./out/exp/tri2b/decode_valid/scoring/8.0.0.tra.txt: score 0.7506 wer 23.15% lm_ppl 25.5944 gt_wer 15.78%\n```\nwhere `wer` is the word eror rate with respect to the pseudo label, `gt_wer` to\nthe ground truth label, `lm_ppl` the language model perplexity of HMM prediced\ntranscripts, and `score` is the unsupervised metric for model selection. We\nchoose the model and the LM parameter of the one with the lowest score. In the\nexample above, it is `tri2b`, `8.0.0`.\n\n\n## Decoding into Phones\nIn `decode_phone.sh`, set `out_dir` the same as used in `train.sh`, set\n`dec_exp` and `dec_lmparam` to the selected model and LM parameter (e.g.\n`tri2b` and `8.0.0` in the above example). `dec_script` needs to be set\naccording to `dec_exp`: for mono/tri1/tri2b, use `decode.sh`; for tri3b, use\n`decode_fmllr.sh`.\n\nThe output will be saved at `out_dir/dec_data`\n\n\n## Decoding into Words\n`decode_word_step1.sh` prepares WFSTs for word decoding. Besides the variables\nmentioned above, set\n- `wrd_arpa_lm`: Arpa-format n-gram word LM for decoding\n- `wrd_arpa_lm_bin`: Arpa-format n-gram word LM for unsupervised model selection\n\n`decode_word_step1.sh` decodes the `train` and `valid` split into word and runs\nunsupervised model selection using the `valid` split. The output is like:\n```\nINFO:root:./out/exp/tri2b/decodeword_valid/scoring/17.0.0.tra.txt: score 1.8693 wer 24.97% lm_ppl 1785.5333 gt_wer 31.45%\n```\n\nAfter determining the LM parameter (`17.0.0` in the example above), set it in\n`decode_word_step2.sh` and run it. The output will be saved at\n`out_dir/dec_data_word`.\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/cmd.sh",
    "content": "# you can change cmd.sh depending on what type of queue you are using.\n# If you have no queueing system and want to run on a local machine, you\n# can change all instances 'queue.pl' to run.pl (but be careful and run\n# commands one by one: most recipes will exhaust the memory on your\n# machine).  queue.pl works with GridEngine (qsub).  slurm.pl works\n# with slurm.  Different queues are configured differently, with different\n# queue names and different ways of specifying things like memory;\n# to account for these differences you can create and edit the file\n# conf/queue.conf to match your queue's configuration.  Search for\n# conf/queue.conf in http://kaldi-asr.org/doc/queue.html for more information,\n# or search for the string 'default_config' in utils/queue.pl or utils/slurm.pl.\n\nexport train_cmd=\"run.pl --mem 2G\"\nexport decode_cmd=\"run.pl --mem 4G\"\nexport mkgraph_cmd=\"run.pl --mem 8G\"\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/decode_phone.sh",
    "content": "#!/bin/bash\n\n# decode into phones (and prepare a new data directory for HMM outputs)\n\n. ./path.sh\n\nset -eu\n\nout_dir=  # same as in train.sh\ndec_lmparam=  # LM hyperparameters (e.g., 7.0.0)\ndec_exp=\ndec_script=\ndec_splits=\"train valid\"\ndec_data_dir=$out_dir/dec_data  # where to write HMM output\n\ndata_dir=${out_dir}/data\n\nlocal/decode.sh --nj 40 --graph_name graph \\\n  --val_sets \"$dec_splits\" --decode_script $dec_script \\\n  $out_dir/exp/$dec_exp $data_dir $data_dir/lang_test\n\nif [ ! -z $dec_lmparam ]; then\n  for x in $dec_splits; do\n    mkdir -p $dec_data_dir/$x\n    cp $data_dir/$x/{feats.scp,cmvn.scp,utt2spk,spk2utt} $dec_data_dir/$x/\n  \n    tra=$out_dir/exp/$dec_exp/decode_${x}/scoring/${dec_lmparam}.tra\n    cat $tra | utils/int2sym.pl -f 2- $data_dir/lang/words.txt | \\\n      sed 's:<UNK>::g' | sed 's:<SIL>::g' > $dec_data_dir/${x}/text\n    utils/fix_data_dir.sh $dec_data_dir/${x}\n    echo \"WER on ${x} is\" $(compute-wer ark:$data_dir/${x}_gt/text ark:$dec_data_dir/$x/text | cut -d\" \" -f2-)\n  done\nfi\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/decode_word_step1.sh",
    "content": "#!/bin/bash\n\n# prepare word WFSTs, reference data, and decode\n\nset -eu\n\nw2v_dir=  # same as in train.sh\nout_dir=  # same as in train.sh\nlexicon=  # word to phone mapping\nwrd_arpa_lm=  # word LM\nwrd_arpa_lm_bin=  # word LM for KenLM, used in unsupervised selection\n\ndec_exp=  # what HMM stage to decode (e.g., tri3b)\ndec_script=  # what decoding script to use (e.g., steps/decode_fmllr.sh)\nphn_label=phnc\nwrd_label=wrd\ndec_suffix=word\ndec_splits=\"train valid\"\nvalid_split=\"valid\"\n\ndata_dir=$out_dir/data\nwrd_data_dir=$out_dir/data_word\n\nlexicon_clean=$(mktemp)\ncat $lexicon | sort | uniq > $lexicon_clean\nlocal/prepare_lang_word.sh $w2v_dir/dict.${phn_label}.txt $data_dir $lexicon_clean && rm $lexicon_clean\nlocal/prepare_lm.sh --langdir $data_dir/lang_word --lmdir $data_dir/lang_test_word $wrd_arpa_lm $data_dir\n\nfor x in $dec_splits; do\n  x_gt=${x}_gt\n  mkdir -p $wrd_data_dir/$x_gt\n  cp $data_dir/$x_gt/{feats.scp,cmvn.scp,utt2spk,spk2utt} $wrd_data_dir/$x_gt/\n  python local/copy_aligned_text.py < $w2v_dir/$x.$wrd_label > $wrd_data_dir/$x_gt/text\ndone\n\nlocal/decode.sh --nj 40 --graph_name graph${dec_suffix} --decode_suffix $dec_suffix \\\n  --val_sets \"$dec_splits\" --decode_script $dec_script \\\n  $out_dir/exp/$dec_exp $data_dir $data_dir/lang_test_word\n\nlocal/unsup_select_decode_word.sh \\\n  --split $valid_split --kenlm_path $wrd_arpa_lm_bin \\\n  --ref_txt $wrd_data_dir/${valid_split}_gt/text \\\n  --psd_txt $data_dir/${valid_split}/text \\\n  --dec_name decode${dec_suffix} --graph_name graph${dec_suffix} \\\n  --phonemize_lexicon $data_dir/local/dict_word/lexicon.txt \\\n  $out_dir/exp\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/decode_word_step2.sh",
    "content": "#!/bin/bash\n\n# prepare a new data directory of HMM word output\n\n. ./path.sh\n\nset -eu\n\nout_dir=  # same as in train.sh\ndec_lmparam=  # LM hyperparameters (e.g., 7.0.0)\n\ndec_exp=tri3b  # what HMM stage to decode (e.g., tri3b)\ndec_suffix=word\ndec_splits=\"train valid\"\ndec_data_dir=$out_dir/dec_data_word  # where to write HMM output\n\ndata_dir=$out_dir/data\nwrd_data_dir=$out_dir/data_word\n\nfor x in $dec_splits; do\n  mkdir -p $dec_data_dir/$x\n  cp $data_dir/$x/{feats.scp,cmvn.scp,utt2spk,spk2utt} $dec_data_dir/$x/\n\n  tra=$out_dir/exp/$dec_exp/decode${dec_suffix}_${x}/scoring/${dec_lmparam}.tra\n  cat $tra | utils/int2sym.pl -f 2- $data_dir/lang_word/words.txt | \\\n    sed 's:<UNK>::g' | sed 's:<SIL>::g' > $dec_data_dir/$x/text\n  utils/fix_data_dir.sh $dec_data_dir/$x\n  echo \"WER on $x is\" $(compute-wer ark:$wrd_data_dir/${x}_gt/text ark:$dec_data_dir/$x/text | cut -d\" \" -f2-)\ndone\n\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/local/copy_aligned_text.py",
    "content": "import sys\n\nfor idx, line in enumerate(sys.stdin):\n    print(f\"utt{idx:010d} {line}\", end='')"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/local/decode.sh",
    "content": "#!/bin/bash\n\nset -u\n\nval_sets=\"dev_other\"\ngraph_name=graph\ndecode_suffix=\"\"\ndecode_script=\"steps/decode_fmllr.sh\"\ndecode_args=\"\"\nnj=60\n\n. ./cmd.sh\n. ./path.sh\n. parse_options.sh\n\nset -x\nexp_dir=$1\ndata_root=$2\nlang_test=$3\n\ngraph=$exp_dir/$graph_name\n\nif [ ! -d $graph ]; then\n  utils/mkgraph.sh $lang_test $exp_dir $graph\nfi\n\nfor part in $val_sets; do\n  dec_dir=$exp_dir/decode${decode_suffix}_${part}\n  if [ ! -d $dec_dir ]; then\n    echo \"decoding $part for $exp_dir\"\n    $decode_script --nj $nj --cmd \"$decode_cmd\" $decode_args \\\n      $graph $data_root/$part $dec_dir &\n  else\n    echo \"$dec_dir exists. skip\"\n  fi\ndone\n\nwait\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/local/prepare_data_from_w2v.py",
    "content": "import kaldi_io\nimport numpy as np\nimport os\n\n\ndef get_parser():\n    import argparse\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"w2v_dir\", help=\"wav2vec feature and text directory\")\n    parser.add_argument(\"tar_root\", help=\"output data directory in kaldi's format\")\n    parser.add_argument(\"split\", help=\"name of the subset\")\n    parser.add_argument(\"--label\", default=\"\", help=\"if specified, copy labels too\")\n    return parser\n\ndef main():\n    parser = get_parser()\n    args = parser.parse_args()\n\n    tar_dir = os.path.join(args.tar_root, args.split)\n    os.makedirs(tar_dir, exist_ok=True)\n\n    lengths_path = os.path.join(args.w2v_dir, f\"{args.split}.lengths\")\n    with open(lengths_path) as f:\n        lengths = [int(line.rstrip()) for line in f]\n        offsets = [0] + np.cumsum(lengths[:-1]).tolist()\n    feats = np.load(\n        os.path.join(args.w2v_dir, f\"{args.split}.npy\"),\n        mmap_mode=\"r\"\n    )\n    assert feats.shape[0] == sum(lengths), \\\n        f\"lengths mismatch {feats.shape[0]} != {sum(lengths)}\"\n\n    ark_path = os.path.join(tar_dir, \"feats.ark\")\n    scp_path = os.path.join(tar_dir, \"feats.scp\")\n    wspec = f\"ark:| copy-feats --compress=true ark:- ark,scp:{ark_path},{scp_path}\"\n    with kaldi_io.open_or_fd(wspec, \"wb\") as f:\n        for idx, (offset, length) in enumerate(zip(offsets, lengths)):\n            feat = feats[offset:offset+length]\n            kaldi_io.write_mat(f, feat, key=f\"utt{idx:010d}\")\n\n    u2s_path = os.path.join(tar_dir, \"utt2spk\")\n    s2u_path = os.path.join(tar_dir, \"spk2utt\")\n    with open(u2s_path, \"w\") as f_u2s, open(s2u_path, \"w\") as f_s2u:\n        for idx in range(len(lengths)):\n            f_u2s.write(f\"utt{idx:010d} utt{idx:010d}\\n\")\n            f_s2u.write(f\"utt{idx:010d} utt{idx:010d}\\n\")\n\n    if bool(args.label):\n        lab_path = os.path.join(args.w2v_dir, f\"{args.split}.{args.label}\")\n        txt_path = os.path.join(tar_dir, \"text\")\n        with open(lab_path) as f_lab, open(txt_path, \"w\") as f_txt:\n            for idx, line in enumerate(f_lab):\n                f_txt.write(f\"utt{idx:010d} {line}\")\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/local/prepare_lang.sh",
    "content": "#!/bin/bash\n\nsil_prob=0.5\nnum_sil_states=3\nnum_nonsil_states=1\n\n. ./cmd.sh\n. ./path.sh\n. parse_options.sh\n\nset -eux\n\ndict=$1\ndata_dir=$2\n\ndict_dir=$data_dir/local/dict\ntmplm_dir=$data_dir/local/lang_tmp\nlm_dir=$data_dir/lang\n\nmkdir -p $dict_dir $tmplm_dir $lm_dir\n\n# prepare dict\necho \"SIL\" > $dict_dir/silence_phones.txt\necho \"SIL\" > $dict_dir/optional_silence.txt\nawk '{print $1}' $dict > $dict_dir/nonsilence_phones.txt\n\necho \"SIL SIL\" > $dict_dir/lexicon.txt\necho \"<UNK> SIL\" >> $dict_dir/lexicon.txt\nawk '{print $1\" \"$1}' $dict >> $dict_dir/lexicon.txt\n\necho \"SIL\" > $dict_dir/extra_questions.txt\nawk '{printf $1\" \"} END {printf \"\\n\"}' $dict >> $dict_dir/extra_questions.txt\n\n# prepare lang\nutils/prepare_lang.sh --sil-prob $sil_prob --position-dependent-phones false \\\n  --num_sil_states $num_sil_states --num_nonsil_states $num_nonsil_states \\\n  $dict_dir \"<UNK>\" $tmplm_dir $lm_dir\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/local/prepare_lang_word.sh",
    "content": "#!/bin/bash\n\nnum_sil_states=3\nnum_nonsil_states=1\n\n. ./cmd.sh\n. ./path.sh\n. parse_options.sh\n\nset -eux\n\ndict=$1\ndata_dir=$2\nlexicon=$3\n\ndict_dir=$data_dir/local/dict_word\ntmplm_dir=$data_dir/local/lang_tmp_word\nlm_dir=$data_dir/lang_word\n\nmkdir -p $dict_dir $tmplm_dir $lm_dir\n\n# prepare dict\necho \"SIL\" > $dict_dir/silence_phones.txt\necho \"SIL\" > $dict_dir/optional_silence.txt\nawk '{print $1}' $dict > $dict_dir/nonsilence_phones.txt\n\n(echo \"!SIL SIL\"; echo \"<UNK> SIL\";) | cat - $lexicon > $dict_dir/lexicon.txt\n\necho \"SIL\" > $dict_dir/extra_questions.txt\nawk '{printf $1\" \"} END {printf \"\\n\"}' $dict >> $dict_dir/extra_questions.txt\n\n# prepare lang\nutils/prepare_lang.sh --position-dependent-phones false \\\n  --num_sil_states $num_sil_states --num_nonsil_states $num_nonsil_states \\\n  $dict_dir \"<UNK>\" $tmplm_dir $lm_dir\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/local/prepare_lm.sh",
    "content": "#!/usr/bin/env bash\n\nlangdir=\"\"\nlmdir=\"\"\n\n. ./cmd.sh\n. ./path.sh\n. parse_options.sh\n\narpa_lm=$1\ndata=$2\n\nif [ -z $langdir ]; then\n  langdir=$data/lang\nfi\nif [ -z $lmdir ]; then\n  lmdir=$data/lang_test\nfi\n\nif [ ! -d $langdir ]; then\n  echo \"$langdir not found. run local/prepare_lang.sh first\" && exit 1\nfi\n\nmkdir -p $lmdir\ncp -r $langdir/* $lmdir\n\nif [[ \"$arpa_lm\" == *.gz ]]; then\n  gunzip -c $arpa_lm | arpa2fst --disambig-symbol=#0 --read-symbol-table=$lmdir/words.txt - $lmdir/G.fst\nelse\n  arpa2fst --disambig-symbol=#0 --read-symbol-table=$lmdir/words.txt $arpa_lm $lmdir/G.fst\nfi\nfstisstochastic $lmdir/G.fst\nutils/validate_lang.pl $lmdir || exit 1\n\necho \"done preparing lm ($lmdir)\"\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/local/score.sh",
    "content": "#!/usr/bin/env bash\n# Copyright 2012  Johns Hopkins University (Author: Daniel Povey)\n#           2014  Guoguo Chen\n# Apache 2.0\n\n[ -f ./path.sh ] && . ./path.sh\n\n# begin configuration section.\ncmd=run.pl\nstage=0\ndecode_mbr=true\nword_ins_penalty=0.0,0.5,1.0\nmin_lmwt=7\nmax_lmwt=17\niter=final\n#end configuration section.\n\n[ -f ./path.sh ] && . ./path.sh\n. parse_options.sh || exit 1;\n\nif [ $# -ne 3 ]; then\n  echo \"Usage: local/score.sh [--cmd (run.pl|queue.pl...)] <data-dir> <lang-dir|graph-dir> <decode-dir>\"\n  echo \" Options:\"\n  echo \"    --cmd (run.pl|queue.pl...)      # specify how to run the sub-processes.\"\n  echo \"    --stage (0|1|2)                 # start scoring script from part-way through.\"\n  echo \"    --decode_mbr (true/false)       # maximum bayes risk decoding (confusion network).\"\n  echo \"    --min_lmwt <int>                # minumum LM-weight for lattice rescoring \"\n  echo \"    --max_lmwt <int>                # maximum LM-weight for lattice rescoring \"\n  exit 1;\nfi\n\ndata=$1\nlang_or_graph=$2\ndir=$3\n\nsymtab=$lang_or_graph/words.txt\n\nfor f in $symtab $dir/lat.1.gz $data/text; do\n  [ ! -f $f ] && echo \"score.sh: no such file $f\" && exit 1;\ndone\n\nmkdir -p $dir/scoring/log\n\ncat $data/text | sed 's:<NOISE>::g' | sed 's:<SPOKEN_NOISE>::g' > $dir/scoring/test_filt.txt\n\nfor wip in $(echo $word_ins_penalty | sed 's/,/ /g'); do\n  $cmd LMWT=$min_lmwt:$max_lmwt $dir/scoring/log/best_path.LMWT.$wip.log \\\n    lattice-scale --inv-acoustic-scale=LMWT \"ark:gunzip -c $dir/lat.*.gz|\" ark:- \\| \\\n    lattice-add-penalty --word-ins-penalty=$wip ark:- ark:- \\| \\\n    lattice-best-path --word-symbol-table=$symtab \\\n      ark:- ark,t:$dir/scoring/LMWT.$wip.tra || exit 1;\ndone\n\n# Note: the double level of quoting for the sed command\nfor wip in $(echo $word_ins_penalty | sed 's/,/ /g'); do\n  $cmd LMWT=$min_lmwt:$max_lmwt $dir/scoring/log/score.LMWT.$wip.log \\\n    cat $dir/scoring/LMWT.$wip.tra \\| \\\n    utils/int2sym.pl -f 2- $symtab \\| sed 's:\\<UNK\\>::g' \\| \\\n    compute-wer --text --mode=present \\\n    ark:$dir/scoring/test_filt.txt  ark,p:- \">&\" $dir/wer_LMWT_$wip || exit 1;\ndone\n\nexit 0;\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/local/show_wer.sh",
    "content": "#!/bin/bash\n\nsplit=\"dev_other\"\nref_data=\"\"\nget_best_wer=true\ndec_name=\"decode\"\ngraph_name=\"graph\"\n\n. ./cmd.sh\n. ./path.sh\n. parse_options.sh\n\nexp_root=$1\n\nset -eu\n\necho \"==== WER w.r.t. pseudo transcript\"\nfor x in $exp_root/*/${dec_name}_${split}*; do grep WER $x/wer_* 2>/dev/null | utils/best_wer.sh; done\n\n\nif [ ! -z $ref_data ]; then\n  echo \"==== WER w.r.t. real transcript (select based on pseudo WER)\"\n  ref_txt=$ref_data/$split/text\n  for x in $exp_root/*/${dec_name}_${split}*; do\n    lang=$(dirname $x)/$graph_name\n\n    lmwt=$(\n      grep WER $x/wer_* 2>/dev/null | utils/best_wer.sh |\n      sed 's/.*wer_\\(.*\\)$/\\1/g' | sed 's/_/./g'\n    )\n    tra=$x/scoring/$lmwt.tra\n    cat $tra | utils/int2sym.pl -f 2- $lang/words.txt | sed 's:<UNK>::g' | sed 's:<SIL>::g' | \\\n      compute-wer --text --mode=present \\\n      ark:$ref_txt  ark,p:- 2> /dev/null | grep WER | xargs -I{} echo {} $tra\n  done\nfi\n\nif [ ! -z $ref_data ] && $get_best_wer; then\n  echo \"==== WER w.r.t. real transcript (select based on true WER)\"\n  ref_txt=$ref_data/$split/text\n  for x in $exp_root/*/${dec_name}_${split}*; do\n    lang=$(dirname $x)/$graph_name\n\n    for tra in $x/scoring/*.tra; do\n      cat $tra | utils/int2sym.pl -f 2- $lang/words.txt | sed 's:<UNK>::g' | sed 's:<SIL>::g' | \\\n        compute-wer --text --mode=present \\\n        ark:$ref_txt  ark,p:- 2> /dev/null | grep WER | xargs -I{} echo {} $tra\n    done | sort -k2n | head -n1\n  done\nfi\n\nexit 0;\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/local/train_subset_lgbeam.sh",
    "content": "#!/usr/bin/env bash\n\nout_root=/tmp\nout_name=train_${RANDOM}\nnum_nonsil_states=1\n\nvalid=\"dev_other\"\ntrain=\"train\"\nmono_size=\"-1\"  # 2000\ntri1_size=\"-1\"  # 5000\ntri2b_size=\"-1\"  # 10000\ntri3b_size=\"-1\"  # 10000\n\n# Acoustic model parameters\nnumLeavesTri1=2000\nnumGaussTri1=10000\nnumLeavesMLLT=2500\nnumGaussMLLT=15000\nnumLeavesSAT=2500\nnumGaussSAT=15000\n\nstage=1\nmax_stage=1\n\n. ./cmd.sh\n. ./path.sh\n. parse_options.sh\n\ndata=$1\nlang=$2\nlang_test=$3\n\nexp_root=$out_root/$out_name\n\n# you might not want to do this for interactive shells.\nset -e\n\n\nif [ $stage -le 1 ] && [ $max_stage -ge 1 ]; then\n  # train a monophone system\n  if [ ! $mono_size -eq -1 ]; then\n    utils/subset_data_dir.sh $data/$train $mono_size $data/${train}_${mono_size}\n    mono_train=${train}_${mono_size}\n  else\n    mono_train=${train}\n  fi\n\n  steps/train_mono.sh --boost-silence 1.25 --nj 20 --cmd \"$train_cmd\" \\\n    --initial-beam 40 --regular-beam 60 --retry-beam 120 \\\n    $data/$mono_train $lang $exp_root/mono\n\n  utils/mkgraph.sh $lang_test $exp_root/mono $exp_root/mono/graph\n  steps/decode.sh --nj 20 --cmd \"$decode_cmd\" \\\n    $exp_root/mono/graph $data/$valid $exp_root/mono/decode_$valid &\nfi\n\n\nif [ $stage -le 2 ] && [ $max_stage -ge 2 ]; then\n  # train a first delta + delta-delta triphone system on a subset of 5000 utterances\n  if [ ! $tri1_size -eq -1 ]; then\n    utils/subset_data_dir.sh $data/$train $tri1_size $data/${train}_${tri1_size}\n    tri1_train=${train}_${tri1_size}\n  else\n    tri1_train=${train}\n  fi\n\n  steps/align_si.sh --boost-silence 1.25 --nj 10 --cmd \"$train_cmd\" \\\n    $data/$tri1_train $lang \\\n    $exp_root/mono $exp_root/mono_ali_${tri1_train}\n\n  steps_gan/train_deltas.sh --boost-silence 1.25 --cmd \"$train_cmd\" \\\n      --num_nonsil_states $num_nonsil_states $numLeavesTri1 $numGaussTri1 \\\n      $data/$tri1_train $lang \\\n      $exp_root/mono_ali_${tri1_train} $exp_root/tri1\n\n  utils/mkgraph.sh $lang_test $exp_root/tri1 $exp_root/tri1/graph\n  steps/decode.sh --nj 20 --cmd \"$decode_cmd\" \\\n    $exp_root/tri1/graph $data/$valid $exp_root/tri1/decode_$valid &\nfi\n\nif [ $stage -le 3 ] && [ $max_stage -ge 3 ]; then\n  # train an LDA+MLLT system.\n  if [ ! $tri2b_size -eq -1 ]; then\n    utils/subset_data_dir.sh $data/$train $tri2b_size $data/${train}_${tri2b_size}\n    tri2b_train=${train}_${tri2b_size}\n  else\n    tri2b_train=${train}\n  fi\n\n  steps/align_si.sh --nj 10 --cmd \"$train_cmd\" \\\n    $data/$tri2b_train $lang \\\n    $exp_root/tri1 $exp_root/tri1_ali_${tri2b_train}\n\n  steps_gan/train_lda_mllt.sh --cmd \"$train_cmd\" \\\n      --num_nonsil_states $num_nonsil_states \\\n      --splice-opts \"--left-context=3 --right-context=3\" $numLeavesMLLT $numGaussMLLT \\\n      $data/$tri2b_train $lang \\\n      $exp_root/tri1_ali_${tri2b_train} $exp_root/tri2b\n\n  utils/mkgraph.sh $lang_test $exp_root/tri2b $exp_root/tri2b/graph\n  steps/decode.sh --nj 20 --cmd \"$decode_cmd\" \\\n    $exp_root/tri2b/graph $data/$valid $exp_root/tri2b/decode_$valid &\nfi\n\n\nif [ $stage -le 4 ] && [ $max_stage -ge 4 ]; then\n  # Train tri3b, which is LDA+MLLT+SAT on 10k utts\n  if [ ! $tri3b_size -eq -1 ]; then\n    utils/subset_data_dir.sh $data/$train $tri3b_size $data/${train}_${tri3b_size}\n    tri3b_train=${train}_${tri3b_size}\n  else\n    tri3b_train=${train}\n  fi\n\n  steps/align_si.sh  --nj 10 --cmd \"$train_cmd\" --use-graphs true \\\n    $data/$tri3b_train $lang \\\n    $exp_root/tri2b $exp_root/tri2b_ali_${tri2b_train}\n\n  steps_gan/train_sat.sh --cmd \"$train_cmd\" \\\n    --num_nonsil_states $num_nonsil_states $numLeavesSAT $numGaussSAT \\\n    $data/$tri3b_train $lang \\\n    $exp_root/tri2b_ali_${tri2b_train} $exp_root/tri3b\n\n  utils/mkgraph.sh $lang_test $exp_root/tri3b $exp_root/tri3b/graph\n  steps/decode_fmllr.sh --nj 20 --cmd \"$decode_cmd\" \\\n    $exp_root/tri3b/graph $data/$valid $exp_root/tri3b/decode_$valid &\nfi\n\nwait\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/local/unsup_select.py",
    "content": "\"\"\"\nImplement unsupervised metric for decoding hyperparameter selection:\n    $$ alpha * LM_PPL + ViterbitUER(%) * 100 $$\n\"\"\"\nimport argparse\nimport logging\nimport math\nimport sys\n\nimport kenlm\nimport editdistance\nfrom g2p_en import G2p\n\nlogging.root.setLevel(logging.INFO)\nlogging.basicConfig(stream=sys.stdout, level=logging.INFO)\nlogger = logging.getLogger(__name__)\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"ref_tra\", help=\"reference pseudo labels\")\n    parser.add_argument(\"hyp_tra\", help=\"decoded pseudo labels to be assess\")\n    parser.add_argument(\"--kenlm_path\", default=\"/checkpoint/abaevski/data/speech/libri/librispeech_lm_novox.phnc_o5.bin\", help=\"\")\n    parser.add_argument(\"--uppercase\", action=\"store_true\", help=\"\")\n    parser.add_argument(\"--skipwords\", default=\"\", help=\"\")\n    parser.add_argument(\"--gt_tra\", default=\"\", help=\"ground truth pseudo labels for computing oracle WER\")\n    parser.add_argument(\"--min_vt_uer\", default=0.0, type=float)\n    parser.add_argument(\"--phonemize\", action=\"store_true\", help=\"phonemize word hypotheses, used when reference is phone transcript\")\n    parser.add_argument(\"--phonemize_lexicon\", default=\"\", type=str, help=\"use a lexicon for phonemizing\")\n    return parser\n\ndef load_tra(tra_path):\n    with open(tra_path, \"r\") as f:\n        uid_to_tra = {}\n        for line in f:\n            toks = line.rstrip().split()\n            uid, tra = toks[0], \" \".join(toks[1:])\n            uid_to_tra[uid] = tra\n    logger.debug(f\"loaded {len(uid_to_tra)} utterances from {tra_path}\")\n    return uid_to_tra\n\ndef load_lex(lex_path):\n    with open(lex_path, \"r\") as f:\n        w2p = {}\n        for line in f:\n            w, p = line.rstrip().split(None, 1)\n            w2p[w] = p.split()\n    return w2p\n            \ndef compute_wer(ref_uid_to_tra, hyp_uid_to_tra, g2p, g2p_dict):\n    d_cnt = 0\n    w_cnt = 0\n    w_cnt_h = 0\n    for uid in hyp_uid_to_tra:\n        ref = ref_uid_to_tra[uid].split()\n        if g2p_dict is not None:\n            hyp = []\n            for word in hyp_uid_to_tra[uid].split():\n                if word in g2p_dict:\n                    hyp = hyp + g2p_dict[word]\n                else:\n                    logger.warning(f\"{word} not in g2p_dict\")\n        elif g2p is not None:\n            hyp = g2p(hyp_uid_to_tra[uid])\n            hyp = [p for p in hyp if p != \"'\" and p != \" \"]\n            hyp = [p[:-1] if p[-1].isnumeric() else p for p in hyp]\n        else:\n            hyp = hyp_uid_to_tra[uid].split()\n        logger.debug((\n            f\"======================\\n\"\n            f\"HYP: {' '.join(hyp)}\\n\"\n            f\"REF: {' '.join(ref)}\"\n        ))\n        d_cnt += editdistance.eval(ref, hyp)\n        w_cnt += len(ref)\n        w_cnt_h += len(hyp)\n    wer = float(d_cnt) / w_cnt\n    logger.debug((\n        f\"wer = {wer*100:.2f}%; num. of ref words = {w_cnt}; \"\n        f\"num. of hyp words = {w_cnt_h}; num. of sentences = {len(ref_uid_to_tra)}\"\n    ))\n    return wer\n\ndef compute_lm_ppl(hyp_uid_to_tra, score_fn):\n    lm_score = 0.\n    w_cnt = 0\n    for hyp in hyp_uid_to_tra.values():\n        cur_score = score_fn(hyp)\n        cur_cnt = len(hyp.split()) + 1  # plus one for </s>\n        lm_score += cur_score\n        w_cnt += cur_cnt\n        logger.debug((\n            f\"======================\\n\"\n            f\"score sum/avg = {cur_score:.2f}/{cur_score/cur_cnt:.2f}\\n\"\n            f\"hyp = {hyp}\"\n        ))\n    lm_ppl = math.pow(10, -lm_score / w_cnt)\n    logger.debug(f\"lm ppl = {lm_ppl:.2f}; num. of words = {w_cnt}\")\n    return lm_ppl\n\ndef main():\n    args = get_parser().parse_args()\n    logger.debug(f\"Args: {args}\")\n    \n    ref_uid_to_tra = load_tra(args.ref_tra)\n    hyp_uid_to_tra = load_tra(args.hyp_tra)\n    assert not bool(set(hyp_uid_to_tra.keys()) - set(ref_uid_to_tra.keys()))\n\n    lm = kenlm.Model(args.kenlm_path)\n    skipwords = set(args.skipwords.split(\",\"))\n    def compute_lm_score(s):\n        s = \" \".join(w for w in s.split() if w not in skipwords)\n        s = s.upper() if args.uppercase else s\n        return lm.score(s)\n\n    g2p, g2p_dict = None, None\n    if args.phonemize:\n        if args.phonemize_lexicon:\n            g2p_dict = load_lex(args.phonemize_lexicon)\n        else:\n            g2p = G2p()\n\n    wer = compute_wer(ref_uid_to_tra, hyp_uid_to_tra, g2p, g2p_dict)\n    lm_ppl = compute_lm_ppl(hyp_uid_to_tra, compute_lm_score)\n    \n    gt_wer = -math.inf\n    if args.gt_tra:\n        gt_uid_to_tra = load_tra(args.gt_tra)\n        gt_wer = compute_wer(gt_uid_to_tra, hyp_uid_to_tra, None, None)\n\n    score = math.log(lm_ppl) * max(wer, args.min_vt_uer)\n    logging.info(f\"{args.hyp_tra}: score={score:.4f}; wer={wer*100:.2f}%; lm_ppl={lm_ppl:.4f}; gt_wer={gt_wer*100:.2f}%\")\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/local/unsup_select_decode.sh",
    "content": "#!/bin/bash\n\nsplit=\"dev_other\"\nref_txt=\"\"  # ground truth transcript path\npsd_txt=\"\"  # pseudo transcript path\nget_best_wer=true\ndec_name=\"decode\"\ngraph_name=\"graph\"\nkenlm_path=/checkpoint/abaevski/data/speech/libri/librispeech_lm_novox.phnc_o6.bin\n\n. ./cmd.sh\n. ./path.sh\n. parse_options.sh\n\nexp_root=$1\nunsup_args=\"\"\nif [ $# -ge 2 ]; then\n  unsup_args=$2\nfi\n\nset -eu\n\nif [ ! -z $ref_txt ] && $get_best_wer; then\n  echo \"==== WER w.r.t. real transcript (select based on unsupervised metric)\"\n  for x in $exp_root/*/${dec_name}_${split}*; do\n    lang=$(dirname $x)/$graph_name\n\n    (\n      for tra in $x/scoring/*.tra; do\n        cat $tra | utils/int2sym.pl -f 2- $lang/words.txt | sed 's:<UNK>::g' | sed 's:<SIL>::g' > $tra.txt\n        python local/unsup_select.py $psd_txt $tra.txt --kenlm_path $kenlm_path --gt_tra $ref_txt $unsup_args\n      done 2>/dev/null | grep \"score=\" | sed 's/=/ /g' | sed 's/;//g' | sort -k3n | head -n1\n    ) &\n  done\nfi\nwait\n\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/local/unsup_select_decode_word.sh",
    "content": "#!/bin/bash\n\nsplit=\"dev_other\"\nref_txt=\"\"  # ground truth transcript path\npsd_txt=\"\"  # pseudo transcript path\nget_best_wer=true\ndec_name=\"decode\"\ngraph_name=\"graph\"\nkenlm_path=/checkpoint/abaevski/data/speech/libri/librispeech_lm_novox.phnc_o6.bin\nphonemize_lexicon=\"\"\n\n. ./cmd.sh\n. ./path.sh\n. parse_options.sh\n. /private/home/wnhsu/unsup_asr/fairseq-py-unsup/env.sh\n\nexp_root=$1\n\nset -eu\n\nif [ ! -z $ref_txt ] && $get_best_wer; then\n  echo \"==== WER w.r.t. real transcript (select based on unsupervised metric)\"\n  for x in $exp_root/*/${dec_name}_${split}*; do\n    lang=$(dirname $x)/$graph_name\n\n    for tra in $x/scoring/*.tra; do\n      cat $tra | utils/int2sym.pl -f 2- $lang/words.txt | sed 's:\\<UNK\\>::g' > $tra.txt\n      python local/unsup_select.py $psd_txt $tra.txt \\\n        --kenlm_path $kenlm_path --gt_tra $ref_txt --phonemize \\\n        --phonemize_lexicon \"$phonemize_lexicon\"\n    done | grep \"score=\" | sed 's/=/ /g' | sed 's/;//g' | sort -k3n | head -n1\n  done\nfi\n\n\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/path.sh",
    "content": "export KALDI_ROOT=`pwd`/../../..\nexport PATH=$PWD/utils/:$KALDI_ROOT/tools/openfst/bin:$PWD:$PATH\n[ ! -f $KALDI_ROOT/tools/config/common_path.sh ] && echo >&2 \"The standard file $KALDI_ROOT/tools/config/common_path.sh is not present -> Exit!\" && exit 1\n. $KALDI_ROOT/tools/config/common_path.sh\nexport LC_ALL=C\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/steps_gan/train_deltas.sh",
    "content": "#!/usr/bin/env bash\n\n# Copyright 2012  Johns Hopkins University (Author: Daniel Povey)\n# Apache 2.0\n\n# Begin configuration.\nstage=-4 #  This allows restarting after partway, when something when wrong.\nconfig=\ncmd=run.pl\nscale_opts=\"--transition-scale=1.0 --acoustic-scale=0.1 --self-loop-scale=0.1\"\nrealign_iters=\"10 20 30\";\nnum_iters=35    # Number of iterations of training\nmax_iter_inc=25 # Last iter to increase #Gauss on.\nbeam=10\ncareful=false\nretry_beam=40\nboost_silence=1.0 # Factor by which to boost silence likelihoods in alignment\npower=0.25 # Exponent for number of gaussians according to occurrence counts\ncluster_thresh=-1  # for build-tree control final bottom-up clustering of leaves\nnorm_vars=false # deprecated.  Prefer --cmvn-opts \"--norm-vars=true\"\n                # use the option --cmvn-opts \"--norm-means=false\"\ncmvn_opts=\ndelta_opts=\ncontext_opts=   # use\"--context-width=5 --central-position=2\" for quinphone\nnum_nonsil_states=3\n# End configuration.\n\necho \"$0 $@\"  # Print the command line for logging\n\n[ -f path.sh ] && . ./path.sh;\n. parse_options.sh || exit 1;\n\nif [ $# != 6 ]; then\n   echo \"Usage: steps/train_deltas.sh <num-leaves> <tot-gauss> <data-dir> <lang-dir> <alignment-dir> <exp-dir>\"\n   echo \"e.g.: steps/train_deltas.sh 2000 10000 data/train_si84_half data/lang exp/mono_ali exp/tri1\"\n   echo \"main options (for others, see top of script file)\"\n   echo \"  --cmd (utils/run.pl|utils/queue.pl <queue opts>) # how to run jobs.\"\n   echo \"  --config <config-file>                           # config containing options\"\n   echo \"  --stage <stage>                                  # stage to do partial re-run from.\"\n   exit 1;\nfi\n\nnumleaves=$1\ntotgauss=$2\ndata=$3\nlang=$4\nalidir=$5\ndir=$6\n\nfor f in $alidir/final.mdl $alidir/ali.1.gz $data/feats.scp $lang/phones.txt; do\n  [ ! -f $f ] && echo \"train_deltas.sh: no such file $f\" && exit 1;\ndone\n\nnumgauss=$numleaves\nincgauss=$[($totgauss-$numgauss)/$max_iter_inc] # per-iter increment for #Gauss\noov=`cat $lang/oov.int` || exit 1;\nciphonelist=`cat $lang/phones/context_indep.csl` || exit 1;\nnj=`cat $alidir/num_jobs` || exit 1;\nmkdir -p $dir/log\necho $nj > $dir/num_jobs\n\nutils/lang/check_phones_compatible.sh $lang/phones.txt $alidir/phones.txt || exit 1;\ncp $lang/phones.txt $dir || exit 1;\n\nsdata=$data/split$nj;\nsplit_data.sh $data $nj || exit 1;\n\n\n[ $(cat $alidir/cmvn_opts 2>/dev/null | wc -c) -gt 1 ] && [ -z \"$cmvn_opts\" ] && \\\n  echo \"$0: warning: ignoring CMVN options from source directory $alidir\"\n$norm_vars && cmvn_opts=\"--norm-vars=true $cmvn_opts\"\necho $cmvn_opts  > $dir/cmvn_opts # keep track of options to CMVN.\n[ ! -z $delta_opts ] && echo $delta_opts > $dir/delta_opts\n\nfeats=\"ark,s,cs:apply-cmvn $cmvn_opts --utt2spk=ark:$sdata/JOB/utt2spk scp:$sdata/JOB/cmvn.scp scp:$sdata/JOB/feats.scp ark:- | add-deltas $delta_opts ark:- ark:- |\"\n\nrm $dir/.error 2>/dev/null\n\nif [ $stage -le -3 ]; then\n  echo \"$0: accumulating tree stats\"\n  $cmd JOB=1:$nj $dir/log/acc_tree.JOB.log \\\n    acc-tree-stats $context_opts \\\n    --ci-phones=$ciphonelist $alidir/final.mdl \"$feats\" \\\n    \"ark:gunzip -c $alidir/ali.JOB.gz|\" $dir/JOB.treeacc || exit 1;\n  sum-tree-stats $dir/treeacc $dir/*.treeacc 2>$dir/log/sum_tree_acc.log || exit 1;\n  rm $dir/*.treeacc\nfi\n\nif [ $stage -le -2 ]; then\n  echo \"$0: getting questions for tree-building, via clustering\"\n  # preparing questions, roots file...\n  cluster-phones --pdf-class-list=$(($num_nonsil_states / 2)) $context_opts \\\n    $dir/treeacc $lang/phones/sets.int \\\n    $dir/questions.int 2> $dir/log/questions.log || exit 1;\n  cat $lang/phones/extra_questions.int >> $dir/questions.int\n  compile-questions $context_opts $lang/topo $dir/questions.int \\\n    $dir/questions.qst 2>$dir/log/compile_questions.log || exit 1;\n\n  echo \"$0: building the tree\"\n  $cmd $dir/log/build_tree.log \\\n    build-tree $context_opts --verbose=1 --max-leaves=$numleaves \\\n    --cluster-thresh=$cluster_thresh $dir/treeacc $lang/phones/roots.int \\\n    $dir/questions.qst $lang/topo $dir/tree || exit 1;\n\n  $cmd $dir/log/init_model.log \\\n    gmm-init-model  --write-occs=$dir/1.occs  \\\n      $dir/tree $dir/treeacc $lang/topo $dir/1.mdl || exit 1;\n  if grep 'no stats' $dir/log/init_model.log; then\n     echo \"** The warnings above about 'no stats' generally mean you have phones **\"\n     echo \"** (or groups of phones) in your phone set that had no corresponding data. **\"\n     echo \"** You should probably figure out whether something went wrong, **\"\n     echo \"** or whether your data just doesn't happen to have examples of those **\"\n     echo \"** phones. **\"\n  fi\n\n  gmm-mixup --mix-up=$numgauss $dir/1.mdl $dir/1.occs $dir/1.mdl 2>$dir/log/mixup.log || exit 1;\n  rm $dir/treeacc\nfi\n\nif [ $stage -le -1 ]; then\n  # Convert the alignments.\n  echo \"$0: converting alignments from $alidir to use current tree\"\n  $cmd JOB=1:$nj $dir/log/convert.JOB.log \\\n    convert-ali $alidir/final.mdl $dir/1.mdl $dir/tree \\\n     \"ark:gunzip -c $alidir/ali.JOB.gz|\" \"ark:|gzip -c >$dir/ali.JOB.gz\" || exit 1;\nfi\n\nif [ $stage -le 0 ]; then\n  echo \"$0: compiling graphs of transcripts\"\n  $cmd JOB=1:$nj $dir/log/compile_graphs.JOB.log \\\n    compile-train-graphs --read-disambig-syms=$lang/phones/disambig.int $dir/tree $dir/1.mdl  $lang/L.fst  \\\n     \"ark:utils/sym2int.pl --map-oov $oov -f 2- $lang/words.txt < $sdata/JOB/text |\" \\\n      \"ark:|gzip -c >$dir/fsts.JOB.gz\" || exit 1;\nfi\n\nx=1\nwhile [ $x -lt $num_iters ]; do\n  echo \"$0: training pass $x\"\n  if [ $stage -le $x ]; then\n    if echo $realign_iters | grep -w $x >/dev/null; then\n      echo \"$0: aligning data\"\n      mdl=\"gmm-boost-silence --boost=$boost_silence `cat $lang/phones/optional_silence.csl` $dir/$x.mdl - |\"\n      $cmd JOB=1:$nj $dir/log/align.$x.JOB.log \\\n        gmm-align-compiled $scale_opts --beam=$beam --retry-beam=$retry_beam --careful=$careful \"$mdl\" \\\n         \"ark:gunzip -c $dir/fsts.JOB.gz|\" \"$feats\" \\\n         \"ark:|gzip -c >$dir/ali.JOB.gz\" || exit 1;\n    fi\n    $cmd JOB=1:$nj $dir/log/acc.$x.JOB.log \\\n      gmm-acc-stats-ali  $dir/$x.mdl \"$feats\" \\\n       \"ark,s,cs:gunzip -c $dir/ali.JOB.gz|\" $dir/$x.JOB.acc || exit 1;\n    $cmd $dir/log/update.$x.log \\\n      gmm-est --mix-up=$numgauss --power=$power \\\n        --write-occs=$dir/$[$x+1].occs $dir/$x.mdl \\\n       \"gmm-sum-accs - $dir/$x.*.acc |\" $dir/$[$x+1].mdl || exit 1;\n    rm $dir/$x.mdl $dir/$x.*.acc\n    rm $dir/$x.occs\n  fi\n  [ $x -le $max_iter_inc ] && numgauss=$[$numgauss+$incgauss];\n  x=$[$x+1];\ndone\n\nrm $dir/final.mdl $dir/final.occs 2>/dev/null\nln -s $x.mdl $dir/final.mdl\nln -s $x.occs $dir/final.occs\n\nsteps/diagnostic/analyze_alignments.sh --cmd \"$cmd\" $lang $dir\n\n# Summarize warning messages...\nutils/summarize_warnings.pl  $dir/log\n\nsteps/info/gmm_dir_info.pl $dir\n\necho \"$0: Done training system with delta+delta-delta features in $dir\"\n\nexit 0\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/steps_gan/train_lda_mllt.sh",
    "content": "#!/usr/bin/env bash\n\n# Copyright 2012  Johns Hopkins University (Author: Daniel Povey)\n#\n# LDA+MLLT refers to the way we transform the features after computing\n# the MFCCs: we splice across several frames, reduce the dimension (to 40\n# by default) using Linear Discriminant Analysis), and then later estimate,\n# over multiple iterations, a diagonalizing transform known as MLLT or STC.\n# See http://kaldi-asr.org/doc/transform.html for more explanation.\n#\n# Apache 2.0.\n\n# Begin configuration.\ncmd=run.pl\nconfig=\nstage=-5\nscale_opts=\"--transition-scale=1.0 --acoustic-scale=0.1 --self-loop-scale=0.1\"\nrealign_iters=\"10 20 30\";\nmllt_iters=\"2 4 6 12\";\nnum_iters=35    # Number of iterations of training\nmax_iter_inc=25  # Last iter to increase #Gauss on.\ndim=40\nbeam=10\nretry_beam=40\ncareful=false\nboost_silence=1.0 # Factor by which to boost silence likelihoods in alignment\npower=0.25 # Exponent for number of gaussians according to occurrence counts\nrandprune=4.0 # This is approximately the ratio by which we will speed up the\n              # LDA and MLLT calculations via randomized pruning.\nsplice_opts=\ncluster_thresh=-1  # for build-tree control final bottom-up clustering of leaves\nnorm_vars=false # deprecated.  Prefer --cmvn-opts \"--norm-vars=false\"\ncmvn_opts=\ncontext_opts=   # use \"--context-width=5 --central-position=2\" for quinphone.\n# End configuration.\ntrain_tree=true  # if false, don't actually train the tree.\nuse_lda_mat=  # If supplied, use this LDA[+MLLT] matrix.\nnum_nonsil_states=3\n\necho \"$0 $@\"  # Print the command line for logging\n\n[ -f path.sh ] && . ./path.sh\n. parse_options.sh || exit 1;\n\nif [ $# != 6 ]; then\n  echo \"Usage: steps/train_lda_mllt.sh [options] <#leaves> <#gauss> <data> <lang> <alignments> <dir>\"\n  echo \" e.g.: steps/train_lda_mllt.sh 2500 15000 data/train_si84 data/lang exp/tri1_ali_si84 exp/tri2b\"\n  echo \"Main options (for others, see top of script file)\"\n  echo \"  --cmd (utils/run.pl|utils/queue.pl <queue opts>) # how to run jobs.\"\n  echo \"  --config <config-file>                           # config containing options\"\n  echo \"  --stage <stage>                                  # stage to do partial re-run from.\"\n  exit 1;\nfi\n\nnumleaves=$1\ntotgauss=$2\ndata=$3\nlang=$4\nalidir=$5\ndir=$6\n\nfor f in $alidir/final.mdl $alidir/ali.1.gz $data/feats.scp $lang/phones.txt; do\n  [ ! -f $f ] && echo \"train_lda_mllt.sh: no such file $f\" && exit 1;\ndone\n\nnumgauss=$numleaves\nincgauss=$[($totgauss-$numgauss)/$max_iter_inc] # per-iter #gauss increment\noov=`cat $lang/oov.int` || exit 1;\nnj=`cat $alidir/num_jobs` || exit 1;\nsilphonelist=`cat $lang/phones/silence.csl` || exit 1;\nciphonelist=`cat $lang/phones/context_indep.csl` || exit 1;\n\nmkdir -p $dir/log\n\nutils/lang/check_phones_compatible.sh $lang/phones.txt $alidir/phones.txt || exit 1;\ncp $lang/phones.txt $dir || exit 1;\n\necho $nj >$dir/num_jobs\necho \"$splice_opts\" >$dir/splice_opts # keep track of frame-splicing options\n           # so that later stages of system building can know what they were.\n\n\n[ $(cat $alidir/cmvn_opts 2>/dev/null | wc -c) -gt 1 ] && [ -z \"$cmvn_opts\" ] && \\\n  echo \"$0: warning: ignoring CMVN options from source directory $alidir\"\n$norm_vars && cmvn_opts=\"--norm-vars=true $cmvn_opts\"\necho $cmvn_opts > $dir/cmvn_opts # keep track of options to CMVN.\n\nsdata=$data/split$nj;\nsplit_data.sh $data $nj || exit 1;\n\nsplicedfeats=\"ark,s,cs:apply-cmvn $cmvn_opts --utt2spk=ark:$sdata/JOB/utt2spk scp:$sdata/JOB/cmvn.scp scp:$sdata/JOB/feats.scp ark:- | splice-feats $splice_opts ark:- ark:- |\"\n# Note: $feats gets overwritten later in the script.\nfeats=\"$splicedfeats transform-feats $dir/0.mat ark:- ark:- |\"\n\n\n\nif [ $stage -le -5 ]; then\n  if [ -z \"$use_lda_mat\" ]; then\n    echo \"$0: Accumulating LDA statistics.\"\n    rm $dir/lda.*.acc 2>/dev/null\n    $cmd JOB=1:$nj $dir/log/lda_acc.JOB.log \\\n    ali-to-post \"ark:gunzip -c $alidir/ali.JOB.gz|\" ark:- \\| \\\n      weight-silence-post 0.0 $silphonelist $alidir/final.mdl ark:- ark:- \\| \\\n      acc-lda --rand-prune=$randprune $alidir/final.mdl \"$splicedfeats\" ark,s,cs:- \\\n      $dir/lda.JOB.acc || exit 1;\n    est-lda --write-full-matrix=$dir/full.mat --dim=$dim $dir/0.mat $dir/lda.*.acc \\\n      2>$dir/log/lda_est.log || exit 1;\n    rm $dir/lda.*.acc\n  else\n    echo \"$0: Using supplied LDA matrix $use_lda_mat\"\n    cp $use_lda_mat $dir/0.mat || exit 1;\n    [ ! -z \"$mllt_iters\" ] && \\\n      echo \"$0: Warning: using supplied LDA matrix $use_lda_mat but we will do MLLT,\" && \\\n      echo \"     which you might not want; to disable MLLT, specify --mllt-iters ''\" && \\\n      sleep 5\n  fi\nfi\n\ncur_lda_iter=0\n\nif [ $stage -le -4 ] && $train_tree; then\n  echo \"$0: Accumulating tree stats\"\n  $cmd JOB=1:$nj $dir/log/acc_tree.JOB.log \\\n    acc-tree-stats $context_opts \\\n    --ci-phones=$ciphonelist $alidir/final.mdl \"$feats\" \\\n    \"ark:gunzip -c $alidir/ali.JOB.gz|\" $dir/JOB.treeacc || exit 1;\n  [ `ls $dir/*.treeacc | wc -w` -ne \"$nj\" ] && echo \"$0: Wrong #tree-accs\" && exit 1;\n  $cmd $dir/log/sum_tree_acc.log \\\n    sum-tree-stats $dir/treeacc $dir/*.treeacc || exit 1;\n  rm $dir/*.treeacc\nfi\n\n\nif [ $stage -le -3 ] && $train_tree; then\n  echo \"$0: Getting questions for tree clustering.\"\n  # preparing questions, roots file...\n  cluster-phones --pdf-class-list=$(($num_nonsil_states / 2)) $context_opts $dir/treeacc $lang/phones/sets.int \\\n    $dir/questions.int 2> $dir/log/questions.log || exit 1;\n  cat $lang/phones/extra_questions.int >> $dir/questions.int\n  compile-questions $context_opts $lang/topo $dir/questions.int \\\n    $dir/questions.qst 2>$dir/log/compile_questions.log || exit 1;\n\n  echo \"$0: Building the tree\"\n  $cmd $dir/log/build_tree.log \\\n    build-tree $context_opts --verbose=1 --max-leaves=$numleaves \\\n    --cluster-thresh=$cluster_thresh $dir/treeacc $lang/phones/roots.int \\\n    $dir/questions.qst $lang/topo $dir/tree || exit 1;\nfi\n\nif [ $stage -le -2 ]; then\n  echo \"$0: Initializing the model\"\n  if $train_tree; then\n    gmm-init-model  --write-occs=$dir/1.occs  \\\n      $dir/tree $dir/treeacc $lang/topo $dir/1.mdl 2> $dir/log/init_model.log || exit 1;\n    grep 'no stats' $dir/log/init_model.log && echo \"This is a bad warning.\";\n    rm $dir/treeacc\n  else\n    cp $alidir/tree $dir/ || exit 1;\n    $cmd JOB=1 $dir/log/init_model.log \\\n      gmm-init-model-flat $dir/tree $lang/topo $dir/1.mdl \\\n        \"$feats subset-feats ark:- ark:-|\" || exit 1;\n  fi\nfi\n\n\nif [ $stage -le -1 ]; then\n  # Convert the alignments.\n  echo \"$0: Converting alignments from $alidir to use current tree\"\n  $cmd JOB=1:$nj $dir/log/convert.JOB.log \\\n    convert-ali $alidir/final.mdl $dir/1.mdl $dir/tree \\\n     \"ark:gunzip -c $alidir/ali.JOB.gz|\" \"ark:|gzip -c >$dir/ali.JOB.gz\" || exit 1;\nfi\n\nif [ $stage -le 0 ] && [ \"$realign_iters\" != \"\" ]; then\n  echo \"$0: Compiling graphs of transcripts\"\n  $cmd JOB=1:$nj $dir/log/compile_graphs.JOB.log \\\n    compile-train-graphs --read-disambig-syms=$lang/phones/disambig.int $dir/tree $dir/1.mdl  $lang/L.fst  \\\n     \"ark:utils/sym2int.pl --map-oov $oov -f 2- $lang/words.txt < $data/split$nj/JOB/text |\" \\\n      \"ark:|gzip -c >$dir/fsts.JOB.gz\" || exit 1;\nfi\n\n\nx=1\nwhile [ $x -lt $num_iters ]; do\n  echo Training pass $x\n  if echo $realign_iters | grep -w $x >/dev/null && [ $stage -le $x ]; then\n    echo Aligning data\n    mdl=\"gmm-boost-silence --boost=$boost_silence `cat $lang/phones/optional_silence.csl` $dir/$x.mdl - |\"\n    $cmd JOB=1:$nj $dir/log/align.$x.JOB.log \\\n      gmm-align-compiled $scale_opts --beam=$beam --retry-beam=$retry_beam --careful=$careful \"$mdl\" \\\n      \"ark:gunzip -c $dir/fsts.JOB.gz|\" \"$feats\" \\\n      \"ark:|gzip -c >$dir/ali.JOB.gz\" || exit 1;\n  fi\n  if echo $mllt_iters | grep -w $x >/dev/null; then\n    if [ $stage -le $x ]; then\n      echo \"$0: Estimating MLLT\"\n      $cmd JOB=1:$nj $dir/log/macc.$x.JOB.log \\\n        ali-to-post \"ark:gunzip -c $dir/ali.JOB.gz|\" ark:- \\| \\\n        weight-silence-post 0.0 $silphonelist $dir/$x.mdl ark:- ark:- \\| \\\n        gmm-acc-mllt --rand-prune=$randprune  $dir/$x.mdl \"$feats\" ark:- $dir/$x.JOB.macc \\\n        || exit 1;\n      est-mllt $dir/$x.mat.new $dir/$x.*.macc 2> $dir/log/mupdate.$x.log || exit 1;\n      gmm-transform-means  $dir/$x.mat.new $dir/$x.mdl $dir/$x.mdl \\\n        2> $dir/log/transform_means.$x.log || exit 1;\n      compose-transforms --print-args=false $dir/$x.mat.new $dir/$cur_lda_iter.mat $dir/$x.mat || exit 1;\n      rm $dir/$x.*.macc\n    fi\n    feats=\"$splicedfeats transform-feats $dir/$x.mat ark:- ark:- |\"\n    cur_lda_iter=$x\n  fi\n\n  if [ $stage -le $x ]; then\n    $cmd JOB=1:$nj $dir/log/acc.$x.JOB.log \\\n      gmm-acc-stats-ali  $dir/$x.mdl \"$feats\" \\\n      \"ark,s,cs:gunzip -c $dir/ali.JOB.gz|\" $dir/$x.JOB.acc || exit 1;\n    $cmd $dir/log/update.$x.log \\\n      gmm-est --write-occs=$dir/$[$x+1].occs --mix-up=$numgauss --power=$power \\\n        $dir/$x.mdl \"gmm-sum-accs - $dir/$x.*.acc |\" $dir/$[$x+1].mdl || exit 1;\n    rm $dir/$x.mdl $dir/$x.*.acc $dir/$x.occs\n  fi\n  [ $x -le $max_iter_inc ] && numgauss=$[$numgauss+$incgauss];\n  x=$[$x+1];\ndone\n\nrm $dir/final.{mdl,mat,occs} 2>/dev/null\nln -s $x.mdl $dir/final.mdl\nln -s $x.occs $dir/final.occs\nln -s $cur_lda_iter.mat $dir/final.mat\n\nsteps/diagnostic/analyze_alignments.sh --cmd \"$cmd\" $lang $dir\n\n# Summarize warning messages...\nutils/summarize_warnings.pl $dir/log\n\nsteps/info/gmm_dir_info.pl $dir\n\necho \"$0: Done training system with LDA+MLLT features in $dir\"\n\nexit 0\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/steps_gan/train_sat.sh",
    "content": "#!/usr/bin/env bash\n# Copyright 2012  Johns Hopkins University (Author: Daniel Povey).  Apache 2.0.\n\n\n# This does Speaker Adapted Training (SAT), i.e. train on\n# fMLLR-adapted features.  It can be done on top of either LDA+MLLT, or\n# delta and delta-delta features.  If there are no transforms supplied\n# in the alignment directory, it will estimate transforms itself before\n# building the tree (and in any case, it estimates transforms a number\n# of times during training).\n\n\n# Begin configuration section.\nstage=-5\nexit_stage=-100 # you can use this to require it to exit at the\n                # beginning of a specific stage.  Not all values are\n                # supported.\nfmllr_update_type=full\ncmd=run.pl\nscale_opts=\"--transition-scale=1.0 --acoustic-scale=0.1 --self-loop-scale=0.1\"\nbeam=10\nretry_beam=40\ncareful=false\nboost_silence=1.0 # Factor by which to boost silence likelihoods in alignment\ncontext_opts=  # e.g. set this to \"--context-width 5 --central-position 2\" for quinphone.\nrealign_iters=\"10 20 30\";\nfmllr_iters=\"2 4 6 12\";\nsilence_weight=0.0 # Weight on silence in fMLLR estimation.\nnum_iters=35   # Number of iterations of training\nmax_iter_inc=25 # Last iter to increase #Gauss on.\npower=0.2 # Exponent for number of gaussians according to occurrence counts\ncluster_thresh=-1  # for build-tree control final bottom-up clustering of leaves\nphone_map=\ntrain_tree=true\ntree_stats_opts=\ncluster_phones_opts=\ncompile_questions_opts=\n# End configuration section.\nnum_nonsil_states=3\n\necho \"$0 $@\"  # Print the command line for logging\n\n[ -f path.sh ] && . ./path.sh\n. parse_options.sh || exit 1;\n\nif [ $# != 6 ]; then\n  echo \"Usage: steps/train_sat.sh <#leaves> <#gauss> <data> <lang> <ali-dir> <exp-dir>\"\n  echo \" e.g.: steps/train_sat.sh 2500 15000 data/train_si84 data/lang exp/tri2b_ali_si84 exp/tri3b\"\n  echo \"Main options (for others, see top of script file)\"\n  echo \"  --cmd (utils/run.pl|utils/queue.pl <queue opts>) # how to run jobs.\"\n  echo \"  --config <config-file>                           # config containing options\"\n  echo \"  --stage <stage>                                  # stage to do partial re-run from.\"\n  exit 1;\nfi\n\nnumleaves=$1\ntotgauss=$2\ndata=$3\nlang=$4\nalidir=$5\ndir=$6\n\nfor f in $data/feats.scp $lang/phones.txt $alidir/final.mdl $alidir/ali.1.gz; do\n  [ ! -f $f ] && echo \"train_sat.sh: no such file $f\" && exit 1;\ndone\n\nnumgauss=$numleaves\nincgauss=$[($totgauss-$numgauss)/$max_iter_inc]  # per-iter #gauss increment\noov=`cat $lang/oov.int`\nnj=`cat $alidir/num_jobs` || exit 1;\nsilphonelist=`cat $lang/phones/silence.csl`\nciphonelist=`cat $lang/phones/context_indep.csl` || exit 1;\nsdata=$data/split$nj;\nsplice_opts=`cat $alidir/splice_opts 2>/dev/null` # frame-splicing options.\ncmvn_opts=`cat $alidir/cmvn_opts 2>/dev/null`\ndelta_opts=`cat $alidir/delta_opts 2>/dev/null`\nphone_map_opt=\n[ ! -z \"$phone_map\" ] && phone_map_opt=\"--phone-map='$phone_map'\"\n\nmkdir -p $dir/log\ncp $alidir/splice_opts $dir 2>/dev/null # frame-splicing options.\ncp $alidir/cmvn_opts $dir 2>/dev/null # cmn/cmvn option.\ncp $alidir/delta_opts $dir 2>/dev/null # delta option.\n\nutils/lang/check_phones_compatible.sh $lang/phones.txt $alidir/phones.txt || exit 1;\ncp $lang/phones.txt $dir || exit 1;\n\necho $nj >$dir/num_jobs\n[[ -d $sdata && $data/feats.scp -ot $sdata ]] || split_data.sh $data $nj || exit 1;\n\n# Set up features.\n\nif [ -f $alidir/final.mat ]; then feat_type=lda; else feat_type=delta; fi\necho \"$0: feature type is $feat_type\"\n\n## Set up speaker-independent features.\ncase $feat_type in\n  delta) sifeats=\"ark,s,cs:apply-cmvn $cmvn_opts --utt2spk=ark:$sdata/JOB/utt2spk scp:$sdata/JOB/cmvn.scp scp:$sdata/JOB/feats.scp ark:- | add-deltas $delta_opts ark:- ark:- |\";;\n  lda) sifeats=\"ark,s,cs:apply-cmvn $cmvn_opts --utt2spk=ark:$sdata/JOB/utt2spk scp:$sdata/JOB/cmvn.scp scp:$sdata/JOB/feats.scp ark:- | splice-feats $splice_opts ark:- ark:- | transform-feats $alidir/final.mat ark:- ark:- |\"\n    cp $alidir/final.mat $dir\n    cp $alidir/full.mat $dir 2>/dev/null\n    ;;\n  *) echo \"$0: invalid feature type $feat_type\" && exit 1;\nesac\n\n## Get initial fMLLR transforms (possibly from alignment dir)\nif [ -f $alidir/trans.1 ]; then\n  echo \"$0: Using transforms from $alidir\"\n  feats=\"$sifeats transform-feats --utt2spk=ark:$sdata/JOB/utt2spk ark,s,cs:$alidir/trans.JOB ark:- ark:- |\"\n  cur_trans_dir=$alidir\nelse\n  if [ $stage -le -5 ]; then\n    echo \"$0: obtaining initial fMLLR transforms since not present in $alidir\"\n    # The next line is necessary because of $silphonelist otherwise being incorrect; would require\n    # old $lang dir which would require another option.  Not needed anyway.\n    [ ! -z \"$phone_map\" ] && \\\n       echo \"$0: error: you must provide transforms if you use the --phone-map option.\" && exit 1;\n    $cmd JOB=1:$nj $dir/log/fmllr.0.JOB.log \\\n      ali-to-post \"ark:gunzip -c $alidir/ali.JOB.gz|\" ark:- \\| \\\n      weight-silence-post $silence_weight $silphonelist $alidir/final.mdl ark:- ark:- \\| \\\n      gmm-est-fmllr --fmllr-update-type=$fmllr_update_type \\\n      --spk2utt=ark:$sdata/JOB/spk2utt $alidir/final.mdl \"$sifeats\" \\\n      ark:- ark:$dir/trans.JOB || exit 1;\n  fi\n  feats=\"$sifeats transform-feats --utt2spk=ark:$sdata/JOB/utt2spk ark,s,cs:$dir/trans.JOB ark:- ark:- |\"\n  cur_trans_dir=$dir\nfi\n\nif [ $stage -le -4 ] && $train_tree; then\n  # Get tree stats.\n  echo \"$0: Accumulating tree stats\"\n  $cmd JOB=1:$nj $dir/log/acc_tree.JOB.log \\\n    acc-tree-stats $context_opts $tree_stats_opts $phone_map_opt --ci-phones=$ciphonelist $alidir/final.mdl \"$feats\" \\\n    \"ark:gunzip -c $alidir/ali.JOB.gz|\" $dir/JOB.treeacc || exit 1;\n  [ \"`ls $dir/*.treeacc | wc -w`\" -ne \"$nj\" ] && echo \"$0: Wrong #tree-accs\" && exit 1;\n  $cmd $dir/log/sum_tree_acc.log \\\n    sum-tree-stats $dir/treeacc $dir/*.treeacc || exit 1;\n  rm $dir/*.treeacc\nfi\n\nif [ $stage -le -3 ] && $train_tree; then\n  echo \"$0: Getting questions for tree clustering.\"\n  # preparing questions, roots file...\n  cluster-phones --pdf-class-list=$(($num_nonsil_states / 2)) \\\n    $cluster_phones_opts $context_opts \\\n    $dir/treeacc $lang/phones/sets.int $dir/questions.int 2>$dir/log/questions.log || exit 1;\n  cat $lang/phones/extra_questions.int >> $dir/questions.int\n  compile-questions $context_opts $compile_questions_opts $lang/topo $dir/questions.int $dir/questions.qst 2>$dir/log/compile_questions.log || exit 1;\n\n  echo \"$0: Building the tree\"\n  $cmd $dir/log/build_tree.log \\\n    build-tree $context_opts --verbose=1 --max-leaves=$numleaves \\\n    --cluster-thresh=$cluster_thresh $dir/treeacc $lang/phones/roots.int \\\n    $dir/questions.qst $lang/topo $dir/tree || exit 1;\nfi\n\nif [ $stage -le -2 ]; then\n  echo \"$0: Initializing the model\"\n  if $train_tree; then\n    gmm-init-model  --write-occs=$dir/1.occs  \\\n      $dir/tree $dir/treeacc $lang/topo $dir/1.mdl 2> $dir/log/init_model.log || exit 1;\n    grep 'no stats' $dir/log/init_model.log && echo \"This is a bad warning.\";\n    rm $dir/treeacc\n  else\n    cp $alidir/tree $dir/ || exit 1;\n    $cmd JOB=1 $dir/log/init_model.log \\\n      gmm-init-model-flat $dir/tree $lang/topo $dir/1.mdl \\\n        \"$feats subset-feats ark:- ark:-|\" || exit 1;\n  fi\nfi\n\nif [ $stage -le -1 ]; then\n  # Convert the alignments.\n  echo \"$0: Converting alignments from $alidir to use current tree\"\n  $cmd JOB=1:$nj $dir/log/convert.JOB.log \\\n    convert-ali $phone_map_opt $alidir/final.mdl $dir/1.mdl $dir/tree \\\n     \"ark:gunzip -c $alidir/ali.JOB.gz|\" \"ark:|gzip -c >$dir/ali.JOB.gz\" || exit 1;\nfi\n\n[ \"$exit_stage\" -eq 0 ] && echo \"$0: Exiting early: --exit-stage $exit_stage\" && exit 0;\n\nif [ $stage -le 0 ] && [ \"$realign_iters\" != \"\" ]; then\n  echo \"$0: Compiling graphs of transcripts\"\n  $cmd JOB=1:$nj $dir/log/compile_graphs.JOB.log \\\n    compile-train-graphs --read-disambig-syms=$lang/phones/disambig.int $dir/tree $dir/1.mdl  $lang/L.fst  \\\n     \"ark:utils/sym2int.pl --map-oov $oov -f 2- $lang/words.txt < $sdata/JOB/text |\" \\\n      \"ark:|gzip -c >$dir/fsts.JOB.gz\" || exit 1;\nfi\n\nx=1\nwhile [ $x -lt $num_iters ]; do\n   echo Pass $x\n  if echo $realign_iters | grep -w $x >/dev/null && [ $stage -le $x ]; then\n    echo Aligning data\n    mdl=\"gmm-boost-silence --boost=$boost_silence `cat $lang/phones/optional_silence.csl` $dir/$x.mdl - |\"\n    $cmd JOB=1:$nj $dir/log/align.$x.JOB.log \\\n      gmm-align-compiled $scale_opts --beam=$beam --retry-beam=$retry_beam --careful=$careful \"$mdl\" \\\n      \"ark:gunzip -c $dir/fsts.JOB.gz|\" \"$feats\" \\\n      \"ark:|gzip -c >$dir/ali.JOB.gz\" || exit 1;\n  fi\n\n  if echo $fmllr_iters | grep -w $x >/dev/null; then\n    if [ $stage -le $x ]; then\n      echo Estimating fMLLR transforms\n      # We estimate a transform that's additional to the previous transform;\n      # we'll compose them.\n      $cmd JOB=1:$nj $dir/log/fmllr.$x.JOB.log \\\n        ali-to-post \"ark:gunzip -c $dir/ali.JOB.gz|\" ark:-  \\| \\\n        weight-silence-post $silence_weight $silphonelist $dir/$x.mdl ark:- ark:- \\| \\\n        gmm-est-fmllr --fmllr-update-type=$fmllr_update_type \\\n        --spk2utt=ark:$sdata/JOB/spk2utt $dir/$x.mdl \\\n        \"$feats\" ark:- ark:$dir/tmp_trans.JOB || exit 1;\n      for n in `seq $nj`; do\n        ! ( compose-transforms --b-is-affine=true \\\n          ark:$dir/tmp_trans.$n ark:$cur_trans_dir/trans.$n ark:$dir/composed_trans.$n \\\n          && mv $dir/composed_trans.$n $dir/trans.$n && \\\n          rm $dir/tmp_trans.$n ) 2>$dir/log/compose_transforms.$x.log \\\n          && echo \"$0: Error composing transforms\" && exit 1;\n      done\n    fi\n    feats=\"$sifeats transform-feats --utt2spk=ark:$sdata/JOB/utt2spk ark:$dir/trans.JOB ark:- ark:- |\"\n    cur_trans_dir=$dir\n  fi\n\n  if [ $stage -le $x ]; then\n    $cmd JOB=1:$nj $dir/log/acc.$x.JOB.log \\\n      gmm-acc-stats-ali $dir/$x.mdl \"$feats\" \\\n      \"ark,s,cs:gunzip -c $dir/ali.JOB.gz|\" $dir/$x.JOB.acc || exit 1;\n    [ `ls $dir/$x.*.acc | wc -w` -ne \"$nj\" ] && echo \"$0: Wrong #accs\" && exit 1;\n    $cmd $dir/log/update.$x.log \\\n      gmm-est --power=$power --write-occs=$dir/$[$x+1].occs --mix-up=$numgauss $dir/$x.mdl \\\n      \"gmm-sum-accs - $dir/$x.*.acc |\" $dir/$[$x+1].mdl || exit 1;\n    rm $dir/$x.mdl $dir/$x.*.acc\n    rm $dir/$x.occs\n  fi\n  [ $x -le $max_iter_inc ] && numgauss=$[$numgauss+$incgauss];\n  x=$[$x+1];\ndone\n\n\nif [ $stage -le $x ]; then\n  # Accumulate stats for \"alignment model\"-- this model is\n  # computed with the speaker-independent features, but matches Gaussian-for-Gaussian\n  # with the final speaker-adapted model.\n  $cmd JOB=1:$nj $dir/log/acc_alimdl.JOB.log \\\n    ali-to-post \"ark:gunzip -c $dir/ali.JOB.gz|\" ark:-  \\| \\\n    gmm-acc-stats-twofeats $dir/$x.mdl \"$feats\" \"$sifeats\" \\\n    ark,s,cs:- $dir/$x.JOB.acc || exit 1;\n  [ `ls $dir/$x.*.acc | wc -w` -ne \"$nj\" ] && echo \"$0: Wrong #accs\" && exit 1;\n  # Update model.\n  $cmd $dir/log/est_alimdl.log \\\n    gmm-est --power=$power --remove-low-count-gaussians=false $dir/$x.mdl \\\n    \"gmm-sum-accs - $dir/$x.*.acc|\" $dir/$x.alimdl  || exit 1;\n  rm $dir/$x.*.acc\nfi\n\nrm $dir/final.{mdl,alimdl,occs} 2>/dev/null\nln -s $x.mdl $dir/final.mdl\nln -s $x.occs $dir/final.occs\nln -s $x.alimdl $dir/final.alimdl\n\n\nsteps/diagnostic/analyze_alignments.sh --cmd \"$cmd\" $lang $dir\n\nutils/summarize_warnings.pl $dir/log\n(\n  echo \"$0: Likelihood evolution:\"\n  for x in `seq $[$num_iters-1]`; do\n    tail -n 30 $dir/log/acc.$x.*.log | awk '/Overall avg like/{l += $(NF-3)*$(NF-1); t += $(NF-1); }\n        /Overall average logdet/{d += $(NF-3)*$(NF-1); t2 += $(NF-1);}\n        END{ d /= t2; l /= t; printf(\"%s \", d+l); } '\n  done\n  echo\n) | tee $dir/log/summary.log\n\n\nsteps/info/gmm_dir_info.pl $dir\n\necho \"$0: done training SAT system in $dir\"\n\nexit 0\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/kaldi_self_train/st/train.sh",
    "content": "#!/bin/bash\n\nset -eu\n\nw2v_dir=  # contains features `{train,valid}.{npy,lengths}`, real transcripts `{train,valid}.${label}`, and dict `dict.${label}.txt`\nlab_dir=  # contains pseudo labels `{train,valid}.txt`\nout_dir=  # output root\narpa_lm=  # phone LM\narpa_lm_bin=  # (binary) phone LM for KenLM, used in unsupervised selection\n\nlabel=phnc\ntrain_name=\"train\"\nvalid_name=\"valid\"\ndata_dir=${out_dir}/data\n\nmkdir -p ${out_dir}/exp\nlocal/prepare_lang.sh $w2v_dir/dict.${label}.txt $data_dir\nlocal/prepare_lm.sh $arpa_lm $data_dir\n\nfor x in $train_name $valid_name; do\n  x_gt=${x}_gt\n\n  # prepare pseudo data\n  python local/prepare_data_from_w2v.py $w2v_dir $data_dir $x\n  steps/compute_cmvn_stats.sh $data_dir/$x $out_dir/exp/make_feat/$x $out_dir/feats/$x\n  python local/copy_aligned_text.py < $lab_dir/$x.txt > $data_dir/$x/text\n\n  # prepare ground truth data\n  mkdir $data_dir/$x_gt\n  cp $data_dir/$x/{feats.scp,cmvn.scp,utt2spk,spk2utt} $data_dir/$x_gt/\n  python local/copy_aligned_text.py < $w2v_dir/$x.$label > $data_dir/$x_gt/text\ndone\n\nlocal/train_subset_lgbeam.sh \\\n  --out_root ${out_dir} --out_name exp --train $train_name --valid $valid_name \\\n  --mono_size 2000 --tri1_size 5000 --tri2b_size -1 --tri3b_size -1 \\\n  --stage 1 --max_stage 3 $data_dir $data_dir/lang $data_dir/lang_test\n\nlocal/unsup_select_decode.sh \\\n  --split $valid_name --kenlm_path $arpa_lm_bin \\\n  --ref_txt $data_dir/${valid_name}_gt/text \\\n  --psd_txt $data_dir/${valid_name}/text \\\n  $out_dir/exp\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/models/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .wav2vec_u import Wav2vec_U\n\n\n__all__ = [\n    \"Wav2vec_U\",\n]\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/models/wav2vec_u.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass\nfrom enum import Enum, auto\nimport math\nimport numpy as np\nfrom typing import Tuple, List, Optional, Dict\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom torch import autograd\n\nfrom fairseq import checkpoint_utils, utils\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.models import BaseFairseqModel, register_model\nfrom fairseq.modules import (\n    SamePad,\n    TransposeLast,\n)\n\n\nclass SegmentationType(Enum):\n    NONE = auto()\n    RANDOM = auto()\n    UNIFORM_RANDOM = auto()\n    UNIFORM_RANDOM_JOIN = auto()\n    JOIN = auto()\n\n\n@dataclass\nclass SegmentationConfig(FairseqDataclass):\n    type: SegmentationType = SegmentationType.NONE\n    subsample_rate: float = 0.25\n    mean_pool: bool = True\n    mean_pool_join: bool = False\n    remove_zeros: bool = False\n\n\n@dataclass\nclass Wav2vec_UConfig(FairseqDataclass):\n    discriminator_kernel: int = 3\n    discriminator_dilation: int = 1\n    discriminator_dim: int = 256\n    discriminator_causal: bool = True\n    discriminator_linear_emb: bool = False\n    discriminator_depth: int = 1\n    discriminator_max_pool: bool = False\n    discriminator_act_after_linear: bool = False\n    discriminator_dropout: float = 0.0\n    discriminator_spectral_norm: bool = False\n    discriminator_weight_norm: bool = False\n\n    generator_kernel: int = 4\n    generator_dilation: int = 1\n    generator_stride: int = 1\n    generator_pad: int = -1\n    generator_bias: bool = False\n    generator_dropout: float = 0.0\n    generator_batch_norm: int = 0\n    generator_residual: bool = False\n\n    blank_weight: float = 0\n    blank_mode: str = \"add\"\n    blank_is_sil: bool = False\n    no_softmax: bool = False\n\n    smoothness_weight: float = 0.0\n    smoothing: float = 0.0\n    smoothing_one_sided: bool = False\n    gradient_penalty: float = 0.0\n    probabilistic_grad_penalty_slicing: bool = False\n    code_penalty: float = 0.0\n    mmi_weight: float = 0.0\n    target_dim: int = 64\n    target_downsample_rate: int = 2\n    gumbel: bool = False\n    hard_gumbel: bool = True\n    temp: Tuple[float, float, float] = (2, 0.1, 0.99995)\n    input_dim: int = 128\n\n    segmentation: SegmentationConfig = SegmentationConfig()\n\n\nclass Segmenter(nn.Module):\n    cfg: SegmentationConfig\n\n    def __init__(self, cfg: SegmentationConfig):\n        super().__init__()\n        self.cfg = cfg\n        self.subsample_rate = cfg.subsample_rate\n\n    def pre_segment(self, dense_x, dense_padding_mask):\n        return dense_x, dense_padding_mask\n\n    def logit_segment(self, logits, padding_mask):\n        return logits, padding_mask\n\n\nclass RandomSegmenter(Segmenter):\n    def pre_segment(self, dense_x, dense_padding_mask):\n        target_num = math.ceil(dense_x.size(1) * self.subsample_rate)\n        ones = torch.ones(dense_x.shape[:-1], device=dense_x.device)\n        indices, _ = ones.multinomial(target_num).sort(dim=-1)\n        indices_ld = indices.unsqueeze(-1).expand(-1, -1, dense_x.size(-1))\n        dense_x = dense_x.gather(1, indices_ld)\n        dense_padding_mask = dense_padding_mask.gather(1, index=indices)\n        return dense_x, dense_padding_mask\n\n\nclass UniformRandomSegmenter(Segmenter):\n    def pre_segment(self, dense_x, dense_padding_mask):\n        bsz, tsz, fsz = dense_x.shape\n\n        target_num = math.ceil(tsz * self.subsample_rate)\n\n        rem = tsz % target_num\n\n        if rem > 0:\n            dense_x = F.pad(dense_x, [0, 0, 0, target_num - rem])\n            dense_padding_mask = F.pad(\n                dense_padding_mask, [0, target_num - rem], value=True\n            )\n\n        dense_x = dense_x.view(bsz, target_num, -1, fsz)\n        dense_padding_mask = dense_padding_mask.view(bsz, target_num, -1)\n\n        if self.cfg.mean_pool:\n            dense_x = dense_x.mean(dim=-2)\n            dense_padding_mask = dense_padding_mask.all(dim=-1)\n        else:\n            ones = torch.ones((bsz, dense_x.size(2)), device=dense_x.device)\n            indices = ones.multinomial(1)\n            indices = indices.unsqueeze(-1).expand(-1, target_num, -1)\n            indices_ld = indices.unsqueeze(-1).expand(-1, -1, -1, fsz)\n            dense_x = dense_x.gather(2, indices_ld).reshape(bsz, -1, fsz)\n            dense_padding_mask = dense_padding_mask.gather(2, index=indices).reshape(\n                bsz, -1\n            )\n        return dense_x, dense_padding_mask\n\n\nclass JoinSegmenter(Segmenter):\n    def logit_segment(self, logits, padding_mask):\n        preds = logits.argmax(dim=-1)\n\n        if padding_mask.any():\n            preds[padding_mask] = -1  # mark pad\n        uniques = []\n\n        bsz, tsz, csz = logits.shape\n\n        for p in preds:\n            uniques.append(\n                p.cpu().unique_consecutive(return_inverse=True, return_counts=True)\n            )\n\n        new_tsz = max(u[0].numel() for u in uniques)\n        new_logits = logits.new_zeros(bsz, new_tsz, csz)\n        new_pad = padding_mask.new_zeros(bsz, new_tsz)\n\n        for b in range(bsz):\n            u, idx, c = uniques[b]\n            keep = u != -1\n\n            if self.cfg.remove_zeros:\n                keep.logical_and_(u != 0)\n\n            if self.training and not self.cfg.mean_pool_join:\n                u[0] = 0\n                u[1:] = c.cumsum(0)[:-1]\n                m = c > 1\n                r = torch.rand(m.sum())\n                o = (c[m] * r).long()\n                u[m] += o\n                new_logits[b, : u.numel()] = logits[b, u]\n            else:\n                new_logits[b].index_add_(\n                    dim=0, index=idx.to(new_logits.device), source=logits[b]\n                )\n                new_logits[b, : c.numel()] /= c.unsqueeze(-1).to(new_logits.device)\n\n            new_sz = keep.sum()\n            if not keep.all():\n                kept_logits = new_logits[b, : c.numel()][keep]\n                new_logits[b, :new_sz] = kept_logits\n\n            if new_sz < new_tsz:\n                pad = new_tsz - new_sz\n                new_logits[b, -pad:] = 0\n                new_pad[b, -pad:] = True\n\n        return new_logits, new_pad\n\n\nclass UniformRandomJoinSegmenter(UniformRandomSegmenter, JoinSegmenter):\n    pass\n\n\nSEGMENT_FACTORY = {\n    SegmentationType.NONE: Segmenter,\n    SegmentationType.RANDOM: RandomSegmenter,\n    SegmentationType.UNIFORM_RANDOM: UniformRandomSegmenter,\n    SegmentationType.UNIFORM_RANDOM_JOIN: UniformRandomJoinSegmenter,\n    SegmentationType.JOIN: JoinSegmenter,\n}\n\n\nclass Discriminator(nn.Module):\n    def __init__(self, dim, cfg: Wav2vec_UConfig):\n        super().__init__()\n\n        inner_dim = cfg.discriminator_dim\n        kernel = cfg.discriminator_kernel\n        dilation = cfg.discriminator_dilation\n        self.max_pool = cfg.discriminator_max_pool\n\n        if cfg.discriminator_causal:\n            padding = kernel - 1\n        else:\n            padding = kernel // 2\n\n        def make_conv(in_d, out_d, k, p=0, has_dilation=True):\n            conv = nn.Conv1d(\n                in_d,\n                out_d,\n                kernel_size=k,\n                padding=p,\n                dilation=dilation if has_dilation else 1,\n            )\n            if cfg.discriminator_spectral_norm:\n                conv = nn.utils.spectral_norm(conv)\n            elif cfg.discriminator_weight_norm:\n                conv = nn.utils.weight_norm(conv)\n            return conv\n\n        inner_net = [\n            nn.Sequential(\n                make_conv(inner_dim, inner_dim, kernel, padding),\n                SamePad(kernel_size=kernel, causal=cfg.discriminator_causal),\n                nn.Dropout(cfg.discriminator_dropout),\n                nn.GELU(),\n            )\n            for _ in range(cfg.discriminator_depth - 1)\n        ] + [\n            make_conv(inner_dim, 1, kernel, padding, has_dilation=False),\n            SamePad(kernel_size=kernel, causal=cfg.discriminator_causal),\n        ]\n\n        if cfg.discriminator_linear_emb:\n            emb_net = [make_conv(dim, inner_dim, 1)]\n        else:\n            emb_net = [\n                make_conv(dim, inner_dim, kernel, padding),\n                SamePad(kernel_size=kernel, causal=cfg.discriminator_causal),\n            ]\n\n        if cfg.discriminator_act_after_linear:\n            emb_net.append(nn.GELU())\n\n        self.net = nn.Sequential(\n            *emb_net,\n            nn.Dropout(cfg.discriminator_dropout),\n            *inner_net,\n        )\n\n    def forward(self, x, padding_mask):\n        x = x.transpose(1, 2)  # BTC -> BCT\n        x = self.net(x)\n        x = x.transpose(1, 2)\n        x_sz = x.size(1)\n        if padding_mask is not None and padding_mask.any() and padding_mask.dim() > 1:\n            padding_mask = padding_mask[:, : x.size(1)]\n            x[padding_mask] = float(\"-inf\") if self.max_pool else 0\n            x_sz = x_sz - padding_mask.sum(dim=-1)\n        x = x.squeeze(-1)\n        if self.max_pool:\n            x, _ = x.max(dim=-1)\n        else:\n            x = x.sum(dim=-1)\n            x = x / x_sz\n        return x\n\n\nclass Generator(nn.Module):\n    def __init__(self, input_dim, output_dim, cfg: Wav2vec_UConfig):\n        super().__init__()\n\n        self.cfg = cfg\n        self.output_dim = output_dim\n        self.stride = cfg.generator_stride\n        self.dropout = nn.Dropout(cfg.generator_dropout)\n        self.batch_norm = cfg.generator_batch_norm != 0\n        self.residual = cfg.generator_residual\n\n        padding = (\n            cfg.generator_kernel // 2 if cfg.generator_pad < 0 else cfg.generator_pad\n        )\n        self.proj = nn.Sequential(\n            TransposeLast(),\n            nn.Conv1d(\n                input_dim,\n                output_dim,\n                kernel_size=cfg.generator_kernel,\n                stride=cfg.generator_stride,\n                dilation=cfg.generator_dilation,\n                padding=padding,\n                bias=cfg.generator_bias,\n            ),\n            TransposeLast(),\n        )\n\n        if self.batch_norm:\n            self.bn = nn.BatchNorm1d(input_dim)\n            self.bn.weight.data.fill_(cfg.generator_batch_norm)\n        if self.residual:\n            self.in_proj = nn.Linear(input_dim, input_dim)\n\n    def forward(self, dense_x, tokens, dense_padding_mask):\n        result = {}\n\n        if self.batch_norm:\n            dense_x = self.bn_padded_data(dense_x, dense_padding_mask)\n        if self.residual:\n            inter_x = self.in_proj(self.dropout(dense_x))\n            dense_x = dense_x + inter_x\n            result[\"inter_x\"] = inter_x\n\n        dense_x = self.dropout(dense_x)\n\n        dense_x = self.proj(dense_x)\n        if self.stride > 1:\n            dense_padding_mask = dense_padding_mask[:, :: self.stride]\n\n        if dense_padding_mask.size(1) != dense_x.size(1):\n            new_padding = dense_padding_mask.new_zeros(dense_x.shape[:-1])\n            diff = new_padding.size(1) - dense_padding_mask.size(1)\n\n            if diff > 0:\n                new_padding[:, diff:] = dense_padding_mask\n            else:\n                assert diff < 0\n                new_padding = dense_padding_mask[:, :diff]\n\n            dense_padding_mask = new_padding\n\n        token_x = None\n        if tokens is not None:\n            token_x = dense_x.new_zeros(tokens.numel(), self.output_dim)\n            token_x.scatter_(1, tokens.view(-1, 1).long(), 1)\n            token_x = token_x.view(tokens.shape + (self.output_dim,))\n\n        result[\"dense_x\"] = dense_x\n        result[\"token_x\"] = token_x\n        result[\"dense_padding_mask\"] = dense_padding_mask\n\n        return result\n\n    def bn_padded_data(self, feature, padding_mask):\n        normed_feature = feature.clone()\n        normed_feature[~padding_mask] = self.bn(\n            feature[~padding_mask].unsqueeze(-1)\n        ).squeeze(-1)\n        return normed_feature\n\n\n@register_model(\"wav2vec_u\", dataclass=Wav2vec_UConfig)\nclass Wav2vec_U(BaseFairseqModel):\n    def calc_gradient_penalty(self, real_data, fake_data):\n\n        b_size = min(real_data.size(0), fake_data.size(0))\n        t_size = min(real_data.size(1), fake_data.size(1))\n\n        if self.cfg.probabilistic_grad_penalty_slicing:\n\n            def get_slice(data, dim, target_size):\n\n                size = data.size(dim)\n                diff = size - target_size\n                if diff <= 0:\n                    return data\n\n                start = np.random.randint(0, diff + 1)\n                return data.narrow(dim=dim, start=start, length=target_size)\n\n            real_data = get_slice(real_data, 0, b_size)\n            real_data = get_slice(real_data, 1, t_size)\n            fake_data = get_slice(fake_data, 0, b_size)\n            fake_data = get_slice(fake_data, 1, t_size)\n\n        else:\n            real_data = real_data[:b_size, :t_size]\n            fake_data = fake_data[:b_size, :t_size]\n\n        alpha = torch.rand(real_data.size(0), 1, 1)\n        alpha = alpha.expand(real_data.size())\n        alpha = alpha.to(real_data.device)\n\n        interpolates = alpha * real_data + ((1 - alpha) * fake_data)\n\n        disc_interpolates = self.discriminator(interpolates, None)\n\n        gradients = autograd.grad(\n            outputs=disc_interpolates,\n            inputs=interpolates,\n            grad_outputs=torch.ones(disc_interpolates.size(), device=real_data.device),\n            create_graph=True,\n            retain_graph=True,\n            only_inputs=True,\n        )[0]\n\n        gradient_penalty = (gradients.norm(2, dim=1) - 1) ** 2\n        return gradient_penalty\n\n    def set_num_updates(self, num_updates):\n        super().set_num_updates(num_updates)\n        self.update_num = num_updates\n        self.curr_temp = max(\n            self.max_temp * self.temp_decay ** num_updates, self.min_temp\n        )\n\n    def discrim_step(self, num_updates):\n        return num_updates % 2 == 1\n\n    def get_groups_for_update(self, num_updates):\n        return \"discriminator\" if self.discrim_step(num_updates) else \"generator\"\n\n    def __init__(self, cfg: Wav2vec_UConfig, target_dict):\n        super().__init__()\n\n        self.cfg = cfg\n        self.zero_index = target_dict.index(\"<SIL>\") if \"<SIL>\" in target_dict else 0\n        self.smoothness_weight = cfg.smoothness_weight\n\n        output_size = len(target_dict)\n        self.pad = target_dict.pad()\n        self.eos = target_dict.eos()\n        self.smoothing = cfg.smoothing\n        self.smoothing_one_sided = cfg.smoothing_one_sided\n        self.no_softmax = cfg.no_softmax\n        self.gumbel = cfg.gumbel\n        self.hard_gumbel = cfg.hard_gumbel\n        self.last_acc = None\n\n        self.gradient_penalty = cfg.gradient_penalty\n        self.code_penalty = cfg.code_penalty\n        self.mmi_weight = cfg.mmi_weight\n        self.blank_weight = cfg.blank_weight\n        self.blank_mode = cfg.blank_mode\n        self.blank_index = target_dict.index(\"<SIL>\") if cfg.blank_is_sil else 0\n        assert self.blank_index != target_dict.unk()\n\n        self.discriminator = Discriminator(output_size, cfg)\n        for p in self.discriminator.parameters():\n            p.param_group = \"discriminator\"\n\n        self.pca_A = self.pca_b = None\n        d = cfg.input_dim\n\n        self.segmenter = SEGMENT_FACTORY[cfg.segmentation.type](cfg.segmentation)\n\n        self.generator = Generator(d, output_size, cfg)\n\n        for p in self.generator.parameters():\n            p.param_group = \"generator\"\n\n        for p in self.segmenter.parameters():\n            p.param_group = \"generator\"\n\n        self.max_temp, self.min_temp, self.temp_decay = cfg.temp\n        self.curr_temp = self.max_temp\n        self.update_num = 0\n\n        if self.mmi_weight > 0:\n            self.target_downsample_rate = cfg.target_downsample_rate\n            self.decoder = nn.Linear(d, cfg.target_dim)\n            for p in self.decoder.parameters():\n                p.param_group = \"generator\"\n\n    @classmethod\n    def build_model(cls, cfg, task):\n        return cls(cfg, task.target_dictionary)\n\n    def get_logits(\n        self,\n        net_output: Optional[Dict[str, List[Optional[torch.Tensor]]]],\n        normalize: bool = False,\n    ):\n        logits = net_output[\"logits\"]\n\n        if self.blank_weight != 0:\n            if self.blank_mode == \"add\":\n                logits[..., self.blank_index] += self.blank_weight\n            elif self.blank_mode == \"set\":\n                logits[..., self.blank_index] = self.blank_weight\n            else:\n                raise Exception(f\"invalid blank mode {self.blank_mode}\")\n\n        padding = net_output[\"padding_mask\"]\n        if padding.any():\n            logits[padding] = float(\"-inf\")\n            logits[padding][..., self.blank_index] = float(\"inf\")\n\n        if normalize:\n            logits = utils.log_softmax(logits.float(), dim=-1)\n\n        return logits.transpose(0, 1)\n\n    def get_normalized_probs(\n        self,\n        net_output: Tuple[\n            torch.Tensor, Optional[Dict[str, List[Optional[torch.Tensor]]]]\n        ],\n        log_probs: bool,\n        sample: Optional[Dict[str, torch.Tensor]] = None,\n    ):\n        logits = self.get_logits(net_output)\n\n        probs = super().get_normalized_probs(logits, log_probs, sample)\n        # BTC -> TBC for ctc\n        probs = probs.transpose(0, 1)\n        return probs\n\n    def normalize(self, dense_x):\n\n        bsz, tsz, csz = dense_x.shape\n\n        if dense_x.numel() == 0:\n            raise Exception(dense_x.shape)\n        _, k = dense_x.max(-1)\n        hard_x = (\n            dense_x.new_zeros(bsz * tsz, csz)\n            .scatter_(-1, k.view(-1, 1), 1.0)\n            .view(-1, csz)\n        )\n        hard_probs = torch.mean(hard_x.float(), dim=0)\n        code_perplexity = torch.exp(\n            -torch.sum(hard_probs * torch.log(hard_probs + 1e-7), dim=-1)\n        )\n\n        avg_probs = torch.softmax(dense_x.reshape(-1, csz).float(), dim=-1).mean(dim=0)\n        prob_perplexity = torch.exp(\n            -torch.sum(avg_probs * torch.log(avg_probs + 1e-7), dim=-1)\n        )\n\n        if not self.no_softmax:\n            if self.training and self.gumbel:\n                dense_x = F.gumbel_softmax(\n                    dense_x.float(), tau=self.curr_temp, hard=self.hard_gumbel\n                ).type_as(dense_x)\n            else:\n                dense_x = dense_x.softmax(-1)\n\n        return dense_x, code_perplexity, prob_perplexity\n\n    def forward(\n        self,\n        features,\n        padding_mask,\n        random_label=None,\n        dense_x_only=False,\n        segment=True,\n        aux_target=None,\n    ):\n        if segment:\n            features, padding_mask = self.segmenter.pre_segment(features, padding_mask)\n\n        orig_size = features.size(0) * features.size(1) - padding_mask.sum()\n\n        gen_result = self.generator(features, random_label, padding_mask)\n\n        orig_dense_x, token_x = gen_result[\"dense_x\"], gen_result[\"token_x\"]\n        orig_dense_padding_mask = gen_result[\"dense_padding_mask\"]\n\n        if segment:\n            dense_x, dense_padding_mask = self.segmenter.logit_segment(\n                orig_dense_x, orig_dense_padding_mask\n            )\n        else:\n            dense_x = orig_dense_x\n            dense_padding_mask = orig_dense_padding_mask\n\n        dense_logits = dense_x\n        prob_perplexity = None\n        code_perplexity = None\n\n        if not (self.no_softmax and dense_x_only):\n            dense_x, code_perplexity, prob_perplexity = self.normalize(dense_logits)\n\n        if dense_x_only or self.discriminator is None:\n            return {\n                \"logits\": dense_x,\n                \"padding_mask\": dense_padding_mask,\n            }\n\n        token_padding_mask = random_label == self.pad\n\n        dense_y = self.discriminator(dense_x, dense_padding_mask)\n        token_y = self.discriminator(token_x, token_padding_mask)\n\n        sample_size = features.size(0)\n\n        d_step = self.discrim_step(self.update_num)\n\n        fake_smooth = self.smoothing\n        real_smooth = self.smoothing\n        if self.smoothing_one_sided:\n            fake_smooth = 0\n\n        zero_loss = None\n        smoothness_loss = None\n        code_pen = None\n        mmi_loss = None\n\n        if d_step:\n            loss_dense = F.binary_cross_entropy_with_logits(\n                dense_y,\n                dense_y.new_ones(dense_y.shape) - fake_smooth,\n                reduction=\"sum\",\n            )\n            loss_token = F.binary_cross_entropy_with_logits(\n                token_y,\n                token_y.new_zeros(token_y.shape) + real_smooth,\n                reduction=\"sum\",\n            )\n            if self.training and self.gradient_penalty > 0:\n                grad_pen = self.calc_gradient_penalty(token_x, dense_x)\n                grad_pen = grad_pen.sum() * self.gradient_penalty\n            else:\n                grad_pen = None\n        else:\n            grad_pen = None\n            loss_token = None\n            loss_dense = F.binary_cross_entropy_with_logits(\n                dense_y,\n                dense_y.new_zeros(dense_y.shape) + fake_smooth,\n                reduction=\"sum\",\n            )\n            num_vars = dense_x.size(-1)\n            if prob_perplexity is not None:\n                code_pen = (num_vars - prob_perplexity) / num_vars\n                code_pen = code_pen * sample_size * self.code_penalty\n\n            if self.smoothness_weight > 0:\n                smoothness_loss = F.mse_loss(\n                    dense_logits[:, :-1], dense_logits[:, 1:], reduction=\"none\"\n                )\n                smoothness_loss[dense_padding_mask[:, 1:]] = 0\n                smoothness_loss = (\n                    smoothness_loss.mean() * sample_size * self.smoothness_weight\n                )\n\n            if (self.mmi_weight > 0) and (aux_target is not None):\n                inter_x = self.decoder(gen_result[\"inter_x\"])\n                if self.target_downsample_rate > 1:\n                    aux_target = aux_target[:, :: self.target_downsample_rate]\n                max_t_len = min(aux_target.shape[1], inter_x.shape[1])\n                mmi_loss = F.cross_entropy(\n                    inter_x[:, :max_t_len].transpose(1, 2),\n                    aux_target[:, :max_t_len],\n                    ignore_index=-1,\n                    reduction=\"none\",\n                )\n                mmi_loss = mmi_loss.mean() * mmi_loss.shape[0] * self.mmi_weight\n\n        result = {\n            \"losses\": {\n                \"grad_pen\": grad_pen,\n                \"code_pen\": code_pen,\n                \"smoothness\": smoothness_loss,\n                \"mmi\": mmi_loss,\n            },\n            \"temp\": self.curr_temp,\n            \"code_ppl\": code_perplexity,\n            \"prob_ppl\": prob_perplexity,\n            \"d_steps\": int(d_step),\n            \"sample_size\": sample_size,\n        }\n\n        suff = \"_d\" if d_step else \"_g\"\n        result[\"losses\"][\"dense\" + suff] = loss_dense\n        result[\"losses\"][\"token\" + suff] = loss_token\n\n        return result\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/apply_pca.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport os\nimport os.path as osp\nimport math\nimport numpy as np\nimport tqdm\nimport torch\nfrom shutil import copyfile\n\nfrom npy_append_array import NpyAppendArray\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"transforms features via a given pca and stored them in target dir\"\n    )\n    # fmt: off\n    parser.add_argument('source', help='directory with features')\n    parser.add_argument('--split', help='which split to read', required=True)\n    parser.add_argument('--save-dir', help='where to save the output', required=True)\n    parser.add_argument('--pca-path', type=str, help='pca location. will append _A.npy and _b.npy', required=True)\n    parser.add_argument('--batch-size', type=int, default=2048000, help='batch size')\n    parser.add_argument('--unfiltered', action='store_true', help='process the unfiltered version')\n    # fmt: on\n\n    return parser\n\n\ndef main():\n    parser = get_parser()\n    args = parser.parse_args()\n\n    source_path = osp.join(args.source, args.split)\n    data_poth = source_path + \"_unfiltered\" if args.unfiltered else source_path\n\n    print(f\"data path: {data_poth}\")\n\n    features = np.load(data_poth + \".npy\", mmap_mode=\"r\")\n    pca_A = torch.from_numpy(np.load(args.pca_path + \"_A.npy\")).cuda()\n    pca_b = torch.from_numpy(np.load(args.pca_path + \"_b.npy\")).cuda()\n\n    os.makedirs(args.save_dir, exist_ok=True)\n    save_path = osp.join(args.save_dir, args.split)\n\n    copyfile(source_path + \".tsv\", save_path + \".tsv\")\n    copyfile(data_poth + \".lengths\", save_path + \".lengths\")\n\n    if osp.exists(source_path + \".phn\"):\n        copyfile(source_path + \".phn\", save_path + \".phn\")\n\n    if osp.exists(source_path + \".wrd\"):\n        copyfile(source_path + \".wrd\", save_path + \".wrd\")\n\n    if osp.exists(save_path + \".npy\"):\n        os.remove(save_path + \".npy\")\n    npaa = NpyAppendArray(save_path + \".npy\")\n\n    batches = math.ceil(features.shape[0] / args.batch_size)\n\n    with torch.no_grad():\n        for b in tqdm.trange(batches):\n            start = b * args.batch_size\n            end = start + args.batch_size\n            x = torch.from_numpy(features[start:end]).cuda()\n            x = torch.matmul(x, pca_A) + pca_b\n            npaa.append(x.cpu().numpy())\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/copy_labels.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport sys\n\nfor idx, line in enumerate(sys.stdin):\n    print(f\"utt{idx:010d} {line}\", end=\"\")\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/filter_lexicon.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport sys\n\nfrom fairseq.data import Dictionary\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"filters a lexicon given a unit dictionary\"\n    )\n    parser.add_argument(\"-d\", \"--unit-dict\", help=\"unit dictionary\", required=True)\n    return parser\n\n\ndef main():\n    parser = get_parser()\n    args = parser.parse_args()\n\n    d = Dictionary.load(args.unit_dict)\n    symbols = set(d.symbols)\n\n    for line in sys.stdin:\n        items = line.rstrip().split()\n        skip = len(items) < 2\n        for x in items[1:]:\n            if x not in symbols:\n                skip = True\n                break\n        if not skip:\n            print(line, end=\"\")\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/filter_tsv.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport argparse\nimport sys\n\n\nparser = argparse.ArgumentParser()\nparser.add_argument(\"--tsv\", required=True, type=str)\nparser.add_argument(\"--no-skip\", action=\"store_true\")\nparser.add_argument(\"--keep\", action=\"store_true\")\nparams = parser.parse_args()\n\n\ndef get_fname(line):\n    p = os.path.basename(line.split(\"\\t\")[0])\n    p = os.path.splitext(p)[0]\n    return p\n\n\n# filenames to exclude\nseen = set()\nwith open(params.tsv) as f:\n    if not params.no_skip:\n        root = next(f).rstrip()\n    for line in f:\n        seen.add(get_fname(line))\n\nfor i, line in enumerate(sys.stdin):\n    exists = get_fname(line) in seen\n    keep = (exists and params.keep) or (not exists and not params.keep)\n    if i == 0 or keep:\n        print(line, end=\"\")\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/g2p_wrd_to_phn.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport sys\n\nfrom g2p_en import G2p\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--compact\",\n        action=\"store_true\",\n        help=\"if set, compacts phones\",\n    )\n    args = parser.parse_args()\n\n    compact = args.compact\n\n    wrd_to_phn = {}\n    g2p = G2p()\n    for line in sys.stdin:\n        words = line.strip().split()\n        phones = []\n        for w in words:\n            if w not in wrd_to_phn:\n                wrd_to_phn[w] = g2p(w)\n                if compact:\n                    wrd_to_phn[w] = [\n                        p[:-1] if p[-1].isnumeric() else p for p in wrd_to_phn[w]\n                    ]\n            phones.extend(wrd_to_phn[w])\n        try:\n            print(\" \".join(phones))\n        except:\n            print(wrd_to_phn, words, phones, file=sys.stderr)\n            raise\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/ltr_to_wrd.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport sys\n\n\ndef main():\n    for line in sys.stdin:\n        print(line.replace(\" \", \"\").replace(\"|\", \" \").strip())\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/mean_pool.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport os\nimport os.path as osp\nimport math\nimport numpy as np\nimport tqdm\nimport torch\nimport torch.nn.functional as F\nfrom shutil import copyfile\n\nfrom npy_append_array import NpyAppendArray\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"mean pools representations by compressing uniform splits of the data\"\n    )\n    # fmt: off\n    parser.add_argument('source', help='directory with features')\n    parser.add_argument('--split', help='which split to read', required=True)\n    parser.add_argument('--save-dir', help='where to save the output', required=True)\n    parser.add_argument('--subsample-rate', type=float, default=0.5, help='size to subsample data to')\n\n    parser.add_argument('--remove-extra', action='store_true', help='if true, removes extra states that cant be pooled, otherwise pads with 0s')\n    # fmt: on\n\n    return parser\n\n\ndef main():\n    parser = get_parser()\n    args = parser.parse_args()\n\n    source_path = osp.join(args.source, args.split)\n\n    print(f\"data path: {source_path}\")\n\n    features = np.load(source_path + \".npy\", mmap_mode=\"r\")\n\n    os.makedirs(args.save_dir, exist_ok=True)\n    save_path = osp.join(args.save_dir, args.split)\n\n    copyfile(source_path + \".tsv\", save_path + \".tsv\")\n\n    if os.path.exists(source_path + \".phn\"):\n        copyfile(source_path + \".phn\", save_path + \".phn\")\n    if os.path.exists(source_path + \".wrd\"):\n        copyfile(source_path + \".wrd\", save_path + \".wrd\")\n\n    if os.path.exists(osp.join(args.source, \"dict.phn.txt\")):\n        copyfile(\n            osp.join(args.source, \"dict.phn.txt\"),\n            osp.join(args.save_dir, \"dict.phn.txt\"),\n        )\n\n    if osp.exists(save_path + \".npy\"):\n        os.remove(save_path + \".npy\")\n    npaa = NpyAppendArray(save_path + \".npy\")\n\n    with open(source_path + \".lengths\", \"r\") as lf:\n        lengths = lf.readlines()\n\n    fsz = features.shape[-1]\n    start = 0\n    with torch.no_grad():\n        with open(save_path + \".lengths\", \"w\") as lengths_out:\n            for length in tqdm.tqdm(lengths):\n                length = int(length)\n                end = start + length\n                feats = features[start:end]\n                start += length\n                x = torch.from_numpy(feats).cuda()\n                target_num = math.ceil(length * args.subsample_rate)\n                rem = length % target_num\n\n                if rem > 0:\n                    if args.remove_extra:\n                        to_rem = target_num - rem\n                        target_num -= 1\n                        x = x[:-to_rem]\n                    else:\n                        to_add = target_num - rem\n                        x = F.pad(x, [0, 0, 0, to_add])\n                        x[-to_add:] = x[-to_add - 1]\n\n                x = x.view(target_num, -1, fsz)\n                x = x.mean(dim=-2)\n                print(target_num, file=lengths_out)\n                npaa.append(x.cpu().numpy())\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/merge_clusters.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport os\nimport os.path as osp\nimport numpy as np\nimport tqdm\nimport torch\nimport random\nfrom shutil import copyfile\n\nfrom npy_append_array import NpyAppendArray\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"transforms features via a given pca and stored them in target dir\"\n    )\n    # fmt: off\n    parser.add_argument('source', help='directory with features')\n    parser.add_argument('--split', help='which split to read', required=True)\n    parser.add_argument('--save-dir', help='where to save the output', required=True)\n    parser.add_argument('--cluster-dir', help='where the clusters are')\n    parser.add_argument('--pooling', type=str, default='mean', choices=['mean', 'sample'], help='how to pool')\n    # fmt: on\n\n    return parser\n\n\ndef main():\n    parser = get_parser()\n    args = parser.parse_args()\n\n    source_path = osp.join(args.source, args.split)\n    cluster_path = osp.join(args.cluster_dir, args.split + \".src\")\n    print(f\"data path: {source_path}\")\n\n    features = np.load(source_path + \".npy\", mmap_mode=\"r\")\n    sizes = []\n    offsets = []\n    offset = 0\n    with open(source_path + \".lengths\", \"r\") as len_f:\n        for line in len_f:\n            length = int(line.rstrip())\n            sizes.append(length)\n            offsets.append(offset)\n            offset += length\n\n    clusters = []\n    with open(cluster_path, \"r\") as cf:\n        for line in cf:\n            line = line.rstrip()\n            items = line.split()\n            items = list(map(int, items))\n            clusters.append(items)\n\n    os.makedirs(args.save_dir, exist_ok=True)\n    save_path = osp.join(args.save_dir, args.split)\n\n    copyfile(source_path + \".tsv\", save_path + \".tsv\")\n\n    if os.path.exists(source_path + \".phn\"):\n        copyfile(source_path + \".phn\", save_path + \".phn\")\n    if os.path.exists(osp.join(args.source, \"dict.phn.txt\")):\n        copyfile(\n            osp.join(args.source, \"dict.phn.txt\"),\n            osp.join(args.save_dir, \"dict.phn.txt\"),\n        )\n    if os.path.exists(source_path + \".wrd\"):\n        copyfile(source_path + \".wrd\", save_path + \".wrd\")\n\n    if osp.exists(save_path + \".npy\"):\n        os.remove(save_path + \".npy\")\n    npaa = NpyAppendArray(save_path + \".npy\")\n\n    def merge(feats, clust):\n        feats = torch.from_numpy(feats.copy())\n        clust = torch.LongTensor(clust)\n        _, counts = clust.unique_consecutive(return_counts=True)\n        curr = 0\n\n        merged = []\n        for c in counts:\n            c = c.item()\n            start = curr\n            end = curr + c\n            curr += c\n            if args.pooling == \"mean\":\n                new_x = feats[start:end].mean(dim=0)\n            elif args.pooling == \"sample\":\n                new_x = feats[start + int(random.random() * c)]\n            else:\n                raise NotImplementedError()\n            merged.append(new_x)\n\n        return torch.stack(merged, dim=0).numpy()\n\n    with open(save_path + \".lengths\", \"w\") as l_f:\n        for size, offset, clust in tqdm.tqdm(\n            zip(sizes, offsets, clusters), total=len(sizes)\n        ):\n            end = size + offset\n            feats = features[offset:end]\n            feats = merge(feats, clust)\n            print(len(feats), file=l_f)\n            npaa.append(feats)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/normalize_and_filter_text.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport fasttext as ft\nimport os\nimport regex\nimport sys\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"reads text from stdin and outputs normalized, lid-filtered version to stdout\"\n    )\n    parser.add_argument(\n        \"--fasttext-model\",\n        help=\"path to fasttext model\",\n        default=\"lid.187.bin\",\n    )\n    parser.add_argument(\"--lang\", help=\"language id\", required=True)\n    parser.add_argument(\n        \"--lid-threshold\",\n        type=float,\n        help=\"threshold for this lang id probability\",\n        default=0.4,\n    )\n\n    return parser\n\n\ndef main():\n    parser = get_parser()\n    args = parser.parse_args()\n    filter_r = regex.compile(r\"[^\\p{L}\\p{N}\\p{M}\\' \\-]\")\n\n    lg = args.lang.lower()\n    lg_label = f\"__label__{lg}\"\n    thresh = args.lid_threshold\n\n    if os.path.exists(args.fasttext_model):\n        model = ft.load_model(args.fasttext_model)\n    else:\n        print(\n            f\"fasttext language id model {args.fasttext_model} not found. Proceeding without language filtering. \"\n            f\"To enable language filtering, please download the latest language id model \"\n            f\"from https://fasttext.cc/docs/en/language-identification.html\",\n            file=sys.stderr,\n        )\n        model = None\n\n    for line in sys.stdin:\n        line = line.strip()\n        line = filter_r.sub(\" \", line)\n        line = \" \".join(line.split())\n\n        if model is not None:\n            lid, prob = model.predict(line, k=100)\n            try:\n                target_idx = lid.index(lg_label)\n            except ValueError:\n                continue\n            if target_idx == 0 or prob[target_idx] >= thresh:\n                print(line)\n        else:\n            print(line)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/normalize_text.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport regex\nimport sys\n\n\ndef main():\n    filter_r = regex.compile(r\"[^\\p{L}\\p{N}\\p{M}\\' \\-]\")\n\n    for line in sys.stdin:\n        line = line.strip()\n        line = filter_r.sub(\" \", line)\n        line = \" \".join(line.split())\n        print(line)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/pca.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport os\nimport os.path as osp\nimport numpy as np\n\nimport faiss\n\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"compute a pca matrix given an array of numpy features\"\n    )\n    # fmt: off\n    parser.add_argument('data', help='numpy file containing features')\n    parser.add_argument('--output', help='where to save the pca matrix', required=True)\n    parser.add_argument('--dim', type=int, help='dim for pca reduction', required=True)\n    parser.add_argument('--eigen-power', type=float, default=0, help='eigen power, -0.5 for whitening')\n\n    return parser\n\n\ndef main():\n    parser = get_parser()\n    args = parser.parse_args()\n\n    print(\"Reading features\")\n    x = np.load(args.data, mmap_mode=\"r\")\n\n    print(\"Computing PCA\")\n    pca = faiss.PCAMatrix(x.shape[-1], args.dim, args.eigen_power)\n    pca.train(x)\n    b = faiss.vector_to_array(pca.b)\n    A = faiss.vector_to_array(pca.A).reshape(pca.d_out, pca.d_in)\n\n    os.makedirs(args.output, exist_ok=True)\n\n    prefix = str(args.dim)\n    if args.eigen_power != 0:\n        prefix += f\"_{args.eigen_power}\"\n\n    np.save(osp.join(args.output, f\"{prefix}_pca_A\"), A.T)\n    np.save(osp.join(args.output, f\"{prefix}_pca_b\"), b)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/phonemize_with_sil.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport numpy as np\nimport sys\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"converts words to phones adding optional silences around in between words\"\n    )\n    parser.add_argument(\n        \"--sil-prob\",\n        \"-s\",\n        type=float,\n        default=0,\n        help=\"probability of inserting silence between each word\",\n    )\n    parser.add_argument(\n        \"--surround\",\n        action=\"store_true\",\n        help=\"if set, surrounds each example with silence\",\n    )\n    parser.add_argument(\n        \"--lexicon\",\n        help=\"lexicon to convert to phones\",\n        required=True,\n    )\n\n    return parser\n\n\ndef main():\n    parser = get_parser()\n    args = parser.parse_args()\n\n    sil_prob = args.sil_prob\n    surround = args.surround\n    sil = \"<SIL>\"\n\n    wrd_to_phn = {}\n\n    with open(args.lexicon, \"r\") as lf:\n        for line in lf:\n            items = line.rstrip().split()\n            assert len(items) > 1, line\n            assert items[0] not in wrd_to_phn, items\n            wrd_to_phn[items[0]] = items[1:]\n\n    for line in sys.stdin:\n        words = line.strip().split()\n\n        if not all(w in wrd_to_phn for w in words):\n            continue\n\n        phones = []\n        if surround:\n            phones.append(sil)\n\n        sample_sil_probs = None\n        if sil_prob > 0 and len(words) > 1:\n            sample_sil_probs = np.random.random(len(words) - 1)\n\n        for i, w in enumerate(words):\n            phones.extend(wrd_to_phn[w])\n            if (\n                sample_sil_probs is not None\n                and i < len(sample_sil_probs)\n                and sample_sil_probs[i] < sil_prob\n            ):\n                phones.append(sil)\n\n        if surround:\n            phones.append(sil)\n        print(\" \".join(phones))\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/prepare_audio.sh",
    "content": "#!/usr/bin/env zsh\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nsource_dir=$1\ntgt_dir=$2\nmodel=$3\n\nif [ -z \"$4\" ]\n  then\n    dim=512\n  else\n    dim=$4\nfi\n\necho \"using $dim dim for PCA\"\n\nif [ -z \"$5\" ]\n  then\n    layer=14\n  else\n    layer=$5\nfi\n\necho \"extracting from layer $layer\"\n\ntrain_split=train\nvalid_split=valid\ntest_split=test\n\nall_splits=($train_split)\n\nif [[ -f \"$source_dir/valid.tsv\" ]]; then\n    all_splits+=('valid')\nfi\n\nif [[ -f \"$source_dir/test.tsv\" ]]; then\n    all_splits+=('test')\nfi\n\necho \"processing splits: $all_splits\"\n\nmkdir -p $tgt_dir\n\ncp $source_dir/*.tsv $tgt_dir\ncp $source_dir/*.wrd $tgt_dir\ncp $source_dir/*.ltr $tgt_dir\ncp $source_dir/*.phn $tgt_dir\ncp $source_dir/dict* $tgt_dir\n\nsetopt shwordsplit\n\nfor split in $all_splits; do\n  python $FAIRSEQ_ROOT/examples/wav2vec/unsupervised/scripts/wav2vec_extract_features.py $source_dir --split $split \\\n  --save-dir $tgt_dir --checkpoint $model --layer $layer\ndone\n\npython $FAIRSEQ_ROOT/examples/wav2vec/unsupervised/scripts/wav2vec_cluster_faiss.py $tgt_dir/${train_split}.tsv \\\n--checkpoint $model --save-dir $tgt_dir -f \"CLUS128\" --sample-pct 1.0\n\nfor split in $all_splits; do\n  python $FAIRSEQ_ROOT/examples/wav2vec/unsupervised/scripts/wav2vec_apply_cluster_faiss.py $tgt_dir \\\n  --checkpoint $model --path $tgt_dir/CLUS128 --split $split\ndone\n\npython $FAIRSEQ_ROOT/examples/wav2vec/unsupervised/scripts/pca.py $tgt_dir/${train_split}.npy --output $tgt_dir/pca --dim $dim\n\nfor split in $all_splits; do\n  python $FAIRSEQ_ROOT/examples/wav2vec/unsupervised/scripts/apply_pca.py $tgt_dir --split $split --save-dir $tgt_dir/precompute_pca$dim --pca-path $tgt_dir/pca/${dim}_pca --batch-size 1048000\n\n  python $FAIRSEQ_ROOT/examples/wav2vec/unsupervised/scripts/merge_clusters.py $tgt_dir/precompute_pca$dim --cluster-dir $tgt_dir/CLUS128 \\\n  --split $split --save-dir $tgt_dir/precompute_pca${dim}_cls128_mean --pooling mean\n\n  python $FAIRSEQ_ROOT/examples/wav2vec/unsupervised/scripts/mean_pool.py $tgt_dir/precompute_pca${dim}_cls128_mean \\\n  --save-dir $tgt_dir/precompute_pca${dim}_cls128_mean_pooled --split $split\ndone\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/prepare_audio_v2.sh",
    "content": "#!/usr/bin/env zsh\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nsource_dir=$1\ntgt_dir=$2\nmodel=$3\n\nif [ -z \"$4\" ]\n  then\n    dim=64\n  else\n    dim=$4\nfi\n\necho \"using $dim clusters for auxilary target\"\n\nif [ -z \"$5\" ]\n  then\n    layer=14\n  else\n    layer=$5\nfi\n\necho \"extracting from layer $layer\"\n\ntrain_split=train\nvalid_split=valid\ntest_split=test\n\nall_splits=($train_split)\n\nif [[ -f \"$source_dir/valid.tsv\" ]]; then\n    all_splits+=('valid')\nfi\n\nif [[ -f \"$source_dir/test.tsv\" ]]; then\n    all_splits+=('test')\nfi\n\necho \"processing splits: $all_splits\"\n\nmkdir -p $tgt_dir\n\ncp $source_dir/*.tsv $tgt_dir\ncp $source_dir/*.wrd $tgt_dir\ncp $source_dir/*.ltr $tgt_dir\ncp $source_dir/*.phn $tgt_dir\ncp $source_dir/dict* $tgt_dir\n\nsetopt shwordsplit\n\nfor split in $all_splits; do\n  python $FAIRSEQ_ROOT/examples/wav2vec/unsupervised/scripts/wav2vec_extract_features.py $source_dir --split $split \\\n  --save-dir $tgt_dir --checkpoint $model --layer $layer\ndone\n\n\nmkdir -p $tgt_dir/mfcc\n\n# Consider spliting corpus into chuncks for large corpus, see HuBERT preprocessing for more details\npython $FAIRSEQ_ROOT/examples/hubert/simple_kmeans/dump_mfcc_feature.py \\\n  $tgt_dir $train_split 1 0 $tgt_dir/mfcc\npython $FAIRSEQ_ROOT/examples/hubert/simple_kmeans/dump_km_label.py \\\n  $tgt_dir/mfcc $train_split $tgt_dir/mfcc/cls$dim 1 0 $tgt_dir/mfcc/cls${dim}_idx\ncp $tgt_dir/mfcc/cls${dim}_idx/${train_split}_0_1.km $tgt_dir/$train_split.km\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/prepare_text.sh",
    "content": "#!/usr/bin/env zsh\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nlg=$1\ntext_path=$2\ntarget_dir=$3\nmin_phones=$4\nphonemizer=$5\nlid_path=$6\nsil_prob=$7\n\nif [ -z \"$lid_path\" ]; then\n  lid_path=\"lid.187.bin\"\nfi\n\nph_lg=${lg:l}\nif test \"$lg\" = 'fr'; then\n  ph_lg='fr-fr'\nelif test \"$lg\" = 'en'; then\n  ph_lg='en-us'\nelif test \"$lg\" = 'pt'; then\n  ph_lg='pt-br'\nfi\n\nESPEAK_PATH=''\nif test \"$phonemizer\" = 'espeak'; then\n  ESPEAK_PATH=$(which espeak)\nelif test \"$phonemizer\" = 'espeak-ng'; then\n  ESPEAK_PATH=$(which espeak-ng)\nelif test \"$phonemizer\" = 'G2P'; then\n  ESPEAK_PATH=''\nelse\n  echo \"Unknown phonemizer $phonemizer. Valid options are espeak, espean-ng and G2P\"\n  exit 1\nfi\n\necho $lg\necho $ph_lg\necho $text_path\necho $target_dir\necho \"min phone seen threshold is $min_phones\"\n\nmkdir -p $target_dir\npython $FAIRSEQ_ROOT/examples/wav2vec/unsupervised/scripts/normalize_and_filter_text.py --lang $lg --fasttext-model $lid_path < $text_path | grep -v '\\-\\-\\-' >! $target_dir/lm.upper.lid.txt\npython $FAIRSEQ_ROOT/fairseq_cli/preprocess.py --dataset-impl mmap --trainpref $target_dir/lm.upper.lid.txt --only-source --destdir $target_dir --thresholdsrc 2 --padding-factor 1 --dict-only\ncut -f1 -d' ' $target_dir/dict.txt | grep -v -x '[[:punct:]]*' | grep -Pv '\\d\\d\\d\\d\\d+' >! $target_dir/words.txt\n\n\nif [ -z \"$ESPEAK_PATH\" ]; then\n  python $FAIRSEQ_ROOT/examples/wav2vec/unsupervised/scripts/g2p_wrd_to_phn.py --compact < $target_dir/words.txt > $target_dir/phones.txt\nelse\n  # echoing 1 into corpus will prevent the mismatch lines between lexicon and phones in case the phonemizer fails\n  one=$(echo \"1\" | PHONEMIZER_ESPEAK_PATH=$ESPEAK_PATH phonemize -p ' ' -w '' -l $ph_lg --language-switch remove-flags)\n  sed 's/$/ 1/' $target_dir/words.txt | PHONEMIZER_ESPEAK_PATH=$ESPEAK_PATH phonemize -o $target_dir/phones.txt -p ' ' -w '' -l $ph_lg -j 70 --language-switch remove-flags\n  echo \"one is ${one}\"\n  sed -i \"s/${one}$//\" $target_dir/phones.txt\nfi\n\npaste $target_dir/words.txt $target_dir/phones.txt >! $target_dir/lexicon.lst\n\npython $FAIRSEQ_ROOT/fairseq_cli/preprocess.py --dataset-impl mmap --trainpref $target_dir/phones.txt --only-source --destdir $target_dir/phones --thresholdsrc $min_phones --padding-factor 1 --dict-only\n\npython $FAIRSEQ_ROOT/examples/wav2vec/unsupervised/scripts/filter_lexicon.py -d $target_dir/phones/dict.txt < $target_dir/lexicon.lst >! $target_dir/lexicon_filtered.lst\npython $FAIRSEQ_ROOT/examples/wav2vec/unsupervised/scripts/phonemize_with_sil.py -s $sil_prob --surround --lexicon $target_dir/lexicon_filtered.lst < $target_dir/lm.upper.lid.txt >! $target_dir/phones/lm.phones.filtered.txt\ncp $target_dir/phones/dict.txt $target_dir/phones/dict.phn.txt\necho \"<SIL> 0\" >> $target_dir/phones/dict.phn.txt\npython $FAIRSEQ_ROOT/fairseq_cli/preprocess.py --dataset-impl mmap --trainpref $target_dir/phones/lm.phones.filtered.txt --workers 70 --only-source --destdir $target_dir/phones --srcdict $target_dir/phones/dict.phn.txt\n\n$KENLM_ROOT/lmplz -o 4 < $target_dir/lm.upper.lid.txt --discount_fallback --prune 0 0 0 3 >! $target_dir/kenlm.wrd.o40003.arpa\n$KENLM_ROOT/build_binary $target_dir/kenlm.wrd.o40003.arpa $target_dir/kenlm.wrd.o40003.bin\n\nlg=$lg python $FAIRSEQ_ROOT/examples/speech_recognition/kaldi/kaldi_initializer.py kaldi_root=$KALDI_ROOT fst_dir=$target_dir/fst/phn_to_words_sil lm_arpa=$target_dir/kenlm.wrd.o40003.arpa wav2letter_lexicon=$target_dir/lexicon_filtered.lst data_dir=$target_dir/phones in_labels=phn \"blank_symbol='<SIL>'\"\nlg=$lg python $FAIRSEQ_ROOT/examples/speech_recognition/kaldi/kaldi_initializer.py kaldi_root=$KALDI_ROOT fst_dir=$target_dir/fst/phn_to_words lm_arpa=$target_dir/kenlm.wrd.o40003.arpa wav2letter_lexicon=$target_dir/lexicon_filtered.lst data_dir=$target_dir/phones in_labels=phn\n\n$KENLM_ROOT/lmplz -o 4 < $target_dir/phones/lm.phones.filtered.txt --discount_fallback >! $target_dir/phones/lm.phones.filtered.04.arpa\n$KENLM_ROOT/build_binary $target_dir/phones/lm.phones.filtered.04.arpa $target_dir/phones/lm.phones.filtered.04.bin\n$KENLM_ROOT/lmplz -o 6 < $target_dir/phones/lm.phones.filtered.txt --discount_fallback >! $target_dir/phones/lm.phones.filtered.06.arpa\n$KENLM_ROOT/build_binary $target_dir/phones/lm.phones.filtered.06.arpa $target_dir/phones/lm.phones.filtered.06.bin\n\nlg=$lg python $FAIRSEQ_ROOT/examples/speech_recognition/kaldi/kaldi_initializer.py kaldi_root=$KALDI_ROOT fst_dir=$target_dir/fst/phn_to_phn_sil lm_arpa=$target_dir/phones/lm.phones.filtered.06.arpa data_dir=$target_dir/phones in_labels=phn \"blank_symbol='<SIL>'\"\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/prepare_timit.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\ntimit_root=$1  # assume it is the upper-cased version\ntgt_dir=$2\nmodel=$3\n\nset -eu\n\nsetups=\"matched unmatched\"\nsplits=\"test valid train train_text\"\n\ntgt_dir=$(realpath $tgt_dir)\nsph2wav=$KALDI_ROOT/tools/sph2pipe_v2.5/sph2pipe\nwav_dir=$tgt_dir/wav\n\n\nmkdir -p $tgt_dir $wav_dir\nfind $timit_root/{TRAIN,TEST} -iname \"*.WAV\" > $tgt_dir/all_sph.flist\ncat $tgt_dir/all_sph.flist | sed -e 's#//*#/#g' -e 's#.*/\\([^/]*\\)/\\([^/]*\\).WAV#\\1_\\2#g' > $tgt_dir/all.uid\npaste -d' ' $tgt_dir/{all_sph.flist,all.uid} | \\\n  awk -v sph2wav=$sph2wav -v wav_dir=$wav_dir '{print sph2wav \" -f wav \" $1 \" > \" wav_dir \"/\" $2 \".wav\"}' \\\n  > $tgt_dir/sph2wav.sh\nbash $tgt_dir/sph2wav.sh\ncat $tgt_dir/all.uid | awk -v wav_dir=$(pwd)/$wav_dir '{print $1\" \"wav_dir\"/\"$1\".wav\"}' | sort > $tgt_dir/all_wav.scp\ncut -d' ' -f2 $tgt_dir/all_wav.scp | xargs -I{} soxi -s {} > $tgt_dir/all.dur\npaste -d' ' $tgt_dir/{all_wav.scp,all.dur} > $tgt_dir/all_wav_dur.scp\nrm $tgt_dir/{all.uid,all_sph.flist,sph2wav.sh}\n\nfind $timit_root/{TRAIN,TEST} -iname \"*.PHN\" > $tgt_dir/all_phn60.flist\nwhile read line; do\n  if [ ! -f $line ]; then \n    >&2 echo \"Cannot find transcription file '$line'\" && exit 1;\n  fi\n  cut -f3 -d' ' \"$line\" | tr '\\n' ' ' | perl -ape 's: *$:\\n:;'\ndone < $tgt_dir/all_phn60.flist > $tgt_dir/all.phn60\ncat $tgt_dir/all_phn60.flist | sed -e 's#//*#/#g' -e 's#.*/\\([^/]*\\)/\\([^/]*\\).PHN#\\1_\\2#g' | \\\n  paste -d' ' - $tgt_dir/all.phn60 | \\\n  $KALDI_ROOT/egs/timit/s5/local/timit_norm_trans.pl -i - -m $KALDI_ROOT/egs/timit/s5/conf/phones.60-48-39.map -to 39 | \\\n  sort > $tgt_dir/all.phn\necho \"done preparing wav and 39-phone transcripts\"\n\n\nfor s in $setups; do\n  mkdir -p $tgt_dir/$s\n  for x in $splits; do\n    uid_path=config/timit_${s}/${x}.uid\n    grep -w -f $uid_path $tgt_dir/all.phn | cut -d' ' -f2- > $tgt_dir/$s/$x.phn\n    ln -sf $(realpath $tgt_dir/$s/$x.phn) $tgt_dir/$s/$x.wrd\n    \n    echo \"/\" > $tgt_dir/$s/$x.tsv &&  grep -w -f $uid_path $tgt_dir/all_wav_dur.scp | cut -d' ' -f2- | sed 's# #\\t#'  >> $tgt_dir/$s/$x.tsv\n  done\n  \n  for x in $splits; do\n    cat $tgt_dir/$s/$x.phn\n  done | tr ' ' '\\n' | sort -u | awk '{print $1\" \"1}' > $tgt_dir/$s/dict.phn.txt\n  ln -sf $(realpath $tgt_dir/$s/dict.phn.txt) $tgt_dir/$s/dict.wrd.txt\ndone\necho \"done preparing unmatched and matched setups for TIMIT\"\n\n\nfor s in $setups; do\n  zsh scripts/prepare_audio.sh $tgt_dir/$s $tgt_dir/$s/feat $model\n\n  lm_dir=$tgt_dir/$s/phones\n  fst_dir=$tgt_dir/$s/fst/phn_to_phn\n\n  python $FAIRSEQ_ROOT/fairseq_cli/preprocess.py --dataset-impl mmap --trainpref $tgt_dir/$s/train_text.phn --workers 10 --only-source --destdir $lm_dir --srcdict $tgt_dir/$s/dict.phn.txt\n  $KENLM_ROOT/lmplz -o 3 < $tgt_dir/$s/train_text.phn --discount_fallback >$lm_dir/train_text_phn.03.arpa\n  $KENLM_ROOT/build_binary $lm_dir/train_text_phn.03.arpa $lm_dir/train_text_phn.03.bin\n  $KENLM_ROOT/lmplz -o 4 < $tgt_dir/$s/train_text.phn --discount_fallback >$lm_dir/train_text_phn.04.arpa\n  $KENLM_ROOT/build_binary $lm_dir/train_text_phn.04.arpa $lm_dir/train_text_phn.04.bin\n  \n  python $FAIRSEQ_ROOT/examples/speech_recognition/kaldi/kaldi_initializer.py kaldi_root=$KALDI_ROOT fst_dir=$fst_dir lm_arpa=$lm_dir/train_text_phn.03.arpa data_dir=$tgt_dir/$s in_labels=phn\ndone\necho \"done preprocessing audio and text for wav2vec-U\"\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/remove_silence.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nget intervals from .vads file, specify output data, and this script removes silences and saves the audio data in out path folder\npaths=shards/train.tsv\nvads=shards/train.vads\npython remove_silence.py --paths $paths --vads $vads\n\"\"\"\n\nimport os\nimport argparse\nimport torch\nimport torchaudio\nimport tqdm\n\n\nparser = argparse.ArgumentParser()\nparser.add_argument(\"--tsv\", default=\"\", type=str)\nparser.add_argument(\"--vads\", default=\"\", type=str)\nparser.add_argument(\"--out\", type=str)\nparams = parser.parse_args()\n\n# load paths\npaths = []\nwith open(params.tsv) as f:\n    root = next(f).rstrip()\n    for line in f:\n        paths.append(os.path.join(root, line.rstrip().split(\"\\t\")[0]))\n\n# load vads\nlist_intervals = []\nwith open(params.vads) as f:\n    for line in f:\n        interval = [\n            [int(w.split(\":\")[0]), int(w.split(\":\")[1])] for w in line.rstrip().split()\n        ]\n        list_intervals.append(interval)\n\n\n# load audio and keep only intervals (i.e. remove silences)\nfor i in tqdm.trange(len(paths)):\n    data, _ = torchaudio.load(paths[i])\n    if len(list_intervals[i]) > 0:\n        data_filtered = torch.cat(\n            [data[0][int(it[0]) : int(it[1])] for it in list_intervals[i]]\n        ).unsqueeze(0)\n    else:\n        data_filtered = data\n\n    # YOU MAY NEED TO MODIFY THIS TO GET THE RIGHT SUBPATH\n    # outpath = params.out + '/'.join(paths[i].split('/')[-1])\n    outpath = params.out + \"/\" + \"/\".join(paths[i].split(\"/\")[-2:])\n\n    if not os.path.isdir(\"/\".join(outpath.split(\"/\")[:-1])):\n        os.makedirs(\"/\".join(outpath.split(\"/\")[:-1]))\n    if not os.path.exists(outpath):\n        torchaudio.save(outpath, data_filtered, sample_rate=16000)\n    else:\n        print(outpath, \"exists!\")\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/vads.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport sys\n\nfrom copy import deepcopy\nfrom scipy.signal import lfilter\n\nimport numpy as np\nfrom tqdm import tqdm\nimport soundfile as sf\nimport os.path as osp\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(description=\"compute vad segments\")\n    parser.add_argument(\n        \"--rvad-home\",\n        \"-r\",\n        help=\"path to rvad home (see https://github.com/zhenghuatan/rVADfast)\",\n        required=True,\n    )\n\n    return parser\n\n\ndef rvad(speechproc, path):\n    winlen, ovrlen, pre_coef, nfilter, nftt = 0.025, 0.01, 0.97, 20, 512\n    ftThres = 0.5\n    vadThres = 0.4\n    opts = 1\n\n    data, fs = sf.read(path)\n    assert fs == 16_000, \"sample rate must be 16khz\"\n    ft, flen, fsh10, nfr10 = speechproc.sflux(data, fs, winlen, ovrlen, nftt)\n\n    # --spectral flatness --\n    pv01 = np.zeros(ft.shape[0])\n    pv01[np.less_equal(ft, ftThres)] = 1\n    pitch = deepcopy(ft)\n\n    pvblk = speechproc.pitchblockdetect(pv01, pitch, nfr10, opts)\n\n    # --filtering--\n    ENERGYFLOOR = np.exp(-50)\n    b = np.array([0.9770, -0.9770])\n    a = np.array([1.0000, -0.9540])\n    fdata = lfilter(b, a, data, axis=0)\n\n    # --pass 1--\n    noise_samp, noise_seg, n_noise_samp = speechproc.snre_highenergy(\n        fdata, nfr10, flen, fsh10, ENERGYFLOOR, pv01, pvblk\n    )\n\n    # sets noisy segments to zero\n    for j in range(n_noise_samp):\n        fdata[range(int(noise_samp[j, 0]), int(noise_samp[j, 1]) + 1)] = 0\n\n    vad_seg = speechproc.snre_vad(\n        fdata, nfr10, flen, fsh10, ENERGYFLOOR, pv01, pvblk, vadThres\n    )\n    return vad_seg, data\n\n\ndef main():\n    parser = get_parser()\n    args = parser.parse_args()\n\n    sys.path.append(args.rvad_home)\n    import speechproc\n\n    stride = 160\n    lines = sys.stdin.readlines()\n    root = lines[0].rstrip()\n    for fpath in tqdm(lines[1:]):\n        path = osp.join(root, fpath.split()[0])\n        vads, wav = rvad(speechproc, path)\n\n        start = None\n        vad_segs = []\n        for i, v in enumerate(vads):\n            if start is None and v == 1:\n                start = i * stride\n            elif start is not None and v == 0:\n                vad_segs.append((start, i * stride))\n                start = None\n        if start is not None:\n            vad_segs.append((start, len(wav)))\n\n        print(\" \".join(f\"{v[0]}:{v[1]}\" for v in vad_segs))\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/wav2vec_apply_cluster_faiss.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport os\nimport os.path as osp\nimport numpy as np\nimport tqdm\nimport torch\nimport sys\n\nimport faiss\nimport torch.nn.functional as F\n\nfrom wav2vec_cluster_faiss import parse_faiss_specs, Wav2VecFeatureReader\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(description=\"apply clusters\")\n    # fmt: off\n    parser.add_argument('data', help='location of tsv files')\n    parser.add_argument('--split', help='split to process', required=True)\n    parser.add_argument('--labels', help='split to process', default=\"phn\")\n    parser.add_argument('--path', help='path to pca and centroids', required=True)\n    parser.add_argument('--checkpoint', type=str, help='checkpoint for wav2vec model (if using wav2vec features)', required=True)\n    parser.add_argument('--layer', '-l', type=int, help='which layer to read', default=14)\n    parser.add_argument('--max-tsz', type=int, help='batch kmeans up to this much', default=14)\n    # fmt: on\n\n    return parser\n\n\ndef get_iterator(args):\n    label_path = osp.join(args.data, f\"{args.split}.{args.labels}\")\n    if osp.exists(label_path):\n        lp = open(label_path, \"r\")\n    else:\n        lp = None\n\n    with open(osp.join(args.data, f\"{args.split}.tsv\"), \"r\") as fp:\n        lines = fp.read().split(\"\\n\")\n        root = lines.pop(0).strip()\n        files = [line.rstrip() for line in lines if len(line) > 0]\n\n        if lp is not None:\n            lbls = [line.rstrip() for line in lp]\n        else:\n            lbls = [None] * len(files)\n\n        num = len(files)\n        reader = Wav2VecFeatureReader(args.checkpoint, args.layer)\n\n        def iterate():\n            for fname, lbl in zip(files, lbls):\n                file = osp.join(root, fname.split(\"\\t\")[0])\n                feats = reader.get_feats(file)\n                yield feats.data, fname, lbl\n\n        return iterate, num, root\n\n\ndef main():\n    parser = get_parser()\n    args = parser.parse_args()\n\n    spec = osp.basename(args.path)\n\n    try:\n        faiss_spec = parse_faiss_specs(spec.rstrip(\"/\"))[0]\n    except:\n        print(spec)\n        raise\n\n    print(\"Faiss Spec:\", faiss_spec, file=sys.stderr)\n\n    if faiss_spec.pca:\n        A = torch.from_numpy(np.load(osp.join(args.path, \"pca_A.npy\"))).cuda()\n        b = torch.from_numpy(np.load(osp.join(args.path, \"pca_b.npy\"))).cuda()\n        print(\"Loaded PCA\", file=sys.stderr)\n\n    centroids = np.load(osp.join(args.path, \"centroids.npy\"))\n    print(\"Loaded centroids\", centroids.shape, file=sys.stderr)\n\n    res = faiss.StandardGpuResources()\n    index_flat = (\n        faiss.IndexFlatL2(centroids.shape[1])\n        if not faiss_spec.sphere\n        else faiss.IndexFlatIP(centroids.shape[1])\n    )\n    faiss_index = faiss.index_cpu_to_gpu(res, 0, index_flat)\n    faiss_index.add(centroids)\n\n    generator, num, root = get_iterator(args)\n    iterator = generator()\n\n    had_labels = False\n    label_path = osp.join(args.path, f\"{args.split}.{args.labels}\")\n\n    with torch.no_grad():\n        with open(osp.join(args.path, f\"{args.split}.src\"), \"w\") as fp, open(\n            osp.join(args.path, f\"{args.split}.tsv\"), \"w\"\n        ) as pp, open(label_path, \"w\") as lp:\n            print(root, file=pp)\n            for f, fname, lbl in tqdm.tqdm(iterator, total=num):\n                if faiss_spec.pca:\n                    f = torch.mm(f, A) + b\n                if faiss_spec.norm:\n                    f = F.normalize(f, p=2, dim=-1)\n\n                f = f.cpu().numpy()\n\n                _, z = faiss_index.search(f, 1)\n\n                print(\" \".join(str(x.item()) for x in z), file=fp)\n                print(fname, file=pp)\n\n                if lbl is not None:\n                    print(lbl, file=lp)\n                    had_labels = True\n    if not had_labels:\n        os.remove(label_path)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/wav2vec_cluster_faiss.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport gc\nimport os\nimport os.path as osp\nimport random\nimport numpy as np\nimport tqdm\nimport torch\n\nfrom collections import namedtuple\n\nimport faiss\n\nimport fairseq\nimport soundfile as sf\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"compute kmeans codebook from kaldi-computed feats\"\n    )\n    # fmt: off\n    parser.add_argument('data', help='location of tsv files')\n    parser.add_argument('--save-dir', help='where to save the output', required=True)\n    parser.add_argument('--checkpoint', type=str, help='checkpoint for wav2vec model (if using wav2vec features)', required=True)\n    parser.add_argument('--sample-pct', '-r', type=float, help='percentage of timesteps to sample', default=0)\n    parser.add_argument('--layer', '-l', type=int, help='which layer to read', default=14)\n    parser.add_argument('--faiss-specs', '-f', type=str,\n                        help='faiss index specs; separated by space '\n                             'format is: PCAx_NORM_CLUSx_SPHERICAL -> '\n                                'PCAx if exists first apply PCA '\n                                'NORM if exists, normalize the vector by L2 norm '\n                                'CLUSx must exist, cluster to x clusters '\n                                'SPEHRICAL if exists, apply spherical kmeans',\n                        default='l2')\n    # fmt: on\n\n    return parser\n\n\nfaiss_spec = namedtuple(\"faiss_spec\", [\"pca\", \"norm\", \"n_clus\", \"sphere\", \"spec_str\"])\n\n\ndef parse_faiss_specs(specs_str):\n    specs = []\n    for ss in specs_str.split():\n        comps = ss.split(\"_\")\n        pca = 0\n        norm = False\n        n_clus = 0\n        sphere = False\n        for c in comps:\n            if c.startswith(\"PCA\"):\n                pca = int(c[3:])\n            elif c == \"NORM\":\n                norm = True\n            elif c.startswith(\"CLUS\"):\n                n_clus = int(c[4:])\n            elif c == \"SPHERICAL\":\n                sphere = True\n        assert n_clus > 0\n        specs.append(\n            faiss_spec(pca=pca, norm=norm, n_clus=n_clus, sphere=sphere, spec_str=ss)\n        )\n    return specs\n\n\nclass Wav2VecFeatureReader(object):\n    def __init__(self, cp_file, layer):\n        state = fairseq.checkpoint_utils.load_checkpoint_to_cpu(cp_file)\n\n        self.layer = layer\n\n        if \"cfg\" in state:\n            w2v_args = state[\"cfg\"]\n            task = fairseq.tasks.setup_task(w2v_args.task)\n            model = task.build_model(w2v_args.model)\n        else:\n            w2v_args = state[\"args\"]\n            task = fairseq.tasks.setup_task(w2v_args)\n            model = task.build_model(w2v_args)\n        model.load_state_dict(state[\"model\"], strict=True)\n        model.eval()\n        model.cuda()\n        self.model = model\n\n    def read_audio(self, fname):\n        \"\"\"Load an audio file and return PCM along with the sample rate\"\"\"\n        wav, sr = sf.read(fname)\n        assert sr == 16e3\n\n        return wav\n\n    def get_feats(self, loc):\n        x = self.read_audio(loc)\n        with torch.no_grad():\n            source = torch.from_numpy(x).view(1, -1).float().cuda()\n            res = self.model(\n                source=source, mask=False, features_only=True, layer=self.layer\n            )\n            return res[\"layer_results\"][self.layer][0].squeeze(1)\n\n\ndef get_iterator(args):\n    with open(args.data, \"r\") as fp:\n        lines = fp.read().split(\"\\n\")\n        root = lines.pop(0).strip()\n        files = [osp.join(root, line.split(\"\\t\")[0]) for line in lines if len(line) > 0]\n\n        if getattr(args, \"sample_pct\", 0) > 0:\n            files = random.sample(files, int(args.sample_pct * len(files)))\n        num = len(files)\n        reader = Wav2VecFeatureReader(args.checkpoint, args.layer)\n\n        def iterate():\n            for fname in files:\n                feats = reader.get_feats(fname)\n                yield feats.cpu().numpy()\n\n    return iterate, num\n\n\ndef main():\n    parser = get_parser()\n    args = parser.parse_args()\n\n    faiss_specs = parse_faiss_specs(args.faiss_specs)\n    print(\"Faiss Specs:\", faiss_specs)\n\n    feat_path = osp.join(args.save_dir, \"features\")\n    if osp.exists(feat_path + \".npy\"):\n        feats = np.load(feat_path + \".npy\")\n    else:\n        generator, num = get_iterator(args)\n        iterator = generator()\n\n        feats = []\n        for f in tqdm.tqdm(iterator, total=num):\n            feats.append(f)\n\n        del iterator\n        del generator\n\n        feats = np.concatenate(feats)\n\n        print(feats.shape)\n\n        os.makedirs(args.save_dir, exist_ok=True)\n        # np.save(feat_path, feats)\n\n        gc.collect()\n        torch.cuda.empty_cache()\n\n    reload = False\n    for spec in faiss_specs:\n        print(\"Processing spec\", spec)\n\n        if reload:\n            print(\"Reloading...\")\n            del feats\n            gc.collect()\n            feats = np.load(feat_path + \".npy\")\n\n        save_path = osp.join(args.save_dir, spec.spec_str)\n        os.makedirs(save_path, exist_ok=True)\n        d = feats.shape[-1]\n        x = feats\n        if spec.pca > 0:\n            print(\"Computing PCA\")\n            pca = faiss.PCAMatrix(d, spec.pca)\n            pca.train(x)\n            d = spec.pca\n            b = faiss.vector_to_array(pca.b)\n            A = faiss.vector_to_array(pca.A).reshape(pca.d_out, pca.d_in)\n            np.save(osp.join(save_path, \"pca_A\"), A.T)\n            np.save(osp.join(save_path, \"pca_b\"), b)\n            print(\"Applying PCA\")\n            x = pca.apply_py(x)\n\n        if spec.norm:\n            reload = spec.pca <= 0\n            print(\"Normalizing\")\n            faiss.normalize_L2(x)\n\n        print(\"Computing kmeans\")\n        kmeans = faiss.Kmeans(\n            d,\n            spec.n_clus,\n            niter=50,\n            verbose=True,\n            spherical=spec.sphere,\n            max_points_per_centroid=feats.shape[0],\n            gpu=True,\n            nredo=3,\n        )\n        kmeans.train(x)\n        np.save(osp.join(save_path, \"centroids\"), kmeans.centroids)\n        del kmeans\n        del x\n        gc.collect()\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/wav2vec_extract_features.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport os\nimport os.path as osp\nimport tqdm\nimport torch\nimport torch.nn.functional as F\nfrom shutil import copyfile\n\nfrom npy_append_array import NpyAppendArray\n\nimport fairseq\nimport soundfile as sf\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"compute kmeans codebook from kaldi-computed feats\"\n    )\n    # fmt: off\n    parser.add_argument('data', help='location of tsv files')\n    parser.add_argument('--split', help='which split to read', required=True)\n    parser.add_argument('--save-dir', help='where to save the output', required=True)\n    parser.add_argument('--checkpoint', type=str, help='checkpoint for wav2vec ctc model', required=True)\n    parser.add_argument('--layer', type=int, default=14, help='which layer to use')\n    # fmt: on\n\n    return parser\n\n\nclass Wav2VecFeatureReader(object):\n    def __init__(self, cp_file, layer):\n        model, cfg, task = fairseq.checkpoint_utils.load_model_ensemble_and_task(\n            [cp_file]\n        )\n        model = model[0]\n        model.eval()\n        model.cuda()\n        self.model = model\n        self.task = task\n        self.layer = layer\n\n    def read_audio(self, fname):\n        \"\"\"Load an audio file and return PCM along with the sample rate\"\"\"\n        wav, sr = sf.read(fname)\n        assert sr == 16e3\n\n        return wav\n\n    def get_feats(self, loc):\n        x = self.read_audio(loc)\n        with torch.no_grad():\n            source = torch.from_numpy(x).float().cuda()\n            if self.task.cfg.normalize:\n                assert source.dim() == 1, source.dim()\n                with torch.no_grad():\n                    source = F.layer_norm(source, source.shape)\n            source = source.view(1, -1)\n\n            m_res = self.model(source=source, mask=False, features_only=True, layer=self.layer)\n            return m_res[\"x\"].squeeze(0).cpu()\n\n\ndef get_iterator(args):\n    with open(osp.join(args.data, args.split) + \".tsv\", \"r\") as fp:\n        lines = fp.read().split(\"\\n\")\n        root = lines.pop(0).strip()\n        files = [osp.join(root, line.split(\"\\t\")[0]) for line in lines if len(line) > 0]\n\n        num = len(files)\n        reader = Wav2VecFeatureReader(args.checkpoint, args.layer)\n\n        def iterate():\n            for fname in files:\n                w2v_feats = reader.get_feats(fname)\n                yield w2v_feats\n\n    return iterate, num\n\n\ndef main():\n    parser = get_parser()\n    args = parser.parse_args()\n\n    os.makedirs(args.save_dir, exist_ok=True)\n\n    def create_files(dest):\n        copyfile(osp.join(args.data, args.split) + \".tsv\", dest + \".tsv\")\n        if osp.exists(osp.join(args.data, args.split) + \".wrd\"):\n            copyfile(osp.join(args.data, args.split) + \".wrd\", dest + \".wrd\")\n        if osp.exists(osp.join(args.data, args.split) + \".phn\"):\n            copyfile(osp.join(args.data, args.split) + \".phn\", dest + \".phn\")\n\n        if osp.exists(dest + \".npy\"):\n            os.remove(dest + \".npy\")\n        npaa = NpyAppendArray(dest + \".npy\")\n        return npaa\n\n    save_path = osp.join(args.save_dir, args.split)\n    npaa = create_files(save_path)\n\n    generator, num = get_iterator(args)\n    iterator = generator()\n\n    with open(save_path + \".lengths\", \"w\") as l_f:\n        for w2v_feats in tqdm.tqdm(iterator, total=num):\n            print(len(w2v_feats), file=l_f)\n\n            if len(w2v_feats) > 0:\n                npaa.append(w2v_feats.numpy())\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/wer.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nImplement unsupervised metric for decoding hyperparameter selection:\n    $$ alpha * LM_PPL + ViterbitUER(%) * 100 $$\n\"\"\"\nimport argparse\nimport logging\nimport sys\n\nimport editdistance\n\nlogging.root.setLevel(logging.INFO)\nlogging.basicConfig(stream=sys.stdout, level=logging.INFO)\nlogger = logging.getLogger(__name__)\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"-s\", \"--hypo\", help=\"hypo transcription\", required=True)\n    parser.add_argument(\n        \"-r\", \"--reference\", help=\"reference transcription\", required=True\n    )\n    return parser\n\n\ndef compute_wer(ref_uid_to_tra, hyp_uid_to_tra, g2p):\n    d_cnt = 0\n    w_cnt = 0\n    w_cnt_h = 0\n    for uid in hyp_uid_to_tra:\n        ref = ref_uid_to_tra[uid].split()\n        if g2p is not None:\n            hyp = g2p(hyp_uid_to_tra[uid])\n            hyp = [p for p in hyp if p != \"'\" and p != \" \"]\n            hyp = [p[:-1] if p[-1].isnumeric() else p for p in hyp]\n        else:\n            hyp = hyp_uid_to_tra[uid].split()\n        d_cnt += editdistance.eval(ref, hyp)\n        w_cnt += len(ref)\n        w_cnt_h += len(hyp)\n    wer = float(d_cnt) / w_cnt\n    logger.debug(\n        (\n            f\"wer = {wer * 100:.2f}%; num. of ref words = {w_cnt}; \"\n            f\"num. of hyp words = {w_cnt_h}; num. of sentences = {len(ref_uid_to_tra)}\"\n        )\n    )\n    return wer\n\n\ndef main():\n    args = get_parser().parse_args()\n\n    errs = 0\n    count = 0\n    with open(args.hypo, \"r\") as hf, open(args.reference, \"r\") as rf:\n        for h, r in zip(hf, rf):\n            h = h.rstrip().split()\n            r = r.rstrip().split()\n            errs += editdistance.eval(r, h)\n            count += len(r)\n\n    logger.info(f\"UER: {errs / count * 100:.2f}%\")\n\n\nif __name__ == \"__main__\":\n    main()\n\n\ndef load_tra(tra_path):\n    with open(tra_path, \"r\") as f:\n        uid_to_tra = {}\n        for line in f:\n            uid, tra = line.split(None, 1)\n            uid_to_tra[uid] = tra\n    logger.debug(f\"loaded {len(uid_to_tra)} utterances from {tra_path}\")\n    return uid_to_tra\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/scripts/wrd_to_ltr.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport sys\n\n\ndef main():\n    for line in sys.stdin:\n        print(\" \".join(list(line.strip().replace(\" \", \"|\"))) + \" |\")\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/tasks/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .unpaired_audio_text import UnpairedAudioText\n\n\n__all__ = [\n    \"UnpairedAudioText\",\n]\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/tasks/unpaired_audio_text.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nfrom dataclasses import dataclass, field\nimport logging\nimport math\nimport os\nfrom typing import Optional\nimport torch\n\nfrom fairseq.logging import metrics\nfrom fairseq.tasks import FairseqTask, register_task\nfrom ..data import ExtractedFeaturesDataset, RandomInputDataset\n\nfrom fairseq.data import (\n    Dictionary,\n    data_utils,\n    StripTokenDataset,\n)\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.distributed.utils import get_data_parallel_world_size\nfrom omegaconf import MISSING\n\nfrom examples.speech_recognition.kaldi.kaldi_decoder import (\n    KaldiDecoder,\n    KaldiDecoderConfig,\n)\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass DecodingConfig(FairseqDataclass):\n    kenlm_path: Optional[str] = None\n    lm_weight: float = 0\n    blank_weight: float = 0\n\n\n@dataclass\nclass UnpairedAudioTextConfig(FairseqDataclass):\n    data: str = field(\n        default=MISSING, metadata={\"help\": \"path to data directory containing audio\"}\n    )\n    text_data: str = field(\n        default=MISSING, metadata={\"help\": \"path to data directory containing text\"}\n    )\n    max_length: Optional[int] = None\n    labels: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"extension of the label file to load, used for fine-tuning\"},\n    )\n    aux_target_postfix: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"auxaliry target filename extension\"},\n    )\n    unfiltered: bool = field(\n        default=False, metadata={\"help\": \"load data with _unfiltered suffix\"}\n    )\n    ctc_eval: bool = field(\n        default=False, metadata={\"help\": \"eval UER as if computed by CTC\"}\n    )\n    sort_by_length: bool = field(\n        default=True, metadata={\"help\": \"sort examples by length of audio timesteps\"}\n    )\n    shuffle: bool = field(default=True, metadata={\"help\": \"shuffle examples\"})\n    append_eos: bool = field(default=False, metadata={\"help\": \"append eos\"})\n    uppercase: Optional[bool] = field(\n        default=False, metadata={\"help\": \"uppercase for LM score computation\"}\n    )\n    skipwords: Optional[str] = field(\n        default=\"\",\n        metadata={\n            \"help\": \"comma-separated words to be removed for LM score computation\"\n        },\n    )\n    kenlm_path: Optional[str] = None\n    vocab_usage_power: float = 2\n\n    word_decoder_config: Optional[KaldiDecoderConfig] = None\n    word_kenlm_path: Optional[str] = None\n\n    decoding_config: DecodingConfig = DecodingConfig()\n\n\n@register_task(\"unpaired_audio_text\", dataclass=UnpairedAudioTextConfig)\nclass UnpairedAudioText(FairseqTask):\n    \"\"\" \"\"\"\n\n    cfg: UnpairedAudioTextConfig\n\n    def __init__(\n        self,\n        cfg: UnpairedAudioTextConfig,\n        source_dictionary=None,\n        target_dictionary=None,\n    ):\n        super().__init__(cfg)\n\n        self._target_dictionary = target_dictionary\n        self._source_dictionary = source_dictionary\n        self.num_symbols = (\n            len([s for s in target_dictionary.symbols if not s.startswith(\"madeup\")])\n            - target_dictionary.nspecial\n        )\n        self.sil_id = (\n            target_dictionary.index(\"<SIL>\") if \"<SIL>\" in target_dictionary else -1\n        )\n        self.kenlm = None\n        if cfg.kenlm_path is not None:\n            import kenlm\n\n            self.kenlm = kenlm.Model(cfg.kenlm_path)\n\n        self.word_kenlm = None\n        if cfg.word_kenlm_path is not None:\n            import kenlm\n\n            self.word_kenlm = kenlm.Model(cfg.word_kenlm_path)\n\n        self.uppercase = cfg.uppercase\n        self.skipwords = set(cfg.skipwords.split(\",\"))\n\n        def str_postprocess(s):\n            s = \" \".join(w for w in s.split() if w not in self.skipwords)\n            s = s.upper() if self.uppercase else s\n            return s\n\n        self.str_postprocess = str_postprocess\n        self.compute_lm_score = lambda s: self.kenlm.score(self.str_postprocess(s))\n\n        self.compute_word_score = None\n        if cfg.word_decoder_config is not None:\n            self.kaldi_decoder = KaldiDecoder(cfg.word_decoder_config, beam=10)\n\n            def compute_word_score(logits, padding):\n                res = self.kaldi_decoder.decode(logits, padding)\n                for r in res:\n                    r = r.result()\n                    assert len(r) == 1\n                    r = r[0]\n                    yield r[\"score\"], r[\"words\"]\n\n            self.compute_word_score = compute_word_score\n\n    @classmethod\n    def setup_task(cls, cfg: UnpairedAudioTextConfig, **kwargs):\n        \"\"\"Setup the task (e.g., load dictionaries).\n\n        Args:\n            cfg (AudioPretrainingConfig): configuration of this task\n        \"\"\"\n\n        dict_path = os.path.join(cfg.text_data, \"dict.txt\")\n        if os.path.exists(dict_path):\n            target_dictionary = Dictionary.load(dict_path)\n        else:\n            dict_path = os.path.join(cfg.data, f\"dict.{cfg.labels}.txt\")\n            target_dictionary = Dictionary.load(dict_path)\n\n        return cls(cfg, target_dictionary=target_dictionary)\n\n    def optimizer_step(self, optimizer, model, update_num):\n        if hasattr(model, \"get_groups_for_update\"):\n            groups = model.get_groups_for_update(update_num)\n            optimizer.step(groups={groups})\n        else:\n            optimizer.step()\n\n    def valid_step(self, sample, model, criterion):\n        res = model(\n            **sample[\"net_input\"],\n            dense_x_only=True,\n        )\n\n        dense_x = res[\"logits\"]\n        padding_mask = res[\"padding_mask\"]\n\n        word_scores = None\n        if self.compute_word_score is not None:\n            word_scores = self.compute_word_score(dense_x.cpu(), padding_mask.cpu())\n\n        z = dense_x.argmax(-1)\n        z[padding_mask] = self.target_dictionary.pad()\n\n        vocab_seen = torch.zeros(self.num_symbols, dtype=torch.bool)\n\n        import editdistance\n\n        c_err = 0\n        c_len = 0\n        pred_c_len = 0\n        lm_score_sum = 0\n        for i, (x, t, id) in enumerate(\n            zip(\n                z,\n                sample[\"target\"] if \"target\" in sample else [None] * len(z),\n                sample[\"id\"],\n            )\n        ):\n\n            if t is not None:\n                t = t[(t >= self.target_dictionary.nspecial)]\n            x = x[\n                (x >= self.target_dictionary.nspecial)\n                & (x < (self.num_symbols + self.target_dictionary.nspecial))\n            ]\n            if self.sil_id >= 0:\n                x = x[x != self.sil_id]\n\n            vocab_seen[x - self.target_dictionary.nspecial] = True\n\n            pred_units_arr = x\n            if self.cfg.ctc_eval:\n                pred_units_arr = pred_units_arr.unique_consecutive()\n                pred_units_arr = pred_units_arr[pred_units_arr != 0]\n\n            if id == 0:\n                if t is not None:\n                    logger.info(f\"REF: {self.target_dictionary.string(t)}\")\n                logger.info(f\"HYP: {self.target_dictionary.string(pred_units_arr)}\")\n\n                if self.kenlm is not None:\n                    if t is not None:\n                        ref_lm_s = self.compute_lm_score(\n                            self.target_dictionary.string(t)\n                        )\n                        logger.info(\n                            f\"LM [REF]: {ref_lm_s}, {math.pow(10, -ref_lm_s / (len(t) + 1))}\"\n                        )\n\n                    hyp_lm_s = self.compute_lm_score(\n                        self.target_dictionary.string(pred_units_arr)\n                    )\n                    logger.info(\n                        f\"LM [HYP]: {hyp_lm_s}, {math.pow(10, -hyp_lm_s / (len(pred_units_arr) + 1))}\"\n                    )\n\n            pred_units_arr = pred_units_arr.tolist()\n\n            pred_c_len += len(pred_units_arr)\n\n            if t is not None:\n                t = t.tolist()\n                c_err += editdistance.eval(pred_units_arr, t)\n                c_len += len(t)\n            else:\n                c_len = pred_c_len\n\n            if self.kenlm is not None:\n                pred_str = self.target_dictionary.string(pred_units_arr)\n                lm_score = self.compute_lm_score(pred_str)\n                lm_score_sum += lm_score\n\n        kaldi_score_sum = 0\n        word_lm_sum = 0\n        num_words = 0\n        if word_scores is not None:\n            for score, words in word_scores:\n                kaldi_score_sum += score\n                num_words += len(words)\n                if self.word_kenlm is not None:\n                    word_lm_sum += self.kenlm.score(\" \".join(words))\n\n        try:\n            world_size = get_data_parallel_world_size()\n        except:\n            world_size = 1\n\n        logging_output = {\n            \"loss\": c_err,\n            \"_num_char_errors\": c_err,\n            \"_num_chars\": c_len,\n            \"_num_pred_chars\": pred_c_len,\n            \"ntokens\": c_len,\n            \"nsentences\": z.size(0),\n            \"sample_size\": c_len,\n            \"_world_size\": world_size,\n            \"_lm_score_sum\": lm_score_sum,\n            \"_kaldi_score_sum\": kaldi_score_sum,\n            \"_word_lm_sum\": word_lm_sum,\n            \"_num_words\": num_words,\n            \"_vocab_seen\": vocab_seen,\n        }\n\n        return c_err, c_len, logging_output\n\n    def load_dataset(self, split: str, task_cfg: FairseqDataclass = None, **kwargs):\n        data_path = self.cfg.data\n        task_cfg = task_cfg or self.cfg\n\n        has_unpaired_text = os.path.exists(\n            os.path.join(self.cfg.text_data, f\"{split}.idx\")\n        )\n\n        self.datasets[split] = ExtractedFeaturesDataset(\n            path=data_path,\n            split=split,\n            min_length=3,\n            max_length=task_cfg.max_length,\n            labels=None if has_unpaired_text else task_cfg.labels,\n            label_dict=self.target_dictionary,\n            shuffle=getattr(task_cfg, \"shuffle\", True),\n            sort_by_length=task_cfg.sort_by_length,\n            aux_target_postfix=task_cfg.aux_target_postfix,\n        )\n\n        logger.info(f\"split {split} has unpaired text? {has_unpaired_text}\")\n        if has_unpaired_text:\n            text_dataset = data_utils.load_indexed_dataset(\n                os.path.join(self.cfg.text_data, split), self.target_dictionary\n            )\n            text_dataset = StripTokenDataset(text_dataset, self.target_dictionary.eos())\n            self.datasets[split] = RandomInputDataset(\n                self.datasets[split],\n                text_dataset,\n                [\"random_label\"],\n                add_to_input=True,\n                pad_idx=self.target_dictionary.pad(),\n            )\n\n    @property\n    def source_dictionary(self):\n        return self._source_dictionary\n\n    @property\n    def target_dictionary(self):\n        \"\"\"Return the :class:`~fairseq.data.Dictionary` for the language\n        model.\"\"\"\n        return self._target_dictionary\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return None\n\n    def reduce_metrics(self, logging_outputs, criterion):\n        super().reduce_metrics(logging_outputs, criterion)\n\n        zero = torch.scalar_tensor(0.0)\n        num_char_errors = sum(\n            log.get(\"_num_char_errors\", zero) for log in logging_outputs\n        )\n        num_chars = sum(log.get(\"_num_chars\", zero) for log in logging_outputs)\n        num_word_errors = sum(\n            log.get(\"_num_word_errors\", zero) for log in logging_outputs\n        )\n        num_words = sum(log.get(\"_num_words\", zero) for log in logging_outputs)\n        num_pred_chars = sum(\n            log.get(\"_num_pred_chars\", zero) for log in logging_outputs\n        )\n\n        lm_score_sum = sum(log.get(\"_lm_score_sum\", zero) for log in logging_outputs)\n        vocab_seen = (\n            sum(log.get(\"_vocab_seen\", zero) for log in logging_outputs)\n            .bool()\n            .sum()\n            .item()\n        )\n        kaldi_score_sum = sum(\n            log.get(\"_kaldi_score_sum\", zero) for log in logging_outputs\n        )\n        word_lm_sum = sum(log.get(\"_word_lm_sum\", zero) for log in logging_outputs)\n\n        metrics.log_scalar_sum(\"_num_char_errors\", num_char_errors)\n        metrics.log_scalar_sum(\"_num_chars\", num_chars)\n        metrics.log_scalar_sum(\"_num_word_errors\", num_word_errors)\n        metrics.log_scalar_sum(\"_num_words\", num_words)\n\n        metrics.log_scalar_sum(\"lm_score_sum\", lm_score_sum)\n        metrics.log_scalar_sum(\"num_pred_chars\", num_pred_chars)\n\n        if self.cfg.word_kenlm_path is not None:\n            metrics.log_scalar_sum(\"kaldi_score_sum\", kaldi_score_sum)\n            metrics.log_scalar_sum(\"word_lm_sum\", word_lm_sum)\n\n        if num_chars > 0:\n            metrics.log_derived(\n                \"uer\",\n                lambda meters: meters[\"_num_char_errors\"].sum\n                * 100.0\n                / meters[\"_num_chars\"].sum\n                if meters[\"_num_chars\"].sum > 0\n                else float(\"nan\"),\n            )\n\n            if lm_score_sum < 0 and vocab_seen > 0:\n                metrics.log_scalar(\"vocab_seen_pct\", vocab_seen / self.num_symbols)\n\n                metrics.log_derived(\n                    \"weighted_lm_ppl\",\n                    lambda meters: math.pow(\n                        10,\n                        -meters[\"lm_score_sum\"].sum\n                        / (\n                            meters[\"num_pred_chars\"].sum + meters[\"nsentences\"].sum\n                        ),  # account for </s>\n                    )\n                    / meters[\"vocab_seen_pct\"].avg ** self.cfg.vocab_usage_power,\n                )\n\n                metrics.log_derived(\n                    \"lm_ppl\",\n                    lambda meters: math.pow(\n                        10,\n                        -meters[\"lm_score_sum\"].sum\n                        / (\n                            meters[\"num_pred_chars\"].sum + meters[\"nsentences\"].sum\n                        ),  # account for </s>\n                    ),\n                )\n            else:\n                metrics.log_derived(\"weighted_lm_ppl\", lambda meters: float(\"inf\"))\n\n        if num_words > 0:\n            if word_lm_sum != 0:\n                metrics.log_derived(\n                    \"word_lm_ppl\",\n                    lambda meters: math.pow(\n                        10,\n                        -meters[\"word_lm_sum\"].sum\n                        / (\n                            meters[\"_num_words\"].sum + meters[\"nsentences\"].sum\n                        ),  # account for </s>\n                    ),\n                )\n                metrics.log_derived(\n                    \"weighted_word_lm_ppl\",\n                    lambda meters: math.pow(\n                        10,\n                        -meters[\"word_lm_sum\"].sum\n                        / (\n                            meters[\"_num_words\"].sum + meters[\"nsentences\"].sum\n                        ),  # account for </s>\n                    )\n                    / meters[\"vocab_seen_pct\"].avg ** self.cfg.vocab_usage_power,\n                )\n\n            if self.cfg.word_kenlm_path is not None:\n                metrics.log_derived(\n                    \"kaldi_score\",\n                    lambda meters: meters[\"kaldi_score_sum\"].sum\n                    / meters[\"nsentences\"].sum,\n                )\n\n    def build_model(self, cfg: FairseqDataclass, from_checkpoint=False):\n        model = super().build_model(cfg)\n\n        return model\n"
  },
  {
    "path": "examples/wav2vec/unsupervised/w2vu_generate.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nRun inference for pre-processed data with a trained model.\n\"\"\"\n\nimport ast\nfrom collections import namedtuple\nfrom dataclasses import dataclass, field\nfrom enum import Enum, auto\nimport hydra\nfrom hydra.core.config_store import ConfigStore\nimport logging\nimport math\nimport os\nfrom omegaconf import OmegaConf\nfrom typing import Optional\nimport sys\n\nimport editdistance\nimport torch\n\nfrom hydra.core.hydra_config import HydraConfig\n\nfrom fairseq import checkpoint_utils, progress_bar, tasks, utils\nfrom fairseq.data.data_utils import post_process\nfrom fairseq.dataclass.configs import FairseqDataclass, FairseqConfig\nfrom fairseq.logging.meters import StopwatchMeter\nfrom omegaconf import open_dict\n\nfrom examples.speech_recognition.kaldi.kaldi_decoder import KaldiDecoderConfig\n\nlogging.root.setLevel(logging.INFO)\nlogging.basicConfig(stream=sys.stdout, level=logging.INFO)\nlogger = logging.getLogger(__name__)\n\n\nclass DecoderType(Enum):\n    VITERBI = auto()\n    KENLM = auto()\n    FAIRSEQ = auto()\n    KALDI = auto()\n\n\n@dataclass\nclass UnsupGenerateConfig(FairseqDataclass):\n    fairseq: FairseqConfig = FairseqConfig()\n    lm_weight: float = field(\n        default=2.0,\n        metadata={\"help\": \"language model weight\"},\n    )\n    w2l_decoder: DecoderType = field(\n        default=DecoderType.VITERBI,\n        metadata={\"help\": \"type of decoder to use\"},\n    )\n    kaldi_decoder_config: Optional[KaldiDecoderConfig] = None\n    lexicon: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"path to lexicon. This is also used to 'phonemize' for unsupvised param tuning\"\n        },\n    )\n    lm_model: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"path to language model (kenlm or fairseq)\"},\n    )\n    decode_stride: Optional[float] = field(\n        default=None,\n        metadata={\"help\": \"changing the decoding frequency of the generator\"},\n    )\n    unit_lm: bool = field(\n        default=False,\n        metadata={\"help\": \"whether to use unit lm\"},\n    )\n    beam_threshold: float = field(\n        default=50.0,\n        metadata={\"help\": \"beam score threshold\"},\n    )\n    beam_size_token: float = field(\n        default=100.0,\n        metadata={\"help\": \"max tokens per beam\"},\n    )\n    beam: int = field(\n        default=5,\n        metadata={\"help\": \"decoder beam size\"},\n    )\n    nbest: int = field(\n        default=1,\n        metadata={\"help\": \"number of results to return\"},\n    )\n    word_score: float = field(\n        default=1.0,\n        metadata={\"help\": \"word score to add at end of word\"},\n    )\n    unk_weight: float = field(\n        default=-math.inf,\n        metadata={\"help\": \"unknown token weight\"},\n    )\n    sil_weight: float = field(\n        default=0.0,\n        metadata={\"help\": \"silence token weight\"},\n    )\n    targets: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"extension of ground truth labels to compute UER\"},\n    )\n    results_path: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"where to store results\"},\n    )\n    post_process: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"how to post process results\"},\n    )\n    vocab_usage_power: float = field(\n        default=2,\n        metadata={\"help\": \"for unsupervised param tuning\"},\n    )\n\n    viterbi_transcript: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"for unsupervised param tuning\"},\n    )\n    min_lm_ppl: float = field(\n        default=0,\n        metadata={\"help\": \"for unsupervised param tuning\"},\n    )\n    min_vt_uer: float = field(\n        default=0,\n        metadata={\"help\": \"for unsupervised param tuning\"},\n    )\n\n    blank_weight: float = field(\n        default=0,\n        metadata={\"help\": \"value to add or set for blank emission\"},\n    )\n    blank_mode: str = field(\n        default=\"set\",\n        metadata={\n            \"help\": \"can be add or set, how to modify blank emission with blank weight\"\n        },\n    )\n    sil_is_blank: bool = field(\n        default=False,\n        metadata={\"help\": \"if true, <SIL> token is same as blank token\"},\n    )\n\n    unsupervised_tuning: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if true, returns a score based on unsupervised param selection metric instead of UER\"\n        },\n    )\n    is_ax: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if true, assumes we are using ax for tuning and returns a tuple for ax to consume\"\n        },\n    )\n\n\ndef get_dataset_itr(cfg, task):\n    return task.get_batch_iterator(\n        dataset=task.dataset(cfg.fairseq.dataset.gen_subset),\n        max_tokens=cfg.fairseq.dataset.max_tokens,\n        max_sentences=cfg.fairseq.dataset.batch_size,\n        max_positions=(sys.maxsize, sys.maxsize),\n        ignore_invalid_inputs=cfg.fairseq.dataset.skip_invalid_size_inputs_valid_test,\n        required_batch_size_multiple=cfg.fairseq.dataset.required_batch_size_multiple,\n        num_shards=cfg.fairseq.dataset.num_shards,\n        shard_id=cfg.fairseq.dataset.shard_id,\n        num_workers=cfg.fairseq.dataset.num_workers,\n        data_buffer_size=cfg.fairseq.dataset.data_buffer_size,\n    ).next_epoch_itr(shuffle=False)\n\n\ndef process_predictions(\n    cfg: UnsupGenerateConfig,\n    hypos,\n    tgt_dict,\n    target_tokens,\n    res_files,\n):\n    retval = []\n    word_preds = []\n    transcriptions = []\n    dec_scores = []\n\n    for i, hypo in enumerate(hypos[: min(len(hypos), cfg.nbest)]):\n        if torch.is_tensor(hypo[\"tokens\"]):\n            tokens = hypo[\"tokens\"].int().cpu()\n            tokens = tokens[tokens >= tgt_dict.nspecial]\n            hyp_pieces = tgt_dict.string(tokens)\n        else:\n            hyp_pieces = \" \".join(hypo[\"tokens\"])\n\n        if \"words\" in hypo and len(hypo[\"words\"]) > 0:\n            hyp_words = \" \".join(hypo[\"words\"])\n        else:\n            hyp_words = post_process(hyp_pieces, cfg.post_process)\n\n        to_write = {}\n        if res_files is not None:\n            to_write[res_files[\"hypo.units\"]] = hyp_pieces\n            to_write[res_files[\"hypo.words\"]] = hyp_words\n\n        tgt_words = \"\"\n        if target_tokens is not None:\n            if isinstance(target_tokens, str):\n                tgt_pieces = tgt_words = target_tokens\n            else:\n                tgt_pieces = tgt_dict.string(target_tokens)\n                tgt_words = post_process(tgt_pieces, cfg.post_process)\n\n            if res_files is not None:\n                to_write[res_files[\"ref.units\"]] = tgt_pieces\n                to_write[res_files[\"ref.words\"]] = tgt_words\n\n        if not cfg.fairseq.common_eval.quiet:\n            logger.info(f\"HYPO {i}:\" + hyp_words)\n            if tgt_words:\n                logger.info(\"TARGET:\" + tgt_words)\n\n            if \"am_score\" in hypo and \"lm_score\" in hypo:\n                logger.info(\n                    f\"DECODER AM SCORE: {hypo['am_score']}, DECODER LM SCORE: {hypo['lm_score']}, DECODER SCORE: {hypo['score']}\"\n                )\n            elif \"score\" in hypo:\n                logger.info(f\"DECODER SCORE: {hypo['score']}\")\n\n            logger.info(\"___________________\")\n\n        hyp_words_arr = hyp_words.split()\n        tgt_words_arr = tgt_words.split()\n\n        retval.append(\n            (\n                editdistance.eval(hyp_words_arr, tgt_words_arr),\n                len(hyp_words_arr),\n                len(tgt_words_arr),\n                hyp_pieces,\n                hyp_words,\n            )\n        )\n        word_preds.append(hyp_words_arr)\n        transcriptions.append(to_write)\n        dec_scores.append(-hypo.get(\"score\", 0))  # negate cuz kaldi returns NLL\n\n    if len(retval) > 1:\n        best = None\n        for r, t in zip(retval, transcriptions):\n            if best is None or r[0] < best[0][0]:\n                best = r, t\n        for dest, tran in best[1].items():\n            print(tran, file=dest)\n            dest.flush()\n        return best[0]\n\n    assert len(transcriptions) == 1\n    for dest, tran in transcriptions[0].items():\n        print(tran, file=dest)\n\n    return retval[0]\n\n\ndef prepare_result_files(cfg: UnsupGenerateConfig):\n    def get_res_file(file_prefix):\n        if cfg.fairseq.dataset.num_shards > 1:\n            file_prefix = f\"{cfg.fairseq.dataset.shard_id}_{file_prefix}\"\n        path = os.path.join(\n            cfg.results_path,\n            \"{}{}.txt\".format(\n                cfg.fairseq.dataset.gen_subset,\n                file_prefix,\n            ),\n        )\n        return open(path, \"w\", buffering=1)\n\n    if not cfg.results_path:\n        return None\n\n    return {\n        \"hypo.words\": get_res_file(\"\"),\n        \"hypo.units\": get_res_file(\"_units\"),\n        \"ref.words\": get_res_file(\"_ref\"),\n        \"ref.units\": get_res_file(\"_ref_units\"),\n        \"hypo.nbest.words\": get_res_file(\"_nbest_words\"),\n    }\n\n\ndef optimize_models(cfg: UnsupGenerateConfig, use_cuda, models):\n    \"\"\"Optimize ensemble for generation\"\"\"\n    for model in models:\n        model.eval()\n        if cfg.fairseq.common.fp16:\n            model.half()\n        if use_cuda:\n            model.cuda()\n\n\nGenResult = namedtuple(\n    \"GenResult\",\n    [\n        \"count\",\n        \"errs_t\",\n        \"gen_timer\",\n        \"lengths_hyp_unit_t\",\n        \"lengths_hyp_t\",\n        \"lengths_t\",\n        \"lm_score_t\",\n        \"num_feats\",\n        \"num_sentences\",\n        \"num_symbols\",\n        \"vt_err_t\",\n        \"vt_length_t\",\n    ],\n)\n\n\ndef generate(cfg: UnsupGenerateConfig, models, saved_cfg, use_cuda):\n    task = tasks.setup_task(cfg.fairseq.task)\n    saved_cfg.task.labels = cfg.fairseq.task.labels\n    task.load_dataset(cfg.fairseq.dataset.gen_subset, task_cfg=saved_cfg.task)\n    # Set dictionary\n    tgt_dict = task.target_dictionary\n    logger.info(\n        \"| {} {} {} examples\".format(\n            cfg.fairseq.task.data,\n            cfg.fairseq.dataset.gen_subset,\n            len(task.dataset(cfg.fairseq.dataset.gen_subset)),\n        )\n    )\n    # Load dataset (possibly sharded)\n    itr = get_dataset_itr(cfg, task)\n    # Initialize generator\n    gen_timer = StopwatchMeter()\n\n    def build_generator(cfg: UnsupGenerateConfig):\n        w2l_decoder = cfg.w2l_decoder\n        if w2l_decoder == DecoderType.VITERBI:\n            from examples.speech_recognition.w2l_decoder import W2lViterbiDecoder\n\n            return W2lViterbiDecoder(cfg, task.target_dictionary)\n        elif w2l_decoder == DecoderType.KENLM:\n            from examples.speech_recognition.w2l_decoder import W2lKenLMDecoder\n\n            return W2lKenLMDecoder(cfg, task.target_dictionary)\n        elif w2l_decoder == DecoderType.FAIRSEQ:\n            from examples.speech_recognition.w2l_decoder import W2lFairseqLMDecoder\n\n            return W2lFairseqLMDecoder(cfg, task.target_dictionary)\n        elif w2l_decoder == DecoderType.KALDI:\n            from examples.speech_recognition.kaldi.kaldi_decoder import KaldiDecoder\n\n            assert cfg.kaldi_decoder_config is not None\n\n            return KaldiDecoder(\n                cfg.kaldi_decoder_config,\n                cfg.beam,\n            )\n        else:\n            raise NotImplementedError(\n                \"only wav2letter decoders with (viterbi, kenlm, fairseqlm) options are supported at the moment but found \"\n                + str(w2l_decoder)\n            )\n\n    generator = build_generator(cfg)\n\n    kenlm = None\n    fairseq_lm = None\n    if cfg.lm_model is not None:\n        import kenlm\n\n        kenlm = kenlm.Model(cfg.lm_model)\n\n    num_sentences = 0\n    if cfg.results_path is not None and not os.path.exists(cfg.results_path):\n        os.makedirs(cfg.results_path)\n\n    res_files = prepare_result_files(cfg)\n    errs_t = 0\n    lengths_hyp_t = 0\n    lengths_hyp_unit_t = 0\n    lengths_t = 0\n    count = 0\n    num_feats = 0\n    all_hyp_pieces = []\n    all_hyp_words = []\n\n    num_symbols = (\n        len([s for s in tgt_dict.symbols if not s.startswith(\"madeup\")])\n        - tgt_dict.nspecial\n    )\n    targets = None\n    if cfg.targets is not None:\n        tgt_path = os.path.join(\n            cfg.fairseq.task.data, cfg.fairseq.dataset.gen_subset + \".\" + cfg.targets\n        )\n        if os.path.exists(tgt_path):\n            with open(tgt_path, \"r\") as f:\n                targets = f.read().splitlines()\n    viterbi_transcript = None\n    if cfg.viterbi_transcript is not None and len(cfg.viterbi_transcript) > 0:\n        logger.info(f\"loading viterbi transcript from {cfg.viterbi_transcript}\")\n        with open(cfg.viterbi_transcript, \"r\") as vf:\n            viterbi_transcript = vf.readlines()\n            viterbi_transcript = [v.rstrip().split() for v in viterbi_transcript]\n\n    gen_timer.start()\n\n    start = 0\n    end = len(itr)\n\n    hypo_futures = None\n    if cfg.w2l_decoder == DecoderType.KALDI:\n        logger.info(\"Extracting features\")\n        hypo_futures = []\n        samples = []\n        with progress_bar.build_progress_bar(cfg.fairseq.common, itr) as t:\n            for i, sample in enumerate(t):\n                if \"net_input\" not in sample or i < start or i >= end:\n                    continue\n                if \"padding_mask\" not in sample[\"net_input\"]:\n                    sample[\"net_input\"][\"padding_mask\"] = None\n\n                hypos, num_feats = gen_hypos(\n                    generator, models, num_feats, sample, task, use_cuda\n                )\n                hypo_futures.append(hypos)\n                samples.append(sample)\n        itr = list(zip(hypo_futures, samples))\n        start = 0\n        end = len(itr)\n        logger.info(\"Finished extracting features\")\n\n    with progress_bar.build_progress_bar(cfg.fairseq.common, itr) as t:\n        for i, sample in enumerate(t):\n            if i < start or i >= end:\n                continue\n\n            if hypo_futures is not None:\n                hypos, sample = sample\n                hypos = [h.result() for h in hypos]\n            else:\n                if \"net_input\" not in sample:\n                    continue\n\n                hypos, num_feats = gen_hypos(\n                    generator, models, num_feats, sample, task, use_cuda\n                )\n\n            for i, sample_id in enumerate(sample[\"id\"].tolist()):\n                if targets is not None:\n                    target_tokens = targets[sample_id]\n                elif \"target\" in sample or \"target_label\" in sample:\n                    toks = (\n                        sample[\"target\"][i, :]\n                        if \"target_label\" not in sample\n                        else sample[\"target_label\"][i, :]\n                    )\n\n                    target_tokens = utils.strip_pad(toks, tgt_dict.pad()).int().cpu()\n                else:\n                    target_tokens = None\n\n                # Process top predictions\n                (\n                    errs,\n                    length_hyp,\n                    length,\n                    hyp_pieces,\n                    hyp_words,\n                ) = process_predictions(\n                    cfg,\n                    hypos[i],\n                    tgt_dict,\n                    target_tokens,\n                    res_files,\n                )\n                errs_t += errs\n                lengths_hyp_t += length_hyp\n                lengths_hyp_unit_t += (\n                    len(hyp_pieces) if len(hyp_pieces) > 0 else len(hyp_words)\n                )\n                lengths_t += length\n                count += 1\n                all_hyp_pieces.append(hyp_pieces)\n                all_hyp_words.append(hyp_words)\n\n            num_sentences += (\n                sample[\"nsentences\"] if \"nsentences\" in sample else sample[\"id\"].numel()\n            )\n\n    lm_score_sum = 0\n    if kenlm is not None:\n\n        if cfg.unit_lm:\n            lm_score_sum = sum(kenlm.score(w) for w in all_hyp_pieces)\n        else:\n            lm_score_sum = sum(kenlm.score(w) for w in all_hyp_words)\n    elif fairseq_lm is not None:\n        lm_score_sum = sum(fairseq_lm.score([h.split() for h in all_hyp_words])[0])\n\n    vt_err_t = 0\n    vt_length_t = 0\n    if viterbi_transcript is not None:\n        unit_hyps = []\n        if cfg.targets is not None and cfg.lexicon is not None:\n            lex = {}\n            with open(cfg.lexicon, \"r\") as lf:\n                for line in lf:\n                    items = line.rstrip().split()\n                    lex[items[0]] = items[1:]\n            for h in all_hyp_pieces:\n                hyp_ws = []\n                for w in h.split():\n                    assert w in lex, w\n                    hyp_ws.extend(lex[w])\n                unit_hyps.append(hyp_ws)\n\n        else:\n            unit_hyps.extend([h.split() for h in all_hyp_words])\n\n        vt_err_t = sum(\n            editdistance.eval(vt, h) for vt, h in zip(viterbi_transcript, unit_hyps)\n        )\n\n        vt_length_t = sum(len(h) for h in viterbi_transcript)\n\n    if res_files is not None:\n        for r in res_files.values():\n            r.close()\n\n    gen_timer.stop(lengths_hyp_t)\n\n    return GenResult(\n        count,\n        errs_t,\n        gen_timer,\n        lengths_hyp_unit_t,\n        lengths_hyp_t,\n        lengths_t,\n        lm_score_sum,\n        num_feats,\n        num_sentences,\n        num_symbols,\n        vt_err_t,\n        vt_length_t,\n    )\n\n\ndef gen_hypos(generator, models, num_feats, sample, task, use_cuda):\n    sample = utils.move_to_cuda(sample) if use_cuda else sample\n\n    if \"features\" in sample[\"net_input\"]:\n        sample[\"net_input\"][\"dense_x_only\"] = True\n        num_feats += (\n            sample[\"net_input\"][\"features\"].shape[0]\n            * sample[\"net_input\"][\"features\"].shape[1]\n        )\n    hypos = task.inference_step(generator, models, sample, None)\n    return hypos, num_feats\n\n\ndef main(cfg: UnsupGenerateConfig, model=None):\n    if (\n        cfg.fairseq.dataset.max_tokens is None\n        and cfg.fairseq.dataset.batch_size is None\n    ):\n        cfg.fairseq.dataset.max_tokens = 1024000\n\n    use_cuda = torch.cuda.is_available() and not cfg.fairseq.common.cpu\n\n    task = tasks.setup_task(cfg.fairseq.task)\n\n    overrides = ast.literal_eval(cfg.fairseq.common_eval.model_overrides)\n\n    if cfg.fairseq.task._name == \"unpaired_audio_text\":\n        overrides[\"model\"] = {\n            \"blank_weight\": cfg.blank_weight,\n            \"blank_mode\": cfg.blank_mode,\n            \"blank_is_sil\": cfg.sil_is_blank,\n            \"no_softmax\": True,\n            \"segmentation\": {\n                \"type\": \"NONE\",\n            },\n        }\n    else:\n        overrides[\"model\"] = {\n            \"blank_weight\": cfg.blank_weight,\n            \"blank_mode\": cfg.blank_mode,\n        }\n    \n    if cfg.decode_stride:\n        overrides[\"model\"][\"generator_stride\"] = cfg.decode_stride\n\n    if model is None:\n        # Load ensemble\n        logger.info(\"| loading model(s) from {}\".format(cfg.fairseq.common_eval.path))\n        models, saved_cfg = checkpoint_utils.load_model_ensemble(\n            cfg.fairseq.common_eval.path.split(\"\\\\\"),\n            arg_overrides=overrides,\n            task=task,\n            suffix=cfg.fairseq.checkpoint.checkpoint_suffix,\n            strict=(cfg.fairseq.checkpoint.checkpoint_shard_count == 1),\n            num_shards=cfg.fairseq.checkpoint.checkpoint_shard_count,\n        )\n        optimize_models(cfg, use_cuda, models)\n    else:\n        models = [model]\n        saved_cfg = cfg.fairseq\n\n    with open_dict(saved_cfg.task):\n        saved_cfg.task.shuffle = False\n        saved_cfg.task.sort_by_length = False\n\n    gen_result = generate(cfg, models, saved_cfg, use_cuda)\n\n    wer = None\n    if gen_result.lengths_t > 0:\n        wer = gen_result.errs_t * 100.0 / gen_result.lengths_t\n        logger.info(f\"WER: {wer}\")\n\n    lm_ppl = float(\"inf\")\n\n    if gen_result.lm_score_t != 0 and gen_result.lengths_hyp_t > 0:\n        hyp_len = gen_result.lengths_hyp_t\n        lm_ppl = math.pow(\n            10, -gen_result.lm_score_t / (hyp_len + gen_result.num_sentences)\n        )\n        logger.info(f\"LM PPL: {lm_ppl}\")\n\n    logger.info(\n        \"| Processed {} sentences ({} tokens) in {:.1f}s ({:.2f}\"\n        \" sentences/s, {:.2f} tokens/s)\".format(\n            gen_result.num_sentences,\n            gen_result.gen_timer.n,\n            gen_result.gen_timer.sum,\n            gen_result.num_sentences / gen_result.gen_timer.sum,\n            1.0 / gen_result.gen_timer.avg,\n        )\n    )\n\n    vt_diff = None\n    if gen_result.vt_length_t > 0:\n        vt_diff = gen_result.vt_err_t / gen_result.vt_length_t\n        vt_diff = max(cfg.min_vt_uer, vt_diff)\n\n    lm_ppl = max(cfg.min_lm_ppl, lm_ppl)\n\n    if not cfg.unsupervised_tuning:\n        weighted_score = wer\n    else:\n        weighted_score = math.log(lm_ppl) * (vt_diff or 1.0)\n\n    res = (\n        f\"| Generate {cfg.fairseq.dataset.gen_subset} with beam={cfg.beam}, \"\n        f\"lm_weight={cfg.kaldi_decoder_config.acoustic_scale if cfg.kaldi_decoder_config else cfg.lm_weight}, \"\n        f\"word_score={cfg.word_score}, sil_weight={cfg.sil_weight}, blank_weight={cfg.blank_weight}, \"\n        f\"WER: {wer}, LM_PPL: {lm_ppl}, num feats: {gen_result.num_feats}, \"\n        f\"length: {gen_result.lengths_hyp_t}, UER to viterbi: {(vt_diff or 0) * 100}, score: {weighted_score}\"\n    )\n\n    logger.info(res)\n    # print(res)\n\n    return task, weighted_score\n\n\n@hydra.main(\n    config_path=os.path.join(\"../../..\", \"fairseq\", \"config\"), config_name=\"config\"\n)\ndef hydra_main(cfg):\n    with open_dict(cfg):\n        # make hydra logging work with ddp (see # see https://github.com/facebookresearch/hydra/issues/1126)\n        cfg.job_logging_cfg = OmegaConf.to_container(\n            HydraConfig.get().job_logging, resolve=True\n        )\n\n    cfg = OmegaConf.create(\n        OmegaConf.to_container(cfg, resolve=False, enum_to_str=False)\n    )\n    OmegaConf.set_struct(cfg, True)\n    logger.info(cfg)\n\n    utils.import_user_module(cfg.fairseq.common)\n\n    _, score = main(cfg)\n\n    if cfg.is_ax:\n        return score, None\n    return score\n\n\ndef cli_main():\n    try:\n        from hydra._internal.utils import get_args\n\n        cfg_name = get_args().config_name or \"config\"\n    except:\n        logger.warning(\"Failed to get config name from hydra args\")\n        cfg_name = \"config\"\n\n    cs = ConfigStore.instance()\n    cs.store(name=cfg_name, node=UnsupGenerateConfig)\n    hydra_main()\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "examples/wav2vec/vq-wav2vec_featurize.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nHelper script to pre-compute embeddings for a flashlight (previously called wav2letter++) dataset\n\"\"\"\n\nimport argparse\nimport glob\nimport os\nimport os.path as osp\nimport pprint\n\nimport soundfile as sf\nimport torch\nimport fairseq\nfrom torch import nn\nfrom torch.utils.data import DataLoader\n\n\ntry:\n    import tqdm\nexcept:\n    print(\"Install tqdm to use --log-format=tqdm\")\n\n\nclass FilesDataset:\n    def __init__(self, files, labels):\n        self.files = files\n        if labels and osp.exists(labels):\n            with open(labels, \"r\") as lbl_f:\n                self.labels = [line.rstrip() for line in lbl_f]\n        else:\n            self.labels = labels\n\n    def __len__(self):\n        return len(self.files)\n\n    def __getitem__(self, index):\n        fname = self.files[index]\n\n        wav, sr = sf.read(fname)\n        assert sr == 16000\n\n        wav = torch.from_numpy(wav).float()\n        lbls = None\n        if self.labels:\n            if isinstance(self.labels, str):\n                lbl_file = osp.splitext(fname)[0] + \".\" + self.labels\n                with open(lbl_file, \"r\") as lblf:\n                    lbls = lblf.readline()\n                    assert lbls is not None\n            else:\n                lbls = self.labels[index]\n        return wav, lbls\n\n    def collate(self, batch):\n        return batch\n\n\nclass ArgTypes:\n    @staticmethod\n    def existing_path(arg):\n        arg = str(arg)\n        assert osp.exists(arg), f\"File {arg} does not exist\"\n        return arg\n\n    @staticmethod\n    def mkdir(arg):\n        arg = str(arg)\n        os.makedirs(arg, exist_ok=True)\n        return arg\n\n\nclass DatasetWriter:\n    def __init__(self):\n\n        self.args = self.load_config()\n        pprint.pprint(self.args.__dict__)\n\n        self.model = self.load_model()\n\n    def __getattr__(self, attr):\n        return getattr(self.args, attr)\n\n    def read_manifest(self, fname):\n\n        with open(fname, \"r\") as fp:\n            lines = fp.read().split(\"\\n\")\n            root = lines.pop(0).strip()\n            fnames = [\n                osp.join(root, line.split(\"\\t\")[0]) for line in lines if len(line) > 0\n            ]\n\n        return fnames\n\n    def process_splits(self):\n\n        if self.args.shard is not None or self.args.num_shards is not None:\n            assert self.args.shard is not None and self.args.num_shards is not None\n\n        for split in self.splits:\n            print(split)\n\n            if self.extension == \"tsv\":\n                datadir = osp.join(self.data_dir, f\"{split}.{self.extension}\")\n                print(\"Reading manifest file: \", datadir)\n                files = self.read_manifest(datadir)\n            else:\n                datadir = osp.join(self.data_dir, split, f\"**/*.{self.extension}\")\n                files = glob.glob(datadir, recursive=True)\n\n            assert len(files) > 0\n\n            if self.args.shard is not None:\n                files = files[self.args.shard :: self.args.num_shards]\n\n            lbls = []\n            with open(self.data_file(split), \"w\") as srcf:\n                for line, lbl in self.iterate(files):\n                    print(line, file=srcf)\n                    if self.args.labels:\n                        lbls.append(lbl + \"\\n\")\n\n            if self.args.labels:\n                assert all(a is not None for a in lbls)\n                with open(self.lbl_file(split), \"w\") as lblf:\n                    lblf.writelines(lbls)\n\n    def iterate(self, files):\n\n        data = self.load_data(files)\n        for samples in tqdm.tqdm(data, total=len(files) // 32):\n\n            for wav, lbl in samples:\n                x = wav.unsqueeze(0).float().cuda()\n\n                div = 1\n                while x.size(-1) // div > self.args.max_size:\n                    div += 1\n\n                xs = x.chunk(div, dim=-1)\n\n                result = []\n                for x in xs:\n                    torch.cuda.empty_cache()\n                    x = self.model.feature_extractor(x)\n                    if self.quantize_location == \"encoder\":\n                        with torch.no_grad():\n                            _, idx = self.model.vector_quantizer.forward_idx(x)\n                            idx = idx.squeeze(0).cpu()\n                    else:\n                        with torch.no_grad():\n                            z = self.model.feature_aggregator(x)\n                            _, idx = self.model.vector_quantizer.forward_idx(z)\n                            idx = idx.squeeze(0).cpu()\n                    result.append(idx)\n\n                idx = torch.cat(result, dim=0)\n                yield \" \".join(\"-\".join(map(str, a.tolist())) for a in idx), lbl\n\n    def lbl_file(self, name):\n        shard_part = \"\" if self.args.shard is None else f\".{self.args.shard}\"\n        return osp.join(self.output_dir, f\"{name}.lbl{shard_part}\")\n\n    def data_file(self, name):\n        shard_part = \"\" if self.args.shard is None else f\".{self.args.shard}\"\n        return osp.join(self.output_dir, f\"{name}.src{shard_part}\")\n\n    def var_file(self):\n        return osp.join(self.output_dir, f\"vars.pt\")\n\n    def load_config(self):\n\n        parser = argparse.ArgumentParser(\"Vector Quantized wav2vec features\")\n\n        # Model Arguments\n        parser.add_argument(\"--checkpoint\", type=ArgTypes.existing_path, required=True)\n        parser.add_argument(\"--data-parallel\", action=\"store_true\")\n\n        # Output Arguments\n        parser.add_argument(\"--output-dir\", type=ArgTypes.mkdir, required=True)\n\n        # Data Arguments\n        parser.add_argument(\"--data-dir\", type=ArgTypes.existing_path, required=True)\n        parser.add_argument(\"--splits\", type=str, nargs=\"+\", required=True)\n        parser.add_argument(\"--extension\", type=str, required=True)\n        parser.add_argument(\"--labels\", type=str, required=False)\n\n        parser.add_argument(\"--shard\", type=int, default=None)\n        parser.add_argument(\"--num-shards\", type=int, default=None)\n        parser.add_argument(\"--max-size\", type=int, default=1300000)\n\n        # Logger Arguments\n        parser.add_argument(\n            \"--log-format\", type=str, choices=[\"none\", \"simple\", \"tqdm\"]\n        )\n\n        return parser.parse_args()\n\n    def load_data(self, fnames):\n\n        dataset = FilesDataset(fnames, self.args.labels)\n        loader = DataLoader(\n            dataset, batch_size=32, collate_fn=dataset.collate, num_workers=8\n        )\n        return loader\n\n    def load_model(self):\n        model, cfg, task = fairseq.checkpoint_utils.load_model_ensemble_and_task([self.checkpoint])\n        model = model[0]\n\n        self.quantize_location = getattr(cfg.model, \"vq\", \"encoder\")\n\n        model.eval().float()\n        model.cuda()\n\n        if self.data_parallel:\n            model = nn.DataParallel(model)\n\n        return model\n\n    def __call__(self):\n\n        self.process_splits()\n\n        if hasattr(self.model.feature_extractor, \"vars\") and (\n            self.args.shard is None or self.args.shard == 0\n        ):\n            vars = (\n                self.model.feature_extractor.vars.view(\n                    self.model.feature_extractor.banks,\n                    self.model.feature_extractor.num_vars,\n                    -1,\n                )\n                .cpu()\n                .detach()\n            )\n            print(\"writing learned latent variable embeddings: \", vars.shape)\n            torch.save(vars, self.var_file())\n\n\nif __name__ == \"__main__\":\n    write_data = DatasetWriter()\n\n    write_data()\n    print(\"Done.\")\n"
  },
  {
    "path": "examples/wav2vec/wav2vec_featurize.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nHelper script to pre-compute embeddings for a flashlight (previously called wav2letter++) dataset\n\"\"\"\n\nimport argparse\nimport glob\nimport os\nfrom shutil import copy\n\nimport h5py\nimport numpy as np\nimport soundfile as sf\nimport torch\nimport tqdm\nimport fairseq\nfrom torch import nn\n\n\ndef read_audio(fname):\n    \"\"\" Load an audio file and return PCM along with the sample rate \"\"\"\n\n    wav, sr = sf.read(fname)\n    assert sr == 16e3\n\n    return wav, 16e3\n\n\nclass PretrainedWav2VecModel(nn.Module):\n    def __init__(self, fname):\n        super().__init__()\n\n        model, cfg, task = fairseq.checkpoint_utils.load_model_ensemble_and_task([fname])\n        model = model[0]\n        model.eval()\n\n        self.model = model\n\n    def forward(self, x):\n        with torch.no_grad():\n            z = self.model.feature_extractor(x)\n            if isinstance(z, tuple):\n                z = z[0]\n            c = self.model.feature_aggregator(z)\n        return z, c\n\n\nclass EmbeddingWriterConfig(argparse.ArgumentParser):\n    def __init__(self):\n        super().__init__(\"Pre-compute embeddings for flashlight datasets\")\n\n        kwargs = {\"action\": \"store\", \"type\": str, \"required\": True}\n\n        self.add_argument(\"--input\", \"-i\", help=\"Input Directory\", **kwargs)\n        self.add_argument(\"--output\", \"-o\", help=\"Output Directory\", **kwargs)\n        self.add_argument(\"--model\", help=\"Path to model checkpoint\", **kwargs)\n        self.add_argument(\"--split\", help=\"Dataset Splits\", nargs=\"+\", **kwargs)\n        self.add_argument(\n            \"--ext\", default=\"wav\", required=False, help=\"Audio file extension\"\n        )\n\n        self.add_argument(\n            \"--no-copy-labels\",\n            action=\"store_true\",\n            help=\"Do not copy label files. Useful for large datasets, use --targetdir in flashlight then.\",\n        )\n        self.add_argument(\n            \"--use-feat\",\n            action=\"store_true\",\n            help=\"Use the feature vector ('z') instead of context vector ('c') for features\",\n        )\n        self.add_argument(\"--gpu\", help=\"GPU to use\", default=0, type=int)\n\n\nclass Prediction:\n    \"\"\" Lightweight wrapper around a fairspeech embedding model \"\"\"\n\n    def __init__(self, fname, gpu=0):\n        self.gpu = gpu\n        self.model = PretrainedWav2VecModel(fname).cuda(gpu)\n\n    def __call__(self, x):\n        x = torch.from_numpy(x).float().cuda(self.gpu)\n        with torch.no_grad():\n            z, c = self.model(x.unsqueeze(0))\n\n        return z.squeeze(0).cpu().numpy(), c.squeeze(0).cpu().numpy()\n\n\nclass H5Writer:\n    \"\"\" Write features as hdf5 file in flashlight compatible format \"\"\"\n\n    def __init__(self, fname):\n        self.fname = fname\n        os.makedirs(os.path.dirname(self.fname), exist_ok=True)\n\n    def write(self, data):\n        channel, T = data.shape\n\n        with h5py.File(self.fname, \"w\") as out_ds:\n            data = data.T.flatten()\n            out_ds[\"features\"] = data\n            out_ds[\"info\"] = np.array([16e3 // 160, T, channel])\n\n\nclass EmbeddingDatasetWriter(object):\n    \"\"\"Given a model and a flashlight dataset, pre-compute and store embeddings\n\n    Args:\n        input_root, str :\n            Path to the flashlight dataset\n        output_root, str :\n            Desired output directory. Will be created if non-existent\n        split, str :\n            Dataset split\n    \"\"\"\n\n    def __init__(\n        self,\n        input_root,\n        output_root,\n        split,\n        model_fname,\n        extension=\"wav\",\n        gpu=0,\n        verbose=False,\n        use_feat=False,\n    ):\n\n        assert os.path.exists(model_fname)\n\n        self.model_fname = model_fname\n        self.model = Prediction(self.model_fname, gpu)\n\n        self.input_root = input_root\n        self.output_root = output_root\n        self.split = split\n        self.verbose = verbose\n        self.extension = extension\n        self.use_feat = use_feat\n\n        assert os.path.exists(self.input_path), \"Input path '{}' does not exist\".format(\n            self.input_path\n        )\n\n    def _progress(self, iterable, **kwargs):\n        if self.verbose:\n            return tqdm.tqdm(iterable, **kwargs)\n        return iterable\n\n    def require_output_path(self, fname=None):\n        path = self.get_output_path(fname)\n        os.makedirs(path, exist_ok=True)\n\n    @property\n    def input_path(self):\n        return self.get_input_path()\n\n    @property\n    def output_path(self):\n        return self.get_output_path()\n\n    def get_input_path(self, fname=None):\n        if fname is None:\n            return os.path.join(self.input_root, self.split)\n        return os.path.join(self.get_input_path(), fname)\n\n    def get_output_path(self, fname=None):\n        if fname is None:\n            return os.path.join(self.output_root, self.split)\n        return os.path.join(self.get_output_path(), fname)\n\n    def copy_labels(self):\n        self.require_output_path()\n\n        labels = list(\n            filter(\n                lambda x: self.extension not in x, glob.glob(self.get_input_path(\"*\"))\n            )\n        )\n        for fname in tqdm.tqdm(labels):\n            copy(fname, self.output_path)\n\n    @property\n    def input_fnames(self):\n        return sorted(glob.glob(self.get_input_path(\"*.{}\".format(self.extension))))\n\n    def __len__(self):\n        return len(self.input_fnames)\n\n    def write_features(self):\n\n        paths = self.input_fnames\n\n        fnames_context = map(\n            lambda x: os.path.join(\n                self.output_path, x.replace(\".\" + self.extension, \".h5context\")\n            ),\n            map(os.path.basename, paths),\n        )\n\n        for name, target_fname in self._progress(\n            zip(paths, fnames_context), total=len(self)\n        ):\n            wav, sr = read_audio(name)\n            z, c = self.model(wav)\n            feat = z if self.use_feat else c\n            writer = H5Writer(target_fname)\n            writer.write(feat)\n\n    def __repr__(self):\n\n        return \"EmbeddingDatasetWriter ({n_files} files)\\n\\tinput:\\t{input_root}\\n\\toutput:\\t{output_root}\\n\\tsplit:\\t{split})\".format(\n            n_files=len(self), **self.__dict__\n        )\n\n\nif __name__ == \"__main__\":\n\n    args = EmbeddingWriterConfig().parse_args()\n\n    for split in args.split:\n\n        writer = EmbeddingDatasetWriter(\n            input_root=args.input,\n            output_root=args.output,\n            split=split,\n            model_fname=args.model,\n            gpu=args.gpu,\n            extension=args.ext,\n            use_feat=args.use_feat,\n        )\n\n        print(writer)\n        writer.require_output_path()\n\n        print(\"Writing Features...\")\n        writer.write_features()\n        print(\"Done.\")\n\n        if not args.no_copy_labels:\n            print(\"Copying label data...\")\n            writer.copy_labels()\n            print(\"Done.\")\n"
  },
  {
    "path": "examples/wav2vec/wav2vec_manifest.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nData pre-processing: build vocabularies and binarize training data.\n\"\"\"\n\nimport argparse\nimport glob\nimport os\nimport random\n\nimport soundfile\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"root\", metavar=\"DIR\", help=\"root directory containing flac files to index\"\n    )\n    parser.add_argument(\n        \"--valid-percent\",\n        default=0.01,\n        type=float,\n        metavar=\"D\",\n        help=\"percentage of data to use as validation set (between 0 and 1)\",\n    )\n    parser.add_argument(\n        \"--dest\", default=\".\", type=str, metavar=\"DIR\", help=\"output directory\"\n    )\n    parser.add_argument(\n        \"--ext\", default=\"flac\", type=str, metavar=\"EXT\", help=\"extension to look for\"\n    )\n    parser.add_argument(\"--seed\", default=42, type=int, metavar=\"N\", help=\"random seed\")\n    parser.add_argument(\n        \"--path-must-contain\",\n        default=None,\n        type=str,\n        metavar=\"FRAG\",\n        help=\"if set, path must contain this substring for a file to be included in the manifest\",\n    )\n    return parser\n\n\ndef main(args):\n    assert args.valid_percent >= 0 and args.valid_percent <= 1.0\n\n    if not os.path.exists(args.dest):\n        os.makedirs(args.dest)\n\n    dir_path = os.path.realpath(args.root)\n    search_path = os.path.join(dir_path, \"**/*.\" + args.ext)\n    rand = random.Random(args.seed)\n\n    valid_f = (\n        open(os.path.join(args.dest, \"valid.tsv\"), \"w\")\n        if args.valid_percent > 0\n        else None\n    )\n\n    with open(os.path.join(args.dest, \"train.tsv\"), \"w\") as train_f:\n        print(dir_path, file=train_f)\n\n        if valid_f is not None:\n            print(dir_path, file=valid_f)\n\n        for fname in glob.iglob(search_path, recursive=True):\n            file_path = os.path.realpath(fname)\n\n            if args.path_must_contain and args.path_must_contain not in file_path:\n                continue\n\n            frames = soundfile.info(fname).frames\n            dest = train_f if rand.random() > args.valid_percent else valid_f\n            print(\n                \"{}\\t{}\".format(os.path.relpath(file_path, dir_path), frames), file=dest\n            )\n    if valid_f is not None:\n        valid_f.close()\n\n\nif __name__ == \"__main__\":\n    parser = get_parser()\n    args = parser.parse_args()\n    main(args)\n"
  },
  {
    "path": "examples/wav2vec/xlsr/README.md",
    "content": "# XLS-R\n\nXLS-R is a set of large-scale models for self-supervised cross-lingual speech representation learning based on wav2vec 2.0. It was pretrained on 128 languages and approximately 436K hours of unlabeled speech data. With finetuning, these models achieve state of the art performance in speech translation, speech recognition and language identification. We evaluate the model across multiple benchmarks such as CoVoST-2 for speech translation, BABEL / MLS / CommonVoice / VoxPopuli for automatic speech recognition, and VoxLingua107 for language identification as we llas VoxCeleb1 for speaker identification. More details about this work can be found in our [paper](https://arxiv.org/pdf/2111.09296.pdf) and download links can be found below.\n\nModel | Link\n|------|------\nXLS-R 300M | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/xlsr2_300m.pt)\nXLS-R 1B | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/xlsr2_960m_1000k.pt)\nXLS-R 2B | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/xlsr2_2B_1000k.pt)\n\nYou can also download these models [here](https://huggingface.co/models?other=xls_r) and read more about it in the [blogpost](https://huggingface.co/blog/fine-tune-xlsr-wav2vec2) from Hugging Face.\n\n## Speech Translation Finetuned Models\n\nWe multilingually finetune XLS-R models on [CoVoST 2](https://github.com/facebookresearch/covost), which has 21 \ninto-English and 15 out-of-English directions.\n\nModel | Directions | Link\n|------|------|------\nXLS-R 300M | 21 langs &#8594; En | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/xls_r_300m_21_en.pt)\nXLS-R 300M | En &#8594; 15 langs | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/xls_r_300m_en_15.pt)\nXLS-R 1B | 21 langs &#8594; En | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/xls_r_1b_21_en.pt)\nXLS-R 1B | En &#8594; 15 langs | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/xls_r_1b_en_15.pt)\nXLS-R 2B | 21 langs &#8594; En | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/xls_r_2b_21_en.pt)\nXLS-R 2B | En &#8594; 15 langs | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/xls_r_2b_en_15.pt)\nXLS-R 2B | 21 langs &#8594; En + En &#8594; 15 langs | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/xls_r_2b_22_16.pt)\n\n## ASR Finetuning\n\nYou can refer the original wav2vec documentation on detailed instructions about how to finetune a pretrained model with CTC [here](https://github.com/pytorch/fairseq/tree/main/examples/wav2vec#fine-tune-a-pre-trained-model-with-ctc). Below is an example command and you can find the values for different hyperparameters to reproduce the results in our paper.\n\n```shell script\n$ fairseq-hydra-train \\\n    distributed_training.distributed_port=$PORT \\\n    task.data=/path/to/data \\\n    model.w2v_path=/path/to/model.pt \\\n    --config-dir /path/to/fairseq-py/examples/wav2vec/xlsr/config \\\n    --config-name finetune\n```\n\nFor finetuning the 300M as well as 1B model, we use the same hyperparameter setting defined in `finetune.yaml`. We vary `optimization.max_update` as described in the below table and the `optimization.lr` is picked from the interval [2e-5, 3e-4] based on dev word error rate.\n\nBenchmark | Total Number of Updates\n|------|------\nBabel | 26000\nCommon Voice | 13000\nVoxPopuli | 50000\nMLS 10h | 20000\n\nFor finetuning the 2B model, we make some additional changes for `finetune.yaml` . We use the fully_sharded `distributed_training.ddp_backend` provided by the [fairscale](https://github.com/facebookresearch/fairscale) library and and set `model.activation_checkpoint` to true. We also increase `dataset.max_tokens` to 2560000 and use a total effective batch size of 2560000*24. We sweep for the best `optimization.lr` within the interval [3e−6,3e−5] using dev error rate. For common voice dataset, we pick the `model.mask_prob` for different languages among {0.30, 0.40} based on best dev error rate.\n\n## LID Inference\n\nModel | Link\n|------|------\nXLS-R 300M + ft Voxlingua107 | [download](https://dl.fbaipublicfiles.com/fairseq/wav2vec/xlsr_300m_voxlingua107_ft.pt)\n\nHow to run inference & calculate accuracy (step-by-step):\n1. Download the Voxlingua107 checkpoint from the table above.\n1. Use this python script to extract logit/embedding from the XLSR model: https://github.com/fairinternal/fairseq-py/blob/xlsr2/examples/wav2vec/gen_audio_embedding.py \n```shell command\nCUDA_VISIBLE_DEVICES=0 PYTHONPATH=. python3 examples/wav2vec/gen_audio_embedding.py \\\n    /fsx/data/VoxLingua107/manifest --path \"/path/to/checkpoint.pt\" \\\n    --task audio_classification --batch-size 90 --gen-subset test \\\n    --infer-manifest /fsx/data/VoxLingua107/manifest/test.tsv \\\n    --infer-xtimes 10 --infer-max-sample-size 160000 --output-path /tmp/tmp_voxling_infer.npz\n```\n\n2. Calculate the overall accuracy, 0-5 seconds and 5-20 seconds:\n```shell command\nPYTHONPATH='.' python examples/wav2vec/eval_speaker_clf_task.py \\\n    --task cls --merge mean_logit --data /tmp/tmp_voxling_infer.npz\n\nOutput: \n| run classification evaluation\n| acc = 94.34% -- err = 5.66% -- correct=1518 total=1609\n| acc 0to5 = 90.91% -- err = 9.09% -- c_5=230.0 t_5=253\n| acc 5to20 = 94.99% -- err = 5.01% -- c_20=1288.0 t_20=1356\n```\n\n## Citation\n\nPlease cite as:\n\n``` bibtex\n@article{babu2021xlsr,\n      title={XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale}, \n      author={Arun Babu and Changhan Wang and Andros Tjandra and Kushal Lakhotia and Qiantong Xu and Naman Goyal and Kritika Singh and Patrick von Platen and Yatharth Saraf and Juan Pino and Alexei Baevski and Alexis Conneau and Michael Auli},\n      year={2021},\n      volume={abs/2111.09296},\n      journal={arXiv},\n}\n```\n\n\n"
  },
  {
    "path": "examples/wav2vec/xlsr/config/finetune.yaml",
    "content": "# @package _group_\n\ncommon:\n  fp16: true\n  log_format: json\n  log_interval: 200\n  tensorboard_logdir: tb\n\ncheckpoint:\n  save_interval: 1000\n  save_interval_updates: 1000\n  keep_interval_updates: 1\n  no_epoch_checkpoints: true\n  best_checkpoint_metric: wer\n\ntask:\n  _name: audio_finetuning\n  data: ???\n  normalize: true\n  labels: ltr\n\ndataset:\n  num_workers: 6\n  max_tokens: 1280000\n  skip_invalid_size_inputs_valid_test: true\n  validate_after_updates: 10000\n  validate_interval_updates: 1000\n  valid_subset: valid\n\ndistributed_training:\n  ddp_backend: legacy_ddp\n  distributed_world_size: 4\n\ncriterion:\n  _name: ctc\n  zero_infinity: true\n\noptimization:\n  max_update: ???\n  lr: [0.0003]\n  sentence_avg: true\n  update_freq: [5]\n\noptimizer:\n  _name: adam\n  adam_betas: (0.9,0.98)\n  adam_eps: 1e-08\n\nlr_scheduler:\n  _name: tri_stage\n  phase_ratio: [0.1, 0.4, 0.5]\n  final_lr_scale: 0.05\n\nmodel:\n  _name: wav2vec_ctc\n  w2v_path: ???\n  apply_mask: true\n  mask_prob: 0.75\n  mask_channel_prob: 0.25\n  mask_channel_length: 64\n  layerdrop: 0.1\n  activation_dropout: 0.1\n  feature_grad_mult: 0.0\n  freeze_finetune_updates: 10000\n\n  checkpoint_activations: false\n"
  },
  {
    "path": "examples/wav2vec/xlsr/scripts/eval_speaker_clf_task.py",
    "content": "\"\"\"\nUsage:\n    This scripts it to evaluate the classification accuracy/error rate from the embedding extracted\n    by gen_audio_embedding.py \n    Example (LID classification)\n\n    PYTHONPATH='.' python examples/wav2vec/eval_speaker_clf_task.py \\\n            --data /fsx/androstj/exps/lid_voxlingua/infer/atj_xlsr2_100pct_300M_mean_fast_upd_100k_new.npz \\\n            --task cls --merge mean_logit\n\"\"\"\nimport numpy as np\nimport sklearn\nfrom sklearn.metrics.pairwise import cosine_similarity\nfrom sklearn.preprocessing import StandardScaler\nfrom tqdm import tqdm\nimport ipdb\nimport logging\nimport argparse\nfrom scipy.special import softmax\n\nlog=logging.getLogger(__name__)\nlog.setLevel(logging.INFO)\n\ndef calculate_eer(y_label, y_score):\n    # y denotes groundtruth scores,\n    # y_score denotes the prediction scores.\n    from scipy.optimize import brentq\n    from sklearn.metrics import roc_curve\n    from scipy.interpolate import interp1d\n\n    fpr, tpr, thresholds = roc_curve(y_label, y_score, pos_label=1)\n    eer = brentq(lambda x : 1. - x - interp1d(fpr, tpr)(x), 0., 1.)\n    optimal_threshold = interp1d(fpr, thresholds)(eer)\n    return eer, optimal_threshold\n\ndef calculate_minDCF(y_label, y_score, p_target=0.01, c_miss=1, c_fa=1):\n    # https://github.com/kaldi-asr/kaldi/blob/master/egs/sre08/v1/sid/compute_min_dcf.py\n    from sklearn.metrics import det_curve\n    fpr, fnr, thresholds = det_curve(y_label, y_score, pos_label=1)\n    min_c_det = float(\"inf\")\n    min_c_det_threshold = thresholds[0]\n    for i in range(0, len(fpr)):\n        # See Equation (2).  it is a weighted sum of false negative\n        # and false positive errors.\n        c_det = c_miss * fnr[i] * p_target + c_fa * fpr[i] * (1 - p_target)\n        if c_det < min_c_det:\n            min_c_det = c_det\n            min_c_det_threshold = thresholds[i]\n    # See Equations (3) and (4).  Now we normalize the cost.\n    c_def = min(c_miss * p_target, c_fa * (1 - p_target))\n    min_dcf = min_c_det / c_def\n    return min_dcf, min_c_det_threshold\n\n\nif __name__ == '__main__':\n    parser = argparse.ArgumentParser()\n    parser.add_argument('--data', help='npz contains name & latent file')\n    parser.add_argument('--task', choices=['cls', 'veri', 'cls_voxlingua'])\n    parser.add_argument('--merge', choices=['mean_logit', 'first_logit', 'mean_latent_sim', 'first_latent_sim', 'mean_logit_sim', 'first_logit_sim'])\n    parser.add_argument('--veri-pair', help='verification file contains 1/0 utt_x utt_y')\n    parser.add_argument('--scaler', type=str, choices=['mean_var'])\n    parser.add_argument('--compress-method', choices=['pca'])\n    parser.add_argument('--compress-dim', type=int)\n    args = parser.parse_args()\n\n    if args.task in ['cls', 'cls_voxlingua']:\n        print('| run classification evaluation')\n        data = np.load(args.data)\n        data_logit = data['logit']\n        data_target = data['target']\n        data_src_len = data['src_len']\n        assert data_logit.shape[0] ==  data_target.shape[0]\n        B = data_logit.shape[0]\n        correct = 0\n        total = 0\n        data_prob = softmax(data_logit, axis=2)\n        correct_vs_len = np.empty((B, 2))\n        for ii in range(B):\n            _target = data_target[ii]\n            if args.merge == 'mean_logit':\n                _prob = np.mean(data_prob[ii], axis=0)\n                top_1 = np.argmax(_prob)\n            elif args.merge == 'first_logit':\n                _prob = data_prob[ii][0]\n                top_1 = np.argmax(_prob)\n            else :\n                raise ValueError()\n            is_top_1 = (1 if top_1 == _target else 0)\n            correct += is_top_1\n            total += 1\n            _src_len = data_src_len[ii] / 16000\n            correct_vs_len[ii] = [is_top_1, _src_len]\n\n        acc = correct / total * 100\n        t_5 = correct_vs_len[:, 1] <= 5\n        t_20 = correct_vs_len[:, 1] > 5\n        c_5 = correct_vs_len[t_5, 0].sum()\n        c_20 = correct_vs_len[t_20, 0].sum()\n        t_5 = t_5.sum()\n        t_20 = t_20.sum()\n        acc_5 = c_5 / t_5 * 100\n        acc_20 = c_20 / t_20 * 100\n        print(f'| acc = {acc:.2f}% -- err = {100-acc:.2f}% -- {correct=} {total=}')\n        print(f'| acc 0to5 = {acc_5:.2f}% -- err = {100-acc_5:.2f}% -- {c_5=} {t_5=}')\n        print(f'| acc 5to20 = {acc_20:.2f}% -- err = {100-acc_20:.2f}% -- {c_20=} {t_20=}')\n\n        \n\n    if args.task == 'veri':\n        print('| run verification evaluation')\n        veri_pairs = []\n        with open(args.veri_pair) as ff:\n            for fi in ff:\n                a,b,c = fi.split()\n                a = int(a)\n                veri_pairs.append([a,b,c])\n        \n        data = np.load(args.data)\n        if 'logit' in args.merge:\n            data_latent = data['logit']\n        elif 'latent' in args.merge:\n            data_latent = data['latent']\n        else :\n            raise ValueError()\n\n        data_name  = data['name']\n        assert len(data_name) == len(data_latent)\n        map_name_latent = {}\n\n        from sklearn.pipeline import make_pipeline\n        pipe = []\n        if args.scaler == 'mean_var':\n            print(f'| apply StandardScaler')\n            pipe.append(StandardScaler())\n\n        if args.compress_method == 'pca':\n            n_comp = args.compress_dim\n            print(f'| apply PCA with {n_comp=}')\n            from sklearn.decomposition import PCA\n            pipe.append(PCA(n_components=n_comp))\n        if len(pipe) > 0 :\n            pipe = make_pipeline(*pipe)\n            data_latent_2d = data_latent.reshape(-1, data_latent.shape[-1])\n            pipe.fit(data_latent_2d)\n            data_latent_2d = pipe.transform(data_latent_2d)\n            data_latent = data_latent_2d.reshape(data_latent.shape[0], data_latent.shape[1], -1)\n\n        for ii in range(len(data_name)):\n            map_name_latent[data_name[ii]] = data_latent[ii]\n        labels = []\n        scores = []\n        for lbl, pair_a, pair_b in tqdm(veri_pairs):\n            labels.append(lbl)\n            pair_a = map_name_latent[pair_a]\n            pair_b = map_name_latent[pair_b]\n            assert pair_a.ndim == pair_b.ndim == 2\n            score = cosine_similarity(pair_a, pair_b)\n            if args.merge.startswith('mean'):\n                score = np.mean(score)\n            elif args.merge.startswith('first'):\n                score = score[0, 0]\n            else :\n                raise ValueError()\n            scores.append(score)\n        labels = np.array(labels)\n        scores = np.array(scores)\n        eer, eer_threshold = calculate_eer(labels, scores)\n        minDCF, minDCF_threshold = calculate_minDCF(labels, scores)\n        print('='*40)\n        print(f'| EER = {eer*100:.2f}%\\tthreshold = {eer_threshold:.2f}')\n        print(f'| minDCF = {minDCF:.2f}\\tthreshold = {minDCF_threshold:.2f}')\n\n\n"
  },
  {
    "path": "examples/wav2vec/xlsr/scripts/gen_audio_embedding.py",
    "content": "\"\"\"\nUsage:\n    This script is used to extract the embedding / logit for speech classification task.\n    1. Set fdir into your model checkpoint directory \n    2. Run the following command (preferrably on GPU machine to speed up the inference process)\n\n   CUDA_VISIBLE_DEVICES=0 python3 examples/wav2vec/gen_audio_embedding.py /fsx/data/VoxLingua107/manifest --path ${fdir} \\\n    --task audio_classification --batch-size 90 --gen-subset test \\\n    --infer-manifest /fsx/data/VoxLingua107/manifest/test.tsv \\\n    --infer-xtimes 10 --infer-max-sample-size 160000 --output-path $odir \n\n    Example:\n    Case: LID logit extraction\n    fdir='/fsx/androstj/exps/voxlingua_lid_train_all/ckpt_100pct_300m_voxling-act_linear-pool_mean_fast-lr_1e-4-phase_0.1_0.4_0.5-maxupd_100000-ufreq_1-mprob_0.5-fz_0-cr_softmax/0/checkpoints/checkpoint_best.pt'\n    python3  examples/wav2vec/gen_audio_embedding.py /fsx/data/VoxLingua107/manifest --path ${fdir} \\\n        --task audio_classification --batch-size 90 --gen-subset test \\\n        --infer-manifest /fsx/data/VoxLingua107/manifest/test.tsv \\\n        --infer-xtimes 10 --infer-max-sample-size 160000 --output-path $odir\n\n\"\"\"\nimport torch\nfrom fairseq import checkpoint_utils, distributed_utils, options, utils\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.logging import metrics, progress_bar\nfrom fairseq import checkpoint_utils, data, options, tasks\nfrom fairseq.data import FileAudioDataset, AddTargetDataset, Dictionary\nfrom fairseq.tasks.audio_classification import LabelEncoder\nimport ipdb\nimport copy\nimport sys\nfrom tqdm import tqdm\nimport tempfile\nimport numpy as np\nimport sklearn\n\ndef subset_manifest(infer_manifest, veri_pair):\n    with open(infer_manifest) as ff, open(veri_pair) as gg, \\\n            tempfile.NamedTemporaryFile('w', delete=False) as ww:\n        fnames = ff.read().strip().split(\"\\n\")\n        basedir = fnames[0]\n        needed_fname = []\n        for gi in gg.read().strip().split('\\n'):\n            _, x1, x2 = gi.split()\n            needed_fname.append(x1)\n            needed_fname.append(x2)\n        needed_fname = set(needed_fname)\n\n        ww.write(basedir+'\\n') \n        for ii in range(1, len(fnames)):\n            x1,x2 = fnames[ii].split()\n            if x1 in needed_fname:\n                ww.write(fnames[ii]+'\\n')\n    print(f'| subset manifest for verification: {ww.name}')\n    return ww.name\n\ndef wrap_target_dataset(infer_manifest, dataset, task):\n    label_path = infer_manifest.replace(\".tsv\", \".label\")\n    with open(label_path, \"r\") as f:\n        labels = f.read().strip().split(\"\\n\")\n        assert len(labels) == len(dataset)\n    process_label = LabelEncoder(task.target_dictionary)\n    dataset = AddTargetDataset(dataset, labels, \n            pad=task.target_dictionary.pad(),\n            eos=task.target_dictionary.eos(),\n            batch_targets=True,\n            process_label=process_label,\n            add_to_input=False)\n    return dataset\n\ndef resample_data(source, padding_mask, n_sample, max_sample_len):\n    # source: BxT\n    # padding_mask: BxT\n    B = source.shape[0]\n    T = source.shape[1]\n    sources = []\n    padding_masks = []\n    seq_len = (~padding_mask).sum(1)\n    for jj in range(n_sample):\n        new_source = source.new_zeros(B, max_sample_len)\n        new_padding_mask = padding_mask.new_zeros(B, max_sample_len)\n        for ii in range(B):\n            if seq_len[ii] > max_sample_len:\n                start = np.random.randint(0, seq_len[ii]-max_sample_len+1)\n                end = start + max_sample_len\n            else :\n                start = 0\n                end = seq_len[ii]\n            new_source[ii, 0:end-start] = source[ii, start:end]\n            new_padding_mask[ii, end-start+1:] = True\n        sources.append(new_source)\n        padding_masks.append(new_padding_mask)\n    return sources, padding_masks\n\ndef resample_sample(sample, n_sample, max_sample_len):\n    new_sources, new_padding_masks = resample_data(sample['net_input']['source'], sample['net_input']['padding_mask'], n_sample, max_sample_len)\n    new_samples = []\n    for ii in range(n_sample):\n        new_sample = copy.deepcopy(sample)\n        new_sample['net_input']['source'] = new_sources[ii]\n        new_sample['net_input']['padding_mask'] = new_padding_masks[ii]\n        new_samples.append(new_sample)\n    return new_samples\n\nif __name__ == '__main__':\n    np.random.seed(123)\n    # Parse command-line arguments for generation\n    parser = options.get_generation_parser(default_task='audio_classification')\n    # parser.add_argument('--infer-merge', type=str, default='mean')\n    parser.add_argument('--infer-xtimes', type=int, default=1)\n    parser.add_argument('--infer-max-sample-size', type=int, default=5*16000)  # 5 secs\n    parser.add_argument('--infer-manifest', type=str)\n    parser.add_argument('--verification-pair', type=str, required=False, \n            help='''\n            a file that contains pairs of utts to evaluated if they are from same speaker or not\n            format: (following voxceleb)\n            1/0 <wav_pair_a> <wav_pair_b>\n            ''')\n    parser.add_argument('--output-path', type=str)\n    # parser.add_argument('--infer-xtimes', type=int, default=1)\n\n    args = options.parse_args_and_arch(parser)\n    # Setup task\n    # task = tasks.setup_task(args)\n    use_cuda = not args.cpu\n\n    # Load model & task\n    print('| loading model from {}'.format(args.path))\n    arg_overrides = {\n        'data': args.data,\n        # 'mask_prob': 0\n        #'max_sample_size': sys.maxsize,\n        #'min_sample_size': 0,\n    }\n    state = checkpoint_utils.load_checkpoint_to_cpu(args.path)\n    # move to AWS\n    state['cfg']['model']['w2v_path'] = state['cfg']['model']['w2v_path'].replace('/checkpoint/arbabu/XLSR2/model_versions/', '/fsx/data/model_versions/').replace('/checkpoint/kushall/final_model_checkpoints/wav2vec2/', '/fsx/data/wav2vec_ckpt/')\n    state['cfg']['task']['data'] = state['cfg']['task']['data'].replace('/checkpoint/kushall/data/', '/fsx/data/')\n    \n    models, _model_args, task = checkpoint_utils.load_model_ensemble_and_task([args.path], \n            arg_overrides=arg_overrides, \n            task=None,\n            state=state)\n    model = models[0]\n    model.eval()\n    if use_cuda:\n        model.cuda()\n\n\n    # Load dataset\n    task.load_dataset(args.gen_subset)\n    dataset = task.dataset(args.gen_subset)\n    infer_manifest = args.infer_manifest\n    # only decode needed utts\n    # infer_manifest = subset_manifest(infer_manifest,\n            # args.verification_pair)\n    infer_dataset = FileAudioDataset(infer_manifest, \n            sample_rate=task.cfg.sample_rate,\n            max_sample_size=10**10, #task.cfg.max_sample_size,\n            min_sample_size=1, #task.cfg.min_sample_size,\n            pad=True,\n            normalize=task.cfg.normalize)\n    # add target (if needed)\n    infer_dataset = wrap_target_dataset(infer_manifest, infer_dataset, task) \n    itr = task.get_batch_iterator(\n            dataset=infer_dataset,\n            max_sentences=args.batch_size,\n            ).next_epoch_itr(shuffle=False)\n\n\n    # correct = 0\n    # total = 0\n    list_uttname = []\n    list_latent = []\n    list_logit = []\n    list_target = []\n    list_src_len = []\n    with torch.no_grad():\n        for _, sample in tqdm(enumerate(itr)):\n            # resample if needed\n            samples = resample_sample(sample, args.infer_xtimes, args.infer_max_sample_size)\n            list_uttname.extend(sample['name'])\n            list_target.extend(sample['target'][:, 0].cpu().numpy())\n            list_src_len.extend((~sample['net_input']['padding_mask']).sum(1).cpu().numpy())\n            latents = []\n            logits = []\n            for sample in samples:\n                sample = utils.move_to_cuda(sample) if use_cuda else sample\n                try:\n                    latent = model.forward_latent(**sample['net_input'])\n                    latents.append(latent.detach().cpu().numpy())\n                except:\n                    latent = None\n                logit = model.forward(**sample['net_input'])\n                logits.append(logit.detach().cpu().numpy())\n\n            if len(latents) > 0:\n                latents = np.stack(latents, 1) # B,X,D\n            logits = np.stack(logits,  1) # B,X,Cls\n            list_latent.extend(latents)\n            list_logit.extend(logits)\n            \n    # create big npz\n    list_uttname = np.array(list_uttname)\n    list_latent = np.array(list_latent)\n    list_target = np.array(list_target)\n    list_logit = np.array(list_logit)\n    list_src_len = np.array(list_src_len)\n    # save to npz\n    output_path = args.output_path\n    if (output_path is None):\n        output_path = tempfile.NamedTemporaryFile('wb', delete=False).name\n\n    with open(output_path, 'wb') as ww:\n        np.savez(ww, name=list_uttname, \n                latent=list_latent, \n                target=list_target, \n                logit=list_logit,\n                src_len=list_src_len)\n\n    print(\"=\"*10 + \" REPORT \" + \"=\"*10)\n    print(f'| latent saved in {output_path}')\n    print(f'| {list_uttname.shape=}, {list_latent.shape=}, {list_target.shape=}, {list_logit.shape=}, {list_src_len.shape=}')\n"
  },
  {
    "path": "examples/wmt19/README.md",
    "content": "# WMT 19\n\nThis page provides pointers to the models of Facebook-FAIR's WMT'19 news translation task submission [(Ng et al., 2019)](https://arxiv.org/abs/1907.06616).\n\n## Pre-trained models\n\nModel | Description | Download\n---|---|---\n`transformer.wmt19.en-de` | En->De Ensemble | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt19.en-de.joined-dict.ensemble.tar.gz)\n`transformer.wmt19.de-en` | De->En Ensemble | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt19.de-en.joined-dict.ensemble.tar.gz)\n`transformer.wmt19.en-ru` | En->Ru Ensemble | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt19.en-ru.ensemble.tar.gz)\n`transformer.wmt19.ru-en` | Ru->En Ensemble | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt19.ru-en.ensemble.tar.gz)\n`transformer_lm.wmt19.en` | En Language Model | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/lm/wmt19.en.tar.gz)\n`transformer_lm.wmt19.de` | De Language Model | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/lm/wmt19.de.tar.gz)\n`transformer_lm.wmt19.ru` | Ru Language Model | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/lm/wmt19.ru.tar.gz)\n\n## Pre-trained single models before finetuning\n\nModel | Description | Download\n---|---|---\n`transformer.wmt19.en-de` | En->De Single, no finetuning | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt19.en-de.ffn8192.tar.gz)\n`transformer.wmt19.de-en` | De->En Single, no finetuning  | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt19.de-en.ffn8192.tar.gz)\n`transformer.wmt19.en-ru` | En->Ru Single, no finetuning | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt19.en-ru.ffn8192.tar.gz)\n`transformer.wmt19.ru-en` | Ru->En Single, no finetuning  | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt19.ru-en.ffn8192.tar.gz)\n\n## Example usage (torch.hub)\n\n#### Requirements\n\nWe require a few additional Python dependencies for preprocessing:\n```bash\npip install fastBPE sacremoses\n```\n\n#### Translation\n\n```python\nimport torch\n\n# English to German translation\nen2de = torch.hub.load('pytorch/fairseq', 'transformer.wmt19.en-de', checkpoint_file='model1.pt:model2.pt:model3.pt:model4.pt',\n                       tokenizer='moses', bpe='fastbpe')\nen2de.translate(\"Machine learning is great!\")  # 'Maschinelles Lernen ist großartig!'\n\n# German to English translation\nde2en = torch.hub.load('pytorch/fairseq', 'transformer.wmt19.de-en', checkpoint_file='model1.pt:model2.pt:model3.pt:model4.pt',\n                       tokenizer='moses', bpe='fastbpe')\nde2en.translate(\"Maschinelles Lernen ist großartig!\")  # 'Machine learning is great!'\n\n# English to Russian translation\nen2ru = torch.hub.load('pytorch/fairseq', 'transformer.wmt19.en-ru', checkpoint_file='model1.pt:model2.pt:model3.pt:model4.pt',\n                       tokenizer='moses', bpe='fastbpe')\nen2ru.translate(\"Machine learning is great!\")  # 'Машинное обучение - это здорово!'\n\n# Russian to English translation\nru2en = torch.hub.load('pytorch/fairseq', 'transformer.wmt19.ru-en', checkpoint_file='model1.pt:model2.pt:model3.pt:model4.pt',\n                       tokenizer='moses', bpe='fastbpe')\nru2en.translate(\"Машинное обучение - это здорово!\")  # 'Machine learning is great!'\n```\n\n#### Language Modeling\n\n```python\n# Sample from the English LM\nen_lm = torch.hub.load('pytorch/fairseq', 'transformer_lm.wmt19.en', tokenizer='moses', bpe='fastbpe')\nen_lm.sample(\"Machine learning is\")  # 'Machine learning is the future of computing, says Microsoft boss Satya Nadella ...'\n\n# Sample from the German LM\nde_lm = torch.hub.load('pytorch/fairseq', 'transformer_lm.wmt19.de', tokenizer='moses', bpe='fastbpe')\nde_lm.sample(\"Maschinelles lernen ist\")  # 'Maschinelles lernen ist das A und O (neues-deutschland.de) Die Arbeitsbedingungen für Lehrerinnen und Lehrer sind seit Jahren verbesserungswürdig ...'\n\n# Sample from the Russian LM\nru_lm = torch.hub.load('pytorch/fairseq', 'transformer_lm.wmt19.ru', tokenizer='moses', bpe='fastbpe')\nru_lm.sample(\"машинное обучение это\")  # 'машинное обучение это то, что мы называем \"искусственным интеллектом\".'\n```\n\n## Citation\n```bibtex\n@inproceedings{ng2019facebook},\n  title = {Facebook FAIR's WMT19 News Translation Task Submission},\n  author = {Ng, Nathan and Yee, Kyra and Baevski, Alexei and Ott, Myle and Auli, Michael and Edunov, Sergey},\n  booktitle = {Proc. of WMT},\n  year = 2019,\n}\n```\n"
  },
  {
    "path": "examples/wmt20/README.md",
    "content": "# WMT 20\n\nThis page provides pointers to the models of Facebook-FAIR's WMT'20 news translation task submission [(Chen et al., 2020)](https://arxiv.org/abs/2011.08298).\n\n## Single best MT models (after finetuning on part of WMT20 news dev set)\n\nModel | Description | Download\n---|---|---\n`transformer.wmt20.ta-en` | Ta->En | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt20.ta-en.single.tar.gz)\n`transformer.wmt20.en-ta` | En->Ta | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt20.en-ta.single.tar.gz)\n`transformer.wmt20.iu-en.news` | Iu->En (News domain) | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt20.iu-en.news.single.tar.gz)\n`transformer.wmt20.en-iu.news` | En->Iu (News domain) | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt20.en-iu.news.single.tar.gz)\n`transformer.wmt20.iu-en.nh` | Iu->En (Nunavut Hansard domain) | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt20.iu-en.nh.single.tar.gz)\n`transformer.wmt20.en-iu.nh` | En->Iu (Nunavut Hansard domain) | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt20.en-iu.nh.single.tar.gz)\n\n## Language models\nModel | Description | Download\n---|---|---\n`transformer_lm.wmt20.en` | En Language Model | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt20.en.tar.gz)\n`transformer_lm.wmt20.ta` | Ta Language Model | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt20.ta.tar.gz)\n`transformer_lm.wmt20.iu.news` | Iu Language Model (News domain) | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt20.iu.news.tar.gz)\n`transformer_lm.wmt20.iu.nh` | Iu Language Model (Nunavut Hansard domain) | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt20.iu.nh.tar.gz)\n\n## Example usage (torch.hub)\n\n#### Translation\n\n```python\nimport torch\n\n# English to Tamil translation\nen2ta = torch.hub.load('pytorch/fairseq', 'transformer.wmt20.en-ta')\nen2ta.translate(\"Machine learning is great!\")  # 'இயந்திரக் கற்றல் அருமை!'\n\n# Tamil to English translation\nta2en = torch.hub.load('pytorch/fairseq', 'transformer.wmt20.ta-en')\nta2en.translate(\"இயந்திரக் கற்றல் அருமை!\")  # 'Machine learning is great!'\n\n# English to Inuktitut translation\nen2iu = torch.hub.load('pytorch/fairseq', 'transformer.wmt20.en-iu.news')\nen2iu.translate(\"machine learning is great!\")  # 'ᖃᒧᑕᐅᔭᓄᑦ ᐃᓕᓐᓂᐊᕐᓂᖅ ᐱᐅᔪᒻᒪᕆᒃ!'\n\n# Inuktitut to English translation\niu2en = torch.hub.load('pytorch/fairseq', 'transformer.wmt20.iu-en.news')\niu2en.translate(\"ᖃᒧᑕᐅᔭᓄᑦ ᐃᓕᓐᓂᐊᕐᓂᖅ ᐱᐅᔪᒻᒪᕆᒃ!\")  # 'Machine learning excellence!'\n```\n\n#### Language Modeling\n\n```python\n# Sample from the English LM\nen_lm = torch.hub.load('pytorch/fairseq', 'transformer_lm.wmt20.en')\nen_lm.sample(\"Machine learning is\")  # 'Machine learning is a type of artificial intelligence that uses machine learning to learn from data and make predictions.'\n\n# Sample from the Tamil LM\nta_lm = torch.hub.load('pytorch/fairseq', 'transformer_lm.wmt20.ta')\nta_lm.sample(\"இயந்திரக் கற்றல் என்பது செயற்கை நுண்ணறிவின்\")  # 'இயந்திரக் கற்றல் என்பது செயற்கை நுண்ணறிவின் ஒரு பகுதியாகும்.'\n\n# Sample from the Inuktitut LM\niu_lm = torch.hub.load('pytorch/fairseq', 'transformer_lm.wmt20.iu.news')\niu_lm.sample(\"ᖃᒧᑕᐅᔭᓄᑦ ᐃᓕᓐᓂᐊᕐᓂᖅ\")  # 'ᖃᒧᑕᐅᔭᓄᑦ ᐃᓕᓐᓂᐊᕐᓂᖅ, ᐊᒻᒪᓗ ᓯᓚᐅᑉ ᐊᓯᙳᖅᐸᓪᓕᐊᓂᖓᓄᑦ ᖃᓄᐃᓕᐅᕈᑎᒃᓴᑦ, ᐃᓚᖃᖅᖢᑎᒃ ᐅᑯᓂᖓ:'\n```\n\n## Citation\n```bibtex\n@inproceedings{chen2020facebook\n  title={Facebook AI's WMT20 News Translation Task Submission},\n  author={Peng-Jen Chen and Ann Lee and Changhan Wang and Naman Goyal and Angela Fan and Mary Williamson and Jiatao Gu},\n  booktitle={Proc. of WMT},\n  year={2020},\n}\n```\n"
  },
  {
    "path": "examples/wmt21/README.md",
    "content": "# WMT 21\n\nThis page provides pointers to the models of Facebook AI's WMT'21 news translation task submission [(Tran et al., 2021)](https://arxiv.org/abs/2108.03265).\n\n## Single best dense models\n\nModel | Description | Download\n---|---|---\n`wmt21.dense-24-wide.X-En` | X-En | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt21.dense-24-wide.X-En.tar.gz)\n`wmt21.dense-24-wide.En-X` | En-X | [download (.tar.gz)](https://dl.fbaipublicfiles.com/fairseq/models/wmt21.dense-24-wide.En-X.tar.gz)\n\n## Example usage\n\nSee eval.sh\n\n\n## Citation\n```bibtex\n@inproceedings{tran2021facebook\n  title={Facebook AI’s WMT21 News Translation Task Submission},\n  author={Chau Tran and Shruti Bhosale and James Cross and Philipp Koehn and Sergey Edunov and Angela Fan},\n  booktitle={Proc. of WMT},\n  year={2021},\n}\n```\n"
  },
  {
    "path": "examples/wmt21/eval.sh",
    "content": "#!/bin/bash\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\nSRC=en\nTGT=is\nMODEL_NAME=wmt21.dense-24-wide.En-X\n\nPATH_TO_FAIRSEQ_PY=.\nTMP_DIR=generation_tmp\nmkdir -p $TMP_DIR\n\nREPLACE_UNICODE_PUNCT=$PATH_TO_FAIRSEQ_PY/examples/wmt21/scripts/replace-unicode-punctuation.perl\nNORM_PUNCT=$PATH_TO_FAIRSEQ_PY/examples/wmt21/scripts/normalize-punctuation.perl\nif [ ! -d \"${TMP_DIR}/${MODEL_NAME}\" ]; then\n  wget https://dl.fbaipublicfiles.com/fairseq/models/${MODEL_NAME}.tar.gz -P $TMP_DIR/\n  tar -xvf $TMP_DIR/${MODEL_NAME}.tar.gz -C $TMP_DIR\nfi\nMODEL_DIR=$TMP_DIR/${MODEL_NAME}\nif [ ! -d \"${TMP_DIR}/wmt21-news-systems\" ]; then\n  git clone https://github.com/wmt-conference/wmt21-news-systems $TMP_DIR/wmt21-news-systems\nfi\n\nDOMAIN_TAG=\"wmtdata newsdomain\"\nINPUT_FILE=$TMP_DIR/wmt21-news-systems/txt/sources/newstest2021.${SRC}-${TGT}.src.${SRC}\nREF_FILE=$TMP_DIR/wmt21-news-systems/txt/references/newstest2021.${SRC}-${TGT}.ref.A.${TGT}\n\n# Translate\ncat ${INPUT_FILE} | sed \"s/^/${DOMAIN_TAG} /\" | $REPLACE_UNICODE_PUNCT | $NORM_PUNCT -l ${SRC} | python $PATH_TO_FAIRSEQ_PY/fairseq_cli/interactive.py  $MODEL_DIR \\\n  --path ${MODEL_DIR}/checkpoint.pt \\\n  --task translation_multi_simple_epoch \\\n  --langs \"en,ha,is,ja,cs,ru,zh,de\" \\\n  --lang-pairs $SRC-$TGT \\\n  --bpe \"sentencepiece\" \\\n  --sentencepiece-model ${MODEL_DIR}/sentencepiece.model \\\n  --buffer-size 1024 \\\n  --batch-size 10 -s $SRC -t $TGT \\\n  --decoder-langtok \\\n  --encoder-langtok src  \\\n  --beam 5 \\\n  --lenpen 1.0 \\\n  --fp16  > $TMP_DIR/${SRC}-${TGT}.gen_log\n\ncat $TMP_DIR/$SRC-$TGT.gen_log | grep -P \"^D-\" | cut -f3 > $TMP_DIR/$SRC-$TGT.hyp\n\n# Calculate BLEU score\nsacrebleu -l $SRC-$TGT $REF_FILE < $TMP_DIR/$SRC-$TGT.hyp\n"
  },
  {
    "path": "examples/wmt21/scripts/normalize-punctuation.perl",
    "content": "#!/usr/bin/env perl\n#\n# This file is part of moses.  Its use is licensed under the GNU Lesser General\n# Public License version 2.1 or, at your option, any later version.\n\nuse warnings;\nuse strict;\n\nmy $language = \"en\";\nmy $PENN = 0;\n\nwhile (@ARGV) {\n    $_ = shift;\n    /^-b$/ && ($| = 1, next); # not buffered (flush each line)\n    /^-l$/ && ($language = shift, next);\n    /^[^\\-]/ && ($language = $_, next);\n  \t/^-penn$/ && ($PENN = 1, next);\n}\n\nwhile(<STDIN>) {\n    s/\\r//g;\n    # remove extra spaces\n    s/\\(/ \\(/g;\n    s/\\)/\\) /g; s/ +/ /g;\n    s/\\) ([\\.\\!\\:\\?\\;\\,])/\\)$1/g;\n    s/\\( /\\(/g;\n    s/ \\)/\\)/g;\n    s/(\\d) \\%/$1\\%/g;\n    s/ :/:/g;\n    s/ ;/;/g;\n    # normalize unicode punctuation\n    if ($PENN == 0) {\n      s/\\`/\\'/g;\n      s/\\'\\'/ \\\" /g;\n    }\n\n    s/„/\\\"/g;\n    s/“/\\\"/g;\n    s/”/\\\"/g;\n    s/–/-/g;\n    s/—/ - /g; s/ +/ /g;\n    s/´/\\'/g;\n    s/([a-z])‘([a-z])/$1\\'$2/gi;\n    s/([a-z])’([a-z])/$1\\'$2/gi;\n    s/‘/\\'/g;\n    s/‚/\\'/g;\n    s/’/\\\"/g;\n    s/''/\\\"/g;\n    s/´´/\\\"/g;\n    s/…/.../g;\n    # French quotes\n    s/ « / \\\"/g;\n    s/« /\\\"/g;\n    s/«/\\\"/g;\n    s/ » /\\\" /g;\n    s/ »/\\\"/g;\n    s/»/\\\"/g;\n    # handle pseudo-spaces\n    s/ \\%/\\%/g;\n    s/nº /nº /g;\n    s/ :/:/g;\n    s/ ºC/ ºC/g;\n    s/ cm/ cm/g;\n    s/ \\?/\\?/g;\n    s/ \\!/\\!/g;\n    s/ ;/;/g;\n    s/, /, /g; s/ +/ /g;\n\n    # English \"quotation,\" followed by comma, style\n    if ($language eq \"en\") {\n\ts/\\\"([,\\.]+)/$1\\\"/g;\n    }\n    # Czech is confused\n    elsif ($language eq \"cs\" || $language eq \"cz\") {\n    }\n    # German/Spanish/French \"quotation\", followed by comma, style\n    else {\n\ts/,\\\"/\\\",/g;\t\n\ts/(\\.+)\\\"(\\s*[^<])/\\\"$1$2/g; # don't fix period at end of sentence\n    }\n\n\n    if ($language eq \"de\" || $language eq \"es\" || $language eq \"cz\" || $language eq \"cs\" || $language eq \"fr\") {\n\ts/(\\d) (\\d)/$1,$2/g;\n    }\n    else {\n\ts/(\\d) (\\d)/$1.$2/g;\n    }\n    print $_;\n}\n"
  },
  {
    "path": "examples/wmt21/scripts/replace-unicode-punctuation.perl",
    "content": "#!/usr/bin/env perl\n#\n# This file is part of moses.  Its use is licensed under the GNU Lesser General\n# Public License version 2.1 or, at your option, any later version.\n\nuse warnings;\nuse strict;\n\nwhile (@ARGV) {\n    $_ = shift;\n    /^-b$/ && ($| = 1, next); # not buffered (flush each line)\n}\n\n#binmode(STDIN, \":utf8\");\n#binmode(STDOUT, \":utf8\");\n\nwhile(<STDIN>) {\n  s/，/,/g;\n  s/。 */. /g;\n  s/、/,/g;\n  s/”/\"/g;\n  s/“/\"/g;\n  s/∶/:/g;\n  s/：/:/g;\n  s/？/\\?/g;\n  s/《/\"/g;\n  s/》/\"/g;\n  s/）/\\)/g;\n  s/！/\\!/g;\n  s/（/\\(/g;\n  s/；/;/g;\n  s/１/1/g;\n  s/」/\"/g;\n  s/「/\"/g;\n  s/０/0/g;\n  s/３/3/g;\n  s/２/2/g;\n  s/５/5/g;\n  s/６/6/g;\n  s/９/9/g;\n  s/７/7/g;\n  s/８/8/g;\n  s/４/4/g;\n  s/． */. /g;\n  s/～/\\~/g;\n  s/’/\\'/g;\n  s/…/\\.\\.\\./g;\n  s/━/\\-/g;\n  s/〈/\\</g;\n  s/〉/\\>/g;\n  s/【/\\[/g;\n  s/】/\\]/g;\n  s/％/\\%/g;\n  print $_;\n}\n"
  },
  {
    "path": "examples/womens_bios/README.md",
    "content": "# Wikipedia Biographies of Women\n\n\n## Training:\n\nThe training dataset is created based on WikiSum, a dataset created from the paper [Generating Wikipedia by Summarizing Long Sequences](https://arxiv.org/pdf/1801.10198.pdf). The dataset needs to be generated following the instructions in this [Github Repository](https://github.com/tensorflow/tensor2tensor/tree/master/tensor2tensor/data_generators/wikisum).\n\n### How is the WikiSum dataset structured?\n\nOverall, the task in WikiSum was to generate the entire Wikipedia article based on the contents of the top 10 Google Search Results. The authors provide a way for people to recreate their work. In the WikiSum Github, there are two options for the dataset recreation --- the first is to use CommonCrawl (a static, open source crawl of the web) and the second to do Live Web Fetches. The second has higher coverage, but the content is subject to change and difficult to fetch. We used the static, Commoncrawl version. This can be downloaded following the Github repo instructions, though note it will require usage of Google Cloud. \n\nNote: in our experience, it also requires requesting that the resource limit of the Google Cloud instance be raised, which requires emailing. \n\nNote: Having higher coverage in the training dataset would be expected to improve the model quality. There are many instances in the dataset where the training input (web evidence) does not contain sufficient content for producing the desired Wikipedia article. This may harm the model's ability to learn to retrieve, look at the input evidence, and overall could contribute to increased challenges in generating verifiable Wikipedia biographies. \n\n### How do you go from WikiSum dataset to Biography dataset?\n\nThe WikiSum dataset is for Wikipedia in general, not just biographies. We do this by querying WikiData to see if the Wikipedia article has an occupation, with the thought that all articles with occupations are probably biographies.\n\n\n## Evaluation:\n\nYou can download the dataset and baseline model with the following command:\n\n```\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/womenbios_dataset.zip'\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/encoder.json'\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/vocab.bpe'\nwget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/dict.txt'\n```\n\nWe provide the full text Wikipedia articles split into four categories:\n- Women in Africa\n- Women in Asia\n- Women in Science \n- Women \nWe note that these are not exhaustive intersectional categories and mainly stem from personal interest. \n\nWe also provide the URL of the Wikipedia article. Note that Wikipedia articles are constantly being improved, edited, and changed. Thus, it's completely possible that the Wikipedia article on Wikipedia has been lovingly improved by other Wikipedia editors. \n\nTo get the occupations of each biographical subject, we use WikiData. We provide a sample script to do this. We also provide the raw output of this query. \n\nThe final part of the evaluation dataset is to query web evidence for each of the biographical subjects. This is the part of the evaluation dataset that requires the most improvement. As we discuss in our paper, one of the major reasons why it is difficult to write biographies for sometimes very well qualified women is that there is not information online about them. Further, the search engine may not find it. We encourage others to improve upon this part of the data, as even re-querying again on the internet may find new, updated sources of information as the web is constantly evolving. \n\nWe use the search engine from [Internet-Augmented Dialogue Generation](https://arxiv.org/abs/2107.07566), see [project URL](https://parl.ai/projects/sea/) to do the search queries. Note: we remove wikipedia site sources from our query (or we'd query the data itself). However, it's possible Wikipedia information can be copied around in multiple forms on the web, linked with edits, etc. \n\n\n## Section by Section Generation:\n\nWikipedia articles are split into sections, which are usually separated by headings. These headings can be separated in the article text by looking for these equal signs (==), where the number of equal signs usually signals if you are looking at a toplevel heading or a subheading, etc. An example regex that you can use is:\n\n`\nsection_header_re = re.compile(r\"(?<!=)==([^=]+)==(?!=)\")\n`\n\n\n## List of Notes:\n- People can have multiple occupations, and we keep all occupations that we query from WikiData\n\n\n## List of Possible Improvement Areas:\nUsing a larger generative pre-trained model, larger-scale retrieval, a retrieval encoder specialized to Wikipedia (or biographies), tuning all of the training & generation parameters exhaustively --- and the like --- would most likely be very useful. Overall, we hope that this is a starting point for others who might be interested in focusing on how we can help address the gender gap on Wikipedia.\n\n\n## Interested in Wikipedia and Gender Gap? \nYou might want to check out:\n- https://humaniki.wmcloud.org/\n- https://en.wikipedia.org/wiki/Wikipedia:WikiProject_Women_in_Red and https://wikimediafoundation.org/news/2018/10/18/women-in-red-wikiproject/ \n- https://meta.wikimedia.org/wiki/Whose_Knowledge%3F/VisibleWikiWomen \n- https://www.ted.com/talks/jess_wade_a_voice_for_diversity_in_science \n\nand thanks again to all of the Wikipedia editors and the entire community that is already working so hard to write amazing articles for diverse groups of people. \n\n\n# LICENSE\nThis is licensed under CC-BY-NC, however portions of the dataset are available under separate license terms: text sourced from Wikipedia is licensed under CC-BY-SA.\n\n\n\n\n\n"
  },
  {
    "path": "examples/womens_bios/query_occupations_from_wikidata.py",
    "content": "import sys\nfrom SPARQLWrapper import SPARQLWrapper, JSON\n\nendpoint_url = \"https://query.wikidata.org/sparql\"\n\nwith open(\"/your/urls/here\") as f:\n    data = f.readlines()\nurls = [i.strip() for i in data]\n\ndef get_results(endpoint_url, URL):\n    query = f\"\"\"SELECT ?uriLabel ?occupation ?occupationLabel ?dob ?dobLabel WHERE {{\n    <{URL}> schema:about ?uri .\n    ?uri  wdt:P106 ?occupation .         \n        SERVICE wikibase:label {{ bd:serviceParam wikibase:language \"en\" }}\n    }}\"\"\"\n    user_agent = \"WDQS-example Python/%s.%s\" % (sys.version_info[0], sys.version_info[1])\n    sparql = SPARQLWrapper(endpoint_url, agent=user_agent)\n    sparql.setQuery(query)\n    sparql.setReturnFormat(JSON)\n    return sparql.query().convert()\n\nall_occupations = []\nfor URL in urls:\n    results = get_results(endpoint_url, URL)\n    occupations = []\n    for result in results[\"results\"][\"bindings\"]:\n        occupations.append(result['occupationLabel']['value'])\n    all_occupations.append(result['uriLabel']['value'] + \", \" + \", \".join(occupations))\n    \nassert(len(all_occupations) == len(urls))\n\nwith open(\"/your/file/output/here\", \"w\") as o:\n    for line in all_occupations:\n        o.write(line.strip() + \"\\n\")"
  },
  {
    "path": "examples/xformers/README.md",
    "content": "# Using xFormers with FairSeq\n\n[xFormers](https://github.com/facebookresearch/xformers) is a xFormers is a modular library for flexibly generating transformer architectures with interoperable and optimized building blocks.\nThe current integration allows for FairSeq users to use an attention variant available in the xFormers repository.\n\nIn order to enable xFormers, all that needs to be passed in is a string representing an [xFormers attention config](https://github.com/facebookresearch/xformers/blob/5f754129bfb1ea53747b1ab2077261ea762faa47/xformers/components/attention/base.py#L18).\n\nThe various attention variants can be found [here](https://github.com/facebookresearch/xformers/tree/main/xformers/components/attention).\nThese include sparse attention and blocksparse attention.\n\nFor example, you could pass in the following args:\n ```python\ndecoder_xformers_att_config = '{\"name\": \"scaled_dot_product\"}'\n\nencoder_xformers_att_config = '{\"name\": \"linformer\", \"seq_len\": \"256\"}'\n ```\n\nIn order to use blocksparse attention you would have to additionally pass in a blocksparse layout and blocksize. For example:\n\n ```python\n\n  xformers_att_config = '{\"name\": \"scaled_dot_product\"}'\n  xformers_blocksparse_blocksize = 16\n  xformers_blocksparse_layout = torch.ones(\n      seq_len // xformers_blocksparse_blocksize,\n      seq_len // xformers_blocksparse_blocksize,\n  )\n\n xf_blocksparse_mha = (\n        MultiheadAttention(\n            embedding,\n            num_heads,\n            dropout=0.0,\n            add_zero_attn=add_zero_attn,\n            xformers_att_config=xformers_att_config,\n            xformers_blocksparse_layout=xformers_blocksparse_layout,\n            xformers_blocksparse_blocksize=xformers_blocksparse_blocksize,\n        )\n\n ```\n\nThe xFormers repository currenlty has benchmarks on the [runtime](https://github.com/facebookresearch/xformers/blob/main/docs/plots/runtime_vs_attention.png)\nand [memory usage](https://github.com/facebookresearch/xformers/blob/main/docs/plots/memory_vs_attention.png) of the various attentions.\n"
  },
  {
    "path": "examples/xglm/README.md",
    "content": "# Few-shot Learning with Multilingual Language Models\n\n## Introduction\n\nIn this work, we train a family of multilingual generative language models, dubbed XGLM, on a balanced corpus covering a diverse set of languages, and study their few- and zero-shot learning capabilities in a wide range of tasks. Our largest model with 7.5 billion parameters sets new state of the art in few-shot learning on more than 20 representative languages, outperforming GPT-3 of comparable size in multilingual commonsense reasoning (+7.4 accuracy points for 0-shot, +9.4 for 4-shot) and natural language inference (+5.4 for 0-shot, +5.4 for 4-shot). We have included a [model card](model_card.md) of XGLM for transparency and accountability.\n\n## Data and Languages\nXGLM models are trained on a new multilingual corpus extracted from CommonCrawl (CC100-XL), a significantly larger multilingual dataset covering 68 Common Crawl (CC) snapshots (from [Summer 2013](http://commoncrawl.org/2013/11/new-crawl-data-available/) to [March/April 2020](https://commoncrawl.org/2020/04/march-april-2020-crawl-archive-now-available/) consisting of 134 languages. The detailed languages and data statistics are reported in the paper (Table A.1).\n\n## Pre-trained models\n\nModel | Layers | Model Dim | FFN Dim | Languages | Download\n---|---|---|---|---|---\n`XGLM 564M` | 24 | 1024 | 4096 | trained on 30 languages|  [xglm.564M.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xglm/xglm.564M.tar.gz)\n`XGLM 1.7B` | 24 | 2048 | 8192 | trained on 30 languages|  [xglm.1.7B.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xglm/xglm.1.7B.tar.gz)\n`XGLM 2.9B` | 48 | 2048 | 8192 | trained on 30 languages|  [xglm.2.9B.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xglm/xglm.2.9B.tar.gz)\n`XGLM 7.5B` | 32 | 4096 | 16384 | trained on 30 languages|  [xglm.7.5B.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xglm/xglm.7.5B.tar.gz)\n`XGLM 4.5B` | 48 | 2048 | 16384 | trained on 134 languages|  [xglm.4.5B.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xglm/xglm.4.5B.tar.gz)\n\n## Pre-training Data Format\nOur models were pre-trained with data in the following format (i.e. paragraphs are separated with new lines and documents were separated with double new lines).\n```\n<doc0,para0,tok0> ... <doc0,para0,tokX0> # X0: number of tokens in para0 of doc0\n<doc0,para1,tok0> ... <doc0,para1,tokY0> # Y0: number of tokens in para1 of doc0\n\n<doc1,para0,tok0> ... <doc1,para0,tokX1> # X1: number of tokens in para0 of doc1\n<doc1,para1,tok0> ... <doc1,para1,tokY1> # Y1: number of tokens in para1 of doc1\n\n...\n```\nFairseq's preprocessing replaces newlines with the end-of-sentence symbol (`</s>`). As a result, the models never saw newline characters during pretraining and the same preprocessing should be run prior to few-shot inference to maximize performance. For example, our language model scoring function has `replace_newlines_with_eos` argument to trigger this preprocessing:\n```python\nfrom fairseq.models.transformer_lm import TransformerLanguageModel\n\nmodel_dir = 'path_to_decompressed_tar_gz_dir'\nlm = TransformerLanguageModel.from_pretrained(model_dir, bpe='sentencepiece')\n\ntext = \"\"\"First paragraph of the first document.\nSecond paragraph of the first document.\n\nFirst paragraph of the second document.\n\"\"\"\ntokens = lm.score(text, replace_newlines_with_eos=True)['tokens']\nassert '\\n' not in lm.decode(tokens)  # no newlines were encoded\n```\n\n## Evaluation\n\n### Example (COPA)\n\nThe following snippet show how to evaluate our models on the Choice of Plausible Alternatives (COPA) task, using examples in English, Chinese and Hindi. \n\n```python\ndata_samples = {\n    'en': [\n        {\n            \"premise\": \"I wanted to conserve energy.\", \n            \"choice1\": \"I swept the floor in the unoccupied room.\", \n            \"choice2\": \"I shut off the light in the unoccupied room.\",\n            \"question\": \"effect\",\n            \"label\": \"1\"\n        },\n        {\n            \"premise\": \"The flame on the candle went out.\",\n            \"choice1\": \"I blew on the wick.\", \n            \"choice2\": \"I put a match to the wick.\",\n            \"question\": \"cause\",\n            \"label\": \"0\"\n        }\n    ],\n    'zh': [\n        {\n            \"premise\": \"我想节约能源。\", \n            \"choice1\": \"我在空着的房间里扫了地板。\", \n            \"choice2\": \"我把空房间里的灯关了。\",\n            \"question\": \"effect\",\n            \"label\": \"1\"\n        },\n        {\n            \"premise\": \"蜡烛上的火焰熄灭了。\",\n            \"choice1\": \"我吹灭了灯芯。\", \n            \"choice2\": \"我把一根火柴放在灯芯上。\",\n            \"question\": \"cause\",\n            \"label\": \"0\"\n        }\n    ],\n    'hi': [\n        {\n            \"premise\": \"M te vle konsève enèji.\", \n            \"choice1\": \"Mwen te fin baleye chanm lib la.\", \n            \"choice2\": \"Mwen te femen limyè nan chanm lib la.\",\n            \"question\": \"effect\",\n            \"label\": \"1\"\n        },\n        {\n            \"premise\": \"Flam bouji a te etenn.\",\n            \"choice1\": \"Mwen te soufle bouji a.\", \n            \"choice2\": \"Mwen te limen mèch bouji a.\",\n            \"question\": \"cause\",\n            \"label\": \"0\"\n        }\n    ]\n}\n```\nIn this example, we format the examples use the non-verbal prompts `{premise}\\n{choice1}` and `{premise}\\n{choice2}`, which are shared by all three languages. \n```python\nfrom fairseq.models.transformer_lm import TransformerLanguageModel\n\nmodel_dir = 'path_to_decompressed_tar_gz_dir'\nlm = TransformerLanguageModel.from_pretrained(model_dir, bpe='sentencepiece')\nlm = lm.eval()\nlm = lm.half()\nlm = lm.cuda()\n\ndef get_logprobs(prompt):\n    import re\n    prompt = re.sub('\\n+' , '\\n', prompt)  # collapse repeated newlines, which indicate separate documents\n    return lm.score(prompt, replace_newlines_with_eos=True)['positional_scores']\n    \n# Zero-shot evaluation for the Choice of Plausible Alternatives (COPA) task.\n# A return value of 0 indicates that the first alternative is more plausible,\n# while 1 indicates that the second alternative is more plausible.\ndef COPA_eval(prompt, alternative1, alternative2):\n    lprob1 = get_logprobs(prompt + \"\\n\" + alternative1).sum()\n    lprob2 = get_logprobs(prompt + \"\\n\" + alternative2).sum()\n    return 0 if lprob1 > lprob2 else 1\n    \nfor lang in ['en', 'zh', 'hi']:\n    for idx, example in enumerate(data_samples[lang]):\n        predict = COPA_eval(example[\"premise\"], example[\"choice1\"], example[\"choice2\"])\n        print(f'{lang}-{idx}', predict, example['label'])\n        \n# en-0 1 1\n# en-1 0 0\n# zh-0 1 1\n# zh-1 0 0\n# hi-0 1 1\n# hi-1 0 0\n```\n\n## XStoryCloze\n\nWe release XStoryCloze, a new multilingual dataset intended for few-shot evaluation, alongside this paper. XStoryCloze consists of professional translation of the validation split of the [English StoryCloze dataset](https://cs.rochester.edu/nlp/rocstories/) (Spring 2016 version) to 10 other languages. It is opensourced under [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/legalcode), the same license as the English StoryCloze. \n\nYou can download the dataset via [this link](https://dl.fbaipublicfiles.com/xstorycloze.zip). \n\nLanguage | ar | es | eu | hi | id | my | ru | sw | te | zh\n---|---|---|---|---|---|---|---|---|---|---\nTrain size | 360 | 360 | 360 | 360 | 360 | 360 | 360 | 360 | 360 | 360  \nEval size | 1511 | 1511 | 1511 | 1511 | 1511 | 1511 | 1511 | 1511 | 1511 | 1511\n\nPlease refer to [the dataset doc](XStoryCloze.md) for more information.\n\n\n## Publication\n[Few-shot Learning with Multilingual Generative Language Models](https://arxiv.org/abs/2112.10668).\nXi Victoria Lin*, Todor Mihaylov, Mikel Artetxe, Tianlu Wang, Shuohui Chen, Daniel Simig, Myle Ott, Naman Goyal, Shruti Bhosale, Jingfei Du, Ramakanth Pasunuru, Sam Shleifer, Punit Singh Koura, Vishrav Chaudhary, Brian O'Horo, Jeff Wang, Luke Zettlemoyer, Zornitsa Kozareva, Mona Diab, Veselin Stoyanov, Xian Li* (* Equal Contribution).\nEMNLP 2022.\n\n## Citation\n```\n@article{DBLP:journals/corr/abs-2112-10668,\n  author    = {Xi Victoria Lin and\n               Todor Mihaylov and\n               Mikel Artetxe and\n               Tianlu Wang and\n               Shuohui Chen and\n               Daniel Simig and\n               Myle Ott and\n               Naman Goyal and\n               Shruti Bhosale and\n               Jingfei Du and\n               Ramakanth Pasunuru and\n               Sam Shleifer and\n               Punit Singh Koura and\n               Vishrav Chaudhary and\n               Brian O'Horo and\n               Jeff Wang and\n               Luke Zettlemoyer and\n               Zornitsa Kozareva and\n               Mona T. Diab and\n               Veselin Stoyanov and\n               Xian Li},\n  title     = {Few-shot Learning with Multilingual Language Models},\n  journal   = {CoRR},\n  volume    = {abs/2112.10668},\n  year      = {2021},\n  url       = {https://arxiv.org/abs/2112.10668},\n  eprinttype = {arXiv},\n  eprint    = {2112.10668},\n  timestamp = {Tue, 04 Jan 2022 15:59:27 +0100},\n  biburl    = {https://dblp.org/rec/journals/corr/abs-2112-10668.bib},\n  bibsource = {dblp computer science bibliography, https://dblp.org}\n}\n```\n"
  },
  {
    "path": "examples/xglm/XStoryCloze.md",
    "content": "XStoryCloze consists of professional translation of the validation split of the [English StoryCloze dataset](https://cs.rochester.edu/nlp/rocstories/) (Spring 2016 version) to 10 other languages. This dataset is released by FAIR (Fundamental Artificial Intelligence Research) alongside the paper [Few-shot Learning with Multilingual Generative Language Models. EMNLP 2022](https://arxiv.org/abs/2112.10668).\n\n# Languages\nru, zh (Simplified), es (Latin America), ar, hi, id, te, sw, eu, my.\n\n# Data Splits\nThis dataset is intended to be used for evaluating the zero- and few-shot learning capabilities of multlingual language models. We split the data for each language into train and test (360 vs. 1510 examples, respectively). The released data files for different languages maintain a line-by-line alignment.\n\n# Access English StoryCloze\nPlease request the original English StoryCloze dataset through the [official website](https://cs.rochester.edu/nlp/rocstories/). You can create a split of the en data following our data split scheme using the following commands:\n```\nhead -361 spring2016.val.tsv > spring2016.val.en.tsv.split_20_80_train.tsv\n\nhead -1 spring2016.val.tsv > spring2016.val.en.tsv.split_20_80_eval.tsv   # TSV header\ntail -1511 spring2016.val.tsv >> spring2016.val.en.tsv.split_20_80_eval.tsv\n```\n\n# Licence\nXStoryCloze is opensourced under [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/legalcode), the same license as the original English StoryCloze.\n\n# Citation\nWe hope this dataset is helpful for the research and wider NLP community. If you use XStoryCloze in your work, please cite\n```\n@article{DBLP:journals/corr/abs-2112-10668,\n  author    = {Xi Victoria Lin and\n               Todor Mihaylov and\n               Mikel Artetxe and\n               Tianlu Wang and\n               Shuohui Chen and\n               Daniel Simig and\n               Myle Ott and\n               Naman Goyal and\n               Shruti Bhosale and\n               Jingfei Du and\n               Ramakanth Pasunuru and\n               Sam Shleifer and\n               Punit Singh Koura and\n               Vishrav Chaudhary and\n               Brian O'Horo and\n               Jeff Wang and\n               Luke Zettlemoyer and\n               Zornitsa Kozareva and\n               Mona T. Diab and\n               Veselin Stoyanov and\n               Xian Li},\n  title     = {Few-shot Learning with Multilingual Language Models},\n  journal   = {CoRR},\n  volume    = {abs/2112.10668},\n  year      = {2021},\n  url       = {https://arxiv.org/abs/2112.10668},\n  eprinttype = {arXiv},\n  eprint    = {2112.10668},\n  timestamp = {Tue, 04 Jan 2022 15:59:27 +0100},\n  biburl    = {https://dblp.org/rec/journals/corr/abs-2112-10668.bib},\n  bibsource = {dblp computer science bibliography, https://dblp.org}\n}\n```\n"
  },
  {
    "path": "examples/xglm/model_card.md",
    "content": "# XGLM multilingual model\n## Version 1.0.0\n\n### Model developer\nFAIR (Fundamental Artificial Intelligence Research)\n\n### Model type\nA family of multilingual autoregressive language models (ranging from 564 million to 7.5 billion parameters) trained on a balanced corpus of a diverse set of languages. The language model can learn tasks from natural language descriptions and a few examples.\n\n### Model Feedback Channel\nhttps://github.com/pytorch/fairseq\n\n## Intended use\n### Primary intended use\nFor research purposes only, e.g. reproducing model evaluation results. Generation is only used in a limited capacity for explanation/justification or for prompting/probing/priming for class labels.\n\n### Out of scope uses\nThe primary purpose of the model is not to generate language, although the model is capable of doing that.\n\n## Potential risks\nThis section lists the potential risks associated with using the model.\n\n### Relevant factors\nBased on known problems with NLP technology, potential relevant factors include output correctness, robustness, bias (gender, profession, race and religion), etc.\n\n### Evaluation factors\nThe model was evaluated on hate speech detection and occupation identification.\n* Hate speech detection (Huang et al. (2020)) - A safety task to test language models’ ability to identify hateful and offensive text.\n* Occupation identification (De-Arteaga et al., 2019), (Zhao et al., 2020) - A bias task to study language models’ performance divergence between different gender groups on the task of occupation identification.\n\n## Metrics\n### Model performance measures\nThe XGLM model was primarily evaluated on\n1. Zero shot and few shot learning by looking at per-language performance on tasks spanning commonsense reasoning (XCOPA, XWinograd), natural language inference (XNLI) and paraphrasing (PAWS-X). The model is also evaluated on XStoryCloze, a new dataset created by FAIR (Fundamental Artificial Intelligence Research).\n2. Cross lingual transfer through templates and few-shot examples.\n3. Knowledge probing - Evaluate to what extent the XGLM model can effectively store factual knowledge in different languages using the mLAMA benchmark.\n4. Translation - We report machine translation results on WMT benchmarks and a subset of FLORES-101 in the main paper.\n\nThe model was also evaluated on hate speech datasets introduced by Huang et al. (2020) and an occupation identification dataset by De-Arteaga et al. 2019 to identify bias in the model.\n\n### Approaches to handle uncertainty\nReport confidence intervals, variance metrics for the model performance metrics. Few-shot evaluation was conducted with different sampling with 5 seeds. We reported statistical significance.\n\n## Evaluation data\n## Zero Shot and Few Shot evaluation\n\n### XNLI (Conneau et al., 2018)\n#### Description\nThe Cross-lingual Natural Language Inference (XNLI) corpus is the extension of the Multi-Genre NLI (MultiNLI) corpus to 15 languages. The dataset was created by manually translating the validation and test sets of MultiNLI into each of those 15 languages.\n\n### XStoryCloze\n#### Description\nA new dataset created by FAIR along side this work by translating the validation split of the English StoryCloze dataset (Mostafazadeh et al., 2016) (Spring 2016 version) to 10 other typologically diverse languages (ru, zh Simplified, es Latin America, ar, hi, id, te, sw, eu, my).\n\n### XCOPA (Ponti et al., 2020)\n#### Description\nThe Cross-lingual Choice of Plausible Alternatives (XCOPA) dataset is a benchmark to evaluate the ability of machine learning models to transfer commonsense reasoning across languages. The dataset is the translation and reannotation of the English COPA (Roemmele et al. 2011) and covers 11 languages from 11 families and several areas around the globe.\n\n### XWinograd (Tikhonov and Ryabinin, 2021)\n#### Description\nXWinograd is a multilingual collection of Winograd Schemas in six languages that can be used for evaluation of cross-lingual commonsense reasoning capabilities.\n\n### PAWS-X (Yang et al., 2019)\n#### Description\nPAWS-X contains 23,659 human translated PAWS evaluation pairs and 296,406 machine translated training pairs in six typologically distinct languages: French, Spanish, German, Chinese, Japanese, and Korean. All translated pairs are sourced from examples in PAWS-Wiki.\n\n## Responsible AI (RAI) evaluation\n### Hate speech (Huang et al. 2020)\nThis is a multilingual Twitter corpus for the task of hate speech detection with inferred four author demographic factors: age, country, gender and race/ethnicity. The corpus covers five languages: English, Italian, Polish, Portuguese and Spanish.\n\n### Bias dataset (De-Arteaga et al. 2019)\nThe aim of this dataset is to study the gender bias of models that identify a person’s occupation from their bios.\n\n----\n\n## Training data\n### CC100-XL\n#### Description\nFollowing the recent success of multilingual self-supervised pre-training (Devlin et al., 2019; Lample and Conneau, 2019; Con; Xue et al., 2020; Goyal et al., 2021a; Liu et al., 2020), we train our language models on a mixture of monolingual text of different languages. We extended the pipeline used for mining the CC100 corpus to generate CC100-XL, a significantly larger multilingual dataset covering 68 Common Crawl snapshots (from Summer 2013 to March/April 2020) and 134 languages.\n\nMore details on the CC100-XL dataset can be found in the Appendix section of the paper.\n\n## RAI Dimensions\n### Fairness (Bias and inclusion)\nThe XGLM model was evaluated on Hate speech and bias identification datasets. For hate speech, we observe that across the 5 languages in the dataset, in context learning results are only slightly better than random (50%). Another interesting observation is that most few shot results are worse than zero-shot, which indicates that the model is not able to utilize examples using the templates described in the paper. For bias identification, the XGLM (6.7B) English only model achieves the best performance on English and Spanish, while the GPT-3 model of comparable size (6.7B) model achieves the best in French. On certain occupations (e.g. model and teacher), XGLM 6.7B En only model and GPT-3 (6.7B) have very significant bias while XGLM 7.5B is much less biased.\n\n### Privacy and security\nThe XGLM model did not have any special Privacy and Security considerations. The training data and evaluation data were both public and went through standard Meta privacy and licensing procedures.\n\n### Transparency and control\nIn the spirit of transparency and accountability we have created this model card and a data card for the CC100-XL which can be found in the Appendix section of the paper.\n\n### Efficiency (Green AI)\nFrom an engineering perspective, XGLM pertains to a family of models that represent single unified models catering to many languages which have wide application across many applications. Such a unified single model saves on carbon footprint as well as energy consumption (comparing to the alternative: separate models for different languages) leading to more energy efficiency. A single model, despite having the risk of being a single point of failure, has the powerful incentive of being easier to maintain, access, distribute, and track.\n \n## References\nEdoardo Maria Ponti, Goran Glavas, Olga Majewska, Qianchu Liu, Ivan Vulic, and Anna Korhonen. 2020. XCOPA: A multilingual dataset for causal commonsense reasoning. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, EMNLP 2020, Online, November 16-20, 2020, pages 2362–2376. Association for Computational Linguistics.\nXCOPA Dataset | Papers With Code\n\nAlexey Tikhonov and Max Ryabinin. 2021. It’s all in the heads: Using attention heads as a baseline for cross-lingual transfer in commonsense reasoning. In Findings of the Association for Computational Linguistics: ACL/IJCNLP 2021, Online Event, August 1-6, 2021, volume ACL/IJCNLP 2021 of Findings of ACL, pages 3534–3546. Association for Computational Linguistics. \nXWINO Dataset | Papers With Code (XWinograd)\n\nYinfei Yang, Yuan Zhang, Chris Tar, and Jason Baldridge. 2019. PAWS-X: A cross-lingual adversarial dataset for paraphrase identification. CoRR, abs/1908.11828.\nPAWS-X Dataset | Papers With Code\n\nAlexis Conneau, Guillaume Lample, Ruty Rinott, Adina Williams, Samuel R. Bowman, Holger Schwenk, and Veselin Stoyanov. 2018. XNLI: evaluating cross-lingual sentence representations. CoRR, abs/1809.05053.\nXNLI Dataset | Papers With Code \n\nXiaolei Huang, Linzi Xing, Franck Dernoncourt, and Michael Paul. 2020. Multilingual twitter corpus and baselines for evaluating demographic bias in hate speech recognition. In Proceedings of the 12th Language Resources and Evaluation Conference, pages 1440–1448. \n\nMaria De-Arteaga, Alexey Romanov, Hanna Wallach, Jennifer Chayes, Christian Borgs, Alexandra Chouldechova, Sahin Geyik, Krishnaram Kenthapadi, and Adam Tauman Kalai. 2019. Bias in bios: A case study of semantic representation bias in a high-stakes setting. In proceedings of the Conference on Fairness, Accountability, and Transparency, pages 120–128.\n\nNasrin Mostafazadeh, Nathanael Chambers, Xiaodong He, Devi Parikh, Dhruv Batra, Lucy Vanderwende, Pushmeet Kohli, James F. Allen. A Corpus and Evaluation Framework for Deeper Understanding of Commonsense Stories. CoRR abs/1604.01696.\n\nJieyu Zhao, Subhabrata Mukherjee, Saghar Hosseini, Kai-Wei Chang, and Ahmed Hassan Awadallah. 2020. Gender bias in multilingual embeddings and crosslingual transfer. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 2896–2907.\n\n## Citation details\n```\n@article{DBLP:journals/corr/abs-2112-10668,\n  author    = {Xi Victoria Lin and\n               Todor Mihaylov and\n               Mikel Artetxe and\n               Tianlu Wang and\n               Shuohui Chen and\n               Daniel Simig and\n               Myle Ott and\n               Naman Goyal and\n               Shruti Bhosale and\n               Jingfei Du and\n               Ramakanth Pasunuru and\n               Sam Shleifer and\n               Punit Singh Koura and\n               Vishrav Chaudhary and\n               Brian O'Horo and\n               Jeff Wang and\n               Luke Zettlemoyer and\n               Zornitsa Kozareva and\n               Mona T. Diab and\n               Veselin Stoyanov and\n               Xian Li},\n  title     = {Few-shot Learning with Multilingual Language Models},\n  journal   = {CoRR},\n  volume    = {abs/2112.10668},\n  year      = {2021},\n  url       = {https://arxiv.org/abs/2112.10668},\n  eprinttype = {arXiv},\n  eprint    = {2112.10668},\n  timestamp = {Tue, 04 Jan 2022 15:59:27 +0100},\n  biburl    = {https://dblp.org/rec/journals/corr/abs-2112-10668.bib},\n  bibsource = {dblp computer science bibliography, https://dblp.org}\n}\n```\n"
  },
  {
    "path": "examples/xlmr/README.md",
    "content": "# Unsupervised Cross-lingual Representation Learning at Scale (XLM-RoBERTa)\nhttps://arxiv.org/pdf/1911.02116.pdf\n\n# Larger-Scale Transformers for Multilingual Masked Language Modeling\nhttps://arxiv.org/pdf/2105.00572.pdf\n\n\n## What's New:\n- June 2021: `XLMR-XL` AND `XLMR-XXL` models released.\n\n## Introduction\n\n`XLM-R` (`XLM-RoBERTa`) is a generic cross lingual sentence encoder that obtains state-of-the-art results on many cross-lingual understanding (XLU) benchmarks. It is trained on `2.5T` of filtered CommonCrawl data in 100 languages (list below).\n\n Language | Language|Language |Language | Language\n---|---|---|---|---\nAfrikaans | Albanian | Amharic | Arabic | Armenian \nAssamese | Azerbaijani | Basque | Belarusian | Bengali \nBengali Romanize | Bosnian | Breton | Bulgarian | Burmese \nBurmese zawgyi font | Catalan | Chinese (Simplified) | Chinese (Traditional) | Croatian \nCzech | Danish | Dutch | English | Esperanto \nEstonian | Filipino | Finnish | French | Galician\nGeorgian | German | Greek | Gujarati | Hausa\nHebrew | Hindi | Hindi Romanize | Hungarian | Icelandic\nIndonesian | Irish | Italian | Japanese | Javanese\nKannada | Kazakh | Khmer | Korean | Kurdish (Kurmanji)\nKyrgyz | Lao | Latin | Latvian | Lithuanian\nMacedonian | Malagasy | Malay | Malayalam | Marathi\nMongolian | Nepali | Norwegian | Oriya | Oromo\nPashto | Persian | Polish | Portuguese | Punjabi\nRomanian | Russian | Sanskrit | Scottish Gaelic | Serbian\nSindhi | Sinhala | Slovak | Slovenian | Somali\nSpanish | Sundanese | Swahili | Swedish | Tamil\nTamil Romanize | Telugu | Telugu Romanize | Thai | Turkish\nUkrainian | Urdu | Urdu Romanize | Uyghur | Uzbek\nVietnamese | Welsh | Western Frisian | Xhosa | Yiddish\n\n## Pre-trained models\n\nModel | Description | #params | vocab size | Download\n---|---|---|---|---\n`xlmr.base` | XLM-R using the BERT-base architecture | 250M | 250k | [xlm.base.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xlmr.base.tar.gz)\n`xlmr.large` | XLM-R using the BERT-large architecture | 560M | 250k | [xlm.large.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xlmr.large.tar.gz)\n`xlmr.xl` | XLM-R (`layers=36, model_dim=2560`) | 3.5B | 250k | [xlm.xl.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xlmr/xlmr.xl.tar.gz)\n`xlmr.xxl` | XLM-R (`layers=48, model_dim=4096`) | 10.7B | 250k | [xlm.xxl.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xlmr/xlmr.xxl.tar.gz)\n\n## Results\n\n**[XNLI (Conneau et al., 2018)](https://arxiv.org/abs/1809.05053)**\n\nModel | average | en | fr | es | de | el | bg | ru | tr | ar | vi | th | zh | hi | sw | ur\n---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---\n`roberta.large.mnli` _(TRANSLATE-TEST)_ | 77.8 | 91.3 | 82.9 | 84.3 | 81.2 | 81.7 | 83.1 | 78.3 | 76.8 | 76.6 | 74.2 | 74.1 | 77.5 | 70.9 | 66.7 | 66.8\n`xlmr.large` _(TRANSLATE-TRAIN-ALL)_ | 83.6 | 89.1 | 85.1 | 86.6 | 85.7 | 85.3 | 85.9 | 83.5 | 83.2 | 83.1 | 83.7 | 81.5 | 83.7 | 81.6 | 78.0 | 78.1\n`xlmr.xl` _(TRANSLATE-TRAIN-ALL)_ | 85.4 | 91.1 | 87.2 | 88.1 | 87.0 | 87.4 | 87.8 | 85.3 | 85.2 | 85.3 | 86.2 | 83.8 | 85.3 | 83.1 | 79.8 | 78.2 | 85.4\n`xlmr.xxl` _(TRANSLATE-TRAIN-ALL)_ | 86.0 | 91.5 | 87.6 | 88.7 | 87.8 | 87.4 | 88.2 | 85.6 | 85.1 | 85.8 | 86.3 | 83.9 | 85.6 | 84.6 | 81.7 | 80.6\n\n**[MLQA (Lewis et al., 2018)](https://arxiv.org/abs/1910.07475)**\n\nModel | average | en | es | de | ar | hi | vi | zh\n---|---|---|---|---|---|---|---|---\n`BERT-large` | - | 80.2/67.4 | - | - | - | - | - | -\n`mBERT` | 57.7 / 41.6 | 77.7 / 65.2 | 64.3 / 46.6 | 57.9 / 44.3 | 45.7 / 29.8| 43.8 / 29.7 | 57.1 / 38.6 | 57.5 / 37.3\n`xlmr.large` | 70.7 / 52.7 | 80.6 / 67.8 | 74.1 / 56.0 | 68.5 / 53.6 | 63.1 / 43.5 | 69.2 / 51.6 | 71.3 / 50.9 | 68.0 / 45.4\n`xlmr.xl` | 73.4 / 55.3 | 85.1 / 72.6 | 66.7 / 46.2 | 70.5 / 55.5 | 74.3 / 56.9 | 72.2 / 54.7 | 74.4 / 52.9 | 70.9 / 48.5\n`xlmr.xxl` | 74.8 / 56.6 | 85.5 / 72.4 | 68.6 / 48.4 | 72.7 / 57.8 | 75.4 / 57.6 | 73.7 / 55.8 | 76.0 / 55.0 | 71.7 / 48.9 \n\n\n## Example usage\n\n##### Load XLM-R from torch.hub (PyTorch >= 1.1):\n```python\nimport torch\nxlmr = torch.hub.load('pytorch/fairseq:main', 'xlmr.large')\nxlmr.eval()  # disable dropout (or leave in train mode to finetune)\n```\n\n##### Load XLM-R (for PyTorch 1.0 or custom models):\n```python\n# Download xlmr.large model\nwget https://dl.fbaipublicfiles.com/fairseq/models/xlmr.large.tar.gz\ntar -xzvf xlmr.large.tar.gz\n\n# Load the model in fairseq\nfrom fairseq.models.roberta import XLMRModel\nxlmr = XLMRModel.from_pretrained('/path/to/xlmr.large', checkpoint_file='model.pt')\nxlmr.eval()  # disable dropout (or leave in train mode to finetune)\n```\n\n##### Apply sentence-piece-model (SPM) encoding to input text:\n```python\nen_tokens = xlmr.encode('Hello world!')\nassert en_tokens.tolist() == [0, 35378,  8999, 38, 2]\nxlmr.decode(en_tokens)  # 'Hello world!'\n\nzh_tokens = xlmr.encode('你好，世界')\nassert zh_tokens.tolist() == [0, 6, 124084, 4, 3221, 2]\nxlmr.decode(zh_tokens)  # '你好，世界'\n\nhi_tokens = xlmr.encode('नमस्ते दुनिया')\nassert hi_tokens.tolist() == [0, 68700, 97883, 29405, 2]\nxlmr.decode(hi_tokens)  # 'नमस्ते दुनिया'\n\nar_tokens = xlmr.encode('مرحبا بالعالم')\nassert ar_tokens.tolist() == [0, 665, 193478, 258, 1705, 77796, 2]\nxlmr.decode(ar_tokens) # 'مرحبا بالعالم'\n\nfr_tokens = xlmr.encode('Bonjour le monde')\nassert fr_tokens.tolist() == [0, 84602, 95, 11146, 2]\nxlmr.decode(fr_tokens) # 'Bonjour le monde'\n```\n\n##### Extract features from XLM-R:\n```python\n# Extract the last layer's features\nlast_layer_features = xlmr.extract_features(zh_tokens)\nassert last_layer_features.size() == torch.Size([1, 6, 1024])\n\n# Extract all layer's features (layer 0 is the embedding layer)\nall_layers = xlmr.extract_features(zh_tokens, return_all_hiddens=True)\nassert len(all_layers) == 25\nassert torch.all(all_layers[-1] == last_layer_features)\n```\n\n## Citation\n\n```bibtex\n@article{conneau2019unsupervised,\n  title={Unsupervised Cross-lingual Representation Learning at Scale},\n  author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin},\n  journal={arXiv preprint arXiv:1911.02116},\n  year={2019}\n}\n```\n\n\n```bibtex\n@article{goyal2021larger,\n  title={Larger-Scale Transformers for Multilingual Masked Language Modeling},\n  author={Goyal, Naman and Du, Jingfei and Ott, Myle and Anantharaman, Giri and Conneau, Alexis},\n  journal={arXiv preprint arXiv:2105.00572},\n  year={2021}\n}\n```\n"
  },
  {
    "path": "examples/xmod/README.md",
    "content": "# X-MOD: Lifting the Curse of Multilinguality by Pre-training Modular Transformers\n\nhttps://arxiv.org/abs/2205.06266\n\n\n## Introduction\n\nX-MOD extends multilingual masked language models like XLM-R to include language-specific modular components, introduced at each transformer layer. Each module is only used by one language. For fine-tuning, the modular components are frozen, and replaced with the target language in cross-lingual transfer settings.\n\n\n## Pre-trained models\n\nModel | Size | # train steps | # langs | Download\n---|---|---|---|---\n`xmod.base.13.125k` | BERT-base | 125k | 13 | [xmod.base.13.125k.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.13.125k.tar.gz)\n`xmod.base.30.125k` | BERT-base | 125k | 30 | [xmod.base.30.125k.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.30.125k.tar.gz)\n`xmod.base.30.195k` | BERT-base | 195k | 30 | [xmod.base.30.195k.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.30.195k.tar.gz)\n`xmod.base.60.125k` | BERT-base | 125k | 60 | [xmod.base.60.125k.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.60.125k.tar.gz)\n`xmod.base.60.265k` | BERT-base | 265k | 60 | [xmod.base.60.265k.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.60.265k.tar.gz)\n`xmod.base.75.125k` | BERT-base | 125k | 75 | [xmod.base.75.125k.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.75.125k.tar.gz)\n`xmod.base.75.269k` | BERT-base | 269k | 75 | [xmod.base.75.269k.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.75.269k.tar.gz)\n`xmod.base` | BERT-base | 1M | 81 | [xmod.base.81.1M.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.81.1M.tar.gz)\n`xmod.large.prenorm` | BERT-large | 500k | 81 | [xmod.large.prenorm.81.500k.tar.gz](https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.large.prenorm.81.500k.tar.gz)\n\n\n## Fine-tuning on NLI\n\nWe next provide an example of how to fine-tune the pre-trained models above on Natural Language Inference (NLI). We use MNLI for training in English, and show how to run inference in other languages.\n\n### 1) Download a pre-trained model\n\n```bash\nMODEL=xmod.base.81.1M\nwget https://dl.fbaipublicfiles.com/fairseq/models/xmod/$MODEL.tar.gz\ntar -xzf $MODEL.tar.gz\n```\n\n### 2) Download and preprocess [MNLI](https://cims.nyu.edu/~sbowman/multinli/)\n```bash\nwget https://cims.nyu.edu/~sbowman/multinli/multinli_1.0.zip\nunzip multinli_1.0.zip\npython ./examples/xmod/preprocess_nli.py \\\n    --sentencepiece-model $MODEL/sentencepiece.bpe.model \\\n    --train multinli_1.0/multinli_1.0_train.jsonl \\\n    --valid multinli_1.0/multinli_1.0_dev_matched.jsonl \\\n    --destdir multinli_1.0/fairseq\n```\n\n### 3) Fine-tune on MNLI:\n\n```bash\nMAX_EPOCH=5\nLR=1e-05\nBATCH_SIZE=32\nDATA_DIR=multinli_1.0/fairseq/bin\n\nCUDA_VISIBLE_DEVICES=0 fairseq-train $DATA_DIR \\\n    --restore-file $MODEL/model.pt  \\\n    --save-dir $MODEL/nli \\\n    --reset-optimizer  \\\n    --reset-dataloader  \\\n    --reset-meters  \\\n    --best-checkpoint-metric accuracy  \\\n    --maximize-best-checkpoint-metric  \\\n    --task sentence_prediction_adapters  \\\n    --num-classes 3  \\\n    --init-token 0  \\\n    --separator-token 2   \\\n    --max-positions 512  \\\n    --shorten-method \"truncate\"  \\\n    --arch xmod_base  \\\n    --dropout 0.1  \\\n    --attention-dropout 0.1  \\\n    --weight-decay 0.01  \\\n    --criterion sentence_prediction_adapters  \\\n    --optimizer adam  \\\n    --adam-betas '(0.9, 0.98)'  \\\n    --adam-eps 1e-06  \\\n    --clip-norm 0.0  \\\n    --lr-scheduler fixed  \\\n    --lr $LR \\\n    --fp16  \\\n    --fp16-init-scale 4  \\\n    --threshold-loss-scale 1  \\\n    --fp16-scale-window 128  \\\n    --batch-size $BATCH_SIZE  \\\n    --required-batch-size-multiple 1  \\\n    --update-freq 1  \\\n    --max-epoch $MAX_EPOCH\n```\n\n### 4) Run inference\n\nAfter training the model, we can load it and run inference in our target language. The default language is set to English, which is why we were not required to pass a language ID to the model during fine-tuning. To run inference in a non-English language, we need to tell the model that the module of the target language should be used instead:\n\n```python\nfrom fairseq.models.xmod import XMODModel\n\nMODEL='xmod.base.81.1M/nli'\nDATA='multinli_1.0/fairseq/bin'\n\n# Load model\nmodel = XMODModel.from_pretrained(\n            model_name_or_path=MODEL,\n            checkpoint_file='checkpoint_best.pt', \n            data_name_or_path=DATA, \n            suffix='', \n            criterion='cross_entropy', \n            bpe='sentencepiece',  \n            sentencepiece_model=DATA+'/input0/sentencepiece.bpe.model')\nmodel = model.eval();  # disable dropout\nmodel = model.half();  # use FP16\nmodel = model.cuda();  # move to GPU\n\ndef predict(premise, hypothesis, lang):\n    tokens = model.encode(premise, hypothesis)\n    idx = model.predict('sentence_classification_head', tokens, lang_id=[lang]).argmax().item()\n    dictionary = model.task.label_dictionary\n    return dictionary[idx + dictionary.nspecial]\n\npredict(\n    premise='X-Mod hat spezifische Module die für jede Sprache existieren.',\n    hypothesis='X-Mod hat Module.',\n    lang='de_DE'\n)  # entailment\n\npredict(\n    premise='Londres es la capital del Reino Unido.',\n    hypothesis='Londres está en Francia.',\n    lang='es_XX',\n)  # contradiction\n\npredict(\n    premise='Patxik gogoko ditu babarrunak.',\n    hypothesis='Patxik babarrunak bazkaldu zituen.',\n    lang='eu_ES',\n)  # neutral\n```\n\n\n## Citation\n\n```bibtex\n@misc{pfeiffer2022xmod,\n  doi = {10.48550/ARXIV.2205.06266},\n  url = {https://arxiv.org/abs/2205.06266},    \n  title = {Lifting the Curse of Multilinguality by Pre-training Modular Transformers},\n  publisher = {arXiv},\n  year = {2022},\n}\n```\n"
  },
  {
    "path": "examples/xmod/preprocess_nli.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport json\nimport collections\nimport argparse\nimport shutil\nimport subprocess\nimport sys\nimport tempfile\nfrom multiprocessing import Pool\nimport sentencepiece as spm\n\n\ndef preprocess(spm_model_path, train_path, valid_path, test_path, dest_dir, remove_empty=False, output_format='piece', workers=20):\n    with tempfile.TemporaryDirectory() as tmp:\n        # Tokenize with SentencePiece\n        for split, path in ('train', train_path), ('valid', valid_path), ('test', test_path):\n            if path is None:\n                continue\n            if path == '-':\n                path = sys.stdin.fileno()\n            with open(path, encoding='utf-8', errors='surrogateescape') as fin:\n                with open(f'{tmp}/{split}', mode='w', encoding='utf-8', errors='surrogateescape') as fout:\n                    encoder = MultiprocessingEncoder(model=spm_model_path, remove_empty=remove_empty, output_format=output_format)\n                    pool = Pool(workers, initializer=encoder.initializer)\n                    encoded_lines = pool.imap(encoder.encode, fin, 10000)\n                    for i, line in enumerate(encoded_lines, start=1):\n                        if line is not None:\n                            print(line, file=fout)\n                        if i % 10000 == 0:\n                            print(\"tokenized {} lines\".format(i), file=sys.stderr)\n\n        # Generate dictionary\n        sp = spm.SentencePieceProcessor(model_file=spm_model_path)\n        if output_format == 'piece':\n            vocab = [sp.id_to_piece(i) for i in range(3, sp.vocab_size())]\n        else:\n            vocab = map(str, range(sp.vocab_size()))\n        with open(f'{tmp}/dict.txt', mode='w', encoding='utf-8', errors='surrogateescape') as f:\n            for word in vocab:\n                print(word, 1, file=f)\n\n        # Binarize\n        command = [\n            'python3', '-m', 'fairseq_cli.preprocess',\n            '--only-source',\n            '--thresholdsrc', '0',\n            '--destdir', dest_dir,\n            '--srcdict', f'{tmp}/dict.txt',\n            '--workers', '20',\n        ]\n        for split, path in ('train', train_path), ('valid', valid_path), ('test', test_path):\n            if path is not None:\n                command += [f'--{split}pref', f'{tmp}/{split}']\n        subprocess.run(command)\n        \n        # Copy SentencePiece model\n        shutil.copyfile(spm_model_path, f'{dest_dir}/sentencepiece.bpe.model')\n\n\nclass MultiprocessingEncoder(object):\n    def __init__(self, model, remove_empty, output_format):\n        self.model = model\n        self.remove_empty = remove_empty\n        self.output_format = output_format\n\n    def initializer(self):\n        global sp\n        sp = spm.SentencePieceProcessor(model_file=self.model)\n\n    def encode(self, line):\n        global sp\n        line = line.strip()\n        if len(line) == 0 and self.remove_empty:\n            return None\n\n        if self.output_format == 'piece':\n            return ' '.join(sp.encode_as_pieces(line))\n        else:\n            return ' '.join(map(str, sp.encode(line)))\n\n\ndef write_lines(lines, path):\n    with open(path, mode='x', encoding='utf-8') as f:\n        for line in lines:\n            print(line, file=f)\n\n\ndef read_jsonl(path):\n    with open(path, encoding='utf-8') as f:\n        return [json.loads(line) for line in f.read().splitlines()]\n\n\ndef read_nli(path, langs=None):\n    data = read_jsonl(path)\n\n    if langs is not None:\n        data = [sample for sample in data if sample.get('language') in langs]\n\n    lang2count = collections.defaultdict(int)\n    for sample in data:\n        lang2count[sample.get('language')] += 1\n\n    if langs:\n        assert set(lang2count.keys()) == set(langs)\n\n    nlangs = len(lang2count)\n    assert nlangs > 0\n    lens = list(lang2count.values())\n    assert all([lens[0] == length for length in lens])\n\n    print(f'Loaded {lens[0]} samples in {nlangs} languages from {path}', file=sys.stderr)\n    return data\n\n\ndef main():\n    parser = argparse.ArgumentParser(description='Tokenize and binarize NLI data')\n    parser.add_argument('--sentencepiece-model', required=True)\n    parser.add_argument('--train', required=True, help='Training data in jsonl format')\n    parser.add_argument('--valid', required=True, help='Validation data in jsonl format')\n    parser.add_argument('--destdir', required=True)\n\n    args = parser.parse_args()\n\n    os.makedirs(args.destdir + '/raw',)\n    os.makedirs(args.destdir + '/bin', )\n\n    # Extract input/labels\n    for split, path in ('train', args.train), ('valid', args.valid):\n        data = read_nli(path, langs=None)\n        original_size = len(data)\n        data = [sample for sample in data if sample['gold_label'] != '-']\n        assert all(sample['gold_label'] in ('contradiction', 'entailment', 'neutral') for sample in data)\n        filtered_size = len(data)\n        if filtered_size != original_size:\n            print(f'Filtered {filtered_size}/{original_size} samples from {path}', file=sys.stderr)\n        for name, field in ('input0', 'sentence1'), ('input1', 'sentence2'), ('label', 'gold_label'):\n            write_lines([sample[field] for sample in data], f'{args.destdir}/raw/{split}.{name}.txt')\n\n    # Tokenize and binarize input\n    for field in 'input0', 'input1':\n        preprocess(\n            spm_model_path=args.sentencepiece_model,\n            train_path=f'{args.destdir}/raw/train.{field}.txt',\n            valid_path=f'{args.destdir}/raw/valid.{field}.txt',\n            test_path=None,\n            dest_dir=f'{args.destdir}/bin/{field}',\n            workers=20,\n        )\n    \n    # Binarize labels\n    subprocess.run([\n        'python3', '-m', 'fairseq_cli.preprocess',\n        '--trainpref', f'{args.destdir}/raw/train.label.txt',\n        '--validpref', f'{args.destdir}/raw/valid.label.txt',\n        '--only-source',\n        '--thresholdsrc', '0',\n        '--destdir', f'{args.destdir}/bin/label',\n        '--workers', '20',\n    ])\n\n\nif __name__ == '__main__':\n    main()\n"
  },
  {
    "path": "fairseq/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"isort:skip_file\"\"\"\n\nimport os\nimport sys\n\ntry:\n    from .version import __version__  # noqa\nexcept ImportError:\n    version_txt = os.path.join(os.path.dirname(__file__), \"version.txt\")\n    with open(version_txt) as f:\n        __version__ = f.read().strip()\n\n__all__ = [\"pdb\"]\n\n# backwards compatibility to support `from fairseq.X import Y`\nfrom fairseq.distributed import utils as distributed_utils\nfrom fairseq.logging import meters, metrics, progress_bar  # noqa\n\nsys.modules[\"fairseq.distributed_utils\"] = distributed_utils\nsys.modules[\"fairseq.meters\"] = meters\nsys.modules[\"fairseq.metrics\"] = metrics\nsys.modules[\"fairseq.progress_bar\"] = progress_bar\n\n# initialize hydra\nfrom fairseq.dataclass.initialize import hydra_init\n\nhydra_init()\n\nimport fairseq.criterions  # noqa\nimport fairseq.distributed  # noqa\nimport fairseq.models  # noqa\nimport fairseq.modules  # noqa\nimport fairseq.optim  # noqa\nimport fairseq.optim.lr_scheduler  # noqa\nimport fairseq.pdb  # noqa\nimport fairseq.scoring  # noqa\nimport fairseq.tasks  # noqa\nimport fairseq.token_generation_constraints  # noqa\n\nimport fairseq.benchmark  # noqa\nimport fairseq.model_parallel  # noqa\n"
  },
  {
    "path": "fairseq/benchmark/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n# import models/tasks to register them\nfrom . import dummy_dataset, dummy_lm, dummy_masked_lm, dummy_model, dummy_mt  # noqa\n"
  },
  {
    "path": "fairseq/benchmark/benchmark_multihead_attention.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport itertools\nimport random\n\nimport torch\nfrom torch.utils import benchmark\n\nfrom fairseq.modules.multihead_attention import MultiheadAttention\n\nBATCH = [20, 41, 97]\nSEQ = 64\nEMB = 48\nHEADS = 4\nDROP = 0.1\nDEVICE = torch.device(\"cuda\")\nATTN_MASK_DTYPE = [torch.uint8, torch.bool, torch.float]\nKEY_PADDING_MASK_DTYPE = [torch.uint8, torch.bool]\n\n\ndef _reset_seeds():\n    torch.manual_seed(0)\n    random.seed(0)\n\n\ndef _get_mask(to_dtype: torch.dtype, dim0: int, dim1: int):\n    if to_dtype == torch.float:\n        mask = torch.randint(0, 2, (dim0, dim1)).to(dtype=torch.bool)\n        return mask.to(dtype=to_dtype).masked_fill(mask, -float(\"inf\"))\n    return torch.randint(0, 2, (dim0, dim1)).to(dtype=to_dtype)\n\n\ndef benchmark_multihead_attention(\n    label=\"\",\n    attn_dtype=torch.uint8,\n    key_padding_dtype=torch.uint8,\n    add_bias_kv=False,\n    add_zero_attn=False,\n    static_kv=False,\n    batch_size=20,\n    embedding=EMB,\n    seq_len=SEQ,\n    num_heads=HEADS,\n):\n\n    results = []\n    # device = torch.device(\"cuda\")\n\n    xformers_att_config = '{\"name\": \"scaled_dot_product\"}'\n\n    attn_mask = _get_mask(to_dtype=attn_dtype, dim0=seq_len, dim1=seq_len)\n    key_padding_mask = _get_mask(\n        to_dtype=key_padding_dtype, dim0=batch_size, dim1=seq_len\n    )\n\n    q = torch.rand(seq_len, batch_size, embedding, requires_grad=True)\n    k = torch.rand(seq_len, batch_size, embedding, requires_grad=True)\n    v = torch.rand(seq_len, batch_size, embedding, requires_grad=True)\n\n    _reset_seeds()\n\n    original_mha = MultiheadAttention(\n        embedding,\n        num_heads,\n        dropout=0.0,\n        xformers_att_config=None,\n        add_bias_kv=add_bias_kv,\n        add_zero_attn=add_zero_attn,\n    )\n\n    xformers_mha = MultiheadAttention(\n        embedding,\n        num_heads,\n        dropout=0.0,\n        xformers_att_config=xformers_att_config,\n        add_bias_kv=add_bias_kv,\n        add_zero_attn=add_zero_attn,\n    )\n\n    def original_bench_fw(q, k, v, key_padding_mask, attn_mask, static_kv):\n        original_mha(\n            query=q,\n            key=k,\n            value=v,\n            key_padding_mask=key_padding_mask,\n            attn_mask=attn_mask,\n            static_kv=static_kv,\n        )\n\n    def xformers_bench_fw(q, k, v, key_padding_mask, attn_mask, static_kv):\n        xformers_mha(\n            query=q,\n            key=k,\n            value=v,\n            key_padding_mask=key_padding_mask,\n            attn_mask=attn_mask,\n            static_kv=static_kv,\n        )\n\n    def original_bench_fw_bw(q, k, v, key_padding_mask, attn_mask, static_kv):\n        output, _ = original_mha(\n            query=q,\n            key=k,\n            value=v,\n            key_padding_mask=key_padding_mask,\n            attn_mask=attn_mask,\n            static_kv=static_kv,\n        )\n        loss = torch.norm(output)\n        loss.backward()\n\n    def xformers_bench_fw_bw(q, k, v, key_padding_mask, attn_mask, static_kv):\n        output, _ = xformers_mha(\n            query=q,\n            key=k,\n            value=v,\n            key_padding_mask=key_padding_mask,\n            attn_mask=attn_mask,\n            static_kv=static_kv,\n        )\n        loss = torch.norm(output)\n        loss.backward()\n\n    fns = [\n        original_bench_fw,\n        xformers_bench_fw,\n        original_bench_fw_bw,\n        xformers_bench_fw_bw,\n    ]\n\n    for fn in fns:\n        results.append(\n            benchmark.Timer(\n                stmt=\"fn(q, k, v, key_padding_mask, attn_mask, static_kv)\",\n                globals={\n                    \"q\": q,\n                    \"k\": k,\n                    \"v\": v,\n                    \"key_padding_mask\": key_padding_mask,\n                    \"attn_mask\": attn_mask,\n                    \"static_kv\": static_kv,\n                    \"fn\": fn,\n                },\n                label=\"multihead fw + bw\",\n                sub_label=f\"{fn.__name__}\",\n                description=label,\n            ).blocked_autorange(min_run_time=1)\n        )\n\n    compare = benchmark.Compare(results)\n    compare.print()\n\n\ndef run_benchmarks():\n    for attn_dtype, key_padding_dtype, add_bias_kv, add_zero_attn in itertools.product(\n        ATTN_MASK_DTYPE, KEY_PADDING_MASK_DTYPE, [True, False], [True, False]\n    ):\n        label = f\"attn_dtype {attn_dtype}, key_padding_dtype {key_padding_dtype}, \\\n            add_bias_kv {add_bias_kv}, add_zero_attn {add_zero_attn}\"\n        benchmark_multihead_attention(\n            label=label,\n            attn_dtype=attn_dtype,\n            key_padding_dtype=key_padding_dtype,\n            add_bias_kv=add_bias_kv,\n            add_zero_attn=add_zero_attn,\n        )\n\n\nrun_benchmarks()\n"
  },
  {
    "path": "fairseq/benchmark/dummy_dataset.py",
    "content": "import numpy as np\nfrom fairseq.data import FairseqDataset\n\n\nclass DummyDataset(FairseqDataset):\n    def __init__(self, batch, num_items, item_size):\n        super().__init__()\n        self.batch = batch\n        self.num_items = num_items\n        self.item_size = item_size\n\n    def __getitem__(self, index):\n        return index\n\n    def __len__(self):\n        return self.num_items\n\n    def collater(self, samples):\n        return self.batch\n\n    @property\n    def sizes(self):\n        return np.array([self.item_size] * self.num_items)\n\n    def num_tokens(self, index):\n        return self.item_size\n\n    def size(self, index):\n        return self.item_size\n\n    def ordered_indices(self):\n        return np.arange(self.num_items)\n\n    @property\n    def supports_prefetch(self):\n        return False\n"
  },
  {
    "path": "fairseq/benchmark/dummy_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom dataclasses import dataclass, field\nfrom typing import Optional\n\nimport torch\nfrom .dummy_dataset import DummyDataset\nfrom fairseq.data import Dictionary\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.tasks import FairseqTask, register_task\nfrom omegaconf import II\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass DummyLMConfig(FairseqDataclass):\n    dict_size: int = 49996\n    dataset_size: int = 100000\n    tokens_per_sample: int = field(\n        default=512, metadata={\"help\": \"max sequence length\"}\n    )\n    add_bos_token: bool = False\n    batch_size: Optional[int] = II(\"dataset.batch_size\")\n    max_tokens: Optional[int] = II(\"dataset.max_tokens\")\n    max_target_positions: int = II(\"task.tokens_per_sample\")\n\n\n@register_task(\"dummy_lm\", dataclass=DummyLMConfig)\nclass DummyLMTask(FairseqTask):\n    def __init__(self, cfg: DummyLMConfig):\n        super().__init__(cfg)\n\n        # load dictionary\n        self.dictionary = Dictionary()\n        for i in range(cfg.dict_size):\n            self.dictionary.add_symbol(\"word{}\".format(i))\n        self.dictionary.pad_to_multiple_(8)  # often faster if divisible by 8\n        logger.info(\"dictionary: {} types\".format(len(self.dictionary)))\n\n        seq = torch.arange(cfg.tokens_per_sample + 1) + self.dictionary.pad() + 1\n\n        self.dummy_src = seq[:-1]\n        self.dummy_tgt = seq[1:]\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        if self.cfg.batch_size is not None:\n            bsz = self.cfg.batch_size\n        else:\n            bsz = max(1, self.cfg.max_tokens // self.cfg.tokens_per_sample)\n        self.datasets[split] = DummyDataset(\n            {\n                \"id\": 1,\n                \"net_input\": {\n                    \"src_tokens\": torch.stack([self.dummy_src for _ in range(bsz)]),\n                    \"src_lengths\": torch.full(\n                        (bsz,), self.cfg.tokens_per_sample, dtype=torch.long\n                    ),\n                },\n                \"target\": torch.stack([self.dummy_tgt for _ in range(bsz)]),\n                \"nsentences\": bsz,\n                \"ntokens\": bsz * self.cfg.tokens_per_sample,\n            },\n            num_items=self.cfg.dataset_size,\n            item_size=self.cfg.tokens_per_sample,\n        )\n\n    @property\n    def source_dictionary(self):\n        return self.dictionary\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n"
  },
  {
    "path": "fairseq/benchmark/dummy_masked_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom dataclasses import dataclass, field\nfrom typing import Optional\n\nimport torch\nfrom omegaconf import II\n\nfrom .dummy_dataset import DummyDataset\nfrom fairseq.data import Dictionary\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.tasks import FairseqTask, register_task\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass DummyMaskedLMConfig(FairseqDataclass):\n    dict_size: int = 49996\n    dataset_size: int = 100000\n    tokens_per_sample: int = field(\n        default=512,\n        metadata={\n            \"help\": \"max number of total tokens over all\"\n            \" segments per sample for BERT dataset\"\n        },\n    )\n    batch_size: Optional[int] = II(\"dataset.batch_size\")\n    max_tokens: Optional[int] = II(\"dataset.max_tokens\")\n    max_target_positions: int = II(\"task.tokens_per_sample\")\n\n\n@register_task(\"dummy_masked_lm\", dataclass=DummyMaskedLMConfig)\nclass DummyMaskedLMTask(FairseqTask):\n    def __init__(self, cfg: DummyMaskedLMConfig):\n        super().__init__(cfg)\n\n        self.dictionary = Dictionary()\n        for i in range(cfg.dict_size):\n            self.dictionary.add_symbol(\"word{}\".format(i))\n        logger.info(\"dictionary: {} types\".format(len(self.dictionary)))\n        # add mask token\n        self.mask_idx = self.dictionary.add_symbol(\"<mask>\")\n        self.dictionary.pad_to_multiple_(8)  # often faster if divisible by 8\n\n        mask_idx = 0\n        pad_idx = 1\n        seq = torch.arange(cfg.tokens_per_sample) + pad_idx + 1\n        mask = torch.arange(2, cfg.tokens_per_sample, 7)  # ~15%\n        src = seq.clone()\n        src[mask] = mask_idx\n        tgt = torch.full_like(seq, pad_idx)\n        tgt[mask] = seq[mask]\n\n        self.dummy_src = src\n        self.dummy_tgt = tgt\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        if self.cfg.batch_size is not None:\n            bsz = self.cfg.batch_size\n        else:\n            bsz = max(1, self.cfg.max_tokens // self.cfg.tokens_per_sample)\n        self.datasets[split] = DummyDataset(\n            {\n                \"id\": 1,\n                \"net_input\": {\n                    \"src_tokens\": torch.stack([self.dummy_src for _ in range(bsz)]),\n                    \"src_lengths\": torch.full(\n                        (bsz,), self.cfg.tokens_per_sample, dtype=torch.long\n                    ),\n                },\n                \"target\": torch.stack([self.dummy_tgt for _ in range(bsz)]),\n                \"nsentences\": bsz,\n                \"ntokens\": bsz * self.cfg.tokens_per_sample,\n            },\n            num_items=self.cfg.dataset_size,\n            item_size=self.cfg.tokens_per_sample,\n        )\n\n    @property\n    def source_dictionary(self):\n        return self.dictionary\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n"
  },
  {
    "path": "fairseq/benchmark/dummy_model.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq.data import Dictionary\nfrom fairseq.models import (\n    FairseqDecoder,\n    FairseqLanguageModel,\n    register_model,\n    register_model_architecture,\n)\n\n\n@register_model(\"dummy_model\")\nclass DummyModel(FairseqLanguageModel):\n    def __init__(self, args, encoder):\n        super().__init__(encoder)\n        self.args = args\n\n    @staticmethod\n    def add_args(parser):\n        parser.add_argument(\"--num-layers\", type=int, default=24)\n        parser.add_argument(\"--embed-dim\", type=int, default=1024)\n\n    @classmethod\n    def build_model(cls, args, task):\n        encoder = DummyEncoder(\n            num_embed=len(task.target_dictionary),\n            embed_dim=args.embed_dim,\n            num_layers=args.num_layers,\n        )\n        return cls(args, encoder)\n\n    def forward(self, src_tokens, masked_tokens=None, **kwargs):\n        return self.decoder(src_tokens, masked_tokens=masked_tokens)\n\n\nclass DummyEncoder(FairseqDecoder):\n    def __init__(self, num_embed=50000, embed_dim=1024, num_layers=24):\n        super().__init__(Dictionary())\n        self.embed = nn.Embedding(\n            num_embeddings=num_embed, embedding_dim=embed_dim, padding_idx=0\n        )\n        self.layers_a = nn.ModuleList(\n            [\n                nn.Sequential(\n                    nn.LayerNorm(embed_dim),\n                    nn.Linear(embed_dim, 3 * embed_dim),  # q, k, v input projection\n                    nn.Linear(3 * embed_dim, embed_dim),  # skip self-attention\n                    nn.Linear(embed_dim, embed_dim),  # output projection\n                    nn.Dropout(),\n                )\n                for i in range(num_layers)\n            ]\n        )\n        self.layers_b = nn.ModuleList(\n            [\n                nn.Sequential(\n                    nn.LayerNorm(embed_dim),\n                    nn.Linear(embed_dim, 4 * embed_dim),  # FFN\n                    nn.ReLU(),\n                    nn.Linear(4 * embed_dim, embed_dim),  # FFN\n                    nn.Dropout(0.1),\n                )\n                for i in range(num_layers)\n            ]\n        )\n        self.out_proj = nn.Linear(embed_dim, num_embed)\n\n    def forward(self, tokens, masked_tokens=None):\n        x = self.embed(tokens)\n        for layer_a, layer_b in zip(self.layers_a, self.layers_b):\n            x = x + layer_a(x)\n            x = x + layer_b(x)\n        x = self.out_proj(x)\n        if masked_tokens is not None:\n            x = x[masked_tokens]\n        return (x,)\n\n    def max_positions(self):\n        return 1024\n\n    def get_normalized_probs(self, net_output, log_probs, sample=None):\n        logits = net_output[0].float()\n        if log_probs:\n            return F.log_softmax(logits, dim=-1)\n        else:\n            return F.softmax(logits, dim=-1)\n\n\n@register_model_architecture(\"dummy_model\", \"dummy_model\")\ndef base_architecture(args):\n    pass\n"
  },
  {
    "path": "fairseq/benchmark/dummy_mt.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nimport numpy as np\nimport torch\n\nfrom fairseq.data import Dictionary, FairseqDataset\nfrom fairseq.tasks import LegacyFairseqTask, register_task\n\nlogger = logging.getLogger(__name__)\n\n\n@register_task(\"dummy_mt\")\nclass DummyMTTask(LegacyFairseqTask):\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        parser.add_argument(\"--dict-size\", default=49996, type=int)\n        parser.add_argument(\"--dataset-size\", default=100000, type=int)\n        parser.add_argument(\"--src-len\", default=30, type=int)\n        parser.add_argument(\"--tgt-len\", default=30, type=int)\n\n    def __init__(self, args, dictionary):\n        super().__init__(args)\n        self.dictionary = dictionary\n        self.seed = args.seed\n\n        dictionary.pad_to_multiple_(8)  # often faster if divisible by 8\n\n        self.dummy_src = torch.arange(args.src_len + 1) + dictionary.pad() + 1\n        self.dummy_tgt = torch.arange(args.tgt_len + 1) + dictionary.pad() + 1\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        \"\"\"Setup the task.\"\"\"\n        dictionary = Dictionary()\n        for i in range(args.dict_size):\n            dictionary.add_symbol(\"word{}\".format(i))\n        logger.info(\"dictionary: {} types\".format(len(dictionary)))\n\n        args.max_source_positions = args.src_len + dictionary.pad() + 2\n        args.max_target_positions = args.tgt_len + dictionary.pad() + 2\n\n        return cls(args, dictionary)\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        item_size = max(self.args.src_len, self.args.tgt_len)\n        if self.args.batch_size is not None:\n            bsz = self.args.batch_size\n        else:\n            bsz = max(1, self.args.max_tokens // item_size)\n        tgt = torch.stack([self.dummy_tgt for _ in range(bsz)])\n        self.datasets[split] = DummyDataset(\n            {\n                \"id\": 1,\n                \"net_input\": {\n                    \"src_tokens\": torch.stack([self.dummy_src for _ in range(bsz)]),\n                    \"src_lengths\": torch.full(\n                        (bsz,), self.args.src_len, dtype=torch.long\n                    ),\n                    \"prev_output_tokens\": tgt.clone(),\n                },\n                \"target\": tgt,\n                \"nsentences\": bsz,\n                \"ntokens\": bsz * self.args.tgt_len,\n            },\n            num_items=self.args.dataset_size,\n            item_size=item_size,\n        )\n\n    @property\n    def source_dictionary(self):\n        return self.dictionary\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n\n\nclass DummyDataset(FairseqDataset):\n    def __init__(self, batch, num_items, item_size):\n        super().__init__()\n        self.batch = batch\n        self.num_items = num_items\n        self.item_size = item_size\n\n    def __getitem__(self, index):\n        return index\n\n    def __len__(self):\n        return self.num_items\n\n    def collater(self, samples):\n        return self.batch\n\n    @property\n    def sizes(self):\n        return np.array([self.item_size] * self.num_items)\n\n    def num_tokens(self, index):\n        return self.item_size\n\n    def size(self, index):\n        return self.item_size\n\n    def ordered_indices(self):\n        return np.arange(self.num_items)\n\n    @property\n    def supports_prefetch(self):\n        return False\n"
  },
  {
    "path": "fairseq/binarizer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport typing as tp\nfrom abc import ABC, abstractmethod\nfrom collections import Counter\nfrom dataclasses import dataclass\nfrom multiprocessing import Pool\n\nimport torch\n\nfrom fairseq.data import Dictionary, indexed_dataset\nfrom fairseq.file_chunker_utils import Chunker, find_offsets\nfrom fairseq.file_io import PathManager\nfrom fairseq.tokenizer import tokenize_line\n\nlogger = logging.getLogger(\"binarizer\")\n\n\n@dataclass\nclass BinarizeSummary:\n    \"\"\"\n    Keep track of what's going on in the binarizer\n    \"\"\"\n\n    num_seq: int = 0\n    replaced: tp.Optional[Counter] = None\n    num_tok: int = 0\n\n    @property\n    def num_replaced(self) -> int:\n        if self.replaced is None:\n            return 0\n        return sum(self.replaced.values())\n\n    @property\n    def replaced_percent(self) -> float:\n        return 100 * self.num_replaced / self.num_tok\n\n    def __str__(self) -> str:\n        base = f\"{self.num_seq} sents, {self.num_tok} tokens\"\n        if self.replaced is None:\n            return base\n\n        return f\"{base}, {self.replaced_percent:.3}% replaced\"\n\n    def merge(self, other: \"BinarizeSummary\"):\n        replaced = None\n        if self.replaced is not None:\n            replaced = self.replaced\n        if other.replaced is not None:\n            if replaced is None:\n                replaced = other.replaced\n            else:\n                replaced += other.replaced\n        self.replaced = replaced\n        self.num_seq += other.num_seq\n        self.num_tok += other.num_tok\n\n\nclass Binarizer(ABC):\n    \"\"\"\n    a binarizer describes how to take a string and build a tensor out of it\n    \"\"\"\n\n    @abstractmethod\n    def binarize_line(\n        self,\n        line: str,\n        summary: BinarizeSummary,\n    ) -> torch.IntTensor:\n        ...\n\n\ndef _worker_prefix(output_prefix: str, worker_id: int):\n    return f\"{output_prefix}.pt{worker_id}\"\n\n\nclass FileBinarizer:\n    \"\"\"\n    An file binarizer can take a file, tokenize it, and binarize each line to a tensor\n    \"\"\"\n\n    @classmethod\n    def multiprocess_dataset(\n        cls,\n        input_file: str,\n        dataset_impl: str,\n        binarizer: Binarizer,\n        output_prefix: str,\n        vocab_size=None,\n        num_workers=1,\n    ) -> BinarizeSummary:\n        final_summary = BinarizeSummary()\n\n        offsets = find_offsets(input_file, num_workers)\n        # find_offsets returns a list of position [pos1, pos2, pos3, pos4] but we would want pairs:\n        # [(pos1, pos2), (pos2, pos3), (pos3, pos4)] to process the chunks with start/end info\n        # we zip the list with itself shifted by one to get all the pairs.\n        (first_chunk, *more_chunks) = zip(offsets, offsets[1:])\n        pool = None\n        if num_workers > 1:\n            pool = Pool(processes=num_workers - 1)\n            worker_results = [\n                pool.apply_async(\n                    cls._binarize_chunk_and_finalize,\n                    args=(\n                        binarizer,\n                        input_file,\n                        start_offset,\n                        end_offset,\n                        _worker_prefix(\n                            output_prefix,\n                            worker_id,\n                        ),\n                        dataset_impl,\n                    ),\n                    kwds={\n                        \"vocab_size\": vocab_size,\n                    }\n                    if vocab_size is not None\n                    else {},\n                )\n                for worker_id, (start_offset, end_offset) in enumerate(\n                    more_chunks, start=1\n                )\n            ]\n\n            pool.close()\n            pool.join()\n            for r in worker_results:\n                summ = r.get()\n                final_summary.merge(summ)\n\n        # do not close the bin file as we need to merge the worker results in\n        final_ds, summ = cls._binarize_file_chunk(\n            binarizer,\n            input_file,\n            offset_start=first_chunk[0],\n            offset_end=first_chunk[1],\n            output_prefix=output_prefix,\n            dataset_impl=dataset_impl,\n            vocab_size=vocab_size if vocab_size is not None else None,\n        )\n        final_summary.merge(summ)\n\n        if num_workers > 1:\n            for worker_id in range(1, num_workers):\n                # merge the worker outputs\n                worker_output_prefix = _worker_prefix(\n                    output_prefix,\n                    worker_id,\n                )\n                final_ds.merge_file_(worker_output_prefix)\n                try:\n                    os.remove(indexed_dataset.data_file_path(worker_output_prefix))\n                    os.remove(indexed_dataset.index_file_path(worker_output_prefix))\n                except Exception as e:\n                    logger.error(\n                        f\"couldn't remove {worker_output_prefix}.*\", exc_info=e\n                    )\n\n        #  now we can close the file\n        idx_file = indexed_dataset.index_file_path(output_prefix)\n        final_ds.finalize(idx_file)\n        return final_summary\n\n    @staticmethod\n    def _binarize_file_chunk(\n        binarizer: Binarizer,\n        filename: str,\n        offset_start: int,\n        offset_end: int,\n        output_prefix: str,\n        dataset_impl: str,\n        vocab_size=None,\n    ) -> tp.Tuple[tp.Any, BinarizeSummary]:  # (dataset builder, BinarizeSummary)\n        \"\"\"\n        creates a dataset builder and append binarized items to it. This function does not\n        finalize the builder, this is useful if you want to do other things with your bin file\n        like appending/merging other files\n        \"\"\"\n        bin_file = indexed_dataset.data_file_path(output_prefix)\n        ds = indexed_dataset.make_builder(\n            bin_file,\n            impl=dataset_impl,\n            vocab_size=vocab_size,\n        )\n        summary = BinarizeSummary()\n\n        with Chunker(\n            PathManager.get_local_path(filename), offset_start, offset_end\n        ) as line_iterator:\n            for line in line_iterator:\n                ds.add_item(binarizer.binarize_line(line, summary))\n\n        return ds, summary\n\n    @classmethod\n    def _binarize_chunk_and_finalize(\n        cls,\n        binarizer: Binarizer,\n        filename: str,\n        offset_start: int,\n        offset_end: int,\n        output_prefix: str,\n        dataset_impl: str,\n        vocab_size=None,\n    ):\n        \"\"\"\n        same as above, but also finalizes the builder\n        \"\"\"\n        ds, summ = cls._binarize_file_chunk(\n            binarizer,\n            filename,\n            offset_start,\n            offset_end,\n            output_prefix,\n            dataset_impl,\n            vocab_size=vocab_size,\n        )\n\n        idx_file = indexed_dataset.index_file_path(output_prefix)\n        ds.finalize(idx_file)\n\n        return summ\n\n\nclass VocabularyDatasetBinarizer(Binarizer):\n    \"\"\"\n    Takes a Dictionary/Vocabulary, assign ids to each\n    token using the dictionary encode_line function.\n    \"\"\"\n\n    def __init__(\n        self,\n        dict: Dictionary,\n        tokenize: tp.Callable[[str], tp.List[str]] = tokenize_line,\n        append_eos: bool = True,\n        reverse_order: bool = False,\n        already_numberized: bool = False,\n    ) -> None:\n        self.dict = dict\n        self.tokenize = tokenize\n        self.append_eos = append_eos\n        self.reverse_order = reverse_order\n        self.already_numberized = already_numberized\n        super().__init__()\n\n    def binarize_line(\n        self,\n        line: str,\n        summary: BinarizeSummary,\n    ):\n        if summary.replaced is None:\n            summary.replaced = Counter()\n\n        def replaced_consumer(word, idx):\n            if idx == self.dict.unk_index and word != self.dict.unk_word:\n                summary.replaced.update([word])\n\n        if self.already_numberized:\n            id_strings = line.strip().split()\n            id_list = [int(id_string) for id_string in id_strings]\n            if self.reverse_order:\n                id_list.reverse()\n            if self.append_eos:\n                id_list.append(self.dict.eos())\n            ids = torch.IntTensor(id_list)\n        else:\n            ids = self.dict.encode_line(\n                line=line,\n                line_tokenizer=self.tokenize,\n                add_if_not_exist=False,\n                consumer=replaced_consumer,\n                append_eos=self.append_eos,\n                reverse_order=self.reverse_order,\n            )\n\n        summary.num_seq += 1\n        summary.num_tok += len(ids)\n        return ids\n\n\nclass AlignmentDatasetBinarizer(Binarizer):\n    \"\"\"\n    binarize by parsing a set of alignments and packing\n    them in a tensor (see utils.parse_alignment)\n    \"\"\"\n\n    def __init__(\n        self,\n        alignment_parser: tp.Callable[[str], torch.IntTensor],\n    ) -> None:\n        super().__init__()\n        self.alignment_parser = alignment_parser\n\n    def binarize_line(\n        self,\n        line: str,\n        summary: BinarizeSummary,\n    ):\n        ids = self.alignment_parser(line)\n        summary.num_seq += 1\n        summary.num_tok += len(ids)\n        return ids\n\n\nclass LegacyBinarizer:\n    @classmethod\n    def binarize(\n        cls,\n        filename: str,\n        dico: Dictionary,\n        consumer: tp.Callable[[torch.IntTensor], None],\n        tokenize: tp.Callable[[str], tp.List[str]] = tokenize_line,\n        append_eos: bool = True,\n        reverse_order: bool = False,\n        offset: int = 0,\n        end: int = -1,\n        already_numberized: bool = False,\n    ) -> tp.Dict[str, int]:\n        binarizer = VocabularyDatasetBinarizer(\n            dict=dico,\n            tokenize=tokenize,\n            append_eos=append_eos,\n            reverse_order=reverse_order,\n            already_numberized=already_numberized,\n        )\n        return cls._consume_file(\n            filename,\n            binarizer,\n            consumer,\n            offset_start=offset,\n            offset_end=end,\n        )\n\n    @classmethod\n    def binarize_alignments(\n        cls,\n        filename: str,\n        alignment_parser: tp.Callable[[str], torch.IntTensor],\n        consumer: tp.Callable[[torch.IntTensor], None],\n        offset: int = 0,\n        end: int = -1,\n    ) -> tp.Dict[str, int]:\n        binarizer = AlignmentDatasetBinarizer(alignment_parser)\n        return cls._consume_file(\n            filename,\n            binarizer,\n            consumer,\n            offset_start=offset,\n            offset_end=end,\n        )\n\n    @staticmethod\n    def _consume_file(\n        filename: str,\n        binarizer: Binarizer,\n        consumer: tp.Callable[[torch.IntTensor], None],\n        offset_start: int,\n        offset_end: int,\n    ) -> tp.Dict[str, int]:\n        summary = BinarizeSummary()\n\n        with Chunker(\n            PathManager.get_local_path(filename), offset_start, offset_end\n        ) as line_iterator:\n            for line in line_iterator:\n                consumer(binarizer.binarize_line(line, summary))\n\n        return {\n            \"nseq\": summary.num_seq,\n            \"nunk\": summary.num_replaced,\n            \"ntok\": summary.num_tok,\n            \"replaced\": summary.replaced,\n        }\n"
  },
  {
    "path": "fairseq/checkpoint_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport ast\nimport collections\nimport contextlib\nimport inspect\nimport logging\nimport os\nimport re\nimport time\nimport traceback\nfrom collections import OrderedDict\nfrom pathlib import Path\nfrom typing import Any, Dict, Optional, Union\n\nimport numpy as np\nimport torch\nfrom fairseq.data import data_utils\nfrom fairseq.dataclass.configs import CheckpointConfig\nfrom fairseq.dataclass.utils import (\n    convert_namespace_to_omegaconf,\n    overwrite_args_by_name,\n)\nfrom fairseq.distributed.fully_sharded_data_parallel import FSDP, has_FSDP\nfrom fairseq.file_io import PathManager\nfrom fairseq.models import FairseqDecoder, FairseqEncoder\nfrom omegaconf import DictConfig, OmegaConf, open_dict\n\nlogger = logging.getLogger(__name__)\n\n\ndef save_checkpoint(cfg: CheckpointConfig, trainer, epoch_itr, val_loss):\n    from fairseq import meters\n\n    # only one worker should attempt to create the required dir\n    if trainer.data_parallel_rank == 0:\n        os.makedirs(cfg.save_dir, exist_ok=True)\n\n    prev_best = getattr(save_checkpoint, \"best\", val_loss)\n    if val_loss is not None:\n        best_function = max if cfg.maximize_best_checkpoint_metric else min\n        save_checkpoint.best = best_function(val_loss, prev_best)\n\n    if cfg.no_save:\n        return None\n\n    trainer.consolidate_optimizer()  # TODO(SS): do we need this if no_save_optimizer_state\n\n    if not trainer.should_save_checkpoint_on_current_rank:\n        if trainer.always_call_state_dict_during_save_checkpoint:\n            trainer.state_dict()\n        return None\n\n    write_timer = meters.StopwatchMeter()\n    write_timer.start()\n\n    epoch = epoch_itr.epoch\n    end_of_epoch = epoch_itr.end_of_epoch()\n    updates = trainer.get_num_updates()\n\n    logger.info(f\"Preparing to save checkpoint for epoch {epoch} @ {updates} updates\")\n\n    def is_better(a, b):\n        return a >= b if cfg.maximize_best_checkpoint_metric else a <= b\n\n    suffix = trainer.checkpoint_suffix\n    checkpoint_conds = collections.OrderedDict()\n    checkpoint_conds[\"checkpoint{}{}.pt\".format(epoch, suffix)] = (\n        end_of_epoch and not cfg.no_epoch_checkpoints and epoch % cfg.save_interval == 0\n    )\n    checkpoint_conds[\"checkpoint_{}_{}{}.pt\".format(epoch, updates, suffix)] = (\n        not end_of_epoch\n        and cfg.save_interval_updates > 0\n        and updates % cfg.save_interval_updates == 0\n    )\n    checkpoint_conds[\"checkpoint_best{}.pt\".format(suffix)] = val_loss is not None and (\n        not hasattr(save_checkpoint, \"best\")\n        or is_better(val_loss, save_checkpoint.best)\n    )\n    if val_loss is not None and cfg.keep_best_checkpoints > 0:\n        worst_best = getattr(save_checkpoint, \"best\", None)\n        chkpts = checkpoint_paths(\n            cfg.save_dir,\n            pattern=r\"checkpoint\\.best_{}_(\\d+\\.?\\d*){}\\.pt\".format(\n                cfg.best_checkpoint_metric, suffix\n            ),\n        )\n        if len(chkpts) > 0:\n            p = chkpts[-1] if cfg.maximize_best_checkpoint_metric else chkpts[0]\n            worst_best = float(p.rsplit(\"_\")[-1].replace(\"{}.pt\".format(suffix), \"\"))\n        # add random digits to resolve ties\n        with data_utils.numpy_seed(epoch, updates, val_loss):\n            rand_sfx = np.random.randint(0, cfg.keep_best_checkpoints)\n\n        checkpoint_conds[\n            \"checkpoint.best_{}_{:.3f}{}{}.pt\".format(\n                cfg.best_checkpoint_metric, val_loss, rand_sfx, suffix\n            )\n        ] = worst_best is None or is_better(val_loss, worst_best)\n    checkpoint_conds[\n        \"checkpoint_last{}.pt\".format(suffix)\n    ] = not cfg.no_last_checkpoints\n\n    extra_state = {\n        \"train_iterator\": epoch_itr.state_dict(),\n        \"val_loss\": val_loss,\n    }\n\n    # Going forward, different tasks could expose an API like this to dump all\n    # the checkpoint worthy attributes in a dictionary which then will be\n    # merged with the parent dictionary to create the \"extra_state\". This\n    # allows for an extensible yet simple design to checkpoint task level\n    # attributes\n    if hasattr(trainer.task, \"get_checkpoint_dict\"):\n        extra_state = {**extra_state, **trainer.task.get_checkpoint_dict()}\n        logger.info(f\"State of {trainer.task.__class__.__name__} is ready to be persisted with the checkpoint\")\n\n    if hasattr(save_checkpoint, \"best\"):\n        extra_state.update({\"best\": save_checkpoint.best})\n\n    checkpoints = [\n        os.path.join(cfg.save_dir, fn) for fn, cond in checkpoint_conds.items() if cond\n    ]\n    saved_cp = None\n    if len(checkpoints) > 0 and trainer.should_save_checkpoint_on_current_rank:\n        saved_cp = trainer.save_checkpoint(checkpoints[0], extra_state)\n        for cp in checkpoints[1:]:\n            if cfg.write_checkpoints_asynchronously:\n                # TODO[ioPath]: Need to implement a delayed asynchronous\n                # file copying/moving feature.\n                logger.warning(\n                    f\"ioPath is not copying {checkpoints[0]} to {cp} \"\n                    \"since async write mode is on.\"\n                )\n            else:\n                assert PathManager.copy(\n                    checkpoints[0], cp, overwrite=True\n                ), f\"Failed to copy {checkpoints[0]} to {cp}\"\n\n        write_timer.stop()\n        logger.info(\n            \"Saved checkpoint {} (epoch {} @ {} updates, score {}) (writing took {} seconds)\".format(\n                checkpoints[0], epoch, updates, val_loss, write_timer.sum\n            )\n        )\n\n    if (\n        not end_of_epoch\n        and cfg.keep_interval_updates > 0\n        and trainer.should_save_checkpoint_on_current_rank\n    ):\n        # remove old checkpoints; checkpoints are sorted in descending order\n        if cfg.keep_interval_updates_pattern == -1:\n            checkpoints = checkpoint_paths(\n                cfg.save_dir, pattern=r\"checkpoint_\\d+_(\\d+){}\\.pt\".format(suffix)\n            )\n        else:\n            checkpoints = checkpoint_paths(\n                cfg.save_dir,\n                pattern=r\"checkpoint_\\d+_(\\d+){}\\.pt\".format(suffix),\n                keep_match=True,\n            )\n            checkpoints = [\n                x[0]\n                for x in checkpoints\n                if x[1] % cfg.keep_interval_updates_pattern != 0\n            ]\n\n        for old_chk in checkpoints[cfg.keep_interval_updates :]:\n            if os.path.lexists(old_chk):\n                os.remove(old_chk)\n            elif PathManager.exists(old_chk):\n                PathManager.rm(old_chk)\n\n    if cfg.keep_last_epochs > 0 and trainer.should_save_checkpoint_on_current_rank:\n        # remove old epoch checkpoints; checkpoints are sorted in descending order\n        checkpoints = checkpoint_paths(\n            cfg.save_dir, pattern=r\"checkpoint(\\d+){}\\.pt\".format(suffix)\n        )\n        for old_chk in checkpoints[cfg.keep_last_epochs :]:\n            if os.path.lexists(old_chk):\n                os.remove(old_chk)\n            elif PathManager.exists(old_chk):\n                PathManager.rm(old_chk)\n\n    if cfg.keep_best_checkpoints > 0 and trainer.should_save_checkpoint_on_current_rank:\n        # only keep the best N checkpoints according to validation metric\n        checkpoints = checkpoint_paths(\n            cfg.save_dir,\n            pattern=r\"checkpoint\\.best_{}_(\\d+\\.?\\d*){}\\.pt\".format(\n                cfg.best_checkpoint_metric, suffix\n            ),\n        )\n        if not cfg.maximize_best_checkpoint_metric:\n            checkpoints = checkpoints[::-1]\n        for old_chk in checkpoints[cfg.keep_best_checkpoints :]:\n            if os.path.lexists(old_chk):\n                os.remove(old_chk)\n            elif PathManager.exists(old_chk):\n                PathManager.rm(old_chk)\n\n    return saved_cp\n\n\ndef load_checkpoint(cfg: CheckpointConfig, trainer, **passthrough_args):\n    \"\"\"\n    Load a checkpoint and restore the training iterator.\n\n    *passthrough_args* will be passed through to\n    ``trainer.get_train_iterator``.\n    \"\"\"\n\n    reset_optimizer = cfg.reset_optimizer\n    reset_lr_scheduler = cfg.reset_lr_scheduler\n    optimizer_overrides = ast.literal_eval(cfg.optimizer_overrides)\n    reset_meters = cfg.reset_meters\n    reset_dataloader = cfg.reset_dataloader\n\n    if cfg.finetune_from_model is not None and (\n        reset_optimizer or reset_lr_scheduler or reset_meters or reset_dataloader\n    ):\n        raise ValueError(\n            \"--finetune-from-model can not be set together with either --reset-optimizer\"\n            \" or reset_lr_scheduler or reset_meters or reset_dataloader\"\n        )\n\n    suffix = trainer.checkpoint_suffix\n    if (\n        cfg.restore_file == \"checkpoint_last.pt\"\n    ):  # default value of restore_file is 'checkpoint_last.pt'\n        checkpoint_path = os.path.join(\n            cfg.save_dir, \"checkpoint_last{}.pt\".format(suffix)\n        )\n        first_launch = not PathManager.exists(checkpoint_path)\n        if first_launch and getattr(cfg, \"continue_once\", None) is not None:\n            checkpoint_path = cfg.continue_once\n        elif cfg.finetune_from_model is not None and first_launch:\n            # if there is no last checkpoint to restore, start the finetune from pretrained model\n            # else just use usual logic to load checkpoint, e.g. restart from last checkpoint and etc.\n            if PathManager.exists(cfg.finetune_from_model):\n                checkpoint_path = cfg.finetune_from_model\n                reset_optimizer = True\n                reset_lr_scheduler = True\n                reset_meters = True\n                reset_dataloader = True\n                logger.info(\n                    f\"loading pretrained model from {checkpoint_path}: \"\n                    \"optimizer, lr scheduler, meters, dataloader will be reset\"\n                )\n            else:\n                raise ValueError(\n                    f\"--finetune-from-model {cfg.finetune_from_model} does not exist\"\n                )\n    elif suffix is not None:\n        checkpoint_path = cfg.restore_file.replace(\".pt\", suffix + \".pt\")\n    else:\n        checkpoint_path = cfg.restore_file\n\n    if cfg.restore_file != \"checkpoint_last.pt\" and cfg.finetune_from_model:\n        raise ValueError(\n            \"--finetune-from-model and --restore-file (non-default value) \"\n            \"can not be specified together: \" + str(cfg)\n        )\n\n    extra_state = trainer.load_checkpoint(\n        checkpoint_path,\n        reset_optimizer,\n        reset_lr_scheduler,\n        optimizer_overrides,\n        reset_meters=reset_meters,\n    )\n\n    if (\n        extra_state is not None\n        and \"best\" in extra_state\n        and not reset_optimizer\n        and not reset_meters\n    ):\n        save_checkpoint.best = extra_state[\"best\"]\n\n    if extra_state is not None and not reset_dataloader:\n        # restore iterator from checkpoint\n        itr_state = extra_state[\"train_iterator\"]\n        epoch_itr = trainer.get_train_iterator(\n            epoch=itr_state[\"epoch\"], load_dataset=True, **passthrough_args\n        )\n        epoch_itr.load_state_dict(itr_state)\n\n        # Preload the checkpoint for the task\n        task_cp_dict = extra_state.get(trainer.task.__class__.__name__, {})\n        if task_cp_dict and hasattr(trainer.task, \"set_checkpoint_dict\"):\n            trainer.task.set_checkpoint_dict(task_cp_dict)\n    else:\n        epoch_itr = trainer.get_train_iterator(\n            epoch=1, load_dataset=True, **passthrough_args\n        )\n\n    trainer.lr_step(epoch_itr.epoch)\n\n    return extra_state, epoch_itr\n\n\ndef load_checkpoint_to_cpu(path, arg_overrides=None, load_on_all_ranks=False):\n    \"\"\"Loads a checkpoint to CPU (with upgrading for backward compatibility).\n\n    If doing single-GPU training or if the checkpoint is only being loaded by at\n    most one process on each node (current default behavior is for only rank 0\n    to read the checkpoint from disk), load_on_all_ranks should be False to\n    avoid errors from torch.distributed not having been initialized or\n    torch.distributed.barrier() hanging.\n\n    If all processes on each node may be loading the checkpoint\n    simultaneously, load_on_all_ranks should be set to True to avoid I/O\n    conflicts.\n\n    There's currently no support for > 1 but < all processes loading the\n    checkpoint on each node.\n    \"\"\"\n    local_path = PathManager.get_local_path(path)\n    # The locally cached file returned by get_local_path() may be stale for\n    # remote files that are periodically updated/overwritten (ex:\n    # checkpoint_last.pt) - so we remove the local copy, sync across processes\n    # (if needed), and then download a fresh copy.\n    if local_path != path and PathManager.path_requires_pathmanager(path):\n        try:\n            os.remove(local_path)\n        except FileNotFoundError:\n            # With potentially multiple processes removing the same file, the\n            # file being missing is benign (missing_ok isn't available until\n            # Python 3.8).\n            pass\n        if load_on_all_ranks:\n            torch.distributed.barrier()\n        local_path = PathManager.get_local_path(path)\n\n    with open(local_path, \"rb\") as f:\n        state = torch.load(f, map_location=torch.device(\"cpu\"), weights_only=False)\n\n    if \"args\" in state and state[\"args\"] is not None and arg_overrides is not None:\n        args = state[\"args\"]\n        for arg_name, arg_val in arg_overrides.items():\n            setattr(args, arg_name, arg_val)\n\n    if \"cfg\" in state and state[\"cfg\"] is not None:\n\n        # hack to be able to set Namespace in dict config. this should be removed when we update to newer\n        # omegaconf version that supports object flags, or when we migrate all existing models\n        from omegaconf import __version__ as oc_version\n        from omegaconf import _utils\n\n        if oc_version < \"2.2\":\n            old_primitive = _utils.is_primitive_type\n            _utils.is_primitive_type = lambda _: True\n\n            state[\"cfg\"] = OmegaConf.create(state[\"cfg\"])\n\n            _utils.is_primitive_type = old_primitive\n            OmegaConf.set_struct(state[\"cfg\"], True)\n        else:\n            state[\"cfg\"] = OmegaConf.create(state[\"cfg\"], flags={\"allow_objects\": True})\n\n        if arg_overrides is not None:\n            overwrite_args_by_name(state[\"cfg\"], arg_overrides)\n\n    state = _upgrade_state_dict(state)\n    return state\n\n\ndef load_model_ensemble(\n    filenames,\n    arg_overrides: Optional[Dict[str, Any]] = None,\n    task=None,\n    strict=True,\n    suffix=\"\",\n    num_shards=1,\n    state=None,\n):\n    \"\"\"Loads an ensemble of models.\n\n    Args:\n        filenames (List[str]): checkpoint files to load\n        arg_overrides (Dict[str,Any], optional): override model args that\n            were used during model training\n        task (fairseq.tasks.FairseqTask, optional): task to use for loading\n    \"\"\"\n    assert not (\n        strict and num_shards > 1\n    ), \"Cannot load state dict with strict=True and checkpoint shards > 1\"\n    ensemble, args, _task = load_model_ensemble_and_task(\n        filenames,\n        arg_overrides,\n        task,\n        strict,\n        suffix,\n        num_shards,\n        state,\n    )\n    return ensemble, args\n\n\ndef get_maybe_sharded_checkpoint_filename(\n    filename: str, suffix: str, shard_idx: int, num_shards: int\n) -> str:\n    orig_filename = filename\n    filename = filename.replace(\".pt\", suffix + \".pt\")\n    fsdp_filename = filename[:-3] + f\"-shard{shard_idx}.pt\"\n    model_parallel_filename = orig_filename[:-3] + f\"_part{shard_idx}.pt\"\n    if PathManager.exists(fsdp_filename):\n        return fsdp_filename\n    elif num_shards > 1:\n        return model_parallel_filename\n    else:\n        return filename\n\n\ndef load_model_ensemble_and_task(\n    filenames,\n    arg_overrides: Optional[Dict[str, Any]] = None,\n    task=None,\n    strict=True,\n    suffix=\"\",\n    num_shards=1,\n    state=None,\n):\n    assert state is None or len(filenames) == 1\n\n    from fairseq import tasks\n\n    assert not (\n        strict and num_shards > 1\n    ), \"Cannot load state dict with strict=True and checkpoint shards > 1\"\n    ensemble = []\n    cfg = None\n    for filename in filenames:\n        orig_filename = filename\n        model_shard_state = {\"shard_weights\": [], \"shard_metadata\": []}\n        assert num_shards > 0\n        st = time.time()\n        for shard_idx in range(num_shards):\n            filename = get_maybe_sharded_checkpoint_filename(\n                orig_filename, suffix, shard_idx, num_shards\n            )\n\n            if not PathManager.exists(filename):\n                raise IOError(\"Model file not found: {}\".format(filename))\n            if state is None:\n                state = load_checkpoint_to_cpu(filename, arg_overrides)\n            if \"args\" in state and state[\"args\"] is not None:\n                cfg = convert_namespace_to_omegaconf(state[\"args\"])\n            elif \"cfg\" in state and state[\"cfg\"] is not None:\n                cfg = state[\"cfg\"]\n            else:\n                raise RuntimeError(\n                    f\"Neither args nor cfg exist in state keys = {state.keys()}\"\n                )\n\n            if task is None:\n                task = tasks.setup_task(cfg.task, from_checkpoint=True)\n\n            if \"task_state\" in state:\n                task.load_state_dict(state[\"task_state\"])\n\n            argspec = inspect.getfullargspec(task.build_model)\n\n            if \"fsdp_metadata\" in state and num_shards > 1:\n                model_shard_state[\"shard_weights\"].append(state[\"model\"])\n                model_shard_state[\"shard_metadata\"].append(state[\"fsdp_metadata\"])\n                # check FSDP import before the code goes too far\n                if not has_FSDP:\n                    raise ImportError(\n                        \"Cannot find FullyShardedDataParallel. \"\n                        \"Please install fairscale with: pip install fairscale\"\n                    )\n                if shard_idx == num_shards - 1:\n                    consolidated_model_state = FSDP.consolidate_shard_weights(\n                        shard_weights=model_shard_state[\"shard_weights\"],\n                        shard_metadata=model_shard_state[\"shard_metadata\"],\n                    )\n                    if \"from_checkpoint\" in argspec.args:\n                        model = task.build_model(cfg.model, from_checkpoint=True)\n                    else:\n                        model = task.build_model(cfg.model)\n                    if (\n                        \"optimizer_history\" in state\n                        and len(state[\"optimizer_history\"]) > 0\n                        and \"num_updates\" in state[\"optimizer_history\"][-1]\n                    ):\n                        model.set_num_updates(\n                            state[\"optimizer_history\"][-1][\"num_updates\"]\n                        )\n                    model.load_state_dict(\n                        consolidated_model_state, strict=strict, model_cfg=cfg.model\n                    )\n            else:\n                # model parallel checkpoint or unsharded checkpoint\n                # support old external tasks\n\n                if \"from_checkpoint\" in argspec.args:\n                    model = task.build_model(cfg.model, from_checkpoint=True)\n                else:\n                    model = task.build_model(cfg.model)\n                if (\n                    \"optimizer_history\" in state\n                    and len(state[\"optimizer_history\"]) > 0\n                    and \"num_updates\" in state[\"optimizer_history\"][-1]\n                ):\n                    model.set_num_updates(state[\"optimizer_history\"][-1][\"num_updates\"])\n                model.load_state_dict(\n                    state[\"model\"], strict=strict, model_cfg=cfg.model\n                )\n\n            # reset state so it gets loaded for the next model in ensemble\n            state = None\n            if shard_idx % 10 == 0 and shard_idx > 0:\n                elapsed = time.time() - st\n                logger.info(\n                    f\"Loaded {shard_idx} shards in {elapsed:.2f}s, {elapsed / (shard_idx+1):.2f}s/shard\"\n                )\n\n        # build model for ensemble\n        ensemble.append(model)\n    return ensemble, cfg, task\n\n\ndef load_model_ensemble_and_task_from_hf_hub(\n    model_id,\n    cache_dir: Optional[str] = None,\n    arg_overrides: Optional[Dict[str, Any]] = None,\n    **kwargs: Any,\n):\n    try:\n        from huggingface_hub import snapshot_download\n    except ImportError:\n        raise ImportError(\n            \"You need to install huggingface_hub to use `load_from_hf_hub`. \"\n            \"See https://pypi.org/project/huggingface-hub/ for installation.\"\n        )\n\n    library_name = \"fairseq\"\n    cache_dir = cache_dir or (Path.home() / \".cache\" / library_name).as_posix()\n    cache_dir = snapshot_download(\n        model_id, cache_dir=cache_dir, library_name=library_name, **kwargs\n    )\n\n    _arg_overrides = arg_overrides or {}\n    _arg_overrides[\"data\"] = cache_dir\n    return load_model_ensemble_and_task(\n        [p.as_posix() for p in Path(cache_dir).glob(\"*.pt\")],\n        arg_overrides=_arg_overrides,\n    )\n\n\ndef checkpoint_paths(path, pattern=r\"checkpoint(\\d+)\\.pt\", keep_match=False):\n    \"\"\"Retrieves all checkpoints found in `path` directory.\n\n    Checkpoints are identified by matching filename to the specified pattern. If\n    the pattern contains groups, the result will be sorted by the first group in\n    descending order.\n    \"\"\"\n    pt_regexp = re.compile(pattern)\n    files = PathManager.ls(path)\n\n    entries = []\n    for i, f in enumerate(files):\n        m = pt_regexp.fullmatch(f)\n        if m is not None:\n            idx = float(m.group(1)) if len(m.groups()) > 0 else i\n            entries.append((idx, m.group(0)))\n    if keep_match:\n        return [(os.path.join(path, x[1]), x[0]) for x in sorted(entries, reverse=True)]\n    else:\n        return [os.path.join(path, x[1]) for x in sorted(entries, reverse=True)]\n\n\ndef torch_persistent_save(obj, filename, async_write: bool = False):\n    if async_write:\n        with PathManager.opena(filename, \"wb\") as f:\n            _torch_persistent_save(obj, f)\n    else:\n        if PathManager.supports_rename(filename):\n            # do atomic save\n            with PathManager.open(filename + \".tmp\", \"wb\") as f:\n                _torch_persistent_save(obj, f)\n            PathManager.rename(filename + \".tmp\", filename)\n        else:\n            # fallback to non-atomic save\n            with PathManager.open(filename, \"wb\") as f:\n                _torch_persistent_save(obj, f)\n\n\ndef _torch_persistent_save(obj, f):\n    if isinstance(f, str):\n        with PathManager.open(f, \"wb\") as h:\n            torch_persistent_save(obj, h)\n        return\n    for i in range(3):\n        try:\n            return torch.save(obj, f)\n        except Exception:\n            if i == 2:\n                logger.error(traceback.format_exc())\n                raise\n            else:\n                time.sleep(2.5)\n\n\ndef _upgrade_state_dict(state):\n    \"\"\"Helper for upgrading old model checkpoints.\"\"\"\n\n    # add optimizer_history\n    if \"optimizer_history\" not in state:\n        state[\"optimizer_history\"] = [\n            {\"criterion_name\": \"CrossEntropyCriterion\", \"best_loss\": state[\"best_loss\"]}\n        ]\n        state[\"last_optimizer_state\"] = state[\"optimizer\"]\n        del state[\"optimizer\"]\n        del state[\"best_loss\"]\n    # move extra_state into sub-dictionary\n    if \"epoch\" in state and \"extra_state\" not in state:\n        state[\"extra_state\"] = {\n            \"epoch\": state[\"epoch\"],\n            \"batch_offset\": state[\"batch_offset\"],\n            \"val_loss\": state[\"val_loss\"],\n        }\n        del state[\"epoch\"]\n        del state[\"batch_offset\"]\n        del state[\"val_loss\"]\n    # reduce optimizer history's memory usage (only keep the last state)\n    if \"optimizer\" in state[\"optimizer_history\"][-1]:\n        state[\"last_optimizer_state\"] = state[\"optimizer_history\"][-1][\"optimizer\"]\n        for optim_hist in state[\"optimizer_history\"]:\n            del optim_hist[\"optimizer\"]\n    # record the optimizer class name\n    if \"optimizer_name\" not in state[\"optimizer_history\"][-1]:\n        state[\"optimizer_history\"][-1][\"optimizer_name\"] = \"FairseqNAG\"\n    # move best_loss into lr_scheduler_state\n    if \"lr_scheduler_state\" not in state[\"optimizer_history\"][-1]:\n        state[\"optimizer_history\"][-1][\"lr_scheduler_state\"] = {\n            \"best\": state[\"optimizer_history\"][-1][\"best_loss\"]\n        }\n        del state[\"optimizer_history\"][-1][\"best_loss\"]\n    # keep track of number of updates\n    if \"num_updates\" not in state[\"optimizer_history\"][-1]:\n        state[\"optimizer_history\"][-1][\"num_updates\"] = 0\n    # use stateful training data iterator\n    if \"train_iterator\" not in state[\"extra_state\"]:\n        state[\"extra_state\"][\"train_iterator\"] = {\n            \"epoch\": state[\"extra_state\"].get(\"epoch\", 0),\n            \"iterations_in_epoch\": state[\"extra_state\"].get(\"batch_offset\", 0),\n        }\n\n    # backward compatibility, cfg updates\n    if \"args\" in state and state[\"args\"] is not None:\n        # old model checkpoints may not have separate source/target positions\n        if hasattr(state[\"args\"], \"max_positions\") and not hasattr(\n            state[\"args\"], \"max_source_positions\"\n        ):\n            state[\"args\"].max_source_positions = state[\"args\"].max_positions\n            state[\"args\"].max_target_positions = state[\"args\"].max_positions\n        # default to translation task\n        if not hasattr(state[\"args\"], \"task\"):\n            state[\"args\"].task = \"translation\"\n        # --raw-text and --lazy-load are deprecated\n        if getattr(state[\"args\"], \"raw_text\", False):\n            state[\"args\"].dataset_impl = \"raw\"\n        elif getattr(state[\"args\"], \"lazy_load\", False):\n            state[\"args\"].dataset_impl = \"lazy\"\n        # epochs start at 1\n        if state[\"extra_state\"][\"train_iterator\"] is not None:\n            state[\"extra_state\"][\"train_iterator\"][\"epoch\"] = max(\n                state[\"extra_state\"][\"train_iterator\"].get(\"epoch\", 1), 1\n            )\n        # --remove-bpe ==> --postprocess\n        if hasattr(state[\"args\"], \"remove_bpe\"):\n            state[\"args\"].post_process = state[\"args\"].remove_bpe\n        # --min-lr ==> --stop-min-lr\n        if hasattr(state[\"args\"], \"min_lr\"):\n            state[\"args\"].stop_min_lr = state[\"args\"].min_lr\n            del state[\"args\"].min_lr\n        # binary_cross_entropy / kd_binary_cross_entropy => wav2vec criterion\n        if hasattr(state[\"args\"], \"criterion\") and state[\"args\"].criterion in [\n            \"binary_cross_entropy\",\n            \"kd_binary_cross_entropy\",\n        ]:\n            state[\"args\"].criterion = \"wav2vec\"\n        # remove log_keys if it's None (criteria will supply a default value of [])\n        if hasattr(state[\"args\"], \"log_keys\") and state[\"args\"].log_keys is None:\n            delattr(state[\"args\"], \"log_keys\")\n        # speech_pretraining => audio pretraining\n        if (\n            hasattr(state[\"args\"], \"task\")\n            and state[\"args\"].task == \"speech_pretraining\"\n        ):\n            state[\"args\"].task = \"audio_pretraining\"\n        # audio_cpc => wav2vec\n        if hasattr(state[\"args\"], \"arch\") and state[\"args\"].arch == \"audio_cpc\":\n            state[\"args\"].arch = \"wav2vec\"\n        # convert legacy float learning rate to List[float]\n        if hasattr(state[\"args\"], \"lr\") and isinstance(state[\"args\"].lr, float):\n            state[\"args\"].lr = [state[\"args\"].lr]\n        # convert task data arg to a string instead of List[string]\n        if (\n            hasattr(state[\"args\"], \"data\")\n            and isinstance(state[\"args\"].data, list)\n            and len(state[\"args\"].data) > 0\n        ):\n            state[\"args\"].data = state[\"args\"].data[0]\n\n        state[\"cfg\"] = convert_namespace_to_omegaconf(state[\"args\"])\n\n    if \"cfg\" in state and state[\"cfg\"] is not None:\n        cfg = state[\"cfg\"]\n        with open_dict(cfg):\n            # any upgrades for Hydra-based configs\n            if (\n                \"task\" in cfg\n                and \"eval_wer_config\" in cfg.task\n                and isinstance(cfg.task.eval_wer_config.print_alignment, bool)\n            ):\n                cfg.task.eval_wer_config.print_alignment = \"hard\"\n            if \"generation\" in cfg and isinstance(cfg.generation.print_alignment, bool):\n                cfg.generation.print_alignment = (\n                    \"hard\" if cfg.generation.print_alignment else None\n                )\n            if (\n                \"model\" in cfg\n                and \"w2v_args\" in cfg.model\n                and cfg.model.w2v_args is not None\n                and (\n                    hasattr(cfg.model.w2v_args, \"task\") or \"task\" in cfg.model.w2v_args\n                )\n                and hasattr(cfg.model.w2v_args.task, \"eval_wer_config\")\n                and cfg.model.w2v_args.task.eval_wer_config is not None\n                and isinstance(\n                    cfg.model.w2v_args.task.eval_wer_config.print_alignment, bool\n                )\n            ):\n                cfg.model.w2v_args.task.eval_wer_config.print_alignment = \"hard\"\n\n    return state\n\n\ndef prune_state_dict(state_dict, model_cfg: Optional[DictConfig]):\n    \"\"\"Prune the given state_dict if desired for LayerDrop\n    (https://arxiv.org/abs/1909.11556).\n\n    Training with LayerDrop allows models to be robust to pruning at inference\n    time. This function prunes state_dict to allow smaller models to be loaded\n    from a larger model and re-maps the existing state_dict for this to occur.\n\n    It's called by functions that load models from checkpoints and does not\n    need to be called directly.\n    \"\"\"\n    arch = None\n    if model_cfg is not None:\n        arch = (\n            model_cfg._name\n            if isinstance(model_cfg, DictConfig)\n            else getattr(model_cfg, \"arch\", None)\n        )\n\n    if not model_cfg or arch is None or arch == \"ptt_transformer\":\n        # args should not be none, but don't crash if it is.\n        return state_dict\n\n    encoder_layers_to_keep = getattr(model_cfg, \"encoder_layers_to_keep\", None)\n    decoder_layers_to_keep = getattr(model_cfg, \"decoder_layers_to_keep\", None)\n\n    if not encoder_layers_to_keep and not decoder_layers_to_keep:\n        return state_dict\n\n    # apply pruning\n    logger.info(\n        \"Pruning model to specified layer configuration - this works best if the model was trained with LayerDrop\"\n    )\n\n    def create_pruning_pass(layers_to_keep, layer_name):\n        keep_layers = sorted(\n            int(layer_string) for layer_string in layers_to_keep.split(\",\")\n        )\n        mapping_dict = {}\n        for i in range(len(keep_layers)):\n            mapping_dict[str(keep_layers[i])] = str(i)\n\n        regex = re.compile(r\"^{layer}.*\\.layers\\.(\\d+)\".format(layer=layer_name))\n        return {\"substitution_regex\": regex, \"mapping_dict\": mapping_dict}\n\n    pruning_passes = []\n    if encoder_layers_to_keep:\n        pruning_passes.append(create_pruning_pass(encoder_layers_to_keep, \"encoder\"))\n    if decoder_layers_to_keep:\n        pruning_passes.append(create_pruning_pass(decoder_layers_to_keep, \"decoder\"))\n\n    new_state_dict = {}\n    for layer_name in state_dict.keys():\n        match = re.search(r\"\\.layers\\.(\\d+)\\.\", layer_name)\n        # if layer has no number in it, it is a supporting layer, such as an\n        # embedding\n        if not match:\n            new_state_dict[layer_name] = state_dict[layer_name]\n            continue\n\n        # otherwise, layer should be pruned.\n        original_layer_number = match.group(1)\n        # figure out which mapping dict to replace from\n        for pruning_pass in pruning_passes:\n            if original_layer_number in pruning_pass[\"mapping_dict\"] and pruning_pass[\n                \"substitution_regex\"\n            ].search(layer_name):\n                new_layer_number = pruning_pass[\"mapping_dict\"][original_layer_number]\n                substitution_match = pruning_pass[\"substitution_regex\"].search(\n                    layer_name\n                )\n                new_state_key = (\n                    layer_name[: substitution_match.start(1)]\n                    + new_layer_number\n                    + layer_name[substitution_match.end(1) :]\n                )\n                new_state_dict[new_state_key] = state_dict[layer_name]\n\n    # Since layers are now pruned, *_layers_to_keep are no longer needed.\n    # This is more of \"It would make it work fix\" rather than a proper fix.\n    if isinstance(model_cfg, DictConfig):\n        context = open_dict(model_cfg)\n    else:\n        context = contextlib.ExitStack()\n    with context:\n        if hasattr(model_cfg, \"encoder_layers_to_keep\"):\n            model_cfg.encoder_layers_to_keep = None\n        if hasattr(model_cfg, \"decoder_layers_to_keep\"):\n            model_cfg.decoder_layers_to_keep = None\n\n    return new_state_dict\n\n\ndef load_pretrained_component_from_model(\n    component: Union[FairseqEncoder, FairseqDecoder],\n    checkpoint: str,\n    strict: bool = True,\n):\n    \"\"\"\n    Load a pretrained FairseqEncoder or FairseqDecoder from checkpoint into the\n    provided `component` object. If state_dict fails to load, there may be a\n    mismatch in the architecture of the corresponding `component` found in the\n    `checkpoint` file.\n    \"\"\"\n    if not PathManager.exists(checkpoint):\n        raise IOError(\"Model file not found: {}\".format(checkpoint))\n    state = load_checkpoint_to_cpu(checkpoint)\n    if isinstance(component, FairseqEncoder):\n        component_type = \"encoder\"\n    elif isinstance(component, FairseqDecoder):\n        component_type = \"decoder\"\n    else:\n        raise ValueError(\n            \"component to load must be either a FairseqEncoder or \"\n            \"FairseqDecoder. Loading other component types are not supported.\"\n        )\n    component_state_dict = OrderedDict()\n    for key in state[\"model\"].keys():\n        if key.startswith(component_type):\n            # encoder.input_layers.0.0.weight --> input_layers.0.0.weight\n            component_subkey = key[len(component_type) + 1 :]\n            component_state_dict[component_subkey] = state[\"model\"][key]\n    component.load_state_dict(component_state_dict, strict=strict)\n    return component\n\n\ndef verify_checkpoint_directory(save_dir: str) -> None:\n    if not os.path.exists(save_dir):\n        os.makedirs(save_dir, exist_ok=True)\n    temp_file_path = os.path.join(save_dir, \"dummy\")\n    try:\n        with open(temp_file_path, \"w\"):\n            pass\n    except OSError as e:\n        logger.warning(\n            \"Unable to access checkpoint save directory: {}\".format(save_dir)\n        )\n        raise e\n    else:\n        os.remove(temp_file_path)\n\n\ndef save_ema_as_checkpoint(src_path, dst_path):\n    state = load_ema_from_checkpoint(src_path)\n    torch_persistent_save(state, dst_path)\n\n\ndef load_ema_from_checkpoint(fpath):\n    \"\"\"Loads exponential moving averaged (EMA) checkpoint from input and\n    returns a model with ema weights.\n\n    Args:\n      fpath: A string path of checkpoint to load from.\n\n    Returns:\n      A dict of string keys mapping to various values. The 'model' key\n      from the returned dict should correspond to an OrderedDict mapping\n      string parameter names to torch Tensors.\n    \"\"\"\n    params_dict = collections.OrderedDict()\n    new_state = None\n\n    with PathManager.open(fpath, \"rb\") as f:\n        new_state = torch.load(\n            f,\n            map_location=(\n                lambda s, _: torch.serialization.default_restore_location(s, \"cpu\")\n            ),\n            weights_only=False,\n        )\n\n        # EMA model is stored in a separate \"extra state\"\n        model_params = new_state[\"extra_state\"][\"ema\"]\n\n        for key in list(model_params.keys()):\n            p = model_params[key]\n            if isinstance(p, torch.HalfTensor):\n                p = p.float()\n            if key not in params_dict:\n                params_dict[key] = p.clone()\n                # NOTE: clone() is needed in case of p is a shared parameter\n            else:\n                raise ValueError(\"Key {} is repeated in EMA model params.\".format(key))\n\n        if len(params_dict) == 0:\n            raise ValueError(\n                f\"Input checkpoint path '{fpath}' does not contain \"\n                \"ema model weights, is this model trained with EMA?\"\n            )\n\n    new_state[\"model\"] = params_dict\n    return new_state\n"
  },
  {
    "path": "fairseq/clib/cuda/ngram_repeat_block_cuda.cpp",
    "content": "/*\nCopyright (c) Microsoft Corporation.\nLicensed under the MIT License.\n*/\n\n#include <torch/extension.h>\n#include <vector>\n\n/*\nCPP Binding for CUDA OP\n*/\n\n// CUDA forward declarations\ntorch::Tensor ngram_repeat_block_cuda_forward(\n    torch::Tensor tokens,\n    torch::Tensor lprobs,\n    int bsz,\n    int step,\n    int beam_size,\n    int no_repeat_ngram_size);\n\n#define CHECK_CUDA(x) \\\n  TORCH_CHECK(x.type().is_cuda(), #x \" must be a CUDA tensor\")\n#define CHECK_CONTIGUOUS(x) \\\n  TORCH_CHECK(x.is_contiguous(), #x \" must be contiguous\")\n#define CHECK_INPUT(x) \\\n  CHECK_CUDA(x);       \\\n  CHECK_CONTIGUOUS(x)\n\n// Input check and call to CUDA OP\n// Backward method not required\ntorch::Tensor ngram_repeat_block_forward(\n    torch::Tensor tokens,\n    torch::Tensor lprobs,\n    int bsz,\n    int step,\n    int beam_size,\n    int no_repeat_ngram_size) {\n  CHECK_INPUT(tokens);\n  CHECK_INPUT(lprobs);\n  assert(bsz > 0);\n  assert(step >= 0);\n  assert(beam_size > 0);\n  assert(no_repeat_ngram_size > 0);\n\n  return ngram_repeat_block_cuda_forward(\n      tokens, lprobs, bsz, step, beam_size, no_repeat_ngram_size);\n}\n\nPYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {\n  m.def(\n      \"forward\",\n      &ngram_repeat_block_forward,\n      \"No Repeat Ngram Block forward (CUDA)\");\n}\n"
  },
  {
    "path": "fairseq/clib/cuda/ngram_repeat_block_cuda_kernel.cu",
    "content": "/*\nCopyright (c) Microsoft Corporation.\nLicensed under the MIT License.\n*/\n\n/*\nKernel implementation for blocking repeated n-grams.\n*/\n\n#include <cuda.h>\n#include <cuda_runtime.h>\n#include <math.h>\n#include <torch/extension.h>\n#include <vector>\n\n// Ban repeated ngrams of length = 'no_repeat_ngram_size'\n__global__ void banRepeatedTokens(\n    long* __restrict__ tokens,\n    float* __restrict__ lprobs,\n    int max_predict_len,\n    int vocab_size,\n    int no_repeat_ngram_size) {\n  auto row = blockIdx.x;\n  auto col = threadIdx.x;\n  auto start = row * (max_predict_len) + col;\n  // Each thread compares ngram starting from\n  // thread index with final ngram starting from\n  // step - no_repeat_ngram_size +2\n  auto check_start_pos = blockDim.x;\n  auto lprob_start = row * vocab_size;\n  bool is_banned = true;\n  extern __shared__ long tokens_shm[];\n  tokens_shm[col] = tokens[start];\n  if (col == blockDim.x - 1) {\n    for (int i = 1; i < no_repeat_ngram_size; i++) {\n      if (col + i < max_predict_len) {\n        tokens_shm[col + i] = tokens[start + i];\n      }\n    }\n  }\n  __syncthreads();\n\n  for (int k = 0; k < no_repeat_ngram_size - 1; k++) {\n    if (tokens_shm[col + k] != tokens_shm[check_start_pos + k]) {\n      is_banned = false;\n    }\n  }\n  if (is_banned == true) {\n    auto token_to_be_banned = tokens_shm[col + no_repeat_ngram_size - 1];\n    lprobs[lprob_start + token_to_be_banned] = -INFINITY;\n  }\n}\n\n// Allocate blocks and threads based on\n// batch size and sequence length and launch\n// kernel\ntorch::Tensor ngram_repeat_block_cuda_forward(\n    const torch::Tensor tokens,\n    torch::Tensor lprobs,\n    int bsz,\n    int step,\n    int beam_size,\n    int no_repeat_ngram_size) {\n  int threads = step - no_repeat_ngram_size + 2;\n  if (threads <= 0)\n    return lprobs;\n  int max_predict_len = tokens.size(1);\n  int vocab_size = lprobs.size(1);\n  auto token_ptr = tokens.data_ptr<long>();\n  auto lprob_ptr = lprobs.data_ptr<float>();\n  int blocks = bsz * beam_size;\n  int shared_mem_size = (step + 1) * sizeof(long);\n\n  // Launching N blocks where N is number of samples in a batch (beams*bsz)\n  // Launching T threads where T is number of previous ngrams in a sample\n  // Allocating shared mem per block for fastser access of input tokens since\n  // each token will be accessed N times to compare with current Ngram where\n  // N is Ngram size.\n  banRepeatedTokens<<<blocks, threads, shared_mem_size>>>(\n      token_ptr, lprob_ptr, max_predict_len, vocab_size, no_repeat_ngram_size);\n  return lprobs;\n}\n"
  },
  {
    "path": "fairseq/clib/libbase/balanced_assignment.cpp",
    "content": "/**\n * Copyright 2017-present, Facebook, Inc.\n * All rights reserved.\n *\n * This source code is licensed under the license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n/*\nC++ code for solving the linear assignment problem.\nBased on the Auction Algorithm from\nhttps://dspace.mit.edu/bitstream/handle/1721.1/3265/P-2108-26912652.pdf and the\nimplementation from: https://github.com/bkj/auction-lap Adapted to be more\nefficient when each worker is looking for k jobs instead of 1.\n*/\n#include <torch/extension.h>\n#include <iostream>\nusing namespace torch::indexing;\ntorch::Tensor balanced_assignment(torch::Tensor job_and_worker_to_score) {\n  int max_iterations = 100;\n  torch::Tensor epsilon =\n      (job_and_worker_to_score.max() - job_and_worker_to_score.min()) / 50;\n  epsilon.clamp_min_(1e-04);\n  torch::Tensor worker_and_job_to_score =\n      job_and_worker_to_score.detach().transpose(0, 1).contiguous();\n  int num_workers = worker_and_job_to_score.size(0);\n  int num_jobs = worker_and_job_to_score.size(1);\n  auto device = worker_and_job_to_score.device();\n  int jobs_per_worker = num_jobs / num_workers;\n  torch::Tensor value = worker_and_job_to_score.clone();\n  int counter = 0;\n  torch::Tensor max_value = worker_and_job_to_score.max();\n\n  torch::Tensor bid_indices;\n  torch::Tensor cost = worker_and_job_to_score.new_zeros({1, num_jobs});\n  torch::Tensor bids =\n      worker_and_job_to_score.new_empty({num_workers, num_jobs});\n  torch::Tensor bid_increments =\n      worker_and_job_to_score.new_empty({num_workers, jobs_per_worker});\n  torch::Tensor top_values =\n      worker_and_job_to_score.new_empty({num_workers, jobs_per_worker + 1});\n  torch::Tensor high_bids = worker_and_job_to_score.new_empty({num_jobs});\n\n  torch::Tensor top_index = top_values.to(torch::kLong);\n  torch::Tensor high_bidders = top_index.new_empty({num_jobs});\n  torch::Tensor have_bids = high_bidders.to(torch::kBool);\n  torch::Tensor jobs_indices =\n      torch::arange({num_jobs}, torch::dtype(torch::kLong).device(device));\n  torch::Tensor true_tensor =\n      torch::ones({1}, torch::dtype(torch::kBool).device(device));\n\n  while (true) {\n    bids.zero_();\n    torch::topk_out(top_values, top_index, value, jobs_per_worker + 1, 1);\n\n    // Each worker bids the difference in value between that job and the k+1th\n    // job\n    torch::sub_out(\n        bid_increments,\n        top_values.index({Slice(None, None), Slice(0, jobs_per_worker)}),\n        top_values.index({Slice(None, None), jobs_per_worker}).unsqueeze(1));\n\n    bid_increments.add_(epsilon);\n    bids.scatter_(\n        1,\n        top_index.index({Slice(None, None), Slice(0, jobs_per_worker)}),\n        bid_increments);\n\n    if (counter < max_iterations && counter > 0) {\n      // Put in a minimal bid to retain items from the last round if no-one else\n      // bids for them this round\n      bids.view(-1).index_put_({bid_indices}, epsilon);\n    }\n\n    // Find the highest bidding worker per job\n    torch::max_out(high_bids, high_bidders, bids, 0);\n    torch::gt_out(have_bids, high_bids, 0);\n\n    if (have_bids.all().item<bool>()) {\n      // All jobs were bid for\n      break;\n    }\n\n    // Make popular items more expensive\n    cost.add_(high_bids);\n    torch::sub_out(value, worker_and_job_to_score, cost);\n\n    bid_indices = ((high_bidders * num_jobs) + jobs_indices).index({have_bids});\n\n    if (counter < max_iterations) {\n      // Make sure that this item will be in the winning worker's top-k next\n      // time.\n      value.view(-1).index_put_({bid_indices}, max_value);\n    } else {\n      // Suboptimal approximation that converges quickly from current solution\n      value.view(-1).index_put_(\n          {bid_indices}, worker_and_job_to_score.view(-1).index({bid_indices}));\n    }\n\n    counter += 1;\n  }\n\n  return top_index.index({Slice(None, None), Slice(0, jobs_per_worker)})\n      .reshape(-1);\n}\n\nPYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {\n  m.def(\"balanced_assignment\", &balanced_assignment, \"Balanced Assignment\");\n}\n"
  },
  {
    "path": "fairseq/clib/libbleu/libbleu.cpp",
    "content": "/**\n * Copyright 2017-present, Facebook, Inc.\n * All rights reserved.\n *\n * This source code is licensed under the license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include <array>\n#include <cstdio>\n#include <cstring>\n#include <map>\n\n// NOLINTNEXTLINE\ntypedef struct {\n  size_t reflen;\n  size_t predlen;\n  size_t match1;\n  size_t count1;\n  size_t match2;\n  size_t count2;\n  size_t match3;\n  size_t count3;\n  size_t match4;\n  size_t count4;\n} bleu_stat;\n\n// left trim (remove pad)\nvoid bleu_ltrim(size_t* len, int** sent, int pad) {\n  size_t start = 0;\n  while (start < *len) {\n    if (*(*sent + start) != pad) {\n      break;\n    }\n    start++;\n  }\n  *sent += start;\n  *len -= start;\n}\n\n// right trim remove (eos)\nvoid bleu_rtrim(size_t* len, int** sent, int pad, int eos) {\n  size_t end = *len - 1;\n  while (end > 0) {\n    if (*(*sent + end) != eos && *(*sent + end) != pad) {\n      break;\n    }\n    end--;\n  }\n  *len = end + 1;\n}\n\n// left and right trim\nvoid bleu_trim(size_t* len, int** sent, int pad, int eos) {\n  bleu_ltrim(len, sent, pad);\n  bleu_rtrim(len, sent, pad, eos);\n}\n\nsize_t bleu_hash(int len, int* data) {\n  size_t h = 14695981039346656037ul;\n  size_t prime = 0x100000001b3;\n  char* b = (char*)data;\n  size_t blen = sizeof(int) * len;\n\n  while (blen-- > 0) {\n    h ^= *b++;\n    h *= prime;\n  }\n\n  return h;\n}\n\nvoid bleu_addngram(\n    size_t* ntotal,\n    size_t* nmatch,\n    size_t n,\n    size_t reflen,\n    int* ref,\n    size_t predlen,\n    int* pred) {\n  if (predlen < n) {\n    return;\n  }\n\n  predlen = predlen - n + 1;\n  (*ntotal) += predlen;\n\n  if (reflen < n) {\n    return;\n  }\n\n  reflen = reflen - n + 1;\n\n  std::map<size_t, size_t> count;\n  while (predlen > 0) {\n    size_t w = bleu_hash(n, pred++);\n    count[w]++;\n    predlen--;\n  }\n\n  while (reflen > 0) {\n    size_t w = bleu_hash(n, ref++);\n    if (count[w] > 0) {\n      (*nmatch)++;\n      count[w] -= 1;\n    }\n    reflen--;\n  }\n}\n\nextern \"C\" {\n\n#ifdef _WIN64\n__declspec(dllexport)\n#endif\n    void bleu_zero_init(bleu_stat* stat) {\n  std::memset(stat, 0, sizeof(bleu_stat));\n}\n\n#ifdef _WIN64\n__declspec(dllexport)\n#endif\n    void bleu_one_init(bleu_stat* stat) {\n  bleu_zero_init(stat);\n  stat->count1 = 0;\n  stat->count2 = 1;\n  stat->count3 = 1;\n  stat->count4 = 1;\n  stat->match1 = 0;\n  stat->match2 = 1;\n  stat->match3 = 1;\n  stat->match4 = 1;\n}\n\n#ifdef _WIN64\n__declspec(dllexport)\n#endif\n    void bleu_add(\n        bleu_stat* stat,\n        size_t reflen,\n        int* ref,\n        size_t predlen,\n        int* pred,\n        int pad,\n        int eos) {\n\n  bleu_trim(&reflen, &ref, pad, eos);\n  bleu_trim(&predlen, &pred, pad, eos);\n  stat->reflen += reflen;\n  stat->predlen += predlen;\n\n  bleu_addngram(&stat->count1, &stat->match1, 1, reflen, ref, predlen, pred);\n  bleu_addngram(&stat->count2, &stat->match2, 2, reflen, ref, predlen, pred);\n  bleu_addngram(&stat->count3, &stat->match3, 3, reflen, ref, predlen, pred);\n  bleu_addngram(&stat->count4, &stat->match4, 4, reflen, ref, predlen, pred);\n}\n}\n"
  },
  {
    "path": "fairseq/clib/libbleu/module.cpp",
    "content": "/**\n * Copyright 2017-present, Facebook, Inc.\n * All rights reserved.\n *\n * This source code is licensed under the license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include <Python.h>\n\nstatic PyMethodDef method_def[] = {{NULL, NULL, 0, NULL}}; // NOLINT\n\nstatic struct PyModuleDef module_def = {\n    PyModuleDef_HEAD_INIT,\n    \"libbleu\", /* name of module */\n    // NOLINTNEXTLINE\n    NULL, /* module documentation, may be NULL */\n    -1, /* size of per-interpreter state of the module,\n           or -1 if the module keeps state in global variables. */\n    method_def}; // NOLINT\n\n#if PY_MAJOR_VERSION == 2\nPyMODINIT_FUNC init_libbleu()\n#else\nPyMODINIT_FUNC PyInit_libbleu()\n#endif\n{\n  PyObject* m = PyModule_Create(&module_def);\n  if (!m) {\n    return NULL;\n  }\n  return m;\n}\n"
  },
  {
    "path": "fairseq/clib/libnat/edit_dist.cpp",
    "content": "/**\n * Copyright 2017-present, Facebook, Inc.\n * All rights reserved.\n *\n * This source code is licensed under the license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include <pybind11/detail/common.h>\n#include <pybind11/pybind11.h>\n#include <torch/torch.h> // @manual=//caffe2:torch_extension\n#include <algorithm>\n#include <cstdint>\n#include <iosfwd>\n#include <memory>\n#include <new>\n#include <string>\n#include <utility>\n#include <vector>\n\nusing namespace ::std;\n\nvector<vector<uint32_t>> edit_distance2_with_dp(\n    vector<uint32_t>& x,\n    vector<uint32_t>& y) {\n  uint32_t lx = x.size();\n  uint32_t ly = y.size();\n  vector<vector<uint32_t>> d(lx + 1, vector<uint32_t>(ly + 1));\n  for (uint32_t i = 0; i < lx + 1; i++) {\n    d[i][0] = i;\n  }\n  for (uint32_t j = 0; j < ly + 1; j++) {\n    d[0][j] = j;\n  }\n  for (uint32_t i = 1; i < lx + 1; i++) {\n    for (uint32_t j = 1; j < ly + 1; j++) {\n      d[i][j] =\n          min(min(d[i - 1][j], d[i][j - 1]) + 1,\n              d[i - 1][j - 1] + 2 * (x.at(i - 1) == y.at(j - 1) ? 0 : 1));\n    }\n  }\n  return d;\n}\n\nvector<vector<uint32_t>> edit_distance2_backtracking(\n    vector<vector<uint32_t>>& d,\n    vector<uint32_t>& x,\n    vector<uint32_t>& y,\n    uint32_t terminal_symbol) {\n  vector<uint32_t> seq;\n  vector<vector<uint32_t>> edit_seqs(x.size() + 2, vector<uint32_t>());\n  /*\n  edit_seqs:\n  0~x.size() cell is the insertion sequences\n  last cell is the delete sequence\n  */\n\n  if (x.size() == 0) {\n    edit_seqs.at(0) = y;\n    return edit_seqs;\n  }\n\n  uint32_t i = d.size() - 1;\n  uint32_t j = d.at(0).size() - 1;\n\n  while ((i >= 0) && (j >= 0)) {\n    if ((i == 0) && (j == 0)) {\n      break;\n    }\n\n    if ((j > 0) && (d.at(i).at(j - 1) < d.at(i).at(j))) {\n      seq.push_back(1); // insert\n      seq.push_back(y.at(j - 1));\n      j--;\n    } else if ((i > 0) && (d.at(i - 1).at(j) < d.at(i).at(j))) {\n      seq.push_back(2); // delete\n      seq.push_back(x.at(i - 1));\n      i--;\n    } else {\n      seq.push_back(3); // keep\n      seq.push_back(x.at(i - 1));\n      i--;\n      j--;\n    }\n  }\n\n  uint32_t prev_op, op, s, word;\n  prev_op = 0, s = 0;\n  for (uint32_t k = 0; k < seq.size() / 2; k++) {\n    op = seq.at(seq.size() - 2 * k - 2);\n    word = seq.at(seq.size() - 2 * k - 1);\n    if (prev_op != 1) {\n      s++;\n    }\n    if (op == 1) // insert\n    {\n      edit_seqs.at(s - 1).push_back(word);\n    } else if (op == 2) // delete\n    {\n      edit_seqs.at(x.size() + 1).push_back(1);\n    } else {\n      edit_seqs.at(x.size() + 1).push_back(0);\n    }\n\n    prev_op = op;\n  }\n\n  for (uint32_t k = 0; k < edit_seqs.size(); k++) {\n    if (edit_seqs[k].size() == 0) {\n      edit_seqs[k].push_back(terminal_symbol);\n    }\n  }\n  return edit_seqs;\n}\n\nvector<vector<uint32_t>> edit_distance2_backtracking_with_delete(\n    vector<vector<uint32_t>>& d,\n    vector<uint32_t>& x,\n    vector<uint32_t>& y,\n    uint32_t terminal_symbol,\n    uint32_t deletion_symbol) {\n  vector<uint32_t> seq;\n  vector<vector<uint32_t>> edit_seqs(x.size() + 1, vector<uint32_t>());\n  /*\n  edit_seqs:\n  0~x.size() cell is the insertion sequences\n  last cell is the delete sequence\n  */\n\n  if (x.size() == 0) {\n    edit_seqs.at(0) = y;\n    return edit_seqs;\n  }\n\n  uint32_t i = d.size() - 1;\n  uint32_t j = d.at(0).size() - 1;\n\n  while ((i >= 0) && (j >= 0)) {\n    if ((i == 0) && (j == 0)) {\n      break;\n    }\n\n    if ((j > 0) && (d.at(i).at(j - 1) < d.at(i).at(j))) {\n      seq.push_back(1); // insert\n      seq.push_back(y.at(j - 1));\n      j--;\n    } else if ((i > 0) && (d.at(i - 1).at(j) < d.at(i).at(j))) {\n      seq.push_back(2); // delete\n      seq.push_back(x.at(i - 1));\n      i--;\n    } else {\n      seq.push_back(3); // keep\n      seq.push_back(x.at(i - 1));\n      i--;\n      j--;\n    }\n  }\n\n  uint32_t prev_op, op, s, word;\n  prev_op = 0, s = 0;\n  for (uint32_t k = 0; k < seq.size() / 2; k++) {\n    op = seq.at(seq.size() - 2 * k - 2);\n    word = seq.at(seq.size() - 2 * k - 1);\n    if (prev_op != 1) {\n      s++;\n    }\n    if (op == 1) // insert\n    {\n      edit_seqs.at(s - 1).push_back(word);\n    } else if (op == 2) // delete\n    {\n      edit_seqs.at(s - 1).push_back(deletion_symbol);\n    }\n\n    prev_op = op;\n  }\n\n  for (uint32_t k = 0; k < edit_seqs.size(); k++) {\n    if (edit_seqs.at(k).size() == 0) {\n      edit_seqs.at(k).push_back(terminal_symbol);\n    }\n  }\n  return edit_seqs;\n}\n\nvector<uint32_t> compute_ed2(\n    vector<vector<uint32_t>>& xs,\n    vector<vector<uint32_t>>& ys) {\n  vector<uint32_t> distances(xs.size());\n  for (uint32_t i = 0; i < xs.size(); i++) {\n    vector<vector<uint32_t>> d = edit_distance2_with_dp(xs.at(i), ys.at(i));\n    distances.at(i) = d.at(xs.at(i).size()).at(ys.at(i).size());\n  }\n  return distances;\n}\n\nvector<vector<vector<uint32_t>>> suggested_ed2_path(\n    vector<vector<uint32_t>>& xs,\n    vector<vector<uint32_t>>& ys,\n    uint32_t terminal_symbol) {\n  vector<vector<vector<uint32_t>>> seq(xs.size());\n  for (uint32_t i = 0; i < xs.size(); i++) {\n    vector<vector<uint32_t>> d = edit_distance2_with_dp(xs.at(i), ys.at(i));\n    seq.at(i) =\n        edit_distance2_backtracking(d, xs.at(i), ys.at(i), terminal_symbol);\n  }\n  return seq;\n}\n\nvector<vector<vector<uint32_t>>> suggested_ed2_path_with_delete(\n    vector<vector<uint32_t>>& xs,\n    vector<vector<uint32_t>>& ys,\n    uint32_t terminal_symbol,\n    uint32_t deletion_symbol) {\n  vector<vector<vector<uint32_t>>> seq(xs.size());\n  for (uint32_t i = 0; i < xs.size(); i++) {\n    vector<vector<uint32_t>> d = edit_distance2_with_dp(xs.at(i), ys.at(i));\n    seq.at(i) = edit_distance2_backtracking_with_delete(\n        d, xs.at(i), ys.at(i), terminal_symbol, deletion_symbol);\n  }\n  return seq;\n}\n\nPYBIND11_MODULE(libnat, m) {\n  m.def(\"compute_ed2\", &compute_ed2, \"compute_ed2\");\n  m.def(\"suggested_ed2_path\", &suggested_ed2_path, \"suggested_ed2_path\");\n  m.def(\n      \"suggested_ed2_path_with_delete\",\n      &suggested_ed2_path_with_delete,\n      \"suggested_ed2_path_with_delete\");\n}\n"
  },
  {
    "path": "fairseq/clib/libnat_cuda/binding.cpp",
    "content": "/**\n * Copyright 2017-present, Facebook, Inc.\n * All rights reserved.\n *\n * This source code is licensed under the license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n/*\n This code is partially adpoted from\n https://github.com/1ytic/pytorch-edit-distance\n */\n\n#include <torch/types.h>\n#include \"edit_dist.h\"\n\n#ifndef TORCH_CHECK\n#define TORCH_CHECK AT_CHECK\n#endif\n\n#define CHECK_CUDA(x) \\\n  TORCH_CHECK(x.type().is_cuda(), #x \" must be a CUDA tensor\")\n#define CHECK_CONTIGUOUS(x) \\\n  TORCH_CHECK(x.is_contiguous(), #x \" must be contiguous\")\n#define CHECK_INPUT(x) \\\n  CHECK_CUDA(x);       \\\n  CHECK_CONTIGUOUS(x)\n\ntorch::Tensor LevenshteinDistance(\n    torch::Tensor source,\n    torch::Tensor target,\n    torch::Tensor source_length,\n    torch::Tensor target_length) {\n  CHECK_INPUT(source);\n  CHECK_INPUT(target);\n  CHECK_INPUT(source_length);\n  CHECK_INPUT(target_length);\n  return LevenshteinDistanceCuda(source, target, source_length, target_length);\n}\n\ntorch::Tensor GenerateDeletionLabel(\n    torch::Tensor source,\n    torch::Tensor operations) {\n  CHECK_INPUT(source);\n  CHECK_INPUT(operations);\n  return GenerateDeletionLabelCuda(source, operations);\n}\n\nstd::pair<torch::Tensor, torch::Tensor> GenerateInsertionLabel(\n    torch::Tensor target,\n    torch::Tensor operations) {\n  CHECK_INPUT(target);\n  CHECK_INPUT(operations);\n  return GenerateInsertionLabelCuda(target, operations);\n}\n\nPYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {\n  m.def(\"levenshtein_distance\", &LevenshteinDistance, \"Levenshtein distance\");\n  m.def(\n      \"generate_deletion_labels\",\n      &GenerateDeletionLabel,\n      \"Generate Deletion Label\");\n  m.def(\n      \"generate_insertion_labels\",\n      &GenerateInsertionLabel,\n      \"Generate Insertion Label\");\n}\n"
  },
  {
    "path": "fairseq/clib/libnat_cuda/edit_dist.cu",
    "content": "/**\n * Copyright 2017-present, Facebook, Inc.\n * All rights reserved.\n *\n * This source code is licensed under the license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include \"edit_dist.h\"\n\n#include <c10/cuda/CUDAStream.h>\n#include <cuda.h>\n#include <cuda_runtime.h>\n#include <device_launch_parameters.h>\n#include <utility> // std::pair\n\ntemplate <typename scalar_t>\n__global__ void generate_deletion_label_kernel(\n    const scalar_t* __restrict__ source,\n    const size_t source_size,\n    const size_t operation_size,\n    int* __restrict__ operations,\n    int* __restrict__ labels) {\n  const int index = blockIdx.x;\n  const int offset = index * operation_size;\n  const int offset_label = index * source_size;\n\n  for (int i = 0; i < source_size; i++) {\n    labels[offset_label + i] = 0;\n  }\n\n  int k = 0;\n  for (int i = 0; i < operation_size; i++) {\n    if (operations[offset + i] == 0) {\n      break;\n    } else if (operations[offset + i] == 1) {\n      continue;\n    } else {\n      labels[offset_label + k] = 3 - operations[offset + i];\n      k++;\n    }\n  }\n}\n\ntemplate <typename scalar_t>\n__global__ void generate_insertion_label_kernel(\n    const scalar_t* __restrict__ target,\n    const size_t target_size,\n    const size_t operation_size,\n    int* __restrict__ operations,\n    int* __restrict__ labels,\n    int* __restrict__ masks) {\n  const int index = blockIdx.x;\n  const int offset = index * operation_size;\n  const int offset_label = index * target_size;\n\n  int k = 0;\n  int u = 0;\n  int m = 0;\n\n  for (int i = 0; i < target_size; i++) {\n    labels[offset_label + i] = 0;\n    masks[offset_label + i] = 0;\n  }\n\n  for (int i = 0; i < operation_size - 1; i++) {\n    if (operations[offset + i] == 0) {\n      break;\n    } else if (operations[offset + i] == 2) {\n      continue;\n    } else if (operations[offset + i] == 1) {\n      masks[offset_label + m] = 1;\n      u++;\n      m++;\n    } else {\n      labels[offset_label + k] = u;\n      masks[offset_label + m] = 0;\n      k++;\n      m++;\n      u = 0;\n    }\n  }\n}\n\ntemplate <typename scalar_t>\n__global__ void levenshtein_distance_kernel(\n    const scalar_t* __restrict__ source,\n    const scalar_t* __restrict__ target,\n    const int* __restrict__ source_length,\n    const int* __restrict__ target_length,\n    const size_t source_size,\n    const size_t target_size,\n    int* __restrict__ operations,\n    int* __restrict__ errors_curr) {\n  const int index = blockIdx.x;\n  const int offset = index * (source_size + target_size);\n  const int d = index * (source_size + 1) * (target_size + 1);\n  const int t = target_size + 1;\n\n  auto err_idx = [d, t](int i, int j) { return d + i * t + j; };\n  auto opt_idx = [offset](int k) { return offset + k; };\n\n  const int hyp_len = source_length[index];\n  const int ref_len = target_length[index];\n  const scalar_t* hyp_begin = source + index * source_size;\n  const scalar_t* ref_begin = target + index * target_size;\n\n  // dynamic programming\n  for (int i = 0; i <= hyp_len; i++) {\n    errors_curr[err_idx(i, 0)] = i;\n  }\n  for (int j = 0; j <= ref_len; j++) {\n    errors_curr[err_idx(0, j)] = j;\n  }\n  for (int i = 1; i <= hyp_len; i++) {\n    for (int j = 1; j <= ref_len; j++) {\n      errors_curr[err_idx(i, j)] = min(\n          min(errors_curr[err_idx(i - 1, j)], errors_curr[err_idx(i, j - 1)]) +\n              1,\n          errors_curr[err_idx(i - 1, j - 1)] +\n              2 * (*(hyp_begin + i - 1) == *(ref_begin + j - 1) ? 0 : 1));\n    }\n  }\n\n  // back-tracing\n  int i = hyp_len;\n  int j = ref_len;\n  int o = hyp_len + ref_len;\n\n  for (int k = 0; k < source_size + target_size; k++) {\n    operations[opt_idx(k)] = 0;\n  }\n\n  while ((i >= 0) && (j >= 0)) {\n    if ((i == 0) && (j == 0)) {\n      break;\n    }\n\n    if ((j > 0) &&\n        (errors_curr[err_idx(i, j - 1)] < errors_curr[err_idx(i, j)])) {\n      o--;\n      operations[opt_idx(o)] = 1;\n      j--; // insertion\n    } else if (\n        (i > 0) &&\n        (errors_curr[err_idx(i - 1, j)] < errors_curr[err_idx(i, j)])) {\n      o--;\n      operations[opt_idx(o)] = 2;\n      i--; // deletion\n    } else {\n      o--;\n      operations[opt_idx(o)] = 3;\n      i--;\n      j--; // do nothing\n    }\n  }\n\n  // moving to the left\n  for (int k = 0; k < hyp_len + ref_len; k++) {\n    if (k + o < hyp_len + ref_len) {\n      operations[opt_idx(k)] = operations[opt_idx(k + o)];\n    } else {\n      operations[opt_idx(k)] = 0; // padding\n    }\n  }\n}\n\ntemplate <typename scalar_t>\n__global__ void faster_levenshtein_distance_kernel(\n    const scalar_t* __restrict__ source,\n    const scalar_t* __restrict__ target,\n    const int* __restrict__ source_length,\n    const int* __restrict__ target_length,\n    const size_t source_size,\n    const size_t target_size,\n    int* __restrict__ operations) {\n  extern __shared__ short errors[];\n  auto errors_curr = errors;\n\n  const int index = blockIdx.x;\n  const int offset = index * (source_size + target_size);\n  const int t = target_size + 1;\n\n  auto err_idx = [t](int i, int j) { return i * t + j; };\n  auto opt_idx = [offset](int k) { return offset + k; };\n\n  const int hyp_len = source_length[index];\n  const int ref_len = target_length[index];\n  const scalar_t* hyp_begin = source + index * source_size;\n  const scalar_t* ref_begin = target + index * target_size;\n\n  // dynamic programming\n  for (int i = 0; i <= hyp_len; i++) {\n    errors_curr[err_idx(i, 0)] = i;\n  }\n  for (int j = 0; j <= ref_len; j++) {\n    errors_curr[err_idx(0, j)] = j;\n  }\n  for (int i = 1; i <= hyp_len; i++) {\n    for (int j = 1; j <= ref_len; j++) {\n      errors_curr[err_idx(i, j)] = min(\n          min(errors_curr[err_idx(i - 1, j)], errors_curr[err_idx(i, j - 1)]) +\n              1,\n          errors_curr[err_idx(i - 1, j - 1)] +\n              2 * (*(hyp_begin + i - 1) == *(ref_begin + j - 1) ? 0 : 1));\n    }\n  }\n\n  // back-tracing\n  int i = hyp_len;\n  int j = ref_len;\n  int o = hyp_len + ref_len;\n\n  for (int k = 0; k < source_size + target_size; k++) {\n    operations[opt_idx(k)] = 0;\n  }\n\n  while ((i >= 0) && (j >= 0)) {\n    if ((i == 0) && (j == 0)) {\n      break;\n    }\n\n    if ((j > 0) &&\n        (errors_curr[err_idx(i, j - 1)] < errors_curr[err_idx(i, j)])) {\n      o--;\n      operations[opt_idx(o)] = 1;\n      j--; // insertion\n    } else if (\n        (i > 0) &&\n        (errors_curr[err_idx(i - 1, j)] < errors_curr[err_idx(i, j)])) {\n      o--;\n      operations[opt_idx(o)] = 2;\n      i--; // deletion\n    } else {\n      o--;\n      operations[opt_idx(o)] = 3;\n      i--;\n      j--; // do nothing\n    }\n  }\n\n  // moving to the left\n  for (int k = 0; k < hyp_len + ref_len; k++) {\n    if (k + o < hyp_len + ref_len) {\n      operations[opt_idx(k)] = operations[opt_idx(k + o)];\n    } else {\n      operations[opt_idx(k)] = 0; // padding\n    }\n  }\n}\n\ntorch::Tensor GenerateDeletionLabelCuda(\n    torch::Tensor source,\n    torch::Tensor operations) {\n  const auto batch_size = source.size(0);\n  at::TensorOptions options(source.device());\n  options = options.dtype(at::ScalarType::Int);\n  auto labels = torch::empty({batch_size, source.size(1)}, options);\n  auto stream = at::cuda::getCurrentCUDAStream(source.device().index());\n\n  AT_DISPATCH_ALL_TYPES(source.scalar_type(), \"generate_deletion_labels\", ([&] {\n                          generate_deletion_label_kernel<scalar_t>\n                              <<<batch_size, 1, 0, stream>>>(\n                                  source.data_ptr<scalar_t>(),\n                                  source.size(1),\n                                  operations.size(1),\n                                  operations.data_ptr<int>(),\n                                  labels.data_ptr<int>());\n                        }));\n\n  return labels;\n}\n\nstd::pair<torch::Tensor, torch::Tensor> GenerateInsertionLabelCuda(\n    torch::Tensor target,\n    torch::Tensor operations) {\n  const auto batch_size = target.size(0);\n  at::TensorOptions options(target.device());\n  options = options.dtype(at::ScalarType::Int);\n  auto labels = torch::empty({batch_size, target.size(1)}, options);\n  auto masks = torch::empty({batch_size, target.size(1)}, options);\n  auto stream = at::cuda::getCurrentCUDAStream(target.device().index());\n\n  AT_DISPATCH_ALL_TYPES(\n      target.scalar_type(), \"generate_insertion_labels\", ([&] {\n        generate_insertion_label_kernel<scalar_t><<<batch_size, 1, 0, stream>>>(\n            target.data_ptr<scalar_t>(),\n            target.size(1),\n            operations.size(1),\n            operations.data_ptr<int>(),\n            labels.data_ptr<int>(),\n            masks.data_ptr<int>());\n      }));\n\n  return std::make_pair(labels, masks);\n}\n\ntorch::Tensor LevenshteinDistanceCuda(\n    torch::Tensor source,\n    torch::Tensor target,\n    torch::Tensor source_length,\n    torch::Tensor target_length) {\n  const auto batch_size = source.size(0);\n  const auto shared_size =\n      (source.size(1) + 1) * (target.size(1) + 1) * sizeof(short);\n\n  at::TensorOptions options(source.device());\n  options = options.dtype(at::ScalarType::Int);\n  auto operations =\n      torch::empty({batch_size, source.size(1) + target.size(1)}, options);\n  auto stream = at::cuda::getCurrentCUDAStream(source.device().index());\n\n  if (shared_size > 40000) {\n    auto distances = torch::empty(\n        {batch_size, (source.size(1) + 1) * (target.size(1) + 1)}, options);\n    AT_DISPATCH_ALL_TYPES(source.scalar_type(), \"levenshtein_distance\", ([&] {\n                            levenshtein_distance_kernel<scalar_t>\n                                <<<batch_size, 1, 0, stream>>>(\n                                    source.data_ptr<scalar_t>(),\n                                    target.data_ptr<scalar_t>(),\n                                    source_length.data_ptr<int>(),\n                                    target_length.data_ptr<int>(),\n                                    source.size(1),\n                                    target.size(1),\n                                    operations.data_ptr<int>(),\n                                    distances.data_ptr<int>());\n                          }));\n  } else {\n    AT_DISPATCH_ALL_TYPES(\n        source.scalar_type(), \"faster_levenshtein_distance\", ([&] {\n          faster_levenshtein_distance_kernel<scalar_t>\n              <<<batch_size, 1, shared_size, stream>>>(\n                  source.data_ptr<scalar_t>(),\n                  target.data_ptr<scalar_t>(),\n                  source_length.data_ptr<int>(),\n                  target_length.data_ptr<int>(),\n                  source.size(1),\n                  target.size(1),\n                  operations.data_ptr<int>());\n        }));\n  }\n\n  return operations;\n}\n"
  },
  {
    "path": "fairseq/clib/libnat_cuda/edit_dist.h",
    "content": "/**\n * Copyright 2017-present, Facebook, Inc.\n * All rights reserved.\n *\n * This source code is licensed under the license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#pragma once\n\n#include <torch/extension.h>\n\ntorch::Tensor LevenshteinDistanceCuda(\n    torch::Tensor source,\n    torch::Tensor target,\n    torch::Tensor source_length,\n    torch::Tensor target_length);\n\ntorch::Tensor GenerateDeletionLabelCuda(\n    torch::Tensor source,\n    torch::Tensor operations);\n\nstd::pair<torch::Tensor, torch::Tensor> GenerateInsertionLabelCuda(\n    torch::Tensor source,\n    torch::Tensor operations);\n"
  },
  {
    "path": "fairseq/config/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n"
  },
  {
    "path": "fairseq/config/config.yaml",
    "content": "# @package _group_\n\nhydra:\n  run:\n    dir: .\n\ndefaults:\n    - _self_\n    - task: null\n    - model: null\n    - criterion: cross_entropy\n    - optimizer: null\n    - lr_scheduler: fixed\n    - bpe: null\n    - tokenizer: null\n    - scoring: null\n    - generation: null\n    - common_eval: null\n    - eval_lm: null\n"
  },
  {
    "path": "fairseq/config/fb_run_config/slurm.yaml",
    "content": "# @package _global_\n\nhydra:\n  job:\n    config:\n      override_dirname:\n        kv_sep: ':'\n        item_sep: '__'\n        exclude_keys:\n          - fb_run_config\n          - distributed_training.distributed_port\n  sweep:\n    dir: /checkpoint/${env:USER}/${env:PREFIX}/${hydra.job.config_name}_${hydra.launcher.gpus_per_node}/${hydra.job.override_dirname}\n  launcher:\n    cpus_per_task: 60\n    gpus_per_node: ???\n    tasks_per_node: 1\n    nodes: 1\n    partition: learnfair\n    mem_gb: 400\n    timeout_min: 4320\n    max_num_timeout: 10\n    name: ${env:PREFIX}_${hydra.job.config_name}\n    submitit_folder: ${hydra.sweep.dir}\n\ndistributed_training:\n  ddp_backend: c10d\n  distributed_world_size: ???\n  distributed_port: ???\n"
  },
  {
    "path": "fairseq/config/model/transformer_lm/transformer_lm_baevski_gbw.yaml",
    "content": "# @package _group_\nactivation_fn: \"relu\"\ndropout: 0.1\nattention_dropout: 0.1\nactivation_dropout: 0.0\nrelu_dropout: 0.0\ndecoder_embed_dim: 512\ndecoder_output_dim: 512\ndecoder_input_dim: 512\ndecoder_ffn_embed_dim: 4096\ndecoder_layers: 12\ndecoder_attention_heads: 16\ndecoder_normalize_before: true\nno_decoder_final_norm: true\nadaptive_softmax_cutoff: null\nadaptive_softmax_dropout: 0\nadaptive_softmax_factor: 4\nno_token_positional_embeddings: false\nshare_decoder_input_output_embed: false\ncharacter_embeddings: false\ncharacter_filters: \"[(1, 64), (2, 128), (3, 192), (4, 256), (5, 256), (6, 256), (7, 256)]\"\ncharacter_embedding_dim: 4\nchar_embedder_highway_layers: 2\nadaptive_input: false\nadaptive_input_factor: 4\nadaptive_input_cutoff: null\ntie_adaptive_weights: false\ntie_adaptive_proj: false\ndecoder_learned_pos: false\ndecoder_layerdrop: 0\ndecoder_layers_to_keep: null\nlayernorm_embedding: false\nno_scale_embedding: false\nquant_noise_pq: 0\nquant_noise_pq_block_size: 8\nquant_noise_scalar: 0\n"
  },
  {
    "path": "fairseq/config/model/transformer_lm/transformer_lm_baevski_wiki103.yaml",
    "content": "# @package _group_\nactivation_fn: \"relu\"\ndropout: 0.3\nattention_dropout: 0.1\nactivation_dropout: 0.1\nrelu_dropout: 0.1\ndecoder_embed_dim: 1024\ndecoder_output_dim: 1024\ndecoder_input_dim: 1024\ndecoder_ffn_embed_dim: 4096\ndecoder_layers: 16\ndecoder_attention_heads: 8\ndecoder_normalize_before: true\nno_decoder_final_norm: true\nadaptive_softmax_cutoff: \"20000,60000\"\nadaptive_softmax_dropout: 0.2\nadaptive_softmax_factor: 4\nno_token_positional_embeddings: false\nshare_decoder_input_output_embed: false\ncharacter_embeddings: false\ncharacter_filters: \"[(1, 64), (2, 128), (3, 192), (4, 256), (5, 256), (6, 256), (7, 256)]\"\ncharacter_embedding_dim: 4\nchar_embedder_highway_layers: 2\nadaptive_input: true\nadaptive_input_factor: 4\nadaptive_input_cutoff: \"20000,60000\"\ntie_adaptive_weights: true\ntie_adaptive_proj: true\ndecoder_learned_pos: false\ndecoder_layerdrop: 0\ndecoder_layers_to_keep: null\nlayernorm_embedding: false\nno_scale_embedding: false\nquant_noise_pq: 0\nquant_noise_pq_block_size: 8\nquant_noise_scalar: 0\n"
  },
  {
    "path": "fairseq/config/model/transformer_lm/transformer_lm_big.yaml",
    "content": "# @package _group_\nactivation_fn: \"relu\"\ndropout: 0.1\nattention_dropout: 0.0\nactivation_dropout: 0.0\nrelu_dropout: 0.0\ndecoder_embed_dim: 1024\ndecoder_output_dim: 1024\ndecoder_input_dim: 1024\ndecoder_ffn_embed_dim: 4096\ndecoder_layers: 12\ndecoder_attention_heads: 16\ndecoder_normalize_before: true\nno_decoder_final_norm: false\nadaptive_softmax_cutoff: null\nadaptive_softmax_dropout: 0\nadaptive_softmax_factor: 4\nno_token_positional_embeddings: false\nshare_decoder_input_output_embed: false\ncharacter_embeddings: false\ncharacter_filters: \"[(1, 64), (2, 128), (3, 192), (4, 256), (5, 256), (6, 256), (7, 256)]\"\ncharacter_embedding_dim: 4\nchar_embedder_highway_layers: 2\nadaptive_input: false\nadaptive_input_factor: 4\nadaptive_input_cutoff: null\ntie_adaptive_weights: false\ntie_adaptive_proj: false\ndecoder_learned_pos: false\ndecoder_layerdrop: 0\ndecoder_layers_to_keep: null\nlayernorm_embedding: false\nno_scale_embedding: false\nquant_noise_pq: 0\nquant_noise_pq_block_size: 8\nquant_noise_scalar: 0\n"
  },
  {
    "path": "fairseq/config/model/transformer_lm/transformer_lm_gbw.yaml",
    "content": "# @package _group_\nactivation_fn: \"relu\"\ndropout: 0.1\nattention_dropout: 0.1\nactivation_dropout: 0.0\nrelu_dropout: 0.0\ndecoder_embed_dim: 512\ndecoder_output_dim: 512\ndecoder_input_dim: 512\ndecoder_ffn_embed_dim: 4096\ndecoder_layers: 12\ndecoder_attention_heads: 16\ndecoder_normalize_before: true\nno_decoder_final_norm: true\nadaptive_softmax_cutoff: null\nadaptive_softmax_dropout: 0\nadaptive_softmax_factor: 4\nno_token_positional_embeddings: false\nshare_decoder_input_output_embed: false\ncharacter_embeddings: false\ncharacter_filters: \"[(1, 64), (2, 128), (3, 192), (4, 256), (5, 256), (6, 256), (7, 256)]\"\ncharacter_embedding_dim: 4\nchar_embedder_highway_layers: 2\nadaptive_input: false\nadaptive_input_factor: 4\nadaptive_input_cutoff: null\ntie_adaptive_weights: false\ntie_adaptive_proj: false\ndecoder_learned_pos: false\ndecoder_layerdrop: 0\ndecoder_layers_to_keep: null\nlayernorm_embedding: false\nno_scale_embedding: false\nquant_noise_pq: 0\nquant_noise_pq_block_size: 8\nquant_noise_scalar: 0\n"
  },
  {
    "path": "fairseq/config/model/transformer_lm/transformer_lm_gpt.yaml",
    "content": "# @package _group_\nactivation_fn: \"gelu\"\ndropout: 0.1\nattention_dropout: 0.1\nactivation_dropout: 0.0\nrelu_dropout: 0.0\ndecoder_embed_dim: 768\ndecoder_output_dim: 768\ndecoder_input_dim: 768\ndecoder_ffn_embed_dim: 3072\ndecoder_layers: 12\ndecoder_attention_heads: 12\ndecoder_normalize_before: true\nno_decoder_final_norm: false\nadaptive_softmax_cutoff: null\nadaptive_softmax_dropout: 0\nadaptive_softmax_factor: 4\nno_token_positional_embeddings: false\nshare_decoder_input_output_embed: false\ncharacter_embeddings: false\ncharacter_filters: \"[(1, 64), (2, 128), (3, 192), (4, 256), (5, 256), (6, 256), (7, 256)]\"\ncharacter_embedding_dim: 4\nchar_embedder_highway_layers: 2\nadaptive_input: false\nadaptive_input_factor: 4\nadaptive_input_cutoff: null\ntie_adaptive_weights: false\ntie_adaptive_proj: false\ndecoder_learned_pos: false\ndecoder_layerdrop: 0\ndecoder_layers_to_keep: null\nlayernorm_embedding: false\nno_scale_embedding: false\nquant_noise_pq: 0\nquant_noise_pq_block_size: 8\nquant_noise_scalar: 0\n"
  },
  {
    "path": "fairseq/config/model/transformer_lm/transformer_lm_gpt2_big.yaml",
    "content": "# @package _group_\nactivation_fn: \"gelu\"\ndropout: 0.1\nattention_dropout: 0.1\nactivation_dropout: 0.0\nrelu_dropout: 0.0\ndecoder_embed_dim: 1600\ndecoder_output_dim: 1600\ndecoder_input_dim: 1600\ndecoder_ffn_embed_dim: 6400\ndecoder_layers: 48\ndecoder_attention_heads: 25\ndecoder_normalize_before: true\nno_decoder_final_norm: false\nadaptive_softmax_cutoff: null\nadaptive_softmax_dropout: 0\nadaptive_softmax_factor: 4\nno_token_positional_embeddings: false\nshare_decoder_input_output_embed: false\ncharacter_embeddings: false\ncharacter_filters: \"[(1, 64), (2, 128), (3, 192), (4, 256), (5, 256), (6, 256), (7, 256)]\"\ncharacter_embedding_dim: 4\nchar_embedder_highway_layers: 2\nadaptive_input: false\nadaptive_input_factor: 4\nadaptive_input_cutoff: null\ntie_adaptive_weights: false\ntie_adaptive_proj: false\ndecoder_learned_pos: false\ndecoder_layerdrop: 0\ndecoder_layers_to_keep: null\nlayernorm_embedding: false\nno_scale_embedding: false\nquant_noise_pq: 0\nquant_noise_pq_block_size: 8\nquant_noise_scalar: 0\n"
  },
  {
    "path": "fairseq/config/model/transformer_lm/transformer_lm_gpt2_medium.yaml",
    "content": "# @package _group_\nactivation_fn: \"gelu\"\ndropout: 0.1\nattention_dropout: 0.1\nactivation_dropout: 0.0\nrelu_dropout: 0.0\ndecoder_embed_dim: 1280\ndecoder_output_dim: 1280\ndecoder_input_dim: 1280\ndecoder_ffn_embed_dim: 5120\ndecoder_layers: 36\ndecoder_attention_heads: 20\ndecoder_normalize_before: true\nno_decoder_final_norm: false\nadaptive_softmax_cutoff: null\nadaptive_softmax_dropout: 0\nadaptive_softmax_factor: 4\nno_token_positional_embeddings: false\nshare_decoder_input_output_embed: false\ncharacter_embeddings: false\ncharacter_filters: \"[(1, 64), (2, 128), (3, 192), (4, 256), (5, 256), (6, 256), (7, 256)]\"\ncharacter_embedding_dim: 4\nchar_embedder_highway_layers: 2\nadaptive_input: false\nadaptive_input_factor: 4\nadaptive_input_cutoff: null\ntie_adaptive_weights: false\ntie_adaptive_proj: false\ndecoder_learned_pos: false\ndecoder_layerdrop: 0\ndecoder_layers_to_keep: null\nlayernorm_embedding: false\nno_scale_embedding: false\nquant_noise_pq: 0\nquant_noise_pq_block_size: 8\nquant_noise_scalar: 0\n"
  },
  {
    "path": "fairseq/config/model/transformer_lm/transformer_lm_gpt2_small.yaml",
    "content": "# @package _group_\nactivation_fn: \"gelu\"\ndropout: 0.1\nattention_dropout: 0.1\nactivation_dropout: 0.0\nrelu_dropout: 0.0\ndecoder_embed_dim: 1024\ndecoder_output_dim: 1024\ndecoder_input_dim: 1024\ndecoder_ffn_embed_dim: 4096\ndecoder_layers: 24\ndecoder_attention_heads: 16\ndecoder_normalize_before: true\nno_decoder_final_norm: false\nadaptive_softmax_cutoff: null\nadaptive_softmax_dropout: 0\nadaptive_softmax_factor: 4\nno_token_positional_embeddings: false\nshare_decoder_input_output_embed: false\ncharacter_embeddings: false\ncharacter_filters: \"[(1, 64), (2, 128), (3, 192), (4, 256), (5, 256), (6, 256), (7, 256)]\"\ncharacter_embedding_dim: 4\nchar_embedder_highway_layers: 2\nadaptive_input: false\nadaptive_input_factor: 4\nadaptive_input_cutoff: null\ntie_adaptive_weights: false\ntie_adaptive_proj: false\ndecoder_learned_pos: false\ndecoder_layerdrop: 0\ndecoder_layers_to_keep: null\nlayernorm_embedding: false\nno_scale_embedding: false\nquant_noise_pq: 0\nquant_noise_pq_block_size: 8\nquant_noise_scalar: 0\n"
  },
  {
    "path": "fairseq/config/model/transformer_lm/transformer_lm_wiki103.yaml",
    "content": "# @package _group_\nactivation_fn: \"relu\"\ndropout: 0.3\nattention_dropout: 0.1\nactivation_dropout: 0.1\nrelu_dropout: 0.1\ndecoder_embed_dim: 1024\ndecoder_output_dim: 1024\ndecoder_input_dim: 1024\ndecoder_ffn_embed_dim: 4096\ndecoder_layers: 16\ndecoder_attention_heads: 8\ndecoder_normalize_before: true\nno_decoder_final_norm: true\nadaptive_softmax_cutoff: \"20000,60000\"\nadaptive_softmax_dropout: 0.2\nadaptive_softmax_factor: 4\nno_token_positional_embeddings: false\nshare_decoder_input_output_embed: false\ncharacter_embeddings: false\ncharacter_filters: \"[(1, 64), (2, 128), (3, 192), (4, 256), (5, 256), (6, 256), (7, 256)]\"\ncharacter_embedding_dim: 4\nchar_embedder_highway_layers: 2\nadaptive_input: true\nadaptive_input_factor: 4\nadaptive_input_cutoff: \"20000,60000\"\ntie_adaptive_weights: true\ntie_adaptive_proj: true\ndecoder_learned_pos: false\ndecoder_layerdrop: 0\ndecoder_layers_to_keep: null\nlayernorm_embedding: false\nno_scale_embedding: false\nquant_noise_pq: 0\nquant_noise_pq_block_size: 8\nquant_noise_scalar: 0\n"
  },
  {
    "path": "fairseq/config/model/wav2vec/vq_wav2vec_gumbel.yaml",
    "content": "# @package _group_\nactivation: gelu\nvq_type: gumbel\nvq_depth: 2\ncombine_groups: true\n"
  },
  {
    "path": "fairseq/config/model/wav2vec2/wav2vec2_base.yaml",
    "content": "# @package _group_\n\nquantize_targets: true\nfinal_dim: 256\nencoder_layerdrop: 0.05\ndropout_input: 0.1\ndropout_features: 0.1\nfeature_grad_mult: 0.1\n"
  },
  {
    "path": "fairseq/config/model/wav2vec2/wav2vec2_large.yaml",
    "content": "# @package _group_\n\nquantize_targets: true\nextractor_mode: layer_norm\nlayer_norm_first: true\nfinal_dim: 768\nlatent_temp: [2.0,0.1,0.999995]\nencoder_layerdrop: 0.0\ndropout_input: 0.0\ndropout_features: 0.0\ndropout: 0.0\nattention_dropout: 0.0\nconv_bias: true\n\nencoder_layers: 24\nencoder_embed_dim: 1024\nencoder_ffn_embed_dim: 4096\nencoder_attention_heads: 16\n\nfeature_grad_mult: 1.0\n"
  },
  {
    "path": "fairseq/criterions/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"isort:skip_file\"\"\"\n\nimport importlib\nimport os\n\nfrom fairseq import registry\nfrom fairseq.criterions.fairseq_criterion import (  # noqa\n    FairseqCriterion,\n    LegacyFairseqCriterion,\n)\nfrom omegaconf import DictConfig\n\n\n(\n    build_criterion_,\n    register_criterion,\n    CRITERION_REGISTRY,\n    CRITERION_DATACLASS_REGISTRY,\n) = registry.setup_registry(\n    \"--criterion\", base_class=FairseqCriterion, default=\"cross_entropy\"\n)\n\n\ndef build_criterion(cfg: DictConfig, task, from_checkpoint=False):\n    return build_criterion_(cfg, task, from_checkpoint=from_checkpoint)\n\n\n# automatically import any Python files in the criterions/ directory\nfor file in sorted(os.listdir(os.path.dirname(__file__))):\n    if file.endswith(\".py\") and not file.startswith(\"_\"):\n        file_name = file[: file.find(\".py\")]\n        importlib.import_module(\"fairseq.criterions.\" + file_name)\n"
  },
  {
    "path": "fairseq/criterions/adaptive_loss.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom dataclasses import dataclass\n\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.dataclass.constants import DDP_BACKEND_CHOICES\nfrom omegaconf import II\n\n\n@dataclass\nclass AdaptiveLossConfig(FairseqDataclass):\n    sentence_avg: bool = II(\"optimization.sentence_avg\")\n    ddp_backend: DDP_BACKEND_CHOICES = II(\"distributed_training.ddp_backend\")\n\n\n@register_criterion(\"adaptive_loss\", dataclass=AdaptiveLossConfig)\nclass AdaptiveLoss(FairseqCriterion):\n    \"\"\"This is an implementation of the loss function accompanying the adaptive softmax approximation for\n    graphical processing units (GPU), described in the paper \"Efficient softmax approximation for GPUs\"\n    (http://arxiv.org/abs/1609.04309).\"\"\"\n\n    def __init__(self, task, sentence_avg):\n        super().__init__(task)\n        self.sentence_avg = sentence_avg\n\n    @classmethod\n    def build_criterion(cls, cfg: AdaptiveLossConfig, task):\n        if cfg.ddp_backend in {\"c10d\", \"pytorch_ddp\"}:\n            raise Exception(\n                \"AdaptiveLoss is not compatible with the PyTorch \"\n                \"version of DistributedDataParallel. Please use \"\n                \"`--ddp-backend=legacy_ddp` instead.\"\n            )\n        return cls(task, cfg.sentence_avg)\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n\n        assert (\n            hasattr(model.decoder, \"adaptive_softmax\")\n            and model.decoder.adaptive_softmax is not None\n        )\n        adaptive_softmax = model.decoder.adaptive_softmax\n\n        net_output = model(**sample[\"net_input\"])\n        orig_target = model.get_targets(sample, net_output)\n\n        nsentences = orig_target.size(0)\n        orig_target = orig_target.view(-1)\n\n        bsz = orig_target.size(0)\n\n        logits, target = adaptive_softmax(net_output[0], orig_target)\n        assert len(target) == len(logits)\n\n        loss = net_output[0].new(1 if reduce else bsz).zero_()\n\n        for i in range(len(target)):\n            if target[i] is not None:\n                assert target[i].min() >= 0 and target[i].max() <= logits[i].size(1)\n                loss += F.cross_entropy(\n                    logits[i],\n                    target[i],\n                    ignore_index=self.padding_idx,\n                    reduction=\"sum\" if reduce else \"none\",\n                )\n\n        orig = utils.strip_pad(orig_target, self.padding_idx)\n        ntokens = orig.numel()\n        sample_size = sample[\"target\"].size(0) if self.sentence_avg else ntokens\n        logging_output = {\n            \"loss\": loss.data,\n            \"ntokens\": ntokens,\n            \"nsentences\": nsentences,\n            \"sample_size\": sample_size,\n        }\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = utils.item(sum(log.get(\"loss\", 0) for log in logging_outputs))\n        ntokens = utils.item(sum(log.get(\"ntokens\", 0) for log in logging_outputs))\n        sample_size = utils.item(\n            sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        )\n\n        metrics.log_scalar(\n            \"loss\", loss_sum / sample_size / math.log(2), sample_size, round=3\n        )\n        if sample_size != ntokens:\n            metrics.log_scalar(\n                \"nll_loss\", loss_sum / ntokens / math.log(2), ntokens, round=3\n            )\n            metrics.log_derived(\n                \"ppl\", lambda meters: utils.get_perplexity(meters[\"nll_loss\"].avg)\n            )\n        else:\n            metrics.log_derived(\n                \"ppl\", lambda meters: utils.get_perplexity(meters[\"loss\"].avg)\n            )\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "fairseq/criterions/composite_loss.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq import utils\nfrom fairseq.criterions import LegacyFairseqCriterion, register_criterion\nfrom torch import nn\n\n\n@register_criterion(\"composite_loss\")\nclass CompositeLoss(LegacyFairseqCriterion):\n    \"\"\"This is a composite loss that, given a list of model outputs and a list of targets,\n    computes an average of losses for each output-target pair\"\"\"\n\n    def __init__(self, args, task):\n        super().__init__(args, task)\n        self.underlying_criterion = args.underlying_criterion\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add criterion-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--underlying-criterion', type=str, metavar='VAL', required=True,\n                            help='underlying criterion to use for the composite loss')\n        # fmt: on\n\n    @staticmethod\n    def build_underlying_criterion(args, task):\n        saved_criterion = args.criterion\n        args.criterion = args.underlying_criterion\n        assert saved_criterion != args.underlying_criterion\n        underlying_criterion = task.build_criterion(args)\n        args.criterion = saved_criterion\n        return underlying_criterion\n\n    @classmethod\n    def build_criterion(cls, args, task):\n        underlying_criterion = CompositeLoss.build_underlying_criterion(args, task)\n\n        class FakeModel(nn.Module):\n            def __init__(self, model, net_out, target):\n                super().__init__()\n                self.model = model\n                self.net_out = net_out\n                self.target = target\n\n            def forward(self, **unused):\n                return self.net_out\n\n            def get_normalized_probs(self, net_output, log_probs, sample=None):\n                return self.model.get_normalized_probs(\n                    net_output, log_probs, sample=sample\n                )\n\n            def get_targets(self, *unused):\n                return self.target\n\n            @property\n            def decoder(self):\n                return self.model.decoder\n\n        class _CompositeLoss(LegacyFairseqCriterion):\n            def __init__(self, args, task, underlying_criterion):\n                super().__init__(args, task)\n                self.underlying_criterion = underlying_criterion\n\n            def forward(self, model, sample, reduce=True):\n                net_outputs = model(**sample[\"net_input\"])\n                targets = sample[\"target\"]\n\n                bsz = targets[0].size(0)\n                loss = net_outputs[0][0].new(1 if reduce else bsz).float().zero_()\n\n                sample_size = 0\n                logging_output = {}\n                for o, t in zip(net_outputs[0], targets):\n                    m = FakeModel(model, (o, net_outputs[1]), t)\n                    sample[\"target\"] = t\n                    l, ss, logging_output = self.underlying_criterion(m, sample, reduce)\n                    loss += l\n                    sample_size += ss\n\n                loss.div_(len(targets))\n                sample_size /= len(targets)\n\n                logging_output[\"loss\"] = utils.item(loss.data) if reduce else loss.data\n                return loss, sample_size, logging_output\n\n            @staticmethod\n            def aggregate_logging_outputs(logging_outputs):\n                return underlying_criterion.__class__.aggregate_logging_outputs(\n                    logging_outputs\n                )\n\n            @staticmethod\n            def reduce_metrics(logging_outputs) -> None:\n                underlying_criterion.__class__.reduce_metrics(logging_outputs)\n\n        return _CompositeLoss(args, task, underlying_criterion)\n"
  },
  {
    "path": "fairseq/criterions/cross_entropy.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom dataclasses import dataclass\n\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.dataclass import FairseqDataclass\nfrom omegaconf import II\n\n\n@dataclass\nclass CrossEntropyCriterionConfig(FairseqDataclass):\n    sentence_avg: bool = II(\"optimization.sentence_avg\")\n\n\n@register_criterion(\"cross_entropy\", dataclass=CrossEntropyCriterionConfig)\nclass CrossEntropyCriterion(FairseqCriterion):\n    def __init__(self, task, sentence_avg):\n        super().__init__(task)\n        self.sentence_avg = sentence_avg\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        net_output = model(**sample[\"net_input\"])\n        loss, _ = self.compute_loss(model, net_output, sample, reduce=reduce)\n        sample_size = (\n            sample[\"target\"].size(0) if self.sentence_avg else sample[\"ntokens\"]\n        )\n        logging_output = {\n            \"loss\": loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"target\"].size(0),\n            \"sample_size\": sample_size,\n        }\n        return loss, sample_size, logging_output\n\n    def compute_loss(self, model, net_output, sample, reduce=True):\n        lprobs = model.get_normalized_probs(net_output, log_probs=True)\n        lprobs = lprobs.view(-1, lprobs.size(-1))\n        target = model.get_targets(sample, net_output).view(-1)\n        loss = F.nll_loss(\n            lprobs,\n            target,\n            ignore_index=self.padding_idx,\n            reduction=\"sum\" if reduce else \"none\",\n        )\n        return loss, loss\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n        ntokens = sum(log.get(\"ntokens\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n\n        # we divide by log(2) to convert the loss from base e to base 2\n        metrics.log_scalar(\n            \"loss\", loss_sum / sample_size / math.log(2), sample_size, round=3\n        )\n        if sample_size != ntokens:\n            metrics.log_scalar(\n                \"nll_loss\", loss_sum / ntokens / math.log(2), ntokens, round=3\n            )\n            metrics.log_derived(\n                \"ppl\", lambda meters: utils.get_perplexity(meters[\"nll_loss\"].avg)\n            )\n        else:\n            metrics.log_derived(\n                \"ppl\", lambda meters: utils.get_perplexity(meters[\"loss\"].avg)\n            )\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "fairseq/criterions/ctc.py",
    "content": "# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nimport math\nfrom argparse import Namespace\nfrom dataclasses import dataclass, field\nfrom omegaconf import II\nfrom typing import Optional\n\nimport torch\nimport torch.nn.functional as F\n\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.data.data_utils import post_process\nfrom fairseq.tasks import FairseqTask\nfrom fairseq.logging.meters import safe_round\n\n\n@dataclass\nclass CtcCriterionConfig(FairseqDataclass):\n    zero_infinity: bool = field(\n        default=False,\n        metadata={\"help\": \"zero inf loss when source length <= target length\"},\n    )\n    sentence_avg: bool = II(\"optimization.sentence_avg\")\n    post_process: str = field(\n        default=\"letter\",\n        metadata={\n            \"help\": \"how to post process predictions into words. can be letter, \"\n            \"wordpiece, BPE symbols, etc. \"\n            \"See fairseq.data.data_utils.post_process() for full list of options\"\n        },\n    )\n    wer_kenlm_model: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"if this is provided, use kenlm to compute wer (along with other wer_* args)\"\n        },\n    )\n    wer_lexicon: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"lexicon to use with wer_kenlm_model\"},\n    )\n    wer_lm_weight: float = field(\n        default=2.0,\n        metadata={\"help\": \"lm weight to use with wer_kenlm_model\"},\n    )\n    wer_word_score: float = field(\n        default=-1.0,\n        metadata={\"help\": \"lm word score to use with wer_kenlm_model\"},\n    )\n    wer_sil_weight: float = field(\n        default=0,\n        metadata={\"help\": \"lm word score to use with wer_kenlm_model\"},\n    )\n\n    wer_args: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"DEPRECATED: tuple of (wer_kenlm_model, wer_lexicon, wer_lm_weight, wer_word_score)\"\n        },\n    )\n\n\n@register_criterion(\"ctc\", dataclass=CtcCriterionConfig)\nclass CtcCriterion(FairseqCriterion):\n    def __init__(\n        self, cfg: CtcCriterionConfig, task: FairseqTask, rdrop_alpha: int = 0.0\n    ):\n        super().__init__(task)\n        self.blank_idx = (\n            task.target_dictionary.index(task.blank_symbol)\n            if hasattr(task, \"blank_symbol\")\n            else 0\n        )\n        self.pad_idx = task.target_dictionary.pad()\n        self.eos_idx = task.target_dictionary.eos()\n        self.post_process = cfg.post_process\n\n        self.rdrop_alpha = rdrop_alpha\n\n        if cfg.wer_args is not None:\n            (\n                cfg.wer_kenlm_model,\n                cfg.wer_lexicon,\n                cfg.wer_lm_weight,\n                cfg.wer_word_score,\n            ) = eval(cfg.wer_args)\n\n        if cfg.wer_kenlm_model is not None and cfg.wer_kenlm_model != \"\":\n            from examples.speech_recognition.w2l_decoder import W2lKenLMDecoder\n\n            dec_args = Namespace()\n            dec_args.nbest = 1\n            dec_args.criterion = \"ctc\"\n            dec_args.kenlm_model = cfg.wer_kenlm_model\n            dec_args.lexicon = cfg.wer_lexicon\n            dec_args.beam = 50\n            dec_args.beam_size_token = min(50, len(task.target_dictionary))\n            dec_args.beam_threshold = min(50, len(task.target_dictionary))\n            dec_args.lm_weight = cfg.wer_lm_weight\n            dec_args.word_score = cfg.wer_word_score\n            dec_args.sil_weight = cfg.wer_sil_weight\n            dec_args.unk_weight = -math.inf\n            dec_args.sil_weight = 0\n\n            self.w2l_decoder = W2lKenLMDecoder(dec_args, task.target_dictionary)\n        else:\n            self.w2l_decoder = None\n\n        self.zero_infinity = cfg.zero_infinity\n        self.sentence_avg = cfg.sentence_avg\n\n    def forward(self, model, sample, reduce=True, **kwargs):\n        net_output = model(**sample[\"net_input\"])\n        lprobs = model.get_normalized_probs(\n            net_output, log_probs=True\n        ).contiguous()  # (T, B, C) from the encoder\n\n        # CTC loss is calculated over duplicated inputs\n        # sample is already duplicated for R-Drop\n        if self.rdrop_alpha > 0:\n            for k, v in sample.items():\n                if k in [\"target\", \"target_lengths\"]:\n                    sample[k] = torch.cat([v, v.clone()], dim=0)\n                elif k == \"net_input\":\n                    if sample[k][\"src_tokens\"].size(1) != sample[k][\"src_lengths\"].size(\n                        0\n                    ):\n                        # for decoder CTC loss\n                        sample[k][\"src_lengths\"] = torch.cat(\n                            [\n                                sample[k][\"src_lengths\"],\n                                sample[k][\"src_lengths\"].clone(),\n                            ],\n                            dim=0,\n                        )\n\n        if \"src_lengths\" in sample[\"net_input\"]:\n            input_lengths = sample[\"net_input\"][\"src_lengths\"]\n        else:\n            if net_output[\"padding_mask\"] is not None:\n                non_padding_mask = ~net_output[\"padding_mask\"]\n                input_lengths = non_padding_mask.long().sum(-1)\n            else:\n                input_lengths = lprobs.new_full(\n                    (lprobs.size(1),), lprobs.size(0), dtype=torch.long\n                )\n\n        pad_mask = (sample[\"target\"] != self.pad_idx) & (\n            sample[\"target\"] != self.eos_idx\n        )\n        targets_flat = sample[\"target\"].masked_select(pad_mask)\n        if \"target_lengths\" in sample:\n            target_lengths = sample[\"target_lengths\"]\n        else:\n            target_lengths = pad_mask.sum(-1)\n\n        with torch.backends.cudnn.flags(enabled=False):\n            loss = F.ctc_loss(\n                lprobs,\n                targets_flat,\n                input_lengths,\n                target_lengths,\n                blank=self.blank_idx,\n                reduction=\"sum\",\n                zero_infinity=self.zero_infinity,\n            )\n\n        ntokens = (\n            sample[\"ntokens\"] if \"ntokens\" in sample else target_lengths.sum().item()\n        )\n\n        sample_size = sample[\"target\"].size(0) if self.sentence_avg else ntokens\n        logging_output = {\n            \"loss\": utils.item(loss.data),  # * sample['ntokens'],\n            \"ntokens\": ntokens,\n            \"nsentences\": sample[\"id\"].numel(),\n            \"sample_size\": sample_size,\n        }\n\n        if not model.training:\n            import editdistance\n\n            with torch.no_grad():\n                lprobs_t = lprobs.transpose(0, 1).float().contiguous().cpu()\n\n                c_err = 0\n                c_len = 0\n                w_errs = 0\n                w_len = 0\n                wv_errs = 0\n                for lp, t, inp_l in zip(\n                    lprobs_t,\n                    sample[\"target_label\"]\n                    if \"target_label\" in sample\n                    else sample[\"target\"],\n                    input_lengths,\n                ):\n                    lp = lp[:inp_l].unsqueeze(0)\n\n                    decoded = None\n                    if self.w2l_decoder is not None:\n                        decoded = self.w2l_decoder.decode(lp)\n                        if len(decoded) < 1:\n                            decoded = None\n                        else:\n                            decoded = decoded[0]\n                            if len(decoded) < 1:\n                                decoded = None\n                            else:\n                                decoded = decoded[0]\n\n                    p = (t != self.task.target_dictionary.pad()) & (\n                        t != self.task.target_dictionary.eos()\n                    )\n                    targ = t[p]\n                    targ_units = self.task.target_dictionary.string(targ)\n                    targ_units_arr = targ.tolist()\n\n                    toks = lp.argmax(dim=-1).unique_consecutive()\n                    pred_units_arr = toks[toks != self.blank_idx].tolist()\n\n                    c_err += editdistance.eval(pred_units_arr, targ_units_arr)\n                    c_len += len(targ_units_arr)\n\n                    targ_words = post_process(targ_units, self.post_process).split()\n\n                    pred_units = self.task.target_dictionary.string(pred_units_arr)\n                    pred_words_raw = post_process(pred_units, self.post_process).split()\n\n                    if decoded is not None and \"words\" in decoded:\n                        pred_words = decoded[\"words\"]\n                        w_errs += editdistance.eval(pred_words, targ_words)\n                        wv_errs += editdistance.eval(pred_words_raw, targ_words)\n                    else:\n                        dist = editdistance.eval(pred_words_raw, targ_words)\n                        w_errs += dist\n                        wv_errs += dist\n\n                    w_len += len(targ_words)\n\n                logging_output[\"wv_errors\"] = wv_errs\n                logging_output[\"w_errors\"] = w_errs\n                logging_output[\"w_total\"] = w_len\n                logging_output[\"c_errors\"] = c_err\n                logging_output[\"c_total\"] = c_len\n\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n\n        loss_sum = utils.item(sum(log.get(\"loss\", 0) for log in logging_outputs))\n        ntokens = utils.item(sum(log.get(\"ntokens\", 0) for log in logging_outputs))\n        nsentences = utils.item(\n            sum(log.get(\"nsentences\", 0) for log in logging_outputs)\n        )\n        sample_size = utils.item(\n            sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        )\n\n        metrics.log_scalar(\n            \"loss\", loss_sum / sample_size / math.log(2), sample_size, round=3\n        )\n        metrics.log_scalar(\"ntokens\", ntokens)\n        metrics.log_scalar(\"nsentences\", nsentences)\n        if sample_size != ntokens:\n            metrics.log_scalar(\n                \"nll_loss\", loss_sum / ntokens / math.log(2), ntokens, round=3\n            )\n\n        c_errors = sum(log.get(\"c_errors\", 0) for log in logging_outputs)\n        metrics.log_scalar(\"_c_errors\", c_errors)\n        c_total = sum(log.get(\"c_total\", 0) for log in logging_outputs)\n        metrics.log_scalar(\"_c_total\", c_total)\n        w_errors = sum(log.get(\"w_errors\", 0) for log in logging_outputs)\n        metrics.log_scalar(\"_w_errors\", w_errors)\n        wv_errors = sum(log.get(\"wv_errors\", 0) for log in logging_outputs)\n        metrics.log_scalar(\"_wv_errors\", wv_errors)\n        w_total = sum(log.get(\"w_total\", 0) for log in logging_outputs)\n        metrics.log_scalar(\"_w_total\", w_total)\n\n        if c_total > 0:\n            metrics.log_derived(\n                \"uer\",\n                lambda meters: safe_round(\n                    meters[\"_c_errors\"].sum * 100.0 / meters[\"_c_total\"].sum, 3\n                )\n                if meters[\"_c_total\"].sum > 0\n                else float(\"nan\"),\n            )\n        if w_total > 0:\n            metrics.log_derived(\n                \"wer\",\n                lambda meters: safe_round(\n                    meters[\"_w_errors\"].sum * 100.0 / meters[\"_w_total\"].sum, 3\n                )\n                if meters[\"_w_total\"].sum > 0\n                else float(\"nan\"),\n            )\n            metrics.log_derived(\n                \"raw_wer\",\n                lambda meters: safe_round(\n                    meters[\"_wv_errors\"].sum * 100.0 / meters[\"_w_total\"].sum, 3\n                )\n                if meters[\"_w_total\"].sum > 0\n                else float(\"nan\"),\n            )\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "fairseq/criterions/fairseq_criterion.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport inspect\nfrom typing import Any, Dict, List\n\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.dataclass.utils import gen_parser_from_dataclass\nfrom torch.nn.modules.loss import _Loss\n\n\nclass FairseqCriterion(_Loss):\n    def __init__(self, task):\n        super().__init__()\n        self.task = task\n        if hasattr(task, \"target_dictionary\"):\n            tgt_dict = task.target_dictionary\n            self.padding_idx = tgt_dict.pad() if tgt_dict is not None else -100\n\n    @classmethod\n    def add_args(cls, parser):\n        \"\"\"Add criterion-specific arguments to the parser.\"\"\"\n        dc = getattr(cls, \"__dataclass\", None)\n        if dc is not None:\n            gen_parser_from_dataclass(parser, dc())\n\n    @classmethod\n    def build_criterion(cls, cfg: FairseqDataclass, task):\n        \"\"\"Construct a criterion from command-line args.\"\"\"\n        # arguments in the __init__.\n        init_args = {}\n        for p in inspect.signature(cls).parameters.values():\n            if (\n                p.kind == p.POSITIONAL_ONLY\n                or p.kind == p.VAR_POSITIONAL\n                or p.kind == p.VAR_KEYWORD\n            ):\n                # we haven't implemented inference for these argument types,\n                # but PRs welcome :)\n                raise NotImplementedError(\"{} not supported\".format(p.kind))\n\n            assert p.kind in {p.POSITIONAL_OR_KEYWORD, p.KEYWORD_ONLY}\n\n            if p.name == \"task\":\n                init_args[\"task\"] = task\n            elif p.name == \"cfg\":\n                init_args[\"cfg\"] = cfg\n            elif hasattr(cfg, p.name):\n                init_args[p.name] = getattr(cfg, p.name)\n            elif p.default != p.empty:\n                pass  # we'll use the default value\n            else:\n                raise NotImplementedError(\n                    \"Unable to infer Criterion arguments, please implement \"\n                    \"{}.build_criterion\".format(cls.__name__)\n                )\n        return cls(**init_args)\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        raise NotImplementedError\n\n    @staticmethod\n    def aggregate_logging_outputs(\n        logging_outputs: List[Dict[str, Any]]\n    ) -> Dict[str, Any]:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        utils.deprecation_warning(\n            \"The aggregate_logging_outputs API is deprecated. \"\n            \"Please use the reduce_metrics API instead.\"\n        )\n        raise NotImplementedError\n\n    @classmethod\n    def reduce_metrics(cls, logging_outputs: List[Dict[str, Any]]) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        utils.deprecation_warning(\n            \"Criterions should implement the reduce_metrics API. \"\n            \"Falling back to deprecated aggregate_logging_outputs API.\"\n        )\n        agg_logging_outputs = cls.aggregate_logging_outputs(logging_outputs)\n        for k, v in agg_logging_outputs.items():\n            if k in {\"nsentences\", \"ntokens\", \"sample_size\"}:\n                continue\n            metrics.log_scalar(k, v)\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return False\n\n\nclass LegacyFairseqCriterion(FairseqCriterion):\n    def __init__(self, args, task):\n        super().__init__(task=task)\n        self.args = args\n\n        utils.deprecation_warning(\n            \"Criterions should take explicit arguments instead of an \"\n            \"argparse.Namespace object, please update your criterion by \"\n            \"extending FairseqCriterion instead of LegacyFairseqCriterion.\"\n        )\n\n    @classmethod\n    def build_criterion(cls, args, task):\n        \"\"\"Construct a criterion from command-line args.\"\"\"\n        return cls(args, task)\n"
  },
  {
    "path": "fairseq/criterions/fastspeech2_loss.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nfrom typing import List, Dict, Any\nfrom dataclasses import dataclass, field\n\nimport torch\nimport torch.nn.functional as F\n\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.data.data_utils import lengths_to_mask\nfrom fairseq.models.fairseq_model import FairseqEncoderModel\n\n\n@dataclass\nclass FastSpeech2CriterionConfig(FairseqDataclass):\n    ctc_weight: float = field(default=0.0, metadata={\"help\": \"weight for CTC loss\"})\n\n\n@register_criterion(\"fastspeech2\", dataclass=FastSpeech2CriterionConfig)\nclass FastSpeech2Loss(FairseqCriterion):\n    def __init__(self, task, ctc_weight):\n        super().__init__(task)\n        self.ctc_weight = ctc_weight\n\n    def forward(self, model: FairseqEncoderModel, sample, reduction=\"mean\"):\n        src_tokens = sample[\"net_input\"][\"src_tokens\"]\n        src_lens = sample[\"net_input\"][\"src_lengths\"]\n        tgt_lens = sample[\"target_lengths\"]\n        _feat_out, _feat_out_post, _, log_dur_out, pitch_out, energy_out = model(\n            src_tokens=src_tokens,\n            src_lengths=src_lens,\n            prev_output_tokens=sample[\"net_input\"][\"prev_output_tokens\"],\n            incremental_state=None,\n            target_lengths=tgt_lens,\n            speaker=sample[\"speaker\"],\n            durations=sample[\"durations\"],\n            pitches=sample[\"pitches\"],\n            energies=sample[\"energies\"],\n        )\n\n        src_mask = lengths_to_mask(sample[\"net_input\"][\"src_lengths\"])\n        tgt_mask = lengths_to_mask(sample[\"target_lengths\"])\n\n        pitches, energies = sample[\"pitches\"], sample[\"energies\"]\n        pitch_out, pitches = pitch_out[src_mask], pitches[src_mask]\n        energy_out, energies = energy_out[src_mask], energies[src_mask]\n\n        feat_out, feat = _feat_out[tgt_mask], sample[\"target\"][tgt_mask]\n        l1_loss = F.l1_loss(feat_out, feat, reduction=reduction)\n        if _feat_out_post is not None:\n            l1_loss += F.l1_loss(_feat_out_post[tgt_mask], feat, reduction=reduction)\n\n        pitch_loss = F.mse_loss(pitch_out, pitches, reduction=reduction)\n        energy_loss = F.mse_loss(energy_out, energies, reduction=reduction)\n\n        log_dur_out = log_dur_out[src_mask]\n        dur = sample[\"durations\"].float()\n        dur = dur.half() if log_dur_out.type().endswith(\".HalfTensor\") else dur\n        log_dur = torch.log(dur + 1)[src_mask]\n        dur_loss = F.mse_loss(log_dur_out, log_dur, reduction=reduction)\n\n        ctc_loss = torch.tensor(0.0).type_as(l1_loss)\n        if self.ctc_weight > 0.0:\n            lprobs = model.get_normalized_probs((_feat_out,), log_probs=True)\n            lprobs = lprobs.transpose(0, 1)  # T x B x C\n            src_mask = lengths_to_mask(src_lens)\n            src_tokens_flat = src_tokens.masked_select(src_mask)\n            ctc_loss = (\n                F.ctc_loss(\n                    lprobs,\n                    src_tokens_flat,\n                    tgt_lens,\n                    src_lens,\n                    reduction=reduction,\n                    zero_infinity=True,\n                )\n                * self.ctc_weight\n            )\n\n        loss = l1_loss + dur_loss + pitch_loss + energy_loss + ctc_loss\n\n        sample_size = sample[\"nsentences\"]\n        logging_output = {\n            \"loss\": utils.item(loss.data),\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"nsentences\"],\n            \"sample_size\": sample_size,\n            \"l1_loss\": utils.item(l1_loss.data),\n            \"dur_loss\": utils.item(dur_loss.data),\n            \"pitch_loss\": utils.item(pitch_loss.data),\n            \"energy_loss\": utils.item(energy_loss.data),\n            \"ctc_loss\": utils.item(ctc_loss.data),\n        }\n        return loss, sample_size, logging_output\n\n    @classmethod\n    def reduce_metrics(cls, logging_outputs: List[Dict[str, Any]]) -> None:\n        ns = [log.get(\"sample_size\", 0) for log in logging_outputs]\n        ntot = sum(ns)\n        ws = [n / (ntot + 1e-8) for n in ns]\n        for key in [\n            \"loss\",\n            \"l1_loss\",\n            \"dur_loss\",\n            \"pitch_loss\",\n            \"energy_loss\",\n            \"ctc_loss\",\n        ]:\n            vals = [log.get(key, 0) for log in logging_outputs]\n            val = sum(val * w for val, w in zip(vals, ws))\n            metrics.log_scalar(key, val, ntot, round=3)\n        metrics.log_scalar(\"sample_size\", ntot, len(logging_outputs))\n\n        # inference metrics\n        if \"targ_frames\" not in logging_outputs[0]:\n            return\n        n = sum(log.get(\"targ_frames\", 0) for log in logging_outputs)\n        for key, new_key in [\n            (\"mcd_loss\", \"mcd_loss\"),\n            (\"pred_frames\", \"pred_ratio\"),\n            (\"nins\", \"ins_rate\"),\n            (\"ndel\", \"del_rate\"),\n        ]:\n            val = sum(log.get(key, 0) for log in logging_outputs)\n            metrics.log_scalar(new_key, val / n, n, round=3)\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        return False\n"
  },
  {
    "path": "fairseq/criterions/hubert_criterion.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nimport re\nfrom dataclasses import dataclass, field\nfrom typing import List, Optional\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.dataclass import FairseqDataclass\n\n\n@dataclass\nclass HubertCriterionConfig(FairseqDataclass):\n    pred_masked_weight: float = field(\n        default=1.0,\n        metadata={\"help\": \"weight for predictive loss for masked frames\"},\n    )\n    pred_nomask_weight: float = field(\n        default=0.0,\n        metadata={\"help\": \"weight for predictive loss for unmasked frames\"},\n    )\n    loss_weights: Optional[List[float]] = field(\n        default=None,\n        metadata={\"help\": \"weights for additional loss terms (not first one)\"},\n    )\n    log_keys: List[str] = field(\n        default_factory=lambda: [],\n        metadata={\"help\": \"output keys to log\"},\n    )\n\n\n@register_criterion(\"hubert\", dataclass=HubertCriterionConfig)\nclass HubertCriterion(FairseqCriterion):\n    def __init__(\n        self,\n        task,\n        pred_masked_weight,\n        pred_nomask_weight,\n        loss_weights=None,\n        log_keys=None,\n    ):\n        super().__init__(task)\n        self.pred_masked_weight = pred_masked_weight\n        self.pred_nomask_weight = pred_nomask_weight\n        self.loss_weights = loss_weights\n        self.log_keys = [] if log_keys is None else log_keys\n\n    def forward(self, model, sample, reduce=True, log_pred=False):\n        \"\"\"Compute the loss for the given sample.\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        net_output = model(target_list=sample[\"target_list\"], **sample[\"net_input\"])\n        loss = 0.0\n        sample_size = 0\n        logging_output = {}\n        reduction = \"sum\" if reduce else \"none\"\n\n        loss_m_list = []\n        logp_m_list = model.get_logits(net_output, True)\n        targ_m_list = model.get_targets(net_output, True)\n        assert self.pred_masked_weight == 0 or len(logp_m_list) > 0\n        for i, (logp_m, targ_m) in enumerate(zip(logp_m_list, targ_m_list)):\n            loss_m = F.cross_entropy(logp_m, targ_m, reduction=reduction)\n            loss_m_list.append(loss_m)\n            logging_output[f\"loss_m_{i}\"] = loss_m.detach().item()\n        if self.pred_masked_weight > 0:\n            loss += self.pred_masked_weight * sum(loss_m_list)\n            sample_size += targ_m_list[0].numel()\n\n        loss_u_list = []\n        logp_u_list = model.get_logits(net_output, False)\n        targ_u_list = model.get_targets(net_output, False)\n        assert self.pred_nomask_weight == 0 or len(logp_u_list) > 0\n        for i, (logp_u, targ_u) in enumerate(zip(logp_u_list, targ_u_list)):\n            loss_u = F.cross_entropy(logp_u, targ_u, reduction=reduction)\n            loss_u_list.append(loss_u)\n            logging_output[f\"loss_u_{i}\"] = loss_u.detach().item()\n        if self.pred_nomask_weight > 0:\n            loss += self.pred_nomask_weight * sum(loss_u_list)\n            sample_size += targ_u_list[0].numel()\n\n        if self.loss_weights is not None:\n            assert hasattr(model, \"get_extra_losses\")\n            extra_losses, names = model.get_extra_losses(net_output)\n            if torch.is_tensor(extra_losses):\n                extra_losses = [extra_losses]\n                names = [names]\n            if len(self.loss_weights) == 1 and len(extra_losses) != 1:\n                self.loss_weights = [self.loss_weights[0]] * len(extra_losses)\n            assert len(extra_losses) == len(\n                self.loss_weights\n            ), f\"{len(extra_losses)}, {len(self.loss_weights)}\"\n            for p, n, coef in zip(extra_losses, names, self.loss_weights):\n                if coef != 0 and p is not None:\n                    p = coef * p.float() * sample_size\n                    loss += p\n                    logging_output[f\"loss_{n}\"] = p.item()\n\n        logging_output = {\n            \"loss\": loss.item() if reduce else loss,\n            \"ntokens\": sample_size,\n            \"nsentences\": sample[\"id\"].numel(),\n            \"sample_size\": sample_size,\n            **logging_output,\n        }\n\n        for lk in self.log_keys:\n            if lk in net_output:\n                logging_output[lk] = float((net_output[lk]))\n\n        def compute_correct(logits):\n            if logits.numel() == 0:\n                return 0, 0\n            else:\n                assert logits.dim() > 1, logits.shape\n                max = logits.argmax(-1) == 0\n                min = logits.argmin(-1) == 0\n                both = max & min\n                corr = max.long().sum().item() - both.long().sum().item()\n                count = max.numel()\n                return corr, count\n\n        with torch.no_grad():\n            for i, logp_m in enumerate(logp_m_list):\n                corr_m, count_m = compute_correct(logp_m)\n                logging_output[f\"correct_m_{i}\"] = corr_m\n                logging_output[f\"count_m_{i}\"] = count_m\n\n            for i, logp_u in enumerate(logp_u_list):\n                corr_u, count_u = compute_correct(logp_u)\n                logging_output[f\"correct_u_{i}\"] = corr_u\n                logging_output[f\"count_u_{i}\"] = count_u\n\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training (copied from normal cross entropy).\"\"\"\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n        ntokens = sum(log.get(\"ntokens\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n\n        metrics.log_scalar(\n            \"loss\", loss_sum / sample_size / math.log(2), sample_size, round=3\n        )\n        if sample_size != ntokens:\n            metrics.log_scalar(\n                \"nll_loss\", loss_sum / ntokens / math.log(2), ntokens, round=3\n            )\n            metrics.log_derived(\n                \"ppl\", lambda meters: utils.get_perplexity(meters[\"nll_loss\"].avg)\n            )\n        else:\n            metrics.log_derived(\n                \"ppl\", lambda meters: utils.get_perplexity(meters[\"loss\"].avg)\n            )\n\n        counts = {}\n        for lk in logging_outputs[0].keys():\n            if lk.startswith(\"count_\"):\n                val = sum(log[lk] for log in logging_outputs)\n                metrics.log_scalar(lk, val)\n                counts[lk] = val\n\n        for lk in logging_outputs[0].keys():\n            if lk.startswith(\"loss_\"):\n                val = sum(log[lk] for log in logging_outputs)\n                metrics.log_scalar(lk, val / sample_size / math.log(2), round=3)\n            elif lk.startswith(\"correct_\"):\n                val = sum(log[lk] for log in logging_outputs)\n                metrics.log_scalar(lk, val / counts[re.sub(\"correct\", \"count\", lk)])\n\n    @staticmethod\n    def aggregate_logging_outputs(logging_outputs):\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        raise NotImplementedError()\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return False\n"
  },
  {
    "path": "fairseq/criterions/label_smoothed_cross_entropy.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom dataclasses import dataclass, field\n\nimport torch\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.dataclass import FairseqDataclass\nfrom omegaconf import II\n\n\n@dataclass\nclass LabelSmoothedCrossEntropyCriterionConfig(FairseqDataclass):\n    label_smoothing: float = field(\n        default=0.0,\n        metadata={\"help\": \"epsilon for label smoothing, 0 means no label smoothing\"},\n    )\n    report_accuracy: bool = field(\n        default=False,\n        metadata={\"help\": \"report accuracy metric\"},\n    )\n    ignore_prefix_size: int = field(\n        default=0,\n        metadata={\"help\": \"Ignore first N tokens\"},\n    )\n    sentence_avg: bool = II(\"optimization.sentence_avg\")\n\n\ndef label_smoothed_nll_loss(lprobs, target, epsilon, ignore_index=None, reduce=True):\n    if target.dim() == lprobs.dim() - 1:\n        target = target.unsqueeze(-1)\n    nll_loss = -lprobs.gather(dim=-1, index=target)\n    smooth_loss = -lprobs.sum(dim=-1, keepdim=True)\n    if ignore_index is not None:\n        pad_mask = target.eq(ignore_index)\n        nll_loss.masked_fill_(pad_mask, 0.0)\n        smooth_loss.masked_fill_(pad_mask, 0.0)\n    else:\n        nll_loss = nll_loss.squeeze(-1)\n        smooth_loss = smooth_loss.squeeze(-1)\n    if reduce:\n        nll_loss = nll_loss.sum()\n        smooth_loss = smooth_loss.sum()\n    eps_i = epsilon / (lprobs.size(-1) - 1)\n    loss = (1.0 - epsilon - eps_i) * nll_loss + eps_i * smooth_loss\n    return loss, nll_loss\n\n\n@register_criterion(\n    \"label_smoothed_cross_entropy\", dataclass=LabelSmoothedCrossEntropyCriterionConfig\n)\nclass LabelSmoothedCrossEntropyCriterion(FairseqCriterion):\n    def __init__(\n        self,\n        task,\n        sentence_avg,\n        label_smoothing,\n        ignore_prefix_size=0,\n        report_accuracy=False,\n    ):\n        super().__init__(task)\n        self.sentence_avg = sentence_avg\n        self.eps = label_smoothing\n        self.ignore_prefix_size = ignore_prefix_size\n        self.report_accuracy = report_accuracy\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        net_output = model(**sample[\"net_input\"])\n        loss, nll_loss = self.compute_loss(model, net_output, sample, reduce=reduce)\n        sample_size = (\n            sample[\"target\"].size(0) if self.sentence_avg else sample[\"ntokens\"]\n        )\n        logging_output = {\n            \"loss\": loss.data,\n            \"nll_loss\": nll_loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"target\"].size(0),\n            \"sample_size\": sample_size,\n        }\n        if self.report_accuracy:\n            n_correct, total = self.compute_accuracy(model, net_output, sample)\n            logging_output[\"n_correct\"] = utils.item(n_correct.data)\n            logging_output[\"total\"] = utils.item(total.data)\n        return loss, sample_size, logging_output\n\n    def get_lprobs_and_target(self, model, net_output, sample):\n        lprobs = model.get_normalized_probs(net_output, log_probs=True)\n        target = model.get_targets(sample, net_output)\n        if self.ignore_prefix_size > 0:\n            # lprobs: B x T x C\n            lprobs = lprobs[:, self.ignore_prefix_size :, :].contiguous()\n            target = target[:, self.ignore_prefix_size :].contiguous()\n        return lprobs.view(-1, lprobs.size(-1)), target.view(-1)\n\n    def compute_loss(self, model, net_output, sample, reduce=True):\n        lprobs, target = self.get_lprobs_and_target(model, net_output, sample)\n        loss, nll_loss = label_smoothed_nll_loss(\n            lprobs,\n            target,\n            self.eps,\n            ignore_index=self.padding_idx,\n            reduce=reduce,\n        )\n        return loss, nll_loss\n\n    def compute_accuracy(self, model, net_output, sample):\n        lprobs, target = self.get_lprobs_and_target(model, net_output, sample)\n        mask = target.ne(self.padding_idx)\n        n_correct = torch.sum(\n            lprobs.argmax(1).masked_select(mask).eq(target.masked_select(mask))\n        )\n        total = torch.sum(mask)\n        return n_correct, total\n\n    @classmethod\n    def reduce_metrics(cls, logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n        nll_loss_sum = sum(log.get(\"nll_loss\", 0) for log in logging_outputs)\n        ntokens = sum(log.get(\"ntokens\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n\n        metrics.log_scalar(\n            \"loss\", loss_sum / sample_size / math.log(2), sample_size, round=3\n        )\n        metrics.log_scalar(\n            \"nll_loss\", nll_loss_sum / ntokens / math.log(2), ntokens, round=3\n        )\n        metrics.log_derived(\n            \"ppl\", lambda meters: utils.get_perplexity(meters[\"nll_loss\"].avg)\n        )\n\n        total = utils.item(sum(log.get(\"total\", 0) for log in logging_outputs))\n        if total > 0:\n            metrics.log_scalar(\"total\", total)\n            n_correct = utils.item(\n                sum(log.get(\"n_correct\", 0) for log in logging_outputs)\n            )\n            metrics.log_scalar(\"n_correct\", n_correct)\n            metrics.log_derived(\n                \"accuracy\",\n                lambda meters: round(\n                    meters[\"n_correct\"].sum * 100.0 / meters[\"total\"].sum, 3\n                )\n                if meters[\"total\"].sum > 0\n                else float(\"nan\"),\n            )\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "fairseq/criterions/label_smoothed_cross_entropy_latency_augmented.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\nimport torch\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import register_criterion\nfrom fairseq.criterions.label_smoothed_cross_entropy import (\n    LabelSmoothedCrossEntropyCriterion,\n    LabelSmoothedCrossEntropyCriterionConfig,\n)\n\ntry:\n    from simuleval.metrics.latency import (\n        AverageLagging,\n        AverageProportion,\n        DifferentiableAverageLagging,\n    )\n\n    LATENCY_METRICS = {\n        \"average_lagging\": AverageLagging,\n        \"average_proportion\": AverageProportion,\n        \"differentiable_average_lagging\": DifferentiableAverageLagging,\n    }\nexcept ImportError:\n    LATENCY_METRICS = None\n\n\n@dataclass\nclass LabelSmoothedCrossEntropyCriterionLatencyAugmentConfig(\n    LabelSmoothedCrossEntropyCriterionConfig\n):\n    latency_avg_weight: float = field(\n        default=0.0,\n        metadata={\"help\": \"weight fot average latency loss.\"},\n    )\n    latency_var_weight: float = field(\n        default=0.0,\n        metadata={\"help\": \"weight fot variance latency loss.\"},\n    )\n    latency_avg_type: str = field(\n        default=\"differentiable_average_lagging\",\n        metadata={\"help\": \"latency type for average loss\"},\n    )\n    latency_var_type: str = field(\n        default=\"variance_delay\",\n        metadata={\"help\": \"latency typ for variance loss\"},\n    )\n    latency_gather_method: str = field(\n        default=\"weighted_average\",\n        metadata={\"help\": \"method to gather latency loss for all heads\"},\n    )\n    latency_update_after: int = field(\n        default=0,\n        metadata={\"help\": \"Add latency loss after certain steps\"},\n    )\n\n\n@register_criterion(\n    \"latency_augmented_label_smoothed_cross_entropy\",\n    dataclass=LabelSmoothedCrossEntropyCriterionLatencyAugmentConfig,\n)\nclass LatencyAugmentedLabelSmoothedCrossEntropyCriterion(\n    LabelSmoothedCrossEntropyCriterion\n):\n    def __init__(\n        self,\n        task,\n        sentence_avg,\n        label_smoothing,\n        ignore_prefix_size,\n        report_accuracy,\n        latency_avg_weight,\n        latency_var_weight,\n        latency_avg_type,\n        latency_var_type,\n        latency_gather_method,\n        latency_update_after,\n    ):\n        super().__init__(\n            task, sentence_avg, label_smoothing, ignore_prefix_size, report_accuracy\n        )\n        assert LATENCY_METRICS is not None, \"Please make sure SimulEval is installed.\"\n\n        self.latency_avg_weight = latency_avg_weight\n        self.latency_var_weight = latency_var_weight\n        self.latency_avg_type = latency_avg_type\n        self.latency_var_type = latency_var_type\n        self.latency_gather_method = latency_gather_method\n        self.latency_update_after = latency_update_after\n\n    def forward(self, model, sample, reduce=True):\n        net_output = model(**sample[\"net_input\"])\n        # 1. Compute cross entropy loss\n        loss, nll_loss = self.compute_loss(model, net_output, sample, reduce=reduce)\n\n        # 2. Compute cross latency loss\n        latency_loss, expected_latency, expected_delays_var = self.compute_latency_loss(\n            model, sample, net_output\n        )\n\n        if self.latency_update_after > 0:\n            num_updates = getattr(model.decoder, \"num_updates\", None)\n            assert (\n                num_updates is not None\n            ), \"model.decoder doesn't have attribute 'num_updates'\"\n            if num_updates <= self.latency_update_after:\n                latency_loss = 0\n\n        loss += latency_loss\n\n        sample_size = (\n            sample[\"target\"].size(0) if self.sentence_avg else sample[\"ntokens\"]\n        )\n\n        logging_output = {\n            \"loss\": loss.data,\n            \"nll_loss\": nll_loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"target\"].size(0),\n            \"sample_size\": sample_size,\n            \"latency\": expected_latency,\n            \"delays_var\": expected_delays_var,\n            \"latency_loss\": latency_loss,\n        }\n\n        if self.report_accuracy:\n            n_correct, total = self.compute_accuracy(model, net_output, sample)\n            logging_output[\"n_correct\"] = utils.item(n_correct.data)\n            logging_output[\"total\"] = utils.item(total.data)\n        return loss, sample_size, logging_output\n\n    def compute_latency_loss(self, model, sample, net_output):\n        assert (\n            net_output[-1].encoder_padding_mask is None\n            or not net_output[-1].encoder_padding_mask[:, 0].any()\n        ), \"Only right padding on source is supported.\"\n        # 1. Obtain the expected alignment\n        alpha_list = [item[\"alpha\"] for item in net_output[1].attn_list]\n        num_layers = len(alpha_list)\n        bsz, num_heads, tgt_len, src_len = alpha_list[0].size()\n\n        # bsz * num_layers * num_heads, tgt_len, src_len\n        alpha_all = torch.cat(alpha_list, dim=1).view(-1, tgt_len, src_len)\n\n        # 2 compute expected delays\n        # bsz * num_heads * num_layers, tgt_len, src_len for MMA\n        steps = (\n            torch.arange(1, 1 + src_len)\n            .unsqueeze(0)\n            .unsqueeze(1)\n            .expand_as(alpha_all)\n            .type_as(alpha_all)\n        )\n\n        expected_delays = torch.sum(steps * alpha_all, dim=-1)\n\n        target_padding_mask = (\n            model.get_targets(sample, net_output)\n            .eq(self.padding_idx)\n            .unsqueeze(1)\n            .expand(bsz, num_layers * num_heads, tgt_len)\n            .contiguous()\n            .view(-1, tgt_len)\n        )\n\n        src_lengths = (\n            sample[\"net_input\"][\"src_lengths\"]\n            .unsqueeze(1)\n            .expand(bsz, num_layers * num_heads)\n            .contiguous()\n            .view(-1)\n        )\n        expected_latency = LATENCY_METRICS[self.latency_avg_type](\n            expected_delays, src_lengths, None, target_padding_mask=target_padding_mask\n        )\n\n        # 2.1 average expected latency of heads\n        # bsz, num_layers * num_heads\n        expected_latency = expected_latency.view(bsz, -1)\n        if self.latency_gather_method == \"average\":\n            # bsz * tgt_len\n            expected_latency = expected_delays.mean(dim=1)\n        elif self.latency_gather_method == \"weighted_average\":\n            weights = torch.nn.functional.softmax(expected_latency, dim=1)\n            expected_latency = torch.sum(expected_latency * weights, dim=1)\n        elif self.latency_gather_method == \"max\":\n            expected_latency = expected_latency.max(dim=1)[0]\n        else:\n            raise NotImplementedError\n\n        expected_latency = expected_latency.sum()\n        avg_loss = self.latency_avg_weight * expected_latency\n\n        # 2.2 variance of expected delays\n        expected_delays_var = (\n            expected_delays.view(bsz, -1, tgt_len).var(dim=1).mean(dim=1)\n        )\n        expected_delays_var = expected_delays_var.sum()\n        var_loss = self.latency_avg_weight * expected_delays_var\n\n        # 3. Final loss\n        latency_loss = avg_loss + var_loss\n\n        return latency_loss, expected_latency, expected_delays_var\n\n    @classmethod\n    def reduce_metrics(cls, logging_outputs) -> None:\n        super().reduce_metrics(logging_outputs)\n        latency = sum(log.get(\"latency\", 0) for log in logging_outputs)\n        delays_var = sum(log.get(\"delays_var\", 0) for log in logging_outputs)\n        latency_loss = sum(log.get(\"latency_loss\", 0) for log in logging_outputs)\n        nsentences = sum(log.get(\"nsentences\", 0) for log in logging_outputs)\n        metrics.log_scalar(\"latency\", latency.float() / nsentences, nsentences, round=3)\n        metrics.log_scalar(\"delays_var\", delays_var / nsentences, nsentences, round=3)\n        metrics.log_scalar(\n            \"latency_loss\", latency_loss / nsentences, nsentences, round=3\n        )\n"
  },
  {
    "path": "fairseq/criterions/label_smoothed_cross_entropy_with_alignment.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import register_criterion\n\nfrom .label_smoothed_cross_entropy import (\n    LabelSmoothedCrossEntropyCriterion,\n    LabelSmoothedCrossEntropyCriterionConfig,\n)\n\nfrom dataclasses import dataclass, field\n\n\n@dataclass\nclass LabelSmoothedCrossEntropyCriterionWithAlignmentConfig(\n    LabelSmoothedCrossEntropyCriterionConfig\n):\n    alignment_lambda: float = field(\n        default=0.05, metadata={\"help\": \"weight for the alignment loss\"}\n    )\n\n\n@register_criterion(\n    \"label_smoothed_cross_entropy_with_alignment\",\n    dataclass=LabelSmoothedCrossEntropyCriterionWithAlignmentConfig,\n)\nclass LabelSmoothedCrossEntropyCriterionWithAlignment(\n    LabelSmoothedCrossEntropyCriterion\n):\n    def __init__(self, task, sentence_avg, label_smoothing, alignment_lambda):\n        super().__init__(task, sentence_avg, label_smoothing)\n        self.alignment_lambda = alignment_lambda\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        net_output = model(**sample[\"net_input\"])\n        loss, nll_loss = self.compute_loss(model, net_output, sample, reduce=reduce)\n        sample_size = (\n            sample[\"target\"].size(0) if self.sentence_avg else sample[\"ntokens\"]\n        )\n        logging_output = {\n            \"loss\": utils.item(loss.data) if reduce else loss.data,\n            \"nll_loss\": utils.item(nll_loss.data) if reduce else nll_loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"target\"].size(0),\n            \"sample_size\": sample_size,\n        }\n\n        alignment_loss = None\n\n        # Compute alignment loss only for training set and non dummy batches.\n        if \"alignments\" in sample and sample[\"alignments\"] is not None:\n            alignment_loss = self.compute_alignment_loss(sample, net_output)\n\n        if alignment_loss is not None:\n            logging_output[\"alignment_loss\"] = utils.item(alignment_loss.data)\n            loss += self.alignment_lambda * alignment_loss\n\n        return loss, sample_size, logging_output\n\n    def compute_alignment_loss(self, sample, net_output):\n        attn_prob = net_output[1][\"attn\"][0]\n        bsz, tgt_sz, src_sz = attn_prob.shape\n        attn = attn_prob.view(bsz * tgt_sz, src_sz)\n\n        align = sample[\"alignments\"]\n        align_weights = sample[\"align_weights\"].float()\n\n        if len(align) > 0:\n            # Alignment loss computation. align (shape [:, 2]) contains the src-tgt index pairs corresponding to\n            # the alignments. align_weights (shape [:]) contains the 1 / frequency of a tgt index for normalizing.\n            loss = -(\n                (attn[align[:, 1][:, None], align[:, 0][:, None]]).log()\n                * align_weights[:, None]\n            ).sum()\n        else:\n            return None\n\n        return loss\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = utils.item(sum(log.get(\"loss\", 0) for log in logging_outputs))\n        nll_loss_sum = utils.item(\n            sum(log.get(\"nll_loss\", 0) for log in logging_outputs)\n        )\n        alignment_loss_sum = utils.item(\n            sum(log.get(\"alignment_loss\", 0) for log in logging_outputs)\n        )\n        ntokens = utils.item(sum(log.get(\"ntokens\", 0) for log in logging_outputs))\n        sample_size = utils.item(\n            sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        )\n\n        metrics.log_scalar(\n            \"loss\", loss_sum / sample_size / math.log(2), sample_size, round=3\n        )\n        metrics.log_scalar(\n            \"nll_loss\", nll_loss_sum / ntokens / math.log(2), ntokens, round=3\n        )\n        metrics.log_scalar(\n            \"alignment_loss\",\n            alignment_loss_sum / sample_size / math.log(2),\n            sample_size,\n            round=3,\n        )\n        metrics.log_derived(\n            \"ppl\", lambda meters: utils.get_perplexity(meters[\"nll_loss\"].avg)\n        )\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "fairseq/criterions/label_smoothed_cross_entropy_with_ctc.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom dataclasses import dataclass, field\n\nimport torch\nimport torch.nn.functional as F\n\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import register_criterion\nfrom fairseq.criterions.label_smoothed_cross_entropy import (\n    LabelSmoothedCrossEntropyCriterion,\n    LabelSmoothedCrossEntropyCriterionConfig,\n)\nfrom fairseq.data.data_utils import lengths_to_mask\n\n\n@dataclass\nclass LabelSmoothedCrossEntropyWithCtcCriterionConfig(\n    LabelSmoothedCrossEntropyCriterionConfig\n):\n    ctc_weight: float = field(default=1.0, metadata={\"help\": \"weight for CTC loss\"})\n\n\n@register_criterion(\n    \"label_smoothed_cross_entropy_with_ctc\",\n    dataclass=LabelSmoothedCrossEntropyWithCtcCriterionConfig,\n)\nclass LabelSmoothedCrossEntropyWithCtcCriterion(LabelSmoothedCrossEntropyCriterion):\n    def __init__(\n        self,\n        task,\n        sentence_avg,\n        label_smoothing,\n        ignore_prefix_size,\n        report_accuracy,\n        ctc_weight,\n    ):\n        super().__init__(\n            task, sentence_avg, label_smoothing, ignore_prefix_size, report_accuracy\n        )\n        self.ctc_weight = ctc_weight\n\n    def forward(self, model, sample, reduce=True):\n        net_output = model(**sample[\"net_input\"])\n        loss, nll_loss = self.compute_loss(model, net_output, sample, reduce=reduce)\n\n        ctc_loss = torch.tensor(0.0).type_as(loss)\n        if self.ctc_weight > 0.0:\n            ctc_lprobs, ctc_lens = model.get_ctc_output(net_output, sample)\n            ctc_tgt, ctc_tgt_lens = model.get_ctc_target(sample)\n            ctc_tgt_mask = lengths_to_mask(ctc_tgt_lens)\n            ctc_tgt_flat = ctc_tgt.masked_select(ctc_tgt_mask)\n            reduction = \"sum\" if reduce else \"none\"\n            ctc_loss = (\n                F.ctc_loss(\n                    ctc_lprobs,\n                    ctc_tgt_flat,\n                    ctc_lens,\n                    ctc_tgt_lens,\n                    reduction=reduction,\n                    zero_infinity=True,\n                )\n                * self.ctc_weight\n            )\n        loss += ctc_loss\n\n        sample_size = (\n            sample[\"target\"].size(0) if self.sentence_avg else sample[\"ntokens\"]\n        )\n        logging_output = {\n            \"loss\": utils.item(loss.data),\n            \"nll_loss\": utils.item(nll_loss.data),\n            \"ctc_loss\": utils.item(ctc_loss.data),\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"target\"].size(0),\n            \"sample_size\": sample_size,\n        }\n        if self.report_accuracy:\n            n_correct, total = self.compute_accuracy(model, net_output, sample)\n            logging_output[\"n_correct\"] = utils.item(n_correct.data)\n            logging_output[\"total\"] = utils.item(total.data)\n        return loss, sample_size, logging_output\n\n    @classmethod\n    def reduce_metrics(cls, logging_outputs) -> None:\n        super().reduce_metrics(logging_outputs)\n        loss_sum = sum(log.get(\"ctc_loss\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n\n        metrics.log_scalar(\n            \"ctc_loss\", loss_sum / sample_size / math.log(2), sample_size, round=3\n        )\n"
  },
  {
    "path": "fairseq/criterions/label_smoothed_cross_entropy_with_rdrop.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom dataclasses import dataclass, field\n\nimport torch\n\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import register_criterion\nfrom fairseq.criterions.label_smoothed_cross_entropy import (\n    LabelSmoothedCrossEntropyCriterion,\n    LabelSmoothedCrossEntropyCriterionConfig,\n    label_smoothed_nll_loss,\n)\n\n\n@dataclass\nclass RdropLabelSmoothedCrossEntropyCriterionConfig(\n    LabelSmoothedCrossEntropyCriterionConfig\n):\n    rdrop_alpha: float = field(\n        default=0.0,\n        metadata={\"help\": \"alpha for r-drop, 0 means no r-drop\"},\n    )\n\n\n@register_criterion(\n    \"label_smoothed_cross_entropy_with_rdrop\",\n    dataclass=RdropLabelSmoothedCrossEntropyCriterionConfig,\n)\nclass RdropLabelSmoothedCrossEntropyCriterion(LabelSmoothedCrossEntropyCriterion):\n    def __init__(\n        self,\n        task,\n        sentence_avg,\n        label_smoothing,\n        ignore_prefix_size=0,\n        report_accuracy=False,\n        rdrop_alpha=0.0,\n    ):\n        super().__init__(\n            task,\n            sentence_avg,\n            label_smoothing,\n            ignore_prefix_size=ignore_prefix_size,\n            report_accuracy=report_accuracy,\n        )\n        self.sentence_avg = sentence_avg\n        self.eps = label_smoothing\n        self.ignore_prefix_size = ignore_prefix_size\n        self.report_accuracy = report_accuracy\n        self.rdrop_alpha = rdrop_alpha\n\n    def forward(self, model, sample, reduce=True, net_output=None):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        if net_output is None:\n            if self.rdrop_alpha > 0 and sample[\"net_input\"][\"src_tokens\"].size(\n                0\n            ) == sample[\"target\"].size(0):\n                sample = duplicate_input(sample)\n            net_output = model(**sample[\"net_input\"])\n        loss, nll_loss, rdrop_kl_loss = self.compute_loss(\n            model, net_output, sample, reduce=reduce\n        )\n        sample_size = (\n            sample[\"target\"].size(0) if self.sentence_avg else sample[\"ntokens\"]\n        )\n        logging_output = {\n            \"loss\": loss.data,\n            \"nll_loss\": nll_loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"target\"].size(0),\n            \"sample_size\": sample_size,\n        }\n        if self.report_accuracy:\n            n_correct, total = self.compute_accuracy(model, net_output, sample)\n            logging_output[\"n_correct\"] = utils.item(n_correct.data)\n            logging_output[\"total\"] = utils.item(total.data)\n        if self.rdrop_alpha > 0:\n            logging_output[\"rdrop_kl_loss\"] = utils.item(rdrop_kl_loss.data)\n        return loss, sample_size, logging_output\n\n    def get_lprobs_and_target(self, model, net_output, sample):\n        lprobs = model.get_normalized_probs(net_output, log_probs=True)\n        target = model.get_targets(sample, net_output)\n        if self.rdrop_alpha > 0 or target.size(0) != lprobs.size(0):\n            target = torch.cat([target, target.clone()], dim=0)\n\n        if self.ignore_prefix_size > 0:\n            # lprobs: B x T x C\n            lprobs = lprobs[:, self.ignore_prefix_size :, :].contiguous()\n            target = target[:, self.ignore_prefix_size :].contiguous()\n        return lprobs.view(-1, lprobs.size(-1)), target.view(-1)\n\n    def compute_loss(self, model, net_output, sample, reduce=True):\n        lprobs, target = self.get_lprobs_and_target(model, net_output, sample)\n        loss, nll_loss = label_smoothed_nll_loss(\n            lprobs,\n            target,\n            self.eps,\n            ignore_index=self.padding_idx,\n            reduce=reduce,\n        )\n\n        if self.rdrop_alpha > 0:\n            pad_mask = target[: target.size(0) // 2].unsqueeze(-1).eq(self.padding_idx)\n            rdrop_kl_loss = compute_kl_loss(model, net_output, pad_mask)\n            loss += self.rdrop_alpha * rdrop_kl_loss\n        else:\n            rdrop_kl_loss = loss.new_zeros(1)\n        return loss, nll_loss, rdrop_kl_loss\n\n    @classmethod\n    def reduce_metrics(cls, logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        super().reduce_metrics(logging_outputs)\n\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n\n        rdrop_kl_loss = utils.item(\n            sum(log.get(\"rdrop_kl_loss\", 0) for log in logging_outputs)\n            / sample_size\n            / math.log(2)\n        )\n        if rdrop_kl_loss > 0:\n            metrics.log_scalar(\"rdrop_kl_loss\", rdrop_kl_loss)\n\n\ndef duplicate_input(sample):\n    if \"net_input\" in sample.keys():\n        sample_input = sample[\"net_input\"]\n    else:\n        sample_input = sample\n\n    for k, v in sample_input.items():\n        if isinstance(v, torch.Tensor):\n            sample_input[k] = torch.cat([v, v.clone()], dim=0)\n    if \"net_input\" in sample.keys():\n        sample[\"net_input\"] = sample_input\n    else:\n        sample = sample_input\n    return sample\n\n\ndef compute_kl_loss(model, net_output, pad_mask=None, reduce=True):\n    net_prob = model.get_normalized_probs(net_output, log_probs=True)\n    net_prob_tec = model.get_normalized_probs(net_output, log_probs=False)\n\n    net_prob = net_prob.view(-1, net_prob.size(-1))\n    net_prob_tec = net_prob_tec.view(-1, net_prob_tec.size(-1))\n\n    p, q = torch.split(net_prob, net_prob.size(0) // 2, dim=0)\n    p_tec, q_tec = torch.split(net_prob_tec, net_prob_tec.size(0) // 2, dim=0)\n\n    p_loss = torch.nn.functional.kl_div(p, q_tec, reduction=\"none\")\n    q_loss = torch.nn.functional.kl_div(q, p_tec, reduction=\"none\")\n\n    if pad_mask is not None:\n        p_loss.masked_fill_(pad_mask, 0.0)\n        q_loss.masked_fill_(pad_mask, 0.0)\n\n    if reduce:\n        p_loss = p_loss.sum()\n        q_loss = q_loss.sum()\n\n    loss = (p_loss + q_loss) / 2\n    return loss\n"
  },
  {
    "path": "fairseq/criterions/legacy_masked_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\n\n\ndef compute_cross_entropy_loss(logits, targets, ignore_index=-100):\n    \"\"\"\n    Function to compute the cross entropy loss. The default value of\n    ignore_index is the same as the default value for F.cross_entropy in\n    pytorch.\n    \"\"\"\n    assert logits.size(0) == targets.size(\n        -1\n    ), \"Logits and Targets tensor shapes don't match up\"\n\n    loss = F.nll_loss(\n        F.log_softmax(logits, -1, dtype=torch.float32),\n        targets,\n        reduction=\"sum\",\n        ignore_index=ignore_index,\n    )\n    return loss\n\n\n@register_criterion(\"legacy_masked_lm_loss\")\nclass LegacyMaskedLmLoss(FairseqCriterion):\n    \"\"\"\n    Implementation for the loss used in masked language model (MLM) training.\n    This optionally also computes the next sentence prediction (NSP) loss and\n    adds it to the overall loss based on the specified args. There are three\n    cases to consider:\n        1) Generic MLM training without NSP loss. In this case sentence_targets\n           and sentence_logits are both None.\n        2) BERT training without NSP loss. In this case sentence_targets is\n           not None but sentence_logits is None and we should not be computing\n           a sentence level loss.\n        3) BERT training with NSP loss. In this case both sentence_targets and\n           sentence_logits are not None and we should be computing a sentence\n           level loss. The weight of the sentence level loss is specified as\n           an argument.\n    \"\"\"\n\n    def __init__(self, task, masked_lm_only, nsp_loss_weight):\n        super().__init__(task)\n        self.masked_lm_only = masked_lm_only\n        self.nsp_loss_weight = nsp_loss_weight\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Args for MaskedLM Loss\"\"\"\n        # Default for masked_lm_only is False so as to not break BERT training\n        parser.add_argument(\n            \"--masked-lm-only\",\n            default=False,\n            action=\"store_true\",\n            help=\"compute MLM loss only\",\n        )\n        parser.add_argument(\n            \"--nsp-loss-weight\",\n            default=1.0,\n            type=float,\n            help=\"weight for next sentence prediction\" \" loss (default 1)\",\n        )\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        lm_logits, output_metadata = model(**sample[\"net_input\"])\n\n        # reshape lm_logits from (N,T,C) to (N*T,C)\n        lm_logits = lm_logits.view(-1, lm_logits.size(-1))\n        lm_targets = sample[\"lm_target\"].view(-1)\n        lm_loss = compute_cross_entropy_loss(lm_logits, lm_targets, self.padding_idx)\n\n        # compute the number of tokens for which loss is computed. This is used\n        # to normalize the loss\n        ntokens = utils.strip_pad(lm_targets, self.padding_idx).numel()\n        loss = lm_loss / ntokens\n        nsentences = sample[\"nsentences\"]\n        # nsentences = 0\n\n        # Compute sentence loss if masked_lm_only is False\n        sentence_loss = None\n        if not self.masked_lm_only:\n            sentence_logits = output_metadata[\"sentence_logits\"]\n            sentence_targets = sample[\"sentence_target\"].view(-1)\n            # This needs to be recomputed due to some differences between\n            # TokenBlock and BlockPair dataset. This can be resolved with a\n            # refactor of BERTModel which we will do in the future.\n            # TODO: Remove this after refactor of BERTModel\n            nsentences = sentence_targets.size(0)\n\n            # Check for logits being none which can happen when remove_heads\n            # is set to true in the BERT model. Ideally we should set\n            # masked_lm_only to true in this case, but that requires some\n            # refactor in the BERT model.\n            if sentence_logits is not None:\n                sentence_loss = compute_cross_entropy_loss(\n                    sentence_logits, sentence_targets\n                )\n\n                loss += self.nsp_loss_weight * (sentence_loss / nsentences)\n\n        # NOTE: as we are summing up per token mlm loss and per sentence nsp loss\n        # we don't need to use sample_size as denominator for the gradient\n        # here sample_size is just used for logging\n        sample_size = 1\n        logging_output = {\n            \"loss\": utils.item(loss.data) if reduce else loss.data,\n            \"lm_loss\": utils.item(lm_loss.data) if reduce else lm_loss.data,\n            # sentence loss is not always computed\n            \"sentence_loss\": (\n                (utils.item(sentence_loss.data) if reduce else sentence_loss.data)\n                if sentence_loss is not None\n                else 0.0\n            ),\n            \"ntokens\": ntokens,\n            \"nsentences\": nsentences,\n            \"sample_size\": sample_size,\n        }\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        lm_loss_sum = sum(log.get(\"lm_loss\", 0) for log in logging_outputs)\n        sentence_loss_sum = sum(log.get(\"sentence_loss\", 0) for log in logging_outputs)\n        ntokens = sum(log.get(\"ntokens\", 0) for log in logging_outputs)\n        nsentences = sum(log.get(\"nsentences\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        agg_loss = sum(log.get(\"loss\", 0) for log in logging_outputs)\n\n        metrics.log_scalar(\n            \"loss\",\n            agg_loss / sample_size / math.log(2) if sample_size > 0 else 0.0,\n            sample_size,\n            round=3,\n        )\n        metrics.log_scalar(\n            \"lm_loss\",\n            lm_loss_sum / ntokens / math.log(2) if ntokens > 0 else 0.0,\n            ntokens,\n            round=3,\n        )\n        metrics.log_scalar(\n            \"sentence_loss\",\n            sentence_loss_sum / nsentences / math.log(2) if nsentences > 0 else 0.0,\n            nsentences,\n            round=3,\n        )\n        metrics.log_scalar(\n            \"nll_loss\",\n            lm_loss_sum / ntokens / math.log(2) if ntokens > 0 else 0.0,\n            ntokens,\n            round=3,\n        )\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "fairseq/criterions/masked_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass\nimport math\nfrom omegaconf import II\n\nimport torch\nfrom fairseq import modules, utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.dataclass import FairseqDataclass\n\n\n@dataclass\nclass MaskedLmConfig(FairseqDataclass):\n    tpu: bool = II(\"common.tpu\")\n\n\n@register_criterion(\"masked_lm\", dataclass=MaskedLmConfig)\nclass MaskedLmLoss(FairseqCriterion):\n    \"\"\"\n    Implementation for the loss used in masked language model (MLM) training.\n    \"\"\"\n\n    def __init__(self, cfg: MaskedLmConfig, task):\n        super().__init__(task)\n        self.tpu = cfg.tpu\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        masked_tokens = sample[\"target\"].ne(self.padding_idx)\n        sample_size = masked_tokens.int().sum()\n\n        # Rare: when all tokens are masked, project all tokens.\n        # We use torch.where to avoid device-to-host transfers,\n        # except on CPU where torch.where is not well supported\n        # (see github.com/pytorch/pytorch/issues/26247).\n        if self.tpu:\n            masked_tokens = None  # always project all tokens on TPU\n        elif masked_tokens.device == torch.device(\"cpu\"):\n            if not masked_tokens.any():\n                masked_tokens = None\n        else:\n            masked_tokens = torch.where(\n                masked_tokens.any(),\n                masked_tokens,\n                masked_tokens.new([True]),\n            )\n\n        logits = model(**sample[\"net_input\"], masked_tokens=masked_tokens)[0]\n        targets = model.get_targets(sample, [logits])\n        if masked_tokens is not None:\n            targets = targets[masked_tokens]\n\n        loss = modules.cross_entropy(\n            logits.view(-1, logits.size(-1)),\n            targets.view(-1),\n            reduction=\"sum\",\n            ignore_index=self.padding_idx,\n        )\n\n        logging_output = {\n            \"loss\": loss if self.tpu else loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"nsentences\"],\n            \"sample_size\": sample_size,\n        }\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n\n        metrics.log_scalar(\n            \"loss\", loss_sum / sample_size / math.log(2), sample_size, round=3\n        )\n        metrics.log_derived(\n            \"ppl\", lambda meters: utils.get_perplexity(meters[\"loss\"].avg)\n        )\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "fairseq/criterions/model_criterion.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom dataclasses import dataclass, field\nfrom typing import Dict, List\n\nimport torch\n\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.logging.meters import safe_round\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass ModelCriterionConfig(FairseqDataclass):\n    loss_weights: Dict[str, float] = field(\n        default_factory=dict,\n        metadata={\"help\": \"weights for the loss terms\"},\n    )\n    log_keys: List[str] = field(\n        default_factory=list,\n        metadata={\"help\": \"additional output keys to log\"},\n    )\n    can_sum: bool = True\n\n\n@register_criterion(\"model\", dataclass=ModelCriterionConfig)\nclass ModelCriterion(FairseqCriterion):\n    \"\"\"\n    This criterion relies on the model to supply losses.\n    The losses should be a dictionary of name -> scalar returned by\n    the model either by including it in the net_output dict or by\n    implementing a get_losses(net_output, sample) method. The final loss is\n    a scaled sum of all losses according to weights in loss_weights.\n    If no weights are provided, then all losses are scaled by 1.0.\n\n    The losses will be automatically logged. Additional keys from\n    net_output dict can be logged via the log_keys parameter.\n    \"\"\"\n\n    def __init__(self, task, loss_weights=None, log_keys=None, can_sum=True):\n        super().__init__(task)\n        self.loss_weights = loss_weights\n        self.log_keys = log_keys\n        self.can_sum = can_sum\n\n    def forward(self, model, sample, reduce=True):\n        net_output = model(**sample[\"net_input\"])\n\n        scaled_losses = {}\n\n        if hasattr(model, \"get_losses\"):\n            losses = model.get_losses(net_output, sample)\n        elif isinstance(net_output, dict) and \"losses\" in net_output:\n            losses = net_output[\"losses\"]\n        else:\n            raise Exception(\"Could not retrieve losses\")\n\n        for lk, p in losses.items():\n            try:\n                coef = 1.0 if len(self.loss_weights) == 0 else self.loss_weights[lk]\n            except KeyError:\n                logger.error(\n                    f\"weight for loss {lk} is not in loss_weights ({self.loss_weights})\"\n                )\n                raise\n            if coef != 0 and p is not None:\n                scaled_losses[lk] = coef * p.float().sum()\n\n        loss = sum(scaled_losses.values())\n\n        if \"sample_size\" in net_output:\n            sample_size = net_output[\"sample_size\"]\n        else:\n            sample_size = loss.numel()\n\n        if reduce and loss.numel() > 1:\n            loss = loss.sum()\n\n        logging_output = {\n            \"loss\": loss.data,\n            \"ntokens\": sample_size,\n            \"nsentences\": sample[\"id\"].numel(),\n            \"sample_size\": sample_size,\n            \"_world_size\": 1,\n        }\n\n        for lk in self.log_keys:\n            if lk in net_output and net_output[lk] is not None:\n                if not torch.is_tensor(net_output[lk]) or net_output[lk].numel() == 1:\n                    logging_output[lk] = float(net_output[lk])\n                elif lk.startswith(\"_\"):\n                    logging_output[lk] = net_output[lk]\n                else:\n                    for i, v in enumerate(net_output[lk]):\n                        logging_output[f\"{lk}_{i}\"] = float(v)\n\n        if len(scaled_losses) > 1:\n            for lk, l in scaled_losses.items():\n                if l.numel() > 1:\n                    l = l.sum()\n                logging_output[f\"loss_{lk}\"] = l.item()\n\n        if \"logs\" in net_output:\n            for lgw in net_output[\"logs\"]:\n                logging_output[lgw] = net_output[\"logs\"][lgw]\n\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = utils.item(sum(log.get(\"loss\", 0) for log in logging_outputs))\n        ntokens = utils.item(sum(log.get(\"ntokens\", 0) for log in logging_outputs))\n        nsentences = utils.item(\n            sum(log.get(\"nsentences\", 0) for log in logging_outputs)\n        )\n        sample_size = utils.item(\n            sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        )\n\n        metrics.log_scalar(\"loss\", loss_sum / sample_size, sample_size, round=3)\n        metrics.log_scalar(\"ntokens\", ntokens)\n        metrics.log_scalar(\"nsentences\", nsentences)\n        metrics.log_scalar(\"sample_size\", sample_size)\n\n        builtin_keys = {\n            \"loss\",\n            \"ntokens\",\n            \"nsentences\",\n            \"sample_size\",\n            \"_world_size\",\n        }\n\n        world_size = utils.item(\n            sum(log.get(\"_world_size\", 0) for log in logging_outputs)\n        )\n\n        for k in logging_outputs[0]:\n            if k not in builtin_keys and not k.startswith(\"_\"):\n                val = sum(log.get(k, 0) for log in logging_outputs)\n                if k.startswith(\"loss_\"):\n                    metrics.log_scalar(k, val / sample_size, sample_size, round=3)\n                else:\n                    metrics.log_scalar(k, val / world_size, round=3)\n\n        correct = sum(log.get(\"correct\", 0) for log in logging_outputs)\n        total = sum(log.get(\"count\", 0) for log in logging_outputs)\n\n        if total > 0:\n            metrics.log_scalar(\"_correct\", correct)\n            metrics.log_scalar(\"_total\", total)\n\n            metrics.log_derived(\n                \"accuracy\",\n                lambda meters: safe_round(\n                    meters[\"_correct\"].sum / meters[\"_total\"].sum, 5\n                )\n                if meters[\"_total\"].sum > 0\n                else float(\"nan\"),\n            )\n\n    def logging_outputs_can_be_summed(self) -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return self.can_sum\n"
  },
  {
    "path": "fairseq/criterions/nat_loss.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.dataclass import FairseqDataclass\nfrom torch import Tensor\n\nfrom dataclasses import dataclass, field\n\n\n@dataclass\nclass LabelSmoothedDualImitationCriterionConfig(FairseqDataclass):\n    label_smoothing: float = field(\n        default=0.0,\n        metadata={\"help\": \"epsilon for label smoothing, 0 means no label smoothing\"},\n    )\n\n\n@register_criterion(\"nat_loss\", dataclass=LabelSmoothedDualImitationCriterionConfig)\nclass LabelSmoothedDualImitationCriterion(FairseqCriterion):\n    def __init__(self, task, label_smoothing):\n        super().__init__(task)\n        self.label_smoothing = label_smoothing\n\n    def _compute_loss(\n        self, outputs, targets, masks=None, label_smoothing=0.0, name=\"loss\", factor=1.0\n    ):\n        \"\"\"\n        outputs: batch x len x d_model\n        targets: batch x len\n        masks:   batch x len\n\n        policy_logprob: if there is some policy\n            depends on the likelihood score as rewards.\n        \"\"\"\n\n        def mean_ds(x: Tensor, dim=None) -> Tensor:\n            return (\n                x.float().mean().type_as(x)\n                if dim is None\n                else x.float().mean(dim).type_as(x)\n            )\n\n        if masks is not None:\n            outputs, targets = outputs[masks], targets[masks]\n\n        if masks is not None and not masks.any():\n            nll_loss = torch.tensor(0)\n            loss = nll_loss\n        else:\n            logits = F.log_softmax(outputs, dim=-1)\n            if targets.dim() == 1:\n                losses = F.nll_loss(logits, targets.to(logits.device), reduction=\"none\")\n\n            else:  # soft-labels\n                losses = F.kl_div(logits, targets.to(logits.device), reduction=\"none\")\n                losses = losses.sum(-1)\n\n            nll_loss = mean_ds(losses)\n            if label_smoothing > 0:\n                loss = (\n                    nll_loss * (1 - label_smoothing) - mean_ds(logits) * label_smoothing\n                )\n            else:\n                loss = nll_loss\n\n        loss = loss * factor\n        return {\"name\": name, \"loss\": loss, \"nll_loss\": nll_loss, \"factor\": factor}\n\n    def _custom_loss(self, loss, name=\"loss\", factor=1.0):\n        return {\"name\": name, \"loss\": loss, \"factor\": factor}\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        nsentences, ntokens = sample[\"nsentences\"], sample[\"ntokens\"]\n\n        # B x T\n        src_tokens, src_lengths = (\n            sample[\"net_input\"][\"src_tokens\"],\n            sample[\"net_input\"][\"src_lengths\"],\n        )\n        tgt_tokens, prev_output_tokens = sample[\"target\"], sample[\"prev_target\"]\n\n        outputs = model(src_tokens, src_lengths, prev_output_tokens, tgt_tokens)\n        losses, nll_loss = [], []\n\n        for obj in outputs:\n            if outputs[obj].get(\"loss\", None) is None:\n                _losses = self._compute_loss(\n                    outputs[obj].get(\"out\"),\n                    outputs[obj].get(\"tgt\"),\n                    outputs[obj].get(\"mask\", None),\n                    outputs[obj].get(\"ls\", 0.0),\n                    name=obj + \"-loss\",\n                    factor=outputs[obj].get(\"factor\", 1.0),\n                )\n            else:\n                _losses = self._custom_loss(\n                    outputs[obj].get(\"loss\"),\n                    name=obj + \"-loss\",\n                    factor=outputs[obj].get(\"factor\", 1.0),\n                )\n\n            losses += [_losses]\n            if outputs[obj].get(\"nll_loss\", False):\n                nll_loss += [_losses.get(\"nll_loss\", 0.0)]\n\n        loss = sum(l[\"loss\"] for l in losses)\n        nll_loss = sum(l for l in nll_loss) if len(nll_loss) > 0 else loss.new_tensor(0)\n\n        # NOTE:\n        # we don't need to use sample_size as denominator for the gradient\n        # here sample_size is just used for logging\n        sample_size = 1\n        logging_output = {\n            \"loss\": loss.data,\n            \"nll_loss\": nll_loss.data,\n            \"ntokens\": ntokens,\n            \"nsentences\": nsentences,\n            \"sample_size\": sample_size,\n        }\n\n        for l in losses:\n            logging_output[l[\"name\"]] = (\n                utils.item(l[\"loss\"].data / l[\"factor\"])\n                if reduce\n                else l[[\"loss\"]].data / l[\"factor\"]\n            )\n\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        sample_size = utils.item(\n            sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        )\n        loss = utils.item(sum(log.get(\"loss\", 0) for log in logging_outputs))\n        nll_loss = utils.item(sum(log.get(\"nll_loss\", 0) for log in logging_outputs))\n\n        metrics.log_scalar(\n            \"loss\", loss / sample_size / math.log(2), sample_size, round=3\n        )\n        metrics.log_scalar(\n            \"nll_loss\", nll_loss / sample_size / math.log(2), sample_size, round=3\n        )\n        metrics.log_derived(\n            \"ppl\", lambda meters: utils.get_perplexity(meters[\"loss\"].avg)\n        )\n\n        for key in logging_outputs[0]:\n            if key[-5:] == \"-loss\":\n                val = sum(log.get(key, 0) for log in logging_outputs)\n                metrics.log_scalar(\n                    key[:-5],\n                    val / sample_size / math.log(2) if sample_size > 0 else 0.0,\n                    sample_size,\n                    round=3,\n                )\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "fairseq/criterions/sentence_prediction.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom dataclasses import dataclass, field\nfrom itertools import chain\n\nimport numpy as np\nimport torch\nimport torch.nn.functional as F\nfrom sklearn.metrics import f1_score\nfrom sklearn.metrics import matthews_corrcoef as _matthews_corrcoef\nfrom scipy.stats import pearsonr, spearmanr\n\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.logging.meters import safe_round\n\n\ndef simple_accuracy(preds, labels):\n    return (preds == labels).mean()\n\n\ndef acc_and_f1(preds, labels):\n    acc = simple_accuracy(preds, labels)\n    f1 = f1_score(y_true=labels, y_pred=preds)\n    return {\n        \"acc\": acc,\n        \"f1\": f1,\n        \"acc_and_f1\": (acc + f1) / 2,\n    }\n\n\ndef pearson_and_spearman(preds, labels):\n    pearson_corr = pearsonr(preds, labels)[0]\n    spearman_corr = spearmanr(preds, labels)[0]\n    return {\n        \"pearson\": pearson_corr,\n        \"spearmanr\": spearman_corr,\n        \"corr\": (pearson_corr + spearman_corr) / 2,\n    }\n\n\ndef matthews_corrcoef(preds, labels):\n    # make it consistent with other metrics taking (preds, labels) as input\n    mcc = _matthews_corrcoef(labels, preds)\n    return mcc\n\n\n@dataclass\nclass SentencePredictionConfig(FairseqDataclass):\n    classification_head_name: str = field(\n        default=\"sentence_classification_head\",\n        metadata={\"help\": \"name of the classification head to use\"},\n    )\n    regression_target: bool = field(\n        default=False,\n    )\n    report_mcc: bool = False\n    report_acc_and_f1: bool = False\n    report_pearson_and_spearman: bool = False\n\n\n@register_criterion(\"sentence_prediction\", dataclass=SentencePredictionConfig)\nclass SentencePredictionCriterion(FairseqCriterion):\n    def __init__(self, cfg: SentencePredictionConfig, task):\n        super().__init__(task)\n        self.classification_head_name = cfg.classification_head_name\n        self.regression_target = cfg.regression_target\n        self.keep_pred_and_targ = (\n            cfg.report_mcc or cfg.report_acc_and_f1 or cfg.report_pearson_and_spearman\n        )\n        self.report_mcc = cfg.report_mcc\n        self.report_acc_and_f1 = cfg.report_acc_and_f1\n        self.report_pearson_and_spearman = cfg.report_pearson_and_spearman\n        self.label_dict = task.label_dictionary\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        assert (\n            hasattr(model, \"classification_heads\")\n            and self.classification_head_name in model.classification_heads\n        ), \"model must provide sentence classification head for --criterion=sentence_prediction\"\n\n        logits, _ = model(\n            **sample[\"net_input\"],\n            features_only=True,\n            classification_head_name=self.classification_head_name,\n        )\n        targets = model.get_targets(sample, [logits]).view(-1)\n        sample_size = targets.numel()\n\n        if not self.regression_target:\n            lprobs = F.log_softmax(logits, dim=-1, dtype=torch.float32)\n            task_loss = F.nll_loss(lprobs, targets, reduction=\"sum\")\n        else:\n            logits = logits.view(-1).float()\n            targets = targets.float()\n            task_loss = F.mse_loss(logits, targets, reduction=\"sum\")\n\n        logging_output = {}\n        loss = task_loss\n        # mha & ffn regularization update\n        if (\n            hasattr(model, \"args\")\n            and hasattr(model.args, \"mha_reg_scale_factor\")\n            and model.args.mha_reg_scale_factor != 0.0\n        ):\n            mha_reg_loss = model._get_adaptive_head_loss()\n            loss += mha_reg_loss\n            logging_output.update({\"mha_reg_loss\": mha_reg_loss})\n        if (\n            hasattr(model, \"args\")\n            and hasattr(model.args, \"ffn_reg_scale_factor\")\n            and model.args.ffn_reg_scale_factor != 0.0\n        ):\n            ffn_reg_loss = model._get_adaptive_ffn_loss()\n            loss += ffn_reg_loss\n            logging_output.update({\"ffn_reg_loss\": ffn_reg_loss})\n\n        logging_output.update(\n            {\n                \"loss\": loss.data,\n                \"ntokens\": sample[\"ntokens\"],\n                \"nsentences\": sample_size,\n                \"sample_size\": sample_size,\n            }\n        )\n        if not self.regression_target:\n            preds = logits.argmax(dim=1)\n            logging_output[\"ncorrect\"] = (preds == targets).sum()\n        if self.keep_pred_and_targ and not model.training:\n            if self.regression_target:\n                logging_output[\"pred\"] = logits.detach().cpu().tolist()\n                logging_output[\"targ\"] = targets.detach().cpu().tolist()\n            else:\n                # remove offset `self.label_dict.nspecial` from OffsetTokensDataset\n                preds = self.label_dict.string(preds + self.label_dict.nspecial).split()\n                targets = self.label_dict.string(\n                    targets + self.label_dict.nspecial\n                ).split()\n                logging_output[\"pred\"] = list(map(int, preds))\n                logging_output[\"targ\"] = list(map(int, targets))\n\n            if self.report_mcc:\n                logging_output[\"report_mcc\"] = True\n            if self.report_acc_and_f1:\n                logging_output[\"report_acc_and_f1\"] = True\n            if self.report_pearson_and_spearman:\n                logging_output[\"report_pearson_and_spearman\"] = True\n\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n        ntokens = sum(log.get(\"ntokens\", 0) for log in logging_outputs)\n        nsentences = sum(log.get(\"nsentences\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        mha_reg_loss_sum = sum(log.get(\"mha_reg_loss\", 0) for log in logging_outputs)\n        ffn_reg_loss_sum = sum(log.get(\"ffn_reg_loss\", 0) for log in logging_outputs)\n\n        metrics.log_scalar(\n            \"loss\", loss_sum / sample_size / math.log(2), sample_size, round=3\n        )\n        if mha_reg_loss_sum:\n            metrics.log_scalar(\n                \"mha_reg_loss\",\n                mha_reg_loss_sum / sample_size / math.log(2),\n                sample_size,\n                round=3,\n            )\n        if ffn_reg_loss_sum:\n            metrics.log_scalar(\n                \"ffn_reg_loss\",\n                ffn_reg_loss_sum / sample_size / math.log(2),\n                sample_size,\n                round=3,\n            )\n        if sample_size != ntokens:\n            metrics.log_scalar(\n                \"nll_loss\", loss_sum / ntokens / math.log(2), ntokens, round=3\n            )\n\n        if len(logging_outputs) > 0 and \"ncorrect\" in logging_outputs[0]:\n            ncorrect = sum(log.get(\"ncorrect\", 0) for log in logging_outputs)\n            metrics.log_scalar(\n                \"accuracy\", 100.0 * ncorrect / nsentences, nsentences, round=1\n            )\n\n        # Metrics used by GLUE\n        pred = np.array(\n            list(chain.from_iterable(log.get(\"pred\", []) for log in logging_outputs))\n        )\n        targ = np.array(\n            list(chain.from_iterable(log.get(\"targ\", []) for log in logging_outputs))\n        )\n        if len(pred):\n            metrics.log_concat_tensor(\"pred\", torch.from_numpy(pred), dim=0)\n            metrics.log_concat_tensor(\"targ\", torch.from_numpy(targ), dim=0)\n            if any(\"report_mcc\" in log for log in logging_outputs):\n                metrics.log_derived(\n                    \"mcc\",\n                    lambda meters: safe_round(\n                        matthews_corrcoef(\n                            meters[\"pred\"].tensor.numpy(),\n                            meters[\"targ\"].tensor.numpy(),\n                        )\n                        * 100,\n                        1,\n                    ),\n                )\n            if any(\"report_acc_and_f1\" in log for log in logging_outputs):\n                metrics.log_derived(\n                    \"acc_and_f1\",\n                    lambda meters: safe_round(\n                        acc_and_f1(\n                            meters[\"pred\"].tensor.numpy(),\n                            meters[\"targ\"].tensor.numpy(),\n                        )[\"acc_and_f1\"]\n                        * 100,\n                        1,\n                    ),\n                )\n                metrics.log_derived(\n                    \"f1\",\n                    lambda meters: safe_round(\n                        acc_and_f1(\n                            meters[\"pred\"].tensor.numpy(),\n                            meters[\"targ\"].tensor.numpy(),\n                        )[\"f1\"]\n                        * 100,\n                        1,\n                    ),\n                )\n            if any(\"report_pearson_and_spearman\" in log for log in logging_outputs):\n                metrics.log_derived(\n                    \"pearson_and_spearman\",\n                    lambda meters: safe_round(\n                        pearson_and_spearman(\n                            meters[\"pred\"].tensor.numpy(),\n                            meters[\"targ\"].tensor.numpy(),\n                        )[\"corr\"]\n                        * 100,\n                        1,\n                    ),\n                )\n                metrics.log_derived(\n                    \"pearson\",\n                    lambda meters: safe_round(\n                        pearson_and_spearman(\n                            meters[\"pred\"].tensor.numpy(),\n                            meters[\"targ\"].tensor.numpy(),\n                        )[\"pearson\"]\n                        * 100,\n                        1,\n                    ),\n                )\n                metrics.log_derived(\n                    \"spearman\",\n                    lambda meters: safe_round(\n                        pearson_and_spearman(\n                            meters[\"pred\"].tensor.numpy(),\n                            meters[\"targ\"].tensor.numpy(),\n                        )[\"spearmanr\"]\n                        * 100,\n                        1,\n                    ),\n                )\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "fairseq/criterions/sentence_prediction_adapters.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq.criterions import register_criterion\nfrom fairseq.criterions.sentence_prediction import (\n    SentencePredictionCriterion,\n    SentencePredictionConfig,\n)\n\n\n@register_criterion(\"sentence_prediction_adapters\", dataclass=SentencePredictionConfig)\nclass SentencePredictionCriterionAdapters(SentencePredictionCriterion):\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        assert (\n            hasattr(model, \"classification_heads\")\n            and self.classification_head_name in model.classification_heads\n        ), \"model must provide sentence classification head for --criterion=sentence_prediction\"\n\n        if not hasattr(sample, \"lang_id\"):\n            # If no language ID is given, we fall back to English\n            lang_id = [\"en_XX\"] * sample[\"nsentences\"]\n        else:\n            lang_id = sample[\"lang_id\"]\n\n        logits, _ = model(\n            **sample[\"net_input\"],\n            features_only=True,\n            classification_head_name=self.classification_head_name,\n            lang_id=lang_id,\n        )\n        targets = model.get_targets(sample, [logits]).view(-1)\n        sample_size = targets.numel()\n\n        if not self.regression_target:\n            lprobs = F.log_softmax(logits, dim=-1, dtype=torch.float32)\n            loss = F.nll_loss(lprobs, targets, reduction=\"sum\")\n        else:\n            logits = logits.view(-1).float()\n            targets = targets.float()\n            loss = F.mse_loss(logits, targets, reduction=\"sum\")\n\n        logging_output = {\n            \"loss\": loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample_size,\n            \"sample_size\": sample_size,\n        }\n        if not self.regression_target:\n            preds = logits.argmax(dim=1)\n            logging_output[\"ncorrect\"] = (preds == targets).sum()\n\n        return loss, sample_size, logging_output\n"
  },
  {
    "path": "fairseq/criterions/sentence_ranking.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\n\n\n@register_criterion(\"sentence_ranking\")\nclass SentenceRankingCriterion(FairseqCriterion):\n    def __init__(self, task, ranking_head_name, save_predictions, num_classes):\n        super().__init__(task)\n        self.ranking_head_name = ranking_head_name\n        if save_predictions is not None:\n            self.prediction_h = open(save_predictions, \"w\")\n        else:\n            self.prediction_h = None\n        self.num_classes = num_classes\n\n    def __del__(self):\n        if self.prediction_h is not None:\n            self.prediction_h.close()\n\n    @staticmethod\n    def add_args(parser):\n        # fmt: off\n        parser.add_argument('--save-predictions', metavar='FILE',\n                            help='file to save predictions to')\n        parser.add_argument('--ranking-head-name',\n                            default='sentence_classification_head',\n                            help='name of the ranking head to use')\n        # fmt: on\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute ranking loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        assert (\n            hasattr(model, \"classification_heads\")\n            and self.ranking_head_name in model.classification_heads\n        ), \"model must provide sentence ranking head for --criterion=sentence_ranking\"\n\n        scores = []\n        for idx in range(self.num_classes):\n            score, _ = model(\n                **sample[\"net_input{idx}\".format(idx=idx + 1)],\n                classification_head_name=self.ranking_head_name,\n            )\n            scores.append(score)\n\n        logits = torch.cat(scores, dim=1)\n        sample_size = logits.size(0)\n\n        if \"target\" in sample:\n            targets = model.get_targets(sample, [logits]).view(-1)\n            lprobs = F.log_softmax(logits, dim=-1, dtype=torch.float32)\n            loss = F.nll_loss(lprobs, targets, reduction=\"sum\")\n        else:\n            targets = None\n            loss = torch.tensor(0.0, requires_grad=True)\n\n        if self.prediction_h is not None:\n            preds = logits.argmax(dim=1)\n            for i, (id, pred) in enumerate(zip(sample[\"id\"].tolist(), preds.tolist())):\n                if targets is not None:\n                    label = targets[i].item()\n                    print(\"{}\\t{}\\t{}\".format(id, pred, label), file=self.prediction_h)\n                else:\n                    print(\"{}\\t{}\".format(id, pred), file=self.prediction_h)\n\n        logging_output = {\n            \"loss\": loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample_size,\n            \"sample_size\": sample_size,\n        }\n        if targets is not None:\n            logging_output[\"ncorrect\"] = (logits.argmax(dim=1) == targets).sum()\n\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n        ntokens = sum(log.get(\"ntokens\", 0) for log in logging_outputs)\n        nsentences = sum(log.get(\"nsentences\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n\n        metrics.log_scalar(\n            \"loss\", loss_sum / sample_size / math.log(2), sample_size, round=3\n        )\n        if sample_size != ntokens:\n            metrics.log_scalar(\n                \"nll_loss\", loss_sum / ntokens / math.log(2), ntokens, round=3\n            )\n\n        if len(logging_outputs) > 0 and \"ncorrect\" in logging_outputs[0]:\n            ncorrect = sum(log.get(\"ncorrect\", 0) for log in logging_outputs)\n            metrics.log_scalar(\n                \"accuracy\", 100.0 * ncorrect / nsentences, nsentences, round=1\n            )\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "fairseq/criterions/speech_dlm_criterion.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom dataclasses import dataclass, field\nfrom typing import Optional\n\nimport torch.nn.functional as F\nfrom fairseq import metrics, utils\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.dataclass import FairseqDataclass\nfrom omegaconf import II\n\n\n@dataclass\nclass SpeechDLMCriterionConfig(FairseqDataclass):\n    sentence_avg: bool = II(\"optimization.sentence_avg\")\n    main_and_cross_weights: Optional[str] = field(\n        default=\"1,0\",\n        metadata={\n            \"help\": \"Comma-separated list of weights of Main-channel vs Cross-channel Prediction Losses\"\n            \"(default: 1,0)\"\n        },\n    )\n    general_unit_loss_weight: float = field(\n        default=0,\n        metadata={\n            \"help\": \"The weight of the General Prediction Loss (Next-step Unit Prediction Loss)\"\n            \"(default: 0)\"\n        },\n    )\n    edge_unit_loss_weight: float = field(\n        default=1,\n        metadata={\"help\": \"The weight of the Edge Unit Prediction Loss\" \"(default: 1)\"},\n    )\n    duration_loss_weight: float = field(\n        default=1,\n        metadata={\n            \"help\": \"The weight of the Edge Unit Duration Prediction Loss\"\n            \"(default: 1)\"\n        },\n    )\n\n\n@register_criterion(\"speech_dlm_criterion\", dataclass=SpeechDLMCriterionConfig)\nclass SpeechDLMCriterion(FairseqCriterion):\n    \"\"\"Criteron for the SpeechDLM model as described in the paper:\n    https://arxiv.org/pdf/2203.16502.pdf\n\n    There are 3 possible losses depending on the targets of the model:\n        - general_unit_loss : The next unit prediction loss, corresponding to\n            'next' target\n        - edge_unit_loss : The edge unit prediction loss, corresponding to\n            'edge' target\n        - duration_loss : The duration prediction loss, corresponding to\n            'duration' target\n    \"\"\"\n\n    def __init__(\n        self,\n        task,\n        sentence_avg,\n        main_and_cross_weights,\n        general_unit_loss_weight,\n        edge_unit_loss_weight,\n        duration_loss_weight,\n    ):\n        super().__init__(task)\n        self.sentence_avg = sentence_avg\n\n        self.channels = task.channels\n        self.targets = task.targets\n        self.delayed_duration_target = task.delayed_duration_target\n\n        self.main_channel_weight = float(main_and_cross_weights.split(\",\")[0])\n        self.cross_channel_weight = float(main_and_cross_weights.split(\",\")[1])\n        assert self.main_channel_weight >= 0 and self.cross_channel_weight >= 0\n\n        self.channel_weights = {\n            channel: weight\n            for channel, weight in zip(self.channels, task.channel_weights)\n        }\n\n        self.target_weights = {}\n        for t in self.targets:\n            if t == \"next\":\n                self.target_weights[t] = general_unit_loss_weight\n                assert (\n                    general_unit_loss_weight > 0\n                ), \"Expect a positive --general-unit-loss-weight for next unit prediction\"\n            elif t == \"edge\":\n                self.target_weights[t] = edge_unit_loss_weight\n                assert (\n                    edge_unit_loss_weight > 0\n                ), \"Expect a positive --edge-unit-loss-weight for edge unit prediction\"\n            elif t == \"duration\":\n                self.target_weights[t] = duration_loss_weight\n                assert (\n                    duration_loss_weight > 0\n                ), \"Expect a positive --duration-loss-weight for duration prediction\"\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        net_output = model(**sample[\"net_input\"])\n        loss_dict, stats_dict = self.compute_loss(\n            model, net_output, sample, reduce=reduce\n        )\n        nsentences = sample[\"net_input\"][\"src_tokens\"][self.channels[0]].size(0)\n\n        logging_output = {\n            \"nsentences\": nsentences,\n        }\n        logging_output[\"nsentences\"] = nsentences\n\n        loss_all = {t: 0 for t in self.targets}\n        correct_all = {t: 0 for t in self.targets}\n        count_all = {t: 0 for t in self.targets}\n        ntokens_all = 0\n        sample_size_all = 0\n        for channel in loss_dict:\n            for pred_channel in loss_dict[channel]:\n                # Get ntokens & sample_size\n                ntokens = sample[\"net_input\"][\"src_tokens\"][channel].numel()\n                sample_size = nsentences if self.sentence_avg else ntokens\n                prefix = \"[{}-{}]\".format(channel, pred_channel)\n                log_keys = {\n                    \"next\": \"general_token\",\n                    \"edge\": \"edge_token\",\n                    \"duration\": \"edge_duration\",\n                }\n\n                # Log & Update the sizes\n                logging_output[\"{}ntokens\".format(prefix)] = ntokens\n                logging_output[\"{}sample_size\".format(prefix)] = sample_size\n                ntokens_all += ntokens\n                sample_size_all += sample_size\n\n                for t in self.targets:\n                    log_key = log_keys[t]\n                    loss = loss_dict[channel][pred_channel][t]\n                    correct, count = stats_dict[channel][pred_channel][t]\n\n                    # Log the statistics\n                    logging_output[\"{}{}_loss\".format(prefix, log_key)] = loss.data\n                    logging_output[\"{}{}_correct\".format(prefix, log_key)] = correct\n                    logging_output[\"{}{}_count\".format(prefix, log_key)] = count\n\n                    # Scale the training loss by weights\n                    target_loss = loss * self.channel_weights[channel]\n                    if pred_channel == channel:\n                        target_loss = target_loss * self.main_channel_weight\n                    else:\n                        target_loss = target_loss * self.cross_channel_weight\n                    # Normalize the losses in the training by the number of edges\n                    if t in [\"edge\", \"duration\"]:\n                        target_loss = target_loss / count * sample_size\n\n                    # Update the statistics\n                    loss_all[t] += target_loss\n                    correct_all[t] += correct\n                    count_all[t] += count\n\n        # Logging the average statistics\n        logging_output[\"ntokens\"] = ntokens_all\n        logging_output[\"sample_size\"] = sample_size_all\n        for t in self.targets:\n            log_key = {\n                \"next\": \"general_token\",\n                \"edge\": \"edge_token\",\n                \"duration\": \"edge_duration\",\n            }[t]\n            logging_output[\"{}_loss\".format(log_key)] = loss_all[t].data\n            logging_output[\"{}_correct\".format(log_key)] = correct_all[t]\n            logging_output[\"{}_count\".format(log_key)] = count_all[t]\n\n        # Define the training loss\n        training_loss = 0\n        for t in self.targets:\n            training_loss += loss_all[t] * self.target_weights[t]\n        logging_output[\"loss\"] = training_loss.data\n\n        return training_loss, sample_size_all, logging_output\n\n    def compute_loss(self, model, net_output, sample, reduce=True):\n        # Get the model outputs and target\n        lprobs_dict = model.get_normalized_probs(net_output, log_probs=True)\n        target_dict = model.get_targets(sample, net_output)\n\n        # Init the dictionaries\n        loss_dict, stats_dict = {}, {}\n\n        for channel in lprobs_dict:\n            # Init the dictionaries\n            loss_dict[channel], stats_dict[channel] = {}, {}\n\n            for pred_channel in lprobs_dict[channel]:\n                # Init the dictionaries\n                loss_dict[channel][pred_channel] = {}\n                stats_dict[channel][pred_channel] = {}\n\n                # Get token & duration predictions\n                outputs = lprobs_dict[channel][pred_channel]\n                if not isinstance(outputs, dict):\n                    token_lprobs = outputs\n                else:\n                    token_lprobs = outputs[\"pred_token\"]\n                    dur_preds = outputs[\"pred_duration\"]\n                    dur_preds = dur_preds.view(-1)\n                token_lprobs = token_lprobs.view(-1, token_lprobs.size(-1))\n                token_preds = token_lprobs.argmax(dim=-1)\n\n                # Get edge indices\n                if \"edge\" in self.targets or \"duration\" in self.targets:\n                    edge_indices = target_dict[\"edge_indices\"][pred_channel]\n\n                # Compute loss and statistics\n                for t in self.targets:\n                    if t in [\"next\", \"edge\"]:\n                        if t == \"next\":\n                            target = target_dict[\"next\"][pred_channel].view(-1)\n                            lprobs = token_lprobs\n                            preds = token_preds\n                        elif t == \"edge\":\n                            target = target_dict[\"edge\"][pred_channel]\n                            lprobs = token_lprobs[edge_indices]\n                            preds = token_preds[edge_indices]\n\n                        loss = F.nll_loss(\n                            lprobs,\n                            target,\n                            ignore_index=self.padding_idx,\n                            reduction=\"sum\" if reduce else \"none\",\n                        )\n                    elif t == \"duration\":\n                        target = target_dict[\"duration\"][pred_channel]\n                        if self.delayed_duration_target:\n                            duration_indices = edge_indices + 1\n                            if duration_indices[-1] == len(dur_preds):\n                                duration_indices = duration_indices[:-1]\n                                target = target[:-1]\n                        else:\n                            duration_indices = edge_indices\n                        preds = dur_preds[duration_indices]\n\n                        loss = F.l1_loss(\n                            preds,\n                            target,\n                            reduction=\"sum\" if reduce else \"none\",\n                        )\n                        preds = preds.round()\n\n                    correct = (preds == target).sum().float().cpu().item()\n                    count = float(target.size(0))\n\n                    loss_dict[channel][pred_channel][t] = loss\n                    stats_dict[channel][pred_channel][t] = (correct, count)\n\n        return loss_dict, stats_dict\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        logging_keys = next(iter(logging_outputs)).keys()\n        channels = [item[:-7] for item in logging_keys if item.endswith(\"ntokens\")]\n        target_prefixes = set(\n            [\n                item[:-5].split(\"]\")[-1]\n                for item in logging_keys\n                if item.endswith(\"_loss\")\n            ]\n        )\n        for channel_prefix in channels:\n            for target_prefix in target_prefixes:\n                prefix = \"{}{}\".format(channel_prefix, target_prefix)\n                count_sum = sum(\n                    log.get(\"{}_count\".format(prefix), 0) for log in logging_outputs\n                )\n                correct_sum = sum(\n                    log.get(\"{}_correct\".format(prefix), 0) for log in logging_outputs\n                )\n                loss_sum = sum(\n                    log.get(\"{}_loss\".format(prefix), 0) for log in logging_outputs\n                )\n\n                if \"duration\" not in target_prefix:\n                    # we divide by log(2) to convert the loss from base e to base 2\n                    metrics.log_scalar(\n                        \"{}_loss\".format(prefix),\n                        loss_sum / count_sum / math.log(2),\n                        count_sum,\n                        round=3,\n                    )\n                    metrics.log_derived(\n                        \"{}_ppl\".format(prefix),\n                        lambda meters, prefix=prefix: utils.get_perplexity(\n                            meters[\"{}_loss\".format(prefix)].avg\n                        ),\n                    )\n                else:\n                    # for duration we don't need to divide by log(2)\n                    metrics.log_scalar(\n                        \"{}_loss\".format(prefix),\n                        loss_sum / count_sum,\n                        count_sum,\n                        round=3,\n                    )\n\n                accuracy = 100 * correct_sum / count_sum\n                metrics.log_scalar(\"{}_pred_acc\".format(prefix), accuracy, round=3)\n\n        # Logging training loss\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n\n        # we divide by log(2) to convert the loss from base e to base 2\n        metrics.log_scalar(\n            \"loss\", loss_sum / sample_size / math.log(2), sample_size, round=3\n        )\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "fairseq/criterions/speech_to_speech_criterion.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport math\nfrom collections import OrderedDict\n\nimport torch\n\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import register_criterion\nfrom fairseq.criterions.ctc import CtcCriterion\nfrom fairseq.criterions.label_smoothed_cross_entropy_with_rdrop import (\n    RdropLabelSmoothedCrossEntropyCriterion,\n    RdropLabelSmoothedCrossEntropyCriterionConfig,\n    duplicate_input,\n)\nfrom fairseq.criterions.tacotron2_loss import (\n    Tacotron2Criterion,\n    Tacotron2CriterionConfig,\n)\n\nlogger = logging.getLogger(__name__)\n\n\nclass MultitaskCriterion:\n    def __init__(self, multitask_tasks, rdrop_alpha=0.0):\n        self.rdrop_alpha = rdrop_alpha\n        self.rdrop_alpha_mtl = rdrop_alpha\n\n        self.multitask_criterion = OrderedDict()\n        self.multitask_loss_weight = OrderedDict()\n        for task_name, task_obj in multitask_tasks.items():\n            if task_obj.args.get_loss_weight(0) == 0:\n                logger.info(f\"Skip {task_name} loss criterion\")\n                continue\n\n            rdrop_alpha_task = task_obj.args.rdrop_alpha\n            if rdrop_alpha_task is None:\n                rdrop_alpha_task = rdrop_alpha\n            self.rdrop_alpha_mtl = rdrop_alpha_task\n            logger.info(f\"rdrop_alpha is set to {rdrop_alpha_task} for {task_name}\")\n\n            if task_obj.args.decoder_type == \"ctc\":\n                self.multitask_criterion[task_name] = CtcCriterion(\n                    task_obj.args.criterion_cfg,\n                    task_obj,\n                    rdrop_alpha=rdrop_alpha_task,\n                )\n            else:\n                self.multitask_criterion[\n                    task_name\n                ] = RdropLabelSmoothedCrossEntropyCriterion(\n                    task_obj,\n                    task_obj.args.criterion_cfg.sentence_avg,\n                    label_smoothing=task_obj.args.criterion_cfg.label_smoothing,\n                    rdrop_alpha=rdrop_alpha_task,\n                )\n\n    def set_multitask_loss_weight(self, task_name, weight=0.0):\n        self.multitask_loss_weight[task_name] = weight\n\n    def get_multitask_loss(self, model, sample, model_out):\n        logging_output = {}\n        loss = 0.0\n        for task_name, task_criterion in self.multitask_criterion.items():\n            layer_id = task_criterion.task.args.input_layer\n            if isinstance(task_criterion, CtcCriterion):\n                if task_criterion.task.args.input_from == \"encoder\":\n                    if len(model_out[\"encoder_padding_mask\"]) > 0:\n                        non_padding_mask = ~model_out[\"encoder_padding_mask\"][0]\n                        input_lengths = non_padding_mask.long().sum(-1)\n                    else:\n                        out = model_out[\"encoder_states\"][layer_id]\n                        input_lengths = out.new_full(\n                            (out.shape[1],), out.shape[0]\n                        ).long()\n\n                    task_sample = {\n                        \"net_input\": {\n                            \"src_tokens\": model_out[\"encoder_states\"][\n                                layer_id\n                            ],  # check batch idx\n                            \"src_lengths\": input_lengths,\n                        },\n                        \"id\": sample[\"id\"],\n                    }\n                else:\n                    task_sample = {\n                        \"net_input\": {\n                            \"src_tokens\": model_out[\"inner_states\"][layer_id],\n                            \"src_lengths\": sample[\"target_lengths\"],\n                        },\n                        \"id\": sample[\"id\"],\n                    }\n            else:\n                task_sample = {\n                    \"net_input\": {\n                        \"src_tokens\": sample[\"multitask\"][task_name][\"net_input\"][\n                            \"prev_output_tokens\"\n                        ],\n                        \"encoder_out\": {\n                            \"encoder_out\": [model_out[\"encoder_states\"][layer_id]],\n                            \"encoder_padding_mask\": model_out[\"encoder_padding_mask\"],\n                        },\n                    }\n                }\n\n            for key in [\"target\", \"target_lengths\", \"ntokens\"]:\n                task_sample[key] = sample[\"multitask\"][task_name][key]\n\n            if task_name == getattr(model, \"mt_task_name\", None):\n                decoder_out = model_out[\"mt_decoder_out\"]\n            else:\n                decoder_out = None\n            task_loss, task_sample_size, task_logging_output = task_criterion(\n                model.multitask_decoders[task_name], task_sample, net_output=decoder_out\n            )\n\n            loss = loss + self.multitask_loss_weight[task_name] * task_loss\n            task_logging_output[\"loss_weight\"] = self.multitask_loss_weight[task_name]\n            logging_output[task_name] = task_logging_output\n        return loss, logging_output\n\n    @classmethod\n    def reduce_metrics(cls, logging_outputs) -> None:\n        for task_name in logging_outputs[0][\"multitask\"].keys():\n            # different criterion may return different logging\n            # currently only reduce on loss, the most common one\n            # ideally the way that losses are reduced should also depend on the task type\n            loss_sum = sum(\n                log[\"multitask\"][task_name].get(\"loss\", 0) for log in logging_outputs\n            )\n            sample_size = sum(\n                log[\"multitask\"][task_name].get(\"sample_size\", 0)\n                for log in logging_outputs\n            )\n\n            metrics.log_scalar(\n                f\"multitask_{task_name}_loss\",\n                loss_sum / sample_size / math.log(2),\n                sample_size,\n                round=3,\n            )\n\n            loss_weight = logging_outputs[0][\"multitask\"][task_name].get(\n                \"loss_weight\", 0\n            )\n            metrics.log_scalar(\n                f\"multitask_{task_name}_loss_weight\",\n                loss_weight,\n                weight=0,\n                priority=250,\n            )\n\n\n@register_criterion(\n    \"speech_to_unit\", dataclass=RdropLabelSmoothedCrossEntropyCriterionConfig\n)\nclass SpeechToUnitMultitaskTaskCriterion(\n    RdropLabelSmoothedCrossEntropyCriterion, MultitaskCriterion\n):\n    def __init__(\n        self,\n        task,\n        sentence_avg,\n        label_smoothing,\n        ignore_prefix_size=0,\n        report_accuracy=False,\n        rdrop_alpha=0.0,\n    ):\n        super().__init__(\n            task,\n            sentence_avg,\n            label_smoothing,\n            ignore_prefix_size,\n            report_accuracy,\n            rdrop_alpha,\n        )\n        MultitaskCriterion.__init__(self, task.multitask_tasks, rdrop_alpha)\n\n    def forward(self, model, sample, reduce=True):\n        net_input_concat = {\n            \"src_tokens\": sample[\"net_input\"][\"src_tokens\"],\n            \"src_lengths\": sample[\"net_input\"][\"src_lengths\"],\n            \"prev_output_tokens\": sample[\"net_input\"][\"prev_output_tokens\"],\n            \"tgt_speaker\": sample[\"net_input\"].get(\"tgt_speaker\", None),\n            \"return_all_hiddens\": True,\n        }\n\n        if self.rdrop_alpha > 0 or self.rdrop_alpha_mtl > 0:\n            net_input_concat = duplicate_input(net_input_concat)\n\n        net_output, extra = model(**net_input_concat)\n        loss, nll_loss, rdrop_kl_loss = self.compute_loss(\n            model, [net_output], sample, reduce=reduce\n        )\n        sample_size = (\n            sample[\"target\"].size(0) if self.sentence_avg else sample[\"ntokens\"]\n        )\n        logging_output = {\n            \"loss\": loss.data,\n            \"nll_loss\": nll_loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"target\"].size(0),\n            \"sample_size\": sample_size,\n        }\n        if self.report_accuracy:\n            n_correct, total = self.compute_accuracy(model, [net_output], sample)\n            logging_output[\"n_correct\"] = utils.item(n_correct.data)\n            logging_output[\"total\"] = utils.item(total.data)\n        if self.rdrop_alpha > 0:\n            logging_output[\"rdrop_kl_loss\"] = utils.item(rdrop_kl_loss.data)\n\n        if len(self.multitask_criterion) == 0:\n            return loss, sample_size, logging_output\n\n        # multitask\n        multitask_loss, multitask_log = self.get_multitask_loss(model, sample, extra)\n        loss += multitask_loss\n        logging_output[\"multitask\"] = multitask_log\n\n        return loss, sample_size, logging_output\n\n    @classmethod\n    def reduce_metrics(cls, logging_outputs) -> None:\n        super().reduce_metrics(logging_outputs)\n\n        # inference metrics\n        if \"targ_frames\" in logging_outputs[0]:\n            n = sum(log.get(\"norm_frames\", 0) for log in logging_outputs)\n            for key, new_key in [\n                (\"mcd_loss\", \"mcd_loss\"),\n                (\"pred_frames\", \"pred_ratio\"),\n                (\"nins\", \"ins_rate\"),\n                (\"ndel\", \"del_rate\"),\n            ]:\n                val = sum(log.get(key, 0) for log in logging_outputs)\n                metrics.log_scalar(new_key, val / n, n, round=3)\n\n        if \"multitask\" not in logging_outputs[0]:\n            return\n\n        MultitaskCriterion.reduce_metrics(logging_outputs)\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return False\n\n\n@register_criterion(\n    \"speech_to_unit_2pass\", dataclass=RdropLabelSmoothedCrossEntropyCriterionConfig\n)\nclass SpeechToUnit2passMultitaskTaskCriterion(SpeechToUnitMultitaskTaskCriterion):\n    def __init__(\n        self,\n        task,\n        sentence_avg,\n        label_smoothing,\n        ignore_prefix_size=0,\n        report_accuracy=False,\n        rdrop_alpha=0.0,\n    ):\n        super().__init__(\n            task,\n            sentence_avg,\n            label_smoothing,\n            ignore_prefix_size,\n            report_accuracy,\n            rdrop_alpha,\n        )\n\n    def forward(self, model, sample, reduce=True):\n        net_input_concat = {\n            \"src_tokens\": sample[\"net_input\"][\"src_tokens\"],\n            \"src_lengths\": sample[\"net_input\"][\"src_lengths\"],\n            \"prev_output_tokens\": sample[\"net_input\"][\"prev_output_tokens\"],\n            \"prev_output_tokens_mt\": sample[\"multitask\"][model.mt_task_name][\n                \"net_input\"\n            ][\"prev_output_tokens\"],\n            \"tgt_speaker\": sample[\"net_input\"].get(\"tgt_speaker\", None),\n            \"return_all_hiddens\": True,\n        }\n        if getattr(model, \"asr_task_name\", None) is not None:\n            net_input_concat[\"prev_output_tokens_asr\"] = sample[\"multitask\"][\n                model.asr_task_name\n            ][\"net_input\"][\"prev_output_tokens\"]\n\n        if self.rdrop_alpha > 0 or self.rdrop_alpha_mtl > 0:\n            net_input_concat = duplicate_input(net_input_concat)\n\n        net_output, extra = model(**net_input_concat)\n        loss, nll_loss, rdrop_kl_loss = self.compute_loss(\n            model, [net_output], sample, reduce=reduce\n        )\n\n        sample_size = (\n            sample[\"target\"].size(0) if self.sentence_avg else sample[\"ntokens\"]\n        )\n        logging_output = {\n            \"loss\": loss.data,\n            \"nll_loss\": nll_loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"target\"].size(0),\n            \"sample_size\": sample_size,\n        }\n        if self.report_accuracy:\n            n_correct, total = self.compute_accuracy(model, [net_output], sample)\n            logging_output[\"n_correct\"] = utils.item(n_correct.data)\n            logging_output[\"total\"] = utils.item(total.data)\n        if self.rdrop_alpha > 0:\n            logging_output[\"rdrop_kl_loss\"] = utils.item(rdrop_kl_loss.data)\n\n        if len(self.multitask_criterion) == 0:\n            return loss, sample_size, logging_output\n\n        # multitask\n        multitask_loss, multitask_log = self.get_multitask_loss(model, sample, extra)\n        loss += multitask_loss\n        logging_output[\"multitask\"] = multitask_log\n\n        return loss, sample_size, logging_output\n\n\n@register_criterion(\"speech_to_spectrogram\", dataclass=Tacotron2CriterionConfig)\nclass SpeechToSpectrogramMultitaskTaskCriterion(Tacotron2Criterion, MultitaskCriterion):\n    def __init__(\n        self,\n        task,\n        sentence_avg,\n        use_guided_attention_loss,\n        guided_attention_loss_sigma,\n        bce_pos_weight,\n        ctc_weight,\n    ):\n        super().__init__(\n            task,\n            sentence_avg,\n            use_guided_attention_loss,\n            guided_attention_loss_sigma,\n            bce_pos_weight,\n            ctc_weight,\n        )\n        MultitaskCriterion.__init__(self, task.multitask_tasks)\n\n    def forward(self, model, sample, reduction=\"mean\"):\n        bsz, max_len, _ = sample[\"target\"].size()\n        feat_tgt = sample[\"target\"]\n        feat_len = sample[\"target_lengths\"].view(bsz, 1).expand(-1, max_len)\n        eos_tgt = torch.arange(max_len).to(sample[\"target\"].device)\n        eos_tgt = eos_tgt.view(1, max_len).expand(bsz, -1)\n        eos_tgt = (eos_tgt == (feat_len - 1)).float()\n\n        feat_out, eos_out, extra = model(\n            src_tokens=sample[\"net_input\"][\"src_tokens\"],\n            src_lengths=sample[\"net_input\"][\"src_lengths\"],\n            prev_output_tokens=sample[\"net_input\"][\"prev_output_tokens\"],\n            tgt_speaker=sample[\"net_input\"][\"tgt_speaker\"],\n            target_lengths=sample[\"target_lengths\"],\n            return_all_hiddens=True,\n        )\n\n        l1_loss, mse_loss, eos_loss = self.compute_loss(\n            extra[\"feature_out\"],\n            feat_out,\n            eos_out,\n            feat_tgt,\n            eos_tgt,\n            sample[\"target_lengths\"],\n            reduction,\n        )\n        attn_loss = torch.tensor(0.0).type_as(l1_loss)\n        if self.guided_attn is not None:\n            attn_loss = self.guided_attn(\n                extra[\"attn\"],\n                sample[\"net_input\"][\"src_lengths\"],\n                sample[\"target_lengths\"],\n                reduction,\n            )\n        loss = (\n            l1_loss + mse_loss + eos_loss + attn_loss\n        )  # do not include ctc loss as there's no text target\n\n        sample_size = sample[\"nsentences\"] if self.sentence_avg else sample[\"ntokens\"]\n        logging_output = {\n            \"loss\": utils.item(loss.data),\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"nsentences\"],\n            \"sample_size\": sample_size,\n            \"l1_loss\": utils.item(l1_loss.data),\n            \"mse_loss\": utils.item(mse_loss.data),\n            \"eos_loss\": utils.item(eos_loss.data),\n            \"attn_loss\": utils.item(attn_loss.data),\n        }\n\n        if len(self.multitask_criterion) == 0:\n            return loss, sample_size, logging_output\n\n        # multitask\n        multitask_loss, multitask_log = self.get_multitask_loss(model, sample, extra)\n        loss += multitask_loss\n        logging_output[\"multitask\"] = multitask_log\n        return loss, sample_size, logging_output\n\n    @classmethod\n    def reduce_metrics(cls, logging_outputs) -> None:\n        super().reduce_metrics(logging_outputs)\n\n        # inference metrics\n        if \"targ_frames\" in logging_outputs[0]:\n            n = sum(log.get(\"norm_frames\", 0) for log in logging_outputs)\n            for key, new_key in [\n                (\"mcd_loss\", \"mcd_loss\"),\n                (\"pred_frames\", \"pred_ratio\"),\n                (\"nins\", \"ins_rate\"),\n                (\"ndel\", \"del_rate\"),\n            ]:\n                val = sum(log.get(key, 0) for log in logging_outputs)\n                metrics.log_scalar(new_key, val / n, n, round=3)\n\n        if \"multitask\" not in logging_outputs[0]:\n            return\n\n        MultitaskCriterion.reduce_metrics(logging_outputs)\n\n\n@register_criterion(\"speech_to_spectrogram_2pass\", dataclass=Tacotron2CriterionConfig)\nclass SpeechToSpectrogram2passMultitaskTaskCriterion(\n    SpeechToSpectrogramMultitaskTaskCriterion\n):\n    def __init__(\n        self,\n        task,\n        sentence_avg,\n        use_guided_attention_loss,\n        guided_attention_loss_sigma,\n        bce_pos_weight,\n        ctc_weight,\n    ):\n        super().__init__(\n            task,\n            sentence_avg,\n            use_guided_attention_loss,\n            guided_attention_loss_sigma,\n            bce_pos_weight,\n            ctc_weight,\n        )\n\n    def forward(self, model, sample, reduction=\"mean\"):\n        bsz, max_len, _ = sample[\"target\"].size()\n        feat_tgt = sample[\"target\"]\n        feat_len = sample[\"target_lengths\"].view(bsz, 1).expand(-1, max_len)\n        eos_tgt = torch.arange(max_len).to(sample[\"target\"].device)\n        eos_tgt = eos_tgt.view(1, max_len).expand(bsz, -1)\n        eos_tgt = (eos_tgt == (feat_len - 1)).float()\n\n        feat_out, eos_out, extra = model(\n            src_tokens=sample[\"net_input\"][\"src_tokens\"],\n            src_lengths=sample[\"net_input\"][\"src_lengths\"],\n            prev_output_tokens=sample[\"net_input\"][\"prev_output_tokens\"],\n            prev_output_tokens_mt=sample[\"multitask\"][model.mt_task_name][\"net_input\"][\n                \"prev_output_tokens\"\n            ],\n            tgt_speaker=sample[\"net_input\"][\"tgt_speaker\"],\n            target_lengths=sample[\"target_lengths\"],\n            return_all_hiddens=True,\n        )\n\n        l1_loss, mse_loss, eos_loss = self.compute_loss(\n            extra[\"feature_out\"],\n            feat_out,\n            eos_out,\n            feat_tgt,\n            eos_tgt,\n            sample[\"target_lengths\"],\n            reduction,\n        )\n        attn_loss = torch.tensor(0.0).type_as(l1_loss)\n        if self.guided_attn is not None:\n            attn_loss = self.guided_attn(\n                extra[\"attn\"],\n                sample[\"net_input\"][\"src_lengths\"],\n                sample[\"target_lengths\"],\n                reduction,\n            )\n        loss = (\n            l1_loss + mse_loss + eos_loss + attn_loss\n        )  # do not include ctc loss as there's no text target\n\n        sample_size = sample[\"nsentences\"] if self.sentence_avg else sample[\"ntokens\"]\n        logging_output = {\n            \"loss\": utils.item(loss.data),\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"nsentences\"],\n            \"sample_size\": sample_size,\n            \"l1_loss\": utils.item(l1_loss.data),\n            \"mse_loss\": utils.item(mse_loss.data),\n            \"eos_loss\": utils.item(eos_loss.data),\n            \"attn_loss\": utils.item(attn_loss.data),\n        }\n\n        if len(self.multitask_criterion) == 0:\n            return loss, sample_size, logging_output\n\n        # multitask\n        multitask_loss, multitask_log = self.get_multitask_loss(model, sample, extra)\n        loss += multitask_loss\n        logging_output[\"multitask\"] = multitask_log\n        return loss, sample_size, logging_output\n"
  },
  {
    "path": "fairseq/criterions/speech_ulm_criterion.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nfrom dataclasses import dataclass, field\n\nimport torch.nn.functional as F\nfrom fairseq.logging import metrics\nfrom fairseq.tasks import FairseqTask\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.dataclass import FairseqDataclass\nfrom omegaconf import II\n\n\n@dataclass\nclass SpeechUnitLmCriterionConfig(FairseqDataclass):\n    sentence_avg: bool = II(\"optimization.sentence_avg\")\n    loss_weights: str = field(\n        default=\"1.;0.0;0.0\",\n        metadata={\n            \"help\": \"Weights of the losses that correspond to token, duration, and F0 streams\"\n        },\n    )\n    discrete_duration: bool = II(\"task.discrete_duration\")\n    discrete_f0: bool = II(\"task.discrete_f0\")\n\n\ndef mae_loss(pred, targ, mask, reduce=True):\n    if pred.ndim == 3:\n        pred = pred.squeeze(2)\n    else:\n        assert pred.ndim == 2\n    loss = (pred.float() - targ.float()).abs() * (~mask).float()\n    loss = loss.sum() if reduce else loss.view(-1)\n    return loss\n\n\ndef nll_loss(pred, targ, mask, reduce=True):\n    lprob = F.log_softmax(pred, dim=-1)\n    loss = F.nll_loss(lprob.view(-1, lprob.size(-1)), targ.view(-1), reduction=\"none\")\n    loss = loss * (~mask).float().view(-1)\n    loss = loss.sum() if reduce else loss.view(-1)\n    return loss\n\n\n@register_criterion(\"speech_unit_lm_criterion\", dataclass=SpeechUnitLmCriterionConfig)\nclass SpeechUnitLmCriterion(FairseqCriterion):\n    def __init__(self, cfg: SpeechUnitLmCriterionConfig, task: FairseqTask):\n        super().__init__(task)\n        self.sentence_avg = cfg.sentence_avg\n        self.weights = torch.tensor([float(w) for w in cfg.loss_weights.split(\";\")])\n        assert self.weights.size(0) == 3\n        assert (self.weights >= 0.0).all()\n\n        self.dur_loss_fn = nll_loss if cfg.discrete_duration else mae_loss\n        self.f0_loss_fn = nll_loss if cfg.discrete_f0 else mae_loss\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        net_output = model(**sample[\"net_input\"])\n\n        token_loss = nll_loss(\n            net_output[\"token\"], sample[\"target\"], sample[\"mask\"], reduce\n        )\n        dur_loss = self.dur_loss_fn(\n            net_output[\"duration\"],\n            sample[\"dur_target\"],\n            sample[\"dur_mask\"],\n            reduce,\n        )\n        f0_loss = self.f0_loss_fn(\n            net_output[\"f0\"],\n            sample[\"f0_target\"],\n            sample[\"f0_mask\"],\n            reduce,\n        )\n        loss = self.weights.to(token_loss.device) * torch.stack(\n            [token_loss, dur_loss, f0_loss], dim=-1\n        )\n        loss = loss.sum() if reduce else loss.sum(-1)\n\n        sample_size = (\n            sample[\"target\"].size(0) if self.sentence_avg else sample[\"ntokens\"]\n        )\n        logging_output = {\n            \"loss\": loss.detach().sum().item(),\n            \"token_loss\": token_loss.detach().sum().item(),\n            \"dur_loss\": dur_loss.detach().sum().item(),\n            \"f0_loss\": f0_loss.detach().sum().item(),\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"target\"].size(0),\n            \"sample_size\": sample_size,\n        }\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n        token_loss_sum = sum(log.get(\"token_loss\", 0) for log in logging_outputs)\n        dur_loss_sum = sum(log.get(\"dur_loss\", 0) for log in logging_outputs)\n        f0_loss_sum = sum(log.get(\"f0_loss\", 0) for log in logging_outputs)\n\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n\n        metrics.log_scalar(\"loss\", loss_sum / sample_size, sample_size, round=3)\n\n        metrics.log_scalar(\n            \"token_loss\", token_loss_sum / sample_size, sample_size, round=3\n        )\n\n        metrics.log_scalar(\"dur_loss\", dur_loss_sum / sample_size, sample_size, round=3)\n\n        metrics.log_scalar(\"f0_loss\", f0_loss_sum / sample_size, sample_size, round=3)\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        return True\n"
  },
  {
    "path": "fairseq/criterions/tacotron2_loss.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nimport logging\nfrom dataclasses import dataclass, field\nfrom functools import lru_cache\nfrom typing import Any, Dict, List\n\nimport torch\nimport torch.nn.functional as F\nfrom omegaconf import II\n\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.data.data_utils import lengths_to_mask\nfrom fairseq.dataclass import FairseqDataclass\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass Tacotron2CriterionConfig(FairseqDataclass):\n    bce_pos_weight: float = field(\n        default=1.0,\n        metadata={\"help\": \"weight of positive examples for BCE loss\"},\n    )\n    use_guided_attention_loss: bool = field(\n        default=False,\n        metadata={\"help\": \"use guided attention loss\"},\n    )\n    guided_attention_loss_sigma: float = field(\n        default=0.4,\n        metadata={\"help\": \"weight of positive examples for BCE loss\"},\n    )\n    ctc_weight: float = field(default=0.0, metadata={\"help\": \"weight for CTC loss\"})\n    sentence_avg: bool = II(\"optimization.sentence_avg\")\n\n\nclass GuidedAttentionLoss(torch.nn.Module):\n    \"\"\"\n    Efficiently Trainable Text-to-Speech System Based on Deep Convolutional\n    Networks with Guided Attention (https://arxiv.org/abs/1710.08969)\n    \"\"\"\n\n    def __init__(self, sigma):\n        super().__init__()\n        self.sigma = sigma\n\n    @staticmethod\n    @lru_cache(maxsize=8)\n    def _get_weight(s_len, t_len, sigma):\n        grid_x, grid_y = torch.meshgrid(torch.arange(t_len), torch.arange(s_len))\n        grid_x = grid_x.to(s_len.device)\n        grid_y = grid_y.to(s_len.device)\n        w = (grid_y.float() / s_len - grid_x.float() / t_len) ** 2\n        return 1.0 - torch.exp(-w / (2 * (sigma**2)))\n\n    def _get_weights(self, src_lens, tgt_lens):\n        bsz, max_s_len, max_t_len = len(src_lens), max(src_lens), max(tgt_lens)\n        weights = torch.zeros((bsz, max_t_len, max_s_len))\n        for i, (s_len, t_len) in enumerate(zip(src_lens, tgt_lens)):\n            weights[i, :t_len, :s_len] = self._get_weight(s_len, t_len, self.sigma)\n        return weights\n\n    @staticmethod\n    def _get_masks(src_lens, tgt_lens):\n        in_masks = lengths_to_mask(src_lens)\n        out_masks = lengths_to_mask(tgt_lens)\n        return out_masks.unsqueeze(2) & in_masks.unsqueeze(1)\n\n    def forward(self, attn, src_lens, tgt_lens, reduction=\"mean\"):\n        weights = self._get_weights(src_lens, tgt_lens).to(attn.device)\n        masks = self._get_masks(src_lens, tgt_lens).to(attn.device)\n        loss = (weights * attn.transpose(1, 2)).masked_select(masks)\n        loss = torch.sum(loss) if reduction == \"sum\" else torch.mean(loss)\n        return loss\n\n\n@register_criterion(\"tacotron2\", dataclass=Tacotron2CriterionConfig)\nclass Tacotron2Criterion(FairseqCriterion):\n    def __init__(\n        self,\n        task,\n        sentence_avg,\n        use_guided_attention_loss,\n        guided_attention_loss_sigma,\n        bce_pos_weight,\n        ctc_weight,\n    ):\n        super().__init__(task)\n        self.sentence_avg = sentence_avg\n        self.bce_pos_weight = bce_pos_weight\n\n        self.guided_attn = None\n        if use_guided_attention_loss:\n            self.guided_attn = GuidedAttentionLoss(guided_attention_loss_sigma)\n        self.ctc_weight = ctc_weight\n\n    def forward(self, model, sample, reduction=\"mean\"):\n        bsz, max_len, _ = sample[\"target\"].size()\n        feat_tgt = sample[\"target\"]\n        feat_len = sample[\"target_lengths\"].view(bsz, 1).expand(-1, max_len)\n        eos_tgt = torch.arange(max_len).to(sample[\"target\"].device)\n        eos_tgt = eos_tgt.view(1, max_len).expand(bsz, -1)\n        eos_tgt = (eos_tgt == (feat_len - 1)).float()\n        src_tokens = sample[\"net_input\"][\"src_tokens\"]\n        src_lens = sample[\"net_input\"][\"src_lengths\"]\n        tgt_lens = sample[\"target_lengths\"]\n\n        feat_out, eos_out, extra = model(\n            src_tokens=src_tokens,\n            src_lengths=src_lens,\n            prev_output_tokens=sample[\"net_input\"][\"prev_output_tokens\"],\n            incremental_state=None,\n            target_lengths=tgt_lens,\n            speaker=sample[\"speaker\"],\n        )\n\n        l1_loss, mse_loss, eos_loss = self.compute_loss(\n            extra[\"feature_out\"],\n            feat_out,\n            eos_out,\n            feat_tgt,\n            eos_tgt,\n            tgt_lens,\n            reduction,\n        )\n        attn_loss = torch.tensor(0.0).type_as(l1_loss)\n        if self.guided_attn is not None:\n            attn_loss = self.guided_attn(extra[\"attn\"], src_lens, tgt_lens, reduction)\n        ctc_loss = torch.tensor(0.0).type_as(l1_loss)\n        if self.ctc_weight > 0.0:\n            net_output = (feat_out, eos_out, extra)\n            lprobs = model.get_normalized_probs(net_output, log_probs=True)\n            lprobs = lprobs.transpose(0, 1)  # T x B x C\n            src_mask = lengths_to_mask(src_lens)\n            src_tokens_flat = src_tokens.masked_select(src_mask)\n            ctc_loss = (\n                F.ctc_loss(\n                    lprobs,\n                    src_tokens_flat,\n                    tgt_lens,\n                    src_lens,\n                    reduction=reduction,\n                    zero_infinity=True,\n                )\n                * self.ctc_weight\n            )\n        loss = l1_loss + mse_loss + eos_loss + attn_loss + ctc_loss\n\n        sample_size = sample[\"nsentences\"] if self.sentence_avg else sample[\"ntokens\"]\n        logging_output = {\n            \"loss\": utils.item(loss.data),\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"nsentences\"],\n            \"sample_size\": sample_size,\n            \"l1_loss\": utils.item(l1_loss.data),\n            \"mse_loss\": utils.item(mse_loss.data),\n            \"eos_loss\": utils.item(eos_loss.data),\n            \"attn_loss\": utils.item(attn_loss.data),\n            \"ctc_loss\": utils.item(ctc_loss.data),\n        }\n        return loss, sample_size, logging_output\n\n    def compute_loss(\n        self,\n        feat_out,\n        feat_out_post,\n        eos_out,\n        feat_tgt,\n        eos_tgt,\n        tgt_lens,\n        reduction=\"mean\",\n    ):\n        mask = lengths_to_mask(tgt_lens)\n        _eos_out = eos_out[mask].squeeze()\n        _eos_tgt = eos_tgt[mask]\n        _feat_tgt = feat_tgt[mask]\n        _feat_out = feat_out[mask]\n        _feat_out_post = feat_out_post[mask]\n\n        l1_loss = F.l1_loss(_feat_out, _feat_tgt, reduction=reduction) + F.l1_loss(\n            _feat_out_post, _feat_tgt, reduction=reduction\n        )\n        mse_loss = F.mse_loss(_feat_out, _feat_tgt, reduction=reduction) + F.mse_loss(\n            _feat_out_post, _feat_tgt, reduction=reduction\n        )\n        eos_loss = F.binary_cross_entropy_with_logits(\n            _eos_out,\n            _eos_tgt,\n            pos_weight=torch.tensor(self.bce_pos_weight),\n            reduction=reduction,\n        )\n        return l1_loss, mse_loss, eos_loss\n\n    @classmethod\n    def reduce_metrics(cls, logging_outputs: List[Dict[str, Any]]) -> None:\n        ns = [log.get(\"sample_size\", 0) for log in logging_outputs]\n        ntot = sum(ns)\n        ws = [n / (ntot + 1e-8) for n in ns]\n        for key in [\"loss\", \"l1_loss\", \"mse_loss\", \"eos_loss\", \"attn_loss\", \"ctc_loss\"]:\n            vals = [log.get(key, 0) for log in logging_outputs]\n            val = sum(val * w for val, w in zip(vals, ws))\n            metrics.log_scalar(key, val, ntot, round=3)\n        metrics.log_scalar(\"sample_size\", ntot, len(logging_outputs))\n\n        # inference metrics\n        if \"targ_frames\" not in logging_outputs[0]:\n            return\n        n = sum(log.get(\"targ_frames\", 0) for log in logging_outputs)\n        for key, new_key in [\n            (\"mcd_loss\", \"mcd_loss\"),\n            (\"pred_frames\", \"pred_ratio\"),\n            (\"nins\", \"ins_rate\"),\n            (\"ndel\", \"del_rate\"),\n        ]:\n            val = sum(log.get(key, 0) for log in logging_outputs)\n            metrics.log_scalar(new_key, val / n, n, round=3)\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        return False\n"
  },
  {
    "path": "fairseq/criterions/wav2vec_criterion.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom dataclasses import dataclass, field\nfrom typing import List, Optional\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.logging.meters import safe_round\nfrom fairseq.utils import is_xla_tensor\n\n\n@dataclass\nclass Wav2VecCriterionConfig(FairseqDataclass):\n    infonce: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, uses cross entropy instead of binary cross entropy (i.e. InfoNCE loss)\"\n        },\n    )\n    loss_weights: Optional[List[float]] = field(\n        default=None,\n        metadata={\"help\": \"weights for additional loss terms (not first one)\"},\n    )\n    log_keys: List[str] = field(\n        default_factory=lambda: [],\n        metadata={\"help\": \"output keys to log\"},\n    )\n\n\n@register_criterion(\"wav2vec\", dataclass=Wav2VecCriterionConfig)\nclass Wav2vecCriterion(FairseqCriterion):\n    def __init__(self, task, infonce=False, loss_weights=None, log_keys=None):\n        super().__init__(task)\n        self.infonce = infonce\n        self.loss_weights = loss_weights\n        self.log_keys = [] if log_keys is None else log_keys\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        net_output = model(**sample[\"net_input\"])\n        logits = model.get_logits(net_output).float()\n        target = model.get_targets(sample, net_output)\n        self.xla = is_xla_tensor(logits)\n\n        # XXX: handle weights on xla.\n        weights = None\n        if hasattr(model, \"get_target_weights\") and not self.infonce:\n            weights = model.get_target_weights(target, net_output)\n            if torch.is_tensor(weights):\n                weights = weights.float()\n\n        losses = []\n\n        reduction = \"none\" if ((not reduce) or self.xla) else \"sum\"\n        if self.infonce:\n            loss = F.cross_entropy(logits, target, reduction=reduction)\n        else:\n            loss = F.binary_cross_entropy_with_logits(\n                logits, target.float(), weights, reduction=reduction\n            )\n\n        if self.xla:\n            # tpu-comment: since dynamic shapes lead to recompilations on xla,\n            # we don't shrink tensors using mask_indices.\n            # Instead, we use mask indices to adjust loss.\n            mi = (\n                sample[\"net_input\"][\"mask_indices\"]\n                .transpose(0, 1)  # logits are transposed in `model.get_logits`\n                .reshape(logits.size(0))\n            )\n            loss = (loss * mi).sum() if reduce else (loss * mi)\n\n        if \"sample_size\" in sample:\n            sample_size = sample[\"sample_size\"]\n        elif \"mask_indices\" in sample[\"net_input\"]:\n            sample_size = sample[\"net_input\"][\"mask_indices\"].sum()\n        else:\n            sample_size = target.numel() if self.infonce else target.long().sum().item()\n        losses.append(loss.detach().clone())\n\n        if self.loss_weights is not None:\n            assert hasattr(model, \"get_extra_losses\")\n            extra_losses = model.get_extra_losses(net_output)\n            if torch.is_tensor(extra_losses):\n                extra_losses = [extra_losses]\n            if len(self.loss_weights) == 1 and len(extra_losses) != 1:\n                self.loss_weights = [self.loss_weights[0]] * len(extra_losses)\n            assert len(extra_losses) == len(\n                self.loss_weights\n            ), f\"{len(extra_losses)}, {len(self.loss_weights)}\"\n            for p, coef in zip(extra_losses, self.loss_weights):\n                if coef != 0 and p is not None:\n                    p = coef * p.float() * sample_size\n                    loss += p\n                    losses.append(p)\n\n        logging_output = {\n            \"loss\": loss.item() if (reduce and not self.xla) else loss.detach(),\n            \"ntokens\": sample_size,\n            \"nsentences\": sample[\"id\"].numel(),\n            \"sample_size\": sample_size,\n        }\n\n        for lk in self.log_keys:\n            # Only store \"logits\" and \"target\" for computing MAP and MAUC\n            # during validation\n            if lk == \"logits\":\n                if not self.training:\n                    logging_output[\"logits\"] = logits.cpu().numpy()\n            elif lk == \"target\":\n                if not self.training:\n                    # If the targets have been mixed with the predictions of\n                    # teacher models, find the original targets\n                    if hasattr(model, \"get_original_targets\"):\n                        original_target = model.get_original_targets(sample, net_output)\n                    else:\n                        original_target = target\n                    logging_output[\"target\"] = original_target.cpu().numpy()\n            elif lk in net_output:\n                value = net_output[lk]\n                if not is_xla_tensor(value):\n                    value = float(value)\n                logging_output[lk] = value\n\n        if len(losses) > 1:\n            for i, l in enumerate(losses):\n                logging_output[f\"loss_{i}\"] = l.item() if not self.xla else l.detach()\n\n        if self.infonce:\n            with torch.no_grad():\n                if logits.numel() == 0:\n                    corr = 0\n                    count = 0\n                else:\n                    assert logits.dim() > 1, logits.shape\n                    max = logits.argmax(-1) == 0\n                    min = logits.argmin(-1) == 0\n                    if is_xla_tensor(logits):\n                        max, min = max * mi, min * mi\n                        both = max & min\n                        corr = max.long().sum() - both.long().sum()\n                        count = mi.sum()\n                    else:\n                        both = max & min\n                        corr = max.long().sum().item() - both.long().sum().item()\n                        count = float(max.numel())\n\n                logging_output[\"correct\"] = corr\n                logging_output[\"count\"] = count\n\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = utils.item(sum(log.get(\"loss\", 0) for log in logging_outputs))\n        ntokens = utils.item(sum(log.get(\"ntokens\", 0) for log in logging_outputs))\n        nsentences = utils.item(\n            sum(log.get(\"nsentences\", 0) for log in logging_outputs)\n        )\n        sample_size = utils.item(\n            sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n        )\n\n        metrics.log_scalar(\n            \"loss\", loss_sum / (sample_size or 1) / math.log(2), sample_size, round=3\n        )\n        metrics.log_scalar(\"ntokens\", ntokens)\n        metrics.log_scalar(\"nsentences\", nsentences)\n\n        correct = sum(log.get(\"correct\", 0) for log in logging_outputs)\n        metrics.log_scalar(\"_correct\", correct)\n\n        total = sum(log.get(\"count\", 0) for log in logging_outputs)\n        metrics.log_scalar(\"_total\", total)\n\n        if total > 0:\n            metrics.log_derived(\n                \"accuracy\",\n                lambda meters: safe_round(\n                    meters[\"_correct\"].sum / meters[\"_total\"].sum, 5\n                )\n                if meters[\"_total\"].sum > 0\n                else float(\"nan\"),\n            )\n\n        builtin_keys = {\n            \"loss\",\n            \"ntokens\",\n            \"nsentences\",\n            \"sample_size\",\n            \"correct\",\n            \"count\",\n        }\n\n        for k in logging_outputs[0]:\n            if k not in builtin_keys:\n                val = sum(log.get(k, 0) for log in logging_outputs)\n                if k.startswith(\"loss\"):\n                    metrics.log_scalar(\n                        k, val / (sample_size or 1) / math.log(2), sample_size, round=3\n                    )\n                else:\n                    metrics.log_scalar(k, val / len(logging_outputs), round=3)\n\n    # FIXME: revert when gather based xla reduction is implemented\n    # @staticmethod\n    # def logging_outputs_can_be_summed() -> bool:\n    def logging_outputs_can_be_summed(self) -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        # XXX: Gather based reduction not implemented for xla yet.\n        # So we fall to sum based reduction for xla.\n        return self.xla\n"
  },
  {
    "path": "fairseq/data/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"isort:skip_file\"\"\"\n\nfrom .dictionary import Dictionary, TruncatedDictionary\n\nfrom .fairseq_dataset import FairseqDataset, FairseqIterableDataset\n\nfrom .base_wrapper_dataset import BaseWrapperDataset\n\nfrom .add_target_dataset import AddTargetDataset\nfrom .append_token_dataset import AppendTokenDataset\nfrom .audio.raw_audio_dataset import BinarizedAudioDataset, FileAudioDataset\nfrom .audio.hubert_dataset import HubertDataset\nfrom .backtranslation_dataset import BacktranslationDataset\nfrom .bucket_pad_length_dataset import BucketPadLengthDataset\nfrom .colorize_dataset import ColorizeDataset\nfrom .concat_dataset import ConcatDataset\nfrom .concat_sentences_dataset import ConcatSentencesDataset\nfrom .denoising_dataset import DenoisingDataset\nfrom .id_dataset import IdDataset\nfrom .indexed_dataset import (\n    IndexedCachedDataset,\n    IndexedDataset,\n    IndexedRawTextDataset,\n    MMapIndexedDataset,\n)\nfrom .language_pair_dataset import LanguagePairDataset\nfrom .list_dataset import ListDataset\nfrom .lm_context_window_dataset import LMContextWindowDataset\nfrom .lru_cache_dataset import LRUCacheDataset\nfrom .mask_tokens_dataset import MaskTokensDataset\nfrom .monolingual_dataset import MonolingualDataset\nfrom .multi_corpus_sampled_dataset import MultiCorpusSampledDataset\nfrom .nested_dictionary_dataset import NestedDictionaryDataset\nfrom .noising import NoisingDataset\nfrom .numel_dataset import NumelDataset\nfrom .num_samples_dataset import NumSamplesDataset\nfrom .offset_tokens_dataset import OffsetTokensDataset\nfrom .padding_mask_dataset import (\n    LeftPaddingMaskDataset,\n    PaddingMaskDataset,\n    RightPaddingMaskDataset,\n)\nfrom .pad_dataset import LeftPadDataset, PadDataset, RightPadDataset\nfrom .prepend_dataset import PrependDataset\nfrom .prepend_token_dataset import PrependTokenDataset\nfrom .raw_label_dataset import RawLabelDataset\nfrom .replace_dataset import ReplaceDataset\nfrom .resampling_dataset import ResamplingDataset\nfrom .roll_dataset import RollDataset\nfrom .round_robin_zip_datasets import RoundRobinZipDatasets\nfrom .sort_dataset import SortDataset\nfrom .speech_dlm_dataset import SpeechDLMDataset\nfrom .strip_token_dataset import StripTokenDataset\nfrom .subsample_dataset import SubsampleDataset\nfrom .token_block_dataset import TokenBlockDataset\nfrom .transform_eos_dataset import TransformEosDataset\nfrom .transform_eos_lang_pair_dataset import TransformEosLangPairDataset\nfrom .shorten_dataset import TruncateDataset, RandomCropDataset\nfrom .multilingual.sampled_multi_dataset import SampledMultiDataset\nfrom .multilingual.sampled_multi_epoch_dataset import SampledMultiEpochDataset\nfrom .fasta_dataset import FastaDataset, EncodedFastaDataset\nfrom .transform_eos_concat_langpair_dataset import TransformEosConcatLangPairDataset\n\nfrom .iterators import (\n    CountingIterator,\n    EpochBatchIterator,\n    GroupedIterator,\n    ShardedIterator,\n)\n\n__all__ = [\n    \"AddTargetDataset\",\n    \"AppendTokenDataset\",\n    \"BacktranslationDataset\",\n    \"BaseWrapperDataset\",\n    \"BinarizedAudioDataset\",\n    \"BucketPadLengthDataset\",\n    \"ColorizeDataset\",\n    \"ConcatDataset\",\n    \"ConcatSentencesDataset\",\n    \"CountingIterator\",\n    \"DenoisingDataset\",\n    \"Dictionary\",\n    \"EncodedFastaDataset\",\n    \"EpochBatchIterator\",\n    \"FairseqDataset\",\n    \"FairseqIterableDataset\",\n    \"FastaDataset\",\n    \"FileAudioDataset\",\n    \"GroupedIterator\",\n    \"HubertDataset\",\n    \"IdDataset\",\n    \"IndexedCachedDataset\",\n    \"IndexedDataset\",\n    \"IndexedRawTextDataset\",\n    \"LanguagePairDataset\",\n    \"LeftPadDataset\",\n    \"ListDataset\",\n    \"LMContextWindowDataset\",\n    \"LRUCacheDataset\",\n    \"MaskTokensDataset\",\n    \"MMapIndexedDataset\",\n    \"MonolingualDataset\",\n    \"MultiCorpusSampledDataset\",\n    \"NestedDictionaryDataset\",\n    \"NoisingDataset\",\n    \"NumelDataset\",\n    \"NumSamplesDataset\",\n    \"OffsetTokensDataset\",\n    \"PadDataset\",\n    \"PrependDataset\",\n    \"PrependTokenDataset\",\n    \"RandomCropDataset\",\n    \"RawLabelDataset\",\n    \"ResamplingDataset\",\n    \"ReplaceDataset\",\n    \"RightPadDataset\",\n    \"RollDataset\",\n    \"RoundRobinZipDatasets\",\n    \"SampledMultiDataset\",\n    \"SampledMultiEpochDataset\",\n    \"ShardedIterator\",\n    \"SortDataset\",\n    \"SpeechDLMDataset\",\n    \"StripTokenDataset\",\n    \"SubsampleDataset\",\n    \"TokenBlockDataset\",\n    \"TransformEosDataset\",\n    \"TransformEosLangPairDataset\",\n    \"TransformEosConcatLangPairDataset\",\n    \"TruncateDataset\",\n    \"TruncatedDictionary\",\n]\n"
  },
  {
    "path": "fairseq/data/add_class_target_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\nfrom . import BaseWrapperDataset, data_utils\nfrom fairseq.data.text_compressor import TextCompressor, TextCompressionLevel\n\n\nclass AddTargetDataset(BaseWrapperDataset):\n    def __init__(\n        self,\n        dataset,\n        labels,\n        pad,\n        eos,\n        batch_targets,\n        process_label=None,\n        label_len_fn=None,\n        add_to_input=False,\n        text_compression_level=TextCompressionLevel.none,\n    ):\n        super().__init__(dataset)\n        self.labels = labels\n        self.batch_targets = batch_targets\n        self.pad = pad\n        self.eos = eos\n        self.process_label = process_label\n        self.label_len_fn = label_len_fn\n        self.add_to_input = add_to_input\n        self.text_compressor = TextCompressor(level=text_compression_level)\n\n    def get_label(self, index, process_fn=None):\n        lbl = self.labels[index]\n        lbl = self.text_compressor.decompress(lbl)\n        return lbl if process_fn is None else process_fn(lbl)\n\n    def __getitem__(self, index):\n        item = self.dataset[index]\n        item[\"label\"] = self.get_label(index, process_fn=self.process_label)\n        return item\n\n    def size(self, index):\n        sz = self.dataset.size(index)\n        own_sz = self.label_len_fn(self.get_label(index))\n        return sz, own_sz\n\n    def collater(self, samples):\n        collated = self.dataset.collater(samples)\n        if len(collated) == 0:\n            return collated\n        indices = set(collated[\"id\"].tolist())\n        target = [s[\"label\"] for s in samples if s[\"id\"] in indices]\n\n        if self.batch_targets:\n            collated[\"target_lengths\"] = torch.LongTensor([len(t) for t in target])\n            target = data_utils.collate_tokens(target, pad_idx=self.pad, left_pad=False)\n            collated[\"ntokens\"] = collated[\"target_lengths\"].sum().item()\n        else:\n            collated[\"ntokens\"] = sum([len(t) for t in target])\n\n        collated[\"target\"] = target\n\n        if self.add_to_input:\n            eos = target.new_full((target.size(0), 1), self.eos)\n            collated[\"target\"] = torch.cat([target, eos], dim=-1).long()\n            collated[\"net_input\"][\"prev_output_tokens\"] = torch.cat(\n                [eos, target], dim=-1\n            ).long()\n            collated[\"ntokens\"] += target.size(0)\n        return collated\n\n    def filter_indices_by_size(self, indices, max_sizes):\n        indices, ignored = data_utils._filter_by_size_dynamic(\n            indices, self.size, max_sizes\n        )\n        return indices, ignored\n"
  },
  {
    "path": "fairseq/data/add_target_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\nfrom . import BaseWrapperDataset, data_utils\nfrom fairseq.data.text_compressor import TextCompressor, TextCompressionLevel\n\n\nclass AddTargetDataset(BaseWrapperDataset):\n    def __init__(\n        self,\n        dataset,\n        labels,\n        pad,\n        eos,\n        batch_targets,\n        process_label=None,\n        label_len_fn=None,\n        add_to_input=False,\n        text_compression_level=TextCompressionLevel.none,\n    ):\n        super().__init__(dataset)\n        self.labels = labels\n        self.batch_targets = batch_targets\n        self.pad = pad\n        self.eos = eos\n        self.process_label = process_label\n        self.label_len_fn = label_len_fn\n        self.add_to_input = add_to_input\n        self.text_compressor = TextCompressor(level=text_compression_level)\n\n    def get_label(self, index, process_fn=None):\n        lbl = self.labels[index]\n        lbl = self.text_compressor.decompress(lbl)\n        return lbl if process_fn is None else process_fn(lbl)\n\n    def __getitem__(self, index):\n        item = self.dataset[index]\n        item[\"label\"] = self.get_label(index, process_fn=self.process_label)\n        return item\n\n    def size(self, index):\n        sz = self.dataset.size(index)\n        own_sz = self.label_len_fn(self.get_label(index))\n        return sz, own_sz\n\n    def collater(self, samples):\n        collated = self.dataset.collater(samples)\n        if len(collated) == 0:\n            return collated\n        indices = set(collated[\"id\"].tolist())\n        target = [s[\"label\"] for s in samples if s[\"id\"] in indices]\n\n        if self.add_to_input:\n            eos = torch.LongTensor([self.eos])\n            prev_output_tokens = [torch.cat([eos, t], axis=-1) for t in target]\n            target = [torch.cat([t, eos], axis=-1) for t in target]\n            collated[\"net_input\"][\"prev_output_tokens\"] = prev_output_tokens\n\n        if self.batch_targets:\n            collated[\"target_lengths\"] = torch.LongTensor([len(t) for t in target])\n            target = data_utils.collate_tokens(target, pad_idx=self.pad, left_pad=False)\n            collated[\"ntokens\"] = collated[\"target_lengths\"].sum().item()\n            if getattr(collated[\"net_input\"], \"prev_output_tokens\", None):\n                collated[\"net_input\"][\"prev_output_tokens\"] = data_utils.collate_tokens(\n                    collated[\"net_input\"][\"prev_output_tokens\"],\n                    pad_idx=self.pad,\n                    left_pad=False,\n                )\n        else:\n            collated[\"ntokens\"] = sum([len(t) for t in target])\n\n        collated[\"target\"] = target\n        return collated\n\n    def filter_indices_by_size(self, indices, max_sizes):\n        indices, ignored = data_utils._filter_by_size_dynamic(\n            indices, self.size, max_sizes\n        )\n        return indices, ignored\n"
  },
  {
    "path": "fairseq/data/append_token_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\n\nfrom . import BaseWrapperDataset\n\n\nclass AppendTokenDataset(BaseWrapperDataset):\n    def __init__(self, dataset, token=None):\n        super().__init__(dataset)\n        self.token = token\n        if token is not None:\n            self._sizes = np.array(dataset.sizes) + 1\n        else:\n            self._sizes = dataset.sizes\n\n    def __getitem__(self, idx):\n        item = self.dataset[idx]\n        if self.token is not None:\n            item = torch.cat([item, item.new([self.token])])\n        return item\n\n    @property\n    def sizes(self):\n        return self._sizes\n\n    def num_tokens(self, index):\n        n = self.dataset.num_tokens(index)\n        if self.token is not None:\n            n += 1\n        return n\n\n    def size(self, index):\n        n = self.dataset.size(index)\n        if self.token is not None:\n            n += 1\n        return n\n"
  },
  {
    "path": "fairseq/data/audio/__init__.py",
    "content": "from abc import ABC, abstractmethod\nfrom typing import Dict, Optional\nimport importlib\nimport os\nimport numpy as np\n\n\nclass AudioTransform(ABC):\n    @classmethod\n    @abstractmethod\n    def from_config_dict(cls, config: Optional[Dict] = None):\n        pass\n\n\nclass CompositeAudioTransform(AudioTransform):\n    def _from_config_dict(\n        cls,\n        transform_type,\n        get_audio_transform,\n        composite_cls,\n        config=None,\n        return_empty=False,\n    ):\n        _config = {} if config is None else config\n        _transforms = _config.get(f\"{transform_type}_transforms\")\n\n        if _transforms is None:\n            if return_empty:\n                _transforms = []\n            else:\n                return None\n\n        transforms = [\n            get_audio_transform(_t).from_config_dict(_config.get(_t))\n            for _t in _transforms\n        ]\n        return composite_cls(transforms)\n\n    def __init__(self, transforms):\n        self.transforms = [t for t in transforms if t is not None]\n\n    def __call__(self, x):\n        for t in self.transforms:\n            x = t(x)\n        return x\n\n    def __repr__(self):\n        format_string = (\n            [self.__class__.__name__ + \"(\"]\n            + [f\"    {t.__repr__()}\" for t in self.transforms]\n            + [\")\"]\n        )\n        return \"\\n\".join(format_string)\n\n\ndef register_audio_transform(name, cls_type, registry, class_names):\n    def register_audio_transform_cls(cls):\n        if name in registry:\n            raise ValueError(f\"Cannot register duplicate transform ({name})\")\n        if not issubclass(cls, cls_type):\n            raise ValueError(\n                f\"Transform ({name}: {cls.__name__}) must extend \"\n                f\"{cls_type.__name__}\"\n            )\n        if cls.__name__ in class_names:\n            raise ValueError(\n                f\"Cannot register audio transform with duplicate \"\n                f\"class name ({cls.__name__})\"\n            )\n        registry[name] = cls\n        class_names.add(cls.__name__)\n        return cls\n\n    return register_audio_transform_cls\n\n\ndef import_transforms(transforms_dir, transform_type):\n    for file in os.listdir(transforms_dir):\n        path = os.path.join(transforms_dir, file)\n        if (\n            not file.startswith(\"_\")\n            and not file.startswith(\".\")\n            and (file.endswith(\".py\") or os.path.isdir(path))\n        ):\n            name = file[: file.find(\".py\")] if file.endswith(\".py\") else file\n            importlib.import_module(\n                f\"fairseq.data.audio.{transform_type}_transforms.\" + name\n            )\n\n\n# Utility fn for uniform numbers in transforms\ndef rand_uniform(a, b):\n    return np.random.uniform() * (b - a) + a\n"
  },
  {
    "path": "fairseq/data/audio/audio_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport mmap\nfrom pathlib import Path\nimport io\nfrom typing import BinaryIO, List, Optional, Tuple, Union\n\nimport numpy as np\nimport torch\nimport torch.nn.functional as F\n\nfrom fairseq.data.audio.waveform_transforms import CompositeAudioWaveformTransform\n\nSF_AUDIO_FILE_EXTENSIONS = {\".wav\", \".flac\", \".ogg\"}\nFEATURE_OR_SF_AUDIO_FILE_EXTENSIONS = {\".npy\", \".wav\", \".flac\", \".ogg\"}\n\n\ndef convert_waveform(\n    waveform: Union[np.ndarray, torch.Tensor],\n    sample_rate: int,\n    normalize_volume: bool = False,\n    to_mono: bool = False,\n    to_sample_rate: Optional[int] = None,\n) -> Tuple[Union[np.ndarray, torch.Tensor], int]:\n    \"\"\"convert a waveform:\n    - to a target sample rate\n    - from multi-channel to mono channel\n    - volume normalization\n\n    Args:\n        waveform (numpy.ndarray or torch.Tensor): 2D original waveform\n            (channels x length)\n        sample_rate (int): original sample rate\n        normalize_volume (bool): perform volume normalization\n        to_mono (bool): convert to mono channel if having multiple channels\n        to_sample_rate (Optional[int]): target sample rate\n    Returns:\n        waveform (numpy.ndarray): converted 2D waveform (channels x length)\n        sample_rate (float): target sample rate\n    \"\"\"\n    try:\n        import torchaudio.sox_effects as ta_sox\n    except ImportError:\n        raise ImportError(\"Please install torchaudio: pip install torchaudio\")\n\n    effects = []\n    if normalize_volume:\n        effects.append([\"gain\", \"-n\"])\n    if to_sample_rate is not None and to_sample_rate != sample_rate:\n        effects.append([\"rate\", f\"{to_sample_rate}\"])\n    if to_mono and waveform.shape[0] > 1:\n        effects.append([\"channels\", \"1\"])\n    if len(effects) > 0:\n        is_np_input = isinstance(waveform, np.ndarray)\n        _waveform = torch.from_numpy(waveform) if is_np_input else waveform\n        converted, converted_sample_rate = ta_sox.apply_effects_tensor(\n            _waveform, sample_rate, effects\n        )\n        if is_np_input:\n            converted = converted.numpy()\n        return converted, converted_sample_rate\n    return waveform, sample_rate\n\n\ndef get_waveform(\n    path_or_fp: Union[str, BinaryIO],\n    normalization: bool = True,\n    mono: bool = True,\n    frames: int = -1,\n    start: int = 0,\n    always_2d: bool = True,\n    output_sample_rate: Optional[int] = None,\n    normalize_volume: bool = False,\n    waveform_transforms: Optional[CompositeAudioWaveformTransform] = None,\n) -> Tuple[np.ndarray, int]:\n    \"\"\"Get the waveform and sample rate of a 16-bit WAV/FLAC/OGG Vorbis audio.\n\n    Args:\n        path_or_fp (str or BinaryIO): the path or file-like object\n        normalization (bool): normalize values to [-1, 1] (Default: True)\n        mono (bool): convert multi-channel audio to mono-channel one\n        frames (int): the number of frames to read. (-1 for reading all)\n        start (int): Where to start reading. A negative value counts from the end.\n        always_2d (bool): always return 2D array even for mono-channel audios\n        output_sample_rate (Optional[int]): output sample rate\n        normalize_volume (bool): normalize volume\n    Returns:\n        waveform (numpy.ndarray): 1D or 2D waveform (channels x length)\n        sample_rate (float): sample rate\n    \"\"\"\n    if isinstance(path_or_fp, str):\n        ext = Path(path_or_fp).suffix\n        if ext not in SF_AUDIO_FILE_EXTENSIONS:\n            raise ValueError(f\"Unsupported audio format: {ext}\")\n\n    try:\n        import soundfile as sf\n    except ImportError:\n        raise ImportError(\"Please install soundfile: pip install soundfile\")\n\n    waveform, sample_rate = sf.read(\n        path_or_fp, dtype=\"float32\", always_2d=True, frames=frames, start=start\n    )\n    waveform = waveform.T  # T x C -> C x T\n    waveform, sample_rate = convert_waveform(\n        waveform,\n        sample_rate,\n        normalize_volume=normalize_volume,\n        to_mono=mono,\n        to_sample_rate=output_sample_rate,\n    )\n\n    if not normalization:\n        waveform *= 2**15  # denormalized to 16-bit signed integers\n\n    if waveform_transforms is not None:\n        waveform, sample_rate = waveform_transforms(waveform, sample_rate)\n\n    if not always_2d:\n        waveform = waveform.squeeze(axis=0)\n\n    return waveform, sample_rate\n\n\ndef get_features_from_npy_or_audio(path, waveform_transforms=None):\n    ext = Path(path).suffix\n    if ext not in FEATURE_OR_SF_AUDIO_FILE_EXTENSIONS:\n        raise ValueError(f'Unsupported file format for \"{path}\"')\n    return (\n        np.load(path)\n        if ext == \".npy\"\n        else get_fbank(path, waveform_transforms=waveform_transforms)\n    )\n\n\ndef get_features_or_waveform_from_stored_zip(\n    path,\n    byte_offset,\n    byte_size,\n    need_waveform=False,\n    use_sample_rate=None,\n    waveform_transforms=None,\n):\n    assert path.endswith(\".zip\")\n    data = read_from_stored_zip(path, byte_offset, byte_size)\n    f = io.BytesIO(data)\n    if is_npy_data(data):\n        features_or_waveform = np.load(f)\n    elif is_sf_audio_data(data):\n        features_or_waveform = (\n            get_waveform(\n                f,\n                always_2d=False,\n                output_sample_rate=use_sample_rate,\n                waveform_transforms=waveform_transforms,\n            )[0]\n            if need_waveform\n            else get_fbank(f, waveform_transforms=waveform_transforms)\n        )\n    else:\n        raise ValueError(f'Unknown file format for \"{path}\"')\n    return features_or_waveform\n\n\ndef get_features_or_waveform(\n    path: str, need_waveform=False, use_sample_rate=None, waveform_transforms=None\n):\n    \"\"\"Get speech features from .npy file or waveform from .wav/.flac file.\n    The file may be inside an uncompressed ZIP file and is accessed via byte\n    offset and length.\n\n    Args:\n        path (str): File path in the format of \"<.npy/.wav/.flac path>\" or\n        \"<zip path>:<byte offset>:<byte length>\".\n        need_waveform (bool): return waveform instead of features.\n        use_sample_rate (int): change sample rate for the input wave file\n\n    Returns:\n        features_or_waveform (numpy.ndarray): speech features or waveform.\n    \"\"\"\n    _path, slice_ptr = parse_path(path)\n    if len(slice_ptr) == 0:\n        if need_waveform:\n            return get_waveform(\n                _path,\n                always_2d=False,\n                output_sample_rate=use_sample_rate,\n                waveform_transforms=waveform_transforms,\n            )[0]\n        return get_features_from_npy_or_audio(\n            _path, waveform_transforms=waveform_transforms\n        )\n    elif len(slice_ptr) == 2:\n        features_or_waveform = get_features_or_waveform_from_stored_zip(\n            _path,\n            slice_ptr[0],\n            slice_ptr[1],\n            need_waveform=need_waveform,\n            use_sample_rate=use_sample_rate,\n            waveform_transforms=waveform_transforms,\n        )\n    else:\n        raise ValueError(f\"Invalid path: {path}\")\n\n    return features_or_waveform\n\n\ndef _get_kaldi_fbank(\n    waveform: np.ndarray, sample_rate: int, n_bins=80\n) -> Optional[np.ndarray]:\n    \"\"\"Get mel-filter bank features via PyKaldi.\"\"\"\n    try:\n        from kaldi.feat.fbank import Fbank, FbankOptions\n        from kaldi.feat.mel import MelBanksOptions\n        from kaldi.feat.window import FrameExtractionOptions\n        from kaldi.matrix import Vector\n\n        mel_opts = MelBanksOptions()\n        mel_opts.num_bins = n_bins\n        frame_opts = FrameExtractionOptions()\n        frame_opts.samp_freq = sample_rate\n        opts = FbankOptions()\n        opts.mel_opts = mel_opts\n        opts.frame_opts = frame_opts\n        fbank = Fbank(opts=opts)\n        features = fbank.compute(Vector(waveform.squeeze()), 1.0).numpy()\n        return features\n    except ImportError:\n        return None\n\n\ndef _get_torchaudio_fbank(\n    waveform: np.ndarray, sample_rate, n_bins=80\n) -> Optional[np.ndarray]:\n    \"\"\"Get mel-filter bank features via TorchAudio.\"\"\"\n    try:\n        import torchaudio.compliance.kaldi as ta_kaldi\n\n        waveform = torch.from_numpy(waveform)\n        features = ta_kaldi.fbank(\n            waveform, num_mel_bins=n_bins, sample_frequency=sample_rate\n        )\n        return features.numpy()\n    except ImportError:\n        return None\n\n\ndef get_fbank(\n    path_or_fp: Union[str, BinaryIO], n_bins=80, waveform_transforms=None\n) -> np.ndarray:\n    \"\"\"Get mel-filter bank features via PyKaldi or TorchAudio. Prefer PyKaldi\n    (faster CPP implementation) to TorchAudio (Python implementation). Note that\n    Kaldi/TorchAudio requires 16-bit signed integers as inputs and hence the\n    waveform should not be normalized.\"\"\"\n    waveform, sample_rate = get_waveform(\n        path_or_fp, normalization=False, waveform_transforms=waveform_transforms\n    )\n\n    features = _get_kaldi_fbank(waveform, sample_rate, n_bins)\n    if features is None:\n        features = _get_torchaudio_fbank(waveform, sample_rate, n_bins)\n    if features is None:\n        raise ImportError(\n            \"Please install pyKaldi or torchaudio to enable \"\n            \"online filterbank feature extraction\"\n        )\n\n    return features\n\n\ndef is_npy_data(data: bytes) -> bool:\n    return data[0] == 147 and data[1] == 78\n\n\ndef is_sf_audio_data(data: bytes) -> bool:\n    is_wav = data[0] == 82 and data[1] == 73 and data[2] == 70\n    is_flac = data[0] == 102 and data[1] == 76 and data[2] == 97\n    is_ogg = data[0] == 79 and data[1] == 103 and data[2] == 103\n    return is_wav or is_flac or is_ogg\n\n\ndef mmap_read(path: str, offset: int, length: int) -> bytes:\n    with open(path, \"rb\") as f:\n        with mmap.mmap(f.fileno(), length=0, access=mmap.ACCESS_READ) as mmap_o:\n            data = mmap_o[offset : offset + length]\n    return data\n\n\ndef read_from_stored_zip(zip_path: str, offset: int, length: int) -> bytes:\n    return mmap_read(zip_path, offset, length)\n\n\ndef parse_path(path: str) -> Tuple[str, List[int]]:\n    \"\"\"Parse data path which is either a path to\n    1. a .npy/.wav/.flac/.ogg file\n    2. a stored ZIP file with slicing info: \"[zip_path]:[offset]:[length]\"\n\n      Args:\n          path (str): the data path to parse\n\n      Returns:\n          file_path (str): the file path\n          slice_ptr (list of int): empty in case 1;\n            byte offset and length for the slice in case 2\n    \"\"\"\n\n    if Path(path).suffix in FEATURE_OR_SF_AUDIO_FILE_EXTENSIONS:\n        _path, slice_ptr = path, []\n    else:\n        _path, *slice_ptr = path.split(\":\")\n        if not Path(_path).is_file():\n            raise FileNotFoundError(f\"File not found: {_path}\")\n    assert len(slice_ptr) in {0, 2}, f\"Invalid path: {path}\"\n    slice_ptr = [int(i) for i in slice_ptr]\n    return _path, slice_ptr\n\n\ndef get_window(window_fn: callable, n_fft: int, win_length: int) -> torch.Tensor:\n    padding = n_fft - win_length\n    assert padding >= 0\n    return F.pad(window_fn(win_length), (padding // 2, padding - padding // 2))\n\n\ndef get_fourier_basis(n_fft: int) -> torch.Tensor:\n    basis = np.fft.fft(np.eye(n_fft))\n    basis = np.vstack(\n        [np.real(basis[: n_fft // 2 + 1, :]), np.imag(basis[: n_fft // 2 + 1, :])]\n    )\n    return torch.from_numpy(basis).float()\n\n\ndef get_mel_filters(\n    sample_rate: int, n_fft: int, n_mels: int, f_min: float, f_max: float\n) -> torch.Tensor:\n    try:\n        import librosa\n    except ImportError:\n        raise ImportError(\"Please install librosa: pip install librosa\")\n    basis = librosa.filters.mel(sample_rate, n_fft, n_mels, f_min, f_max)\n    return torch.from_numpy(basis).float()\n\n\nclass TTSSpectrogram(torch.nn.Module):\n    def __init__(\n        self,\n        n_fft: int,\n        win_length: int,\n        hop_length: int,\n        window_fn: callable = torch.hann_window,\n        return_phase: bool = False,\n    ) -> None:\n        super(TTSSpectrogram, self).__init__()\n        self.n_fft = n_fft\n        self.hop_length = hop_length\n        self.return_phase = return_phase\n\n        basis = get_fourier_basis(n_fft).unsqueeze(1)\n        basis *= get_window(window_fn, n_fft, win_length)\n        self.register_buffer(\"basis\", basis)\n\n    def forward(\n        self, waveform: torch.Tensor\n    ) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:\n        padding = (self.n_fft // 2, self.n_fft // 2)\n        x = F.pad(waveform.unsqueeze(1), padding, mode=\"reflect\")\n        x = F.conv1d(x, self.basis, stride=self.hop_length)\n        real_part = x[:, : self.n_fft // 2 + 1, :]\n        imag_part = x[:, self.n_fft // 2 + 1 :, :]\n        magnitude = torch.sqrt(real_part**2 + imag_part**2)\n        if self.return_phase:\n            phase = torch.atan2(imag_part, real_part)\n            return magnitude, phase\n        return magnitude\n\n\nclass TTSMelScale(torch.nn.Module):\n    def __init__(\n        self, n_mels: int, sample_rate: int, f_min: float, f_max: float, n_stft: int\n    ) -> None:\n        super(TTSMelScale, self).__init__()\n        basis = get_mel_filters(sample_rate, (n_stft - 1) * 2, n_mels, f_min, f_max)\n        self.register_buffer(\"basis\", basis)\n\n    def forward(self, specgram: torch.Tensor) -> torch.Tensor:\n        return torch.matmul(self.basis, specgram)\n"
  },
  {
    "path": "fairseq/data/audio/data_cfg.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom argparse import Namespace\nfrom copy import deepcopy\nfrom pathlib import Path\nfrom typing import Dict, Optional\n\nfrom fairseq.data import Dictionary\n\nlogger = logging.getLogger(__name__)\n\n\ndef get_config_from_yaml(yaml_path: Path):\n    try:\n        import yaml\n    except ImportError:\n        print(\"Please install PyYAML: pip install PyYAML\")\n    config = {}\n    if yaml_path.is_file():\n        try:\n            with open(yaml_path) as f:\n                config = yaml.load(f, Loader=yaml.FullLoader)\n        except Exception as e:\n            raise Exception(f\"Failed to load config from {yaml_path.as_posix()}: {e}\")\n    else:\n        raise FileNotFoundError(f\"{yaml_path.as_posix()} not found\")\n\n    return config\n\n\nclass S2TDataConfig(object):\n    \"\"\"Wrapper class for data config YAML\"\"\"\n\n    def __init__(self, yaml_path: Path):\n        self.config = get_config_from_yaml(yaml_path)\n        self.root = yaml_path.parent\n\n    def _auto_convert_to_abs_path(self, x):\n        if isinstance(x, str):\n            if not Path(x).exists() and (self.root / x).exists():\n                return (self.root / x).as_posix()\n        elif isinstance(x, dict):\n            return {k: self._auto_convert_to_abs_path(v) for k, v in x.items()}\n        return x\n\n    @property\n    def vocab_filename(self):\n        \"\"\"fairseq vocabulary file under data root\"\"\"\n        return self.config.get(\"vocab_filename\", \"dict.txt\")\n\n    @property\n    def speaker_set_filename(self):\n        \"\"\"speaker set file under data root\"\"\"\n        return self.config.get(\"speaker_set_filename\", None)\n\n    @property\n    def shuffle(self) -> bool:\n        \"\"\"Shuffle dataset samples before batching\"\"\"\n        return self.config.get(\"shuffle\", False)\n\n    @property\n    def pre_tokenizer(self) -> Dict:\n        \"\"\"Pre-tokenizer to apply before subword tokenization. Returning\n        a dictionary with `tokenizer` providing the tokenizer name and\n        the other items providing the tokenizer-specific arguments.\n        Tokenizers are defined in `fairseq.data.encoders.*`\"\"\"\n        tokenizer = self.config.get(\"pre_tokenizer\", {\"tokenizer\": None})\n        return self._auto_convert_to_abs_path(tokenizer)\n\n    @property\n    def bpe_tokenizer(self) -> Dict:\n        \"\"\"Subword tokenizer to apply after pre-tokenization. Returning\n        a dictionary with `bpe` providing the tokenizer name and\n        the other items providing the tokenizer-specific arguments.\n        Tokenizers are defined in `fairseq.data.encoders.*`\"\"\"\n        tokenizer = self.config.get(\"bpe_tokenizer\", {\"bpe\": None})\n        return self._auto_convert_to_abs_path(tokenizer)\n\n    @property\n    def prepend_tgt_lang_tag(self) -> bool:\n        \"\"\"Prepend target lang ID token as the target BOS (e.g. for to-many\n        multilingual setting). During inference, this requires `--prefix-size 1`\n        to force BOS to be lang ID token.\"\"\"\n        return self.config.get(\"prepend_tgt_lang_tag\", False)\n\n    @property\n    def prepend_bos_and_append_tgt_lang_tag(self) -> bool:\n        \"\"\"Prepend BOS and append target lang ID token to the target (e.g. mBART with language token pretraining).\"\"\"\n        return self.config.get(\"prepend_bos_and_append_tgt_lang_tag\", False)\n\n    @property\n    def input_feat_per_channel(self):\n        \"\"\"The dimension of input features (per audio channel)\"\"\"\n        return self.config.get(\"input_feat_per_channel\", 80)\n\n    @property\n    def input_channels(self):\n        \"\"\"The number of channels in the input audio\"\"\"\n        return self.config.get(\"input_channels\", 1)\n\n    @property\n    def sample_rate(self):\n        return self.config.get(\"sample_rate\", 16_000)\n\n    @property\n    def sampling_alpha(self):\n        \"\"\"Hyper-parameter alpha = 1/T for temperature-based resampling.\n        (alpha = 1 for no resampling)\"\"\"\n        return self.config.get(\"sampling_alpha\", 1.0)\n\n    @property\n    def use_audio_input(self):\n        \"\"\"Needed by the dataset loader to see if the model requires\n        raw audio as inputs.\"\"\"\n        return self.config.get(\"use_audio_input\", False)\n\n    def standardize_audio(self) -> bool:\n        return self.use_audio_input and self.config.get(\"standardize_audio\", False)\n\n    @property\n    def use_sample_rate(self):\n        \"\"\"Needed by the dataset loader to see if the model requires\n        raw audio with specific sample rate as inputs.\"\"\"\n        return self.config.get(\"use_sample_rate\", 16000)\n\n    @property\n    def audio_root(self):\n        \"\"\"Audio paths in the manifest TSV can be relative and this provides\n        the root path. Set this to empty string when using absolute paths.\"\"\"\n        return self.config.get(\"audio_root\", \"\")\n\n    def get_transforms(self, transform_type, split, is_train):\n        \"\"\"Split-specific feature transforms. Allowing train set\n        wildcard `_train`, evaluation set wildcard `_eval` and general\n        wildcard `*` for matching.\"\"\"\n        from copy import deepcopy\n\n        cfg = deepcopy(self.config)\n        _cur = cfg.get(f\"{transform_type}transforms\", {})\n        cur = _cur.get(split)\n        cur = _cur.get(\"_train\") if cur is None and is_train else cur\n        cur = _cur.get(\"_eval\") if cur is None and not is_train else cur\n        cur = _cur.get(\"*\") if cur is None else cur\n        return cur\n\n    def get_feature_transforms(self, split, is_train):\n        cfg = deepcopy(self.config)\n        # TODO: deprecate transforms\n        cur = self.get_transforms(\"\", split, is_train)\n        if cur is not None:\n            logger.warning(\n                \"Auto converting transforms into feature_transforms, \"\n                \"but transforms will be deprecated in the future. Please \"\n                \"update this in the config.\"\n            )\n            ft_transforms = self.get_transforms(\"feature_\", split, is_train)\n            if ft_transforms:\n                cur.extend(ft_transforms)\n        else:\n            cur = self.get_transforms(\"feature_\", split, is_train)\n        cfg[\"feature_transforms\"] = cur\n        return cfg\n\n    def get_waveform_transforms(self, split, is_train):\n        cfg = deepcopy(self.config)\n        cfg[\"waveform_transforms\"] = self.get_transforms(\"waveform_\", split, is_train)\n        return cfg\n\n    def get_dataset_transforms(self, split, is_train):\n        cfg = deepcopy(self.config)\n        cfg[\"dataset_transforms\"] = self.get_transforms(\"dataset_\", split, is_train)\n        return cfg\n\n    @property\n    def global_cmvn_stats_npz(self) -> Optional[str]:\n        path = self.config.get(\"global_cmvn\", {}).get(\"stats_npz_path\", None)\n        return self._auto_convert_to_abs_path(path)\n\n    @property\n    def vocoder(self) -> Dict[str, str]:\n        vocoder = self.config.get(\"vocoder\", {\"type\": \"griffin_lim\"})\n        return self._auto_convert_to_abs_path(vocoder)\n\n    @property\n    def hub(self) -> Dict[str, str]:\n        return self.config.get(\"hub\", {})\n\n\nclass S2SDataConfig(S2TDataConfig):\n    \"\"\"Wrapper class for data config YAML\"\"\"\n\n    @property\n    def vocab_filename(self):\n        \"\"\"fairseq vocabulary file under data root\"\"\"\n        return self.config.get(\"vocab_filename\", None)\n\n    @property\n    def pre_tokenizer(self) -> Dict:\n        return None\n\n    @property\n    def bpe_tokenizer(self) -> Dict:\n        return None\n\n    @property\n    def input_transformed_channels(self):\n        \"\"\"The number of channels in the audio after feature transforms\"\"\"\n        # TODO: move this into individual transforms\n        # TODO: deprecate transforms\n        _cur = self.config.get(\"transforms\", {})\n        ft_transforms = self.config.get(\"feature_transforms\", {})\n        if _cur and ft_transforms:\n            _cur.update(ft_transforms)\n        else:\n            _cur = self.config.get(\"feature_transforms\", {})\n        cur = _cur.get(\"_train\", [])\n\n        _channels = self.input_channels\n        if \"delta_deltas\" in cur:\n            _channels *= 3\n\n        return _channels\n\n    @property\n    def output_sample_rate(self):\n        \"\"\"The audio sample rate of output target speech\"\"\"\n        return self.config.get(\"output_sample_rate\", 22050)\n\n    @property\n    def target_speaker_embed(self):\n        \"\"\"Target speaker embedding file (one line per target audio sample)\"\"\"\n        return self.config.get(\"target_speaker_embed\", None)\n\n    @property\n    def prepend_tgt_lang_tag_as_bos(self) -> bool:\n        \"\"\"Prepend target lang ID token as the target BOS.\"\"\"\n        return self.config.get(\"prepend_tgt_lang_tag_as_bos\", False)\n\n\nclass MultitaskConfig(object):\n    \"\"\"Wrapper class for data config YAML\"\"\"\n\n    def __init__(self, yaml_path: Path):\n        config = get_config_from_yaml(yaml_path)\n        self.config = {}\n        for k, v in config.items():\n            self.config[k] = SingleTaskConfig(k, v)\n\n    def get_all_tasks(self):\n        return self.config\n\n    def get_single_task(self, name):\n        assert name in self.config, f\"multitask '{name}' does not exist!\"\n        return self.config[name]\n\n    @property\n    def first_pass_decoder_task_index(self):\n        \"\"\"Return the task index of the first-pass text decoder.\n        If there are multiple 'is_first_pass_decoder: True' in the config file,\n            the last task is used for the first-pass decoder.\n        If there is no 'is_first_pass_decoder: True' in the config file,\n            the last task whose task_name includes 'target' and decoder_type is not ctc.\n        \"\"\"\n        idx = -1\n        for i, (k, v) in enumerate(self.config.items()):\n            if v.is_first_pass_decoder:\n                idx = i\n        if idx < 0:\n            for i, (k, v) in enumerate(self.config.items()):\n                if k.startswith(\"target\") and v.decoder_type == \"transformer\":\n                    idx = i\n        return idx\n\n\nclass SingleTaskConfig(object):\n    def __init__(self, name, config):\n        self.task_name = name\n        self.config = config\n        dict_path = config.get(\"dict\", \"\")\n        self.tgt_dict = Dictionary.load(dict_path) if Path(dict_path).exists() else None\n\n    @property\n    def data(self):\n        return self.config.get(\"data\", \"\")\n\n    @property\n    def decoder_type(self):\n        return self.config.get(\"decoder_type\", \"transformer\")\n\n    @property\n    def decoder_args(self):\n        \"\"\"Decoder arch related args\"\"\"\n        args = self.config.get(\"decoder_args\", {})\n        return Namespace(**args)\n\n    @property\n    def criterion_cfg(self):\n        \"\"\"cfg for the multitask criterion\"\"\"\n        if self.decoder_type == \"ctc\":\n            from fairseq.criterions.ctc import CtcCriterionConfig\n\n            cfg = CtcCriterionConfig\n            cfg.zero_infinity = self.config.get(\"zero_infinity\", True)\n        else:\n            from fairseq.criterions.label_smoothed_cross_entropy import (\n                LabelSmoothedCrossEntropyCriterionConfig,\n            )\n\n            cfg = LabelSmoothedCrossEntropyCriterionConfig\n            cfg.label_smoothing = self.config.get(\"label_smoothing\", 0.2)\n        return cfg\n\n    @property\n    def input_from(self):\n        \"\"\"Condition on encoder/decoder of the main model\"\"\"\n        return \"decoder\" if \"decoder_layer\" in self.config else \"encoder\"\n\n    @property\n    def input_layer(self):\n        if self.input_from == \"decoder\":\n            return self.config[\"decoder_layer\"] - 1\n        else:\n            # default using the output from the last encoder layer (-1)\n            return self.config.get(\"encoder_layer\", 0) - 1\n\n    @property\n    def loss_weight_schedule(self):\n        return (\n            \"decay\"\n            if \"loss_weight_max\" in self.config\n            and \"loss_weight_decay_steps\" in self.config\n            else \"fixed\"\n        )\n\n    def get_loss_weight(self, num_updates):\n        if self.loss_weight_schedule == \"fixed\":\n            weight = self.config.get(\"loss_weight\", 1.0)\n        else:  # \"decay\"\n            assert (\n                self.config.get(\"loss_weight_decay_steps\", 0) > 0\n            ), \"loss_weight_decay_steps must be greater than 0 for a decay schedule\"\n            loss_weight_min = self.config.get(\"loss_weight_min\", 0.0001)\n            loss_weight_decay_stepsize = (\n                self.config[\"loss_weight_max\"] - loss_weight_min\n            ) / self.config[\"loss_weight_decay_steps\"]\n            weight = max(\n                self.config[\"loss_weight_max\"]\n                - loss_weight_decay_stepsize * num_updates,\n                loss_weight_min,\n            )\n        return weight\n\n    @property\n    def prepend_bos_and_append_tgt_lang_tag(self) -> bool:\n        \"\"\"Prepend BOS and append target lang ID token to the target (e.g. mBART with language token pretraining).\"\"\"\n        return self.config.get(\"prepend_bos_and_append_tgt_lang_tag\", False)\n\n    @property\n    def eos_token(self):\n        \"\"\"EOS token during generation\"\"\"\n        return self.config.get(\"eos_token\", \"<eos>\")\n\n    @property\n    def rdrop_alpha(self):\n        return self.config.get(\"rdrop_alpha\", 0.0)\n\n    @property\n    def is_first_pass_decoder(self):\n        flag = self.config.get(\"is_first_pass_decoder\", False)\n        if flag:\n            if self.decoder_type == \"ctc\":\n                raise ValueError(\n                    \"First-pass decoder in the multi-decoder model must not be CTC.\"\n                )\n            if \"target\" not in self.task_name:\n                raise Warning(\n                    'The name of the first-pass decoder does not include \"target\".'\n                )\n        return flag\n\n    @property\n    def get_lang_tag_mapping(self):\n        return self.config.get(\"lang_tag_mapping\", {})\n"
  },
  {
    "path": "fairseq/data/audio/dataset_transforms/__init__.py",
    "content": "import os\nfrom fairseq.data.audio import (\n    AudioTransform,\n    CompositeAudioTransform,\n    import_transforms,\n    register_audio_transform,\n)\n\n\nclass AudioDatasetTransform(AudioTransform):\n    pass\n\n\nAUDIO_DATASET_TRANSFORM_REGISTRY = {}\nAUDIO_DATASET_TRANSFORM_CLASS_NAMES = set()\n\n\ndef get_audio_dataset_transform(name):\n    return AUDIO_DATASET_TRANSFORM_REGISTRY[name]\n\n\ndef register_audio_dataset_transform(name):\n    return register_audio_transform(\n        name,\n        AudioDatasetTransform,\n        AUDIO_DATASET_TRANSFORM_REGISTRY,\n        AUDIO_DATASET_TRANSFORM_CLASS_NAMES,\n    )\n\n\nimport_transforms(os.path.dirname(__file__), \"dataset\")\n\n\nclass CompositeAudioDatasetTransform(CompositeAudioTransform):\n    @classmethod\n    def from_config_dict(cls, config=None):\n        return super()._from_config_dict(\n            cls,\n            \"dataset\",\n            get_audio_dataset_transform,\n            CompositeAudioDatasetTransform,\n            config,\n            return_empty=True,\n        )\n\n    def get_transform(self, cls):\n        for t in self.transforms:\n            if isinstance(t, cls):\n                return t\n        return None\n\n    def has_transform(self, cls):\n        return self.get_transform(cls) is not None\n"
  },
  {
    "path": "fairseq/data/audio/dataset_transforms/concataugment.py",
    "content": "from typing import List\nimport numpy as np\n\nfrom fairseq.data.audio.dataset_transforms import (\n    AudioDatasetTransform,\n    register_audio_dataset_transform,\n)\n\n_DEFAULTS = {\"rate\": 0.25, \"max_tokens\": 3000, \"attempts\": 5}\n\n\n@register_audio_dataset_transform(\"concataugment\")\nclass ConcatAugment(AudioDatasetTransform):\n    @classmethod\n    def from_config_dict(cls, config=None):\n        _config = {} if config is None else config\n        return ConcatAugment(\n            _config.get(\"rate\", _DEFAULTS[\"rate\"]),\n            _config.get(\"max_tokens\", _DEFAULTS[\"max_tokens\"]),\n            _config.get(\"attempts\", _DEFAULTS[\"attempts\"]),\n        )\n\n    def __init__(\n        self,\n        rate=_DEFAULTS[\"rate\"],\n        max_tokens=_DEFAULTS[\"max_tokens\"],\n        attempts=_DEFAULTS[\"attempts\"],\n    ):\n        self.rate, self.max_tokens, self.attempts = rate, max_tokens, attempts\n\n    def __repr__(self):\n        return (\n            self.__class__.__name__\n            + \"(\"\n            + \", \".join(\n                [\n                    f\"rate={self.rate}\",\n                    f\"max_tokens={self.max_tokens}\",\n                    f\"attempts={self.attempts}\",\n                ]\n            )\n            + \")\"\n        )\n\n    def find_indices(self, index: int, n_frames: List[int], n_samples: int):\n        # skip conditions: application rate, max_tokens limit exceeded\n        if np.random.random() > self.rate:\n            return [index]\n        if self.max_tokens and n_frames[index] > self.max_tokens:\n            return [index]\n\n        # pick second sample to concatenate\n        for _ in range(self.attempts):\n            index2 = np.random.randint(0, n_samples)\n            if index2 != index and (\n                not self.max_tokens\n                or n_frames[index] + n_frames[index2] < self.max_tokens\n            ):\n                return [index, index2]\n\n        return [index]\n"
  },
  {
    "path": "fairseq/data/audio/dataset_transforms/noisyoverlapaugment.py",
    "content": "import numpy as np\nimport torch\n\nfrom fairseq.data.audio import rand_uniform\nfrom fairseq.data.audio.dataset_transforms import (\n    AudioDatasetTransform,\n    register_audio_dataset_transform,\n)\nfrom fairseq.data.audio.waveform_transforms.noiseaugment import (\n    NoiseAugmentTransform,\n)\n\n_DEFAULTS = {\n    \"rate\": 0.25,\n    \"mixing_noise_rate\": 0.1,\n    \"noise_path\": \"\",\n    \"noise_snr_min\": -5,\n    \"noise_snr_max\": 5,\n    \"utterance_snr_min\": -5,\n    \"utterance_snr_max\": 5,\n}\n\n\n@register_audio_dataset_transform(\"noisyoverlapaugment\")\nclass NoisyOverlapAugment(AudioDatasetTransform):\n    @classmethod\n    def from_config_dict(cls, config=None):\n        _config = {} if config is None else config\n        return NoisyOverlapAugment(\n            _config.get(\"rate\", _DEFAULTS[\"rate\"]),\n            _config.get(\"mixing_noise_rate\", _DEFAULTS[\"mixing_noise_rate\"]),\n            _config.get(\"noise_path\", _DEFAULTS[\"noise_path\"]),\n            _config.get(\"noise_snr_min\", _DEFAULTS[\"noise_snr_min\"]),\n            _config.get(\"noise_snr_max\", _DEFAULTS[\"noise_snr_max\"]),\n            _config.get(\"utterance_snr_min\", _DEFAULTS[\"utterance_snr_min\"]),\n            _config.get(\"utterance_snr_max\", _DEFAULTS[\"utterance_snr_max\"]),\n        )\n\n    def __init__(\n        self,\n        rate=_DEFAULTS[\"rate\"],\n        mixing_noise_rate=_DEFAULTS[\"mixing_noise_rate\"],\n        noise_path=_DEFAULTS[\"noise_path\"],\n        noise_snr_min=_DEFAULTS[\"noise_snr_min\"],\n        noise_snr_max=_DEFAULTS[\"noise_snr_max\"],\n        utterance_snr_min=_DEFAULTS[\"utterance_snr_min\"],\n        utterance_snr_max=_DEFAULTS[\"utterance_snr_max\"],\n    ):\n        self.rate = rate\n        self.mixing_noise_rate = mixing_noise_rate\n        self.noise_shaper = NoiseAugmentTransform(noise_path)\n        self.noise_snr_min = noise_snr_min\n        self.noise_snr_max = noise_snr_max\n        self.utterance_snr_min = utterance_snr_min\n        self.utterance_snr_max = utterance_snr_max\n\n    def __repr__(self):\n        return (\n            self.__class__.__name__\n            + \"(\"\n            + \", \".join(\n                [\n                    f\"rate={self.rate}\",\n                    f\"mixing_noise_rate={self.mixing_noise_rate}\",\n                    f\"noise_snr_min={self.noise_snr_min}\",\n                    f\"noise_snr_max={self.noise_snr_max}\",\n                    f\"utterance_snr_min={self.utterance_snr_min}\",\n                    f\"utterance_snr_max={self.utterance_snr_max}\",\n                ]\n            )\n            + \")\"\n        )\n\n    def __call__(self, sources):\n        for i, source in enumerate(sources):\n            if np.random.random() > self.rate:\n                continue\n\n            pri = source.numpy()\n\n            if np.random.random() > self.mixing_noise_rate:\n                sec = sources[np.random.randint(0, len(sources))].numpy()\n                snr = rand_uniform(self.utterance_snr_min, self.utterance_snr_max)\n            else:\n                sec = self.noise_shaper.pick_sample(source.shape)\n                snr = rand_uniform(self.noise_snr_min, self.noise_snr_max)\n\n            L1 = pri.shape[-1]\n            L2 = sec.shape[-1]\n            l = np.random.randint(0, min(round(L1 / 2), L2))  # mix len\n            s_source = np.random.randint(0, L1 - l)\n            s_sec = np.random.randint(0, L2 - l)\n\n            get_power = lambda x: np.mean(x**2)\n            if get_power(sec) == 0:\n                continue\n\n            scl = np.sqrt(get_power(pri) / (np.power(10, snr / 10) * get_power(sec)))\n\n            pri[s_source : s_source + l] = np.add(\n                pri[s_source : s_source + l], np.multiply(scl, sec[s_sec : s_sec + l])\n            )\n            sources[i] = torch.from_numpy(pri).float()\n\n        return sources\n"
  },
  {
    "path": "fairseq/data/audio/feature_transforms/__init__.py",
    "content": "import os\nfrom fairseq.data.audio import (\n    AudioTransform,\n    CompositeAudioTransform,\n    import_transforms,\n    register_audio_transform,\n)\n\n\nclass AudioFeatureTransform(AudioTransform):\n    pass\n\n\nAUDIO_FEATURE_TRANSFORM_REGISTRY = {}\nAUDIO_FEATURE_TRANSFORM_CLASS_NAMES = set()\n\n\ndef get_audio_feature_transform(name):\n    return AUDIO_FEATURE_TRANSFORM_REGISTRY[name]\n\n\ndef register_audio_feature_transform(name):\n    return register_audio_transform(\n        name,\n        AudioFeatureTransform,\n        AUDIO_FEATURE_TRANSFORM_REGISTRY,\n        AUDIO_FEATURE_TRANSFORM_CLASS_NAMES,\n    )\n\n\nimport_transforms(os.path.dirname(__file__), \"feature\")\n\n\nclass CompositeAudioFeatureTransform(CompositeAudioTransform):\n    @classmethod\n    def from_config_dict(cls, config=None):\n        return super()._from_config_dict(\n            cls,\n            \"feature\",\n            get_audio_feature_transform,\n            CompositeAudioFeatureTransform,\n            config,\n        )\n"
  },
  {
    "path": "fairseq/data/audio/feature_transforms/delta_deltas.py",
    "content": "import numpy as np\nimport torch\nfrom fairseq.data.audio.feature_transforms import (\n    AudioFeatureTransform,\n    register_audio_feature_transform,\n)\n\n\n@register_audio_feature_transform(\"delta_deltas\")\nclass DeltaDeltas(AudioFeatureTransform):\n    \"\"\"Expand delta-deltas features from spectrum.\"\"\"\n\n    @classmethod\n    def from_config_dict(cls, config=None):\n        _config = {} if config is None else config\n        return DeltaDeltas(_config.get(\"win_length\", 5))\n\n    def __init__(self, win_length=5):\n        self.win_length = win_length\n\n    def __repr__(self):\n        return self.__class__.__name__\n\n    def __call__(self, spectrogram):\n        from torchaudio.functional import compute_deltas\n\n        assert len(spectrogram.shape) == 2, \"spectrogram must be a 2-D tensor.\"\n        # spectrogram is T x F, while compute_deltas takes (…, F, T)\n        spectrogram = torch.from_numpy(spectrogram).transpose(0, 1)\n        delta = compute_deltas(spectrogram)\n        delta_delta = compute_deltas(delta)\n\n        out_feat = np.concatenate(\n            [spectrogram, delta.numpy(), delta_delta.numpy()], axis=0\n        )\n        out_feat = np.transpose(out_feat)\n        return out_feat\n"
  },
  {
    "path": "fairseq/data/audio/feature_transforms/global_cmvn.py",
    "content": "import numpy as np\nfrom fairseq.data.audio.feature_transforms import (\n    AudioFeatureTransform,\n    register_audio_feature_transform,\n)\n\n\n@register_audio_feature_transform(\"global_cmvn\")\nclass GlobalCMVN(AudioFeatureTransform):\n    \"\"\"Global CMVN (cepstral mean and variance normalization). The global mean\n    and variance need to be pre-computed and stored in NumPy format (.npz).\"\"\"\n\n    @classmethod\n    def from_config_dict(cls, config=None):\n        _config = {} if config is None else config\n        return GlobalCMVN(_config.get(\"stats_npz_path\"))\n\n    def __init__(self, stats_npz_path):\n        self.stats_npz_path = stats_npz_path\n        stats = np.load(stats_npz_path)\n        self.mean, self.std = stats[\"mean\"], stats[\"std\"]\n\n    def __repr__(self):\n        return self.__class__.__name__ + f'(stats_npz_path=\"{self.stats_npz_path}\")'\n\n    def __call__(self, x):\n        x = np.subtract(x, self.mean)\n        x = np.divide(x, self.std)\n        return x\n"
  },
  {
    "path": "fairseq/data/audio/feature_transforms/specaugment.py",
    "content": "import math\nimport numbers\nfrom typing import Optional\n\nimport numpy as np\nfrom fairseq.data.audio.feature_transforms import (\n    AudioFeatureTransform,\n    register_audio_feature_transform,\n)\n\n\n@register_audio_feature_transform(\"specaugment\")\nclass SpecAugmentTransform(AudioFeatureTransform):\n    \"\"\"SpecAugment (https://arxiv.org/abs/1904.08779)\"\"\"\n\n    @classmethod\n    def from_config_dict(cls, config=None):\n        _config = {} if config is None else config\n        return SpecAugmentTransform(\n            _config.get(\"time_warp_W\", 0),\n            _config.get(\"freq_mask_N\", 0),\n            _config.get(\"freq_mask_F\", 0),\n            _config.get(\"time_mask_N\", 0),\n            _config.get(\"time_mask_T\", 0),\n            _config.get(\"time_mask_p\", 0.0),\n            _config.get(\"mask_value\", None),\n        )\n\n    def __init__(\n        self,\n        time_warp_w: int = 0,\n        freq_mask_n: int = 0,\n        freq_mask_f: int = 0,\n        time_mask_n: int = 0,\n        time_mask_t: int = 0,\n        time_mask_p: float = 0.0,\n        mask_value: Optional[float] = 0.0,\n    ):\n        # Sanity checks\n        assert mask_value is None or isinstance(\n            mask_value, numbers.Number\n        ), f\"mask_value (type: {type(mask_value)}) must be None or a number\"\n        if freq_mask_n > 0:\n            assert freq_mask_f > 0, (\n                f\"freq_mask_F ({freq_mask_f}) \"\n                f\"must be larger than 0 when doing freq masking.\"\n            )\n        if time_mask_n > 0:\n            assert time_mask_t > 0, (\n                f\"time_mask_T ({time_mask_t}) must be larger than 0 when \"\n                f\"doing time masking.\"\n            )\n\n        self.time_warp_w = time_warp_w\n        self.freq_mask_n = freq_mask_n\n        self.freq_mask_f = freq_mask_f\n        self.time_mask_n = time_mask_n\n        self.time_mask_t = time_mask_t\n        self.time_mask_p = time_mask_p\n        self.mask_value = mask_value\n\n    def __repr__(self):\n        return (\n            self.__class__.__name__\n            + \"(\"\n            + \", \".join(\n                [\n                    f\"time_warp_w={self.time_warp_w}\",\n                    f\"freq_mask_n={self.freq_mask_n}\",\n                    f\"freq_mask_f={self.freq_mask_f}\",\n                    f\"time_mask_n={self.time_mask_n}\",\n                    f\"time_mask_t={self.time_mask_t}\",\n                    f\"time_mask_p={self.time_mask_p}\",\n                ]\n            )\n            + \")\"\n        )\n\n    def __call__(self, spectrogram):\n        assert len(spectrogram.shape) == 2, \"spectrogram must be a 2-D tensor.\"\n\n        distorted = spectrogram.copy()  # make a copy of input spectrogram.\n        num_frames = spectrogram.shape[0]  # or 'tau' in the paper.\n        num_freqs = spectrogram.shape[1]  # or 'miu' in the paper.\n        mask_value = self.mask_value\n\n        if mask_value is None:  # if no value was specified, use local mean.\n            mask_value = spectrogram.mean()\n\n        if num_frames == 0:\n            return spectrogram\n\n        if num_freqs < self.freq_mask_f:\n            return spectrogram\n\n        if self.time_warp_w > 0:\n            if 2 * self.time_warp_w < num_frames:\n                import cv2\n\n                w0 = np.random.randint(self.time_warp_w, num_frames - self.time_warp_w)\n                w = np.random.randint(-self.time_warp_w + 1, self.time_warp_w)\n                upper, lower = distorted[:w0, :], distorted[w0:, :]\n                upper = cv2.resize(\n                    upper, dsize=(num_freqs, w0 + w), interpolation=cv2.INTER_LINEAR\n                )\n                lower = cv2.resize(\n                    lower,\n                    dsize=(num_freqs, num_frames - w0 - w),\n                    interpolation=cv2.INTER_LINEAR,\n                )\n                distorted = np.concatenate((upper, lower), axis=0)\n\n        for _i in range(self.freq_mask_n):\n            f = np.random.randint(0, self.freq_mask_f)\n            f0 = np.random.randint(0, num_freqs - f)\n            if f != 0:\n                distorted[:, f0 : f0 + f] = mask_value\n\n        max_time_mask_t = min(\n            self.time_mask_t, math.floor(num_frames * self.time_mask_p)\n        )\n        if max_time_mask_t < 1:\n            return distorted\n\n        for _i in range(self.time_mask_n):\n            t = np.random.randint(0, max_time_mask_t)\n            t0 = np.random.randint(0, num_frames - t)\n            if t != 0:\n                distorted[t0 : t0 + t, :] = mask_value\n\n        return distorted\n"
  },
  {
    "path": "fairseq/data/audio/feature_transforms/utterance_cmvn.py",
    "content": "import numpy as np\n\nfrom fairseq.data.audio.feature_transforms import (\n    AudioFeatureTransform,\n    register_audio_feature_transform,\n)\n\n\n@register_audio_feature_transform(\"utterance_cmvn\")\nclass UtteranceCMVN(AudioFeatureTransform):\n    \"\"\"Utterance-level CMVN (cepstral mean and variance normalization)\"\"\"\n\n    @classmethod\n    def from_config_dict(cls, config=None):\n        _config = {} if config is None else config\n        return UtteranceCMVN(\n            _config.get(\"norm_means\", True),\n            _config.get(\"norm_vars\", True),\n        )\n\n    def __init__(self, norm_means=True, norm_vars=True):\n        self.norm_means, self.norm_vars = norm_means, norm_vars\n\n    def __repr__(self):\n        return (\n            self.__class__.__name__\n            + f\"(norm_means={self.norm_means}, norm_vars={self.norm_vars})\"\n        )\n\n    def __call__(self, x):\n        mean = x.mean(axis=0)\n        square_sums = (x**2).sum(axis=0)\n\n        if self.norm_means:\n            x = np.subtract(x, mean)\n        if self.norm_vars:\n            var = square_sums / x.shape[0] - mean**2\n            std = np.sqrt(np.maximum(var, 1e-10))\n            x = np.divide(x, std)\n\n        return x\n"
  },
  {
    "path": "fairseq/data/audio/frm_text_to_speech_dataset.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.abs\n\nimport csv\nimport logging\nimport os.path as op\nfrom typing import List, Optional\n\nimport numpy as np\nimport torch\nfrom fairseq.data import Dictionary\nfrom fairseq.data.audio.speech_to_text_dataset import S2TDataConfig\nfrom fairseq.data.audio.text_to_speech_dataset import (\n    TextToSpeechDataset,\n    TextToSpeechDatasetCreator,\n)\n\nlogger = logging.getLogger(__name__)\n\n\nclass FrmTextToSpeechDataset(TextToSpeechDataset):\n    def __init__(\n        self,\n        split: str,\n        is_train_split: bool,\n        data_cfg: S2TDataConfig,\n        audio_paths: List[str],\n        n_frames: List[int],\n        src_texts: Optional[List[str]] = None,\n        tgt_texts: Optional[List[str]] = None,\n        speakers: Optional[List[str]] = None,\n        src_langs: Optional[List[str]] = None,\n        tgt_langs: Optional[List[str]] = None,\n        ids: Optional[List[str]] = None,\n        tgt_dict: Optional[Dictionary] = None,\n        pre_tokenizer=None,\n        bpe_tokenizer=None,\n        n_frames_per_step=1,\n        speaker_to_id=None,\n        do_chunk=False,\n        chunk_bound=-1,\n        chunk_init=50,\n        chunk_incr=5,\n        add_eos=True,\n        dedup=True,\n        ref_fpu=-1,\n    ):\n        # It assumes texts are encoded at a fixed frame-rate\n        super().__init__(\n            split=split,\n            is_train_split=is_train_split,\n            data_cfg=data_cfg,\n            audio_paths=audio_paths,\n            n_frames=n_frames,\n            src_texts=src_texts,\n            tgt_texts=tgt_texts,\n            speakers=speakers,\n            src_langs=src_langs,\n            tgt_langs=tgt_langs,\n            ids=ids,\n            tgt_dict=tgt_dict,\n            pre_tokenizer=pre_tokenizer,\n            bpe_tokenizer=bpe_tokenizer,\n            n_frames_per_step=n_frames_per_step,\n            speaker_to_id=speaker_to_id,\n        )\n\n        self.do_chunk = do_chunk\n        self.chunk_bound = chunk_bound\n        self.chunk_init = chunk_init\n        self.chunk_incr = chunk_incr\n        self.add_eos = add_eos\n        self.dedup = dedup\n        self.ref_fpu = ref_fpu\n\n        self.chunk_size = -1\n\n        if do_chunk:\n            assert self.chunk_incr >= 0\n            assert self.pre_tokenizer is None\n\n    def __getitem__(self, index):\n        index, source, target, speaker_id, _, _, _ = super().__getitem__(index)\n        if target[-1].item() == self.tgt_dict.eos_index:\n            target = target[:-1]\n\n        fpu = source.size(0) / target.size(0)  # frame-per-unit\n        fps = self.n_frames_per_step\n        assert (\n            self.ref_fpu == -1 or abs((fpu * fps - self.ref_fpu) / self.ref_fpu) < 0.1\n        ), f\"{fpu*fps} != {self.ref_fpu}\"\n\n        # only chunk training split\n        if self.is_train_split and self.do_chunk and self.chunk_size > 0:\n            lang = target[: int(self.data_cfg.prepend_tgt_lang_tag)]\n            text = target[int(self.data_cfg.prepend_tgt_lang_tag) :]\n            size = len(text)\n            chunk_size = min(self.chunk_size, size)\n            chunk_start = np.random.randint(size - chunk_size + 1)\n            text = text[chunk_start : chunk_start + chunk_size]\n            target = torch.cat((lang, text), 0)\n\n            f_size = int(np.floor(chunk_size * fpu))\n            f_start = int(np.floor(chunk_start * fpu))\n            assert f_size > 0\n            source = source[f_start : f_start + f_size, :]\n\n        if self.dedup:\n            target = torch.unique_consecutive(target)\n\n        if self.add_eos:\n            eos_idx = self.tgt_dict.eos_index\n            target = torch.cat((target, torch.LongTensor([eos_idx])), 0)\n\n        return index, source, target, speaker_id\n\n    def set_epoch(self, epoch):\n        if self.is_train_split and self.do_chunk:\n            old = self.chunk_size\n            self.chunk_size = self.chunk_init + epoch * self.chunk_incr\n            if self.chunk_bound > 0:\n                self.chunk_size = min(self.chunk_size, self.chunk_bound)\n            logger.info(\n                (\n                    f\"{self.split}: setting chunk size \"\n                    f\"from {old} to {self.chunk_size}\"\n                )\n            )\n\n\nclass FrmTextToSpeechDatasetCreator(TextToSpeechDatasetCreator):\n    # inherit for key names\n    @classmethod\n    def from_tsv(\n        cls,\n        root: str,\n        data_cfg: S2TDataConfig,\n        split: str,\n        tgt_dict,\n        pre_tokenizer,\n        bpe_tokenizer,\n        is_train_split: bool,\n        n_frames_per_step: int,\n        speaker_to_id,\n        do_chunk: bool = False,\n        chunk_bound: int = -1,\n        chunk_init: int = 50,\n        chunk_incr: int = 5,\n        add_eos: bool = True,\n        dedup: bool = True,\n        ref_fpu: float = -1,\n    ) -> FrmTextToSpeechDataset:\n        tsv_path = op.join(root, f\"{split}.tsv\")\n        if not op.isfile(tsv_path):\n            raise FileNotFoundError(f\"Dataset not found: {tsv_path}\")\n        with open(tsv_path) as f:\n            reader = csv.DictReader(\n                f,\n                delimiter=\"\\t\",\n                quotechar=None,\n                doublequote=False,\n                lineterminator=\"\\n\",\n                quoting=csv.QUOTE_NONE,\n            )\n            s = [dict(e) for e in reader]\n            assert len(s) > 0\n\n        ids = [ss[cls.KEY_ID] for ss in s]\n        audio_paths = [op.join(data_cfg.audio_root, ss[cls.KEY_AUDIO]) for ss in s]\n        n_frames = [int(ss[cls.KEY_N_FRAMES]) for ss in s]\n        tgt_texts = [ss[cls.KEY_TGT_TEXT] for ss in s]\n        src_texts = [ss.get(cls.KEY_SRC_TEXT, cls.DEFAULT_SRC_TEXT) for ss in s]\n        speakers = [ss.get(cls.KEY_SPEAKER, cls.DEFAULT_SPEAKER) for ss in s]\n        src_langs = [ss.get(cls.KEY_SRC_LANG, cls.DEFAULT_LANG) for ss in s]\n        tgt_langs = [ss.get(cls.KEY_TGT_LANG, cls.DEFAULT_LANG) for ss in s]\n\n        return FrmTextToSpeechDataset(\n            split=split,\n            is_train_split=is_train_split,\n            data_cfg=data_cfg,\n            audio_paths=audio_paths,\n            n_frames=n_frames,\n            src_texts=src_texts,\n            tgt_texts=tgt_texts,\n            speakers=speakers,\n            src_langs=src_langs,\n            tgt_langs=tgt_langs,\n            ids=ids,\n            tgt_dict=tgt_dict,\n            pre_tokenizer=pre_tokenizer,\n            bpe_tokenizer=bpe_tokenizer,\n            n_frames_per_step=n_frames_per_step,\n            speaker_to_id=speaker_to_id,\n            do_chunk=do_chunk,\n            chunk_bound=chunk_bound,\n            chunk_init=chunk_init,\n            chunk_incr=chunk_incr,\n            add_eos=add_eos,\n            dedup=dedup,\n            ref_fpu=ref_fpu,\n        )\n"
  },
  {
    "path": "fairseq/data/audio/hubert_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport itertools\nimport logging\nimport os\nimport sys\nfrom typing import Any, List, Optional, Union\n\nimport numpy as np\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq.data import data_utils\nfrom fairseq.data.fairseq_dataset import FairseqDataset\nfrom fairseq.data.audio.audio_utils import (\n    parse_path,\n    read_from_stored_zip,\n)\nimport io\n\nlogger = logging.getLogger(__name__)\n\n\ndef load_audio(manifest_path, max_keep, min_keep):\n    n_long, n_short = 0, 0\n    names, inds, sizes = [], [], []\n    with open(manifest_path) as f:\n        root = f.readline().strip()\n        for ind, line in enumerate(f):\n            items = line.strip().split(\"\\t\")\n            assert len(items) == 2, line\n            sz = int(items[1])\n            if min_keep is not None and sz < min_keep:\n                n_short += 1\n            elif max_keep is not None and sz > max_keep:\n                n_long += 1\n            else:\n                names.append(items[0])\n                inds.append(ind)\n                sizes.append(sz)\n    tot = ind + 1\n    logger.info(\n        (\n            f\"max_keep={max_keep}, min_keep={min_keep}, \"\n            f\"loaded {len(names)}, skipped {n_short} short and {n_long} long, \"\n            f\"longest-loaded={max(sizes)}, shortest-loaded={min(sizes)}\"\n        )\n    )\n    return root, names, inds, tot, sizes\n\n\ndef load_label(label_path, inds, tot):\n    with open(label_path) as f:\n        labels = [line.rstrip() for line in f]\n        assert (\n            len(labels) == tot\n        ), f\"number of labels does not match ({len(labels)} != {tot})\"\n        labels = [labels[i] for i in inds]\n    return labels\n\n\ndef load_label_offset(label_path, inds, tot):\n    with open(label_path) as f:\n        code_lengths = [len(line.encode(\"utf-8\")) for line in f]\n        assert (\n            len(code_lengths) == tot\n        ), f\"number of labels does not match ({len(code_lengths)} != {tot})\"\n        offsets = list(itertools.accumulate([0] + code_lengths))\n        offsets = [(offsets[i], offsets[i + 1]) for i in inds]\n    return offsets\n\n\ndef verify_label_lengths(\n    audio_sizes,\n    audio_rate,\n    label_path,\n    label_rate,\n    inds,\n    tot,\n    tol=0.1,  # tolerance in seconds\n):\n    if label_rate < 0:\n        logger.info(f\"{label_path} is sequence label. skipped\")\n        return\n\n    with open(label_path) as f:\n        lengths = [len(line.rstrip().split()) for line in f]\n        assert len(lengths) == tot\n        lengths = [lengths[i] for i in inds]\n    num_invalid = 0\n    for i, ind in enumerate(inds):\n        dur_from_audio = audio_sizes[i] / audio_rate\n        dur_from_label = lengths[i] / label_rate\n        if abs(dur_from_audio - dur_from_label) > tol:\n            logger.warning(\n                (\n                    f\"audio and label duration differ too much \"\n                    f\"(|{dur_from_audio} - {dur_from_label}| > {tol}) \"\n                    f\"in line {ind+1} of {label_path}. Check if `label_rate` \"\n                    f\"is correctly set (currently {label_rate}). \"\n                    f\"num. of samples = {audio_sizes[i]}; \"\n                    f\"label length = {lengths[i]}\"\n                )\n            )\n            num_invalid += 1\n    if num_invalid > 0:\n        logger.warning(\n            f\"total {num_invalid} (audio, label) pairs with mismatched lengths\"\n        )\n\n\nclass HubertDataset(FairseqDataset):\n    def __init__(\n        self,\n        manifest_path: str,\n        sample_rate: float,\n        label_paths: List[str],\n        label_rates: Union[List[float], float],  # -1 for sequence labels\n        pad_list: List[str],\n        eos_list: List[str],\n        label_processors: Optional[List[Any]] = None,\n        max_keep_sample_size: Optional[int] = None,\n        min_keep_sample_size: Optional[int] = None,\n        max_sample_size: Optional[int] = None,\n        shuffle: bool = True,\n        pad_audio: bool = False,\n        normalize: bool = False,\n        store_labels: bool = True,\n        random_crop: bool = False,\n        single_target: bool = False,\n    ):\n        self.audio_root, self.audio_names, inds, tot, self.sizes = load_audio(\n            manifest_path, max_keep_sample_size, min_keep_sample_size\n        )\n        self.sample_rate = sample_rate\n        self.shuffle = shuffle\n        self.random_crop = random_crop\n\n        self.num_labels = len(label_paths)\n        self.pad_list = pad_list\n        self.eos_list = eos_list\n        self.label_processors = label_processors\n        self.single_target = single_target\n        self.label_rates = (\n            [label_rates for _ in range(len(label_paths))]\n            if isinstance(label_rates, float)\n            else label_rates\n        )\n        self.store_labels = store_labels\n        if store_labels:\n            self.label_list = [load_label(p, inds, tot) for p in label_paths]\n        else:\n            self.label_paths = label_paths\n            self.label_offsets_list = [\n                load_label_offset(p, inds, tot) for p in label_paths\n            ]\n        assert label_processors is None or len(label_processors) == self.num_labels\n        for label_path, label_rate in zip(label_paths, self.label_rates):\n            verify_label_lengths(\n                self.sizes, sample_rate, label_path, label_rate, inds, tot\n            )\n\n        self.max_sample_size = (\n            max_sample_size if max_sample_size is not None else sys.maxsize\n        )\n        self.pad_audio = pad_audio\n        self.normalize = normalize\n        logger.info(\n            f\"pad_audio={pad_audio}, random_crop={random_crop}, \"\n            f\"normalize={normalize}, max_sample_size={self.max_sample_size}\"\n        )\n\n    def get_audio(self, index):\n        import soundfile as sf\n\n        wav_path = os.path.join(self.audio_root, self.audio_names[index])\n        _path, slice_ptr = parse_path(wav_path)\n        if len(slice_ptr) == 0:\n            wav, cur_sample_rate = sf.read(_path)\n        else:\n            assert _path.endswith(\".zip\")\n            data = read_from_stored_zip(_path, slice_ptr[0], slice_ptr[1])\n            f = io.BytesIO(data)\n            wav, cur_sample_rate = sf.read(f)\n        wav = torch.from_numpy(wav).float()\n        wav = self.postprocess(wav, cur_sample_rate)\n        return wav\n\n    def get_label(self, index, label_idx):\n        if self.store_labels:\n            label = self.label_list[label_idx][index]\n        else:\n            with open(self.label_paths[label_idx]) as f:\n                offset_s, offset_e = self.label_offsets_list[label_idx][index]\n                f.seek(offset_s)\n                label = f.read(offset_e - offset_s)\n\n        if self.label_processors is not None:\n            label = self.label_processors[label_idx](label)\n        return label\n\n    def get_labels(self, index):\n        return [self.get_label(index, i) for i in range(self.num_labels)]\n\n    def __getitem__(self, index):\n        wav = self.get_audio(index)\n        labels = self.get_labels(index)\n        return {\"id\": index, \"source\": wav, \"label_list\": labels}\n\n    def __len__(self):\n        return len(self.sizes)\n\n    def crop_to_max_size(self, wav, target_size):\n        size = len(wav)\n        diff = size - target_size\n        if diff <= 0:\n            return wav, 0\n\n        start, end = 0, target_size\n        if self.random_crop:\n            start = np.random.randint(0, diff + 1)\n            end = size - diff + start\n        return wav[start:end], start\n\n    def collater(self, samples):\n        # target = max(sizes) -> random_crop not used\n        # target = max_sample_size -> random_crop used for long\n        samples = [s for s in samples if s[\"source\"] is not None]\n        if len(samples) == 0:\n            return {}\n\n        audios = [s[\"source\"] for s in samples]\n        audio_sizes = [len(s) for s in audios]\n        if self.pad_audio:\n            audio_size = min(max(audio_sizes), self.max_sample_size)\n        else:\n            audio_size = min(min(audio_sizes), self.max_sample_size)\n        collated_audios, padding_mask, audio_starts = self.collater_audio(\n            audios, audio_size\n        )\n\n        targets_by_label = [\n            [s[\"label_list\"][i] for s in samples] for i in range(self.num_labels)\n        ]\n        targets_list, lengths_list, ntokens_list = self.collater_label(\n            targets_by_label, audio_size, audio_starts\n        )\n\n        net_input = {\"source\": collated_audios, \"padding_mask\": padding_mask}\n        batch = {\n            \"id\": torch.LongTensor([s[\"id\"] for s in samples]),\n            \"net_input\": net_input,\n        }\n\n        if self.single_target:\n            batch[\"target_lengths\"] = lengths_list[0]\n            batch[\"ntokens\"] = ntokens_list[0]\n            batch[\"target\"] = targets_list[0]\n        else:\n            batch[\"target_lengths_list\"] = lengths_list\n            batch[\"ntokens_list\"] = ntokens_list\n            batch[\"target_list\"] = targets_list\n        return batch\n\n    def collater_audio(self, audios, audio_size):\n        collated_audios = audios[0].new_zeros(len(audios), audio_size)\n        padding_mask = (\n            torch.BoolTensor(collated_audios.shape).fill_(False)\n            # if self.pad_audio else None\n        )\n        audio_starts = [0 for _ in audios]\n        for i, audio in enumerate(audios):\n            diff = len(audio) - audio_size\n            if diff == 0:\n                collated_audios[i] = audio\n            elif diff < 0:\n                assert self.pad_audio\n                collated_audios[i] = torch.cat([audio, audio.new_full((-diff,), 0.0)])\n                padding_mask[i, diff:] = True\n            else:\n                collated_audios[i], audio_starts[i] = self.crop_to_max_size(\n                    audio, audio_size\n                )\n        return collated_audios, padding_mask, audio_starts\n\n    def collater_frm_label(self, targets, audio_size, audio_starts, label_rate, pad):\n        assert label_rate > 0\n        s2f = label_rate / self.sample_rate\n        frm_starts = [int(round(s * s2f)) for s in audio_starts]\n        frm_size = int(round(audio_size * s2f))\n        if not self.pad_audio:\n            rem_size = [len(t) - s for t, s in zip(targets, frm_starts)]\n            frm_size = min(frm_size, *rem_size)\n        targets = [t[s : s + frm_size] for t, s in zip(targets, frm_starts)]\n        logger.debug(f\"audio_starts={audio_starts}\")\n        logger.debug(f\"frame_starts={frm_starts}\")\n        logger.debug(f\"frame_size={frm_size}\")\n\n        lengths = torch.LongTensor([len(t) for t in targets])\n        ntokens = lengths.sum().item()\n        targets = data_utils.collate_tokens(targets, pad_idx=pad, left_pad=False)\n        return targets, lengths, ntokens\n\n    def collater_seq_label(self, targets, pad):\n        lengths = torch.LongTensor([len(t) for t in targets])\n        ntokens = lengths.sum().item()\n        targets = data_utils.collate_tokens(targets, pad_idx=pad, left_pad=False)\n        return targets, lengths, ntokens\n\n    def collater_label(self, targets_by_label, audio_size, audio_starts):\n        targets_list, lengths_list, ntokens_list = [], [], []\n        itr = zip(targets_by_label, self.label_rates, self.pad_list)\n        for targets, label_rate, pad in itr:\n            if label_rate == -1.0:\n                targets, lengths, ntokens = self.collater_seq_label(targets, pad)\n            else:\n                targets, lengths, ntokens = self.collater_frm_label(\n                    targets, audio_size, audio_starts, label_rate, pad\n                )\n            targets_list.append(targets)\n            lengths_list.append(lengths)\n            ntokens_list.append(ntokens)\n        return targets_list, lengths_list, ntokens_list\n\n    def num_tokens(self, index):\n        return self.size(index)\n\n    def size(self, index):\n        if self.pad_audio:\n            return self.sizes[index]\n        return min(self.sizes[index], self.max_sample_size)\n\n    def ordered_indices(self):\n        if self.shuffle:\n            order = [np.random.permutation(len(self))]\n        else:\n            order = [np.arange(len(self))]\n\n        order.append(self.sizes)\n        return np.lexsort(order)[::-1]\n\n    def postprocess(self, wav, cur_sample_rate):\n        if wav.dim() == 2:\n            wav = wav.mean(-1)\n        assert wav.dim() == 1, wav.dim()\n\n        if cur_sample_rate != self.sample_rate:\n            raise Exception(f\"sr {cur_sample_rate} != {self.sample_rate}\")\n\n        if self.normalize:\n            with torch.no_grad():\n                wav = F.layer_norm(wav, wav.shape)\n        return wav\n"
  },
  {
    "path": "fairseq/data/audio/multi_modality_dataset.py",
    "content": "# Copyright (c) 2021-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nimport logging\nimport math\nfrom typing import List, Optional, NamedTuple\n\nimport numpy as np\nimport torch\nfrom fairseq.data import (\n    ConcatDataset,\n    LanguagePairDataset,\n    FileAudioDataset,\n    data_utils,\n)\nfrom fairseq.data import FairseqDataset\n\nlogger = logging.getLogger(__name__)\n\n\nclass ModalityDatasetItem(NamedTuple):\n    datasetname: str\n    dataset: any\n    max_positions: List[int]\n    max_tokens: Optional[int] = None\n    max_sentences: Optional[int] = None\n\n\n# MultiModalityDataset: it concate multiple datasets with different modalities.\n# Compared with ConcatDataset it can 1) sample data given the ratios for different datasets\n# 2) it adds mode to indicate what type of the data samples come from.\n# It will be used with GroupedEpochBatchIterator together to generate mini-batch with samples\n# from the same type of dataset\n# If only one dataset is used, it will perform like the original dataset with mode added\nclass MultiModalityDataset(ConcatDataset):\n    def __init__(self, datasets: List[ModalityDatasetItem]):\n        id_to_mode = []\n        dsets = []\n        max_tokens = []\n        max_sentences = []\n        max_positions = []\n        for dset in datasets:\n            id_to_mode.append(dset.datasetname)\n            dsets.append(dset.dataset)\n            max_tokens.append(dset.max_tokens)\n            max_positions.append(dset.max_positions)\n            max_sentences.append(dset.max_sentences)\n        weights = [1.0 for s in dsets]\n        super().__init__(dsets, weights)\n        self.max_tokens = max_tokens\n        self.max_positions = max_positions\n        self.max_sentences = max_sentences\n        self.id_to_mode = id_to_mode\n        self.raw_sub_batch_samplers = []\n        self._cur_epoch = 0\n\n    def set_epoch(self, epoch):\n        super().set_epoch(epoch)\n        self._cur_epoch = epoch\n\n    def __getitem__(self, idx):\n        dataset_idx, sample_idx = self._get_dataset_and_sample_index(idx)\n        sample = self.datasets[dataset_idx][sample_idx]\n        return (dataset_idx, sample)\n\n    def collater(self, samples):\n        if len(samples) == 0:\n            return {}\n        dataset_idx = samples[0][0]\n        # make sure all samples in samples are from same dataset\n        assert sum([0 if dataset_idx == s[0] else 1 for s in samples]) == 0\n        samples = self.datasets[dataset_idx].collater([x[1] for x in samples])\n        # add mode\n        samples[\"net_input\"][\"mode\"] = self.id_to_mode[dataset_idx]\n\n        return samples\n\n    def size(self, index: int):\n        if len(self.datasets) == 1:\n            return self.datasets[0].size(index)\n        return super().size(index)\n\n    @property\n    def sizes(self):\n        if len(self.datasets) == 1:\n            return self.datasets[0].sizes\n        return super().sizes\n\n    def ordered_indices(self):\n        \"\"\"\n        Returns indices sorted by length. So less padding is needed.\n        \"\"\"\n        if len(self.datasets) == 1:\n            return [self.datasets[0].ordered_indices()]\n        indices_group = []\n        for d_idx, ds in enumerate(self.datasets):\n            sample_num = self.cumulative_sizes[d_idx]\n            if d_idx > 0:\n                sample_num = sample_num - self.cumulative_sizes[d_idx - 1]\n            assert sample_num == len(ds)\n            indices_group.append(ds.ordered_indices())\n        return indices_group\n\n    def get_raw_batch_samplers(self, required_batch_size_multiple, seed):\n        if len(self.raw_sub_batch_samplers) > 0:\n            logger.info(\" raw_sub_batch_samplers exists. No action is taken\")\n            return\n        with data_utils.numpy_seed(seed):\n            indices = self.ordered_indices()\n\n        for i, ds in enumerate(self.datasets):\n            indices[i] = ds.filter_indices_by_size(\n                indices[i],\n                self.max_positions[i],\n            )[0]\n            sub_batch_sampler = ds.batch_by_size(\n                indices[i],\n                max_tokens=self.max_tokens[i],\n                max_sentences=self.max_sentences[i],\n                required_batch_size_multiple=required_batch_size_multiple,\n            )\n            self.raw_sub_batch_samplers.append(sub_batch_sampler)\n\n    def get_batch_samplers(self, mult_ratios, required_batch_size_multiple, seed):\n        self.get_raw_batch_samplers(required_batch_size_multiple, seed)\n        batch_samplers = []\n        for i, _ in enumerate(self.datasets):\n            if i > 0:\n                sub_batch_sampler = [\n                    [y + self.cumulative_sizes[i - 1] for y in x]\n                    for x in self.raw_sub_batch_samplers[i]\n                ]\n            else:\n                sub_batch_sampler = list(self.raw_sub_batch_samplers[i])\n            smp_r = mult_ratios[i]\n            if smp_r != 1:\n                is_increase = \"increased\" if smp_r > 1 else \"decreased\"\n                logger.info(\n                    \"number of batch for the dataset {} is {} from {} to {}\".format(\n                        self.id_to_mode[i],\n                        is_increase,\n                        len(sub_batch_sampler),\n                        int(len(sub_batch_sampler) * smp_r),\n                    )\n                )\n                mul_samplers = []\n                for _ in range(math.floor(smp_r)):\n                    mul_samplers = mul_samplers + sub_batch_sampler\n                if math.floor(smp_r) != smp_r:\n                    with data_utils.numpy_seed(seed + self._cur_epoch):\n                        np.random.shuffle(sub_batch_sampler)\n                        smp_num = int(\n                            (smp_r - math.floor(smp_r)) * len(sub_batch_sampler)\n                        )\n                    mul_samplers = mul_samplers + sub_batch_sampler[:smp_num]\n                sub_batch_sampler = mul_samplers\n            else:\n                logger.info(\n                    \"dataset {} batch number is {} \".format(\n                        self.id_to_mode[i], len(sub_batch_sampler)\n                    )\n                )\n            batch_samplers.append(sub_batch_sampler)\n\n        return batch_samplers\n\n\nclass LangPairMaskDataset(FairseqDataset):\n    def __init__(\n        self,\n        dataset: LanguagePairDataset,\n        src_eos: int,\n        src_bos: Optional[int] = None,\n        noise_id: Optional[int] = -1,\n        mask_ratio: Optional[float] = 0,\n        mask_type: Optional[str] = \"random\",\n    ):\n        self.dataset = dataset\n        self.src_eos = src_eos\n        self.src_bos = src_bos\n        self.noise_id = noise_id\n        self.mask_ratio = mask_ratio\n        self.mask_type = mask_type\n        assert mask_type in (\"random\", \"tail\")\n\n    @property\n    def src_sizes(self):\n        return self.dataset.src_sizes\n\n    @property\n    def tgt_sizes(self):\n        return self.dataset.tgt_sizes\n\n    @property\n    def sizes(self):\n        # dataset.sizes can be a dynamically computed sizes:\n        return self.dataset.sizes\n\n    def get_batch_shapes(self):\n        if hasattr(self.dataset, \"get_batch_shapes\"):\n            return self.dataset.get_batch_shapes()\n        return self.dataset.buckets\n\n    def num_tokens_vec(self, indices):\n        return self.dataset.num_tokens_vec(indices)\n\n    def __len__(self):\n        return len(self.dataset)\n\n    def num_tokens(self, index):\n        return self.dataset.num_tokens(index)\n\n    def size(self, index):\n        return self.dataset.size(index)\n\n    def ordered_indices(self):\n        return self.dataset.ordered_indices()\n\n    @property\n    def supports_prefetch(self):\n        return getattr(self.dataset, \"supports_prefetch\", False)\n\n    def prefetch(self, indices):\n        return self.dataset.prefetch(indices)\n\n    def mask_src_tokens(self, sample):\n        src_item = sample[\"source\"]\n        mask = None\n        if self.mask_type == \"random\":\n            mask = torch.rand(len(src_item)).le(self.mask_ratio)\n        else:\n            mask = torch.ones(len(src_item))\n            mask[: int(len(src_item) * (1 - self.mask_ratio))] = 0\n            mask = mask.eq(1)\n        if src_item[0] == self.src_bos:\n            mask[0] = False\n        if src_item[-1] == self.src_eos:\n            mask[-1] = False\n        mask_src_item = src_item.masked_fill(mask, self.noise_id)\n        smp = {\"id\": sample[\"id\"], \"source\": mask_src_item, \"target\": sample[\"target\"]}\n        return smp\n\n    def __getitem__(self, index):\n        sample = self.dataset[index]\n        if self.mask_ratio > 0:\n            sample = self.mask_src_tokens(sample)\n        return sample\n\n    def collater(self, samples, pad_to_length=None):\n        return self.dataset.collater(samples, pad_to_length)\n\n\nclass FileAudioDatasetWrapper(FileAudioDataset):\n    def collater(self, samples):\n        samples = super().collater(samples)\n        if len(samples) == 0:\n            return {}\n        samples[\"net_input\"][\"src_tokens\"] = samples[\"net_input\"][\"source\"]\n        samples[\"net_input\"][\"prev_output_tokens\"] = None\n        del samples[\"net_input\"][\"source\"]\n        samples[\"net_input\"][\"src_lengths\"] = None\n        samples[\"net_input\"][\"alignment\"] = None\n        return samples\n"
  },
  {
    "path": "fairseq/data/audio/raw_audio_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport logging\nimport os\nimport sys\nimport time\nimport io\n\nimport numpy as np\nimport torch\nimport torch.nn.functional as F\n\nfrom .. import FairseqDataset\nfrom ..data_utils import compute_block_mask_1d, get_buckets, get_bucketed_sizes\nfrom fairseq.data.audio.audio_utils import (\n    parse_path,\n    read_from_stored_zip,\n    is_sf_audio_data,\n)\nfrom fairseq.data.text_compressor import TextCompressor, TextCompressionLevel\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass RawAudioDataset(FairseqDataset):\n    def __init__(\n        self,\n        sample_rate,\n        max_sample_size=None,\n        min_sample_size=0,\n        shuffle=True,\n        pad=False,\n        normalize=False,\n        compute_mask=False,\n        feature_encoder_spec: str = \"None\",\n        mask_prob: float = 0.75,\n        mask_prob_adjust: float = 0,\n        mask_length: int = 1,\n        inverse_mask: bool = False,\n        require_same_masks: bool = True,\n        clone_batch: int = 1,\n        expand_adjacent: bool = False,\n        mask_dropout: float = 0,\n        non_overlapping: bool = False,\n        corpus_key=None,\n    ):\n        super().__init__()\n\n        self.sample_rate = sample_rate\n        self.sizes = []\n        self.max_sample_size = (\n            max_sample_size if max_sample_size is not None else sys.maxsize\n        )\n        self.min_sample_size = min_sample_size\n        self.pad = pad\n        self.shuffle = shuffle\n        self.normalize = normalize\n\n        self.is_compute_mask = compute_mask\n        self.feature_encoder_spec = eval(feature_encoder_spec)\n        self._features_size_map = {}\n        self.mask_prob = mask_prob\n        self.mask_prob_adjust = mask_prob_adjust\n        self.mask_length = mask_length\n        self.inverse_mask = inverse_mask\n        self.require_same_masks = require_same_masks\n        self.clone_batch = clone_batch\n        self.expand_adjacent = expand_adjacent\n        self.mask_dropout = mask_dropout\n        self.non_overlapping = non_overlapping\n        self.corpus_key = corpus_key\n\n    def __getitem__(self, index):\n        raise NotImplementedError()\n\n    def __len__(self):\n        return len(self.sizes)\n\n    def postprocess(self, feats, curr_sample_rate):\n        if feats.dim() == 2:\n            feats = feats.mean(-1)\n\n        if curr_sample_rate != self.sample_rate:\n            raise Exception(f\"sample rate: {curr_sample_rate}, need {self.sample_rate}\")\n\n        assert feats.dim() == 1, feats.dim()\n\n        if self.normalize:\n            with torch.no_grad():\n                feats = F.layer_norm(feats, feats.shape)\n        return feats\n\n    def crop_to_max_size(self, t, target_size, dim=0):\n        size = t.size(dim)\n        diff = size - target_size\n        if diff <= 0:\n            return t\n\n        start = np.random.randint(0, diff + 1)\n        end = size - diff + start\n\n        slices = []\n        for d in range(dim):\n            slices.append(slice(None))\n        slices.append(slice(start, end))\n\n        return t[slices]\n\n    @staticmethod\n    def _bucket_tensor(tensor, num_pad, value):\n        return F.pad(tensor, (0, num_pad), value=value)\n\n    def collater(self, samples):\n        samples = [s for s in samples if s[\"source\"] is not None]\n        if len(samples) == 0:\n            return {}\n\n        sources = [s[\"source\"] for s in samples]\n        sizes = [len(s) for s in sources]\n\n        if self.pad:\n            target_size = min(max(sizes), self.max_sample_size)\n        else:\n            target_size = min(min(sizes), self.max_sample_size)\n\n        collated_sources = sources[0].new_zeros(len(sources), target_size)\n        padding_mask = (\n            torch.BoolTensor(collated_sources.shape).fill_(False) if self.pad else None\n        )\n        for i, (source, size) in enumerate(zip(sources, sizes)):\n            diff = size - target_size\n            if diff == 0:\n                collated_sources[i] = source\n            elif diff < 0:\n                assert self.pad\n                collated_sources[i] = torch.cat(\n                    [source, source.new_full((-diff,), 0.0)]\n                )\n                padding_mask[i, diff:] = True\n            else:\n                collated_sources[i] = self.crop_to_max_size(source, target_size)\n\n        input = {\"source\": collated_sources}\n        if self.corpus_key is not None:\n            input[\"corpus_key\"] = [self.corpus_key] * len(sources)\n        out = {\"id\": torch.LongTensor([s[\"id\"] for s in samples])}\n        if self.pad:\n            input[\"padding_mask\"] = padding_mask\n\n        if hasattr(self, \"num_buckets\") and self.num_buckets > 0:\n            assert self.pad, \"Cannot bucket without padding first.\"\n            bucket = max(self._bucketed_sizes[s[\"id\"]] for s in samples)\n            num_pad = bucket - collated_sources.size(-1)\n            if num_pad:\n                input[\"source\"] = self._bucket_tensor(collated_sources, num_pad, 0)\n                input[\"padding_mask\"] = self._bucket_tensor(padding_mask, num_pad, True)\n\n        if \"precomputed_mask\" in samples[0]:\n            target_size = self._get_mask_indices_dims(target_size)\n            collated_mask = torch.cat(\n                [\n                    self.crop_to_max_size(s[\"precomputed_mask\"], target_size, dim=1)\n                    for s in samples\n                ],\n                dim=0,\n            )\n            input[\"precomputed_mask\"] = collated_mask\n\n        out[\"net_input\"] = input\n        return out\n\n    def _get_mask_indices_dims(self, size, padding=0, dilation=1):\n        if size not in self.feature_encoder_spec:\n            L_in = size\n            for (_, kernel_size, stride) in self.feature_encoder_spec:\n                L_out = L_in + 2 * padding - dilation * (kernel_size - 1) - 1\n                L_out = 1 + L_out // stride\n                L_in = L_out\n            self._features_size_map[size] = L_out\n        return self._features_size_map[size]\n\n    def num_tokens(self, index):\n        return self.size(index)\n\n    def size(self, index):\n        \"\"\"Return an example's size as a float or tuple. This value is used when\n        filtering a dataset with ``--max-positions``.\"\"\"\n        if self.pad:\n            return self.sizes[index]\n        return min(self.sizes[index], self.max_sample_size)\n\n    def ordered_indices(self):\n        \"\"\"Return an ordered list of indices. Batches will be constructed based\n        on this order.\"\"\"\n\n        if self.shuffle:\n            order = [np.random.permutation(len(self))]\n            order.append(\n                np.minimum(\n                    np.array(self.sizes),\n                    self.max_sample_size,\n                )\n            )\n            return np.lexsort(order)[::-1]\n        else:\n            return np.arange(len(self))\n\n    def set_bucket_info(self, num_buckets):\n        self.num_buckets = num_buckets\n        if self.num_buckets > 0:\n            self._collated_sizes = np.minimum(\n                np.array(self.sizes),\n                self.max_sample_size,\n            )\n            self.buckets = get_buckets(\n                self._collated_sizes,\n                self.num_buckets,\n            )\n            self._bucketed_sizes = get_bucketed_sizes(\n                self._collated_sizes, self.buckets\n            )\n            logger.info(\n                f\"{len(self.buckets)} bucket(s) for the audio dataset: \"\n                f\"{self.buckets}\"\n            )\n\n    def filter_indices_by_size(self, indices, max_sizes):\n        return indices, []\n\n\nclass FileAudioDataset(RawAudioDataset):\n    def __init__(\n        self,\n        manifest_path,\n        sample_rate,\n        max_sample_size=None,\n        min_sample_size=0,\n        shuffle=True,\n        pad=False,\n        normalize=False,\n        num_buckets=0,\n        compute_mask=False,\n        text_compression_level=TextCompressionLevel.none,\n        **mask_compute_kwargs,\n    ):\n        super().__init__(\n            sample_rate=sample_rate,\n            max_sample_size=max_sample_size,\n            min_sample_size=min_sample_size,\n            shuffle=shuffle,\n            pad=pad,\n            normalize=normalize,\n            compute_mask=compute_mask,\n            **mask_compute_kwargs,\n        )\n\n        self.text_compressor = TextCompressor(level=text_compression_level)\n\n        skipped = 0\n        self.fnames = []\n        sizes = []\n        self.skipped_indices = set()\n\n        with open(manifest_path, \"r\") as f:\n            self.root_dir = f.readline().strip()\n            for i, line in enumerate(f):\n                items = line.strip().split(\"\\t\")\n                assert len(items) == 2, line\n                sz = int(items[1])\n                if min_sample_size is not None and sz < min_sample_size:\n                    skipped += 1\n                    self.skipped_indices.add(i)\n                    continue\n                self.fnames.append(self.text_compressor.compress(items[0]))\n                sizes.append(sz)\n        logger.info(f\"loaded {len(self.fnames)}, skipped {skipped} samples\")\n\n        self.sizes = np.array(sizes, dtype=np.int64)\n\n        try:\n            import pyarrow\n\n            self.fnames = pyarrow.array(self.fnames)\n        except:\n            logger.debug(\n                \"Could not create a pyarrow array. Please install pyarrow for better performance\"\n            )\n            pass\n\n        self.set_bucket_info(num_buckets)\n\n    def __getitem__(self, index):\n        import soundfile as sf\n\n        fn = self.fnames[index]\n        fn = fn if isinstance(self.fnames, list) else fn.as_py()\n        fn = self.text_compressor.decompress(fn)\n        path_or_fp = os.path.join(self.root_dir, fn)\n        _path, slice_ptr = parse_path(path_or_fp)\n        if len(slice_ptr) == 2:\n            byte_data = read_from_stored_zip(_path, slice_ptr[0], slice_ptr[1])\n            assert is_sf_audio_data(byte_data)\n            path_or_fp = io.BytesIO(byte_data)\n\n        retry = 3\n        wav = None\n        for i in range(retry):\n            try:\n                wav, curr_sample_rate = sf.read(path_or_fp, dtype=\"float32\")\n                break\n            except Exception as e:\n                logger.warning(\n                    f\"Failed to read {path_or_fp}: {e}. Sleeping for {1 * i}\"\n                )\n                time.sleep(1 * i)\n\n        if wav is None:\n            raise Exception(f\"Failed to load {path_or_fp}\")\n\n        feats = torch.from_numpy(wav).float()\n        feats = self.postprocess(feats, curr_sample_rate)\n\n        v = {\"id\": index, \"source\": feats}\n\n        if self.is_compute_mask:\n            T = self._get_mask_indices_dims(feats.size(-1))\n            mask = compute_block_mask_1d(\n                shape=(self.clone_batch, T),\n                mask_prob=self.mask_prob,\n                mask_length=self.mask_length,\n                mask_prob_adjust=self.mask_prob_adjust,\n                inverse_mask=self.inverse_mask,\n                require_same_masks=True,\n                expand_adjcent=self.expand_adjacent,\n                mask_dropout=self.mask_dropout,\n                non_overlapping=self.non_overlapping,\n            )\n\n            v[\"precomputed_mask\"] = mask\n\n        return v\n\n\nclass BinarizedAudioDataset(RawAudioDataset):\n    def __init__(\n        self,\n        data_dir,\n        split,\n        sample_rate,\n        max_sample_size=None,\n        min_sample_size=0,\n        shuffle=True,\n        pad=False,\n        normalize=False,\n        num_buckets=0,\n        compute_mask=False,\n        **mask_compute_kwargs,\n    ):\n        super().__init__(\n            sample_rate=sample_rate,\n            max_sample_size=max_sample_size,\n            min_sample_size=min_sample_size,\n            shuffle=shuffle,\n            pad=pad,\n            normalize=normalize,\n            compute_mask=compute_mask,\n            **mask_compute_kwargs,\n        )\n\n        from fairseq.data import data_utils, Dictionary\n\n        self.fnames_dict = Dictionary.load(os.path.join(data_dir, \"dict.txt\"))\n\n        root_path = os.path.join(data_dir, f\"{split}.root\")\n        if os.path.exists(root_path):\n            with open(root_path, \"r\") as f:\n                self.root_dir = next(f).strip()\n        else:\n            self.root_dir = None\n\n        fnames_path = os.path.join(data_dir, split)\n        self.fnames = data_utils.load_indexed_dataset(fnames_path, self.fnames_dict)\n        lengths_path = os.path.join(data_dir, f\"{split}.lengths\")\n\n        with open(lengths_path, \"r\") as f:\n            for line in f:\n                sz = int(line.rstrip())\n                assert (\n                    sz >= min_sample_size\n                ), f\"Min sample size is not supported for binarized dataset, but found a sample with size {sz}\"\n                self.sizes.append(sz)\n\n        self.sizes = np.array(self.sizes, dtype=np.int64)\n\n        self.set_bucket_info(num_buckets)\n        logger.info(f\"loaded {len(self.fnames)} samples\")\n\n    def __getitem__(self, index):\n        import soundfile as sf\n\n        fname = self.fnames_dict.string(self.fnames[index], separator=\"\")\n        if self.root_dir:\n            fname = os.path.join(self.root_dir, fname)\n\n        wav, curr_sample_rate = sf.read(fname)\n        feats = torch.from_numpy(wav).float()\n        feats = self.postprocess(feats, curr_sample_rate)\n        v = {\"id\": index, \"source\": feats}\n\n        if self.is_compute_mask:\n            T = self._get_mask_indices_dims(feats.size(-1))\n            mask = compute_block_mask_1d(\n                shape=(self.clone_batch, T),\n                mask_prob=self.mask_prob,\n                mask_length=self.mask_length,\n                mask_prob_adjust=self.mask_prob_adjust,\n                inverse_mask=self.inverse_mask,\n                require_same_masks=True,\n                expand_adjcent=self.expand_adjacent,\n                mask_dropout=self.mask_dropout,\n                non_overlapping=self.non_overlapping,\n            )\n\n            v[\"precomputed_mask\"] = mask\n\n        return v\n"
  },
  {
    "path": "fairseq/data/audio/speech_to_speech_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom dataclasses import dataclass\nfrom pathlib import Path\nfrom typing import Dict, List, Optional, Tuple\n\nimport torch\n\nfrom fairseq.data import ConcatDataset, Dictionary\nfrom fairseq.data import data_utils as fairseq_data_utils\nfrom fairseq.data.audio.audio_utils import get_features_or_waveform\nfrom fairseq.data.audio.data_cfg import S2SDataConfig\nfrom fairseq.data.audio.speech_to_text_dataset import (\n    SpeechToTextDataset,\n    SpeechToTextDatasetCreator,\n    TextTargetMultitaskData,\n    _collate_frames,\n)\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass SpeechToSpeechDatasetItem(object):\n    index: int\n    source: torch.Tensor\n    target: Optional[torch.Tensor] = None\n    target_speaker: Optional[torch.Tensor] = None\n    tgt_lang_tag: Optional[int] = None\n\n\nclass SpeechToSpeechDataset(SpeechToTextDataset):\n    def __init__(\n        self,\n        split: str,\n        is_train_split: bool,\n        data_cfg: S2SDataConfig,\n        src_audio_paths: List[str],\n        src_n_frames: List[int],\n        tgt_audio_paths: List[str],\n        tgt_n_frames: List[int],\n        src_langs: Optional[List[str]] = None,\n        tgt_langs: Optional[List[str]] = None,\n        ids: Optional[List[str]] = None,\n        target_is_code: bool = False,\n        tgt_dict: Dictionary = None,\n        n_frames_per_step: int = 1,\n    ):\n        tgt_texts = tgt_audio_paths if target_is_code else None\n        super().__init__(\n            split=split,\n            is_train_split=is_train_split,\n            cfg=data_cfg,\n            audio_paths=src_audio_paths,\n            n_frames=src_n_frames,\n            ids=ids,\n            tgt_dict=tgt_dict,\n            tgt_texts=tgt_texts,\n            src_langs=src_langs,\n            tgt_langs=tgt_langs,\n            n_frames_per_step=n_frames_per_step,\n        )\n\n        self.tgt_audio_paths = tgt_audio_paths\n        self.tgt_lens = [t // self.n_frames_per_step for t in tgt_n_frames]\n\n        assert not target_is_code or tgt_dict is not None\n        self.target_is_code = target_is_code\n\n        assert len(tgt_audio_paths) == self.n_samples\n        assert len(tgt_n_frames) == self.n_samples\n\n        self.tgt_speakers = None\n        if self.cfg.target_speaker_embed:\n            samples = SpeechToTextDatasetCreator._load_samples_from_tsv(\n                self.cfg.target_speaker_embed, split\n            )\n            spk_emb_dict = {s[\"id\"]: s[\"speaker_embed\"] for s in samples}\n            self.tgt_speakers = [spk_emb_dict[id] for id in self.ids]\n            assert len(self.tgt_speakers) == self.n_samples\n\n        logger.info(self.__repr__())\n\n    def pack_units(self, input: torch.Tensor) -> torch.Tensor:\n        if self.n_frames_per_step <= 1:\n            return input\n\n        offset = 4\n        vocab_size = (\n            len(self.tgt_dict) - offset\n        )  # remove offset from <bos>, <pad>, <eos>, <unk>, which is specific to fairseq dictionary\n\n        assert input.dim() == 1\n        stacked_input = (\n            input[:-1].view(-1, self.n_frames_per_step) - offset\n        )  # remove <eos>\n        scale = [\n            pow(vocab_size, self.n_frames_per_step - 1 - i)\n            for i in range(self.n_frames_per_step)\n        ]\n        scale = torch.LongTensor(scale).squeeze(0)\n        res = input.new((len(input) - 1) // self.n_frames_per_step + 1).fill_(input[-1])\n        res[:-1] = (stacked_input * scale).sum(dim=1) + offset\n\n        return res\n\n    def __getitem__(self, index: int) -> SpeechToSpeechDatasetItem:\n        source = self._get_source_audio(index)\n\n        tgt_lang_tag = None\n        if self.cfg.prepend_tgt_lang_tag_as_bos:\n            # prepend_tgt_lang_tag_as_bos: put tgt_lang_tag as bos of target\n            tgt_lang_tag = self.get_lang_tag_idx(self.tgt_langs[index], self.tgt_dict)\n\n        if not self.target_is_code:\n            target = get_features_or_waveform(self.tgt_audio_paths[index])\n            target = torch.from_numpy(target).float()\n            target = self.pack_frames(target)\n        else:\n            target = self.tgt_dict.encode_line(\n                self.tgt_audio_paths[index],\n                add_if_not_exist=False,\n                append_eos=True,\n            ).long()\n            if self.n_frames_per_step > 1:\n                n_tgt_frame = target.size(0) - 1  # exclude <eos>\n                keep_n_tgt_frame = n_tgt_frame - n_tgt_frame % self.n_frames_per_step\n                target = torch.cat(\n                    (\n                        target[:keep_n_tgt_frame],\n                        target.new_full((1,), self.tgt_dict.eos()),\n                    ),\n                    dim=0,\n                )\n\n        if self.tgt_speakers:\n            tgt_spk = get_features_or_waveform(self.tgt_speakers[index])\n            tgt_spk = torch.from_numpy(tgt_spk).float()\n        else:\n            tgt_spk = torch.FloatTensor([])\n\n        return SpeechToSpeechDatasetItem(\n            index=index,\n            source=source,\n            target=target,\n            target_speaker=tgt_spk,\n            tgt_lang_tag=tgt_lang_tag,\n        )\n\n    def _collate_target(self, samples: List[SpeechToSpeechDatasetItem]) -> torch.Tensor:\n        if self.target_is_code:\n            target = fairseq_data_utils.collate_tokens(\n                [x.target for x in samples],\n                self.tgt_dict.pad(),\n                self.tgt_dict.eos(),\n                left_pad=False,\n                move_eos_to_beginning=False,\n            )\n            # convert stacked units to a single id\n            pack_targets = [self.pack_units(x.target) for x in samples]\n            prev_output_tokens = fairseq_data_utils.collate_tokens(\n                pack_targets,\n                self.tgt_dict.pad(),\n                self.tgt_dict.eos(),\n                left_pad=False,\n                move_eos_to_beginning=True,\n            )\n            target_lengths = torch.tensor(\n                [x.size(0) for x in pack_targets], dtype=torch.long\n            )\n        else:\n            target = _collate_frames([x.target for x in samples], is_audio_input=False)\n            bsz, _, d = target.size()\n            prev_output_tokens = torch.cat(\n                (target.new_full((bsz, 1, d), 0.0), target[:, :-1, :]), dim=1\n            )\n            target_lengths = torch.tensor(\n                [x.target.size(0) for x in samples], dtype=torch.long\n            )\n\n        return target, prev_output_tokens, target_lengths\n\n    def collater(\n        self, samples: List[SpeechToSpeechDatasetItem], return_order: bool = False\n    ) -> Dict:\n        if len(samples) == 0:\n            return {}\n        indices = torch.tensor([x.index for x in samples], dtype=torch.long)\n        frames = _collate_frames([x.source for x in samples], self.cfg.use_audio_input)\n        # sort samples by descending number of frames\n        n_frames = torch.tensor([x.source.size(0) for x in samples], dtype=torch.long)\n        n_frames, order = n_frames.sort(descending=True)\n        indices = indices.index_select(0, order)\n        frames = frames.index_select(0, order)\n\n        target, prev_output_tokens, target_lengths = self._collate_target(samples)\n        target = target.index_select(0, order)\n        target_lengths = target_lengths.index_select(0, order)\n        prev_output_tokens = prev_output_tokens.index_select(0, order)\n        ntokens = sum(x.target.size(0) for x in samples)\n\n        tgt_speakers = None\n        if self.cfg.target_speaker_embed:\n            tgt_speakers = _collate_frames(\n                [x.target_speaker for x in samples], is_audio_input=True\n            ).index_select(0, order)\n\n        net_input = {\n            \"src_tokens\": frames,\n            \"src_lengths\": n_frames,\n            \"prev_output_tokens\": prev_output_tokens,\n            \"tgt_speaker\": tgt_speakers,  # TODO: unify \"speaker\" and \"tgt_speaker\"\n        }\n        if self.tgt_texts is not None and samples[0].tgt_lang_tag is not None:\n            for i in range(len(samples)):\n                net_input[\"prev_output_tokens\"][i][0] = samples[order[i]].tgt_lang_tag\n        out = {\n            \"id\": indices,\n            \"net_input\": net_input,\n            \"speaker\": tgt_speakers,  # to support Tacotron2 loss for speech-to-spectrogram model\n            \"target\": target,\n            \"target_lengths\": target_lengths,\n            \"ntokens\": ntokens,\n            \"nsentences\": len(samples),\n        }\n        if return_order:\n            out[\"order\"] = order\n        return out\n\n\nclass SpeechToSpeechMultitaskDataset(SpeechToSpeechDataset):\n    def __init__(self, **kwargs):\n        super().__init__(**kwargs)\n        self.multitask_data = {}\n\n    def add_multitask_dataset(self, task_name, task_data):\n        self.multitask_data[task_name] = task_data\n\n    def __getitem__(\n        self, index: int\n    ) -> Tuple[SpeechToSpeechDatasetItem, Dict[str, torch.Tensor]]:\n        s2s_data = super().__getitem__(index)\n\n        multitask_target = {}\n        sample_id = self.ids[index]\n        tgt_lang = self.tgt_langs[index]\n        for task_name, task_dataset in self.multitask_data.items():\n            multitask_target[task_name] = task_dataset.get(sample_id, tgt_lang)\n\n        return s2s_data, multitask_target\n\n    def collater(\n        self, samples: List[Tuple[SpeechToSpeechDatasetItem, Dict[str, torch.Tensor]]]\n    ) -> Dict:\n        if len(samples) == 0:\n            return {}\n\n        out = super().collater([s for s, _ in samples], return_order=True)\n        order = out[\"order\"]\n        del out[\"order\"]\n\n        for task_name, task_dataset in self.multitask_data.items():\n            if \"multitask\" not in out:\n                out[\"multitask\"] = {}\n            d = [s[task_name] for _, s in samples]\n            task_target = task_dataset.collater(d)\n            out[\"multitask\"][task_name] = {\n                \"target\": task_target[\"target\"].index_select(0, order),\n                \"target_lengths\": task_target[\"target_lengths\"].index_select(0, order),\n                \"ntokens\": task_target[\"ntokens\"],\n            }\n            out[\"multitask\"][task_name][\"net_input\"] = {\n                \"prev_output_tokens\": task_target[\"prev_output_tokens\"].index_select(\n                    0, order\n                ),\n            }\n\n        return out\n\n\nclass SpeechToSpeechDatasetCreator(object):\n    # mandatory columns\n    KEY_ID, KEY_SRC_AUDIO, KEY_SRC_N_FRAMES = \"id\", \"src_audio\", \"src_n_frames\"\n    KEY_TGT_AUDIO, KEY_TGT_N_FRAMES = \"tgt_audio\", \"tgt_n_frames\"\n    # optional columns\n    KEY_SRC_LANG, KEY_TGT_LANG = \"src_lang\", \"tgt_lang\"\n    # default values\n    DEFAULT_LANG = \"\"\n\n    @classmethod\n    def _from_list(\n        cls,\n        split_name: str,\n        is_train_split,\n        samples: List[Dict],\n        data_cfg: S2SDataConfig,\n        target_is_code: bool = False,\n        tgt_dict: Dictionary = None,\n        n_frames_per_step: int = 1,\n        multitask: Optional[Dict] = None,\n    ) -> SpeechToSpeechDataset:\n        audio_root = Path(data_cfg.audio_root)\n        ids = [s[cls.KEY_ID] for s in samples]\n        src_audio_paths = [\n            (audio_root / s[cls.KEY_SRC_AUDIO]).as_posix() for s in samples\n        ]\n        tgt_audio_paths = [\n            s[cls.KEY_TGT_AUDIO]\n            if target_is_code\n            else (audio_root / s[cls.KEY_TGT_AUDIO]).as_posix()\n            for s in samples\n        ]\n        src_n_frames = [int(s[cls.KEY_SRC_N_FRAMES]) for s in samples]\n        tgt_n_frames = [int(s[cls.KEY_TGT_N_FRAMES]) for s in samples]\n        src_langs = [s.get(cls.KEY_SRC_LANG, cls.DEFAULT_LANG) for s in samples]\n        tgt_langs = [s.get(cls.KEY_TGT_LANG, cls.DEFAULT_LANG) for s in samples]\n\n        has_multitask = multitask is not None and len(multitask.keys()) > 0\n        dataset_cls = (\n            SpeechToSpeechMultitaskDataset if has_multitask else SpeechToSpeechDataset\n        )\n\n        ds = dataset_cls(\n            split=split_name,\n            is_train_split=is_train_split,\n            data_cfg=data_cfg,\n            src_audio_paths=src_audio_paths,\n            src_n_frames=src_n_frames,\n            tgt_audio_paths=tgt_audio_paths,\n            tgt_n_frames=tgt_n_frames,\n            src_langs=src_langs,\n            tgt_langs=tgt_langs,\n            ids=ids,\n            target_is_code=target_is_code,\n            tgt_dict=tgt_dict,\n            n_frames_per_step=n_frames_per_step,\n        )\n\n        if has_multitask:\n            for task_name, task_obj in multitask.items():\n                task_data = TextTargetMultitaskData(\n                    task_obj.args, split_name, task_obj.target_dictionary\n                )\n                ds.add_multitask_dataset(task_name, task_data)\n        return ds\n\n    @classmethod\n    def from_tsv(\n        cls,\n        root: str,\n        data_cfg: S2SDataConfig,\n        splits: str,\n        is_train_split: bool,\n        epoch: int,\n        seed: int,\n        target_is_code: bool = False,\n        tgt_dict: Dictionary = None,\n        n_frames_per_step: int = 1,\n        multitask: Optional[Dict] = None,\n    ) -> SpeechToSpeechDataset:\n        datasets = []\n        for split in splits.split(\",\"):\n            samples = SpeechToTextDatasetCreator._load_samples_from_tsv(root, split)\n            ds = cls._from_list(\n                split_name=split,\n                is_train_split=is_train_split,\n                samples=samples,\n                data_cfg=data_cfg,\n                target_is_code=target_is_code,\n                tgt_dict=tgt_dict,\n                n_frames_per_step=n_frames_per_step,\n                multitask=multitask,\n            )\n            datasets.append(ds)\n        return ConcatDataset(datasets) if len(datasets) > 1 else datasets[0]\n"
  },
  {
    "path": "fairseq/data/audio/speech_to_text_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport csv\nimport logging\nimport re\nfrom argparse import Namespace\nfrom collections import defaultdict\nfrom dataclasses import dataclass\nfrom pathlib import Path\nfrom typing import Dict, List, Optional, Tuple, Union\n\nimport numpy as np\nimport torch\nimport torch.nn.functional as F\n\nfrom fairseq.data import ConcatDataset, Dictionary, FairseqDataset, ResamplingDataset\nfrom fairseq.data import data_utils as fairseq_data_utils\nfrom fairseq.data import encoders\nfrom fairseq.data.audio.audio_utils import get_features_or_waveform\nfrom fairseq.data.audio.data_cfg import S2TDataConfig\nfrom fairseq.data.audio.dataset_transforms import CompositeAudioDatasetTransform\nfrom fairseq.data.audio.dataset_transforms.concataugment import ConcatAugment\nfrom fairseq.data.audio.dataset_transforms.noisyoverlapaugment import (\n    NoisyOverlapAugment,\n)\nfrom fairseq.data.audio.feature_transforms import CompositeAudioFeatureTransform\nfrom fairseq.data.audio.waveform_transforms import CompositeAudioWaveformTransform\n\nlogger = logging.getLogger(__name__)\n\n\ndef _collate_frames(\n    frames: List[torch.Tensor], is_audio_input: bool = False\n) -> torch.Tensor:\n    \"\"\"\n    Convert a list of 2D frames into a padded 3D tensor\n    Args:\n        frames (list): list of 2D frames of size L[i]*f_dim. Where L[i] is\n            length of i-th frame and f_dim is static dimension of features\n    Returns:\n        3D tensor of size len(frames)*len_max*f_dim where len_max is max of L[i]\n    \"\"\"\n    max_len = max(frame.size(0) for frame in frames)\n    if is_audio_input:\n        out = frames[0].new_zeros((len(frames), max_len))\n    else:\n        out = frames[0].new_zeros((len(frames), max_len, frames[0].size(1)))\n    for i, v in enumerate(frames):\n        out[i, : v.size(0)] = v\n    return out\n\n\ndef _is_int_or_np_int(n):\n    return isinstance(n, int) or (\n        isinstance(n, np.generic) and isinstance(n.item(), int)\n    )\n\n\n@dataclass\nclass SpeechToTextDatasetItem(object):\n    index: int\n    source: torch.Tensor\n    target: Optional[torch.Tensor] = None\n    speaker_id: Optional[int] = None\n\n\nclass SpeechToTextDataset(FairseqDataset):\n    LANG_TAG_TEMPLATE = \"<lang:{}>\"\n\n    def __init__(\n        self,\n        split: str,\n        is_train_split: bool,\n        cfg: S2TDataConfig,\n        audio_paths: List[str],\n        n_frames: List[int],\n        src_texts: Optional[List[str]] = None,\n        tgt_texts: Optional[List[str]] = None,\n        speakers: Optional[List[str]] = None,\n        src_langs: Optional[List[str]] = None,\n        tgt_langs: Optional[List[str]] = None,\n        ids: Optional[List[str]] = None,\n        tgt_dict: Optional[Dictionary] = None,\n        pre_tokenizer=None,\n        bpe_tokenizer=None,\n        n_frames_per_step=1,\n        speaker_to_id=None,\n        append_eos=True,\n    ):\n        self.split, self.is_train_split = split, is_train_split\n        self.cfg = cfg\n        self.audio_paths, self.n_frames = audio_paths, n_frames\n        self.n_samples = len(audio_paths)\n        assert len(n_frames) == self.n_samples > 0\n        assert src_texts is None or len(src_texts) == self.n_samples\n        assert tgt_texts is None or len(tgt_texts) == self.n_samples\n        assert speakers is None or len(speakers) == self.n_samples\n        assert src_langs is None or len(src_langs) == self.n_samples\n        assert tgt_langs is None or len(tgt_langs) == self.n_samples\n        assert ids is None or len(ids) == self.n_samples\n        assert (tgt_dict is None and tgt_texts is None) or (\n            tgt_dict is not None and tgt_texts is not None\n        )\n        self.src_texts, self.tgt_texts = src_texts, tgt_texts\n        self.src_langs, self.tgt_langs = src_langs, tgt_langs\n        self.speakers = speakers\n        self.tgt_dict = tgt_dict\n        self.check_tgt_lang_tag()\n        self.ids = ids\n        self.shuffle = cfg.shuffle if is_train_split else False\n\n        self.feature_transforms = CompositeAudioFeatureTransform.from_config_dict(\n            self.cfg.get_feature_transforms(split, is_train_split)\n        )\n        self.waveform_transforms = CompositeAudioWaveformTransform.from_config_dict(\n            self.cfg.get_waveform_transforms(split, is_train_split)\n        )\n        # TODO: add these to data_cfg.py\n        self.dataset_transforms = CompositeAudioDatasetTransform.from_config_dict(\n            self.cfg.get_dataset_transforms(split, is_train_split)\n        )\n\n        # check proper usage of transforms\n        if self.feature_transforms and self.cfg.use_audio_input:\n            logger.warning(\n                \"Feature transforms will not be applied. To use feature transforms, \"\n                \"set use_audio_input as False in config.\"\n            )\n\n        self.pre_tokenizer = pre_tokenizer\n        self.bpe_tokenizer = bpe_tokenizer\n        self.n_frames_per_step = n_frames_per_step\n        self.speaker_to_id = speaker_to_id\n\n        self.tgt_lens = self.get_tgt_lens_and_check_oov()\n        self.append_eos = append_eos\n\n        logger.info(self.__repr__())\n\n    def get_tgt_lens_and_check_oov(self):\n        if self.tgt_texts is None:\n            return [0 for _ in range(self.n_samples)]\n        tgt_lens = []\n        n_tokens, n_oov_tokens = 0, 0\n        for i in range(self.n_samples):\n            tokenized = self.get_tokenized_tgt_text(i).split(\" \")\n            oov_tokens = [\n                t\n                for t in tokenized\n                if self.tgt_dict.index(t) == self.tgt_dict.unk_index\n            ]\n            n_tokens += len(tokenized)\n            n_oov_tokens += len(oov_tokens)\n            tgt_lens.append(len(tokenized))\n        logger.info(f\"'{self.split}' has {n_oov_tokens / n_tokens * 100:.2f}% OOV\")\n        return tgt_lens\n\n    def __repr__(self):\n        return (\n            self.__class__.__name__\n            + f'(split=\"{self.split}\", n_samples={self.n_samples:_}, '\n            f\"prepend_tgt_lang_tag={self.cfg.prepend_tgt_lang_tag}, \"\n            f\"n_frames_per_step={self.n_frames_per_step}, \"\n            f\"shuffle={self.shuffle}, \"\n            f\"feature_transforms={self.feature_transforms}, \"\n            f\"waveform_transforms={self.waveform_transforms}, \"\n            f\"dataset_transforms={self.dataset_transforms})\"\n        )\n\n    @classmethod\n    def is_lang_tag(cls, token):\n        pattern = cls.LANG_TAG_TEMPLATE.replace(\"{}\", \"(.*)\")\n        return re.match(pattern, token)\n\n    def check_tgt_lang_tag(self):\n        if self.cfg.prepend_tgt_lang_tag:\n            assert self.tgt_langs is not None and self.tgt_dict is not None\n            tgt_lang_tags = [\n                self.LANG_TAG_TEMPLATE.format(t) for t in set(self.tgt_langs)\n            ]\n            assert all(t in self.tgt_dict for t in tgt_lang_tags)\n\n    @classmethod\n    def tokenize(cls, tokenizer, text: str):\n        return text if tokenizer is None else tokenizer.encode(text)\n\n    def get_tokenized_tgt_text(self, index: Union[int, List[int]]):\n        if _is_int_or_np_int(index):\n            text = self.tgt_texts[index]\n        else:\n            text = \" \".join([self.tgt_texts[i] for i in index])\n\n        text = self.tokenize(self.pre_tokenizer, text)\n        text = self.tokenize(self.bpe_tokenizer, text)\n        return text\n\n    def pack_frames(self, feature: torch.Tensor):\n        if self.n_frames_per_step == 1:\n            return feature\n        n_packed_frames = feature.shape[0] // self.n_frames_per_step\n        feature = feature[: self.n_frames_per_step * n_packed_frames]\n        return feature.reshape(n_packed_frames, -1)\n\n    @classmethod\n    def get_lang_tag_idx(cls, lang: str, dictionary: Dictionary):\n        lang_tag_idx = dictionary.index(cls.LANG_TAG_TEMPLATE.format(lang))\n        assert lang_tag_idx != dictionary.unk()\n        return lang_tag_idx\n\n    def _get_source_audio(self, index: Union[int, List[int]]) -> torch.Tensor:\n        \"\"\"\n        Gives source audio for given index with any relevant transforms\n        applied. For ConcatAug, source audios for given indices are\n        concatenated in given order.\n        Args:\n            index (int or List[int]): index—or in the case of ConcatAug,\n            indices—to pull the source audio for\n        Returns:\n            source audios concatenated for given indices with\n            relevant transforms appplied\n        \"\"\"\n        if _is_int_or_np_int(index):\n            source = get_features_or_waveform(\n                self.audio_paths[index],\n                need_waveform=self.cfg.use_audio_input,\n                use_sample_rate=self.cfg.use_sample_rate,\n                waveform_transforms=self.waveform_transforms,\n            )\n        else:\n            source = np.concatenate(\n                [\n                    get_features_or_waveform(\n                        self.audio_paths[i],\n                        need_waveform=self.cfg.use_audio_input,\n                        use_sample_rate=self.cfg.use_sample_rate,\n                        waveform_transforms=self.waveform_transforms,\n                    )\n                    for i in index\n                ]\n            )\n        if self.cfg.use_audio_input:\n            source = torch.from_numpy(source).float()\n            if self.cfg.standardize_audio:\n                with torch.no_grad():\n                    source = F.layer_norm(source, source.shape)\n        else:\n            if self.feature_transforms is not None:\n                source = self.feature_transforms(source)\n            source = torch.from_numpy(source).float()\n        return source\n\n    def __getitem__(self, index: int) -> SpeechToTextDatasetItem:\n        has_concat = self.dataset_transforms.has_transform(ConcatAugment)\n        if has_concat:\n            concat = self.dataset_transforms.get_transform(ConcatAugment)\n            indices = concat.find_indices(index, self.n_frames, self.n_samples)\n\n        source = self._get_source_audio(indices if has_concat else index)\n        source = self.pack_frames(source)\n\n        target = None\n        if self.tgt_texts is not None:\n            tokenized = self.get_tokenized_tgt_text(indices if has_concat else index)\n            target = self.tgt_dict.encode_line(\n                tokenized, add_if_not_exist=False, append_eos=self.append_eos\n            ).long()\n            if self.cfg.prepend_tgt_lang_tag:\n                lang_tag_idx = self.get_lang_tag_idx(\n                    self.tgt_langs[index], self.tgt_dict\n                )\n                target = torch.cat((torch.LongTensor([lang_tag_idx]), target), 0)\n\n        if self.cfg.prepend_bos_and_append_tgt_lang_tag:\n            bos = torch.LongTensor([self.tgt_dict.bos()])\n            lang_tag_idx = self.get_lang_tag_idx(self.tgt_langs[index], self.tgt_dict)\n            assert lang_tag_idx != self.tgt_dict.unk()\n            lang_tag_idx = torch.LongTensor([lang_tag_idx])\n            target = torch.cat((bos, target, lang_tag_idx), 0)\n\n        speaker_id = None\n        if self.speaker_to_id is not None:\n            speaker_id = self.speaker_to_id[self.speakers[index]]\n        return SpeechToTextDatasetItem(\n            index=index, source=source, target=target, speaker_id=speaker_id\n        )\n\n    def __len__(self):\n        return self.n_samples\n\n    def collater(\n        self, samples: List[SpeechToTextDatasetItem], return_order: bool = False\n    ) -> Dict:\n        if len(samples) == 0:\n            return {}\n        indices = torch.tensor([x.index for x in samples], dtype=torch.long)\n\n        sources = [x.source for x in samples]\n        has_NOAug = self.dataset_transforms.has_transform(NoisyOverlapAugment)\n        if has_NOAug and self.cfg.use_audio_input:\n            NOAug = self.dataset_transforms.get_transform(NoisyOverlapAugment)\n            sources = NOAug(sources)\n\n        frames = _collate_frames(sources, self.cfg.use_audio_input)\n        # sort samples by descending number of frames\n        n_frames = torch.tensor([x.size(0) for x in sources], dtype=torch.long)\n        n_frames, order = n_frames.sort(descending=True)\n        indices = indices.index_select(0, order)\n        frames = frames.index_select(0, order)\n\n        target, target_lengths = None, None\n        prev_output_tokens = None\n        ntokens = None\n        if self.tgt_texts is not None:\n            target = fairseq_data_utils.collate_tokens(\n                [x.target for x in samples],\n                self.tgt_dict.pad(),\n                self.tgt_dict.eos(),\n                left_pad=False,\n                move_eos_to_beginning=False,\n            )\n            target = target.index_select(0, order)\n            target_lengths = torch.tensor(\n                [x.target.size(0) for x in samples], dtype=torch.long\n            ).index_select(0, order)\n            prev_output_tokens = fairseq_data_utils.collate_tokens(\n                [x.target for x in samples],\n                self.tgt_dict.pad(),\n                eos_idx=None,\n                left_pad=False,\n                move_eos_to_beginning=True,\n            )\n            prev_output_tokens = prev_output_tokens.index_select(0, order)\n            ntokens = sum(x.target.size(0) for x in samples)\n\n        speaker = None\n        if self.speaker_to_id is not None:\n            speaker = (\n                torch.tensor([s.speaker_id for s in samples], dtype=torch.long)\n                .index_select(0, order)\n                .view(-1, 1)\n            )\n\n        net_input = {\n            \"src_tokens\": frames,\n            \"src_lengths\": n_frames,\n            \"prev_output_tokens\": prev_output_tokens,\n        }\n        out = {\n            \"id\": indices,\n            \"net_input\": net_input,\n            \"speaker\": speaker,\n            \"target\": target,\n            \"target_lengths\": target_lengths,\n            \"ntokens\": ntokens,\n            \"nsentences\": len(samples),\n        }\n        if return_order:\n            out[\"order\"] = order\n        return out\n\n    def num_tokens(self, index):\n        return self.n_frames[index]\n\n    def size(self, index):\n        return self.n_frames[index], self.tgt_lens[index]\n\n    @property\n    def sizes(self):\n        return np.array(self.n_frames)\n\n    @property\n    def can_reuse_epoch_itr_across_epochs(self):\n        return True\n\n    def ordered_indices(self):\n        if self.shuffle:\n            order = [np.random.permutation(len(self))]\n        else:\n            order = [np.arange(len(self))]\n        # first by descending order of # of frames then by original/random order\n        order.append([-n for n in self.n_frames])\n        return np.lexsort(order)\n\n    def prefetch(self, indices):\n        raise False\n\n\nclass TextTargetMultitaskData(object):\n    # mandatory columns\n    KEY_ID, KEY_TEXT = \"id\", \"tgt_text\"\n    LANG_TAG_TEMPLATE = \"<lang:{}>\"\n\n    def __init__(self, args, split, tgt_dict):\n        samples = SpeechToTextDatasetCreator._load_samples_from_tsv(args.data, split)\n        self.data = {s[self.KEY_ID]: s[self.KEY_TEXT] for s in samples}\n        self.dict = tgt_dict\n        self.append_eos = args.decoder_type != \"ctc\"\n        self.pre_tokenizer = self.build_tokenizer(args)\n        self.bpe_tokenizer = self.build_bpe(args)\n        self.prepend_bos_and_append_tgt_lang_tag = (\n            args.prepend_bos_and_append_tgt_lang_tag\n        )\n        self.eos_token = args.eos_token\n        self.lang_tag_mapping = args.get_lang_tag_mapping\n\n    @classmethod\n    def is_lang_tag(cls, token):\n        pattern = cls.LANG_TAG_TEMPLATE.replace(\"{}\", \"(.*)\")\n        return re.match(pattern, token)\n\n    @classmethod\n    def tokenize(cls, tokenizer, text: str):\n        return text if tokenizer is None else tokenizer.encode(text)\n\n    def get_tokenized_tgt_text(self, index: int):\n        text = self.tokenize(self.pre_tokenizer, self.data[index])\n        text = self.tokenize(self.bpe_tokenizer, text)\n        return text\n\n    def get_lang_tag_idx(self, lang: str, dictionary: Dictionary):\n        lang_tag = self.LANG_TAG_TEMPLATE.format(lang)\n        lang_tag = self.lang_tag_mapping.get(lang_tag, lang_tag)\n        lang_tag_idx = dictionary.index(lang_tag)\n        assert lang_tag_idx != dictionary.unk(), (lang, lang_tag)\n        return lang_tag_idx\n\n    def build_tokenizer(self, args):\n        pre_tokenizer = args.config.get(\"pre_tokenizer\")\n        if pre_tokenizer is not None:\n            logger.info(f\"pre-tokenizer: {pre_tokenizer}\")\n            return encoders.build_tokenizer(Namespace(**pre_tokenizer))\n        else:\n            return None\n\n    def build_bpe(self, args):\n        bpe_tokenizer = args.config.get(\"bpe_tokenizer\")\n        if bpe_tokenizer is not None:\n            logger.info(f\"tokenizer: {bpe_tokenizer}\")\n            return encoders.build_bpe(Namespace(**bpe_tokenizer))\n        else:\n            return None\n\n    def get(self, sample_id, tgt_lang=None):\n        if sample_id in self.data:\n            tokenized = self.get_tokenized_tgt_text(sample_id)\n            target = self.dict.encode_line(\n                tokenized,\n                add_if_not_exist=False,\n                append_eos=self.append_eos,\n            )\n            if self.prepend_bos_and_append_tgt_lang_tag:\n                bos = torch.LongTensor([self.dict.bos()])\n                lang_tag_idx = self.get_lang_tag_idx(tgt_lang, self.dict)\n                assert lang_tag_idx != self.dict.unk()\n                lang_tag_idx = torch.LongTensor([lang_tag_idx])\n                target = torch.cat((bos, target, lang_tag_idx), 0)\n            return target\n        else:\n            logger.warning(f\"no target for {sample_id}\")\n            return torch.IntTensor([])\n\n    def collater(self, samples: List[torch.Tensor]) -> torch.Tensor:\n        out = fairseq_data_utils.collate_tokens(\n            samples,\n            self.dict.pad(),\n            eos_idx=None,\n            left_pad=False,\n            move_eos_to_beginning=False,\n        ).long()\n\n        prev_out = fairseq_data_utils.collate_tokens(\n            samples,\n            self.dict.pad(),\n            eos_idx=None,\n            left_pad=False,\n            move_eos_to_beginning=True,\n        ).long()\n\n        target_lengths = torch.tensor([t.size(0) for t in samples], dtype=torch.long)\n        ntokens = sum(t.size(0) for t in samples)\n\n        output = {\n            \"prev_output_tokens\": prev_out,\n            \"target\": out,\n            \"target_lengths\": target_lengths,\n            \"ntokens\": ntokens,\n        }\n\n        return output\n\n\nclass SpeechToTextMultitaskDataset(SpeechToTextDataset):\n    def __init__(self, **kwargs):\n        super().__init__(**kwargs)\n        self.multitask_data = {}\n\n    def add_multitask_dataset(self, task_name, task_data):\n        self.multitask_data[task_name] = task_data\n\n    def __getitem__(\n        self, index: int\n    ) -> Tuple[SpeechToTextDatasetItem, Dict[str, torch.Tensor]]:\n        s2t_data = super().__getitem__(index)\n\n        multitask_target = {}\n        sample_id = self.ids[index]\n        tgt_lang = self.tgt_langs[index]\n        for task_name, task_dataset in self.multitask_data.items():\n            multitask_target[task_name] = task_dataset.get(sample_id, tgt_lang)\n\n        return s2t_data, multitask_target\n\n    def collater(\n        self, samples: List[Tuple[SpeechToTextDatasetItem, Dict[str, torch.Tensor]]]\n    ) -> Dict:\n        if len(samples) == 0:\n            return {}\n\n        out = super().collater([s for s, _ in samples], return_order=True)\n        order = out[\"order\"]\n        del out[\"order\"]\n\n        for task_name, task_dataset in self.multitask_data.items():\n            if \"multitask\" not in out:\n                out[\"multitask\"] = {}\n            d = [s[task_name] for _, s in samples]\n            task_target = task_dataset.collater(d)\n            out[\"multitask\"][task_name] = {\n                \"target\": task_target[\"target\"].index_select(0, order),\n                \"target_lengths\": task_target[\"target_lengths\"].index_select(0, order),\n                \"ntokens\": task_target[\"ntokens\"],\n            }\n            out[\"multitask\"][task_name][\"net_input\"] = {\n                \"prev_output_tokens\": task_target[\"prev_output_tokens\"].index_select(\n                    0, order\n                ),\n            }\n\n        return out\n\n\nclass SpeechToTextDatasetCreator(object):\n    # mandatory columns\n    KEY_ID, KEY_AUDIO, KEY_N_FRAMES = \"id\", \"audio\", \"n_frames\"\n    KEY_TGT_TEXT = \"tgt_text\"\n    # optional columns\n    KEY_SPEAKER, KEY_SRC_TEXT = \"speaker\", \"src_text\"\n    KEY_SRC_LANG, KEY_TGT_LANG = \"src_lang\", \"tgt_lang\"\n    # default values\n    DEFAULT_SPEAKER = DEFAULT_SRC_TEXT = DEFAULT_LANG = \"\"\n\n    @classmethod\n    def _from_list(\n        cls,\n        split_name: str,\n        is_train_split,\n        samples: List[Dict],\n        cfg: S2TDataConfig,\n        tgt_dict,\n        pre_tokenizer,\n        bpe_tokenizer,\n        n_frames_per_step,\n        speaker_to_id,\n        multitask: Optional[Dict] = None,\n    ) -> SpeechToTextDataset:\n        audio_root = Path(cfg.audio_root)\n        ids = [s[cls.KEY_ID] for s in samples]\n        audio_paths = [(audio_root / s[cls.KEY_AUDIO]).as_posix() for s in samples]\n        n_frames = [int(s[cls.KEY_N_FRAMES]) for s in samples]\n        tgt_texts = [s[cls.KEY_TGT_TEXT] for s in samples]\n        src_texts = [s.get(cls.KEY_SRC_TEXT, cls.DEFAULT_SRC_TEXT) for s in samples]\n        speakers = [s.get(cls.KEY_SPEAKER, cls.DEFAULT_SPEAKER) for s in samples]\n        src_langs = [s.get(cls.KEY_SRC_LANG, cls.DEFAULT_LANG) for s in samples]\n        tgt_langs = [s.get(cls.KEY_TGT_LANG, cls.DEFAULT_LANG) for s in samples]\n\n        has_multitask = multitask is not None and len(multitask.keys()) > 0\n        dataset_cls = (\n            SpeechToTextMultitaskDataset if has_multitask else SpeechToTextDataset\n        )\n\n        ds = dataset_cls(\n            split=split_name,\n            is_train_split=is_train_split,\n            cfg=cfg,\n            audio_paths=audio_paths,\n            n_frames=n_frames,\n            src_texts=src_texts,\n            tgt_texts=tgt_texts,\n            speakers=speakers,\n            src_langs=src_langs,\n            tgt_langs=tgt_langs,\n            ids=ids,\n            tgt_dict=tgt_dict,\n            pre_tokenizer=pre_tokenizer,\n            bpe_tokenizer=bpe_tokenizer,\n            n_frames_per_step=n_frames_per_step,\n            speaker_to_id=speaker_to_id,\n        )\n\n        if has_multitask:\n            for task_name, task_obj in multitask.items():\n                task_data = TextTargetMultitaskData(\n                    task_obj.args, split_name, task_obj.target_dictionary\n                )\n                ds.add_multitask_dataset(task_name, task_data)\n        return ds\n\n    @classmethod\n    def get_size_ratios(\n        cls, datasets: List[SpeechToTextDataset], alpha: float = 1.0\n    ) -> List[float]:\n        \"\"\"Size ratios for temperature-based sampling\n        (https://arxiv.org/abs/1907.05019)\"\"\"\n\n        id_to_lp, lp_to_sz = {}, defaultdict(int)\n        for ds in datasets:\n            lang_pairs = {f\"{s}->{t}\" for s, t in zip(ds.src_langs, ds.tgt_langs)}\n            assert len(lang_pairs) == 1\n            lang_pair = list(lang_pairs)[0]\n            id_to_lp[ds.split] = lang_pair\n            lp_to_sz[lang_pair] += sum(ds.n_frames)\n\n        sz_sum = sum(v for v in lp_to_sz.values())\n        lp_to_prob = {k: v / sz_sum for k, v in lp_to_sz.items()}\n        lp_to_tgt_prob = {k: v**alpha for k, v in lp_to_prob.items()}\n        prob_sum = sum(v for v in lp_to_tgt_prob.values())\n        lp_to_tgt_prob = {k: v / prob_sum for k, v in lp_to_tgt_prob.items()}\n        lp_to_sz_ratio = {\n            k: (lp_to_tgt_prob[k] * sz_sum) / v for k, v in lp_to_sz.items()\n        }\n        size_ratio = [lp_to_sz_ratio[id_to_lp[ds.split]] for ds in datasets]\n\n        p_formatted = {\n            k: f\"{lp_to_prob[k]:.3f}->{lp_to_tgt_prob[k]:.3f}\" for k in lp_to_sz\n        }\n        logger.info(f\"sampling probability balancing: {p_formatted}\")\n        sr_formatted = {ds.split: f\"{r:.3f}\" for ds, r in zip(datasets, size_ratio)}\n        logger.info(f\"balanced sampling size ratio: {sr_formatted}\")\n        return size_ratio\n\n    @classmethod\n    def _load_samples_from_tsv(cls, root: str, split: str):\n        tsv_path = Path(root) / f\"{split}.tsv\"\n        if not tsv_path.is_file():\n            raise FileNotFoundError(f\"Dataset not found: {tsv_path}\")\n        with open(tsv_path) as f:\n            reader = csv.DictReader(\n                f,\n                delimiter=\"\\t\",\n                quotechar=None,\n                doublequote=False,\n                lineterminator=\"\\n\",\n                quoting=csv.QUOTE_NONE,\n            )\n            samples = [dict(e) for e in reader]\n        if len(samples) == 0:\n            raise ValueError(f\"Empty manifest: {tsv_path}\")\n        return samples\n\n    @classmethod\n    def _from_tsv(\n        cls,\n        root: str,\n        cfg: S2TDataConfig,\n        split: str,\n        tgt_dict,\n        is_train_split: bool,\n        pre_tokenizer,\n        bpe_tokenizer,\n        n_frames_per_step,\n        speaker_to_id,\n        multitask: Optional[Dict] = None,\n    ) -> SpeechToTextDataset:\n        samples = cls._load_samples_from_tsv(root, split)\n        return cls._from_list(\n            split,\n            is_train_split,\n            samples,\n            cfg,\n            tgt_dict,\n            pre_tokenizer,\n            bpe_tokenizer,\n            n_frames_per_step,\n            speaker_to_id,\n            multitask,\n        )\n\n    @classmethod\n    def from_tsv(\n        cls,\n        root: str,\n        cfg: S2TDataConfig,\n        splits: str,\n        tgt_dict,\n        pre_tokenizer,\n        bpe_tokenizer,\n        is_train_split: bool,\n        epoch: int,\n        seed: int,\n        n_frames_per_step: int = 1,\n        speaker_to_id=None,\n        multitask: Optional[Dict] = None,\n    ) -> SpeechToTextDataset:\n        datasets = [\n            cls._from_tsv(\n                root=root,\n                cfg=cfg,\n                split=split,\n                tgt_dict=tgt_dict,\n                is_train_split=is_train_split,\n                pre_tokenizer=pre_tokenizer,\n                bpe_tokenizer=bpe_tokenizer,\n                n_frames_per_step=n_frames_per_step,\n                speaker_to_id=speaker_to_id,\n                multitask=multitask,\n            )\n            for split in splits.split(\",\")\n        ]\n\n        if is_train_split and len(datasets) > 1 and cfg.sampling_alpha != 1.0:\n            # temperature-based sampling\n            size_ratios = cls.get_size_ratios(datasets, alpha=cfg.sampling_alpha)\n            datasets = [\n                ResamplingDataset(\n                    d, size_ratio=r, seed=seed, epoch=epoch, replace=(r >= 1.0)\n                )\n                for r, d in zip(size_ratios, datasets)\n            ]\n\n        return ConcatDataset(datasets) if len(datasets) > 1 else datasets[0]\n"
  },
  {
    "path": "fairseq/data/audio/speech_to_text_joint_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom pathlib import Path\nfrom typing import Dict, List, NamedTuple, Optional\n\nimport torch\n\nfrom fairseq.data import ConcatDataset, Dictionary, ResamplingDataset\nfrom fairseq.data import data_utils as fairseq_data_utils\nfrom fairseq.data.audio.speech_to_text_dataset import (\n    S2TDataConfig,\n    SpeechToTextDataset,\n    SpeechToTextDatasetCreator,\n)\n\nlogger = logging.getLogger(__name__)\n\n\nclass S2TJointDataConfig(S2TDataConfig):\n    \"\"\"Wrapper class for data config YAML\"\"\"\n\n    @property\n    def src_vocab_filename(self):\n        \"\"\"fairseq vocabulary file under data root\"\"\"\n        return self.config.get(\"src_vocab_filename\", \"src_dict.txt\")\n\n    @property\n    def src_pre_tokenizer(self) -> Dict:\n        \"\"\"Pre-tokenizer to apply before subword tokenization. Returning\n        a dictionary with `tokenizer` providing the tokenizer name and\n        the other items providing the tokenizer-specific arguments.\n        Tokenizers are defined in `fairseq.data.encoders.*`\"\"\"\n        return self.config.get(\"src_pre_tokenizer\", {\"tokenizer\": None})\n\n    @property\n    def src_bpe_tokenizer(self) -> Dict:\n        \"\"\"Subword tokenizer to apply on source text after pre-tokenization.\n        Returning a dictionary with `bpe` providing the tokenizer name and\n        the other items providing the tokenizer-specific arguments.\n        Tokenizers are defined in `fairseq.data.encoders.*`\"\"\"\n        return self.config.get(\"src_bpe_tokenizer\", {\"bpe\": None})\n\n    @property\n    def prepend_tgt_lang_tag_no_change(self) -> bool:\n        \"\"\"Prepend target lang ID token as the prev_output_tokens BOS (e.g. for\n        to-many multilingual setting). No change needed during inference.\n        This option is deprecated and replaced by prepend_tgt_lang_tag_as_bos.\n        \"\"\"\n        value = self.config.get(\"prepend_tgt_lang_tag_no_change\", None)\n        if value is None:\n            return self.config.get(\"prepend_tgt_lang_tag_as_bos\", False)\n        return value\n\n    @property\n    def sampling_text_alpha(self):\n        \"\"\"Hyper-parameter alpha = 1/T for temperature-based resampling. (text\n        input only) (alpha = 1 for no resampling)\"\"\"\n        return self.config.get(\"sampling_text_alpha\", 1.0)\n\n\nclass SpeechToTextJointDatasetItem(NamedTuple):\n    index: int\n    source: torch.Tensor\n    target: Optional[torch.Tensor] = None\n    src_txt_tokens: Optional[torch.Tensor] = None\n    tgt_lang_tag: Optional[int] = None\n    src_lang_tag: Optional[int] = None\n    tgt_alignment: Optional[torch.Tensor] = None\n\n\n# use_src_lang_id:\n#   0: don't use src_lang_id\n#   1: attach src_lang_id to the src_txt_tokens as eos\nclass SpeechToTextJointDataset(SpeechToTextDataset):\n    def __init__(\n        self,\n        split: str,\n        is_train_split: bool,\n        cfg: S2TJointDataConfig,\n        audio_paths: List[str],\n        n_frames: List[int],\n        src_texts: Optional[List[str]] = None,\n        tgt_texts: Optional[List[str]] = None,\n        speakers: Optional[List[str]] = None,\n        src_langs: Optional[List[str]] = None,\n        tgt_langs: Optional[List[str]] = None,\n        ids: Optional[List[str]] = None,\n        tgt_dict: Optional[Dictionary] = None,\n        src_dict: Optional[Dictionary] = None,\n        pre_tokenizer=None,\n        bpe_tokenizer=None,\n        src_pre_tokenizer=None,\n        src_bpe_tokenizer=None,\n        append_eos: Optional[bool] = True,\n        alignment: Optional[List[str]] = None,\n        use_src_lang_id: Optional[int] = 0,\n    ):\n        super().__init__(\n            split,\n            is_train_split,\n            cfg,\n            audio_paths,\n            n_frames,\n            src_texts=src_texts,\n            tgt_texts=tgt_texts,\n            speakers=speakers,\n            src_langs=src_langs,\n            tgt_langs=tgt_langs,\n            ids=ids,\n            tgt_dict=tgt_dict,\n            pre_tokenizer=pre_tokenizer,\n            bpe_tokenizer=bpe_tokenizer,\n            append_eos=append_eos,\n        )\n\n        self.src_dict = src_dict\n        self.src_pre_tokenizer = src_pre_tokenizer\n        self.src_bpe_tokenizer = src_bpe_tokenizer\n        self.alignment = None\n        self.use_src_lang_id = use_src_lang_id\n        if alignment is not None:\n            self.alignment = [\n                [float(s) for s in sample.split()] for sample in alignment\n            ]\n\n    def get_tokenized_src_text(self, index: int):\n        text = self.tokenize(self.src_pre_tokenizer, self.src_texts[index])\n        text = self.tokenize(self.src_bpe_tokenizer, text)\n        return text\n\n    def __getitem__(self, index: int) -> SpeechToTextJointDatasetItem:\n        s2t_dataset_item = super().__getitem__(index)\n        src_tokens = None\n        src_lang_tag = None\n        if self.src_texts is not None and self.src_dict is not None:\n            src_tokens = self.get_tokenized_src_text(index)\n            src_tokens = self.src_dict.encode_line(\n                src_tokens, add_if_not_exist=False, append_eos=True\n            ).long()\n            if self.use_src_lang_id > 0:\n                src_lang_tag = self.get_lang_tag_idx(\n                    self.src_langs[index], self.src_dict\n                )\n        tgt_lang_tag = None\n        if self.cfg.prepend_tgt_lang_tag_no_change:\n            # prepend_tgt_lang_tag_no_change: modify prev_output_tokens instead\n            tgt_lang_tag = self.get_lang_tag_idx(self.tgt_langs[index], self.tgt_dict)\n        ali = None\n        if self.alignment is not None:\n            ali = torch.Tensor(self.alignment[index]).float()\n\n        return SpeechToTextJointDatasetItem(\n            index=index,\n            source=s2t_dataset_item.source,\n            target=s2t_dataset_item.target,\n            src_txt_tokens=src_tokens,\n            tgt_lang_tag=tgt_lang_tag,\n            src_lang_tag=src_lang_tag,\n            tgt_alignment=ali,\n        )\n\n    def __len__(self):\n        return self.n_samples\n\n    def collater(self, samples: List[SpeechToTextJointDatasetItem]) -> Dict:\n        s2t_out = super().collater(samples, return_order=True)\n        if s2t_out == {}:\n            return s2t_out\n        net_input, order = s2t_out[\"net_input\"], s2t_out[\"order\"]\n\n        if self.src_texts is not None and self.src_dict is not None:\n            src_txt_tokens = fairseq_data_utils.collate_tokens(\n                [x.src_txt_tokens for x in samples],\n                self.src_dict.pad(),\n                self.src_dict.eos(),\n                left_pad=False,\n                move_eos_to_beginning=False,\n            )\n            src_txt_lengths = torch.tensor(\n                [x.src_txt_tokens.size()[0] for x in samples], dtype=torch.long\n            )\n            if self.use_src_lang_id > 0:\n                src_lang_idxs = torch.tensor(\n                    [s.src_lang_tag for s in samples], dtype=src_txt_tokens.dtype\n                )\n                if self.use_src_lang_id == 1:  # replace eos with lang_id\n                    eos_idx = src_txt_lengths - 1\n                    src_txt_tokens.scatter_(\n                        1, eos_idx.view(-1, 1), src_lang_idxs.view(-1, 1)\n                    )\n                else:\n                    raise NotImplementedError(\"Implementation is required\")\n\n            src_txt_tokens = src_txt_tokens.index_select(0, order)\n            src_txt_lengths = src_txt_lengths.index_select(0, order)\n            net_input[\"src_txt_tokens\"] = src_txt_tokens\n            net_input[\"src_txt_lengths\"] = src_txt_lengths\n\n        net_input[\"alignment\"] = None\n        if self.alignment is not None:\n            max_len = max([s.tgt_alignment.size(0) for s in samples])\n            alignment = torch.ones(len(samples), max_len).float()\n            for i, s in enumerate(samples):\n                cur_len = s.tgt_alignment.size(0)\n                alignment[i][:cur_len].copy_(s.tgt_alignment)\n            net_input[\"alignment\"] = alignment.index_select(0, order)\n\n        if self.tgt_texts is not None and samples[0].tgt_lang_tag is not None:\n            for i in range(len(samples)):\n                net_input[\"prev_output_tokens\"][i][0] = samples[order[i]].tgt_lang_tag\n\n        out = {\n            \"id\": s2t_out[\"id\"],\n            \"net_input\": net_input,\n            \"target\": s2t_out[\"target\"],\n            \"target_lengths\": s2t_out[\"target_lengths\"],\n            \"ntokens\": s2t_out[\"ntokens\"],\n            \"nsentences\": len(samples),\n        }\n        return out\n\n\nclass SpeechToTextJointDatasetCreator(SpeechToTextDatasetCreator):\n    KEY_ALIGN = \"align\"\n\n    @classmethod\n    def _from_list(\n        cls,\n        split_name: str,\n        is_train_split,\n        samples: List[Dict],\n        cfg: S2TJointDataConfig,\n        tgt_dict,\n        src_dict,\n        pre_tokenizer,\n        bpe_tokenizer,\n        src_pre_tokenizer,\n        src_bpe_tokenizer,\n        append_eos,\n        use_src_lang_id,\n    ) -> SpeechToTextJointDataset:\n        audio_root = Path(cfg.audio_root)\n        ids = [s[cls.KEY_ID] for s in samples]\n        audio_paths = [(audio_root / s[cls.KEY_AUDIO]).as_posix() for s in samples]\n        n_frames = [int(s[cls.KEY_N_FRAMES]) for s in samples]\n        tgt_texts = [s[cls.KEY_TGT_TEXT] for s in samples]\n        src_texts = [s.get(cls.KEY_SRC_TEXT, cls.DEFAULT_SRC_TEXT) for s in samples]\n        speakers = [s.get(cls.KEY_SPEAKER, cls.DEFAULT_SPEAKER) for s in samples]\n        src_langs = [s.get(cls.KEY_SRC_LANG, cls.DEFAULT_LANG) for s in samples]\n        tgt_langs = [s.get(cls.KEY_TGT_LANG, cls.DEFAULT_LANG) for s in samples]\n        tgt_alignment = None\n        if cls.KEY_ALIGN in samples[0].keys():\n            tgt_alignment = [s[cls.KEY_ALIGN] for s in samples]\n        return SpeechToTextJointDataset(\n            split_name,\n            is_train_split,\n            cfg,\n            audio_paths,\n            n_frames,\n            src_texts=src_texts,\n            tgt_texts=tgt_texts,\n            speakers=speakers,\n            src_langs=src_langs,\n            tgt_langs=tgt_langs,\n            ids=ids,\n            tgt_dict=tgt_dict,\n            src_dict=src_dict,\n            pre_tokenizer=pre_tokenizer,\n            bpe_tokenizer=bpe_tokenizer,\n            src_pre_tokenizer=src_pre_tokenizer,\n            src_bpe_tokenizer=src_bpe_tokenizer,\n            append_eos=append_eos,\n            alignment=tgt_alignment,\n            use_src_lang_id=use_src_lang_id,\n        )\n\n    @classmethod\n    def _from_tsv(\n        cls,\n        root: str,\n        cfg: S2TJointDataConfig,\n        split: str,\n        tgt_dict,\n        src_dict,\n        is_train_split: bool,\n        pre_tokenizer,\n        bpe_tokenizer,\n        src_pre_tokenizer,\n        src_bpe_tokenizer,\n        append_eos: bool,\n        use_src_lang_id: int,\n    ) -> SpeechToTextJointDataset:\n        samples = cls._load_samples_from_tsv(root, split)\n        return cls._from_list(\n            split,\n            is_train_split,\n            samples,\n            cfg,\n            tgt_dict,\n            src_dict,\n            pre_tokenizer,\n            bpe_tokenizer,\n            src_pre_tokenizer,\n            src_bpe_tokenizer,\n            append_eos,\n            use_src_lang_id,\n        )\n\n    @classmethod\n    def from_tsv(\n        cls,\n        root: str,\n        cfg: S2TJointDataConfig,\n        splits: str,\n        tgt_dict,\n        src_dict,\n        pre_tokenizer,\n        bpe_tokenizer,\n        src_pre_tokenizer,\n        src_bpe_tokenizer,\n        is_train_split: bool,\n        epoch: int,\n        seed: int,\n        append_eos: Optional[bool] = True,\n        use_src_lang_id: Optional[int] = 0,\n    ) -> SpeechToTextJointDataset:\n        datasets = [\n            cls._from_tsv(\n                root,\n                cfg,\n                split,\n                tgt_dict,\n                src_dict,\n                is_train_split,\n                pre_tokenizer,\n                bpe_tokenizer,\n                src_pre_tokenizer,\n                src_bpe_tokenizer,\n                append_eos=append_eos,\n                use_src_lang_id=use_src_lang_id,\n            )\n            for split in splits.split(\",\")\n        ]\n\n        if is_train_split and len(datasets) > 1 and cfg.sampling_alpha != 1.0:\n            # temperature-based sampling\n            size_ratios = cls.get_size_ratios(datasets, alpha=cfg.sampling_alpha)\n            datasets = [\n                ResamplingDataset(\n                    d, size_ratio=r, seed=seed, epoch=epoch, replace=(r >= 1.0)\n                )\n                for r, d in zip(size_ratios, datasets)\n            ]\n\n        return ConcatDataset(datasets) if len(datasets) > 1 else datasets[0]\n"
  },
  {
    "path": "fairseq/data/audio/text_to_speech_dataset.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.abs\n\nfrom dataclasses import dataclass\nfrom pathlib import Path\nfrom typing import Any, Dict, List, Optional\n\nimport numpy as np\nimport torch\n\nfrom fairseq.data import Dictionary\nfrom fairseq.data import data_utils as fairseq_data_utils\nfrom fairseq.data.audio.audio_utils import get_features_or_waveform\nfrom fairseq.data.audio.speech_to_text_dataset import (\n    S2TDataConfig,\n    SpeechToTextDataset,\n    SpeechToTextDatasetCreator,\n    _collate_frames,\n)\n\n\n@dataclass\nclass TextToSpeechDatasetItem(object):\n    index: int\n    source: torch.Tensor\n    target: Optional[torch.Tensor] = None\n    speaker_id: Optional[int] = None\n    duration: Optional[torch.Tensor] = None\n    pitch: Optional[torch.Tensor] = None\n    energy: Optional[torch.Tensor] = None\n\n\nclass TextToSpeechDataset(SpeechToTextDataset):\n    def __init__(\n        self,\n        split: str,\n        is_train_split: bool,\n        cfg: S2TDataConfig,\n        audio_paths: List[str],\n        n_frames: List[int],\n        src_texts: Optional[List[str]] = None,\n        tgt_texts: Optional[List[str]] = None,\n        speakers: Optional[List[str]] = None,\n        src_langs: Optional[List[str]] = None,\n        tgt_langs: Optional[List[str]] = None,\n        ids: Optional[List[str]] = None,\n        tgt_dict: Optional[Dictionary] = None,\n        pre_tokenizer=None,\n        bpe_tokenizer=None,\n        n_frames_per_step=1,\n        speaker_to_id=None,\n        durations: Optional[List[List[int]]] = None,\n        pitches: Optional[List[str]] = None,\n        energies: Optional[List[str]] = None,\n    ):\n        super(TextToSpeechDataset, self).__init__(\n            split,\n            is_train_split,\n            cfg,\n            audio_paths,\n            n_frames,\n            src_texts=src_texts,\n            tgt_texts=tgt_texts,\n            speakers=speakers,\n            src_langs=src_langs,\n            tgt_langs=tgt_langs,\n            ids=ids,\n            tgt_dict=tgt_dict,\n            pre_tokenizer=pre_tokenizer,\n            bpe_tokenizer=bpe_tokenizer,\n            n_frames_per_step=n_frames_per_step,\n            speaker_to_id=speaker_to_id,\n        )\n        self.durations = durations\n        self.pitches = pitches\n        self.energies = energies\n\n    def __getitem__(self, index: int) -> TextToSpeechDatasetItem:\n        s2t_item = super().__getitem__(index)\n\n        duration, pitch, energy = None, None, None\n        if self.durations is not None:\n            duration = torch.tensor(\n                self.durations[index] + [0], dtype=torch.long  # pad 0 for EOS\n            )\n        if self.pitches is not None:\n            pitch = get_features_or_waveform(self.pitches[index])\n            pitch = torch.from_numpy(\n                np.concatenate((pitch, [0]))  # pad 0 for EOS\n            ).float()\n        if self.energies is not None:\n            energy = get_features_or_waveform(self.energies[index])\n            energy = torch.from_numpy(\n                np.concatenate((energy, [0]))  # pad 0 for EOS\n            ).float()\n        return TextToSpeechDatasetItem(\n            index=index,\n            source=s2t_item.source,\n            target=s2t_item.target,\n            speaker_id=s2t_item.speaker_id,\n            duration=duration,\n            pitch=pitch,\n            energy=energy,\n        )\n\n    def collater(self, samples: List[TextToSpeechDatasetItem]) -> Dict[str, Any]:\n        if len(samples) == 0:\n            return {}\n\n        src_lengths, order = torch.tensor(\n            [s.target.shape[0] for s in samples], dtype=torch.long\n        ).sort(descending=True)\n        id_ = torch.tensor([s.index for s in samples], dtype=torch.long).index_select(\n            0, order\n        )\n        feat = _collate_frames(\n            [s.source for s in samples], self.cfg.use_audio_input\n        ).index_select(0, order)\n        target_lengths = torch.tensor(\n            [s.source.shape[0] for s in samples], dtype=torch.long\n        ).index_select(0, order)\n\n        src_tokens = fairseq_data_utils.collate_tokens(\n            [s.target for s in samples],\n            self.tgt_dict.pad(),\n            self.tgt_dict.eos(),\n            left_pad=False,\n            move_eos_to_beginning=False,\n        ).index_select(0, order)\n\n        speaker = None\n        if self.speaker_to_id is not None:\n            speaker = (\n                torch.tensor([s.speaker_id for s in samples], dtype=torch.long)\n                .index_select(0, order)\n                .view(-1, 1)\n            )\n\n        bsz, _, d = feat.size()\n        prev_output_tokens = torch.cat(\n            (feat.new_zeros((bsz, 1, d)), feat[:, :-1, :]), dim=1\n        )\n\n        durations, pitches, energies = None, None, None\n        if self.durations is not None:\n            durations = fairseq_data_utils.collate_tokens(\n                [s.duration for s in samples], 0\n            ).index_select(0, order)\n            assert src_tokens.shape[1] == durations.shape[1]\n        if self.pitches is not None:\n            pitches = _collate_frames([s.pitch for s in samples], True)\n            pitches = pitches.index_select(0, order)\n            assert src_tokens.shape[1] == pitches.shape[1]\n        if self.energies is not None:\n            energies = _collate_frames([s.energy for s in samples], True)\n            energies = energies.index_select(0, order)\n            assert src_tokens.shape[1] == energies.shape[1]\n        src_texts = [self.tgt_dict.string(samples[i].target) for i in order]\n\n        return {\n            \"id\": id_,\n            \"net_input\": {\n                \"src_tokens\": src_tokens,\n                \"src_lengths\": src_lengths,\n                \"prev_output_tokens\": prev_output_tokens,\n            },\n            \"speaker\": speaker,\n            \"target\": feat,\n            \"durations\": durations,\n            \"pitches\": pitches,\n            \"energies\": energies,\n            \"target_lengths\": target_lengths,\n            \"ntokens\": sum(target_lengths).item(),\n            \"nsentences\": len(samples),\n            \"src_texts\": src_texts,\n        }\n\n\nclass TextToSpeechDatasetCreator(SpeechToTextDatasetCreator):\n    KEY_DURATION = \"duration\"\n    KEY_PITCH = \"pitch\"\n    KEY_ENERGY = \"energy\"\n\n    @classmethod\n    def _from_list(\n        cls,\n        split_name: str,\n        is_train_split,\n        samples: List[Dict],\n        cfg: S2TDataConfig,\n        tgt_dict,\n        pre_tokenizer,\n        bpe_tokenizer,\n        n_frames_per_step,\n        speaker_to_id,\n        multitask=None,\n    ) -> TextToSpeechDataset:\n        audio_root = Path(cfg.audio_root)\n        ids = [s[cls.KEY_ID] for s in samples]\n        audio_paths = [(audio_root / s[cls.KEY_AUDIO]).as_posix() for s in samples]\n        n_frames = [int(s[cls.KEY_N_FRAMES]) for s in samples]\n        tgt_texts = [s[cls.KEY_TGT_TEXT] for s in samples]\n        src_texts = [s.get(cls.KEY_SRC_TEXT, cls.DEFAULT_SRC_TEXT) for s in samples]\n        speakers = [s.get(cls.KEY_SPEAKER, cls.DEFAULT_SPEAKER) for s in samples]\n        src_langs = [s.get(cls.KEY_SRC_LANG, cls.DEFAULT_LANG) for s in samples]\n        tgt_langs = [s.get(cls.KEY_TGT_LANG, cls.DEFAULT_LANG) for s in samples]\n\n        durations = [s.get(cls.KEY_DURATION, None) for s in samples]\n        durations = [\n            None if dd is None else [int(d) for d in dd.split(\" \")] for dd in durations\n        ]\n        durations = None if any(dd is None for dd in durations) else durations\n\n        pitches = [s.get(cls.KEY_PITCH, None) for s in samples]\n        pitches = [\n            None if pp is None else (audio_root / pp).as_posix() for pp in pitches\n        ]\n        pitches = None if any(pp is None for pp in pitches) else pitches\n\n        energies = [s.get(cls.KEY_ENERGY, None) for s in samples]\n        energies = [\n            None if ee is None else (audio_root / ee).as_posix() for ee in energies\n        ]\n        energies = None if any(ee is None for ee in energies) else energies\n\n        return TextToSpeechDataset(\n            split_name,\n            is_train_split,\n            cfg,\n            audio_paths,\n            n_frames,\n            src_texts,\n            tgt_texts,\n            speakers,\n            src_langs,\n            tgt_langs,\n            ids,\n            tgt_dict,\n            pre_tokenizer,\n            bpe_tokenizer,\n            n_frames_per_step,\n            speaker_to_id,\n            durations,\n            pitches,\n            energies,\n        )\n"
  },
  {
    "path": "fairseq/data/audio/waveform_transforms/__init__.py",
    "content": "import os\nfrom fairseq.data.audio import (\n    AudioTransform,\n    CompositeAudioTransform,\n    import_transforms,\n    register_audio_transform,\n)\n\n\nclass AudioWaveformTransform(AudioTransform):\n    pass\n\n\nAUDIO_WAVEFORM_TRANSFORM_REGISTRY = {}\nAUDIO_WAVEFORM_TRANSFORM_CLASS_NAMES = set()\n\n\ndef get_audio_waveform_transform(name):\n    return AUDIO_WAVEFORM_TRANSFORM_REGISTRY[name]\n\n\ndef register_audio_waveform_transform(name):\n    return register_audio_transform(\n        name,\n        AudioWaveformTransform,\n        AUDIO_WAVEFORM_TRANSFORM_REGISTRY,\n        AUDIO_WAVEFORM_TRANSFORM_CLASS_NAMES,\n    )\n\n\nimport_transforms(os.path.dirname(__file__), \"waveform\")\n\n\nclass CompositeAudioWaveformTransform(CompositeAudioTransform):\n    @classmethod\n    def from_config_dict(cls, config=None):\n        return super()._from_config_dict(\n            cls,\n            \"waveform\",\n            get_audio_waveform_transform,\n            CompositeAudioWaveformTransform,\n            config,\n        )\n\n    def __call__(self, x, sample_rate):\n        for t in self.transforms:\n            x, sample_rate = t(x, sample_rate)\n        return x, sample_rate\n"
  },
  {
    "path": "fairseq/data/audio/waveform_transforms/noiseaugment.py",
    "content": "from pathlib import Path\nimport numpy as np\nfrom math import ceil\n\nfrom fairseq.data.audio import rand_uniform\nfrom fairseq.data.audio.waveform_transforms import (\n    AudioWaveformTransform,\n    register_audio_waveform_transform,\n)\n\nSNR_MIN = 5.0\nSNR_MAX = 15.0\nRATE = 0.25\n\nNOISE_RATE = 1.0\nNOISE_LEN_MEAN = 0.2\nNOISE_LEN_STD = 0.05\n\n\nclass NoiseAugmentTransform(AudioWaveformTransform):\n    @classmethod\n    def from_config_dict(cls, config=None):\n        _config = {} if config is None else config\n        return cls(\n            _config.get(\"samples_path\", None),\n            _config.get(\"snr_min\", SNR_MIN),\n            _config.get(\"snr_max\", SNR_MAX),\n            _config.get(\"rate\", RATE),\n        )\n\n    def __init__(\n        self,\n        samples_path: str,\n        snr_min: float = SNR_MIN,\n        snr_max: float = SNR_MAX,\n        rate: float = RATE,\n    ):\n        # Sanity checks\n        assert (\n            samples_path\n        ), \"need to provide path to audio samples for noise augmentation\"\n        assert snr_max >= snr_min, f\"empty signal-to-noise range ({snr_min}, {snr_max})\"\n        assert rate >= 0 and rate <= 1, \"rate should be a float between 0 to 1\"\n\n        self.paths = list(Path(samples_path).glob(\"**/*.wav\"))  # load music\n        self.n_samples = len(self.paths)\n        assert self.n_samples > 0, f\"no audio files found in {samples_path}\"\n\n        self.snr_min = snr_min\n        self.snr_max = snr_max\n        self.rate = rate\n\n    def __repr__(self):\n        return (\n            self.__class__.__name__\n            + \"(\"\n            + \", \".join(\n                [\n                    f\"n_samples={self.n_samples}\",\n                    f\"snr={self.snr_min}-{self.snr_max}dB\",\n                    f\"rate={self.rate}\",\n                ]\n            )\n            + \")\"\n        )\n\n    def pick_sample(self, goal_shape, always_2d=False, use_sample_rate=None):\n        from fairseq.data.audio.audio_utils import get_waveform\n\n        path = self.paths[np.random.randint(0, self.n_samples)]\n        sample = get_waveform(\n            path, always_2d=always_2d, output_sample_rate=use_sample_rate\n        )[0]\n\n        # Check dimensions match, else silently skip adding noise to sample\n        # NOTE: SHOULD THIS QUIT WITH AN ERROR?\n        is_2d = len(goal_shape) == 2\n        if len(goal_shape) != sample.ndim or (\n            is_2d and goal_shape[0] != sample.shape[0]\n        ):\n            return np.zeros(goal_shape)\n\n        # Cut/repeat sample to size\n        len_dim = len(goal_shape) - 1\n        n_repeat = ceil(goal_shape[len_dim] / sample.shape[len_dim])\n        repeated = np.tile(sample, [1, n_repeat] if is_2d else n_repeat)\n        start = np.random.randint(0, repeated.shape[len_dim] - goal_shape[len_dim] + 1)\n        return (\n            repeated[:, start : start + goal_shape[len_dim]]\n            if is_2d\n            else repeated[start : start + goal_shape[len_dim]]\n        )\n\n    def _mix(self, source, noise, snr):\n        get_power = lambda x: np.mean(x**2)\n        if get_power(noise):\n            scl = np.sqrt(\n                get_power(source) / (np.power(10, snr / 10) * get_power(noise))\n            )\n        else:\n            scl = 0\n        return 1 * source + scl * noise\n\n    def _get_noise(self, goal_shape, always_2d=False, use_sample_rate=None):\n        return self.pick_sample(goal_shape, always_2d, use_sample_rate)\n\n    def __call__(self, source, sample_rate):\n        if np.random.random() > self.rate:\n            return source, sample_rate\n\n        noise = self._get_noise(\n            source.shape, always_2d=True, use_sample_rate=sample_rate\n        )\n\n        return (\n            self._mix(source, noise, rand_uniform(self.snr_min, self.snr_max)),\n            sample_rate,\n        )\n\n\n@register_audio_waveform_transform(\"musicaugment\")\nclass MusicAugmentTransform(NoiseAugmentTransform):\n    pass\n\n\n@register_audio_waveform_transform(\"backgroundnoiseaugment\")\nclass BackgroundNoiseAugmentTransform(NoiseAugmentTransform):\n    pass\n\n\n@register_audio_waveform_transform(\"babbleaugment\")\nclass BabbleAugmentTransform(NoiseAugmentTransform):\n    def _get_noise(self, goal_shape, always_2d=False, use_sample_rate=None):\n        for i in range(np.random.randint(3, 8)):\n            speech = self.pick_sample(goal_shape, always_2d, use_sample_rate)\n            if i == 0:\n                agg_noise = speech\n            else:  # SNR scaled by i (how many noise signals already in agg_noise)\n                agg_noise = self._mix(agg_noise, speech, i)\n        return agg_noise\n\n\n@register_audio_waveform_transform(\"sporadicnoiseaugment\")\nclass SporadicNoiseAugmentTransform(NoiseAugmentTransform):\n    @classmethod\n    def from_config_dict(cls, config=None):\n        _config = {} if config is None else config\n        return cls(\n            _config.get(\"samples_path\", None),\n            _config.get(\"snr_min\", SNR_MIN),\n            _config.get(\"snr_max\", SNR_MAX),\n            _config.get(\"rate\", RATE),\n            _config.get(\"noise_rate\", NOISE_RATE),\n            _config.get(\"noise_len_mean\", NOISE_LEN_MEAN),\n            _config.get(\"noise_len_std\", NOISE_LEN_STD),\n        )\n\n    def __init__(\n        self,\n        samples_path: str,\n        snr_min: float = SNR_MIN,\n        snr_max: float = SNR_MAX,\n        rate: float = RATE,\n        noise_rate: float = NOISE_RATE,  # noises per second\n        noise_len_mean: float = NOISE_LEN_MEAN,  # length of noises in seconds\n        noise_len_std: float = NOISE_LEN_STD,\n    ):\n        super().__init__(samples_path, snr_min, snr_max, rate)\n        self.noise_rate = noise_rate\n        self.noise_len_mean = noise_len_mean\n        self.noise_len_std = noise_len_std\n\n    def _get_noise(self, goal_shape, always_2d=False, use_sample_rate=None):\n        agg_noise = np.zeros(goal_shape)\n        len_dim = len(goal_shape) - 1\n        is_2d = len(goal_shape) == 2\n\n        n_noises = round(self.noise_rate * goal_shape[len_dim] / use_sample_rate)\n        start_pointers = [\n            round(rand_uniform(0, goal_shape[len_dim])) for _ in range(n_noises)\n        ]\n\n        for start_pointer in start_pointers:\n            noise_shape = list(goal_shape)\n            len_seconds = np.random.normal(self.noise_len_mean, self.noise_len_std)\n            noise_shape[len_dim] = round(max(0, len_seconds) * use_sample_rate)\n            end_pointer = start_pointer + noise_shape[len_dim]\n            if end_pointer >= goal_shape[len_dim]:\n                continue\n\n            noise = self.pick_sample(noise_shape, always_2d, use_sample_rate)\n            if is_2d:\n                agg_noise[:, start_pointer:end_pointer] = (\n                    agg_noise[:, start_pointer:end_pointer] + noise\n                )\n            else:\n                agg_noise[start_pointer:end_pointer] = (\n                    agg_noise[start_pointer:end_pointer] + noise\n                )\n\n        return agg_noise\n"
  },
  {
    "path": "fairseq/data/backtranslation_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nfrom fairseq import utils\n\nfrom . import FairseqDataset\n\n\ndef backtranslate_samples(samples, collate_fn, generate_fn, cuda=True):\n    \"\"\"Backtranslate a list of samples.\n\n    Given an input (*samples*) of the form:\n\n        [{'id': 1, 'source': 'hallo welt'}]\n\n    this will return:\n\n        [{'id': 1, 'source': 'hello world', 'target': 'hallo welt'}]\n\n    Args:\n        samples (List[dict]): samples to backtranslate. Individual samples are\n            expected to have a 'source' key, which will become the 'target'\n            after backtranslation.\n        collate_fn (callable): function to collate samples into a mini-batch\n        generate_fn (callable): function to generate backtranslations\n        cuda (bool): use GPU for generation (default: ``True``)\n\n    Returns:\n        List[dict]: an updated list of samples with a backtranslated source\n    \"\"\"\n    collated_samples = collate_fn(samples)\n    s = utils.move_to_cuda(collated_samples) if cuda else collated_samples\n    generated_sources = generate_fn(s)\n\n    id_to_src = {sample[\"id\"]: sample[\"source\"] for sample in samples}\n\n    # Go through each tgt sentence in batch and its corresponding best\n    # generated hypothesis and create a backtranslation data pair\n    # {id: id, source: generated backtranslation, target: original tgt}\n    return [\n        {\n            \"id\": id.item(),\n            \"target\": id_to_src[id.item()],\n            \"source\": hypos[0][\"tokens\"].cpu(),\n        }\n        for id, hypos in zip(collated_samples[\"id\"], generated_sources)\n    ]\n\n\nclass BacktranslationDataset(FairseqDataset):\n    \"\"\"\n    Sets up a backtranslation dataset which takes a tgt batch, generates\n    a src using a tgt-src backtranslation function (*backtranslation_fn*),\n    and returns the corresponding `{generated src, input tgt}` batch.\n\n    Args:\n        tgt_dataset (~fairseq.data.FairseqDataset): the dataset to be\n            backtranslated. Only the source side of this dataset will be used.\n            After backtranslation, the source sentences in this dataset will be\n            returned as the targets.\n        src_dict (~fairseq.data.Dictionary): the dictionary of backtranslated\n            sentences.\n        tgt_dict (~fairseq.data.Dictionary, optional): the dictionary of\n            sentences to be backtranslated.\n        backtranslation_fn (callable, optional): function to call to generate\n            backtranslations. This is typically the `generate` method of a\n            :class:`~fairseq.sequence_generator.SequenceGenerator` object.\n            Pass in None when it is not available at initialization time, and\n            use set_backtranslation_fn function to set it when available.\n        output_collater (callable, optional): function to call on the\n            backtranslated samples to create the final batch\n            (default: ``tgt_dataset.collater``).\n        cuda: use GPU for generation\n    \"\"\"\n\n    def __init__(\n        self,\n        tgt_dataset,\n        src_dict,\n        tgt_dict=None,\n        backtranslation_fn=None,\n        output_collater=None,\n        cuda=True,\n        **kwargs\n    ):\n        self.tgt_dataset = tgt_dataset\n        self.backtranslation_fn = backtranslation_fn\n        self.output_collater = (\n            output_collater if output_collater is not None else tgt_dataset.collater\n        )\n        self.cuda = cuda if torch.cuda.is_available() else False\n        self.src_dict = src_dict\n        self.tgt_dict = tgt_dict\n\n    def __getitem__(self, index):\n        \"\"\"\n        Returns a single sample from *tgt_dataset*. Note that backtranslation is\n        not applied in this step; use :func:`collater` instead to backtranslate\n        a batch of samples.\n        \"\"\"\n        return self.tgt_dataset[index]\n\n    def __len__(self):\n        return len(self.tgt_dataset)\n\n    def set_backtranslation_fn(self, backtranslation_fn):\n        self.backtranslation_fn = backtranslation_fn\n\n    def collater(self, samples):\n        \"\"\"Merge and backtranslate a list of samples to form a mini-batch.\n\n        Using the samples from *tgt_dataset*, load a collated target sample to\n        feed to the backtranslation model. Then take the backtranslation with\n        the best score as the source and the original input as the target.\n\n        Note: we expect *tgt_dataset* to provide a function `collater()` that\n        will collate samples into the format expected by *backtranslation_fn*.\n        After backtranslation, we will feed the new list of samples (i.e., the\n        `(backtranslated source, original source)` pairs) to *output_collater*\n        and return the result.\n\n        Args:\n            samples (List[dict]): samples to backtranslate and collate\n\n        Returns:\n            dict: a mini-batch with keys coming from *output_collater*\n        \"\"\"\n        if samples[0].get(\"is_dummy\", False):\n            return samples\n        samples = backtranslate_samples(\n            samples=samples,\n            collate_fn=self.tgt_dataset.collater,\n            generate_fn=(lambda net_input: self.backtranslation_fn(net_input)),\n            cuda=self.cuda,\n        )\n        return self.output_collater(samples)\n\n    def num_tokens(self, index):\n        \"\"\"Just use the tgt dataset num_tokens\"\"\"\n        return self.tgt_dataset.num_tokens(index)\n\n    def ordered_indices(self):\n        \"\"\"Just use the tgt dataset ordered_indices\"\"\"\n        return self.tgt_dataset.ordered_indices()\n\n    def size(self, index):\n        \"\"\"Return an example's size as a float or tuple. This value is used\n        when filtering a dataset with ``--max-positions``.\n\n        Note: we use *tgt_dataset* to approximate the length of the source\n        sentence, since we do not know the actual length until after\n        backtranslation.\n        \"\"\"\n        tgt_size = self.tgt_dataset.size(index)[0]\n        return (tgt_size, tgt_size)\n\n    @property\n    def supports_prefetch(self):\n        return getattr(self.tgt_dataset, \"supports_prefetch\", False)\n\n    def prefetch(self, indices):\n        return self.tgt_dataset.prefetch(indices)\n"
  },
  {
    "path": "fairseq/data/base_wrapper_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom torch.utils.data.dataloader import default_collate\n\nfrom . import FairseqDataset\n\n\nclass BaseWrapperDataset(FairseqDataset):\n    def __init__(self, dataset):\n        super().__init__()\n        self.dataset = dataset\n\n    def __getitem__(self, index):\n        return self.dataset[index]\n\n    def __len__(self):\n        return len(self.dataset)\n\n    def collater(self, samples):\n        if hasattr(self.dataset, \"collater\"):\n            return self.dataset.collater(samples)\n        else:\n            return default_collate(samples)\n\n    @property\n    def sizes(self):\n        return self.dataset.sizes\n\n    def num_tokens(self, index):\n        return self.dataset.num_tokens(index)\n\n    def size(self, index):\n        return self.dataset.size(index)\n\n    def ordered_indices(self):\n        return self.dataset.ordered_indices()\n\n    @property\n    def supports_prefetch(self):\n        return getattr(self.dataset, \"supports_prefetch\", False)\n\n    def attr(self, attr: str, index: int):\n        return self.dataset.attr(attr, index)\n\n    def prefetch(self, indices):\n        self.dataset.prefetch(indices)\n\n    def get_batch_shapes(self):\n        return self.dataset.get_batch_shapes()\n\n    def batch_by_size(\n        self,\n        indices,\n        max_tokens=None,\n        max_sentences=None,\n        required_batch_size_multiple=1,\n    ):\n        return self.dataset.batch_by_size(\n            indices,\n            max_tokens=max_tokens,\n            max_sentences=max_sentences,\n            required_batch_size_multiple=required_batch_size_multiple,\n        )\n\n    def filter_indices_by_size(self, indices, max_sizes):\n        return self.dataset.filter_indices_by_size(indices, max_sizes)\n\n    @property\n    def can_reuse_epoch_itr_across_epochs(self):\n        return self.dataset.can_reuse_epoch_itr_across_epochs\n\n    def set_epoch(self, epoch):\n        super().set_epoch(epoch)\n        if hasattr(self.dataset, \"set_epoch\"):\n            self.dataset.set_epoch(epoch)\n"
  },
  {
    "path": "fairseq/data/bucket_pad_length_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch.nn.functional as F\nfrom fairseq.data import BaseWrapperDataset\nfrom fairseq.data.data_utils import get_buckets, get_bucketed_sizes\n\n\nclass BucketPadLengthDataset(BaseWrapperDataset):\n    \"\"\"\n    Bucket and pad item lengths to the nearest bucket size. This can be used to\n    reduce the number of unique batch shapes, which is important on TPUs since\n    each new batch shape requires a recompilation.\n\n    Args:\n        dataset (FairseqDatset): dataset to bucket\n        sizes (List[int]): all item sizes\n        num_buckets (int): number of buckets to create\n        pad_idx (int): padding symbol\n        left_pad (bool): if True, pad on the left; otherwise right pad\n    \"\"\"\n\n    def __init__(\n        self,\n        dataset,\n        sizes,\n        num_buckets,\n        pad_idx,\n        left_pad,\n        tensor_key=None,\n    ):\n        super().__init__(dataset)\n        self.pad_idx = pad_idx\n        self.left_pad = left_pad\n\n        assert num_buckets > 0\n        self.buckets = get_buckets(sizes, num_buckets)\n        self._bucketed_sizes = get_bucketed_sizes(sizes, self.buckets)\n        self._tensor_key = tensor_key\n\n    def _set_tensor(self, item, val):\n        if self._tensor_key is None:\n            return val\n        item[self._tensor_key] = val\n        return item\n\n    def _get_tensor(self, item):\n        if self._tensor_key is None:\n            return item\n        return item[self._tensor_key]\n\n    def _pad(self, tensor, bucket_size, dim=-1):\n        num_pad = bucket_size - tensor.size(dim)\n        return F.pad(\n            tensor,\n            (num_pad if self.left_pad else 0, 0 if self.left_pad else num_pad),\n            value=self.pad_idx,\n        )\n\n    def __getitem__(self, index):\n        item = self.dataset[index]\n        bucket_size = self._bucketed_sizes[index]\n        tensor = self._get_tensor(item)\n        padded = self._pad(tensor, bucket_size)\n        return self._set_tensor(item, padded)\n\n    @property\n    def sizes(self):\n        return self._bucketed_sizes\n\n    def num_tokens(self, index):\n        return self._bucketed_sizes[index]\n\n    def size(self, index):\n        return self._bucketed_sizes[index]\n"
  },
  {
    "path": "fairseq/data/codedataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport json\nimport logging\nimport os\nimport random\nfrom pathlib import Path\n\nimport numpy as np\nimport torch\nimport torch.utils.data\n\nfrom . import data_utils\nfrom fairseq.data.fairseq_dataset import FairseqDataset\n\nF0_FRAME_SPACE = 0.005  # sec\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass ExpressiveCodeDataConfig(object):\n    def __init__(self, json_path):\n        with open(json_path, \"r\") as f:\n            self.config = json.load(f)\n        self._manifests = self.config[\"manifests\"]\n\n    @property\n    def manifests(self):\n        return self._manifests\n\n    @property\n    def n_units(self):\n        return self.config[\"n_units\"]\n\n    @property\n    def sampling_rate(self):\n        return self.config[\"sampling_rate\"]\n\n    @property\n    def code_hop_size(self):\n        return self.config[\"code_hop_size\"]\n\n    @property\n    def f0_stats(self):\n        \"\"\"pre-computed f0 statistics path\"\"\"\n        return self.config.get(\"f0_stats\", None)\n\n    @property\n    def f0_vq_type(self):\n        \"\"\"naive or precomp\"\"\"\n        return self.config[\"f0_vq_type\"]\n\n    @property\n    def f0_vq_name(self):\n        return self.config[\"f0_vq_name\"]\n\n    def get_f0_vq_naive_quantizer(self, log, norm_mean, norm_std):\n        key = \"log\" if log else \"linear\"\n        if norm_mean and norm_std:\n            key += \"_mean_std_norm\"\n        elif norm_mean:\n            key += \"_mean_norm\"\n        else:\n            key += \"_none_norm\"\n        return self.config[\"f0_vq_naive_quantizer\"][key]\n\n    @property\n    def f0_vq_n_units(self):\n        return self.config[\"f0_vq_n_units\"]\n\n    @property\n    def multispkr(self):\n        \"\"\"how to parse speaker label from audio path\"\"\"\n        return self.config.get(\"multispkr\", None)\n\n\ndef get_f0(audio, rate=16000):\n    try:\n        import amfm_decompy.basic_tools as basic\n        import amfm_decompy.pYAAPT as pYAAPT\n        from librosa.util import normalize\n    except ImportError:\n        raise \"Please install amfm_decompy (`pip install AMFM-decompy`) and librosa (`pip install librosa`).\"\n\n    assert audio.ndim == 1\n    frame_length = 20.0  # ms\n    to_pad = int(frame_length / 1000 * rate) // 2\n\n    audio = normalize(audio) * 0.95\n    audio = np.pad(audio, (to_pad, to_pad), \"constant\", constant_values=0)\n    audio = basic.SignalObj(audio, rate)\n    pitch = pYAAPT.yaapt(\n        audio,\n        frame_length=frame_length,\n        frame_space=F0_FRAME_SPACE * 1000,\n        nccf_thresh1=0.25,\n        tda_frame_length=25.0,\n    )\n    f0 = pitch.samp_values\n    return f0\n\n\ndef interpolate_f0(f0):\n    try:\n        from scipy.interpolate import interp1d\n    except ImportError:\n        raise \"Please install scipy (`pip install scipy`)\"\n\n    orig_t = np.arange(f0.shape[0])\n    f0_interp = f0[:]\n    ii = f0_interp != 0\n    if ii.sum() > 1:\n        f0_interp = interp1d(\n            orig_t[ii], f0_interp[ii], bounds_error=False, kind=\"linear\", fill_value=0\n        )(orig_t)\n        f0_interp = torch.Tensor(f0_interp).type_as(f0).to(f0.device)\n    return f0_interp\n\n\ndef naive_quantize(x, edges):\n    bin_idx = (x.view(-1, 1) > edges.view(1, -1)).long().sum(dim=1)\n    return bin_idx\n\n\ndef load_wav(full_path):\n    try:\n        import soundfile as sf\n    except ImportError:\n        raise \"Please install soundfile (`pip install SoundFile`)\"\n    data, sampling_rate = sf.read(full_path)\n    return data, sampling_rate\n\n\ndef parse_code(code_str, dictionary, append_eos):\n    code, duration = torch.unique_consecutive(\n        torch.ShortTensor(list(map(int, code_str.split()))), return_counts=True\n    )\n    code = \" \".join(map(str, code.tolist()))\n    code = dictionary.encode_line(code, append_eos).short()\n\n    if append_eos:\n        duration = torch.cat((duration, duration.new_zeros((1,))), dim=0)  # eos\n    duration = duration.short()\n    return code, duration\n\n\ndef parse_manifest(manifest, dictionary):\n    audio_files = []\n    codes = []\n    durations = []\n    speakers = []\n\n    with open(manifest) as info:\n        for line in info.readlines():\n            sample = eval(line.strip())\n            if \"cpc_km100\" in sample:\n                k = \"cpc_km100\"\n            elif \"hubert_km100\" in sample:\n                k = \"hubert_km100\"\n            elif \"phone\" in sample:\n                k = \"phone\"\n            else:\n                assert False, \"unknown format\"\n            code = sample[k]\n            code, duration = parse_code(code, dictionary, append_eos=True)\n\n            codes.append(code)\n            durations.append(duration)\n            audio_files.append(sample[\"audio\"])\n            speakers.append(sample.get(\"speaker\", None))\n\n    return audio_files, codes, durations, speakers\n\n\ndef parse_speaker(path, method):\n    if type(path) == str:\n        path = Path(path)\n\n    if method == \"parent_name\":\n        return path.parent.name\n    elif method == \"parent_parent_name\":\n        return path.parent.parent.name\n    elif method == \"_\":\n        return path.name.split(\"_\")[0]\n    elif method == \"single\":\n        return \"A\"\n    elif callable(method):\n        return method(path)\n    else:\n        raise NotImplementedError()\n\n\ndef get_f0_by_filename(filename, tgt_sampling_rate):\n    audio, sampling_rate = load_wav(filename)\n    if sampling_rate != tgt_sampling_rate:\n        raise ValueError(\n            \"{} SR doesn't match target {} SR\".format(sampling_rate, tgt_sampling_rate)\n        )\n\n    # compute un-interpolated f0, and use Ann's interp in __getitem__ if set\n    f0 = get_f0(audio, rate=tgt_sampling_rate)\n    f0 = torch.from_numpy(f0.astype(np.float32))\n    return f0\n\n\ndef align_f0_to_durations(f0, durations, f0_code_ratio, tol=1):\n    code_len = durations.sum()\n    targ_len = int(f0_code_ratio * code_len)\n    diff = f0.size(0) - targ_len\n    assert abs(diff) <= tol, (\n        f\"Cannot subsample F0: |{f0.size(0)} - {f0_code_ratio}*{code_len}|\"\n        f\" > {tol} (dur=\\n{durations})\"\n    )\n    if diff > 0:\n        f0 = f0[:targ_len]\n    elif diff < 0:\n        f0 = torch.cat((f0, f0.new_full((-diff,), f0[-1])), 0)\n\n    f0_offset = 0.0\n    seg_f0s = []\n    for dur in durations:\n        f0_dur = dur.item() * f0_code_ratio\n        seg_f0 = f0[int(f0_offset) : int(f0_offset + f0_dur)]\n        seg_f0 = seg_f0[seg_f0 != 0]\n        if len(seg_f0) == 0:\n            seg_f0 = torch.tensor(0).type(seg_f0.type())\n        else:\n            seg_f0 = seg_f0.mean()\n        seg_f0s.append(seg_f0)\n        f0_offset += f0_dur\n\n    assert int(f0_offset) == f0.size(0), f\"{f0_offset} {f0.size()} {durations.sum()}\"\n    return torch.tensor(seg_f0s)\n\n\nclass Paddings(object):\n    def __init__(self, code_val, dur_val=0, f0_val=-2.0):\n        self.code = code_val\n        self.dur = dur_val\n        self.f0 = f0_val\n\n\nclass Shifts(object):\n    def __init__(self, shifts_str, pads):\n        self._shifts = list(map(int, shifts_str.split(\",\")))\n        assert len(self._shifts) == 2, self._shifts\n        assert all(s >= 0 for s in self._shifts)\n        self.extra_length = max(s for s in self._shifts)\n        self.pads = pads\n\n    @property\n    def dur(self):\n        return self._shifts[0]\n\n    @property\n    def f0(self):\n        return self._shifts[1]\n\n    @staticmethod\n    def shift_one(seq, left_pad_num, right_pad_num, pad):\n        assert seq.ndim == 1\n        bos = seq.new_full((left_pad_num,), pad)\n        eos = seq.new_full((right_pad_num,), pad)\n        seq = torch.cat([bos, seq, eos])\n        mask = torch.ones_like(seq).bool()\n        mask[left_pad_num : len(seq) - right_pad_num] = 0\n        return seq, mask\n\n    def __call__(self, code, dur, f0):\n        if self.extra_length == 0:\n            code_mask = torch.zeros_like(code).bool()\n            dur_mask = torch.zeros_like(dur).bool()\n            f0_mask = torch.zeros_like(f0).bool()\n            return code, code_mask, dur, dur_mask, f0, f0_mask\n\n        code, code_mask = self.shift_one(code, 0, self.extra_length, self.pads.code)\n        dur, dur_mask = self.shift_one(\n            dur, self.dur, self.extra_length - self.dur, self.pads.dur\n        )\n        f0, f0_mask = self.shift_one(\n            f0, self.f0, self.extra_length - self.f0, self.pads.f0\n        )\n        return code, code_mask, dur, dur_mask, f0, f0_mask\n\n\nclass CodeDataset(FairseqDataset):\n    def __init__(\n        self,\n        manifest,\n        dictionary,\n        dur_dictionary,\n        f0_dictionary,\n        config,\n        discrete_dur,\n        discrete_f0,\n        log_f0,\n        normalize_f0_mean,\n        normalize_f0_std,\n        interpolate_f0,\n        return_filename=False,\n        strip_filename=True,\n        shifts=\"0,0\",\n        return_continuous_f0=False,\n    ):\n        random.seed(1234)\n        self.dictionary = dictionary\n        self.dur_dictionary = dur_dictionary\n        self.f0_dictionary = f0_dictionary\n        self.config = config\n\n        # duration config\n        self.discrete_dur = discrete_dur\n\n        # pitch config\n        self.discrete_f0 = discrete_f0\n        self.log_f0 = log_f0\n        self.normalize_f0_mean = normalize_f0_mean\n        self.normalize_f0_std = normalize_f0_std\n        self.interpolate_f0 = interpolate_f0\n\n        self.return_filename = return_filename\n        self.strip_filename = strip_filename\n        self.f0_code_ratio = config.code_hop_size / (\n            config.sampling_rate * F0_FRAME_SPACE\n        )\n\n        # use lazy loading to avoid sharing file handlers across workers\n        self.manifest = manifest\n        self._codes = None\n        self._durs = None\n        self._f0s = None\n        with open(f\"{manifest}.leng.txt\", \"r\") as f:\n            lengs = [int(line.rstrip()) for line in f]\n            edges = np.cumsum([0] + lengs)\n            self.starts, self.ends = edges[:-1], edges[1:]\n        with open(f\"{manifest}.path.txt\", \"r\") as f:\n            self.file_names = [line.rstrip() for line in f]\n        logger.info(f\"num entries: {len(self.starts)}\")\n\n        if os.path.exists(f\"{manifest}.f0_stat.pt\"):\n            self.f0_stats = torch.load(f\"{manifest}.f0_stat.pt\")\n        elif config.f0_stats:\n            self.f0_stats = torch.load(config.f0_stats)\n\n        self.multispkr = config.multispkr\n        if config.multispkr:\n            with open(f\"{manifest}.speaker.txt\", \"r\") as f:\n                self.spkrs = [line.rstrip() for line in f]\n            self.id_to_spkr = sorted(self.spkrs)\n            self.spkr_to_id = {k: v for v, k in enumerate(self.id_to_spkr)}\n\n        self.pads = Paddings(\n            dictionary.pad(),\n            0,  # use 0 for duration padding\n            f0_dictionary.pad() if discrete_f0 else -5.0,\n        )\n        self.shifts = Shifts(shifts, pads=self.pads)\n        self.return_continuous_f0 = return_continuous_f0\n\n    def get_data_handlers(self):\n        logging.info(f\"loading data for {self.manifest}\")\n        self._codes = np.load(f\"{self.manifest}.code.npy\", mmap_mode=\"r\")\n        self._durs = np.load(f\"{self.manifest}.dur.npy\", mmap_mode=\"r\")\n\n        if self.discrete_f0:\n            if self.config.f0_vq_type == \"precomp\":\n                self._f0s = np.load(\n                    f\"{self.manifest}.{self.config.f0_vq_name}.npy\", mmap_mode=\"r\"\n                )\n            elif self.config.f0_vq_type == \"naive\":\n                self._f0s = np.load(f\"{self.manifest}.f0.npy\", mmap_mode=\"r\")\n                quantizers_path = self.config.get_f0_vq_naive_quantizer(\n                    self.log_f0, self.normalize_f0_mean, self.normalize_f0_std\n                )\n                quantizers = torch.load(quantizers_path)\n                n_units = self.config.f0_vq_n_units\n                self._f0_quantizer = torch.from_numpy(quantizers[n_units])\n            else:\n                raise ValueError(f\"f0_vq_type {self.config.f0_vq_type} not supported\")\n        else:\n            self._f0s = np.load(f\"{self.manifest}.f0.npy\", mmap_mode=\"r\")\n\n    def preprocess_f0(self, f0, stats):\n        \"\"\"\n        1. interpolate\n        2. log transform (keep unvoiced frame 0)\n        \"\"\"\n        # TODO: change this to be dependent on config for naive quantizer\n        f0 = f0.clone()\n        if self.interpolate_f0:\n            f0 = interpolate_f0(f0)\n\n        mask = f0 != 0  # only process voiced frames\n        if self.log_f0:\n            f0[mask] = f0[mask].log()\n        if self.normalize_f0_mean:\n            mean = stats[\"logf0_mean\"] if self.log_f0 else stats[\"f0_mean\"]\n            f0[mask] = f0[mask] - mean\n        if self.normalize_f0_std:\n            std = stats[\"logf0_std\"] if self.log_f0 else stats[\"f0_std\"]\n            f0[mask] = f0[mask] / std\n        return f0\n\n    def _get_raw_item(self, index):\n        start, end = self.starts[index], self.ends[index]\n        if self._codes is None:\n            self.get_data_handlers()\n        code = torch.from_numpy(np.array(self._codes[start:end])).long()\n        dur = torch.from_numpy(np.array(self._durs[start:end]))\n        f0 = torch.from_numpy(np.array(self._f0s[start:end]))\n        return code, dur, f0\n\n    def __getitem__(self, index):\n        code, dur, f0 = self._get_raw_item(index)\n        code = torch.cat([code.new([self.dictionary.bos()]), code])\n\n        # use 0 for eos and bos\n        dur = torch.cat([dur.new([0]), dur])\n        if self.discrete_dur:\n            dur = self.dur_dictionary.encode_line(\n                \" \".join(map(str, dur.tolist())), append_eos=False\n            ).long()\n        else:\n            dur = dur.float()\n\n        # TODO: find a more elegant approach\n        raw_f0 = None\n        if self.discrete_f0:\n            if self.config.f0_vq_type == \"precomp\":\n                f0 = self.f0_dictionary.encode_line(\n                    \" \".join(map(str, f0.tolist())), append_eos=False\n                ).long()\n            else:\n                f0 = f0.float()\n                f0 = self.preprocess_f0(f0, self.f0_stats[self.spkrs[index]])\n                if self.return_continuous_f0:\n                    raw_f0 = f0\n                    raw_f0 = torch.cat([raw_f0.new([self.f0_dictionary.bos()]), raw_f0])\n                f0 = naive_quantize(f0, self._f0_quantizer)\n            f0 = torch.cat([f0.new([self.f0_dictionary.bos()]), f0])\n        else:\n            f0 = f0.float()\n            if self.multispkr:\n                f0 = self.preprocess_f0(f0, self.f0_stats[self.spkrs[index]])\n            else:\n                f0 = self.preprocess_f0(f0, self.f0_stats)\n            f0 = torch.cat([f0.new([0]), f0])\n\n        if raw_f0 is not None:\n            *_, raw_f0, raw_f0_mask = self.shifts(code, dur, raw_f0)\n        else:\n            raw_f0_mask = None\n\n        code, code_mask, dur, dur_mask, f0, f0_mask = self.shifts(code, dur, f0)\n        if raw_f0_mask is not None:\n            assert (raw_f0_mask == f0_mask).all()\n\n        # is a padded frame if either input or output is padded\n        feats = {\n            \"source\": code[:-1],\n            \"target\": code[1:],\n            \"mask\": code_mask[1:].logical_or(code_mask[:-1]),\n            \"dur_source\": dur[:-1],\n            \"dur_target\": dur[1:],\n            \"dur_mask\": dur_mask[1:].logical_or(dur_mask[:-1]),\n            \"f0_source\": f0[:-1],\n            \"f0_target\": f0[1:],\n            \"f0_mask\": f0_mask[1:].logical_or(f0_mask[:-1]),\n        }\n\n        if raw_f0 is not None:\n            feats[\"raw_f0\"] = raw_f0[1:]\n\n        if self.return_filename:\n            fname = self.file_names[index]\n            feats[\"filename\"] = (\n                fname if not self.strip_filename else Path(fname).with_suffix(\"\").name\n            )\n        return feats\n\n    def __len__(self):\n        return len(self.starts)\n\n    def size(self, index):\n        return self.ends[index] - self.starts[index] + self.shifts.extra_length\n\n    def num_tokens(self, index):\n        return self.size(index)\n\n    def collater(self, samples):\n        pad_idx, eos_idx = self.dictionary.pad(), self.dictionary.eos()\n        if len(samples) == 0:\n            return {}\n\n        src_tokens = data_utils.collate_tokens(\n            [s[\"source\"] for s in samples], pad_idx, eos_idx, left_pad=False\n        )\n\n        tgt_tokens = data_utils.collate_tokens(\n            [s[\"target\"] for s in samples],\n            pad_idx=pad_idx,\n            eos_idx=pad_idx,  # appending padding, eos is there already\n            left_pad=False,\n        )\n\n        src_durs, tgt_durs = [\n            data_utils.collate_tokens(\n                [s[k] for s in samples],\n                pad_idx=self.pads.dur,\n                eos_idx=self.pads.dur,\n                left_pad=False,\n            )\n            for k in [\"dur_source\", \"dur_target\"]\n        ]\n\n        src_f0s, tgt_f0s = [\n            data_utils.collate_tokens(\n                [s[k] for s in samples],\n                pad_idx=self.pads.f0,\n                eos_idx=self.pads.f0,\n                left_pad=False,\n            )\n            for k in [\"f0_source\", \"f0_target\"]\n        ]\n\n        mask, dur_mask, f0_mask = [\n            data_utils.collate_tokens(\n                [s[k] for s in samples],\n                pad_idx=1,\n                eos_idx=1,\n                left_pad=False,\n            )\n            for k in [\"mask\", \"dur_mask\", \"f0_mask\"]\n        ]\n\n        src_lengths = torch.LongTensor([s[\"source\"].numel() for s in samples])\n        n_tokens = sum(len(s[\"source\"]) for s in samples)\n\n        result = {\n            \"nsentences\": len(samples),\n            \"ntokens\": n_tokens,\n            \"net_input\": {\n                \"src_tokens\": src_tokens,\n                \"src_lengths\": src_lengths,\n                \"dur_src\": src_durs,\n                \"f0_src\": src_f0s,\n            },\n            \"target\": tgt_tokens,\n            \"dur_target\": tgt_durs,\n            \"f0_target\": tgt_f0s,\n            \"mask\": mask,\n            \"dur_mask\": dur_mask,\n            \"f0_mask\": f0_mask,\n        }\n\n        if \"filename\" in samples[0]:\n            result[\"filename\"] = [s[\"filename\"] for s in samples]\n\n        # TODO: remove this hack into the inference dataset\n        if \"prefix\" in samples[0]:\n            result[\"prefix\"] = [s[\"prefix\"] for s in samples]\n\n        if \"raw_f0\" in samples[0]:\n            raw_f0s = data_utils.collate_tokens(\n                [s[\"raw_f0\"] for s in samples],\n                pad_idx=self.pads.f0,\n                eos_idx=self.pads.f0,\n                left_pad=False,\n            )\n            result[\"raw_f0\"] = raw_f0s\n        return result\n"
  },
  {
    "path": "fairseq/data/colorize_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\nfrom . import BaseWrapperDataset\n\n\nclass ColorizeDataset(BaseWrapperDataset):\n    \"\"\"Adds 'colors' property to net input that is obtained from the provided color getter for use by models\"\"\"\n\n    def __init__(self, dataset, color_getter):\n        super().__init__(dataset)\n        self.color_getter = color_getter\n\n    def collater(self, samples):\n        base_collate = super().collater(samples)\n        if len(base_collate) > 0:\n            base_collate[\"net_input\"][\"colors\"] = torch.tensor(\n                list(self.color_getter(self.dataset, s[\"id\"]) for s in samples),\n                dtype=torch.long,\n            )\n        return base_collate\n"
  },
  {
    "path": "fairseq/data/concat_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport bisect\n\nimport numpy as np\nfrom torch.utils.data.dataloader import default_collate\n\nfrom . import FairseqDataset\n\n\nclass ConcatDataset(FairseqDataset):\n    @staticmethod\n    def cumsum(sequence, sample_ratios):\n        r, s = [], 0\n        for e, ratio in zip(sequence, sample_ratios):\n            curr_len = int(ratio * len(e))\n            r.append(curr_len + s)\n            s += curr_len\n        return r\n\n    def __init__(self, datasets, sample_ratios=1):\n        super(ConcatDataset, self).__init__()\n        assert len(datasets) > 0, \"datasets should not be an empty iterable\"\n        self.datasets = list(datasets)\n        if isinstance(sample_ratios, int):\n            sample_ratios = [sample_ratios] * len(self.datasets)\n        self.sample_ratios = sample_ratios\n        self.cumulative_sizes = self.cumsum(self.datasets, sample_ratios)\n        self.real_sizes = [len(d) for d in self.datasets]\n\n    def __len__(self):\n        return self.cumulative_sizes[-1]\n\n    def __getitem__(self, idx):\n        dataset_idx, sample_idx = self._get_dataset_and_sample_index(idx)\n        return self.datasets[dataset_idx][sample_idx]\n\n    def _get_dataset_and_sample_index(self, idx: int):\n        dataset_idx = bisect.bisect_right(self.cumulative_sizes, idx)\n        if dataset_idx == 0:\n            sample_idx = idx\n        else:\n            sample_idx = idx - self.cumulative_sizes[dataset_idx - 1]\n        sample_idx = sample_idx % self.real_sizes[dataset_idx]\n        return dataset_idx, sample_idx\n\n    def collater(self, samples, **extra_args):\n        # For now only supports datasets with same underlying collater implementations\n        if hasattr(self.datasets[0], \"collater\"):\n            return self.datasets[0].collater(samples, **extra_args)\n        else:\n            return default_collate(samples, **extra_args)\n\n    def size(self, idx: int):\n        \"\"\"\n        Return an example's size as a float or tuple.\n        \"\"\"\n        dataset_idx, sample_idx = self._get_dataset_and_sample_index(idx)\n        return self.datasets[dataset_idx].size(sample_idx)\n\n    def num_tokens(self, index: int):\n        return np.max(self.size(index))\n\n    def attr(self, attr: str, index: int):\n        dataset_idx = bisect.bisect_right(self.cumulative_sizes, index)\n        return getattr(self.datasets[dataset_idx], attr, None)\n\n    @property\n    def sizes(self):\n        _dataset_sizes = []\n        for ds, sr in zip(self.datasets, self.sample_ratios):\n            if isinstance(ds.sizes, np.ndarray):\n                _dataset_sizes.append(np.tile(ds.sizes, sr))\n            else:\n                # Only support underlying dataset with single size array.\n                assert isinstance(ds.sizes, list)\n                _dataset_sizes.append(np.tile(ds.sizes[0], sr))\n        return np.concatenate(_dataset_sizes)\n\n    @property\n    def supports_prefetch(self):\n        return all(d.supports_prefetch for d in self.datasets)\n\n    def ordered_indices(self):\n        \"\"\"\n        Returns indices sorted by length. So less padding is needed.\n        \"\"\"\n        if isinstance(self.sizes, np.ndarray) and len(self.sizes.shape) > 1:\n            # special handling for concatenating lang_pair_datasets\n            indices = np.arange(len(self))\n            sizes = self.sizes\n            tgt_sizes = (\n                sizes[:, 1] if len(sizes.shape) > 0 and sizes.shape[1] > 1 else None\n            )\n            src_sizes = (\n                sizes[:, 0] if len(sizes.shape) > 0 and sizes.shape[1] > 1 else sizes\n            )\n            # sort by target length, then source length\n            if tgt_sizes is not None:\n                indices = indices[np.argsort(tgt_sizes[indices], kind=\"mergesort\")]\n            return indices[np.argsort(src_sizes[indices], kind=\"mergesort\")]\n        else:\n            return np.argsort(self.sizes)\n\n    def prefetch(self, indices):\n        frm = 0\n        for to, ds in zip(self.cumulative_sizes, self.datasets):\n            real_size = len(ds)\n            if getattr(ds, \"supports_prefetch\", False):\n                ds.prefetch([(i - frm) % real_size for i in indices if frm <= i < to])\n            frm = to\n\n    @property\n    def can_reuse_epoch_itr_across_epochs(self):\n        return all(d.can_reuse_epoch_itr_across_epochs for d in self.datasets)\n\n    def set_epoch(self, epoch):\n        super().set_epoch(epoch)\n        for ds in self.datasets:\n            if hasattr(ds, \"set_epoch\"):\n                ds.set_epoch(epoch)\n"
  },
  {
    "path": "fairseq/data/concat_sentences_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\nfrom . import FairseqDataset\n\n\nclass ConcatSentencesDataset(FairseqDataset):\n    def __init__(self, *datasets):\n        super().__init__()\n        self.datasets = datasets\n        assert all(\n            len(ds) == len(datasets[0]) for ds in datasets\n        ), \"datasets must have the same length\"\n\n    def __getitem__(self, index):\n        return torch.cat([ds[index] for ds in self.datasets])\n\n    def __len__(self):\n        return len(self.datasets[0])\n\n    def collater(self, samples):\n        return self.datasets[0].collater(samples)\n\n    @property\n    def sizes(self):\n        return sum(ds.sizes for ds in self.datasets)\n\n    def num_tokens(self, index):\n        return sum(ds.num_tokens(index) for ds in self.datasets)\n\n    def size(self, index):\n        return sum(ds.size(index) for ds in self.datasets)\n\n    def ordered_indices(self):\n        return self.datasets[0].ordered_indices()\n\n    @property\n    def supports_prefetch(self):\n        return any(getattr(ds, \"supports_prefetch\", False) for ds in self.datasets)\n\n    def prefetch(self, indices):\n        for ds in self.datasets:\n            if getattr(ds, \"supports_prefetch\", False):\n                ds.prefetch(indices)\n\n    def set_epoch(self, epoch):\n        super().set_epoch(epoch)\n        for ds in self.datasets:\n            if hasattr(ds, \"set_epoch\"):\n                ds.set_epoch(epoch)\n"
  },
  {
    "path": "fairseq/data/data_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\ntry:\n    from collections.abc import Iterable\nexcept ImportError:\n    from collections import Iterable\nimport contextlib\nimport itertools\nimport logging\nimport re\nimport warnings\nfrom typing import Optional, Tuple\n\nimport math\nimport numpy as np\nimport torch\n\nfrom fairseq.file_io import PathManager\nfrom fairseq import utils\nimport os\n\nlogger = logging.getLogger(__name__)\n\n\ndef infer_language_pair(path):\n    \"\"\"Infer language pair from filename: <split>.<lang1>-<lang2>.(...).idx\"\"\"\n    src, dst = None, None\n    for filename in PathManager.ls(path):\n        parts = filename.split(\".\")\n        if len(parts) >= 3 and len(parts[1].split(\"-\")) == 2:\n            return parts[1].split(\"-\")\n    return src, dst\n\n\ndef collate_tokens(\n    values,\n    pad_idx,\n    eos_idx=None,\n    left_pad=False,\n    move_eos_to_beginning=False,\n    pad_to_length=None,\n    pad_to_multiple=1,\n    pad_to_bsz=None,\n):\n    \"\"\"Convert a list of 1d tensors into a padded 2d tensor.\"\"\"\n    size = max(v.size(0) for v in values)\n    size = size if pad_to_length is None else max(size, pad_to_length)\n    if pad_to_multiple != 1 and size % pad_to_multiple != 0:\n        size = int(((size - 0.1) // pad_to_multiple + 1) * pad_to_multiple)\n\n    batch_size = len(values) if pad_to_bsz is None else max(len(values), pad_to_bsz)\n    res = values[0].new(batch_size, size).fill_(pad_idx)\n\n    def copy_tensor(src, dst):\n        assert dst.numel() == src.numel()\n        if move_eos_to_beginning:\n            if eos_idx is None:\n                # if no eos_idx is specified, then use the last token in src\n                dst[0] = src[-1]\n            else:\n                dst[0] = eos_idx\n            dst[1:] = src[:-1]\n        else:\n            dst.copy_(src)\n\n    for i, v in enumerate(values):\n        copy_tensor(v, res[i][size - len(v) :] if left_pad else res[i][: len(v)])\n    return res\n\n\ndef load_indexed_dataset(\n    path, dictionary=None, dataset_impl=None, combine=False, default=\"cached\"\n):\n    \"\"\"A helper function for loading indexed datasets.\n\n    Args:\n        path (str): path to indexed dataset (e.g., 'data-bin/train')\n        dictionary (~fairseq.data.Dictionary): data dictionary\n        dataset_impl (str, optional): which dataset implementation to use. If\n            not provided, it will be inferred automatically. For legacy indexed\n            data we use the 'cached' implementation by default.\n        combine (bool, optional): automatically load and combine multiple\n            datasets. For example, if *path* is 'data-bin/train', then we will\n            combine 'data-bin/train', 'data-bin/train1', ... and return a\n            single ConcatDataset instance.\n    \"\"\"\n    import fairseq.data.indexed_dataset as indexed_dataset\n    from fairseq.data.concat_dataset import ConcatDataset\n\n    datasets = []\n    for k in itertools.count():\n        path_k = path + (str(k) if k > 0 else \"\")\n        try:\n            path_k = indexed_dataset.get_indexed_dataset_to_local(path_k)\n        except Exception as e:\n            if \"StorageException: [404] Path not found\" in str(e):\n                logger.warning(f\"path_k: {e} not found\")\n            else:\n                raise e\n\n        dataset_impl_k = dataset_impl\n        if dataset_impl_k is None:\n            dataset_impl_k = indexed_dataset.infer_dataset_impl(path_k)\n        dataset = indexed_dataset.make_dataset(\n            path_k,\n            impl=dataset_impl_k or default,\n            fix_lua_indexing=True,\n            dictionary=dictionary,\n        )\n        if dataset is None:\n            break\n        logger.info(\"loaded {:,} examples from: {}\".format(len(dataset), path_k))\n        datasets.append(dataset)\n        if not combine:\n            break\n    if len(datasets) == 0:\n        return None\n    elif len(datasets) == 1:\n        return datasets[0]\n    else:\n        return ConcatDataset(datasets)\n\n\n@contextlib.contextmanager\ndef numpy_seed(seed, *addl_seeds):\n    \"\"\"Context manager which seeds the NumPy PRNG with the specified seed and\n    restores the state afterward\"\"\"\n    if seed is None:\n        yield\n        return\n    if len(addl_seeds) > 0:\n        seed = int(hash((seed, *addl_seeds)) % 1e6)\n    state = np.random.get_state()\n    np.random.seed(seed)\n    try:\n        yield\n    finally:\n        np.random.set_state(state)\n\n\ndef collect_filtered(function, iterable, filtered):\n    \"\"\"\n    Similar to :func:`filter` but collects filtered elements in ``filtered``.\n\n    Args:\n        function (callable): function that returns ``False`` for elements that\n            should be filtered\n        iterable (iterable): iterable to filter\n        filtered (list): list to store filtered elements\n    \"\"\"\n    for el in iterable:\n        if function(el):\n            yield el\n        else:\n            filtered.append(el)\n\n\ndef _filter_by_size_dynamic(indices, size_fn, max_positions, raise_exception=False):\n    def compare_leq(a, b):\n        return a <= b if not isinstance(a, tuple) else max(a) <= b\n\n    def check_size(idx):\n        if isinstance(max_positions, float) or isinstance(max_positions, int):\n            return size_fn(idx) <= max_positions\n        elif isinstance(max_positions, dict):\n            idx_size = size_fn(idx)\n            assert isinstance(idx_size, dict)\n            intersect_keys = set(max_positions.keys()) & set(idx_size.keys())\n            return all(\n                all(\n                    a is None or b is None or a <= b\n                    for a, b in zip(idx_size[key], max_positions[key])\n                )\n                for key in intersect_keys\n            )\n        else:\n            # For MultiCorpusSampledDataset, will generalize it later\n            if not isinstance(size_fn(idx), Iterable):\n                return all(size_fn(idx) <= b for b in max_positions)\n            return all(\n                a is None or b is None or a <= b\n                for a, b in zip(size_fn(idx), max_positions)\n            )\n\n    ignored = []\n    itr = collect_filtered(check_size, indices, ignored)\n    indices = np.fromiter(itr, dtype=np.int64, count=-1)\n    return indices, ignored\n\n\ndef filter_by_size(indices, dataset, max_positions, raise_exception=False):\n    \"\"\"\n    [deprecated] Filter indices based on their size.\n    Use `FairseqDataset::filter_indices_by_size` instead.\n\n    Args:\n        indices (List[int]): ordered list of dataset indices\n        dataset (FairseqDataset): fairseq dataset instance\n        max_positions (tuple): filter elements larger than this size.\n            Comparisons are done component-wise.\n        raise_exception (bool, optional): if ``True``, raise an exception if\n            any elements are filtered (default: False).\n    \"\"\"\n    warnings.warn(\n        \"data_utils.filter_by_size is deprecated. \"\n        \"Use `FairseqDataset::filter_indices_by_size` instead.\",\n        stacklevel=2,\n    )\n    if isinstance(max_positions, float) or isinstance(max_positions, int):\n        if hasattr(dataset, \"sizes\") and isinstance(dataset.sizes, np.ndarray):\n            ignored = indices[dataset.sizes[indices] > max_positions].tolist()\n            indices = indices[dataset.sizes[indices] <= max_positions]\n        elif (\n            hasattr(dataset, \"sizes\")\n            and isinstance(dataset.sizes, list)\n            and len(dataset.sizes) == 1\n        ):\n            ignored = indices[dataset.sizes[0][indices] > max_positions].tolist()\n            indices = indices[dataset.sizes[0][indices] <= max_positions]\n        else:\n            indices, ignored = _filter_by_size_dynamic(\n                indices, dataset.size, max_positions\n            )\n    else:\n        indices, ignored = _filter_by_size_dynamic(indices, dataset.size, max_positions)\n\n    if len(ignored) > 0 and raise_exception:\n        raise Exception(\n            (\n                \"Size of sample #{} is invalid (={}) since max_positions={}, \"\n                \"skip this example with --skip-invalid-size-inputs-valid-test\"\n            ).format(ignored[0], dataset.size(ignored[0]), max_positions)\n        )\n    if len(ignored) > 0:\n        logger.warning(\n            (\n                \"{} samples have invalid sizes and will be skipped, \"\n                \"max_positions={}, first few sample ids={}\"\n            ).format(len(ignored), max_positions, ignored[:10])\n        )\n    return indices\n\n\ndef filter_paired_dataset_indices_by_size(src_sizes, tgt_sizes, indices, max_sizes):\n    \"\"\"Filter a list of sample indices. Remove those that are longer\n        than specified in max_sizes.\n\n    Args:\n        indices (np.array): original array of sample indices\n        max_sizes (int or list[int] or tuple[int]): max sample size,\n            can be defined separately for src and tgt (then list or tuple)\n\n    Returns:\n        np.array: filtered sample array\n        list: list of removed indices\n    \"\"\"\n    if max_sizes is None:\n        return indices, []\n    if type(max_sizes) in (int, float):\n        max_src_size, max_tgt_size = max_sizes, max_sizes\n    else:\n        max_src_size, max_tgt_size = max_sizes\n    if tgt_sizes is None:\n        ignored = indices[src_sizes[indices] > max_src_size]\n    else:\n        ignored = indices[\n            (src_sizes[indices] > max_src_size) | (tgt_sizes[indices] > max_tgt_size)\n        ]\n    if len(ignored) > 0:\n        if tgt_sizes is None:\n            indices = indices[src_sizes[indices] <= max_src_size]\n        else:\n            indices = indices[\n                (src_sizes[indices] <= max_src_size)\n                & (tgt_sizes[indices] <= max_tgt_size)\n            ]\n    return indices, ignored.tolist()\n\n\ndef batch_by_size(\n    indices,\n    num_tokens_fn,\n    num_tokens_vec=None,\n    max_tokens=None,\n    max_sentences=None,\n    required_batch_size_multiple=1,\n    fixed_shapes=None,\n):\n    \"\"\"\n    Yield mini-batches of indices bucketed by size. Batches may contain\n    sequences of different lengths.\n\n    Args:\n        indices (List[int]): ordered list of dataset indices\n        num_tokens_fn (callable): function that returns the number of tokens at\n            a given index\n        num_tokens_vec (List[int], optional): precomputed vector of the number\n            of tokens for each index in indices (to enable faster batch generation)\n        max_tokens (int, optional): max number of tokens in each batch\n            (default: None).\n        max_sentences (int, optional): max number of sentences in each\n            batch (default: None).\n        required_batch_size_multiple (int, optional): require batch size to\n            be less than N or a multiple of N (default: 1).\n        fixed_shapes (List[Tuple[int, int]], optional): if given, batches will\n            only be created with the given shapes. *max_sentences* and\n            *required_batch_size_multiple* will be ignored (default: None).\n    \"\"\"\n    try:\n        from fairseq.data.data_utils_fast import (\n            batch_by_size_fn,\n            batch_by_size_vec,\n            batch_fixed_shapes_fast,\n        )\n    except ImportError:\n        raise ImportError(\n            \"Please build Cython components with: \"\n            \"`python setup.py build_ext --inplace`\"\n        )\n    except ValueError:\n        raise ValueError(\n            \"Please build (or rebuild) Cython components with `python setup.py build_ext --inplace`.\"\n        )\n\n    # added int() to avoid TypeError: an integer is required\n    max_tokens = int(max_tokens) if max_tokens is not None else -1\n    max_sentences = max_sentences if max_sentences is not None else -1\n    bsz_mult = required_batch_size_multiple\n\n    if not isinstance(indices, np.ndarray):\n        indices = np.fromiter(indices, dtype=np.int64, count=-1)\n\n    if num_tokens_vec is not None and not isinstance(num_tokens_vec, np.ndarray):\n        num_tokens_vec = np.fromiter(num_tokens_vec, dtype=np.int64, count=-1)\n\n    if fixed_shapes is None:\n        if num_tokens_vec is None:\n            b = batch_by_size_fn(\n                indices,\n                num_tokens_fn,\n                max_tokens,\n                max_sentences,\n                bsz_mult,\n            )\n        else:\n            b = batch_by_size_vec(\n                indices,\n                num_tokens_vec,\n                max_tokens,\n                max_sentences,\n                bsz_mult,\n            )\n\n        if bsz_mult > 1 and len(b[-1]) % bsz_mult != 0:\n            b = b[:-1]\n\n        return b\n\n    else:\n        fixed_shapes = np.array(fixed_shapes, dtype=np.int64)\n        sort_order = np.lexsort(\n            [\n                fixed_shapes[:, 1].argsort(),  # length\n                fixed_shapes[:, 0].argsort(),  # bsz\n            ]\n        )\n        fixed_shapes_sorted = fixed_shapes[sort_order]\n        return batch_fixed_shapes_fast(indices, num_tokens_fn, fixed_shapes_sorted)\n\n\ndef post_process(sentence: str, symbol: str):\n    if symbol == \"sentencepiece\":\n        sentence = sentence.replace(\" \", \"\").replace(\"\\u2581\", \" \").strip()\n    elif symbol == \"wordpiece\":\n        sentence = sentence.replace(\" \", \"\").replace(\"_\", \" \").strip()\n    elif symbol == \"letter\":\n        sentence = sentence.replace(\" \", \"\").replace(\"|\", \" \").strip()\n    elif symbol == \"silence\":\n        import re\n\n        sentence = sentence.replace(\"<SIL>\", \"\")\n        sentence = re.sub(\" +\", \" \", sentence).strip()\n    elif symbol == \"_EOW\":\n        sentence = sentence.replace(\" \", \"\").replace(\"_EOW\", \" \").strip()\n    elif symbol in {\"subword_nmt\", \"@@ \", \"@@\"}:\n        if symbol == \"subword_nmt\":\n            symbol = \"@@ \"\n        sentence = (sentence + \" \").replace(symbol, \"\").rstrip()\n    elif symbol == \"none\":\n        pass\n    elif symbol is not None:\n        raise NotImplementedError(f\"Unknown post_process option: {symbol}\")\n    return sentence\n\n\ndef compute_mask_indices(\n    shape: Tuple[int, int],\n    padding_mask: Optional[torch.Tensor],\n    mask_prob: float,\n    mask_length: int,\n    mask_type: str = \"static\",\n    mask_other: float = 0.0,\n    min_masks: int = 0,\n    no_overlap: bool = False,\n    min_space: int = 0,\n    require_same_masks: bool = True,\n    mask_dropout: float = 0.0,\n    add_masks: bool = False,\n    seed: Optional[int] = None,\n    epoch: Optional[int] = None,\n    indices: Optional[torch.Tensor] = None,\n    idc_select_ver: int = 1,  # 2 to reproduce mask_tokens_dataset\n    num_mask_ver: int = 2,  # 2 to reproduce mask_tokens_dataset\n) -> np.ndarray:\n    \"\"\"\n    Computes random mask spans for a given shape\n\n    Args:\n        shape: the the shape for which to compute masks.\n            should be of size 2 where first element is batch size and 2nd is timesteps\n        padding_mask: optional padding mask of the same size as shape, which will prevent masking padded elements\n        mask_prob: probability for each token to be chosen as start of the span to be masked. this will be multiplied by\n            number of timesteps divided by length of mask span to mask approximately this percentage of all elements.\n            however due to overlaps, the actual number will be smaller (unless no_overlap is True)\n        mask_type: how to compute mask lengths\n            static = fixed size\n            uniform = sample from uniform distribution [mask_other, mask_length*2]\n            normal = sample from normal distribution with mean mask_length and stdev mask_other. mask is min 1 element\n            poisson = sample from possion distribution with lambda = mask length\n        min_masks: minimum number of masked spans\n        no_overlap: if false, will switch to an alternative recursive algorithm that prevents spans from overlapping\n        min_space: only used if no_overlap is True, this is how many elements to keep unmasked between spans\n        require_same_masks: if true, will randomly drop out masks until same amount of masks remains in each sample\n        mask_dropout: randomly dropout this percentage of masks in each example\n    \"\"\"\n\n    bsz, all_sz = shape\n    mask = np.full((bsz, all_sz), False)\n\n    if num_mask_ver == 1:\n        all_num_mask = int(\n            # add a random number for probabilistic rounding\n            mask_prob * all_sz / float(mask_length)\n            + np.random.rand()\n        )\n        all_num_mask = max(min_masks, all_num_mask)\n\n    mask_idcs = []\n    for i in range(bsz):\n        if seed is not None and epoch is not None and indices is not None:\n            seed_i = int(hash((seed, epoch, indices[i].item())) % 1e6)\n        else:\n            seed_i = None\n\n        rng = np.random.default_rng(seed_i)\n\n        if padding_mask is not None:\n            sz = all_sz - padding_mask[i].long().sum().item()\n            assert sz >= 0, sz\n        else:\n            sz = all_sz\n\n        if num_mask_ver == 1:\n            if padding_mask is not None:\n                num_mask = int(\n                    # add a random number for probabilistic rounding\n                    mask_prob * sz / float(mask_length)\n                    + np.random.rand()\n                )\n                num_mask = max(min_masks, num_mask)\n            else:\n                num_mask = all_num_mask\n        elif num_mask_ver == 2:\n            num_mask = int(\n                # add a random number for probabilistic rounding\n                mask_prob * sz / float(mask_length)\n                + rng.random()\n            )\n            num_mask = max(min_masks, num_mask)\n        else:\n            raise ValueError()\n\n        if mask_type == \"static\":\n            lengths = np.full(num_mask, mask_length)\n        elif mask_type == \"uniform\":\n            lengths = rng.randint(mask_other, mask_length * 2 + 1, size=num_mask)\n        elif mask_type == \"normal\":\n            lengths = rng.normal(mask_length, mask_other, size=num_mask)\n            lengths = [max(1, int(round(x))) for x in lengths]\n        elif mask_type == \"poisson\":\n            lengths = rng.poisson(mask_length, size=num_mask)\n            lengths = [int(round(x)) for x in lengths]\n        else:\n            raise Exception(\"unknown mask selection \" + mask_type)\n\n        if sum(lengths) == 0:\n            if mask_type == \"static\":\n                raise ValueError(f\"this should never happens\")\n            else:\n                lengths = [min(mask_length, sz - 1)]\n\n        if no_overlap:\n            mask_idc = []\n\n            def arrange(s, e, length, keep_length):\n                span_start = rng.randint(s, e - length)\n                mask_idc.extend(span_start + i for i in range(length))\n\n                new_parts = []\n                if span_start - s - min_space >= keep_length:\n                    new_parts.append((s, span_start - min_space + 1))\n                if e - span_start - length - min_space > keep_length:\n                    new_parts.append((span_start + length + min_space, e))\n                return new_parts\n\n            parts = [(0, sz)]\n            min_length = min(lengths)\n            for length in sorted(lengths, reverse=True):\n                lens = np.fromiter(\n                    (e - s if e - s >= length + min_space else 0 for s, e in parts),\n                    np.int,\n                )\n                l_sum = np.sum(lens)\n                if l_sum == 0:\n                    break\n                probs = lens / np.sum(lens)\n                c = rng.choice(len(parts), p=probs)\n                s, e = parts.pop(c)\n                parts.extend(arrange(s, e, length, min_length))\n            mask_idc = np.asarray(mask_idc)\n        else:\n            if idc_select_ver == 1:\n                min_len = min(lengths)\n                if sz - min_len <= num_mask:\n                    min_len = sz - num_mask - 1\n                mask_idc = rng.choice(sz - min_len, num_mask, replace=False)\n            elif idc_select_ver == 2:\n                mask_idc = rng.choice(sz, num_mask, replace=False)\n            else:\n                raise ValueError()\n\n            mask_idc = np.asarray(\n                [\n                    mask_idc[j] + offset\n                    for j in range(len(mask_idc))\n                    for offset in range(lengths[j])\n                ]\n            )\n\n        mask_idc = np.unique(mask_idc[mask_idc < sz])\n        if len(mask_idc) >= sz:\n            raise ValueError(\n                (\n                    f\"the entire sequence is masked. \"\n                    f\"sz={sz}; mask_idc[mask_idc]; \"\n                    f\"index={indices[i] if indices is not None else None}\"\n                )\n            )\n        mask_idcs.append(mask_idc)\n\n    target_len = None\n    if require_same_masks:\n        if add_masks:\n            target_len = max([len(m) for m in mask_idcs])\n        else:\n            target_len = min([len(m) for m in mask_idcs])\n\n    for i, mask_idc in enumerate(mask_idcs):\n        if target_len is not None and len(mask_idc) > target_len:\n            mask_idc = rng.choice(mask_idc, target_len, replace=False)\n\n        mask[i, mask_idc] = True\n\n        if target_len is not None and len(mask_idc) < target_len:\n            unmasked = np.flatnonzero(~mask[i])\n            to_mask = rng.choice(unmasked, target_len - len(mask_idc), replace=False)\n            mask[i, to_mask] = True\n\n        if mask_dropout > 0:\n            masked = np.flatnonzero(mask[i])\n            num_holes = np.rint(len(masked) * mask_dropout).astype(int)\n            to_drop = rng.choice(masked, num_holes, replace=False)\n            mask[i, to_drop] = False\n\n    return mask\n\n\ndef compute_block_mask_2d(\n    shape: Tuple[int, int],\n    mask_prob: float,\n    mask_length: int,\n    mask_prob_adjust: float = 0,\n    inverse_mask: bool = False,\n    require_same_masks: bool = True,\n    expand_adjcent: bool = False,\n    mask_dropout: float = 0,\n    non_overlapping: bool = False,\n) -> torch.Tensor:\n\n    assert mask_length > 1\n\n    B, L = shape\n\n    d = int(L**0.5)\n\n    if inverse_mask:\n        mask_prob = 1 - mask_prob\n\n    if non_overlapping:\n        sz = math.ceil(d / mask_length)\n        inp_len = sz * sz\n\n        inp = torch.zeros((B, 1, sz, sz))\n        w = torch.ones((1, 1, mask_length, mask_length))\n\n        mask_inds = torch.multinomial(\n            1 - inp.view(B, -1),\n            int(inp_len * (mask_prob + mask_prob_adjust) * (1 + mask_dropout)),\n            replacement=False,\n        )\n        inp.view(B, -1).scatter_(1, mask_inds, 1)\n\n        mask = torch.nn.functional.conv_transpose2d(inp, w, stride=mask_length).squeeze(\n            1\n        )\n        if mask.size(-1) > d:\n            mask = mask[..., :d, :d]\n    else:\n        mask = torch.zeros((B, d, d))\n        mask_inds = torch.randint(\n            0,\n            L,\n            size=(\n                B,\n                int(\n                    L\n                    * ((mask_prob + mask_prob_adjust) / mask_length**2)\n                    * (1 + mask_dropout)\n                ),\n            ),\n        )\n        mask.view(B, -1).scatter_(1, mask_inds, 1)\n        centers = mask.nonzero(as_tuple=True)\n\n        inds = ([], [], [])\n\n        offset = mask_length // 2\n        for i in range(mask_length):\n            for j in range(mask_length):\n                k1 = i - offset\n                k2 = j - offset\n                inds[0].append(centers[0])\n                inds[1].append(centers[1] + k1)\n                inds[2].append(centers[2] + k2)\n\n        i0 = torch.cat(inds[0])\n        i1 = torch.cat(inds[1]).clamp_(min=0, max=d - 1)\n        i2 = torch.cat(inds[2]).clamp_(min=0, max=d - 1)\n\n        mask[(i0, i1, i2)] = 1\n\n    def get_nbs(b, m, w):\n        all_nbs = torch.nn.functional.conv2d(m.unsqueeze(1), w, padding=\"same\")\n        all_nbs = all_nbs.clamp_max_(1).view(b, -1)\n        return all_nbs\n\n    if require_same_masks and expand_adjcent:\n        w = torch.zeros((1, 1, 3, 3))\n        w[..., 0, 1] = 1\n        w[..., 2, 1] = 1\n        w[..., 1, 0] = 1\n        w[..., 1, 2] = 1\n\n        all_nbs = get_nbs(B, mask, w)\n\n    mask = mask.reshape(B, -1)\n\n    if require_same_masks:\n        n_masks = mask.sum(dim=-1)\n        final_target_len = int(L * (mask_prob))\n        target_len = int(final_target_len * (1 + mask_dropout))\n\n        for i in range(len(mask)):\n            n = n_masks[i]\n            m = mask[i]\n            r = 0\n            while expand_adjcent and n < target_len:\n                if r == 0:\n                    nbs = all_nbs[i]\n                else:\n                    nbs = get_nbs(1, m.view(1, d, d), w).flatten()\n\n                cands = (1 - m + nbs) > 1\n                cand_sz = int(cands.sum().item())\n\n                assert cand_sz > 0, f\"{nbs} {cand_sz}\"\n\n                to_mask = torch.multinomial(\n                    cands.float(), min(cand_sz, int(target_len - n)), replacement=False\n                )\n                m[to_mask] = 1\n                assert to_mask.numel() > 0\n                n += to_mask.numel()\n                r += 1\n\n            if n > final_target_len:\n                to_unmask = torch.multinomial(\n                    m, int(n - final_target_len), replacement=False\n                )\n                m[to_unmask] = 0\n            elif n < final_target_len:\n                to_mask = torch.multinomial(\n                    (1 - m), int(final_target_len - n), replacement=False\n                )\n                m[to_mask] = 1\n\n    if inverse_mask:\n        mask = 1 - mask\n\n    return mask\n\n\ndef compute_block_mask_1d(\n    shape: Tuple[int, int],\n    mask_prob: float,\n    mask_length: int,\n    mask_prob_adjust: float = 0,\n    inverse_mask: bool = False,\n    require_same_masks: bool = True,\n    expand_adjcent: bool = False,\n    mask_dropout: float = 0,\n    non_overlapping: bool = False,\n) -> torch.Tensor:\n\n    B, L = shape\n\n    if inverse_mask:\n        mask_prob = 1 - mask_prob\n\n    if non_overlapping:\n        sz = math.ceil(L / mask_length)\n\n        inp = torch.zeros((B, 1, sz))\n        w = torch.ones((1, 1, mask_length))\n\n        mask_inds = torch.multinomial(\n            1 - inp.view(B, -1),\n            int(sz * (mask_prob + mask_prob_adjust) * (1 + mask_dropout)),\n            replacement=False,\n        )\n        inp.view(B, -1).scatter_(1, mask_inds, 1)\n\n        mask = torch.nn.functional.conv_transpose1d(inp, w, stride=mask_length).squeeze(\n            1\n        )\n        if mask.size(-1) > L:\n            mask = mask[..., :L]\n\n    else:\n        mask = torch.zeros((B, L))\n        mask_inds = torch.randint(\n            0,\n            L,\n            size=(\n                B,\n                int(\n                    L\n                    * ((mask_prob + mask_prob_adjust) / mask_length)\n                    * (1 + mask_dropout)\n                ),\n            ),\n        )\n\n        mask.view(B, -1).scatter_(1, mask_inds, 1)\n        centers = mask.nonzero(as_tuple=True)\n\n        inds = ([], [])\n\n        offset = mask_length // 2\n        for i in range(mask_length):\n            k1 = i - offset\n            inds[0].append(centers[0])\n            inds[1].append(centers[1] + k1)\n\n        i0 = torch.cat(inds[0])\n        i1 = torch.cat(inds[1]).clamp_(min=0, max=L - 1)\n\n        mask[(i0, i1)] = 1\n\n    def get_nbs(b, m, w):\n        all_nbs = torch.nn.functional.conv1d(m.unsqueeze(1), w, padding=\"same\")\n        all_nbs = all_nbs.clamp_max_(1).view(b, -1)\n        return all_nbs\n\n    if require_same_masks and expand_adjcent:\n        w = torch.ones((1, 1, 3))\n        w[..., 1] = 0\n        all_nbs = get_nbs(B, mask, w)\n\n    mask = mask.view(B, -1)\n\n    if require_same_masks:\n        n_masks = mask.sum(dim=-1)\n        final_target_len = int(L * (mask_prob))\n        target_len = int(final_target_len * (1 + mask_dropout))\n\n        for i in range(len(mask)):\n            n = n_masks[i]\n            m = mask[i]\n            r = 0\n            while expand_adjcent and n < target_len:\n                if r == 0:\n                    nbs = all_nbs[i]\n                else:\n                    nbs = get_nbs(1, m.unsqueeze(0), w).squeeze(0)\n\n                cands = (1 - m + nbs) > 1\n                cand_sz = int(cands.sum().item())\n\n                assert cand_sz > 0, f\"{nbs} {cand_sz}\"\n\n                to_mask = torch.multinomial(\n                    cands.float(), min(cand_sz, int(target_len - n)), replacement=False\n                )\n                m[to_mask] = 1\n                assert to_mask.numel() > 0\n                n += to_mask.numel()\n                r += 1\n\n            if n > final_target_len:\n                to_unmask = torch.multinomial(\n                    m, int(n - final_target_len), replacement=False\n                )\n                m[to_unmask] = 0\n            elif n < final_target_len:\n                to_mask = torch.multinomial(\n                    (1 - m), int(final_target_len - n), replacement=False\n                )\n                m[to_mask] = 1\n\n    if inverse_mask:\n        mask = 1 - mask\n\n    return mask\n\n\ndef get_mem_usage():\n    try:\n        import psutil\n\n        mb = 1024 * 1024\n        return f\"used={psutil.virtual_memory().used / mb}Mb; avail={psutil.virtual_memory().available / mb}Mb\"\n    except ImportError:\n        return \"N/A\"\n\n\n# lens: torch.LongTensor\n# returns: torch.BoolTensor\ndef lengths_to_padding_mask(lens):\n    bsz, max_lens = lens.size(0), torch.max(lens).item()\n    mask = torch.arange(max_lens).to(lens.device).view(1, max_lens)\n    mask = mask.expand(bsz, -1) >= lens.view(bsz, 1).expand(-1, max_lens)\n    return mask\n\n\n# lens: torch.LongTensor\n# returns: torch.BoolTensor\ndef lengths_to_mask(lens):\n    return ~lengths_to_padding_mask(lens)\n\n\ndef get_buckets(sizes, num_buckets):\n    buckets = np.unique(\n        np.percentile(\n            sizes,\n            np.linspace(0, 100, num_buckets + 1),\n            interpolation=\"lower\",\n        )[1:]\n    )\n    return buckets\n\n\ndef get_bucketed_sizes(orig_sizes, buckets):\n    sizes = np.copy(orig_sizes)\n    assert np.min(sizes) >= 0\n    start_val = -1\n    for end_val in buckets:\n        mask = (sizes > start_val) & (sizes <= end_val)\n        sizes[mask] = end_val\n        start_val = end_val\n    return sizes\n\n\ndef _find_extra_valid_paths(dataset_path: str) -> set:\n    paths = utils.split_paths(dataset_path)\n    all_valid_paths = set()\n    for sub_dir in paths:\n        contents = PathManager.ls(sub_dir)\n        valid_paths = [c for c in contents if re.match(\"valid*[0-9].*\", c) is not None]\n        all_valid_paths |= {os.path.basename(p) for p in valid_paths}\n    # Remove .bin, .idx etc\n    roots = {os.path.splitext(p)[0] for p in all_valid_paths}\n    return roots\n\n\ndef raise_if_valid_subsets_unintentionally_ignored(train_cfg) -> None:\n    \"\"\"Raises if there are paths matching 'valid*[0-9].*' which are not combined or ignored.\"\"\"\n    if (\n        train_cfg.dataset.ignore_unused_valid_subsets\n        or train_cfg.dataset.combine_valid_subsets\n        or train_cfg.dataset.disable_validation\n        or not hasattr(train_cfg.task, \"data\")\n    ):\n        return\n    other_paths = _find_extra_valid_paths(train_cfg.task.data)\n    specified_subsets = train_cfg.dataset.valid_subset.split(\",\")\n    ignored_paths = [p for p in other_paths if p not in specified_subsets]\n    if ignored_paths:\n        advice = \"Set --combine-val to combine them or --ignore-unused-valid-subsets to ignore them.\"\n        msg = f\"Valid paths {ignored_paths} will be ignored. {advice}\"\n        raise ValueError(msg)\n\n\ndef compute_mask_indices_for_one(\n    sz,\n    mask_prob: float,\n    mask_length: int,\n    seed=None,\n    epoch=None,\n    index=None,\n    min_masks=0,\n):\n    \"\"\"\n    set seed, epoch, index for deterministic masking\n    \"\"\"\n    seed = int(hash((seed, epoch, index)) % 1e6) if seed else None\n    rng = np.random.default_rng(seed)\n\n    # decide elements to mask\n    mask = np.full(sz, False)\n    num_mask = int(\n        # add a random number for probabilistic rounding\n        mask_prob * sz / float(mask_length)\n        + rng.random()\n    )\n    num_mask = max(min_masks, num_mask)\n\n    # multiple masking as described in the vq-wav2vec paper (https://arxiv.org/abs/1910.05453)\n    mask_idc = rng.choice(sz, num_mask, replace=False)\n    mask_idc = np.concatenate([mask_idc + i for i in range(mask_length)])\n    mask_idc = mask_idc[mask_idc < len(mask)]\n    try:\n        mask[mask_idc] = True\n    except:  # something wrong\n        print(f\"Assigning mask indexes {mask_idc} to mask {mask} failed!\")\n        raise\n\n    return mask\n\n\ndef compute_mask_indices_v2(\n    shape: Tuple[int, int],\n    padding_mask: Optional[torch.Tensor],\n    mask_prob: float,\n    mask_length: int,\n    min_masks: int = 0,\n    require_same_masks: bool = True,\n    seed: Optional[int] = None,\n    epoch: Optional[int] = None,\n    indices: Optional[torch.Tensor] = None,\n) -> np.ndarray:\n    bsz, all_sz = shape\n    mask = np.full((bsz, all_sz), False)\n    for i in range(bsz):\n        if padding_mask is not None:\n            sz = all_sz - padding_mask[i].long().sum().item()\n        else:\n            sz = all_sz\n        index = indices[i].item() if indices is not None else None\n        mask_for_one = compute_mask_indices_for_one(\n            sz, mask_prob, mask_length, seed, epoch, index, min_masks\n        )\n        mask[i, :sz] = mask_for_one\n\n    if require_same_masks:\n        index_sum = indices.sum().item() if indices is not None else None\n        seed = int(hash((seed, epoch, index_sum)) % 1e6) if seed else None\n        rng = np.random.default_rng(seed)\n\n        num_mask = mask.sum(-1).min()\n        for i in range(bsz):\n            extra = mask[i].sum() - num_mask\n            if extra > 0:\n                to_unmask = rng.choice(np.nonzero(mask[i])[0], extra, replace=False)\n                mask[i, to_unmask] = False\n\n    return mask\n\n\n# TODO: a copy of the original compute_mask_indices\ndef compute_mask_indices_v3(\n    shape: Tuple[int, int],\n    padding_mask: Optional[torch.Tensor],\n    mask_prob: float,\n    mask_length: int,\n    mask_type: str = \"static\",\n    mask_other: float = 0.0,\n    min_masks: int = 0,\n    no_overlap: bool = False,\n    min_space: int = 0,\n    require_same_masks: bool = True,\n    mask_dropout: float = 0.0,\n    seed: Optional[int] = None,\n    epoch: Optional[int] = None,\n    indices: Optional[torch.Tensor] = None,\n) -> np.ndarray:\n    \"\"\"\n    Computes random mask spans for a given shape\n\n    Args:\n        shape: the the shape for which to compute masks.\n            should be of size 2 where first element is batch size and 2nd is timesteps\n        padding_mask: optional padding mask of the same size as shape, which will prevent masking padded elements\n        mask_prob: probability for each token to be chosen as start of the span to be masked. this will be multiplied by\n            number of timesteps divided by length of mask span to mask approximately this percentage of all elements.\n            however due to overlaps, the actual number will be smaller (unless no_overlap is True)\n        mask_type: how to compute mask lengths\n            static = fixed size\n            uniform = sample from uniform distribution [mask_other, mask_length*2]\n            normal = sample from normal distribution with mean mask_length and stdev mask_other. mask is min 1 element\n            poisson = sample from possion distribution with lambda = mask length\n        min_masks: minimum number of masked spans\n        no_overlap: if false, will switch to an alternative recursive algorithm that prevents spans from overlapping\n        min_space: only used if no_overlap is True, this is how many elements to keep unmasked between spans\n        require_same_masks: if true, will randomly drop out masks until same amount of masks remains in each sample\n        mask_dropout: randomly dropout this percentage of masks in each example\n    \"\"\"\n    bsz, all_sz = shape\n    mask = np.full((bsz, all_sz), False)\n\n    all_num_mask = int(\n        # add a random number for probabilistic rounding\n        mask_prob * all_sz / float(mask_length)\n        + np.random.rand()\n    )\n\n    all_num_mask = max(min_masks, all_num_mask)\n\n    mask_idcs = []\n    for i in range(bsz):\n        if seed is not None and epoch is not None and indices is not None:\n            seed_i = int(hash((seed, epoch, indices[i].item())) % 1e6)\n        else:\n            seed_i = None\n        rng = np.random.default_rng(seed_i)\n\n        if padding_mask is not None:\n            sz = all_sz - padding_mask[i].long().sum().item()\n            num_mask = int(\n                # add a random number for probabilistic rounding\n                mask_prob * sz / float(mask_length)\n                + rng.random()\n            )\n            num_mask = max(min_masks, num_mask)\n        else:\n            sz = all_sz\n            num_mask = all_num_mask\n\n        if mask_type == \"static\":\n            lengths = np.full(num_mask, mask_length)\n        elif mask_type == \"uniform\":\n            lengths = rng.randint(mask_other, mask_length * 2 + 1, size=num_mask)\n        elif mask_type == \"normal\":\n            lengths = rng.normal(mask_length, mask_other, size=num_mask)\n            lengths = [max(1, int(round(x))) for x in lengths]\n        elif mask_type == \"poisson\":\n            lengths = rng.poisson(mask_length, size=num_mask)\n            lengths = [int(round(x)) for x in lengths]\n        else:\n            raise Exception(\"unknown mask selection \" + mask_type)\n\n        if sum(lengths) == 0:\n            lengths[0] = min(mask_length, sz - 1)\n\n        if no_overlap:\n            mask_idc = []\n\n            def arrange(s, e, length, keep_length):\n                span_start = rng.randint(s, e - length)\n                mask_idc.extend(span_start + i for i in range(length))\n\n                new_parts = []\n                if span_start - s - min_space >= keep_length:\n                    new_parts.append((s, span_start - min_space + 1))\n                if e - span_start - length - min_space > keep_length:\n                    new_parts.append((span_start + length + min_space, e))\n                return new_parts\n\n            parts = [(0, sz)]\n            min_length = min(lengths)\n            for length in sorted(lengths, reverse=True):\n                lens = np.fromiter(\n                    (e - s if e - s >= length + min_space else 0 for s, e in parts),\n                    np.int,\n                )\n                l_sum = np.sum(lens)\n                if l_sum == 0:\n                    break\n                probs = lens / np.sum(lens)\n                c = rng.choice(len(parts), p=probs)\n                s, e = parts.pop(c)\n                parts.extend(arrange(s, e, length, min_length))\n            mask_idc = np.asarray(mask_idc)\n        else:\n            min_len = min(lengths)\n            if sz - min_len <= num_mask:\n                min_len = sz - num_mask - 1\n\n            mask_idc = rng.choice(sz - min_len, num_mask, replace=False)\n\n            mask_idc = np.asarray(\n                [\n                    mask_idc[j] + offset\n                    for j in range(len(mask_idc))\n                    for offset in range(lengths[j])\n                ]\n            )\n\n        mask_idcs.append(np.unique(mask_idc[mask_idc < sz]))\n\n    min_len = min([len(m) for m in mask_idcs])\n    for i, mask_idc in enumerate(mask_idcs):\n        if len(mask_idc) > min_len and require_same_masks:\n            mask_idc = rng.choice(mask_idc, min_len, replace=False)\n        if mask_dropout > 0:\n            num_holes = np.rint(len(mask_idc) * mask_dropout).astype(int)\n            mask_idc = rng.choice(mask_idc, len(mask_idc) - num_holes, replace=False)\n\n        mask[i, mask_idc] = True\n\n    return mask\n"
  },
  {
    "path": "fairseq/data/data_utils_fast.pyx",
    "content": "# cython: language_level=3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\n\ncimport cython\ncimport numpy as np\n\nfrom libc.stdint cimport int32_t, int64_t\nfrom libcpp cimport bool as bool_t\n\nctypedef int64_t DTYPE_t\n\n@cython.cdivision(True)\n@cython.boundscheck(False)\n@cython.wraparound(False)\ncpdef list batch_by_size_vec(\n    np.ndarray[int64_t, ndim=1] indices,\n    np.ndarray[int64_t, ndim=1] num_tokens_vec,\n    int64_t max_tokens,\n    int64_t max_sentences,\n    int32_t bsz_mult,\n):\n    if indices.shape[0] == 0:\n        return []\n\n    assert max_tokens <= 0 or np.max(num_tokens_vec) <= max_tokens, (\n        f\"Sentences lengths should not exceed max_tokens={max_tokens}\"\n    )\n\n    cdef int32_t indices_len = indices.shape[0]\n    cdef np.ndarray[int32_t, ndim=1] batches_ends = \\\n            np.zeros(indices_len, dtype=np.int32)\n    cdef int32_t[:] batches_ends_view = batches_ends\n    cdef int64_t[:] num_tokens_view = num_tokens_vec\n\n    cdef int32_t pos = 0\n    cdef int32_t new_batch_end = 0\n\n    cdef int64_t new_batch_max_tokens = 0\n    cdef int32_t new_batch_sentences = 0\n    cdef int64_t new_batch_num_tokens = 0\n\n    cdef bool_t overflow = False\n    cdef bool_t size_matches_with_bsz_mult = False\n\n    cdef int32_t batches_count = 0\n    cdef int32_t batch_start = 0\n    cdef int64_t tail_max_tokens = 0\n    cdef int64_t batch_max_tokens = 0\n\n    for pos in range(indices_len):\n        # At every pos we keep stats about the last complete batch [batch_start:batch_end),\n        #      and tail [batch_end:pos].\n        # 1) Every time when (batch + tail) forms a valid batch\n        #      (according to max_tokens, max_sentences and bsz_mult) we append tail to batch.\n        # 2) When (batch+tail) violates max_tokens or max_sentences constraints\n        #      we finalize running batch, and tail becomes a new batch.\n        # 3) There is a corner case when tail also violates constraints.\n        #      In that situation [batch_end:pos-1] (tail without the current pos)\n        #      gets added to the finalized batches, while [pos:pos] becomes a new tail.\n        #\n        # Important: For the sake of performance try to avoid using function calls within this loop.\n\n        tail_max_tokens = tail_max_tokens \\\n                            if tail_max_tokens > num_tokens_view[pos] \\\n                            else num_tokens_view[pos]\n        new_batch_end = pos + 1\n        new_batch_max_tokens = batch_max_tokens \\\n                                if batch_max_tokens > tail_max_tokens \\\n                                else tail_max_tokens\n        new_batch_sentences = new_batch_end - batch_start\n        new_batch_num_tokens = new_batch_sentences * new_batch_max_tokens\n\n        overflow = (new_batch_sentences > max_sentences > 0 or\n                    new_batch_num_tokens > max_tokens > 0)\n        size_matches_with_bsz_mult = (new_batch_sentences < bsz_mult or\n                                      new_batch_sentences % bsz_mult == 0)\n\n        if overflow:\n            tail_num_tokens = tail_max_tokens * \\\n                    (new_batch_end - batches_ends_view[batches_count])\n            tail_overflow = tail_num_tokens > max_tokens > 0\n            # In case of a tail overflow finalize two batches\n            if tail_overflow:\n                batches_count += 1\n                batches_ends_view[batches_count] = pos\n                tail_max_tokens = num_tokens_view[pos]\n            batch_start = batches_ends_view[batches_count]\n            batches_count += 1\n            new_batch_max_tokens = tail_max_tokens\n\n        if overflow or size_matches_with_bsz_mult:\n            batches_ends_view[batches_count] = new_batch_end\n            batch_max_tokens = new_batch_max_tokens\n            tail_max_tokens = 0\n    if batches_ends_view[batches_count] != indices_len:\n        batches_count += 1\n    # Memory and time-efficient split\n    return np.split(indices, batches_ends[:batches_count])\n\n\n@cython.boundscheck(False)\n@cython.wraparound(False)\ncpdef list batch_by_size_fn(\n    np.ndarray[DTYPE_t, ndim=1] indices,\n    num_tokens_fn,\n    int64_t max_tokens,\n    int64_t max_sentences,\n    int32_t bsz_mult,\n):\n    cdef int32_t indices_len = indices.shape[0]\n    cdef np.ndarray[int64_t, ndim=1] num_tokens_vec = np.zeros(indices_len,\n                                                               dtype=np.int64)\n    cdef DTYPE_t[:] indices_view = indices\n    cdef DTYPE_t[:] num_tokens_vec_view = num_tokens_vec\n    cdef int64_t pos\n    for pos in range(indices_len):\n        num_tokens_vec[pos] = num_tokens_fn(indices_view[pos])\n    return batch_by_size_vec(indices, num_tokens_vec, max_tokens,\n        max_sentences, bsz_mult,)\n\n\ncdef _find_valid_shape(\n    DTYPE_t[:, :] shapes_view,\n    int64_t num_sentences,\n    int64_t num_tokens,\n):\n    \"\"\"Return index of first valid shape of -1 if none is found.\"\"\"\n    for i in range(shapes_view.shape[0]):\n        if num_sentences <= shapes_view[i][0] and num_tokens <= shapes_view[i][1]:\n            return i\n    return -1\n\n\n@cython.cdivision(True)\ncpdef list batch_fixed_shapes_fast(\n    np.ndarray[DTYPE_t, ndim=1] indices,\n    num_tokens_fn,\n    np.ndarray[DTYPE_t, ndim=2] fixed_shapes_sorted,\n):\n    cdef int64_t sample_len = 0\n    cdef list sample_lens = []\n    cdef list batch = []\n    cdef list batches = []\n    cdef int64_t mod_len\n    cdef int64_t i\n    cdef int64_t idx\n    cdef int64_t num_tokens\n    cdef DTYPE_t[:] indices_view = indices\n    cdef DTYPE_t[:, :] shapes_view = fixed_shapes_sorted\n\n    for i in range(len(indices_view)):\n        idx = indices_view[i]\n        num_tokens = num_tokens_fn(idx)\n        sample_lens.append(num_tokens)\n        sample_len = max(sample_len, num_tokens)\n\n        shape_idx = _find_valid_shape(shapes_view, len(batch) + 1, sample_len)\n        if shape_idx == -1:\n            batches.append(batch)\n            batch = []\n            sample_lens = []\n            sample_len = 0\n            shapes_view = fixed_shapes_sorted\n        elif shape_idx > 0:\n            # small optimization for the next call to _find_valid_shape\n            shapes_view = shapes_view[shape_idx:]\n\n        batch.append(idx)\n\n    if len(batch) > 0:\n        batches.append(batch)\n\n    return batches\n"
  },
  {
    "path": "fairseq/data/denoising_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport numpy as np\nimport torch\n\nfrom . import FairseqDataset, data_utils\n\n\ndef collate(\n    samples,\n    pad_idx,\n    eos_idx,\n    vocab,\n    left_pad_source=False,\n    left_pad_target=False,\n    input_feeding=True,\n    pad_to_length=None,\n):\n    assert input_feeding\n    if len(samples) == 0:\n        return {}\n\n    def merge(key, left_pad, move_eos_to_beginning=False, pad_to_length=None):\n        return data_utils.collate_tokens(\n            [s[key] for s in samples],\n            pad_idx,\n            eos_idx=None,  # use eos_idx of each sample instead of vocab.eos()\n            left_pad=left_pad,\n            move_eos_to_beginning=move_eos_to_beginning,\n            pad_to_length=pad_to_length,\n        )\n\n    id = torch.LongTensor([s[\"id\"] for s in samples])\n    src_tokens = merge(\n        \"source\",\n        left_pad=left_pad_source,\n        pad_to_length=pad_to_length[\"source\"] if pad_to_length is not None else None,\n    )\n    # sort by descending source length\n    src_lengths = torch.LongTensor([s[\"source\"].numel() for s in samples])\n    src_lengths, sort_order = src_lengths.sort(descending=True)\n    id = id.index_select(0, sort_order)\n    src_tokens = src_tokens.index_select(0, sort_order)\n\n    prev_output_tokens = None\n    target = None\n    if samples[0].get(\"target\", None) is not None:\n        target = merge(\n            \"target\",\n            left_pad=left_pad_target,\n            pad_to_length=pad_to_length[\"target\"]\n            if pad_to_length is not None\n            else None,\n        )\n        target = target.index_select(0, sort_order)\n        ntokens = sum(len(s[\"target\"]) for s in samples)\n\n        if input_feeding:\n            # we create a shifted version of targets for feeding the\n            # previous output token(s) into the next decoder step\n            prev_output_tokens = merge(\n                \"target\",\n                left_pad=left_pad_target,\n                move_eos_to_beginning=True,\n                pad_to_length=pad_to_length[\"target\"]\n                if pad_to_length is not None\n                else None,\n            )\n            prev_output_tokens = prev_output_tokens.index_select(0, sort_order)\n    else:\n        ntokens = sum(len(s[\"source\"]) for s in samples)\n\n    batch = {\n        \"id\": id,\n        \"ntokens\": ntokens,\n        \"net_input\": {\n            \"src_tokens\": src_tokens,\n            \"src_lengths\": src_lengths,\n        },\n        \"target\": target,\n        \"nsentences\": samples[0][\"source\"].size(0),\n        \"sort_order\": sort_order,\n    }\n    if prev_output_tokens is not None:\n        batch[\"net_input\"][\"prev_output_tokens\"] = prev_output_tokens\n\n    return batch\n\n\nclass DenoisingDataset(FairseqDataset):\n    \"\"\"\n    A wrapper around TokenBlockDataset for BART dataset.\n\n    Args:\n        dataset (TokenBlockDataset): dataset to wrap\n        sizes (List[int]): sentence lengths\n        vocab (~fairseq.data.Dictionary): vocabulary\n        mask_idx (int): dictionary index used for masked token\n        mask_whole_words: only mask whole words. This should be a byte mask\n            over vocab indices, indicating whether it is the beginning of a\n            word. We will extend any mask to encompass the whole word.\n        shuffle (bool, optional): shuffle the elements before batching.\n          Default: ``True``\n        seed: Seed for random number generator for reproducibility.\n    \"\"\"\n\n    def __init__(\n        self,\n        dataset,\n        sizes,\n        vocab,\n        mask_idx,\n        mask_whole_words,\n        shuffle,\n        seed,\n        mask,\n        mask_random,\n        insert,\n        rotate,\n        permute_sentences,\n        bpe,\n        replace_length,\n        mask_length,\n        poisson_lambda,\n        eos=None,\n        item_transform_func=None,\n    ):\n        self.dataset = dataset\n\n        self.sizes = sizes\n\n        self.vocab = vocab\n        self.shuffle = shuffle\n        self.seed = seed\n        self.mask_idx = mask_idx\n        self.mask_whole_word = mask_whole_words\n        self.mask_ratio = mask\n        self.random_ratio = mask_random\n        self.insert_ratio = insert\n        self.rotate_ratio = rotate\n        self.permute_sentence_ratio = permute_sentences\n        self.eos = eos if eos is not None else vocab.eos()\n        self.item_transform_func = item_transform_func\n\n        if bpe != \"gpt2\":\n            self.full_stop_index = self.vocab.eos()\n        else:\n            assert bpe == \"gpt2\"\n            self.full_stop_index = self.vocab.index(\"13\")\n\n        self.replace_length = replace_length\n        if self.replace_length not in [-1, 0, 1]:\n            raise ValueError(f\"invalid arg: replace_length={self.replace_length}\")\n        if mask_length not in [\"subword\", \"word\", \"span-poisson\"]:\n            raise ValueError(f\"invalid arg: mask-length={mask_length}\")\n        if mask_length == \"subword\" and replace_length not in [0, 1]:\n            raise ValueError(f\"if using subwords, use replace-length=1 or 0\")\n\n        self.mask_span_distribution = None\n        if mask_length == \"span-poisson\":\n            _lambda = poisson_lambda\n\n            lambda_to_the_k = 1\n            e_to_the_minus_lambda = math.exp(-_lambda)\n            k_factorial = 1\n            ps = []\n            for k in range(0, 128):\n                ps.append(e_to_the_minus_lambda * lambda_to_the_k / k_factorial)\n                lambda_to_the_k *= _lambda\n                k_factorial *= k + 1\n                if ps[-1] < 0.0000001:\n                    break\n            ps = torch.FloatTensor(ps)\n            self.mask_span_distribution = torch.distributions.Categorical(ps)\n\n        self.epoch = 0\n\n    @property\n    def can_reuse_epoch_itr_across_epochs(self):\n        return True  # only the noise changes, not item sizes\n\n    def set_epoch(self, epoch, **unused):\n        self.epoch = epoch\n\n    def __getitem__(self, index):\n        with data_utils.numpy_seed(self.seed, self.epoch, index):\n            tokens = self.dataset[index]\n            assert tokens[-1] == self.eos\n            source, target = tokens, tokens.clone()\n\n            if self.permute_sentence_ratio > 0.0:\n                source = self.permute_sentences(source, self.permute_sentence_ratio)\n\n            if self.mask_ratio > 0:\n                source = self.add_whole_word_mask(source, self.mask_ratio)\n\n            if self.insert_ratio > 0:\n                source = self.add_insertion_noise(source, self.insert_ratio)\n\n            if self.rotate_ratio > 0.0 and np.random.random() < self.rotate_ratio:\n                source = self.add_rolling_noise(source)\n        # there can additional changes to make:\n        if self.item_transform_func is not None:\n            source, target = self.item_transform_func(source, target)\n\n        assert (source >= 0).all()\n        assert (source[1:-1] >= 1).all()\n        assert (source <= len(self.vocab)).all()\n        assert source[0] == self.vocab.bos()\n        assert source[-1] == self.eos\n        return {\n            \"id\": index,\n            \"source\": source,\n            \"target\": target,\n        }\n\n    def __len__(self):\n        return len(self.dataset)\n\n    def permute_sentences(self, source, p=1.0):\n        full_stops = source == self.full_stop_index\n        # Pretend it ends with a full stop so last span is a sentence\n        full_stops[-2] = 1\n\n        # Tokens that are full stops, where the previous token is not\n        sentence_ends = (full_stops[1:] * ~full_stops[:-1]).nonzero(as_tuple=False) + 2\n        result = source.clone()\n\n        num_sentences = sentence_ends.size(0)\n        num_to_permute = math.ceil((num_sentences * 2 * p) / 2.0)\n        substitutions = torch.randperm(num_sentences)[:num_to_permute]\n        ordering = torch.arange(0, num_sentences)\n        ordering[substitutions] = substitutions[torch.randperm(num_to_permute)]\n\n        # Ignore <bos> at start\n        index = 1\n        for i in ordering:\n            sentence = source[(sentence_ends[i - 1] if i > 0 else 1) : sentence_ends[i]]\n            result[index : index + sentence.size(0)] = sentence\n            index += sentence.size(0)\n        return result\n\n    def word_starts(self, source):\n        if self.mask_whole_word is not None:\n            is_word_start = self.mask_whole_word.gather(0, source)\n        else:\n            is_word_start = torch.ones(source.size())\n        is_word_start[0] = 0\n        is_word_start[-1] = 0\n        return is_word_start\n\n    def add_whole_word_mask(self, source, p):\n        is_word_start = self.word_starts(source)\n        num_to_mask = int(math.ceil(is_word_start.float().sum() * p))\n        num_inserts = 0\n        if num_to_mask == 0:\n            return source\n\n        if self.mask_span_distribution is not None:\n            lengths = self.mask_span_distribution.sample(sample_shape=(num_to_mask,))\n\n            # Make sure we have enough to mask\n            cum_length = torch.cumsum(lengths, 0)\n            while cum_length[-1] < num_to_mask:\n                lengths = torch.cat(\n                    [\n                        lengths,\n                        self.mask_span_distribution.sample(sample_shape=(num_to_mask,)),\n                    ],\n                    dim=0,\n                )\n                cum_length = torch.cumsum(lengths, 0)\n\n            # Trim to masking budget\n            i = 0\n            while cum_length[i] < num_to_mask:\n                i += 1\n            lengths[i] = num_to_mask - (0 if i == 0 else cum_length[i - 1])\n            num_to_mask = i + 1\n            lengths = lengths[:num_to_mask]\n\n            # Handle 0-length mask (inserts) separately\n            lengths = lengths[lengths > 0]\n            num_inserts = num_to_mask - lengths.size(0)\n            num_to_mask -= num_inserts\n            if num_to_mask == 0:\n                return self.add_insertion_noise(source, num_inserts / source.size(0))\n\n            assert (lengths > 0).all()\n        else:\n            lengths = torch.ones((num_to_mask,)).long()\n        assert is_word_start[-1] == 0\n        word_starts = is_word_start.nonzero(as_tuple=False)\n        indices = word_starts[\n            torch.randperm(word_starts.size(0))[:num_to_mask]\n        ].squeeze(1)\n        mask_random = torch.FloatTensor(num_to_mask).uniform_() < self.random_ratio\n\n        source_length = source.size(0)\n        assert source_length - 1 not in indices\n        to_keep = torch.ones(source_length, dtype=torch.bool)\n        is_word_start[\n            -1\n        ] = 255  # acts as a long length, so spans don't go over the end of doc\n        if self.replace_length == 0:\n            to_keep[indices] = 0\n        else:\n            # keep index, but replace it with [MASK]\n            source[indices] = self.mask_idx\n            source[indices[mask_random]] = torch.randint(\n                1, len(self.vocab), size=(mask_random.sum(),)\n            )\n\n        if self.mask_span_distribution is not None:\n            assert len(lengths.size()) == 1\n            assert lengths.size() == indices.size()\n            lengths -= 1\n            while indices.size(0) > 0:\n                assert lengths.size() == indices.size()\n                lengths -= is_word_start[indices + 1].long()\n                uncompleted = lengths >= 0\n                indices = indices[uncompleted] + 1\n                mask_random = mask_random[uncompleted]\n                lengths = lengths[uncompleted]\n                if self.replace_length != -1:\n                    # delete token\n                    to_keep[indices] = 0\n                else:\n                    # keep index, but replace it with [MASK]\n                    source[indices] = self.mask_idx\n                    source[indices[mask_random]] = torch.randint(\n                        1, len(self.vocab), size=(mask_random.sum(),)\n                    )\n        else:\n            # A bit faster when all lengths are 1\n            while indices.size(0) > 0:\n                uncompleted = is_word_start[indices + 1] == 0\n                indices = indices[uncompleted] + 1\n                mask_random = mask_random[uncompleted]\n                if self.replace_length != -1:\n                    # delete token\n                    to_keep[indices] = 0\n                else:\n                    # keep index, but replace it with [MASK]\n                    source[indices] = self.mask_idx\n                    source[indices[mask_random]] = torch.randint(\n                        1, len(self.vocab), size=(mask_random.sum(),)\n                    )\n\n                assert source_length - 1 not in indices\n\n        source = source[to_keep]\n\n        if num_inserts > 0:\n            source = self.add_insertion_noise(source, num_inserts / source.size(0))\n\n        return source\n\n    def add_permuted_noise(self, tokens, p):\n        num_words = len(tokens)\n        num_to_permute = math.ceil(((num_words * 2) * p) / 2.0)\n        substitutions = torch.randperm(num_words - 2)[:num_to_permute] + 1\n        tokens[substitutions] = tokens[substitutions[torch.randperm(num_to_permute)]]\n        return tokens\n\n    def add_rolling_noise(self, tokens):\n        offset = np.random.randint(1, max(1, tokens.size(-1) - 1) + 1)\n        tokens = torch.cat(\n            (tokens[0:1], tokens[offset:-1], tokens[1:offset], tokens[-1:]),\n            dim=0,\n        )\n        return tokens\n\n    def add_insertion_noise(self, tokens, p):\n        if p == 0.0:\n            return tokens\n\n        num_tokens = len(tokens)\n        n = int(math.ceil(num_tokens * p))\n\n        noise_indices = torch.randperm(num_tokens + n - 2)[:n] + 1\n        noise_mask = torch.zeros(size=(num_tokens + n,), dtype=torch.bool)\n        noise_mask[noise_indices] = 1\n        result = torch.LongTensor(n + len(tokens)).fill_(-1)\n\n        num_random = int(math.ceil(n * self.random_ratio))\n        result[noise_indices[num_random:]] = self.mask_idx\n        result[noise_indices[:num_random]] = torch.randint(\n            low=1, high=len(self.vocab), size=(num_random,)\n        )\n\n        result[~noise_mask] = tokens\n\n        assert (result >= 0).all()\n        return result\n\n    def collater(self, samples, pad_to_length=None):\n        \"\"\"Merge a list of samples to form a mini-batch.\n        Args:\n            samples (List[dict]): samples to collate\n        Returns:\n            dict: a mini-batch of data\n        \"\"\"\n        return collate(\n            samples, self.vocab.pad(), self.eos, self.vocab, pad_to_length=pad_to_length\n        )\n\n    def num_tokens(self, index):\n        \"\"\"Return the number of tokens in a sample. This value is used to\n        enforce ``--max-tokens`` during batching.\"\"\"\n        return self.sizes[index]\n\n    def size(self, index):\n        \"\"\"Return an example's size as a float or tuple. This value is used when\n        filtering a dataset with ``--max-positions``.\"\"\"\n        return self.sizes[index]\n\n    def ordered_indices(self):\n        \"\"\"Return an ordered list of indices. Batches will be constructed based\n        on this order.\"\"\"\n        if self.shuffle:\n            indices = np.random.permutation(len(self))\n        else:\n            indices = np.arange(len(self))\n        return indices[np.argsort(self.sizes[indices], kind=\"mergesort\")]\n\n    def prefetch(self, indices):\n        self.src.prefetch(indices)\n        self.tgt.prefetch(indices)\n\n    @property\n    def supports_prefetch(self):\n        return (\n            hasattr(self.src, \"supports_prefetch\")\n            and self.src.supports_prefetch\n            and hasattr(self.tgt, \"supports_prefetch\")\n            and self.tgt.supports_prefetch\n        )\n"
  },
  {
    "path": "fairseq/data/dictionary.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nfrom collections import Counter\nfrom multiprocessing import Pool\n\nimport torch\nfrom fairseq import utils\nfrom fairseq.data import data_utils\nfrom fairseq.file_chunker_utils import Chunker, find_offsets\nfrom fairseq.file_io import PathManager\nfrom fairseq.tokenizer import tokenize_line\n\n\nclass Dictionary:\n    \"\"\"A mapping from symbols to consecutive integers\"\"\"\n\n    def __init__(\n        self,\n        *,  # begin keyword-only arguments\n        bos=\"<s>\",\n        pad=\"<pad>\",\n        eos=\"</s>\",\n        unk=\"<unk>\",\n        extra_special_symbols=None,\n        add_special_symbols=True,\n    ):\n        self.bos_word, self.unk_word, self.pad_word, self.eos_word = bos, unk, pad, eos\n        self.symbols = []\n        self.count = []\n        self.indices = {}\n        if add_special_symbols:\n            self.bos_index = self.add_symbol(bos)\n            self.pad_index = self.add_symbol(pad)\n            self.eos_index = self.add_symbol(eos)\n            self.unk_index = self.add_symbol(unk)\n            if extra_special_symbols:\n                for s in extra_special_symbols:\n                    self.add_symbol(s)\n            self.nspecial = len(self.symbols)\n\n    def __eq__(self, other):\n        return self.indices == other.indices\n\n    def __getitem__(self, idx):\n        if idx < len(self.symbols):\n            return self.symbols[idx]\n        return self.unk_word\n\n    def get_count(self, idx):\n        return self.count[idx]\n\n    def __len__(self):\n        \"\"\"Returns the number of symbols in the dictionary\"\"\"\n        return len(self.symbols)\n\n    def __contains__(self, sym):\n        return sym in self.indices\n\n    def index(self, sym):\n        \"\"\"Returns the index of the specified symbol\"\"\"\n        assert isinstance(sym, str)\n        if sym in self.indices:\n            return self.indices[sym]\n        return self.unk_index\n\n    def string(\n        self,\n        tensor,\n        bpe_symbol=None,\n        escape_unk=False,\n        extra_symbols_to_ignore=None,\n        unk_string=None,\n        include_eos=False,\n        separator=\" \",\n    ):\n        \"\"\"Helper for converting a tensor of token indices to a string.\n\n        Can optionally remove BPE symbols or escape <unk> words.\n        \"\"\"\n        if torch.is_tensor(tensor) and tensor.dim() == 2:\n            return \"\\n\".join(\n                self.string(\n                    t,\n                    bpe_symbol,\n                    escape_unk,\n                    extra_symbols_to_ignore,\n                    include_eos=include_eos,\n                )\n                for t in tensor\n            )\n\n        extra_symbols_to_ignore = set(extra_symbols_to_ignore or [])\n        if not include_eos:\n            extra_symbols_to_ignore.add(self.eos())\n\n        def token_string(i):\n            if i == self.unk():\n                if unk_string is not None:\n                    return unk_string\n                else:\n                    return self.unk_string(escape_unk)\n            else:\n                return self[i]\n\n        if hasattr(self, \"bos_index\"):\n            extra_symbols_to_ignore.add(self.bos())\n\n        sent = separator.join(\n            token_string(i)\n            for i in tensor\n            if utils.item(i) not in extra_symbols_to_ignore\n        )\n\n        return data_utils.post_process(sent, bpe_symbol)\n\n    def unk_string(self, escape=False):\n        \"\"\"Return unknown string, optionally escaped as: <<unk>>\"\"\"\n        if escape:\n            return \"<{}>\".format(self.unk_word)\n        else:\n            return self.unk_word\n\n    def add_symbol(self, word, n=1, overwrite=False):\n        \"\"\"Adds a word to the dictionary\"\"\"\n        if word in self.indices and not overwrite:\n            idx = self.indices[word]\n            self.count[idx] = self.count[idx] + n\n            return idx\n        else:\n            idx = len(self.symbols)\n            self.indices[word] = idx\n            self.symbols.append(word)\n            self.count.append(n)\n            return idx\n\n    def update(self, new_dict):\n        \"\"\"Updates counts from new dictionary.\"\"\"\n        for word in new_dict.symbols:\n            idx2 = new_dict.indices[word]\n            if word in self.indices:\n                idx = self.indices[word]\n                self.count[idx] = self.count[idx] + new_dict.count[idx2]\n            else:\n                idx = len(self.symbols)\n                self.indices[word] = idx\n                self.symbols.append(word)\n                self.count.append(new_dict.count[idx2])\n\n    def finalize(self, threshold=-1, nwords=-1, padding_factor=8):\n        \"\"\"Sort symbols by frequency in descending order, ignoring special ones.\n\n        Args:\n            - threshold defines the minimum word count\n            - nwords defines the total number of words in the final dictionary,\n                including special symbols\n            - padding_factor can be used to pad the dictionary size to be a\n                multiple of 8, which is important on some hardware (e.g., Nvidia\n                Tensor Cores).\n        \"\"\"\n        if nwords <= 0:\n            nwords = len(self)\n\n        new_indices = dict(zip(self.symbols[: self.nspecial], range(self.nspecial)))\n        new_symbols = self.symbols[: self.nspecial]\n        new_count = self.count[: self.nspecial]\n\n        c = Counter(\n            dict(\n                sorted(zip(self.symbols[self.nspecial :], self.count[self.nspecial :]))\n            )\n        )\n        for symbol, count in c.most_common(nwords - self.nspecial):\n            if count >= threshold:\n                new_indices[symbol] = len(new_symbols)\n                new_symbols.append(symbol)\n                new_count.append(count)\n            else:\n                break\n\n        assert len(new_symbols) == len(new_indices)\n\n        self.count = list(new_count)\n        self.symbols = list(new_symbols)\n        self.indices = new_indices\n\n        self.pad_to_multiple_(padding_factor)\n\n    def pad_to_multiple_(self, padding_factor):\n        \"\"\"Pad Dictionary size to be a multiple of *padding_factor*.\"\"\"\n        if padding_factor > 1:\n            i = 0\n            while len(self) % padding_factor != 0:\n                symbol = \"madeupword{:04d}\".format(i)\n                self.add_symbol(symbol, n=0)\n                i += 1\n\n    def bos(self):\n        \"\"\"Helper to get index of beginning-of-sentence symbol\"\"\"\n        return self.bos_index\n\n    def pad(self):\n        \"\"\"Helper to get index of pad symbol\"\"\"\n        return self.pad_index\n\n    def eos(self):\n        \"\"\"Helper to get index of end-of-sentence symbol\"\"\"\n        return self.eos_index\n\n    def unk(self):\n        \"\"\"Helper to get index of unk symbol\"\"\"\n        return self.unk_index\n\n    @classmethod\n    def load(cls, f, add_special_symbols=True):\n        \"\"\"Loads the dictionary from a text file with the format:\n\n        ```\n        <symbol0> <count0>\n        <symbol1> <count1>\n        ...\n        ```\n        \"\"\"\n        d = cls(add_special_symbols=add_special_symbols)\n        d.add_from_file(f)\n        return d\n\n    def add_from_file(self, f):\n        \"\"\"\n        Loads a pre-existing dictionary from a text file and adds its symbols\n        to this instance.\n        \"\"\"\n        if isinstance(f, str):\n            try:\n                with open(PathManager.get_local_path(f), \"r\", encoding=\"utf-8\") as fd:\n                    self.add_from_file(fd)\n            except FileNotFoundError as fnfe:\n                raise fnfe\n            except UnicodeError:\n                raise Exception(\n                    \"Incorrect encoding detected in {}, please \"\n                    \"rebuild the dataset\".format(f)\n                )\n            return\n\n        lines = f.readlines()\n        indices_start_line = self._load_meta(lines)\n\n        for line in lines[indices_start_line:]:\n            try:\n                line, field = line.rstrip().rsplit(\" \", 1)\n                if field == \"#fairseq:overwrite\":\n                    overwrite = True\n                    line, field = line.rsplit(\" \", 1)\n                else:\n                    overwrite = False\n                count = int(field)\n                word = line\n                if word in self and not overwrite:\n                    raise RuntimeError(\n                        \"Duplicate word found when loading Dictionary: '{}'. \"\n                        \"Duplicate words can overwrite earlier ones by adding the \"\n                        \"#fairseq:overwrite flag at the end of the corresponding row \"\n                        \"in the dictionary file. If using the Camembert model, please \"\n                        \"download an updated copy of the model file.\".format(word)\n                    )\n                self.add_symbol(word, n=count, overwrite=overwrite)\n            except ValueError:\n                raise ValueError(\n                    f\"Incorrect dictionary format, expected '<token> <cnt> [flags]': \\\"{line}\\\"\"\n                )\n\n    def _save(self, f, kv_iterator):\n        if isinstance(f, str):\n            PathManager.mkdirs(os.path.dirname(f))\n            with PathManager.open(f, \"w\", encoding=\"utf-8\") as fd:\n                return self.save(fd)\n        for k, v in kv_iterator:\n            print(\"{} {}\".format(k, v), file=f)\n\n    def _get_meta(self):\n        return [], []\n\n    def _load_meta(self, lines):\n        return 0\n\n    def save(self, f):\n        \"\"\"Stores dictionary into a text file\"\"\"\n        ex_keys, ex_vals = self._get_meta()\n        self._save(\n            f,\n            zip(\n                ex_keys + self.symbols[self.nspecial :],\n                ex_vals + self.count[self.nspecial :],\n            ),\n        )\n\n    def dummy_sentence(self, length):\n        t = torch.Tensor(length).uniform_(self.nspecial + 1, len(self)).long()\n        t[-1] = self.eos()\n        return t\n\n    def encode_line(\n        self,\n        line,\n        line_tokenizer=tokenize_line,\n        add_if_not_exist=True,\n        consumer=None,\n        append_eos=True,\n        reverse_order=False,\n    ) -> torch.IntTensor:\n        words = line_tokenizer(line)\n        if reverse_order:\n            words = list(reversed(words))\n        nwords = len(words)\n        ids = torch.IntTensor(nwords + 1 if append_eos else nwords)\n\n        for i, word in enumerate(words):\n            if add_if_not_exist:\n                idx = self.add_symbol(word)\n            else:\n                idx = self.index(word)\n            if consumer is not None:\n                consumer(word, idx)\n            ids[i] = idx\n        if append_eos:\n            ids[nwords] = self.eos_index\n        return ids\n\n    @staticmethod\n    def _add_file_to_dictionary_single_worker(\n        filename,\n        tokenize,\n        eos_word,\n        start_offset,\n        end_offset,\n    ):\n        counter = Counter()\n        with Chunker(filename, start_offset, end_offset) as line_iterator:\n            for line in line_iterator:\n                for word in tokenize(line):\n                    counter.update([word])\n                counter.update([eos_word])\n        return counter\n\n    @staticmethod\n    def add_file_to_dictionary(filename, dict, tokenize, num_workers):\n        def merge_result(counter):\n            for w, c in sorted(counter.items()):\n                dict.add_symbol(w, c)\n\n        local_file = PathManager.get_local_path(filename)\n        offsets = find_offsets(local_file, num_workers)\n        if num_workers > 1:\n            chunks = zip(offsets, offsets[1:])\n            pool = Pool(processes=num_workers)\n            results = []\n            for (start_offset, end_offset) in chunks:\n                results.append(\n                    pool.apply_async(\n                        Dictionary._add_file_to_dictionary_single_worker,\n                        (\n                            local_file,\n                            tokenize,\n                            dict.eos_word,\n                            start_offset,\n                            end_offset,\n                        ),\n                    )\n                )\n            pool.close()\n            pool.join()\n            for r in results:\n                merge_result(r.get())\n        else:\n            merge_result(\n                Dictionary._add_file_to_dictionary_single_worker(\n                    local_file, tokenize, dict.eos_word, offsets[0], offsets[1]\n                )\n            )\n\n\nclass TruncatedDictionary(object):\n    def __init__(self, wrapped_dict, length):\n        self.__class__ = type(\n            wrapped_dict.__class__.__name__,\n            (self.__class__, wrapped_dict.__class__),\n            {},\n        )\n        self.__dict__ = wrapped_dict.__dict__\n        self.wrapped_dict = wrapped_dict\n        self.length = min(len(self.wrapped_dict), length)\n\n    def __len__(self):\n        return self.length\n\n    def __getitem__(self, i):\n        if i < self.length:\n            return self.wrapped_dict[i]\n        return self.wrapped_dict.unk()\n"
  },
  {
    "path": "fairseq/data/encoders/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport importlib\nimport os\n\nfrom fairseq import registry\n\n\nbuild_tokenizer, register_tokenizer, TOKENIZER_REGISTRY, _ = registry.setup_registry(\n    \"--tokenizer\",\n    default=None,\n)\n\n\nbuild_bpe, register_bpe, BPE_REGISTRY, _ = registry.setup_registry(\n    \"--bpe\",\n    default=None,\n)\n\n\n# automatically import any Python files in the encoders/ directory\nfor file in sorted(os.listdir(os.path.dirname(__file__))):\n    if file.endswith(\".py\") and not file.startswith(\"_\"):\n        module = file[: file.find(\".py\")]\n        importlib.import_module(\"fairseq.data.encoders.\" + module)\n"
  },
  {
    "path": "fairseq/data/encoders/byte_bpe.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom dataclasses import dataclass, field\n\nfrom fairseq import file_utils\nfrom fairseq.data.encoders import register_bpe\nfrom fairseq.data.encoders.byte_utils import (\n    SPACE,\n    SPACE_ESCAPE,\n    byte_encode,\n    smart_byte_decode,\n)\nfrom fairseq.dataclass import FairseqDataclass\n\n\n@dataclass\nclass ByteBpeConfig(FairseqDataclass):\n    sentencepiece_model_path: str = field(\n        default=\"???\", metadata={\"help\": \"path to sentencepiece model\"}\n    )\n\n\n@register_bpe(\"byte_bpe\", dataclass=ByteBpeConfig)\nclass ByteBPE(object):\n    def __init__(self, cfg):\n        vocab = file_utils.cached_path(cfg.sentencepiece_model_path)\n        try:\n            import sentencepiece as spm\n\n            self.sp = spm.SentencePieceProcessor()\n            self.sp.Load(vocab)\n        except ImportError:\n            raise ImportError(\n                \"Please install sentencepiece with: pip install sentencepiece\"\n            )\n\n    def encode(self, x: str) -> str:\n        byte_encoded = byte_encode(x)\n        return SPACE.join(self.sp.EncodeAsPieces(byte_encoded))\n\n    @staticmethod\n    def decode(x: str) -> str:\n        unescaped = x.replace(SPACE, \"\").replace(SPACE_ESCAPE, SPACE)\n        return smart_byte_decode(unescaped)\n"
  },
  {
    "path": "fairseq/data/encoders/byte_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport re\n\n\nWHITESPACE_NORMALIZER = re.compile(r\"\\s+\")\nSPACE = chr(32)\nSPACE_ESCAPE = chr(9601)\n# excluding non-breaking space (160) here\nPRINTABLE_LATIN = set(\n    list(range(32, 126 + 1)) + list(range(161, 172 + 1)) + list(range(174, 255 + 1))\n)\nBYTE_TO_BCHAR = {\n    b: chr(b) if b in PRINTABLE_LATIN else chr(256 + b) for b in range(256)\n}\nBCHAR_TO_BYTE = {bc: b for b, bc in BYTE_TO_BCHAR.items()}\n\n\ndef byte_encode(x: str) -> str:\n    normalized = WHITESPACE_NORMALIZER.sub(SPACE, x)\n    return \"\".join([BYTE_TO_BCHAR[b] for b in normalized.encode(\"utf-8\")])\n\n\ndef byte_decode(x: str) -> str:\n    try:\n        return bytes([BCHAR_TO_BYTE[bc] for bc in x]).decode(\"utf-8\")\n    except ValueError:\n        return \"\"\n\n\ndef smart_byte_decode(x: str) -> str:\n    output = byte_decode(x)\n    if output == \"\":\n        # DP the best recovery (max valid chars) if it's broken\n        n_bytes = len(x)\n        f = [0 for _ in range(n_bytes + 1)]\n        pt = [0 for _ in range(n_bytes + 1)]\n        for i in range(1, n_bytes + 1):\n            f[i], pt[i] = f[i - 1], i - 1\n            for j in range(1, min(4, i) + 1):\n                if f[i - j] + 1 > f[i] and len(byte_decode(x[i - j : i])) > 0:\n                    f[i], pt[i] = f[i - j] + 1, i - j\n        cur_pt = n_bytes\n        while cur_pt > 0:\n            if f[cur_pt] == f[pt[cur_pt]] + 1:\n                output = byte_decode(x[pt[cur_pt] : cur_pt]) + output\n            cur_pt = pt[cur_pt]\n    return output\n"
  },
  {
    "path": "fairseq/data/encoders/bytes.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom fairseq.data.encoders import register_bpe\nfrom fairseq.data.encoders.byte_utils import (\n    SPACE,\n    SPACE_ESCAPE,\n    byte_encode,\n    smart_byte_decode,\n)\n\n\n@register_bpe(\"bytes\")\nclass Bytes(object):\n    def __init__(self, *unused):\n        pass\n\n    @staticmethod\n    def add_args(parser):\n        pass\n\n    @staticmethod\n    def encode(x: str) -> str:\n        encoded = byte_encode(x)\n        escaped = encoded.replace(SPACE, SPACE_ESCAPE)\n        return SPACE.join(list(escaped))\n\n    @staticmethod\n    def decode(x: str) -> str:\n        unescaped = x.replace(SPACE, \"\").replace(SPACE_ESCAPE, SPACE)\n        return smart_byte_decode(unescaped)\n"
  },
  {
    "path": "fairseq/data/encoders/characters.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom fairseq.data.encoders import register_bpe\n\n\nSPACE = chr(32)\nSPACE_ESCAPE = chr(9601)\n\n\n@register_bpe(\"characters\")\nclass Characters(object):\n    def __init__(self, *unused):\n        pass\n\n    @staticmethod\n    def add_args(parser):\n        pass\n\n    @staticmethod\n    def encode(x: str) -> str:\n        escaped = x.replace(SPACE, SPACE_ESCAPE)\n        return SPACE.join(list(escaped))\n\n    @staticmethod\n    def decode(x: str) -> str:\n        return x.replace(SPACE, \"\").replace(SPACE_ESCAPE, SPACE)\n"
  },
  {
    "path": "fairseq/data/encoders/fastbpe.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\n\nfrom fairseq import file_utils\nfrom fairseq.data.encoders import register_bpe\nfrom fairseq.dataclass import FairseqDataclass\n\n\n@dataclass\nclass fastBPEConfig(FairseqDataclass):\n    bpe_codes: str = field(default=\"???\", metadata={\"help\": \"path to fastBPE BPE\"})\n\n\n@register_bpe(\"fastbpe\", dataclass=fastBPEConfig)\nclass fastBPE(object):\n    def __init__(self, cfg):\n        if cfg.bpe_codes is None:\n            raise ValueError(\"--bpe-codes is required for --bpe=fastbpe\")\n        codes = file_utils.cached_path(cfg.bpe_codes)\n        try:\n            import fastBPE\n\n            self.bpe = fastBPE.fastBPE(codes)\n            self.bpe_symbol = \"@@ \"\n        except ImportError:\n            raise ImportError(\"Please install fastBPE with: pip install fastBPE\")\n\n    def encode(self, x: str) -> str:\n        return self.bpe.apply([x])[0]\n\n    def decode(self, x: str) -> str:\n        return (x + \" \").replace(self.bpe_symbol, \"\").rstrip()\n"
  },
  {
    "path": "fairseq/data/encoders/gpt2_bpe.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\n\nfrom fairseq import file_utils\nfrom fairseq.data.encoders import register_bpe\nfrom fairseq.dataclass import FairseqDataclass\n\nfrom .gpt2_bpe_utils import get_encoder\n\n\nDEFAULT_ENCODER_JSON = \"https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/encoder.json\"\nDEFAULT_VOCAB_BPE = \"https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/vocab.bpe\"\n\n\n@dataclass\nclass GPT2BPEConfig(FairseqDataclass):\n    gpt2_encoder_json: str = field(\n        default=DEFAULT_ENCODER_JSON, metadata={\"help\": \"path to encoder.json\"}\n    )\n    gpt2_vocab_bpe: str = field(\n        default=DEFAULT_VOCAB_BPE, metadata={\"help\": \"path to vocab.bpe\"}\n    )\n\n\n@register_bpe(\"gpt2\", dataclass=GPT2BPEConfig)\nclass GPT2BPE(object):\n    def __init__(self, cfg):\n        encoder_json = file_utils.cached_path(cfg.gpt2_encoder_json)\n        vocab_bpe = file_utils.cached_path(cfg.gpt2_vocab_bpe)\n        self.bpe = get_encoder(encoder_json, vocab_bpe)\n\n    def encode(self, x: str) -> str:\n        return \" \".join(map(str, self.bpe.encode(x)))\n\n    def decode(self, x: str) -> str:\n        return self.bpe.decode(\n            [int(tok) if tok not in {\"<unk>\", \"<mask>\"} else tok for tok in x.split()]\n        )\n\n    def is_beginning_of_word(self, x: str) -> bool:\n        return self.decode(x).startswith(\" \")\n"
  },
  {
    "path": "fairseq/data/encoders/gpt2_bpe_utils.py",
    "content": "\"\"\"\nByte pair encoding utilities from GPT-2.\n\nOriginal source: https://github.com/openai/gpt-2/blob/master/src/encoder.py\nOriginal license: MIT\n\"\"\"\n\nimport json\nfrom functools import lru_cache\n\n\n@lru_cache()\ndef bytes_to_unicode():\n    \"\"\"\n    Returns list of utf-8 byte and a corresponding list of unicode strings.\n    The reversible bpe codes work on unicode strings.\n    This means you need a large # of unicode characters in your vocab if you want to avoid UNKs.\n    When you're at something like a 10B token dataset you end up needing around 5K for decent coverage.\n    This is a signficant percentage of your normal, say, 32K bpe vocab.\n    To avoid that, we want lookup tables between utf-8 bytes and unicode strings.\n    And avoids mapping to whitespace/control characters the bpe code barfs on.\n    \"\"\"\n    bs = (\n        list(range(ord(\"!\"), ord(\"~\") + 1))\n        + list(range(ord(\"¡\"), ord(\"¬\") + 1))\n        + list(range(ord(\"®\"), ord(\"ÿ\") + 1))\n    )\n    cs = bs[:]\n    n = 0\n    for b in range(2**8):\n        if b not in bs:\n            bs.append(b)\n            cs.append(2**8 + n)\n            n += 1\n    cs = [chr(n) for n in cs]\n    return dict(zip(bs, cs))\n\n\ndef get_pairs(word):\n    \"\"\"Return set of symbol pairs in a word.\n    Word is represented as tuple of symbols (symbols being variable-length strings).\n    \"\"\"\n    pairs = set()\n    prev_char = word[0]\n    for char in word[1:]:\n        pairs.add((prev_char, char))\n        prev_char = char\n    return pairs\n\n\nclass Encoder:\n    def __init__(self, encoder, bpe_merges, errors=\"replace\"):\n        self.encoder = encoder\n        self.decoder = {v: k for k, v in self.encoder.items()}\n        self.errors = errors  # how to handle errors in decoding\n        self.byte_encoder = bytes_to_unicode()\n        self.byte_decoder = {v: k for k, v in self.byte_encoder.items()}\n        self.bpe_ranks = dict(zip(bpe_merges, range(len(bpe_merges))))\n        self.cache = {}\n\n        try:\n            import regex as re\n\n            self.re = re\n        except ImportError:\n            raise ImportError(\"Please install regex with: pip install regex\")\n\n        # Should haved added re.IGNORECASE so BPE merges can happen for capitalized versions of contractions\n        self.pat = self.re.compile(\n            r\"\"\"'s|'t|'re|'ve|'m|'ll|'d| ?\\p{L}+| ?\\p{N}+| ?[^\\s\\p{L}\\p{N}]+|\\s+(?!\\S)|\\s+\"\"\"\n        )\n\n    def bpe(self, token):\n        if token in self.cache:\n            return self.cache[token]\n        word = tuple(token)\n        pairs = get_pairs(word)\n\n        if not pairs:\n            return token\n\n        while True:\n            bigram = min(pairs, key=lambda pair: self.bpe_ranks.get(pair, float(\"inf\")))\n            if bigram not in self.bpe_ranks:\n                break\n            first, second = bigram\n            new_word = []\n            i = 0\n            while i < len(word):\n                try:\n                    j = word.index(first, i)\n                    new_word.extend(word[i:j])\n                    i = j\n                except:\n                    new_word.extend(word[i:])\n                    break\n\n                if word[i] == first and i < len(word) - 1 and word[i + 1] == second:\n                    new_word.append(first + second)\n                    i += 2\n                else:\n                    new_word.append(word[i])\n                    i += 1\n            new_word = tuple(new_word)\n            word = new_word\n            if len(word) == 1:\n                break\n            else:\n                pairs = get_pairs(word)\n        word = \" \".join(word)\n        self.cache[token] = word\n        return word\n\n    def encode(self, text):\n        bpe_tokens = []\n        for token in self.re.findall(self.pat, text):\n            token = \"\".join(self.byte_encoder[b] for b in token.encode(\"utf-8\"))\n            bpe_tokens.extend(\n                self.encoder[bpe_token] for bpe_token in self.bpe(token).split(\" \")\n            )\n        return bpe_tokens\n\n    def decode(self, tokens):\n        text = \"\".join([self.decoder.get(token, token) for token in tokens])\n        text = bytearray([self.byte_decoder[c] for c in text]).decode(\n            \"utf-8\", errors=self.errors\n        )\n        return text\n\n\ndef get_encoder(encoder_json_path, vocab_bpe_path):\n    with open(encoder_json_path, \"r\") as f:\n        encoder = json.load(f)\n    with open(vocab_bpe_path, \"r\", encoding=\"utf-8\") as f:\n        bpe_data = f.read()\n    bpe_merges = [tuple(merge_str.split()) for merge_str in bpe_data.split(\"\\n\")[1:-1]]\n    return Encoder(\n        encoder=encoder,\n        bpe_merges=bpe_merges,\n    )\n"
  },
  {
    "path": "fairseq/data/encoders/hf_bert_bpe.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\nfrom typing import Optional\n\nfrom fairseq.data.encoders import register_bpe\nfrom fairseq.dataclass import FairseqDataclass\n\n\n@dataclass\nclass BertBPEConfig(FairseqDataclass):\n    bpe_cased: bool = field(default=False, metadata={\"help\": \"set for cased BPE\"})\n    bpe_vocab_file: Optional[str] = field(\n        default=None, metadata={\"help\": \"bpe vocab file\"}\n    )\n\n\n@register_bpe(\"bert\", dataclass=BertBPEConfig)\nclass BertBPE(object):\n    def __init__(self, cfg):\n        try:\n            from transformers import BertTokenizer\n        except ImportError:\n            raise ImportError(\n                \"Please install transformers with: pip install transformers\"\n            )\n\n        if cfg.bpe_vocab_file:\n            self.bert_tokenizer = BertTokenizer(\n                cfg.bpe_vocab_file, do_lower_case=not cfg.bpe_cased\n            )\n        else:\n            vocab_file_name = (\n                \"bert-base-cased\" if cfg.bpe_cased else \"bert-base-uncased\"\n            )\n            self.bert_tokenizer = BertTokenizer.from_pretrained(vocab_file_name)\n\n    def encode(self, x: str) -> str:\n        return \" \".join(self.bert_tokenizer.tokenize(x))\n\n    def decode(self, x: str) -> str:\n        return self.bert_tokenizer.clean_up_tokenization(\n            self.bert_tokenizer.convert_tokens_to_string(x.split(\" \"))\n        )\n\n    def is_beginning_of_word(self, x: str) -> bool:\n        return not x.startswith(\"##\")\n"
  },
  {
    "path": "fairseq/data/encoders/hf_byte_bpe.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\n\nfrom fairseq.data.encoders import register_bpe\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq import file_utils\n\n\n@dataclass\nclass HuggingFaceByteLevelBPEConfig(FairseqDataclass):\n    bpe_merges: str = field(default=\"???\", metadata={\"help\": \"path to merges.txt\"})\n    bpe_vocab: str = field(default=\"???\", metadata={\"help\": \"path to vocab.json\"})\n    bpe_add_prefix_space: bool = field(\n        default=False, metadata={\"help\": \"add prefix space before encoding\"}\n    )\n\n\n@register_bpe(\"hf_byte_bpe\", dataclass=HuggingFaceByteLevelBPEConfig)\nclass HuggingFaceByteLevelBPE(object):\n    def __init__(self, cfg):\n        try:\n            from tokenizers import ByteLevelBPETokenizer\n        except ImportError:\n            raise ImportError(\n                \"Please install huggingface/tokenizers with: \" \"pip install tokenizers\"\n            )\n\n        bpe_vocab = file_utils.cached_path(cfg.bpe_vocab)\n        bpe_merges = file_utils.cached_path(cfg.bpe_merges)\n\n        self.bpe = ByteLevelBPETokenizer(\n            bpe_vocab,\n            bpe_merges,\n            add_prefix_space=cfg.bpe_add_prefix_space,\n        )\n\n    def encode(self, x: str) -> str:\n        return \" \".join(map(str, self.bpe.encode(x).ids))\n\n    def decode(self, x: str) -> str:\n        return self.bpe.decode(\n            [int(tok) if tok not in {\"<unk>\", \"<mask>\"} else tok for tok in x.split()]\n        )\n\n    def is_beginning_of_word(self, x: str) -> bool:\n        return self.decode(x).startswith(\" \")\n"
  },
  {
    "path": "fairseq/data/encoders/moses_tokenizer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\n\nfrom fairseq.data.encoders import register_tokenizer\nfrom fairseq.dataclass import FairseqDataclass\n\n\n@dataclass\nclass MosesTokenizerConfig(FairseqDataclass):\n    source_lang: str = field(default=\"en\", metadata={\"help\": \"source language\"})\n    target_lang: str = field(default=\"en\", metadata={\"help\": \"target language\"})\n    moses_no_dash_splits: bool = field(\n        default=False, metadata={\"help\": \"don't apply dash split rules\"}\n    )\n    moses_no_escape: bool = field(\n        default=False,\n        metadata={\"help\": \"don't perform HTML escaping on apostrophe, quotes, etc.\"},\n    )\n\n\n@register_tokenizer(\"moses\", dataclass=MosesTokenizerConfig)\nclass MosesTokenizer(object):\n    def __init__(self, cfg: MosesTokenizerConfig):\n        self.cfg = cfg\n\n        try:\n            from sacremoses import MosesTokenizer, MosesDetokenizer\n\n            self.tok = MosesTokenizer(cfg.source_lang)\n            self.detok = MosesDetokenizer(cfg.target_lang)\n        except ImportError:\n            raise ImportError(\n                \"Please install Moses tokenizer with: pip install sacremoses\"\n            )\n\n    def encode(self, x: str) -> str:\n        return self.tok.tokenize(\n            x,\n            aggressive_dash_splits=(not self.cfg.moses_no_dash_splits),\n            return_str=True,\n            escape=(not self.cfg.moses_no_escape),\n        )\n\n    def decode(self, x: str) -> str:\n        return self.detok.detokenize(x.split())\n"
  },
  {
    "path": "fairseq/data/encoders/nltk_tokenizer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.data.encoders import register_tokenizer\nfrom fairseq.dataclass import FairseqDataclass\n\n\n@register_tokenizer(\"nltk\", dataclass=FairseqDataclass)\nclass NLTKTokenizer(object):\n    def __init__(self, *unused):\n        try:\n            from nltk.tokenize import word_tokenize\n\n            self.word_tokenize = word_tokenize\n        except ImportError:\n            raise ImportError(\"Please install nltk with: pip install nltk\")\n\n    def encode(self, x: str) -> str:\n        return \" \".join(self.word_tokenize(x))\n\n    def decode(self, x: str) -> str:\n        return x\n"
  },
  {
    "path": "fairseq/data/encoders/sentencepiece_bpe.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\nfrom typing import Optional\n\nfrom fairseq import file_utils\nfrom fairseq.data.encoders import register_bpe\nfrom fairseq.dataclass import FairseqDataclass\n\n\n@dataclass\nclass SentencepieceConfig(FairseqDataclass):\n    sentencepiece_model: str = field(\n        default=\"???\", metadata={\"help\": \"path to sentencepiece model\"}\n    )\n    sentencepiece_enable_sampling: bool = field(\n        default=False, metadata={\"help\": \"enable sampling\"}\n    )\n    sentencepiece_alpha: Optional[float] = field(\n        default=None,\n        metadata={\n            \"help\": \"soothing parameter for unigram sampling, \"\n            \"and merge probability for BPE-dropout\"\n        },\n    )\n\n\n@register_bpe(\"sentencepiece\", dataclass=SentencepieceConfig)\nclass SentencepieceBPE(object):\n    def __init__(self, cfg):\n        self.enable_sampling = cfg.sentencepiece_enable_sampling\n        self.alpha = cfg.sentencepiece_alpha\n        sentencepiece_model = file_utils.cached_path(cfg.sentencepiece_model)\n        try:\n            import sentencepiece as spm\n\n            self.sp = spm.SentencePieceProcessor()\n            self.sp.Load(sentencepiece_model)\n        except ImportError:\n            raise ImportError(\n                \"Please install sentencepiece with: pip install sentencepiece\"\n            )\n\n    def encode(self, x: str) -> str:\n        return \" \".join(\n            self.sp.Encode(\n                x, out_type=str, enable_sampling=self.enable_sampling, alpha=self.alpha\n            )\n        )\n\n    def decode(self, x: str) -> str:\n        return x.replace(\" \", \"\").replace(\"\\u2581\", \" \").strip()\n\n    def is_beginning_of_word(self, x: str) -> bool:\n        if x in [\"<unk>\", \"<s>\", \"</s>\", \"<pad>\"]:\n            # special elements are always considered beginnings\n            # HACK: this logic is already present in fairseq/tasks/masked_lm.py\n            # but these special tokens are also contained in the sentencepiece\n            # vocabulary which causes duplicate special tokens. This hack makes\n            # sure that they are all taken into account.\n            return True\n        return x.startswith(\"\\u2581\")\n"
  },
  {
    "path": "fairseq/data/encoders/space_tokenizer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport re\n\nfrom fairseq.data.encoders import register_tokenizer\nfrom fairseq.dataclass import FairseqDataclass\n\n\n@register_tokenizer(\"space\", dataclass=FairseqDataclass)\nclass SpaceTokenizer(object):\n    def __init__(self, *unused):\n        self.space_tok = re.compile(r\"\\s+\")\n\n    def encode(self, x: str) -> str:\n        return self.space_tok.sub(\" \", x)\n\n    def decode(self, x: str) -> str:\n        return x\n"
  },
  {
    "path": "fairseq/data/encoders/subword_nmt_bpe.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\n\nfrom fairseq import file_utils\nfrom fairseq.data.encoders import register_bpe\nfrom fairseq.dataclass import FairseqDataclass\n\n\n@dataclass\nclass SubwordNMTBPEConfig(FairseqDataclass):\n    bpe_codes: str = field(default=\"???\", metadata={\"help\": \"path to subword NMT BPE\"})\n    bpe_separator: str = field(default=\"@@\", metadata={\"help\": \"BPE separator\"})\n\n\n@register_bpe(\"subword_nmt\", dataclass=SubwordNMTBPEConfig)\nclass SubwordNMTBPE(object):\n    def __init__(self, cfg):\n        if cfg.bpe_codes is None:\n            raise ValueError(\"--bpe-codes is required for --bpe=subword_nmt\")\n        codes = file_utils.cached_path(cfg.bpe_codes)\n        try:\n            from subword_nmt import apply_bpe\n\n            bpe_parser = apply_bpe.create_parser()\n            bpe_args = bpe_parser.parse_args(\n                [\n                    \"--codes\",\n                    codes,\n                    \"--separator\",\n                    cfg.bpe_separator,\n                ]\n            )\n            self.bpe = apply_bpe.BPE(\n                bpe_args.codes,\n                bpe_args.merges,\n                bpe_args.separator,\n                None,\n                bpe_args.glossaries,\n            )\n            self.bpe_symbol = bpe_args.separator + \" \"\n        except ImportError:\n            raise ImportError(\n                \"Please install subword_nmt with: pip install subword-nmt\"\n            )\n\n    def encode(self, x: str) -> str:\n        return self.bpe.process_line(x)\n\n    def decode(self, x: str) -> str:\n        return (x + \" \").replace(self.bpe_symbol, \"\").rstrip()\n"
  },
  {
    "path": "fairseq/data/encoders/utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nfrom fairseq.data import encoders\n\n\ndef get_whole_word_mask(args, dictionary):\n    bpe = encoders.build_bpe(args)\n    if bpe is not None:\n\n        def is_beginning_of_word(i):\n            if i < dictionary.nspecial:\n                # special elements are always considered beginnings\n                return True\n            tok = dictionary[i]\n            if tok.startswith(\"madeupword\"):\n                return True\n            try:\n                return bpe.is_beginning_of_word(tok)\n            except ValueError:\n                return True\n\n        mask_whole_words = torch.ByteTensor(\n            list(map(is_beginning_of_word, range(len(dictionary))))\n        )\n        return mask_whole_words\n    return None\n"
  },
  {
    "path": "fairseq/data/fairseq_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport numpy as np\nimport torch.utils.data\nfrom fairseq.data import data_utils\n\nlogger = logging.getLogger(__name__)\n\n\nclass EpochListening:\n    \"\"\"Mixin for receiving updates whenever the epoch increments.\"\"\"\n\n    @property\n    def can_reuse_epoch_itr_across_epochs(self):\n        \"\"\"\n        Whether we can reuse the :class:`fairseq.data.EpochBatchIterator` for\n        this dataset across epochs.\n\n        This needs to return ``False`` if the sample sizes can change across\n        epochs, in which case we may need to regenerate batches at each epoch.\n        If your dataset relies in ``set_epoch`` then you should consider setting\n        this to ``False``.\n        \"\"\"\n        return True\n\n    def set_epoch(self, epoch):\n        \"\"\"Will receive the updated epoch number at the beginning of the epoch.\"\"\"\n        pass\n\n\nclass FairseqDataset(torch.utils.data.Dataset, EpochListening):\n    \"\"\"A dataset that provides helpers for batching.\"\"\"\n\n    def __getitem__(self, index):\n        raise NotImplementedError\n\n    def __len__(self):\n        raise NotImplementedError\n\n    def collater(self, samples):\n        \"\"\"Merge a list of samples to form a mini-batch.\n\n        Args:\n            samples (List[dict]): samples to collate\n\n        Returns:\n            dict: a mini-batch suitable for forwarding with a Model\n        \"\"\"\n        raise NotImplementedError\n\n    def num_tokens(self, index):\n        \"\"\"Return the number of tokens in a sample. This value is used to\n        enforce ``--max-tokens`` during batching.\"\"\"\n        raise NotImplementedError\n\n    def num_tokens_vec(self, indices):\n        \"\"\"Return the number of tokens for a set of positions defined by indices.\n        This value is used to enforce ``--max-tokens`` during batching.\"\"\"\n        raise NotImplementedError\n\n    def size(self, index):\n        \"\"\"Return an example's size as a float or tuple. This value is used when\n        filtering a dataset with ``--max-positions``.\"\"\"\n        raise NotImplementedError\n\n    def ordered_indices(self):\n        \"\"\"Return an ordered list of indices. Batches will be constructed based\n        on this order.\"\"\"\n        return np.arange(len(self), dtype=np.int64)\n\n    @property\n    def supports_prefetch(self):\n        \"\"\"Whether this dataset supports prefetching.\"\"\"\n        return False\n\n    def attr(self, attr: str, index: int):\n        return getattr(self, attr, None)\n\n    def prefetch(self, indices):\n        \"\"\"Prefetch the data required for this epoch.\"\"\"\n        raise NotImplementedError\n\n    def get_batch_shapes(self):\n        \"\"\"\n        Return a list of valid batch shapes, for example::\n\n            [(8, 512), (16, 256), (32, 128)]\n\n        The first dimension of each tuple is the batch size and can be ``None``\n        to automatically infer the max batch size based on ``--max-tokens``.\n        The second dimension of each tuple is the max supported length as given\n        by :func:`fairseq.data.FairseqDataset.num_tokens`.\n\n        This will be used by :func:`fairseq.data.FairseqDataset.batch_by_size`\n        to restrict batch shapes. This is useful on TPUs to avoid too many\n        dynamic shapes (and recompilations).\n        \"\"\"\n        return None\n\n    def batch_by_size(\n        self,\n        indices,\n        max_tokens=None,\n        max_sentences=None,\n        required_batch_size_multiple=1,\n    ):\n        \"\"\"\n        Given an ordered set of indices, return batches according to\n        *max_tokens*, *max_sentences* and *required_batch_size_multiple*.\n        \"\"\"\n        from fairseq.data import data_utils\n\n        fixed_shapes = self.get_batch_shapes()\n        if fixed_shapes is not None:\n\n            def adjust_bsz(bsz, num_tokens):\n                if bsz is None:\n                    assert max_tokens is not None, \"Must specify --max-tokens\"\n                    bsz = max_tokens // num_tokens\n                if max_sentences is not None:\n                    bsz = min(bsz, max_sentences)\n                elif (\n                    bsz >= required_batch_size_multiple\n                    and bsz % required_batch_size_multiple != 0\n                ):\n                    bsz -= bsz % required_batch_size_multiple\n                return bsz\n\n            fixed_shapes = np.array(\n                [\n                    [adjust_bsz(bsz, num_tokens), num_tokens]\n                    for (bsz, num_tokens) in fixed_shapes\n                ]\n            )\n\n        try:\n            num_tokens_vec = self.num_tokens_vec(indices).astype(\"int64\")\n        except NotImplementedError:\n            num_tokens_vec = None\n\n        return data_utils.batch_by_size(\n            indices,\n            num_tokens_fn=self.num_tokens,\n            num_tokens_vec=num_tokens_vec,\n            max_tokens=max_tokens,\n            max_sentences=max_sentences,\n            required_batch_size_multiple=required_batch_size_multiple,\n            fixed_shapes=fixed_shapes,\n        )\n\n    def filter_indices_by_size(self, indices, max_sizes):\n        \"\"\"\n        Filter a list of sample indices. Remove those that are longer than\n        specified in *max_sizes*.\n\n        WARNING: don't update, override method in child classes\n\n        Args:\n            indices (np.array): original array of sample indices\n            max_sizes (int or list[int] or tuple[int]): max sample size,\n                can be defined separately for src and tgt (then list or tuple)\n\n        Returns:\n            np.array: filtered sample array\n            list: list of removed indices\n        \"\"\"\n        if isinstance(max_sizes, float) or isinstance(max_sizes, int):\n            if hasattr(self, \"sizes\") and isinstance(self.sizes, np.ndarray):\n                ignored = indices[self.sizes[indices] > max_sizes].tolist()\n                indices = indices[self.sizes[indices] <= max_sizes]\n            elif (\n                hasattr(self, \"sizes\")\n                and isinstance(self.sizes, list)\n                and len(self.sizes) == 1\n            ):\n                ignored = indices[self.sizes[0][indices] > max_sizes].tolist()\n                indices = indices[self.sizes[0][indices] <= max_sizes]\n            else:\n                indices, ignored = data_utils._filter_by_size_dynamic(\n                    indices, self.size, max_sizes\n                )\n        else:\n            indices, ignored = data_utils._filter_by_size_dynamic(\n                indices, self.size, max_sizes\n            )\n        return indices, ignored\n\n    @property\n    def supports_fetch_outside_dataloader(self):\n        \"\"\"Whether this dataset supports fetching outside the workers of the dataloader.\"\"\"\n        return True\n\n\nclass FairseqIterableDataset(torch.utils.data.IterableDataset, EpochListening):\n    \"\"\"\n    For datasets that need to be read sequentially, usually because the data is\n    being streamed or otherwise can't be manipulated on a single machine.\n    \"\"\"\n\n    def __iter__(self):\n        raise NotImplementedError\n"
  },
  {
    "path": "fairseq/data/fasta_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport subprocess\nimport threading\nfrom pathlib import Path\n\nimport numpy as np\nimport torch\n\n\ndef fasta_file_path(prefix_path):\n    return prefix_path + \".fasta\"\n\n\nclass FastaDataset(torch.utils.data.Dataset):\n    \"\"\"\n    For loading protein sequence datasets in the common FASTA data format\n    \"\"\"\n\n    def __init__(self, path: str, cache_indices=False):\n        self.fn = fasta_file_path(path)\n        self.threadlocal = threading.local()\n        self.cache = Path(f\"{path}.fasta.idx.npy\")\n        if cache_indices:\n            if self.cache.exists():\n                self.offsets, self.sizes = np.load(self.cache)\n            else:\n                self.offsets, self.sizes = self._build_index(path)\n                np.save(self.cache, np.stack([self.offsets, self.sizes]))\n        else:\n            raise ValueError(\n                \"`cache_indices` is not supported anymore due to security concerns.\"\n            )\n\n    def _get_file(self):\n        if not hasattr(self.threadlocal, \"f\"):\n            self.threadlocal.f = open(self.fn, \"r\")\n        return self.threadlocal.f\n\n    def __getitem__(self, idx):\n        f = self._get_file()\n        f.seek(self.offsets[idx])\n        desc = f.readline().strip()\n        line = f.readline()\n        seq = \"\"\n        while line != \"\" and line[0] != \">\":\n            seq += line.strip()\n            line = f.readline()\n        return desc, seq\n\n    def __len__(self):\n        return self.offsets.size\n\n    def __setstate__(self, state):\n        self.__dict__ = state\n        self.threadlocal = threading.local()\n\n    def __getstate__(self):\n        d = {}\n        for i, v in self.__dict__.items():\n            if i != \"threadlocal\":\n                d[i] = v\n        return d\n\n    def __del__(self):\n        if hasattr(self.threadlocal, \"f\"):\n            self.threadlocal.f.close()\n            del self.threadlocal.f\n\n    @staticmethod\n    def exists(path):\n        return os.path.exists(fasta_file_path(path))\n\n\nclass EncodedFastaDataset(FastaDataset):\n    \"\"\"\n    The FastaDataset returns raw sequences - this allows us to return\n    indices with a dictionary instead.\n    \"\"\"\n\n    def __init__(self, path, dictionary):\n        super().__init__(path, cache_indices=True)\n        self.dictionary = dictionary\n\n    def __getitem__(self, idx):\n        desc, seq = super().__getitem__(idx)\n        return self.dictionary.encode_line(seq, line_tokenizer=list).long()\n"
  },
  {
    "path": "fairseq/data/huffman/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .huffman_coder import HuffmanCodeBuilder, HuffmanCoder\nfrom .huffman_mmap_indexed_dataset import (\n    HuffmanMMapIndex,\n    HuffmanMMapIndexedDataset,\n    HuffmanMMapIndexedDatasetBuilder,\n    vocab_file_path,\n)\n\n__all__ = [\n    \"HuffmanCoder\",\n    \"HuffmanCodeBuilder\",\n    \"HuffmanMMapIndexedDatasetBuilder\",\n    \"HuffmanMMapIndexedDataset\",\n    \"HuffmanMMapIndex\",\n    \"vocab_file_path\",\n]\n"
  },
  {
    "path": "fairseq/data/huffman/huffman_coder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport re\nimport typing as tp\nfrom collections import Counter, deque\nfrom dataclasses import dataclass\n\nfrom bitarray import bitarray, util\nfrom fairseq.data import Dictionary\n\n# basically we have to write to addressable bytes for the memory mapped\n# dataset loader. Sentences that get encoded to a length that is not a\n# multiple of BLOCKSIZE (a byte) will be padded to fit. (see _pad in the coder)\nBLOCKSIZE = 8\n\n\nclass HuffmanCoder:\n    def __init__(\n        self, root: \"HuffmanNode\", bos=\"<s>\", pad=\"<pad>\", eos=\"</s>\", unk=\"<unk>\"\n    ):\n        self.root = root\n        self.table = root.code_table()\n        self.bos_word, self.unk_word, self.pad_word, self.eos_word = bos, unk, pad, eos\n\n    def _pad(self, a: bitarray) -> bitarray:\n        \"\"\"\n        bitpadding, 1 then 0.\n\n        If the array is already a multiple of blocksize, we add a full block.\n        \"\"\"\n        pad_len = BLOCKSIZE - (len(a) % BLOCKSIZE) - 1\n        padding = bitarray(\"1\" + \"0\" * pad_len)\n        return a + padding\n\n    def _unpad(self, a: bitarray) -> bitarray:\n        \"\"\"\n        remove the bitpadding.\n\n        There will be a set of 0s preceded by a 1 at the end of the bitarray, we remove that\n        \"\"\"\n        # count the 0 padding at the end until we find the first 1\n        # we want to remove the one too\n        remove_cnt = util.rindex(a, 1)\n        return a[:remove_cnt]\n\n    def encode(self, iter: tp.List[str]) -> bytes:\n        \"\"\"\n        encode a list of tokens a return bytes. We use bitpadding to make sure the encoded bits fit in bytes.\n        \"\"\"\n        a = bitarray()\n        for token in iter:\n            code = self.get_code(token)\n            if code is None:\n                if self.unk_word is None:\n                    raise Exception(f\"unknown token {token} cannot be encoded.\")\n                else:\n                    token = self.unk_word\n            a = a + self.get_code(token)\n        return self._pad(a).tobytes()\n\n    def decode(self, bits: bytes) -> tp.Iterator[\"HuffmanNode\"]:\n        \"\"\"\n        take bitpadded bytes and decode it to a set of leaves. You can then use each node to find the symbol/id\n        \"\"\"\n        a = bitarray()\n        a.frombytes(bits)\n        return self.root.decode(self._unpad(a))\n\n    def get_code(self, symbol: str) -> tp.Optional[bitarray]:\n        node = self.get_node(symbol)\n        return None if node is None else node.code\n\n    def get_node(self, symbol: str) -> \"HuffmanNode\":\n        return self.table.get(symbol)\n\n    @classmethod\n    def from_file(\n        cls,\n        filename: str,\n        bos=\"<s>\",\n        pad=\"<pad>\",\n        eos=\"</s>\",\n        unk=\"<unk>\",\n    ) -> \"HuffmanCoder\":\n        builder = HuffmanCodeBuilder.from_file(filename)\n        return builder.build_code(bos=bos, pad=pad, eos=eos, unk=unk)\n\n    def to_file(self, filename, sep=\"\\t\"):\n        nodes = list(self.table.values())\n        nodes.sort(key=lambda n: n.id)\n        with open(filename, \"w\", encoding=\"utf-8\") as output:\n            for n in nodes:\n                output.write(f\"{n.symbol}{sep}{n.count}\\n\")\n\n    def __iter__(self):\n        for n in self.table.values():\n            yield n\n\n    def merge(self, other_coder: \"HuffmanCoder\") -> \"HuffmanCoder\":\n        builder = HuffmanCodeBuilder()\n        for n in self:\n            builder.increment(n.symbol, n.count)\n        for n in other_coder:\n            builder.increment(n.symbol, n.count)\n        return builder.build_code()\n\n    def __eq__(self, other: \"HuffmanCoder\") -> bool:\n        return self.table == other.table\n\n    def __len__(self) -> int:\n        return len(self.table)\n\n    def __contains__(self, sym: str) -> bool:\n        return sym in self.table\n\n    def to_dictionary(self) -> Dictionary:\n        dictionary = Dictionary(bos=self.bos, unk=self.unk, pad=self.pad, eos=self.eos)\n        for n in self:\n            dictionary.add_symbol(n.symbol, n=n.count)\n        dictionary.finalize()\n        return dictionary\n\n\n@dataclass\nclass HuffmanNode:\n    \"\"\"\n    a node in a Huffman tree\n    \"\"\"\n\n    id: int\n    count: int\n    symbol: tp.Optional[str] = None\n    left: tp.Optional[\"HuffmanNode\"] = None\n    right: tp.Optional[\"HuffmanNode\"] = None\n    code: tp.Optional[bitarray] = None\n\n    def is_leaf(self) -> bool:\n        return self.left is None and self.right is None\n\n    def code_table(\n        self, prefix: tp.Optional[bitarray] = None\n    ) -> tp.Dict[str, \"HuffmanNode\"]:\n        defaulted_prefix = prefix if prefix is not None else bitarray()\n        if self.is_leaf():\n            self.code = (\n                defaulted_prefix if len(defaulted_prefix) > 0 else bitarray(\"0\")\n            )  # leaf could be the root if there is only one symbol\n            return {self.symbol: self}\n\n        codes_right = self.right.code_table(defaulted_prefix + bitarray([0]))\n        codes_left = self.left.code_table(defaulted_prefix + bitarray([1]))\n        return {**codes_left, **codes_right}\n\n    def decode(self, bits: bitarray) -> tp.Iterator[\"HuffmanNode\"]:\n        current_node = self\n        for bit in bits:\n            if bit == 0:  # go right\n                current_node = current_node.right\n            else:  # go left\n                current_node = current_node.left\n            if current_node is None:\n                # we shouldn't be on a leaf here\n                raise Exception(\"fell off a leaf\")\n            if current_node.is_leaf():\n                yield current_node\n                current_node = self\n        if current_node != self:\n            raise Exception(\"couldn't decode all the bits\")\n\n\nclass HuffmanCodeBuilder:\n    \"\"\"\n    build a dictionary with occurence count and then build the Huffman code for it.\n    \"\"\"\n\n    def __init__(self):\n        self.symbols = Counter()\n\n    def add_symbols(self, *syms) -> None:\n        self.symbols.update(syms)\n\n    def increment(self, symbol: str, cnt: int) -> None:\n        self.symbols[symbol] += cnt\n\n    @classmethod\n    def from_file(cls, filename):\n        c = cls()\n        with open(filename, \"r\", encoding=\"utf-8\") as input:\n            for line in input:\n                split = re.split(r\"[\\s]+\", line)\n                c.increment(split[0], int(split[1]))\n        return c\n\n    def to_file(self, filename, sep=\"\\t\"):\n        with open(filename, \"w\", encoding=\"utf-8\") as output:\n            for (tok, cnt) in self.symbols.most_common():\n                output.write(f\"{tok}{sep}{cnt}\\n\")\n\n    def _smallest(self, q1: deque, q2: deque) -> HuffmanNode:\n        if len(q1) == 0:\n            return q2.pop()\n\n        if len(q2) == 0:\n            return q1.pop()\n\n        if q1[-1].count < q2[-1].count:\n            return q1.pop()\n\n        return q2.pop()\n\n    def __add__(self, c: \"HuffmanCodeBuilder\") -> \"HuffmanCodeBuilder\":\n        new_c = self.symbols + c.symbols\n        new_b = HuffmanCodeBuilder()\n        new_b.symbols = new_c\n        return new_b\n\n    def build_code(\n        self,\n        bos=\"<s>\",\n        pad=\"<pad>\",\n        eos=\"</s>\",\n        unk=\"<unk>\",\n    ) -> HuffmanCoder:\n        assert len(self.symbols) > 0, \"cannot build code from empty list of symbols\"\n\n        if self.symbols[bos] == 0:\n            self.add_symbols(bos)\n        if self.symbols[pad] == 0:\n            self.add_symbols(pad)\n        if self.symbols[eos] == 0:\n            self.add_symbols(eos)\n        if self.symbols[unk] == 0:\n            self.add_symbols(unk)\n\n        node_id = 0\n        leaves_queue = deque(\n            [\n                HuffmanNode(symbol=symbol, count=count, id=idx)\n                for idx, (symbol, count) in enumerate(self.symbols.most_common())\n            ]\n        )  # left are the most common, right are the least common\n\n        if len(leaves_queue) == 1:\n            root = leaves_queue.pop()\n            root.id = 0\n            return HuffmanCoder(root)\n\n        nodes_queue = deque()\n\n        while len(leaves_queue) > 0 or len(nodes_queue) != 1:\n            # get the lowest two nodes at the head of each queue\n            node1 = self._smallest(leaves_queue, nodes_queue)\n            node2 = self._smallest(leaves_queue, nodes_queue)\n\n            # add new node\n            nodes_queue.appendleft(\n                HuffmanNode(\n                    count=node1.count + node2.count, left=node1, right=node2, id=node_id\n                )\n            )\n            node_id += 1\n\n        # we are left with the root\n        return HuffmanCoder(nodes_queue.pop(), bos=bos, pad=pad, eos=eos, unk=unk)\n"
  },
  {
    "path": "fairseq/data/huffman/huffman_mmap_indexed_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport mmap\nimport os\nimport shutil\nimport struct\nimport typing as tp\nfrom functools import lru_cache\n\nimport numpy as np\nimport torch\nfrom fairseq.data import indexed_dataset\nfrom fairseq.data.huffman import HuffmanCoder\nfrom fairseq.file_io import PathManager\n\n\nclass HuffmanMMapIndex:\n    \"\"\"\n    keep an index of the offsets in the huffman binary file.\n    First a header, then the list of sizes (num tokens) for each instance and finally\n    the addresses of each instance.\n    \"\"\"\n\n    _HDR_MAGIC = b\"HUFFIDX\\x00\\x00\"\n    _VERSION = 1\n\n    @classmethod\n    def writer(cls, path: str, data_len: int):\n        class _Writer:\n            def __enter__(self):\n                self._file = open(path, \"wb\")\n\n                # write header (magic + version)\n                self._file.write(cls._HDR_MAGIC)\n                self._file.write(struct.pack(\"<Q\", cls._VERSION))\n                self._file.write(struct.pack(\"<Q\", data_len))\n\n                return self\n\n            def write(self, sizes, pointers):\n                # add number of items in the index to the header\n                self._file.write(struct.pack(\"<Q\", len(sizes)))\n\n                # write sizes\n                sizes = np.array(sizes, dtype=np.int32)\n                self._file.write(sizes.tobytes(order=\"C\"))\n                del sizes\n\n                # write address pointers\n                pointers = np.array(pointers, dtype=np.int64)\n                self._file.write(pointers.tobytes(order=\"C\"))\n                del pointers\n\n            def __exit__(self, exc_type, exc_val, exc_tb):\n                self._file.close()\n\n        return _Writer()\n\n    def __init__(self, path):\n        with open(path, \"rb\") as stream:\n            # read headers\n            magic_test = stream.read(9)\n            assert self._HDR_MAGIC == magic_test, (\n                \"Index file doesn't match expected format. \"\n                \"Make sure that --dataset-impl is configured properly.\"\n            )\n            (version,) = struct.unpack(\"<Q\", stream.read(8))\n            assert (\n                self._VERSION == version\n            ), f\"Unexpected file version{version} != code version {self._VERSION}\"\n\n            # read length of data file\n            (self._data_len,) = struct.unpack(\"<Q\", stream.read(8))\n            # read number of items in data file/index\n            (self._len,) = struct.unpack(\"<Q\", stream.read(8))\n            offset = stream.tell()\n\n        indexed_dataset._warmup_mmap_file(path)\n\n        self._bin_buffer_mmap = np.memmap(path, mode=\"r\", order=\"C\")\n        self._bin_buffer = memoryview(self._bin_buffer_mmap)\n        self._sizes = np.frombuffer(\n            self._bin_buffer, dtype=np.int32, count=self._len, offset=offset\n        )\n        self._pointers = np.frombuffer(\n            self._bin_buffer,\n            dtype=np.int64,\n            count=self._len,\n            offset=offset + self._sizes.nbytes,\n        )\n\n    def __del__(self):\n        self._bin_buffer_mmap._mmap.close()\n        del self._bin_buffer_mmap\n\n    def __iter__(self):\n        for i in range(self._len):\n            yield self[i]\n\n    @property\n    def data_len(self):\n        return self._data_len\n\n    @property\n    def sizes(self):\n        return self._sizes\n\n    @lru_cache(maxsize=8)\n    def __getitem__(self, i):\n        return self._pointers[i], self._sizes[i]\n\n    def __len__(self):\n        return self._len\n\n\ndef vocab_file_path(prefix_path):\n    return prefix_path + \".vocab\"\n\n\nclass HuffmanMMapIndexedDataset(torch.utils.data.Dataset):\n    \"\"\"\n    an indexed dataset that use mmap and memoryview to access data from disk\n    that was compressed with a HuffmanCoder.\n    \"\"\"\n\n    def __init__(self, prefix_path):\n        super().__init__()\n\n        self._prefix_path = None\n        self._index = None\n        self._bin_buffer = None\n        self._coder = None\n        self._file = None\n\n        self._bin_buffer_mmap = None\n\n        self._do_init(prefix_path)\n\n    def __getstate__(self):\n        return self._prefix_path\n\n    def __setstate__(self, state):\n        self._do_init(state)\n\n    def _do_init(self, prefix_path):\n        self._prefix_path = prefix_path\n        self._index = HuffmanMMapIndex(\n            indexed_dataset.index_file_path(self._prefix_path)\n        )\n        self._coder = HuffmanCoder.from_file(vocab_file_path(self._prefix_path))\n\n        indexed_dataset._warmup_mmap_file(\n            indexed_dataset.data_file_path(self._prefix_path)\n        )\n        self._file = os.open(\n            indexed_dataset.data_file_path(self._prefix_path), os.O_RDONLY\n        )\n        self._bin_buffer_mmap = mmap.mmap(\n            self._file,\n            self._index.data_len,\n            access=mmap.ACCESS_READ,\n        )\n        self._bin_buffer = memoryview(self._bin_buffer_mmap)\n\n    def __del__(self):\n        del self._bin_buffer\n        if self._file:\n            os.close(self._file)\n        del self._index\n\n    def __len__(self):\n        return len(self._index)\n\n    def _decode(self, i):\n        ptr, _ = self._index[i]\n        if i == 0:\n            raw_bytes = self._bin_buffer[:ptr]\n        else:\n            (prev_ptr, _) = self._index[i - 1]\n            raw_bytes = self._bin_buffer[prev_ptr:ptr]\n\n        return self._coder.decode(raw_bytes.tobytes())\n\n    @lru_cache(maxsize=8)\n    def __getitem__(self, i):\n        nodes = self._decode(i)\n        return torch.tensor([n.id for n in nodes], dtype=torch.int64)\n\n    def __iter__(self):\n        for idx in range(len(self)):\n            yield self[idx]\n\n    def get_symbols(self, i):\n        nodes = self._decode(i)\n        for n in nodes:\n            yield n.symbol\n\n    @property\n    def sizes(self):\n        return self._index.sizes\n\n    @property\n    def supports_prefetch(self):\n        return False\n\n    @property\n    def coder(self):\n        return self._coder\n\n    @staticmethod\n    def exists(prefix_path):\n        return (\n            PathManager.exists(indexed_dataset.index_file_path(prefix_path))\n            and PathManager.exists(indexed_dataset.data_file_path(prefix_path))\n            and PathManager.exists(vocab_file_path(prefix_path))\n        )\n\n\nclass HuffmanMMapIndexedDatasetBuilder:\n    \"\"\"\n    Helper to build a memory mapped datasets with a huffman encoder.\n    You can either open/close this manually or use it as a ContextManager.\n    Provide your own coder, it will then be stored alongside the dataset.\n    The builder will first write the vocab file, then open the binary file so you can stream\n    into it, finally the index will be written when the builder is closed (your index should fit in memory).\n    \"\"\"\n\n    def __init__(self, path_prefix: str, coder: HuffmanCoder) -> None:\n        self._path_prefix = path_prefix\n        self._coder = coder\n        self._sizes = []\n        self._ptrs = []\n        self._data_len = 0\n\n    def open(self):\n        self._coder.to_file(vocab_file_path(self._path_prefix))\n        self._data_file = open(indexed_dataset.data_file_path(self._path_prefix), \"wb\")\n\n    def __enter__(self) -> \"HuffmanMMapIndexedDatasetBuilder\":\n        self.open()\n        return self\n\n    def add_item(self, tokens: tp.List[str]) -> None:\n        \"\"\"\n        add a list of tokens to the dataset, they will compressed with the\n        provided coder before being written to file.\n        \"\"\"\n        encoded = self._coder.encode(tokens)\n        code_len = len(encoded)\n        last_ptr = 0\n        if len(self._ptrs) > 0:\n            last_ptr = self._ptrs[-1]\n        self._sizes.append(len(tokens))\n        self._ptrs.append(last_ptr + code_len)\n        self._data_len += code_len\n        self._data_file.write(encoded)\n\n    def append(self, other_dataset_path_prefix: str) -> None:\n        \"\"\"\n        append an existing dataset.\n        Beware, if it wasn't built with the same coder, you are in trouble.\n        \"\"\"\n        other_index = HuffmanMMapIndex(\n            indexed_dataset.index_file_path(other_dataset_path_prefix)\n        )\n        for (ptr, size) in other_index:\n            self._ptrs.append(ptr + self._data_len)\n            self._sizes.append(size)\n\n        # Concatenate data\n        with open(indexed_dataset.data_file_path(other_dataset_path_prefix), \"rb\") as f:\n            shutil.copyfileobj(f, self._data_file)\n\n        self._data_len += other_index.data_len\n\n    def close(self):\n        self._data_file.close()\n        with HuffmanMMapIndex.writer(\n            indexed_dataset.index_file_path(self._path_prefix), self._data_len\n        ) as index:\n            index.write(self._sizes, self._ptrs)\n\n    def __exit__(self, exc_type, exc_val, exc_tb) -> None:\n        self.close()\n"
  },
  {
    "path": "fairseq/data/id_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\nfrom . import FairseqDataset\n\n\nclass IdDataset(FairseqDataset):\n    def __getitem__(self, index):\n        return index\n\n    def __len__(self):\n        return 0\n\n    def collater(self, samples):\n        return torch.tensor(samples)\n"
  },
  {
    "path": "fairseq/data/indexed_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport shutil\nimport struct\nfrom functools import lru_cache\n\nimport numpy as np\nimport torch\nfrom fairseq.dataclass.constants import DATASET_IMPL_CHOICES\nfrom fairseq.data.fasta_dataset import FastaDataset\nfrom fairseq.file_io import PathManager\nfrom fairseq.data.huffman import HuffmanMMapIndexedDataset, HuffmanMMapIndex\n\nfrom . import FairseqDataset\n\nfrom typing import Union\n\n\ndef best_fitting_int_dtype(\n    max_int_to_represent,\n) -> Union[np.uint16, np.uint32, np.int64]:\n\n    if max_int_to_represent is None:\n        return np.uint32  # Safe guess\n    elif max_int_to_represent < 65500:\n        return np.uint16\n    elif max_int_to_represent < 4294967295:\n        return np.uint32\n    else:\n        return np.int64\n        # we avoid np.uint64 because it doesn't save space and its type promotion behaves unexpectedly\n        # https://github.com/numpy/numpy/issues/5745\n\n\ndef get_available_dataset_impl():\n    return list(map(str, DATASET_IMPL_CHOICES))\n\n\ndef infer_dataset_impl(path):\n    if IndexedRawTextDataset.exists(path):\n        return \"raw\"\n    elif IndexedDataset.exists(path):\n        with open(index_file_path(path), \"rb\") as f:\n            magic = f.read(8)\n            if magic == IndexedDataset._HDR_MAGIC:\n                return \"cached\"\n            elif magic == MMapIndexedDataset.Index._HDR_MAGIC[:8]:\n                return \"mmap\"\n            elif magic == HuffmanMMapIndex._HDR_MAGIC[:8]:\n                return \"huffman\"\n            else:\n                return None\n    elif FastaDataset.exists(path):\n        return \"fasta\"\n    else:\n        return None\n\n\ndef make_builder(out_file, impl, vocab_size=None):\n    if impl == \"mmap\":\n        return MMapIndexedDatasetBuilder(\n            out_file, dtype=best_fitting_int_dtype(vocab_size)\n        )\n    elif impl == \"fasta\":\n        raise NotImplementedError\n    elif impl == \"huffman\":\n        raise ValueError(\n            \"Use HuffmanCodeBuilder directly as it has a different interface.\"\n        )\n    else:\n        return IndexedDatasetBuilder(out_file)\n\n\ndef make_dataset(path, impl, fix_lua_indexing=False, dictionary=None):\n    if impl == \"raw\" and IndexedRawTextDataset.exists(path):\n        assert dictionary is not None\n        return IndexedRawTextDataset(path, dictionary)\n    elif impl == \"lazy\" and IndexedDataset.exists(path):\n        return IndexedDataset(path, fix_lua_indexing=fix_lua_indexing)\n    elif impl == \"cached\" and IndexedDataset.exists(path):\n        return IndexedCachedDataset(path, fix_lua_indexing=fix_lua_indexing)\n    elif impl == \"mmap\" and MMapIndexedDataset.exists(path):\n        return MMapIndexedDataset(path)\n    elif impl == \"fasta\" and FastaDataset.exists(path):\n        from fairseq.data.fasta_dataset import EncodedFastaDataset\n\n        return EncodedFastaDataset(path, dictionary)\n    elif impl == \"huffman\" and HuffmanMMapIndexedDataset.exists(path):\n        return HuffmanMMapIndexedDataset(path)\n    return None\n\n\ndef dataset_exists(path, impl):\n    if impl == \"raw\":\n        return IndexedRawTextDataset.exists(path)\n    elif impl == \"mmap\":\n        return MMapIndexedDataset.exists(path)\n    elif impl == \"huffman\":\n        return HuffmanMMapIndexedDataset.exists(path)\n    else:\n        return IndexedDataset.exists(path)\n\n\ndef read_longs(f, n):\n    a = np.empty(n, dtype=np.int64)\n    f.readinto(a)\n    return a\n\n\ndef write_longs(f, a):\n    f.write(np.array(a, dtype=np.int64))\n\n\n_code_to_dtype = {\n    1: np.uint8,\n    2: np.int8,\n    3: np.int16,\n    4: np.int32,\n    5: np.int64,\n    6: np.float64,\n    7: np.double,\n    8: np.uint16,\n    9: np.uint32,\n    10: np.uint64,\n}\n\n\ndef _dtype_header_code(dtype) -> int:\n    for k in _code_to_dtype.keys():\n        if _code_to_dtype[k] == dtype:\n            return k\n    raise ValueError(dtype)\n\n\ndef index_file_path(prefix_path):\n    return prefix_path + \".idx\"\n\n\ndef data_file_path(prefix_path):\n    return prefix_path + \".bin\"\n\n\nclass IndexedDataset(FairseqDataset):\n    \"\"\"Loader for TorchNet IndexedDataset\"\"\"\n\n    _HDR_MAGIC = b\"TNTIDX\\x00\\x00\"\n\n    def __init__(self, path, fix_lua_indexing=False):\n        super().__init__()\n        self.path = path\n        self.fix_lua_indexing = fix_lua_indexing\n        self.data_file = None\n        self.read_index(path)\n\n    def read_index(self, path):\n        with open(index_file_path(path), \"rb\") as f:\n            magic = f.read(8)\n            assert magic == self._HDR_MAGIC, (\n                \"Index file doesn't match expected format. \"\n                \"Make sure that --dataset-impl is configured properly.\"\n            )\n            version = f.read(8)\n            assert struct.unpack(\"<Q\", version) == (1,)\n            code, self.element_size = struct.unpack(\"<QQ\", f.read(16))\n            self.dtype = _code_to_dtype[code]\n            self._len, self.s = struct.unpack(\"<QQ\", f.read(16))\n            self.dim_offsets = read_longs(f, self._len + 1)\n            self.data_offsets = read_longs(f, self._len + 1)\n            self.sizes = read_longs(f, self.s)\n\n    def read_data(self, path):\n        self.data_file = open(data_file_path(path), \"rb\", buffering=0)\n\n    def check_index(self, i):\n        if i < 0 or i >= self._len:\n            raise IndexError(\"index out of range\")\n\n    def __del__(self):\n        if self.data_file:\n            self.data_file.close()\n\n    @lru_cache(maxsize=8)\n    def __getitem__(self, i) -> torch.Tensor:\n        if not self.data_file:\n            self.read_data(self.path)\n        self.check_index(i)\n        tensor_size = self.sizes[self.dim_offsets[i] : self.dim_offsets[i + 1]]\n        a = np.empty(tensor_size, dtype=self.dtype)\n        self.data_file.seek(self.data_offsets[i] * self.element_size)\n        self.data_file.readinto(a)\n        item = torch.from_numpy(a).long()\n        if self.fix_lua_indexing:\n            item -= 1  # subtract 1 for 0-based indexing\n        return item\n\n    def __len__(self):\n        return self._len\n\n    def num_tokens(self, index):\n        return self.sizes[index]\n\n    def size(self, index):\n        return self.sizes[index]\n\n    @staticmethod\n    def exists(path):\n        return PathManager.exists(index_file_path(path)) and PathManager.exists(\n            data_file_path(path)\n        )\n\n    @property\n    def supports_prefetch(self):\n        return False  # avoid prefetching to save memory\n\n\nclass IndexedCachedDataset(IndexedDataset):\n    def __init__(self, path, fix_lua_indexing=False):\n        super().__init__(path, fix_lua_indexing=fix_lua_indexing)\n        self.cache = None\n        self.cache_index = {}\n\n    @property\n    def supports_prefetch(self):\n        return True\n\n    def prefetch(self, indices):\n        if all(i in self.cache_index for i in indices):\n            return\n        if not self.data_file:\n            self.read_data(self.path)\n        indices = sorted(set(indices))\n        total_size = 0\n        for i in indices:\n            total_size += self.data_offsets[i + 1] - self.data_offsets[i]\n        self.cache = np.empty(total_size, dtype=self.dtype)\n        ptx = 0\n        self.cache_index.clear()\n        for i in indices:\n            self.cache_index[i] = ptx\n            size = self.data_offsets[i + 1] - self.data_offsets[i]\n            a = self.cache[ptx : ptx + size]\n            self.data_file.seek(self.data_offsets[i] * self.element_size)\n            self.data_file.readinto(a)\n            ptx += size\n        if self.data_file:\n            # close and delete data file after prefetch so we can pickle\n            self.data_file.close()\n            self.data_file = None\n\n    @lru_cache(maxsize=8)\n    def __getitem__(self, i):\n        self.check_index(i)\n        tensor_size = self.sizes[self.dim_offsets[i] : self.dim_offsets[i + 1]]\n        a = np.empty(tensor_size, dtype=self.dtype)\n        ptx = self.cache_index[i]\n        np.copyto(a, self.cache[ptx : ptx + a.size])\n        item = torch.from_numpy(a).long()\n        if self.fix_lua_indexing:\n            item -= 1  # subtract 1 for 0-based indexing\n        return item\n\n\nclass IndexedRawTextDataset(FairseqDataset):\n    \"\"\"Takes a text file as input and binarizes it in memory at instantiation.\n    Original lines are also kept in memory\"\"\"\n\n    def __init__(self, path, dictionary, append_eos=True, reverse_order=False):\n        self.tokens_list = []\n        self.lines = []\n        self.sizes = []\n        self.append_eos = append_eos\n        self.reverse_order = reverse_order\n        self.read_data(path, dictionary)\n        self.size = len(self.tokens_list)\n\n    def read_data(self, path, dictionary):\n        with open(path, \"r\", encoding=\"utf-8\") as f:\n            for line in f:\n                self.lines.append(line.strip(\"\\n\"))\n                tokens = dictionary.encode_line(\n                    line,\n                    add_if_not_exist=False,\n                    append_eos=self.append_eos,\n                    reverse_order=self.reverse_order,\n                ).long()\n                self.tokens_list.append(tokens)\n                self.sizes.append(len(tokens))\n        self.sizes = np.array(self.sizes)\n\n    def check_index(self, i):\n        if i < 0 or i >= self.size:\n            raise IndexError(\"index out of range\")\n\n    @lru_cache(maxsize=8)\n    def __getitem__(self, i):\n        self.check_index(i)\n        return self.tokens_list[i]\n\n    def get_original_text(self, i):\n        self.check_index(i)\n        return self.lines[i]\n\n    def __del__(self):\n        pass\n\n    def __len__(self):\n        return self.size\n\n    def num_tokens(self, index):\n        return self.sizes[index]\n\n    def size(self, index):\n        return self.sizes[index]\n\n    @staticmethod\n    def exists(path):\n        return PathManager.exists(path)\n\n\nclass IndexedDatasetBuilder:\n    element_sizes = {\n        np.uint8: 1,\n        np.int8: 1,\n        np.int16: 2,\n        np.int32: 4,\n        np.int64: 8,\n        np.float64: 4,\n        np.double: 8,\n    }\n\n    def __init__(self, out_file, dtype=np.int32):\n        self.out_file = open(out_file, \"wb\")\n        self.dtype = dtype\n        self.data_offsets = [0]\n        self.dim_offsets = [0]\n        self.sizes = []\n        self.element_size = self.element_sizes[self.dtype]\n\n    def add_item(self, tensor):\n        # +1 for Lua compatibility\n        bytes = self.out_file.write(np.array(tensor.numpy() + 1, dtype=self.dtype))\n        self.data_offsets.append(self.data_offsets[-1] + bytes / self.element_size)\n        for s in tensor.size():\n            self.sizes.append(s)\n        self.dim_offsets.append(self.dim_offsets[-1] + len(tensor.size()))\n\n    def merge_file_(self, another_file):\n        index = IndexedDataset(another_file)\n        assert index.dtype == self.dtype\n\n        begin = self.data_offsets[-1]\n        for offset in index.data_offsets[1:]:\n            self.data_offsets.append(begin + offset)\n        self.sizes.extend(index.sizes)\n        begin = self.dim_offsets[-1]\n        for dim_offset in index.dim_offsets[1:]:\n            self.dim_offsets.append(begin + dim_offset)\n\n        with open(data_file_path(another_file), \"rb\") as f:\n            while True:\n                data = f.read(1024)\n                if data:\n                    self.out_file.write(data)\n                else:\n                    break\n\n    def finalize(self, index_file):\n        self.out_file.close()\n        index = open(index_file, \"wb\")\n        index.write(b\"TNTIDX\\x00\\x00\")\n        index.write(struct.pack(\"<Q\", 1))\n        index.write(\n            struct.pack(\"<QQ\", _dtype_header_code(self.dtype), self.element_size)\n        )\n        index.write(struct.pack(\"<QQ\", len(self.data_offsets) - 1, len(self.sizes)))\n        write_longs(index, self.dim_offsets)\n        write_longs(index, self.data_offsets)\n        write_longs(index, self.sizes)\n        index.close()\n\n\ndef _warmup_mmap_file(path):\n    with open(path, \"rb\") as stream:\n        while stream.read(100 * 1024 * 1024):\n            pass\n\n\nclass MMapIndexedDataset(torch.utils.data.Dataset):\n    class Index:\n        _HDR_MAGIC = b\"MMIDIDX\\x00\\x00\"\n\n        @classmethod\n        def writer(cls, path, dtype):\n            class _Writer:\n                def __enter__(self):\n                    self._file = open(path, \"wb\")\n\n                    self._file.write(cls._HDR_MAGIC)\n                    self._file.write(struct.pack(\"<Q\", 1))\n                    self._file.write(struct.pack(\"<B\", _dtype_header_code(dtype)))\n\n                    return self\n\n                @staticmethod\n                def _get_pointers(sizes):\n                    dtype_size = dtype().itemsize\n                    address = 0\n                    pointers = []\n\n                    for size in sizes:\n                        pointers.append(address)\n                        address += size * dtype_size\n\n                    return pointers\n\n                def write(self, sizes):\n                    pointers = self._get_pointers(sizes)\n\n                    self._file.write(struct.pack(\"<Q\", len(sizes)))\n\n                    sizes = np.array(sizes, dtype=np.int32)\n                    self._file.write(sizes.tobytes(order=\"C\"))\n                    del sizes\n\n                    pointers = np.array(pointers, dtype=np.int64)\n                    self._file.write(pointers.tobytes(order=\"C\"))\n                    del pointers\n\n                def __exit__(self, exc_type, exc_val, exc_tb):\n                    self._file.close()\n\n            return _Writer()\n\n        def __init__(self, path):\n            with open(path, \"rb\") as stream:\n                magic_test = stream.read(9)\n                assert self._HDR_MAGIC == magic_test, (\n                    \"Index file doesn't match expected format. \"\n                    \"Make sure that --dataset-impl is configured properly.\"\n                )\n                version = struct.unpack(\"<Q\", stream.read(8))\n                assert (1,) == version\n\n                (dtype_code,) = struct.unpack(\"<B\", stream.read(1))\n                self._dtype = _code_to_dtype[dtype_code]\n                self._dtype_size = self._dtype().itemsize\n\n                self._len = struct.unpack(\"<Q\", stream.read(8))[0]\n                offset = stream.tell()\n\n            _warmup_mmap_file(path)\n\n            self._bin_buffer_mmap = np.memmap(path, mode=\"r\", order=\"C\")\n            self._bin_buffer = memoryview(self._bin_buffer_mmap)\n            self._sizes = np.frombuffer(\n                self._bin_buffer, dtype=np.int32, count=self._len, offset=offset\n            )\n            self._pointers = np.frombuffer(\n                self._bin_buffer,\n                dtype=np.int64,\n                count=self._len,\n                offset=offset + self._sizes.nbytes,\n            )\n\n        def __del__(self):\n            self._bin_buffer_mmap._mmap.close()\n            del self._bin_buffer_mmap\n\n        @property\n        def dtype(self):\n            return self._dtype\n\n        @property\n        def sizes(self):\n            return self._sizes\n\n        @lru_cache(maxsize=8)\n        def __getitem__(self, i):\n            return self._pointers[i], self._sizes[i]\n\n        def __len__(self):\n            return self._len\n\n    def __init__(self, path):\n        super().__init__()\n\n        self._path = None\n        self._index = None\n        self._bin_buffer = None\n\n        self._do_init(path)\n\n    def __getstate__(self):\n        return self._path\n\n    def __setstate__(self, state):\n        self._do_init(state)\n\n    def _do_init(self, path):\n        self._path = path\n        self._index = self.Index(index_file_path(self._path))\n\n        _warmup_mmap_file(data_file_path(self._path))\n        self._bin_buffer_mmap = np.memmap(\n            data_file_path(self._path), mode=\"r\", order=\"C\"\n        )\n        self._bin_buffer = memoryview(self._bin_buffer_mmap)\n\n    def __del__(self):\n        self._bin_buffer_mmap._mmap.close()\n        del self._bin_buffer_mmap\n        del self._index\n\n    def __len__(self):\n        return len(self._index)\n\n    @lru_cache(maxsize=8)\n    def __getitem__(self, i):\n        ptr, size = self._index[i]\n        np_array = np.frombuffer(\n            self._bin_buffer, dtype=self._index.dtype, count=size, offset=ptr\n        )\n        if self._index.dtype != np.int64:\n            np_array = np_array.astype(np.int64)\n\n        return torch.from_numpy(np_array)\n\n    @property\n    def sizes(self):\n        return self._index.sizes\n\n    @property\n    def supports_prefetch(self):\n        return False\n\n    @staticmethod\n    def exists(path):\n        return PathManager.exists(index_file_path(path)) and PathManager.exists(\n            data_file_path(path)\n        )\n\n    @property\n    def can_reuse_epoch_itr_across_epochs(self):\n        # TODO: a quick fix. make it a child class of FairseqDataset instead?\n        return True\n\n\ndef get_indexed_dataset_to_local(path) -> str:\n    local_index_path = PathManager.get_local_path(index_file_path(path))\n    local_data_path = PathManager.get_local_path(data_file_path(path))\n\n    assert local_index_path.endswith(\".idx\") and local_data_path.endswith(\".bin\"), (\n        \"PathManager.get_local_path does not return files with expected patterns: \"\n        f\"{local_index_path} and {local_data_path}\"\n    )\n\n    local_path = local_data_path[:-4]  # stripping surfix \".bin\"\n    assert local_path == local_index_path[:-4]  # stripping surfix \".idx\"\n    return local_path\n\n\nclass MMapIndexedDatasetBuilder:\n    def __init__(self, out_file, dtype=np.int64):\n        self._data_file = open(out_file, \"wb\")\n        self._dtype = dtype\n        self._sizes = []\n\n    def add_item(self, tensor):\n        np_array = np.array(tensor.numpy(), dtype=self._dtype)\n        self._data_file.write(np_array.tobytes(order=\"C\"))\n        self._sizes.append(np_array.size)\n\n    def merge_file_(self, another_file):\n        # Concatenate index\n        index = MMapIndexedDataset.Index(index_file_path(another_file))\n        assert index.dtype == self._dtype\n\n        for size in index.sizes:\n            self._sizes.append(size)\n\n        # Concatenate data\n        with open(data_file_path(another_file), \"rb\") as f:\n            shutil.copyfileobj(f, self._data_file)\n\n    def finalize(self, index_file):\n        self._data_file.close()\n\n        with MMapIndexedDataset.Index.writer(index_file, self._dtype) as index:\n            index.write(self._sizes)\n"
  },
  {
    "path": "fairseq/data/iterators.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport itertools\nimport logging\nimport math\nimport operator\nimport os\nimport queue\nimport time\nfrom threading import Thread\nfrom typing import Iterator, List\n\nimport numpy as np\nimport torch\nfrom fairseq.data import data_utils\n\n\nlogger = logging.getLogger(__name__)\n\n# Object used by _background_consumer to signal the source is exhausted\n# to the main thread.\n_sentinel = object()\n\n\nclass CountingIterator(object):\n    \"\"\"Wrapper around an iterable that maintains the iteration count.\n\n    Args:\n        iterable (iterable): iterable to wrap\n        start (int): starting iteration count. Note that this doesn't\n            actually advance the iterator.\n        total (int): override the iterator length returned by ``__len``.\n            This can be used to truncate *iterator*.\n\n    Attributes:\n        n (int): number of elements consumed from this iterator\n    \"\"\"\n\n    def __init__(self, iterable, start=None, total=None):\n        self._itr = iter(iterable)\n        self.n = start or getattr(iterable, \"n\", 0)\n        self.total = total if total is not None else self.n + len(iterable)\n\n    def __len__(self):\n        return self.total\n\n    def __iter__(self):\n        return self\n\n    def __next__(self):\n        if not self.has_next():\n            raise StopIteration\n        try:\n            x = next(self._itr)\n        except StopIteration:\n            raise IndexError(\n                f\"Iterator expected to have length {self.total}, \"\n                f\"but exhausted at position {self.n}.\"\n            )\n        self.n += 1\n        return x\n\n    def has_next(self):\n        \"\"\"Whether the iterator has been exhausted.\"\"\"\n        return self.n < self.total\n\n    def skip(self, n):\n        \"\"\"Fast-forward the iterator by skipping n elements.\"\"\"\n        for _ in range(n):\n            next(self)\n        return self\n\n    def take(self, n):\n        \"\"\"Truncate the iterator to n elements at most.\"\"\"\n        self.total = min(self.total, n)\n        # Propagate this change to the underlying iterator\n        if hasattr(self._itr, \"take\"):\n            self._itr.take(max(n - self.n, 0))\n        return self\n\n\nclass EpochBatchIterating(object):\n    def __len__(self) -> int:\n        raise NotImplementedError\n\n    @property\n    def next_epoch_idx(self):\n        raise NotImplementedError\n\n    def next_epoch_itr(\n        self, shuffle=True, fix_batches_to_gpus=False, set_dataset_epoch=True\n    ):\n        \"\"\"Return a new iterator over the dataset.\n\n        Args:\n            shuffle (bool, optional): shuffle batches before returning the\n                iterator (default: True).\n            fix_batches_to_gpus (bool, optional): ensure that batches are always\n                allocated to the same shards across epochs. Requires\n                that :attr:`dataset` supports prefetching (default: False).\n            set_dataset_epoch (bool, optional): update the wrapped Dataset with\n                the new epoch number (default: True).\n        \"\"\"\n        raise NotImplementedError\n\n    def end_of_epoch(self) -> bool:\n        \"\"\"Returns whether the most recent epoch iterator has been exhausted\"\"\"\n        raise NotImplementedError\n\n    @property\n    def iterations_in_epoch(self) -> int:\n        \"\"\"The number of consumed batches in the current epoch.\"\"\"\n        raise NotImplementedError\n\n    def state_dict(self):\n        \"\"\"Returns a dictionary containing a whole state of the iterator.\"\"\"\n        raise NotImplementedError\n\n    def load_state_dict(self, state_dict):\n        \"\"\"Copies the state of the iterator from the given *state_dict*.\"\"\"\n        raise NotImplementedError\n\n    @property\n    def first_batch(self):\n        return \"DUMMY\"\n\n\nclass StreamingEpochBatchIterator(EpochBatchIterating):\n    \"\"\"A steaming-style iterator over a :class:`torch.utils.data.IterableDataset`.\n\n    Args:\n        dataset (~torch.utils.data.Dataset): dataset from which to load the data\n        max_sentences: batch size\n        collate_fn (callable): merges a list of samples to form a mini-batch\n        num_workers (int, optional): how many subprocesses to use for data\n            loading. 0 means the data will be loaded in the main process\n            (default: 0).\n        epoch (int, optional): the epoch to start the iterator from\n            (default: 1).\n        buffer_size (int, optional): the number of batches to keep ready in the\n            queue. Helps speeding up dataloading. When buffer_size is zero, the\n            default torch.utils.data.DataLoader preloading is used.\n        timeout (int, optional): if positive, the timeout value for collecting a batch\n            from workers. Should always be non-negative (default: ``0``).\n    \"\"\"\n\n    def __init__(\n        self,\n        dataset,\n        max_sentences=1,\n        collate_fn=None,\n        epoch=1,\n        num_workers=0,\n        buffer_size=0,\n        timeout=0,\n        persistent_workers=True,\n    ):\n        assert isinstance(dataset, torch.utils.data.IterableDataset)\n        self.dataset = dataset\n        self.max_sentences = max_sentences\n        self.collate_fn = collate_fn\n        self.epoch = max(epoch, 1)  # we use 1-based indexing for epochs\n        self.num_workers = num_workers\n        self.persistent_workers = persistent_workers and num_workers > 0\n        # This upper limit here is to prevent people from abusing this feature\n        # in a shared computing environment.\n        self.buffer_size = min(buffer_size, 20)\n        self.timeout = timeout\n\n        self._current_epoch_iterator = None\n\n    @property\n    def next_epoch_idx(self):\n        \"\"\"Return the epoch index after *next_epoch_itr* is called.\"\"\"\n        if self._current_epoch_iterator is not None and self.end_of_epoch():\n            return self.epoch + 1\n        else:\n            return self.epoch\n\n    def next_epoch_itr(\n        self, shuffle=True, fix_batches_to_gpus=False, set_dataset_epoch=True\n    ):\n        self.epoch = self.next_epoch_idx\n        if set_dataset_epoch and hasattr(self.dataset, \"set_epoch\"):\n            self.dataset.set_epoch(self.epoch)\n        self._current_epoch_iterator = self._get_iterator_for_epoch(self.epoch, shuffle)\n        return self._current_epoch_iterator\n\n    def end_of_epoch(self) -> bool:\n        return not self._current_epoch_iterator.has_next()\n\n    @property\n    def iterations_in_epoch(self) -> int:\n        if self._current_epoch_iterator is not None:\n            return self._current_epoch_iterator.n\n        return 0\n\n    def state_dict(self):\n        return {\n            \"epoch\": self.epoch,\n        }\n\n    def load_state_dict(self, state_dict):\n        self.epoch = state_dict[\"epoch\"]\n\n    def _get_iterator_for_epoch(self, epoch, shuffle, offset=0):\n        if self.num_workers > 0:\n            os.environ[\"PYTHONWARNINGS\"] = \"ignore:semaphore_tracker:UserWarning\"\n\n        # Create data loader\n        worker_init_fn = getattr(self.dataset, \"worker_init_fn\", None)\n        itr = torch.utils.data.DataLoader(\n            self.dataset,\n            batch_size=self.max_sentences,\n            collate_fn=self.collate_fn,\n            num_workers=self.num_workers,\n            timeout=self.timeout,\n            worker_init_fn=worker_init_fn,\n            pin_memory=True,\n            persistent_workers=self.persistent_workers,\n        )\n\n        # Wrap with a BufferedIterator if needed\n        if self.buffer_size > 0:\n            itr = BufferedIterator(self.buffer_size, itr)\n\n        # Wrap with CountingIterator\n        itr = CountingIterator(itr, start=offset)\n\n        return itr\n\n\nclass FrozenBatchSampler:\n    def __init__(\n        self,\n        ordered_batches,\n        epoch,\n        fix_batches_to_gpus,\n        shuffle,\n        initial_offset,\n    ):\n        self.ordered_batches = ordered_batches\n        self.fix_batches_to_gpus = fix_batches_to_gpus\n        self.shuffle = shuffle\n        self.make_batches_for_epoch(epoch, initial_offset)\n\n    def make_batches_for_epoch(self, epoch, offset=0):\n        self.batches = self.ordered_batches(\n            epoch, self.fix_batches_to_gpus, self.shuffle\n        )\n        if offset > 0:\n            self.batches = self.batches[offset:]\n\n    def __iter__(self) -> Iterator[List[int]]:\n        return iter(self.batches)\n\n    def __len__(self) -> int:\n        return len(self.batches)\n\n\nclass EpochBatchIterator(EpochBatchIterating):\n    \"\"\"A multi-epoch iterator over a :class:`torch.utils.data.Dataset`.\n\n    Compared to :class:`torch.utils.data.DataLoader`, this iterator:\n\n    - can be reused across multiple epochs with the :func:`next_epoch_itr`\n      method (optionally shuffled between epochs)\n    - can be serialized/deserialized with the :func:`state_dict` and\n      :func:`load_state_dict` methods\n    - supports sharding with the *num_shards* and *shard_id* arguments\n\n    Args:\n        dataset (~torch.utils.data.Dataset): dataset from which to load the data\n        collate_fn (callable): merges a list of samples to form a mini-batch\n        batch_sampler (~torch.utils.data.Sampler or a callable): an iterator over batches of\n            indices, or a callable to create such an iterator (~torch.utils.data.Sampler).\n            A callable batch_sampler will be called for each epoch to enable per epoch dynamic\n            batch iterators defined by this callable batch_sampler.\n        seed (int, optional): seed for random number generator for\n            reproducibility (default: 1).\n        num_shards (int, optional): shard the data iterator into N\n            shards (default: 1).\n        shard_id (int, optional): which shard of the data iterator to\n            return (default: 0).\n        num_workers (int, optional): how many subprocesses to use for data\n            loading. 0 means the data will be loaded in the main process\n            (default: 0).\n        epoch (int, optional): the epoch to start the iterator from\n            (default: 1).\n        buffer_size (int, optional): the number of batches to keep ready in the\n            queue. Helps speeding up dataloading. When buffer_size is zero, the\n            default torch.utils.data.DataLoader preloading is used.\n        timeout (int, optional): if positive, the timeout value for collecting a batch\n            from workers. Should always be non-negative (default: ``0``).\n        disable_shuffling (bool, optional): force disable shuffling\n            (default: ``False``).\n        skip_remainder_batch (bool, optional): if set, discard the last batch in an epoch\n            for the sake of training stability, as the last batch is usually smaller than\n                local_batch_size * distributed_word_size (default: ``False``).\n        grouped_shuffling (bool, optional): enable shuffling batches in groups\n            of num_shards. Ensures that each GPU receives similar length sequences when\n            batches are sorted by length.\n    \"\"\"\n\n    def __init__(\n        self,\n        dataset,\n        collate_fn,\n        batch_sampler,\n        seed=1,\n        num_shards=1,\n        shard_id=0,\n        num_workers=0,\n        epoch=1,\n        buffer_size=0,\n        timeout=0,\n        disable_shuffling=False,\n        skip_remainder_batch=False,\n        grouped_shuffling=False,\n        reuse_dataloader=False,\n        persistent_workers=True,\n    ):\n        assert isinstance(dataset, torch.utils.data.Dataset)\n        self.dataset = dataset\n        self.collate_fn = collate_fn\n        self.batch_sampler = batch_sampler\n        self._frozen_batches = (\n            tuple(batch_sampler) if not callable(batch_sampler) else None\n        )\n        self.seed = seed\n        self.num_shards = num_shards\n        self.shard_id = shard_id\n        self.num_workers = num_workers\n        self.persistent_workers = persistent_workers and num_workers > 0\n        # This upper limit here is to prevent people from abusing this feature\n        # in a shared computing environment.\n        self.buffer_size = min(buffer_size, 20)\n        self.timeout = timeout\n        self.disable_shuffling = disable_shuffling\n        self.skip_remainder_batch = skip_remainder_batch\n        self.grouped_shuffling = grouped_shuffling\n\n        self.epoch = max(epoch, 1)  # we use 1-based indexing for epochs\n        self.shuffle = not disable_shuffling\n        self._cur_epoch_itr = None\n        self._next_epoch_itr = None\n        self._supports_prefetch = getattr(dataset, \"supports_prefetch\", False)\n\n        self.dataloader = None\n        self.reuse_dataloader = reuse_dataloader\n\n    @property\n    def frozen_batches(self):\n        if self._frozen_batches is None:\n            self._frozen_batches = tuple(self.batch_sampler(self.dataset, self.epoch))\n        return self._frozen_batches\n\n    @property\n    def first_batch(self):\n        if len(self.frozen_batches) == 0:\n            raise Exception(\n                \"The dataset is empty. This could indicate \"\n                \"that all elements in the dataset have been skipped. \"\n                \"Try increasing the max number of allowed tokens or using \"\n                \"a larger dataset.\"\n            )\n\n        if getattr(self.dataset, \"supports_fetch_outside_dataloader\", True):\n            return self.collate_fn([self.dataset[i] for i in self.frozen_batches[0]])\n        else:\n            return \"DUMMY\"\n\n    def __len__(self):\n        return int(math.ceil(len(self.frozen_batches) / float(self.num_shards)))\n\n    @property\n    def n(self):\n        return self.iterations_in_epoch\n\n    @property\n    def next_epoch_idx(self):\n        \"\"\"Return the epoch index after *next_epoch_itr* is called.\"\"\"\n        if self._next_epoch_itr is not None:\n            return self.epoch\n        elif self._cur_epoch_itr is not None and self.end_of_epoch():\n            return self.epoch + 1\n        else:\n            return self.epoch\n\n    def next_epoch_itr(\n        self, shuffle=True, fix_batches_to_gpus=False, set_dataset_epoch=True\n    ):\n        \"\"\"Return a new iterator over the dataset.\n\n        Args:\n            shuffle (bool, optional): shuffle batches before returning the\n                iterator (default: True).\n            fix_batches_to_gpus (bool, optional): ensure that batches are always\n                allocated to the same shards across epochs. Requires\n                that :attr:`dataset` supports prefetching (default: False).\n            set_dataset_epoch (bool, optional): update the wrapped Dataset with\n                the new epoch number (default: True).\n        \"\"\"\n        if self.disable_shuffling:\n            shuffle = False\n        prev_epoch = self.epoch\n        self.epoch = self.next_epoch_idx\n        if set_dataset_epoch and hasattr(self.dataset, \"set_epoch\"):\n            self.dataset.set_epoch(self.epoch)\n        if self._next_epoch_itr is not None:\n            self._cur_epoch_itr = self._next_epoch_itr\n            self._next_epoch_itr = None\n        else:\n            if callable(self.batch_sampler) and prev_epoch != self.epoch:\n                # reset _frozen_batches to refresh the next epoch\n                self._frozen_batches = None\n            self._cur_epoch_itr = self._get_iterator_for_epoch(\n                self.epoch,\n                shuffle,\n                fix_batches_to_gpus=fix_batches_to_gpus,\n            )\n        self.shuffle = shuffle\n        return self._cur_epoch_itr\n\n    def end_of_epoch(self) -> bool:\n        \"\"\"Returns whether the most recent epoch iterator has been exhausted\"\"\"\n        return not self._cur_epoch_itr.has_next()\n\n    @property\n    def iterations_in_epoch(self):\n        \"\"\"The number of consumed batches in the current epoch.\"\"\"\n        if self._cur_epoch_itr is not None:\n            return self._cur_epoch_itr.n\n        elif self._next_epoch_itr is not None:\n            return self._next_epoch_itr.n\n        return 0\n\n    def state_dict(self):\n        \"\"\"Returns a dictionary containing a whole state of the iterator.\"\"\"\n        if self.end_of_epoch():\n            epoch = self.epoch + 1\n            iter_in_epoch = 0\n        else:\n            epoch = self.epoch\n            iter_in_epoch = self.iterations_in_epoch\n        return {\n            \"version\": 2,\n            \"epoch\": epoch,\n            \"iterations_in_epoch\": iter_in_epoch,\n            \"shuffle\": self.shuffle,\n        }\n\n    def load_state_dict(self, state_dict):\n        \"\"\"Copies the state of the iterator from the given *state_dict*.\"\"\"\n        self.epoch = state_dict[\"epoch\"]\n        itr_pos = state_dict.get(\"iterations_in_epoch\", 0)\n        version = state_dict.get(\"version\", 1)\n        if itr_pos > 0:\n            # fast-forward epoch iterator\n            self._next_epoch_itr = self._get_iterator_for_epoch(\n                self.epoch,\n                shuffle=state_dict.get(\"shuffle\", True),\n                offset=itr_pos,\n            )\n            if self._next_epoch_itr is None:\n                if version == 1:\n                    # legacy behavior: we finished the epoch, increment epoch counter\n                    self.epoch += 1\n                else:\n                    raise RuntimeError(\n                        \"Cannot resume training due to dataloader mismatch, please \"\n                        \"report this to the fairseq developers. You can relaunch \"\n                        \"training with `--reset-dataloader` and it should work.\"\n                    )\n        else:\n            self._next_epoch_itr = None\n\n    def _get_iterator_for_epoch(\n        self, epoch, shuffle, fix_batches_to_gpus=False, offset=0\n    ):\n        if self.reuse_dataloader and self.dataloader is not None:\n            self.epoch_batch_sampler.make_batches_for_epoch(epoch, offset)\n            itr = self.dataloader\n        else:\n            self.epoch_batch_sampler = FrozenBatchSampler(\n                self.ordered_batches,\n                epoch,\n                fix_batches_to_gpus,\n                shuffle,\n                initial_offset=offset,\n            )\n\n            if offset > 0 and len(self.epoch_batch_sampler) == 0:\n                return None\n\n            if self.num_workers > 0:\n                os.environ[\"PYTHONWARNINGS\"] = \"ignore:semaphore_tracker:UserWarning\"\n\n            # Create data loader\n            itr = torch.utils.data.DataLoader(\n                self.dataset,\n                collate_fn=self.collate_fn,\n                batch_sampler=self.epoch_batch_sampler,\n                num_workers=self.num_workers,\n                timeout=self.timeout,\n                pin_memory=True,\n                persistent_workers=self.persistent_workers,\n            )\n\n            if self.reuse_dataloader:\n                self.dataloader = itr\n\n        # Wrap with a BufferedIterator if needed\n        if self.buffer_size > 0:\n            itr = BufferedIterator(self.buffer_size, itr)\n\n        # Wrap with CountingIterator\n        itr = CountingIterator(itr, start=offset)\n\n        if self.skip_remainder_batch:\n            # TODO: Below is a lazy implementation which discard the final batch regardless\n            # of whether it is a full batch or not.\n\n            total_num_itrs = len(itr) - 1\n            itr.take(total_num_itrs)\n            logger.info(f\"skip final residual batch, total_num_itrs = {total_num_itrs}\")\n\n        return itr\n\n    def ordered_batches(self, epoch, fix_batches_to_gpus, shuffle):\n        def shuffle_batches(batches, seed):\n            with data_utils.numpy_seed(seed):\n\n                if self.grouped_shuffling:\n                    grouped_batches = [\n                        batches[(i * self.num_shards) : ((i + 1) * self.num_shards)]\n                        for i in range((len(batches) // self.num_shards))\n                    ]\n                    np.random.shuffle(grouped_batches)\n                    batches = list(itertools.chain(*grouped_batches))\n                else:\n                    np.random.shuffle(batches)\n\n            return batches\n\n        if self._supports_prefetch:\n            batches = self.frozen_batches\n\n            if shuffle and not fix_batches_to_gpus:\n                batches = shuffle_batches(list(batches), self.seed + epoch)\n\n            batches = list(\n                ShardedIterator(batches, self.num_shards, self.shard_id, fill_value=[])\n            )\n            self.dataset.prefetch([i for s in batches for i in s])\n\n            if shuffle and fix_batches_to_gpus:\n                batches = shuffle_batches(batches, self.seed + epoch + self.shard_id)\n        else:\n            if shuffle:\n                batches = shuffle_batches(list(self.frozen_batches), self.seed + epoch)\n            else:\n                batches = self.frozen_batches\n            batches = list(\n                ShardedIterator(batches, self.num_shards, self.shard_id, fill_value=[])\n            )\n        return batches\n\n\nclass GroupedIterator(CountingIterator):\n    \"\"\"Wrapper around an iterable that returns groups (chunks) of items.\n\n    Args:\n        iterable (iterable): iterable to wrap\n        chunk_size (int): size of each chunk\n        skip_remainder_batch (bool, optional): if set, discard the last grouped batch in\n          each training epoch, as the last grouped batch is usually smaller than\n                local_batch_size * distributed_word_size * chunk_size (default: ``False``).\n    Attributes:\n        n (int): number of elements consumed from this iterator\n    \"\"\"\n\n    def __init__(self, iterable, chunk_size, skip_remainder_batch=False):\n        if skip_remainder_batch:\n            total_num_itrs = int(math.floor(len(iterable) / float(chunk_size)))\n            logger.info(\n                f\"skip final residual batch, grouped total_num_itrs = {total_num_itrs}\"\n            )\n        else:\n            total_num_itrs = int(math.ceil(len(iterable) / float(chunk_size)))\n            logger.info(f\"grouped total_num_itrs = {total_num_itrs}\")\n\n        itr = _chunk_iterator(iterable, chunk_size, skip_remainder_batch)\n        super().__init__(\n            itr,\n            start=int(math.ceil(getattr(iterable, \"n\", 0) / float(chunk_size))),\n            total=total_num_itrs,\n        )\n        self.chunk_size = chunk_size\n\n        if skip_remainder_batch:\n            self.take(total_num_itrs)\n            # TODO: [Hack] Here the grouped iterator modifies the base iterator size so that\n            # training can move into the next epoch once the grouped iterator is exhausted.\n            # Double-check this implementation in case unexpected behavior occurs.\n            iterable.take(total_num_itrs * chunk_size)\n\n\ndef _chunk_iterator(itr, chunk_size, skip_remainder_batch=False):\n    chunk = []\n    for x in itr:\n        chunk.append(x)\n        if len(chunk) == chunk_size:\n            yield chunk\n            chunk = []\n    if not skip_remainder_batch and len(chunk) > 0:\n        yield chunk\n\n\nclass ShardedIterator(CountingIterator):\n    \"\"\"A sharded wrapper around an iterable, padded to length.\n\n    Args:\n        iterable (iterable): iterable to wrap\n        num_shards (int): number of shards to split the iterable into\n        shard_id (int): which shard to iterator over\n        fill_value (Any, optional): padding value when the iterable doesn't\n            evenly divide *num_shards* (default: None).\n\n    Attributes:\n        n (int): number of elements consumed from this iterator\n    \"\"\"\n\n    def __init__(\n        self, iterable, num_shards, shard_id, fill_value=None, skip_remainder_batch=None\n    ):\n        \"\"\"\n        Args:\n            skip_remainder_batch: ignored\"\"\"\n        if shard_id < 0 or shard_id >= num_shards:\n            raise ValueError(\"shard_id must be between 0 and num_shards\")\n        sharded_len = int(math.ceil(len(iterable) / float(num_shards)))\n        itr = map(\n            operator.itemgetter(1),\n            itertools.zip_longest(\n                range(sharded_len),\n                itertools.islice(iterable, shard_id, len(iterable), num_shards),\n                fillvalue=fill_value,\n            ),\n        )\n        super().__init__(\n            itr,\n            start=int(math.ceil(getattr(iterable, \"n\", 0) / float(num_shards))),\n            total=sharded_len,\n        )\n\n\nclass BackgroundConsumer(Thread):\n    def __init__(self, queue, source, max_len, cuda_device):\n        Thread.__init__(self)\n\n        self._queue = queue\n        self._source = source\n        self._max_len = max_len\n        self.count = 0\n        self.cuda_device = cuda_device\n\n    def run(self):\n        # set_device to avoid creation of GPU0 context when using pin_memory\n        if self.cuda_device is not None:\n            torch.cuda.set_device(self.cuda_device)\n\n        try:\n            for item in self._source:\n                self._queue.put(item)\n\n                # Stop if we reached the maximum length\n                self.count += 1\n                if self._max_len is not None and self.count >= self._max_len:\n                    break\n\n            # Signal the consumer we are done.\n            self._queue.put(_sentinel)\n        except Exception as e:\n            self._queue.put(e)\n\n\nclass BufferedIterator(object):\n    def __init__(self, size, iterable):\n        self._queue = queue.Queue(size)\n        self._iterable = iterable\n        self._consumer = None\n\n        self.start_time = time.time()\n        self.warning_time = None\n\n        self.total = len(iterable)\n\n    def _create_consumer(self):\n        self._consumer = BackgroundConsumer(\n            self._queue,\n            self._iterable,\n            self.total,\n            torch.cuda.current_device() if torch.cuda.is_available() else None,\n        )\n        self._consumer.daemon = True\n        self._consumer.start()\n\n    def __iter__(self):\n        return self\n\n    def __len__(self):\n        return self.total\n\n    def take(self, n):\n        self.total = min(self.total, n)\n        # Propagate this change to the underlying iterator\n        if hasattr(self._iterable, \"take\"):\n            self._iterable.take(n)\n        return self\n\n    def __next__(self):\n        # Create consumer if not created yet\n        if self._consumer is None:\n            self._create_consumer()\n\n        # Notify the user if there is a data loading bottleneck\n        if self._queue.qsize() < min(2, max(1, self._queue.maxsize // 2)):\n            if time.time() - self.start_time > 5 * 60:\n                if (\n                    self.warning_time is None\n                    or time.time() - self.warning_time > 15 * 60\n                ):\n                    logger.debug(\n                        \"Data loading buffer is empty or nearly empty. This may \"\n                        \"indicate a data loading bottleneck, and increasing the \"\n                        \"number of workers (--num-workers) may help.\"\n                    )\n                    self.warning_time = time.time()\n\n        # Get next example\n        item = self._queue.get(True)\n        if isinstance(item, Exception):\n            raise item\n        if item is _sentinel:\n            raise StopIteration()\n        return item\n\n\nclass GroupedEpochBatchIterator(EpochBatchIterator):\n    \"\"\"Grouped version of EpochBatchIterator\n    It takes several samplers from different datasets.\n    Each epoch shuffle the dataset wise sampler individually with different\n    random seed. The those sub samplers are combined with into\n    one big samplers with deterministic permutation to mix batches from\n    different datasets. It will act like EpochBatchIterator but make sure\n    1) data from one data set each time\n    2) for different workers, they use the same order to fetch the data\n    so they will use data from the same dataset everytime\n    mult_rate is used for update_freq > 1 case where we want to make sure update_freq\n    mini-batches come from same source\n    \"\"\"\n\n    def __init__(\n        self,\n        dataset,\n        collate_fn,\n        batch_samplers,\n        seed=1,\n        num_shards=1,\n        shard_id=0,\n        num_workers=0,\n        epoch=0,\n        mult_rate=1,\n        buffer_size=0,\n        skip_remainder_batch=False,\n    ):\n        super().__init__(\n            dataset,\n            collate_fn,\n            batch_samplers,\n            seed,\n            num_shards,\n            shard_id,\n            num_workers,\n            epoch,\n            buffer_size,\n            skip_remainder_batch=skip_remainder_batch,\n        )\n        # level 0: sub-samplers 1: batch_idx 2: batches\n        self._frozen_batches = tuple([tuple(sub_batch) for sub_batch in batch_samplers])\n        self.step_size = mult_rate * num_shards\n\n        self.lengths = [\n            (len(x) // self.step_size) * self.step_size for x in self.frozen_batches\n        ]\n\n    def __len__(self):\n        return sum(self.lengths)\n\n    @property\n    def first_batch(self):\n        if len(self.frozen_batches) == 0:\n            raise Exception(\n                \"The dataset is empty. This could indicate \"\n                \"that all elements in the dataset have been skipped. \"\n                \"Try increasing the max number of allowed tokens or using \"\n                \"a larger dataset.\"\n            )\n\n        if self.dataset.supports_fetch_outside_dataloader:\n            return self.collate_fn([self.dataset[i] for i in self.frozen_batches[0][0]])\n        else:\n            return \"DUMMY\"\n\n    def _get_iterator_for_epoch(\n        self, epoch, shuffle, fix_batches_to_gpus=False, offset=0\n    ):\n        def shuffle_batches(batches, seed):\n            with data_utils.numpy_seed(seed):\n                np.random.shuffle(batches)\n            return batches\n\n        def return_full_batches(batch_sets, seed, shuffle):\n            if shuffle:\n                batch_sets = [shuffle_batches(list(x), seed) for x in batch_sets]\n\n            batch_sets = [\n                batch_sets[i][: self.lengths[i]] for i in range(len(batch_sets))\n            ]\n            batches = list(itertools.chain.from_iterable(batch_sets))\n\n            if shuffle:\n                with data_utils.numpy_seed(seed):\n                    idx = np.random.permutation(len(batches) // self.step_size)\n                    if len(idx) * self.step_size != len(batches):\n                        raise ValueError(\n                            \"ERROR: %d %d %d %d\"\n                            % (len(idx), self.step_size, len(batches), self.shard_id),\n                            \":\".join([\"%d\" % x for x in self.lengths]),\n                        )\n                    mini_shards = [\n                        batches[i * self.step_size : (i + 1) * self.step_size]\n                        for i in idx\n                    ]\n                    batches = list(itertools.chain.from_iterable(mini_shards))\n\n            return batches\n\n        if self._supports_prefetch:\n            raise NotImplementedError(\"To be implemented\")\n        else:\n            batches = return_full_batches(\n                self.frozen_batches, self.seed + epoch, shuffle\n            )\n            batches = list(\n                ShardedIterator(batches, self.num_shards, self.shard_id, fill_value=[])\n            )\n\n        if offset > 0 and offset >= len(batches):\n            return None\n\n        if self.num_workers > 0:\n            os.environ[\"PYTHONWARNINGS\"] = \"ignore:semaphore_tracker:UserWarning\"\n\n        itr = torch.utils.data.DataLoader(\n            self.dataset,\n            collate_fn=self.collate_fn,\n            batch_sampler=batches[offset:],\n            num_workers=self.num_workers,\n            persistent_workers=self.persistent_workers,\n        )\n        if self.buffer_size > 0:\n            itr = BufferedIterator(self.buffer_size, itr)\n\n        return CountingIterator(itr, start=offset)\n"
  },
  {
    "path": "fairseq/data/language_pair_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nimport numpy as np\nimport torch\nfrom fairseq.data import FairseqDataset, data_utils\n\n\nlogger = logging.getLogger(__name__)\n\n\ndef collate(\n    samples,\n    pad_idx,\n    eos_idx,\n    left_pad_source=True,\n    left_pad_target=False,\n    input_feeding=True,\n    pad_to_length=None,\n    pad_to_multiple=1,\n):\n    if len(samples) == 0:\n        return {}\n\n    def merge(key, left_pad, move_eos_to_beginning=False, pad_to_length=None):\n        return data_utils.collate_tokens(\n            [s[key] for s in samples],\n            pad_idx,\n            eos_idx,\n            left_pad,\n            move_eos_to_beginning,\n            pad_to_length=pad_to_length,\n            pad_to_multiple=pad_to_multiple,\n        )\n\n    def check_alignment(alignment, src_len, tgt_len):\n        if alignment is None or len(alignment) == 0:\n            return False\n        if (\n            alignment[:, 0].max().item() >= src_len - 1\n            or alignment[:, 1].max().item() >= tgt_len - 1\n        ):\n            logger.warning(\"alignment size mismatch found, skipping alignment!\")\n            return False\n        return True\n\n    def compute_alignment_weights(alignments):\n        \"\"\"\n        Given a tensor of shape [:, 2] containing the source-target indices\n        corresponding to the alignments, a weight vector containing the\n        inverse frequency of each target index is computed.\n        For e.g. if alignments = [[5, 7], [2, 3], [1, 3], [4, 2]], then\n        a tensor containing [1., 0.5, 0.5, 1] should be returned (since target\n        index 3 is repeated twice)\n        \"\"\"\n        align_tgt = alignments[:, 1]\n        _, align_tgt_i, align_tgt_c = torch.unique(\n            align_tgt, return_inverse=True, return_counts=True\n        )\n        align_weights = align_tgt_c[align_tgt_i[np.arange(len(align_tgt))]]\n        return 1.0 / align_weights.float()\n\n    id = torch.LongTensor([s[\"id\"] for s in samples])\n    src_tokens = merge(\n        \"source\",\n        left_pad=left_pad_source,\n        pad_to_length=pad_to_length[\"source\"] if pad_to_length is not None else None,\n    )\n    # sort by descending source length\n    src_lengths = torch.LongTensor(\n        [s[\"source\"].ne(pad_idx).long().sum() for s in samples]\n    )\n    src_lengths, sort_order = src_lengths.sort(descending=True)\n    id = id.index_select(0, sort_order)\n    src_tokens = src_tokens.index_select(0, sort_order)\n\n    prev_output_tokens = None\n    target = None\n    if samples[0].get(\"target\", None) is not None:\n        target = merge(\n            \"target\",\n            left_pad=left_pad_target,\n            pad_to_length=pad_to_length[\"target\"]\n            if pad_to_length is not None\n            else None,\n        )\n        target = target.index_select(0, sort_order)\n        tgt_lengths = torch.LongTensor(\n            [s[\"target\"].ne(pad_idx).long().sum() for s in samples]\n        ).index_select(0, sort_order)\n        ntokens = tgt_lengths.sum().item()\n\n        if samples[0].get(\"prev_output_tokens\", None) is not None:\n            prev_output_tokens = merge(\"prev_output_tokens\", left_pad=left_pad_target)\n        elif input_feeding:\n            # we create a shifted version of targets for feeding the\n            # previous output token(s) into the next decoder step\n            prev_output_tokens = merge(\n                \"target\",\n                left_pad=left_pad_target,\n                move_eos_to_beginning=True,\n                pad_to_length=pad_to_length[\"target\"]\n                if pad_to_length is not None\n                else None,\n            )\n    else:\n        ntokens = src_lengths.sum().item()\n\n    batch = {\n        \"id\": id,\n        \"nsentences\": len(samples),\n        \"ntokens\": ntokens,\n        \"net_input\": {\n            \"src_tokens\": src_tokens,\n            \"src_lengths\": src_lengths,\n        },\n        \"target\": target,\n    }\n    if prev_output_tokens is not None:\n        batch[\"net_input\"][\"prev_output_tokens\"] = prev_output_tokens.index_select(\n            0, sort_order\n        )\n\n    if samples[0].get(\"alignment\", None) is not None:\n        bsz, tgt_sz = batch[\"target\"].shape\n        src_sz = batch[\"net_input\"][\"src_tokens\"].shape[1]\n\n        offsets = torch.zeros((len(sort_order), 2), dtype=torch.long)\n        offsets[:, 1] += torch.arange(len(sort_order), dtype=torch.long) * tgt_sz\n        if left_pad_source:\n            offsets[:, 0] += src_sz - src_lengths\n        if left_pad_target:\n            offsets[:, 1] += tgt_sz - tgt_lengths\n\n        alignments = [\n            alignment + offset\n            for align_idx, offset, src_len, tgt_len in zip(\n                sort_order, offsets, src_lengths, tgt_lengths\n            )\n            for alignment in [samples[align_idx][\"alignment\"].view(-1, 2)]\n            if check_alignment(alignment, src_len, tgt_len)\n        ]\n\n        if len(alignments) > 0:\n            alignments = torch.cat(alignments, dim=0)\n            align_weights = compute_alignment_weights(alignments)\n\n            batch[\"alignments\"] = alignments\n            batch[\"align_weights\"] = align_weights\n\n    if samples[0].get(\"constraints\", None) is not None:\n        # Collate the packed constraints across the samples, padding to\n        # the length of the longest sample.\n        lens = [sample.get(\"constraints\").size(0) for sample in samples]\n        max_len = max(lens)\n        constraints = torch.zeros((len(samples), max(lens))).long()\n        for i, sample in enumerate(samples):\n            constraints[i, 0 : lens[i]] = samples[i].get(\"constraints\")\n        batch[\"constraints\"] = constraints.index_select(0, sort_order)\n\n    return batch\n\n\nclass LanguagePairDataset(FairseqDataset):\n    \"\"\"\n    A pair of torch.utils.data.Datasets.\n\n    Args:\n        src (torch.utils.data.Dataset): source dataset to wrap\n        src_sizes (List[int]): source sentence lengths\n        src_dict (~fairseq.data.Dictionary): source vocabulary\n        tgt (torch.utils.data.Dataset, optional): target dataset to wrap\n        tgt_sizes (List[int], optional): target sentence lengths\n        tgt_dict (~fairseq.data.Dictionary, optional): target vocabulary\n        left_pad_source (bool, optional): pad source tensors on the left side\n            (default: True).\n        left_pad_target (bool, optional): pad target tensors on the left side\n            (default: False).\n        shuffle (bool, optional): shuffle dataset elements before batching\n            (default: True).\n        input_feeding (bool, optional): create a shifted version of the targets\n            to be passed into the model for teacher forcing (default: True).\n        remove_eos_from_source (bool, optional): if set, removes eos from end\n            of source if it's present (default: False).\n        append_eos_to_target (bool, optional): if set, appends eos to end of\n            target if it's absent (default: False).\n        align_dataset (torch.utils.data.Dataset, optional): dataset\n            containing alignments.\n        constraints (Tensor, optional): 2d tensor with a concatenated, zero-\n            delimited list of constraints for each sentence.\n        append_bos (bool, optional): if set, appends bos to the beginning of\n            source/target sentence.\n        num_buckets (int, optional): if set to a value greater than 0, then\n            batches will be bucketed into the given number of batch shapes.\n        src_lang_id (int, optional): source language ID, if set, the collated batch\n            will contain a field 'src_lang_id' in 'net_input' which indicates the\n            source language of the samples.\n        tgt_lang_id (int, optional): target language ID, if set, the collated batch\n            will contain a field 'tgt_lang_id' which indicates the target language\n             of the samples.\n    \"\"\"\n\n    def __init__(\n        self,\n        src,\n        src_sizes,\n        src_dict,\n        tgt=None,\n        tgt_sizes=None,\n        tgt_dict=None,\n        left_pad_source=True,\n        left_pad_target=False,\n        shuffle=True,\n        input_feeding=True,\n        remove_eos_from_source=False,\n        append_eos_to_target=False,\n        align_dataset=None,\n        constraints=None,\n        append_bos=False,\n        eos=None,\n        num_buckets=0,\n        src_lang_id=None,\n        tgt_lang_id=None,\n        pad_to_multiple=1,\n    ):\n        if tgt_dict is not None:\n            assert src_dict.pad() == tgt_dict.pad()\n            assert src_dict.eos() == tgt_dict.eos()\n            assert src_dict.unk() == tgt_dict.unk()\n        if tgt is not None:\n            assert len(src) == len(\n                tgt\n            ), \"Source and target must contain the same number of examples\"\n        self.src = src\n        self.tgt = tgt\n        self.src_sizes = np.array(src_sizes)\n        self.tgt_sizes = np.array(tgt_sizes) if tgt_sizes is not None else None\n        self.sizes = (\n            np.vstack((self.src_sizes, self.tgt_sizes)).T\n            if self.tgt_sizes is not None\n            else self.src_sizes\n        )\n        self.src_dict = src_dict\n        self.tgt_dict = tgt_dict\n        self.left_pad_source = left_pad_source\n        self.left_pad_target = left_pad_target\n        self.shuffle = shuffle\n        self.input_feeding = input_feeding\n        self.remove_eos_from_source = remove_eos_from_source\n        self.append_eos_to_target = append_eos_to_target\n        self.align_dataset = align_dataset\n        if self.align_dataset is not None:\n            assert (\n                self.tgt_sizes is not None\n            ), \"Both source and target needed when alignments are provided\"\n        self.constraints = constraints\n        self.append_bos = append_bos\n        self.eos = eos if eos is not None else src_dict.eos()\n        self.src_lang_id = src_lang_id\n        self.tgt_lang_id = tgt_lang_id\n        if num_buckets > 0:\n            from fairseq.data import BucketPadLengthDataset\n\n            self.src = BucketPadLengthDataset(\n                self.src,\n                sizes=self.src_sizes,\n                num_buckets=num_buckets,\n                pad_idx=self.src_dict.pad(),\n                left_pad=self.left_pad_source,\n            )\n            self.src_sizes = self.src.sizes\n            logger.info(\"bucketing source lengths: {}\".format(list(self.src.buckets)))\n            if self.tgt is not None:\n                self.tgt = BucketPadLengthDataset(\n                    self.tgt,\n                    sizes=self.tgt_sizes,\n                    num_buckets=num_buckets,\n                    pad_idx=self.tgt_dict.pad(),\n                    left_pad=self.left_pad_target,\n                )\n                self.tgt_sizes = self.tgt.sizes\n                logger.info(\n                    \"bucketing target lengths: {}\".format(list(self.tgt.buckets))\n                )\n\n            # determine bucket sizes using self.num_tokens, which will return\n            # the padded lengths (thanks to BucketPadLengthDataset)\n            num_tokens = np.vectorize(self.num_tokens, otypes=[np.compat.long])\n            self.bucketed_num_tokens = num_tokens(np.arange(len(self.src)))\n            self.buckets = [\n                (None, num_tokens) for num_tokens in np.unique(self.bucketed_num_tokens)\n            ]\n        else:\n            self.buckets = None\n        self.pad_to_multiple = pad_to_multiple\n\n    def get_batch_shapes(self):\n        return self.buckets\n\n    def __getitem__(self, index):\n        tgt_item = self.tgt[index] if self.tgt is not None else None\n        src_item = self.src[index]\n        # Append EOS to end of tgt sentence if it does not have an EOS and remove\n        # EOS from end of src sentence if it exists. This is useful when we use\n        # use existing datasets for opposite directions i.e., when we want to\n        # use tgt_dataset as src_dataset and vice versa\n        if self.append_eos_to_target:\n            eos = self.tgt_dict.eos() if self.tgt_dict else self.src_dict.eos()\n            if self.tgt and self.tgt[index][-1] != eos:\n                tgt_item = torch.cat([self.tgt[index], torch.LongTensor([eos])])\n\n        if self.append_bos:\n            bos = self.tgt_dict.bos() if self.tgt_dict else self.src_dict.bos()\n            if self.tgt and self.tgt[index][0] != bos:\n                tgt_item = torch.cat([torch.LongTensor([bos]), self.tgt[index]])\n\n            bos = self.src_dict.bos()\n            if self.src[index][0] != bos:\n                src_item = torch.cat([torch.LongTensor([bos]), self.src[index]])\n\n        if self.remove_eos_from_source:\n            eos = self.src_dict.eos()\n            if self.src[index][-1] == eos:\n                src_item = self.src[index][:-1]\n\n        example = {\n            \"id\": index,\n            \"source\": src_item,\n            \"target\": tgt_item,\n        }\n        if self.align_dataset is not None:\n            example[\"alignment\"] = self.align_dataset[index]\n        if self.constraints is not None:\n            example[\"constraints\"] = self.constraints[index]\n        return example\n\n    def __len__(self):\n        return len(self.src)\n\n    def collater(self, samples, pad_to_length=None):\n        \"\"\"Merge a list of samples to form a mini-batch.\n\n        Args:\n            samples (List[dict]): samples to collate\n            pad_to_length (dict, optional): a dictionary of\n                {'source': source_pad_to_length, 'target': target_pad_to_length}\n                to indicate the max length to pad to in source and target respectively.\n\n        Returns:\n            dict: a mini-batch with the following keys:\n\n                - `id` (LongTensor): example IDs in the original input order\n                - `ntokens` (int): total number of tokens in the batch\n                - `net_input` (dict): the input to the Model, containing keys:\n\n                  - `src_tokens` (LongTensor): a padded 2D Tensor of tokens in\n                    the source sentence of shape `(bsz, src_len)`. Padding will\n                    appear on the left if *left_pad_source* is ``True``.\n                  - `src_lengths` (LongTensor): 1D Tensor of the unpadded\n                    lengths of each source sentence of shape `(bsz)`\n                  - `prev_output_tokens` (LongTensor): a padded 2D Tensor of\n                    tokens in the target sentence, shifted right by one\n                    position for teacher forcing, of shape `(bsz, tgt_len)`.\n                    This key will not be present if *input_feeding* is\n                    ``False``.  Padding will appear on the left if\n                    *left_pad_target* is ``True``.\n                  - `src_lang_id` (LongTensor): a long Tensor which contains source\n                    language IDs of each sample in the batch\n\n                - `target` (LongTensor): a padded 2D Tensor of tokens in the\n                  target sentence of shape `(bsz, tgt_len)`. Padding will appear\n                  on the left if *left_pad_target* is ``True``.\n                - `tgt_lang_id` (LongTensor): a long Tensor which contains target language\n                   IDs of each sample in the batch\n        \"\"\"\n        res = collate(\n            samples,\n            pad_idx=self.src_dict.pad(),\n            eos_idx=self.eos,\n            left_pad_source=self.left_pad_source,\n            left_pad_target=self.left_pad_target,\n            input_feeding=self.input_feeding,\n            pad_to_length=pad_to_length,\n            pad_to_multiple=self.pad_to_multiple,\n        )\n        if self.src_lang_id is not None or self.tgt_lang_id is not None:\n            src_tokens = res[\"net_input\"][\"src_tokens\"]\n            bsz = src_tokens.size(0)\n            if self.src_lang_id is not None:\n                res[\"net_input\"][\"src_lang_id\"] = (\n                    torch.LongTensor([[self.src_lang_id]]).expand(bsz, 1).to(src_tokens)\n                )\n            if self.tgt_lang_id is not None:\n                res[\"tgt_lang_id\"] = (\n                    torch.LongTensor([[self.tgt_lang_id]]).expand(bsz, 1).to(src_tokens)\n                )\n        return res\n\n    def num_tokens(self, index):\n        \"\"\"Return the number of tokens in a sample. This value is used to\n        enforce ``--max-tokens`` during batching.\"\"\"\n        return max(\n            self.src_sizes[index],\n            self.tgt_sizes[index] if self.tgt_sizes is not None else 0,\n        )\n\n    def num_tokens_vec(self, indices):\n        \"\"\"Return the number of tokens for a set of positions defined by indices.\n        This value is used to enforce ``--max-tokens`` during batching.\"\"\"\n        sizes = self.src_sizes[indices]\n        if self.tgt_sizes is not None:\n            sizes = np.maximum(sizes, self.tgt_sizes[indices])\n        return sizes\n\n    def size(self, index):\n        \"\"\"Return an example's size as a float or tuple. This value is used when\n        filtering a dataset with ``--max-positions``.\"\"\"\n        return (\n            self.src_sizes[index],\n            self.tgt_sizes[index] if self.tgt_sizes is not None else 0,\n        )\n\n    def ordered_indices(self):\n        \"\"\"Return an ordered list of indices. Batches will be constructed based\n        on this order.\"\"\"\n        if self.shuffle:\n            indices = np.random.permutation(len(self)).astype(np.int64)\n        else:\n            indices = np.arange(len(self), dtype=np.int64)\n        if self.buckets is None:\n            # sort by target length, then source length\n            if self.tgt_sizes is not None:\n                indices = indices[np.argsort(self.tgt_sizes[indices], kind=\"mergesort\")]\n            return indices[np.argsort(self.src_sizes[indices], kind=\"mergesort\")]\n        else:\n            # sort by bucketed_num_tokens, which is:\n            #   max(padded_src_len, padded_tgt_len)\n            return indices[\n                np.argsort(self.bucketed_num_tokens[indices], kind=\"mergesort\")\n            ]\n\n    @property\n    def supports_prefetch(self):\n        return getattr(self.src, \"supports_prefetch\", False) and (\n            getattr(self.tgt, \"supports_prefetch\", False) or self.tgt is None\n        )\n\n    def prefetch(self, indices):\n        self.src.prefetch(indices)\n        if self.tgt is not None:\n            self.tgt.prefetch(indices)\n        if self.align_dataset is not None:\n            self.align_dataset.prefetch(indices)\n\n    def filter_indices_by_size(self, indices, max_sizes):\n        \"\"\"Filter a list of sample indices. Remove those that are longer\n            than specified in max_sizes.\n\n        Args:\n            indices (np.array): original array of sample indices\n            max_sizes (int or list[int] or tuple[int]): max sample size,\n                can be defined separately for src and tgt (then list or tuple)\n\n        Returns:\n            np.array: filtered sample array\n            list: list of removed indices\n        \"\"\"\n        return data_utils.filter_paired_dataset_indices_by_size(\n            self.src_sizes,\n            self.tgt_sizes,\n            indices,\n            max_sizes,\n        )\n"
  },
  {
    "path": "fairseq/data/legacy/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .block_pair_dataset import BlockPairDataset\nfrom .masked_lm_dataset import MaskedLMDataset\nfrom .masked_lm_dictionary import BertDictionary, MaskedLMDictionary\n\n\n__all__ = [\n    \"BertDictionary\",\n    \"BlockPairDataset\",\n    \"MaskedLMDataset\",\n    \"MaskedLMDictionary\",\n]\n"
  },
  {
    "path": "fairseq/data/legacy/block_pair_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport numpy as np\nimport torch\nfrom fairseq.data import FairseqDataset\n\n\nclass BlockPairDataset(FairseqDataset):\n    \"\"\"Break a Dataset of tokens into sentence pair blocks for next sentence\n       prediction as well as masked language model.\n\n       High-level logics are:\n       1. break input tensor to tensor blocks\n       2. pair the blocks with 50% next sentence and 50% random sentence\n       3. return paired blocks as well as related segment labels\n\n    Args:\n        dataset (~torch.utils.data.Dataset): dataset to break into blocks\n        sizes: array of sentence lengths\n        dictionary: dictionary for the task\n        block_size: maximum block size\n        break_mode: mode for breaking copurs into block pairs. currently we support\n            2 modes\n            doc: respect document boundaries and each part of the pair should belong to on document\n            none: don't respect any boundary and cut tokens evenly\n        short_seq_prob: probability for generating shorter block pairs\n        doc_break_size: Size for empty line separating documents. Typically 1 if\n                        the sentences have eos, 0 otherwise.\n    \"\"\"\n\n    def __init__(\n        self,\n        dataset,\n        dictionary,\n        sizes,\n        block_size,\n        break_mode=\"doc\",\n        short_seq_prob=0.1,\n        doc_break_size=1,\n    ):\n        super().__init__()\n        self.dataset = dataset\n        self.pad = dictionary.pad()\n        self.eos = dictionary.eos()\n        self.cls = dictionary.cls()\n        self.mask = dictionary.mask()\n        self.sep = dictionary.sep()\n        self.break_mode = break_mode\n        self.dictionary = dictionary\n        self.short_seq_prob = short_seq_prob\n        self.block_indices = []\n\n        assert len(dataset) == len(sizes)\n\n        if break_mode == \"doc\":\n            cur_doc = []\n            for sent_id, sz in enumerate(sizes):\n                assert doc_break_size == 0 or sz != 0, (\n                    \"when doc_break_size is non-zero, we expect documents to be\"\n                    \"separated by a blank line with a single eos.\"\n                )\n                # empty line as document separator\n                if sz == doc_break_size:\n                    if len(cur_doc) == 0:\n                        continue\n                    self.block_indices.append(cur_doc)\n                    cur_doc = []\n                else:\n                    cur_doc.append(sent_id)\n            max_num_tokens = block_size - 3  # Account for [CLS], [SEP], [SEP]\n            self.sent_pairs = []\n            self.sizes = []\n            for doc_id, doc in enumerate(self.block_indices):\n                self._generate_sentence_pair(doc, doc_id, max_num_tokens, sizes)\n        elif break_mode is None or break_mode == \"none\":\n            # each block should have half of the block size since we are constructing block pair\n            sent_length = (block_size - 3) // 2\n            total_len = sum(dataset.sizes)\n            length = math.ceil(total_len / sent_length)\n\n            def block_at(i):\n                start = i * sent_length\n                end = min(start + sent_length, total_len)\n                return (start, end)\n\n            sent_indices = np.array([block_at(i) for i in range(length)])\n            sent_sizes = np.array([e - s for s, e in sent_indices])\n            dataset_index = self._sent_to_dataset_index(sent_sizes)\n\n            # pair sentences\n            self._pair_sentences(dataset_index)\n        else:\n            raise ValueError(\"Invalid break_mode: \" + break_mode)\n\n    def _pair_sentences(self, dataset_index):\n        \"\"\"\n        Give a list of evenly cut blocks/sentences, pair these sentences with 50%\n        consecutive sentences and 50% random sentences.\n        This is used for none break mode\n        \"\"\"\n        # pair sentences\n        for sent_id, sent in enumerate(dataset_index):\n            next_sent_label = (\n                1 if np.random.rand() > 0.5 and sent_id != len(dataset_index) - 1 else 0\n            )\n            if next_sent_label:\n                next_sent = dataset_index[sent_id + 1]\n            else:\n                next_sent = dataset_index[\n                    self._skip_sampling(len(dataset_index), [sent_id, sent_id + 1])\n                ]\n            self.sent_pairs.append((sent, next_sent, next_sent_label))\n\n            # The current blocks don't include the special tokens but the\n            # sizes already account for this\n            self.sizes.append(3 + sent[3] + next_sent[3])\n\n    def _sent_to_dataset_index(self, sent_sizes):\n        \"\"\"\n        Build index mapping block indices to the underlying dataset indices\n        \"\"\"\n        dataset_index = []\n        ds_idx, ds_remaining = -1, 0\n        for to_consume in sent_sizes:\n            sent_size = to_consume\n            if ds_remaining == 0:\n                ds_idx += 1\n                ds_remaining = sent_sizes[ds_idx]\n            start_ds_idx = ds_idx\n            start_offset = sent_sizes[ds_idx] - ds_remaining\n            while to_consume > ds_remaining:\n                to_consume -= ds_remaining\n                ds_idx += 1\n                ds_remaining = sent_sizes[ds_idx]\n            ds_remaining -= to_consume\n            dataset_index.append(\n                (\n                    start_ds_idx,  # starting index in dataset\n                    start_offset,  # starting offset within starting index\n                    ds_idx,  # ending index in dataset\n                    sent_size,  # sentence length\n                )\n            )\n        assert ds_remaining == 0\n        assert ds_idx == len(self.dataset) - 1\n        return dataset_index\n\n    def _generate_sentence_pair(self, doc, doc_id, max_num_tokens, sizes):\n        \"\"\"\n        Go through a single document and genrate sentence paris from it\n        \"\"\"\n        current_chunk = []\n        current_length = 0\n        curr = 0\n        # To provide more randomness, we decrease target seq length for parts of\n        # samples (10% by default). Note that max_num_tokens is the hard threshold\n        # for batching and will never be changed.\n        target_seq_length = max_num_tokens\n        if np.random.random() < self.short_seq_prob:\n            target_seq_length = np.random.randint(2, max_num_tokens)\n        # loop through all sentences in document\n        while curr < len(doc):\n            sent_id = doc[curr]\n            current_chunk.append(sent_id)\n            current_length = sum(sizes[current_chunk])\n            # split chunk and generate pair when exceed target_seq_length or\n            # finish the loop\n            if curr == len(doc) - 1 or current_length >= target_seq_length:\n                # split the chunk into 2 parts\n                a_end = 1\n                if len(current_chunk) > 2:\n                    a_end = np.random.randint(1, len(current_chunk) - 1)\n                sent_a = current_chunk[:a_end]\n                len_a = sum(sizes[sent_a])\n                # generate next sentence label, note that if there is only 1 sentence\n                # in current chunk, label is always 0\n                next_sent_label = (\n                    1 if np.random.rand() > 0.5 and len(current_chunk) != 1 else 0\n                )\n                if not next_sent_label:\n                    # if next sentence label is 0, sample sent_b from a random doc\n                    target_b_length = target_seq_length - len_a\n                    rand_doc_id = self._skip_sampling(len(self.block_indices), [doc_id])\n                    random_doc = self.block_indices[rand_doc_id]\n                    random_start = np.random.randint(0, len(random_doc))\n                    sent_b = []\n                    len_b = 0\n                    for j in range(random_start, len(random_doc)):\n                        sent_b.append(random_doc[j])\n                        len_b = sum(sizes[sent_b])\n                        if len_b >= target_b_length:\n                            break\n                    # return the second part of the chunk since it's not used\n                    num_unused_segments = len(current_chunk) - a_end\n                    curr -= num_unused_segments\n                else:\n                    # if next sentence label is 1, use the second part of chunk as sent_B\n                    sent_b = current_chunk[a_end:]\n                    len_b = sum(sizes[sent_b])\n                # currently sent_a and sent_B may be longer than max_num_tokens,\n                # truncate them and return block idx and offsets for them\n                sent_a, sent_b = self._truncate_sentences(\n                    sent_a, sent_b, max_num_tokens\n                )\n                self.sent_pairs.append((sent_a, sent_b, next_sent_label))\n                self.sizes.append(3 + sent_a[3] + sent_b[3])\n                current_chunk = []\n            curr += 1\n\n    def _skip_sampling(self, total, skip_ids):\n        \"\"\"\n        Generate a random integer which is not in skip_ids. Sample range is [0, total)\n        TODO: ids in skip_ids should be consecutive, we can extend it to more generic version later\n        \"\"\"\n        rand_id = np.random.randint(total - len(skip_ids))\n        return rand_id if rand_id < min(skip_ids) else rand_id + len(skip_ids)\n\n    def _truncate_sentences(self, sent_a, sent_b, max_num_tokens):\n        \"\"\"\n        Trancate a pair of sentence to limit total length under max_num_tokens\n        Logics:\n            1. Truncate longer sentence\n            2. Tokens to be truncated could be at the beginning or the end of the sentnce\n        Returns:\n            Truncated sentences represented by dataset idx\n        \"\"\"\n        len_a, len_b = sum(self.dataset.sizes[sent_a]), sum(self.dataset.sizes[sent_b])\n        front_cut_a = front_cut_b = end_cut_a = end_cut_b = 0\n\n        while True:\n            total_length = (\n                len_a + len_b - front_cut_a - front_cut_b - end_cut_a - end_cut_b\n            )\n            if total_length <= max_num_tokens:\n                break\n\n            if len_a - front_cut_a - end_cut_a > len_b - front_cut_b - end_cut_b:\n                if np.random.rand() < 0.5:\n                    front_cut_a += 1\n                else:\n                    end_cut_a += 1\n            else:\n                if np.random.rand() < 0.5:\n                    front_cut_b += 1\n                else:\n                    end_cut_b += 1\n\n        # calculate ds indices as well as offsets and return\n        truncated_sent_a = self._cut_sentence(sent_a, front_cut_a, end_cut_a)\n        truncated_sent_b = self._cut_sentence(sent_b, front_cut_b, end_cut_b)\n        return truncated_sent_a, truncated_sent_b\n\n    def _cut_sentence(self, sent, front_cut, end_cut):\n        \"\"\"\n        Cut a sentence based on the numbers of tokens to be cut from beginning and end\n        Represent the sentence as dataset idx and return\n        \"\"\"\n        start_ds_idx, end_ds_idx, offset = sent[0], sent[-1], 0\n        target_len = sum(self.dataset.sizes[sent]) - front_cut - end_cut\n        while front_cut > 0:\n            if self.dataset.sizes[start_ds_idx] > front_cut:\n                offset += front_cut\n                break\n            else:\n                front_cut -= self.dataset.sizes[start_ds_idx]\n                start_ds_idx += 1\n        while end_cut > 0:\n            if self.dataset.sizes[end_ds_idx] > end_cut:\n                break\n            else:\n                end_cut -= self.dataset.sizes[end_ds_idx]\n                end_ds_idx -= 1\n        return start_ds_idx, offset, end_ds_idx, target_len\n\n    def _fetch_block(self, start_ds_idx, offset, end_ds_idx, length):\n        \"\"\"\n        Fetch a block of tokens based on its dataset idx\n        \"\"\"\n        buffer = torch.cat(\n            [self.dataset[idx] for idx in range(start_ds_idx, end_ds_idx + 1)]\n        )\n        s, e = offset, offset + length\n        return buffer[s:e]\n\n    def __getitem__(self, index):\n        block1, block2, next_sent_label = self.sent_pairs[index]\n        block1 = self._fetch_block(*block1)\n        block2 = self._fetch_block(*block2)\n        return block1, block2, next_sent_label\n\n    def __len__(self):\n        return len(self.sizes)\n\n    @property\n    def supports_prefetch(self):\n        return getattr(self.dataset, \"supports_prefetch\", False)\n\n    def prefetch(self, indices):\n        prefetch_idx = set()\n        for index in indices:\n            for block1, block2, _ in [self.sent_pairs[index]]:\n                for ds_idx in range(block1[0], block1[2] + 1):\n                    prefetch_idx.add(ds_idx)\n                for ds_idx in range(block2[0], block2[2] + 1):\n                    prefetch_idx.add(ds_idx)\n        self.dataset.prefetch(prefetch_idx)\n"
  },
  {
    "path": "fairseq/data/legacy/masked_lm_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom typing import Dict, List, Tuple\n\nimport numpy as np\nimport torch\nfrom fairseq.data import Dictionary, FairseqDataset, data_utils\nfrom fairseq.data.concat_dataset import ConcatDataset\nfrom fairseq.data.legacy.block_pair_dataset import BlockPairDataset\nfrom fairseq.data.token_block_dataset import TokenBlockDataset\n\n\nclass MaskedLMDataset(FairseqDataset):\n    \"\"\"\n    A wrapper Dataset for masked language modelling. The dataset\n    wraps around TokenBlockDataset or BlockedPairDataset and creates a batch\n    where the input blocks are masked according to the specified masking\n    probability. Additionally the batch can also contain sentence level targets\n    if this is specified.\n\n    Args:\n        dataset: Dataset which generates blocks of data. Only BlockPairDataset\n            and TokenBlockDataset are supported.\n        sizes: Sentence lengths\n        vocab: Dictionary with the vocabulary and special tokens.\n        pad_idx: Id of padding token in dictionary\n        mask_idx: Id of mask token in dictionary\n        classif_token_idx: Id of classification token in dictionary. This is the\n            token associated with the sentence embedding (Eg: CLS for BERT)\n        sep_token_idx: Id of separator token in dictionary\n            (Eg: SEP in BERT)\n        seed: Seed for random number generator for reproducibility.\n        shuffle: Shuffle the elements before batching.\n        has_pairs: Specifies whether the underlying dataset\n            generates a pair of blocks along with a sentence_target or not.\n            Setting it to True assumes that the underlying dataset generates a\n            label for the pair of sentences which is surfaced as\n            sentence_target. The default value assumes a single block with no\n            sentence target.\n        segment_id: An optional segment id for filling in the segment labels\n            when we are in the single block setting (Eg: XLM). Default is 0.\n        masking_ratio: specifies what percentage of the blocks should be masked.\n        masking_prob: specifies the probability of a given token being\n            replaced with the \"MASK\" token.\n        random_token_prob: specifies the probability of a given token being\n            replaced by a random token from the vocabulary.\n    \"\"\"\n\n    def __init__(\n        self,\n        dataset: FairseqDataset,\n        sizes: np.ndarray,\n        vocab: Dictionary,\n        pad_idx: int,\n        mask_idx: int,\n        classif_token_idx: int,\n        sep_token_idx: int,\n        seed: int = 1,\n        shuffle: bool = True,\n        has_pairs: bool = True,\n        segment_id: int = 0,\n        masking_ratio: float = 0.15,\n        masking_prob: float = 0.8,\n        random_token_prob: float = 0.1,\n    ):\n        # Make sure the input datasets are the ones supported\n        assert (\n            isinstance(dataset, TokenBlockDataset)\n            or isinstance(dataset, BlockPairDataset)\n            or isinstance(dataset, ConcatDataset)\n        ), (\n            \"MaskedLMDataset only wraps TokenBlockDataset or BlockPairDataset or \"\n            \"ConcatDataset\"\n        )\n\n        self.dataset = dataset\n        self.sizes = np.array(sizes)\n        self.vocab = vocab\n        self.pad_idx = pad_idx\n        self.mask_idx = mask_idx\n        self.classif_token_idx = classif_token_idx\n        self.sep_token_idx = sep_token_idx\n        self.shuffle = shuffle\n        self.seed = seed\n        self.has_pairs = has_pairs\n        self.segment_id = segment_id\n        self.masking_ratio = masking_ratio\n        self.masking_prob = masking_prob\n        self.random_token_prob = random_token_prob\n\n        # If we have only one block then sizes needs to be updated to include\n        # the classification token\n        if not has_pairs:\n            self.sizes = self.sizes + 1\n\n    def __getitem__(self, index: int):\n        # if has_pairs, then expect 2 blocks and a sentence target\n        if self.has_pairs:\n            (block_one, block_two, sentence_target) = self.dataset[index]\n        else:\n            block_one = self.dataset[index]\n\n        return {\n            \"id\": index,\n            \"block_one\": block_one,\n            \"block_two\": block_two if self.has_pairs else None,\n            \"sentence_target\": sentence_target if self.has_pairs else None,\n        }\n\n    def __len__(self):\n        return len(self.dataset)\n\n    def _mask_block(\n        self,\n        sentence: np.ndarray,\n        mask_idx: int,\n        pad_idx: int,\n        dictionary_token_range: Tuple,\n    ):\n        \"\"\"\n        Mask tokens for Masked Language Model training\n        Samples mask_ratio tokens that will be predicted by LM.\n\n        Note:This function may not be efficient enough since we had multiple\n        conversions between np and torch, we can replace them with torch\n        operators later.\n\n        Args:\n            sentence: 1d tensor to be masked\n            mask_idx: index to use for masking the sentence\n            pad_idx: index to use for masking the target for tokens we aren't\n                predicting\n            dictionary_token_range: range of indices in dictionary which can\n                be used for random word replacement\n                (e.g. without special characters)\n        Return:\n            masked_sent: masked sentence\n            target: target with words which we are not predicting replaced\n                by pad_idx\n        \"\"\"\n        masked_sent = np.copy(sentence)\n        sent_length = len(sentence)\n        mask_num = math.ceil(sent_length * self.masking_ratio)\n        mask = np.random.choice(sent_length, mask_num, replace=False)\n        target = np.copy(sentence)\n\n        for i in range(sent_length):\n            if i in mask:\n                rand = np.random.random()\n\n                # replace with mask if probability is less than masking_prob\n                # (Eg: 0.8)\n                if rand < self.masking_prob:\n                    masked_sent[i] = mask_idx\n\n                # replace with random token if probability is less than\n                # masking_prob + random_token_prob (Eg: 0.9)\n                elif rand < (self.masking_prob + self.random_token_prob):\n                    # sample random token from dictionary\n                    masked_sent[i] = np.random.randint(\n                        dictionary_token_range[0], dictionary_token_range[1]\n                    )\n            else:\n                target[i] = pad_idx\n\n        return masked_sent, target\n\n    def _collate(self, samples: List[Dict], pad_idx: int, eos_idx: int):\n        \"\"\"\n        Does the heavy lifting for creating a batch from the input list of\n        examples. The logic is as follows:\n            1. Mask the input blocks. In case has_pair is True then we have 2\n               blocks to mask.\n            2. Prepend the first masked block tensor with the special token\n               used as sentence embedding. Eg: CLS in BERT. This happens\n               irrespective of the value of has_pair.\n            3. If has_pair is True, then append the first masked block with the\n               special separator token (eg: SEP for BERT) and compute segment\n               label accordingly. In this case, also append the second masked\n               block with this special separator token and compute its segment\n               label.\n            4. For the targets tensor, prepend and append with padding index\n               accordingly.\n            5. Concatenate all tensors.\n        \"\"\"\n        if len(samples) == 0:\n            return {}\n        # To ensure determinism, we reset the state of the PRNG after every\n        # batch based on the seed and the first id of the batch. This ensures\n        # that across epochs we get the same mask for the same example. This\n        # is needed for reproducibility and is how BERT does masking\n        # TODO: Can we add deteminism without this constraint?\n        with data_utils.numpy_seed(self.seed + samples[0][\"id\"]):\n            for s in samples:\n\n                # token range is needed for replacing with random token during\n                # masking\n                token_range = (self.vocab.nspecial, len(self.vocab))\n\n                # mask according to specified probabilities.\n                masked_blk_one, masked_tgt_one = self._mask_block(\n                    s[\"block_one\"],\n                    self.mask_idx,\n                    self.pad_idx,\n                    token_range,\n                )\n\n                tokens = np.concatenate([[self.classif_token_idx], masked_blk_one])\n                targets = np.concatenate([[self.pad_idx], masked_tgt_one])\n                segments = np.ones(len(tokens)) * self.segment_id\n\n                # if has_pairs is True then we need to add the SEP token to both\n                # the blocks after masking and re-compute segments based on the new\n                # lengths.\n                if self.has_pairs:\n                    tokens_one = np.concatenate([tokens, [self.sep_token_idx]])\n                    targets_one = np.concatenate([targets, [self.pad_idx]])\n\n                    masked_blk_two, masked_tgt_two = self._mask_block(\n                        s[\"block_two\"], self.mask_idx, self.pad_idx, token_range\n                    )\n                    tokens_two = np.concatenate([masked_blk_two, [self.sep_token_idx]])\n                    targets_two = np.concatenate([masked_tgt_two, [self.pad_idx]])\n\n                    # block + 1 sep + 1 special (CLS)\n                    segments_one = np.zeros(len(tokens_one))\n                    # block + 1 sep\n                    segments_two = np.ones(len(tokens_two))\n\n                    tokens = np.concatenate([tokens_one, tokens_two])\n                    targets = np.concatenate([targets_one, targets_two])\n                    segments = np.concatenate([segments_one, segments_two])\n\n                s[\"source\"] = torch.LongTensor(tokens)\n                s[\"segment_labels\"] = torch.LongTensor(segments)\n                s[\"lm_target\"] = torch.LongTensor(targets)\n\n        def merge(key):\n            return data_utils.collate_tokens(\n                [s[key] for s in samples], pad_idx, eos_idx, left_pad=False\n            )\n\n        return {\n            \"id\": torch.LongTensor([s[\"id\"] for s in samples]),\n            \"ntokens\": sum(len(s[\"source\"]) for s in samples),\n            \"net_input\": {\n                \"src_tokens\": merge(\"source\"),\n                \"segment_labels\": merge(\"segment_labels\"),\n            },\n            \"lm_target\": merge(\"lm_target\"),\n            \"sentence_target\": torch.LongTensor([s[\"sentence_target\"] for s in samples])\n            if self.has_pairs\n            else None,\n            \"nsentences\": len(samples),\n        }\n\n    def collater(self, samples: List[Dict]):\n        \"\"\"Merge a list of samples to form a mini-batch.\n\n        Args:\n            samples (List[dict]): samples to collate\n\n        Returns:\n            dict: a mini-batch of data\n        \"\"\"\n        return self._collate(samples, self.vocab.pad(), self.vocab.eos())\n\n    def num_tokens(self, index: int):\n        \"\"\"\n        Return the number of tokens in a sample. This value is used to\n        enforce max-tokens during batching.\n        \"\"\"\n        return self.sizes[index]\n\n    def size(self, index: int):\n        \"\"\"\n        Return an example's size as a float or tuple. This value is used when\n        filtering a dataset with max-positions.\n        \"\"\"\n        return self.sizes[index]\n\n    def ordered_indices(self):\n        \"\"\"\n        Return an ordered list of indices. Batches will be constructed based\n        on this order.\n        \"\"\"\n        if self.shuffle:\n            return np.random.permutation(len(self))\n        else:\n            order = [np.arange(len(self))]\n            order.append(self.sizes)\n            return np.lexsort(order)\n\n    @property\n    def supports_prefetch(self):\n        return getattr(self.dataset, \"supports_prefetch\", False)\n\n    def prefetch(self, indices):\n        self.dataset.prefetch(indices)\n"
  },
  {
    "path": "fairseq/data/legacy/masked_lm_dictionary.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.data import Dictionary\n\n\nclass MaskedLMDictionary(Dictionary):\n    \"\"\"\n    Dictionary for Masked Language Modelling tasks. This extends Dictionary by\n    adding the mask symbol.\n    \"\"\"\n\n    def __init__(\n        self,\n        pad=\"<pad>\",\n        eos=\"</s>\",\n        unk=\"<unk>\",\n        mask=\"<mask>\",\n    ):\n        super().__init__(pad=pad, eos=eos, unk=unk)\n        self.mask_word = mask\n        self.mask_index = self.add_symbol(mask)\n        self.nspecial = len(self.symbols)\n\n    def mask(self):\n        \"\"\"Helper to get index of mask symbol\"\"\"\n        return self.mask_index\n\n\nclass BertDictionary(MaskedLMDictionary):\n    \"\"\"\n    Dictionary for BERT task. This extends MaskedLMDictionary by adding support\n    for cls and sep symbols.\n    \"\"\"\n\n    def __init__(\n        self,\n        pad=\"<pad>\",\n        eos=\"</s>\",\n        unk=\"<unk>\",\n        mask=\"<mask>\",\n        cls=\"<cls>\",\n        sep=\"<sep>\",\n    ):\n        super().__init__(pad=pad, eos=eos, unk=unk, mask=mask)\n        self.cls_word = cls\n        self.sep_word = sep\n        self.cls_index = self.add_symbol(cls)\n        self.sep_index = self.add_symbol(sep)\n        self.nspecial = len(self.symbols)\n\n    def cls(self):\n        \"\"\"Helper to get index of cls symbol\"\"\"\n        return self.cls_index\n\n    def sep(self):\n        \"\"\"Helper to get index of sep symbol\"\"\"\n        return self.sep_index\n"
  },
  {
    "path": "fairseq/data/list_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import BaseWrapperDataset\n\n\nclass ListDataset(BaseWrapperDataset):\n    def __init__(self, dataset, sizes=None):\n        super().__init__(dataset)\n        self._sizes = sizes\n\n    def __iter__(self):\n        for x in self.dataset:\n            yield x\n\n    def collater(self, samples):\n        return samples\n\n    @property\n    def sizes(self):\n        return self._sizes\n\n    def num_tokens(self, index):\n        return self.sizes[index]\n\n    def size(self, index):\n        return self.sizes[index]\n\n    def set_epoch(self, epoch):\n        pass\n"
  },
  {
    "path": "fairseq/data/lm_context_window_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\nfrom typing import Dict\n\nfrom fairseq.data.monolingual_dataset import MonolingualDataset\n\nfrom . import FairseqDataset\n\n\nclass LMContextWindowDataset(FairseqDataset):\n    \"\"\"\n    Wraps a MonolingualDataset and provides more context for evaluation.\n\n    Each item in the new dataset will have a maximum size of\n    ``tokens_per_sample + context_window``.\n\n    Args:\n        dataset: dataset to wrap\n        tokens_per_sample (int): the max number of tokens in each dataset item\n        context_window (int): the number of accumulated tokens to add to each\n            dataset item\n        pad_idx (int): padding symbol\n    \"\"\"\n\n    def __init__(\n        self,\n        dataset: MonolingualDataset,\n        tokens_per_sample: int,\n        context_window: int,\n        pad_idx: int,\n    ):\n        assert context_window > 0\n        self.dataset = dataset\n        self.tokens_per_sample = tokens_per_sample\n        self.context_window = context_window\n        self.pad_idx = pad_idx\n        self.prev_tokens = np.empty([0])\n\n    def __getitem__(self, index):\n        return self.dataset[index]\n\n    def __len__(self):\n        return len(self.dataset)\n\n    def collater(self, samples) -> Dict:\n        sample = self.dataset.collater(samples)\n\n        pad = self.pad_idx\n        max_sample_len = self.tokens_per_sample + self.context_window\n\n        bsz, tsz = sample[\"net_input\"][\"src_tokens\"].shape\n        start_idxs = [0] * bsz\n        toks = sample[\"net_input\"][\"src_tokens\"]\n        lengths = sample[\"net_input\"][\"src_lengths\"]\n        tgt = sample[\"target\"]\n        new_toks = np.empty([bsz, tsz + self.context_window], dtype=np.int64)\n        new_tgt = np.full([bsz, tsz + self.context_window], pad, dtype=np.int64)\n        sample_lens = toks.ne(pad).long().sum(dim=1).cpu()\n        for i in range(bsz):\n            sample_len = sample_lens[i]\n            extra = len(self.prev_tokens) + sample_len - max_sample_len\n            if extra > 0:\n                self.prev_tokens = self.prev_tokens[extra:]\n            pads = np.full(self.context_window - len(self.prev_tokens), pad)\n            new_toks[i] = np.concatenate([self.prev_tokens, toks[i].numpy(), pads])\n            new_tgt[\n                i, len(self.prev_tokens) : len(self.prev_tokens) + len(tgt[i])\n            ] = tgt[i]\n            start_idxs[i] = len(self.prev_tokens)\n            lengths[i] += len(self.prev_tokens)\n            self.prev_tokens = new_toks[i][new_toks[i] != pad][-self.context_window :]\n        sample[\"net_input\"][\"src_tokens\"] = torch.from_numpy(new_toks)\n        sample[\"target\"] = torch.from_numpy(new_tgt)\n        sample[\"start_indices\"] = start_idxs\n        return sample\n\n    def num_tokens(self, index):\n        return self.dataset.num_tokens(index)\n\n    def size(self, index):\n        return self.dataset.size(index)\n\n    def ordered_indices(self):\n        # NOTE we don't shuffle the data to retain access to the previous dataset elements\n        return np.arange(len(self.dataset))\n\n    @property\n    def supports_prefetch(self):\n        return getattr(self.dataset, \"supports_prefetch\", False)\n\n    def prefetch(self, indices):\n        return self.dataset.prefetch(indices)\n"
  },
  {
    "path": "fairseq/data/lru_cache_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom functools import lru_cache\n\nfrom . import BaseWrapperDataset\n\n\nclass LRUCacheDataset(BaseWrapperDataset):\n    def __init__(self, dataset, token=None):\n        super().__init__(dataset)\n\n    @lru_cache(maxsize=8)\n    def __getitem__(self, index):\n        return self.dataset[index]\n\n    @lru_cache(maxsize=8)\n    def collater(self, samples):\n        return self.dataset.collater(samples)\n"
  },
  {
    "path": "fairseq/data/mask_tokens_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom functools import lru_cache\n\nimport numpy as np\nimport torch\nfrom fairseq.data import Dictionary, data_utils\n\nfrom . import BaseWrapperDataset, LRUCacheDataset\n\n\nclass MaskTokensDataset(BaseWrapperDataset):\n    \"\"\"\n    A wrapper Dataset for masked language modeling.\n\n    Input items are masked according to the specified masking probability.\n\n    Args:\n        dataset: Dataset to wrap.\n        sizes: Sentence lengths\n        vocab: Dictionary with the vocabulary and special tokens.\n        pad_idx: Id of pad token in vocab\n        mask_idx: Id of mask token in vocab\n        return_masked_tokens: controls whether to return the non-masked tokens\n            (the default) or to return a tensor with the original masked token\n            IDs (and *pad_idx* elsewhere). The latter is useful as targets for\n            masked LM training.\n        seed: Seed for random number generator for reproducibility.\n        mask_prob: probability of replacing a token with *mask_idx*.\n        leave_unmasked_prob: probability that a masked token is unmasked.\n        random_token_prob: probability of replacing a masked token with a\n            random token from the vocabulary.\n        freq_weighted_replacement: sample random replacement words based on\n            word frequencies in the vocab.\n        mask_whole_words: only mask whole words. This should be a byte mask\n            over vocab indices, indicating whether it is the beginning of a\n            word. We will extend any mask to encompass the whole word.\n        bpe: BPE to use for whole-word masking.\n        mask_multiple_length : repeat each mask index multiple times. Default\n            value is 1.\n        mask_stdev : standard deviation of masks distribution in case of\n            multiple masking. Default value is 0.\n    \"\"\"\n\n    @classmethod\n    def apply_mask(cls, dataset: torch.utils.data.Dataset, *args, **kwargs):\n        \"\"\"Return the source and target datasets for masked LM training.\"\"\"\n        dataset = LRUCacheDataset(dataset)\n        return (\n            LRUCacheDataset(cls(dataset, *args, **kwargs, return_masked_tokens=False)),\n            LRUCacheDataset(cls(dataset, *args, **kwargs, return_masked_tokens=True)),\n        )\n\n    def __init__(\n        self,\n        dataset: torch.utils.data.Dataset,\n        vocab: Dictionary,\n        pad_idx: int,\n        mask_idx: int,\n        return_masked_tokens: bool = False,\n        seed: int = 1,\n        mask_prob: float = 0.15,\n        leave_unmasked_prob: float = 0.1,\n        random_token_prob: float = 0.1,\n        freq_weighted_replacement: bool = False,\n        mask_whole_words: torch.Tensor = None,\n        mask_multiple_length: int = 1,\n        mask_stdev: float = 0.0,\n        skip_masking: bool = False,\n    ):\n        assert 0.0 < mask_prob < 1.0\n        assert 0.0 <= random_token_prob <= 1.0\n        assert 0.0 <= leave_unmasked_prob <= 1.0\n        assert random_token_prob + leave_unmasked_prob <= 1.0\n        assert mask_multiple_length >= 1\n        assert mask_stdev >= 0.0\n\n        self.dataset = dataset\n        self.vocab = vocab\n        self.pad_idx = pad_idx\n        self.mask_idx = mask_idx\n        self.return_masked_tokens = return_masked_tokens\n        self.seed = seed\n        self.mask_prob = mask_prob\n        self.leave_unmasked_prob = leave_unmasked_prob\n        self.random_token_prob = random_token_prob\n        self.mask_whole_words = mask_whole_words\n        self.mask_multiple_length = mask_multiple_length\n        self.mask_stdev = mask_stdev\n        self.skip_masking = skip_masking\n\n        if random_token_prob > 0.0:\n            if freq_weighted_replacement:\n                weights = np.array(self.vocab.count)\n            else:\n                weights = np.ones(len(self.vocab))\n            weights[: self.vocab.nspecial] = 0\n            self.weights = weights / weights.sum()\n\n        self.epoch = 0\n\n    @property\n    def can_reuse_epoch_itr_across_epochs(self):\n        return True  # only the noise changes, not item sizes\n\n    def set_epoch(self, epoch, **unused):\n        super().set_epoch(epoch)\n        self.epoch = epoch\n\n    def __getitem__(self, index: int):\n        return self.__getitem_cached__(self.seed, self.epoch, index)\n\n    @lru_cache(maxsize=8)\n    def __getitem_cached__(self, seed: int, epoch: int, index: int):\n        seed = int(hash((seed, epoch, index)) % 1e6)\n        rng = np.random.default_rng(seed)\n        item = self.dataset[index]\n        sz = len(item)\n\n        assert (\n            self.mask_idx not in item\n        ), \"Dataset contains mask_idx (={}), this is not expected!\".format(\n            self.mask_idx,\n        )\n        if self.skip_masking:\n            return torch.from_numpy(np.copy(item))\n\n        if self.mask_whole_words is not None:\n            word_begins_mask = self.mask_whole_words.gather(0, item)\n            word_begins_idx = word_begins_mask.nonzero().view(-1)\n            sz = len(word_begins_idx)\n            words = np.split(word_begins_mask, word_begins_idx)[1:]\n            assert len(words) == sz\n            word_lens = list(map(len, words))\n\n        # decide elements to mask\n        mask = np.full(sz, False)\n        num_mask = int(\n            # add a random number for probabilistic rounding\n            self.mask_prob * sz / float(self.mask_multiple_length)\n            + rng.random()\n        )\n\n        # multiple masking as described in the vq-wav2vec paper (https://arxiv.org/abs/1910.05453)\n        mask_idc = rng.choice(sz, num_mask, replace=False)\n        if self.mask_stdev > 0.0:\n            lengths = rng.normal(\n                self.mask_multiple_length, self.mask_stdev, size=num_mask\n            )\n            lengths = [max(0, int(round(x))) for x in lengths]\n            mask_idc = np.asarray(\n                [\n                    mask_idc[j] + offset\n                    for j in range(len(mask_idc))\n                    for offset in range(lengths[j])\n                ],\n                dtype=np.int64,\n            )\n        else:\n            mask_idc = np.concatenate(\n                [mask_idc + i for i in range(self.mask_multiple_length)]\n            )\n        mask_idc = mask_idc[mask_idc < len(mask)]\n        try:\n            mask[mask_idc] = True\n        except:  # something wrong\n            print(\"Assigning mask indexes {} to mask {} failed!\".format(mask_idc, mask))\n            raise\n\n        # if self.return_masked_tokens:\n        #     print((\n        #         f\"IDX={index}; seed={seed}; epoch={epoch}; is_tgt={self.return_masked_tokens}: \"\n        #         f\"{np.nonzero(mask)[0].sum()}\"\n        #     ))\n        if self.return_masked_tokens:\n            # exit early if we're just returning the masked tokens\n            # (i.e., the targets for masked LM training)\n            if self.mask_whole_words is not None:\n                mask = np.repeat(mask, word_lens)\n            new_item = np.full(len(mask), self.pad_idx)\n            new_item[mask] = item[torch.from_numpy(mask.astype(np.uint8)) == 1]\n            return torch.from_numpy(new_item)\n\n        # decide unmasking and random replacement\n        rand_or_unmask_prob = self.random_token_prob + self.leave_unmasked_prob\n        if rand_or_unmask_prob > 0.0:\n            rand_or_unmask = mask & (rng.random(sz) < rand_or_unmask_prob)\n            if self.random_token_prob == 0.0:\n                unmask = rand_or_unmask\n                rand_mask = None\n            elif self.leave_unmasked_prob == 0.0:\n                unmask = None\n                rand_mask = rand_or_unmask\n            else:\n                unmask_prob = self.leave_unmasked_prob / rand_or_unmask_prob\n                decision = rng.random(sz) < unmask_prob\n                unmask = rand_or_unmask & decision\n                rand_mask = rand_or_unmask & (~decision)\n        else:\n            unmask = rand_mask = None\n\n        if unmask is not None:\n            mask = mask ^ unmask\n\n        if self.mask_whole_words is not None:\n            mask = np.repeat(mask, word_lens)\n\n        new_item = np.copy(item)\n        new_item[mask] = self.mask_idx\n        if rand_mask is not None:\n            num_rand = rand_mask.sum()\n            if num_rand > 0:\n                if self.mask_whole_words is not None:\n                    rand_mask = np.repeat(rand_mask, word_lens)\n                    num_rand = rand_mask.sum()\n\n                new_item[rand_mask] = rng.choice(\n                    len(self.vocab),\n                    num_rand,\n                    p=self.weights,\n                )\n\n        return torch.from_numpy(new_item)\n"
  },
  {
    "path": "fairseq/data/monolingual_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\n\nfrom . import FairseqDataset, data_utils\n\n\ndef collate(samples, pad_idx, eos_idx, fixed_pad_length=None, pad_to_bsz=None):\n    if len(samples) == 0:\n        return {}\n\n    def merge(key, is_list=False):\n        if is_list:\n            res = []\n            for i in range(len(samples[0][key])):\n                res.append(\n                    data_utils.collate_tokens(\n                        [s[key][i] for s in samples],\n                        pad_idx,\n                        eos_idx,\n                        left_pad=False,\n                        pad_to_length=fixed_pad_length,\n                        pad_to_bsz=pad_to_bsz,\n                    )\n                )\n            return res\n        else:\n            return data_utils.collate_tokens(\n                [s[key] for s in samples],\n                pad_idx,\n                eos_idx,\n                left_pad=False,\n                pad_to_length=fixed_pad_length,\n                pad_to_bsz=pad_to_bsz,\n            )\n\n    src_tokens = merge(\"source\")\n    if samples[0][\"target\"] is not None:\n        is_target_list = isinstance(samples[0][\"target\"], list)\n        target = merge(\"target\", is_target_list)\n    else:\n        target = src_tokens\n\n    return {\n        \"id\": torch.LongTensor([s[\"id\"] for s in samples]),\n        \"nsentences\": len(samples),\n        \"ntokens\": sum(len(s[\"source\"]) for s in samples),\n        \"net_input\": {\n            \"src_tokens\": src_tokens,\n            \"src_lengths\": torch.LongTensor([s[\"source\"].numel() for s in samples]),\n        },\n        \"target\": target,\n    }\n\n\nclass MonolingualDataset(FairseqDataset):\n    \"\"\"\n    A wrapper around torch.utils.data.Dataset for monolingual data.\n\n    Args:\n        dataset (torch.utils.data.Dataset): dataset to wrap\n        sizes (List[int]): sentence lengths\n        vocab (~fairseq.data.Dictionary): vocabulary\n        shuffle (bool, optional): shuffle the elements before batching\n            (default: True).\n    \"\"\"\n\n    def __init__(\n        self,\n        dataset,\n        sizes,\n        src_vocab,\n        tgt_vocab=None,\n        add_eos_for_other_targets=False,\n        shuffle=False,\n        targets=None,\n        add_bos_token=False,\n        fixed_pad_length=None,\n        pad_to_bsz=None,\n        src_lang_idx=None,\n        tgt_lang_idx=None,\n    ):\n        self.dataset = dataset\n        self.sizes = np.array(sizes)\n        self.vocab = src_vocab\n        self.tgt_vocab = tgt_vocab or src_vocab\n        self.add_eos_for_other_targets = add_eos_for_other_targets\n        self.shuffle = shuffle\n        self.add_bos_token = add_bos_token\n        self.fixed_pad_length = fixed_pad_length\n        self.pad_to_bsz = pad_to_bsz\n        self.src_lang_idx = src_lang_idx\n        self.tgt_lang_idx = tgt_lang_idx\n\n        assert targets is None or all(\n            t in {\"self\", \"future\", \"past\"} for t in targets\n        ), \"targets must be none or one of 'self', 'future', 'past'\"\n        if targets is not None and len(targets) == 0:\n            targets = None\n        self.targets = targets\n\n    def __getitem__(self, index):\n        if self.targets is not None:\n            # *future_target* is the original sentence\n            # *source* is shifted right by 1 (maybe left-padded with eos)\n            # *past_target* is shifted right by 2 (left-padded as needed)\n            #\n            # Left-to-right language models should condition on *source* and\n            # predict *future_target*.\n            # Right-to-left language models should condition on *source* and\n            # predict *past_target*.\n            source, future_target, past_target = self.dataset[index]\n            source, target = self._make_source_target(\n                source, future_target, past_target\n            )\n        else:\n            source = self.dataset[index]\n            target = None\n        source, target = self._maybe_add_bos(source, target)\n        return {\"id\": index, \"source\": source, \"target\": target}\n\n    def __len__(self):\n        return len(self.dataset)\n\n    def _make_source_target(self, source, future_target, past_target):\n        if self.targets is not None:\n            target = []\n\n            if (\n                self.add_eos_for_other_targets\n                and ((\"self\" in self.targets) or (\"past\" in self.targets))\n                and source[-1] != self.vocab.eos()\n            ):\n                # append eos at the end of source\n                source = torch.cat([source, source.new([self.vocab.eos()])])\n\n                if \"future\" in self.targets:\n                    future_target = torch.cat(\n                        [future_target, future_target.new([self.vocab.pad()])]\n                    )\n                if \"past\" in self.targets:\n                    # first token is before the start of sentence which is only used in \"none\" break mode when\n                    # add_eos_for_other_targets is False\n                    past_target = torch.cat(\n                        [\n                            past_target.new([self.vocab.pad()]),\n                            past_target[1:],\n                            source[-2, None],\n                        ]\n                    )\n\n            for t in self.targets:\n                if t == \"self\":\n                    target.append(source)\n                elif t == \"future\":\n                    target.append(future_target)\n                elif t == \"past\":\n                    target.append(past_target)\n                else:\n                    raise Exception(\"invalid target \" + t)\n\n            if len(target) == 1:\n                target = target[0]\n        else:\n            target = future_target\n\n        return source, self._filter_vocab(target)\n\n    def _maybe_add_bos(self, source, target):\n        if self.add_bos_token:\n            source = torch.cat([source.new([self.vocab.bos()]), source])\n            if target is not None:\n                target = torch.cat([target.new([self.tgt_vocab.bos()]), target])\n        return source, target\n\n    def num_tokens_vec(self, indices):\n        \"\"\"Return the number of tokens for a set of positions defined by indices.\n        This value is used to enforce ``--max-tokens`` during batching.\"\"\"\n        return self.sizes[indices]\n\n    def _filter_vocab(self, target):\n        if len(self.tgt_vocab) != len(self.vocab):\n\n            def _filter(target):\n                mask = target.ge(len(self.tgt_vocab))\n                if mask.any():\n                    target[mask] = self.tgt_vocab.unk()\n                return target\n\n            if isinstance(target, list):\n                return [_filter(t) for t in target]\n            return _filter(target)\n        return target\n\n    def collater(self, samples):\n        \"\"\"Merge a list of samples to form a mini-batch.\n\n        Args:\n            samples (List[dict]): samples to collate\n\n        Returns:\n            dict: a mini-batch with the following keys:\n\n                - `id` (LongTensor): example IDs in the original input order\n                - `ntokens` (int): total number of tokens in the batch\n                - `net_input` (dict): the input to the Model, containing keys:\n\n                  - `src_tokens` (LongTensor): a padded 2D Tensor of tokens in\n                    the source sentence of shape `(bsz, src_len)`. Padding will\n                    appear on the right.\n\n                - `target` (LongTensor): a padded 2D Tensor of tokens in the\n                  target sentence of shape `(bsz, tgt_len)`. Padding will appear\n                  on the right.\n        \"\"\"\n        return collate(\n            samples,\n            self.vocab.pad(),\n            self.vocab.eos(),\n            self.fixed_pad_length,\n            self.pad_to_bsz,\n        )\n\n    def num_tokens(self, index):\n        \"\"\"Return the number of tokens in a sample. This value is used to\n        enforce ``--max-tokens`` during batching.\"\"\"\n        return self.sizes[index]\n\n    def size(self, index):\n        \"\"\"Return an example's size as a float or tuple. This value is used when\n        filtering a dataset with ``--max-positions``.\"\"\"\n        return self.sizes[index]\n\n    def ordered_indices(self):\n        \"\"\"Return an ordered list of indices. Batches will be constructed based\n        on this order.\"\"\"\n        if self.shuffle:\n            order = [np.random.permutation(len(self))]\n        else:\n            order = [np.arange(len(self))]\n        order.append(self.sizes)\n        return np.lexsort(order)\n\n    @property\n    def supports_prefetch(self):\n        return getattr(self.dataset, \"supports_prefetch\", False)\n\n    def prefetch(self, indices):\n        self.dataset.prefetch(indices)\n"
  },
  {
    "path": "fairseq/data/multi_corpus_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport asyncio\nimport logging\nimport time\nfrom collections import OrderedDict\nfrom typing import Dict, List, Optional\n\nimport numpy as np\n\nfrom fairseq.data import data_utils\n\nfrom . import FairseqDataset\n\nlogger = logging.getLogger(__name__)\n\n\nclass MultiCorpusDataset(FairseqDataset):\n    \"\"\"\n    Stores multiple instances of FairseqDataset together.\n    Unless batch_sample=True, requires each instance\n    to be the same dataset, as the collate method needs to work on batches with\n    samples from each dataset.\n\n    Allows specifying a distribution over the datasets to use. Note that unlike\n    MultiCorpusSampledDataset, this distribution allows sampling for each item,\n    rather than on a batch level. Note that datasets with sampling probabilty\n    of 0 will be skipped.\n\n    Each time ordered_indices() is called, a new sample is generated with\n    the specified distribution.\n\n    Args:\n        datasets: a OrderedDict of FairseqDataset instances.\n        distribution: a List containing the probability of getting an utterance from\n                        corresponding dataset\n        seed: random seed for sampling the datsets\n        sort_indices: if true, will sort the ordered indices by size\n        batch_sample: if true, will ensure each batch is from a single dataset\n    \"\"\"\n\n    def __init__(\n        self,\n        datasets: Dict[str, FairseqDataset],\n        distribution: List[float],\n        seed: int,\n        sort_indices: bool = False,\n        batch_sample: bool = False,\n        distributed_rank: Optional[int] = None,\n    ):\n        super().__init__()\n        assert isinstance(datasets, OrderedDict)\n        assert len(datasets) == len(distribution)\n        assert sum(distribution) == 1\n        self.datasets = datasets\n        self.distribution = distribution\n        self.seed = seed\n        self.sort_indices = sort_indices\n        self.batch_sample = batch_sample\n        self.distributed_rank = distributed_rank\n\n        # Avoid repeated conversions to list later\n        self.dataset_list = list(datasets.values())\n        self.total_num_instances = 0\n\n        first_dataset = self.dataset_list[0]\n\n        self.num_instances_per_dataset = []\n        self.dataset_offsets = []\n        for i, dataset in enumerate(self.dataset_list):\n            assert isinstance(dataset, FairseqDataset)\n            assert type(dataset) is type(first_dataset)\n            self.num_instances_per_dataset.append(\n                0 if self.distribution[i] == 0 else len(dataset)\n            )\n            self.dataset_offsets.append(self.total_num_instances)\n            self.total_num_instances += self.num_instances_per_dataset[i]\n\n    def ordered_indices(self):\n        start = time.time()\n        with data_utils.numpy_seed(self.seed, self.epoch):\n            logger.info(\n                f\"sampling new dataset with seed {self.seed} epoch {self.epoch}\"\n            )\n            sampled_indices = []\n            num_selected_instances = 0\n\n            # For each dataset i, sample self.distribution[i] * self.total_num_instances\n            for i, key in enumerate(self.datasets):\n                if self.distribution[i] == 0:\n                    # skip dataset if sampling probability is 0\n                    continue\n\n                if i < len(self.datasets) - 1:\n                    num_instances = int(self.distribution[i] * self.total_num_instances)\n                    high = self.dataset_offsets[i + 1]\n                else:\n                    num_instances = self.total_num_instances - num_selected_instances\n                    high = self.total_num_instances\n\n                logger.info(f\"sampling {num_instances} from {key} dataset\")\n                num_selected_instances += num_instances\n\n                # First, add k copies of the dataset where k = num_instances // len(dataset).\n                # This ensures an equal distribution of the data points as much as possible.\n                # For the remaining entries randomly sample them\n                dataset_size = len(self.datasets[key])\n                num_copies = num_instances // dataset_size\n                dataset_indices = (\n                    np.random.permutation(high - self.dataset_offsets[i])\n                    + self.dataset_offsets[i]\n                )[: num_instances - num_copies * dataset_size]\n                if num_copies > 0:\n                    sampled_indices += list(\n                        np.concatenate(\n                            (\n                                np.repeat(\n                                    np.arange(self.dataset_offsets[i], high), num_copies\n                                ),\n                                dataset_indices,\n                            )\n                        )\n                    )\n                else:\n                    sampled_indices += list(dataset_indices)\n\n            assert (\n                len(sampled_indices) == self.total_num_instances\n            ), f\"{len(sampled_indices)} vs {self.total_num_instances}\"\n\n            np.random.shuffle(sampled_indices)\n            if self.sort_indices:\n                sampled_indices.sort(key=lambda i: self.num_tokens(i))\n\n            logger.info(\n                \"multi_corpus_dataset ordered_indices took {}s\".format(\n                    time.time() - start\n                )\n            )\n            return np.array(sampled_indices, dtype=np.int64)\n\n    def _map_index(self, index: int):\n        \"\"\"\n        If dataset A has length N and dataset B has length M\n        then index 1 maps to index 1 of dataset A, and index N + 1\n        maps to index 1 of B.\n        \"\"\"\n        counter = 0\n        for num_instances, key in zip(self.num_instances_per_dataset, self.datasets):\n            if index < counter + num_instances:\n                return index - counter, key\n            counter += num_instances\n        raise ValueError(\n            \"Invalid index: {}, max: {}\".format(index, self.total_num_instances)\n        )\n\n    def __len__(self):\n        \"\"\"\n        Length of this dataset is the sum of individual datasets\n        \"\"\"\n        return self.total_num_instances\n\n    async def getitem(self, index):\n        new_index, key = self._map_index(index)\n        try:\n            if hasattr(self.datasets[key], \"getitem\"):\n                item = await self.datasets[key].getitem(new_index)\n            else:\n                item = self.datasets[key][new_index]\n            item[\"full_id\"] = index\n            return item\n        except Exception as e:\n            e.args = (f\"Error from {key} dataset\", *e.args)\n            raise\n\n    def __getitem__(self, index):\n        return asyncio.run(self.getitem(index))\n\n    async def getitems(self, indices):\n        # initialize a bunch of everstore read operations\n        # wait in the end to reduce overhead\n        # very helpful if io is latency bounded\n\n        max_concurrency = 32\n        sem = asyncio.Semaphore(max_concurrency)\n\n        async def controlled_getitem(index):\n            async with sem:\n                return await self.getitem(index)\n\n        coroutines = []\n        for index in indices:\n            coroutines.append(controlled_getitem(index))\n        results = await asyncio.gather(*coroutines)\n        return results\n\n    def __getitems__(self, indices):\n        return asyncio.run(self.getitems(indices))\n\n    def collater(self, samples):\n        \"\"\"\n        If we are doing batch sampling, then pick the right collater to use.\n\n        Otherwise we assume all collaters are the same.\n        \"\"\"\n        if len(samples) == 0:\n            return None\n        if \"full_id\" in samples[0]:\n            _, key = self._map_index(samples[0][\"full_id\"])\n            try:\n                batch = self.datasets[key].collater(samples)\n            except Exception:\n                print(f\"Collating failed for key {key}\", flush=True)\n                raise\n            return batch\n        else:\n            # Subclasses may override __getitem__ to not specify full_id\n            return list(self.datasets.values())[0].collater(samples)\n\n    def num_tokens(self, index: int):\n        index, key = self._map_index(index)\n        return self.datasets[key].num_tokens(index)\n\n    def size(self, index: int):\n        index, key = self._map_index(index)\n        return self.datasets[key].size(index)\n\n    @property\n    def can_reuse_epoch_itr_across_epochs(self):\n        return False\n\n    def set_epoch(self, epoch, **unused):\n        super().set_epoch(epoch)\n        logger.info(f\"setting epoch of multi_corpus_dataset to {epoch}\")\n        self.epoch = epoch\n\n    @property\n    def supports_prefetch(self):\n        return False\n\n    @property\n    def supports_fetch_outside_dataloader(self):\n        return all(\n            self.datasets[key].supports_fetch_outside_dataloader\n            for key in self.datasets\n        )\n\n    def batch_by_size(\n        self,\n        indices,\n        max_tokens=None,\n        max_sentences=None,\n        required_batch_size_multiple=1,\n    ):\n        if not self.batch_sample:\n            return super().batch_by_size(\n                indices, max_tokens, max_sentences, required_batch_size_multiple\n            )\n\n        dataset_indices = {key: [] for key in self.datasets}\n        for i in indices:\n            _, key = self._map_index(i)\n            dataset_indices[key].append(i)\n\n        batches = []\n        for key in dataset_indices:\n            cur_batches = super().batch_by_size(\n                np.array(dataset_indices[key], dtype=np.int64),\n                max_tokens,\n                max_sentences,\n                required_batch_size_multiple,\n            )\n            logger.info(f\"Created {len(cur_batches)} batches for dataset {key}\")\n            batches += cur_batches\n\n        # If this dataset is used in a distributed training setup,\n        # then shuffle such that the order is seeded by the distributed rank\n        # as well\n        if self.distributed_rank is not None:\n            with data_utils.numpy_seed(self.seed, self.epoch, self.distributed_rank):\n                np.random.shuffle(batches)\n        return batches\n"
  },
  {
    "path": "fairseq/data/multi_corpus_sampled_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom collections import OrderedDict\nfrom typing import Callable, Dict, List\n\nimport numpy as np\n\nfrom . import FairseqDataset\n\n\ndef uniform_sampler(x):\n    # Sample from uniform distribution\n    return np.random.choice(x, 1).item()\n\n\nclass MultiCorpusSampledDataset(FairseqDataset):\n    \"\"\"\n    Stores multiple instances of FairseqDataset together and in every iteration\n    creates a batch by first sampling a dataset according to a specified\n    probability distribution and then getting instances from that dataset.\n\n    Args:\n        datasets: an OrderedDict of FairseqDataset instances.\n        sampling_func: A function for sampling over list of dataset keys.\n            The default strategy is to sample uniformly.\n    \"\"\"\n\n    def __init__(\n        self,\n        datasets: Dict[str, FairseqDataset],\n        sampling_func: Callable[[List], int] = None,\n    ):\n        super().__init__()\n        assert isinstance(datasets, OrderedDict)\n        self.datasets = datasets\n        if sampling_func is None:\n            sampling_func = uniform_sampler\n        self.sampling_func = sampling_func\n\n        self.total_num_instances = 0\n        for _, dataset in datasets.items():\n            assert isinstance(dataset, FairseqDataset)\n            self.total_num_instances += len(dataset)\n\n        self._ordered_indices = None\n\n    def __len__(self):\n        \"\"\"\n        Length of this dataset is the sum of individual datasets\n        \"\"\"\n        return self.total_num_instances\n\n    def ordered_indices(self):\n        \"\"\"\n        Ordered indices for batching. Here we call the underlying\n        dataset's ordered_indices() so that we get the same random ordering\n        as we would have from using the underlying dataset directly.\n        \"\"\"\n        if self._ordered_indices is None:\n            self._ordered_indices = OrderedDict(\n                [\n                    (key, dataset.ordered_indices())\n                    for key, dataset in self.datasets.items()\n                ]\n            )\n        return np.arange(len(self))\n\n    def _map_index_to_dataset(self, key: int, index: int):\n        \"\"\"\n        Different underlying datasets have different lengths. In order to ensure\n        we are not accessing an index outside the range of the current dataset\n        size, we wrap around. This function should be called after we have\n        created an ordering for this and all underlying datasets.\n        \"\"\"\n        assert (\n            self._ordered_indices is not None\n        ), \"Must call MultiCorpusSampledDataset.ordered_indices() first\"\n        mapped_index = index % len(self.datasets[key])\n        return self._ordered_indices[key][mapped_index]\n\n    def __getitem__(self, index: int):\n        \"\"\"\n        Get the item associated with index from each underlying dataset.\n        Since index is in the range of [0, TotalNumInstances], we need to\n        map the index to the dataset before retrieving the item.\n        \"\"\"\n        return OrderedDict(\n            [\n                (key, dataset[self._map_index_to_dataset(key, index)])\n                for key, dataset in self.datasets.items()\n            ]\n        )\n\n    def collater(self, samples: List[Dict]):\n        \"\"\"\n        Generate a mini-batch for this dataset.\n        To convert this into a regular mini-batch we use the following\n        logic:\n            1. Select a dataset using the specified probability distribution.\n            2. Call the collater function of the selected dataset.\n        \"\"\"\n        if len(samples) == 0:\n            return None\n\n        selected_key = self.sampling_func(list(self.datasets.keys()))\n        selected_samples = [sample[selected_key] for sample in samples]\n        return self.datasets[selected_key].collater(selected_samples)\n\n    def num_tokens(self, index: int):\n        \"\"\"\n        Return an example's length (number of tokens), used for batching. Here\n        we return the max across all examples at index across all underlying\n        datasets.\n        \"\"\"\n        return max(\n            dataset.num_tokens(self._map_index_to_dataset(key, index))\n            for key, dataset in self.datasets.items()\n        )\n\n    def size(self, index: int):\n        \"\"\"\n        Return an example's size as a float or tuple. Here we return the max\n        across all underlying datasets. This value is used when filtering a\n        dataset with max-positions.\n        \"\"\"\n        return max(\n            dataset.size(self._map_index_to_dataset(key, index))\n            for key, dataset in self.datasets.items()\n        )\n\n    @property\n    def supports_prefetch(self):\n        return all(\n            getattr(dataset, \"supports_prefetch\", False)\n            for dataset in self.datasets.values()\n        )\n\n    def prefetch(self, indices):\n        for key, dataset in self.datasets.items():\n            dataset.prefetch(\n                [self._map_index_to_dataset(key, index) for index in indices]\n            )\n\n    @property\n    def supports_fetch_outside_dataloader(self):\n        return all(\n            self.datasets[key].supports_fetch_outside_dataloader\n            for key in self.datasets\n        )\n"
  },
  {
    "path": "fairseq/data/multilingual/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n"
  },
  {
    "path": "fairseq/data/multilingual/multilingual_data_manager.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport itertools\nimport json\nimport logging\nimport math\nimport os\nfrom collections import OrderedDict, defaultdict\nfrom argparse import ArgumentError\n\nfrom fairseq import utils\nfrom fairseq.data import (\n    AppendTokenDataset,\n    ConcatDataset,\n    Dictionary,\n    LanguagePairDataset,\n    PrependTokenDataset,\n    SampledMultiDataset,\n    SampledMultiEpochDataset,\n    StripTokenDataset,\n    TransformEosLangPairDataset,\n    TruncateDataset,\n    data_utils,\n    indexed_dataset,\n)\nfrom fairseq.data.multilingual.multilingual_utils import (\n    EncoderLangtok,\n    LangTokSpec,\n    LangTokStyle,\n    augment_dictionary,\n    get_lang_tok,\n)\nfrom fairseq.data.multilingual.sampled_multi_dataset import CollateFormat\nfrom fairseq.file_io import PathManager\nfrom fairseq.utils import FileContentsAction, csv_str_list, eval_str_dict\n\n\nlogger = logging.getLogger(__name__)\n\nSRC_DICT_NAME = \"src\"\nTGT_DICT_NAME = \"tgt\"\n\n\ndef _lang_id(dic: Dictionary, lang: str):\n    \"\"\"Return language ID index.\"\"\"\n    idx = dic.index(lang)\n    assert idx != dic.unk_index, \"cannot find language ID for lang {}\".format(lang)\n    return idx\n\n\ndef load_sampling_weights(from_file):\n    with open(from_file) as f:\n        weights = json.load(f)\n    return weights\n\n\nclass MultilingualDatasetManager(object):\n    def __init__(self, args, lang_pairs, langs, dicts, sampling_method):\n        super().__init__()\n        self.args = args\n        self.seed = args.seed\n        self.lang_pairs = lang_pairs\n        self.extra_lang_pairs = (\n            list({p for _, v in args.extra_lang_pairs.items() for p in v.split(\",\")})\n            if args.extra_lang_pairs\n            else []\n        )\n        self.src_langs = {\n            p.split(\"-\")[0] for p in args.lang_pairs + self.extra_lang_pairs\n        }\n        self.tgt_langs = {\n            p.split(\"-\")[1] for p in args.lang_pairs + self.extra_lang_pairs\n        }\n        self.langs = langs\n        self.dicts = dicts\n        self.lang_dict = self.create_lang_dictionary(self.langs)\n        self.sampling_method = sampling_method\n        self.sampling_scheduler = None\n        self._has_sharded_data = False\n        self._num_shards_dict = {}\n        self._training_data_sizes = defaultdict(lambda: {})\n\n    @classmethod\n    def setup_data_manager(cls, args, lang_pairs, langs, dicts, sampling_method):\n        return MultilingualDatasetManager(\n            args, lang_pairs, langs, dicts, sampling_method\n        )\n\n    @staticmethod\n    def add_args(parser):\n        parser.add_argument(\n            \"data\",\n            help=\"colon separated path to data directories list, \\\n                            will be iterated upon during epochs in round-robin manner\",\n            action=FileContentsAction,\n        )\n        parser.add_argument(\n            \"--langs\",\n            default=None,\n            type=csv_str_list,\n            help=\"a list of languages comma sperated languages which can appear in lang-pairs; \"\n            \"note that the ordering determines language token IDs\",\n        )\n        parser.add_argument(\n            \"--lang-dict\",\n            default=None,\n            type=str,\n            help=\"an external file which contains a list of \"\n            \"languages which can appear in lang-pairs; \"\n            \"note that the ordering determines language token IDs; \"\n            \"--langs and --lang-dict are two exclusive options\",\n        )\n        parser.add_argument(\n            \"--source-dict\",\n            default=None,\n            type=str,\n            help=\"path to source dictionary; if specified it will override per language dictionary loading\",\n        )\n        parser.add_argument(\n            \"--target-dict\",\n            default=None,\n            type=str,\n            help=\"path to target dictionary; if specified it will override per language dictionary loading\",\n        )\n        parser.add_argument(\n            \"--lang-tok-style\",\n            default=LangTokStyle.multilingual.value,\n            type=str,\n            choices=[LangTokStyle.multilingual.value, LangTokStyle.mbart.value],\n            help=\"language token styles\",\n        )\n\n        parser.add_argument(\n            \"--load-alignments\",\n            action=\"store_true\",\n            help=\"load the binarized alignments\",\n        )\n        parser.add_argument(\n            \"--left-pad-source\",\n            default=\"True\",\n            type=str,\n            metavar=\"BOOL\",\n            help=\"pad the source on the left\",\n        )\n        parser.add_argument(\n            \"--left-pad-target\",\n            default=\"False\",\n            type=str,\n            metavar=\"BOOL\",\n            help=\"pad the target on the left\",\n        )\n        try:\n            parser.add_argument(\n                \"--max-source-positions\",\n                default=1024,\n                type=int,\n                metavar=\"N\",\n                help=\"max number of tokens in the source sequence\",\n            )\n            parser.add_argument(\n                \"--max-target-positions\",\n                default=1024,\n                type=int,\n                metavar=\"N\",\n                help=\"max number of tokens in the target sequence\",\n            )\n        except ArgumentError:\n            # this might have already been defined. Once we transition this to hydra it should be fine to add it here.\n            pass\n        parser.add_argument(\n            \"--upsample-primary\",\n            default=1,\n            type=int,\n            help=\"amount to upsample primary dataset\",\n        )\n        parser.add_argument(\n            \"--truncate-source\",\n            action=\"store_true\",\n            default=False,\n            help=\"truncate source to max-source-positions\",\n        )\n        parser.add_argument(\n            \"--encoder-langtok\",\n            default=None,\n            type=str,\n            choices=[EncoderLangtok.src.value, EncoderLangtok.tgt.value],\n            metavar=\"SRCTGT\",\n            help=\"prepend to the beginning of source sentence the source or target \"\n            \"language token. (src/tgt)\",\n        )\n        parser.add_argument(\n            \"--decoder-langtok\",\n            action=\"store_true\",\n            help=\"prepend to the beginning of target sentence the target language token\",\n        )\n        parser.add_argument(\n            \"--lang-tok-replacing-bos-eos\", action=\"store_true\", default=False\n        )\n        parser.add_argument(\n            \"--enable-lang-ids\",\n            default=False,\n            action=\"store_true\",\n            help=\"whether to include language IDs in samples\",\n        )\n        parser.add_argument(\n            \"--enable-reservsed-directions-shared-datasets\",\n            default=False,\n            action=\"store_true\",\n            help=\"whether to allow datasets be used in reversed directions\",\n        )\n\n        parser.add_argument(\n            \"--extra-data\",\n            help='a dictionary of data name to this path, \\\n                            e.g. {\"mined\", path_to_mined_data, \"denoised\": path_to_denoised_data}',\n            type=lambda uf: eval_str_dict(uf, type=str),\n            default=None,\n        )\n        parser.add_argument(\n            \"--extra-lang-pairs\",\n            help='a dictionary of data name to the language pairs they serve, \\\n                            e.g. {\"mined\": comma-separated-lang-pairs, \"denoised\":  comma-separated-lang-pairs}',\n            type=lambda uf: eval_str_dict(uf, type=str),\n            default=None,\n        )\n        parser.add_argument(\n            \"--fixed-dictionary\",\n            help=\"Fixed dictionary to use with model path\",\n            default=None,\n            type=str,\n        )\n        parser.add_argument(\n            \"--langtoks-specs\",\n            help='a list of comma separated data types that a set of language tokens to be specialized for, \\\n                            e.g. \"main,dae,mined\". There will be a set of language tokens added to the vocab to \\\n                            distinguish languages in different training data types. If not specified, default language \\\n                            tokens per languages will be added',\n            default=LangTokSpec.main.value,\n            type=csv_str_list,\n        )\n        parser.add_argument(\n            \"--langtoks\",\n            help='a dictionary of how to add language tokens, \\\n                            e.g. {\"mined\": (None, \"tgt\"), \"mono_dae\": (\"src.dae\", \"tgt\"), \"main\": \\\n                            (\"src\", \"tgt\")}, or {\"mined\": (\"src.mined\", \"tgt\")}',\n            default=None,\n            type=lambda uf: eval_str_dict(uf, type=str),\n        )\n        parser.add_argument(\n            \"--sampling-weights-from-file\",\n            help='a file contain a python dictionary of how to sample data sets, \\\n                                e.g. { \"main:en_XX-es_XX\": 0.2, \"mined:en_XX-pt_XX\": 0.5, \\\n                                    \"mono_dae:es_XX-es_XX: 0.3, \"main:en_xx-fr_XX\": 0.8 }',\n            default=None,\n            type=str,\n        )\n        parser.add_argument(\n            \"--sampling-weights\",\n            help='a dictionary of how to sample data sets, \\\n                            e.g. { \"main:en_XX-es_XX\": 0.2, \"mined:en_XX-pt_XX\": 0.5, \\\n                                   \"mono_dae:es_XX-es_XX: 0.3, \"main:en_xx-fr_XX\": 0.8 }',\n            default=None,\n            type=lambda uf: eval_str_dict(uf, type=str),\n        )\n        parser.add_argument(\n            \"--virtual-epoch-size\",\n            default=None,\n            type=int,\n            help=\"virtual epoch size to speed up data loading\",\n        )\n        parser.add_argument(\n            \"--virtual-data-size\",\n            default=None,\n            type=int,\n            help=\"virtual data size of the whole joint dataset to speed\"\n            \"up data loading and have specific dynamic sampling strategy interval\",\n        )\n\n    @classmethod\n    def load_langs(cls, args, **kwargs):\n        if args.lang_dict and args.langs:\n            raise ValueError(\"--langs and --lang-dict can not both be specified\")\n        if args.lang_dict is None and args.langs is None:\n            logger.warning(\n                \"External language dictionary is not provided; \"\n                \"use lang-pairs to infer the set of supported languages. \"\n                \"The language ordering is not stable which might cause \"\n                \"misalignment in pretraining and finetuning.\"\n            )\n            # infer from lang_pairs as it is\n            langs = list(\n                {x for lang_pair in args.lang_pairs for x in lang_pair.split(\"-\")}\n            )\n            langs = sorted(langs)\n            logger.info(f\"inferred language list: {langs}\")\n        elif args.lang_dict:\n            with open(\n                PathManager.get_local_path(args.lang_dict), \"r\", encoding=\"utf-8\"\n            ) as f:\n                langs = [lang.strip() for lang in f.readlines() if lang.strip()]\n                logger.info(\n                    f\"loaded language list from {args.lang_dict} as they are ordered in file\"\n                )\n        elif args.langs:\n            langs = args.langs\n            logger.info(\n                f\"parsed the language list as they are ordered in the option: {langs}\"\n            )\n        return langs\n\n    def has_sharded_data(self, split):\n        return self._has_sharded_data and split == getattr(\n            self.args, \"train_subset\", None\n        )\n\n    def _shared_collater(self):\n        return not (self.args.extra_data and \"mono_dae\" in self.args.extra_data) and (\n            not self.args.lang_tok_replacing_bos_eos\n        )\n\n    def estimate_global_pass_epoch(self, epoch):\n        if self.args.virtual_epoch_size is None or self.args.virtual_data_size is None:\n            return None\n        # one epoch more for remaining data in each shard\n        virtual_epochs_per_shard = math.ceil(\n            self.args.virtual_data_size / self.args.virtual_epoch_size\n        )\n        # note that fairseq epoch / shard_epoch starts from 1\n        shard_epoch = (epoch - 1) // virtual_epochs_per_shard + 1\n        return shard_epoch\n\n    @classmethod\n    def prepare(cls, load_dictionary, args, **kargs):\n        args.left_pad_source = utils.eval_bool(args.left_pad_source)\n        args.left_pad_target = utils.eval_bool(args.left_pad_target)\n\n        if not hasattr(args, \"shuffle_instance\"):\n            args.shuffle_instance = False\n        if args.langtoks is None:\n            args.langtoks = {}\n        if \"main\" not in args.langtoks:\n            src_langtok_spec = args.encoder_langtok if args.encoder_langtok else None\n            tgt_langtok_spec = \"tgt\" if args.decoder_langtok else None\n            args.langtoks[\"main\"] = (src_langtok_spec, tgt_langtok_spec)\n\n        def check_langs(langs, pairs):\n            messages = []\n            for src, tgt in pairs:\n                if src not in langs or tgt not in langs:\n                    messages.append(\n                        f\"language pair {src}-{tgt} contains languages \"\n                        \"that are not in the language dictionary\"\n                    )\n            if len(messages) > 0:\n                raise ValueError(\" \".join(messages) + f\"; langs: {langs}\")\n\n        if args.lang_pairs is None:\n            raise ValueError(\n                \"--lang-pairs is required. List all the language pairs in the training objective.\"\n            )\n        if isinstance(args.lang_pairs, str):\n            args.lang_pairs = args.lang_pairs.split(\",\")\n        if args.source_lang is not None or args.target_lang is not None:\n            training = False\n        else:\n            training = True\n        language_list = cls.load_langs(args, **kargs)\n        check_langs(\n            language_list,\n            (\n                [p.split(\"-\") for p in args.lang_pairs]\n                if training\n                else [(args.source_lang, args.target_lang)]\n            ),\n        )\n\n        def load_dictionary_and_postproc(path):\n            d = load_dictionary(path)\n            augment_dictionary(\n                dictionary=d,\n                language_list=language_list,\n                lang_tok_style=args.lang_tok_style,\n                langtoks_specs=args.langtoks_specs,\n                extra_data=args.extra_data,\n            )\n            return d\n\n        dicts = cls.load_all_dictionaries(\n            args, language_list, load_dictionary_and_postproc, training\n        )\n        return language_list, dicts, training\n\n    @classmethod\n    def load_all_dictionaries(cls, args, language_list, load_dictionary, training):\n        dicts = OrderedDict()\n        if args.source_dict is not None:\n            dicts[SRC_DICT_NAME] = load_dictionary(args.source_dict)\n        if args.target_dict is not None:\n            dicts[TGT_DICT_NAME] = load_dictionary(args.target_dict)\n\n        if training:\n            extra_lang_pairs = (\n                list(\n                    {p for _, v in args.extra_lang_pairs.items() for p in v.split(\",\")}\n                )\n                if args.extra_lang_pairs\n                else []\n            )\n            src_langs_to_load_dicts = sorted(\n                {p.split(\"-\")[0] for p in (args.lang_pairs + extra_lang_pairs)}\n            )\n            tgt_langs_to_load_dicts = sorted(\n                {p.split(\"-\")[1] for p in (args.lang_pairs + extra_lang_pairs)}\n            )\n        else:\n            src_langs_to_load_dicts = [args.source_lang]\n            tgt_langs_to_load_dicts = [args.target_lang]\n\n        paths = utils.split_paths(args.data)\n        assert len(paths) > 0\n\n        def load_dicts(langs_to_load_dicts):\n            for lang in langs_to_load_dicts:\n                dicts[lang] = load_dictionary(\n                    os.path.join(paths[0], \"dict.{}.txt\".format(lang))\n                )\n            if len(dicts) > 0:\n                dict0 = next(iter(dicts.values()))\n                assert dicts[lang].pad() == dict0.pad()\n                assert dicts[lang].eos() == dict0.eos()\n                assert dicts[lang].unk() == dict0.unk()\n            logger.info(\"[{}] dictionary: {} types\".format(lang, len(dicts[lang])))\n\n        if args.fixed_dictionary is not None:\n            fixed_dict = load_dictionary(args.fixed_dictionary)\n            dicts = {\n                lang: fixed_dict\n                for lang in src_langs_to_load_dicts + tgt_langs_to_load_dicts\n            }\n        else:\n            if args.source_dict is None:\n                load_dicts(src_langs_to_load_dicts)\n            if args.target_dict is None:\n                load_dicts(tgt_langs_to_load_dicts)\n        return dicts\n\n    def get_source_dictionary(self, lang):\n        if self.args.source_dict is not None:\n            return self.dicts[SRC_DICT_NAME]\n        else:\n            return self.dicts[lang]\n\n    def get_target_dictionary(self, lang):\n        if self.args.target_dict is not None:\n            return self.dicts[TGT_DICT_NAME]\n        else:\n            return self.dicts[lang]\n\n    @classmethod\n    def create_lang_dictionary(cls, langs):\n        unk = \"<unk>\"\n        # hack to remove symbols other than unk as they are not needed by lang dict\n        lang_dict = Dictionary(pad=unk, eos=unk, unk=unk, bos=unk)\n        for lang in langs:\n            lang_dict.add_symbol(lang)\n        return lang_dict\n\n    @classmethod\n    def get_langtok_index(cls, lang_tok, dic):\n        idx = dic.index(lang_tok)\n        assert (\n            idx != dic.unk_index\n        ), \"cannot find language token {} in the dictionary\".format(lang_tok)\n        return idx\n\n    def get_encoder_langtok(self, src_lang, tgt_lang, spec=None):\n        if spec is None:\n            return None\n        if spec and spec.startswith(\"src\"):\n            if src_lang is None:\n                return None\n            langtok = get_lang_tok(\n                lang=src_lang, lang_tok_style=self.args.lang_tok_style, spec=spec\n            )\n        else:\n            if tgt_lang is None:\n                return None\n            langtok = get_lang_tok(\n                lang=tgt_lang, lang_tok_style=self.args.lang_tok_style, spec=spec\n            )\n        return self.get_langtok_index(\n            langtok,\n            self.get_source_dictionary(src_lang)\n            if src_lang\n            else self.get_target_dictionary(tgt_lang),\n        )\n\n    def get_decoder_langtok(self, tgt_lang, spec=None):\n        if spec is None:\n            return None\n        langtok = get_lang_tok(\n            lang=tgt_lang, lang_tok_style=self.args.lang_tok_style, spec=spec\n        )\n        return self.get_langtok_index(langtok, self.get_target_dictionary(tgt_lang))\n\n    @classmethod\n    def load_data(cls, path, vdict, impl):\n        dataset = data_utils.load_indexed_dataset(path, vdict, impl)\n        return dataset\n\n    @classmethod\n    def split_exists(cls, split, src, tgt, lang, data_path, dataset_impl):\n        filename = os.path.join(data_path, \"{}.{}-{}.{}\".format(split, src, tgt, lang))\n        return indexed_dataset.dataset_exists(filename, impl=dataset_impl)\n\n    def load_lang_dataset(\n        self,\n        data_path,\n        split,\n        src,\n        src_dict,\n        tgt,\n        tgt_dict,\n        combine,\n        dataset_impl,\n        upsample_primary,\n        max_source_positions,\n        prepend_bos=False,\n        load_alignments=False,\n        truncate_source=False,\n    ):\n\n        src_datasets = []\n        tgt_datasets = []\n\n        for k in itertools.count():\n            split_k = split + (str(k) if k > 0 else \"\")\n\n            # infer langcode\n            if self.split_exists(split_k, src, tgt, src, data_path, dataset_impl):\n                prefix = os.path.join(data_path, \"{}.{}-{}.\".format(split_k, src, tgt))\n            elif self.split_exists(split_k, tgt, src, src, data_path, dataset_impl):\n                prefix = os.path.join(data_path, \"{}.{}-{}.\".format(split_k, tgt, src))\n            else:\n                if k > 0:\n                    break\n                else:\n                    logger.error(\n                        f\"Dataset not found: {data_path}, {split_k}, {src}, {tgt}\"\n                    )\n                    raise FileNotFoundError(\n                        \"Dataset not found: {} ({})\".format(split, data_path)\n                    )\n\n            src_dataset = self.load_data(prefix + src, src_dict, dataset_impl)\n            if truncate_source:\n                src_dataset = AppendTokenDataset(\n                    TruncateDataset(\n                        StripTokenDataset(src_dataset, src_dict.eos()),\n                        max_source_positions - 1,\n                    ),\n                    src_dict.eos(),\n                )\n            src_datasets.append(src_dataset)\n            tgt_datasets.append(self.load_data(prefix + tgt, tgt_dict, dataset_impl))\n\n            logger.info(\n                \"{} {} {}-{} {} examples\".format(\n                    data_path, split_k, src, tgt, len(src_datasets[-1])\n                )\n            )\n\n            if not combine:\n                break\n\n        assert len(src_datasets) == len(tgt_datasets)\n\n        if len(src_datasets) == 1:\n            src_dataset, tgt_dataset = src_datasets[0], tgt_datasets[0]\n        else:\n            sample_ratios = [1] * len(src_datasets)\n            sample_ratios[0] = upsample_primary\n            src_dataset = ConcatDataset(src_datasets, sample_ratios)\n            tgt_dataset = ConcatDataset(tgt_datasets, sample_ratios)\n\n        if prepend_bos:\n            assert hasattr(src_dict, \"bos_index\") and hasattr(tgt_dict, \"bos_index\")\n            src_dataset = PrependTokenDataset(src_dataset, src_dict.bos())\n            tgt_dataset = PrependTokenDataset(tgt_dataset, tgt_dict.bos())\n\n        align_dataset = None\n        if load_alignments:\n            align_path = os.path.join(\n                data_path, \"{}.align.{}-{}\".format(split, src, tgt)\n            )\n            if indexed_dataset.dataset_exists(align_path, impl=dataset_impl):\n                align_dataset = data_utils.load_indexed_dataset(\n                    align_path, None, dataset_impl\n                )\n\n        return src_dataset, tgt_dataset, align_dataset\n\n    def load_langpair_dataset(\n        self,\n        data_path,\n        split,\n        src,\n        src_dict,\n        tgt,\n        tgt_dict,\n        combine,\n        dataset_impl,\n        upsample_primary,\n        left_pad_source,\n        left_pad_target,\n        max_source_positions,\n        max_target_positions,\n        prepend_bos=False,\n        load_alignments=False,\n        truncate_source=False,\n        src_dataset_transform_func=lambda dataset: dataset,\n        tgt_dataset_transform_func=lambda dataset: dataset,\n        src_lang_id=None,\n        tgt_lang_id=None,\n        langpairs_sharing_datasets=None,\n    ):\n        norm_direction = \"-\".join(sorted([src, tgt]))\n        if langpairs_sharing_datasets is not None:\n            src_dataset = langpairs_sharing_datasets.get(\n                (data_path, split, norm_direction, src), \"NotInCache\"\n            )\n            tgt_dataset = langpairs_sharing_datasets.get(\n                (data_path, split, norm_direction, tgt), \"NotInCache\"\n            )\n            align_dataset = langpairs_sharing_datasets.get(\n                (data_path, split, norm_direction, src, tgt), \"NotInCache\"\n            )\n\n        # a hack: any one is not in cache, we need to reload them\n        if (\n            langpairs_sharing_datasets is None\n            or src_dataset == \"NotInCache\"\n            or tgt_dataset == \"NotInCache\"\n            or align_dataset == \"NotInCache\"\n            or split != getattr(self.args, \"train_subset\", None)\n        ):\n            # source and target datasets can be reused in reversed directions to save memory\n            # reversed directions of valid and test data will not share source and target datasets\n            src_dataset, tgt_dataset, align_dataset = self.load_lang_dataset(\n                data_path,\n                split,\n                src,\n                src_dict,\n                tgt,\n                tgt_dict,\n                combine,\n                dataset_impl,\n                upsample_primary,\n                max_source_positions=max_source_positions,\n                prepend_bos=prepend_bos,\n                load_alignments=load_alignments,\n                truncate_source=truncate_source,\n            )\n            src_dataset = src_dataset_transform_func(src_dataset)\n            tgt_dataset = tgt_dataset_transform_func(tgt_dataset)\n            if langpairs_sharing_datasets is not None:\n                langpairs_sharing_datasets[\n                    (data_path, split, norm_direction, src)\n                ] = src_dataset\n                langpairs_sharing_datasets[\n                    (data_path, split, norm_direction, tgt)\n                ] = tgt_dataset\n                langpairs_sharing_datasets[\n                    (data_path, split, norm_direction, src, tgt)\n                ] = align_dataset\n                if align_dataset is None:\n                    # no align data so flag the reverse direction as well in sharing\n                    langpairs_sharing_datasets[\n                        (data_path, split, norm_direction, tgt, src)\n                    ] = align_dataset\n        else:\n            logger.info(\n                f\"Reusing source and target datasets of [{split}] {tgt}-{src} for reversed direction: \"\n                f\"[{split}] {src}-{tgt}: src length={len(src_dataset)}; tgt length={len(tgt_dataset)}\"\n            )\n\n        return LanguagePairDataset(\n            src_dataset,\n            src_dataset.sizes,\n            src_dict,\n            tgt_dataset,\n            tgt_dataset.sizes if tgt_dataset is not None else None,\n            tgt_dict,\n            left_pad_source=left_pad_source,\n            left_pad_target=left_pad_target,\n            align_dataset=align_dataset,\n            src_lang_id=src_lang_id,\n            tgt_lang_id=tgt_lang_id,\n        )\n\n    def src_dataset_tranform_func(self, src_lang, tgt_lang, dataset, spec=None):\n        if self.args.lang_tok_replacing_bos_eos:\n            # it is handled by self.alter_dataset_langtok\n            # TODO: Unifiy with alter_dataset_langtok\n            return dataset\n        if spec is None:\n            return dataset\n        tok = self.get_encoder_langtok(src_lang, tgt_lang, spec)\n        if tok:\n            return PrependTokenDataset(dataset, tok)\n        return dataset\n\n    def tgt_dataset_tranform_func(self, source_lang, target_lang, dataset, spec=None):\n        if dataset is None:\n            # note that target dataset can be None during inference time\n            return None\n        if self.args.lang_tok_replacing_bos_eos:\n            # TODO: Unifiy with alter_dataset_langtok\n            # It is handled by self.alter_dataset_langtok.\n            # The complication in self.alter_dataset_langtok\n            # makes a unified framework difficult.\n            return dataset\n        # if not self.args.decoder_langtok:\n        if not spec:\n            return dataset\n        tok = self.get_decoder_langtok(target_lang, spec)\n        if tok:\n            return PrependTokenDataset(dataset, tok)\n        return dataset\n\n    def alter_dataset_langtok(\n        self,\n        lang_pair_dataset,\n        src_eos=None,\n        src_lang=None,\n        tgt_eos=None,\n        tgt_lang=None,\n        src_langtok_spec=None,\n        tgt_langtok_spec=None,\n    ):\n        if src_langtok_spec is None and tgt_langtok_spec is None:\n            return lang_pair_dataset\n\n        new_src_eos = None\n        if (\n            src_langtok_spec is not None\n            and src_eos is not None\n            and (src_lang is not None or tgt_lang is not None)\n        ):\n            new_src_eos = self.get_encoder_langtok(src_lang, tgt_lang, src_langtok_spec)\n        else:\n            src_eos = None\n\n        new_tgt_bos = None\n        if tgt_langtok_spec and tgt_eos is not None and tgt_lang is not None:\n            new_tgt_bos = self.get_decoder_langtok(tgt_lang, tgt_langtok_spec)\n        else:\n            tgt_eos = None\n\n        return TransformEosLangPairDataset(\n            lang_pair_dataset,\n            src_eos=src_eos,\n            new_src_eos=new_src_eos,\n            tgt_bos=tgt_eos,\n            new_tgt_bos=new_tgt_bos,\n        )\n\n    def load_a_dataset(\n        self,\n        split,\n        data_path,\n        src,\n        src_dict,\n        tgt,\n        tgt_dict,\n        combine,\n        prepend_bos=False,\n        langpairs_sharing_datasets=None,\n        data_category=None,\n        **extra_kwargs,\n    ):\n        dataset_impl = self.args.dataset_impl\n        upsample_primary = self.args.upsample_primary\n        left_pad_source = self.args.left_pad_source\n        left_pad_target = self.args.left_pad_target\n        max_source_positions = self.args.max_source_positions\n        max_target_positions = self.args.max_target_positions\n        load_alignments = self.args.load_alignments\n        truncate_source = self.args.truncate_source\n        src_dataset_transform_func = self.src_dataset_tranform_func\n        tgt_dataset_transform_func = self.tgt_dataset_tranform_func\n        enable_lang_ids = self.args.enable_lang_ids\n        lang_dictionary = self.lang_dict\n        src_langtok_spec, tgt_langtok_spec = extra_kwargs[\"langtok_spec\"]\n\n        src_langtok = self.get_encoder_langtok(src, tgt, src_langtok_spec)\n        tgt_langtok = self.get_decoder_langtok(tgt, tgt_langtok_spec)\n        logger.info(\n            f\"{data_category}:{src}-{tgt} src_langtok: {src_langtok}; tgt_langtok: {tgt_langtok}\"\n        )\n\n        langpair_ds = self.load_langpair_dataset(\n            data_path,\n            split,\n            src,\n            src_dict,\n            tgt,\n            tgt_dict,\n            combine,\n            dataset_impl,\n            upsample_primary,\n            left_pad_source,\n            left_pad_target,\n            max_source_positions,\n            max_target_positions,\n            prepend_bos,\n            load_alignments,\n            truncate_source,\n            src_dataset_transform_func=lambda dataset: src_dataset_transform_func(\n                src, tgt, dataset, src_langtok_spec\n            ),\n            tgt_dataset_transform_func=lambda dataset: tgt_dataset_transform_func(\n                src, tgt, dataset, tgt_langtok_spec\n            ),\n            src_lang_id=_lang_id(lang_dictionary, src)\n            if enable_lang_ids and lang_dictionary is not None\n            else None,\n            tgt_lang_id=_lang_id(lang_dictionary, tgt)\n            if enable_lang_ids and lang_dictionary is not None\n            else None,\n            langpairs_sharing_datasets=langpairs_sharing_datasets,\n        )\n        # TODO: handle modified lang toks for mined data and dae data\n        if self.args.lang_tok_replacing_bos_eos:\n            ds = self.alter_dataset_langtok(\n                langpair_ds,\n                src_eos=self.get_source_dictionary(src).eos()\n                if src\n                else self.get_target_dictionary(tgt).eos(),\n                src_lang=src,\n                tgt_eos=self.get_target_dictionary(tgt).eos(),\n                tgt_lang=tgt,\n                src_langtok_spec=src_langtok_spec,\n                tgt_langtok_spec=tgt_langtok_spec,\n            )\n        else:\n            ds = langpair_ds\n        return ds\n\n    def load_split_langpair_datasets(self, split, data_param_list):\n        datasets = []\n        langpairs_sharing_datasets = (\n            {} if self.args.enable_reservsed_directions_shared_datasets else None\n        )\n        for param in data_param_list:\n            ds = self.load_a_dataset(\n                split=split,\n                langpairs_sharing_datasets=langpairs_sharing_datasets,\n                **param,\n            )\n            datasets.append(ds)\n        return datasets\n\n    def get_data_paths_and_lang_pairs(self, split):\n        datapaths = {\"main\": self.args.data}\n        lang_pairs = {\"main\": self.lang_pairs}\n        if split == getattr(self.args, \"train_subset\", None):\n            # only training data can have extra data and extra language pairs\n            if self.args.extra_data:\n                extra_datapaths = self.args.extra_data\n                datapaths.update(extra_datapaths)\n            if self.args.extra_lang_pairs:\n                extra_lang_pairs = {\n                    k: v.split(\",\") for k, v in self.args.extra_lang_pairs.items()\n                }\n                lang_pairs.update(extra_lang_pairs)\n        return datapaths, lang_pairs\n\n    @classmethod\n    def get_dataset_key(cls, data_category, src, tgt):\n        return f\"{data_category}:{src}-{tgt}\"\n\n    @classmethod\n    def _get_shard_num_dict(cls, split, paths):\n        shards = defaultdict(int)\n        for path in paths:\n            files = PathManager.ls(path)\n            directions = set()\n            for f in files:\n                if f.startswith(split) and f.endswith(\".idx\"):\n                    # idx files of the form \"{split}.{src}-{tgt}.{lang}.idx\"\n                    direction = f.split(\".\")[-3]\n                    directions.add(direction)\n            for direction in directions:\n                shards[direction] += 1\n        return shards\n\n    def get_split_num_data_shards(self, split):\n        if split in self._num_shards_dict:\n            return self._num_shards_dict[split]\n        num_shards_dict = {}\n        data_paths, lang_pairs = self.get_data_paths_and_lang_pairs(split)\n\n        for data_category, paths in data_paths.items():\n            if data_category not in lang_pairs:\n                continue\n            paths = utils.split_paths(paths)\n            shards_dict = self._get_shard_num_dict(split, paths)\n            lang_dirs = [\n                lang_pair.split(\"-\") for lang_pair in lang_pairs[data_category]\n            ]\n            lang_dirs = [x if len(x) > 1 else (x[0], x[0]) for x in lang_dirs]\n            for src, tgt in lang_dirs:\n                key = self.get_dataset_key(data_category, src, tgt)\n                if \"mono_\" in data_category:\n                    # monolingual data requires tgt only\n                    assert src is None or src == tgt, (\n                        f\"error: src={src}, \"\n                        f\"tgt={tgt} for data_category={data_category}\"\n                    )\n                    num_shards_dict[key] = shards_dict[tgt]\n                else:\n                    if f\"{src}-{tgt}\" in shards_dict:\n                        num_shards_dict[key] = shards_dict[f\"{src}-{tgt}\"]\n                    elif f\"{tgt}-{src}\" in shards_dict:\n                        # follow the fairseq tradition to use reversed direction data if it is not available\n                        num_shards_dict[key] = shards_dict[f\"{tgt}-{src}\"]\n        self._num_shards_dict[split] = num_shards_dict\n        logger.info(f\"[{split}] num of shards: {num_shards_dict}\")\n        return num_shards_dict\n\n    @classmethod\n    def get_shard_id(cls, num_shards, epoch, shard_epoch=None):\n        shard = epoch if shard_epoch is None else shard_epoch\n        shard = (shard - 1) % num_shards\n        return shard\n\n    def get_split_data_path(self, paths, epoch, shard_epoch, num_shards):\n        path = paths[self.get_shard_id(num_shards, epoch, shard_epoch)]\n        return path\n\n    def get_split_data_param_list(self, split, epoch, shard_epoch=None):\n        # TODO: to extend with extra datasets and keys and loop over different shard data paths\n        param_list = []\n        data_paths, lang_pairs = self.get_data_paths_and_lang_pairs(split)\n        logger.info(f\"langtoks settings: {self.args.langtoks}\")\n        split_num_shards_dict = self.get_split_num_data_shards(split)\n        for data_category, paths in data_paths.items():\n            if data_category not in lang_pairs:\n                continue\n            paths = utils.split_paths(paths)\n            assert len(paths) > 0\n            if len(paths) > 1:\n                self._has_sharded_data = True\n            if split != getattr(self.args, \"train_subset\", None):\n                # if not training data set, use the first shard for valid and test\n                paths = paths[:1]\n\n            if data_category in self.args.langtoks:\n                lang_tok_spec = self.args.langtoks[data_category]\n            else:\n                # default to None\n                lang_tok_spec = (None, None)\n\n            # infer langcode\n            lang_dirs = [\n                lang_pair.split(\"-\") for lang_pair in lang_pairs[data_category]\n            ]\n            lang_dirs = [x if len(x) > 1 else (x[0], x[0]) for x in lang_dirs]\n            for src, tgt in lang_dirs:\n                assert src is not None or data_category == \"mono_dae\", (\n                    f\"error: src={src}, \" f\"tgt={tgt} for data_category={data_category}\"\n                )\n                # logger.info(f\"preparing param for {data_category}: {src} - {tgt}\")\n                key = self.get_dataset_key(data_category, src, tgt)\n                data_path = self.get_split_data_path(\n                    paths, epoch, shard_epoch, split_num_shards_dict[key]\n                )\n                param_list.append(\n                    {\n                        \"key\": key,\n                        \"data_path\": data_path,\n                        \"split\": split,\n                        \"src\": src,\n                        \"src_dict\": self.get_source_dictionary(src)\n                        if src and data_category != \"mono_dae\"\n                        else None,\n                        \"tgt\": tgt,\n                        \"tgt_dict\": self.get_target_dictionary(tgt),\n                        \"data_category\": data_category,\n                        \"langtok_spec\": lang_tok_spec,\n                    }\n                )\n        return param_list\n\n    def get_train_dataset_sizes(\n        self, data_param_list, datasets, epoch, shard_epoch=None\n    ):\n        num_shards = [\n            self.get_split_num_data_shards(param[\"split\"])[param[\"key\"]]\n            for param in data_param_list\n        ]\n        data_sizes = []\n        for (key, d), num_shard in zip(datasets, num_shards):\n            my_data_sizes = self._training_data_sizes[key]\n            shard_ind = self.get_shard_id(num_shard, epoch, shard_epoch)\n            if shard_ind not in my_data_sizes:\n                my_data_sizes[shard_ind] = len(d)\n            known_size = max(my_data_sizes.values())\n            data_sizes.append(\n                # If we don't know the data size of the shard yet,\n                # use the the max known data size to approximate.\n                # Note that we preprocess shards by a designated shard size\n                # and put any remaining data at the end into the last shard so\n                # the max shard size approximation is almost correct before loading\n                # the last shard; after loading the last shard, it will have the\n                # exact data sizes of the whole data size.\n                (key, sum(my_data_sizes.get(i, known_size) for i in range(num_shard)))\n            )\n        logger.info(\n            f\"estimated total data sizes of all shards used in sampling ratios: {data_sizes}. \"\n            \"Note that if the data a shard has not been loaded yet, use the max known data size to approximate\"\n        )\n        return [s for _, s in data_sizes]\n\n    def get_train_sampling_ratios(\n        self, data_param_list, datasets, epoch=1, shard_epoch=None\n    ):\n        data_sizes = self.get_train_dataset_sizes(\n            data_param_list, datasets, epoch, shard_epoch\n        )\n        sampling_func = self.sampling_method.sampling_method_selector()\n        sample_ratios = sampling_func(data_sizes) if sampling_func is not None else None\n        return sample_ratios\n\n    def get_sampling_ratios(self, data_param_list, datasets, epoch, shard_epoch=None):\n        if self.args.sampling_weights_from_file:\n            weights = load_sampling_weights(self.args.sampling_weights_from_file)\n            sample_ratios = [weights[k] for k, _ in datasets]\n            logger.info(\n                \"| ignoring --sampling-weights when loadding sampling weights \"\n                f\"from file {self.args.sampling_weights_from_file}\"\n            )\n        elif self.args.sampling_weights:\n            sample_ratios = [self.args.sampling_weights[k] for k, _ in datasets]\n        else:\n            sample_ratios = self.get_train_sampling_ratios(\n                data_param_list, datasets, epoch, shard_epoch\n            )\n\n        if sample_ratios is not None:\n            logger.info(\n                \"| Upsample ratios: {}\".format(\n                    list(zip(map(lambda x: x[\"key\"], data_param_list), sample_ratios))\n                )\n            )\n            assert len(sample_ratios) == len(datasets)\n        return sample_ratios\n\n    def load_split_datasets(\n        self, split, training, epoch=1, combine=False, shard_epoch=None, **kwargs\n    ):\n        data_param_list = self.get_split_data_param_list(\n            split, epoch, shard_epoch=shard_epoch\n        )\n        langpairs_sharing_datasets = (\n            {} if self.args.enable_reservsed_directions_shared_datasets else None\n        )\n        datasets = [\n            (\n                param[\"key\"],\n                self.load_a_dataset(\n                    combine=combine,\n                    langpairs_sharing_datasets=langpairs_sharing_datasets,\n                    **param,\n                ),\n            )\n            for param in data_param_list\n        ]\n        return datasets, data_param_list\n\n    def load_into_concat_dataset(self, split, datasets, data_param_list):\n        if self.args.lang_tok_replacing_bos_eos:\n            # TODO: to investigate why TransformEosLangPairDataset doesn't work with ConcatDataset\n            return SampledMultiDataset(\n                OrderedDict(datasets),\n                sampling_ratios=None,\n                eval_key=None,\n                collate_format=CollateFormat.single,\n                virtual_size=None,\n                split=split,\n            )\n        return ConcatDataset([d for _, d in datasets])\n\n    def load_sampled_multi_epoch_dataset(\n        self, split, training, epoch=0, combine=False, shard_epoch=None, **kwargs\n    ):\n        datasets, data_param_list = self.load_split_datasets(\n            split, training, epoch, combine, shard_epoch=shard_epoch, **kwargs\n        )\n        if training and split == getattr(self.args, \"train_subset\", None):\n            sample_ratios = self.get_sampling_ratios(data_param_list, datasets, epoch)\n            return SampledMultiEpochDataset(\n                OrderedDict(datasets),\n                epoch=epoch,\n                shard_epoch=shard_epoch,\n                # valid and test datasets will be degenerate to concating datasets:\n                sampling_ratios=sample_ratios,\n                eval_key=None,\n                collate_format=CollateFormat.single,\n                virtual_size=self.args.virtual_data_size,\n                split=split,\n                virtual_epoch_size=self.args.virtual_epoch_size,\n                # if not using lang_tok altering, simplified to use the same collater\n                shared_collater=self._shared_collater(),\n            )\n        else:\n            return self.load_into_concat_dataset(split, datasets, data_param_list)\n\n    def load_sampled_multi_dataset(\n        self, split, training, epoch=0, combine=False, shard_epoch=None, **kwargs\n    ):\n        datasets, data_param_list = self.load_split_datasets(\n            split, training, epoch, combine, shard_epoch=shard_epoch, **kwargs\n        )\n        if training and split == getattr(self.args, \"train_subset\", None):\n            sample_ratios = self.get_sampling_ratios(data_param_list, datasets, epoch)\n            return SampledMultiDataset(\n                OrderedDict(datasets),\n                epoch=epoch,\n                # valid and test datasets will be degerate to concating datasets:\n                sampling_ratios=sample_ratios,\n                eval_key=None,\n                collate_format=CollateFormat.single,\n                virtual_size=self.args.virtual_data_size,\n                split=split,\n                # if not using lang_tok altering, simplified to use the same collater\n                shared_collater=self._shared_collater(),\n            )\n        else:\n            return self.load_into_concat_dataset(split, datasets, data_param_list)\n\n    def load_dataset(\n        self, split, training, epoch=0, combine=False, shard_epoch=None, **kwargs\n    ):\n        if self.args.virtual_epoch_size is None:\n            return self.load_sampled_multi_dataset(\n                split, training, epoch, combine, shard_epoch, **kwargs\n            )\n        else:\n            return self.load_sampled_multi_epoch_dataset(\n                split, training, epoch, combine, shard_epoch, **kwargs\n            )\n"
  },
  {
    "path": "fairseq/data/multilingual/multilingual_utils.py",
    "content": "from enum import Enum\nfrom typing import Dict, List, Optional, Sequence\n\nimport torch\nfrom fairseq.data import Dictionary\n\n\nclass EncoderLangtok(Enum):\n    \"\"\"\n    Prepend to the beginning of source sentence either the\n    source or target language token. (src/tgt).\n    \"\"\"\n\n    src = \"src\"\n    tgt = \"tgt\"\n\n\nclass LangTokSpec(Enum):\n    main = \"main\"\n    mono_dae = \"mono_dae\"\n\n\nclass LangTokStyle(Enum):\n    multilingual = \"multilingual\"\n    mbart = \"mbart\"\n\n\n@torch.jit.export\ndef get_lang_tok(\n    lang: str, lang_tok_style: str, spec: str = LangTokSpec.main.value\n) -> str:\n    # TOKEN_STYLES can't be defined outside this fn since it needs to be\n    # TorchScriptable.\n    TOKEN_STYLES: Dict[str, str] = {\n        LangTokStyle.mbart.value: \"[{}]\",\n        LangTokStyle.multilingual.value: \"__{}__\",\n    }\n\n    if spec.endswith(\"dae\"):\n        lang = f\"{lang}_dae\"\n    elif spec.endswith(\"mined\"):\n        lang = f\"{lang}_mined\"\n    style = TOKEN_STYLES[lang_tok_style]\n    return style.format(lang)\n\n\ndef augment_dictionary(\n    dictionary: Dictionary,\n    language_list: List[str],\n    lang_tok_style: str,\n    langtoks_specs: Sequence[str] = (LangTokSpec.main.value,),\n    extra_data: Optional[Dict[str, str]] = None,\n) -> None:\n    for spec in langtoks_specs:\n        for language in language_list:\n            dictionary.add_symbol(\n                get_lang_tok(lang=language, lang_tok_style=lang_tok_style, spec=spec)\n            )\n\n    if lang_tok_style == LangTokStyle.mbart.value or (\n        extra_data is not None and LangTokSpec.mono_dae.value in extra_data\n    ):\n        dictionary.add_symbol(\"<mask>\")\n"
  },
  {
    "path": "fairseq/data/multilingual/sampled_multi_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport datetime\nimport hashlib\nimport logging\nimport time\nfrom bisect import bisect_right\nfrom collections import OrderedDict, defaultdict\nfrom enum import Enum\nfrom typing import List\n\nimport numpy as np\nimport torch\n\nfrom fairseq.data import FairseqDataset, data_utils\nfrom fairseq.distributed import utils as distributed_utils\n\n\ndef get_time_gap(s, e):\n    return (\n        datetime.datetime.fromtimestamp(e) - datetime.datetime.fromtimestamp(s)\n    ).__str__()\n\n\nlogger = logging.getLogger(__name__)\n\n\ndef default_virtual_size_func(datasets, ratios, max_scale_up=1.5):\n    sizes = [len(d) for d in datasets]\n    if ratios is None:\n        return sum(sizes)\n    largest_idx = np.argmax(sizes)\n    largest_r = ratios[largest_idx]\n    largest_s = sizes[largest_idx]\n    # set virtual sizes relative to the largest dataset\n    virtual_sizes = [(r / largest_r) * largest_s for r in ratios]\n    vsize = sum(virtual_sizes)\n    max_size = sum(sizes) * max_scale_up\n    return int(vsize if vsize < max_size else max_size)\n\n\nclass CollateFormat(Enum):\n    single = 1\n    ordered_dict = 2\n\n\nclass SampledMultiDataset(FairseqDataset):\n    \"\"\"Samples from multiple sub-datasets according to given sampling ratios.\n    Args:\n        datasets (\n            List[~torch.utils.data.Dataset]\n            or OrderedDict[str, ~torch.utils.data.Dataset]\n        ): datasets\n        sampling_ratios (List[float]): list of probability of each dataset to be sampled\n            (default: None, which corresponds to concatenating all dataset together).\n        seed (int): RNG seed to use (default: 2).\n        epoch (int): starting epoch number (default: 1).\n        eval_key (str, optional): a key used at evaluation time that causes\n            this instance to pass-through batches from *datasets[eval_key]*.\n        collate_format (CollateFormat):  collater output format, either CollateFormat.ordered_dict or\n            CollateFormat.single (default: CollateFormat.single) where CollateFormat.single configures\n            the collater to output batches of data mixed from all sub-datasets,\n            and CollateFormat.ordered_dict configures the collater to output a dictionary of batches indexed by keys\n            of sub-datasets.\n            Note that not all sub-datasets will present in a single batch in both formats.\n        virtual_size (int, or callable): the expected virtual size of the dataset (default: default_virtual_size_func).\n        split (str): the split of the data, e.g. 'train', 'valid' or 'test'.\n        shared_collater (bool): whether or not to all sub-datasets have the same collater.\n        shuffle (bool): whether or not to shuffle data (default: True).\n    \"\"\"\n\n    def __init__(\n        self,\n        datasets,\n        sampling_ratios=None,\n        seed=2,\n        epoch=1,\n        eval_key=None,\n        collate_format=CollateFormat.single,\n        virtual_size=default_virtual_size_func,\n        split=\"\",\n        shared_collater=False,\n        shuffle=True,\n    ):\n        super().__init__()\n        self.shared_collater = shared_collater\n        self.shuffle = shuffle\n\n        if isinstance(datasets, OrderedDict):\n            self.keys = list(datasets.keys())\n            datasets = list(datasets.values())\n        elif isinstance(datasets, List):\n            self.keys = list(range(len(datasets)))\n        else:\n            raise AssertionError()\n        self.datasets = datasets\n        self.split = split\n\n        self.eval_key = eval_key\n        if self.eval_key is not None:\n            self.collate_format = CollateFormat.single\n        else:\n            self.collate_format = collate_format\n\n        self.seed = seed\n        self._cur_epoch = None\n\n        self.cumulated_sizes = None\n        # self.datasets[k][self._cur_indices[i]] is the data item i in this sampled dataset\n        # namely, data item i is sampled from the kth sub-dataset self.datasets[k]\n        # where self.cumulated_sizes[k-1] <= i < self.cumulated_sizes[k]\n        self._cur_indices = None\n\n        self._sizes = None\n        self.virtual_size_per_dataset = None\n        # caching properties\n        self._reset_cached_properties()\n        self.setup_sampling(sampling_ratios, virtual_size)\n        self.set_epoch(epoch)\n\n    def _clean_if_not_none(self, var_list):\n        for v in var_list:\n            if v is not None:\n                del v\n\n    def _reset_cached_properties(self):\n        self._clean_if_not_none([self._sizes, self._cur_indices])\n        self._sizes = None\n        self._cur_indices = None\n\n    def setup_sampling(self, sample_ratios, virtual_size):\n        sizes = [len(d) for d in self.datasets]\n        if sample_ratios is None:\n            # default back to concating datasets\n            self.sample_ratios = None\n            self.virtual_size = sum(sizes)\n        else:\n            if not isinstance(sample_ratios, np.ndarray):\n                sample_ratios = np.array(sample_ratios)\n            self.sample_ratios = sample_ratios\n            virtual_size = (\n                default_virtual_size_func if virtual_size is None else virtual_size\n            )\n            self.virtual_size = (\n                virtual_size(self.datasets, self.sample_ratios)\n                if callable(virtual_size)\n                else virtual_size\n            )\n\n    def adjust_sampling(self, epoch, sampling_ratios, virtual_size):\n        if sampling_ratios is not None:\n            sampling_ratios = self._sync_sample_ratios(sampling_ratios)\n            self.setup_sampling(sampling_ratios, virtual_size)\n\n    def _sync_sample_ratios(self, ratios):\n        # in case the ratios are not precisely the same across processes\n        # also to ensure every procresses update the ratios in the same pace\n        ratios = torch.DoubleTensor(ratios)\n        if torch.distributed.is_initialized():\n            if torch.cuda.is_available():\n                distributed_utils.all_reduce(\n                    ratios.cuda(), group=distributed_utils.get_data_parallel_group()\n                )\n            else:\n                distributed_utils.all_reduce(\n                    ratios, group=distributed_utils.get_data_parallel_group()\n                )\n            ret = ratios.cpu()\n            ret = ret.numpy()\n        return ret\n\n    def random_choice_in_dataset(self, rng, dataset, choice_size):\n        if hasattr(dataset, \"random_choice_in_dataset\"):\n            return dataset.random_choice_in_dataset(rng, choice_size)\n        dataset_size = len(dataset)\n        return rng.choice(\n            dataset_size, choice_size, replace=(choice_size > dataset_size)\n        )\n\n    def get_virtual_indices(self, rng, datasets, sample_ratios, virtual_size):\n        def get_counts(sample_ratios):\n            counts = np.array([virtual_size * r for r in sample_ratios], dtype=np.int64)\n            diff = virtual_size - counts.sum()\n            assert diff >= 0\n            # due to round-offs, the size might not match the desired sizes\n            if diff > 0:\n                dataset_indices = rng.choice(\n                    len(sample_ratios), size=diff, p=sample_ratios\n                )\n                for i in dataset_indices:\n                    counts[i] += 1\n            return counts\n\n        def get_in_dataset_indices(datasets, sizes, sample_ratios):\n            counts = get_counts(sample_ratios)\n            # uniformally sample desired counts for each dataset\n            # if the desired counts are large, sample with replacement:\n            indices = [\n                self.random_choice_in_dataset(rng, d, c)\n                for c, d in zip(counts, datasets)\n            ]\n            return indices\n\n        sizes = [len(d) for d in datasets]\n        if sample_ratios is None:\n            # default back to concating datasets\n            in_dataset_indices = [list(range(s)) for s in sizes]\n            virtual_sizes_per_dataset = sizes\n        else:\n            ratios = sample_ratios / sample_ratios.sum()\n            in_dataset_indices = get_in_dataset_indices(datasets, sizes, ratios)\n            virtual_sizes_per_dataset = [len(d) for d in in_dataset_indices]\n        virtual_sizes_per_dataset = np.array(virtual_sizes_per_dataset, np.int64)\n        cumulative_sizes = np.cumsum(virtual_sizes_per_dataset)\n        assert sum(virtual_sizes_per_dataset) == virtual_size\n        assert cumulative_sizes[-1] == virtual_size\n        if virtual_size < sum(sizes):\n            logger.warning(\n                f\"virtual data size ({virtual_size}) is less than real data size ({sum(sizes)}).\"\n                \" If virtual size << real data size, there could be data coverage issue.\"\n            )\n        in_dataset_indices = np.hstack(in_dataset_indices)\n        return in_dataset_indices, cumulative_sizes, virtual_sizes_per_dataset\n\n    def _get_dataset_and_index(self, index):\n        i = bisect_right(self.cumulated_sizes, index)\n        return i, self._cur_indices[index]\n\n    def __getitem__(self, index):\n        # self.__getitem__(index) returns self.datasets[k][self._cur_indices[index]]\n        # where k satisfies self.cumulated_sizes[k - 1] <= k < self.cumulated_sizes[k]\n        ds_idx, ds_sample_idx = self._get_dataset_and_index(index)\n        ret = (ds_idx, self.datasets[ds_idx][ds_sample_idx])\n        return ret\n\n    def num_tokens(self, index):\n        return self.sizes[index].max()\n\n    def num_tokens_vec(self, indices):\n        sizes_vec = self.sizes[np.array(indices)]\n        # max across all dimensions but first one\n        return np.amax(sizes_vec, axis=tuple(range(1, len(sizes_vec.shape))))\n\n    def size(self, index):\n        return self.sizes[index]\n\n    def __len__(self):\n        return self.virtual_size\n\n    def collater(self, samples, **extra_args):\n        \"\"\"Merge a list of samples to form a mini-batch.\"\"\"\n        if len(samples) == 0:\n            return None\n        if self.collate_format == \"ordered_dict\":\n            collect_samples = [[] for _ in range(len(self.datasets))]\n            for (i, sample) in samples:\n                collect_samples[i].append(sample)\n            batch = OrderedDict(\n                [\n                    (self.keys[i], dataset.collater(collect_samples[i]))\n                    for i, (key, dataset) in enumerate(zip(self.keys, self.datasets))\n                    if len(collect_samples[i]) > 0\n                ]\n            )\n        elif self.shared_collater:\n            batch = self.datasets[0].collater([s for _, s in samples])\n        else:\n            samples_dict = defaultdict(list)\n            pad_to_length = (\n                defaultdict(int)\n                if \"pad_to_length\" not in extra_args\n                else extra_args[\"pad_to_length\"]\n            )\n            for ds_idx, s in samples:\n                pad_to_length[\"source\"] = max(\n                    pad_to_length[\"source\"], s[\"source\"].size(0)\n                )\n                if s[\"target\"] is not None:\n                    pad_to_length[\"target\"] = max(\n                        pad_to_length[\"target\"], s[\"target\"].size(0)\n                    )\n                samples_dict[ds_idx].append(s)\n            batches = [\n                self.datasets[i].collater(samples_dict[i], pad_to_length=pad_to_length)\n                for i in range(len(self.datasets))\n                if len(samples_dict[i]) > 0\n            ]\n\n            def straight_data(tensors):\n                batch = torch.cat(tensors, dim=0)\n                return batch\n\n            src_lengths = straight_data(\n                [b[\"net_input\"][\"src_lengths\"] for b in batches]\n            )\n            src_lengths, sort_order = src_lengths.sort(descending=True)\n\n            def straight_order(tensors):\n                batch = straight_data(tensors)\n                return batch.index_select(0, sort_order)\n\n            batch = {\n                \"id\": straight_order([b[\"id\"] for b in batches]),\n                \"nsentences\": sum(b[\"nsentences\"] for b in batches),\n                \"ntokens\": sum(b[\"ntokens\"] for b in batches),\n                \"net_input\": {\n                    \"src_tokens\": straight_order(\n                        [b[\"net_input\"][\"src_tokens\"] for b in batches]\n                    ),\n                    \"src_lengths\": src_lengths,\n                },\n                \"target\": straight_order([b[\"target\"] for b in batches])\n                if batches[0][\"target\"] is not None\n                else None,\n            }\n            if \"prev_output_tokens\" in batches[0][\"net_input\"]:\n                batch[\"net_input\"][\"prev_output_tokens\"] = straight_order(\n                    [b[\"net_input\"][\"prev_output_tokens\"] for b in batches]\n                )\n            if \"src_lang_id\" in batches[0][\"net_input\"]:\n                batch[\"net_input\"][\"src_lang_id\"] = straight_order(\n                    [b[\"net_input\"][\"src_lang_id\"] for b in batches]\n                )\n            if \"tgt_lang_id\" in batches[0]:\n                batch[\"tgt_lang_id\"] = straight_order(\n                    [b[\"tgt_lang_id\"] for b in batches]\n                )\n        return batch\n\n    @property\n    def sizes(self):\n        if self._sizes is not None:\n            return self._sizes\n        start_time = time.time()\n        in_sub_dataset_indices = [\n            self._cur_indices[\n                0 if i == 0 else self.cumulated_sizes[i - 1] : self.cumulated_sizes[i]\n            ]\n            for i in range(len(self.datasets))\n        ]\n        sub_dataset_sizes = [\n            d.sizes[indices]\n            for d, indices in zip(self.datasets, in_sub_dataset_indices)\n        ]\n        self._sizes = np.vstack(sub_dataset_sizes)\n        logger.info(f\"sizes() calling time: {get_time_gap(start_time, time.time())}\")\n        return self._sizes\n\n    def ordered_indices(self):\n        if self.shuffle:\n            indices = np.random.permutation(len(self))\n        else:\n            indices = np.arange(len(self))\n\n        sizes = self.sizes\n        tgt_sizes = sizes[:, 1] if len(sizes.shape) > 0 and sizes.shape[1] > 1 else None\n        src_sizes = (\n            sizes[:, 0] if len(sizes.shape) > 0 and sizes.shape[1] > 1 else sizes\n        )\n\n        # sort by target length, then source length\n        if tgt_sizes is not None:\n            indices = indices[np.argsort(tgt_sizes[indices], kind=\"mergesort\")]\n        sort_indices = indices[np.argsort(src_sizes[indices], kind=\"mergesort\")]\n        return sort_indices\n\n    def prefetch(self, indices):\n        prefetch_indices = [[] for _ in range(len(self.datasets))]\n        for i in indices:\n            ds_idx, ds_sample_idx = self._get_dataset_and_index(i)\n            prefetch_indices[ds_idx].append(ds_sample_idx)\n        for i in range(len(prefetch_indices)):\n            self.datasets[i].prefetch(prefetch_indices[i])\n\n    @property\n    def can_reuse_epoch_itr_across_epochs(self):\n        return False\n\n    def set_epoch(self, epoch):\n        super().set_epoch(epoch)\n        if epoch == self._cur_epoch:\n            # re-enter so return\n            return\n        for d in self.datasets:\n            if hasattr(d, \"set_epoch\"):\n                d.set_epoch(epoch)\n        self._cur_epoch = epoch\n        self._establish_virtual_datasets()\n\n    def _establish_virtual_datasets(self):\n        if self.sample_ratios is None and self._cur_indices is not None:\n            # not a samping dataset, no need to resample if indices are already established\n            return\n        self._reset_cached_properties()\n\n        start_time = time.time()\n        # Generate a weighted sample of indices as a function of the\n        # random seed and the current epoch.\n        rng = np.random.RandomState(\n            [\n                int(\n                    hashlib.sha1(\n                        str(self.__class__.__name__).encode(\"utf-8\")\n                    ).hexdigest(),\n                    16,\n                )\n                % (2**32),\n                self.seed % (2**32),  # global seed\n                self._cur_epoch,  # epoch index,\n            ]\n        )\n        self._clean_if_not_none(\n            [self.cumulated_sizes, self.virtual_size_per_dataset, self._sizes]\n        )\n        self._sizes = None\n\n        indices, cumulated_sizes, virtual_size_per_dataset = self.get_virtual_indices(\n            rng, self.datasets, self.sample_ratios, self.virtual_size\n        )\n        self._cur_indices = indices\n        self.cumulated_sizes = cumulated_sizes\n        self.virtual_size_per_dataset = virtual_size_per_dataset\n\n        raw_sizes = [len(d) for d in self.datasets]\n        sampled_sizes = self.virtual_size_per_dataset\n        logger.info(\n            f\"[{self.split}] Raw sizes: {str(dict(zip(self.keys, raw_sizes)))}; \"\n            f\"raw total size: {sum(raw_sizes)}\"\n        )\n        logger.info(\n            f\"[{self.split}] Resampled sizes: {str(dict(zip(self.keys, sampled_sizes)))}; \"\n            f\"resampled total size: {sum(sampled_sizes)}\"\n        )\n        if self.sample_ratios is not None:\n            logger.info(\n                f\"[{self.split}] Upsampling ratios: {str(dict(zip(self.keys, self.sample_ratios)))}\"\n            )\n        else:\n            logger.info(f\"[{self.split}] A concat dataset\")\n        logger.info(\n            f\"[{self.split}] virtual dataset established time: {get_time_gap(start_time, time.time())}\"\n        )\n\n    def filter_indices_by_size(self, indices, max_sizes):\n        \"\"\"Filter a list of sample indices. Remove those that are longer\n            than specified in max_sizes.\n\n        Args:\n            indices (np.array): original array of sample indices\n            max_sizes (int or list[int] or tuple[int]): max sample size,\n                can be defined separately for src and tgt (then list or tuple)\n\n        Returns:\n            np.array: filtered sample array\n            list: list of removed indices\n        \"\"\"\n        sizes = self.sizes\n        tgt_sizes = sizes[:, 1] if len(sizes.shape) > 0 and sizes.shape[1] > 1 else None\n        src_sizes = (\n            sizes[:, 0] if len(sizes.shape) > 0 and sizes.shape[1] > 1 else sizes\n        )\n\n        return data_utils.filter_paired_dataset_indices_by_size(\n            src_sizes, tgt_sizes, indices, max_sizes\n        )\n"
  },
  {
    "path": "fairseq/data/multilingual/sampled_multi_epoch_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport hashlib\nimport logging\nimport math\n\nimport numpy as np\n\nfrom fairseq.data import SampledMultiDataset\n\nfrom .sampled_multi_dataset import CollateFormat, default_virtual_size_func\n\nlogger = logging.getLogger(__name__)\n\n\nclass SampledMultiEpochDataset(SampledMultiDataset):\n    \"\"\"Samples from multiple sub-datasets according to sampling ratios\n       using virtual epoch sizes to speed up dataloading.\n    Args:\n        datasets (\n            List[~torch.utils.data.Dataset]\n            or OrderedDict[str, ~torch.utils.data.Dataset]\n        ): datasets\n        sampling_ratios (List[float]): list of probability of each dataset to be sampled\n            (default: None, which corresponds to concating all dataset together).\n        seed (int): RNG seed to use (default: 2).\n        epoch (int): starting epoch number (default: 1).\n        eval_key (str, optional): a key used at evaluation time that causes\n            this instance to pass-through batches from *datasets[eval_key]*.\n        collate_format (CollateFormat):  collater output format, either CollateFormat.ordered_dict or\n            CollateFormat.single (default: CollateFormat.single) where CollateFormat.single configures\n            the collater to output batches of data mixed from all sub-datasets,\n            and CollateFormat.ordered_dict configures the collater to output a dictionary of batches indexed by keys\n            of sub-datasets.\n            Note that not all sub-datasets will present in a single batch in both formats.\n        virtual_size (int, or callable): the expected virtual size of the dataset (default: default_virtual_size_func).\n        split (str): the split of the data, e.g. 'train', 'valid' or 'test'.\n        virtual_epoch_size (int): virtual epoch size, the dataset will go through the data by\n            this virtual epoch size one by one to speed up data loading, e.g. indicing and filtering\n            can be performed whenever a virtual epoch is loaded without waiting for the whole dataset to be loaded.\n        shared_collater (bool): whether or not to all sub-datasets have the same collater.\n        shard_epoch (int): the real epoch number for shard selection.\n        shuffle (bool): whether or not to shuffle data (default: True).\n    \"\"\"\n\n    def __init__(\n        self,\n        datasets,\n        sampling_ratios=None,\n        seed=2,\n        epoch=1,\n        eval_key=None,\n        collate_format=CollateFormat.single,\n        virtual_size=default_virtual_size_func,\n        split=\"\",\n        virtual_epoch_size=None,\n        shared_collater=False,\n        shard_epoch=1,\n        shuffle=True,\n    ):\n        self.virtual_epoch_size = virtual_epoch_size\n        self._current_epoch_start_index = None\n        self._random_global_indices = None\n        self.shard_epoch = shard_epoch if shard_epoch is not None else 1\n        self.load_next_shard = None\n        self._epoch_sizes = None\n        super().__init__(\n            datasets=datasets,\n            sampling_ratios=sampling_ratios,\n            seed=seed,\n            epoch=epoch,\n            eval_key=eval_key,\n            collate_format=collate_format,\n            virtual_size=virtual_size,\n            split=split,\n            shared_collater=shared_collater,\n            shuffle=shuffle,\n        )\n\n    def _setup(self, epoch):\n        self.virtual_epoch_size = (\n            self.virtual_epoch_size\n            if self.virtual_epoch_size is not None\n            else self.virtual_size\n        )\n        if self.virtual_epoch_size > self.virtual_size:\n            logger.warning(\n                f\"virtual epoch size {self.virtual_epoch_size} \"\n                f\"is greater than virtual dataset size {self.virtual_size}\"\n            )\n            self.virtual_epoch_size = self.virtual_size\n        self.num_virtual_epochs = math.ceil(self.virtual_size / self.virtual_epoch_size)\n        self._current_epoch_start_index = self._get_epoch_start_index(epoch)\n        logger.info(\n            f\"virtual epoch size {self.virtual_epoch_size}; virtual dataset size {self.virtual_size}\"\n        )\n\n    def _map_epoch_index_to_global(self, index):\n        index = self._current_epoch_start_index + index\n        # add randomness\n        return self._random_global_indices[index]\n\n    @property\n    def sizes(self):\n        if self._epoch_sizes is not None:\n            return self._epoch_sizes\n        _sizes = super().sizes\n        indices = self._random_global_indices[\n            self._current_epoch_start_index : self._current_epoch_start_index\n            + len(self)\n        ]\n        self._epoch_sizes = _sizes[indices]\n        # del super()._sizes to save memory\n        del self._sizes\n        self._sizes = None\n        return self._epoch_sizes\n\n    def _get_dataset_and_index(self, index):\n        i = self._map_epoch_index_to_global(index)\n        return super()._get_dataset_and_index(i)\n\n    def __len__(self):\n        return (\n            self.virtual_epoch_size\n            if self._current_epoch_start_index + self.virtual_epoch_size\n            < self.virtual_size\n            else self.virtual_size - self._current_epoch_start_index\n        )\n\n    def set_epoch(self, epoch):\n        if self._current_epoch_start_index is None:\n            # initializing epoch idnices of a virtual dataset\n            self._setup(epoch)\n            self._next_virtual_epoch(epoch)\n        else:\n            # working on already intialized epoch indices\n            if epoch == self._cur_epoch:\n                # re-enter so return\n                return\n            self._next_virtual_epoch(epoch)\n\n    def _get_epoch_start_index(self, epoch):\n        assert epoch >= 1  # fairseq is using 1-based epoch everywhere\n        return ((epoch - 1) % self.num_virtual_epochs) * self.virtual_epoch_size\n\n    def _next_global_indices(self, epoch):\n        rng = np.random.RandomState(\n            [\n                int(\n                    hashlib.sha1(\n                        str(self.__class__.__name__).encode(\"utf-8\")\n                    ).hexdigest(),\n                    16,\n                )\n                % (2**32),\n                self.seed % (2**32),  # global seed\n                epoch,  # epoch index,\n            ]\n        )\n        del self._random_global_indices\n        self._random_global_indices = rng.choice(\n            self.virtual_size, self.virtual_size, replace=False\n        )\n        if self.load_next_shard is None:\n            self.load_next_shard = False\n        else:\n            # increase shard epoch for next loading\n            self.shard_epoch += 1\n            self.load_next_shard = True\n            logger.info(\n                \"to load next epoch/shard in next load_dataset: \"\n                f\"epoch={epoch}/shard_epoch={self.shard_epoch}\"\n            )\n\n    def _next_virtual_epoch(self, epoch):\n        index = self._get_epoch_start_index(epoch)\n        if index == 0 or self._random_global_indices is None:\n            # need to start from the beginning,\n            # so call super().set_epoch(epoch) to establish the global virtual indices\n            logger.info(\n                \"establishing a new set of global virtual indices for \"\n                f\"epoch={epoch}/shard_epoch={self.shard_epoch}\"\n            )\n            super().set_epoch(epoch)\n            self._next_global_indices(epoch)\n        else:\n            self._cur_epoch = epoch\n\n        # reset cache sizes and ordered_indices for the epoch after moving to a new epoch\n        self._clean_if_not_none(\n            [\n                self._epoch_sizes,\n            ]\n        )\n        self._epoch_sizes = None\n        self._current_epoch_start_index = index\n"
  },
  {
    "path": "fairseq/data/multilingual/sampling_method.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom typing import List\n\n\nlogger = logging.getLogger(__name__)\n\n\ndef uniform(dataset_sizes: List[int]):\n    return [1.0] * len(dataset_sizes)\n\n\ndef temperature_sampling(dataset_sizes, temp):\n    total_size = sum(dataset_sizes)\n    return [(size / total_size) ** (1.0 / temp) for size in dataset_sizes]\n\n\ndef make_temperature_sampling(temp=1.0):\n    def sampling_func(dataset_sizes):\n        return temperature_sampling(dataset_sizes, temp)\n\n    return sampling_func\n\n\ndef make_ratio_sampling(ratios):\n    def sampling_func(dataset_sizes):\n        return ratios\n\n    return sampling_func\n\n\nclass SamplingMethod:\n    @staticmethod\n    def add_arguments(parser):\n        parser.add_argument(\n            \"--sampling-method\",\n            choices=[\n                \"uniform\",\n                \"temperature\",\n                \"concat\",\n                \"RoundRobin\",\n            ],\n            type=str,\n            default=\"concat\",\n            help=\"The method to sample data per language pairs\",\n        )\n        parser.add_argument(\n            \"--sampling-temperature\",\n            default=1.5,\n            type=float,\n            help=\"only work with --sampling-method temperature\",\n        )\n\n    @staticmethod\n    def build_sampler(args, task):\n        return SamplingMethod(args, task)\n\n    def __init__(self, args, task):\n        self.args = args\n        self.task = task\n\n    def is_adaptive(self):\n        return False\n\n    def sampling_method_selector(self):\n        args = self.args\n        logger.info(f\"selected sampler: {args.sampling_method}\")\n        if args.sampling_method == \"uniform\":\n            return uniform\n        elif args.sampling_method == \"temperature\" or self.is_adaptive():\n            return make_temperature_sampling(float(args.sampling_temperature))\n        else:\n            # default to concating all data set together\n            return None\n"
  },
  {
    "path": "fairseq/data/nested_dictionary_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom collections import OrderedDict\n\nimport torch\nfrom torch.utils.data.dataloader import default_collate\n\nfrom . import FairseqDataset\n\n\ndef _flatten(dico, prefix=None):\n    \"\"\"Flatten a nested dictionary.\"\"\"\n    new_dico = OrderedDict()\n    if isinstance(dico, dict):\n        prefix = prefix + \".\" if prefix is not None else \"\"\n        for k, v in dico.items():\n            if v is None:\n                continue\n            new_dico.update(_flatten(v, prefix + k))\n    elif isinstance(dico, list):\n        for i, v in enumerate(dico):\n            new_dico.update(_flatten(v, prefix + \".[\" + str(i) + \"]\"))\n    else:\n        new_dico = OrderedDict({prefix: dico})\n    return new_dico\n\n\ndef _unflatten(dico):\n    \"\"\"Unflatten a flattened dictionary into a nested dictionary.\"\"\"\n    new_dico = OrderedDict()\n    for full_k, v in dico.items():\n        full_k = full_k.split(\".\")\n        node = new_dico\n        for k in full_k[:-1]:\n            if k.startswith(\"[\") and k.endswith(\"]\"):\n                k = int(k[1:-1])\n            if k not in node:\n                node[k] = OrderedDict()\n            node = node[k]\n        node[full_k[-1]] = v\n    return new_dico\n\n\nclass NestedDictionaryDataset(FairseqDataset):\n    def __init__(self, defn, sizes=None):\n        super().__init__()\n        self.defn = _flatten(defn)\n        self.sizes = [sizes] if not isinstance(sizes, (list, tuple)) else sizes\n\n        first = None\n        for v in self.defn.values():\n            if not isinstance(\n                v,\n                (\n                    FairseqDataset,\n                    torch.utils.data.Dataset,\n                ),\n            ):\n                raise ValueError(\"Expected Dataset but found: {}\".format(v.__class__))\n            first = first or v\n            if len(v) > 0:\n                assert len(v) == len(first), \"dataset lengths must match\"\n\n        self._len = len(first)\n\n    def __getitem__(self, index):\n        return OrderedDict((k, ds[index]) for k, ds in self.defn.items())\n\n    def __len__(self):\n        return self._len\n\n    def collater(self, samples):\n        \"\"\"Merge a list of samples to form a mini-batch.\n\n        Args:\n            samples (List[dict]): samples to collate\n\n        Returns:\n            dict: a mini-batch suitable for forwarding with a Model\n        \"\"\"\n        if len(samples) == 0:\n            return {}\n        sample = OrderedDict()\n        for k, ds in self.defn.items():\n            try:\n                sample[k] = ds.collater([s[k] for s in samples])\n            except NotImplementedError:\n                sample[k] = default_collate([s[k] for s in samples])\n        return _unflatten(sample)\n\n    def num_tokens(self, index):\n        \"\"\"Return the number of tokens in a sample. This value is used to\n        enforce ``--max-tokens`` during batching.\"\"\"\n        return max(s[index] for s in self.sizes)\n\n    def size(self, index):\n        \"\"\"Return an example's size as a float or tuple. This value is used when\n        filtering a dataset with ``--max-positions``.\"\"\"\n        if len(self.sizes) == 1:\n            return self.sizes[0][index]\n        else:\n            return (s[index] for s in self.sizes)\n\n    @property\n    def supports_prefetch(self):\n        \"\"\"Whether this dataset supports prefetching.\"\"\"\n        return any(ds.supports_prefetch for ds in self.defn.values())\n\n    def prefetch(self, indices):\n        \"\"\"Prefetch the data required for this epoch.\"\"\"\n        for ds in self.defn.values():\n            if getattr(ds, \"supports_prefetch\", False):\n                ds.prefetch(indices)\n\n    @property\n    def can_reuse_epoch_itr_across_epochs(self):\n        return all(ds.can_reuse_epoch_itr_across_epochs for ds in self.defn.values())\n\n    def set_epoch(self, epoch):\n        super().set_epoch(epoch)\n        for ds in self.defn.values():\n            ds.set_epoch(epoch)\n"
  },
  {
    "path": "fairseq/data/noising.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\nfrom fairseq.data import data_utils\n\n\nclass WordNoising(object):\n    \"\"\"Generate a noisy version of a sentence, without changing words themselves.\"\"\"\n\n    def __init__(self, dictionary, bpe_cont_marker=\"@@\", bpe_end_marker=None):\n        self.dictionary = dictionary\n        self.bpe_end = None\n        if bpe_cont_marker:\n            self.bpe_end = np.array(\n                [\n                    not self.dictionary[i].endswith(bpe_cont_marker)\n                    for i in range(len(self.dictionary))\n                ]\n            )\n        elif bpe_end_marker:\n            self.bpe_end = np.array(\n                [\n                    self.dictionary[i].endswith(bpe_end_marker)\n                    for i in range(len(self.dictionary))\n                ]\n            )\n\n        self.get_word_idx = (\n            self._get_bpe_word_idx if self.bpe_end is not None else self._get_token_idx\n        )\n\n    def noising(self, x, lengths, noising_prob=0.0):\n        raise NotImplementedError()\n\n    def _get_bpe_word_idx(self, x):\n        \"\"\"\n        Given a list of BPE tokens, for every index in the tokens list,\n        return the index of the word grouping that it belongs to.\n        For example, for input x corresponding to [\"how\", \"are\", \"y@@\", \"ou\"],\n        return [[0], [1], [2], [2]].\n        \"\"\"\n        # x: (T x B)\n        bpe_end = self.bpe_end[x]\n\n        if x.size(0) == 1 and x.size(1) == 1:\n            # Special case when we only have one word in x. If x = [[N]],\n            # bpe_end is a scalar (bool) instead of a 2-dim array of bools,\n            # which makes the sum operation below fail.\n            return np.array([[0]])\n\n        # do a reduce front sum to generate word ids\n        word_idx = bpe_end[::-1].cumsum(0)[::-1]\n        word_idx = word_idx.max(0)[None, :] - word_idx\n        return word_idx\n\n    def _get_token_idx(self, x):\n        \"\"\"\n        This is to extend noising functions to be able to apply to non-bpe\n        tokens, e.g. word or characters.\n        \"\"\"\n        x = torch.t(x)\n        word_idx = np.array([range(len(x_i)) for x_i in x])\n        return np.transpose(word_idx)\n\n\nclass WordDropout(WordNoising):\n    \"\"\"Randomly drop input words. If not passing blank_idx (default is None),\n    then dropped words will be removed. Otherwise, it will be replaced by the\n    blank_idx.\"\"\"\n\n    def __init__(\n        self,\n        dictionary,\n        default_dropout_prob=0.1,\n        bpe_cont_marker=\"@@\",\n        bpe_end_marker=None,\n    ):\n        super().__init__(dictionary, bpe_cont_marker, bpe_end_marker)\n        self.default_dropout_prob = default_dropout_prob\n\n    def noising(self, x, lengths, dropout_prob=None, blank_idx=None):\n        if dropout_prob is None:\n            dropout_prob = self.default_dropout_prob\n        # x: (T x B), lengths: B\n        if dropout_prob == 0:\n            return x, lengths\n\n        assert 0 < dropout_prob < 1\n\n        # be sure to drop entire words\n        word_idx = self.get_word_idx(x)\n        sentences = []\n        modified_lengths = []\n        for i in range(lengths.size(0)):\n            # Since dropout probabilities need to apply over non-pad tokens,\n            # it is not trivial to generate the keep mask without consider\n            # input lengths; otherwise, this could be done outside the loop\n\n            # We want to drop whole words based on word_idx grouping\n            num_words = max(word_idx[:, i]) + 1\n\n            # ith example: [x0, x1, ..., eos, pad, ..., pad]\n            # We should only generate keep probs for non-EOS tokens. Thus if the\n            # input sentence ends in EOS, the last word idx is not included in\n            # the dropout mask generation and we append True to always keep EOS.\n            # Otherwise, just generate the dropout mask for all word idx\n            # positions.\n            has_eos = x[lengths[i] - 1, i] == self.dictionary.eos()\n            if has_eos:  # has eos?\n                keep = np.random.rand(num_words - 1) >= dropout_prob\n                keep = np.append(keep, [True])  # keep EOS symbol\n            else:\n                keep = np.random.rand(num_words) >= dropout_prob\n\n            words = x[: lengths[i], i].tolist()\n\n            # TODO: speed up the following loop\n            # drop words from the input according to keep\n            new_s = [\n                w if keep[word_idx[j, i]] else blank_idx for j, w in enumerate(words)\n            ]\n            new_s = [w for w in new_s if w is not None]\n            # we need to have at least one word in the sentence (more than the\n            # start / end sentence symbols)\n            if len(new_s) <= 1:\n                # insert at beginning in case the only token left is EOS\n                # EOS should be at end of list.\n                new_s.insert(0, words[np.random.randint(0, len(words))])\n            assert len(new_s) >= 1 and (\n                not has_eos  # Either don't have EOS at end or last token is EOS\n                or (len(new_s) >= 2 and new_s[-1] == self.dictionary.eos())\n            ), \"New sentence is invalid.\"\n            sentences.append(new_s)\n            modified_lengths.append(len(new_s))\n        # re-construct input\n        modified_lengths = torch.LongTensor(modified_lengths)\n        modified_x = torch.LongTensor(\n            modified_lengths.max(), modified_lengths.size(0)\n        ).fill_(self.dictionary.pad())\n        for i in range(modified_lengths.size(0)):\n            modified_x[: modified_lengths[i], i].copy_(torch.LongTensor(sentences[i]))\n\n        return modified_x, modified_lengths\n\n\nclass WordShuffle(WordNoising):\n    \"\"\"Shuffle words by no more than k positions.\"\"\"\n\n    def __init__(\n        self,\n        dictionary,\n        default_max_shuffle_distance=3,\n        bpe_cont_marker=\"@@\",\n        bpe_end_marker=None,\n    ):\n        super().__init__(dictionary, bpe_cont_marker, bpe_end_marker)\n        self.default_max_shuffle_distance = 3\n\n    def noising(self, x, lengths, max_shuffle_distance=None):\n        if max_shuffle_distance is None:\n            max_shuffle_distance = self.default_max_shuffle_distance\n        # x: (T x B), lengths: B\n        if max_shuffle_distance == 0:\n            return x, lengths\n\n        # max_shuffle_distance < 1 will return the same sequence\n        assert max_shuffle_distance > 1\n\n        # define noise word scores\n        noise = np.random.uniform(\n            0,\n            max_shuffle_distance,\n            size=(x.size(0), x.size(1)),\n        )\n        noise[0] = -1  # do not move start sentence symbol\n        # be sure to shuffle entire words\n        word_idx = self.get_word_idx(x)\n        x2 = x.clone()\n        for i in range(lengths.size(0)):\n            length_no_eos = lengths[i]\n            if x[lengths[i] - 1, i] == self.dictionary.eos():\n                length_no_eos = lengths[i] - 1\n            # generate a random permutation\n            scores = word_idx[:length_no_eos, i] + noise[word_idx[:length_no_eos, i], i]\n            # ensure no reordering inside a word\n            scores += 1e-6 * np.arange(length_no_eos.item())\n            permutation = scores.argsort()\n            # shuffle words\n            x2[:length_no_eos, i].copy_(\n                x2[:length_no_eos, i][torch.from_numpy(permutation)]\n            )\n        return x2, lengths\n\n\nclass UnsupervisedMTNoising(WordNoising):\n    \"\"\"\n    Implements the default configuration for noising in UnsupervisedMT\n    (github.com/facebookresearch/UnsupervisedMT)\n    \"\"\"\n\n    def __init__(\n        self,\n        dictionary,\n        max_word_shuffle_distance,\n        word_dropout_prob,\n        word_blanking_prob,\n        bpe_cont_marker=\"@@\",\n        bpe_end_marker=None,\n    ):\n        super().__init__(dictionary)\n        self.max_word_shuffle_distance = max_word_shuffle_distance\n        self.word_dropout_prob = word_dropout_prob\n        self.word_blanking_prob = word_blanking_prob\n\n        self.word_dropout = WordDropout(\n            dictionary=dictionary,\n            bpe_cont_marker=bpe_cont_marker,\n            bpe_end_marker=bpe_end_marker,\n        )\n        self.word_shuffle = WordShuffle(\n            dictionary=dictionary,\n            bpe_cont_marker=bpe_cont_marker,\n            bpe_end_marker=bpe_end_marker,\n        )\n\n    def noising(self, x, lengths):\n        # 1. Word Shuffle\n        noisy_src_tokens, noisy_src_lengths = self.word_shuffle.noising(\n            x=x,\n            lengths=lengths,\n            max_shuffle_distance=self.max_word_shuffle_distance,\n        )\n        # 2. Word Dropout\n        noisy_src_tokens, noisy_src_lengths = self.word_dropout.noising(\n            x=noisy_src_tokens,\n            lengths=noisy_src_lengths,\n            dropout_prob=self.word_dropout_prob,\n        )\n        # 3. Word Blanking\n        noisy_src_tokens, noisy_src_lengths = self.word_dropout.noising(\n            x=noisy_src_tokens,\n            lengths=noisy_src_lengths,\n            dropout_prob=self.word_blanking_prob,\n            blank_idx=self.dictionary.unk(),\n        )\n\n        return noisy_src_tokens\n\n\nclass NoisingDataset(torch.utils.data.Dataset):\n    def __init__(\n        self,\n        src_dataset,\n        src_dict,\n        seed,\n        noiser=None,\n        noising_class=UnsupervisedMTNoising,\n        **kwargs\n    ):\n        \"\"\"\n        Wrap a :class:`~torch.utils.data.Dataset` and apply noise to the\n        samples based on the supplied noising configuration.\n\n        Args:\n            src_dataset (~torch.utils.data.Dataset): dataset to wrap.\n                to build self.src_dataset --\n                a LanguagePairDataset with src dataset as the source dataset and\n                None as the target dataset. Should NOT have padding so that\n                src_lengths are accurately calculated by language_pair_dataset\n                collate function.\n                We use language_pair_dataset here to encapsulate the tgt_dataset\n                so we can re-use the LanguagePairDataset collater to format the\n                batches in the structure that SequenceGenerator expects.\n            src_dict (~fairseq.data.Dictionary): source dictionary\n            seed (int): seed to use when generating random noise\n            noiser (WordNoising): a pre-initialized :class:`WordNoising`\n                instance. If this is None, a new instance will be created using\n                *noising_class* and *kwargs*.\n            noising_class (class, optional): class to use to initialize a\n                default :class:`WordNoising` instance.\n            kwargs (dict, optional): arguments to initialize the default\n                :class:`WordNoising` instance given by *noiser*.\n        \"\"\"\n        self.src_dataset = src_dataset\n        self.src_dict = src_dict\n        self.seed = seed\n        self.noiser = (\n            noiser\n            if noiser is not None\n            else noising_class(\n                dictionary=src_dict,\n                **kwargs,\n            )\n        )\n        self.sizes = src_dataset.sizes\n\n    def __getitem__(self, index):\n        \"\"\"\n        Returns a single noisy sample. Multiple samples are fed to the collater\n        create a noising dataset batch.\n        \"\"\"\n        src_tokens = self.src_dataset[index]\n        src_lengths = torch.LongTensor([len(src_tokens)])\n        src_tokens = src_tokens.unsqueeze(0)\n\n        # Transpose src tokens to fit expected shape of x in noising function\n        # (batch size, sequence length) -> (sequence length, batch size)\n        src_tokens_t = torch.t(src_tokens)\n\n        with data_utils.numpy_seed(self.seed + index):\n            noisy_src_tokens = self.noiser.noising(src_tokens_t, src_lengths)\n\n        # Transpose back to expected src_tokens format\n        # (sequence length, 1) -> (1, sequence length)\n        noisy_src_tokens = torch.t(noisy_src_tokens)\n        return noisy_src_tokens[0]\n\n    def __len__(self):\n        \"\"\"\n        The length of the noising dataset is the length of src.\n        \"\"\"\n        return len(self.src_dataset)\n\n    @property\n    def supports_prefetch(self):\n        return self.src_dataset.supports_prefetch\n\n    def prefetch(self, indices):\n        if self.src_dataset.supports_prefetch:\n            self.src_dataset.prefetch(indices)\n"
  },
  {
    "path": "fairseq/data/num_samples_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import FairseqDataset\n\n\nclass NumSamplesDataset(FairseqDataset):\n    def __getitem__(self, index):\n        return 1\n\n    def __len__(self):\n        return 0\n\n    def collater(self, samples):\n        return sum(samples)\n"
  },
  {
    "path": "fairseq/data/numel_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\n\nfrom . import BaseWrapperDataset\n\n\nclass NumelDataset(BaseWrapperDataset):\n    def __init__(self, dataset, reduce=False):\n        super().__init__(dataset)\n        self.reduce = reduce\n\n    def __getitem__(self, index):\n        item = self.dataset[index]\n        if torch.is_tensor(item):\n            return torch.numel(item)\n        else:\n            return np.size(item)\n\n    def __len__(self):\n        return len(self.dataset)\n\n    def collater(self, samples):\n        if self.reduce:\n            return sum(samples)\n        else:\n            return torch.tensor(samples)\n"
  },
  {
    "path": "fairseq/data/offset_tokens_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import BaseWrapperDataset\n\n\nclass OffsetTokensDataset(BaseWrapperDataset):\n    def __init__(self, dataset, offset):\n        super().__init__(dataset)\n        self.offset = offset\n\n    def __getitem__(self, idx):\n        return self.dataset[idx] + self.offset\n"
  },
  {
    "path": "fairseq/data/pad_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.data import data_utils\n\nfrom . import BaseWrapperDataset\n\n\nclass PadDataset(BaseWrapperDataset):\n    def __init__(self, dataset, pad_idx, left_pad, pad_length=None):\n        super().__init__(dataset)\n        self.pad_idx = pad_idx\n        self.left_pad = left_pad\n        self.pad_length = pad_length\n\n    def collater(self, samples):\n        return data_utils.collate_tokens(\n            samples, self.pad_idx, left_pad=self.left_pad, pad_to_length=self.pad_length\n        )\n\n\nclass LeftPadDataset(PadDataset):\n    def __init__(self, dataset, pad_idx):\n        super().__init__(dataset, pad_idx, left_pad=True)\n\n\nclass RightPadDataset(PadDataset):\n    def __init__(self, dataset, pad_idx):\n        super().__init__(dataset, pad_idx, left_pad=False)\n"
  },
  {
    "path": "fairseq/data/padding_mask_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\nfrom fairseq.data import data_utils\nfrom . import BaseWrapperDataset\n\n\nclass PaddingMaskDataset(BaseWrapperDataset):\n    def __init__(self, dataset, left_pad, pad_length=None):\n        super().__init__(dataset)\n        self.left_pad = left_pad\n        self.pad_length = pad_length\n\n    def __getitem__(self, index):\n        item = self.dataset[index]\n        return torch.zeros_like(item).bool()\n\n    def __len__(self):\n        return len(self.dataset)\n\n    def collater(self, samples):\n        return data_utils.collate_tokens(\n            samples, True, left_pad=self.left_pad, pad_to_length=self.pad_length\n        )\n\n\nclass LeftPaddingMaskDataset(PaddingMaskDataset):\n    def __init__(self, dataset):\n        super().__init__(dataset, left_pad=True)\n\n\nclass RightPaddingMaskDataset(PaddingMaskDataset):\n    def __init__(self, dataset):\n        super().__init__(dataset, left_pad=False)\n"
  },
  {
    "path": "fairseq/data/plasma_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport hashlib\nimport json\nimport subprocess\nimport tempfile\nfrom typing import Hashable\n\ntry:\n    import pyarrow.plasma as plasma\n\n    PYARROW_AVAILABLE = True\nexcept ImportError:\n    plasma = None\n    PYARROW_AVAILABLE = False\n\n\nclass PlasmaArray:\n    \"\"\"\n    Wrapper around numpy arrays that automatically moves the data to shared\n    memory upon serialization. This is particularly helpful when passing numpy\n    arrays through multiprocessing, so that data is not unnecessarily\n    duplicated or pickled.\n    \"\"\"\n\n    def __init__(self, array):\n        super().__init__()\n        self.array = array\n        self.disable = array.nbytes < 134217728  # disable for arrays <128MB\n        self.object_id = None\n        self.path = None\n\n        # variables with underscores shouldn't be pickled\n        self._client = None\n        self._server = None\n        self._server_tmp = None\n        self._plasma = None\n\n    @property\n    def plasma(self):\n        if self._plasma is None and not self.disable:\n            self._plasma = plasma\n        return self._plasma\n\n    def start_server(self):\n        if self.plasma is None or self._server is not None:\n            return\n        assert self.object_id is None\n        assert self.path is None\n        self._server_tmp = tempfile.NamedTemporaryFile()\n        self.path = self._server_tmp.name\n        self._server = subprocess.Popen(\n            [\"plasma_store\", \"-m\", str(int(1.05 * self.array.nbytes)), \"-s\", self.path]\n        )\n\n    @property\n    def client(self):\n        if self._client is None:\n            assert self.path is not None\n            self._client = self.plasma.connect(self.path, num_retries=200)\n        return self._client\n\n    def __getstate__(self):\n        \"\"\"Called on pickle load\"\"\"\n        if self.plasma is None:\n            return self.__dict__\n        if self.object_id is None:\n            self.start_server()\n            self.object_id = self.client.put(self.array)\n        state = self.__dict__.copy()\n        del state[\"array\"]\n        state[\"_client\"] = None\n        state[\"_server\"] = None\n        state[\"_server_tmp\"] = None\n        state[\"_plasma\"] = None\n        return state\n\n    def __setstate__(self, state):\n        \"\"\"Called on pickle save\"\"\"\n        self.__dict__.update(state)\n        if self.plasma is None:\n            return\n        self.array = self.client.get(self.object_id)\n\n    def __del__(self):\n        if self._server is not None:\n            self._server.kill()\n            self._server = None\n            self._server_tmp.close()\n            self._server_tmp = None\n\n\nDEFAULT_PLASMA_PATH = \"/tmp/plasma\"\n\n\nclass PlasmaView:\n    \"\"\"Interface to write and read from shared memory. Whereas PlasmaArray writes to plasma on serialization,\n    PlasmaView writes to shared memory on instantiation.\"\"\"\n\n    def __init__(self, array, split_path: str, hash_data: Hashable, plasma_path=None):\n        \"\"\"\n        Args:\n            array: numpy array to store. This can be read with ``PlasmaView().array``\n            split_path: the path whence the data was read, used for hashing\n            hash_data: other metadata about the array that can be used to create a unique key.\n                as of writing, the 3 callers in ``TokenBlockDataset`` use::\n\n                    hash_data = ((block_size, document_sep_len, str(break_mode), len(dataset)), 0|1|2)\n\n\n        \"\"\"\n        assert PYARROW_AVAILABLE\n        assert split_path is not None\n        if plasma_path is None:\n            plasma_path = DEFAULT_PLASMA_PATH\n\n        self.path = plasma_path\n        self.split_path = split_path\n        self._client = None  # Initialize lazily for pickle. plasma clients should not be deep copied or serialized.\n        self._n = None\n\n        self.object_id = self.get_object_id(self.split_path, hash_data)\n        try:\n            self.client.put(array, object_id=self.object_id)\n        except plasma.PlasmaObjectExists:\n            pass\n\n    @property\n    def client(self):\n        if self._client is None:\n            self._client = plasma.connect(self.path, num_retries=200)\n        return self._client\n\n    @property\n    def array(self):\n        \"\"\"Fetch a read only view of an np.array, stored in plasma.\"\"\"\n        ret = self.client.get(self.object_id)\n        return ret\n\n    @staticmethod\n    def get_object_id(split_path: str, hash_data: Hashable):\n        \"\"\"Returns plasma.ObjectID from hashing split_path and object_num.\"\"\"\n        hash = hashlib.blake2b(bytes(split_path, \"utf-8\"), digest_size=20)\n        harg = json.dumps(hash_data).encode(\"utf-8\")\n        hash.update(harg)\n        return plasma.ObjectID(hash.digest())\n\n    def __getstate__(self):\n        \"\"\"Called on pickle save\"\"\"\n        self.disconnect()\n        state = self.__dict__.copy()\n        assert state[\"_client\"] is None\n        assert \"object_id\" in state\n        return state\n\n    def __setstate__(self, state):\n        \"\"\"Called on pickle load\"\"\"\n        self.__dict__.update(state)\n\n    def __del__(self):\n        self.disconnect()\n\n    def disconnect(self):\n        if self._client is not None:\n            self._client.disconnect()\n            self._client = None\n\n    def __len__(self):\n        \"\"\"Save reads by caching len\"\"\"\n        if self._n is None:\n            self._n = len(self.array)\n        return self._n\n\n\nGB100 = (1024**3) * 100\n\n\nclass PlasmaStore:\n    def __init__(self, path=DEFAULT_PLASMA_PATH, nbytes: int = GB100):\n\n        self.server = self.start(path, nbytes)\n\n    def __del__(self):\n        self.server.kill()\n\n    @staticmethod\n    def start(path=DEFAULT_PLASMA_PATH, nbytes: int = GB100) -> subprocess.Popen:\n        if not PYARROW_AVAILABLE:\n            raise ImportError(\"please run pip install pyarrow to use --use_plasma_view\")\n        # best practice is to allocate more space than we need. The limitation seems to be the size of /dev/shm\n        _server = subprocess.Popen([\"plasma_store\", \"-m\", str(nbytes), \"-s\", path])\n        plasma.connect(path, num_retries=200)  # If we can't connect we fail immediately\n        return _server\n"
  },
  {
    "path": "fairseq/data/prepend_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\n\nfrom . import BaseWrapperDataset\n\n\nclass PrependDataset(BaseWrapperDataset):\n    def __init__(self, dataset, prepend_getter, ensure_first_token_is=None):\n        super().__init__(dataset)\n        self.prepend_getter = prepend_getter\n        self.ensure_first_token = ensure_first_token_is\n\n    def __getitem__(self, idx):\n        item = self.dataset[idx]\n        is_tuple = isinstance(item, tuple)\n        src = item[0] if is_tuple else item\n\n        assert self.ensure_first_token is None or src[0] == self.ensure_first_token\n        prepend_idx = self.prepend_getter(self.dataset, idx)\n        assert isinstance(prepend_idx, int)\n        src[0] = prepend_idx\n        item = tuple((src,) + item[1:]) if is_tuple else src\n        return item\n"
  },
  {
    "path": "fairseq/data/prepend_token_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\n\nfrom . import BaseWrapperDataset\n\n\nclass PrependTokenDataset(BaseWrapperDataset):\n    def __init__(self, dataset, token=None):\n        super().__init__(dataset)\n        self.token = token\n        if token is not None:\n            self._sizes = np.array(dataset.sizes) + 1\n        else:\n            self._sizes = dataset.sizes\n\n    def __getitem__(self, idx):\n        item = self.dataset[idx]\n        if self.token is not None:\n            item = torch.cat([item.new([self.token]), item])\n        return item\n\n    @property\n    def sizes(self):\n        return self._sizes\n\n    def num_tokens(self, index):\n        n = self.dataset.num_tokens(index)\n        if self.token is not None:\n            n += 1\n        return n\n\n    def size(self, index):\n        n = self.dataset.size(index)\n        if self.token is not None:\n            n += 1\n        return n\n"
  },
  {
    "path": "fairseq/data/raw_label_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\nfrom . import FairseqDataset\n\n\nclass RawLabelDataset(FairseqDataset):\n    def __init__(self, labels):\n        super().__init__()\n        self.labels = labels\n\n    def __getitem__(self, index):\n        return self.labels[index]\n\n    def __len__(self):\n        return len(self.labels)\n\n    def collater(self, samples):\n        return torch.tensor(samples)\n"
  },
  {
    "path": "fairseq/data/replace_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import BaseWrapperDataset\n\n\nclass ReplaceDataset(BaseWrapperDataset):\n    \"\"\"Replaces tokens found in the dataset by a specified replacement token\n\n    Args:\n        dataset (~torch.utils.data.Dataset): dataset to replace tokens in\n        replace_map(Dictionary[int,int]): map of token to replace -> replacement token\n        offsets (List[int]): do not replace tokens before (from left if pos, right if neg) this offset. should be\n        as many as the number of objects returned by the underlying dataset __getitem__ method.\n    \"\"\"\n\n    def __init__(self, dataset, replace_map, offsets):\n        super().__init__(dataset)\n        assert len(replace_map) > 0\n        self.replace_map = replace_map\n        self.offsets = offsets\n\n    def __getitem__(self, index):\n        item = self.dataset[index]\n        is_tuple = isinstance(item, tuple)\n        srcs = item if is_tuple else [item]\n\n        for offset, src in zip(self.offsets, srcs):\n            for k, v in self.replace_map.items():\n                src_off = src[offset:] if offset >= 0 else src[:offset]\n                src_off.masked_fill_(src_off == k, v)\n\n        item = srcs if is_tuple else srcs[0]\n        return item\n"
  },
  {
    "path": "fairseq/data/resampling_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nimport numpy as np\n\nfrom fairseq.data import BaseWrapperDataset, plasma_utils\n\nlogger = logging.getLogger(__name__)\n\n\nclass ResamplingDataset(BaseWrapperDataset):\n    \"\"\"Randomly samples from a given dataset at each epoch.\n\n    Sampling is done with or without replacement, depending on the \"replace\"\n    parameter.\n\n    Optionally, the epoch size can be rescaled. This is potentially desirable\n    to increase per-epoch coverage of the base dataset (since sampling with\n    replacement means that many items in the dataset will be left out). In the\n    case of sampling without replacement, size_ratio should be strictly less\n    than 1.\n\n    Args:\n        dataset (~torch.utils.data.Dataset): dataset on which to sample.\n        weights (List[float]): list of probability weights\n            (default: None, which corresponds to uniform sampling).\n        replace (bool): sampling mode; True for \"with replacement\", or False\n            for \"without replacement\" (default: True)\n        size_ratio (float): the ratio to subsample to; must be positive\n            (default: 1.0).\n        batch_by_size (bool): whether or not to batch by sequence length\n            (default: True).\n        seed (int): RNG seed to use (default: 0).\n        epoch (int): starting epoch number (default: 1).\n    \"\"\"\n\n    def __init__(\n        self,\n        dataset,\n        weights=None,\n        replace=True,\n        size_ratio=1.0,\n        batch_by_size=True,\n        seed=0,\n        epoch=1,\n    ):\n        super().__init__(dataset)\n\n        if weights is None:\n            self.weights = None\n\n        else:\n            assert len(weights) == len(dataset)\n            weights_arr = np.array(weights, dtype=np.float64)\n            weights_arr /= weights_arr.sum()\n            self.weights = plasma_utils.PlasmaArray(weights_arr)\n\n        self.replace = replace\n\n        assert size_ratio > 0.0\n        if not self.replace:\n            assert size_ratio < 1.0\n        self.size_ratio = float(size_ratio)\n        self.actual_size = np.ceil(len(dataset) * self.size_ratio).astype(int)\n\n        self.batch_by_size = batch_by_size\n        self.seed = seed\n\n        self._cur_epoch = None\n        self._cur_indices = None\n\n        self.set_epoch(epoch)\n\n    def __getitem__(self, index):\n        return self.dataset[self._cur_indices.array[index]]\n\n    def __len__(self):\n        return self.actual_size\n\n    @property\n    def sizes(self):\n        if isinstance(self.dataset.sizes, list):\n            return [s[self._cur_indices.array] for s in self.dataset.sizes]\n        return self.dataset.sizes[self._cur_indices.array]\n\n    def num_tokens(self, index):\n        return self.dataset.num_tokens(self._cur_indices.array[index])\n\n    def size(self, index):\n        return self.dataset.size(self._cur_indices.array[index])\n\n    def ordered_indices(self):\n        if self.batch_by_size:\n            order = [\n                np.arange(len(self)),\n                self.sizes,\n            ]  # No need to handle `self.shuffle == True`\n            return np.lexsort(order)\n        else:\n            return np.arange(len(self))\n\n    def prefetch(self, indices):\n        self.dataset.prefetch(self._cur_indices.array[indices])\n\n    @property\n    def can_reuse_epoch_itr_across_epochs(self):\n        return False\n\n    def set_epoch(self, epoch):\n        logger.debug(\"ResamplingDataset.set_epoch: {}\".format(epoch))\n        super().set_epoch(epoch)\n\n        if epoch == self._cur_epoch:\n            return\n\n        self._cur_epoch = epoch\n\n        # Generate a weighted sample of indices as a function of the\n        # random seed and the current epoch.\n\n        rng = np.random.RandomState(\n            [\n                42,  # magic number\n                self.seed % (2**32),  # global seed\n                self._cur_epoch,  # epoch index\n            ]\n        )\n        self._cur_indices = plasma_utils.PlasmaArray(\n            rng.choice(\n                len(self.dataset),\n                self.actual_size,\n                replace=self.replace,\n                p=(None if self.weights is None else self.weights.array),\n            )\n        )\n"
  },
  {
    "path": "fairseq/data/roll_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\nfrom . import BaseWrapperDataset\n\n\nclass RollDataset(BaseWrapperDataset):\n    def __init__(self, dataset, shifts):\n        super().__init__(dataset)\n        self.shifts = shifts\n\n    def __getitem__(self, index):\n        item = self.dataset[index]\n        return torch.roll(item, self.shifts)\n"
  },
  {
    "path": "fairseq/data/round_robin_zip_datasets.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom collections import OrderedDict\nfrom typing import Dict, Sequence\n\nimport numpy as np\n\nfrom . import FairseqDataset, LanguagePairDataset\n\nlogger = logging.getLogger(__name__)\n\n\nclass RoundRobinZipDatasets(FairseqDataset):\n    \"\"\"Zip multiple :class:`~fairseq.data.FairseqDataset` instances together.\n\n    Shorter datasets are repeated in a round-robin fashion to match the length\n    of the longest one.\n\n    Args:\n        datasets (Dict[~fairseq.data.FairseqDataset]): a dictionary of\n            :class:`~fairseq.data.FairseqDataset` instances.\n        eval_key (str, optional): a key used at evaluation time that causes\n            this instance to pass-through batches from *datasets[eval_key]*.\n    \"\"\"\n\n    def __init__(self, datasets, eval_key=None):\n        super().__init__()\n        if isinstance(datasets, dict):\n            datasets = OrderedDict(datasets)\n        assert isinstance(datasets, OrderedDict)\n        assert datasets, \"Can't make a RoundRobinZipDatasets out of nothing\"\n        for dataset in datasets.values():\n            assert isinstance(dataset, FairseqDataset)\n\n        self.datasets = datasets\n        self.eval_key = eval_key\n\n        self.longest_dataset_key = max(datasets, key=lambda k: len(datasets[k]))\n        self.longest_dataset = datasets[self.longest_dataset_key]\n        self._ordered_indices: Dict[str, Sequence[int]] = None\n\n    def _map_index(self, key, index):\n        assert (\n            self._ordered_indices is not None\n        ), \"Must call RoundRobinZipDatasets.ordered_indices() first\"\n        o = self._ordered_indices[key]\n        return o[index % len(o)]\n\n    def __getitem__(self, index):\n        if self.eval_key is None:\n            return OrderedDict(\n                [\n                    (key, dataset[self._map_index(key, index)])\n                    for key, dataset in self.datasets.items()\n                ]\n            )\n        else:\n            # at evaluation time it's useful to pass-through batches from a single key\n            return self.datasets[self.eval_key][self._map_index(self.eval_key, index)]\n\n    def __len__(self):\n        if self._ordered_indices is not None:\n            return len(self._ordered_indices[self.longest_dataset_key])\n        return len(self.longest_dataset)\n\n    def collater(self, samples):\n        \"\"\"Merge a list of samples to form a mini-batch.\"\"\"\n        if len(samples) == 0:\n            return None\n        if self.eval_key is None:\n            return OrderedDict(\n                [\n                    (key, dataset.collater([sample[key] for sample in samples]))\n                    for key, dataset in self.datasets.items()\n                ]\n            )\n        else:\n            # at evaluation time it's useful to pass-through batches from a single key\n            return self.datasets[self.eval_key].collater(samples)\n\n    def num_tokens(self, index):\n        \"\"\"Return an example's length (number of tokens), used for batching.\"\"\"\n        # TODO make it configurable whether to use max() or sum() here\n        return max(\n            dataset.num_tokens(self._map_index(key, index))\n            for key, dataset in self.datasets.items()\n        )\n\n    def size(self, index):\n        \"\"\"Return an example's size as a float or tuple. This value is used when\n        filtering a dataset with ``--max-positions``.\"\"\"\n        return {\n            key: dataset.size(self._map_index(key, index))\n            for key, dataset in self.datasets.items()\n        }\n\n    def ordered_indices(self):\n        \"\"\"Ordered indices for batching.\"\"\"\n        if self._ordered_indices is None:\n            # Call the underlying dataset's ordered_indices() here, so that we\n            # get the same random ordering as we would have from using the\n            # underlying sub-datasets directly.\n            self._ordered_indices = OrderedDict(\n                [\n                    (key, dataset.ordered_indices())\n                    for key, dataset in self.datasets.items()\n                ]\n            )\n        return np.arange(len(self))\n\n    def filter_indices_by_size(self, indices, max_positions=None):\n        \"\"\"\n        Filter each sub-dataset independently, then update the round robin to work\n        on the filtered sub-datasets.\n        \"\"\"\n\n        def _deep_until_language_pair(dataset):\n            if isinstance(dataset, LanguagePairDataset):\n                return dataset\n            if hasattr(dataset, \"tgt_dataset\"):\n                return _deep_until_language_pair(dataset.tgt_dataset)\n            if hasattr(dataset, \"dataset\"):\n                return _deep_until_language_pair(dataset.dataset)\n            raise Exception(f\"Don't know how to unwrap this dataset: {dataset}\")\n\n        if not isinstance(max_positions, dict):\n            max_positions = {k: max_positions for k in self.datasets.keys()}\n        ignored_some = False\n        for key, dataset in self.datasets.items():\n            dataset = _deep_until_language_pair(dataset)\n            self._ordered_indices[key], ignored = dataset.filter_indices_by_size(\n                self._ordered_indices[key], max_positions[key]\n            )\n            if len(ignored) > 0:\n                ignored_some = True\n                logger.warning(\n                    f\"{len(ignored)} samples from {key} have invalid sizes and will be skipped, \"\n                    f\"max_positions={max_positions[key]}, first few sample ids={ignored[:10]}\"\n                )\n        # Since we are modifying in place the _ordered_indices,\n        # it's not possible anymore to return valid ignored indices.\n        # Hopefully the extra debug information print above should be enough to debug.\n        # Ideally we would receive ignore_invalid_inputs so that we could have\n        # a proper error message.\n        return (np.arange(len(self)), [0] if ignored_some else [])\n\n    @property\n    def supports_prefetch(self):\n        return all(\n            getattr(dataset, \"supports_prefetch\", False)\n            for dataset in self.datasets.values()\n        )\n\n    def prefetch(self, indices):\n        for key, dataset in self.datasets.items():\n            dataset.prefetch([self._map_index(key, index) for index in indices])\n"
  },
  {
    "path": "fairseq/data/shorten_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nfrom fairseq.data import data_utils\n\nfrom . import BaseWrapperDataset\n\n\nclass TruncateDataset(BaseWrapperDataset):\n    \"\"\"Truncate a sequence by returning the first truncation_length tokens\"\"\"\n\n    def __init__(self, dataset, truncation_length):\n        super().__init__(dataset)\n        assert truncation_length is not None\n        self.truncation_length = truncation_length\n        self.dataset = dataset\n\n    def __getitem__(self, index):\n        item = self.dataset[index]\n        item_len = item.size(0)\n        if item_len > self.truncation_length:\n            item = item[: self.truncation_length]\n        return item\n\n    @property\n    def sizes(self):\n        return np.minimum(self.dataset.sizes, self.truncation_length)\n\n    def __len__(self):\n        return len(self.dataset)\n\n\nclass RandomCropDataset(TruncateDataset):\n    \"\"\"Truncate a sequence by returning a random crop of truncation_length tokens\"\"\"\n\n    def __init__(self, dataset, truncation_length, seed=1):\n        super().__init__(dataset, truncation_length)\n        self.seed = seed\n        self.epoch = 0\n\n    @property\n    def can_reuse_epoch_itr_across_epochs(self):\n        return True  # only the crop changes, not item sizes\n\n    def set_epoch(self, epoch, **unused):\n        super().set_epoch(epoch)\n        self.epoch = epoch\n\n    def __getitem__(self, index):\n        with data_utils.numpy_seed(self.seed, self.epoch, index):\n            item = self.dataset[index]\n            item_len = item.size(0)\n            excess = item_len - self.truncation_length\n            if excess > 0:\n                start_idx = np.random.randint(0, excess)\n                item = item[start_idx : start_idx + self.truncation_length]\n            return item\n\n\ndef maybe_shorten_dataset(\n    dataset,\n    split,\n    shorten_data_split_list,\n    shorten_method,\n    tokens_per_sample,\n    seed,\n):\n    truncate_split = (\n        split in shorten_data_split_list.split(\",\") or len(shorten_data_split_list) == 0\n    )\n    if shorten_method == \"truncate\" and truncate_split:\n        dataset = TruncateDataset(dataset, tokens_per_sample)\n    elif shorten_method == \"random_crop\" and truncate_split:\n        dataset = RandomCropDataset(dataset, tokens_per_sample, seed)\n    return dataset\n"
  },
  {
    "path": "fairseq/data/sort_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\n\nfrom . import BaseWrapperDataset\n\n\nclass SortDataset(BaseWrapperDataset):\n    def __init__(self, dataset, sort_order):\n        super().__init__(dataset)\n        if not isinstance(sort_order, (list, tuple)):\n            sort_order = [sort_order]\n        self.sort_order = sort_order\n\n        assert all(len(so) == len(dataset) for so in sort_order)\n\n    def ordered_indices(self):\n        return np.lexsort(self.sort_order)\n"
  },
  {
    "path": "fairseq/data/span_mask_tokens_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\n\nfrom . import Dictionary, FairseqDataset, data_utils\n\n\ndef collate(\n    samples,\n    pad_idx,\n    eos_idx,\n    vocab,\n    left_pad_source=False,\n    left_pad_target=False,\n    input_feeding=True,\n    pad_to_length=None,\n):\n    assert input_feeding\n    if len(samples) == 0:\n        return {}\n\n    def merge(key, left_pad, move_eos_to_beginning=False, pad_to_length=None):\n        return data_utils.collate_tokens(\n            [s[key] for s in samples],\n            pad_idx,\n            eos_idx=None,  # use eos_idx of each sample instead of vocab.eos()\n            left_pad=left_pad,\n            move_eos_to_beginning=move_eos_to_beginning,\n            pad_to_length=pad_to_length,\n        )\n\n    id = torch.LongTensor([s[\"id\"] for s in samples])\n    src_tokens = merge(\n        \"source\",\n        left_pad=left_pad_source,\n        pad_to_length=pad_to_length[\"source\"] if pad_to_length is not None else None,\n    )\n    # sort by descending source length\n    src_lengths = torch.LongTensor([s[\"source\"].numel() for s in samples])\n    src_lengths, sort_order = src_lengths.sort(descending=True)\n    id = id.index_select(0, sort_order)\n    src_tokens = src_tokens.index_select(0, sort_order)\n\n    prev_output_tokens = None\n    target = None\n    if samples[0].get(\"target\", None) is not None:\n        target = merge(\n            \"target\",\n            left_pad=left_pad_target,\n            pad_to_length=pad_to_length[\"target\"]\n            if pad_to_length is not None\n            else None,\n        )\n        target = target.index_select(0, sort_order)\n        ntokens = sum(len(s[\"target\"]) for s in samples)\n\n        if input_feeding:\n            # we create a shifted version of targets for feeding the\n            # previous output token(s) into the next decoder step\n            prev_output_tokens = merge(\n                \"target\",\n                left_pad=left_pad_target,\n                move_eos_to_beginning=True,\n                pad_to_length=pad_to_length[\"target\"]\n                if pad_to_length is not None\n                else None,\n            )\n            prev_output_tokens = prev_output_tokens.index_select(0, sort_order)\n    else:\n        ntokens = sum(len(s[\"source\"]) for s in samples)\n\n    batch = {\n        \"id\": id,\n        \"ntokens\": ntokens,\n        \"net_input\": {\n            \"src_tokens\": src_tokens,\n            \"src_lengths\": src_lengths,\n        },\n        \"target\": target,\n        \"target_lengths\": torch.LongTensor([len(t) for t in target]),\n        \"nsentences\": samples[0][\"source\"].size(0),\n        \"sort_order\": sort_order,\n    }\n    if prev_output_tokens is not None:\n        batch[\"net_input\"][\"prev_output_tokens\"] = prev_output_tokens\n\n    return batch\n\n\nclass SpanMaskedTokensDataset(FairseqDataset):\n    \"\"\"\n    A wrapper around TokenBlockDataset for T5 dataset.\n\n    Args:\n        dataset (~torch.utils.data.Dataset): dataset to wrap\n        vocab (~fairseq.data.Dictionary): vocabulary\n        noise_density (float): fraction of the tokens to select as noise.\n        mean_noise_span_length (float): mean noise span length.\n        shuffle (bool, optional): shuffle the elements before batching.\n          Default: ``True``\n        seed: Seed for random number generator for reproducibility.\n    \"\"\"\n\n    def __init__(\n        self,\n        dataset: torch.utils.data.Dataset,\n        vocab: Dictionary,\n        noise_density: float,\n        mean_noise_span_length: float,\n        shuffle: bool,\n        seed: int = 1,\n    ):\n        self.dataset = dataset\n        self.vocab = vocab\n        self.seed = seed\n        self.noise_density = noise_density\n        self.mean_noise_span_length = mean_noise_span_length\n        self.shuffle = shuffle\n        self.epoch = 0\n\n    @property\n    def can_reuse_epoch_itr_across_epochs(self):\n        return True  # only the noise changes, not item sizes\n\n    def set_epoch(self, epoch, **unused):\n        self.epoch = epoch\n\n    def __getitem__(self, index):\n        with data_utils.numpy_seed(self.seed, self.epoch, index):\n            item = self.dataset[index]\n            assert item[-1] == self.vocab.eos()\n\n            noise_mask = self.random_spans_noise_mask(len(item))\n\n            source_sentinel_ids = self.create_sentinel_ids(noise_mask.astype(np.int8))\n            source = self.filter_input_ids(item, source_sentinel_ids)\n\n            target_sentinel_ids = self.create_sentinel_ids(\n                (~noise_mask).astype(np.int8)\n            )\n            target = self.filter_input_ids(item, target_sentinel_ids)\n\n        return {\n            \"id\": index,\n            \"source\": torch.from_numpy(source),\n            \"target\": torch.from_numpy(target),\n        }\n\n    def random_spans_noise_mask(self, length):\n\n        \"\"\"\n        This function is copy of `random_spans_helper <https://github.com/google-research/text-to-text-transfer-transformer/blob/84f8bcc14b5f2c03de51bd3587609ba8f6bbd1cd/t5/data/preprocessors.py#L2682>`__ .\n        Noise mask consisting of random spans of noise tokens.\n        The number of noise tokens and the number of noise spans and non-noise spans\n        are determined deterministically as follows:\n        num_noise_tokens = round(length * noise_density)\n        num_nonnoise_spans = num_noise_spans = round(num_noise_tokens / mean_noise_span_length)\n        Spans alternate between non-noise and noise, beginning with non-noise.\n        Subject to the above restrictions, all masks are equally likely.\n        Args:\n            length: an int32 scalar (length of the incoming token sequence)\n        Returns:\n            a boolean tensor with shape [length]\n        \"\"\"\n\n        orig_length = length\n\n        num_noise_tokens = int(np.round(length * self.noise_density))\n        # avoid degeneracy by ensuring positive numbers of noise and nonnoise tokens.\n        num_noise_tokens = min(max(num_noise_tokens, 1), length - 1)\n        num_noise_spans = int(np.round(num_noise_tokens / self.mean_noise_span_length))\n\n        # avoid degeneracy by ensuring positive number of noise spans\n        num_noise_spans = max(num_noise_spans, 1)\n        num_nonnoise_tokens = length - num_noise_tokens\n\n        # pick the lengths of the noise spans and the non-noise spans\n        def _random_segmentation(num_items, num_segments):\n            \"\"\"\n            Partition a sequence of items randomly into non-empty segments.\n            Args:\n                num_items: an integer scalar > 0\n                num_segments: an integer scalar in [1, num_items]\n            Returns:\n                a Tensor with shape [num_segments] containing positive integers that add up to num_items\n            \"\"\"\n            mask_indices = np.arange(num_items - 1) < (num_segments - 1)\n            np.random.shuffle(mask_indices)\n            first_in_segment = np.pad(mask_indices, [[1, 0]])\n            segment_id = np.cumsum(first_in_segment)\n            # count length of subsegments assuming that list is sorted\n            _, segment_length = np.unique(segment_id, return_counts=True)\n            return segment_length\n\n        noise_span_lengths = _random_segmentation(num_noise_tokens, num_noise_spans)\n        nonnoise_span_lengths = _random_segmentation(\n            num_nonnoise_tokens, num_noise_spans\n        )\n\n        interleaved_span_lengths = np.reshape(\n            np.stack([nonnoise_span_lengths, noise_span_lengths], axis=1),\n            [num_noise_spans * 2],\n        )\n        span_starts = np.cumsum(interleaved_span_lengths)[:-1]\n        span_start_indicator = np.zeros((length,), dtype=np.int8)\n        span_start_indicator[span_starts] = True\n        span_num = np.cumsum(span_start_indicator)\n        is_noise = np.equal(span_num % 2, 1)\n\n        return is_noise[:orig_length]\n\n    def create_sentinel_ids(self, mask_indices):\n        \"\"\"\n        Sentinel ids creation given the indices that should be masked.\n        The start indices of each mask are replaced by the sentinel ids in increasing\n        order. Consecutive mask indices to be deleted are replaced with `-1`.\n        \"\"\"\n        start_indices = mask_indices - np.roll(mask_indices, 1, axis=-1) * mask_indices\n\n        sentinel_ids = np.where(\n            start_indices != 0, np.cumsum(start_indices, axis=-1), start_indices\n        )\n        # making sure all sentinel tokens are unique over the example\n        sentinel_ids = np.where(sentinel_ids != 0, len(self.vocab) - sentinel_ids, 0)\n        sentinel_ids -= mask_indices - start_indices\n        return sentinel_ids\n\n    @staticmethod\n    def filter_input_ids(input_ids, sentinel_ids):\n        \"\"\"\n        Puts sentinel mask on `input_ids` and fuse consecutive mask tokens into a single mask token by deleting.\n        This will reduce the sequence length from `expanded_inputs_length` to `input_length`.\n        \"\"\"\n        input_ids_full = np.where(sentinel_ids != 0, sentinel_ids, input_ids)\n\n        # input_ids tokens and sentinel tokens are >= 0, tokens < 0 are\n        # masked tokens coming after sentinel tokens and should be removed\n        return input_ids_full[input_ids_full >= 0]\n\n    def __len__(self):\n        return len(self.dataset)\n\n    def collater(self, samples, pad_to_length=None):\n        \"\"\"\n        Merge a list of samples to form a mini-batch.\n        Args:\n            samples (List[dict]): samples to collate\n        Returns:\n            dict: a mini-batch of data\n        \"\"\"\n        return collate(\n            samples,\n            self.vocab.pad(),\n            self.vocab.eos(),\n            self.vocab,\n            pad_to_length=pad_to_length,\n        )\n\n    def num_tokens(self, index):\n        \"\"\"Return the number of tokens in a sample. This value is used to\n        enforce ``--max-tokens`` during batching.\"\"\"\n        return self.dataset.sizes[index]\n\n    def size(self, index):\n        \"\"\"Return an example's size as a float or tuple. This value is used when\n        filtering a dataset with ``--max-positions``.\"\"\"\n        return self.dataset.sizes[index]\n\n    def ordered_indices(self):\n        \"\"\"Return an ordered list of indices. Batches will be constructed based\n        on this order.\"\"\"\n        if self.shuffle:\n            indices = np.random.permutation(len(self))\n        else:\n            indices = np.arange(len(self))\n        return indices[np.argsort(self.dataset.sizes[indices], kind=\"mergesort\")]\n\n    def prefetch(self, indices):\n        self.src.prefetch(indices)\n        self.tgt.prefetch(indices)\n\n    @property\n    def supports_prefetch(self):\n        return (\n            hasattr(self.src, \"supports_prefetch\")\n            and self.src.supports_prefetch\n            and hasattr(self.tgt, \"supports_prefetch\")\n            and self.tgt.supports_prefetch\n        )\n"
  },
  {
    "path": "fairseq/data/speech_dlm_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom collections import OrderedDict\n\nimport numpy as np\nimport torch\n\nfrom fairseq.data import FairseqDataset, MonolingualDataset, data_utils\n\n\nclass SpeechDLMDataset(FairseqDataset):\n    \"\"\"The dataset used to train the SpeechDLM model as described in the paper:\n    https://arxiv.org/pdf/2203.16502.pdf\n\n    The input datasets is expected to be a dict over channel names with the values\n    being instances of :class:`~fairseq.data.MonolingualDataset`.\n\n    Each element of SpeechDLMDataset is a dictionary with the following keys:\n        - `id` (int) : index of the item\n        - `source` (OrderedDict[str, Tensor of shape (seq_len,)]) : dictionary over\n            channels with the values containing the input unit tokens\n        - `target_next` (OrderedDict[str, Tensor of shape (seq_len,)]) : dictionary\n            over channels with the values containing the next unit tokens (input\n            tokens shifted by 1).\n            Its value is None if 'next' not in self.targets\n        - `target_edge` (OrderedDict[str, Tensor of shape (dedup_seq_len,)]) : dictionary\n            over channels with the values containing the edge unit tokens (input tokens\n            deduplicated).\n            Its value is None if 'edge' not in self.targets\n        - `target_duration` (OrderedDict[str, Tensor of shape (dedup_seq_len,)]) :\n            dictionary over channels with the values being the durations of the edge units.\n            Its value is None if 'duration' not in targets.\n        - `target_edge_indices` (OrderedDict[str, Tensor of shape (dedup_seq_len,)]) :\n            dictionary over channels with the values being the indices of the edge units\n            in the source sequence.\n            Its value is None if neither 'edge' or 'duration in targets.\n\n    Args:\n        datasets (Dict[str, ~fairseq.data.MonolingualDataset]): a dictionary of\n            :class:`~fairseq.data.MonolingualDataset` instances.\n        targets (List[str]): list of the target types that the SpeechDLM model\n            should predict.  Can be one of \"next\", \"edge\", \"duration\".\n        shuffle (bool, optional): shuffle the elements before batching\n            (default: True).\n    \"\"\"\n\n    def __init__(\n        self, datasets, targets=None, max_target_durations=None, shuffle=False\n    ):\n        super().__init__()\n        if isinstance(datasets, dict):\n            datasets = OrderedDict(datasets)\n        assert isinstance(\n            datasets, OrderedDict\n        ), \"datasets is expected to be an instance of Dictionary or OrderedDict\"\n        assert datasets, \"datasets is None\"\n        for dataset in datasets.values():\n            assert isinstance(\n                dataset, MonolingualDataset\n            ), \"Each value of datasets is expected to be an instance of MonolingualDataset\"\n\n        self.datasets = datasets\n        self.targets = targets\n        if max_target_durations is not None and max_target_durations > 0:\n            self.max_target_durations = max_target_durations\n        else:\n            self.max_target_durations = float(\"inf\")\n        self.sizes = next(iter(datasets.values())).sizes\n        self.vocab = next(iter(datasets.values())).vocab\n        self.length = len(next(iter(datasets.values())))\n        self.shuffle = shuffle\n\n        for channel, dataset in datasets.items():\n            assert (\n                len(dataset) == self.length\n            ), \"[{}] length mismatch ({} vs {})\".format(\n                channel, len(dataset), self.length\n            )\n            assert (dataset.sizes == self.sizes).all(), \"[{}] sizes mismatch\".format(\n                channel\n            )\n\n            assert (\n                dataset.vocab.pad() == self.vocab.pad()\n            ), \"pad token is expected to be the same\"\n            assert (\n                dataset.vocab.eos() == self.vocab.eos()\n            ), \"eos token is expected to be the same\"\n            assert (\n                dataset.vocab.bos() == self.vocab.bos()\n            ), \"bos token is expected to be the same\"\n            assert (\n                dataset.vocab.unk() == self.vocab.unk()\n            ), \"unk token is expected to be the same\"\n\n    def __getitem__(self, index):\n        source = OrderedDict(\n            [\n                (key, dataset[index][\"source\"])\n                for (key, dataset) in self.datasets.items()\n            ]\n        )\n\n        item = {\n            \"id\": index,\n            \"source\": source,\n            \"target_next\": None,\n            \"target_edge\": None,\n            \"target_duration\": None,\n            \"target_edge_indices\": None,\n        }\n\n        if self.targets is not None:\n            for channel in self.datasets:\n                target = self._get_target(index, channel)\n                for t in target:\n                    if item[f\"target_{t}\"] is None:\n                        item[f\"target_{t}\"] = OrderedDict()\n                    item[f\"target_{t}\"][channel] = target[t]\n\n        return item\n\n    def __len__(self):\n        return self.length\n\n    def _get_target(self, index, channel):\n        \"\"\"Get target in one of ['next', 'edge', 'duration']\n        - 'next' is the future unit\n        - 'edge' is the edge unit\n        - 'duration' is the duration of the edge unit\n        \"\"\"\n        if self.targets is not None:\n            target = {}\n            pad_idx = self.vocab.pad()\n            max_dur = self.max_target_durations\n            future_target = self.datasets[channel][index][\"target\"]\n            if \"edge\" in self.targets or \"duration\" in self.targets:\n                edge_units, edge_unit_counts = torch.unique_consecutive(\n                    future_target, return_counts=True\n                )\n                padding_end = edge_units[-1] == pad_idx\n                if padding_end:\n                    edge_units = edge_units[:-1]\n                    edge_unit_counts = edge_unit_counts[:-1]\n                edge_indices = torch.cumsum(edge_unit_counts, 0)\n                edge_indices = torch.cat([torch.tensor([0]), edge_indices[:-1]])\n                target[\"edge_indices\"] = edge_indices\n\n            for t in self.targets:\n                if t == \"next\":\n                    target[t] = future_target\n                elif t == \"edge\":\n                    target[t] = edge_units\n                elif t == \"duration\":\n                    # count the remaining duration of the last edge indices in the next sentence\n                    if not padding_end and index < len(self.datasets[channel]) - 1:\n                        i = 0\n                        next_sentence_target = self.datasets[channel][index + 1][\n                            \"target\"\n                        ]\n                        while (\n                            next_sentence_target[i] == edge_units[-1]\n                            and edge_unit_counts[-1] + i < max_dur\n                        ):\n                            i += 1\n                        edge_unit_counts[-1] += i\n\n                    # cut off to the maximal threshold\n                    if max_dur:\n                        edge_unit_counts[edge_unit_counts > max_dur] = max_dur\n\n                    target[t] = edge_unit_counts\n                else:\n                    raise Exception(\"invalid target \" + t)\n\n            return target\n\n    def collater(self, samples):\n        \"\"\"Merge a list of samples to form a mini-batch.\n\n        Args:\n            samples (List[dict]): samples to collate\n\n        Returns:\n            dict: a mini-batch with the following keys:\n\n                - `id` (LongTensor): example IDs in the original input order\n                - `ntokens` (int): total number of tokens in the batch\n                - `net_input` (dict): the input to the Model, containing keys:\n\n                  - `src_tokens` (OrderedDict[str, LongTensor]): dictionary\n                    over channel with the values being padded 2D Tensor of\n                    samples `source` of shape `(bsz, src_len)`.\n                    Padding will appear on the right.\n                  - `src_lengths` (LongTensor): lengths of source sentences\n                    in the mini-batch\n\n                - `target` (dict): the target of the Model, containing keys:\n\n                  - `next` (OrderedDict[str, LongTensor]): dictionary\n                    over channel with the values being padded 2D Tensor of\n                    batch samples' `target_next` of shape `(bsz, tgt_len)`.\n                    Padding will appear on the right.\n                  - `edge` (OrderedDict[str, LongTensor]): dictionary\n                    over channel with the values being the concatenated\n                    1D Tensor of batch samples' `target_edge` of shape\n                    `(sum of dedup_tgt_len,)`\n                  - `duration` (OrderedDict[str, LongTensor]): dictionary\n                    over channel with the values being the concatenated\n                    1D Tensor of batch samples' `target_duration` of shape\n                    `(sum of dedup_tgt_len,)`\n                  - `edge_indices` (OrderedDict[str, LongTensor]): dictionary\n                    over channel with the values being the concatenated\n                    1D Tensor of batch samples' `target_edge_indices` of\n                    shape `(sum of dedup_tgt_len,)`.\n                    The indices are added to multiplies of batch size\n                    such that they are the actual indices in the flatten\n                    `src_tokens` Tensor\n        \"\"\"\n        if len(samples) == 0:\n            return {}\n\n        pad_idx = self.vocab.pad()\n        eos_idx = self.vocab.eos()\n\n        def merge(key, max_size=None):\n            if samples[0][key] is None:\n                return None\n            res = OrderedDict()\n            for channel in samples[0][key]:\n                if key in [\"source\", \"target_next\"]:\n                    # fill batch of shape: (batch_size, max_size)\n                    res[channel] = data_utils.collate_tokens(\n                        [s[key][channel] for s in samples],\n                        pad_idx,\n                        eos_idx,\n                        left_pad=False,\n                    )\n                elif key in [\"target_edge\", \"target_duration\"]:\n                    # concatenate the edge units/duration\n                    res[channel] = torch.cat([s[key][channel] for s in samples])\n                elif key == \"target_edge_indices\":\n                    # increase the edge indices to the indices in the flatten batch\n                    res[channel] = torch.cat(\n                        [s[key][channel] + i * max_size for i, s in enumerate(samples)]\n                    )\n\n            return res\n\n        src_tokens = merge(\"source\")\n        tgt_next = merge(\"target_next\")\n        tgt_edge = merge(\"target_edge\")\n        tgt_duration = merge(\"target_duration\")\n        tgt_edge_indices = merge(\n            \"target_edge_indices\", max_size=next(iter(src_tokens.values())).size(-1)\n        )\n        return {\n            \"id\": torch.LongTensor([s[\"id\"] for s in samples]),\n            \"nsentences\": len(samples),\n            \"ntokens\": sum(len(item) for s in samples for item in s[\"source\"].values()),\n            \"net_input\": {\n                \"src_tokens\": src_tokens,\n                \"src_lengths\": torch.LongTensor(\n                    [next(iter(s[\"source\"].values())).numel() for s in samples]\n                ),\n            },\n            \"target\": {\n                \"next\": tgt_next,\n                \"edge\": tgt_edge,\n                \"duration\": tgt_duration,\n                \"edge_indices\": tgt_edge_indices,\n            },\n        }\n\n    def num_tokens(self, index):\n        \"\"\"Return the number of tokens in a sample. This value is used to\n        enforce ``--max-tokens`` during batching.\"\"\"\n        return self.sizes[index]\n\n    def size(self, index):\n        \"\"\"Return an example's size as a float or tuple. This value is used when\n        filtering a dataset with ``--max-positions``.\"\"\"\n        return self.sizes[index]\n\n    def ordered_indices(self):\n        \"\"\"Return an ordered list of indices. Batches will be constructed based\n        on this order.\"\"\"\n        if self.shuffle:\n            order = [np.random.permutation(len(self))]\n        else:\n            order = [np.arange(len(self))]\n        order.append(self.sizes)\n        return np.lexsort(order)\n\n    @property\n    def supports_prefetch(self):\n        return all(\n            getattr(dataset, \"supports_prefetch\", False)\n            for dataset in self.datasets.values()\n        )\n\n    def prefetch(self, indices):\n        for key, dataset in self.datasets.items():\n            dataset.prefetch(indices)\n"
  },
  {
    "path": "fairseq/data/strip_token_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import BaseWrapperDataset\n\n\nclass StripTokenDataset(BaseWrapperDataset):\n    def __init__(self, dataset, id_to_strip):\n        super().__init__(dataset)\n        self.id_to_strip = id_to_strip\n\n    def __getitem__(self, index):\n        item = self.dataset[index]\n        while len(item) > 0 and item[-1] == self.id_to_strip:\n            item = item[:-1]\n        while len(item) > 0 and item[0] == self.id_to_strip:\n            item = item[1:]\n        return item\n"
  },
  {
    "path": "fairseq/data/subsample_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport contextlib\nimport logging\n\nimport numpy as np\nfrom fairseq.data.data_utils import numpy_seed\n\nfrom . import BaseWrapperDataset\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass SubsampleDataset(BaseWrapperDataset):\n    \"\"\"Subsamples a given dataset by a specified ratio. Subsampling is done on the number of examples\n\n    Args:\n        dataset (~torch.utils.data.Dataset): dataset to subsample\n        size_ratio(float): the ratio to subsample to. must be between 0 and 1 (exclusive)\n    \"\"\"\n\n    def __init__(self, dataset, size_ratio, shuffle=False, seed=None):\n        super().__init__(dataset)\n        assert size_ratio < 1\n        self.actual_size = np.ceil(len(dataset) * size_ratio).astype(int)\n        with numpy_seed(seed) if seed is not None else contextlib.ExitStack():\n            self.indices = np.random.choice(\n                list(range(len(self.dataset))), self.actual_size, replace=False\n            )\n        self.shuffle = shuffle\n        logger.info(\n            \"subsampled dataset from {} to {} (ratio={})\".format(\n                len(self.dataset), self.actual_size, size_ratio\n            )\n        )\n\n    def __getitem__(self, index):\n        return self.dataset[self.indices[index]]\n\n    def __len__(self):\n        return self.actual_size\n\n    def collater(self, samples):\n        return self.dataset.collater(samples)\n\n    @property\n    def sizes(self):\n        return self.dataset.sizes[self.indices]\n\n    @property\n    def name(self):\n        return self.dataset.name\n\n    def num_tokens(self, index):\n        return self.dataset.num_tokens(self.indices[index])\n\n    def size(self, index):\n        return self.dataset.size(self.indices[index])\n\n    def ordered_indices(self):\n        \"\"\"Return an ordered list of indices. Batches will be constructed based\n        on this order.\"\"\"\n        if self.shuffle:\n            order = [np.random.permutation(len(self))]\n        else:\n            order = [np.arange(len(self))]\n        order.append(self.sizes)\n        return np.lexsort(order)\n\n    def prefetch(self, indices):\n        self.dataset.prefetch(self.indices[indices])\n"
  },
  {
    "path": "fairseq/data/text_compressor.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom enum import Enum\n\n\nclass TextCompressionLevel(Enum):\n    none = 0\n    low = 1\n    high = 2\n\n\nclass TextCompressor(object):\n    def __init__(\n        self, level: TextCompressionLevel, max_input_byte_length: int = 2**16\n    ):\n        self.level = level\n        self.max_input_length = max_input_byte_length\n\n    def compress(self, text: str) -> bytes:\n        if self.level == TextCompressionLevel.low:\n            import zlib\n\n            # zlib: built-in, fast\n            return zlib.compress(text.encode(), level=0)\n        elif self.level == TextCompressionLevel.high:\n            try:\n                import unishox2\n\n                # unishox2: optimized for short text but slower\n            except ImportError:\n                raise ImportError(\n                    \"Please install unishox2 for the text compression feature: \"\n                    \"pip install unishox2-py3\"\n                )\n            assert len(text.encode()) <= self.max_input_length\n            return unishox2.compress(text)[0]\n        else:\n            return text.encode()\n\n    def decompress(self, compressed: bytes) -> str:\n        if self.level == TextCompressionLevel.low:\n            import zlib\n\n            return zlib.decompress(compressed).decode()\n        elif self.level == TextCompressionLevel.high:\n            try:\n                import unishox2\n            except ImportError:\n                raise ImportError(\n                    \"Please install unishox2 for the text compression feature: \"\n                    \"pip install unishox2-py3\"\n                )\n            return unishox2.decompress(compressed, self.max_input_length)\n        else:\n            return compressed.decode()\n"
  },
  {
    "path": "fairseq/data/token_block_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\nfrom fairseq.data import FairseqDataset, plasma_utils\nfrom fairseq.data.indexed_dataset import best_fitting_int_dtype\nfrom typing import Tuple\n\n\nclass TokenBlockDataset(FairseqDataset):\n    \"\"\"Break a Dataset of tokens into blocks.\n\n    Args:\n        dataset (~torch.utils.data.Dataset): dataset to break into blocks\n        sizes (List[int]): sentence lengths (required for 'complete' and 'eos')\n        block_size (int): maximum block size (ignored in 'eos' break mode)\n        break_mode (str, optional): Mode used for breaking tokens. Values can\n            be one of:\n            - 'none': break tokens into equally sized blocks (up to block_size)\n            - 'complete': break tokens into blocks (up to block_size) such that\n                blocks contains complete sentences, although block_size may be\n                exceeded if some sentences exceed block_size\n            - 'complete_doc': similar to 'complete' mode, but do not\n                cross document boundaries\n            - 'eos': each block contains one sentence (block_size is ignored)\n        include_targets (bool, optional): return next tokens as targets\n            (default: False).\n        document_sep_len (int, optional): document separator size (required for\n            'complete_doc' break mode). Typically 1 if the sentences have eos\n            and 0 otherwise.\n    \"\"\"\n\n    def __init__(\n        self,\n        dataset,\n        sizes,\n        block_size,\n        pad,\n        eos,\n        break_mode=None,\n        include_targets=False,\n        document_sep_len=1,\n        use_plasma_view=False,\n        split_path=None,\n        plasma_path=None,\n    ):\n\n        super().__init__()\n        self.dataset = dataset\n        self.pad = pad\n        self.eos = eos\n        self.include_targets = include_targets\n\n        assert len(dataset) > 0\n\n        assert len(dataset) == len(sizes)\n        _sizes, block_to_dataset_index, slice_indices = self._build_slice_indices(\n            sizes, break_mode, document_sep_len, block_size\n        )\n        if use_plasma_view:\n            plasma_id = (block_size, document_sep_len, str(break_mode), len(dataset))\n            self._slice_indices = plasma_utils.PlasmaView(\n                slice_indices, split_path, (plasma_id, 0), plasma_path=plasma_path\n            )\n            self._sizes = plasma_utils.PlasmaView(\n                _sizes, split_path, (plasma_id, 1), plasma_path=plasma_path\n            )\n            self._block_to_dataset_index = plasma_utils.PlasmaView(\n                block_to_dataset_index,\n                split_path,\n                (plasma_id, 2),\n                plasma_path=plasma_path,\n            )\n        else:\n            self._slice_indices = plasma_utils.PlasmaArray(slice_indices)\n            self._sizes = plasma_utils.PlasmaArray(_sizes)\n            self._block_to_dataset_index = plasma_utils.PlasmaArray(\n                block_to_dataset_index\n            )\n\n    @staticmethod\n    def _build_slice_indices(\n        sizes, break_mode, document_sep_len, block_size\n    ) -> Tuple[np.ndarray]:\n        \"\"\"Use token_block_utils_fast to build arrays for indexing into self.dataset\"\"\"\n        try:\n            from fairseq.data.token_block_utils_fast import (\n                _get_slice_indices_fast,\n                _get_block_to_dataset_index_fast,\n            )\n        except ImportError:\n            raise ImportError(\n                \"Please build Cython components with: `pip install --editable .` \"\n                \"or `python setup.py build_ext --inplace`\"\n            )\n\n        if isinstance(sizes, list):\n            sizes = np.array(sizes, dtype=np.int64)\n        else:\n            if torch.is_tensor(sizes):\n                sizes = sizes.numpy()\n            sizes = sizes.astype(np.int64)\n\n        break_mode = break_mode if break_mode is not None else \"none\"\n\n        # For \"eos\" break-mode, block_size is not required parameters.\n        if break_mode == \"eos\" and block_size is None:\n            block_size = 0\n\n        slice_indices = _get_slice_indices_fast(\n            sizes, str(break_mode), block_size, document_sep_len\n        )\n        _sizes = slice_indices[:, 1] - slice_indices[:, 0]\n\n        # build index mapping block indices to the underlying dataset indices\n        if break_mode == \"eos\":\n            # much faster version for eos break mode\n            block_to_dataset_index = np.stack(\n                [\n                    np.arange(len(sizes)),  # starting index in dataset\n                    np.zeros(\n                        len(sizes), dtype=np.compat.long\n                    ),  # starting offset within starting index\n                    np.arange(len(sizes)),  # ending index in dataset\n                ],\n                1,\n            )\n        else:\n            block_to_dataset_index = _get_block_to_dataset_index_fast(\n                sizes,\n                slice_indices,\n            )\n        size_dtype = np.uint16 if block_size < 65535 else np.uint32\n        num_tokens = slice_indices[-1].max()\n        slice_indices_dtype = best_fitting_int_dtype(num_tokens)\n        slice_indices = slice_indices.astype(slice_indices_dtype)\n        _sizes = _sizes.astype(size_dtype)\n        block_to_dataset_index = block_to_dataset_index.astype(slice_indices_dtype)\n        return _sizes, block_to_dataset_index, slice_indices\n\n    @property\n    def slice_indices(self):\n        return self._slice_indices.array\n\n    @property\n    def sizes(self):\n        return self._sizes.array\n\n    @property\n    def block_to_dataset_index(self):\n        return self._block_to_dataset_index.array\n\n    def attr(self, attr: str, index: int):\n        start_ds_idx, _, _ = self.block_to_dataset_index[index]\n        return self.dataset.attr(attr, start_ds_idx)\n\n    def __getitem__(self, index):\n        start_ds_idx, start_offset, end_ds_idx = self.block_to_dataset_index[index]\n\n        buffer = torch.cat(\n            [self.dataset[idx] for idx in range(start_ds_idx, end_ds_idx + 1)]\n        )\n        slice_s, slice_e = self.slice_indices[index]\n        length = slice_e - slice_s\n        s, e = start_offset, start_offset + length\n        item = buffer[s:e]\n\n        if self.include_targets:\n            # *target* is the original sentence (=item)\n            # *source* is shifted right by 1 (maybe left-padded with eos)\n            # *past_target* is shifted right by 2 (left-padded as needed)\n            if s == 0:\n                source = torch.cat([item.new([self.eos]), buffer[0 : e - 1]])\n                past_target = torch.cat(\n                    [item.new([self.pad, self.eos]), buffer[0 : e - 2]]\n                )\n            else:\n                source = buffer[s - 1 : e - 1]\n                if s == 1:\n                    past_target = torch.cat([item.new([self.eos]), buffer[0 : e - 2]])\n                else:\n                    past_target = buffer[s - 2 : e - 2]\n\n            return source, item, past_target\n\n        return item\n\n    def __len__(self):\n        return len(self.slice_indices)\n\n    @property\n    def supports_prefetch(self):\n        return getattr(self.dataset, \"supports_prefetch\", False)\n\n    def prefetch(self, indices):\n        self.dataset.prefetch(\n            {\n                ds_idx\n                for index in indices\n                for start_ds_idx, _, end_ds_idx in [self.block_to_dataset_index[index]]\n                for ds_idx in range(start_ds_idx, end_ds_idx + 1)\n            }\n        )\n"
  },
  {
    "path": "fairseq/data/token_block_utils_fast.pyx",
    "content": "# cython: language_level=3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\nfrom itertools import chain\nfrom libc.math cimport ceil\n\ncimport cython\ncimport numpy as np\n\nfrom libc.stdint cimport int32_t, int64_t\n\nDTYPE = np.int64\nctypedef int64_t DTYPE_t\n\n\n@cython.boundscheck(False)\n@cython.wraparound(False)\n@cython.nonecheck(False)\ncdef np.ndarray[DTYPE_t, ndim=2] _get_slice_indices_none_mode(np.ndarray[DTYPE_t, ndim=1] sizes, int block_size):\n    cdef DTYPE_t total_size = sizes.sum()\n    cdef DTYPE_t length = <DTYPE_t> ceil(total_size / <double> block_size)\n    cdef np.ndarray[DTYPE_t, ndim=2] slice_indices = np.zeros([length, 2], dtype=DTYPE)\n    cdef DTYPE_t[:, :] slice_indices_view = slice_indices\n    cdef DTYPE_t i\n    cdef DTYPE_t start\n    cdef DTYPE_t end\n    for i in range(length):\n        start = i * block_size\n        end = min(start + block_size, total_size)\n        slice_indices_view[i][0] = start\n        slice_indices_view[i][1] = end\n    return slice_indices\n\n\ncdef np.ndarray[DTYPE_t, ndim=2] _fast_convert_to_np_array(list list_of_list):\n    \"\"\"\n    Faster function to convert DTYPE_t list of list.\n    Only fast when there are huge number of rows and low number of columns.\n    \"\"\"\n    cdef np.ndarray[DTYPE_t, ndim=1] flat = np.fromiter(chain.from_iterable(list_of_list), DTYPE, -1)\n    return flat.reshape((len(list_of_list), -1))\n\n\n@cython.boundscheck(False)\n@cython.wraparound(False)\n@cython.nonecheck(False)\ncpdef np.ndarray[DTYPE_t, ndim=2] _get_slice_indices_fast(np.ndarray[DTYPE_t, ndim=1] sizes, str break_mode, int block_size, int document_sep_len):\n    cdef DTYPE_t tok_idx = 0\n    cdef DTYPE_t sz_idx = 0\n    cdef DTYPE_t curr_size = 0\n    cdef DTYPE_t i = 0\n    cdef DTYPE_t length\n    cdef DTYPE_t total_size\n    cdef DTYPE_t[:] sizes_view = sizes\n    cdef np.ndarray[DTYPE_t, ndim=2] slice_indices\n    cdef list slice_indices_list = []\n\n    if break_mode is None or break_mode == 'none':\n        slice_indices = _get_slice_indices_none_mode(sizes, block_size)\n    elif break_mode == 'complete':\n        while sz_idx < len(sizes_view):\n            if curr_size + sizes_view[sz_idx] <= block_size or curr_size == 0:\n                curr_size += sizes_view[sz_idx]\n                sz_idx += 1\n            else:\n                slice_indices_list.append((tok_idx, tok_idx + curr_size))\n                tok_idx += curr_size\n                curr_size = 0\n        if curr_size > 0:\n            slice_indices_list.append((tok_idx, tok_idx + curr_size))\n        slice_indices = _fast_convert_to_np_array(slice_indices_list)\n    elif break_mode == 'complete_doc':\n        while sz_idx < len(sizes_view):\n            if (\n                (curr_size + sizes_view[sz_idx] <= block_size or curr_size == 0)\n                # an empty sentence indicates end-of-document:\n                and sizes_view[sz_idx] != document_sep_len\n            ):\n                curr_size += sizes_view[sz_idx]\n                sz_idx += 1\n            else:\n                # Only keep non-empty documents.\n                if curr_size > 1:\n                    slice_indices_list.append((tok_idx, tok_idx + curr_size))\n                tok_idx += curr_size\n                curr_size = 0\n                if sizes_view[sz_idx] == document_sep_len:\n                    tok_idx += sizes_view[sz_idx]\n                    sz_idx += 1\n        if curr_size > 1:\n            slice_indices_list.append((tok_idx, tok_idx + curr_size))\n        slice_indices = _fast_convert_to_np_array(slice_indices_list)\n    elif break_mode == 'eos':\n        slice_indices = np.zeros((len(sizes), 2), dtype=DTYPE)\n        cumsum = sizes.cumsum(axis=0)\n        slice_indices[1:, 0] = cumsum[:cumsum.shape[0] - 1]\n        slice_indices[:, 1] = cumsum\n    else:\n        raise ValueError('Invalid break_mode: ' + break_mode)\n    return slice_indices\n\n\n@cython.boundscheck(False)\n@cython.wraparound(False)\n@cython.nonecheck(False)\ncpdef np.ndarray[DTYPE_t, ndim=2] _get_block_to_dataset_index_fast(np.ndarray[DTYPE_t, ndim=1] sizes, np.ndarray[DTYPE_t, ndim=2] slice_indices):\n    cdef DTYPE_t start_ds_idx\n    cdef DTYPE_t start_offset\n    cdef DTYPE_t end_ds_idx\n    cdef DTYPE_t i\n    cdef DTYPE_t s\n    cdef DTYPE_t e\n    cdef DatasetSearcher ds = DatasetSearcher(sizes)\n    cdef np.ndarray[DTYPE_t, ndim=2] block_to_dataset_index = np.zeros([len(slice_indices), 3], dtype=DTYPE)\n    cdef DTYPE_t[:, :] block_to_dataset_index_view = block_to_dataset_index\n    cdef DTYPE_t[:, :] slice_indices_view = slice_indices\n    cdef Py_ssize_t x_max = slice_indices.shape[0]\n\n    for i in range(x_max):\n        s = slice_indices_view[i][0]\n        e = slice_indices_view[i][1]\n        ds.seek(s)\n        start_ds_idx = ds.current_index\n        start_offset = ds.current_offset\n        if e <= s:\n            end_ds_idx = start_ds_idx\n        else:\n            ds.seek(e - 1)\n            end_ds_idx = ds.current_index\n        block_to_dataset_index_view[i][0] = start_ds_idx  # starting index in dataset\n        block_to_dataset_index_view[i][1] = start_offset  # starting offset within starting index\n        block_to_dataset_index_view[i][2] = end_ds_idx    # ending index in dataset\n    return block_to_dataset_index\n\n\ncdef class DatasetSearcher(object):\n    \"\"\"Helper for mapping \"flat\" indices to indices and offsets in an\n    underlying dataset.\"\"\"\n    cdef DTYPE_t current_i\n    cdef DTYPE_t current_offset\n    cdef DTYPE_t current_index\n    cdef DTYPE_t[:] sizes\n\n    def __init__(self, DTYPE_t[:] sizes):\n        self.sizes = sizes\n        self.reset()\n\n    cdef reset(self):\n        self.current_offset = 0     # offset within current index in underlying dataset\n        self.current_i = 0          # \"flat\" index\n        self.current_index = 0      # index in underlying dataset\n\n    @cython.boundscheck(False)\n    @cython.wraparound(False)\n    @cython.nonecheck(False)\n    cdef int step(self, DTYPE_t i):\n        cdef DTYPE_t to_consume\n        cdef DTYPE_t remaining\n        if i < self.current_i:\n            self.reset()\n        if i > self.current_i:\n            to_consume = i - self.current_i\n            remaining = self.sizes[self.current_index] - self.current_offset\n            if remaining > to_consume:\n                self.current_offset += to_consume\n                self.current_i += to_consume\n            else:\n                assert remaining >= 0\n                self.current_i += remaining\n                self.current_index += 1\n                self.current_offset = 0\n                return 1\n        return 0\n\n    @cython.boundscheck(False)\n    @cython.wraparound(False)\n    @cython.nonecheck(False)\n    cdef seek(self, DTYPE_t i):\n        cdef int not_done = 1\n        while not_done == 1:\n            not_done = self.step(i)\n        assert self.current_i == i\n"
  },
  {
    "path": "fairseq/data/transform_eos_concat_langpair_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nimport torch\nfrom torch.utils.data.dataloader import default_collate\n\nfrom fairseq.data import ConcatDataset\n\nlogger = logging.getLogger(__name__)\n\n\nclass TransformEosConcatLangPairDataset(ConcatDataset):\n    \"\"\"\n    It is a combination of TransformEosLangPairDataset and ConcatDataset for multiple LangPairDataset datasets.\n    Assume all datasets share the same src_eos, tgt_bos, left_pad_source and left_pad_target\n    \"\"\"\n\n    def __init__(\n        self,\n        datasets,\n        src_eos,\n        tgt_bos,\n        new_src_eos=None,\n        new_tgt_bos=None,\n    ):\n        super().__init__(datasets)\n        if new_src_eos is not None and new_src_eos != []:\n            assert len(new_src_eos) == len(datasets)\n        else:\n            new_src_eos = []\n        if new_tgt_bos is not None and new_tgt_bos != []:\n            assert len(new_tgt_bos) == len(datasets)\n        else:\n            new_tgt_bos = []\n        self.src_eos = src_eos\n        self.tgt_bos = tgt_bos\n        self.new_src_eos = (\n            torch.LongTensor(new_src_eos).cpu() if len(new_src_eos) > 0 else []\n        )\n        self.new_tgt_bos = (\n            torch.LongTensor(new_tgt_bos).cpu() if len(new_tgt_bos) > 0 else []\n        )\n        self.left_pad_source = self.is_left_pad_source(datasets)\n        self.left_pad_target = self.is_left_pad_target(datasets)\n        self.pad_idx = self.src_dict_pad()\n\n    def src_dict_pad(self):\n        if hasattr(self.datasets[0], \"src_dict\"):\n            return self.datasets[0].src_dict.pad()\n        if hasattr(self.datasets[0], \"dataset\"):\n            return self.datasets[0].dataset.src_dict.pad()\n        raise NotImplementedError(\"No src_dict is found\")\n\n    def __getitem__(self, idx):\n        dataset_idx, sample_idx = self._get_dataset_and_sample_index(idx)\n        return dataset_idx, self.datasets[dataset_idx][sample_idx]\n\n    def is_left_pad_source(self, datasets):\n        def _left_pad_source(ds):\n            if hasattr(ds, \"left_pad_source\"):\n                return ds.left_pad_source\n            if hasattr(ds, \"dataset\"):\n                return _left_pad_source(ds.dataset)\n            logger.warn(f\"{type(ds)} has no left_pad_source, using default True\")\n            return True\n\n        left_pad_source = _left_pad_source(datasets[0])\n        for ds in datasets:\n            if left_pad_source != _left_pad_source(ds):\n                raise ValueError(\"Different left_pad_source setting detected!\")\n        return left_pad_source\n\n    def is_left_pad_target(self, datasets):\n        def _left_pad_target(ds):\n            if hasattr(ds, \"left_pad_target\"):\n                return ds.left_pad_target\n            if hasattr(ds, \"dataset\"):\n                return _left_pad_target(ds.dataset)\n            logger.warn(f\"{type(ds)} has no left_pad_target, using default False\")\n            return False\n\n        left_pad_target = _left_pad_target(datasets[0])\n        for ds in datasets:\n            if left_pad_target != _left_pad_target(ds):\n                raise ValueError(\"Different left_pad_target setting detected!\")\n        return left_pad_target\n\n    def collater(self, samples, **extra_args):\n        if len(samples) == 0:\n            return samples\n\n        dataset_ids = [s[0] for s in samples]\n        samples = [s[1] for s in samples]\n\n        if hasattr(self.datasets[0], \"collater\"):\n            samples = self.datasets[0].collater(samples, **extra_args)\n        else:\n            samples = default_collate(samples, **extra_args)\n\n        if len(self.new_src_eos) > 0:\n            if self.left_pad_source:\n                assert (\n                    samples[\"net_input\"][\"src_tokens\"][:, -1] != self.src_eos\n                ).sum() == 0\n                samples[\"net_input\"][\"src_tokens\"][:, -1] = self.new_src_eos[\n                    dataset_ids\n                ]\n\n            else:\n                eos_idx = samples[\"net_input\"][\"src_lengths\"] - 1\n                assert (\n                    samples[\"net_input\"][\"src_tokens\"][\n                        torch.arange(eos_idx.size(0)), eos_idx\n                    ]\n                    != self.src_eos\n                ).sum() == 0\n                samples[\"net_input\"][\"src_tokens\"].scatter_(\n                    1, eos_idx.view(-1, 1), self.new_src_eos[dataset_ids].view(-1, 1)\n                )\n\n        if len(self.new_tgt_bos) > 0 and \"prev_output_tokens\" in samples[\"net_input\"]:\n            if self.left_pad_target:\n                # TODO: support different padding direction on target side\n                raise NotImplementedError(\n                    \"TransformEosLangPairDataset does not implement --left-pad-target True option\"\n                )\n            else:\n                assert (\n                    samples[\"net_input\"][\"prev_output_tokens\"][:, 0] != self.tgt_bos\n                ).sum() == 0\n                samples[\"net_input\"][\"prev_output_tokens\"][:, 0] = self.new_tgt_bos[\n                    dataset_ids\n                ]\n\n        return samples\n"
  },
  {
    "path": "fairseq/data/transform_eos_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\nfrom . import FairseqDataset\n\n\nclass TransformEosDataset(FairseqDataset):\n    \"\"\"A :class:`~fairseq.data.FairseqDataset` wrapper that appends/prepends/strips EOS.\n\n    Note that the transformation is applied in :func:`collater`.\n\n    Args:\n        dataset (~fairseq.data.FairseqDataset): dataset to wrap\n        eos (int): index of the end-of-sentence symbol\n        append_eos_to_src (bool, optional): append EOS to the end of src\n        remove_eos_from_src (bool, optional): remove EOS from the end of src\n        append_eos_to_tgt (bool, optional): append EOS to the end of tgt\n        remove_eos_from_tgt (bool, optional): remove EOS from the end of tgt\n    \"\"\"\n\n    def __init__(\n        self,\n        dataset,\n        eos,\n        append_eos_to_src=False,\n        remove_eos_from_src=False,\n        append_eos_to_tgt=False,\n        remove_eos_from_tgt=False,\n        has_target=True,\n    ):\n        if not isinstance(dataset, FairseqDataset):\n            raise ValueError(\"dataset must be an instance of FairseqDataset\")\n        if append_eos_to_src and remove_eos_from_src:\n            raise ValueError(\"cannot combine append_eos_to_src and remove_eos_from_src\")\n        if append_eos_to_tgt and remove_eos_from_tgt:\n            raise ValueError(\"cannot combine append_eos_to_tgt and remove_eos_from_tgt\")\n\n        self.dataset = dataset\n        self.eos = torch.LongTensor([eos])\n        self.append_eos_to_src = append_eos_to_src\n        self.remove_eos_from_src = remove_eos_from_src\n        self.append_eos_to_tgt = append_eos_to_tgt\n        self.remove_eos_from_tgt = remove_eos_from_tgt\n        self.has_target = has_target\n\n        # precompute how we should adjust the reported sizes\n        self._src_delta = 0\n        self._src_delta += 1 if append_eos_to_src else 0\n        self._src_delta -= 1 if remove_eos_from_src else 0\n        self._tgt_delta = 0\n        self._tgt_delta += 1 if append_eos_to_tgt else 0\n        self._tgt_delta -= 1 if remove_eos_from_tgt else 0\n\n        self._checked_src = False\n        self._checked_tgt = False\n\n    def _check_src(self, src, expect_eos):\n        if not self._checked_src:\n            assert (src[-1] == self.eos[0]) == expect_eos\n            self._checked_src = True\n\n    def _check_tgt(self, tgt, expect_eos):\n        if self.has_target and not self._checked_tgt:\n            assert (tgt[-1] == self.eos[0]) == expect_eos\n            self._checked_tgt = True\n\n    def __getitem__(self, index):\n        return self.dataset[index]\n\n    def __len__(self):\n        return len(self.dataset)\n\n    def collater(self, samples):\n        def transform(item):\n            if self.append_eos_to_src:\n                self.eos = self.eos.to(device=item[\"source\"].device)\n                self._check_src(item[\"source\"], expect_eos=False)\n                item[\"source\"] = torch.cat([item[\"source\"], self.eos])\n            if self.remove_eos_from_src:\n                self.eos = self.eos.to(device=item[\"source\"].device)\n                self._check_src(item[\"source\"], expect_eos=True)\n                item[\"source\"] = item[\"source\"][:-1]\n            if self.append_eos_to_tgt:\n                self.eos = self.eos.to(device=item[\"target\"].device)\n                self._check_tgt(item[\"target\"], expect_eos=False)\n                item[\"target\"] = torch.cat([item[\"target\"], self.eos])\n            if self.remove_eos_from_tgt:\n                self.eos = self.eos.to(device=item[\"target\"].device)\n                self._check_tgt(item[\"target\"], expect_eos=True)\n                item[\"target\"] = item[\"target\"][:-1]\n            return item\n\n        samples = list(map(transform, samples))\n        return self.dataset.collater(samples)\n\n    def num_tokens(self, index):\n        return self.dataset.num_tokens(index)\n\n    def size(self, index):\n        if self.has_target:\n            src_len, tgt_len = self.dataset.size(index)\n            return (src_len + self._src_delta, tgt_len + self._tgt_delta)\n        else:\n            return self.dataset.size(index)\n\n    def ordered_indices(self):\n        # NOTE: we assume that the ordering does not change based on the\n        # addition or removal of eos\n        return self.dataset.ordered_indices()\n\n    @property\n    def supports_prefetch(self):\n        return getattr(self.dataset, \"supports_prefetch\", False)\n\n    def prefetch(self, indices):\n        return self.dataset.prefetch(indices)\n"
  },
  {
    "path": "fairseq/data/transform_eos_lang_pair_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom typing import Optional\n\nimport torch\n\nfrom . import FairseqDataset\n\n\nclass TransformEosLangPairDataset(FairseqDataset):\n    \"\"\"A :class:`~fairseq.data.FairseqDataset` wrapper that transform bos on\n    collated samples of language pair dataset.\n\n    Note that the transformation is applied in :func:`collater`.\n\n    Args:\n        dataset (~fairseq.data.FairseqDataset): dataset that collates sample into\n            LanguagePairDataset schema\n        src_eos (int): original source end-of-sentence symbol index to be replaced\n        new_src_eos (int, optional): new end-of-sentence symbol index to replace source eos symbol\n        tgt_bos (int, optional): original target beginning-of-sentence symbol index to be replaced\n        new_tgt_bos (int, optional): new beginning-of-sentence symbol index to replace at the\n            beginning of 'prev_output_tokens'\n    \"\"\"\n\n    def __init__(\n        self,\n        dataset: FairseqDataset,\n        src_eos: int,\n        new_src_eos: Optional[int] = None,\n        tgt_bos: Optional[int] = None,\n        new_tgt_bos: Optional[int] = None,\n    ):\n        self.dataset = dataset\n        self.src_eos = src_eos\n        self.new_src_eos = new_src_eos\n        self.tgt_bos = tgt_bos\n        self.new_tgt_bos = new_tgt_bos\n\n    def __getitem__(self, index):\n        return self.dataset[index]\n\n    def __len__(self):\n        return len(self.dataset)\n\n    def collater(self, samples, **extra_args):\n        samples = self.dataset.collater(samples, **extra_args)\n        if len(samples) == 0:\n            return samples\n\n        if \"net_input\" not in samples:\n            return samples\n\n        if self.new_src_eos is not None:\n            if self.dataset.left_pad_source:\n                assert (\n                    samples[\"net_input\"][\"src_tokens\"][:, -1] != self.src_eos\n                ).sum() == 0\n                samples[\"net_input\"][\"src_tokens\"][:, -1] = self.new_src_eos\n            else:\n                eos_idx = samples[\"net_input\"][\"src_lengths\"] - 1\n                assert (\n                    samples[\"net_input\"][\"src_tokens\"][\n                        torch.arange(eos_idx.size(0)), eos_idx\n                    ]\n                    != self.src_eos\n                ).sum() == 0\n                eos_idx = eos_idx.resize_(len(samples[\"net_input\"][\"src_lengths\"]), 1)\n                samples[\"net_input\"][\"src_tokens\"].scatter_(\n                    1, eos_idx, self.new_src_eos\n                )\n\n        if (\n            self.new_tgt_bos is not None\n            and \"prev_output_tokens\" in samples[\"net_input\"]\n        ):\n            if self.dataset.left_pad_target:\n                # TODO: support different padding direction on target side\n                raise NotImplementedError(\n                    \"TransformEosLangPairDataset does not implement --left-pad-target True option\"\n                )\n            else:\n                assert (\n                    samples[\"net_input\"][\"prev_output_tokens\"][:, 0] != self.tgt_bos\n                ).sum() == 0\n                samples[\"net_input\"][\"prev_output_tokens\"][:, 0] = self.new_tgt_bos\n\n        return samples\n\n    def num_tokens(self, index):\n        return self.dataset.num_tokens(index)\n\n    def size(self, index):\n        return self.dataset.size(index)\n\n    @property\n    def sizes(self):\n        # dataset.sizes can be a dynamically computed sizes:\n        return self.dataset.sizes\n\n    def ordered_indices(self):\n        return self.dataset.ordered_indices()\n\n    @property\n    def supports_prefetch(self):\n        return getattr(self.dataset, \"supports_prefetch\", False)\n\n    def prefetch(self, indices):\n        return self.dataset.prefetch(indices)\n"
  },
  {
    "path": "fairseq/dataclass/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .configs import FairseqDataclass\nfrom .constants import ChoiceEnum\n\n\n__all__ = [\n    \"FairseqDataclass\",\n    \"ChoiceEnum\",\n]\n"
  },
  {
    "path": "fairseq/dataclass/configs.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport sys\nfrom dataclasses import _MISSING_TYPE, dataclass, field\nfrom typing import Any, List, Optional\n\nimport torch\nfrom omegaconf import II, MISSING\n\nfrom fairseq.dataclass.constants import (\n    DATASET_IMPL_CHOICES,\n    DDP_BACKEND_CHOICES,\n    DDP_COMM_HOOK_CHOICES,\n    GENERATION_CONSTRAINTS_CHOICES,\n    GENERATION_DECODING_FORMAT_CHOICES,\n    LOG_FORMAT_CHOICES,\n    PIPELINE_CHECKPOINT_CHOICES,\n    PRINT_ALIGNMENT_CHOICES,\n    ZERO_SHARDING_CHOICES,\n)\n\n\n@dataclass\nclass FairseqDataclass:\n    \"\"\"fairseq base dataclass that supported fetching attributes and metas\"\"\"\n\n    _name: Optional[str] = None\n\n    @staticmethod\n    def name():\n        return None\n\n    def _get_all_attributes(self) -> List[str]:\n        return [k for k in self.__dataclass_fields__.keys()]\n\n    def _get_meta(\n        self, attribute_name: str, meta: str, default: Optional[Any] = None\n    ) -> Any:\n        return self.__dataclass_fields__[attribute_name].metadata.get(meta, default)\n\n    def _get_name(self, attribute_name: str) -> str:\n        return self.__dataclass_fields__[attribute_name].name\n\n    def _get_default(self, attribute_name: str) -> Any:\n        if hasattr(self, attribute_name):\n            if str(getattr(self, attribute_name)).startswith(\"${\"):\n                return str(getattr(self, attribute_name))\n            elif str(self.__dataclass_fields__[attribute_name].default).startswith(\n                \"${\"\n            ):\n                return str(self.__dataclass_fields__[attribute_name].default)\n            elif (\n                getattr(self, attribute_name)\n                != self.__dataclass_fields__[attribute_name].default\n            ):\n                return getattr(self, attribute_name)\n\n        f = self.__dataclass_fields__[attribute_name]\n        if not isinstance(f.default_factory, _MISSING_TYPE):\n            return f.default_factory()\n        return f.default\n\n    def _get_type(self, attribute_name: str) -> Any:\n        return self.__dataclass_fields__[attribute_name].type\n\n    def _get_help(self, attribute_name: str) -> Any:\n        return self._get_meta(attribute_name, \"help\")\n\n    def _get_argparse_const(self, attribute_name: str) -> Any:\n        return self._get_meta(attribute_name, \"argparse_const\")\n\n    def _get_argparse_alias(self, attribute_name: str) -> Any:\n        return self._get_meta(attribute_name, \"argparse_alias\")\n\n    def _get_choices(self, attribute_name: str) -> Any:\n        return self._get_meta(attribute_name, \"choices\")\n\n    @classmethod\n    def from_namespace(cls, args):\n        if isinstance(args, cls):\n            return args\n        else:\n            config = cls()\n            for k in config.__dataclass_fields__.keys():\n                if k.startswith(\"_\"):\n                    # private member, skip\n                    continue\n                if hasattr(args, k):\n                    setattr(config, k, getattr(args, k))\n\n            return config\n\n\n@dataclass\nclass CommonConfig(FairseqDataclass):\n    # This is the core dataclass including common parameters shared by all different jobs. Please append your params to other dataclasses if they were\n    # used for a particular purpose or task, such as those dedicated for `distributed training`, `optimization`, etc.\n    no_progress_bar: bool = field(\n        default=False, metadata={\"help\": \"disable progress bar\"}\n    )\n    log_interval: int = field(\n        default=100,\n        metadata={\n            \"help\": \"log progress every N batches (when progress bar is disabled)\"\n        },\n    )\n    log_format: Optional[LOG_FORMAT_CHOICES] = field(\n        default=None, metadata={\"help\": \"log format to use\"}\n    )\n    log_file: Optional[str] = field(\n        default=None, metadata={\"help\": \"log file to copy metrics to.\"}\n    )\n    aim_repo: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"path to Aim repository\"},\n    )\n    aim_run_hash: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"Aim run hash. If skipped, creates or continues run \"\n            \"based on save_dir\"\n        },\n    )\n    tensorboard_logdir: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"path to save logs for tensorboard, should match --logdir \"\n            \"of running tensorboard (default: no tensorboard logging)\"\n        },\n    )\n    wandb_project: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"Weights and Biases project name to use for logging\"},\n    )\n    azureml_logging: Optional[bool] = field(\n        default=False,\n        metadata={\"help\": \"Log scalars to AzureML context\"},\n    )\n    seed: int = field(\n        default=1, metadata={\"help\": \"pseudo random number generator seed\"}\n    )\n    cpu: bool = field(default=False, metadata={\"help\": \"use CPU instead of CUDA\"})\n    tpu: bool = field(default=False, metadata={\"help\": \"use TPU instead of CUDA\"})\n    bf16: bool = field(default=False, metadata={\"help\": \"use bfloat16; implies --tpu\"})\n    memory_efficient_bf16: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"use a memory-efficient version of BF16 training; implies --bf16\"\n        },\n    )\n    fp16: bool = field(default=False, metadata={\"help\": \"use FP16\"})\n    memory_efficient_fp16: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"use a memory-efficient version of FP16 training; implies --fp16\"\n        },\n    )\n    fp16_no_flatten_grads: bool = field(\n        default=False, metadata={\"help\": \"don't flatten FP16 grads tensor\"}\n    )\n    fp16_init_scale: int = field(\n        default=2**7, metadata={\"help\": \"default FP16 loss scale\"}\n    )\n    fp16_scale_window: Optional[int] = field(\n        default=None,\n        metadata={\"help\": \"number of updates before increasing loss scale\"},\n    )\n    fp16_scale_tolerance: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"pct of updates that can overflow before decreasing the loss scale\"\n        },\n    )\n    on_cpu_convert_precision: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, the floating point conversion to fp16/bf16 runs on CPU. \"\n            \"This reduces bus transfer time and GPU memory usage.\"\n        },\n    )\n    min_loss_scale: float = field(\n        default=1e-4,\n        metadata={\n            \"help\": \"minimum FP16/AMP loss scale, after which training is stopped\"\n        },\n    )\n    threshold_loss_scale: Optional[float] = field(\n        default=None, metadata={\"help\": \"threshold FP16 loss scale from below\"}\n    )\n    amp: bool = field(default=False, metadata={\"help\": \"use automatic mixed precision\"})\n    amp_batch_retries: int = field(\n        default=2,\n        metadata={\n            \"help\": \"number of retries of same batch after reducing loss scale with AMP\"\n        },\n    )\n    amp_init_scale: int = field(\n        default=2**7, metadata={\"help\": \"default AMP loss scale\"}\n    )\n    amp_scale_window: Optional[int] = field(\n        default=None,\n        metadata={\"help\": \"number of updates before increasing AMP loss scale\"},\n    )\n    user_dir: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"path to a python module containing custom extensions (tasks and/or architectures)\"\n        },\n    )\n    empty_cache_freq: int = field(\n        default=0,\n        metadata={\"help\": \"how often to clear the PyTorch CUDA cache (0 to disable)\"},\n    )\n    all_gather_list_size: int = field(\n        default=16384,\n        metadata={\"help\": \"number of bytes reserved for gathering stats from workers\"},\n    )\n    model_parallel_size: int = field(\n        default=1, metadata={\"help\": \"total number of GPUs to parallelize model over\"}\n    )\n    quantization_config_path: Optional[str] = field(\n        default=None, metadata={\"help\": \"path to quantization config file\"}\n    )\n    profile: bool = field(\n        default=False, metadata={\"help\": \"enable autograd profiler emit_nvtx\"}\n    )\n    reset_logging: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"when using Hydra, reset the logging at the beginning of training\"\n        },\n    )\n    suppress_crashes: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"suppress crashes when training with the hydra_train entry point so that the \"\n            \"main method can return a value (useful for sweeps)\"\n        },\n    )\n    use_plasma_view: bool = field(\n        default=False, metadata={\"help\": \"Store indices and sizes in shared memory\"}\n    )\n    plasma_path: Optional[str] = field(\n        default=\"/tmp/plasma\",\n        metadata={\n            \"help\": \"path to run plasma_store, defaults to /tmp/plasma. Paths outside /tmp tend to fail.\"\n        },\n    )\n\n\n@dataclass\nclass DistributedTrainingConfig(FairseqDataclass):\n    distributed_world_size: int = field(\n        default=max(1, torch.cuda.device_count()),\n        metadata={\n            \"help\": \"total number of GPUs across all nodes (default: all visible GPUs)\"\n        },\n    )\n    distributed_num_procs: Optional[int] = field(\n        default=max(1, torch.cuda.device_count()),\n        metadata={\n            \"help\": \"total number of processes to fork (default: all visible GPUs)\"\n        },\n    )\n    distributed_rank: Optional[int] = field(\n        default=0, metadata={\"help\": \"rank of the current worker\"}\n    )\n    distributed_backend: str = field(\n        default=\"nccl\", metadata={\"help\": \"distributed backend\"}\n    )\n    distributed_init_method: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"typically tcp://hostname:port that will be used to \"\n            \"establish initial connetion\"\n        },\n    )\n    distributed_port: int = field(\n        default=-1,\n        metadata={\n            \"help\": \"port number (not required if using --distributed-init-method)\"\n        },\n    )\n    device_id: int = field(\n        default=os.getenv(\"LOCAL_RANK\", 0),\n        metadata={\n            \"help\": \"which GPU to use (by default looks for $LOCAL_RANK, usually configured automatically)\",\n            \"argparse_alias\": \"--local_rank\",\n        },\n    )\n    distributed_no_spawn: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"do not spawn multiple processes even if multiple GPUs are visible\"\n        },\n    )\n    ddp_backend: DDP_BACKEND_CHOICES = field(\n        default=\"pytorch_ddp\", metadata={\"help\": \"DistributedDataParallel backend\"}\n    )\n    ddp_comm_hook: DDP_COMM_HOOK_CHOICES = field(\n        default=\"none\", metadata={\"help\": \"communication hook\"}\n    )\n    bucket_cap_mb: int = field(\n        default=25, metadata={\"help\": \"bucket size for reduction\"}\n    )\n    fix_batches_to_gpus: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"don't shuffle batches between GPUs; this reduces overall \"\n            \"randomness and may affect precision but avoids the cost of re-reading the data\"\n        },\n    )\n    find_unused_parameters: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"disable unused parameter detection (not applicable to \"\n            \"--ddp-backend=legacy_ddp)\"\n        },\n    )\n    gradient_as_bucket_view: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"when set to True, gradients will be views pointing to different offsets of allreduce communication buckets. This can reduce peak memory usage, where the saved memory size will be equal to the total gradients size. \"\n            \"--gradient-as-bucket-view=gradient_as_bucket_view)\"\n        },\n    )\n    fast_stat_sync: bool = field(\n        default=False,\n        metadata={\"help\": \"[deprecated] this is now defined per Criterion\"},\n    )\n    heartbeat_timeout: int = field(\n        default=-1,\n        metadata={\n            \"help\": \"kill the job if no progress is made in N seconds; \"\n            \"set to -1 to disable\"\n        },\n    )\n    broadcast_buffers: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"Copy non-trainable parameters between GPUs, such as \"\n            \"batchnorm population statistics\"\n        },\n    )\n    slowmo_momentum: Optional[float] = field(\n        default=None,\n        metadata={\n            \"help\": \"SlowMo momentum term; by default use 0.0 for 16 GPUs, \"\n            \"0.2 for 32 GPUs; 0.5 for 64 GPUs, 0.6 for > 64 GPUs\"\n        },\n    )\n    slowmo_base_algorithm: str = field(\n        default=\"localsgd\",\n        metadata={\n            \"help\": \"Base algorithm. Either 'localsgd' or 'sgp'. Please refer \"\n            \"to the documentation of 'slowmo_base_algorithm' parameter in \"\n            \"https://fairscale.readthedocs.io/en/latest/api/experimental/nn/slowmo_ddp.html \"\n            \"for more details\"\n        },\n    )\n    localsgd_frequency: int = field(\n        default=3, metadata={\"help\": \"Local SGD allreduce frequency\"}\n    )\n    nprocs_per_node: int = field(\n        default=max(1, torch.cuda.device_count()),\n        metadata={\n            \"help\": \"number of GPUs in each node. An allreduce operation across GPUs in \"\n            \"a node is very fast. Hence, we do allreduce across GPUs in a node, \"\n            \"and gossip across different nodes\"\n        },\n    )\n    pipeline_model_parallel: bool = field(\n        default=False,\n        metadata={\"help\": \"if set, use pipeline model parallelism across GPUs\"},\n    )\n    pipeline_balance: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"partition the model into N_K pieces, where each piece \"\n            \"contains N_i layers. The sum(args.pipeline_balance) \"\n            \"should equal the total number of layers in the model\"\n        },\n    )\n    pipeline_devices: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"a list of device indices indicating which device to place \"\n            \"each of the N_K partitions. The length of this list should \"\n            \"equal the length of the --pipeline-balance argument\"\n        },\n    )\n    pipeline_chunks: Optional[int] = field(\n        default=0, metadata={\"help\": \"microbatch count for pipeline model parallelism\"}\n    )\n    pipeline_encoder_balance: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"partition the pipeline parallel encoder into N_K pieces, where each piece \"\n            \"contains N_i layers. The sum(args.pipeline_encoder_balance) \"\n            \"should equal the total number of encoder layers in the model\"\n        },\n    )\n    pipeline_encoder_devices: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"a list of device indices indicating which device to place \"\n            \"each of the N_K partitions. The length of this list should \"\n            \"equal the length of the --pipeline-encoder-balance argument\"\n        },\n    )\n    pipeline_decoder_balance: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"partition the pipeline parallel decoder into N_K pieces, where each piece \"\n            \"contains N_i layers. The sum(args.pipeline_decoder_balance) \"\n            \"should equal the total number of decoder layers in the model\"\n        },\n    )\n    pipeline_decoder_devices: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"a list of device indices indicating which device to place \"\n            \"each of the N_K partitions. The length of this list should \"\n            \"equal the length of the --pipeline-decoder-balance argument\"\n        },\n    )\n    pipeline_checkpoint: PIPELINE_CHECKPOINT_CHOICES = field(\n        default=\"never\",\n        metadata={\"help\": \"checkpointing mode for pipeline model parallelism\"},\n    )\n    zero_sharding: ZERO_SHARDING_CHOICES = field(\n        default=\"none\", metadata={\"help\": \"ZeRO sharding\"}\n    )\n    fp16: bool = II(\"common.fp16\")\n    memory_efficient_fp16: bool = II(\"common.memory_efficient_fp16\")\n    tpu: bool = II(\"common.tpu\")\n    # configuration for --ddp-backend=fully_sharded\n    no_reshard_after_forward: bool = field(\n        default=False,\n        metadata={\"help\": \"don't reshard parameters after forward pass\"},\n    )\n    fp32_reduce_scatter: bool = field(\n        default=False,\n        metadata={\"help\": \"reduce-scatter grads in FP32\"},\n    )\n    cpu_offload: bool = field(\n        default=False, metadata={\"help\": \"offload FP32 params to CPU\"}\n    )\n    use_sharded_state: bool = field(\n        default=False,\n        metadata={\"help\": \"use sharded checkpoint files\"},\n    )\n    not_fsdp_flatten_parameters: bool = field(\n        default=False,\n        metadata={\"help\": \"not flatten parameter param for fsdp\"},\n    )\n\n\n@dataclass\nclass DatasetConfig(FairseqDataclass):\n    num_workers: int = field(\n        default=1, metadata={\"help\": \"how many subprocesses to use for data loading\"}\n    )\n    skip_invalid_size_inputs_valid_test: bool = field(\n        default=False,\n        metadata={\"help\": \"ignore too long or too short lines in valid and test set\"},\n    )\n    max_tokens: Optional[int] = field(\n        default=None, metadata={\"help\": \"maximum number of tokens in a batch\"}\n    )\n    batch_size: Optional[int] = field(\n        default=None,\n        metadata={\n            \"help\": \"number of examples in a batch\",\n            \"argparse_alias\": \"--max-sentences\",\n        },\n    )\n    required_batch_size_multiple: int = field(\n        default=8, metadata={\"help\": \"batch size will be a multiplier of this value\"}\n    )\n    required_seq_len_multiple: int = field(\n        default=1,\n        metadata={\n            \"help\": \"maximum sequence length in batch will be a multiplier of this value\"\n        },\n    )\n    dataset_impl: Optional[DATASET_IMPL_CHOICES] = field(\n        default=None, metadata={\"help\": \"output dataset implementation\"}\n    )\n    data_buffer_size: int = field(\n        default=10, metadata={\"help\": \"Number of batches to preload\"}\n    )\n    train_subset: str = field(\n        default=\"train\",\n        metadata={\"help\": \"data subset to use for training (e.g. train, valid, test)\"},\n    )\n    valid_subset: str = field(\n        default=\"valid\",\n        metadata={\n            \"help\": \"comma separated list of data subsets to use for validation\"\n            \" (e.g. train, valid, test)\"\n        },\n    )\n    combine_valid_subsets: Optional[bool] = field(\n        default=None,\n        metadata={\n            \"help\": \"comma separated list of data subsets to use for validation\"\n            \" (e.g. train, valid, test)\",\n            \"argparse_alias\": \"--combine-val\",\n        },\n    )\n    ignore_unused_valid_subsets: Optional[bool] = field(\n        default=False,\n        metadata={\"help\": \"do not raise error if valid subsets are ignored\"},\n    )\n\n    validate_interval: int = field(\n        default=1, metadata={\"help\": \"validate every N epochs\"}\n    )\n    validate_interval_updates: int = field(\n        default=0, metadata={\"help\": \"validate every N updates\"}\n    )\n    validate_after_updates: int = field(\n        default=0, metadata={\"help\": \"dont validate until reaching this many updates\"}\n    )\n    fixed_validation_seed: Optional[int] = field(\n        default=None, metadata={\"help\": \"specified random seed for validation\"}\n    )\n    disable_validation: bool = field(\n        default=False, metadata={\"help\": \"disable validation\"}\n    )\n    max_tokens_valid: Optional[int] = field(\n        default=II(\"dataset.max_tokens\"),\n        metadata={\n            \"help\": \"maximum number of tokens in a validation batch\"\n            \" (defaults to --max-tokens)\"\n        },\n    )\n    batch_size_valid: Optional[int] = field(\n        default=II(\"dataset.batch_size\"),\n        metadata={\n            \"help\": \"batch size of the validation batch (defaults to --batch-size)\",\n            \"argparse_alias\": \"--max-sentences-valid\",\n        },\n    )\n    max_valid_steps: Optional[int] = field(\n        default=None,\n        metadata={\"help\": \"How many batches to evaluate\", \"argparse_alias\": \"--nval\"},\n    )\n    curriculum: int = field(\n        default=0, metadata={\"help\": \"don't shuffle batches for first N epochs\"}\n    )\n    gen_subset: str = field(\n        default=\"test\",\n        metadata={\"help\": \"data subset to generate (train, valid, test)\"},\n    )\n    num_shards: int = field(\n        default=1, metadata={\"help\": \"shard generation over N shards\"}\n    )\n    shard_id: int = field(\n        default=0, metadata={\"help\": \"id of the shard to generate (id < num_shards)\"}\n    )\n    grouped_shuffling: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"shuffle batches in groups of num_shards to enable similar sequence lengths on each GPU worker when batches are sorted by length\",\n        },\n    )\n    update_epoch_batch_itr: bool = field(\n        default=II(\"dataset.grouped_shuffling\"),\n        metadata={\n            \"help\": \"if true then prevents the reuse the epoch batch iterator by setting can_reuse_epoch_itr to false, defaults to --grouped-shuffling )\",\n        },\n    )\n    update_ordered_indices_seed: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if true then increment seed with epoch for getting batch iterators, defautls to False.\",\n        },\n    )\n\n\n@dataclass\nclass OptimizationConfig(FairseqDataclass):\n    max_epoch: int = field(\n        default=0, metadata={\"help\": \"force stop training at specified epoch\"}\n    )\n    max_update: int = field(\n        default=0, metadata={\"help\": \"force stop training at specified update\"}\n    )\n    stop_time_hours: float = field(\n        default=0,\n        metadata={\n            \"help\": \"force stop training after specified cumulative time (if >0)\"\n        },\n    )\n    clip_norm: float = field(\n        default=0.0, metadata={\"help\": \"clip threshold of gradients\"}\n    )\n    sentence_avg: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"normalize gradients by the number of sentences in a batch\"\n            \" (default is to normalize by number of tokens)\"\n        },\n    )\n    update_freq: List[int] = field(\n        default_factory=lambda: [1],\n        metadata={\"help\": \"update parameters every N_i batches, when in epoch i\"},\n    )\n    lr: List[float] = field(\n        default_factory=lambda: [0.25],\n        metadata={\n            \"help\": \"learning rate for the first N epochs; all epochs >N using LR_N\"\n            \" (note: this may be interpreted differently depending on --lr-scheduler)\"\n        },\n    )\n    stop_min_lr: float = field(\n        default=-1.0,\n        metadata={\"help\": \"stop training when the learning rate reaches this minimum\"},\n    )\n    use_bmuf: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"specify global optimizer for syncing models on different GPUs/shards\"\n        },\n    )\n    skip_remainder_batch: Optional[bool] = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, include the last (partial) batch of each epoch in training\"\n            \" (default is to skip it).\"\n        },\n    )\n    debug_param_names: bool = False\n\n\n@dataclass\nclass CheckpointConfig(FairseqDataclass):\n    save_dir: str = field(\n        default=\"checkpoints\", metadata={\"help\": \"path to save checkpoints\"}\n    )\n    restore_file: str = field(\n        default=\"checkpoint_last.pt\",\n        metadata={\n            \"help\": \"filename from which to load checkpoint \"\n            \"(default: <save-dir>/checkpoint_last.pt\"\n        },\n    )\n    continue_once: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"continues from this checkpoint, unless a checkpoint indicated in 'restore_file' option is present\"\n        },\n    )\n    finetune_from_model: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"finetune from a pretrained model; note that meters and lr scheduler will be reset\"\n        },\n    )\n    reset_dataloader: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, does not reload dataloader state from the checkpoint\"\n        },\n    )\n    reset_lr_scheduler: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, does not load lr scheduler state from the checkpoint\"\n        },\n    )\n    reset_meters: bool = field(\n        default=False,\n        metadata={\"help\": \"if set, does not load meters from the checkpoint\"},\n    )\n    reset_optimizer: bool = field(\n        default=False,\n        metadata={\"help\": \"if set, does not load optimizer state from the checkpoint\"},\n    )\n    optimizer_overrides: str = field(\n        default=\"{}\",\n        metadata={\n            \"help\": \"a dictionary used to override optimizer args when loading a checkpoint\"\n        },\n    )\n    save_interval: int = field(\n        default=1, metadata={\"help\": \"save a checkpoint every N epochs\"}\n    )\n    save_interval_updates: int = field(\n        default=0, metadata={\"help\": \"save a checkpoint (and validate) every N updates\"}\n    )\n    keep_interval_updates: int = field(\n        default=-1,\n        metadata={\n            \"help\": \"keep the last N checkpoints saved with --save-interval-updates\"\n        },\n    )\n    keep_interval_updates_pattern: int = field(\n        default=-1,\n        metadata={\n            \"help\": \"when used with --keep-interval-updates, skips deleting \"\n            \"any checkpoints with update X where \"\n            \"X %% keep_interval_updates_pattern == 0\"\n        },\n    )\n    keep_last_epochs: int = field(\n        default=-1, metadata={\"help\": \"keep last N epoch checkpoints\"}\n    )\n    keep_best_checkpoints: int = field(\n        default=-1, metadata={\"help\": \"keep best N checkpoints based on scores\"}\n    )\n    no_save: bool = field(\n        default=False, metadata={\"help\": \"don't save models or checkpoints\"}\n    )\n    no_epoch_checkpoints: bool = field(\n        default=False, metadata={\"help\": \"only store last and best checkpoints\"}\n    )\n    no_last_checkpoints: bool = field(\n        default=False, metadata={\"help\": \"don't store last checkpoints\"}\n    )\n    no_save_optimizer_state: bool = field(\n        default=False,\n        metadata={\"help\": \"don't save optimizer-state as part of checkpoint\"},\n    )\n    best_checkpoint_metric: str = field(\n        default=\"loss\", metadata={\"help\": 'metric to use for saving \"best\" checkpoints'}\n    )\n    maximize_best_checkpoint_metric: bool = field(\n        default=False,\n        metadata={\n            \"help\": 'select the largest metric value for saving \"best\" checkpoints'\n        },\n    )\n    patience: int = field(\n        default=-1,\n        metadata={\n            \"help\": (\n                \"early stop training if valid performance doesn't \"\n                \"improve for N consecutive validation runs; note \"\n                \"that this is influenced by --validate-interval\"\n            )\n        },\n    )\n    checkpoint_suffix: str = field(\n        default=\"\", metadata={\"help\": \"suffix to add to the checkpoint file name\"}\n    )\n    checkpoint_shard_count: int = field(\n        default=1,\n        metadata={\n            \"help\": \"Number of shards containing the checkpoint - \"\n            \"if the checkpoint is over 300GB, it is preferable \"\n            \"to split it into shards to prevent OOM on CPU while loading \"\n            \"the checkpoint\"\n        },\n    )\n    load_checkpoint_on_all_dp_ranks: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"load checkpoints on all data parallel devices \"\n            \"(default: only load on rank 0 and broadcast to other devices)\"\n        },\n    )\n    write_checkpoints_asynchronously: bool = field(\n        default=False,\n        metadata={\n            \"help\": (\n                \"Write checkpoints asynchronously in a separate \"\n                \"thread. NOTE: This feature is currently being tested.\"\n            ),\n            \"argparse_alias\": \"--save-async\",\n        },\n    )\n    model_parallel_size: int = II(\"common.model_parallel_size\")\n\n\n@dataclass\nclass FairseqBMUFConfig(FairseqDataclass):\n    block_lr: float = field(\n        default=1, metadata={\"help\": \"block learning rate for bmuf\"}\n    )\n    block_momentum: float = field(\n        default=0.875, metadata={\"help\": \"block momentum for bmuf\"}\n    )\n    global_sync_iter: int = field(\n        default=50, metadata={\"help\": \"Iteration for syncing global model\"}\n    )\n    warmup_iterations: int = field(\n        default=500, metadata={\"help\": \"warmup iterations for model to broadcast\"}\n    )\n    use_nbm: bool = field(\n        default=False,\n        metadata={\"help\": \"Specify whether you want to use classical BM / Nesterov BM\"},\n    )\n    average_sync: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"Specify whether you want to average the local momentum after each sync\"\n        },\n    )\n    distributed_world_size: int = II(\"distributed_training.distributed_world_size\")\n\n\n@dataclass\nclass GenerationConfig(FairseqDataclass):\n    beam: int = field(\n        default=5,\n        metadata={\"help\": \"beam size\"},\n    )\n    beam_mt: int = field(\n        default=0,\n        metadata={\"help\": \"beam size for the first-pass decoder\"},\n    )\n    nbest: int = field(\n        default=1,\n        metadata={\"help\": \"number of hypotheses to output\"},\n    )\n    max_len_a: float = field(\n        default=0,\n        metadata={\n            \"help\": \"generate sequences of maximum length ax + b, where x is the source length\"\n        },\n    )\n    max_len_b: int = field(\n        default=200,\n        metadata={\n            \"help\": \"generate sequences of maximum length ax + b, where x is the source length\"\n        },\n    )\n    max_len_a_mt: float = field(\n        default=0,\n        metadata={\n            \"help\": \"generate sequences of maximum length ax + b, where x is the source length for the first-pass decoder\"\n        },\n    )\n    max_len_b_mt: int = field(\n        default=200,\n        metadata={\n            \"help\": \"generate sequences of maximum length ax + b, where x is the source length for the first-pass decoder\"\n        },\n    )\n    min_len: int = field(\n        default=1,\n        metadata={\"help\": \"minimum generation length\"},\n    )\n    match_source_len: bool = field(\n        default=False,\n        metadata={\"help\": \"generations should match the source length\"},\n    )\n    unnormalized: bool = field(\n        default=False,\n        metadata={\"help\": \"compare unnormalized hypothesis scores\"},\n    )\n    no_early_stop: bool = field(\n        default=False,\n        metadata={\"help\": \"deprecated\"},\n    )\n    no_beamable_mm: bool = field(\n        default=False,\n        metadata={\"help\": \"don't use BeamableMM in attention layers\"},\n    )\n    lenpen: float = field(\n        default=1,\n        metadata={\n            \"help\": \"length penalty: <1.0 favors shorter, >1.0 favors longer sentences\"\n        },\n    )\n    lenpen_mt: float = field(\n        default=1,\n        metadata={\n            \"help\": \"length penalty for the first-pass decoder: <1.0 favors shorter, >1.0 favors longer sentences\"\n        },\n    )\n    unkpen: float = field(\n        default=0,\n        metadata={\n            \"help\": \"unknown word penalty: <0 produces more unks, >0 produces fewer\"\n        },\n    )\n    replace_unk: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"perform unknown replacement (optionally with alignment dictionary)\",\n            \"argparse_const\": \"@@ \",\n        },\n    )\n    sacrebleu: bool = field(\n        default=False,\n        metadata={\"help\": \"score with sacrebleu\"},\n    )\n    score_reference: bool = field(\n        default=False,\n        metadata={\"help\": \"just score the reference translation\"},\n    )\n    prefix_size: int = field(\n        default=0,\n        metadata={\"help\": \"initialize generation by target prefix of given length\"},\n    )\n    no_repeat_ngram_size: int = field(\n        default=0,\n        metadata={\n            \"help\": \"ngram blocking such that this size ngram cannot be repeated in the generation\"\n        },\n    )\n    sampling: bool = field(\n        default=False,\n        metadata={\"help\": \"sample hypotheses instead of using beam search\"},\n    )\n    sampling_topk: int = field(\n        default=-1,\n        metadata={\"help\": \"sample from top K likely next words instead of all words\"},\n    )\n    sampling_topp: float = field(\n        default=-1.0,\n        metadata={\n            \"help\": \"sample from the smallest set whose cumulative probability mass exceeds p for next words\"\n        },\n    )\n    constraints: Optional[GENERATION_CONSTRAINTS_CHOICES] = field(\n        default=None,\n        metadata={\n            \"help\": \"enables lexically constrained decoding\",\n            \"argparse_const\": \"ordered\",\n        },\n    )\n    temperature: float = field(\n        default=1.0,\n        metadata={\"help\": \"temperature for generation\"},\n    )\n    diverse_beam_groups: int = field(\n        default=-1,\n        metadata={\"help\": \"number of groups for Diverse Beam Search\"},\n    )\n    diverse_beam_strength: float = field(\n        default=0.5,\n        metadata={\"help\": \"strength of diversity penalty for Diverse Beam Search\"},\n    )\n    diversity_rate: float = field(\n        default=-1.0,\n        metadata={\"help\": \"strength of diversity penalty for Diverse Siblings Search\"},\n    )\n    print_alignment: Optional[PRINT_ALIGNMENT_CHOICES] = field(\n        default=None,\n        metadata={\n            \"help\": \"if set, uses attention feedback to compute and print alignment to source tokens \"\n            \"(valid options are: hard, soft, otherwise treated as hard alignment)\",\n            \"argparse_const\": \"hard\",\n        },\n    )\n    print_step: bool = field(\n        default=False,\n        metadata={\"help\": \"print steps\"},\n    )\n    lm_path: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"path to lm checkpoint for lm fusion\"},\n    )\n    lm_weight: float = field(\n        default=0.0,\n        metadata={\"help\": \"weight for lm probs for lm fusion\"},\n    )\n\n    # arguments for iterative refinement generator\n    iter_decode_eos_penalty: float = field(\n        default=0.0,\n        metadata={\"help\": \"if > 0.0, it penalized early-stopping in decoding.\"},\n    )\n    iter_decode_max_iter: int = field(\n        default=10,\n        metadata={\"help\": \"maximum iterations for iterative refinement.\"},\n    )\n    iter_decode_force_max_iter: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, run exact the maximum number of iterations without early stop\"\n        },\n    )\n    iter_decode_with_beam: int = field(\n        default=1,\n        metadata={\n            \"help\": \"if > 1, model will generate translations varying by the lengths.\"\n        },\n    )\n    iter_decode_with_external_reranker: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, the last checkpoint are assumed to be a reranker to rescore the translations\"\n        },\n    )\n    retain_iter_history: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, decoding returns the whole history of iterative refinement\"\n        },\n    )\n    retain_dropout: bool = field(\n        default=False,\n        metadata={\"help\": \"Use dropout at inference time\"},\n    )\n    # temporarily set to Any until https://github.com/facebookresearch/hydra/issues/1117 is fixed\n    # retain_dropout_modules: Optional[List[str]] = field(\n    retain_dropout_modules: Any = field(\n        default=None,\n        metadata={\n            \"help\": \"if set, only retain dropout for the specified modules; \"\n            \"if not set, then dropout will be retained for all modules\"\n        },\n    )\n    # special decoding format for advanced decoding.\n    decoding_format: Optional[GENERATION_DECODING_FORMAT_CHOICES] = field(\n        default=None,\n        metadata={\"help\": \"special decoding format for advanced decoding.\"},\n    )\n    no_seed_provided: bool = field(\n        default=False,\n        metadata={\"help\": \"if set, dont use seed for initializing random generators\"},\n    )\n    eos_token: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"EOS token\"},\n    )\n\n\n@dataclass\nclass CommonEvalConfig(FairseqDataclass):\n    path: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"path(s) to model file(s), colon separated\"},\n    )\n    post_process: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": (\n                \"post-process text by removing BPE, letter segmentation, etc. \"\n                \"Valid options can be found in fairseq.data.utils.post_process.\"\n            ),\n            \"argparse_const\": \"subword_nmt\",\n            \"argparse_alias\": \"--remove-bpe\",\n        },\n    )\n    quiet: bool = field(default=False, metadata={\"help\": \"only print final scores\"})\n    model_overrides: str = field(\n        default=\"{}\",\n        metadata={\n            \"help\": \"a dictionary used to override model args at generation that were used during model training\"\n        },\n    )\n    results_path: Optional[str] = field(\n        default=None, metadata={\"help\": \"path to save eval results (optional)\"}\n    )\n\n\n@dataclass\nclass EvalLMConfig(FairseqDataclass):\n    output_word_probs: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, outputs words and their predicted log probabilities to standard output\"\n        },\n    )\n    output_word_stats: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, outputs word statistics such as word count, average probability, etc\"\n        },\n    )\n    context_window: int = field(\n        default=0,\n        metadata={\n            \"help\": \"ensures that every evaluated token has access to a context of at least this size, if possible\"\n        },\n    )\n    softmax_batch: int = field(\n        default=sys.maxsize,\n        metadata={\n            \"help\": \"if BxT is more than this, will batch the softmax over vocab to this amount of tokens, in order to fit into GPU memory\"\n        },\n    )\n\n\n@dataclass\nclass InteractiveConfig(FairseqDataclass):\n    buffer_size: int = field(\n        default=0,\n        metadata={\n            \"help\": \"read this many sentences into a buffer before processing them\"\n        },\n    )\n    input: str = field(\n        default=\"-\",\n        metadata={\"help\": \"file to read from; use - for stdin\"},\n    )\n\n\n@dataclass\nclass EMAConfig(FairseqDataclass):\n    store_ema: bool = field(\n        default=False, metadata={help: \"store exponential moving average shadow model\"}\n    )\n    ema_decay: float = field(\n        default=0.9999, metadata={\"help\": \"decay for exponential moving average model\"}\n    )\n    ema_start_update: int = field(\n        default=0, metadata={\"help\": \"start EMA update after this many model updates\"}\n    )\n    ema_seed_model: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"Seed to load EMA model from. \"\n            \"Used to load EMA model separately from the actual model.\"\n        },\n    )\n    ema_update_freq: int = field(\n        default=1, metadata={\"help\": \"Do EMA update every this many model updates\"}\n    )\n    ema_fp32: bool = field(\n        default=False,\n        metadata={\"help\": \"If true, store EMA model in fp32 even if model is in fp16\"},\n    )\n\n\n@dataclass\nclass FairseqConfig(FairseqDataclass):\n    common: CommonConfig = CommonConfig()\n    common_eval: CommonEvalConfig = CommonEvalConfig()\n    distributed_training: DistributedTrainingConfig = DistributedTrainingConfig()\n    dataset: DatasetConfig = DatasetConfig()\n    optimization: OptimizationConfig = OptimizationConfig()\n    checkpoint: CheckpointConfig = CheckpointConfig()\n    bmuf: FairseqBMUFConfig = FairseqBMUFConfig()\n    generation: GenerationConfig = GenerationConfig()\n    eval_lm: EvalLMConfig = EvalLMConfig()\n    interactive: InteractiveConfig = InteractiveConfig()\n    model: Any = MISSING\n    task: Any = None\n    criterion: Any = None\n    optimizer: Any = None\n    lr_scheduler: Any = None\n    scoring: Any = None\n    bpe: Any = None\n    tokenizer: Any = None\n    ema: EMAConfig = EMAConfig()\n"
  },
  {
    "path": "fairseq/dataclass/constants.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom enum import Enum, EnumMeta\nfrom typing import List\n\n\nclass StrEnumMeta(EnumMeta):\n    # this is workaround for submitit pickling leading to instance checks failing in hydra for StrEnum, see\n    # https://github.com/facebookresearch/hydra/issues/1156\n    @classmethod\n    def __instancecheck__(cls, other):\n        return \"enum\" in str(type(other))\n\n\nclass StrEnum(Enum, metaclass=StrEnumMeta):\n    def __str__(self):\n        return self.value\n\n    def __eq__(self, other: str):\n        return self.value == other\n\n    def __repr__(self):\n        return self.value\n\n    def __hash__(self):\n        return hash(str(self))\n\n\ndef ChoiceEnum(choices: List[str]):\n    \"\"\"return the Enum class used to enforce list of choices\"\"\"\n    return StrEnum(\"Choices\", {k: k for k in choices})\n\n\nLOG_FORMAT_CHOICES = ChoiceEnum([\"json\", \"none\", \"simple\", \"tqdm\"])\nDDP_BACKEND_CHOICES = ChoiceEnum(\n    [\n        \"c10d\",  # alias for pytorch_ddp\n        \"fully_sharded\",  # FullyShardedDataParallel from fairscale\n        \"legacy_ddp\",\n        \"no_c10d\",  # alias for legacy_ddp\n        \"pytorch_ddp\",\n        \"slowmo\",\n    ]\n)\nDDP_COMM_HOOK_CHOICES = ChoiceEnum([\"none\", \"fp16\"])\nDATASET_IMPL_CHOICES = ChoiceEnum([\"raw\", \"lazy\", \"cached\", \"mmap\", \"fasta\", \"huffman\"])\nGENERATION_CONSTRAINTS_CHOICES = ChoiceEnum([\"ordered\", \"unordered\"])\nGENERATION_DECODING_FORMAT_CHOICES = ChoiceEnum(\n    [\"unigram\", \"ensemble\", \"vote\", \"dp\", \"bs\"]\n)\nZERO_SHARDING_CHOICES = ChoiceEnum([\"none\", \"os\"])\nPIPELINE_CHECKPOINT_CHOICES = ChoiceEnum([\"always\", \"never\", \"except_last\"])\nPRINT_ALIGNMENT_CHOICES = ChoiceEnum([\"hard\", \"soft\"])\n"
  },
  {
    "path": "fairseq/dataclass/initialize.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"isort:skip_file\"\"\"\n\nimport logging\nfrom hydra.core.config_store import ConfigStore\nfrom fairseq.dataclass.configs import FairseqConfig\nfrom omegaconf import DictConfig, OmegaConf\n\n\nlogger = logging.getLogger(__name__)\n\n\ndef hydra_init(cfg_name=\"config\") -> None:\n\n    cs = ConfigStore.instance()\n    cs.store(name=f\"{cfg_name}\", node=FairseqConfig)\n\n    for k in FairseqConfig.__dataclass_fields__:\n        v = FairseqConfig.__dataclass_fields__[k].default\n        try:\n            cs.store(name=k, node=v)\n        except BaseException:\n            logger.error(f\"{k} - {v}\")\n            raise\n\n\ndef add_defaults(cfg: DictConfig) -> None:\n    \"\"\"This function adds default values that are stored in dataclasses that hydra doesn't know about\"\"\"\n\n    from fairseq.registry import REGISTRIES\n    from fairseq.tasks import TASK_DATACLASS_REGISTRY\n    from fairseq.models import ARCH_MODEL_NAME_REGISTRY, MODEL_DATACLASS_REGISTRY\n    from fairseq.dataclass.utils import merge_with_parent\n    from typing import Any\n\n    OmegaConf.set_struct(cfg, False)\n\n    for k, v in FairseqConfig.__dataclass_fields__.items():\n        field_cfg = cfg.get(k)\n        if field_cfg is not None and v.type == Any:\n            dc = None\n\n            if isinstance(field_cfg, str):\n                field_cfg = DictConfig({\"_name\": field_cfg})\n                field_cfg.__dict__[\"_parent\"] = field_cfg.__dict__[\"_parent\"]\n\n            name = getattr(field_cfg, \"_name\", None)\n\n            if k == \"task\":\n                dc = TASK_DATACLASS_REGISTRY.get(name)\n            elif k == \"model\":\n                name = ARCH_MODEL_NAME_REGISTRY.get(name, name)\n                dc = MODEL_DATACLASS_REGISTRY.get(name)\n            elif k in REGISTRIES:\n                dc = REGISTRIES[k][\"dataclass_registry\"].get(name)\n\n            if dc is not None:\n                cfg[k] = merge_with_parent(dc, field_cfg)\n"
  },
  {
    "path": "fairseq/dataclass/utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport ast\nimport inspect\nimport logging\nimport os\nimport re\nfrom argparse import ArgumentError, ArgumentParser, Namespace\nfrom dataclasses import _MISSING_TYPE, MISSING, is_dataclass\nfrom enum import Enum\nfrom typing import Any, Dict, List, Optional, Tuple, Type\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.dataclass.configs import FairseqConfig\nfrom hydra.core.global_hydra import GlobalHydra\nfrom hydra.experimental import compose, initialize\nfrom omegaconf import DictConfig, OmegaConf, open_dict, _utils\n\nlogger = logging.getLogger(__name__)\n\n\ndef eval_str_list(x, x_type=float):\n    if x is None:\n        return None\n    if isinstance(x, str):\n        if len(x) == 0:\n            return []\n        x = ast.literal_eval(x)\n    try:\n        return list(map(x_type, x))\n    except TypeError:\n        return [x_type(x)]\n\n\ndef interpret_dc_type(field_type):\n    if isinstance(field_type, str):\n        raise RuntimeError(\"field should be a type\")\n\n    if field_type == Any:\n        return str\n\n    typestring = str(field_type)\n    if re.match(\n        r\"(typing.|^)Union\\[(.*), NoneType\\]$\", typestring\n    ) or typestring.startswith(\"typing.Optional\"):\n        return field_type.__args__[0]\n    return field_type\n\n\ndef gen_parser_from_dataclass(\n    parser: ArgumentParser,\n    dataclass_instance: FairseqDataclass,\n    delete_default: bool = False,\n    with_prefix: Optional[str] = None,\n) -> None:\n    \"\"\"\n    convert a dataclass instance to tailing parser arguments.\n\n    If `with_prefix` is provided, prefix all the keys in the resulting parser with it. It means that we are\n    building a flat namespace from a structured dataclass (see transformer_config.py for example).\n    \"\"\"\n\n    def argparse_name(name: str):\n        if name == \"data\" and (with_prefix is None or with_prefix == \"\"):\n            # normally data is positional args, so we don't add the -- nor the prefix\n            return name\n        if name == \"_name\":\n            # private member, skip\n            return None\n        full_name = \"--\" + name.replace(\"_\", \"-\")\n        if with_prefix is not None and with_prefix != \"\":\n            # if a prefix is specified, construct the prefixed arg name\n            full_name = with_prefix + \"-\" + full_name[2:]  # strip -- when composing\n        return full_name\n\n    def get_kwargs_from_dc(\n        dataclass_instance: FairseqDataclass, k: str\n    ) -> Dict[str, Any]:\n        \"\"\"k: dataclass attributes\"\"\"\n\n        kwargs = {}\n\n        field_type = dataclass_instance._get_type(k)\n        inter_type = interpret_dc_type(field_type)\n\n        field_default = dataclass_instance._get_default(k)\n\n        if isinstance(inter_type, type) and issubclass(inter_type, Enum):\n            field_choices = [t.value for t in list(inter_type)]\n        else:\n            field_choices = None\n\n        field_help = dataclass_instance._get_help(k)\n        field_const = dataclass_instance._get_argparse_const(k)\n\n        if isinstance(field_default, str) and field_default.startswith(\"${\"):\n            kwargs[\"default\"] = field_default\n        else:\n            if field_default is MISSING:\n                kwargs[\"required\"] = True\n            if field_choices is not None:\n                kwargs[\"choices\"] = field_choices\n            if (\n                isinstance(inter_type, type)\n                and (issubclass(inter_type, List) or issubclass(inter_type, Tuple))\n            ) or (\"List\" in str(inter_type) or \"Tuple\" in str(inter_type)):\n                if \"int\" in str(inter_type):\n                    kwargs[\"type\"] = lambda x: eval_str_list(x, int)\n                elif \"float\" in str(inter_type):\n                    kwargs[\"type\"] = lambda x: eval_str_list(x, float)\n                elif \"str\" in str(inter_type):\n                    kwargs[\"type\"] = lambda x: eval_str_list(x, str)\n                else:\n                    raise NotImplementedError(\n                        \"parsing of type \" + str(inter_type) + \" is not implemented\"\n                    )\n                if field_default is not MISSING:\n                    kwargs[\"default\"] = (\n                        \",\".join(map(str, field_default))\n                        if field_default is not None\n                        else None\n                    )\n            elif (\n                isinstance(inter_type, type) and issubclass(inter_type, Enum)\n            ) or \"Enum\" in str(inter_type):\n                kwargs[\"type\"] = str\n                if field_default is not MISSING:\n                    if isinstance(field_default, Enum):\n                        kwargs[\"default\"] = field_default.value\n                    else:\n                        kwargs[\"default\"] = field_default\n            elif inter_type is bool:\n                kwargs[\"action\"] = (\n                    \"store_false\" if field_default is True else \"store_true\"\n                )\n                kwargs[\"default\"] = field_default\n            else:\n                kwargs[\"type\"] = inter_type\n                if field_default is not MISSING:\n                    kwargs[\"default\"] = field_default\n\n        # build the help with the hierarchical prefix\n        if with_prefix is not None and with_prefix != \"\" and field_help is not None:\n            field_help = with_prefix[2:] + \": \" + field_help\n\n        kwargs[\"help\"] = field_help\n        if field_const is not None:\n            kwargs[\"const\"] = field_const\n            kwargs[\"nargs\"] = \"?\"\n\n        return kwargs\n\n    for k in dataclass_instance._get_all_attributes():\n        field_name = argparse_name(dataclass_instance._get_name(k))\n        field_type = dataclass_instance._get_type(k)\n        if field_name is None:\n            continue\n        elif inspect.isclass(field_type) and issubclass(field_type, FairseqDataclass):\n            # for fields that are of type FairseqDataclass, we can recursively\n            # add their fields to the namespace (so we add the args from model, task, etc. to the root namespace)\n            prefix = None\n            if with_prefix is not None:\n                # if a prefix is specified, then we don't want to copy the subfields directly to the root namespace\n                # but we prefix them with the name of the current field.\n                prefix = field_name\n            gen_parser_from_dataclass(parser, field_type(), delete_default, prefix)\n            continue\n\n        kwargs = get_kwargs_from_dc(dataclass_instance, k)\n\n        field_args = [field_name]\n        alias = dataclass_instance._get_argparse_alias(k)\n        if alias is not None:\n            field_args.append(alias)\n\n        if \"default\" in kwargs:\n            if isinstance(kwargs[\"default\"], str) and kwargs[\"default\"].startswith(\n                \"${\"\n            ):\n                if kwargs[\"help\"] is None:\n                    # this is a field with a name that will be added elsewhere\n                    continue\n                else:\n                    del kwargs[\"default\"]\n            if delete_default and \"default\" in kwargs:\n                del kwargs[\"default\"]\n        try:\n            parser.add_argument(*field_args, **kwargs)\n        except ArgumentError:\n            pass\n\n\ndef _set_legacy_defaults(args, cls):\n    \"\"\"Helper to set default arguments based on *add_args*.\"\"\"\n    if not hasattr(cls, \"add_args\"):\n        return\n\n    import argparse\n\n    parser = argparse.ArgumentParser(\n        argument_default=argparse.SUPPRESS, allow_abbrev=False\n    )\n    cls.add_args(parser)\n    # copied from argparse.py:\n    defaults = argparse.Namespace()\n    for action in parser._actions:\n        if action.dest is not argparse.SUPPRESS:\n            if not hasattr(defaults, action.dest):\n                if action.default is not argparse.SUPPRESS:\n                    setattr(defaults, action.dest, action.default)\n    for key, default_value in vars(defaults).items():\n        if not hasattr(args, key):\n            setattr(args, key, default_value)\n\n\ndef _override_attr(\n    sub_node: str, data_class: Type[FairseqDataclass], args: Namespace\n) -> List[str]:\n    overrides = []\n\n    if not inspect.isclass(data_class) or not issubclass(data_class, FairseqDataclass):\n        return overrides\n\n    def get_default(f):\n        if not isinstance(f.default_factory, _MISSING_TYPE):\n            return f.default_factory()\n        return f.default\n\n    for k, v in data_class.__dataclass_fields__.items():\n        if k.startswith(\"_\"):\n            # private member, skip\n            continue\n\n        val = get_default(v) if not hasattr(args, k) else getattr(args, k)\n\n        field_type = interpret_dc_type(v.type)\n        if (\n            isinstance(val, str)\n            and not val.startswith(\"${\")  # not interpolation\n            and field_type != str\n            and (\n                not inspect.isclass(field_type) or not issubclass(field_type, Enum)\n            )  # not choices enum\n        ):\n            # upgrade old models that stored complex parameters as string\n            val = ast.literal_eval(val)\n\n        if isinstance(val, tuple):\n            val = list(val)\n\n        v_type = getattr(v.type, \"__origin__\", None)\n        if (\n            (v_type is List or v_type is list or v_type is Optional)\n            # skip interpolation\n            and not (isinstance(val, str) and val.startswith(\"${\"))\n        ):\n            # if type is int but val is float, then we will crash later - try to convert here\n            if hasattr(v.type, \"__args__\"):\n                t_args = v.type.__args__\n                if len(t_args) == 1 and (t_args[0] is float or t_args[0] is int):\n                    val = list(map(t_args[0], val))\n        elif val is not None and (\n            field_type is int or field_type is bool or field_type is float\n        ):\n            try:\n                val = field_type(val)\n            except:\n                pass  # ignore errors here, they are often from interpolation args\n\n        if val is None:\n            overrides.append(\"{}.{}=null\".format(sub_node, k))\n        elif val == \"\":\n            overrides.append(\"{}.{}=''\".format(sub_node, k))\n        elif isinstance(val, str):\n            val = val.replace(\"'\", r\"\\'\")\n            overrides.append(\"{}.{}='{}'\".format(sub_node, k, val))\n        elif isinstance(val, FairseqDataclass):\n            overrides += _override_attr(f\"{sub_node}.{k}\", type(val), args)\n        elif isinstance(val, Namespace):\n            sub_overrides, _ = override_module_args(val)\n            for so in sub_overrides:\n                overrides.append(f\"{sub_node}.{k}.{so}\")\n        else:\n            overrides.append(\"{}.{}={}\".format(sub_node, k, val))\n\n    return overrides\n\n\ndef migrate_registry(\n    name, value, registry, args, overrides, deletes, use_name_as_val=False\n):\n    if value in registry:\n        overrides.append(\"{}={}\".format(name, value))\n        overrides.append(\"{}._name={}\".format(name, value))\n        overrides.extend(_override_attr(name, registry[value], args))\n    elif use_name_as_val and value is not None:\n        overrides.append(\"{}={}\".format(name, value))\n    else:\n        deletes.append(name)\n\n\ndef override_module_args(args: Namespace) -> Tuple[List[str], List[str]]:\n    \"\"\"use the field in args to overrides those in cfg\"\"\"\n    overrides = []\n    deletes = []\n\n    for k in FairseqConfig.__dataclass_fields__.keys():\n        overrides.extend(\n            _override_attr(k, FairseqConfig.__dataclass_fields__[k].type, args)\n        )\n\n    if args is not None:\n        if hasattr(args, \"task\"):\n            from fairseq.tasks import TASK_DATACLASS_REGISTRY\n\n            migrate_registry(\n                \"task\", args.task, TASK_DATACLASS_REGISTRY, args, overrides, deletes\n            )\n        else:\n            deletes.append(\"task\")\n\n        # these options will be set to \"None\" if they have not yet been migrated\n        # so we can populate them with the entire flat args\n        CORE_REGISTRIES = {\"criterion\", \"optimizer\", \"lr_scheduler\"}\n\n        from fairseq.registry import REGISTRIES\n\n        for k, v in REGISTRIES.items():\n            if hasattr(args, k):\n                migrate_registry(\n                    k,\n                    getattr(args, k),\n                    v[\"dataclass_registry\"],\n                    args,\n                    overrides,\n                    deletes,\n                    use_name_as_val=k not in CORE_REGISTRIES,\n                )\n            else:\n                deletes.append(k)\n\n        no_dc = True\n        if hasattr(args, \"arch\"):\n            from fairseq.models import ARCH_MODEL_REGISTRY, ARCH_MODEL_NAME_REGISTRY\n\n            if args.arch in ARCH_MODEL_REGISTRY:\n                m_cls = ARCH_MODEL_REGISTRY[args.arch]\n                dc = getattr(m_cls, \"__dataclass\", None)\n                if dc is not None:\n                    m_name = ARCH_MODEL_NAME_REGISTRY[args.arch]\n                    overrides.append(\"model={}\".format(m_name))\n                    overrides.append(\"model._name={}\".format(args.arch))\n                    # override model params with those exist in args\n                    overrides.extend(_override_attr(\"model\", dc, args))\n                    no_dc = False\n        if no_dc:\n            deletes.append(\"model\")\n\n    return overrides, deletes\n\n\nclass omegaconf_no_object_check:\n    def __init__(self):\n        # Changed in https://github.com/omry/omegaconf/pull/911 - both are kept for back compat.\n        if hasattr(_utils, \"is_primitive_type\"):\n            self.old_is_primitive = _utils.is_primitive_type\n        else:\n            self.old_is_primitive = _utils.is_primitive_type_annotation\n\n    def __enter__(self):\n        if hasattr(_utils, \"is_primitive_type\"):\n            _utils.is_primitive_type = lambda _: True\n        else:\n            _utils.is_primitive_type_annotation = lambda _: True\n\n    def __exit__(self, type, value, traceback):\n        if hasattr(_utils, \"is_primitive_type\"):\n            _utils.is_primitive_type = self.old_is_primitive\n        else:\n            _utils.is_primitive_type_annotation = self.old_is_primitive\n\n\ndef convert_namespace_to_omegaconf(args: Namespace) -> DictConfig:\n    \"\"\"Convert a flat argparse.Namespace to a structured DictConfig.\"\"\"\n\n    # Here we are using field values provided in args to override counterparts inside config object\n    overrides, deletes = override_module_args(args)\n\n    # configs will be in fairseq/config after installation\n    config_path = os.path.join(\"..\", \"config\")\n\n    GlobalHydra.instance().clear()\n\n    with initialize(config_path=config_path):\n        try:\n            composed_cfg = compose(\"config\", overrides=overrides, strict=False)\n        except:\n            logger.error(\"Error when composing. Overrides: \" + str(overrides))\n            raise\n\n        for k in deletes:\n            composed_cfg[k] = None\n\n    cfg = OmegaConf.create(\n        OmegaConf.to_container(composed_cfg, resolve=True, enum_to_str=True)\n    )\n\n    # hack to be able to set Namespace in dict config. this should be removed when we update to newer\n    # omegaconf version that supports object flags, or when we migrate all existing models\n    from omegaconf import _utils\n\n    with omegaconf_no_object_check():\n        if cfg.task is None and getattr(args, \"task\", None):\n            cfg.task = Namespace(**vars(args))\n            from fairseq.tasks import TASK_REGISTRY\n\n            _set_legacy_defaults(cfg.task, TASK_REGISTRY[args.task])\n            cfg.task._name = args.task\n        if cfg.model is None and getattr(args, \"arch\", None):\n            cfg.model = Namespace(**vars(args))\n            from fairseq.models import ARCH_MODEL_REGISTRY\n\n            _set_legacy_defaults(cfg.model, ARCH_MODEL_REGISTRY[args.arch])\n            cfg.model._name = args.arch\n        if cfg.optimizer is None and getattr(args, \"optimizer\", None):\n            cfg.optimizer = Namespace(**vars(args))\n            from fairseq.optim import OPTIMIZER_REGISTRY\n\n            _set_legacy_defaults(cfg.optimizer, OPTIMIZER_REGISTRY[args.optimizer])\n            cfg.optimizer._name = args.optimizer\n        if cfg.lr_scheduler is None and getattr(args, \"lr_scheduler\", None):\n            cfg.lr_scheduler = Namespace(**vars(args))\n            from fairseq.optim.lr_scheduler import LR_SCHEDULER_REGISTRY\n\n            _set_legacy_defaults(\n                cfg.lr_scheduler, LR_SCHEDULER_REGISTRY[args.lr_scheduler]\n            )\n            cfg.lr_scheduler._name = args.lr_scheduler\n        if cfg.criterion is None and getattr(args, \"criterion\", None):\n            cfg.criterion = Namespace(**vars(args))\n            from fairseq.criterions import CRITERION_REGISTRY\n\n            _set_legacy_defaults(cfg.criterion, CRITERION_REGISTRY[args.criterion])\n            cfg.criterion._name = args.criterion\n\n    OmegaConf.set_struct(cfg, True)\n    return cfg\n\n\ndef overwrite_args_by_name(cfg: DictConfig, overrides: Dict[str, any]):\n    # this will be deprecated when we get rid of argparse and model_overrides logic\n\n    from fairseq.registry import REGISTRIES\n\n    with open_dict(cfg):\n        for k in cfg.keys():\n            # \"k in cfg\" will return false if its a \"mandatory value (e.g. ???)\"\n            if k in cfg and isinstance(cfg[k], DictConfig):\n                if k in overrides and isinstance(overrides[k], dict):\n                    for ok, ov in overrides[k].items():\n                        if isinstance(ov, dict) and cfg[k][ok] is not None:\n                            overwrite_args_by_name(cfg[k][ok], ov)\n                        else:\n                            cfg[k][ok] = ov\n                else:\n                    overwrite_args_by_name(cfg[k], overrides)\n            elif k in cfg and isinstance(cfg[k], Namespace):\n                for override_key, val in overrides.items():\n                    setattr(cfg[k], override_key, val)\n            elif k in overrides:\n                if (\n                    k in REGISTRIES\n                    and overrides[k] in REGISTRIES[k][\"dataclass_registry\"]\n                ):\n                    cfg[k] = DictConfig(\n                        REGISTRIES[k][\"dataclass_registry\"][overrides[k]]\n                    )\n                    overwrite_args_by_name(cfg[k], overrides)\n                    cfg[k]._name = overrides[k]\n                else:\n                    cfg[k] = overrides[k]\n\n\ndef merge_with_parent(dc: FairseqDataclass, cfg: DictConfig, remove_missing=False):\n    if remove_missing:\n\n        def remove_missing_rec(src_keys, target_cfg):\n            if is_dataclass(target_cfg):\n                target_keys = set(target_cfg.__dataclass_fields__.keys())\n            else:\n                target_keys = set(target_cfg.keys())\n\n            for k in list(src_keys.keys()):\n                if k not in target_keys:\n                    del src_keys[k]\n                elif OmegaConf.is_config(src_keys[k]):\n                    tgt = getattr(target_cfg, k)\n                    if tgt is not None and (is_dataclass(tgt) or hasattr(tgt, \"keys\")):\n                        remove_missing_rec(src_keys[k], tgt)\n\n        with open_dict(cfg):\n            remove_missing_rec(cfg, dc)\n\n    merged_cfg = OmegaConf.merge(dc, cfg)\n    merged_cfg.__dict__[\"_parent\"] = cfg.__dict__[\"_parent\"]\n    OmegaConf.set_struct(merged_cfg, True)\n    return merged_cfg\n"
  },
  {
    "path": "fairseq/distributed/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .distributed_timeout_wrapper import DistributedTimeoutWrapper\nfrom .fully_sharded_data_parallel import (\n    fsdp_enable_wrap,\n    fsdp_wrap,\n    FullyShardedDataParallel,\n)\nfrom .legacy_distributed_data_parallel import LegacyDistributedDataParallel\nfrom .module_proxy_wrapper import ModuleProxyWrapper\nfrom .tpu_distributed_data_parallel import TPUDistributedDataParallel\n\n\n__all__ = [\n    \"DistributedTimeoutWrapper\",\n    \"fsdp_enable_wrap\",\n    \"fsdp_wrap\",\n    \"FullyShardedDataParallel\",\n    \"LegacyDistributedDataParallel\",\n    \"ModuleProxyWrapper\",\n    \"TPUDistributedDataParallel\",\n]\n"
  },
  {
    "path": "fairseq/distributed/distributed_timeout_wrapper.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport signal\nimport threading\n\nfrom torch import nn\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass DistributedTimeoutWrapper(nn.Module):\n    \"\"\"\n    A wrapper that kills the process if no progress is made within a given\n    *timeout*. The timer is reset every time :func:`forward` is called.\n\n    Usage::\n\n        module = DistributedTimeoutWrapper(module, timeout=30)\n        x = module(input)\n        time.sleep(20)  # safe\n        x = module(input)\n        time.sleep(45)  # job will be killed before this returns\n\n    Args:\n        module (nn.Module): module to wrap\n        timeout (int): number of seconds before killing the process\n            (set to a value <= 0 to disable the timeout)\n        signal (Optional): signal to send once timeout is triggered\n    \"\"\"\n\n    def __init__(self, module: nn.Module, timeout: int, signal=signal.SIGINT):\n        super().__init__()\n        self.module = module\n        self.timeout = timeout\n        self.signal = signal\n\n        if timeout > 0:\n            self._heartbeat = threading.Event()\n            self._heartbeat_thread = threading.Thread(\n                target=self._check_heartbeat,\n                args=(os.getpid(),),\n                daemon=True,\n            )\n            self._heartbeat_thread.start()\n            self._terminated = False\n        else:\n            self._heartbeat = None\n            self._heartbeat_thread = None\n\n    def __del__(self):\n        self.stop_timeout()\n\n    def __getattr__(self, name):\n        \"\"\"Forward missing attributes to wrapped module.\"\"\"\n        try:\n            return super().__getattr__(name)  # defer to nn.Module's logic\n        except AttributeError:\n            return getattr(self.module, name)\n\n    def stop_timeout(self):\n        if self._heartbeat_thread is not None:\n            self._terminated = True\n            self._heartbeat_thread.join()\n\n    def state_dict(self, *args, **kwargs):\n        return self.module.state_dict(*args, **kwargs)\n\n    def load_state_dict(self, *args, **kwargs):\n        return self.module.load_state_dict(*args, **kwargs)\n\n    def forward(self, *args, **kwargs):\n        if self._heartbeat is not None:\n            self._heartbeat.set()\n        return self.module(*args, **kwargs)\n\n    def _check_heartbeat(self, parent_pid):\n        self._heartbeat.wait()  # wait for the first forward pass\n        while True:\n            self._heartbeat.clear()\n            success = self._heartbeat.wait(timeout=self.timeout)\n            if self._terminated:\n                break\n            elif not success:\n                logger.error(\n                    (\n                        \"Killing job for not making progress in {} seconds. \"\n                        \"Set --heartbeat-timeout=-1 to disable this timeout.\"\n                    ).format(int(self.timeout))\n                )\n                os.kill(parent_pid, self.signal)\n                return\n"
  },
  {
    "path": "fairseq/distributed/fully_sharded_data_parallel.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport contextlib\nfrom typing import Optional\n\nimport torch\nfrom fairseq.dataclass.configs import DistributedTrainingConfig\nfrom fairseq.distributed import utils as dist_utils\n\n\ntry:\n    from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP\n\n    has_FSDP = True\nexcept ImportError:\n    FSDP = torch.nn.Module\n    has_FSDP = False\n\n\nclass FullyShardedDataParallel(FSDP):\n    \"\"\"\n    A small wrapper around fairscale's FullyShardedDataParallel (FSDP) with some\n    fairseq-specific checkpoint saving/loading logic.\n\n    Args:\n        use_sharded_state (bool): if True, then ``state_dict`` will return\n            ``FSDP.local_state_dict`` and ``load_state_dict`` will call\n            ``FSDP.load_local_state_dict``. Otherwise, ``state_dict`` will\n            return the full model weights on data parallel rank 0 (empty on\n            other ranks) and ``load_state_dict`` will broadcast model weights\n            from rank 0 to other ranks.\n    \"\"\"\n\n    def __init__(self, *args, use_sharded_state: bool = False, **kwargs):\n        if not has_FSDP:\n            raise ImportError(\n                \"Cannot find FullyShardedDataParallel. \"\n                \"Please install fairscale with: pip install fairscale\"\n            )\n        super().__init__(*args, **kwargs)\n        self.use_sharded_state = use_sharded_state\n\n    @property\n    def unwrapped_module(self) -> torch.nn.Module:\n        if self.flatten_parameters:\n            return self.module.module\n        else:\n            return self.module\n\n    def state_dict(self, destination=None, prefix=\"\", keep_vars=False):\n        if self.use_sharded_state:\n            return super().local_state_dict(\n                destination=destination, prefix=prefix, keep_vars=keep_vars\n            )\n        else:\n            if self.rank == 0:\n                return super().state_dict(\n                    destination=destination, prefix=prefix, keep_vars=keep_vars\n                )\n            else:\n                # We must call state_dict() due to use of communication\n                # primitives. But we don't use the result.\n                super().state_dict()\n                return destination or {}\n\n    def load_state_dict(self, state_dict, strict=True, model_cfg=None):\n        if self.use_sharded_state:\n            return super().load_local_state_dict(state_dict, strict=strict)\n        else:\n            state_dict = dist_utils.broadcast_object(\n                state_dict, src_rank=0, group=self.process_group\n            )\n            return super().load_state_dict(state_dict, strict=strict)\n\n\nclass DummyProcessGroup:\n    def __init__(self, rank: int, size: int):\n        self._rank = rank\n        self._size = size\n\n    def rank(self) -> int:\n        return self._rank\n\n    def size(self) -> int:\n        return self._size\n\n\n@contextlib.contextmanager\ndef fsdp_enable_wrap(cfg: DistributedTrainingConfig):\n    try:\n        from fairscale.nn import enable_wrap\n    except ImportError:\n        raise ImportError(\n            \"Cannot find FullyShardedDataParallel. \"\n            \"Please install fairscale with: pip install fairscale\"\n        )\n    if cfg.memory_efficient_fp16:\n        assert cfg.fp16  # memory_efficient_fp16 should imply fp16\n    group = dist_utils.get_data_parallel_group()\n    if group is None and cfg.distributed_world_size == 1:\n        group = DummyProcessGroup(rank=0, size=1)\n    fsdp_config = {\n        \"process_group\": group,\n        \"reshard_after_forward\": not cfg.no_reshard_after_forward,\n        \"mixed_precision\": cfg.fp16 and not cfg.memory_efficient_fp16,\n        \"fp32_reduce_scatter\": cfg.fp32_reduce_scatter,\n        \"flatten_parameters\": not cfg.not_fsdp_flatten_parameters,\n        \"cpu_offload\": cfg.cpu_offload,\n        \"compute_dtype\": torch.float16 if cfg.fp16 else torch.float32,\n        \"bucket_cap_mb\": cfg.bucket_cap_mb,\n        \"state_dict_device\": torch.device(\"cpu\"),  # reduce GPU mem usage\n    }\n    with enable_wrap(\n        wrapper_cls=FullyShardedDataParallel,\n        use_sharded_state=cfg.use_sharded_state,\n        **fsdp_config,\n    ):\n        yield\n\n\ndef fsdp_wrap(module, min_num_params: Optional[int] = None, **kwargs):\n    \"\"\"\n    Helper to wrap layers/modules in FSDP. This falls back to a no-op if\n    fairscale is not available.\n\n    Args:\n        module (nn.Module): module to (maybe) wrap\n        min_num_params (int, Optional): minimum number of layer params to wrap\n    \"\"\"\n    try:\n        from fairscale.nn import wrap\n\n        if min_num_params is not None:\n            num_params = sum(p.numel() for p in module.parameters())\n            if num_params >= min_num_params:\n                return wrap(module, **kwargs)\n            else:\n                return module\n        else:\n            return wrap(module, **kwargs)\n    except ImportError:\n        return module\n"
  },
  {
    "path": "fairseq/distributed/legacy_distributed_data_parallel.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nA modified version of the legacy DistributedDataParallel module that uses c10d\ncommunication primitives. This version is simpler than the latest PyTorch\nversion and is useful for debugging. Notably it does not overlap gradient\ncommunication with the backward pass, which makes it slower but more robust\nthan the PyTorch version.\n\nThis version also supports the *no_sync* context manager, which allows faster\ntraining with `--update-freq`.\n\"\"\"\n\nfrom collections import OrderedDict\nfrom contextlib import contextmanager\n\nimport torch\nfrom torch import nn\n\nfrom fairseq.distributed import utils\n\n\nclass LegacyDistributedDataParallel(nn.Module):\n    \"\"\"Implements distributed data parallelism at the module level.\n\n    A simplified version of :class:`torch.nn.parallel.DistributedDataParallel`.\n    This version uses a c10d process group for communication and does not\n    broadcast buffers.\n\n    Args:\n        module (~torch.nn.Module): module to be parallelized\n        process_group: the c10d process group to be used for distributed data\n            parallel all-reduction.\n        buffer_size (int, optional): number of elements to buffer before\n            performing all-reduce (default: 256M).\n    \"\"\"\n\n    def __init__(self, module, process_group, buffer_size=2**28):\n        super().__init__()\n\n        self.module = module\n        self.process_group = process_group\n        self.world_size = utils.get_world_size(self.process_group)\n\n        # Never use a bigger buffer than the number of model params\n        self.buffer_size = min(buffer_size, sum(p.numel() for p in module.parameters()))\n        self.buffer = None\n\n        # We can also forcibly accumulate grads locally and only do the\n        # all-reduce at some later time\n        self.accumulate_grads = False\n\n        # make per-device lists of parameters\n        paramlists = OrderedDict()\n        for param in self.module.parameters():\n            device = param.device\n            if paramlists.get(device) is None:\n                paramlists[device] = []\n            paramlists[device] += [param]\n        self.per_device_params = list(paramlists.values())\n\n    @contextmanager\n    def no_sync(self):\n        \"\"\"A context manager to disable gradient synchronization.\"\"\"\n        old_accumulate_grads = self.accumulate_grads\n        self.accumulate_grads = True\n        yield\n        self.accumulate_grads = old_accumulate_grads\n\n    def forward(self, *inputs, **kwargs):\n        return self.module(*inputs, **kwargs)\n\n    def all_reduce_grads(self):\n        \"\"\"\n        This function must be called explicitly after backward to reduce\n        gradients. There is no automatic hook like c10d.\n        \"\"\"\n\n        def all_reduce_params(params):\n            buffer = self.buffer\n            nonzero_buffer = False\n            if len(params) > 1:\n                offset = 0\n                for p in params:\n                    sz = p.numel()\n                    if p.grad is not None:\n                        buffer[offset : offset + sz].copy_(p.grad.data.view(-1))\n                        nonzero_buffer = True\n                    else:\n                        buffer[offset : offset + sz].zero_()\n                    offset += sz\n            else:\n                # we only have a single grad to all-reduce\n                p = params[0]\n                if p.grad is not None:\n                    buffer = p.grad.data\n                    nonzero_buffer = True\n                elif p.numel() <= self.buffer.numel():\n                    buffer = buffer[: p.numel()]\n                    buffer.zero_()\n                else:\n                    buffer = torch.zeros_like(p)\n\n            if nonzero_buffer:\n                buffer.div_(self.world_size)\n\n            utils.all_reduce(buffer, self.process_group)\n\n            # copy all-reduced grads back into their original place\n            offset = 0\n            for p in params:\n                sz = p.numel()\n                if p.grad is not None:\n                    p.grad.data.copy_(buffer[offset : offset + sz].view_as(p))\n                else:\n                    p.grad = buffer[offset : offset + sz].view_as(p).clone()\n                offset += sz\n\n        def reduction_fn():\n            # This function only needs to be called once\n            if self.accumulate_grads:\n                return\n\n            if self.buffer is None:\n                self.buffer = next(self.module.parameters()).new(self.buffer_size)\n\n            for params in self.per_device_params:\n                # All-reduce the gradients in buckets\n                offset = 0\n                buffered_params = []\n                for param in params:\n                    if not param.requires_grad:\n                        continue\n                    if param.grad is None:\n                        param.grad = torch.zeros_like(param)\n\n                    if hasattr(param, \"expert\"):\n                        # Skip gradient sync for unshared parameters\n                        continue\n\n                    if param.grad.requires_grad:\n                        raise RuntimeError(\n                            \"DistributedDataParallel only works \"\n                            \"with gradients that don't require \"\n                            \"grad\"\n                        )\n                    sz = param.numel()\n                    if sz > self.buffer.numel():\n                        # all-reduce big params directly\n                        all_reduce_params([param])\n                    else:\n                        if offset + sz > self.buffer.numel():\n                            all_reduce_params(buffered_params)\n                            offset = 0\n                            buffered_params.clear()\n                        buffered_params.append(param)\n                        offset += sz\n\n                if len(buffered_params) > 0:\n                    all_reduce_params(buffered_params)\n\n        reduction_fn()\n"
  },
  {
    "path": "fairseq/distributed/module_proxy_wrapper.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom torch import nn\n\n\nclass ModuleProxyWrapper(nn.Module):\n    \"\"\"\n    Wrap a DistributedDataParallel module and forward requests for missing\n    attributes to the module wrapped by DDP (the twice-wrapped module).\n    Also forward calls to :func:`state_dict` and :func:`load_state_dict`.\n\n    Usage::\n\n        module.xyz = \"hello world\"\n        wrapped_module = DistributedDataParallel(module, **ddp_args)\n        wrapped_module = ModuleProxyWrapper(wrapped_module)\n        assert wrapped_module.xyz == \"hello world\"\n        assert wrapped_module.state_dict().keys() == module.state_dict().keys()\n\n    Args:\n        module (nn.Module): module to wrap\n    \"\"\"\n\n    def __init__(self, module: nn.Module):\n        super().__init__()\n        assert hasattr(\n            module, \"module\"\n        ), \"ModuleProxyWrapper expects input to wrap another module\"\n        self.module = module\n\n    def __getattr__(self, name):\n        \"\"\"Forward missing attributes to twice-wrapped module.\"\"\"\n        try:\n            # defer to nn.Module's logic\n            return super().__getattr__(name)\n        except AttributeError:\n            try:\n                # forward to the once-wrapped module\n                return getattr(self.module, name)\n            except AttributeError:\n                # forward to the twice-wrapped module\n                return getattr(self.module.module, name)\n\n    def state_dict(self, *args, **kwargs):\n        \"\"\"Forward to the twice-wrapped module.\"\"\"\n        return self.module.module.state_dict(*args, **kwargs)\n\n    def load_state_dict(self, *args, **kwargs):\n        \"\"\"Forward to the twice-wrapped module.\"\"\"\n        return self.module.module.load_state_dict(*args, **kwargs)\n\n    def forward(self, *args, **kwargs):\n        return self.module(*args, **kwargs)\n"
  },
  {
    "path": "fairseq/distributed/tpu_distributed_data_parallel.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nfrom torch import nn\n\nfrom fairseq.distributed import utils\n\n\nclass TPUDistributedDataParallel(nn.Module):\n    def __init__(self, module, process_group):\n        super().__init__()\n        self.module = module\n        self.process_group = process_group\n        self.world_size = utils.get_world_size(self.process_group)\n\n    def forward(self, *inputs, **kwargs):\n        return self.module(*inputs, **kwargs)\n\n    def all_reduce_grads(self):\n        gradients = []\n        for p in self.parameters():\n            if not p.requires_grad:\n                continue\n            if p.grad is None:\n                p.grad = torch.zeros_like(p)\n            if p.grad.requires_grad:\n                raise RuntimeError(\n                    \"TPUDistributedDataParallel only works with gradients that don't \"\n                    \"require grad\"\n                )\n            gradients.append(p.grad)\n\n        import torch_xla.core.xla_model as xm\n\n        xm.all_reduce(\n            \"sum\",\n            gradients,\n            scale=1.0 / self.world_size,\n            groups=self.process_group[1],\n        )\n"
  },
  {
    "path": "fairseq/distributed/utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport io\nimport logging\nimport os\nimport pickle\nimport random\nimport socket\nimport struct\nimport subprocess\nimport warnings\nfrom argparse import Namespace\nfrom collections import OrderedDict\nfrom dataclasses import dataclass\nfrom typing import Any, Dict, List, Mapping, Optional\n\nimport torch\nimport torch.distributed as dist\nfrom fairseq.dataclass.configs import DistributedTrainingConfig, FairseqConfig\nfrom omegaconf import open_dict\n\ntry:\n    import torch_xla.core.xla_model as xm\nexcept ImportError:\n    xm = None\n\n\n# Flag to indicate if we're using Megatron\n# NOTE: this is a temporary hack until we move away from Megatron's model parallel init\n_USE_MEGATRON = False\n\n# Whether to use XLA ops (e.g., on TPUs) instead of CUDA ops.\n_USE_XLA = False\n\n\nlogger = logging.getLogger(__name__)\n\n\ndef is_master(cfg: DistributedTrainingConfig):\n    return cfg.distributed_rank == 0\n\n\ndef infer_init_method(cfg: DistributedTrainingConfig, force_distributed=False):\n    if cfg.distributed_init_method is not None or cfg.tpu:\n        return\n\n    num_pipelines_per_node = None\n    if cfg.pipeline_model_parallel:\n        num_pipeline_devices, num_pipelines_per_node = _pipeline_parallel_pre_init(cfg)\n\n    if cfg.distributed_world_size == 1:\n        return\n    if all(\n        key in os.environ\n        for key in [\"MASTER_ADDR\", \"MASTER_PORT\", \"WORLD_SIZE\", \"RANK\"]\n    ):\n        # support torch.distributed.launch\n        _infer_torch_distributed_launch_init(cfg)\n    else:\n        # we can determine the init method automatically for Slurm\n        if not _infer_slurm_init(cfg, num_pipelines_per_node):\n            if cfg.distributed_port <= 0 or force_distributed:\n                _infer_single_node_init(cfg)\n        elif cfg.distributed_port <= 0:\n            _infer_single_node_init(cfg)\n\n    if cfg.pipeline_model_parallel:\n        _pipeline_parallel_post_init(cfg, num_pipeline_devices, num_pipelines_per_node)\n    elif not cfg.distributed_no_spawn:\n        with open_dict(cfg):\n            cfg.distributed_num_procs = min(\n                torch.cuda.device_count(), cfg.distributed_world_size\n            )\n    else:\n        if cfg.device_id > 0:\n            logger.info(\n                \"setting CUDA device={} on rank {}\".format(\n                    cfg.device_id, cfg.distributed_rank\n                )\n            )\n            torch.cuda.set_device(cfg.device_id)\n\n\ndef _infer_torch_distributed_launch_init(cfg: DistributedTrainingConfig):\n    cfg.distributed_init_method = \"env://\"\n    cfg.distributed_world_size = int(os.environ[\"WORLD_SIZE\"])\n    cfg.distributed_rank = int(os.environ[\"RANK\"])\n    cfg.device_id = cfg.distributed_rank % torch.cuda.device_count()\n    # processes are created by torch.distributed.launch\n    cfg.distributed_no_spawn = True\n\n\ndef _infer_slurm_init(cfg: DistributedTrainingConfig, num_pipelines_per_node):\n    node_list = os.environ.get(\"SLURM_STEP_NODELIST\")\n    if node_list is None:\n        node_list = os.environ.get(\"SLURM_JOB_NODELIST\")\n    if node_list is not None:\n        try:\n            hostnames = subprocess.check_output(\n                [\"scontrol\", \"show\", \"hostnames\", node_list]\n            )\n            cfg.distributed_init_method = \"tcp://{host}:{port}\".format(\n                host=hostnames.split()[0].decode(\"utf-8\"),\n                port=cfg.distributed_port,\n            )\n            nnodes = int(os.environ.get(\"SLURM_NNODES\"))\n            ntasks_per_node = os.environ.get(\"SLURM_NTASKS_PER_NODE\")\n            if ntasks_per_node is not None:\n                ntasks_per_node = int(ntasks_per_node)\n            else:\n                ntasks = int(os.environ.get(\"SLURM_NTASKS\"))\n                nnodes = int(os.environ.get(\"SLURM_NNODES\"))\n                assert ntasks % nnodes == 0\n                ntasks_per_node = int(ntasks / nnodes)\n            if ntasks_per_node == 1:\n                gpus_per_node = torch.cuda.device_count()\n                node_id = int(os.environ.get(\"SLURM_NODEID\"))\n                cfg.distributed_rank = node_id * gpus_per_node\n                cfg.distributed_world_size = nnodes * gpus_per_node\n            elif cfg.pipeline_model_parallel:\n                assert ntasks_per_node == num_pipelines_per_node, (\n                    \"SLURM --ntasks-per-node must match number of pipelines per \"\n                    \"node (={})\".format(num_pipelines_per_node)\n                )\n                cfg.distributed_no_spawn = True\n                # For 4-way MP on nodes with 8 GPUs, ranks will be [0, 1] on\n                # the first node, [1, 2] on the second node, etc. This\n                # matches torch.distributed.launch.\n                node_id = int(os.environ.get(\"SLURM_NODEID\"))\n                local_id = int(os.environ.get(\"SLURM_LOCALID\"))\n                cfg.distributed_rank = node_id * num_pipelines_per_node + local_id\n                # In the above example, device_id will always be in [0, 1],\n                # which also matches torch.distributed.launch.\n                cfg.device_id = local_id\n                # We also want to set distributed_world_size to be the total\n                # number of pipelines across all nodes.\n                cfg.distributed_world_size = nnodes * num_pipelines_per_node\n            else:\n                assert (\n                    ntasks_per_node == cfg.distributed_world_size // nnodes\n                ), f\"{ntasks_per_node}, {cfg.distributed_world_size}, {nnodes}\"\n                cfg.distributed_no_spawn = True\n                cfg.distributed_rank = int(os.environ.get(\"SLURM_PROCID\"))\n                cfg.device_id = int(os.environ.get(\"SLURM_LOCALID\"))\n            logger.info(f\"Rank {cfg.distributed_rank}, device_id: {cfg.device_id}\")\n            return True\n        except subprocess.CalledProcessError as e:  # scontrol failed\n            raise e\n        except FileNotFoundError:  # Slurm is not installed\n            pass\n\n    return False\n\n\ndef _infer_single_node_init(cfg: DistributedTrainingConfig):\n    assert (\n        cfg.distributed_world_size <= torch.cuda.device_count()\n    ), f\"world size is {cfg.distributed_world_size} but have {torch.cuda.device_count()} available devices\"\n\n    if cfg.distributed_port <= 0:\n        jobid = os.environ.get(\"SLURM_JOB_ID\")\n        task_id = os.environ.get(\"SLURM_ARRAY_TASK_ID\")\n\n        if jobid is not None:\n            if task_id is not None:\n                jobid += str(task_id)\n            jobid = int(jobid)\n            rng = random.Random(jobid)\n            port = rng.randint(10000, 60000)\n        else:\n            port = random.randint(10000, 60000)\n\n        cfg.distributed_port = port\n    cfg.distributed_init_method = \"tcp://localhost:{port}\".format(\n        port=cfg.distributed_port\n    )\n\n\ndef _pipeline_parallel_pre_init(cfg: DistributedTrainingConfig):\n    from fairseq import utils\n\n    balance_exists = (\n        cfg.pipeline_balance is not None\n        or cfg.pipeline_encoder_balance is not None\n        or cfg.pipeline_decoder_balance is not None\n    )\n    devices_exist = (\n        cfg.pipeline_devices is not None\n        or cfg.pipeline_encoder_devices is not None\n        or cfg.pipeline_decoder_devices is not None\n    )\n    if not balance_exists:\n        raise ValueError(\n            \"--pipeline-balance is currently required for pipeline model parallelism\"\n        )\n    if not devices_exist:\n        raise ValueError(\n            \"--pipeline-devices is currently required for pipeline model parallelism\"\n        )\n\n    cfg.pipeline_balance = utils.eval_str_list(cfg.pipeline_balance, type=int)\n    if cfg.pipeline_devices is not None:\n        cfg.pipeline_devices = utils.eval_str_list(cfg.pipeline_devices, type=int)\n        num_pipeline_devices = len(set(cfg.pipeline_devices))\n    else:\n        cfg.pipeline_encoder_devices = utils.eval_str_list(\n            cfg.pipeline_encoder_devices, type=int\n        )\n        cfg.pipeline_decoder_devices = utils.eval_str_list(\n            cfg.pipeline_decoder_devices, type=int\n        )\n        num_pipeline_devices = len(\n            set(cfg.pipeline_encoder_devices + cfg.pipeline_decoder_devices)\n        )\n    gpus_per_node = torch.cuda.device_count()\n    assert (\n        gpus_per_node >= num_pipeline_devices\n        and gpus_per_node % num_pipeline_devices == 0\n    ), (\n        \"the number of unique device IDs in --pipeline-devices must evenly divide \"\n        \"the number of GPUs per node (multi-node pipelining is not yet supported)\"\n    )\n    num_pipelines_per_node = gpus_per_node // num_pipeline_devices\n    return num_pipeline_devices, num_pipelines_per_node\n\n\ndef _pipeline_parallel_post_init(\n    cfg: DistributedTrainingConfig, num_pipeline_devices, num_pipelines_per_node\n):\n    if not cfg.distributed_no_spawn:\n        # When distributed_no_spawn is False, we expect distributed_rank and\n        # distributed_world_size to be based on the total number of GPUs, so\n        # we need to correct them to be based on the number of pipelines.\n        assert cfg.distributed_world_size % num_pipeline_devices == 0\n        cfg.distributed_world_size = cfg.distributed_world_size // num_pipeline_devices\n        # In the case of 4-way MP on nodes with 8 GPUs, we want\n        # distributed_rank to be the starting GPU index for each pipeline\n        # i.e., 0, 2, ...\n        gpus_per_node = torch.cuda.device_count()\n        assert cfg.distributed_rank % gpus_per_node == 0\n        assert cfg.distributed_rank % num_pipeline_devices == 0\n\n        with open_dict(cfg):\n            cfg.distributed_rank = cfg.distributed_rank // num_pipeline_devices\n            # launch one process per pipeline\n            cfg.distributed_num_procs = num_pipelines_per_node\n\n    # if we have 4-way MP on a node with 8 GPUs, we want device_ids to be 0\n    # and 4, indicating the starting device IDs for each pipeline\n    cfg.device_id *= num_pipeline_devices\n\n    if cfg.device_id > 0:\n        # if there's multiple pipelines on a node (e.g., 4-way MP on an 8\n        # GPU node), we need to adjust pipeline_devices accordingly\n        logger.debug(\n            \"setting CUDA device={} on rank {}\".format(\n                cfg.device_id, cfg.distributed_rank\n            )\n        )\n        torch.cuda.set_device(cfg.device_id)\n        with open_dict(cfg):\n            cfg.pipeline_devices = [cfg.device_id + d for d in cfg.pipeline_devices]\n        logger.info(\n            \"setting pipeline_devices={} on rank {}\".format(\n                cfg.pipeline_devices, cfg.distributed_rank\n            )\n        )\n\n\ndef distributed_init(cfg: FairseqConfig):\n    if isinstance(cfg, Namespace):\n        from fairseq.dataclass.utils import convert_namespace_to_omegaconf\n\n        cfg = convert_namespace_to_omegaconf(cfg)\n\n    if not cfg.common.tpu:\n        if torch.distributed.is_available() and torch.distributed.is_initialized():\n            warnings.warn(\n                \"Distributed is already initialized, cannot initialize twice!\"\n            )\n        else:\n            logger.info(\n                \"distributed init (rank {}): {}\".format(\n                    cfg.distributed_training.distributed_rank,\n                    cfg.distributed_training.distributed_init_method,\n                )\n            )\n            dist.init_process_group(\n                backend=cfg.distributed_training.distributed_backend,\n                init_method=cfg.distributed_training.distributed_init_method,\n                world_size=cfg.distributed_training.distributed_world_size,\n                rank=cfg.distributed_training.distributed_rank,\n            )\n            logger.info(\n                \"initialized host {} as rank {}\".format(\n                    socket.gethostname(),\n                    cfg.distributed_training.distributed_rank,\n                )\n            )\n\n            # perform a dummy all-reduce to initialize the NCCL communicator\n            if torch.cuda.is_available():\n                dist.all_reduce(torch.zeros(1).cuda())\n\n        cfg.distributed_training.distributed_rank = torch.distributed.get_rank()\n    else:\n        assert xm.xrt_world_size() == cfg.distributed_training.distributed_world_size\n        global _USE_XLA\n        _USE_XLA = True\n        cfg.distributed_training.device_id = xm.get_local_ordinal()\n        cfg.distributed_training.distributed_rank = xm.get_ordinal()\n        xm.rendezvous(\"distributed_init\")  # wait for all workers\n\n    if is_master(cfg.distributed_training):\n        logging.getLogger().setLevel(logging.INFO)\n    else:\n        logging.getLogger().setLevel(logging.WARNING)\n\n    if cfg.common.model_parallel_size > 1:\n        try:\n            from fairseq.model_parallel.megatron.mpu import (\n                initialize_model_parallel,\n                model_parallel_cuda_manual_seed,\n            )\n        except ImportError:\n            raise ImportError(\n                \"\\n\\nPlease install the megatron submodule:\"\n                \"\\n\\n  git submodule update --init \"\n                \"fairseq/model_parallel/megatron\"\n            )\n        global _USE_MEGATRON\n        _USE_MEGATRON = True\n        initialize_model_parallel(cfg.common.model_parallel_size)\n        model_parallel_cuda_manual_seed(cfg.common.seed)\n        model_part_number = get_model_parallel_rank()\n        cfg.checkpoint.checkpoint_suffix += \"-model_part-{0}\".format(model_part_number)\n\n    if hasattr(cfg, \"model\") and getattr(cfg.model, \"base_layers\", 0) > 0:\n        cfg.checkpoint.checkpoint_suffix = (\n            f\"-rank-{cfg.distributed_training.distributed_rank}\"\n        )\n\n    return cfg.distributed_training.distributed_rank\n\n\ndef distributed_main(i, main, cfg: FairseqConfig, kwargs):\n    cfg.distributed_training.device_id = i\n    if torch.cuda.is_available() and not cfg.common.cpu and not cfg.common.tpu:\n        torch.cuda.set_device(cfg.distributed_training.device_id)\n    if cfg.distributed_training.distributed_rank is None:  # torch.multiprocessing.spawn\n        cfg.distributed_training.distributed_rank = kwargs.pop(\"start_rank\", 0) + i\n\n    cfg.distributed_training.distributed_rank = distributed_init(cfg)\n\n    after_distributed_init_fn = kwargs.pop(\"after_distributed_init_fn\", None)\n    if after_distributed_init_fn:\n        cfg = after_distributed_init_fn(cfg)\n\n    main(cfg, **kwargs)\n\n    if torch.distributed.is_initialized():\n        torch.distributed.barrier(get_global_group())\n\n\ndef call_main(cfg: FairseqConfig, main, **kwargs):\n    if cfg.distributed_training.distributed_init_method is None:\n        infer_init_method(cfg.distributed_training)\n\n    if cfg.distributed_training.distributed_init_method is not None:\n        # distributed training\n        if not cfg.distributed_training.distributed_no_spawn:\n            start_rank = cfg.distributed_training.distributed_rank\n            cfg.distributed_training.distributed_rank = None  # assign automatically\n            kwargs[\"start_rank\"] = start_rank\n\n            torch.multiprocessing.spawn(\n                fn=distributed_main,\n                args=(main, cfg, kwargs),\n                nprocs=min(\n                    torch.cuda.device_count(),\n                    cfg.distributed_training.distributed_world_size,\n                ),\n                join=True,\n            )\n        else:\n            distributed_main(cfg.distributed_training.device_id, main, cfg, kwargs)\n    elif cfg.common.tpu and cfg.distributed_training.distributed_world_size > 1:\n        import torch_xla.distributed.xla_multiprocessing as xmp\n\n        torch.multiprocessing.set_sharing_strategy(\"file_system\")\n        xmp.spawn(\n            fn=distributed_main,\n            args=(main, cfg, kwargs),\n            # tpu-comment:\n            #   8 devices in one TPU VM, is the max processes to be spawned.\n            #   The rest is driven by xm.distributed.xla_dist\n            nprocs=min(cfg.distributed_training.distributed_world_size, 8),\n        )\n    else:\n        # single GPU main\n        main(cfg, **kwargs)\n\n\ndef use_xla():\n    global _USE_XLA\n    return _USE_XLA\n\n\ndef new_groups(grouped_ranks: List[List[int]]):\n    if use_xla():\n        return (\"tpu\", grouped_ranks)\n    else:\n        groups = [dist.new_group(g) for g in grouped_ranks]\n        my_group_idx = _find_my_group_index(grouped_ranks)\n        return groups[my_group_idx]\n\n\ndef _find_my_group_index(grouped_ranks):\n    my_rank = get_global_rank()\n    for i, group in enumerate(grouped_ranks):\n        if my_rank in group:\n            return i\n    raise RuntimeError\n\n\ndef _find_my_group(grouped_ranks):\n    index = _find_my_group_index(grouped_ranks)\n    return grouped_ranks[index]\n\n\ndef get_rank(group):\n    if use_xla():\n        assert group[0] == \"tpu\"\n        my_group = _find_my_group(group[1])\n        return my_group.index(get_global_rank())\n    else:\n        return dist.get_rank(group=group)\n\n\ndef get_world_size(group):\n    if use_xla():\n        assert group[0] == \"tpu\"\n        my_group = _find_my_group(group[1])\n        return len(my_group)\n    elif torch.distributed.is_initialized():\n        return dist.get_world_size(group=group)\n    else:\n        return 1\n\n\ndef get_global_group():\n    if use_xla():\n        return new_groups([list(range(get_global_world_size()))])\n    elif torch.distributed.is_initialized():\n        if not hasattr(get_global_group, \"_global_group\"):\n            # ideally we could use torch.distributed.group.WORLD, but it seems\n            # to cause random NCCL hangs in some cases\n            get_global_group._global_group = dist.new_group()\n        return get_global_group._global_group\n    else:\n        return None\n\n\ndef get_global_rank():\n    if use_xla():\n        return xm.get_ordinal()\n    elif torch.distributed.is_initialized():\n        return torch.distributed.get_rank()\n    else:\n        return 0\n\n\ndef get_global_world_size():\n    if use_xla():\n        return xm.xrt_world_size()\n    elif torch.distributed.is_initialized():\n        return torch.distributed.get_world_size()\n    else:\n        return 1\n\n\ndef get_data_parallel_group():\n    \"\"\"Get the data parallel group the caller rank belongs to.\"\"\"\n    global _USE_MEGATRON\n    if _USE_MEGATRON:\n        from fairseq.model_parallel.megatron import mpu\n\n        return mpu.get_data_parallel_group()\n    else:\n        return get_global_group()\n\n\ndef get_data_parallel_rank():\n    \"\"\"Return my rank for the data parallel group.\"\"\"\n    return get_rank(get_data_parallel_group())\n\n\ndef get_data_parallel_world_size():\n    \"\"\"Return world size for the data parallel group.\"\"\"\n    return get_world_size(get_data_parallel_group())\n\n\ndef get_model_parallel_group():\n    global _USE_MEGATRON\n    if _USE_MEGATRON:\n        from fairseq.model_parallel.megatron import mpu\n\n        return mpu.get_model_parallel_group()\n    else:\n        return None\n\n\ndef get_model_parallel_rank():\n    \"\"\"Return my rank for the model parallel group.\"\"\"\n    return get_rank(get_model_parallel_group())\n\n\ndef get_model_parallel_world_size():\n    \"\"\"Return world size for the model parallel group.\"\"\"\n    return get_world_size(get_model_parallel_group())\n\n\ndef all_reduce(tensor, group, op=\"sum\"):\n    if use_xla():\n        assert isinstance(group, tuple) and group[0] == \"tpu\"\n        tensor = [tensor]  # wrap in a list to make xm.all_reduce in-place\n        return xm.all_reduce(op, tensor, groups=group[1])[0]\n    else:\n        if op == \"sum\":\n            op = dist.ReduceOp.SUM\n        elif op == \"max\":\n            op = dist.ReduceOp.MAX\n        else:\n            raise NotImplementedError\n        dist.all_reduce(tensor, op=op, group=group)\n        return tensor\n\n\ndef broadcast(tensor, src, group):\n    if use_xla():\n        # XLA doesn't support broadcast, hack it with all_reduce\n        if get_rank(group) != src:\n            tensor.zero_()\n        all_reduce(tensor, group)\n    else:\n        dist.broadcast(tensor, src=src, group=group)\n\n\ndef all_to_all(tensor, group):\n    \"\"\"Perform an all-to-all operation on a 1D Tensor.\"\"\"\n    assert tensor.dim() == 1\n    split_count = get_world_size(group=group)\n    assert tensor.numel() % split_count == 0\n    if use_xla():\n        assert isinstance(group, tuple) and group[0] == \"tpu\"\n        return xm.all_to_all(\n            tensor,\n            split_dimension=0,\n            concat_dimension=0,\n            split_count=split_count,\n            groups=group[1],\n        )\n    else:\n        output = torch.zeros_like(tensor)\n        dist.all_to_all_single(output, tensor, group=group)\n        return output\n\n\ndef all_gather(tensor, group, return_tensor=False):\n    \"\"\"Perform an all-gather operation.\"\"\"\n    if use_xla():\n        result = xm.all_gather(tensor, groups=group[1])\n        world_size = get_world_size(group=group)\n        result = result.view(world_size, *tensor.size())\n        if return_tensor:\n            return result\n        else:\n            return [result[i] for i in range(world_size)]\n    else:\n        world_size = get_world_size(group=group)\n        rank = get_rank(group=group)\n        tensor_list = [\n            tensor if i == rank else torch.empty_like(tensor) for i in range(world_size)\n        ]\n        dist.all_gather(tensor_list, tensor, group=group)\n        if return_tensor:\n            return torch.stack(tensor_list, dim=0)\n        else:\n            return tensor_list\n\n\ndef all_gather_list(data, group=None, max_size=16384):\n    \"\"\"Gathers arbitrary data from all nodes into a list.\n\n    Similar to :func:`~torch.distributed.all_gather` but for arbitrary Python\n    data. Note that *data* must be picklable and any CUDA tensors will be moved\n    to CPU and returned on CPU as well.\n\n    Args:\n        data (Any): data from the local worker to be gathered on other workers\n        group: group of the collective\n        max_size (int, optional): maximum size of the data to be gathered\n            across workers\n    \"\"\"\n    from fairseq import utils\n\n    if group is None:\n        group = get_global_group()\n    rank = get_rank(group=group)\n    world_size = get_world_size(group=group)\n\n    buffer_size = max_size * world_size\n    if (\n        not hasattr(all_gather_list, \"_buffer\")\n        or all_gather_list._buffer.numel() < buffer_size\n    ):\n        all_gather_list._buffer = torch.cuda.ByteTensor(buffer_size)\n        all_gather_list._cpu_buffer = torch.ByteTensor(max_size).pin_memory()\n    buffer = all_gather_list._buffer\n    buffer.zero_()\n    cpu_buffer = all_gather_list._cpu_buffer\n\n    data = utils.move_to_cpu(data)\n    enc = pickle.dumps(data)\n    enc_size = len(enc)\n    header_size = 4  # size of header that contains the length of the encoded data\n    size = header_size + enc_size\n    if size > max_size:\n        raise ValueError(\n            \"encoded data size ({}) exceeds max_size ({})\".format(size, max_size)\n        )\n\n    header = struct.pack(\">I\", enc_size)\n    cpu_buffer[:size] = torch.ByteTensor(list(header + enc))\n    start = rank * max_size\n    buffer[start : start + size].copy_(cpu_buffer[:size])\n\n    all_reduce(buffer, group=group)\n\n    buffer = buffer.cpu()\n    try:\n        result = []\n        for i in range(world_size):\n            out_buffer = buffer[i * max_size : (i + 1) * max_size]\n            (enc_size,) = struct.unpack(\">I\", bytes(out_buffer[:header_size].tolist()))\n            if enc_size > 0:\n                result.append(\n                    pickle.loads(\n                        bytes(out_buffer[header_size : header_size + enc_size].tolist())\n                    )\n                )\n        return result\n    except pickle.UnpicklingError:\n        raise Exception(\n            \"Unable to unpickle data from other workers. all_gather_list requires all \"\n            \"workers to enter the function together, so this error usually indicates \"\n            \"that the workers have fallen out of sync somehow. Workers can fall out of \"\n            \"sync if one of them runs out of memory, or if there are other conditions \"\n            \"in your training script that can cause one worker to finish an epoch \"\n            \"while other workers are still iterating over their portions of the data. \"\n            \"Try rerunning with --ddp-backend=legacy_ddp and see if that helps.\"\n        )\n\n\ndef all_reduce_dict(data: Mapping[str, Any], device, group) -> Dict[str, Any]:\n    \"\"\"\n    AllReduce a dictionary of values across workers. We separately\n    reduce items that are already on the device and items on CPU for\n    better performance.\n\n    Args:\n        data (Mapping[str, Any]): dictionary of data to all-reduce, but\n            cannot be a nested dictionary\n        device (torch.device): device for the reduction\n        group: group of the collective\n    \"\"\"\n    data_keys = list(data.keys())\n\n    # We want to separately reduce items that are already on the\n    # device and items on CPU for performance reasons.\n    cpu_data = OrderedDict()\n    device_data = OrderedDict()\n    for k in data_keys:\n        t = data[k]\n        if not torch.is_tensor(t):\n            cpu_data[k] = torch.tensor(t, dtype=torch.double)\n        elif t.device.type != device.type:\n            cpu_data[k] = t.to(dtype=torch.double)\n        else:\n            device_data[k] = t.to(dtype=torch.double)\n\n    def _all_reduce_dict(data: OrderedDict):\n        if len(data) == 0:\n            return data\n        buf = torch.cat([t.view(-1) for t in data.values()]).to(device=device)\n        all_reduce(buf, group=group)\n        split_buf = torch.split(buf.clone(), [t.numel() for t in data.values()])\n        reduced_data = [t.view_as(orig) for t, orig in zip(split_buf, data.values())]\n        return OrderedDict(zip(data.keys(), reduced_data))\n\n    cpu_data = _all_reduce_dict(cpu_data)\n    device_data = _all_reduce_dict(device_data)\n\n    def get_from_stack(key):\n        if key in cpu_data:\n            return cpu_data[key]\n        elif key in device_data:\n            return device_data[key]\n        raise KeyError\n\n    return OrderedDict([(key, get_from_stack(key)) for key in data_keys])\n\n\ndef broadcast_tensors(\n    tensors: Optional[List[torch.Tensor]],\n    src_rank: int,\n    group: object,\n    dist_device: Optional[torch.device] = None,\n) -> List[torch.Tensor]:\n    \"\"\"\n    Broadcasts a list of tensors without other (non-src) ranks needing to know\n    the dtypes/shapes of the tensors.\n    \"\"\"\n    if dist_device is None:\n        if torch.distributed.get_backend(group) == \"nccl\":\n            dist_device = torch.device(\"cuda\")\n        else:\n            dist_device = torch.device(\"cpu\")\n\n    # share metadata first to simplify transfer\n    is_src_rank = get_rank(group) == src_rank\n    if is_src_rank:\n        metadata = [\n            {\"size\": t.size(), \"dtype\": t.dtype, \"device\": t.device} for t in tensors\n        ]\n        metadata = _broadcast_object_slow(metadata, src_rank, group, dist_device)\n    else:\n        metadata = _broadcast_object_slow(None, src_rank, group, dist_device)\n\n    out_tensors = []\n    for i, meta in enumerate(metadata):\n        if is_src_rank:\n            tensor = tensors[i]\n            broadcast(tensors[i].to(dist_device), src=src_rank, group=group)\n        else:\n            tensor = torch.zeros(\n                [meta[\"size\"].numel()], dtype=meta[\"dtype\"], device=dist_device\n            )\n            broadcast(tensor, src=src_rank, group=group)\n        tensor = tensor.view(meta[\"size\"]).to(meta[\"device\"])\n        out_tensors.append(tensor)\n    return out_tensors\n\n\ndef broadcast_object(\n    obj: Any,\n    src_rank: int,\n    group: object,\n    dist_device: Optional[torch.device] = None,\n) -> Any:\n    \"\"\"Broadcast an arbitrary Python object to other workers.\"\"\"\n    if dist_device is None:\n        if torch.distributed.get_backend(group) == \"nccl\":\n            dist_device = torch.device(\"cuda\")\n        else:\n            dist_device = torch.device(\"cpu\")\n\n    if get_rank(group) == src_rank:\n        # split the tensors from the non-tensors so we can broadcast them\n        # directly, avoiding unnecessary serialization/deserialization\n        tensors = []\n        obj = _split_tensors_from_obj(obj, tensors)\n        obj = _broadcast_object_slow(obj, src_rank, group, dist_device)\n        tensors = broadcast_tensors(tensors, src_rank, group, dist_device)\n    else:\n        obj = _broadcast_object_slow(None, src_rank, group, dist_device)\n        tensors = broadcast_tensors(None, src_rank, group, dist_device)\n    return _put_tensors_in_obj(obj, tensors)\n\n\ndef _broadcast_object_slow(\n    obj: Any,\n    src_rank: int,\n    group: object,\n    dist_device: torch.device,\n) -> Any:\n    if get_rank(group) == src_rank:\n        # Emit data\n        buffer = io.BytesIO()\n        torch.save(obj, buffer)\n        buffer = torch.ByteTensor(buffer.getbuffer()).to(dist_device)\n        length = torch.LongTensor([len(buffer)]).to(dist_device)\n        broadcast(length, src=src_rank, group=group)\n        broadcast(buffer, src=src_rank, group=group)\n    else:\n        # Fetch from the source\n        length = torch.LongTensor([0]).to(dist_device)\n        broadcast(length, src=src_rank, group=group)\n        buffer = torch.ByteTensor(int(length.item())).to(dist_device)\n        broadcast(buffer, src=src_rank, group=group)\n        buffer = io.BytesIO(buffer.cpu().numpy())\n        obj = torch.load(buffer, map_location=\"cpu\")\n    return obj\n\n\n@dataclass(frozen=True)\nclass _TensorPlaceholder:\n    index: int\n\n\ndef _split_tensors_from_obj(obj: Any, tensors: List[torch.Tensor]) -> Any:\n    if torch.is_tensor(obj):\n        placeholder = _TensorPlaceholder(index=len(tensors))\n        tensors.append(obj)\n        return placeholder\n    elif isinstance(obj, dict):\n        return {k: _split_tensors_from_obj(v, tensors) for k, v in obj.items()}\n    elif isinstance(obj, list):\n        return [_split_tensors_from_obj(v, tensors) for v in obj]\n    elif isinstance(obj, tuple):\n        return tuple(_split_tensors_from_obj(v, tensors) for v in obj)\n    elif isinstance(obj, set):\n        return {_split_tensors_from_obj(v, tensors) for v in obj}\n    else:\n        return obj\n\n\ndef _put_tensors_in_obj(obj: Any, tensors: List[torch.Tensor]) -> Any:\n    if isinstance(obj, _TensorPlaceholder):\n        return tensors[obj.index]\n    elif isinstance(obj, dict):\n        return {k: _put_tensors_in_obj(v, tensors) for k, v in obj.items()}\n    elif isinstance(obj, list):\n        return [_put_tensors_in_obj(v, tensors) for v in obj]\n    elif isinstance(obj, tuple):\n        return tuple(_put_tensors_in_obj(v, tensors) for v in obj)\n    elif isinstance(obj, set):\n        return {_put_tensors_in_obj(v, tensors) for v in obj}\n    else:\n        return obj\n"
  },
  {
    "path": "fairseq/file_chunker_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport typing as tp\n\n\ndef _safe_readline(fd) -> str:\n    pos = fd.tell()\n    while True:\n        try:\n            return fd.readline()\n        except UnicodeDecodeError:\n            pos -= 1\n            fd.seek(pos)  # search where this character begins\n\n\ndef find_offsets(filename: str, num_chunks: int) -> tp.List[int]:\n    \"\"\"\n    given a file and a number of chuncks, find the offsets in the file\n    to be able to chunk around full lines.\n    \"\"\"\n    with open(filename, \"r\", encoding=\"utf-8\") as f:\n        size = os.fstat(f.fileno()).st_size\n        chunk_size = size // num_chunks\n        offsets = [0 for _ in range(num_chunks + 1)]\n        for i in range(1, num_chunks):\n            f.seek(chunk_size * i)\n            _safe_readline(f)\n            offsets[i] = f.tell()\n        offsets[-1] = size\n        return offsets\n\n\nclass ChunkLineIterator:\n    \"\"\"\n    Iterator to properly iterate over lines of a file chunck.\n    \"\"\"\n\n    def __init__(self, fd, start_offset: int, end_offset: int):\n        self._fd = fd\n        self._start_offset = start_offset\n        self._end_offset = end_offset\n\n    def __iter__(self) -> tp.Iterable[str]:\n        self._fd.seek(self._start_offset)\n        # next(f) breaks f.tell(), hence readline() must be used\n        line = _safe_readline(self._fd)\n        while line:\n            pos = self._fd.tell()\n            # f.tell() does not always give the byte position in the file\n            # sometimes it skips to a very large number\n            # it is unlikely that through a normal read we go from\n            # end bytes to end + 2**32 bytes (4 GB) and this makes it unlikely\n            # that the procedure breaks by the undeterministic behavior of\n            # f.tell()\n            if (\n                self._end_offset > 0\n                and pos > self._end_offset\n                and pos < self._end_offset + 2**32\n            ):\n                break\n            yield line\n            line = self._fd.readline()\n\n\nclass Chunker:\n    \"\"\"\n    contextmanager to read a chunck of a file line by line.\n    \"\"\"\n\n    def __init__(self, path: str, start_offset: int, end_offset: int):\n        self.path = path\n        self.start_offset = start_offset\n        self.end_offset = end_offset\n\n    def __enter__(self) -> ChunkLineIterator:\n        self.fd = open(self.path, \"r\", encoding=\"utf-8\")\n        return ChunkLineIterator(self.fd, self.start_offset, self.end_offset)\n\n    def __exit__(self, exc_type, exc_val, exc_tb) -> None:\n        self.fd.close()\n"
  },
  {
    "path": "fairseq/file_io.py",
    "content": "#!/usr/bin/env python3\n\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport shutil\nfrom typing import List, Optional\n\n\nlogger = logging.getLogger(__file__)\n\n\ntry:\n    from iopath.common.file_io import g_pathmgr as IOPathManager\n\n    try:\n        # [FB only - for now] AWS PathHandler for PathManager\n        from .fb_pathhandlers import S3PathHandler\n\n        IOPathManager.register_handler(S3PathHandler())\n    except KeyError:\n        logging.warning(\"S3PathHandler already registered.\")\n    except ImportError:\n        logging.debug(\n            \"S3PathHandler couldn't be imported. Either missing fb-only files, or boto3 module.\"\n        )\n\nexcept ImportError:\n    IOPathManager = None\n\n\nclass PathManager:\n    \"\"\"\n    Wrapper for insulating OSS I/O (using Python builtin operations) from\n    iopath's PathManager abstraction (for transparently handling various\n    internal backends).\n    \"\"\"\n\n    @staticmethod\n    def open(\n        path: str,\n        mode: str = \"r\",\n        buffering: int = -1,\n        encoding: Optional[str] = None,\n        errors: Optional[str] = None,\n        newline: Optional[str] = None,\n    ):\n        if IOPathManager:\n            return IOPathManager.open(\n                path=path,\n                mode=mode,\n                buffering=buffering,\n                encoding=encoding,\n                errors=errors,\n                newline=newline,\n            )\n        return open(\n            path,\n            mode=mode,\n            buffering=buffering,\n            encoding=encoding,\n            errors=errors,\n            newline=newline,\n        )\n\n    @staticmethod\n    def copy(src_path: str, dst_path: str, overwrite: bool = False) -> bool:\n        if IOPathManager:\n            return IOPathManager.copy(\n                src_path=src_path, dst_path=dst_path, overwrite=overwrite\n            )\n        return shutil.copyfile(src_path, dst_path)\n\n    @staticmethod\n    def get_local_path(path: str, **kwargs) -> str:\n        if IOPathManager:\n            return IOPathManager.get_local_path(path, **kwargs)\n        return path\n\n    @staticmethod\n    def exists(path: str) -> bool:\n        if IOPathManager:\n            return IOPathManager.exists(path)\n        return os.path.exists(path)\n\n    @staticmethod\n    def isfile(path: str) -> bool:\n        if IOPathManager:\n            return IOPathManager.isfile(path)\n        return os.path.isfile(path)\n\n    @staticmethod\n    def ls(path: str) -> List[str]:\n        if IOPathManager:\n            return IOPathManager.ls(path)\n        return os.listdir(path)\n\n    @staticmethod\n    def mkdirs(path: str) -> None:\n        if IOPathManager:\n            return IOPathManager.mkdirs(path)\n        os.makedirs(path, exist_ok=True)\n\n    @staticmethod\n    def rm(path: str) -> None:\n        if IOPathManager:\n            return IOPathManager.rm(path)\n        os.remove(path)\n\n    @staticmethod\n    def chmod(path: str, mode: int) -> None:\n        if not PathManager.path_requires_pathmanager(path):\n            os.chmod(path, mode)\n\n    @staticmethod\n    def register_handler(handler) -> None:\n        if IOPathManager:\n            return IOPathManager.register_handler(handler=handler)\n\n    @staticmethod\n    def copy_from_local(\n        local_path: str, dst_path: str, overwrite: bool = False, **kwargs\n    ) -> None:\n        if IOPathManager:\n            return IOPathManager.copy_from_local(\n                local_path=local_path, dst_path=dst_path, overwrite=overwrite, **kwargs\n            )\n        return shutil.copyfile(local_path, dst_path)\n\n    @staticmethod\n    def path_requires_pathmanager(path: str) -> bool:\n        \"\"\"Do we require PathManager to access given path?\"\"\"\n        if IOPathManager:\n            for p in IOPathManager._path_handlers.keys():\n                if path.startswith(p):\n                    return True\n        return False\n\n    @staticmethod\n    def supports_rename(path: str) -> bool:\n        # PathManager doesn't yet support renames\n        return not PathManager.path_requires_pathmanager(path)\n\n    @staticmethod\n    def rename(src: str, dst: str):\n        os.rename(src, dst)\n\n    \"\"\"\n    ioPath async PathManager methods:\n    \"\"\"\n\n    @staticmethod\n    def opena(\n        path: str,\n        mode: str = \"r\",\n        buffering: int = -1,\n        encoding: Optional[str] = None,\n        errors: Optional[str] = None,\n        newline: Optional[str] = None,\n    ):\n        \"\"\"\n        Return file descriptor with asynchronous write operations.\n        \"\"\"\n        global IOPathManager\n        if not IOPathManager:\n            logging.info(\"ioPath is initializing PathManager.\")\n            try:\n                from iopath.common.file_io import PathManager\n\n                IOPathManager = PathManager()\n            except Exception:\n                logging.exception(\"Failed to initialize ioPath PathManager object.\")\n        return IOPathManager.opena(\n            path=path,\n            mode=mode,\n            buffering=buffering,\n            encoding=encoding,\n            errors=errors,\n            newline=newline,\n        )\n\n    @staticmethod\n    def async_close() -> bool:\n        \"\"\"\n        Wait for files to be written and clean up asynchronous PathManager.\n        NOTE: `PathManager.async_close()` must be called at the end of any\n        script that uses `PathManager.opena(...)`.\n        \"\"\"\n        global IOPathManager\n        if IOPathManager:\n            return IOPathManager.async_close()\n        return False\n"
  },
  {
    "path": "fairseq/file_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nUtilities for working with the local dataset cache.\nThis file is adapted from `AllenNLP <https://github.com/allenai/allennlp>`_.\nand `huggingface <https://github.com/huggingface>`_.\n\"\"\"\n\nimport fnmatch\nimport json\nimport logging\nimport os\nimport shutil\nimport tarfile\nimport tempfile\nfrom functools import partial, wraps\nfrom hashlib import sha256\nfrom io import open\n\n\ntry:\n    from torch.hub import _get_torch_home\n\n    torch_cache_home = _get_torch_home()\nexcept ImportError:\n    torch_cache_home = os.path.expanduser(\n        os.getenv(\n            \"TORCH_HOME\", os.path.join(os.getenv(\"XDG_CACHE_HOME\", \"~/.cache\"), \"torch\")\n        )\n    )\ndefault_cache_path = os.path.join(torch_cache_home, \"pytorch_fairseq\")\n\ntry:\n    from urllib.parse import urlparse\nexcept ImportError:\n    from urlparse import urlparse\n\ntry:\n    from pathlib import Path\n\n    PYTORCH_FAIRSEQ_CACHE = Path(os.getenv(\"PYTORCH_FAIRSEQ_CACHE\", default_cache_path))\nexcept (AttributeError, ImportError):\n    PYTORCH_FAIRSEQ_CACHE = os.getenv(\"PYTORCH_FAIRSEQ_CACHE\", default_cache_path)\n\nCONFIG_NAME = \"config.json\"\nWEIGHTS_NAME = \"pytorch_model.bin\"\n\nlogger = logging.getLogger(__name__)  # pylint: disable=invalid-name\n\n\ndef load_archive_file(archive_file):\n    # redirect to the cache, if necessary\n    try:\n        resolved_archive_file = cached_path(archive_file, cache_dir=None)\n    except EnvironmentError:\n        logger.info(\n            \"Archive name '{}' was not found in archive name list. \"\n            \"We assumed '{}' was a path or URL but couldn't find any file \"\n            \"associated to this path or URL.\".format(\n                archive_file,\n                archive_file,\n            )\n        )\n        return None\n\n    if resolved_archive_file == archive_file:\n        logger.info(\"loading archive file {}\".format(archive_file))\n    else:\n        logger.info(\n            \"loading archive file {} from cache at {}\".format(\n                archive_file, resolved_archive_file\n            )\n        )\n\n    # Extract archive to temp dir and replace .tar.bz2 if necessary\n    tempdir = None\n    if not os.path.isdir(resolved_archive_file):\n        tempdir = tempfile.mkdtemp()\n        logger.info(\n            \"extracting archive file {} to temp dir {}\".format(\n                resolved_archive_file, tempdir\n            )\n        )\n        ext = os.path.splitext(archive_file)[1][1:]\n        with tarfile.open(resolved_archive_file, \"r:\" + ext) as archive:\n            top_dir = os.path.commonprefix(archive.getnames())\n            archive.extractall(tempdir)\n        os.remove(resolved_archive_file)\n        shutil.move(os.path.join(tempdir, top_dir), resolved_archive_file)\n        shutil.rmtree(tempdir)\n\n    return resolved_archive_file\n\n\ndef url_to_filename(url, etag=None):\n    \"\"\"\n    Convert `url` into a hashed filename in a repeatable way.\n    If `etag` is specified, append its hash to the URL's, delimited\n    by a period.\n    \"\"\"\n    url_bytes = url.encode(\"utf-8\")\n    url_hash = sha256(url_bytes)\n    filename = url_hash.hexdigest()\n\n    if etag:\n        etag_bytes = etag.encode(\"utf-8\")\n        etag_hash = sha256(etag_bytes)\n        filename += \".\" + etag_hash.hexdigest()\n\n    return filename\n\n\ndef filename_to_url(filename, cache_dir=None):\n    \"\"\"\n    Return the url and etag (which may be ``None``) stored for `filename`.\n    Raise ``EnvironmentError`` if `filename` or its stored metadata do not exist.\n    \"\"\"\n    if cache_dir is None:\n        cache_dir = PYTORCH_FAIRSEQ_CACHE\n    if isinstance(cache_dir, Path):\n        cache_dir = str(cache_dir)\n\n    cache_path = os.path.join(cache_dir, filename)\n    if not os.path.exists(cache_path):\n        raise EnvironmentError(\"file {} not found\".format(cache_path))\n\n    meta_path = cache_path + \".json\"\n    if not os.path.exists(meta_path):\n        raise EnvironmentError(\"file {} not found\".format(meta_path))\n\n    with open(meta_path, encoding=\"utf-8\") as meta_file:\n        metadata = json.load(meta_file)\n    url = metadata[\"url\"]\n    etag = metadata[\"etag\"]\n\n    return url, etag\n\n\ndef cached_path_from_pm(url_or_filename):\n    \"\"\"\n    Tries to cache the specified URL using PathManager class.\n    Returns the cached path if success otherwise failure.\n    \"\"\"\n    try:\n        from fairseq.file_io import PathManager\n\n        local_path = PathManager.get_local_path(url_or_filename)\n        return local_path\n    except Exception:\n        return None\n\n\ndef cached_path(url_or_filename, cache_dir=None):\n    \"\"\"\n    Given something that might be a URL (or might be a local path),\n    determine which. If it's a URL, download the file and cache it, and\n    return the path to the cached file. If it's already a local path,\n    make sure the file exists and then return the path.\n    \"\"\"\n    if cache_dir is None:\n        cache_dir = PYTORCH_FAIRSEQ_CACHE\n    if isinstance(url_or_filename, Path):\n        url_or_filename = str(url_or_filename)\n    if isinstance(cache_dir, Path):\n        cache_dir = str(cache_dir)\n\n    parsed = urlparse(url_or_filename)\n\n    if parsed.scheme in (\"http\", \"https\", \"s3\"):\n        # URL, so get it from the cache (downloading if necessary)\n        return get_from_cache(url_or_filename, cache_dir)\n    elif os.path.exists(url_or_filename):\n        # File, and it exists.\n        return url_or_filename\n    elif parsed.scheme == \"\":\n        # File, but it doesn't exist.\n        raise EnvironmentError(\"file {} not found\".format(url_or_filename))\n    else:\n        cached_path = cached_path_from_pm(url_or_filename)\n        if cached_path:\n            return cached_path\n        # Something unknown\n        raise ValueError(\n            \"unable to parse {} as a URL or as a local path\".format(url_or_filename)\n        )\n\n\ndef split_s3_path(url):\n    \"\"\"Split a full s3 path into the bucket name and path.\"\"\"\n    parsed = urlparse(url)\n    if not parsed.netloc or not parsed.path:\n        raise ValueError(\"bad s3 path {}\".format(url))\n    bucket_name = parsed.netloc\n    s3_path = parsed.path\n    # Remove '/' at beginning of path.\n    if s3_path.startswith(\"/\"):\n        s3_path = s3_path[1:]\n    return bucket_name, s3_path\n\n\ndef s3_request(func):\n    \"\"\"\n    Wrapper function for s3 requests in order to create more helpful error\n    messages.\n    \"\"\"\n\n    @wraps(func)\n    def wrapper(url, *args, **kwargs):\n        from botocore.exceptions import ClientError\n\n        try:\n            return func(url, *args, **kwargs)\n        except ClientError as exc:\n            if int(exc.response[\"Error\"][\"Code\"]) == 404:\n                raise EnvironmentError(\"file {} not found\".format(url))\n            else:\n                raise\n\n    return wrapper\n\n\n@s3_request\ndef s3_etag(url):\n    \"\"\"Check ETag on S3 object.\"\"\"\n    import boto3\n\n    s3_resource = boto3.resource(\"s3\")\n    bucket_name, s3_path = split_s3_path(url)\n    s3_object = s3_resource.Object(bucket_name, s3_path)\n    return s3_object.e_tag\n\n\n@s3_request\ndef s3_get(url, temp_file):\n    \"\"\"Pull a file directly from S3.\"\"\"\n    import boto3\n\n    s3_resource = boto3.resource(\"s3\")\n    bucket_name, s3_path = split_s3_path(url)\n    s3_resource.Bucket(bucket_name).download_fileobj(s3_path, temp_file)\n\n\ndef request_wrap_timeout(func, url):\n    import requests\n\n    for attempt, timeout in enumerate([10, 20, 40, 60, 60]):\n        try:\n            return func(timeout=timeout)\n        except requests.exceptions.Timeout as e:\n            logger.warning(\n                \"Request for %s timed-out (attempt %d). Retrying with a timeout of %d secs\",\n                url,\n                attempt,\n                timeout,\n                exc_info=e,\n            )\n            continue\n    raise RuntimeError(f\"Unable to fetch file {url}\")\n\n\ndef http_get(url, temp_file):\n    import requests\n    from tqdm import tqdm\n\n    req = request_wrap_timeout(partial(requests.get, url, stream=True), url)\n    content_length = req.headers.get(\"Content-Length\")\n    total = int(content_length) if content_length is not None else None\n    progress = tqdm(unit=\"B\", total=total)\n    for chunk in req.iter_content(chunk_size=1024):\n        if chunk:  # filter out keep-alive new chunks\n            progress.update(len(chunk))\n            temp_file.write(chunk)\n    progress.close()\n\n\ndef get_from_cache(url, cache_dir=None):\n    \"\"\"\n    Given a URL, look for the corresponding dataset in the local cache.\n    If it's not there, download it. Then return the path to the cached file.\n    \"\"\"\n    if cache_dir is None:\n        cache_dir = PYTORCH_FAIRSEQ_CACHE\n    if isinstance(cache_dir, Path):\n        cache_dir = str(cache_dir)\n\n    if not os.path.exists(cache_dir):\n        os.makedirs(cache_dir)\n\n    # Get eTag to add to filename, if it exists.\n    if url.startswith(\"s3://\"):\n        etag = s3_etag(url)\n    else:\n        try:\n            import requests\n\n            response = request_wrap_timeout(\n                partial(requests.head, url, allow_redirects=True), url\n            )\n            if response.status_code != 200:\n                etag = None\n            else:\n                etag = response.headers.get(\"ETag\")\n        except RuntimeError:\n            etag = None\n\n    filename = url_to_filename(url, etag)\n\n    # get cache path to put the file\n    cache_path = os.path.join(cache_dir, filename)\n\n    # If we don't have a connection (etag is None) and can't identify the file\n    # try to get the last downloaded one\n    if not os.path.exists(cache_path) and etag is None:\n        matching_files = fnmatch.filter(os.listdir(cache_dir), filename + \".*\")\n        matching_files = list(filter(lambda s: not s.endswith(\".json\"), matching_files))\n        if matching_files:\n            cache_path = os.path.join(cache_dir, matching_files[-1])\n\n    if not os.path.exists(cache_path):\n        # Download to temporary file, then copy to cache dir once finished.\n        # Otherwise you get corrupt cache entries if the download gets interrupted.\n        with tempfile.NamedTemporaryFile() as temp_file:\n            logger.info(\"%s not found in cache, downloading to %s\", url, temp_file.name)\n\n            # GET file object\n            if url.startswith(\"s3://\"):\n                s3_get(url, temp_file)\n            else:\n                http_get(url, temp_file)\n\n            # we are copying the file before closing it, so flush to avoid truncation\n            temp_file.flush()\n            # shutil.copyfileobj() starts at the current position, so go to the start\n            temp_file.seek(0)\n\n            logger.info(\"copying %s to cache at %s\", temp_file.name, cache_path)\n            with open(cache_path, \"wb\") as cache_file:\n                shutil.copyfileobj(temp_file, cache_file)\n\n            logger.info(\"creating metadata file for %s\", cache_path)\n            meta = {\"url\": url, \"etag\": etag}\n            meta_path = cache_path + \".json\"\n            with open(meta_path, \"w\") as meta_file:\n                output_string = json.dumps(meta)\n                meta_file.write(output_string)\n\n            logger.info(\"removing temp file %s\", temp_file.name)\n\n    return cache_path\n\n\ndef read_set_from_file(filename):\n    \"\"\"\n    Extract a de-duped collection (set) of text from a file.\n    Expected file format is one item per line.\n    \"\"\"\n    collection = set()\n    with open(filename, \"r\", encoding=\"utf-8\") as file_:\n        for line in file_:\n            collection.add(line.rstrip())\n    return collection\n\n\ndef get_file_extension(path, dot=True, lower=True):\n    ext = os.path.splitext(path)[1]\n    ext = ext if dot else ext[1:]\n    return ext.lower() if lower else ext\n"
  },
  {
    "path": "fairseq/hub_utils.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport copy\nimport logging\nimport os\nfrom typing import Any, Dict, Iterator, List\n\nimport torch\nfrom omegaconf import open_dict\nfrom torch import nn\n\nfrom fairseq import utils\nfrom fairseq.data import encoders\n\nlogger = logging.getLogger(__name__)\n\n\ndef from_pretrained(\n    model_name_or_path,\n    checkpoint_file=\"model.pt\",\n    data_name_or_path=\".\",\n    archive_map=None,\n    **kwargs\n):\n    from fairseq import checkpoint_utils, file_utils\n\n    if archive_map is not None:\n        if model_name_or_path in archive_map:\n            model_name_or_path = archive_map[model_name_or_path]\n        if data_name_or_path is not None and data_name_or_path in archive_map:\n            data_name_or_path = archive_map[data_name_or_path]\n\n        # allow archive_map to set default arg_overrides (e.g., tokenizer, bpe)\n        # for each model\n        if isinstance(model_name_or_path, dict):\n            for k, v in model_name_or_path.items():\n                if k == \"checkpoint_file\":\n                    checkpoint_file = v\n                elif (\n                    k != \"path\"\n                    # only set kwargs that don't already have overrides\n                    and k not in kwargs\n                ):\n                    kwargs[k] = v\n            model_name_or_path = model_name_or_path[\"path\"]\n\n    model_path = file_utils.load_archive_file(model_name_or_path)\n\n    # convenience hack for loading data and BPE codes from model archive\n    if data_name_or_path.startswith(\".\"):\n        kwargs[\"data\"] = os.path.abspath(os.path.join(model_path, data_name_or_path))\n    else:\n        kwargs[\"data\"] = file_utils.load_archive_file(data_name_or_path)\n    for file, arg in {\n        \"code\": \"bpe_codes\",\n        \"bpecodes\": \"bpe_codes\",\n        \"sentencepiece.bpe.model\": \"sentencepiece_model\",\n        \"merges.txt\": \"bpe_merges\",\n        \"vocab.json\": \"bpe_vocab\",\n    }.items():\n        path = os.path.join(model_path, file)\n        if os.path.exists(path):\n            kwargs[arg] = path\n\n    if \"user_dir\" in kwargs:\n        utils.import_user_module(argparse.Namespace(user_dir=kwargs[\"user_dir\"]))\n\n    model_path = [\n        os.path.join(model_path, cpt) for cpt in checkpoint_file.split(os.pathsep)\n    ]\n\n    if \"is_vocoder\" in kwargs:\n        args = {\"data\": kwargs[\"data\"], \"model_path\": model_path}\n        task = None\n        models = None\n    else:\n        models, args, task = checkpoint_utils.load_model_ensemble_and_task(\n            model_path,\n            arg_overrides=kwargs,\n        )\n    if \"generation_args\" in kwargs and kwargs[\"generation_args\"]:\n        for key in kwargs[\"generation_args\"]:\n            setattr(args[\"generation\"], key, kwargs[\"generation_args\"][key])\n\n    return {\n        \"args\": args,\n        \"task\": task,\n        \"models\": models,\n    }\n\n\nclass GeneratorHubInterface(nn.Module):\n    \"\"\"\n    PyTorch Hub interface for generating sequences from a pre-trained\n    translation or language model.\n    \"\"\"\n\n    def __init__(self, cfg, task, models):\n        super().__init__()\n        self.cfg = cfg\n        self.task = task\n        self.models = nn.ModuleList(models)\n        self.src_dict = task.source_dictionary\n        self.tgt_dict = task.target_dictionary\n\n        # optimize model for generation\n        for model in self.models:\n            model.prepare_for_inference_(cfg)\n\n        # Load alignment dictionary for unknown word replacement\n        # (None if no unknown word replacement, empty if no path to align dictionary)\n        self.align_dict = utils.load_align_dict(cfg.generation.replace_unk)\n\n        self.tokenizer = encoders.build_tokenizer(cfg.tokenizer)\n        self.bpe = encoders.build_bpe(cfg.bpe)\n\n        self.max_positions = utils.resolve_max_positions(\n            self.task.max_positions(), *[model.max_positions() for model in models]\n        )\n\n        # this is useful for determining the device\n        self.register_buffer(\"_float_tensor\", torch.tensor([0], dtype=torch.float))\n\n    @property\n    def device(self):\n        return self._float_tensor.device\n\n    def translate(\n        self, sentences: List[str], beam: int = 5, verbose: bool = False, **kwargs\n    ) -> List[str]:\n        return self.sample(sentences, beam, verbose, **kwargs)\n\n    def sample(\n        self, sentences: List[str], beam: int = 1, verbose: bool = False, **kwargs\n    ) -> List[str]:\n        if isinstance(sentences, str):\n            return self.sample([sentences], beam=beam, verbose=verbose, **kwargs)[0]\n        tokenized_sentences = [self.encode(sentence) for sentence in sentences]\n        batched_hypos = self.generate(tokenized_sentences, beam, verbose, **kwargs)\n        return [self.decode(hypos[0][\"tokens\"]) for hypos in batched_hypos]\n\n    def score(\n        self, sentences: List[str], replace_newline_with_eos: bool = False, **kwargs\n    ):\n        if isinstance(sentences, str):\n            return self.score(\n                [sentences], replace_newline_with_eos=replace_newline_with_eos, **kwargs\n            )[0]\n\n        def encode(sentence):\n            if replace_newline_with_eos:\n                return torch.cat([self.encode(line) for line in sentence.splitlines()])\n            else:\n                return self.encode(sentence)\n\n        # NOTE: this doesn't support translation tasks currently\n        tokenized_sentences = [encode(sentence) for sentence in sentences]\n        return [\n            hypos[0]\n            for hypos in self.generate(\n                tokenized_sentences, score_reference=True, **kwargs\n            )\n        ]\n\n    def generate(\n        self,\n        tokenized_sentences: List[torch.LongTensor],\n        beam: int = 5,\n        verbose: bool = False,\n        skip_invalid_size_inputs=False,\n        inference_step_args=None,\n        prefix_allowed_tokens_fn=None,\n        **kwargs\n    ) -> List[List[Dict[str, torch.Tensor]]]:\n        if torch.is_tensor(tokenized_sentences) and tokenized_sentences.dim() == 1:\n            return self.generate(\n                tokenized_sentences.unsqueeze(0), beam=beam, verbose=verbose, **kwargs\n            )[0]\n\n        # build generator using current args as well as any kwargs\n        gen_args = copy.deepcopy(self.cfg.generation)\n        with open_dict(gen_args):\n            gen_args.beam = beam\n            for k, v in kwargs.items():\n                setattr(gen_args, k, v)\n        generator = self.task.build_generator(\n            self.models,\n            gen_args,\n            prefix_allowed_tokens_fn=prefix_allowed_tokens_fn,\n        )\n\n        inference_step_args = inference_step_args or {}\n        results = []\n        for batch in self._build_batches(tokenized_sentences, skip_invalid_size_inputs):\n            batch = utils.apply_to_sample(lambda t: t.to(self.device), batch)\n            translations = self.task.inference_step(\n                generator, self.models, batch, **inference_step_args\n            )\n            for id, hypos in zip(batch[\"id\"].tolist(), translations):\n                results.append((id, hypos))\n\n        # sort output to match input order\n        outputs = [hypos for _, hypos in sorted(results, key=lambda x: x[0])]\n\n        if verbose:\n\n            def getarg(name, default):\n                return getattr(gen_args, name, getattr(self.cfg, name, default))\n\n            for source_tokens, target_hypotheses in zip(tokenized_sentences, outputs):\n                src_str_with_unk = self.string(source_tokens)\n                logger.info(\"S\\t{}\".format(src_str_with_unk))\n                for hypo in target_hypotheses:\n                    hypo_str = self.decode(hypo[\"tokens\"])\n                    logger.info(\"H\\t{}\\t{}\".format(hypo[\"score\"], hypo_str))\n                    logger.info(\n                        \"P\\t{}\".format(\n                            \" \".join(\n                                map(\n                                    lambda x: \"{:.4f}\".format(x),\n                                    hypo[\"positional_scores\"].tolist(),\n                                )\n                            )\n                        )\n                    )\n                    if hypo[\"alignment\"] is not None and getarg(\n                        \"print_alignment\", False\n                    ):\n                        logger.info(\n                            \"A\\t{}\".format(\n                                \" \".join(\n                                    [\n                                        \"{}-{}\".format(src_idx, tgt_idx)\n                                        for src_idx, tgt_idx in hypo[\"alignment\"]\n                                    ]\n                                )\n                            )\n                        )\n        return outputs\n\n    def encode(self, sentence: str) -> torch.LongTensor:\n        sentence = self.tokenize(sentence)\n        sentence = self.apply_bpe(sentence)\n        return self.binarize(sentence)\n\n    def decode(self, tokens: torch.LongTensor) -> str:\n        sentence = self.string(tokens)\n        sentence = self.remove_bpe(sentence)\n        return self.detokenize(sentence)\n\n    def tokenize(self, sentence: str) -> str:\n        if self.tokenizer is not None:\n            sentence = self.tokenizer.encode(sentence)\n        return sentence\n\n    def detokenize(self, sentence: str) -> str:\n        if self.tokenizer is not None:\n            sentence = self.tokenizer.decode(sentence)\n        return sentence\n\n    def apply_bpe(self, sentence: str) -> str:\n        if self.bpe is not None:\n            sentence = self.bpe.encode(sentence)\n        return sentence\n\n    def remove_bpe(self, sentence: str) -> str:\n        if self.bpe is not None:\n            sentence = self.bpe.decode(sentence)\n        return sentence\n\n    def binarize(self, sentence: str) -> torch.LongTensor:\n        return self.src_dict.encode_line(sentence, add_if_not_exist=False).long()\n\n    def string(self, tokens: torch.LongTensor) -> str:\n        return self.tgt_dict.string(tokens)\n\n    def _build_batches(\n        self, tokens: List[List[int]], skip_invalid_size_inputs: bool\n    ) -> Iterator[Dict[str, Any]]:\n        lengths = torch.LongTensor([t.numel() for t in tokens])\n        batch_iterator = self.task.get_batch_iterator(\n            dataset=self.task.build_dataset_for_inference(tokens, lengths),\n            max_tokens=self.cfg.dataset.max_tokens,\n            max_sentences=self.cfg.dataset.batch_size,\n            max_positions=self.max_positions,\n            ignore_invalid_inputs=skip_invalid_size_inputs,\n            disable_iterator_cache=True,\n        ).next_epoch_itr(shuffle=False)\n        return batch_iterator\n\n\nclass BPEHubInterface(object):\n    \"\"\"PyTorch Hub interface for Byte-Pair Encoding (BPE).\"\"\"\n\n    def __init__(self, bpe, **kwargs):\n        super().__init__()\n        args = argparse.Namespace(bpe=bpe, **kwargs)\n        self.bpe = encoders.build_bpe(args)\n        assert self.bpe is not None\n\n    def encode(self, sentence: str) -> str:\n        return self.bpe.encode(sentence)\n\n    def decode(self, sentence: str) -> str:\n        return self.bpe.decode(sentence)\n\n\nclass TokenizerHubInterface(object):\n    \"\"\"PyTorch Hub interface for tokenization.\"\"\"\n\n    def __init__(self, tokenizer, **kwargs):\n        super().__init__()\n        args = argparse.Namespace(tokenizer=tokenizer, **kwargs)\n        self.tokenizer = encoders.build_tokenizer(args)\n        assert self.tokenizer is not None\n\n    def encode(self, sentence: str) -> str:\n        return self.tokenizer.encode(sentence)\n\n    def decode(self, sentence: str) -> str:\n        return self.tokenizer.decode(sentence)\n"
  },
  {
    "path": "fairseq/incremental_decoding_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport uuid\nfrom typing import Dict, Optional\n\nfrom torch import Tensor\n\n\nclass FairseqIncrementalState(object):\n    def __init__(self, *args, **kwargs):\n        super().__init__(*args, **kwargs)\n        self.init_incremental_state()\n\n    def init_incremental_state(self):\n        self._incremental_state_id = str(uuid.uuid4())\n\n    def _get_full_incremental_state_key(self, key: str) -> str:\n        return \"{}.{}\".format(self._incremental_state_id, key)\n\n    def get_incremental_state(\n        self,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]],\n        key: str,\n    ) -> Optional[Dict[str, Optional[Tensor]]]:\n        \"\"\"Helper for getting incremental state for an nn.Module.\"\"\"\n        full_key = self._get_full_incremental_state_key(key)\n        if incremental_state is None or full_key not in incremental_state:\n            return None\n        return incremental_state[full_key]\n\n    def set_incremental_state(\n        self,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]],\n        key: str,\n        value: Dict[str, Optional[Tensor]],\n    ) -> Optional[Dict[str, Dict[str, Optional[Tensor]]]]:\n        \"\"\"Helper for setting incremental state for an nn.Module.\"\"\"\n        if incremental_state is not None:\n            full_key = self._get_full_incremental_state_key(key)\n            incremental_state[full_key] = value\n        return incremental_state\n\n\ndef with_incremental_state(cls):\n    cls.__bases__ = (FairseqIncrementalState,) + tuple(\n        b for b in cls.__bases__ if b != FairseqIncrementalState\n    )\n    return cls\n"
  },
  {
    "path": "fairseq/iterative_refinement_generator.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom collections import namedtuple\n\nimport numpy as np\nimport torch\nfrom fairseq import utils\n\n\nDecoderOut = namedtuple(\n    \"IterativeRefinementDecoderOut\",\n    [\"output_tokens\", \"output_scores\", \"attn\", \"step\", \"max_step\", \"history\"],\n)\n\n\nclass IterativeRefinementGenerator(object):\n    def __init__(\n        self,\n        tgt_dict,\n        models=None,\n        eos_penalty=0.0,\n        max_iter=10,\n        max_ratio=2,\n        beam_size=1,\n        decoding_format=None,\n        retain_dropout=False,\n        adaptive=True,\n        retain_history=False,\n        reranking=False,\n    ):\n        \"\"\"\n        Generates translations based on iterative refinement.\n\n        Args:\n            tgt_dict: target dictionary\n            eos_penalty: if > 0.0, it penalized early-stopping in decoding\n            max_iter: maximum number of refinement iterations\n            max_ratio: generate sequences of maximum length ax, where x is the source length\n            decoding_format: decoding mode in {'unigram', 'ensemble', 'vote', 'dp', 'bs'}\n            retain_dropout: retaining dropout in the inference\n            adaptive: decoding with early stop\n        \"\"\"\n        self.bos = tgt_dict.bos()\n        self.pad = tgt_dict.pad()\n        self.unk = tgt_dict.unk()\n        self.eos = tgt_dict.eos()\n        self.vocab_size = len(tgt_dict)\n        self.eos_penalty = eos_penalty\n        self.max_iter = max_iter\n        self.max_ratio = max_ratio\n        self.beam_size = beam_size\n        self.reranking = reranking\n        self.decoding_format = decoding_format\n        self.retain_dropout = retain_dropout\n        self.retain_history = retain_history\n        self.adaptive = adaptive\n        self.models = models\n\n    def generate_batched_itr(\n        self,\n        data_itr,\n        maxlen_a=None,\n        maxlen_b=None,\n        cuda=False,\n        timer=None,\n        prefix_size=0,\n    ):\n        \"\"\"Iterate over a batched dataset and yield individual translations.\n\n        Args:\n            maxlen_a/b: generate sequences of maximum length ax + b,\n                where x is the source sentence length.\n            cuda: use GPU for generation\n            timer: StopwatchMeter for timing generations.\n        \"\"\"\n\n        for sample in data_itr:\n            if \"net_input\" not in sample:\n                continue\n            if timer is not None:\n                timer.start()\n            with torch.no_grad():\n                hypos = self.generate(\n                    self.models,\n                    sample,\n                    prefix_tokens=sample[\"target\"][:, :prefix_size]\n                    if prefix_size > 0\n                    else None,\n                )\n            if timer is not None:\n                timer.stop(sample[\"ntokens\"])\n            for i, id in enumerate(sample[\"id\"]):\n                # remove padding\n                src = utils.strip_pad(sample[\"net_input\"][\"src_tokens\"][i, :], self.pad)\n                ref = utils.strip_pad(sample[\"target\"][i, :], self.pad)\n                yield id, src, ref, hypos[i]\n\n    @torch.no_grad()\n    def generate(self, models, sample, prefix_tokens=None, constraints=None):\n        if constraints is not None:\n            raise NotImplementedError(\n                \"Constrained decoding with the IterativeRefinementGenerator is not supported\"\n            )\n\n        # TODO: iterative refinement generator does not support ensemble for now.\n        if not self.retain_dropout:\n            for model in models:\n                model.eval()\n\n        model, reranker = models[0], None\n        if self.reranking:\n            assert len(models) > 1, \"Assuming the last checkpoint is the reranker\"\n            assert (\n                self.beam_size > 1\n            ), \"Reranking requires multiple translation for each example\"\n\n            reranker = models[-1]\n            models = models[:-1]\n\n        if len(models) > 1 and hasattr(model, \"enable_ensemble\"):\n            assert model.allow_ensemble, \"{} does not support ensembling\".format(\n                model.__class__.__name__\n            )\n            model.enable_ensemble(models)\n\n        # TODO: better encoder inputs?\n        src_tokens = sample[\"net_input\"][\"src_tokens\"]\n        src_lengths = sample[\"net_input\"][\"src_lengths\"]\n        bsz, src_len = src_tokens.size()\n\n        # initialize\n        encoder_out = model.forward_encoder([src_tokens, src_lengths])\n        prev_decoder_out = model.initialize_output_tokens(encoder_out, src_tokens)\n\n        if self.beam_size > 1:\n            assert (\n                model.allow_length_beam\n            ), \"{} does not support decoding with length beam.\".format(\n                model.__class__.__name__\n            )\n\n            # regenerate data based on length-beam\n            length_beam_order = (\n                utils.new_arange(src_tokens, self.beam_size, bsz).t().reshape(-1)\n            )\n            encoder_out = model.encoder.reorder_encoder_out(\n                encoder_out, length_beam_order\n            )\n            prev_decoder_out = model.regenerate_length_beam(\n                prev_decoder_out, self.beam_size\n            )\n            bsz = bsz * self.beam_size\n\n        sent_idxs = torch.arange(bsz)\n        prev_output_tokens = prev_decoder_out.output_tokens.clone()\n\n        if self.retain_history:\n            prev_decoder_out = prev_decoder_out._replace(history=[prev_output_tokens])\n\n        finalized = [[] for _ in range(bsz)]\n\n        def is_a_loop(x, y, s, a):\n            b, l_x, l_y = x.size(0), x.size(1), y.size(1)\n            if l_x > l_y:\n                y = torch.cat([y, x.new_zeros(b, l_x - l_y).fill_(self.pad)], 1)\n                s = torch.cat([s, s.new_zeros(b, l_x - l_y)], 1)\n                if a is not None:\n                    a = torch.cat([a, a.new_zeros(b, l_x - l_y, a.size(2))], 1)\n            elif l_x < l_y:\n                x = torch.cat([x, y.new_zeros(b, l_y - l_x).fill_(self.pad)], 1)\n            return (x == y).all(1), y, s, a\n\n        def finalized_hypos(step, prev_out_token, prev_out_score, prev_out_attn):\n            cutoff = prev_out_token.ne(self.pad)\n            tokens = prev_out_token[cutoff]\n            if prev_out_score is None:\n                scores, score = None, None\n            else:\n                scores = prev_out_score[cutoff]\n                score = scores.mean()\n\n            if prev_out_attn is None:\n                hypo_attn, alignment = None, None\n            else:\n                hypo_attn = prev_out_attn[cutoff]\n                alignment = hypo_attn.max(dim=1)[1]\n            return {\n                \"steps\": step,\n                \"tokens\": tokens,\n                \"positional_scores\": scores,\n                \"score\": score,\n                \"hypo_attn\": hypo_attn,\n                \"alignment\": alignment,\n            }\n\n        for step in range(self.max_iter + 1):\n\n            decoder_options = {\n                \"eos_penalty\": self.eos_penalty,\n                \"max_ratio\": self.max_ratio,\n                \"decoding_format\": self.decoding_format,\n            }\n            prev_decoder_out = prev_decoder_out._replace(\n                step=step,\n                max_step=self.max_iter + 1,\n            )\n\n            decoder_out = model.forward_decoder(\n                prev_decoder_out, encoder_out, **decoder_options\n            )\n\n            if self.adaptive:\n                # terminate if there is a loop\n                terminated, out_tokens, out_scores, out_attn = is_a_loop(\n                    prev_output_tokens,\n                    decoder_out.output_tokens,\n                    decoder_out.output_scores,\n                    decoder_out.attn,\n                )\n                decoder_out = decoder_out._replace(\n                    output_tokens=out_tokens,\n                    output_scores=out_scores,\n                    attn=out_attn,\n                )\n\n            else:\n                terminated = decoder_out.output_tokens.new_zeros(\n                    decoder_out.output_tokens.size(0)\n                ).bool()\n\n            if step == self.max_iter:  # reach last iteration, terminate\n                terminated.fill_(1)\n\n            # collect finalized sentences\n            finalized_idxs = sent_idxs[terminated.to(sent_idxs.device)]\n            finalized_tokens = decoder_out.output_tokens[terminated]\n            finalized_scores = decoder_out.output_scores[terminated]\n            finalized_attn = (\n                None\n                if (decoder_out.attn is None or decoder_out.attn.size(0) == 0)\n                else decoder_out.attn[terminated]\n            )\n\n            if self.retain_history:\n                finalized_history_tokens = [h[terminated] for h in decoder_out.history]\n\n            for i in range(finalized_idxs.size(0)):\n                finalized[finalized_idxs[i]] = [\n                    finalized_hypos(\n                        step,\n                        finalized_tokens[i],\n                        finalized_scores[i],\n                        None if finalized_attn is None else finalized_attn[i],\n                    )\n                ]\n\n                if self.retain_history:\n                    finalized[finalized_idxs[i]][0][\"history\"] = []\n                    for j in range(len(finalized_history_tokens)):\n                        finalized[finalized_idxs[i]][0][\"history\"].append(\n                            finalized_hypos(\n                                step, finalized_history_tokens[j][i], None, None\n                            )\n                        )\n\n            # check if all terminated\n            if terminated.sum() == terminated.size(0):\n                break\n\n            # for next step\n            not_terminated = ~terminated\n            prev_decoder_out = decoder_out._replace(\n                output_tokens=decoder_out.output_tokens[not_terminated],\n                output_scores=decoder_out.output_scores[not_terminated],\n                attn=decoder_out.attn[not_terminated]\n                if (decoder_out.attn is not None and decoder_out.attn.size(0) > 0)\n                else None,\n                history=[h[not_terminated] for h in decoder_out.history]\n                if decoder_out.history is not None\n                else None,\n            )\n            encoder_out = model.encoder.reorder_encoder_out(\n                encoder_out, not_terminated.nonzero(as_tuple=False).squeeze()\n            )\n            sent_idxs = sent_idxs[not_terminated.to(sent_idxs.device)]\n            prev_output_tokens = prev_decoder_out.output_tokens.clone()\n\n        if self.beam_size > 1:\n            if reranker is not None:\n                finalized = self.rerank(\n                    reranker, finalized, [src_tokens, src_lengths], self.beam_size\n                )\n\n            # aggregate information from length beam\n            finalized = [\n                finalized[\n                    np.argmax(\n                        [\n                            finalized[self.beam_size * i + j][0][\"score\"]\n                            for j in range(self.beam_size)\n                        ]\n                    )\n                    + self.beam_size * i\n                ]\n                for i in range(len(finalized) // self.beam_size)\n            ]\n\n        return finalized\n\n    def rerank(self, reranker, finalized, encoder_input, beam_size):\n        def rebuild_batch(finalized):\n            finalized_tokens = [f[0][\"tokens\"] for f in finalized]\n            finalized_maxlen = max(f.size(0) for f in finalized_tokens)\n            final_output_tokens = (\n                finalized_tokens[0]\n                .new_zeros(len(finalized_tokens), finalized_maxlen)\n                .fill_(self.pad)\n            )\n            for i, f in enumerate(finalized_tokens):\n                final_output_tokens[i, : f.size(0)] = f\n            return final_output_tokens\n\n        final_output_tokens = rebuild_batch(finalized)\n        final_output_tokens[\n            :, 0\n        ] = self.eos  # autoregressive model assumes starting with EOS\n\n        reranker_encoder_out = reranker.encoder(*encoder_input)\n        length_beam_order = (\n            utils.new_arange(\n                final_output_tokens, beam_size, reranker_encoder_out.encoder_out.size(1)\n            )\n            .t()\n            .reshape(-1)\n        )\n        reranker_encoder_out = reranker.encoder.reorder_encoder_out(\n            reranker_encoder_out, length_beam_order\n        )\n        reranking_scores = reranker.get_normalized_probs(\n            reranker.decoder(final_output_tokens[:, :-1], reranker_encoder_out),\n            True,\n            None,\n        )\n        reranking_scores = reranking_scores.gather(2, final_output_tokens[:, 1:, None])\n        reranking_masks = final_output_tokens[:, 1:].ne(self.pad)\n        reranking_scores = (\n            reranking_scores[:, :, 0].masked_fill_(~reranking_masks, 0).sum(1)\n        )\n        reranking_scores = reranking_scores / reranking_masks.sum(1).type_as(\n            reranking_scores\n        )\n\n        for i in range(len(finalized)):\n            finalized[i][0][\"score\"] = reranking_scores[i]\n\n        return finalized\n"
  },
  {
    "path": "fairseq/logging/__init__.py",
    "content": ""
  },
  {
    "path": "fairseq/logging/meters.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport bisect\nimport time\nfrom collections import OrderedDict\nfrom typing import Dict, Optional\n\ntry:\n    import torch\n\n    def type_as(a, b):\n        if torch.is_tensor(a) and torch.is_tensor(b):\n            return a.to(b)\n        else:\n            return a\n\nexcept ImportError:\n    torch = None\n\n    def type_as(a, b):\n        return a\n\n\ntry:\n    import numpy as np\nexcept ImportError:\n    np = None\n\n\nclass Meter(object):\n    \"\"\"Base class for Meters.\"\"\"\n\n    def __init__(self):\n        pass\n\n    def state_dict(self):\n        return {}\n\n    def load_state_dict(self, state_dict):\n        pass\n\n    def reset(self):\n        raise NotImplementedError\n\n    @property\n    def smoothed_value(self) -> float:\n        \"\"\"Smoothed value used for logging.\"\"\"\n        raise NotImplementedError\n\n\ndef safe_round(number, ndigits):\n    if hasattr(number, \"__round__\"):\n        return round(number, ndigits)\n    elif torch is not None and torch.is_tensor(number) and number.numel() == 1:\n        return safe_round(number.item(), ndigits)\n    elif np is not None and np.ndim(number) == 0 and hasattr(number, \"item\"):\n        return safe_round(number.item(), ndigits)\n    else:\n        return number\n\n\nclass AverageMeter(Meter):\n    \"\"\"Computes and stores the average and current value\"\"\"\n\n    def __init__(self, round: Optional[int] = None):\n        self.round = round\n        self.reset()\n\n    def reset(self):\n        self.val = None  # most recent update\n        self.sum = 0  # sum from all updates\n        self.count = 0  # total n from all updates\n\n    def update(self, val, n=1):\n        if val is not None:\n            self.val = val\n            if n > 0:\n                self.sum = type_as(self.sum, val) + (val * n)\n                self.count = type_as(self.count, n) + n\n\n    def state_dict(self):\n        return {\n            \"val\": self.val,\n            \"sum\": self.sum,\n            \"count\": self.count,\n            \"round\": self.round,\n        }\n\n    def load_state_dict(self, state_dict):\n        self.val = state_dict[\"val\"]\n        self.sum = state_dict[\"sum\"]\n        self.count = state_dict[\"count\"]\n        self.round = state_dict.get(\"round\", None)\n\n    @property\n    def avg(self):\n        return self.sum / self.count if self.count > 0 else self.val\n\n    @property\n    def smoothed_value(self) -> float:\n        val = self.avg\n        if self.round is not None and val is not None:\n            val = safe_round(val, self.round)\n        return val\n\n\nclass SumMeter(Meter):\n    \"\"\"Computes and stores the sum\"\"\"\n\n    def __init__(self, round: Optional[int] = None):\n        self.round = round\n        self.reset()\n\n    def reset(self):\n        self.sum = 0  # sum from all updates\n\n    def update(self, val):\n        if val is not None:\n            self.sum = type_as(self.sum, val) + val\n\n    def state_dict(self):\n        return {\n            \"sum\": self.sum,\n            \"round\": self.round,\n        }\n\n    def load_state_dict(self, state_dict):\n        self.sum = state_dict[\"sum\"]\n        self.round = state_dict.get(\"round\", None)\n\n    @property\n    def smoothed_value(self) -> float:\n        val = self.sum\n        if self.round is not None and val is not None:\n            val = safe_round(val, self.round)\n        return val\n\n\nclass ConcatTensorMeter(Meter):\n    \"\"\"Concatenates tensors\"\"\"\n\n    def __init__(self, dim=0):\n        super().__init__()\n        self.reset()\n        self.dim = dim\n\n    def reset(self):\n        self.tensor = None\n\n    def update(self, val):\n        if self.tensor is None:\n            self.tensor = val\n        else:\n            self.tensor = torch.cat([self.tensor, val], dim=self.dim)\n\n    def state_dict(self):\n        return {\n            \"tensor\": self.tensor,\n        }\n\n    def load_state_dict(self, state_dict):\n        self.tensor = state_dict[\"tensor\"]\n\n    @property\n    def smoothed_value(self) -> float:\n        return []  # return a dummy value\n\n\nclass TimeMeter(Meter):\n    \"\"\"Computes the average occurrence of some event per second\"\"\"\n\n    def __init__(\n        self,\n        init: int = 0,\n        n: int = 0,\n        round: Optional[int] = None,\n    ):\n        self.round = round\n        self.reset(init, n)\n\n    def reset(self, init=0, n=0):\n        self.init = init\n        self.start = time.perf_counter()\n        self.n = n\n        self.i = 0\n\n    def update(self, val=1):\n        self.n = type_as(self.n, val) + val\n        self.i += 1\n\n    def state_dict(self):\n        return {\n            \"init\": self.elapsed_time,\n            \"n\": self.n,\n            \"round\": self.round,\n        }\n\n    def load_state_dict(self, state_dict):\n        if \"start\" in state_dict:\n            # backwards compatibility for old state_dicts\n            self.reset(init=state_dict[\"init\"])\n        else:\n            self.reset(init=state_dict[\"init\"], n=state_dict[\"n\"])\n            self.round = state_dict.get(\"round\", None)\n\n    @property\n    def avg(self):\n        return self.n / self.elapsed_time\n\n    @property\n    def elapsed_time(self):\n        return self.init + (time.perf_counter() - self.start)\n\n    @property\n    def smoothed_value(self) -> float:\n        val = self.avg\n        if self.round is not None and val is not None:\n            val = safe_round(val, self.round)\n        return val\n\n\nclass StopwatchMeter(Meter):\n    \"\"\"Computes the sum/avg duration of some event in seconds\"\"\"\n\n    def __init__(self, round: Optional[int] = None):\n        self.round = round\n        self.sum = 0\n        self.n = 0\n        self.start_time = None\n\n    def start(self):\n        self.start_time = time.perf_counter()\n\n    def stop(self, n=1, prehook=None):\n        if self.start_time is not None:\n            if prehook is not None:\n                prehook()\n            delta = time.perf_counter() - self.start_time\n            self.sum = self.sum + delta\n            self.n = type_as(self.n, n) + n\n\n    def reset(self):\n        self.sum = 0  # cumulative time during which stopwatch was active\n        self.n = 0  # total n across all start/stop\n        self.start()\n\n    def state_dict(self):\n        return {\n            \"sum\": self.sum,\n            \"n\": self.n,\n            \"round\": self.round,\n        }\n\n    def load_state_dict(self, state_dict):\n        self.sum = state_dict[\"sum\"]\n        self.n = state_dict[\"n\"]\n        self.start_time = None\n        self.round = state_dict.get(\"round\", None)\n\n    @property\n    def avg(self):\n        return self.sum / self.n if self.n > 0 else self.sum\n\n    @property\n    def elapsed_time(self):\n        if self.start_time is None:\n            return 0.0\n        return time.perf_counter() - self.start_time\n\n    @property\n    def smoothed_value(self) -> float:\n        val = self.avg if self.sum > 0 else self.elapsed_time\n        if self.round is not None and val is not None:\n            val = safe_round(val, self.round)\n        return val\n\n\nclass MetersDict(OrderedDict):\n    \"\"\"A sorted dictionary of :class:`Meters`.\n\n    Meters are sorted according to a priority that is given when the\n    meter is first added to the dictionary.\n    \"\"\"\n\n    def __init__(self, *args, **kwargs):\n        super().__init__(*args, **kwargs)\n        self.priorities = []\n\n    def __setitem__(self, key, value):\n        assert key not in self, \"MetersDict doesn't support reassignment\"\n        priority, value = value\n        bisect.insort(self.priorities, (priority, len(self.priorities), key))\n        super().__setitem__(key, value)\n        for _, _, key in self.priorities:  # reorder dict to match priorities\n            self.move_to_end(key)\n\n    def add_meter(self, key, meter, priority):\n        self.__setitem__(key, (priority, meter))\n\n    def state_dict(self):\n        return [\n            (pri, key, self[key].__class__.__name__, self[key].state_dict())\n            for pri, _, key in self.priorities\n            # can't serialize DerivedMeter instances\n            if not isinstance(self[key], MetersDict._DerivedMeter)\n        ]\n\n    def load_state_dict(self, state_dict):\n        self.clear()\n        self.priorities.clear()\n        for pri, key, meter_cls, meter_state in state_dict:\n            meter = globals()[meter_cls]()\n            meter.load_state_dict(meter_state)\n            self.add_meter(key, meter, pri)\n\n    def get_smoothed_value(self, key: str) -> float:\n        \"\"\"Get a single smoothed value.\"\"\"\n        meter = self[key]\n        if isinstance(meter, MetersDict._DerivedMeter):\n            return meter.fn(self)\n        else:\n            return meter.smoothed_value\n\n    def get_smoothed_values(self) -> Dict[str, float]:\n        \"\"\"Get all smoothed values.\"\"\"\n        return OrderedDict(\n            [\n                (key, self.get_smoothed_value(key))\n                for key in self.keys()\n                if not key.startswith(\"_\")\n            ]\n        )\n\n    def reset(self):\n        \"\"\"Reset Meter instances.\"\"\"\n        for meter in self.values():\n            if isinstance(meter, MetersDict._DerivedMeter):\n                continue\n            meter.reset()\n\n    class _DerivedMeter(Meter):\n        \"\"\"A Meter whose values are derived from other Meters.\"\"\"\n\n        def __init__(self, fn):\n            self.fn = fn\n\n        def reset(self):\n            pass\n"
  },
  {
    "path": "fairseq/logging/metrics.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nA standalone module for aggregating metrics.\n\nMetrics can be logged from anywhere using the `log_*` functions defined\nin this module. The logged values will be aggregated dynamically based\non the aggregation context in which the logging occurs. See the\n:func:`aggregate` context manager for more details.\n\"\"\"\n\nimport contextlib\nimport uuid\nfrom collections import defaultdict\nfrom typing import Callable, List, Optional\n\nfrom .meters import *\n\n\n# Aggregation contexts are considered \"active\" when inside the scope\n# created by the :func:`aggregate` context manager.\n_aggregators = OrderedDict()\n_active_aggregators = OrderedDict()\n_active_aggregators_cnt = defaultdict(lambda: 0)\n\n\ndef reset() -> None:\n    \"\"\"Reset all metrics aggregators.\"\"\"\n    _aggregators.clear()\n    _active_aggregators.clear()\n    _active_aggregators_cnt.clear()\n\n    # The \"default\" aggregator observes all logged values.\n    _aggregators[\"default\"] = MetersDict()\n    _active_aggregators[\"default\"] = _aggregators[\"default\"]\n    _active_aggregators_cnt[\"default\"] = 1\n\n\nreset()\n\n\n@contextlib.contextmanager\ndef aggregate(name: Optional[str] = None, new_root: bool = False):\n    \"\"\"Context manager to aggregate metrics under a given name.\n\n    Aggregations can be nested. If *new_root* is ``False``, then logged\n    metrics will be recorded along the entire stack of nested\n    aggregators, including a global \"default\" aggregator. If *new_root*\n    is ``True``, then this aggregator will be the root of a new\n    aggregation stack, thus bypassing any parent aggregators.\n\n    Note that aggregation contexts are uniquely identified by their\n    *name* (e.g., train, valid). Creating a context with an existing\n    name will reuse the corresponding :class:`MetersDict` instance.\n    If no name is given, then a temporary aggregator will be created.\n\n    Usage::\n\n        with metrics.aggregate(\"train\"):\n            for step, batch in enumerate(epoch):\n                with metrics.aggregate(\"train_inner\") as agg:\n                    metrics.log_scalar(\"loss\", get_loss(batch))\n                    if step % log_interval == 0:\n                        print(agg.get_smoothed_value(\"loss\"))\n                        agg.reset()\n        print(metrics.get_smoothed_values(\"train\")[\"loss\"])\n\n    Args:\n        name (str): name of the aggregation. Defaults to a\n            random/temporary name if not given explicitly.\n        new_root (bool): make this aggregation the root of a new\n            aggregation stack.\n    \"\"\"\n    if name is None:\n        # generate a temporary name\n        name = str(uuid.uuid4())\n        assert name not in _aggregators\n        agg = MetersDict()\n    else:\n        assert name != \"default\"\n        agg = _aggregators.setdefault(name, MetersDict())\n\n    if new_root:\n        backup_aggregators = _active_aggregators.copy()\n        _active_aggregators.clear()\n        backup_aggregators_cnt = _active_aggregators_cnt.copy()\n        _active_aggregators_cnt.clear()\n\n    _active_aggregators[name] = agg\n    _active_aggregators_cnt[name] += 1\n\n    yield agg\n\n    _active_aggregators_cnt[name] -= 1\n    if _active_aggregators_cnt[name] == 0 and name in _active_aggregators:\n        del _active_aggregators[name]\n\n    if new_root:\n        _active_aggregators.clear()\n        _active_aggregators.update(backup_aggregators)\n        _active_aggregators_cnt.clear()\n        _active_aggregators_cnt.update(backup_aggregators_cnt)\n\n\ndef get_active_aggregators() -> List[MetersDict]:\n    return list(_active_aggregators.values())\n\n\ndef log_scalar(\n    key: str,\n    value: float,\n    weight: float = 1,\n    priority: int = 10,\n    round: Optional[int] = None,\n):\n    \"\"\"Log a scalar value.\n\n    Args:\n        key (str): name of the field to log\n        value (float): value to log\n        weight (float): weight that this value contributes to the average.\n            A weight of 0 will always log the latest value.\n        priority (int): smaller values are logged earlier in the output\n        round (Optional[int]): number of digits to round to when displaying\n    \"\"\"\n    for agg in get_active_aggregators():\n        if key not in agg:\n            agg.add_meter(key, AverageMeter(round=round), priority)\n        agg[key].update(value, weight)\n\n\ndef log_scalar_sum(\n    key: str,\n    value: float,\n    priority: int = 10,\n    round: Optional[int] = None,\n):\n    \"\"\"Log a scalar value that is summed for reporting.\n\n    Args:\n        key (str): name of the field to log\n        value (float): value to log\n        priority (int): smaller values are logged earlier in the output\n        round (Optional[int]): number of digits to round to when displaying\n    \"\"\"\n    for agg in get_active_aggregators():\n        if key not in agg:\n            agg.add_meter(key, SumMeter(round=round), priority)\n        agg[key].update(value)\n\n\ndef log_concat_tensor(\n    key: str,\n    value: torch.Tensor,\n    priority: int = 10,\n    dim: int = 0,\n):\n    \"\"\"Log a scalar value that is summed for reporting.\n\n    Args:\n        key (str): name of the field to log\n        value (float): value to log\n        priority (int): smaller values are logged earlier in the output\n        round (Optional[int]): number of digits to round to when displaying\n    \"\"\"\n    for agg in get_active_aggregators():\n        if key not in agg:\n            agg.add_meter(key, ConcatTensorMeter(dim=dim), priority)\n        agg[key].update(value)\n\n\ndef log_derived(key: str, fn: Callable[[MetersDict], float], priority: int = 20):\n    \"\"\"Log a scalar value derived from other meters.\n\n    Args:\n        key (str): name of the field to log\n        fn (Callable[[MetersDict], float]): function that takes a single\n            argument *meters* and returns the derived value\n        priority (int): smaller values are logged earlier in the output\n    \"\"\"\n    for agg in get_active_aggregators():\n        if key not in agg:\n            agg.add_meter(key, MetersDict._DerivedMeter(fn), priority)\n\n\ndef log_speed(\n    key: str,\n    value: float,\n    priority: int = 30,\n    round: Optional[int] = None,\n):\n    \"\"\"Log the rate of some quantity per second.\n\n    Args:\n        key (str): name of the field to log\n        value (float): value to log\n        priority (int): smaller values are logged earlier in the output\n        round (Optional[int]): number of digits to round to when displaying\n    \"\"\"\n    for agg in get_active_aggregators():\n        if key not in agg:\n            agg.add_meter(key, TimeMeter(round=round), priority)\n            agg[key].reset()  # reset meter on the first call\n        else:\n            agg[key].update(value)\n\n\ndef log_start_time(key: str, priority: int = 40, round: Optional[int] = None):\n    \"\"\"Log the duration of some event in seconds.\n\n    The duration will be computed once :func:`log_stop_time` is called.\n\n    Args:\n        key (str): name of the field to log\n        priority (int): smaller values are logged earlier in the output\n        round (Optional[int]): number of digits to round to when displaying\n    \"\"\"\n    for agg in get_active_aggregators():\n        if key not in agg:\n            agg.add_meter(key, StopwatchMeter(round=round), priority)\n        agg[key].start()\n\n\ndef log_stop_time(key: str, weight: float = 0.0, prehook=None):\n    \"\"\"Log the duration of some event in seconds.\n\n    The duration will be computed since :func:`log_start_time` was called.\n    Set weight > 0 to report the average time instead of the sum.\n\n    Args:\n        key (str): name of the field to log\n        weight (float): weight that this time contributes to the average\n        prehook (function, no arguments): will be called before the timer\n        is stopped. For example, use prehook=torch.cuda.synchronize to\n        make sure all gpu operations are done before timer is stopped.\n    \"\"\"\n    for agg in get_active_aggregators():\n        if key in agg:\n            agg[key].stop(weight, prehook)\n\n\ndef log_custom(\n    new_meter_fn: Callable[[], Meter],\n    key: str,\n    *args,\n    priority: int = 50,\n    **kwargs,\n):\n    \"\"\"Log using a custom Meter.\n\n    Any extra *args* or *kwargs* will be passed through to the Meter's\n    *update* method.\n\n    Args:\n        new_meter_fn (Callable[[], Meter]): function that returns a new\n            Meter instance\n        key (str): name of the field to log\n        priority (int): smaller values are logged earlier in the output\n    \"\"\"\n    for agg in get_active_aggregators():\n        if key not in agg:\n            agg.add_meter(key, new_meter_fn(), priority)\n        agg[key].update(*args, **kwargs)\n\n\ndef reset_meter(name: str, key: str) -> None:\n    \"\"\"Reset Meter instance aggregated under a given *name* and *key*.\"\"\"\n    meter = get_meter(name, key)\n    if meter is not None:\n        meter.reset()\n\n\ndef reset_meters(name: str) -> None:\n    \"\"\"Reset Meter instances aggregated under a given *name*.\"\"\"\n    meters = get_meters(name)\n    if meters is not None:\n        meters.reset()\n\n\ndef get_meter(name: str, key: str) -> Meter:\n    \"\"\"Get a single Meter instance aggregated under *name* and *key*.\n\n    Returns:\n        Meter or None if no metrics have been logged under *name* and *key*.\n    \"\"\"\n    if name not in _aggregators:\n        return None\n    return _aggregators[name].get(key, None)\n\n\ndef get_meters(name: str) -> MetersDict:\n    \"\"\"Get Meter instances aggregated under a given *name*.\n\n    Returns:\n        MetersDict or None if no metrics have been logged under *name*.\n    \"\"\"\n    return _aggregators.get(name, None)\n\n\ndef get_smoothed_value(name: str, key: str) -> float:\n    \"\"\"Get a single smoothed value.\n\n    Raises:\n        KeyError: if no metrics have been logged under *name* and *key*.\n    \"\"\"\n    return _aggregators[name].get_smoothed_value(key)\n\n\ndef get_smoothed_values(name: str) -> Dict[str, float]:\n    \"\"\"Get smoothed values aggregated under a given *name*.\n\n    Raises:\n        KeyError: if no metrics have been logged under *name*.\n    \"\"\"\n    return _aggregators[name].get_smoothed_values()\n\n\ndef state_dict():\n    return OrderedDict([(name, agg.state_dict()) for name, agg in _aggregators.items()])\n\n\ndef load_state_dict(state_dict):\n    for name, agg_state in state_dict.items():\n        _aggregators[name] = MetersDict()\n        _aggregators[name].load_state_dict(agg_state)\n\n\ndef xla_metrics_report():\n    try:\n        import torch_xla.debug.metrics as met\n\n        print(met.metrics_report())\n    except ImportError:\n        return\n"
  },
  {
    "path": "fairseq/logging/progress_bar.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nWrapper around various loggers and progress bars (e.g., tqdm).\n\"\"\"\n\nimport atexit\nimport json\nimport logging\nimport os\nimport sys\nfrom collections import OrderedDict\nfrom contextlib import contextmanager\nfrom numbers import Number\nfrom typing import Optional\n\nimport torch\n\nfrom .meters import AverageMeter, StopwatchMeter, TimeMeter\n\nlogger = logging.getLogger(__name__)\n\n\ndef progress_bar(\n    iterator,\n    log_format: Optional[str] = None,\n    log_interval: int = 100,\n    log_file: Optional[str] = None,\n    epoch: Optional[int] = None,\n    prefix: Optional[str] = None,\n    aim_repo: Optional[str] = None,\n    aim_run_hash: Optional[str] = None,\n    aim_param_checkpoint_dir: Optional[str] = None,\n    tensorboard_logdir: Optional[str] = None,\n    default_log_format: str = \"tqdm\",\n    wandb_project: Optional[str] = None,\n    wandb_run_name: Optional[str] = None,\n    azureml_logging: Optional[bool] = False,\n):\n    if log_format is None:\n        log_format = default_log_format\n    if log_file is not None:\n        handler = logging.FileHandler(filename=log_file)\n        logger.addHandler(handler)\n\n    if log_format == \"tqdm\" and not sys.stderr.isatty():\n        log_format = \"simple\"\n\n    if log_format == \"json\":\n        bar = JsonProgressBar(iterator, epoch, prefix, log_interval)\n    elif log_format == \"none\":\n        bar = NoopProgressBar(iterator, epoch, prefix)\n    elif log_format == \"simple\":\n        bar = SimpleProgressBar(iterator, epoch, prefix, log_interval)\n    elif log_format == \"tqdm\":\n        bar = TqdmProgressBar(iterator, epoch, prefix)\n    else:\n        raise ValueError(\"Unknown log format: {}\".format(log_format))\n\n    if aim_repo:\n        bar = AimProgressBarWrapper(\n            bar,\n            aim_repo=aim_repo,\n            aim_run_hash=aim_run_hash,\n            aim_param_checkpoint_dir=aim_param_checkpoint_dir,\n        )\n\n    if tensorboard_logdir:\n        try:\n            # [FB only] custom wrapper for TensorBoard\n            import palaas  # noqa\n\n            from .fb_tbmf_wrapper import FbTbmfWrapper\n\n            bar = FbTbmfWrapper(bar, log_interval)\n        except ImportError:\n            bar = TensorboardProgressBarWrapper(bar, tensorboard_logdir)\n\n    if wandb_project:\n        bar = WandBProgressBarWrapper(bar, wandb_project, run_name=wandb_run_name)\n\n    if azureml_logging:\n        bar = AzureMLProgressBarWrapper(bar)\n\n    return bar\n\n\ndef build_progress_bar(\n    args,\n    iterator,\n    epoch: Optional[int] = None,\n    prefix: Optional[str] = None,\n    default: str = \"tqdm\",\n    no_progress_bar: str = \"none\",\n):\n    \"\"\"Legacy wrapper that takes an argparse.Namespace.\"\"\"\n    if getattr(args, \"no_progress_bar\", False):\n        default = no_progress_bar\n    if getattr(args, \"distributed_rank\", 0) == 0:\n        tensorboard_logdir = getattr(args, \"tensorboard_logdir\", None)\n    else:\n        tensorboard_logdir = None\n    return progress_bar(\n        iterator,\n        log_format=args.log_format,\n        log_interval=args.log_interval,\n        epoch=epoch,\n        prefix=prefix,\n        tensorboard_logdir=tensorboard_logdir,\n        default_log_format=default,\n    )\n\n\ndef format_stat(stat):\n    if isinstance(stat, Number):\n        stat = \"{:g}\".format(stat)\n    elif isinstance(stat, AverageMeter):\n        stat = \"{:.3f}\".format(stat.avg)\n    elif isinstance(stat, TimeMeter):\n        stat = \"{:g}\".format(round(stat.avg))\n    elif isinstance(stat, StopwatchMeter):\n        stat = \"{:g}\".format(round(stat.sum))\n    elif torch.is_tensor(stat):\n        stat = stat.tolist()\n    return stat\n\n\nclass BaseProgressBar(object):\n    \"\"\"Abstract class for progress bars.\"\"\"\n\n    def __init__(self, iterable, epoch=None, prefix=None):\n        self.iterable = iterable\n        self.n = getattr(iterable, \"n\", 0)\n        self.epoch = epoch\n        self.prefix = \"\"\n        if epoch is not None:\n            self.prefix += \"epoch {:03d}\".format(epoch)\n        if prefix is not None:\n            self.prefix += (\" | \" if self.prefix != \"\" else \"\") + prefix\n\n    def __len__(self):\n        return len(self.iterable)\n\n    def __enter__(self):\n        return self\n\n    def __exit__(self, *exc):\n        return False\n\n    def __iter__(self):\n        raise NotImplementedError\n\n    def log(self, stats, tag=None, step=None):\n        \"\"\"Log intermediate stats according to log_interval.\"\"\"\n        raise NotImplementedError\n\n    def print(self, stats, tag=None, step=None):\n        \"\"\"Print end-of-epoch stats.\"\"\"\n        raise NotImplementedError\n\n    def update_config(self, config):\n        \"\"\"Log latest configuration.\"\"\"\n        pass\n\n    def _str_commas(self, stats):\n        return \", \".join(key + \"=\" + stats[key].strip() for key in stats.keys())\n\n    def _str_pipes(self, stats):\n        return \" | \".join(key + \" \" + stats[key].strip() for key in stats.keys())\n\n    def _format_stats(self, stats):\n        postfix = OrderedDict(stats)\n        # Preprocess stats according to datatype\n        for key in postfix.keys():\n            postfix[key] = str(format_stat(postfix[key]))\n        return postfix\n\n\n@contextmanager\ndef rename_logger(logger, new_name):\n    old_name = logger.name\n    if new_name is not None:\n        logger.name = new_name\n    yield logger\n    logger.name = old_name\n\n\nclass JsonProgressBar(BaseProgressBar):\n    \"\"\"Log output in JSON format.\"\"\"\n\n    def __init__(self, iterable, epoch=None, prefix=None, log_interval=1000):\n        super().__init__(iterable, epoch, prefix)\n        self.log_interval = log_interval\n        self.i = None\n        self.size = None\n\n    def __iter__(self):\n        self.size = len(self.iterable)\n        for i, obj in enumerate(self.iterable, start=self.n):\n            self.i = i\n            yield obj\n\n    def log(self, stats, tag=None, step=None):\n        \"\"\"Log intermediate stats according to log_interval.\"\"\"\n        step = step or self.i or 0\n        if step > 0 and self.log_interval is not None and step % self.log_interval == 0:\n            update = (\n                self.epoch - 1 + (self.i + 1) / float(self.size)\n                if self.epoch is not None\n                else None\n            )\n            stats = self._format_stats(stats, epoch=self.epoch, update=update)\n            with rename_logger(logger, tag):\n                logger.info(json.dumps(stats))\n\n    def print(self, stats, tag=None, step=None):\n        \"\"\"Print end-of-epoch stats.\"\"\"\n        self.stats = stats\n        if tag is not None:\n            self.stats = OrderedDict(\n                [(tag + \"_\" + k, v) for k, v in self.stats.items()]\n            )\n        stats = self._format_stats(self.stats, epoch=self.epoch)\n        with rename_logger(logger, tag):\n            logger.info(json.dumps(stats))\n\n    def _format_stats(self, stats, epoch=None, update=None):\n        postfix = OrderedDict()\n        if epoch is not None:\n            postfix[\"epoch\"] = epoch\n        if update is not None:\n            postfix[\"update\"] = round(update, 3)\n        # Preprocess stats according to datatype\n        for key in stats.keys():\n            postfix[key] = format_stat(stats[key])\n        return postfix\n\n\nclass NoopProgressBar(BaseProgressBar):\n    \"\"\"No logging.\"\"\"\n\n    def __init__(self, iterable, epoch=None, prefix=None):\n        super().__init__(iterable, epoch, prefix)\n\n    def __iter__(self):\n        for obj in self.iterable:\n            yield obj\n\n    def log(self, stats, tag=None, step=None):\n        \"\"\"Log intermediate stats according to log_interval.\"\"\"\n        pass\n\n    def print(self, stats, tag=None, step=None):\n        \"\"\"Print end-of-epoch stats.\"\"\"\n        pass\n\n\nclass SimpleProgressBar(BaseProgressBar):\n    \"\"\"A minimal logger for non-TTY environments.\"\"\"\n\n    def __init__(self, iterable, epoch=None, prefix=None, log_interval=1000):\n        super().__init__(iterable, epoch, prefix)\n        self.log_interval = log_interval\n        self.i = None\n        self.size = None\n\n    def __iter__(self):\n        self.size = len(self.iterable)\n        for i, obj in enumerate(self.iterable, start=self.n):\n            self.i = i\n            yield obj\n\n    def log(self, stats, tag=None, step=None):\n        \"\"\"Log intermediate stats according to log_interval.\"\"\"\n        step = step or self.i or 0\n        if step > 0 and self.log_interval is not None and step % self.log_interval == 0:\n            stats = self._format_stats(stats)\n            postfix = self._str_commas(stats)\n            with rename_logger(logger, tag):\n                logger.info(\n                    \"{}:  {:5d} / {:d} {}\".format(\n                        self.prefix, self.i + 1, self.size, postfix\n                    )\n                )\n\n    def print(self, stats, tag=None, step=None):\n        \"\"\"Print end-of-epoch stats.\"\"\"\n        postfix = self._str_pipes(self._format_stats(stats))\n        with rename_logger(logger, tag):\n            logger.info(\"{} | {}\".format(self.prefix, postfix))\n\n\nclass TqdmProgressBar(BaseProgressBar):\n    \"\"\"Log to tqdm.\"\"\"\n\n    def __init__(self, iterable, epoch=None, prefix=None):\n        super().__init__(iterable, epoch, prefix)\n        from tqdm import tqdm\n\n        self.tqdm = tqdm(\n            iterable,\n            self.prefix,\n            leave=False,\n            disable=(logger.getEffectiveLevel() > logging.INFO),\n        )\n\n    def __iter__(self):\n        return iter(self.tqdm)\n\n    def log(self, stats, tag=None, step=None):\n        \"\"\"Log intermediate stats according to log_interval.\"\"\"\n        self.tqdm.set_postfix(self._format_stats(stats), refresh=False)\n\n    def print(self, stats, tag=None, step=None):\n        \"\"\"Print end-of-epoch stats.\"\"\"\n        postfix = self._str_pipes(self._format_stats(stats))\n        with rename_logger(logger, tag):\n            logger.info(\"{} | {}\".format(self.prefix, postfix))\n\n\ntry:\n    import functools\n\n    from aim import Repo as AimRepo\n\n    @functools.lru_cache()\n    def get_aim_run(repo, run_hash):\n        from aim import Run\n\n        return Run(run_hash=run_hash, repo=repo)\n\nexcept ImportError:\n    get_aim_run = None\n    AimRepo = None\n\n\nclass AimProgressBarWrapper(BaseProgressBar):\n    \"\"\"Log to Aim.\"\"\"\n\n    def __init__(self, wrapped_bar, aim_repo, aim_run_hash, aim_param_checkpoint_dir):\n        self.wrapped_bar = wrapped_bar\n\n        if get_aim_run is None:\n            self.run = None\n            logger.warning(\"Aim not found, please install with: pip install aim\")\n        else:\n            logger.info(f\"Storing logs at Aim repo: {aim_repo}\")\n\n            if not aim_run_hash:\n                # Find run based on save_dir parameter\n                query = f\"run.checkpoint.save_dir == '{aim_param_checkpoint_dir}'\"\n                try:\n                    runs_generator = AimRepo(aim_repo).query_runs(query)\n                    run = next(runs_generator.iter_runs())\n                    aim_run_hash = run.run.hash\n                except Exception:\n                    pass\n\n            if aim_run_hash:\n                logger.info(f\"Appending to run: {aim_run_hash}\")\n\n            self.run = get_aim_run(aim_repo, aim_run_hash)\n\n    def __iter__(self):\n        return iter(self.wrapped_bar)\n\n    def log(self, stats, tag=None, step=None):\n        \"\"\"Log intermediate stats to Aim.\"\"\"\n        self._log_to_aim(stats, tag, step)\n        self.wrapped_bar.log(stats, tag=tag, step=step)\n\n    def print(self, stats, tag=None, step=None):\n        \"\"\"Print end-of-epoch stats.\"\"\"\n        self._log_to_aim(stats, tag, step)\n        self.wrapped_bar.print(stats, tag=tag, step=step)\n\n    def update_config(self, config):\n        \"\"\"Log latest configuration.\"\"\"\n        if self.run is not None:\n            for key in config:\n                self.run.set(key, config[key], strict=False)\n        self.wrapped_bar.update_config(config)\n\n    def _log_to_aim(self, stats, tag=None, step=None):\n        if self.run is None:\n            return\n\n        if step is None:\n            step = stats[\"num_updates\"]\n\n        if \"train\" in tag:\n            context = {\"tag\": tag, \"subset\": \"train\"}\n        elif \"val\" in tag:\n            context = {\"tag\": tag, \"subset\": \"val\"}\n        else:\n            context = {\"tag\": tag}\n\n        for key in stats.keys() - {\"num_updates\"}:\n            self.run.track(stats[key], name=key, step=step, context=context)\n\n\ntry:\n    _tensorboard_writers = {}\n    from torch.utils.tensorboard import SummaryWriter\nexcept ImportError:\n    try:\n        from tensorboardX import SummaryWriter\n    except ImportError:\n        SummaryWriter = None\n\n\ndef _close_writers():\n    for w in _tensorboard_writers.values():\n        w.close()\n\n\natexit.register(_close_writers)\n\n\nclass TensorboardProgressBarWrapper(BaseProgressBar):\n    \"\"\"Log to tensorboard.\"\"\"\n\n    def __init__(self, wrapped_bar, tensorboard_logdir):\n        self.wrapped_bar = wrapped_bar\n        self.tensorboard_logdir = tensorboard_logdir\n\n        if SummaryWriter is None:\n            logger.warning(\n                \"tensorboard not found, please install with: pip install tensorboard\"\n            )\n\n    def _writer(self, key):\n        if SummaryWriter is None:\n            return None\n        _writers = _tensorboard_writers\n        if key not in _writers:\n            _writers[key] = SummaryWriter(os.path.join(self.tensorboard_logdir, key))\n            _writers[key].add_text(\"sys.argv\", \" \".join(sys.argv))\n        return _writers[key]\n\n    def __iter__(self):\n        return iter(self.wrapped_bar)\n\n    def log(self, stats, tag=None, step=None):\n        \"\"\"Log intermediate stats to tensorboard.\"\"\"\n        self._log_to_tensorboard(stats, tag, step)\n        self.wrapped_bar.log(stats, tag=tag, step=step)\n\n    def print(self, stats, tag=None, step=None):\n        \"\"\"Print end-of-epoch stats.\"\"\"\n        self._log_to_tensorboard(stats, tag, step)\n        self.wrapped_bar.print(stats, tag=tag, step=step)\n\n    def update_config(self, config):\n        \"\"\"Log latest configuration.\"\"\"\n        # TODO add hparams to Tensorboard\n        self.wrapped_bar.update_config(config)\n\n    def _log_to_tensorboard(self, stats, tag=None, step=None):\n        writer = self._writer(tag or \"\")\n        if writer is None:\n            return\n        if step is None:\n            step = stats[\"num_updates\"]\n        for key in stats.keys() - {\"num_updates\"}:\n            if isinstance(stats[key], AverageMeter):\n                writer.add_scalar(key, stats[key].val, step)\n            elif isinstance(stats[key], Number):\n                writer.add_scalar(key, stats[key], step)\n            elif torch.is_tensor(stats[key]) and stats[key].numel() == 1:\n                writer.add_scalar(key, stats[key].item(), step)\n        writer.flush()\n\n\ntry:\n    import wandb\nexcept ImportError:\n    wandb = None\n\n\nclass WandBProgressBarWrapper(BaseProgressBar):\n    \"\"\"Log to Weights & Biases.\"\"\"\n\n    def __init__(self, wrapped_bar, wandb_project, run_name=None):\n        self.wrapped_bar = wrapped_bar\n        if wandb is None:\n            logger.warning(\"wandb not found, pip install wandb\")\n            return\n\n        # reinit=False to ensure if wandb.init() is called multiple times\n        # within one process it still references the same run\n        wandb.init(project=wandb_project, reinit=False, name=run_name)\n\n    def __iter__(self):\n        return iter(self.wrapped_bar)\n\n    def log(self, stats, tag=None, step=None):\n        \"\"\"Log intermediate stats to tensorboard.\"\"\"\n        self._log_to_wandb(stats, tag, step)\n        self.wrapped_bar.log(stats, tag=tag, step=step)\n\n    def print(self, stats, tag=None, step=None):\n        \"\"\"Print end-of-epoch stats.\"\"\"\n        self._log_to_wandb(stats, tag, step)\n        self.wrapped_bar.print(stats, tag=tag, step=step)\n\n    def update_config(self, config):\n        \"\"\"Log latest configuration.\"\"\"\n        if wandb is not None:\n            wandb.config.update(config)\n        self.wrapped_bar.update_config(config)\n\n    def _log_to_wandb(self, stats, tag=None, step=None):\n        if wandb is None:\n            return\n        if step is None:\n            step = stats[\"num_updates\"]\n\n        prefix = \"\" if tag is None else tag + \"/\"\n\n        for key in stats.keys() - {\"num_updates\"}:\n            if isinstance(stats[key], AverageMeter):\n                wandb.log({prefix + key: stats[key].val}, step=step)\n            elif isinstance(stats[key], Number):\n                wandb.log({prefix + key: stats[key]}, step=step)\n\n\ntry:\n    from azureml.core import Run\nexcept ImportError:\n    Run = None\n\n\nclass AzureMLProgressBarWrapper(BaseProgressBar):\n    \"\"\"Log to Azure ML\"\"\"\n\n    def __init__(self, wrapped_bar):\n        self.wrapped_bar = wrapped_bar\n        if Run is None:\n            logger.warning(\"azureml.core not found, pip install azureml-core\")\n            return\n        self.run = Run.get_context()\n\n    def __exit__(self, *exc):\n        if Run is not None:\n            self.run.complete()\n        return False\n\n    def __iter__(self):\n        return iter(self.wrapped_bar)\n\n    def log(self, stats, tag=None, step=None):\n        \"\"\"Log intermediate stats to AzureML\"\"\"\n        self._log_to_azureml(stats, tag, step)\n        self.wrapped_bar.log(stats, tag=tag, step=step)\n\n    def print(self, stats, tag=None, step=None):\n        \"\"\"Print end-of-epoch stats\"\"\"\n        self._log_to_azureml(stats, tag, step)\n        self.wrapped_bar.print(stats, tag=tag, step=step)\n\n    def update_config(self, config):\n        \"\"\"Log latest configuration.\"\"\"\n        self.wrapped_bar.update_config(config)\n\n    def _log_to_azureml(self, stats, tag=None, step=None):\n        if Run is None:\n            return\n        if step is None:\n            step = stats[\"num_updates\"]\n\n        prefix = \"\" if tag is None else tag + \"/\"\n\n        for key in stats.keys() - {\"num_updates\"}:\n            name = prefix + key\n            if isinstance(stats[key], AverageMeter):\n                self.run.log_row(name=name, **{\"step\": step, key: stats[key].val})\n            elif isinstance(stats[key], Number):\n                self.run.log_row(name=name, **{\"step\": step, key: stats[key]})\n"
  },
  {
    "path": "fairseq/model_parallel/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import criterions, models, modules  # noqa\n"
  },
  {
    "path": "fairseq/model_parallel/criterions/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport importlib\nimport os\n\n\n# automatically import any Python files in the criterions/ directory\nfor file in sorted(os.listdir(os.path.dirname(__file__))):\n    if file.endswith(\".py\") and not file.startswith(\"_\"):\n        module = file[: file.find(\".py\")]\n        importlib.import_module(\"fairseq.model_parallel.criterions.\" + module)\n"
  },
  {
    "path": "fairseq/model_parallel/criterions/vocab_parallel_cross_entropy.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.criterions import FairseqCriterion, register_criterion\n\n\ntry:\n    from fairseq.model_parallel.megatron.mpu.cross_entropy import (\n        vocab_parallel_cross_entropy,\n    )\n\n    has_megatron_submodule = True\nexcept (ImportError, ModuleNotFoundError):\n    has_megatron_submodule = False\n\n\n@register_criterion(\"vocab_parallel_cross_entropy\")\nclass VocabParallelCrossEntropyCriterion(FairseqCriterion):\n    def __init__(self, task, sentence_avg):\n        super().__init__(task)\n        self.sentence_avg = sentence_avg\n        if not has_megatron_submodule:\n            raise ImportError(\n                \"\\n\\nPlease install the megatron submodule:\"\n                \"\\n\\n  git submodule update --init \"\n                \"fairseq/model_parallel/megatron\"\n            )\n\n    def forward(self, model, sample, reduce=True):\n        \"\"\"Compute the loss for the given sample.\n\n        Returns a tuple with three elements:\n        1) the loss\n        2) the sample size, which is used as the denominator for the gradient\n        3) logging outputs to display while training\n        \"\"\"\n        net_output = model(**sample[\"net_input\"])\n        target = sample[\"target\"]\n\n        loss = vocab_parallel_cross_entropy(net_output[0].float(), target)\n        loss = (loss * (target != self.padding_idx)).sum()\n        sample_size = (\n            sample[\"target\"].size(0) if self.sentence_avg else sample[\"ntokens\"]\n        )\n        logging_output = {\n            \"loss\": utils.item(loss.data) if reduce else loss.data,\n            \"ntokens\": sample[\"ntokens\"],\n            \"nsentences\": sample[\"target\"].size(0),\n            \"sample_size\": sample_size,\n        }\n        return loss, sample_size, logging_output\n\n    @staticmethod\n    def reduce_metrics(logging_outputs) -> None:\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        loss_sum = sum(log.get(\"loss\", 0) for log in logging_outputs)\n        ntokens = sum(log.get(\"ntokens\", 0) for log in logging_outputs)\n        sample_size = sum(log.get(\"sample_size\", 0) for log in logging_outputs)\n\n        metrics.log_scalar(\n            \"loss\", loss_sum / sample_size / math.log(2), sample_size, round=3\n        )\n        if sample_size != ntokens:\n            metrics.log_scalar(\n                \"nll_loss\", loss_sum / ntokens / math.log(2), ntokens, round=3\n            )\n            metrics.log_derived(\n                \"ppl\", lambda meters: utils.get_perplexity(meters[\"nll_loss\"].avg)\n            )\n        else:\n            metrics.log_derived(\n                \"ppl\", lambda meters: utils.get_perplexity(meters[\"loss\"].avg)\n            )\n\n    @staticmethod\n    def logging_outputs_can_be_summed() -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `forward` can be summed\n        across workers prior to calling `reduce_metrics`. Setting this\n        to True will improves distributed training speed.\n        \"\"\"\n        return True\n"
  },
  {
    "path": "fairseq/model_parallel/megatron_trainer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nTrain a network across multiple GPUs.\n\"\"\"\n\nfrom fairseq.dataclass.configs import FairseqConfig\nfrom fairseq.distributed import utils as distributed_utils\nfrom fairseq.trainer import Trainer\n\ntry:\n    from fairseq.model_parallel.megatron.mpu import (\n        get_data_parallel_rank,\n        get_data_parallel_world_size,\n        get_model_parallel_src_rank,\n        get_cuda_rng_tracker,\n    )\n\n    has_megatron_submodule = True\nexcept (ImportError, ModuleNotFoundError):\n    has_megatron_submodule = False\n\n\nclass MegatronTrainer(Trainer):\n    \"\"\"Main class for model parallel with data parallel training.\"\"\"\n\n    def __init__(self, cfg: FairseqConfig, task, model, criterion, **kwargs):\n        if not has_megatron_submodule:\n            raise ImportError(\n                \"\\n\\nPlease install the megatron submodule:\"\n                \"\\n\\n  git submodule update --init \"\n                \"fairseq/model_parallel/megatron\"\n            )\n        super().__init__(cfg, task, model, criterion, **kwargs)\n\n    def clip_grad_norm(self, clip_norm):\n        def _aggregate_model_parallel_grad_norm(total_norm):\n            total_norm = total_norm**2\n            distributed_utils.all_reduce(\n                total_norm, group=distributed_utils.get_model_parallel_group()\n            )\n            total_norm = total_norm**0.5\n            return total_norm\n\n        return self.optimizer.clip_grad_norm(\n            clip_norm,\n            aggregate_norm_fn=_aggregate_model_parallel_grad_norm,\n        )\n\n    def save_checkpoint(self, filename, extra_state):\n        \"\"\"Save all training state in a checkpoint file.\"\"\"\n        extra_state[\"rng_tracker_states\"] = get_cuda_rng_tracker().get_states()\n        super().save_checkpoint(filename, extra_state)\n\n    def load_checkpoint(\n        self,\n        filename,\n        reset_optimizer=False,\n        reset_lr_scheduler=False,\n        optimizer_overrides=None,\n        reset_meters=False,\n    ):\n        extra_state = super().load_checkpoint(\n            filename,\n            reset_optimizer=reset_optimizer,\n            reset_lr_scheduler=reset_lr_scheduler,\n            optimizer_overrides=optimizer_overrides,\n            reset_meters=reset_meters,\n        )\n        if extra_state is not None and \"rng_tracker_states\" in extra_state:\n            get_cuda_rng_tracker().set_states(extra_state[\"rng_tracker_states\"])\n        return extra_state\n"
  },
  {
    "path": "fairseq/model_parallel/models/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport importlib\nimport os\n\n\n# automatically import any Python files in the models/ directory\nmodels_dir = os.path.dirname(__file__)\nfor file in os.listdir(models_dir):\n    path = os.path.join(models_dir, file)\n    if (\n        not file.startswith(\"_\")\n        and not file.startswith(\".\")\n        and (file.endswith(\".py\") or os.path.isdir(path))\n    ):\n        model_name = file[: file.find(\".py\")] if file.endswith(\".py\") else file\n        module = importlib.import_module(\"fairseq.model_parallel.models.\" + model_name)\n"
  },
  {
    "path": "fairseq/model_parallel/models/pipeline_parallel_transformer/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .model import *  # noqa\n"
  },
  {
    "path": "fairseq/model_parallel/models/pipeline_parallel_transformer/layers.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom collections import namedtuple\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nfrom fairseq import options, utils\nfrom fairseq.modules import (\n    AdaptiveSoftmax,\n    LayerNorm,\n    MultiheadAttention,\n    PositionalEmbedding,\n)\n\nEncoderOut = namedtuple(\n    \"TransformerEncoderOut\",\n    [\n        \"encoder_out\",  # T x B x C\n        \"encoder_padding_mask\",  # B x T\n        \"encoder_embedding\",  # B x T x C\n        \"encoder_states\",  # List[T x B x C]\n    ],\n)\n\n\nclass TransformerEncoderEmbedding(nn.Module):\n    \"\"\"Encoder Embedding + Positional Embedding\"\"\"\n\n    def __init__(self, args, embed_tokens):\n        super().__init__()\n        self.dropout = args.dropout\n        self.max_source_positions = args.max_source_positions\n        self.embed_tokens = embed_tokens\n        if isinstance(embed_tokens, nn.ModuleList):\n            self.padding_idx = embed_tokens[0].padding_idx\n            embed_dim = sum(e.embedding_dim for e in embed_tokens)\n        else:\n            self.padding_idx = embed_tokens.padding_idx\n            embed_dim = embed_tokens.embedding_dim\n        self.embed_scale = math.sqrt(embed_dim)\n        self.embed_positions = (\n            PositionalEmbedding(\n                args.max_source_positions,\n                embed_dim,\n                self.padding_idx,\n                learned=args.encoder_learned_pos,\n            )\n            if not args.no_token_positional_embeddings\n            else None\n        )\n        if getattr(args, \"layernorm_embedding\", False):\n            self.layernorm_embedding = LayerNorm(embed_dim)\n        else:\n            self.layernorm_embedding = None\n\n    def forward(self, input):\n        # embed tokens and positions\n        src_tokens = input[0]\n        prev_output_tokens = input[2]\n        if isinstance(self.embed_tokens, nn.ModuleList):\n            x_embed_list = []\n            for embed_tokens_part in self.embed_tokens:\n                x_embed_list.append(embed_tokens_part(src_tokens))\n\n            embedded = torch.cat(x_embed_list, dim=-1)\n        else:\n            embedded = self.embed_tokens(src_tokens)\n        x = embed = self.embed_scale * embedded\n        if self.embed_positions is not None:\n            x = embed + self.embed_positions(src_tokens)\n        if self.layernorm_embedding:\n            x = self.layernorm_embedding(x)\n        x = F.dropout(x, p=self.dropout, training=self.training)\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        # compute padding mask\n        encoder_padding_mask = src_tokens.eq(self.padding_idx)\n        return (x, encoder_padding_mask, prev_output_tokens)\n\n\nclass TransformerEncoderLayerNorm(nn.Module):\n    \"\"\"\n    Layer norm at the the end of all encoder layers if\n    args.encoder_enormalize_before = True\n    \"\"\"\n\n    def __init__(self, args, embed_dim):\n        super().__init__()\n        if args.encoder_normalize_before:\n            self.layer_norm = LayerNorm(embed_dim)\n        else:\n            self.layer_norm = None\n\n    def forward(self, input):\n        x = input[0]\n        encoder_padding_mask = input[1]\n        prev_output_tokens = input[2]\n        if self.layer_norm:\n            x = self.layer_norm(x)\n        # keeping track of the incremental_state is not supported yet\n        return (x, encoder_padding_mask, prev_output_tokens)\n\n\nclass TransformerDecoderEmbedding(nn.Module):\n    \"\"\"Decoder Embedding + Positional Embedding\"\"\"\n\n    def __init__(self, args, embed_tokens):\n        super().__init__()\n        self.dropout = args.dropout\n        self.share_input_output_embed = args.share_decoder_input_output_embed\n        input_embed_dim = (\n            sum(e.embedding_dim for e in embed_tokens)\n            if isinstance(embed_tokens, nn.ModuleList)\n            else embed_tokens.embedding_dim\n        )\n        embed_dim = args.decoder_embed_dim\n        self.output_embed_dim = args.decoder_output_dim\n\n        padding_idx = (\n            embed_tokens[0].padding_idx\n            if isinstance(embed_tokens, nn.ModuleList)\n            else embed_tokens.padding_idx\n        )\n        self.max_target_positions = args.max_target_positions\n\n        self.embed_tokens = embed_tokens\n        self.embed_scale = math.sqrt(embed_dim)  # todo: try with input_embed_dim\n\n        self.project_in_dim = (\n            Linear(input_embed_dim, embed_dim, bias=False)\n            if embed_dim != input_embed_dim\n            else None\n        )\n\n        self.embed_positions = (\n            PositionalEmbedding(\n                args.max_target_positions,\n                embed_dim,\n                padding_idx,\n                learned=args.decoder_learned_pos,\n            )\n            if not args.no_token_positional_embeddings\n            else None\n        )\n\n    def forward(self, input):\n        mt_task = False\n        if isinstance(input, tuple):\n            if len(input) == 3:\n                encoder_out = input[0]\n                encoder_padding_mask = input[1]\n                prev_output_tokens = input[2]\n                incremental_state = None  # Hardcoding to avoid passing of None objects\n                mt_task = True\n            else:\n                # HACK for now, need to fix (TODO sidgoyal)\n                prev_output_tokens = input[0]\n                # discard \"src_lengths\"\n                encoder_out = None\n                encoder_padding_mask = None\n                incremental_state = None\n\n        else:\n            prev_output_tokens = input\n            encoder_out = None\n            encoder_padding_mask = None\n            incremental_state = None\n\n        positions = (\n            self.embed_positions(\n                prev_output_tokens,\n                incremental_state=incremental_state,\n            )\n            if self.embed_positions is not None\n            else None\n        )\n\n        if incremental_state is not None:\n            prev_output_tokens = prev_output_tokens[:, -1:]\n            if positions is not None:\n                positions = positions[:, -1:]\n\n        # embed tokens and positions\n\n        if isinstance(self.embed_tokens, nn.ModuleList):\n            x_embed_list = []\n            for embed_tokens_part in self.embed_tokens:\n                x_embed_list.append(embed_tokens_part(prev_output_tokens))\n\n            x = self.embed_scale * torch.cat(x_embed_list, dim=-1)\n        else:\n            x = self.embed_scale * self.embed_tokens(prev_output_tokens)\n\n        if self.project_in_dim is not None:\n            x = self.project_in_dim(x)\n\n        if positions is not None:\n            x += positions\n        x = F.dropout(x, p=self.dropout, training=self.training)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n        if mt_task:\n            return (x, encoder_out, encoder_padding_mask)\n        return x\n\n\nclass TransformerDecoderOutputLayer(nn.Module):\n    def __init__(self, args, embed_tokens, dictionary):\n        super().__init__()\n        self.share_input_output_embed = args.share_decoder_input_output_embed\n        self.embed_tokens = embed_tokens\n        self.output_embed_dim = args.decoder_output_dim\n        embed_dim = args.decoder_embed_dim\n\n        self.project_out_dim = (\n            Linear(embed_dim, self.output_embed_dim, bias=False)\n            if embed_dim != self.output_embed_dim and not args.tie_adaptive_weights\n            else None\n        )\n        self.adaptive_softmax = None\n        if args.adaptive_softmax_cutoff is not None:\n            assert not isinstance(embed_tokens, nn.ModuleList)\n            self.adaptive_softmax = AdaptiveSoftmax(\n                len(dictionary),\n                self.output_embed_dim,\n                options.eval_str_list(args.adaptive_softmax_cutoff, type=int),\n                dropout=args.adaptive_softmax_dropout,\n                adaptive_inputs=embed_tokens if args.tie_adaptive_weights else None,\n                factor=args.adaptive_softmax_factor,\n                tie_proj=args.tie_adaptive_proj,\n            )\n        elif not self.share_input_output_embed:\n            self.embed_tokens = nn.Parameter(\n                torch.Tensor(len(dictionary), self.output_embed_dim)\n            )\n            nn.init.normal_(\n                self.embed_tokens, mean=0, std=self.output_embed_dim**-0.5\n            )\n\n        if args.decoder_normalize_before and not getattr(\n            args, \"no_decoder_final_norm\", False\n        ):\n            self.layer_norm = LayerNorm(embed_dim)\n        else:\n            self.layer_norm = None\n\n    def forward(self, input, apply_final_proj=True):\n        if isinstance(input, tuple):\n            x = input[0]\n        else:\n            x = input\n\n        if self.layer_norm:\n            x = self.layer_norm(x)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        if self.project_out_dim is not None:\n            x = self.project_out_dim(x)\n        if apply_final_proj:\n            x = self.output_layer(x)\n        return x\n\n    def output_layer(self, features, **kwargs):\n        \"\"\"Project features to the vocabulary size.\"\"\"\n        if self.adaptive_softmax is None:\n            # project back to size of vocabulary\n            if self.share_input_output_embed:\n                if isinstance(self.embed_tokens, nn.ModuleList):\n                    output = None\n                    for i, emb in enumerate(self.embed_tokens):\n                        sidx = i * emb.embedding_dim\n                        eidx = (i + 1) * emb.embedding_dim\n                        if output is None:\n                            output = F.linear(features[:, :, sidx:eidx], emb.weight)\n                        else:\n                            output += F.linear(features[:, :, sidx:eidx], emb.weight)\n\n                    return output\n                else:\n                    return F.linear(features, self.embed_tokens.weight)\n            else:\n                return F.linear(features, self.embed_tokens)\n        else:\n            return features\n\n\nclass TransformerEncoderLayer(nn.Module):\n    \"\"\"Encoder layer block.\n    In the original paper each operation (multi-head attention or FFN) is\n    postprocessed with: `dropout -> add residual -> layernorm`. In the\n    tensor2tensor code they suggest that learning is more robust when\n    preprocessing each layer with layernorm and postprocessing with:\n    `dropout -> add residual`. We default to the approach in the paper, but the\n    tensor2tensor approach can be enabled by setting\n    *args.encoder_normalize_before* to ``True``.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n    \"\"\"\n\n    def __init__(self, args):\n        super().__init__()\n        self.embed_dim = args.encoder_embed_dim\n        self.self_attn = MultiheadAttention(\n            self.embed_dim,\n            args.encoder_attention_heads,\n            dropout=args.attention_dropout,\n            self_attention=True,\n        )\n        self.self_attn_layer_norm = LayerNorm(self.embed_dim)\n        self.dropout = args.dropout\n        self.activation_fn = utils.get_activation_fn(\n            activation=getattr(args, \"activation_fn\", \"relu\")\n        )\n        self.activation_dropout = getattr(args, \"activation_dropout\", 0)\n        if self.activation_dropout == 0:\n            # for backwards compatibility with models that use args.relu_dropout\n            self.activation_dropout = getattr(args, \"relu_dropout\", 0)\n        self.normalize_before = args.encoder_normalize_before\n        self.fc1 = Linear(self.embed_dim, args.encoder_ffn_embed_dim)\n        self.fc2 = Linear(args.encoder_ffn_embed_dim, self.embed_dim)\n        self.final_layer_norm = LayerNorm(self.embed_dim)\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        \"\"\"\n        Rename layer norm states from `...layer_norms.0.weight` to\n        `...self_attn_layer_norm.weight` and `...layer_norms.1.weight` to\n        `...final_layer_norm.weight`\n        \"\"\"\n        layer_norm_map = {\"0\": \"self_attn_layer_norm\", \"1\": \"final_layer_norm\"}\n        for old, new in layer_norm_map.items():\n            for m in (\"weight\", \"bias\"):\n                k = \"{}.layer_norms.{}.{}\".format(name, old, m)\n                if k in state_dict:\n                    state_dict[\"{}.{}.{}\".format(name, new, m)] = state_dict[k]\n                    del state_dict[k]\n\n    def forward(self, input):\n        \"\"\"\n        Args:\n            input (Tuple):\n                input[0] (Tensor): input to the layer of shape `(seq_len, batch, embed_dim)`\n                input[1] (ByteTensor/FloatTensor): encoder padding mask -\n                    binary ByteTensor of shape `(batch, src_len)` where padding elements\n                    are indicated by ``1``.\n                input[2] (LongTensor): previous decoder outputs of shape\n                    `(batch, tgt_len)`, for teacher forcing)\n        Returns:\n            output (Tuple):\n                output[0] (Tensor): encoded output of shape `(batch, src_len, embed_dim)`\n                output[1] (ByteTensor/FloatTensor): encoder padding mask\n                output[2] (LongTensor): previous decoder outputs\n        \"\"\"\n        x = input[0]\n        encoder_padding_mask = input[1]\n        prev_output_tokens = input[2]\n        residual = x\n        x = self.maybe_layer_norm(self.self_attn_layer_norm, x, before=True)\n        x, _ = self.self_attn(\n            query=x, key=x, value=x, key_padding_mask=encoder_padding_mask\n        )\n        x = F.dropout(x, p=self.dropout, training=self.training)\n        x = residual + x\n        x = self.maybe_layer_norm(self.self_attn_layer_norm, x, after=True)\n\n        residual = x\n        x = self.maybe_layer_norm(self.final_layer_norm, x, before=True)\n        x = self.activation_fn(self.fc1(x))\n        x = F.dropout(x, p=self.activation_dropout, training=self.training)\n        x = self.fc2(x)\n        x = F.dropout(x, p=self.dropout, training=self.training)\n        x = residual + x\n        x = self.maybe_layer_norm(self.final_layer_norm, x, after=True)\n        return (x, encoder_padding_mask, prev_output_tokens)\n\n    def maybe_layer_norm(self, layer_norm, x, before=False, after=False):\n        assert before ^ after\n        if after ^ self.normalize_before:\n            return layer_norm(x)\n        else:\n            return x\n\n\nclass TransformerDecoderLayer(nn.Module):\n    \"\"\"Decoder layer block.\n\n    In the original paper each operation (multi-head attention, encoder\n    attention or FFN) is postprocessed with: `dropout -> add residual ->\n    layernorm`. In the tensor2tensor code they suggest that learning is more\n    robust when preprocessing each layer with layernorm and postprocessing with:\n    `dropout -> add residual`. We default to the approach in the paper, but the\n    tensor2tensor approach can be enabled by setting\n    *args.decoder_normalize_before* to ``True``.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        no_encoder_attn (bool, optional): whether to attend to encoder outputs\n            (default: False).\n    \"\"\"\n\n    def __init__(\n        self, args, no_encoder_attn=False, add_bias_kv=False, add_zero_attn=False\n    ):\n        super().__init__()\n        self.embed_dim = args.decoder_embed_dim\n        self.self_attn = MultiheadAttention(\n            embed_dim=self.embed_dim,\n            num_heads=args.decoder_attention_heads,\n            dropout=args.attention_dropout,\n            add_bias_kv=add_bias_kv,\n            add_zero_attn=add_zero_attn,\n            self_attention=True,\n        )\n        self.dropout = args.dropout\n        self.activation_fn = utils.get_activation_fn(\n            activation=getattr(args, \"activation_fn\", \"relu\")\n        )\n        self.activation_dropout = getattr(args, \"activation_dropout\", 0)\n        if self.activation_dropout == 0:\n            # for backwards compatibility with models that use args.relu_dropout\n            self.activation_dropout = getattr(args, \"relu_dropout\", 0)\n        self.normalize_before = args.decoder_normalize_before\n\n        # use layerNorm rather than FusedLayerNorm for exporting.\n        # char_inputs can be used to determint this.\n        # TODO  remove this once we update apex with the fix\n        export = getattr(args, \"char_inputs\", False)\n        self.self_attn_layer_norm = LayerNorm(self.embed_dim, export=export)\n\n        if no_encoder_attn:\n            self.encoder_attn = None\n            self.encoder_attn_layer_norm = None\n        else:\n            self.encoder_attn = MultiheadAttention(\n                self.embed_dim,\n                args.decoder_attention_heads,\n                kdim=getattr(args, \"encoder_embed_dim\", None),\n                vdim=getattr(args, \"encoder_embed_dim\", None),\n                dropout=args.attention_dropout,\n                encoder_decoder_attention=True,\n            )\n            self.encoder_attn_layer_norm = LayerNorm(self.embed_dim, export=export)\n\n        self.fc1 = Linear(self.embed_dim, args.decoder_ffn_embed_dim)\n        self.fc2 = Linear(args.decoder_ffn_embed_dim, self.embed_dim)\n\n        self.final_layer_norm = LayerNorm(self.embed_dim, export=export)\n        self.need_attn = True\n\n        self.onnx_trace = False\n\n    def prepare_for_onnx_export_(self):\n        self.onnx_trace = True\n\n    def forward(self, input):\n        \"\"\"\n        Args:\n            input (Tuple):\n                input[0] (Tensor): input to the layer of shape `(seq_len, batch, embed_dim)`\n                input[1] (Tensor): encoder output of shape `(batch, src_len, embed_dim)`\n                input[2] (ByteTensor/FloatTensor): encoder padding mask -\n                    binary ByteTensor of shape `(batch, src_len)` where padding elements\n                    are indicated by ``1``.\n        Returns:\n            output (Tuple):\n                output[0] (Tensor): encoded output of shape `(batch, src_len, embed_dim)`\n                output[1] (ByteTensor/FloatTensor): encoder padding mask\n                output[2] (LongTensor): previous decoder outputs\n        \"\"\"\n        # Note: incremental state is not yet supported\n        mt_task = False\n        if isinstance(input, tuple):\n            x = input[0]\n            encoder_out = input[1]\n            encoder_padding_mask = input[2]\n            incremental_state = None\n            mt_task = True\n        else:\n            x = input\n            encoder_out = None\n            encoder_padding_mask = None\n            incremental_state = None\n\n        if incremental_state is None:\n            self_attn_mask = self.buffered_future_mask(x)\n        else:\n            self_attn_mask = None\n\n        # TODO: add back prev_self_attn_state, prev_attn_state,\n        # self_attn_padding_mask\n        prev_self_attn_state = None\n        prev_attn_state = None\n        self_attn_padding_mask = None\n\n        residual = x\n        x = self.maybe_layer_norm(self.self_attn_layer_norm, x, before=True)\n        if prev_self_attn_state is not None:\n            if incremental_state is None:\n                incremental_state = {}\n            prev_key, prev_value = prev_self_attn_state\n            saved_state = {\"prev_key\": prev_key, \"prev_value\": prev_value}\n            self.self_attn._set_input_buffer(incremental_state, saved_state)\n        x, attn = self.self_attn(\n            query=x,\n            key=x,\n            value=x,\n            key_padding_mask=self_attn_padding_mask,\n            incremental_state=incremental_state,\n            need_weights=False,\n            attn_mask=self_attn_mask,\n        )\n        x = F.dropout(x, p=self.dropout, training=self.training)\n        x = residual + x\n        x = self.maybe_layer_norm(self.self_attn_layer_norm, x, after=True)\n\n        if self.encoder_attn is not None:\n            residual = x\n            x = self.maybe_layer_norm(self.encoder_attn_layer_norm, x, before=True)\n            if prev_attn_state is not None:\n                if incremental_state is None:\n                    incremental_state = {}\n                prev_key, prev_value = prev_attn_state\n                saved_state = {\"prev_key\": prev_key, \"prev_value\": prev_value}\n                self.encoder_attn._set_input_buffer(incremental_state, saved_state)\n            x, attn = self.encoder_attn(\n                query=x,\n                key=encoder_out,\n                value=encoder_out,\n                key_padding_mask=encoder_padding_mask,\n                incremental_state=incremental_state,\n                static_kv=True,\n                need_weights=(not self.training and self.need_attn),\n            )\n            x = F.dropout(x, p=self.dropout, training=self.training)\n            x = residual + x\n            x = self.maybe_layer_norm(self.encoder_attn_layer_norm, x, after=True)\n\n        residual = x\n        x = self.maybe_layer_norm(self.final_layer_norm, x, before=True)\n        x = self.activation_fn(self.fc1(x))\n        x = F.dropout(x, p=self.activation_dropout, training=self.training)\n        x = self.fc2(x)\n        x = F.dropout(x, p=self.dropout, training=self.training)\n        x = residual + x\n        x = self.maybe_layer_norm(self.final_layer_norm, x, after=True)\n\n        if mt_task:\n            return (x, encoder_out, encoder_padding_mask)\n        return x\n\n    def buffered_future_mask(self, tensor):\n        dim = tensor.size(0)\n        if (\n            not hasattr(self, \"_future_mask\")\n            or self._future_mask is None\n            or self._future_mask.device != tensor.device\n        ):\n            self._future_mask = torch.triu(\n                utils.fill_with_neg_inf(tensor.new(dim, dim)), 1\n            )\n        if self._future_mask.size(0) < dim:\n            self._future_mask = torch.triu(\n                utils.fill_with_neg_inf(self._future_mask.resize_(dim, dim)), 1\n            )\n        return self._future_mask[:dim, :dim]\n\n    def maybe_layer_norm(self, layer_norm, x, before=False, after=False):\n        assert before ^ after\n        if after ^ self.normalize_before:\n            return layer_norm(x)\n        else:\n            return x\n\n    def make_generation_fast_(self, need_attn=False, **kwargs):\n        self.need_attn = need_attn\n\n\ndef Embedding(num_embeddings, embedding_dim, padding_idx):\n    m = nn.Embedding(num_embeddings, embedding_dim, padding_idx=padding_idx)\n    nn.init.normal_(m.weight, mean=0, std=embedding_dim**-0.5)\n    nn.init.constant_(m.weight[padding_idx], 0)\n    return m\n\n\ndef Linear(in_features, out_features, bias=True):\n    m = nn.Linear(in_features, out_features, bias)\n    nn.init.xavier_uniform_(m.weight)\n    if bias:\n        nn.init.constant_(m.bias, 0.0)\n    return m\n"
  },
  {
    "path": "fairseq/model_parallel/models/pipeline_parallel_transformer/model.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.model_parallel.models.pipeline_parallel_transformer.layers import (\n    Embedding,\n    TransformerDecoderEmbedding,\n    TransformerDecoderLayer,\n    TransformerDecoderOutputLayer,\n    TransformerEncoderEmbedding,\n    TransformerEncoderLayer,\n    TransformerEncoderLayerNorm,\n)\nfrom fairseq.models import (\n    BaseFairseqModel,\n    FairseqDecoder,\n    FairseqEncoder,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.fairseq_encoder import EncoderOut\nfrom fairseq.models.transformer import (\n    base_architecture,\n    transformer_iwslt_de_en,\n    transformer_wmt_en_de_big,\n)\nfrom fairseq.modules import SinusoidalPositionalEmbedding\n\n\nlogger = logging.getLogger(__name__)\n\n\nDEFAULT_MAX_SOURCE_POSITIONS = 1024\nDEFAULT_MAX_TARGET_POSITIONS = 1024\nTORCH_PIPE = False\nRPC_INIT = False\n\n\ndef import_pipe():\n    global TORCH_PIPE\n    global RPC_INIT\n    try:\n        from torch.distributed.pipeline.sync import Pipe  # noqa\n\n        global Pipe\n        from torch.distributed.pipeline.sync.utils import partition_model\n\n        global partition_model\n        from torch.distributed import rpc\n        import tempfile\n\n        TORCH_PIPE = True\n        # Initialize single process RPC agent since TORCH_PIPE requires\n        # RRef. RRef depends on RPC being initialized and as a result we initialize\n        # RPC with a single node.\n        tmpfile = tempfile.NamedTemporaryFile()\n        if not RPC_INIT:\n            rpc.init_rpc(\n                name=\"worker\",\n                rank=0,\n                world_size=1,\n                rpc_backend_options=rpc.TensorPipeRpcBackendOptions(\n                    init_method=\"file://{}\".format(tmpfile.name),\n                ),\n            )\n            RPC_INIT = True\n        logger.info(\"Using torch pipe\")\n    except ImportError:\n        try:\n            from fairscale.nn import Pipe  # noqa\n\n            logger.info(\"Using fairscale pipe\")\n        except ImportError:\n            raise ImportError(\"Please install fairscale with: pip install fairscale\")\n\n\n@register_model(\"pipeline_parallel_transformer\")\nclass PipelineParallelTransformerModel(BaseFairseqModel):\n    def __init__(self, encoder, decoder, balance, devices, chunks, checkpoint):\n        import_pipe()\n        super().__init__()\n        assert isinstance(encoder, FairseqEncoder)\n        assert isinstance(decoder, FairseqDecoder)\n        encoder_module_list = (\n            [encoder.embedding_layer]\n            + list(encoder.encoder_layers)\n            + [encoder.final_layer_norm]\n        )\n        self.num_encoder_modules = len(encoder_module_list)\n        decoder_module_list = (\n            [decoder.embedding_layer]\n            + list(decoder.decoder_layers)\n            + [decoder.decoder_output_layer]\n        )\n        self.num_decoder_modules = len(decoder_module_list)\n        module_list = encoder_module_list + decoder_module_list\n        self.devices = devices\n        if TORCH_PIPE:\n            self.model = Pipe(\n                partition_model(nn.Sequential(*module_list), balance, devices),\n                chunks=chunks,\n                checkpoint=checkpoint,\n            )\n        else:\n            self.model = Pipe(\n                nn.Sequential(*module_list),\n                balance=balance,\n                devices=devices,\n                chunks=chunks,\n                checkpoint=checkpoint,\n            )\n        self.encoder_max_positions = self.max_positions_helper(\n            encoder.embedding_layer, \"max_source_positions\"\n        )\n        self.decoder_max_positions = self.max_positions_helper(\n            decoder.embedding_layer, \"max_target_positions\"\n        )\n        self.adaptive_softmax = getattr(decoder, \"adaptive_softmax\", None)\n        # Note: To be populated during inference\n        self.encoder = None\n        self.decoder = None\n\n    def forward(self, src_tokens, src_lengths, prev_output_tokens):\n        if self.training:\n            input_lst = [src_tokens, src_lengths, prev_output_tokens]\n            input = tuple(i.to(self.devices[0], non_blocking=True) for i in input_lst)\n            if TORCH_PIPE:\n                return self.model(input).local_value()\n            else:\n                return self.model(input)\n        else:\n            assert self.encoder is not None and self.decoder is not None, (\n                \"encoder and decoder need to be initialized by \"\n                + \"calling the `prepare_for_inference_()` method\"\n            )\n            encoder_output_tuple = self.encoder(input)\n            return self.decoder(encoder_output_tuple)\n\n    def prepare_for_inference_(self, cfg):\n        if self.encoder is not None and self.decoder is not None:\n            logger.info(\"Encoder and Decoder already initialized\")\n            return\n        encoder_module_list = []\n        decoder_module_list = []\n        module_count = 0\n        for partition in self.model.partitions:\n            for module in partition:\n                if module_count < self.num_encoder_modules:\n                    encoder_module_list.append(module)\n                else:\n                    decoder_module_list.append(module)\n                module_count += 1\n        self.model = None\n        self.encoder = TransformerEncoder(\n            cfg.distributed_training, None, None, encoder_module_list\n        )\n        self.decoder = TransformerDecoder(\n            cfg.distributed_training,\n            None,\n            None,\n            decoder_module_list=decoder_module_list,\n        )\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--activation-fn',\n                            choices=utils.get_available_activation_fns(),\n                            help='activation function to use')\n        parser.add_argument('--dropout', type=float, metavar='D',\n                            help='dropout probability')\n        parser.add_argument('--attention-dropout', type=float, metavar='D',\n                            help='dropout probability for attention weights')\n        parser.add_argument('--activation-dropout', '--relu-dropout', type=float, metavar='D',\n                            help='dropout probability after activation in FFN.')\n        parser.add_argument('--encoder-embed-path', type=str, metavar='STR',\n                            help='path to pre-trained encoder embedding')\n        parser.add_argument('--encoder-embed-dim', type=int, metavar='N',\n                            help='encoder embedding dimension')\n        parser.add_argument('--encoder-ffn-embed-dim', type=int, metavar='N',\n                            help='encoder embedding dimension for FFN')\n        parser.add_argument('--encoder-layers', type=int, metavar='N',\n                            help='num encoder layers')\n        parser.add_argument('--encoder-attention-heads', type=int, metavar='N',\n                            help='num encoder attention heads')\n        parser.add_argument('--encoder-normalize-before', action='store_true',\n                            help='apply layernorm before each encoder block')\n        parser.add_argument('--encoder-learned-pos', action='store_true',\n                            help='use learned positional embeddings in the encoder')\n        parser.add_argument('--decoder-embed-path', type=str, metavar='STR',\n                            help='path to pre-trained decoder embedding')\n        parser.add_argument('--decoder-embed-dim', type=int, metavar='N',\n                            help='decoder embedding dimension')\n        parser.add_argument('--decoder-ffn-embed-dim', type=int, metavar='N',\n                            help='decoder embedding dimension for FFN')\n        parser.add_argument('--decoder-layers', type=int, metavar='N',\n                            help='num decoder layers')\n        parser.add_argument('--decoder-attention-heads', type=int, metavar='N',\n                            help='num decoder attention heads')\n        parser.add_argument('--decoder-learned-pos', action='store_true',\n                            help='use learned positional embeddings in the decoder')\n        parser.add_argument('--decoder-normalize-before', action='store_true',\n                            help='apply layernorm before each decoder block')\n        parser.add_argument('--share-decoder-input-output-embed', action='store_true',\n                            help='share decoder input and output embeddings')\n        parser.add_argument('--share-all-embeddings', action='store_true',\n                            help='share encoder, decoder and output embeddings'\n                                 ' (requires shared dictionary and embed dim)')\n        parser.add_argument('--no-token-positional-embeddings', default=False, action='store_true',\n                            help='if set, disables positional embeddings (outside self attention)')\n        parser.add_argument('--adaptive-softmax-cutoff', metavar='EXPR',\n                            help='comma separated list of adaptive softmax cutoff points. '\n                                 'Must be used with adaptive_loss criterion'),\n        parser.add_argument('--adaptive-softmax-dropout', type=float, metavar='D',\n                            help='sets adaptive softmax dropout for the tail projections')\n        parser.add_argument('--num-embedding-chunks', type=int, metavar='N', default=1,\n                            help='Number of embedding layer chunks (enables more even distribution'\n                                 'of optimizer states across data parallel nodes'\n                                 'when using optimizer state sharding and'\n                                 'a big embedding vocabulary)')\n        # fmt: on\n\n    @classmethod\n    def build_model_base(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        # make sure all arguments are present in older models\n        base_architecture(args)\n\n        if not hasattr(args, \"max_source_positions\"):\n            args.max_source_positions = DEFAULT_MAX_SOURCE_POSITIONS\n        if not hasattr(args, \"max_target_positions\"):\n            args.max_target_positions = DEFAULT_MAX_TARGET_POSITIONS\n\n        src_dict, tgt_dict = task.source_dictionary, task.target_dictionary\n\n        def build_embedding(dictionary, embed_dim, path=None, num_embed_chunks=1):\n            assert embed_dim % num_embed_chunks == 0, (\n                f\"Number of embedding chunks = {num_embed_chunks} should be \"\n                + f\"divisible by the embedding dimension = {embed_dim}\"\n            )\n            assert path is None or num_embed_chunks == 1, (\n                \"Loading embedding from a path with number of embedding chunks > 1\"\n                + \" is not yet supported\"\n            )\n            num_embeddings = len(dictionary)\n            padding_idx = dictionary.pad()\n            # if provided, load from preloaded dictionaries\n            if path:\n                emb = Embedding(num_embeddings, embed_dim, padding_idx)\n                embed_dict = utils.parse_embedding(path)\n                utils.load_embedding(embed_dict, dictionary, emb)\n            else:\n                embed_chunk_dim = embed_dim // num_embed_chunks\n                emb = nn.ModuleList()\n                for i in range(num_embed_chunks):\n                    emb.append(Embedding(num_embeddings, embed_chunk_dim, padding_idx))\n            return emb\n\n        num_embed_chunks = args.num_embedding_chunks\n        if args.share_all_embeddings:\n            if src_dict != tgt_dict:\n                raise ValueError(\"--share-all-embeddings requires a joined dictionary\")\n            if args.encoder_embed_dim != args.decoder_embed_dim:\n                raise ValueError(\n                    \"--share-all-embeddings requires --encoder-embed-dim to match --decoder-embed-dim\"\n                )\n            if args.decoder_embed_path and (\n                args.decoder_embed_path != args.encoder_embed_path\n            ):\n                raise ValueError(\n                    \"--share-all-embeddings not compatible with --decoder-embed-path\"\n                )\n            encoder_embed_tokens = build_embedding(\n                src_dict,\n                args.encoder_embed_dim,\n                args.encoder_embed_path,\n                num_embed_chunks,\n            )\n            decoder_embed_tokens = encoder_embed_tokens\n            args.share_decoder_input_output_embed = True\n        else:\n            assert args.share_decoder_input_output_embed or num_embed_chunks == 1, (\n                \"Not sharing decoder I/O embeddings is not yet supported with number of \"\n                + \"embedding chunks > 1\"\n            )\n            encoder_embed_tokens = build_embedding(\n                src_dict,\n                args.encoder_embed_dim,\n                args.encoder_embed_path,\n                num_embed_chunks,\n            )\n            decoder_embed_tokens = build_embedding(\n                tgt_dict,\n                args.decoder_embed_dim,\n                args.decoder_embed_path,\n                num_embed_chunks,\n            )\n\n        encoder = cls.build_encoder(args, src_dict, encoder_embed_tokens)\n        decoder = cls.build_decoder(args, tgt_dict, decoder_embed_tokens)\n        return (encoder, decoder)\n\n    @classmethod\n    def build_encoder(cls, args, src_dict, embed_tokens):\n        return TransformerEncoder(args, src_dict, embed_tokens)\n\n    @classmethod\n    def build_decoder(cls, args, tgt_dict, embed_tokens):\n        return TransformerDecoder(args, tgt_dict, embed_tokens)\n\n    @classmethod\n    def build_model(cls, args, task):\n        encoder, decoder = cls.build_model_base(args, task)\n        return PipelineParallelTransformerModel(\n            encoder=encoder,\n            decoder=decoder,\n            balance=utils.eval_str_list(args.pipeline_balance, type=int),\n            devices=utils.eval_str_list(args.pipeline_devices, type=int),\n            chunks=args.pipeline_chunks,\n            checkpoint=args.pipeline_checkpoint,\n        )\n\n    def output_layer(self, features, **kwargs):\n        \"\"\"Project features to the default output size (typically vocabulary size).\"\"\"\n        return self.decoder.output_layer(features, **kwargs)\n\n    def max_positions(self):\n        \"\"\"Maximum length supported by the model.\"\"\"\n        return (self.encoder_max_positions, self.decoder_max_positions)\n\n    def max_positions_helper(\n        self, embedding_layer, max_positions_field=\"max_source_positions\"\n    ):\n        \"\"\"Maximum input length supported by the encoder or decoder.\"\"\"\n        if embedding_layer.embed_positions is None:\n            return getattr(embedding_layer, max_positions_field)\n        return min(\n            getattr(embedding_layer, max_positions_field),\n            embedding_layer.embed_positions.max_positions,\n        )\n\n    def get_normalized_probs(self, net_output, log_probs, sample=None):\n        \"\"\"Get normalized probabilities (or log probs) from a net's output.\"\"\"\n\n        if hasattr(self, \"adaptive_softmax\") and self.adaptive_softmax is not None:\n            if sample is not None:\n                assert \"target\" in sample\n                target = sample[\"target\"]\n            else:\n                target = None\n            out = self.adaptive_softmax.get_log_prob(net_output, target=target)\n            return out.exp_() if not log_probs else out\n\n        # A Pipe() module returns a tuple of tensors as the output.\n        # In this case, the tuple has one element - the output tensor of logits\n        logits = net_output if isinstance(net_output, torch.Tensor) else net_output[0]\n        if log_probs:\n            return utils.log_softmax(logits, dim=-1, onnx_trace=False)\n        else:\n            return utils.softmax(logits, dim=-1, onnx_trace=False)\n\n    def max_decoder_positions(self):\n        \"\"\"Maximum length supported by the decoder.\"\"\"\n        return self.decoder_max_positions\n\n    def load_state_dict(self, state_dict, strict=True, model_cfg=None):\n        \"\"\"Copies parameters and buffers from *state_dict* into this module and\n        its descendants.\n\n        Overrides the method in :class:`nn.Module`. Compared with that method\n        this additionally \"upgrades\" *state_dicts* from old checkpoints.\n        \"\"\"\n        self.upgrade_state_dict(state_dict)\n        is_regular_transformer = not any(\"model.partitions\" in k for k in state_dict)\n        if is_regular_transformer:\n            state_dict = self.convert_to_pipeline_parallel_state_dict(state_dict)\n        return super().load_state_dict(state_dict, strict)\n\n    def convert_to_pipeline_parallel_state_dict(self, state_dict):\n        new_state_dict = self.state_dict()\n        encoder_layer_idx = 0\n        decoder_layer_idx = 0\n        encoder_key_suffixes = [\n            \"self_attn.k_proj.weight\",\n            \"self_attn.k_proj.bias\",\n            \"self_attn.v_proj.weight\",\n            \"self_attn.v_proj.bias\",\n            \"self_attn.q_proj.weight\",\n            \"self_attn.q_proj.bias\",\n            \"self_attn.out_proj.weight\",\n            \"self_attn.out_proj.bias\",\n            \"self_attn_layer_norm.weight\",\n            \"self_attn_layer_norm.bias\",\n            \"fc1.weight\",\n            \"fc1.bias\",\n            \"fc2.weight\",\n            \"fc2.bias\",\n            \"final_layer_norm.weight\",\n            \"final_layer_norm.bias\",\n        ]\n        decoder_key_suffixes = [\n            \"self_attn.k_proj.weight\",\n            \"self_attn.k_proj.bias\",\n            \"self_attn.v_proj.weight\",\n            \"self_attn.v_proj.bias\",\n            \"self_attn.q_proj.weight\",\n            \"self_attn.q_proj.bias\",\n            \"self_attn.out_proj.weight\",\n            \"self_attn.out_proj.bias\",\n            \"self_attn_layer_norm.weight\",\n            \"self_attn_layer_norm.bias\",\n            \"encoder_attn.k_proj.weight\",\n            \"encoder_attn.k_proj.bias\",\n            \"encoder_attn.v_proj.weight\",\n            \"encoder_attn.v_proj.bias\",\n            \"encoder_attn.q_proj.weight\",\n            \"encoder_attn.q_proj.bias\",\n            \"encoder_attn.out_proj.weight\",\n            \"encoder_attn.out_proj.bias\",\n            \"encoder_attn_layer_norm.weight\",\n            \"encoder_attn_layer_norm.bias\",\n            \"fc1.weight\",\n            \"fc1.bias\",\n            \"fc2.weight\",\n            \"fc2.bias\",\n            \"final_layer_norm.weight\",\n            \"final_layer_norm.bias\",\n        ]\n        for pid, partition in enumerate(self.model.partitions):\n            logger.info(f\"Begin Partition {pid}\")\n            for mid, module in enumerate(partition):\n                # fmt: off\n                if isinstance(module, TransformerEncoderEmbedding):\n                    new_state_dict[f'model.partitions.{pid}.{mid}.embed_tokens.weight'] = state_dict['encoder.embed_tokens.weight']\n                if isinstance(module, TransformerEncoderLayer):\n                    for suffix in encoder_key_suffixes:\n                        new_state_dict[f'model.partitions.{pid}.{mid}.{suffix}'] = state_dict[f'encoder.layers.{encoder_layer_idx}.{suffix}']\n                    encoder_layer_idx += 1\n                if isinstance(module, TransformerDecoderLayer):\n                    for suffix in decoder_key_suffixes:\n                        new_state_dict[f'model.partitions.{pid}.{mid}.{suffix}'] = state_dict[f'decoder.layers.{decoder_layer_idx}.{suffix}']\n                    decoder_layer_idx += 1\n                if isinstance(module, TransformerEncoderLayerNorm):\n                    if 'encoder.layer_norm.weight' in state_dict:\n                        new_state_dict[f'model.partitions.{pid}.{mid}.layer_norm.weight'] = state_dict['encoder.layer_norm.weight']\n                        new_state_dict[f'model.partitions.{pid}.{mid}.layer_norm.bias'] = state_dict['encoder.layer_norm.bias']\n                if isinstance(module, TransformerDecoderEmbedding):\n                    new_state_dict[f'model.partitions.{pid}.{mid}.embed_tokens.weight'] = state_dict['decoder.embed_tokens.weight']\n                if isinstance(module, TransformerDecoderOutputLayer):\n                    new_state_dict[f'model.partitions.{pid}.{mid}.output_projection.weight'] = state_dict['decoder.output_projection.weight']\n                # fmt: on\n        return new_state_dict\n\n\nclass TransformerEncoder(FairseqEncoder):\n    \"\"\"\n    Transformer encoder consisting of *args.encoder_layers* layers. Each layer\n    is a :class:`TransformerEncoderLayer`.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        dictionary (~fairseq.data.Dictionary): encoding dictionary\n        embed_tokens (torch.nn.Embedding): input embedding\n    \"\"\"\n\n    def __init__(self, args, dictionary, embed_tokens, encoder_module_list=None):\n        super().__init__(dictionary)\n        self.register_buffer(\"version\", torch.Tensor([3]))\n        import_pipe()\n        self.use_pipeline = encoder_module_list is not None\n        if not self.use_pipeline:\n            self.embedding_layer = TransformerEncoderEmbedding(args, embed_tokens)\n            self.encoder_layers = nn.Sequential(\n                *[TransformerEncoderLayer(args) for i in range(args.encoder_layers)]\n            )\n            if isinstance(embed_tokens, nn.ModuleList):\n                emb_dim = sum(e.embedding_dim for e in embed_tokens)\n            else:\n                emb_dim = embed_tokens.embedding_dim\n            self.final_layer_norm = TransformerEncoderLayerNorm(args, emb_dim)\n        else:\n            encoder_balance = utils.eval_str_list(\n                args.pipeline_encoder_balance, type=int\n            )\n            encoder_devices = utils.eval_str_list(\n                args.pipeline_encoder_devices, type=int\n            )\n            assert sum(encoder_balance) == len(encoder_module_list), (\n                f\"Sum of encoder_balance={encoder_balance} is not equal \"\n                + f\"to num_encoder_modules={len(encoder_module_list)}\"\n            )\n            if TORCH_PIPE:\n                self.model = Pipe(\n                    module=partition_model(\n                        nn.Sequential(*encoder_module_list),\n                        encoder_balance,\n                        encoder_devices,\n                    ),\n                    chunks=args.pipeline_chunks,\n                    checkpoint=args.pipeline_checkpoint,\n                )\n            else:\n                self.model = Pipe(\n                    module=nn.Sequential(*encoder_module_list),\n                    balance=encoder_balance,\n                    devices=encoder_devices,\n                    chunks=args.pipeline_chunks,\n                    checkpoint=args.pipeline_checkpoint,\n                )\n\n    def forward(self, src_tokens, src_lengths):\n        \"\"\"\n        Args:\n            input_tuple(\n                src_tokens (LongTensor): tokens in the source language of shape\n                    `(batch, src_len)`\n                src_lengths (torch.LongTensor): lengths of each source sentence of\n                    shape `(batch)`\n            )\n\n        Returns:\n            output_tuple(\n                - **encoder_out** (Tensor): the last encoder layer's output of\n                  shape `(src_len, batch, embed_dim)`\n                - **encoder_padding_mask** (ByteTensor): the positions of\n                  padding elements of shape `(batch, src_len)`\n                - prev_output_tokens\n                - **encoder_states** (List[Tensor]): all intermediate\n                  hidden states of shape `(src_len, batch, embed_dim)`.\n                  Only populated if *return_all_hiddens* is True.\n            )\n        \"\"\"\n        dummy_prev_output_tokens = torch.zeros(\n            1, dtype=src_tokens.dtype, device=src_tokens.device\n        )\n        input_tuple = (src_tokens, src_lengths, dummy_prev_output_tokens)\n        if self.use_pipeline:\n            input_tuple = tuple(i.to(self.model.devices[0]) for i in input_tuple)\n            if TORCH_PIPE:\n                encoder_out = self.model(input_tuple).local_value()\n            else:\n                encoder_out = self.model(input_tuple)\n        else:\n            encoder_embed_output_tuple = self.embedding_layer(input_tuple)\n            encoder_layers_output = self.encoder_layers(encoder_embed_output_tuple)\n            encoder_out = self.final_layer_norm(encoder_layers_output)\n        # first element is the encoder output\n        # second element is the encoder padding mask\n        # the remaining elements of EncoderOut are not computed by\n        # the PipelineParallelTransformer\n        return EncoderOut(encoder_out[0], encoder_out[1], None, None, None, None)\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        \"\"\"\n        Reorder encoder output according to *new_order*.\n\n        Args:\n            encoder_out: output from the ``forward()`` method\n            new_order (LongTensor): desired order\n\n        Returns:\n            *encoder_out* rearranged according to *new_order*\n        \"\"\"\n        if encoder_out.encoder_out is not None:\n            encoder_out = encoder_out._replace(\n                encoder_out=encoder_out.encoder_out.index_select(1, new_order)\n            )\n        if encoder_out.encoder_padding_mask is not None:\n            encoder_out = encoder_out._replace(\n                encoder_padding_mask=encoder_out.encoder_padding_mask.index_select(\n                    0, new_order\n                )\n            )\n        if encoder_out.encoder_embedding is not None:\n            encoder_out = encoder_out._replace(\n                encoder_embedding=encoder_out.encoder_embedding.index_select(\n                    0, new_order\n                )\n            )\n        if encoder_out.encoder_states is not None:\n            for idx, state in enumerate(encoder_out.encoder_states):\n                encoder_out.encoder_states[idx] = state.index_select(1, new_order)\n        return encoder_out\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        if self.embedding_layer.embed_positions is None:\n            return self.embedding_layer.max_source_positions\n        return min(\n            self.embedding_layer.max_source_positions,\n            self.embedding_layer.embed_positions.max_positions,\n        )\n\n\nclass TransformerDecoder(FairseqDecoder):\n    \"\"\"\n    Transformer decoder consisting of *args.decoder_layers* layers. Each layer\n    is a :class:`TransformerDecoderLayer`.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        dictionary (~fairseq.data.Dictionary): decoding dictionary\n        embed_tokens (torch.nn.Embedding): output embedding\n        no_encoder_attn (bool, optional): whether to attend to encoder outputs\n            (default: False).\n    \"\"\"\n\n    def __init__(\n        self,\n        args,\n        dictionary,\n        embed_tokens,\n        no_encoder_attn=False,\n        decoder_module_list=None,\n    ):\n        super().__init__(dictionary)\n        self.register_buffer(\"version\", torch.Tensor([3]))\n        import_pipe()\n        self.use_pipeline = decoder_module_list is not None\n        if not self.use_pipeline:\n            self.embedding_layer = TransformerDecoderEmbedding(args, embed_tokens)\n            self.decoder_layers = nn.Sequential(\n                *[\n                    TransformerDecoderLayer(args, no_encoder_attn)\n                    for _ in range(args.decoder_layers)\n                ]\n            )\n            self.decoder_output_layer = TransformerDecoderOutputLayer(\n                args, embed_tokens, dictionary\n            )\n        else:\n            decoder_balance = utils.eval_str_list(\n                args.pipeline_decoder_balance, type=int\n            )\n            decoder_devices = utils.eval_str_list(\n                args.pipeline_decoder_devices, type=int\n            )\n            assert sum(decoder_balance) == len(decoder_module_list), (\n                f\"Sum of decoder_balance={decoder_balance} is not equal \"\n                + f\"to num_decoder_modules={len(decoder_module_list)}\"\n            )\n            if TORCH_PIPE:\n                self.model = Pipe(\n                    module=partition_model(\n                        nn.Sequential(*decoder_module_list),\n                        decoder_balance,\n                        decoder_devices,\n                    ),\n                    chunks=args.pipeline_chunks,\n                    checkpoint=args.pipeline_checkpoint,\n                )\n            else:\n                self.model = Pipe(\n                    module=nn.Sequential(*decoder_module_list),\n                    balance=decoder_balance,\n                    devices=decoder_devices,\n                    chunks=args.pipeline_chunks,\n                    checkpoint=args.pipeline_checkpoint,\n                )\n\n    def forward(\n        self,\n        prev_output_tokens,\n        encoder_out=None,\n    ):\n        \"\"\"\n        Args:\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for teacher forcing\n            encoder_out (optional): output from the encoder, used for\n                encoder-side attention\n            incremental_state (dict): dictionary used for storing state during\n                :ref:`Incremental decoding`\n            features_only (bool, optional): only return features without\n                applying output layer (default: False).\n\n        Returns:\n            tuple:\n                - the decoder's output of shape `(batch, tgt_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        input_tuple = (\n            encoder_out.encoder_out,\n            encoder_out.encoder_padding_mask,\n            prev_output_tokens,\n        )\n        if self.use_pipeline:\n            input_tuple = tuple(i.to(self.model.devices[0]) for i in input_tuple)\n            if TORCH_PIPE:\n                return (self.model(input_tuple).local_value(),)\n            else:\n                return (self.model(input_tuple),)\n        else:\n            embed_layer_output = self.embedding_layer(input_tuple)\n            state = self.decoder_layers(embed_layer_output)\n            return (self.decoder_output_layer(state),)\n\n    def output_layer(self, features, **kwargs):\n        \"\"\"Project features to the vocabulary size.\"\"\"\n        if self.adaptive_softmax is None:\n            # project back to size of vocabulary\n            if self.share_input_output_embed:\n                return F.linear(features, self.embed_tokens.weight)\n            else:\n                return F.linear(features, self.embed_out)\n        else:\n            return features\n\n    def max_positions(self):\n        \"\"\"Maximum output length supported by the decoder.\"\"\"\n        if self.embedding_layer.embed_positions is None:\n            return self.embedding_layer.max_target_positions\n        return min(\n            self.embedding_layer.max_target_positions,\n            self.embedding_layer.embed_positions.max_positions,\n        )\n\n    def buffered_future_mask(self, tensor):\n        dim = tensor.size(0)\n        if (\n            not hasattr(self, \"_future_mask\")\n            or self._future_mask is None\n            or self._future_mask.device != tensor.device\n            or self._future_mask.size(0) < dim\n        ):\n            self._future_mask = torch.triu(\n                utils.fill_with_neg_inf(tensor.new(dim, dim)), 1\n            )\n        return self._future_mask[:dim, :dim]\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        \"\"\"Upgrade a (possibly old) state dict for new versions of fairseq.\"\"\"\n        for i in range(len(self.layers)):\n            # update layer norms\n            layer_norm_map = {\n                \"0\": \"self_attn_layer_norm\",\n                \"1\": \"encoder_attn_layer_norm\",\n                \"2\": \"final_layer_norm\",\n            }\n            for old, new in layer_norm_map.items():\n                for m in (\"weight\", \"bias\"):\n                    k = \"{}.layers.{}.layer_norms.{}.{}\".format(name, i, old, m)\n                    if k in state_dict:\n                        state_dict[\n                            \"{}.layers.{}.{}.{}\".format(name, i, new, m)\n                        ] = state_dict[k]\n                        del state_dict[k]\n\n        version_key = \"{}.version\".format(name)\n        if utils.item(state_dict.get(version_key, torch.Tensor([1]))[0]) <= 2:\n            # earlier checkpoints did not normalize after the stack of layers\n            self.layer_norm = None\n            self.normalize = False\n            state_dict[version_key] = torch.Tensor([1])\n\n        return state_dict\n\n\n@register_model_architecture(\n    \"pipeline_parallel_transformer\", \"transformer_iwslt_de_en_pipeline_parallel\"\n)\ndef transformer_iwslt_de_en_dist(args):\n    transformer_iwslt_de_en(args)\n\n\n@register_model_architecture(\n    \"pipeline_parallel_transformer\", \"transformer_wmt_en_de_big_pipeline_parallel\"\n)\ndef transformer_wmt_en_de_big_dist(args):\n    transformer_wmt_en_de_big(args)\n"
  },
  {
    "path": "fairseq/model_parallel/models/roberta/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .model import *  # noqa\n"
  },
  {
    "path": "fairseq/model_parallel/models/roberta/model.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nRoBERTa: A Robustly Optimized BERT Pretraining Approach.\n\"\"\"\n\nimport logging\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.model_parallel.models.transformer import ModelParallelTransformerEncoder\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.roberta import (\n    roberta_base_architecture,\n    roberta_prenorm_architecture,\n    RobertaEncoder,\n    RobertaModel,\n)\nfrom fairseq.modules import LayerNorm\n\n\ntry:\n    from fairseq.model_parallel.megatron.mpu import (\n        copy_to_model_parallel_region,\n        gather_from_model_parallel_region,\n        ColumnParallelLinear,\n        VocabParallelEmbedding,\n    )\n\n    has_megatron_submodule = True\nexcept (ImportError, ModuleNotFoundError):\n    has_megatron_submodule = False\n\nlogger = logging.getLogger(__name__)\n\n\n@register_model(\"model_parallel_roberta\")\nclass ModelParallelRobertaModel(RobertaModel):\n    def __init__(self, args, encoder):\n        super().__init__(args, encoder)\n\n        self.classification_heads = nn.ModuleDict()\n\n    @staticmethod\n    def add_args(parser):\n        RobertaModel.add_args(parser)\n        parser.add_argument(\n            \"--no-final-layer-norm\",\n            action=\"store_true\",\n            help=(\n                \"don't add final layernorm (only applicable when \"\n                \"--encoder-normalize-before=True\"\n            ),\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        # make sure all arguments are present\n        base_architecture(args)\n\n        task.source_dictionary.pad_to_multiple_(args.model_parallel_size * 8)\n        task.target_dictionary.pad_to_multiple_(args.model_parallel_size * 8)\n\n        if not hasattr(args, \"max_positions\"):\n            args.max_positions = args.tokens_per_sample\n\n        if getattr(args, \"untie_weights_roberta\", False):\n            raise NotImplementedError(\n                \"--untie-weights-roberta is not supported in model parallel mode\"\n            )\n\n        encoder = ModelParallelRobertaEncoder(args, task.source_dictionary)\n        return cls(args, encoder)\n\n    def forward(\n        self,\n        src_tokens,\n        features_only=False,\n        return_all_hiddens=False,\n        classification_head_name=None,\n        **kwargs\n    ):\n        if classification_head_name is not None:\n            features_only = True\n\n        x, extra = self.encoder(src_tokens, features_only, return_all_hiddens, **kwargs)\n\n        if classification_head_name is not None:\n            x = self.classification_heads[classification_head_name](x)\n        return x, extra\n\n    def register_classification_head(\n        self, name, num_classes=None, inner_dim=None, **kwargs\n    ):\n        \"\"\"Register a classification head.\"\"\"\n        if name in self.classification_heads:\n            prev_num_classes = self.classification_heads[name].out_proj.out_features\n            prev_inner_dim = self.classification_heads[name].dense.out_features\n            if num_classes != prev_num_classes or inner_dim != prev_inner_dim:\n                logger.warning(\n                    're-registering head \"{}\" with num_classes {} (prev: {}) '\n                    \"and inner_dim {} (prev: {})\".format(\n                        name, num_classes, prev_num_classes, inner_dim, prev_inner_dim\n                    )\n                )\n        self.classification_heads[name] = ModelParallelRobertaClassificationHead(\n            self.args.encoder_embed_dim,\n            inner_dim or self.args.encoder_embed_dim,\n            num_classes,\n            self.args.pooler_activation_fn,\n            self.args.pooler_dropout,\n        )\n\n\nclass ModelParallelRobertaLMHead(nn.Module):\n    \"\"\"Head for masked language modeling.\"\"\"\n\n    def __init__(self, embed_dim, output_dim, activation_fn, weight=None):\n        super().__init__()\n        self.dense = ColumnParallelLinear(embed_dim, embed_dim, gather_output=True)\n        self.activation_fn = utils.get_activation_fn(activation_fn)\n        self.layer_norm = LayerNorm(embed_dim)\n\n        if weight is None:\n            weight = nn.Linear(embed_dim, output_dim, bias=False).weight\n        self.weight = weight\n        self.bias = nn.Parameter(torch.zeros(output_dim))\n\n    def forward(self, features, masked_tokens=None, **kwargs):\n        # Only project the unmasked tokens while training,\n        # saves both memory and computation\n        if masked_tokens is not None:\n            features = features[masked_tokens, :]\n\n        x = self.dense(features)\n        x = self.activation_fn(x)\n        x = self.layer_norm(x)\n\n        x = copy_to_model_parallel_region(x)\n        # project back to size of vocabulary with bias\n        x = F.linear(x, self.weight)\n        x = gather_from_model_parallel_region(x).contiguous()\n        x = x + self.bias\n        return x\n\n\nclass ModelParallelRobertaClassificationHead(nn.Module):\n    \"\"\"Head for sentence-level classification tasks.\"\"\"\n\n    def __init__(\n        self, input_dim, inner_dim, num_classes, activation_fn, pooler_dropout\n    ):\n        super().__init__()\n        self.dense = ColumnParallelLinear(input_dim, inner_dim, gather_output=True)\n        self.activation_fn = utils.get_activation_fn(activation_fn)\n        self.dropout = nn.Dropout(p=pooler_dropout)\n        self.out_proj = nn.Linear(inner_dim, num_classes)\n\n    def forward(self, features, **kwargs):\n        x = features[:, 0, :]  # take <s> token (equiv. to [CLS])\n        x = self.dropout(x)\n        x = self.dense(x)\n        x = self.activation_fn(x)\n        x = self.dropout(x)\n        x = self.out_proj(x)\n        return x\n\n\nclass ModelParallelRobertaEncoder(RobertaEncoder):\n    \"\"\"RoBERTa encoder.\"\"\"\n\n    def __init__(self, args, dictionary):\n        super().__init__(args, dictionary)\n        assert not self.args.untie_weights_roberta\n\n    def build_embedding(self, vocab_size, embedding_dim, padding_idx):\n        return VocabParallelEmbedding(vocab_size, embedding_dim, padding_idx)\n\n    def build_encoder(self, args, dictionary, embed_tokens):\n        return ModelParallelTransformerEncoder(args, dictionary, embed_tokens)\n\n    def build_lm_head(self, embed_dim, output_dim, activation_fn, weight):\n        return ModelParallelRobertaLMHead(embed_dim, output_dim, activation_fn, weight)\n\n\n@register_model_architecture(\"model_parallel_roberta\", \"model_parallel_roberta\")\ndef base_architecture(args):\n    args.no_final_layer_norm = getattr(args, \"no_final_layer_norm\", False)\n    # model parallel RoBERTa defaults to \"Pre-LN\" formulation\n    roberta_prenorm_architecture(args)\n\n\n# earlier versions of model parallel RoBERTa removed the final layer norm\n@register_model_architecture(\"model_parallel_roberta\", \"model_parallel_roberta_v1\")\ndef model_parallel_roberta_v1_architecture(args):\n    args.no_final_layer_norm = getattr(args, \"no_final_layer_norm\", True)\n    base_architecture(args)\n\n\n@register_model_architecture(\n    \"model_parallel_roberta\", \"model_parallel_roberta_postnorm\"\n)\ndef model_parallel_roberta_postnorm_architecture(args):\n    # the original BERT/RoBERTa uses the \"Post-LN\" formulation\n    roberta_base_architecture(args)\n\n\n@register_model_architecture(\"model_parallel_roberta\", \"model_parallel_roberta_base\")\ndef model_parallel_roberta_base_architecture(args):\n    base_architecture(args)\n\n\n@register_model_architecture(\"model_parallel_roberta\", \"model_parallel_roberta_large\")\ndef model_parallel_roberta_large_architecture(args):\n    args.encoder_layers = getattr(args, \"encoder_layers\", 24)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 4096)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 16)\n    base_architecture(args)\n"
  },
  {
    "path": "fairseq/model_parallel/models/transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nimport torch.nn as nn\n\nfrom fairseq.model_parallel.modules import (\n    ModelParallelTransformerDecoderLayer,\n    ModelParallelTransformerEncoderLayer,\n)\nfrom fairseq.models import register_model\nfrom fairseq.models.transformer import (\n    TransformerDecoder,\n    TransformerEncoder,\n    TransformerModel,\n)\n\ntry:\n    from fairseq.model_parallel.megatron.mpu import (\n        VocabParallelEmbedding,\n        copy_to_model_parallel_region,\n        gather_from_model_parallel_region,\n    )\n\n    has_megatron_submodule = True\nexcept (ImportError, ModuleNotFoundError):\n    has_megatron_submodule = False\n\n\nlogger = logging.getLogger(__name__)\n\n\n@register_model(\"model_parallel_transformer\")\nclass ModelParallelTransformerModel(TransformerModel):\n    \"\"\"\n    Model parallel Transformer model.\n    \"\"\"\n\n    @classmethod\n    def build_embedding(cls, args, dictionary, embed_dim, path=None):\n        if not has_megatron_submodule:\n            raise ImportError(\n                \"\\n\\nPlease install the megatron submodule:\"\n                \"\\n\\n  git submodule update --init \"\n                \"fairseq/model_parallel/megatron\"\n            )\n        dictionary.pad_to_multiple_(args.model_parallel_size * 8)\n        num_embeddings = len(dictionary)\n        padding_idx = dictionary.pad()\n\n        def _vocab_init(tensor, **kwargs):\n            nn.init.normal_(tensor, mean=0, std=num_embeddings**-0.5)\n            nn.init.constant_(tensor[1], 0)\n\n        emb = VocabParallelEmbedding(\n            num_embeddings, embed_dim, padding_idx, init_method=_vocab_init\n        )\n        # if provided, load from preloaded dictionaries\n        if path:\n            raise NotImplementedError(\n                \"Loading of embedding from path is not supported for model parallel\"\n            )\n        return emb\n\n    @classmethod\n    def build_encoder(cls, args, src_dict, embed_tokens):\n        return ModelParallelTransformerEncoder(args, src_dict, embed_tokens)\n\n    @classmethod\n    def build_decoder(cls, args, tgt_dict, embed_tokens):\n        return ModelParallelTransformerDecoder(\n            args,\n            tgt_dict,\n            embed_tokens,\n            no_encoder_attn=getattr(args, \"no_cross_attention\", False),\n        )\n\n\nclass ModelParallelTransformerEncoder(TransformerEncoder):\n    \"\"\"\n    Model parallel Transformer encoder consisting of *args.encoder_layers* layers. Each layer\n    is a :class:`ModelParallelTransformerEncoderLayer`.\n    \"\"\"\n\n    def __init__(self, args, dictionary, embed_tokens):\n        super().__init__(args, dictionary, embed_tokens)\n\n        if args.no_final_layer_norm:\n            self.layer_norm = None\n\n    def build_encoder_layer(self, args):\n        return ModelParallelTransformerEncoderLayer(args)\n\n\nclass ModelParallelTransformerDecoder(TransformerDecoder):\n    \"\"\"\n    Model Parallel Transformer decoder consisting of *args.decoder_layers* layers. Each layer\n    is a :class:`ModelParallelTransformerDecoderLayer`.\n    \"\"\"\n\n    def build_decoder_layer(self, args, no_encoder_attn=False):\n        return ModelParallelTransformerDecoderLayer(args, no_encoder_attn)\n\n    def output_layer(self, features, **kwargs):\n        \"\"\"Project features to the vocabulary size.\"\"\"\n        if not self.share_input_output_embed:\n            raise NotImplementedError(\n                \"Model parallel training currently requires --share-decoder-input-output-embed\"\n            )\n\n        features = copy_to_model_parallel_region(features)\n\n        # project back to size of vocabulary\n        x = self.output_projection(features)\n\n        if getattr(self.args, \"criterion\") != \"vocab_parallel_cross_entropy\":\n            x = gather_from_model_parallel_region(x).contiguous()\n        return x\n"
  },
  {
    "path": "fairseq/model_parallel/models/transformer_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch.nn as nn\n\nfrom fairseq.model_parallel.models.transformer import ModelParallelTransformerDecoder\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.transformer_lm import TransformerLanguageModel\n\ntry:\n    from fairseq.model_parallel.megatron.mpu import VocabParallelEmbedding\n\n    has_megatron_submodule = True\nexcept (ImportError, ModuleNotFoundError):\n    has_megatron_submodule = False\n\n\nDEFAULT_MAX_TARGET_POSITIONS = 1024\n\n\n@register_model(\"model_parallel_transformer_lm\")\nclass ModelParallelTransformerLanguageModel(TransformerLanguageModel):\n    @staticmethod\n    def add_args(parser):\n        TransformerLanguageModel.add_args(parser)\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        if not has_megatron_submodule:\n            raise ImportError(\n                \"\\n\\nPlease install the megatron submodule:\"\n                \"\\n\\n  git submodule update --init \"\n                \"fairseq/model_parallel/megatron\"\n            )\n\n        # make sure all arguments are present in older models\n        base_lm_architecture(args)\n\n        task.source_dictionary.pad_to_multiple_(args.model_parallel_size * 8)\n        task.target_dictionary.pad_to_multiple_(args.model_parallel_size * 8)\n\n        if args.decoder_layers_to_keep:\n            args.decoder_layers = len(args.decoder_layers_to_keep.split(\",\"))\n\n        if getattr(args, \"max_target_positions\", None) is None:\n            args.max_target_positions = getattr(\n                args, \"tokens_per_sample\", DEFAULT_MAX_TARGET_POSITIONS\n            )\n\n        if args.character_embeddings:\n            raise NotImplementedError(\n                \"Character embeddings is not supported for model parallel\"\n            )\n        elif args.adaptive_input:\n            raise NotImplementedError(\n                \"Adaptive input is not supported for model parallel\"\n            )\n        else:\n            embed_tokens = cls.build_embedding(\n                args, task.source_dictionary, args.decoder_input_dim\n            )\n\n        decoder = ModelParallelTransformerDecoder(\n            args,\n            task.target_dictionary,\n            embed_tokens,\n            no_encoder_attn=True,\n        )\n        return cls(decoder)\n\n    @classmethod\n    def build_embedding(cls, args, dictionary, embed_dim, path=None):\n        def _vocab_init(tensor, **kwargs):\n            nn.init.normal_(tensor, mean=0, std=embed_dim**-0.5)\n            nn.init.constant_(tensor[1], 0)\n\n        embed_tokens = VocabParallelEmbedding(\n            len(dictionary), embed_dim, dictionary.pad(), init_method=_vocab_init\n        )\n        return embed_tokens\n\n\ndef base_lm_architecture(args):\n    # backward compatibility for older model checkpoints\n    if hasattr(args, \"no_tie_adaptive_proj\"):\n        # previous models defined --no-tie-adaptive-proj, so use the existence of\n        # that option to determine if this is an \"old\" model checkpoint\n        args.no_decoder_final_norm = True  # old models always set this to True\n        if args.no_tie_adaptive_proj is False:\n            args.tie_adaptive_proj = True\n    if hasattr(args, \"decoder_final_norm\"):\n        args.no_decoder_final_norm = not args.decoder_final_norm\n\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.0)\n    args.activation_dropout = getattr(args, \"activation_dropout\", 0.0)\n    args.relu_dropout = getattr(args, \"relu_dropout\", 0.0)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 2048)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    # Model training is not stable without this\n    args.decoder_normalize_before = True\n    args.no_decoder_final_norm = getattr(args, \"no_decoder_final_norm\", False)\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.adaptive_softmax_factor = getattr(args, \"adaptive_softmax_factor\", 4)\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.character_embeddings = getattr(args, \"character_embeddings\", False)\n    args.character_filters = getattr(\n        args,\n        \"character_filters\",\n        \"[(1, 64), (2, 128), (3, 192), (4, 256), (5, 256), (6, 256), (7, 256)]\",\n    )\n    args.character_embedding_dim = getattr(args, \"character_embedding_dim\", 4)\n    args.char_embedder_highway_layers = getattr(args, \"char_embedder_highway_layers\", 2)\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.adaptive_input_factor = getattr(args, \"adaptive_input_factor\", 4)\n    args.adaptive_input_cutoff = getattr(args, \"adaptive_input_cutoff\", None)\n    args.tie_adaptive_weights = getattr(args, \"tie_adaptive_weights\", False)\n    args.tie_adaptive_proj = getattr(args, \"tie_adaptive_proj\", False)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.decoder_layerdrop = getattr(args, \"decoder_layerdrop\", 0.0)\n    args.decoder_layers_to_keep = getattr(args, \"decoder_layers_to_keep\", None)\n    args.layernorm_embedding = getattr(args, \"layernorm_embedding\", False)\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", False)\n    args.quant_noise_pq = getattr(args, \"quant_noise_pq\", 0.0)\n    args.quant_noise_pq_block_size = getattr(args, \"quant_noise_pq_block_size\", 8)\n    args.quant_noise_scalar = getattr(args, \"quant_noise_scalar\", 0.0)\n    args.add_bos_token = getattr(args, \"add_bos_token\", False)\n\n\n@register_model_architecture(\"model_parallel_transformer_lm\", \"transformer_lm_megatron\")\ndef transformer_lm_megatron(args):\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 3072)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 3072 * 4)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 72)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 32)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.1)\n    args.activation_fn = getattr(args, \"activation_fn\", \"gelu\")\n    base_lm_architecture(args)\n\n\n@register_model_architecture(\n    \"model_parallel_transformer_lm\", \"transformer_lm_megatron_11b\"\n)\ndef transformer_lm_megatron_11b(args):\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 3072)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 3072 * 6)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 72)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 32)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.1)\n    args.activation_fn = getattr(args, \"activation_fn\", \"gelu\")\n    base_lm_architecture(args)\n"
  },
  {
    "path": "fairseq/model_parallel/modules/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"isort:skip_file\"\"\"\n\nfrom .multihead_attention import ModelParallelMultiheadAttention\nfrom .transformer_layer import (\n    ModelParallelTransformerEncoderLayer,\n    ModelParallelTransformerDecoderLayer,\n)\n\n__all__ = [\n    \"ModelParallelMultiheadAttention\",\n    \"ModelParallelTransformerEncoderLayer\",\n    \"ModelParallelTransformerDecoderLayer\",\n]\n"
  },
  {
    "path": "fairseq/model_parallel/modules/multihead_attention.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Dict, Optional, Tuple\n\nimport torch\nimport torch.nn.functional as F\nfrom torch import Tensor, nn\n\nfrom fairseq import utils\nfrom fairseq.incremental_decoding_utils import with_incremental_state\nfrom fairseq.modules.fairseq_dropout import FairseqDropout\n\ntry:\n    from fairseq.model_parallel.megatron.mpu import (\n        ColumnParallelLinear,\n        RowParallelLinear,\n        get_cuda_rng_tracker,\n        get_model_parallel_world_size,\n    )\n\n    has_megatron_submodule = True\nexcept (ImportError, ModuleNotFoundError):\n    has_megatron_submodule = False\n\n\n@with_incremental_state\nclass ModelParallelMultiheadAttention(nn.Module):\n    \"\"\"Model parallel Multi-headed attention.\n    This performs the Multi-headed attention over multiple gpus.\n\n    See \"Megatron-LM: https://arxiv.org/pdf/1909.08053.pdf\" for more details.\n    \"\"\"\n\n    def __init__(\n        self,\n        embed_dim,\n        num_heads,\n        kdim=None,\n        vdim=None,\n        dropout=0.0,\n        bias=True,\n        self_attention=False,\n        encoder_decoder_attention=False,\n    ):\n        super().__init__()\n        if not has_megatron_submodule:\n            raise ImportError(\n                \"\\n\\nPlease install the megatron submodule:\"\n                \"\\n\\n  git submodule update --init \"\n                \"fairseq/model_parallel/megatron\"\n            )\n        self.embed_dim = embed_dim\n        self.kdim = kdim if kdim is not None else embed_dim\n        self.vdim = vdim if vdim is not None else embed_dim\n        self.qkv_same_dim = self.kdim == embed_dim and self.vdim == embed_dim\n\n        self.model_parallel_size = get_model_parallel_world_size()\n\n        self.num_heads_partition = num_heads // self.model_parallel_size\n        assert (\n            self.num_heads_partition * self.model_parallel_size == num_heads\n        ), \"Number of heads must be divisible by model parallel size\"\n\n        self.dropout_module = FairseqDropout(\n            dropout, module_name=self.__class__.__name__\n        )\n        self.head_dim = embed_dim // num_heads\n        assert (\n            self.head_dim * num_heads == self.embed_dim\n        ), \"embed_dim must be divisible by num_heads\"\n        self.scaling = self.head_dim**-0.5\n\n        self.self_attention = self_attention\n        self.encoder_decoder_attention = encoder_decoder_attention\n\n        assert (\n            not self.self_attention or self.qkv_same_dim\n        ), \"Self-attention requires query, key and value to be of the same size\"\n\n        self.k_proj = ColumnParallelLinear(\n            self.kdim, embed_dim, bias=bias, gather_output=False\n        )\n        self.v_proj = ColumnParallelLinear(\n            self.vdim, embed_dim, bias=bias, gather_output=False\n        )\n        self.q_proj = ColumnParallelLinear(\n            embed_dim, embed_dim, bias=bias, gather_output=False\n        )\n        self.out_proj = RowParallelLinear(\n            embed_dim, embed_dim, bias=bias, input_is_parallel=True\n        )\n\n    def forward(\n        self,\n        query,\n        key: Optional[Tensor],\n        value: Optional[Tensor],\n        key_padding_mask: Optional[Tensor] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        static_kv: bool = False,\n        attn_mask: Optional[Tensor] = None,\n        **unused_kwargs,\n    ) -> Tuple[Tensor, Optional[Tensor]]:\n        \"\"\"Input shape: Time x Batch x Channel\n\n        Args:\n            key_padding_mask (ByteTensor, optional): mask to exclude\n                keys that are pads, of shape `(batch, src_len)`, where\n                padding elements are indicated by 1s.\n            attn_mask (ByteTensor, optional): typically used to\n                implement causal attention, where the mask prevents the\n                attention from looking forward in time (default: None).\n        \"\"\"\n        tgt_len, bsz, embed_dim = query.size()\n        assert embed_dim == self.embed_dim\n        assert list(query.size()) == [tgt_len, bsz, embed_dim]\n\n        is_tpu = query.device.type == \"xla\"\n\n        if incremental_state is not None:\n            saved_state = self._get_input_buffer(incremental_state)\n            if saved_state is not None and \"prev_key\" in saved_state:\n                # previous time steps are cached - no need to recompute\n                # key and value if they are static\n                if static_kv:\n                    assert self.encoder_decoder_attention and not self.self_attention\n                    key = value = None\n        else:\n            saved_state = None\n\n        if self.self_attention:\n            q = self.q_proj(query)\n            k = self.k_proj(query)\n            v = self.v_proj(query)\n        elif self.encoder_decoder_attention:\n            # encoder-decoder attention\n            q = self.q_proj(query)\n            if key is None:\n                assert value is None\n                k = v = None\n            else:\n                k = self.k_proj(key)\n                v = self.v_proj(key)\n\n        else:\n            assert key is not None and value is not None\n            q = self.q_proj(query)\n            k = self.k_proj(key)\n            v = self.v_proj(value)\n        q *= self.scaling\n\n        q = (\n            q.contiguous()\n            .view(tgt_len, bsz * self.num_heads_partition, self.head_dim)\n            .transpose(0, 1)\n        )\n        if k is not None:\n            k = (\n                k.contiguous()\n                .view(-1, bsz * self.num_heads_partition, self.head_dim)\n                .transpose(0, 1)\n            )\n        if v is not None:\n            v = (\n                v.contiguous()\n                .view(-1, bsz * self.num_heads_partition, self.head_dim)\n                .transpose(0, 1)\n            )\n\n        if saved_state is not None:\n            # saved states are stored with shape (bsz, num_heads_partition, seq_len, head_dim)\n            if \"prev_key\" in saved_state:\n                _prev_key = saved_state[\"prev_key\"]\n                assert _prev_key is not None\n                prev_key = _prev_key.view(\n                    bsz * self.num_heads_partition, -1, self.head_dim\n                )\n                if static_kv:\n                    k = prev_key\n                else:\n                    assert k is not None\n                    k = torch.cat([prev_key, k], dim=1)\n            if \"prev_value\" in saved_state:\n                _prev_value = saved_state[\"prev_value\"]\n                assert _prev_value is not None\n                prev_value = _prev_value.view(\n                    bsz * self.num_heads_partition, -1, self.head_dim\n                )\n                if static_kv:\n                    v = prev_value\n                else:\n                    assert v is not None\n                    v = torch.cat([prev_value, v], dim=1)\n            prev_key_padding_mask: Optional[Tensor] = None\n            if \"prev_key_padding_mask\" in saved_state:\n                prev_key_padding_mask = saved_state[\"prev_key_padding_mask\"]\n            assert k is not None and v is not None\n            key_padding_mask = (\n                ModelParallelMultiheadAttention._append_prev_key_padding_mask(\n                    key_padding_mask=key_padding_mask,\n                    prev_key_padding_mask=prev_key_padding_mask,\n                    batch_size=bsz,\n                    src_len=k.size(1),\n                    static_kv=static_kv,\n                )\n            )\n\n            saved_state[\"prev_key\"] = k.view(\n                bsz, self.num_heads_partition, -1, self.head_dim\n            )\n            saved_state[\"prev_value\"] = v.view(\n                bsz, self.num_heads_partition, -1, self.head_dim\n            )\n            saved_state[\"prev_key_padding_mask\"] = key_padding_mask\n            # In this branch incremental_state is never None\n            assert incremental_state is not None\n            incremental_state = self._set_input_buffer(incremental_state, saved_state)\n        assert k is not None\n        src_len = k.size(1)\n\n        # This is part of a workaround to get around fork/join parallelism\n        # not supporting Optional types.\n        if key_padding_mask is not None and key_padding_mask.dim() == 0:\n            key_padding_mask = None\n\n        if key_padding_mask is not None:\n            assert key_padding_mask.size(0) == bsz\n            assert key_padding_mask.size(1) == src_len\n\n        attn_weights = torch.bmm(q, k.transpose(1, 2))\n\n        assert list(attn_weights.size()) == [\n            bsz * self.num_heads_partition,\n            tgt_len,\n            src_len,\n        ]\n\n        if attn_mask is not None:\n            attn_mask = attn_mask.unsqueeze(0)\n            attn_weights += attn_mask\n\n        if key_padding_mask is not None:\n            # don't attend to padding symbols\n            attn_weights = attn_weights.view(\n                bsz, self.num_heads_partition, tgt_len, src_len\n            )\n            if not is_tpu:\n                attn_weights = attn_weights.masked_fill(\n                    key_padding_mask.unsqueeze(1).unsqueeze(2).to(torch.bool),\n                    float(\"-inf\"),\n                )\n            else:\n                attn_weights = attn_weights.transpose(0, 2)\n                attn_weights = attn_weights.masked_fill(key_padding_mask, float(\"-inf\"))\n                attn_weights = attn_weights.transpose(0, 2)\n            attn_weights = attn_weights.view(\n                bsz * self.num_heads_partition, tgt_len, src_len\n            )\n\n        attn_weights_float = utils.softmax(attn_weights, dim=-1)\n        attn_weights = attn_weights_float.type_as(attn_weights)\n\n        with get_cuda_rng_tracker().fork():\n            attn_probs = self.dropout_module(attn_weights)\n\n        assert v is not None\n        attn = torch.bmm(attn_probs, v)\n        assert list(attn.size()) == [\n            bsz * self.num_heads_partition,\n            tgt_len,\n            self.head_dim,\n        ]\n        embed_dim_partition = embed_dim // self.model_parallel_size\n        attn = attn.transpose(0, 1).contiguous().view(tgt_len, bsz, embed_dim_partition)\n        attn = self.out_proj(attn)\n        # return attn_weights None to keep the return type same as single gpu multihead attention\n        # This will be deprecated.\n        attn_weights: Optional[Tensor] = None\n\n        return attn, attn_weights\n\n    @staticmethod\n    def _append_prev_key_padding_mask(\n        key_padding_mask: Optional[Tensor],\n        prev_key_padding_mask: Optional[Tensor],\n        batch_size: int,\n        src_len: int,\n        static_kv: bool,\n    ) -> Optional[Tensor]:\n        # saved key padding masks have shape (bsz, seq_len)\n        if prev_key_padding_mask is not None and static_kv:\n            new_key_padding_mask = prev_key_padding_mask\n        elif prev_key_padding_mask is not None and key_padding_mask is not None:\n            new_key_padding_mask = torch.cat(\n                [prev_key_padding_mask.float(), key_padding_mask.float()], dim=1\n            )\n        # During incremental decoding, as the padding token enters and\n        # leaves the frame, there will be a time when prev or current\n        # is None\n        elif prev_key_padding_mask is not None:\n\n            filler = torch.zeros(batch_size, src_len - prev_key_padding_mask.size(1))\n            if prev_key_padding_mask.is_cuda:\n                filler = filler.cuda()\n            new_key_padding_mask = torch.cat(\n                [prev_key_padding_mask.float(), filler.float()], dim=1\n            )\n        elif key_padding_mask is not None:\n            filler = torch.zeros(batch_size, src_len - key_padding_mask.size(1))\n            if key_padding_mask.is_cuda:\n                filler = filler.cuda()\n            new_key_padding_mask = torch.cat(\n                [filler.float(), key_padding_mask.float()], dim=1\n            )\n        else:\n            new_key_padding_mask = prev_key_padding_mask\n        return new_key_padding_mask\n\n    def reorder_incremental_state(\n        self, incremental_state: Dict[str, Dict[str, Optional[Tensor]]], new_order\n    ):\n        \"\"\"Reorder buffered internal state (for incremental generation).\"\"\"\n        input_buffer = self._get_input_buffer(incremental_state)\n        if input_buffer is not None:\n            for k in input_buffer.keys():\n                if input_buffer[k] is not None:\n                    input_buffer[k] = input_buffer[k].index_select(0, new_order)\n            incremental_state = self._set_input_buffer(incremental_state, input_buffer)\n        return incremental_state\n\n    def _get_input_buffer(\n        self, incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]]\n    ) -> Dict[str, Optional[Tensor]]:\n        result = self.get_incremental_state(incremental_state, \"attn_state\")\n        if result is not None:\n            return result\n        else:\n            empty_result: Dict[str, Optional[Tensor]] = {}\n            return empty_result\n\n    def _set_input_buffer(\n        self,\n        incremental_state: Dict[str, Dict[str, Optional[Tensor]]],\n        buffer: Dict[str, Optional[Tensor]],\n    ):\n        return self.set_incremental_state(incremental_state, \"attn_state\", buffer)\n"
  },
  {
    "path": "fairseq/model_parallel/modules/transformer_layer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.model_parallel.modules import ModelParallelMultiheadAttention\nfrom fairseq.modules import TransformerDecoderLayer, TransformerEncoderLayer\n\n\ntry:\n    from fairseq.model_parallel.megatron.mpu import (\n        ColumnParallelLinear,\n        RowParallelLinear,\n    )\n\n    has_megatron_submodule = True\nexcept (ImportError, ModuleNotFoundError):\n    has_megatron_submodule = False\n\n\nclass ModelParallelTransformerEncoderLayer(TransformerEncoderLayer):\n    \"\"\"Encoder layer block over multiple gpus.\n\n    See \"Megatron-LM: https://arxiv.org/pdf/1909.08053.pdf\" for more details.\n    \"\"\"\n\n    def build_fc1(self, input_dim, output_dim, q_noise, qn_block_size):\n        if q_noise > 0:\n            raise NotImplementedError\n        return ColumnParallelLinear(input_dim, output_dim, gather_output=False)\n\n    def build_fc2(self, input_dim, output_dim, q_noise, qn_block_size):\n        if q_noise > 0:\n            raise NotImplementedError\n        return RowParallelLinear(input_dim, output_dim, input_is_parallel=True)\n\n    def build_self_attention(self, embed_dim, args, **unused_kwargs):\n        return ModelParallelMultiheadAttention(\n            embed_dim,\n            args.encoder_attention_heads,\n            dropout=args.attention_dropout,\n            self_attention=True,\n        )\n\n\nclass ModelParallelTransformerDecoderLayer(TransformerDecoderLayer):\n    \"\"\"Decoder layer block.\n\n    See \"Megatron-LM: https://arxiv.org/pdf/1909.08053.pdf\" for more details.\n    \"\"\"\n\n    def build_fc1(self, input_dim, output_dim, q_noise, qn_block_size):\n        if q_noise > 0:\n            raise NotImplementedError\n        return ColumnParallelLinear(input_dim, output_dim, gather_output=False)\n\n    def build_fc2(self, input_dim, output_dim, q_noise, qn_block_size):\n        if q_noise > 0:\n            raise NotImplementedError\n        return RowParallelLinear(input_dim, output_dim, input_is_parallel=True)\n\n    def build_self_attention(self, embed_dim, args, **unused_kwargs):\n        return ModelParallelMultiheadAttention(\n            embed_dim=embed_dim,\n            num_heads=args.decoder_attention_heads,\n            dropout=args.attention_dropout,\n            self_attention=not getattr(args, \"cross_self_attention\", False),\n        )\n\n    def build_encoder_attention(self, embed_dim, args, **unused_kwargs):\n        return ModelParallelMultiheadAttention(\n            embed_dim=embed_dim,\n            num_heads=args.decoder_attention_heads,\n            kdim=getattr(args, \"encoder_embed_dim\", None),\n            vdim=getattr(args, \"encoder_embed_dim\", None),\n            dropout=args.attention_dropout,\n            encoder_decoder_attention=True,\n        )\n"
  },
  {
    "path": "fairseq/models/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"isort:skip_file\"\"\"\n\nimport argparse\nimport importlib\nimport os\n\nfrom contextlib import ExitStack\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.dataclass.utils import merge_with_parent\nfrom hydra.core.config_store import ConfigStore\nfrom omegaconf import open_dict, OmegaConf\n\nfrom .composite_encoder import CompositeEncoder\nfrom .distributed_fairseq_model import DistributedFairseqModel\nfrom .fairseq_decoder import FairseqDecoder\nfrom .fairseq_encoder import FairseqEncoder\nfrom .fairseq_incremental_decoder import FairseqIncrementalDecoder\nfrom .fairseq_model import (\n    BaseFairseqModel,\n    FairseqEncoderDecoderModel,\n    FairseqEncoderModel,\n    FairseqLanguageModel,\n    FairseqModel,\n    FairseqMultiModel,\n)\n\n\nMODEL_REGISTRY = {}\nMODEL_DATACLASS_REGISTRY = {}\nARCH_MODEL_REGISTRY = {}\nARCH_MODEL_NAME_REGISTRY = {}\nARCH_MODEL_INV_REGISTRY = {}\nARCH_CONFIG_REGISTRY = {}\n\n\n__all__ = [\n    \"BaseFairseqModel\",\n    \"CompositeEncoder\",\n    \"DistributedFairseqModel\",\n    \"FairseqDecoder\",\n    \"FairseqEncoder\",\n    \"FairseqEncoderDecoderModel\",\n    \"FairseqEncoderModel\",\n    \"FairseqIncrementalDecoder\",\n    \"FairseqLanguageModel\",\n    \"FairseqModel\",\n    \"FairseqMultiModel\",\n]\n\n\ndef build_model(cfg: FairseqDataclass, task, from_checkpoint=False):\n\n    model = None\n    model_type = getattr(cfg, \"_name\", None) or getattr(cfg, \"arch\", None)\n\n    if not model_type and len(cfg) == 1:\n        # this is hit if config object is nested in directory that is named after model type\n\n        model_type = next(iter(cfg))\n        if model_type in MODEL_DATACLASS_REGISTRY:\n            cfg = cfg[model_type]\n        else:\n            raise Exception(\n                \"Could not infer model type from directory. Please add _name field to indicate model type. \"\n                \"Available models: \"\n                + str(MODEL_DATACLASS_REGISTRY.keys())\n                + \" Requested model type: \"\n                + model_type\n            )\n\n    if model_type in ARCH_MODEL_REGISTRY:\n        # case 1: legacy models\n        model = ARCH_MODEL_REGISTRY[model_type]\n    elif model_type in MODEL_DATACLASS_REGISTRY:\n        # case 2: config-driven models\n        model = MODEL_REGISTRY[model_type]\n\n    if model_type in MODEL_DATACLASS_REGISTRY:\n        # set defaults from dataclass. note that arch name and model name can be the same\n        dc = MODEL_DATACLASS_REGISTRY[model_type]\n\n        if isinstance(cfg, argparse.Namespace):\n            cfg = dc.from_namespace(cfg)\n        else:\n            cfg = merge_with_parent(dc(), cfg, from_checkpoint)\n    else:\n        if model_type in ARCH_CONFIG_REGISTRY:\n            with open_dict(cfg) if OmegaConf.is_config(cfg) else ExitStack():\n                # this calls the different \"arch\" functions (like base_architecture()) that you indicate\n                # if you specify --arch on the command line. this is only applicable to the old argparse based models\n                # hydra models should expose different architectures via different config files\n                # it will modify the cfg object and default parameters according to the arch\n                ARCH_CONFIG_REGISTRY[model_type](cfg)\n\n    assert model is not None, (\n        f\"Could not infer model type from {cfg}. \"\n        \"Available models: {}\".format(MODEL_DATACLASS_REGISTRY.keys())\n        + f\" Requested model type: {model_type}\"\n    )\n\n    return model.build_model(cfg, task)\n\n\ndef register_model(name, dataclass=None):\n    \"\"\"\n    New model types can be added to fairseq with the :func:`register_model`\n    function decorator.\n\n    For example::\n\n        @register_model('lstm')\n        class LSTM(FairseqEncoderDecoderModel):\n            (...)\n\n    .. note:: All models must implement the :class:`BaseFairseqModel` interface.\n        Typically you will extend :class:`FairseqEncoderDecoderModel` for\n        sequence-to-sequence tasks or :class:`FairseqLanguageModel` for\n        language modeling tasks.\n\n    Args:\n        name (str): the name of the model\n    \"\"\"\n\n    def register_model_cls(cls):\n        if name in MODEL_REGISTRY:\n            return MODEL_REGISTRY[name]\n\n        if not issubclass(cls, BaseFairseqModel):\n            raise ValueError(\n                \"Model ({}: {}) must extend BaseFairseqModel\".format(name, cls.__name__)\n            )\n        MODEL_REGISTRY[name] = cls\n        if dataclass is not None and not issubclass(dataclass, FairseqDataclass):\n            raise ValueError(\n                \"Dataclass {} must extend FairseqDataclass\".format(dataclass)\n            )\n\n        cls.__dataclass = dataclass\n        if dataclass is not None:\n            MODEL_DATACLASS_REGISTRY[name] = dataclass\n\n            cs = ConfigStore.instance()\n            node = dataclass()\n            node._name = name\n            cs.store(name=name, group=\"model\", node=node, provider=\"fairseq\")\n\n            @register_model_architecture(name, name)\n            def noop(_):\n                pass\n\n        return cls\n\n    return register_model_cls\n\n\ndef register_model_architecture(model_name, arch_name):\n    \"\"\"\n    New model architectures can be added to fairseq with the\n    :func:`register_model_architecture` function decorator. After registration,\n    model architectures can be selected with the ``--arch`` command-line\n    argument.\n\n    For example::\n\n        @register_model_architecture('lstm', 'lstm_luong_wmt_en_de')\n        def lstm_luong_wmt_en_de(cfg):\n            args.encoder_embed_dim = getattr(cfg.model, 'encoder_embed_dim', 1000)\n            (...)\n\n    The decorated function should take a single argument *cfg*, which is a\n    :class:`omegaconf.DictConfig`. The decorated function should modify these\n    arguments in-place to match the desired architecture.\n\n    Args:\n        model_name (str): the name of the Model (Model must already be\n            registered)\n        arch_name (str): the name of the model architecture (``--arch``)\n    \"\"\"\n\n    def register_model_arch_fn(fn):\n        if model_name not in MODEL_REGISTRY:\n            raise ValueError(\n                \"Cannot register model architecture for unknown model type ({})\".format(\n                    model_name\n                )\n            )\n        if arch_name in ARCH_MODEL_REGISTRY:\n            raise ValueError(\n                \"Cannot register duplicate model architecture ({})\".format(arch_name)\n            )\n        if not callable(fn):\n            raise ValueError(\n                \"Model architecture must be callable ({})\".format(arch_name)\n            )\n        ARCH_MODEL_REGISTRY[arch_name] = MODEL_REGISTRY[model_name]\n        ARCH_MODEL_NAME_REGISTRY[arch_name] = model_name\n        ARCH_MODEL_INV_REGISTRY.setdefault(model_name, []).append(arch_name)\n        ARCH_CONFIG_REGISTRY[arch_name] = fn\n        return fn\n\n    return register_model_arch_fn\n\n\ndef import_models(models_dir, namespace):\n    for file in os.listdir(models_dir):\n        path = os.path.join(models_dir, file)\n        if (\n            not file.startswith(\"_\")\n            and not file.startswith(\".\")\n            and (file.endswith(\".py\") or os.path.isdir(path))\n        ):\n            model_name = file[: file.find(\".py\")] if file.endswith(\".py\") else file\n            importlib.import_module(namespace + \".\" + model_name)\n\n            # extra `model_parser` for sphinx\n            if model_name in MODEL_REGISTRY:\n                parser = argparse.ArgumentParser(add_help=False)\n                group_archs = parser.add_argument_group(\"Named architectures\")\n                group_archs.add_argument(\n                    \"--arch\", choices=ARCH_MODEL_INV_REGISTRY[model_name]\n                )\n                group_args = parser.add_argument_group(\n                    \"Additional command-line arguments\"\n                )\n                MODEL_REGISTRY[model_name].add_args(group_args)\n                globals()[model_name + \"_parser\"] = parser\n\n\n# automatically import any Python files in the models/ directory\nmodels_dir = os.path.dirname(__file__)\nimport_models(models_dir, \"fairseq.models\")\n"
  },
  {
    "path": "fairseq/models/bart/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .hub_interface import *  # noqa\nfrom .model import *  # noqa\n"
  },
  {
    "path": "fairseq/models/bart/hub_interface.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport copy\nimport logging\nfrom typing import Dict, List\n\nimport numpy as np\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.data import encoders\nfrom fairseq.hub_utils import GeneratorHubInterface\nfrom omegaconf import open_dict\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass BARTHubInterface(GeneratorHubInterface):\n    \"\"\"A simple PyTorch Hub interface to BART.\n\n    Usage: https://github.com/pytorch/fairseq/tree/main/examples/bart\n    \"\"\"\n\n    def __init__(self, cfg, task, model):\n        super().__init__(cfg, task, [model])\n        self.model = self.models[0]\n\n    def encode(\n        self, sentence: str, *addl_sentences, no_separator=True\n    ) -> torch.LongTensor:\n        \"\"\"\n        BPE-encode a sentence (or multiple sentences).\n\n        Every sequence begins with a beginning-of-sentence (`<s>`) symbol.\n        Every sentence ends with an end-of-sentence (`</s>`).\n\n        Example (single sentence): `<s> a b c </s>`\n        Example (sentence pair): `<s> d e f </s> 1 2 3 </s>`\n\n        The BPE encoding follows GPT-2. One subtle detail is that the GPT-2 BPE\n        requires leading spaces. For example::\n\n            >>> bart.encode('Hello world').tolist()\n            [0, 31414, 232, 2]\n            >>> bart.encode(' world').tolist()\n            [0, 232, 2]\n            >>> bart.encode('world').tolist()\n            [0, 8331, 2]\n        \"\"\"\n        tokens = self.bpe.encode(sentence)\n        if len(tokens.split(\" \")) > min(self.max_positions) - 2:\n            tokens = \" \".join(tokens.split(\" \")[: min(self.max_positions) - 2])\n        bpe_sentence = \"<s> \" + tokens + \" </s>\"\n        for s in addl_sentences:\n            bpe_sentence += \" </s>\" if not no_separator else \"\"\n            bpe_sentence += \" \" + self.bpe.encode(s) + \" </s>\"\n        tokens = self.task.source_dictionary.encode_line(bpe_sentence, append_eos=False)\n        return tokens.long()\n\n    def decode(self, tokens: torch.LongTensor):\n        assert tokens.dim() == 1\n        tokens = tokens.cpu().numpy()\n        if tokens[0] == self.task.source_dictionary.bos():\n            tokens = tokens[1:]  # remove <s>\n        eos_mask = tokens == self.task.source_dictionary.eos()\n        doc_mask = eos_mask[1:] & eos_mask[:-1]\n        sentences = np.split(tokens, doc_mask.nonzero()[0] + 1)\n        sentences = [\n            self.bpe.decode(self.task.source_dictionary.string(s)) for s in sentences\n        ]\n        if len(sentences) == 1:\n            return sentences[0]\n        return sentences\n\n    def _build_sample(self, src_tokens: List[torch.LongTensor]):\n        # assert torch.is_tensor(src_tokens)\n        dataset = self.task.build_dataset_for_inference(\n            src_tokens,\n            [x.numel() for x in src_tokens],\n        )\n        sample = dataset.collater(dataset)\n        sample = utils.apply_to_sample(lambda tensor: tensor.to(self.device), sample)\n        return sample\n\n    def generate(\n        self,\n        tokenized_sentences: List[torch.LongTensor],\n        *args,\n        inference_step_args=None,\n        skip_invalid_size_inputs=False,\n        **kwargs\n    ) -> List[List[Dict[str, torch.Tensor]]]:\n        inference_step_args = inference_step_args or {}\n        if \"prefix_tokens\" in inference_step_args:\n            raise NotImplementedError(\"prefix generation not implemented for BART\")\n        res = []\n        for batch in self._build_batches(tokenized_sentences, skip_invalid_size_inputs):\n            src_tokens = batch[\"net_input\"][\"src_tokens\"]\n            inference_step_args[\"prefix_tokens\"] = src_tokens.new_full(\n                (src_tokens.size(0), 1), fill_value=self.task.source_dictionary.bos()\n            ).to(device=self.device)\n            results = super().generate(\n                src_tokens,\n                *args,\n                inference_step_args=inference_step_args,\n                skip_invalid_size_inputs=skip_invalid_size_inputs,\n                **kwargs\n            )\n            for id, hypos in zip(batch[\"id\"].tolist(), results):\n                res.append((id, hypos))\n        res = [hypos for _, hypos in sorted(res, key=lambda x: x[0])]\n        return res\n\n    def extract_features(\n        self, tokens: torch.LongTensor, return_all_hiddens: bool = False\n    ) -> torch.Tensor:\n        if tokens.dim() == 1:\n            tokens = tokens.unsqueeze(0)\n        if tokens.size(-1) > min(self.model.max_positions()):\n            raise ValueError(\n                \"tokens exceeds maximum length: {} > {}\".format(\n                    tokens.size(-1), self.model.max_positions()\n                )\n            )\n        tokens.to(device=self.device),\n        prev_output_tokens = tokens.clone()\n\n        prev_output_tokens[:, 0] = tokens.gather(\n            1,\n            (tokens.ne(self.task.source_dictionary.pad()).sum(dim=1) - 1).unsqueeze(-1),\n        ).squeeze()\n\n        prev_output_tokens[:, 1:] = tokens[:, :-1]\n        features, extra = self.model(\n            src_tokens=tokens,\n            src_lengths=None,\n            prev_output_tokens=prev_output_tokens,\n            features_only=True,\n            return_all_hiddens=return_all_hiddens,\n        )\n        if return_all_hiddens:\n            # convert from T x B x C -> B x T x C\n            inner_states = extra[\"inner_states\"]\n            return [inner_state.transpose(0, 1) for inner_state in inner_states]\n        else:\n            return features  # just the last layer's features\n\n    def register_classification_head(\n        self, name: str, num_classes: int = None, embedding_size: int = None, **kwargs\n    ):\n        self.model.register_classification_head(\n            name, num_classes=num_classes, embedding_size=embedding_size, **kwargs\n        )\n\n    def predict(self, head: str, tokens: torch.LongTensor, return_logits: bool = False):\n        if tokens.dim() == 1:\n            tokens = tokens.unsqueeze(0)\n        features = self.extract_features(tokens.to(device=self.device))\n        sentence_representation = features[\n            tokens.eq(self.task.source_dictionary.eos()), :\n        ].view(features.size(0), -1, features.size(-1))[:, -1, :]\n\n        logits = self.model.classification_heads[head](sentence_representation)\n        if return_logits:\n            return logits\n        return F.log_softmax(logits, dim=-1)\n\n    def fill_mask(\n        self,\n        masked_inputs: List[str],\n        topk: int = 5,\n        match_source_len: bool = True,\n        **generate_kwargs\n    ):\n        masked_token = \"<mask>\"\n        batch_tokens = []\n        for masked_input in masked_inputs:\n            assert (\n                masked_token in masked_input\n            ), \"please add one {} token for the input\".format(masked_token)\n\n            text_spans = masked_input.split(masked_token)\n            text_spans_bpe = (\n                (\" {0} \".format(masked_token))\n                .join([self.bpe.encode(text_span.rstrip()) for text_span in text_spans])\n                .strip()\n            )\n            tokens = self.task.source_dictionary.encode_line(\n                \"<s> \" + text_spans_bpe + \" </s>\",\n                append_eos=False,\n                add_if_not_exist=False,\n            ).long()\n            batch_tokens.append(tokens)\n\n        # ensure beam size is at least as big as topk\n        generate_kwargs[\"beam\"] = max(\n            topk,\n            generate_kwargs.get(\"beam\", -1),\n        )\n        generate_kwargs[\"match_source_len\"] = match_source_len\n        batch_hypos = self.generate(batch_tokens, **generate_kwargs)\n\n        return [\n            [(self.decode(hypo[\"tokens\"]), hypo[\"score\"]) for hypo in hypos[:topk]]\n            for hypos in batch_hypos\n        ]\n"
  },
  {
    "path": "fairseq/models/bart/model.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nBART: Denoising Sequence-to-Sequence Pre-training for\nNatural Language Generation, Translation, and Comprehension\n\"\"\"\nimport logging\nfrom typing import Optional\n\nimport torch\nimport torch.nn as nn\n\nfrom fairseq import utils\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.transformer import TransformerModel\nfrom fairseq.modules.transformer_sentence_encoder import init_bert_params\n\nfrom .hub_interface import BARTHubInterface\n\nlogger = logging.getLogger(__name__)\n\n\n@register_model(\"bart\")\nclass BARTModel(TransformerModel):\n    __jit_unused_properties__ = [\"supported_targets\"]\n\n    @classmethod\n    def hub_models(cls):\n        return {\n            \"bart.base\": \"http://dl.fbaipublicfiles.com/fairseq/models/bart.base.tar.gz\",\n            \"bart.large\": \"http://dl.fbaipublicfiles.com/fairseq/models/bart.large.tar.gz\",\n            \"bart.large.mnli\": \"http://dl.fbaipublicfiles.com/fairseq/models/bart.large.mnli.tar.gz\",\n            \"bart.large.cnn\": \"http://dl.fbaipublicfiles.com/fairseq/models/bart.large.cnn.tar.gz\",\n            \"bart.large.xsum\": \"http://dl.fbaipublicfiles.com/fairseq/models/bart.large.xsum.tar.gz\",\n        }\n\n    def __init__(self, args, encoder, decoder):\n        super().__init__(args, encoder, decoder)\n\n        # We follow BERT's random weight initialization\n        self.apply(init_bert_params)\n\n        self.classification_heads = nn.ModuleDict()\n        if hasattr(self.encoder, \"dictionary\"):\n            self.eos: int = self.encoder.dictionary.eos()\n\n    @staticmethod\n    def add_args(parser):\n        super(BARTModel, BARTModel).add_args(parser)\n        parser.add_argument(\n            \"--pooler-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability in the masked_lm pooler layers\",\n        )\n        parser.add_argument(\n            \"--pooler-activation-fn\",\n            choices=utils.get_available_activation_fns(),\n            help=\"activation function to use for pooler layer\",\n        )\n        parser.add_argument(\n            \"--spectral-norm-classification-head\",\n            action=\"store_true\",\n            help=\"Apply spectral normalization on the classification head\",\n        )\n\n    @property\n    def supported_targets(self):\n        return {\"self\"}\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths,\n        prev_output_tokens,\n        features_only: bool = False,\n        classification_head_name: Optional[str] = None,\n        token_embeddings: Optional[torch.Tensor] = None,\n        return_all_hiddens: bool = True,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n    ):\n        if classification_head_name is not None:\n            features_only = True\n\n        encoder_out = self.encoder(\n            src_tokens,\n            src_lengths=src_lengths,\n            token_embeddings=token_embeddings,\n            return_all_hiddens=return_all_hiddens,\n        )\n        x, extra = self.decoder(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            features_only=features_only,\n            alignment_layer=alignment_layer,\n            alignment_heads=alignment_heads,\n            src_lengths=src_lengths,\n            return_all_hiddens=return_all_hiddens,\n        )\n        eos: int = self.eos\n        if classification_head_name is not None:\n            sentence_representation = x[src_tokens.eq(eos), :].view(\n                x.size(0), -1, x.size(-1)\n            )[:, -1, :]\n            for k, head in self.classification_heads.items():\n                # for torch script only supports iteration\n                if k == classification_head_name:\n                    x = head(sentence_representation)\n                    break\n        return x, extra\n\n    @classmethod\n    def from_pretrained(\n        cls,\n        model_name_or_path,\n        checkpoint_file=\"model.pt\",\n        data_name_or_path=\".\",\n        bpe=\"gpt2\",\n        sample_break_mode=\"eos\",\n        **kwargs,\n    ):\n        from fairseq import hub_utils\n\n        x = hub_utils.from_pretrained(\n            model_name_or_path,\n            checkpoint_file,\n            data_name_or_path,\n            archive_map=cls.hub_models(),\n            bpe=bpe,\n            load_checkpoint_heads=True,\n            sample_break_mode=sample_break_mode,\n            **kwargs,\n        )\n        return BARTHubInterface(x[\"args\"], x[\"task\"], x[\"models\"][0])\n\n    def register_classification_head(\n        self, name, num_classes=None, inner_dim=None, **kwargs\n    ):\n        \"\"\"Register a classification head.\"\"\"\n        logger.info(\"Registering classification head: {0}\".format(name))\n        if name in self.classification_heads:\n            prev_num_classes = self.classification_heads[name].out_proj.out_features\n            prev_inner_dim = self.classification_heads[name].dense.out_features\n            if num_classes != prev_num_classes or inner_dim != prev_inner_dim:\n                logger.warning(\n                    're-registering head \"{}\" with num_classes {} (prev: {}) '\n                    \"and inner_dim {} (prev: {})\".format(\n                        name, num_classes, prev_num_classes, inner_dim, prev_inner_dim\n                    )\n                )\n        self.classification_heads[name] = BARTClassificationHead(\n            input_dim=self.args.encoder_embed_dim,\n            inner_dim=inner_dim or self.args.encoder_embed_dim,\n            num_classes=num_classes,\n            activation_fn=self.args.pooler_activation_fn,\n            pooler_dropout=self.args.pooler_dropout,\n            do_spectral_norm=getattr(\n                self.args, \"spectral_norm_classification_head\", False\n            ),\n        )\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        super().upgrade_state_dict_named(state_dict, name)\n\n        prefix = name + \".\" if name != \"\" else \"\"\n        current_head_names = (\n            []\n            if not hasattr(self, \"classification_heads\")\n            else self.classification_heads.keys()\n        )\n\n        # Handle new classification heads present in the state dict.\n        keys_to_delete = []\n        for k in state_dict.keys():\n            if not k.startswith(prefix + \"classification_heads.\"):\n                continue\n\n            head_name = k[len(prefix + \"classification_heads.\") :].split(\".\")[0]\n            num_classes = state_dict[\n                prefix + \"classification_heads.\" + head_name + \".out_proj.weight\"\n            ].size(0)\n            inner_dim = state_dict[\n                prefix + \"classification_heads.\" + head_name + \".dense.weight\"\n            ].size(0)\n\n            if getattr(self.args, \"load_checkpoint_heads\", False):\n                if head_name not in current_head_names:\n                    self.register_classification_head(head_name, num_classes, inner_dim)\n            else:\n                if head_name not in current_head_names:\n                    logger.warning(\n                        \"deleting classification head ({}) from checkpoint \"\n                        \"not present in current model: {}\".format(head_name, k)\n                    )\n                    keys_to_delete.append(k)\n                elif (\n                    num_classes\n                    != self.classification_heads[head_name].out_proj.out_features\n                    or inner_dim\n                    != self.classification_heads[head_name].dense.out_features\n                ):\n                    logger.warning(\n                        \"deleting classification head ({}) from checkpoint \"\n                        \"with different dimensions than current model: {}\".format(\n                            head_name, k\n                        )\n                    )\n                    keys_to_delete.append(k)\n        for k in keys_to_delete:\n            del state_dict[k]\n\n        def truncate_emb(key):\n            if key in state_dict:\n                state_dict[key] = state_dict[key][:-1, :]\n\n        # When finetuning on translation task, remove last row of\n        # embedding matrix that corresponds to mask_idx token.\n        loaded_dict_size = state_dict[\"encoder.embed_tokens.weight\"].size(0)\n        if (\n            loaded_dict_size == len(self.encoder.dictionary) + 1\n            and \"<mask>\" not in self.encoder.dictionary\n        ):\n            truncate_emb(\"encoder.embed_tokens.weight\")\n            truncate_emb(\"decoder.embed_tokens.weight\")\n            truncate_emb(\"encoder.output_projection.weight\")\n            truncate_emb(\"decoder.output_projection.weight\")\n\n        # When continued pretraining on new set of languages for mbart,\n        # add extra lang embeddings at the end of embed_tokens.\n        # Note: newly added languages are assumed to have been added at the end.\n        if self.args.task == \"multilingual_denoising\" and loaded_dict_size < len(\n            self.encoder.dictionary\n        ):\n            logger.info(\n                \"Adding extra language embeddings not found in pretrained model for \"\n                \"continued pretraining of MBART on new set of languages.\"\n            )\n            loaded_mask_token_embedding = state_dict[\"encoder.embed_tokens.weight\"][\n                -1, :\n            ]\n\n            num_langids_to_add = len(self.encoder.dictionary) - loaded_dict_size\n            embed_dim = state_dict[\"encoder.embed_tokens.weight\"].size(1)\n\n            new_lang_embed_to_add = torch.zeros(num_langids_to_add, embed_dim)\n            nn.init.normal_(new_lang_embed_to_add, mean=0, std=embed_dim**-0.5)\n            new_lang_embed_to_add = new_lang_embed_to_add.to(\n                dtype=state_dict[\"encoder.embed_tokens.weight\"].dtype,\n            )\n\n            state_dict[\"encoder.embed_tokens.weight\"] = torch.cat(\n                [\n                    state_dict[\"encoder.embed_tokens.weight\"][\n                        : loaded_dict_size - 1, :\n                    ],\n                    new_lang_embed_to_add,\n                    loaded_mask_token_embedding.unsqueeze(0),\n                ]\n            )\n            state_dict[\"decoder.embed_tokens.weight\"] = torch.cat(\n                [\n                    state_dict[\"decoder.embed_tokens.weight\"][\n                        : loaded_dict_size - 1, :\n                    ],\n                    new_lang_embed_to_add,\n                    loaded_mask_token_embedding.unsqueeze(0),\n                ]\n            )\n\n        # Copy any newly-added classification heads into the state dict\n        # with their current weights.\n        if hasattr(self, \"classification_heads\"):\n            cur_state = self.classification_heads.state_dict()\n            for k, v in cur_state.items():\n                if prefix + \"classification_heads.\" + k not in state_dict:\n                    logger.info(\"Overwriting \" + prefix + \"classification_heads.\" + k)\n                    state_dict[prefix + \"classification_heads.\" + k] = v\n\n    def set_beam_size(self, beam):\n        \"\"\"Set beam size for efficient beamable enc-dec attention.\"\"\"\n        beamable = False\n        for layer in self.decoder.layers:\n            if layer.encoder_attn is not None:\n                if hasattr(layer.encoder_attn, \"set_beam_size\"):\n                    layer.encoder_attn.set_beam_size(beam)\n                    beamable = True\n        if beamable:\n            self.encoder.reorder_encoder_out = self.encoder._reorder_encoder_out\n\n\nclass BARTClassificationHead(nn.Module):\n    \"\"\"Head for sentence-level classification tasks.\"\"\"\n\n    def __init__(\n        self,\n        input_dim,\n        inner_dim,\n        num_classes,\n        activation_fn,\n        pooler_dropout,\n        do_spectral_norm=False,\n    ):\n        super().__init__()\n        self.dense = nn.Linear(input_dim, inner_dim)\n        self.activation_fn = utils.get_activation_fn(activation_fn)\n        self.dropout = nn.Dropout(p=pooler_dropout)\n        self.out_proj = nn.Linear(inner_dim, num_classes)\n\n        if do_spectral_norm:\n            self.out_proj = torch.nn.utils.spectral_norm(self.out_proj)\n\n    def forward(self, features, **kwargs):\n        x = features\n        x = self.dropout(x)\n        x = self.dense(x)\n        x = self.activation_fn(x)\n        x = self.dropout(x)\n        x = self.out_proj(x)\n        return x\n\n\n@register_model_architecture(\"bart\", \"bart_large\")\ndef bart_large_architecture(args):\n    args.encoder_embed_path = getattr(args, \"encoder_embed_path\", None)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 4 * 1024)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 12)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 16)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", True)\n    args.decoder_embed_path = getattr(args, \"decoder_embed_path\", None)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", args.encoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", args.encoder_ffn_embed_dim\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 12)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 16)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", False)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", True)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.0)\n    args.relu_dropout = getattr(args, \"relu_dropout\", 0.0)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.max_target_positions = getattr(args, \"max_target_positions\", 1024)\n    args.max_source_positions = getattr(args, \"max_source_positions\", 1024)\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", True\n    )\n    args.share_all_embeddings = getattr(args, \"share_all_embeddings\", True)\n\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", True)\n    args.layernorm_embedding = getattr(args, \"layernorm_embedding\", True)\n\n    args.activation_fn = getattr(args, \"activation_fn\", \"gelu\")\n    args.pooler_activation_fn = getattr(args, \"pooler_activation_fn\", \"tanh\")\n    args.pooler_dropout = getattr(args, \"pooler_dropout\", 0.0)\n\n\n@register_model_architecture(\"bart\", \"bart_base\")\ndef bart_base_architecture(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 768)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 4 * 768)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 6)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 12)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 12)\n    bart_large_architecture(args)\n\n\n@register_model_architecture(\"bart\", \"mbart_large\")\ndef mbart_large_architecture(args):\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", False)\n    bart_large_architecture(args)\n\n\n@register_model_architecture(\"bart\", \"mbart_base\")\ndef mbart_base_architecture(args):\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", False)\n    bart_base_architecture(args)\n\n\n@register_model_architecture(\"bart\", \"mbart_base_wmt20\")\ndef mbart_base_wmt20_architecture(args):\n    args.layernorm_embedding = getattr(args, \"layernorm_embedding\", False)\n    mbart_base_architecture(args)\n"
  },
  {
    "path": "fairseq/models/composite_encoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .fairseq_encoder import FairseqEncoder\n\n\nclass CompositeEncoder(FairseqEncoder):\n    \"\"\"\n    A wrapper around a dictionary of :class:`FairseqEncoder` objects.\n\n    We run forward on each encoder and return a dictionary of outputs. The first\n    encoder's dictionary is used for initialization.\n\n    Args:\n        encoders (dict): a dictionary of :class:`FairseqEncoder` objects.\n    \"\"\"\n\n    def __init__(self, encoders):\n        super().__init__(next(iter(encoders.values())).dictionary)\n        self.encoders = encoders\n        for key in self.encoders:\n            self.add_module(key, self.encoders[key])\n\n    def forward(self, src_tokens, src_lengths):\n        \"\"\"\n        Args:\n            src_tokens (LongTensor): tokens in the source language of shape\n                `(batch, src_len)`\n            src_lengths (LongTensor): lengths of each source sentence of shape\n                `(batch)`\n\n        Returns:\n            dict:\n                the outputs from each Encoder\n        \"\"\"\n        encoder_out = {}\n        for key in self.encoders:\n            encoder_out[key] = self.encoders[key](src_tokens, src_lengths)\n        return encoder_out\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        \"\"\"Reorder encoder output according to new_order.\"\"\"\n        for key in self.encoders:\n            encoder_out[key] = self.encoders[key].reorder_encoder_out(\n                encoder_out[key], new_order\n            )\n        return encoder_out\n\n    def max_positions(self):\n        return min(self.encoders[key].max_positions() for key in self.encoders)\n\n    def upgrade_state_dict(self, state_dict):\n        for key in self.encoders:\n            self.encoders[key].upgrade_state_dict(state_dict)\n        return state_dict\n"
  },
  {
    "path": "fairseq/models/distributed_fairseq_model.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport signal\nimport threading\n\nimport torch\nimport torch.nn as nn\nfrom torch.nn.parallel import DistributedDataParallel\n\nfrom fairseq.distributed import (\n    DistributedTimeoutWrapper,\n    LegacyDistributedDataParallel,\n    ModuleProxyWrapper,\n    TPUDistributedDataParallel,\n)\n\nlogger = logging.getLogger(__name__)\n\n\n_SLOWMO_DDP_DISABLED = False\ntry:\n    from fairscale.experimental.nn.data_parallel import (\n        SlowMoBaseAlgorithm,\n        SlowMoDistributedDataParallel,\n    )\nexcept ImportError:\n    _SLOWMO_DDP_DISABLED = True\n\n\ndef DistributedFairseqModel(args, model, process_group, device):\n    \"\"\"\n    Wrap a *model* to support distributed data parallel training.\n\n    This is similar to the built-in DistributedDataParallel, but allows\n    additional configuration of the DistributedDataParallel class to\n    use, and also provides easier access to the wrapped model by\n    forwarding requests for missing attributes to the wrapped model.\n\n    Args:\n        args (argparse.Namespace): fairseq args\n        model (BaseFairseqModel): model to wrap\n        process_group: the c10d process group to be used for distributed data\n            parallel all-reduction.\n        device: device to move model to\n    \"\"\"\n    assert isinstance(model, nn.Module)\n    if args.tpu:\n        wrapped_model = TPUDistributedDataParallel(\n            module=model.to(device),\n            process_group=process_group,\n        )\n        # forward missing getattr and state_dict/load_state_dict to orig model\n        wrapped_model = ModuleProxyWrapper(wrapped_model)\n    elif args.ddp_backend in {\"c10d\", \"pytorch_ddp\"}:\n        wrapped_model = DistributedDataParallel(\n            module=model.to(device),\n            device_ids=[args.device_id],\n            output_device=args.device_id,\n            broadcast_buffers=args.broadcast_buffers,\n            bucket_cap_mb=args.bucket_cap_mb,\n            process_group=process_group,\n            find_unused_parameters=args.find_unused_parameters,\n            gradient_as_bucket_view=args.gradient_as_bucket_view,\n        )\n        if args.ddp_comm_hook == \"fp16\":\n            logger.info(\"enable fp16 communication hook in DDP\")\n            try:\n                from torch.distributed.algorithms.ddp_comm_hooks import (\n                    DDPCommHookType,\n                    register_ddp_comm_hook,\n                )\n            except:\n                logger.error(\n                    \"Could not import from torch.distributed.algorithms.ddp_comm_hooks; you may need to update your pytorch version\"\n                )\n                raise\n\n            register_ddp_comm_hook(DDPCommHookType.FP16_COMPRESS, wrapped_model)\n        # forward missing getattr and state_dict/load_state_dict to orig model\n        wrapped_model = ModuleProxyWrapper(wrapped_model)\n    elif args.ddp_backend in {\"no_c10d\", \"legacy_ddp\"}:\n        wrapped_model = LegacyDistributedDataParallel(\n            module=model.to(device),\n            buffer_size=2**28,\n            process_group=process_group,\n        )\n        # forward missing getattr and state_dict/load_state_dict to orig model\n        wrapped_model = ModuleProxyWrapper(wrapped_model)\n    elif args.ddp_backend == \"slowmo\":\n        if _SLOWMO_DDP_DISABLED:\n            raise ImportError(\n                \"Cannot find SlowMoDistributedDataParallel. \"\n                \"Please install fairscale with: pip install fairscale\"\n            )\n\n        # The values of slowmo_momentum below were obtained by tuning on the\n        # En-De 16 dataset by training the transformer_wmt_en_de_large model\n        if args.slowmo_momentum is None:\n            if args.distributed_world_size <= 16:\n                args.slowmo_momentum = 0.0\n            elif args.distributed_world_size <= 32:\n                args.slowmo_momentum = 0.2\n            elif args.distributed_world_size <= 64:\n                args.slowmo_momentum = 0.5\n            else:\n                args.slowmo_momentum = 0.6\n        slowmo_base_algorithm = SlowMoBaseAlgorithm[args.slowmo_base_algorithm.upper()]\n\n        wrapped_model = SlowMoDistributedDataParallel(\n            module=model.to(device),\n            broadcast_buffers=args.broadcast_buffers,\n            nprocs_per_node=args.nprocs_per_node,\n            slowmo_momentum=args.slowmo_momentum,\n            slowmo_base_algorithm=slowmo_base_algorithm,\n            localsgd_frequency=args.localsgd_frequency,\n        )\n        # forward missing getattr and state_dict/load_state_dict to orig model\n        wrapped_model = ModuleProxyWrapper(wrapped_model)\n    elif args.ddp_backend == \"fully_sharded\":\n        try:\n            from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP\n        except ImportError:\n            raise ImportError(\n                \"Cannot find FullyShardedDataParallel. \"\n                \"Please install fairscale with: pip install fairscale\"\n            )\n        assert isinstance(model, FSDP), \"expected model to already be wrapped in FSDP\"\n        wrapped_model = model\n        if args.memory_efficient_fp16:\n            wrapped_model = wrapped_model.half()\n        if not args.cpu_offload:\n            wrapped_model = wrapped_model.to(device=device)\n    else:\n        raise ValueError(\"Unknown --ddp-backend: \" + args.ddp_backend)\n\n    # kill hung distributed jobs after a timeout\n    if getattr(args, \"heartbeat_timeout\", -1) > 0:\n        wrapped_model = DistributedTimeoutWrapper(\n            wrapped_model, timeout=getattr(args, \"heartbeat_timeout\", -1)\n        )\n\n    return wrapped_model\n"
  },
  {
    "path": "fairseq/models/ema/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport importlib\nimport os\n\nfrom .ema import EMA\n\n\ndef build_ema(model, cfg, device):\n    return EMA(model, cfg, device)\n\n\n# automatically import any Python files in the models/ema/ directory\nfor file in sorted(os.listdir(os.path.dirname(__file__))):\n    if file.endswith(\".py\") and not file.startswith(\"_\"):\n        file_name = file[: file.find(\".py\")]\n        importlib.import_module(\"fairseq.models.ema.\" + file_name)\n"
  },
  {
    "path": "fairseq/models/ema/ema.py",
    "content": "#!/usr/bin/env python3\n\n\"\"\"\nThis module has the EMA class used to store a copy of the exponentially decayed\nmodel params.\n\nTypical usage of EMA class involves initializing an object using an existing\nmodel (random or from a seed model) and setting the config like ema_decay,\nema_start_update which determine how the EMA model is updated. After every\nupdate of the model i.e. at the end of the train_step, the EMA should be updated\nby passing the new model to the EMA.step function. The EMA model state dict\ncan be stored in the extra state under the key of \"ema\" and dumped\ninto a checkpoint and loaded. The EMA object can be passed to tasks\nby setting task.uses_ema property.\nEMA is a smoothed/ensemble model which might have better performance\nwhen used for inference or further fine-tuning. EMA class has a\nreverse function to load the EMA params into a model and use it\nlike a regular model.\n\nThis implementation is used for trainer-level ema tracking. For EMA tracking\ninside the model, please use fairseq/modules/ema_module.py instead.\n\"\"\"\n\nimport copy\nimport logging\n\nimport torch\n\nfrom fairseq import checkpoint_utils\n\n\nclass EMA(object):\n    \"\"\"Exponential Moving Average of Fairseq Models\n    EMA keeps a copy of the exponentially decayed model params.\n    The set of params should include both gradient-descent and\n    non-gradient descent params, such as batch mean/var and buffers.\n    This is a modified implementation of\n    the open source code in https://github.com/zhawe01/fairseq-gec.git,\n    and internal source code in\n    fbcode/mobile-vision/projects/classification_pytorch/lib/utils/model_ema.py.\n\n    Similar to TF EMA.\n    https://www.tensorflow.org/api_docs/python/tf/train/ExponentialMovingAverage.\n    EMA provides a averaged and smoothed set of model weights, and has been shown to\n    improve vision models. EMA class does all necessary functions to update, reload,\n    or init EMA methods.\n\n    EMA object is initialized from an arbitrary model. By default, it is stored in\n    the same device (unless device specified at initialization) and with the\n    same precision as the model (unless ema_fp32 is True). ema_fp32 is recommended.\n    This stores the EMA parameters in fp32 only for the EMA update step, and\n    is used at the default precision otherwise.\n    EMA is usually enabled using EMAConfig with store_ema=True. Some important\n    parameters to configure EMA are\n    1) ema_decay - The decay of EMA\n    2) ema_update_freq - EMA is updated every this many model updates.\n    3) ema_start_update - Start EMA update after this many model updates [default 0]\n\n    Key methods:\n    1) step - One update of EMA using new model\n    2) restore - Update EMA from a state dict\n    3) reverse - Load EMA into a model\n    4) get_decay, _set_decay - Used to get or set the decay.  Note _set_decay is\n    called from step.\n    5) build_fp32_params - Used to initialize or update the fp32 copy of EMA params.\n    Note this is enabled only when ema_fp32=True\n    \"\"\"\n\n    def __init__(self, model, config, device=None, skip_keys=None):\n        \"\"\"\n        @param model model to initialize the EMA with\n        @param config EMAConfig object with configuration like\n        ema_decay, ema_update_freq, ema_fp32\n        @param device If provided, copy EMA to this device (e.g. gpu).\n        Otherwise EMA is in the same device as the model.\n        \"\"\"\n\n        self.decay = config.ema_decay\n        self.model = copy.deepcopy(model)\n        self.model.requires_grad_(False)\n        self.config = config\n        self.skip_keys = skip_keys or set()\n        self.fp32_params = {}\n\n        if self.config.ema_seed_model is not None:\n            state = checkpoint_utils.load_ema_from_checkpoint(\n                self.config.ema_seed_model\n            )\n            self.model.load_state_dict(state[\"model\"], strict=True)\n\n        if device is not None:\n            logging.info(f\"Copying EMA model to device {device}\")\n            self.model = self.model.to(device=device)\n\n        if self.config.ema_fp32:\n            self.build_fp32_params()\n\n        self.update_freq_counter = 0\n\n    def get_model(self):\n        return self.model\n\n    def build_fp32_params(self, state_dict=None):\n        \"\"\"\n        Store a copy of the EMA params in fp32.\n        If state dict is passed, the EMA params is copied from\n        the provided state dict. Otherwise, it is copied from the\n        current EMA model parameters.\n        \"\"\"\n        if not self.config.ema_fp32:\n            raise RuntimeError(\n                \"build_fp32_params should not be called if ema_fp32=False. \"\n                \"Use ema_fp32=True if this is really intended.\"\n            )\n\n        if state_dict is None:\n            state_dict = self.model.state_dict()\n\n        def _to_float(t):\n            return t.float() if torch.is_floating_point(t) else t\n\n        for param_key in state_dict:\n            if param_key in self.fp32_params:\n                self.fp32_params[param_key].copy_(state_dict[param_key])\n            else:\n                self.fp32_params[param_key] = _to_float(state_dict[param_key])\n\n    def restore(self, state_dict, build_fp32_params=False):\n        \"\"\"Load data from a model spec into EMA model\"\"\"\n        self.model.load_state_dict(state_dict, strict=False)\n        if build_fp32_params:\n            self.build_fp32_params(state_dict)\n\n    def _set_decay(self, decay):\n        self.decay = decay\n\n    def get_decay(self):\n        return self.decay\n\n    def _step_internal(self, new_model, updates=None):\n        \"\"\"One update of the EMA model based on new model weights\"\"\"\n        decay = self.decay\n\n        ema_state_dict = {}\n        ema_params = (\n            self.fp32_params if self.config.ema_fp32 else self.model.state_dict()\n        )\n        for key, param in new_model.state_dict().items():\n            if isinstance(param, dict):\n                continue\n            try:\n                ema_param = ema_params[key]\n            except KeyError:\n                ema_param = (\n                    param.float().clone() if param.ndim == 1 else copy.deepcopy(param)\n                )\n\n            if param.shape != ema_param.shape:\n                raise ValueError(\n                    \"incompatible tensor shapes between model param and ema param\"\n                    + \"{} vs. {}\".format(param.shape, ema_param.shape)\n                )\n\n            if \"version\" in key:\n                # Do not decay a model.version pytorch param\n                continue\n\n            if key in self.skip_keys:\n                ema_param = param.to(dtype=ema_param.dtype).clone()\n            else:\n                ema_param.mul_(decay)\n                ema_param.add_(param.to(dtype=ema_param.dtype), alpha=1 - decay)\n            ema_state_dict[key] = ema_param\n        self.restore(ema_state_dict, build_fp32_params=False)\n\n    def step(self, new_model, updates=None):\n        \"\"\"\n        One update of EMA which is done every self.config.ema_update_freq\n        updates of the model.\n\n        @param updates The current number of model updates done.\n        Decay is set of 0 if model updates < ema_start_update, which means\n        the model will be simply copied over to the EMA.\n        When model updates >= ema_start_updates, then EMA is updated with\n        a decay of self.config.ema_decay.\n        \"\"\"\n        if updates is not None:\n            self._set_decay(\n                0 if updates < self.config.ema_start_update else self.config.ema_decay\n            )\n        if self.config.ema_update_freq > 1:\n            self.update_freq_counter += 1\n            if self.update_freq_counter >= self.config.ema_update_freq:\n                self._step_internal(new_model, updates)\n                self.update_freq_counter = 0\n        else:\n            self._step_internal(new_model, updates)\n\n    def reverse(self, model):\n        \"\"\"\n        Load the model parameters from EMA model.\n        Useful for inference or fine-tuning from the EMA model.\n        \"\"\"\n        d = self.model.state_dict()\n        if \"_ema\" in d:\n            del d[\"_ema\"]\n\n        model.load_state_dict(d, strict=False)\n        return model\n"
  },
  {
    "path": "fairseq/models/fairseq_decoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Dict, List, Optional, Tuple\n\nimport torch.nn as nn\nfrom fairseq import utils\nfrom torch import Tensor\n\n\nclass FairseqDecoder(nn.Module):\n    \"\"\"Base class for decoders.\"\"\"\n\n    def __init__(self, dictionary):\n        super().__init__()\n        self.dictionary = dictionary\n        self.onnx_trace = False\n        self.adaptive_softmax = None\n\n    def forward(self, prev_output_tokens, encoder_out=None, **kwargs):\n        \"\"\"\n        Args:\n            prev_output_tokens (LongTensor): shifted output tokens of shape\n                `(batch, tgt_len)`, for teacher forcing\n            encoder_out (dict, optional): output from the encoder, used for\n                encoder-side attention\n\n        Returns:\n            tuple:\n                - the decoder's output of shape `(batch, tgt_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        x, extra = self.extract_features(\n            prev_output_tokens, encoder_out=encoder_out, **kwargs\n        )\n        x = self.output_layer(x)\n        return x, extra\n\n    def extract_features(self, prev_output_tokens, encoder_out=None, **kwargs):\n        \"\"\"\n        Returns:\n            tuple:\n                - the decoder's features of shape `(batch, tgt_len, embed_dim)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        raise NotImplementedError\n\n    def output_layer(self, features, **kwargs):\n        \"\"\"\n        Project features to the default output size, e.g., vocabulary size.\n\n        Args:\n            features (Tensor): features returned by *extract_features*.\n        \"\"\"\n        raise NotImplementedError\n\n    def get_normalized_probs(\n        self,\n        net_output: Tuple[Tensor, Optional[Dict[str, List[Optional[Tensor]]]]],\n        log_probs: bool,\n        sample: Optional[Dict[str, Tensor]] = None,\n    ):\n        \"\"\"Get normalized probabilities (or log probs) from a net's output.\"\"\"\n        return self.get_normalized_probs_scriptable(net_output, log_probs, sample)\n\n    # TorchScript doesn't support super() method so that the scriptable Subclass\n    # can't access the base class model in Torchscript.\n    # Current workaround is to add a helper function with different name and\n    # call the helper function from scriptable Subclass.\n    def get_normalized_probs_scriptable(\n        self,\n        net_output: Tuple[Tensor, Optional[Dict[str, List[Optional[Tensor]]]]],\n        log_probs: bool,\n        sample: Optional[Dict[str, Tensor]] = None,\n    ):\n        \"\"\"Get normalized probabilities (or log probs) from a net's output.\"\"\"\n\n        if hasattr(self, \"adaptive_softmax\") and self.adaptive_softmax is not None:\n            if sample is not None:\n                assert \"target\" in sample\n                target = sample[\"target\"]\n            else:\n                target = None\n            out = self.adaptive_softmax.get_log_prob(net_output[0], target=target)\n            return out.exp_() if not log_probs else out\n\n        logits = net_output[0]\n        if log_probs:\n            return utils.log_softmax(logits, dim=-1, onnx_trace=self.onnx_trace)\n        else:\n            return utils.softmax(logits, dim=-1, onnx_trace=self.onnx_trace)\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the decoder.\"\"\"\n        return 1e6  # an arbitrary large number\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        \"\"\"Upgrade old state dicts to work with newer code.\"\"\"\n        return state_dict\n\n    def prepare_for_onnx_export_(self):\n        self.onnx_trace = True\n"
  },
  {
    "path": "fairseq/models/fairseq_encoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Dict, List, NamedTuple, Optional\n\nimport torch\nimport torch.nn as nn\nfrom torch import Tensor\n\n\nEncoderOut = NamedTuple(\n    \"EncoderOut\",\n    [\n        (\"encoder_out\", Tensor),  # T x B x C\n        (\"encoder_padding_mask\", Optional[Tensor]),  # B x T\n        (\"encoder_embedding\", Optional[Tensor]),  # B x T x C\n        (\"encoder_states\", Optional[List[Tensor]]),  # List[T x B x C]\n        (\"src_tokens\", Optional[Tensor]),  # B x T\n        (\"src_lengths\", Optional[Tensor]),  # B x 1\n    ],\n)\n\n\nclass FairseqEncoder(nn.Module):\n    \"\"\"Base class for encoders.\"\"\"\n\n    def __init__(self, dictionary):\n        super().__init__()\n        self.dictionary = dictionary\n\n    def forward(self, src_tokens, src_lengths=None, **kwargs):\n        \"\"\"\n        Args:\n            src_tokens (LongTensor): tokens in the source language of shape\n                `(batch, src_len)`\n            src_lengths (LongTensor): lengths of each source sentence of shape\n                `(batch)`\n        \"\"\"\n        raise NotImplementedError\n\n    def forward_torchscript(self, net_input: Dict[str, Tensor]):\n        \"\"\"A TorchScript-compatible version of forward.\n\n        Encoders which use additional arguments may want to override\n        this method for TorchScript compatibility.\n        \"\"\"\n        if torch.jit.is_scripting():\n            return self.forward(\n                src_tokens=net_input[\"src_tokens\"],\n                src_lengths=net_input[\"src_lengths\"],\n            )\n        else:\n            return self.forward_non_torchscript(net_input)\n\n    @torch.jit.unused\n    def forward_non_torchscript(self, net_input: Dict[str, Tensor]):\n        encoder_input = {\n            k: v for k, v in net_input.items() if k != \"prev_output_tokens\"\n        }\n        return self.forward(**encoder_input)\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        \"\"\"\n        Reorder encoder output according to `new_order`.\n\n        Args:\n            encoder_out: output from the ``forward()`` method\n            new_order (LongTensor): desired order\n\n        Returns:\n            `encoder_out` rearranged according to `new_order`\n        \"\"\"\n        raise NotImplementedError\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return 1e6  # an arbitrary large number\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        \"\"\"Upgrade old state dicts to work with newer code.\"\"\"\n        return state_dict\n\n    def set_num_updates(self, num_updates):\n        \"\"\"State from trainer to pass along to model at every update.\"\"\"\n\n        def _apply(m):\n            if hasattr(m, \"set_num_updates\") and m != self:\n                m.set_num_updates(num_updates)\n\n        self.apply(_apply)\n"
  },
  {
    "path": "fairseq/models/fairseq_incremental_decoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom typing import Dict, Optional\n\nfrom fairseq.incremental_decoding_utils import with_incremental_state\nfrom fairseq.models import FairseqDecoder\nfrom torch import Tensor\n\n\nlogger = logging.getLogger(__name__)\n\n\n@with_incremental_state\nclass FairseqIncrementalDecoder(FairseqDecoder):\n    \"\"\"Base class for incremental decoders.\n\n    Incremental decoding is a special mode at inference time where the Model\n    only receives a single timestep of input corresponding to the previous\n    output token (for teacher forcing) and must produce the next output\n    *incrementally*. Thus the model must cache any long-term state that is\n    needed about the sequence, e.g., hidden states, convolutional states, etc.\n\n    Compared to the standard :class:`FairseqDecoder` interface, the incremental\n    decoder interface allows :func:`forward` functions to take an extra keyword\n    argument (*incremental_state*) that can be used to cache state across\n    time-steps.\n\n    The :class:`FairseqIncrementalDecoder` interface also defines the\n    :func:`reorder_incremental_state` method, which is used during beam search\n    to select and reorder the incremental state based on the selection of beams.\n\n    To learn more about how incremental decoding works, refer to `this blog\n    <http://www.telesens.co/2019/04/21/understanding-incremental-decoding-in-fairseq/>`_.\n    \"\"\"\n\n    def __init__(self, dictionary):\n        super().__init__(dictionary)\n\n    def forward(\n        self, prev_output_tokens, encoder_out=None, incremental_state=None, **kwargs\n    ):\n        \"\"\"\n        Args:\n            prev_output_tokens (LongTensor): shifted output tokens of shape\n                `(batch, tgt_len)`, for teacher forcing\n            encoder_out (dict, optional): output from the encoder, used for\n                encoder-side attention\n            incremental_state (dict, optional): dictionary used for storing\n                state during :ref:`Incremental decoding`\n\n        Returns:\n            tuple:\n                - the decoder's output of shape `(batch, tgt_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        raise NotImplementedError\n\n    def extract_features(\n        self, prev_output_tokens, encoder_out=None, incremental_state=None, **kwargs\n    ):\n        \"\"\"\n        Returns:\n            tuple:\n                - the decoder's features of shape `(batch, tgt_len, embed_dim)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        raise NotImplementedError\n\n    def reorder_incremental_state(\n        self,\n        incremental_state: Dict[str, Dict[str, Optional[Tensor]]],\n        new_order: Tensor,\n    ):\n        \"\"\"Reorder incremental state.\n\n        This will be called when the order of the input has changed from the\n        previous time step. A typical use case is beam search, where the input\n        order changes between time steps based on the selection of beams.\n        \"\"\"\n        pass\n\n    def reorder_incremental_state_scripting(\n        self,\n        incremental_state: Dict[str, Dict[str, Optional[Tensor]]],\n        new_order: Tensor,\n    ):\n        \"\"\"Main entry point for reordering the incremental state.\n\n        Due to limitations in TorchScript, we call this function in\n        :class:`fairseq.sequence_generator.SequenceGenerator` instead of\n        calling :func:`reorder_incremental_state` directly.\n        \"\"\"\n        for module in self.modules():\n            if hasattr(module, \"reorder_incremental_state\"):\n                result = module.reorder_incremental_state(incremental_state, new_order)\n                if result is not None:\n                    incremental_state = result\n\n    def set_beam_size(self, beam_size):\n        \"\"\"Sets the beam size in the decoder and all children.\"\"\"\n        if getattr(self, \"_beam_size\", -1) != beam_size:\n            seen = set()\n\n            def apply_set_beam_size(module):\n                if (\n                    module != self\n                    and hasattr(module, \"set_beam_size\")\n                    and module not in seen\n                ):\n                    seen.add(module)\n                    module.set_beam_size(beam_size)\n\n            self.apply(apply_set_beam_size)\n            self._beam_size = beam_size\n"
  },
  {
    "path": "fairseq/models/fairseq_model.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nBase classes for various fairseq models.\n\"\"\"\n\nimport logging\nfrom argparse import Namespace\nfrom typing import Dict, List, Optional, Tuple\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.data import Dictionary\nfrom fairseq.dataclass.utils import (\n    convert_namespace_to_omegaconf,\n    gen_parser_from_dataclass,\n)\nfrom fairseq.models import FairseqDecoder, FairseqEncoder\nfrom omegaconf import DictConfig\nfrom torch import Tensor\n\n\nlogger = logging.getLogger(__name__)\n\n\ndef check_type(module, expected_type):\n    if hasattr(module, \"unwrapped_module\"):\n        assert isinstance(\n            module.unwrapped_module, expected_type\n        ), f\"{type(module.unwrapped_module)} != {expected_type}\"\n    else:\n        assert isinstance(module, expected_type), f\"{type(module)} != {expected_type}\"\n\n\nclass BaseFairseqModel(nn.Module):\n    \"\"\"Base class for fairseq models.\"\"\"\n\n    def __init__(self):\n        super().__init__()\n        self._is_generation_fast = False\n\n    @classmethod\n    def add_args(cls, parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        dc = getattr(cls, \"__dataclass\", None)\n        if dc is not None:\n            # do not set defaults so that settings defaults from various architectures still works\n            gen_parser_from_dataclass(parser, dc(), delete_default=True)\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        raise NotImplementedError(\"Model must implement the build_model method\")\n\n    def get_targets(self, sample, net_output):\n        \"\"\"Get targets from either the sample or the net's output.\"\"\"\n        return sample[\"target\"]\n\n    def get_normalized_probs(\n        self,\n        net_output: Tuple[Tensor, Optional[Dict[str, List[Optional[Tensor]]]]],\n        log_probs: bool,\n        sample: Optional[Dict[str, Tensor]] = None,\n    ):\n        \"\"\"Get normalized probabilities (or log probs) from a net's output.\"\"\"\n        return self.get_normalized_probs_scriptable(net_output, log_probs, sample)\n\n    # TorchScript doesn't support super() method so that the scriptable Subclass\n    # can't access the base class model in Torchscript.\n    # Current workaround is to add a helper function with different name and\n    # call the helper function from scriptable Subclass.\n    def get_normalized_probs_scriptable(\n        self,\n        net_output: Tuple[Tensor, Optional[Dict[str, List[Optional[Tensor]]]]],\n        log_probs: bool,\n        sample: Optional[Dict[str, Tensor]] = None,\n    ):\n        \"\"\"Scriptable helper function for get_normalized_probs in ~BaseFairseqModel\"\"\"\n        if hasattr(self, \"decoder\"):\n            return self.decoder.get_normalized_probs(net_output, log_probs, sample)\n        elif torch.is_tensor(net_output):\n            # syntactic sugar for simple models which don't have a decoder\n            # (e.g., the classification tutorial)\n            logits = net_output.float()\n            if log_probs:\n                return F.log_softmax(logits, dim=-1)\n            else:\n                return F.softmax(logits, dim=-1)\n        raise NotImplementedError\n\n    def extract_features(self, *args, **kwargs):\n        \"\"\"Similar to *forward* but only return features.\"\"\"\n        return self(*args, **kwargs)\n\n    def max_positions(self):\n        \"\"\"Maximum length supported by the model.\"\"\"\n        return None\n\n    def load_state_dict(\n        self,\n        state_dict,\n        strict=True,\n        model_cfg: Optional[DictConfig] = None,\n        args: Optional[Namespace] = None,\n    ):\n        \"\"\"Copies parameters and buffers from *state_dict* into this module and\n        its descendants.\n\n        Overrides the method in :class:`nn.Module`. Compared with that method\n        this additionally \"upgrades\" *state_dicts* from old checkpoints.\n        \"\"\"\n\n        if model_cfg is None and args is not None:\n            logger.warn(\n                \"using 'args' is deprecated, please update your code to use dataclass config\"\n            )\n            model_cfg = convert_namespace_to_omegaconf(args).model\n\n        self.upgrade_state_dict(state_dict)\n\n        from fairseq.checkpoint_utils import prune_state_dict\n\n        new_state_dict = prune_state_dict(state_dict, model_cfg)\n        return super().load_state_dict(new_state_dict, strict)\n\n    def upgrade_state_dict(self, state_dict):\n        \"\"\"Upgrade old state dicts to work with newer code.\"\"\"\n        self.upgrade_state_dict_named(state_dict, \"\")\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        \"\"\"Upgrade old state dicts to work with newer code.\n\n        Args:\n            state_dict (dict): state dictionary to upgrade, in place\n            name (str): the state dict key corresponding to the current module\n        \"\"\"\n        assert state_dict is not None\n\n        def do_upgrade(m, prefix):\n            if len(prefix) > 0:\n                prefix += \".\"\n\n            for n, c in m.named_children():\n                name = prefix + n\n                if hasattr(c, \"upgrade_state_dict_named\"):\n                    c.upgrade_state_dict_named(state_dict, name)\n                elif hasattr(c, \"upgrade_state_dict\"):\n                    c.upgrade_state_dict(state_dict)\n                do_upgrade(c, name)\n\n        do_upgrade(self, name)\n\n    def set_num_updates(self, num_updates):\n        \"\"\"State from trainer to pass along to model at every update.\"\"\"\n        for m in self.modules():\n            if hasattr(m, \"set_num_updates\") and m != self:\n                m.set_num_updates(num_updates)\n\n    def set_epoch(self, epoch):\n        for m in self.modules():\n            if hasattr(m, \"set_epoch\") and m != self:\n                m.set_epoch(epoch)\n\n    def prepare_for_inference_(self, cfg: DictConfig):\n        \"\"\"Prepare model for inference.\"\"\"\n        kwargs = {}\n        kwargs[\"beamable_mm_beam_size\"] = (\n            None\n            if getattr(cfg.generation, \"no_beamable_mm\", False)\n            else getattr(cfg.generation, \"beam\", 5)\n        )\n        kwargs[\"need_attn\"] = getattr(cfg.generation, \"print_alignment\", False)\n        if getattr(cfg.generation, \"retain_dropout\", False):\n            kwargs[\"retain_dropout\"] = cfg.generation.retain_dropout\n            kwargs[\"retain_dropout_modules\"] = cfg.generation.retain_dropout_modules\n        self.make_generation_fast_(**kwargs)\n\n    def make_generation_fast_(self, **kwargs):\n        \"\"\"\n        Legacy entry point to optimize model for faster generation.\n        Prefer prepare_for_inference_.\n        \"\"\"\n        if self._is_generation_fast:\n            return  # only apply once\n        self._is_generation_fast = True\n\n        # remove weight norm from all modules in the network\n        def apply_remove_weight_norm(module):\n            try:\n                nn.utils.remove_weight_norm(module)\n            except (AttributeError, ValueError):  # this module didn't have weight norm\n                return\n\n        self.apply(apply_remove_weight_norm)\n\n        def apply_make_generation_fast_(module, prefix):\n            if len(prefix) > 0:\n                prefix += \".\"\n\n            base_func = BaseFairseqModel.make_generation_fast_\n            for n, m in module.named_modules():\n                if (\n                    m != self\n                    and hasattr(m, \"make_generation_fast_\")\n                    # don't call this implementation again, e.g., if\n                    # children modules also inherit from BaseFairseqModel\n                    and m.make_generation_fast_.__func__ is not base_func\n                ):\n                    name = prefix + n\n                    m.make_generation_fast_(name=name, **kwargs)\n\n        apply_make_generation_fast_(self, \"\")\n\n        def train(mode=True):\n            if mode:\n                raise RuntimeError(\"cannot train after make_generation_fast\")\n\n        # this model should no longer be used for training\n        self.eval()\n        self.train = train\n\n    def prepare_for_onnx_export_(self, **kwargs):\n        \"\"\"Make model exportable via ONNX trace.\"\"\"\n        seen = set()\n\n        def apply_prepare_for_onnx_export_(module):\n            if (\n                module != self\n                and hasattr(module, \"prepare_for_onnx_export_\")\n                and module not in seen\n            ):\n                seen.add(module)\n                module.prepare_for_onnx_export_(**kwargs)\n\n        self.apply(apply_prepare_for_onnx_export_)\n\n    @classmethod\n    def from_pretrained(\n        cls,\n        model_name_or_path,\n        checkpoint_file=\"model.pt\",\n        data_name_or_path=\".\",\n        **kwargs,\n    ):\n        \"\"\"\n        Load a :class:`~fairseq.models.FairseqModel` from a pre-trained model\n        file. Downloads and caches the pre-trained model file if needed.\n\n        The base implementation returns a\n        :class:`~fairseq.hub_utils.GeneratorHubInterface`, which can be used to\n        generate translations or sample from language models. The underlying\n        :class:`~fairseq.models.FairseqModel` can be accessed via the\n        *generator.models* attribute.\n\n        Other models may override this to implement custom hub interfaces.\n\n        Args:\n            model_name_or_path (str): either the name of a pre-trained model to\n                load or a path/URL to a pre-trained model state dict\n            checkpoint_file (str, optional): colon-separated list of checkpoint\n                files in the model archive to ensemble (default: 'model.pt')\n            data_name_or_path (str, optional): point args.data to the archive\n                at the given path/URL. Can start with '.' or './' to reuse the\n                model archive path.\n        \"\"\"\n        from fairseq import hub_utils\n\n        x = hub_utils.from_pretrained(\n            model_name_or_path,\n            checkpoint_file,\n            data_name_or_path,\n            archive_map=cls.hub_models(),\n            **kwargs,\n        )\n        logger.info(x[\"args\"])\n        return hub_utils.GeneratorHubInterface(x[\"args\"], x[\"task\"], x[\"models\"])\n\n    @classmethod\n    def hub_models(cls):\n        return {}\n\n\nclass FairseqEncoderDecoderModel(BaseFairseqModel):\n    \"\"\"Base class for encoder-decoder models.\n\n    Args:\n        encoder (FairseqEncoder): the encoder\n        decoder (FairseqDecoder): the decoder\n    \"\"\"\n\n    def __init__(self, encoder, decoder):\n        super().__init__()\n\n        self.encoder = encoder\n        self.decoder = decoder\n\n        check_type(self.encoder, FairseqEncoder)\n        check_type(self.decoder, FairseqDecoder)\n\n    def forward(self, src_tokens, src_lengths, prev_output_tokens, **kwargs):\n        \"\"\"\n        Run the forward pass for an encoder-decoder model.\n\n        First feed a batch of source tokens through the encoder. Then, feed the\n        encoder output and previous decoder outputs (i.e., teacher forcing) to\n        the decoder to produce the next outputs::\n\n            encoder_out = self.encoder(src_tokens, src_lengths)\n            return self.decoder(prev_output_tokens, encoder_out)\n\n        Args:\n            src_tokens (LongTensor): tokens in the source language of shape\n                `(batch, src_len)`\n            src_lengths (LongTensor): source sentence lengths of shape `(batch)`\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for teacher forcing\n\n        Returns:\n            tuple:\n                - the decoder's output of shape `(batch, tgt_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        encoder_out = self.encoder(src_tokens, src_lengths=src_lengths, **kwargs)\n        decoder_out = self.decoder(\n            prev_output_tokens, encoder_out=encoder_out, **kwargs\n        )\n        return decoder_out\n\n    def forward_decoder(self, prev_output_tokens, **kwargs):\n        return self.decoder(prev_output_tokens, **kwargs)\n\n    def extract_features(self, src_tokens, src_lengths, prev_output_tokens, **kwargs):\n        \"\"\"\n        Similar to *forward* but only return features.\n\n        Returns:\n            tuple:\n                - the decoder's features of shape `(batch, tgt_len, embed_dim)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        encoder_out = self.encoder(src_tokens, src_lengths=src_lengths, **kwargs)\n        features = self.decoder.extract_features(\n            prev_output_tokens, encoder_out=encoder_out, **kwargs\n        )\n        return features\n\n    def output_layer(self, features, **kwargs):\n        \"\"\"Project features to the default output size (typically vocabulary size).\"\"\"\n        return self.decoder.output_layer(features, **kwargs)\n\n    def max_positions(self):\n        \"\"\"Maximum length supported by the model.\"\"\"\n        return (self.encoder.max_positions(), self.decoder.max_positions())\n\n    def max_decoder_positions(self):\n        \"\"\"Maximum length supported by the decoder.\"\"\"\n        return self.decoder.max_positions()\n\n\nclass FairseqModel(FairseqEncoderDecoderModel):\n    def __init__(self, *args, **kwargs):\n        super().__init__(*args, **kwargs)\n        utils.deprecation_warning(\n            \"FairseqModel is deprecated, please use FairseqEncoderDecoderModel \"\n            \"or BaseFairseqModel instead\",\n            stacklevel=4,\n        )\n\n\nclass FairseqMultiModel(BaseFairseqModel):\n    \"\"\"Base class for combining multiple encoder-decoder models.\"\"\"\n\n    def __init__(self, encoders, decoders):\n        super().__init__()\n        assert encoders.keys() == decoders.keys()\n        self.keys = list(encoders.keys())\n        for key in self.keys:\n            check_type(encoders[key], FairseqEncoder)\n            check_type(decoders[key], FairseqDecoder)\n\n        self.models = nn.ModuleDict(\n            {\n                key: FairseqEncoderDecoderModel(encoders[key], decoders[key])\n                for key in self.keys\n            }\n        )\n\n    @staticmethod\n    def build_shared_embeddings(\n        dicts: Dict[str, Dictionary],\n        langs: List[str],\n        embed_dim: int,\n        build_embedding: callable,\n        pretrained_embed_path: Optional[str] = None,\n    ):\n        \"\"\"\n        Helper function to build shared embeddings for a set of languages after\n        checking that all dicts corresponding to those languages are equivalent.\n\n        Args:\n            dicts: Dict of lang_id to its corresponding Dictionary\n            langs: languages that we want to share embeddings for\n            embed_dim: embedding dimension\n            build_embedding: callable function to actually build the embedding\n            pretrained_embed_path: Optional path to load pretrained embeddings\n        \"\"\"\n        shared_dict = dicts[langs[0]]\n        if any(dicts[lang] != shared_dict for lang in langs):\n            raise ValueError(\n                \"--share-*-embeddings requires a joined dictionary: \"\n                \"--share-encoder-embeddings requires a joined source \"\n                \"dictionary, --share-decoder-embeddings requires a joined \"\n                \"target dictionary, and --share-all-embeddings requires a \"\n                \"joint source + target dictionary.\"\n            )\n        return build_embedding(shared_dict, embed_dim, pretrained_embed_path)\n\n    def forward(self, src_tokens, src_lengths, prev_output_tokens, **kwargs):\n        raise NotImplementedError\n\n    def max_positions(self):\n        \"\"\"Maximum length supported by the model.\"\"\"\n        return {\n            key: (\n                self.models[key].encoder.max_positions(),\n                self.models[key].decoder.max_positions(),\n            )\n            for key in self.keys\n        }\n\n    def max_decoder_positions(self):\n        \"\"\"Maximum length supported by the decoder.\"\"\"\n        return min(model.decoder.max_positions() for model in self.models.values())\n\n    @property\n    def encoder(self):\n        return self.models[self.keys[0]].encoder\n\n    @property\n    def decoder(self):\n        return self.models[self.keys[0]].decoder\n\n    def forward_decoder(self, prev_output_tokens, **kwargs):\n        return self.decoder(prev_output_tokens, **kwargs)\n\n    def load_state_dict(\n        self,\n        state_dict,\n        strict=True,\n        model_cfg=None,\n        args: Optional[Namespace] = None,\n    ):\n        \"\"\"Copies parameters and buffers from *state_dict* into this module and\n        its descendants.\n\n        Overrides the method in :class:`nn.Module`. Compared with that method\n        this additionally \"upgrades\" *state_dicts* from old checkpoints.\n        \"\"\"\n\n        if model_cfg is None and args is not None:\n            logger.warn(\n                \"using 'args' is deprecated, please update your code to use dataclass config\"\n            )\n            model_cfg = convert_namespace_to_omegaconf(args).model\n\n        self.upgrade_state_dict(state_dict)\n\n        from fairseq.checkpoint_utils import prune_state_dict\n\n        new_state_dict = prune_state_dict(state_dict, model_cfg)\n        return super().load_state_dict(new_state_dict, strict)\n\n\nclass FairseqLanguageModel(BaseFairseqModel):\n    \"\"\"Base class for decoder-only models.\n\n    Args:\n        decoder (FairseqDecoder): the decoder\n    \"\"\"\n\n    def __init__(self, decoder):\n        super().__init__()\n        self.decoder = decoder\n        check_type(self.decoder, FairseqDecoder)\n\n    def forward(self, src_tokens, **kwargs):\n        \"\"\"\n        Run the forward pass for a decoder-only model.\n\n        Feeds a batch of tokens through the decoder to predict the next tokens.\n\n        Args:\n            src_tokens (LongTensor): tokens on which to condition the decoder,\n                of shape `(batch, tgt_len)`\n            src_lengths (LongTensor): source sentence lengths of shape `(batch)`\n\n        Returns:\n            tuple:\n                - the decoder's output of shape `(batch, seq_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        return self.decoder(src_tokens, **kwargs)\n\n    def forward_decoder(self, prev_output_tokens, **kwargs):\n        return self.decoder(prev_output_tokens, **kwargs)\n\n    def extract_features(self, src_tokens, **kwargs):\n        \"\"\"\n        Similar to *forward* but only return features.\n\n        Returns:\n            tuple:\n                - the decoder's features of shape `(batch, seq_len, embed_dim)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        return self.decoder.extract_features(src_tokens, **kwargs)\n\n    def output_layer(self, features, **kwargs):\n        \"\"\"Project features to the default output size (typically vocabulary size).\"\"\"\n        return self.decoder.output_layer(features, **kwargs)\n\n    def max_positions(self):\n        \"\"\"Maximum length supported by the model.\"\"\"\n        return self.decoder.max_positions()\n\n    def max_decoder_positions(self):\n        \"\"\"Maximum length supported by the decoder.\"\"\"\n        return self.decoder.max_positions()\n\n    @property\n    def supported_targets(self):\n        return {\"future\"}\n\n\nclass FairseqEncoderModel(BaseFairseqModel):\n    \"\"\"Base class for encoder-only models.\n\n    Args:\n        encoder (FairseqEncoder): the encoder\n    \"\"\"\n\n    def __init__(self, encoder):\n        super().__init__()\n        self.encoder = encoder\n        check_type(self.encoder, FairseqEncoder)\n\n    def forward(self, src_tokens, src_lengths, **kwargs):\n        \"\"\"\n        Run the forward pass for a encoder-only model.\n\n        Feeds a batch of tokens through the encoder to generate features.\n\n        Args:\n            src_tokens (LongTensor): input tokens of shape `(batch, src_len)`\n            src_lengths (LongTensor): source sentence lengths of shape `(batch)`\n\n        Returns:\n            the encoder's output, typically of shape `(batch, src_len, features)`\n        \"\"\"\n        return self.encoder(src_tokens, src_lengths, **kwargs)\n\n    def get_normalized_probs(self, net_output, log_probs, sample=None):\n        \"\"\"Get normalized probabilities (or log probs) from a net's output.\"\"\"\n        encoder_out = net_output[\"encoder_out\"]\n        if torch.is_tensor(encoder_out):\n            logits = encoder_out.float()\n            if log_probs:\n                return F.log_softmax(logits, dim=-1)\n            else:\n                return F.softmax(logits, dim=-1)\n        raise NotImplementedError\n\n    def max_positions(self):\n        \"\"\"Maximum length supported by the model.\"\"\"\n        return self.encoder.max_positions()\n"
  },
  {
    "path": "fairseq/models/fconv.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderDecoderModel,\n    FairseqIncrementalDecoder,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.modules import (\n    AdaptiveSoftmax,\n    BeamableMM,\n    FairseqDropout,\n    GradMultiply,\n    LearnedPositionalEmbedding,\n    LinearizedConvolution,\n)\n\n\n@register_model(\"fconv\")\nclass FConvModel(FairseqEncoderDecoderModel):\n    \"\"\"\n    A fully convolutional model, i.e. a convolutional encoder and a\n    convolutional decoder, as described in `\"Convolutional Sequence to Sequence\n    Learning\" (Gehring et al., 2017) <https://arxiv.org/abs/1705.03122>`_.\n\n    Args:\n        encoder (FConvEncoder): the encoder\n        decoder (FConvDecoder): the decoder\n\n    The Convolutional model provides the following named architectures and\n    command-line arguments:\n\n    .. argparse::\n        :ref: fairseq.models.fconv_parser\n        :prog:\n    \"\"\"\n\n    @classmethod\n    def hub_models(cls):\n        def moses_subword(path):\n            return {\n                \"path\": path,\n                \"tokenizer\": \"moses\",\n                \"bpe\": \"subword_nmt\",\n            }\n\n        return {\n            \"conv.wmt14.en-fr\": moses_subword(\n                \"https://dl.fbaipublicfiles.com/fairseq/models/wmt14.v2.en-fr.fconv-py.tar.bz2\"\n            ),\n            \"conv.wmt14.en-de\": moses_subword(\n                \"https://dl.fbaipublicfiles.com/fairseq/models/wmt14.en-de.fconv-py.tar.bz2\"\n            ),\n            \"conv.wmt17.en-de\": moses_subword(\n                \"https://dl.fbaipublicfiles.com/fairseq/models/wmt17.v2.en-de.fconv-py.tar.bz2\"\n            ),\n        }\n\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n        self.encoder.num_attention_layers = sum(\n            layer is not None for layer in decoder.attention\n        )\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--dropout', type=float, metavar='D',\n                            help='dropout probability')\n        parser.add_argument('--encoder-embed-dim', type=int, metavar='N',\n                            help='encoder embedding dimension')\n        parser.add_argument('--encoder-embed-path', type=str, metavar='STR',\n                            help='path to pre-trained encoder embedding')\n        parser.add_argument('--encoder-layers', type=str, metavar='EXPR',\n                            help='encoder layers [(dim, kernel_size), ...]')\n        parser.add_argument('--decoder-embed-dim', type=int, metavar='N',\n                            help='decoder embedding dimension')\n        parser.add_argument('--decoder-embed-path', type=str, metavar='STR',\n                            help='path to pre-trained decoder embedding')\n        parser.add_argument('--decoder-layers', type=str, metavar='EXPR',\n                            help='decoder layers [(dim, kernel_size), ...]')\n        parser.add_argument('--decoder-out-embed-dim', type=int, metavar='N',\n                            help='decoder output embedding dimension')\n        parser.add_argument('--decoder-attention', type=str, metavar='EXPR',\n                            help='decoder attention [True, ...]')\n        parser.add_argument('--share-input-output-embed', action='store_true',\n                            help='share input and output embeddings (requires'\n                                 ' --decoder-out-embed-dim and --decoder-embed-dim'\n                                 ' to be equal)')\n        # fmt: on\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        # make sure that all args are properly defaulted (in case there are any new ones)\n        base_architecture(args)\n\n        encoder_embed_dict = None\n        if args.encoder_embed_path:\n            encoder_embed_dict = utils.parse_embedding(args.encoder_embed_path)\n            utils.print_embed_overlap(encoder_embed_dict, task.source_dictionary)\n\n        decoder_embed_dict = None\n        if args.decoder_embed_path:\n            decoder_embed_dict = utils.parse_embedding(args.decoder_embed_path)\n            utils.print_embed_overlap(decoder_embed_dict, task.target_dictionary)\n\n        encoder = FConvEncoder(\n            dictionary=task.source_dictionary,\n            embed_dim=args.encoder_embed_dim,\n            embed_dict=encoder_embed_dict,\n            convolutions=eval(args.encoder_layers),\n            dropout=args.dropout,\n            max_positions=args.max_source_positions,\n        )\n        decoder = FConvDecoder(\n            dictionary=task.target_dictionary,\n            embed_dim=args.decoder_embed_dim,\n            embed_dict=decoder_embed_dict,\n            convolutions=eval(args.decoder_layers),\n            out_embed_dim=args.decoder_out_embed_dim,\n            attention=eval(args.decoder_attention),\n            dropout=args.dropout,\n            max_positions=args.max_target_positions,\n            share_embed=args.share_input_output_embed,\n        )\n        return FConvModel(encoder, decoder)\n\n\nclass FConvEncoder(FairseqEncoder):\n    \"\"\"\n    Convolutional encoder consisting of `len(convolutions)` layers.\n\n    Args:\n        dictionary (~fairseq.data.Dictionary): encoding dictionary\n        embed_dim (int, optional): embedding dimension\n        embed_dict (str, optional): filename from which to load pre-trained\n            embeddings\n        max_positions (int, optional): maximum supported input sequence length\n        convolutions (list, optional): the convolutional layer structure. Each\n            list item `i` corresponds to convolutional layer `i`. Layers are\n            given as ``(out_channels, kernel_width, [residual])``. Residual\n            connections are added between layers when ``residual=1`` (which is\n            the default behavior).\n        dropout (float, optional): dropout to be applied before each conv layer\n    \"\"\"\n\n    def __init__(\n        self,\n        dictionary,\n        embed_dim=512,\n        embed_dict=None,\n        max_positions=1024,\n        convolutions=((512, 3),) * 20,\n        dropout=0.1,\n    ):\n        super().__init__(dictionary)\n        self.dropout_module = FairseqDropout(\n            dropout, module_name=self.__class__.__name__\n        )\n        self.num_attention_layers = None\n\n        num_embeddings = len(dictionary)\n        self.padding_idx = dictionary.pad()\n        self.embed_tokens = Embedding(num_embeddings, embed_dim, self.padding_idx)\n        if embed_dict:\n            self.embed_tokens = utils.load_embedding(\n                embed_dict, self.dictionary, self.embed_tokens\n            )\n\n        self.embed_positions = PositionalEmbedding(\n            max_positions,\n            embed_dim,\n            self.padding_idx,\n        )\n\n        convolutions = extend_conv_spec(convolutions)\n        in_channels = convolutions[0][0]\n        self.fc1 = Linear(embed_dim, in_channels, dropout=dropout)\n        self.projections = nn.ModuleList()\n        self.convolutions = nn.ModuleList()\n        self.residuals = []\n\n        layer_in_channels = [in_channels]\n        for _, (out_channels, kernel_size, residual) in enumerate(convolutions):\n            if residual == 0:\n                residual_dim = out_channels\n            else:\n                residual_dim = layer_in_channels[-residual]\n            self.projections.append(\n                Linear(residual_dim, out_channels)\n                if residual_dim != out_channels\n                else None\n            )\n            if kernel_size % 2 == 1:\n                padding = kernel_size // 2\n            else:\n                padding = 0\n            self.convolutions.append(\n                ConvTBC(\n                    in_channels,\n                    out_channels * 2,\n                    kernel_size,\n                    dropout=dropout,\n                    padding=padding,\n                )\n            )\n            self.residuals.append(residual)\n            in_channels = out_channels\n            layer_in_channels.append(out_channels)\n        self.fc2 = Linear(in_channels, embed_dim)\n\n    def forward(self, src_tokens, src_lengths):\n        \"\"\"\n        Args:\n            src_tokens (LongTensor): tokens in the source language of shape\n                `(batch, src_len)`\n            src_lengths (LongTensor): lengths of each source sentence of shape\n                `(batch)`\n\n        Returns:\n            dict:\n                - **encoder_out** (tuple): a tuple with two elements, where the\n                  first element is the last encoder layer's output and the\n                  second element is the same quantity summed with the input\n                  embedding (used for attention). The shape of both tensors is\n                  `(batch, src_len, embed_dim)`.\n                - **encoder_padding_mask** (ByteTensor): the positions of\n                  padding elements of shape `(batch, src_len)`\n        \"\"\"\n        # embed tokens and positions\n        x = self.embed_tokens(src_tokens) + self.embed_positions(src_tokens)\n        x = self.dropout_module(x)\n        input_embedding = x\n\n        # project to size of convolution\n        x = self.fc1(x)\n\n        # used to mask padding in input\n        encoder_padding_mask = src_tokens.eq(self.padding_idx).t()  # -> T x B\n        if not encoder_padding_mask.any():\n            encoder_padding_mask = None\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        residuals = [x]\n        # temporal convolutions\n        for proj, conv, res_layer in zip(\n            self.projections, self.convolutions, self.residuals\n        ):\n            if res_layer > 0:\n                residual = residuals[-res_layer]\n                residual = residual if proj is None else proj(residual)\n            else:\n                residual = None\n\n            if encoder_padding_mask is not None:\n                x = x.masked_fill(encoder_padding_mask.unsqueeze(-1), 0)\n\n            x = self.dropout_module(x)\n            if conv.kernel_size[0] % 2 == 1:\n                # padding is implicit in the conv\n                x = conv(x)\n            else:\n                padding_l = (conv.kernel_size[0] - 1) // 2\n                padding_r = conv.kernel_size[0] // 2\n                x = F.pad(x, (0, 0, 0, 0, padding_l, padding_r))\n                x = conv(x)\n            x = F.glu(x, dim=2)\n\n            if residual is not None:\n                x = (x + residual) * math.sqrt(0.5)\n            residuals.append(x)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(1, 0)\n\n        # project back to size of embedding\n        x = self.fc2(x)\n\n        if encoder_padding_mask is not None:\n            encoder_padding_mask = encoder_padding_mask.t()  # -> B x T\n            x = x.masked_fill(encoder_padding_mask.unsqueeze(-1), 0)\n\n        # scale gradients (this only affects backward, not forward)\n        x = GradMultiply.apply(x, 1.0 / (2.0 * self.num_attention_layers))\n\n        # add output to input embedding for attention\n        y = (x + input_embedding) * math.sqrt(0.5)\n\n        return {\n            \"encoder_out\": (x, y),\n            \"encoder_padding_mask\": encoder_padding_mask,  # B x T\n        }\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        if encoder_out[\"encoder_out\"] is not None:\n            encoder_out[\"encoder_out\"] = (\n                encoder_out[\"encoder_out\"][0].index_select(0, new_order),\n                encoder_out[\"encoder_out\"][1].index_select(0, new_order),\n            )\n        if encoder_out[\"encoder_padding_mask\"] is not None:\n            encoder_out[\"encoder_padding_mask\"] = encoder_out[\n                \"encoder_padding_mask\"\n            ].index_select(0, new_order)\n        return encoder_out\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return self.embed_positions.max_positions\n\n\nclass AttentionLayer(nn.Module):\n    def __init__(self, conv_channels, embed_dim, bmm=None):\n        super().__init__()\n        # projects from output of convolution to embedding dimension\n        self.in_projection = Linear(conv_channels, embed_dim)\n        # projects from embedding dimension to convolution size\n        self.out_projection = Linear(embed_dim, conv_channels)\n\n        self.bmm = bmm if bmm is not None else torch.bmm\n\n    def forward(self, x, target_embedding, encoder_out, encoder_padding_mask):\n        residual = x\n\n        # attention\n        x = (self.in_projection(x) + target_embedding) * math.sqrt(0.5)\n        x = self.bmm(x, encoder_out[0])\n\n        # don't attend over padding\n        if encoder_padding_mask is not None:\n            x = (\n                x.float()\n                .masked_fill(encoder_padding_mask.unsqueeze(1), float(\"-inf\"))\n                .type_as(x)\n            )  # FP16 support: cast to float and back\n\n        # softmax over last dim\n        sz = x.size()\n        x = F.softmax(x.view(sz[0] * sz[1], sz[2]), dim=1)\n        x = x.view(sz)\n        attn_scores = x\n\n        x = self.bmm(x, encoder_out[1])\n\n        # scale attention output (respecting potentially different lengths)\n        s = encoder_out[1].size(1)\n        if encoder_padding_mask is None:\n            x = x * (s * math.sqrt(1.0 / s))\n        else:\n            s = s - encoder_padding_mask.type_as(x).sum(\n                dim=1, keepdim=True\n            )  # exclude padding\n            s = s.unsqueeze(-1)\n            x = x * (s * s.rsqrt())\n\n        # project back\n        x = (self.out_projection(x) + residual) * math.sqrt(0.5)\n        return x, attn_scores\n\n    def make_generation_fast_(self, beamable_mm_beam_size=None, **kwargs):\n        \"\"\"Replace torch.bmm with BeamableMM.\"\"\"\n        if beamable_mm_beam_size is not None:\n            del self.bmm\n            self.add_module(\"bmm\", BeamableMM(beamable_mm_beam_size))\n\n\nclass FConvDecoder(FairseqIncrementalDecoder):\n    \"\"\"Convolutional decoder\"\"\"\n\n    def __init__(\n        self,\n        dictionary,\n        embed_dim=512,\n        embed_dict=None,\n        out_embed_dim=256,\n        max_positions=1024,\n        convolutions=((512, 3),) * 20,\n        attention=True,\n        dropout=0.1,\n        share_embed=False,\n        positional_embeddings=True,\n        adaptive_softmax_cutoff=None,\n        adaptive_softmax_dropout=0.0,\n    ):\n        super().__init__(dictionary)\n        self.register_buffer(\"version\", torch.Tensor([2]))\n        self.dropout_module = FairseqDropout(\n            dropout, module_name=self.__class__.__name__\n        )\n        self.need_attn = True\n\n        convolutions = extend_conv_spec(convolutions)\n        in_channels = convolutions[0][0]\n        if isinstance(attention, bool):\n            # expand True into [True, True, ...] and do the same with False\n            attention = [attention] * len(convolutions)\n        if not isinstance(attention, list) or len(attention) != len(convolutions):\n            raise ValueError(\n                \"Attention is expected to be a list of booleans of \"\n                \"length equal to the number of layers.\"\n            )\n\n        num_embeddings = len(dictionary)\n        padding_idx = dictionary.pad()\n        self.embed_tokens = Embedding(num_embeddings, embed_dim, padding_idx)\n        if embed_dict:\n            self.embed_tokens = utils.load_embedding(\n                embed_dict, self.dictionary, self.embed_tokens\n            )\n\n        self.embed_positions = (\n            PositionalEmbedding(\n                max_positions,\n                embed_dim,\n                padding_idx,\n            )\n            if positional_embeddings\n            else None\n        )\n\n        self.fc1 = Linear(embed_dim, in_channels, dropout=dropout)\n        self.projections = nn.ModuleList()\n        self.convolutions = nn.ModuleList()\n        self.attention = nn.ModuleList()\n        self.residuals = []\n\n        layer_in_channels = [in_channels]\n        for i, (out_channels, kernel_size, residual) in enumerate(convolutions):\n            if residual == 0:\n                residual_dim = out_channels\n            else:\n                residual_dim = layer_in_channels[-residual]\n            self.projections.append(\n                Linear(residual_dim, out_channels)\n                if residual_dim != out_channels\n                else None\n            )\n            self.convolutions.append(\n                LinearizedConv1d(\n                    in_channels,\n                    out_channels * 2,\n                    kernel_size,\n                    padding=(kernel_size - 1),\n                    dropout=dropout,\n                )\n            )\n            self.attention.append(\n                AttentionLayer(out_channels, embed_dim) if attention[i] else None\n            )\n            self.residuals.append(residual)\n            in_channels = out_channels\n            layer_in_channels.append(out_channels)\n\n        self.adaptive_softmax = None\n        self.fc2 = self.fc3 = None\n\n        if adaptive_softmax_cutoff is not None:\n            assert not share_embed\n            self.adaptive_softmax = AdaptiveSoftmax(\n                num_embeddings,\n                in_channels,\n                adaptive_softmax_cutoff,\n                dropout=adaptive_softmax_dropout,\n            )\n        else:\n            self.fc2 = Linear(in_channels, out_embed_dim)\n            if share_embed:\n                assert out_embed_dim == embed_dim, (\n                    \"Shared embed weights implies same dimensions \"\n                    \" out_embed_dim={} vs embed_dim={}\".format(out_embed_dim, embed_dim)\n                )\n                self.fc3 = nn.Linear(out_embed_dim, num_embeddings)\n                self.fc3.weight = self.embed_tokens.weight\n            else:\n                self.fc3 = Linear(out_embed_dim, num_embeddings, dropout=dropout)\n\n    def forward(\n        self, prev_output_tokens, encoder_out=None, incremental_state=None, **unused\n    ):\n        if encoder_out is not None:\n            encoder_padding_mask = encoder_out[\"encoder_padding_mask\"]\n            encoder_out = encoder_out[\"encoder_out\"]\n\n            # split and transpose encoder outputs\n            encoder_a, encoder_b = self._split_encoder_out(\n                encoder_out, incremental_state\n            )\n\n        if self.embed_positions is not None:\n            pos_embed = self.embed_positions(prev_output_tokens, incremental_state)\n        else:\n            pos_embed = 0\n\n        if incremental_state is not None:\n            prev_output_tokens = prev_output_tokens[:, -1:]\n        x = self._embed_tokens(prev_output_tokens, incremental_state)\n\n        # embed tokens and combine with positional embeddings\n        x += pos_embed\n        x = self.dropout_module(x)\n        target_embedding = x\n\n        # project to size of convolution\n        x = self.fc1(x)\n\n        # B x T x C -> T x B x C\n        x = self._transpose_if_training(x, incremental_state)\n\n        # temporal convolutions\n        avg_attn_scores = None\n        num_attn_layers = len(self.attention)\n        residuals = [x]\n        for proj, conv, attention, res_layer in zip(\n            self.projections, self.convolutions, self.attention, self.residuals\n        ):\n            if res_layer > 0:\n                residual = residuals[-res_layer]\n                residual = residual if proj is None else proj(residual)\n            else:\n                residual = None\n\n            x = self.dropout_module(x)\n            x = conv(x, incremental_state)\n            x = F.glu(x, dim=2)\n\n            # attention\n            if attention is not None:\n                x = self._transpose_if_training(x, incremental_state)\n\n                x, attn_scores = attention(\n                    x, target_embedding, (encoder_a, encoder_b), encoder_padding_mask\n                )\n\n                if not self.training and self.need_attn:\n                    attn_scores = attn_scores / num_attn_layers\n                    if avg_attn_scores is None:\n                        avg_attn_scores = attn_scores\n                    else:\n                        avg_attn_scores.add_(attn_scores)\n\n                x = self._transpose_if_training(x, incremental_state)\n\n            # residual\n            if residual is not None:\n                x = (x + residual) * math.sqrt(0.5)\n            residuals.append(x)\n\n        # T x B x C -> B x T x C\n        x = self._transpose_if_training(x, incremental_state)\n\n        # project back to size of vocabulary if not using adaptive softmax\n        if self.fc2 is not None and self.fc3 is not None:\n            x = self.fc2(x)\n            x = self.dropout_module(x)\n            x = self.fc3(x)\n\n        return x, avg_attn_scores\n\n    def reorder_incremental_state(self, incremental_state, new_order):\n        super().reorder_incremental_state(incremental_state, new_order)\n        encoder_out = utils.get_incremental_state(\n            self, incremental_state, \"encoder_out\"\n        )\n        if encoder_out is not None:\n            encoder_out = tuple(eo.index_select(0, new_order) for eo in encoder_out)\n            utils.set_incremental_state(\n                self, incremental_state, \"encoder_out\", encoder_out\n            )\n\n    def max_positions(self):\n        \"\"\"Maximum output length supported by the decoder.\"\"\"\n        return (\n            self.embed_positions.max_positions\n            if self.embed_positions is not None\n            else float(\"inf\")\n        )\n\n    def upgrade_state_dict(self, state_dict):\n        if utils.item(state_dict.get(\"decoder.version\", torch.Tensor([1]))[0]) < 2:\n            # old models use incorrect weight norm dimension\n            for i, conv in enumerate(self.convolutions):\n                # reconfigure weight norm\n                nn.utils.remove_weight_norm(conv)\n                self.convolutions[i] = nn.utils.weight_norm(conv, dim=0)\n            state_dict[\"decoder.version\"] = torch.Tensor([1])\n        return state_dict\n\n    def make_generation_fast_(self, need_attn=False, **kwargs):\n        self.need_attn = need_attn\n\n    def _embed_tokens(self, tokens, incremental_state):\n        if incremental_state is not None:\n            # keep only the last token for incremental forward pass\n            tokens = tokens[:, -1:]\n        return self.embed_tokens(tokens)\n\n    def _split_encoder_out(self, encoder_out, incremental_state):\n        \"\"\"Split and transpose encoder outputs.\n\n        This is cached when doing incremental inference.\n        \"\"\"\n        cached_result = utils.get_incremental_state(\n            self, incremental_state, \"encoder_out\"\n        )\n        if cached_result is not None:\n            return cached_result\n\n        # transpose only once to speed up attention layers\n        encoder_a, encoder_b = encoder_out\n        encoder_a = encoder_a.transpose(1, 2).contiguous()\n        result = (encoder_a, encoder_b)\n\n        if incremental_state is not None:\n            utils.set_incremental_state(self, incremental_state, \"encoder_out\", result)\n        return result\n\n    def _transpose_if_training(self, x, incremental_state):\n        if incremental_state is None:\n            x = x.transpose(0, 1)\n        return x\n\n\ndef extend_conv_spec(convolutions):\n    \"\"\"\n    Extends convolutional spec that is a list of tuples of 2 or 3 parameters\n    (kernel size, dim size and optionally how many layers behind to look for residual)\n    to default the residual propagation param if it is not specified\n    \"\"\"\n    extended = []\n    for spec in convolutions:\n        if len(spec) == 3:\n            extended.append(spec)\n        elif len(spec) == 2:\n            extended.append(spec + (1,))\n        else:\n            raise Exception(\n                \"invalid number of parameters in convolution spec \"\n                + str(spec)\n                + \". expected 2 or 3\"\n            )\n    return tuple(extended)\n\n\ndef Embedding(num_embeddings, embedding_dim, padding_idx):\n    m = nn.Embedding(num_embeddings, embedding_dim, padding_idx=padding_idx)\n    nn.init.normal_(m.weight, 0, 0.1)\n    nn.init.constant_(m.weight[padding_idx], 0)\n    return m\n\n\ndef PositionalEmbedding(num_embeddings, embedding_dim, padding_idx):\n    m = LearnedPositionalEmbedding(num_embeddings, embedding_dim, padding_idx)\n    nn.init.normal_(m.weight, 0, 0.1)\n    nn.init.constant_(m.weight[padding_idx], 0)\n    return m\n\n\ndef Linear(in_features, out_features, dropout=0.0):\n    \"\"\"Weight-normalized Linear layer (input: N x T x C)\"\"\"\n    m = nn.Linear(in_features, out_features)\n    nn.init.normal_(m.weight, mean=0, std=math.sqrt((1 - dropout) / in_features))\n    nn.init.constant_(m.bias, 0)\n    return nn.utils.weight_norm(m)\n\n\ndef LinearizedConv1d(in_channels, out_channels, kernel_size, dropout=0.0, **kwargs):\n    \"\"\"Weight-normalized Conv1d layer optimized for decoding\"\"\"\n    m = LinearizedConvolution(in_channels, out_channels, kernel_size, **kwargs)\n    std = math.sqrt((4 * (1.0 - dropout)) / (m.kernel_size[0] * in_channels))\n    nn.init.normal_(m.weight, mean=0, std=std)\n    nn.init.constant_(m.bias, 0)\n    return nn.utils.weight_norm(m, dim=2)\n\n\ndef ConvTBC(in_channels, out_channels, kernel_size, dropout=0.0, **kwargs):\n    \"\"\"Weight-normalized Conv1d layer\"\"\"\n    from fairseq.modules import ConvTBC\n\n    m = ConvTBC(in_channels, out_channels, kernel_size, **kwargs)\n    std = math.sqrt((4 * (1.0 - dropout)) / (m.kernel_size[0] * in_channels))\n    nn.init.normal_(m.weight, mean=0, std=std)\n    nn.init.constant_(m.bias, 0)\n    return nn.utils.weight_norm(m, dim=2)\n\n\n@register_model_architecture(\"fconv\", \"fconv\")\ndef base_architecture(args):\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_embed_path = getattr(args, \"encoder_embed_path\", None)\n    args.encoder_layers = getattr(args, \"encoder_layers\", \"[(512, 3)] * 20\")\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_embed_path = getattr(args, \"decoder_embed_path\", None)\n    args.decoder_layers = getattr(args, \"decoder_layers\", \"[(512, 3)] * 20\")\n    args.decoder_out_embed_dim = getattr(args, \"decoder_out_embed_dim\", 256)\n    args.decoder_attention = getattr(args, \"decoder_attention\", \"True\")\n    args.share_input_output_embed = getattr(args, \"share_input_output_embed\", False)\n\n\n@register_model_architecture(\"fconv\", \"fconv_iwslt_de_en\")\ndef fconv_iwslt_de_en(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_layers = getattr(args, \"encoder_layers\", \"[(256, 3)] * 4\")\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 256)\n    args.decoder_layers = getattr(args, \"decoder_layers\", \"[(256, 3)] * 3\")\n    args.decoder_out_embed_dim = getattr(args, \"decoder_out_embed_dim\", 256)\n    base_architecture(args)\n\n\n@register_model_architecture(\"fconv\", \"fconv_wmt_en_ro\")\ndef fconv_wmt_en_ro(args):\n    args.decoder_out_embed_dim = getattr(args, \"decoder_out_embed_dim\", 512)\n    base_architecture(args)\n\n\n@register_model_architecture(\"fconv\", \"fconv_wmt_en_de\")\ndef fconv_wmt_en_de(args):\n    convs = \"[(512, 3)] * 9\"  # first 9 layers have 512 units\n    convs += \" + [(1024, 3)] * 4\"  # next 4 layers have 1024 units\n    convs += \" + [(2048, 1)] * 2\"  # final 2 layers use 1x1 convolutions\n\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 768)\n    args.encoder_layers = getattr(args, \"encoder_layers\", convs)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 768)\n    args.decoder_layers = getattr(args, \"decoder_layers\", convs)\n    args.decoder_out_embed_dim = getattr(args, \"decoder_out_embed_dim\", 512)\n    base_architecture(args)\n\n\n@register_model_architecture(\"fconv\", \"fconv_wmt_en_fr\")\ndef fconv_wmt_en_fr(args):\n    convs = \"[(512, 3)] * 6\"  # first 6 layers have 512 units\n    convs += \" + [(768, 3)] * 4\"  # next 4 layers have 768 units\n    convs += \" + [(1024, 3)] * 3\"  # next 3 layers have 1024 units\n    convs += \" + [(2048, 1)] * 1\"  # next 1 layer uses 1x1 convolutions\n    convs += \" + [(4096, 1)] * 1\"  # final 1 layer uses 1x1 convolutions\n\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 768)\n    args.encoder_layers = getattr(args, \"encoder_layers\", convs)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 768)\n    args.decoder_layers = getattr(args, \"decoder_layers\", convs)\n    args.decoder_out_embed_dim = getattr(args, \"decoder_out_embed_dim\", 512)\n    base_architecture(args)\n"
  },
  {
    "path": "fairseq/models/fconv_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq import utils\nfrom fairseq.models import (\n    FairseqLanguageModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.fconv import FConvDecoder\nfrom fairseq.utils import safe_hasattr\n\n\n@register_model(\"fconv_lm\")\nclass FConvLanguageModel(FairseqLanguageModel):\n    def __init__(self, decoder):\n        super().__init__(decoder)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        parser.add_argument(\n            \"--dropout\", type=float, metavar=\"D\", help=\"dropout probability\"\n        )\n        parser.add_argument(\n            \"--decoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--decoder-layers\",\n            type=str,\n            metavar=\"EXPR\",\n            help=\"decoder layers [(dim, kernel_size), ...]\",\n        )\n        parser.add_argument(\n            \"--decoder-out-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder output embedding dimension\",\n        )\n        parser.add_argument(\n            \"--adaptive-softmax-cutoff\",\n            metavar=\"EXPR\",\n            help=\"comma separated list of adaptive softmax cutoff points. \"\n            \"Must be used with adaptive_loss criterion\",\n        )\n        parser.add_argument(\n            \"--adaptive-softmax-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"sets adaptive softmax dropout for the tail projections\",\n        )\n        parser.add_argument(\n            \"--decoder-attention\",\n            type=str,\n            metavar=\"EXPR\",\n            help=\"decoder attention [True, ...]\",\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        # make sure all arguments are present in older models\n        base_lm_architecture(args)\n\n        if safe_hasattr(args, \"max_target_positions\") and not safe_hasattr(\n            args, \"tokens_per_sample\"\n        ):\n            args.tokens_per_sample = args.max_target_positions\n\n        decoder = FConvDecoder(\n            dictionary=task.target_dictionary,\n            embed_dim=args.decoder_embed_dim,\n            convolutions=eval(args.decoder_layers),\n            out_embed_dim=args.decoder_embed_dim,\n            attention=eval(args.decoder_attention),\n            dropout=args.dropout,\n            max_positions=args.tokens_per_sample,\n            share_embed=False,\n            positional_embeddings=False,\n            adaptive_softmax_cutoff=(\n                utils.eval_str_list(args.adaptive_softmax_cutoff, type=int)\n                if args.criterion == \"adaptive_loss\"\n                else None\n            ),\n            adaptive_softmax_dropout=args.adaptive_softmax_dropout,\n        )\n        return FConvLanguageModel(decoder)\n\n\n@register_model_architecture(\"fconv_lm\", \"fconv_lm\")\ndef base_lm_architecture(args):\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 128)\n    args.decoder_layers = getattr(args, \"decoder_layers\", \"[(1268, 4)] * 13\")\n    args.decoder_attention = getattr(args, \"decoder_attention\", \"False\")\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n\n\n@register_model_architecture(\"fconv_lm\", \"fconv_lm_dauphin_wikitext103\")\ndef fconv_lm_dauphin_wikitext103(args):\n    layers = \"[(850, 6)] * 3\"\n    layers += \" + [(850, 1)] * 1\"\n    layers += \" + [(850, 5)] * 4\"\n    layers += \" + [(850, 1)] * 1\"\n    layers += \" + [(850, 4)] * 3\"\n    layers += \" + [(1024, 4)] * 1\"\n    layers += \" + [(2048, 4)] * 1\"\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 280)\n    args.decoder_layers = getattr(args, \"decoder_layers\", layers)\n    args.decoder_attention = getattr(args, \"decoder_attention\", \"False\")\n    args.adaptive_softmax_cutoff = getattr(\n        args, \"adaptive_softmax_cutoff\", \"10000,20000,200000\"\n    )\n    base_lm_architecture(args)\n\n\n@register_model_architecture(\"fconv_lm\", \"fconv_lm_dauphin_gbw\")\ndef fconv_lm_dauphin_gbw(args):\n    layers = \"[(512, 5)]\"\n    layers += \" + [(128, 1, 0), (128, 5, 0), (512, 1, 3)] * 3\"\n    layers += \" + [(512, 1, 0), (512, 5, 0), (1024, 1, 3)] * 3\"\n    layers += \" + [(1024, 1, 0), (1024, 5, 0), (2048, 1, 3)] * 6\"\n    layers += \" + [(1024, 1, 0), (1024, 5, 0), (4096, 1, 3)]\"\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 128)\n    args.decoder_layers = getattr(args, \"decoder_layers\", layers)\n    args.decoder_attention = getattr(args, \"decoder_attention\", \"False\")\n    args.adaptive_softmax_cutoff = getattr(\n        args, \"adaptive_softmax_cutoff\", \"10000,50000,200000\"\n    )\n    base_lm_architecture(args)\n"
  },
  {
    "path": "fairseq/models/fconv_self_att.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport math\nimport os\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq import checkpoint_utils\nfrom fairseq.incremental_decoding_utils import with_incremental_state\nfrom fairseq.models import (\n    CompositeEncoder,\n    FairseqDecoder,\n    FairseqEncoder,\n    FairseqEncoderDecoderModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.modules import (\n    DownsampledMultiHeadAttention,\n    FairseqDropout,\n    GradMultiply,\n    LayerNorm,\n    LearnedPositionalEmbedding,\n    LinearizedConvolution,\n)\n\n\nlogger = logging.getLogger(__name__)\n\n\n@register_model(\"fconv_self_att\")\nclass FConvModelSelfAtt(FairseqEncoderDecoderModel):\n    @classmethod\n    def hub_models(cls):\n        return {\n            \"conv.stories.pretrained\": {\n                \"path\": \"https://dl.fbaipublicfiles.com/fairseq/models/stories_checkpoint.tar.gz\",\n                \"checkpoint_file\": \"pretrained_checkpoint.pt\",\n                \"tokenizer\": \"nltk\",\n            },\n            \"conv.stories\": {\n                \"path\": \"https://dl.fbaipublicfiles.com/fairseq/models/stories_checkpoint.tar.gz\",\n                \"checkpoint_file\": \"fusion_checkpoint.pt\",\n                \"tokenizer\": \"nltk\",\n                \"pretrained\": \"True\",\n                \"pretrained_checkpoint\": \"./pretrained_checkpoint.pt\",\n            },\n            # Test set containing dictionaries\n            \"data.stories\": \"https://dl.fbaipublicfiles.com/fairseq/data/stories_test.tar.bz2\",\n        }\n\n    def __init__(self, encoder, decoder, pretrained_encoder=None):\n        super().__init__(encoder, decoder)\n        self.encoder.num_attention_layers = sum(\n            layer is not None for layer in decoder.attention\n        )\n        self.pretrained_encoder = pretrained_encoder\n        if self.pretrained_encoder is None:\n            encoders = {\"encoder\": encoder}\n        else:\n            encoders = {\"encoder\": encoder, \"pretrained\": self.pretrained_encoder}\n        # for fusion model, CompositeEncoder contains both pretrained and training encoders\n        # these are forwarded and then combined in the decoder\n        self.encoder = CompositeEncoder(encoders)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--dropout', type=float, metavar='D',\n                            help='dropout probability')\n        parser.add_argument('--encoder-embed-dim', type=int, metavar='N',\n                            help='encoder embedding dimension')\n        parser.add_argument('--encoder-layers', type=str, metavar='EXPR',\n                            help='encoder layers [(dim, kernel_size), ...]')\n        parser.add_argument('--decoder-embed-dim', type=int, metavar='N',\n                            help='decoder embedding dimension')\n        parser.add_argument('--decoder-layers', type=str, metavar='EXPR',\n                            help='decoder layers [(dim, kernel_size), ...]')\n        parser.add_argument('--decoder-out-embed-dim', type=int, metavar='N',\n                            help='decoder output embedding dimension')\n        parser.add_argument('--decoder-attention', type=str, metavar='EXPR',\n                            help='decoder attention [True, ...]')\n        parser.add_argument('--self-attention', type=str, metavar='EXPR',\n                            help='decoder self-attention layers, ex: [True] + [False]*5')\n        parser.add_argument('--multihead-attention-nheads', type=int,\n                            help='Number of heads to use in attention')\n        parser.add_argument('--multihead-self-attention-nheads', type=int,\n                            help='Number of heads to use in self-attention')\n        parser.add_argument('--encoder-attention', type=str, metavar='EXPR',\n                            help='encoder attention [True, ...]')\n        parser.add_argument('--encoder-attention-nheads', type=int,\n                            help='Number of heads to use in encoder attention')\n        parser.add_argument('--project-input', type=str, metavar='EXPR',\n                            help='Use projections in self-attention [True, ...]')\n        parser.add_argument('--gated-attention', type=str, metavar='EXPR',\n                            help='Use GLU layers in self-attention projections [True, ...]')\n        parser.add_argument('--downsample', type=str, metavar='EXPR',\n                            help='Use downsampling in self-attention [True, ...]')\n        parser.add_argument('--pretrained-checkpoint', metavar='DIR',\n                            help='path to load checkpoint from pretrained model')\n        parser.add_argument('--pretrained', type=str, metavar='EXPR',\n                            help='use pretrained model when training [True, ...]')\n        # fmt: on\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        trained_encoder, trained_decoder = None, None\n        pretrained = eval(args.pretrained)\n        if pretrained:\n            logger.info(\"loading pretrained model\")\n            if not os.path.exists(args.pretrained_checkpoint):\n                new_pretrained_checkpoint = os.path.join(\n                    args.data, args.pretrained_checkpoint\n                )\n                if os.path.exists(new_pretrained_checkpoint):\n                    args.pretrained_checkpoint = new_pretrained_checkpoint\n            trained_model = checkpoint_utils.load_model_ensemble(\n                filenames=[args.pretrained_checkpoint],\n                task=task,\n            )[0][0]\n            trained_decoder = list(trained_model.children())[1]\n            trained_encoder = list(trained_model.children())[0]\n\n            # freeze pretrained model\n            for param in trained_decoder.parameters():\n                param.requires_grad = False\n            for param in trained_encoder.parameters():\n                param.requires_grad = False\n\n        encoder = FConvEncoder(\n            task.source_dictionary,\n            embed_dim=args.encoder_embed_dim,\n            convolutions=eval(args.encoder_layers),\n            dropout=args.dropout,\n            max_positions=args.max_source_positions,\n            attention=eval(args.encoder_attention),\n            attention_nheads=args.encoder_attention_nheads,\n        )\n\n        decoder = FConvDecoder(\n            task.target_dictionary,\n            embed_dim=args.decoder_embed_dim,\n            convolutions=eval(args.decoder_layers),\n            out_embed_dim=args.decoder_out_embed_dim,\n            attention=eval(args.decoder_attention),\n            dropout=args.dropout,\n            max_positions=args.max_target_positions,\n            selfattention=eval(args.self_attention),\n            attention_nheads=args.multihead_attention_nheads,\n            selfattention_nheads=args.multihead_self_attention_nheads,\n            project_input=eval(args.project_input),\n            gated_attention=eval(args.gated_attention),\n            downsample=eval(args.downsample),\n            pretrained=pretrained,\n            trained_decoder=trained_decoder,\n        )\n        model = FConvModelSelfAtt(encoder, decoder, trained_encoder)\n\n        return model\n\n    @property\n    def pretrained(self):\n        return self.pretrained_encoder is not None\n\n\nclass FConvEncoder(FairseqEncoder):\n    \"\"\"Convolutional encoder\"\"\"\n\n    def __init__(\n        self,\n        dictionary,\n        embed_dim=512,\n        max_positions=1024,\n        convolutions=((512, 3),) * 20,\n        dropout=0.1,\n        attention=False,\n        attention_nheads=1,\n    ):\n        super().__init__(dictionary)\n        self.dropout_module = FairseqDropout(\n            dropout, module_name=self.__class__.__name__\n        )\n        self.num_attention_layers = None\n\n        num_embeddings = len(dictionary)\n        self.padding_idx = dictionary.pad()\n        self.embed_tokens = Embedding(num_embeddings, embed_dim, self.padding_idx)\n        self.embed_positions = PositionalEmbedding(\n            max_positions,\n            embed_dim,\n            self.padding_idx,\n        )\n\n        def expand_bool_array(val):\n            if isinstance(val, bool):\n                # expand True into [True, True, ...] and do the same with False\n                return [val] * len(convolutions)\n            return val\n\n        attention = expand_bool_array(attention)\n\n        in_channels = convolutions[0][0]\n        self.fc1 = Linear(embed_dim, in_channels, dropout=dropout)\n        self.projections = nn.ModuleList()\n        self.convolutions = nn.ModuleList()\n        self.attention = nn.ModuleList()\n        self.attproj = nn.ModuleList()\n        for i, (out_channels, kernel_size) in enumerate(convolutions):\n            self.projections.append(\n                Linear(in_channels, out_channels)\n                if in_channels != out_channels\n                else None\n            )\n            self.convolutions.append(\n                ConvTBC(in_channels, out_channels * 2, kernel_size, dropout=dropout)\n            )\n\n            self.attention.append(\n                SelfAttention(out_channels, embed_dim, attention_nheads)\n                if attention[i]\n                else None\n            )\n            in_channels = out_channels\n\n        self.fc2 = Linear(in_channels, embed_dim)\n\n    def forward(self, src_tokens, src_lengths):\n        # embed tokens and positions\n        x = self.embed_tokens(src_tokens) + self.embed_positions(src_tokens)\n        x = self.dropout_module(x)\n        input_embedding = x.transpose(0, 1)\n\n        # project to size of convolution\n        x = self.fc1(x)\n\n        encoder_padding_mask = src_tokens.eq(self.padding_idx).t()  # -> T x B\n        if not encoder_padding_mask.any():\n            encoder_padding_mask = None\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        # temporal convolutions\n        for proj, conv, attention in zip(\n            self.projections, self.convolutions, self.attention\n        ):\n            residual = x if proj is None else proj(x)\n\n            if encoder_padding_mask is not None:\n                x = x.masked_fill(encoder_padding_mask.unsqueeze(-1), 0)\n\n            x = self.dropout_module(x)\n            padding_l = (conv.kernel_size[0] - 1) // 2\n            padding_r = conv.kernel_size[0] // 2\n            x = F.pad(x, (0, 0, 0, 0, padding_l, padding_r))\n            x = conv(x)\n            x = F.glu(x, dim=2)\n            if attention is not None:\n                x = attention(x)\n            x = (x + residual) * math.sqrt(0.5)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(1, 0)\n\n        # project back to size of embedding\n        x = self.fc2(x)\n\n        if encoder_padding_mask is not None:\n            encoder_padding_mask = encoder_padding_mask.t()  # -> B x T\n            x = x.masked_fill(encoder_padding_mask.unsqueeze(-1), 0)\n\n        # scale gradients (this only affects backward, not forward)\n        x = GradMultiply.apply(x, 1.0 / (2.0 * self.num_attention_layers))\n\n        # add output to input embedding for attention\n        y = (x + input_embedding.transpose(0, 1)) * math.sqrt(0.5)\n\n        return {\n            \"encoder_out\": (x, y),\n            \"encoder_padding_mask\": encoder_padding_mask,  # B x T\n        }\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        encoder_out[\"encoder_out\"] = tuple(\n            eo.index_select(0, new_order) for eo in encoder_out[\"encoder_out\"]\n        )\n\n        if encoder_out[\"encoder_padding_mask\"] is not None:\n            encoder_out[\"encoder_padding_mask\"] = encoder_out[\n                \"encoder_padding_mask\"\n            ].index_select(0, new_order)\n\n        if \"pretrained\" in encoder_out:\n            encoder_out[\"pretrained\"][\"encoder_out\"] = tuple(\n                eo.index_select(0, new_order)\n                for eo in encoder_out[\"pretrained\"][\"encoder_out\"]\n            )\n\n        return encoder_out\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return self.embed_positions.max_positions\n\n\n@with_incremental_state\nclass FConvDecoder(FairseqDecoder):\n    \"\"\"Convolutional decoder\"\"\"\n\n    def __init__(\n        self,\n        dictionary,\n        embed_dim=512,\n        out_embed_dim=256,\n        max_positions=1024,\n        convolutions=((512, 3),) * 8,\n        attention=True,\n        dropout=0.1,\n        selfattention=False,\n        attention_nheads=1,\n        selfattention_nheads=1,\n        project_input=False,\n        gated_attention=False,\n        downsample=False,\n        pretrained=False,\n        trained_decoder=None,\n    ):\n        super().__init__(dictionary)\n        self.register_buffer(\"version\", torch.Tensor([2]))\n        self.pretrained = pretrained\n        self.pretrained_decoder = trained_decoder\n        self.dropout_module = FairseqDropout(\n            dropout, module_name=self.__class__.__name__\n        )\n        self.need_attn = True\n        in_channels = convolutions[0][0]\n\n        def expand_bool_array(val):\n            if isinstance(val, bool):\n                # expand True into [True, True, ...] and do the same with False\n                return [val] * len(convolutions)\n            return val\n\n        attention = expand_bool_array(attention)\n        selfattention = expand_bool_array(selfattention)\n\n        if not isinstance(attention, list) or len(attention) != len(convolutions):\n            raise ValueError(\n                \"Attention is expected to be a list of booleans of \"\n                \"length equal to the number of layers.\"\n            )\n\n        num_embeddings = len(dictionary)\n        padding_idx = dictionary.pad()\n        self.embed_tokens = Embedding(num_embeddings, embed_dim, padding_idx)\n\n        self.embed_positions = PositionalEmbedding(\n            max_positions,\n            embed_dim,\n            padding_idx,\n        )\n\n        self.fc1 = Linear(embed_dim, in_channels, dropout=dropout)\n        self.projections = nn.ModuleList()\n        self.convolutions = nn.ModuleList()\n        self.attention = nn.ModuleList()\n        self.selfattention = nn.ModuleList()\n        self.attproj = nn.ModuleList()\n        for i, (out_channels, kernel_size) in enumerate(convolutions):\n            self.projections.append(\n                Linear(in_channels, out_channels)\n                if in_channels != out_channels\n                else None\n            )\n            self.convolutions.append(\n                LinearizedConv1d(\n                    in_channels,\n                    out_channels * 2,\n                    kernel_size,\n                    padding=(kernel_size - 1),\n                    dropout=dropout,\n                )\n            )\n\n            self.attention.append(\n                DownsampledMultiHeadAttention(\n                    out_channels,\n                    embed_dim,\n                    attention_nheads,\n                    project_input=project_input,\n                    gated=False,\n                    downsample=False,\n                )\n                if attention[i]\n                else None\n            )\n\n            self.attproj.append(\n                Linear(out_channels, embed_dim, dropout=dropout)\n                if attention[i]\n                else None\n            )\n            self.selfattention.append(\n                SelfAttention(\n                    out_channels,\n                    embed_dim,\n                    selfattention_nheads,\n                    project_input=project_input,\n                    gated=gated_attention,\n                    downsample=downsample,\n                )\n                if selfattention[i]\n                else None\n            )\n            in_channels = out_channels\n\n        self.fc2 = Linear(in_channels, out_embed_dim)\n        self.fc3 = Linear(out_embed_dim, num_embeddings, dropout=dropout)\n\n        # model fusion\n        if self.pretrained:\n            # independent gates are learned from the concatenated input\n            self.gate1 = nn.Sequential(\n                Linear(out_embed_dim * 2, out_embed_dim), nn.Sigmoid()\n            )\n            self.gate2 = nn.Sequential(\n                Linear(out_embed_dim * 2, out_embed_dim), nn.Sigmoid()\n            )\n            # pretrained and trained models are joined\n            self.joining = nn.Sequential(\n                Linear(out_embed_dim * 2, out_embed_dim * 2),\n                LayerNorm(out_embed_dim * 2),\n                nn.GLU(),\n                Linear(out_embed_dim, out_embed_dim * 2),\n                LayerNorm(out_embed_dim * 2),\n                nn.GLU(),\n                Linear(out_embed_dim, out_embed_dim),\n                LayerNorm(out_embed_dim),\n            )\n            # pretrained model contains an output layer that is nhid -> vocab size\n            # but the models are combined in their hidden state\n            # the hook stores the output of the pretrained model forward\n            self.pretrained_outputs = {}\n\n            def save_output():\n                def hook(a, b, output):\n                    self.pretrained_outputs[\"out\"] = output\n\n                return hook\n\n            self.pretrained_decoder.fc2.register_forward_hook(save_output())\n\n    def forward(self, prev_output_tokens, encoder_out):\n        trained_encoder_out = encoder_out[\"pretrained\"] if self.pretrained else None\n        encoder_out = encoder_out[\"encoder\"][\"encoder_out\"]\n\n        encoder_a, encoder_b = self._split_encoder_out(encoder_out)\n\n        # embed positions\n        positions = self.embed_positions(prev_output_tokens)\n\n        # embed tokens and positions\n        x = self.embed_tokens(prev_output_tokens) + positions\n        x = self.dropout_module(x)\n        target_embedding = x.transpose(0, 1)\n\n        # project to size of convolution\n        x = self.fc1(x)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        # temporal convolutions\n        avg_attn_scores = None\n        for proj, conv, attention, selfattention, attproj in zip(\n            self.projections,\n            self.convolutions,\n            self.attention,\n            self.selfattention,\n            self.attproj,\n        ):\n            residual = x if proj is None else proj(x)\n\n            x = self.dropout_module(x)\n            x = conv(x)\n            x = F.glu(x, dim=2)\n\n            # attention\n            if attention is not None:\n                r = x\n                x, attn_scores = attention(\n                    attproj(x) + target_embedding, encoder_a, encoder_b\n                )\n                x = x + r\n                if not self.training and self.need_attn:\n                    if avg_attn_scores is None:\n                        avg_attn_scores = attn_scores\n                    else:\n                        avg_attn_scores.add_(attn_scores)\n\n            if selfattention is not None:\n                x = selfattention(x)\n\n            x = (x + residual) * math.sqrt(0.5)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        # project back to size of vocabulary\n        x = self.fc2(x)\n        x = self.dropout_module(x)\n        if not self.pretrained:\n            x = self.fc3(x)\n\n        # fusion gating\n        if self.pretrained:\n            trained_x, _ = self.pretrained_decoder.forward(\n                prev_output_tokens, trained_encoder_out\n            )\n            y = torch.cat([x, self.pretrained_outputs[\"out\"]], dim=-1)\n            gate1 = self.gate1(y)\n            gate2 = self.gate2(y)\n            gated_x1 = gate1 * x\n            gated_x2 = gate2 * self.pretrained_outputs[\"out\"]\n            fusion = torch.cat([gated_x1, gated_x2], dim=-1)\n            fusion = self.joining(fusion)\n            fusion_output = self.fc3(fusion)\n            return fusion_output, avg_attn_scores\n        else:\n            return x, avg_attn_scores\n\n    def max_positions(self):\n        \"\"\"Maximum output length supported by the decoder.\"\"\"\n        return self.embed_positions.max_positions\n\n    def make_generation_fast_(self, need_attn=False, **kwargs):\n        self.need_attn = need_attn\n\n    def _split_encoder_out(self, encoder_out):\n        \"\"\"Split and transpose encoder outputs.\"\"\"\n        # transpose only once to speed up attention layers\n        encoder_a, encoder_b = encoder_out\n        encoder_a = encoder_a.transpose(0, 1).contiguous()\n        encoder_b = encoder_b.transpose(0, 1).contiguous()\n        result = (encoder_a, encoder_b)\n        return result\n\n\nclass SelfAttention(nn.Module):\n    def __init__(\n        self,\n        out_channels,\n        embed_dim,\n        num_heads,\n        project_input=False,\n        gated=False,\n        downsample=False,\n    ):\n        super().__init__()\n        self.attention = DownsampledMultiHeadAttention(\n            out_channels,\n            embed_dim,\n            num_heads,\n            dropout=0,\n            bias=True,\n            project_input=project_input,\n            gated=gated,\n            downsample=downsample,\n        )\n        self.in_proj_q = Linear(out_channels, embed_dim)\n        self.in_proj_k = Linear(out_channels, embed_dim)\n        self.in_proj_v = Linear(out_channels, embed_dim)\n        self.ln = LayerNorm(out_channels)\n\n    def forward(self, x):\n        residual = x\n        query = self.in_proj_q(x)\n        key = self.in_proj_k(x)\n        value = self.in_proj_v(x)\n        x, _ = self.attention(\n            query, key, value, mask_future_timesteps=True, use_scalar_bias=True\n        )\n        return self.ln(x + residual)\n\n\ndef Embedding(num_embeddings, embedding_dim, padding_idx):\n    m = nn.Embedding(num_embeddings, embedding_dim, padding_idx=padding_idx)\n    m.weight.data.normal_(0, 0.1)\n    return m\n\n\ndef PositionalEmbedding(num_embeddings, embedding_dim, padding_idx):\n    m = LearnedPositionalEmbedding(num_embeddings, embedding_dim, padding_idx)\n    m.weight.data.normal_(0, 0.1)\n    return m\n\n\ndef Linear(in_features, out_features, dropout=0.0):\n    \"\"\"Weight-normalized Linear layer (input: N x T x C)\"\"\"\n    m = nn.Linear(in_features, out_features)\n    m.weight.data.normal_(mean=0, std=math.sqrt((1 - dropout) / in_features))\n    m.bias.data.zero_()\n    return m\n\n\ndef LinearizedConv1d(in_channels, out_channels, kernel_size, dropout=0.0, **kwargs):\n    \"\"\"Weight-normalized Conv1d layer optimized for decoding\"\"\"\n    m = LinearizedConvolution(in_channels, out_channels, kernel_size, **kwargs)\n    std = math.sqrt((4 * (1.0 - dropout)) / (m.kernel_size[0] * in_channels))\n    m.weight.data.normal_(mean=0, std=std)\n    m.bias.data.zero_()\n    return m\n\n\ndef ConvTBC(in_channels, out_channels, kernel_size, dropout=0.0, **kwargs):\n    \"\"\"Weight-normalized Conv1d layer\"\"\"\n    from fairseq.modules import ConvTBC\n\n    m = ConvTBC(in_channels, out_channels, kernel_size, **kwargs)\n    std = math.sqrt((4 * (1.0 - dropout)) / (m.kernel_size[0] * in_channels))\n    m.weight.data.normal_(mean=0, std=std)\n    m.bias.data.zero_()\n    return m\n\n\n@register_model_architecture(\"fconv_self_att\", \"fconv_self_att\")\ndef base_architecture(args):\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_layers = getattr(args, \"encoder_layers\", \"[(512, 3)] * 3\")\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_layers = getattr(args, \"decoder_layers\", \"[(512, 3)] * 8\")\n    args.decoder_out_embed_dim = getattr(args, \"decoder_out_embed_dim\", 256)\n    args.decoder_attention = getattr(args, \"decoder_attention\", \"True\")\n    args.self_attention = getattr(args, \"self_attention\", \"False\")\n    args.encoder_attention = getattr(args, \"encoder_attention\", \"False\")\n    args.multihead_attention_nheads = getattr(args, \"multihead_attention_nheads\", 1)\n    args.multihead_self_attention_nheads = getattr(\n        args, \"multihead_self_attention_nheads\", 1\n    )\n    args.encoder_attention_nheads = getattr(args, \"encoder_attention_nheads\", 1)\n    args.project_input = getattr(args, \"project_input\", \"False\")\n    args.gated_attention = getattr(args, \"gated_attention\", \"False\")\n    args.downsample = getattr(args, \"downsample\", \"False\")\n    args.pretrained_checkpoint = getattr(args, \"pretrained_checkpoint\", \"\")\n    args.pretrained = getattr(args, \"pretrained\", \"False\")\n\n\n@register_model_architecture(\"fconv_self_att\", \"fconv_self_att_wp\")\ndef fconv_self_att_wp(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_layers = getattr(\n        args, \"encoder_layers\", \"[(128, 3)] * 2 + [(512,3)] * 1\"\n    )\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 256)\n    args.decoder_layers = getattr(\n        args, \"decoder_layers\", \"[(512, 4)] * 4 + [(768, 4)] * 2 + [(1024, 4)] * 1\"\n    )\n    args.decoder_out_embed_dim = getattr(args, \"decoder_out_embed_dim\", 256)\n    args.self_attention = getattr(args, \"self_attention\", \"True\")\n    args.multihead_self_attention_nheads = getattr(\n        args, \"multihead_self_attention_nheads\", 4\n    )\n    args.project_input = getattr(args, \"project_input\", \"True\")\n    args.gated_attention = getattr(args, \"gated_attention\", \"True\")\n    args.downsample = getattr(args, \"downsample\", \"True\")\n    base_architecture(args)\n"
  },
  {
    "path": "fairseq/models/hubert/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .hubert import *  # noqa\nfrom .hubert_asr import *  # noqa\n"
  },
  {
    "path": "fairseq/models/hubert/hubert.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom dataclasses import dataclass, field\nfrom typing import Dict, List, Optional, Tuple\n\nimport numpy as np\nimport torch\nimport torch.nn as nn\nfrom omegaconf import II\n\nfrom fairseq import utils\nfrom fairseq.data.data_utils import compute_mask_indices\nfrom fairseq.data.dictionary import Dictionary\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.models import BaseFairseqModel, register_model\nfrom fairseq.models.wav2vec.wav2vec2 import (\n    EXTRACTOR_MODE_CHOICES,\n    MASKING_DISTRIBUTION_CHOICES,\n    LAYER_TYPE_CHOICES,\n    ConvFeatureExtractionModel,\n    TransformerEncoder,\n)\nfrom fairseq.modules import GradMultiply, LayerNorm\nfrom fairseq.tasks.hubert_pretraining import (\n    HubertPretrainingConfig,\n    HubertPretrainingTask,\n)\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass HubertConfig(FairseqDataclass):\n    label_rate: float = II(\"task.label_rate\")\n\n    extractor_mode: EXTRACTOR_MODE_CHOICES = field(\n        default=\"default\",\n        metadata={\n            \"help\": \"mode for feature extractor. default has a single group \"\n            \"norm with d groups in the first conv block, whereas layer_norm \"\n            \"has layer norms in every block (meant to use with normalize=True)\"\n        },\n    )\n    encoder_layers: int = field(\n        default=12, metadata={\"help\": \"num encoder layers in the transformer\"}\n    )\n    encoder_embed_dim: int = field(\n        default=768, metadata={\"help\": \"encoder embedding dimension\"}\n    )\n    encoder_ffn_embed_dim: int = field(\n        default=3072, metadata={\"help\": \"encoder embedding dimension for FFN\"}\n    )\n    encoder_attention_heads: int = field(\n        default=12, metadata={\"help\": \"num encoder attention heads\"}\n    )\n    activation_fn: ChoiceEnum(utils.get_available_activation_fns()) = field(\n        default=\"gelu\", metadata={\"help\": \"activation function to use\"}\n    )\n    layer_type: LAYER_TYPE_CHOICES = field(\n        default=\"transformer\", metadata={\"help\": \"layer type in encoder\"}\n    )\n\n    # dropouts\n    dropout: float = field(\n        default=0.1,\n        metadata={\"help\": \"dropout probability for the transformer\"},\n    )\n    attention_dropout: float = field(\n        default=0.1,\n        metadata={\"help\": \"dropout probability for attention weights\"},\n    )\n    activation_dropout: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout probability after activation in FFN\"},\n    )\n    encoder_layerdrop: float = field(\n        default=0.0,\n        metadata={\"help\": \"probability of dropping a tarnsformer layer\"},\n    )\n    dropout_input: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout to apply to the input (after feat extr)\"},\n    )\n    dropout_features: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout to apply to the features (after feat extr)\"},\n    )\n\n    final_dim: int = field(\n        default=0,\n        metadata={\n            \"help\": \"project final representations and targets to this many \"\n            \"dimensions. set to encoder_embed_dim is <= 0\"\n        },\n    )\n    untie_final_proj: bool = field(\n        default=False,\n        metadata={\"help\": \"use separate projection for each target\"},\n    )\n    layer_norm_first: bool = field(\n        default=False,\n        metadata={\"help\": \"apply layernorm first in the transformer\"},\n    )\n    conv_feature_layers: str = field(\n        default=\"[(512,10,5)] + [(512,3,2)] * 4 + [(512,2,2)] * 2\",\n        metadata={\n            \"help\": \"string describing convolutional feature extraction \"\n            \"layers in form of a python list that contains \"\n            \"[(dim, kernel_size, stride), ...]\"\n        },\n    )\n    conv_bias: bool = field(\n        default=False, metadata={\"help\": \"include bias in conv encoder\"}\n    )\n    logit_temp: float = field(\n        default=0.1, metadata={\"help\": \"temperature to divide logits by\"}\n    )\n    target_glu: bool = field(\n        default=False, metadata={\"help\": \"adds projection + glu to targets\"}\n    )\n    feature_grad_mult: float = field(\n        default=1.0,\n        metadata={\"help\": \"multiply feature extractor var grads by this\"},\n    )\n\n    # masking\n    mask_length: int = field(default=10, metadata={\"help\": \"mask length\"})\n    mask_prob: float = field(\n        default=0.65,\n        metadata={\"help\": \"probability of replacing a token with mask\"},\n    )\n    mask_selection: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\", metadata={\"help\": \"how to choose mask length\"}\n    )\n    mask_other: float = field(\n        default=0,\n        metadata={\n            \"help\": \"secondary mask argument \"\n            \"(used for more complex distributions), \"\n            \"see help in compute_mask_indicesh\"\n        },\n    )\n    no_mask_overlap: bool = field(\n        default=False, metadata={\"help\": \"whether to allow masks to overlap\"}\n    )\n    mask_min_space: int = field(\n        default=1,\n        metadata={\"help\": \"min space between spans (if no overlap is enabled)\"},\n    )\n\n    # channel masking\n    mask_channel_length: int = field(\n        default=10,\n        metadata={\"help\": \"length of the mask for features (channels)\"},\n    )\n    mask_channel_prob: float = field(\n        default=0.0,\n        metadata={\"help\": \"probability of replacing a feature with 0\"},\n    )\n    mask_channel_selection: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\",\n        metadata={\"help\": \"how to choose mask length for channel masking\"},\n    )\n    mask_channel_other: float = field(\n        default=0,\n        metadata={\n            \"help\": \"secondary mask argument \"\n            \"(used for more complex distributions), \"\n            \"see help in compute_mask_indicesh\"\n        },\n    )\n    no_mask_channel_overlap: bool = field(\n        default=False,\n        metadata={\"help\": \"whether to allow channel masks to overlap\"},\n    )\n    mask_channel_min_space: int = field(\n        default=1,\n        metadata={\"help\": \"min space between spans (if no overlap is enabled)\"},\n    )\n\n    # positional embeddings\n    conv_pos: int = field(\n        default=128,\n        metadata={\"help\": \"number of filters for convolutional positional embeddings\"},\n    )\n    conv_pos_groups: int = field(\n        default=16,\n        metadata={\"help\": \"number of groups for convolutional positional embedding\"},\n    )\n    conv_pos_batch_norm: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"use batch norm instead of weight norm in conv_pos (for bf16 models)\"\n        },\n    )\n\n    latent_temp: Tuple[float, float, float] = field(\n        default=(2, 0.5, 0.999995),\n        metadata={\"help\": \"legacy (to be removed)\"},\n    )\n\n    # loss computation\n    skip_masked: bool = field(\n        default=False,\n        metadata={\"help\": \"skip computing losses over masked frames\"},\n    )\n    skip_nomask: bool = field(\n        default=False,\n        metadata={\"help\": \"skip computing losses over unmasked frames\"},\n    )\n\n    checkpoint_activations: bool = field(\n        default=False,\n        metadata={\"help\": \"recompute activations and save memory for extra compute\"},\n    )\n\n    # FP16 optimization\n    required_seq_len_multiple: int = field(\n        default=2,\n        metadata={\n            \"help\": \"pad the input to encoder such that the sequence length is divisible by multiple\"\n        },\n    )\n\n    # Conformer\n    depthwise_conv_kernel_size: int = field(\n        default=31,\n        metadata={\n            \"help\": \"depthwise-conv-kernel-size for convolution in conformer layer\"\n        },\n    )\n    attn_type: str = field(\n        default=\"\",\n        metadata={\"help\": \"if espnet use ESPNET MHA\"},\n    )\n    pos_enc_type: str = field(\n        default=\"abs\",\n        metadata={\"help\": \"Positional encoding type to use in conformer\"},\n    )\n    fp16: bool = field(default=False, metadata={\"help\": \"If fp16 is being used\"})\n\n\n@register_model(\"hubert\", dataclass=HubertConfig)\nclass HubertModel(BaseFairseqModel):\n    def __init__(\n        self,\n        cfg: HubertConfig,\n        task_cfg: HubertPretrainingConfig,\n        dictionaries: List[Dictionary],\n    ) -> None:\n        super().__init__()\n        logger.info(f\"HubertModel Config: {cfg}\")\n\n        feature_enc_layers = eval(cfg.conv_feature_layers)  # noqa\n        self.embed = feature_enc_layers[-1][0]\n\n        self.feature_extractor = ConvFeatureExtractionModel(\n            conv_layers=feature_enc_layers,\n            dropout=0.0,\n            mode=cfg.extractor_mode,\n            conv_bias=cfg.conv_bias,\n        )\n        feature_ds_rate = np.prod([s for _, _, s in feature_enc_layers])\n        self.feat2tar_ratio = cfg.label_rate * feature_ds_rate / task_cfg.sample_rate\n\n        self.post_extract_proj = (\n            nn.Linear(self.embed, cfg.encoder_embed_dim)\n            if self.embed != cfg.encoder_embed_dim\n            else None\n        )\n\n        self.mask_prob = cfg.mask_prob\n        self.mask_selection = cfg.mask_selection\n        self.mask_other = cfg.mask_other\n        self.mask_length = cfg.mask_length\n        self.no_mask_overlap = cfg.no_mask_overlap\n        self.mask_min_space = cfg.mask_min_space\n\n        self.mask_channel_prob = cfg.mask_channel_prob\n        self.mask_channel_selection = cfg.mask_channel_selection\n        self.mask_channel_other = cfg.mask_channel_other\n        self.mask_channel_length = cfg.mask_channel_length\n        self.no_mask_channel_overlap = cfg.no_mask_channel_overlap\n        self.mask_channel_min_space = cfg.mask_channel_min_space\n\n        self.dropout_input = nn.Dropout(cfg.dropout_input)\n        self.dropout_features = nn.Dropout(cfg.dropout_features)\n\n        self.feature_grad_mult = cfg.feature_grad_mult\n        self.logit_temp = cfg.logit_temp\n        self.skip_masked = cfg.skip_masked\n        self.skip_nomask = cfg.skip_nomask\n\n        final_dim = cfg.final_dim if cfg.final_dim > 0 else cfg.encoder_embed_dim\n\n        self.mask_emb = nn.Parameter(\n            torch.FloatTensor(cfg.encoder_embed_dim).uniform_()\n        )\n\n        self.encoder = TransformerEncoder(cfg)\n        self.layer_norm = LayerNorm(self.embed)\n\n        self.target_glu = None\n        if cfg.target_glu:\n            self.target_glu = nn.Sequential(\n                nn.Linear(final_dim, final_dim * 2), nn.GLU()\n            )\n\n        self.untie_final_proj = cfg.untie_final_proj\n        if self.untie_final_proj:\n            self.final_proj = nn.Linear(\n                cfg.encoder_embed_dim, final_dim * len(dictionaries)\n            )\n        else:\n            self.final_proj = nn.Linear(cfg.encoder_embed_dim, final_dim)\n\n        # modules below are not needed during fine-tuning\n        if any([d is None for d in dictionaries]):\n            logger.info(\"cannot find dictionary. assume will be used for fine-tuning\")\n        else:\n            self.num_classes = [len(d) for d in dictionaries]\n            self.label_embs_concat = nn.Parameter(\n                torch.FloatTensor(sum(self.num_classes), final_dim)\n            )\n            nn.init.uniform_(self.label_embs_concat)\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        \"\"\"Upgrade a (possibly old) state dict for new versions of fairseq.\"\"\"\n\n        super().upgrade_state_dict_named(state_dict, name)\n        return state_dict\n\n    @classmethod\n    def build_model(cls, cfg: HubertConfig, task: HubertPretrainingTask):\n        \"\"\"Build a new model instance.\"\"\"\n\n        model = HubertModel(cfg, task.cfg, task.dictionaries)\n        return model\n\n    def apply_mask(self, x, padding_mask, target_list):\n        B, T, C = x.shape\n        if self.mask_prob > 0:\n            mask_indices = compute_mask_indices(\n                (B, T),\n                padding_mask,\n                self.mask_prob,\n                self.mask_length,\n                self.mask_selection,\n                self.mask_other,\n                min_masks=2,\n                no_overlap=self.no_mask_overlap,\n                min_space=self.mask_min_space,\n            )\n            mask_indices = torch.from_numpy(mask_indices).to(x.device)\n            x[mask_indices] = self.mask_emb\n        else:\n            mask_indices = None\n\n        if self.mask_channel_prob > 0:\n            mask_channel_indices = compute_mask_indices(\n                (B, C),\n                None,\n                self.mask_channel_prob,\n                self.mask_channel_length,\n                self.mask_channel_selection,\n                self.mask_channel_other,\n                no_overlap=self.no_mask_channel_overlap,\n                min_space=self.mask_channel_min_space,\n            )\n            mask_channel_indices = (\n                torch.from_numpy(mask_channel_indices)\n                .to(x.device)\n                .unsqueeze(1)\n                .expand(-1, T, -1)\n            )\n            x[mask_channel_indices] = 0\n\n        return x, mask_indices\n\n    def compute_nce(self, x, pos, negs):\n        neg_is_pos = (pos == negs).all(-1)\n        pos = pos.unsqueeze(0)\n        targets = torch.cat([pos, negs], dim=0)\n\n        logits = torch.cosine_similarity(x.float(), targets.float(), dim=-1).type_as(x)\n        logits /= self.logit_temp\n        if neg_is_pos.any():\n            logits[1:][neg_is_pos] = float(\"-inf\")\n        logits = logits.transpose(0, 1)  # (num_x, num_cls+1)\n        return logits\n\n    def forward_features(self, source: torch.Tensor) -> torch.Tensor:\n        if self.feature_grad_mult > 0:\n            features = self.feature_extractor(source)\n            if self.feature_grad_mult != 1.0:\n                features = GradMultiply.apply(features, self.feature_grad_mult)\n        else:\n            with torch.no_grad():\n                features = self.feature_extractor(source)\n        return features\n\n    def forward_targets(\n        self,\n        features: torch.Tensor,\n        target_list: List[torch.Tensor],\n    ) -> Tuple[torch.Tensor, torch.Tensor]:\n        # Trim features to ensure labels exist and then get aligned labels\n        feat_tsz = features.size(2)\n        targ_tsz = min([t.size(1) for t in target_list])\n        if self.feat2tar_ratio * feat_tsz > targ_tsz:\n            feat_tsz = int(targ_tsz / self.feat2tar_ratio)\n            features = features[..., :feat_tsz]\n        target_inds = torch.arange(feat_tsz).float() * self.feat2tar_ratio\n        target_list = [t[:, target_inds.long()] for t in target_list]\n        return features, target_list\n\n    def forward_padding_mask(\n        self,\n        features: torch.Tensor,\n        padding_mask: torch.Tensor,\n    ) -> torch.Tensor:\n        extra = padding_mask.size(1) % features.size(1)\n        if extra > 0:\n            padding_mask = padding_mask[:, :-extra]\n        padding_mask = padding_mask.view(padding_mask.size(0), features.size(1), -1)\n        padding_mask = padding_mask.all(-1)\n        return padding_mask\n\n    def forward(\n        self,\n        source: torch.Tensor,\n        target_list: Optional[List[torch.Tensor]] = None,\n        padding_mask: Optional[torch.Tensor] = None,\n        mask: bool = True,\n        features_only: bool = False,\n        output_layer: Optional[int] = None,\n    ) -> Dict[str, torch.Tensor]:\n        \"\"\"output layer is 1-based\"\"\"\n        features = self.forward_features(source)\n        if target_list is not None:\n            features, target_list = self.forward_targets(features, target_list)\n\n        features_pen = features.float().pow(2).mean()\n\n        features = features.transpose(1, 2)\n        features = self.layer_norm(features)\n        unmasked_features = features.clone()\n\n        if padding_mask is not None:\n            padding_mask = self.forward_padding_mask(features, padding_mask)\n\n        if self.post_extract_proj is not None:\n            features = self.post_extract_proj(features)\n\n        features = self.dropout_input(features)\n        unmasked_features = self.dropout_features(unmasked_features)\n\n        if mask:\n            x, mask_indices = self.apply_mask(features, padding_mask, target_list)\n        else:\n            x = features\n            mask_indices = None\n\n        # feature: (B, T, D), float\n        # target: (B, T), long\n        # x: (B, T, D), float\n        # padding_mask: (B, T), bool\n        # mask_indices: (B, T), bool\n        x, _ = self.encoder(\n            x,\n            padding_mask=padding_mask,\n            layer=None if output_layer is None else output_layer - 1,\n        )\n\n        if features_only:\n            return {\"x\": x, \"padding_mask\": padding_mask, \"features\": features}\n\n        def compute_pred(proj_x, target, label_embs):\n            # compute logits for the i-th label set\n            y = torch.index_select(label_embs, 0, target.long())\n            negs = label_embs.unsqueeze(1).expand(-1, proj_x.size(0), -1)\n            if self.target_glu:\n                y = self.target_glu(y)\n                negs = self.target_glu(negs)\n            # proj_x: (S, D)\n            # y: (S, D)\n            # negs: (Neg, S, D)\n            return self.compute_nce(proj_x, y, negs)\n\n        label_embs_list = self.label_embs_concat.split(self.num_classes, 0)\n\n        if not self.skip_masked:\n            masked_indices = torch.logical_and(~padding_mask, mask_indices)\n            proj_x_m = self.final_proj(x[masked_indices])\n            if self.untie_final_proj:\n                proj_x_m_list = proj_x_m.chunk(len(target_list), dim=-1)\n            else:\n                proj_x_m_list = [proj_x_m for _ in range(len(target_list))]\n            logit_m_list = [\n                compute_pred(proj_x_m, t[masked_indices], label_embs_list[i])\n                for i, (proj_x_m, t) in enumerate(zip(proj_x_m_list, target_list))\n            ]\n        else:\n            logit_m_list = [None for _ in target_list]\n\n        if not self.skip_nomask:\n            nomask_indices = torch.logical_and(~padding_mask, ~mask_indices)\n            proj_x_u = self.final_proj(x[nomask_indices])\n            if self.untie_final_proj:\n                proj_x_u_list = proj_x_u.chunk(len(target_list), dim=-1)\n            else:\n                proj_x_u_list = [proj_x_u for _ in range(len(target_list))]\n\n            logit_u_list = [\n                compute_pred(proj_x_u, t[nomask_indices], label_embs_list[i])\n                for i, (proj_x_u, t) in enumerate(zip(proj_x_u_list, target_list))\n            ]\n        else:\n            logit_u_list = [None for _ in target_list]\n\n        result = {\n            \"logit_m_list\": logit_m_list,\n            \"logit_u_list\": logit_u_list,\n            \"padding_mask\": padding_mask,\n            \"features_pen\": features_pen,\n        }\n        return result\n\n    def extract_features(\n        self,\n        source: torch.Tensor,\n        padding_mask: Optional[torch.Tensor] = None,\n        mask: bool = False,\n        ret_conv: bool = False,\n        output_layer: Optional[int] = None,\n    ) -> Tuple[torch.Tensor, torch.Tensor]:\n        res = self.forward(\n            source,\n            padding_mask=padding_mask,\n            mask=mask,\n            features_only=True,\n            output_layer=output_layer,\n        )\n        feature = res[\"features\"] if ret_conv else res[\"x\"]\n        return feature, res[\"padding_mask\"]\n\n    def get_logits(self, net_output, is_masked=True):\n        if is_masked:\n            logits_list = net_output[\"logit_m_list\"]\n        else:\n            logits_list = net_output[\"logit_u_list\"]\n        logits_list = [x.float() for x in logits_list if x is not None]\n        return logits_list\n\n    def get_targets(self, net_output, is_masked=True):\n        logits_list = self.get_logits(net_output, is_masked)\n        targets_list = [x.new_zeros(x.size(0), dtype=torch.long) for x in logits_list]\n        return targets_list\n\n    def get_extra_losses(self, net_output):\n        extra_losses = []\n        names = []\n\n        if \"features_pen\" in net_output:\n            extra_losses.append(net_output[\"features_pen\"])\n            names.append(\"features_pen\")\n\n        return extra_losses, names\n\n    def remove_pretraining_modules(self):\n        self.target_glu = None\n        self.final_proj = None\n"
  },
  {
    "path": "fairseq/models/hubert/hubert_asr.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport contextlib\nimport copy\nimport logging\nimport math\nfrom argparse import Namespace\nfrom dataclasses import dataclass, field\nfrom typing import Any, Optional\nimport numpy as np\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom omegaconf import II, MISSING, open_dict\n\nfrom fairseq import checkpoint_utils, tasks, utils\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.models import (\n    BaseFairseqModel,\n    FairseqEncoder,\n    FairseqEncoderDecoderModel,\n    FairseqIncrementalDecoder,\n    register_model,\n)\nfrom fairseq.models.hubert.hubert import MASKING_DISTRIBUTION_CHOICES\nfrom fairseq.modules import LayerNorm, PositionalEmbedding, TransformerDecoderLayer\nfrom fairseq.tasks import FairseqTask\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass HubertAsrConfig(FairseqDataclass):\n    w2v_path: str = field(default=MISSING, metadata={\"help\": \"path to hubert model\"})\n    no_pretrained_weights: bool = field(\n        default=False,\n        metadata={\"help\": \"if true, does not load pretrained weights\"},\n    )\n    dropout_input: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout to apply to the input (after feat extr)\"},\n    )\n    final_dropout: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout after transformer and before final projection\"},\n    )\n    dropout: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout probability inside hubert model\"},\n    )\n    attention_dropout: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"dropout probability for attention weights \" \"inside hubert model\"\n        },\n    )\n    activation_dropout: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"dropout probability after activation in FFN \" \"inside hubert model\"\n        },\n    )\n    encoder_embed_dim: Optional[int] = field(\n        default=768, metadata={\"help\": \"encoder embedding dimension\"}\n    )\n\n    # masking\n    apply_mask: bool = field(\n        default=False, metadata={\"help\": \"apply masking during fine-tuning\"}\n    )\n    mask_length: int = field(\n        default=10, metadata={\"help\": \"repeat the mask indices multiple times\"}\n    )\n    mask_prob: float = field(\n        default=0.5,\n        metadata={\n            \"help\": \"probability of replacing a token with mask \"\n            \"(normalized by length)\"\n        },\n    )\n    mask_selection: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\", metadata={\"help\": \"how to choose masks\"}\n    )\n    mask_other: float = field(\n        default=0,\n        metadata={\n            \"help\": \"secondary mask argument \"\n            \"(used for more complex distributions), \"\n            \"see help in compute_mask_indices\"\n        },\n    )\n    no_mask_overlap: bool = field(\n        default=False, metadata={\"help\": \"whether to allow masks to overlap\"}\n    )\n\n    # channel masking\n    mask_channel_length: int = field(\n        default=10,\n        metadata={\"help\": \"length of the mask for features (channels)\"},\n    )\n    mask_channel_prob: float = field(\n        default=0.0,\n        metadata={\"help\": \"probability of replacing a feature with 0\"},\n    )\n    mask_channel_selection: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\",\n        metadata={\"help\": \"how to choose mask length for channel masking\"},\n    )\n    mask_channel_other: float = field(\n        default=0,\n        metadata={\n            \"help\": \"secondary mask argument \"\n            \"(used for more complex distributions), \"\n            \"see help in compute_mask_indices\"\n        },\n    )\n    no_mask_channel_overlap: bool = field(\n        default=False,\n        metadata={\"help\": \"whether to allow channel masks to overlap\"},\n    )\n    freeze_finetune_updates: int = field(\n        default=0,\n        metadata={\"help\": \"dont finetune hubert for this many updates\"},\n    )\n    feature_grad_mult: float = field(\n        default=0.0,\n        metadata={\"help\": \"reset feature grad mult in hubert to this\"},\n    )\n    layerdrop: float = field(\n        default=0.0,\n        metadata={\"help\": \"probability of dropping a layer in hubert\"},\n    )\n    normalize: bool = II(\"task.normalize\")\n    data: str = II(\"task.data\")\n\n    # this holds the loaded hubert args\n    w2v_args: Any = None\n\n\n@dataclass\nclass HubertCtcConfig(HubertAsrConfig):\n    pass\n\n\n@register_model(\"hubert_ctc\", dataclass=HubertCtcConfig)\nclass HubertCtc(BaseFairseqModel):\n    def __init__(self, cfg: HubertCtcConfig, w2v_encoder: BaseFairseqModel):\n        super().__init__()\n        self.cfg = cfg\n        self.w2v_encoder = w2v_encoder\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        super().upgrade_state_dict_named(state_dict, name)\n        return state_dict\n\n    @classmethod\n    def build_model(cls, cfg: HubertCtcConfig, task: FairseqTask):\n        \"\"\"Build a new model instance.\"\"\"\n        w2v_encoder = HubertEncoder(cfg, task)\n        return cls(cfg, w2v_encoder)\n\n    def get_normalized_probs(self, net_output, log_probs):\n        \"\"\"Get normalized probabilities (or log probs) from a net's output.\"\"\"\n\n        logits = net_output[\"encoder_out\"]\n        if log_probs:\n            return utils.log_softmax(logits.float(), dim=-1)\n        else:\n            return utils.softmax(logits.float(), dim=-1)\n\n    def get_logits(self, net_output):\n        logits = net_output[\"encoder_out\"]\n        padding = net_output[\"encoder_padding_mask\"]\n        if padding is not None and padding.any():\n            padding = padding.T\n            logits[padding][..., 0] = 0\n            logits[padding][..., 1:] = float(\"-inf\")\n\n        return logits\n\n    def forward(self, **kwargs):\n        x = self.w2v_encoder(**kwargs)\n        return x\n\n\n@dataclass\nclass HubertSeq2SeqConfig(HubertAsrConfig):\n    decoder_embed_dim: int = field(\n        default=768, metadata={\"help\": \"decoder embedding dimension\"}\n    )\n    decoder_ffn_embed_dim: int = field(\n        default=3072, metadata={\"help\": \"decoder embedding dimension for FFN\"}\n    )\n    decoder_layers: int = field(default=6, metadata={\"help\": \"num of decoder layers\"})\n    decoder_layerdrop: float = field(\n        default=0.0, metadata={\"help\": \"decoder layerdrop chance\"}\n    )\n    decoder_attention_heads: int = field(\n        default=4, metadata={\"help\": \"num decoder attention heads\"}\n    )\n    decoder_learned_pos: bool = field(\n        default=False,\n        metadata={\"help\": \"use learned positional embeddings in the decoder\"},\n    )\n    decoder_normalize_before: bool = field(\n        default=False, metadata={\"help\": \"apply layernorm before each decoder block\"}\n    )\n    no_token_positional_embeddings: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, disables positional embeddings (outside self attention)\"\n        },\n    )\n    decoder_dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout probability in the decoder\"}\n    )\n    decoder_attention_dropout: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"dropout probability for attention weights inside the decoder\"\n        },\n    )\n    decoder_activation_dropout: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"dropout probability after activation in FFN inside the decoder\"\n        },\n    )\n    max_target_positions: int = field(\n        default=2048, metadata={\"help\": \"max target positions\"}\n    )\n    share_decoder_input_output_embed: bool = field(\n        default=False, metadata={\"help\": \"share decoder input and output embeddings\"}\n    )\n    autoregressive: bool = II(\"task.autoregressive\")\n    seq2seq_path: str = field(\n        default=\"\",\n        metadata={\"help\": \"reset_dict\"},\n    )\n    reset_dict: bool = field(\n        default=False,\n        metadata={\"help\": \"reset_dict\"},\n    )\n\n\n@register_model(\"hubert_seq2seq\", dataclass=HubertSeq2SeqConfig)\nclass HubertSeq2SeqModel(FairseqEncoderDecoderModel):\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @classmethod\n    def build_model(cls, cfg: HubertSeq2SeqConfig, task: FairseqTask):\n        \"\"\"Build a new model instance.\"\"\"\n\n        assert (\n            cfg.autoregressive\n        ), \"Please set task.autoregressive=true for seq2seq asr models\"\n\n        src_dict, tgt_dict = task.source_dictionary, task.target_dictionary\n\n        def build_embedding(dictionary, embed_dim):\n            num_embeddings = len(dictionary)\n            padding_idx = dictionary.pad()\n            emb = Embedding(num_embeddings, embed_dim, padding_idx)\n            return emb\n\n        decoder_embed_tokens = build_embedding(tgt_dict, cfg.decoder_embed_dim)\n\n        encoder = cls.build_encoder(cfg, task)\n        decoder = cls.build_decoder(cfg, tgt_dict, decoder_embed_tokens)\n\n        model = HubertSeq2SeqModel(encoder, decoder)\n\n        if cfg[\"seq2seq_path\"]:\n            state = checkpoint_utils.load_checkpoint_to_cpu(cfg.seq2seq_path)\n            state = state[\"model\"]\n            if cfg[\"reset_dict\"]:\n                del state[\"decoder.embed_out\"]\n                del state[\"decoder.embed_tokens.weight\"]\n            model.load_state_dict(state, strict=False)\n        return model\n\n    @classmethod\n    def build_encoder(cls, cfg: HubertAsrConfig, task):\n        return HubertEncoder(cfg, task)\n\n    @classmethod\n    def build_decoder(cls, cfg: HubertSeq2SeqConfig, tgt_dict, embed_tokens):\n        return TransformerDecoder(cfg, tgt_dict, embed_tokens)\n\n    def forward(self, **kwargs):\n        encoder_out = self.encoder(**kwargs)\n        decoder_out = self.decoder(encoder_out=encoder_out, **kwargs)\n        return decoder_out\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        return state_dict\n\n    def load_state_dict(\n        self,\n        state_dict,\n        strict=True,\n        model_cfg=None,\n        args: Optional[Namespace] = None,\n    ):\n        if model_cfg.reset_dict:\n            logger.warn(\"Overriding loading strict state dict!\")\n            del state_dict[\"decoder.embed_out\"]\n            del state_dict[\"decoder.embed_tokens.weight\"]\n            return super().load_state_dict(state_dict, False, model_cfg, args)\n        return super().load_state_dict(state_dict, strict, model_cfg, args)\n\n\nclass HubertEncoder(FairseqEncoder):\n    def __init__(self, cfg: HubertAsrConfig, task):\n        self.apply_mask = cfg.apply_mask\n\n        arg_overrides = {\n            \"dropout\": cfg.dropout,\n            \"activation_dropout\": cfg.activation_dropout,\n            \"dropout_input\": cfg.dropout_input,\n            \"attention_dropout\": cfg.attention_dropout,\n            \"mask_length\": cfg.mask_length,\n            \"mask_prob\": cfg.mask_prob,\n            \"mask_selection\": cfg.mask_selection,\n            \"mask_other\": cfg.mask_other,\n            \"no_mask_overlap\": cfg.no_mask_overlap,\n            \"mask_channel_length\": cfg.mask_channel_length,\n            \"mask_channel_prob\": cfg.mask_channel_prob,\n            \"mask_channel_selection\": cfg.mask_channel_selection,\n            \"mask_channel_other\": cfg.mask_channel_other,\n            \"no_mask_channel_overlap\": cfg.no_mask_channel_overlap,\n            \"encoder_layerdrop\": cfg.layerdrop,\n            \"feature_grad_mult\": cfg.feature_grad_mult,\n        }\n\n        if cfg.w2v_args is None:\n            state = checkpoint_utils.load_checkpoint_to_cpu(cfg.w2v_path, arg_overrides)\n            w2v_args = state.get(\"cfg\", None)\n            if w2v_args is None:\n                w2v_args = convert_namespace_to_omegaconf(state[\"args\"])\n            cfg.w2v_args = w2v_args\n        else:\n            state = None\n            w2v_args = cfg.w2v_args\n            if isinstance(w2v_args, Namespace):\n                cfg.w2v_args = w2v_args = convert_namespace_to_omegaconf(w2v_args)\n\n        assert cfg.normalize == w2v_args.task.normalize, (\n            \"Fine-tuning works best when data normalization is the same. \"\n            \"Please check that --normalize is set or unset for \"\n            \"both pre-training and here\"\n        )\n\n        w2v_args.task.data = cfg.data\n        pretrain_task = tasks.setup_task(w2v_args.task)\n        if state is not None and \"task_state\" in state:\n            # This will load the stored \"dictionaries\" object\n            pretrain_task.load_state_dict(state[\"task_state\"])\n        else:\n            pretrain_task.load_state_dict(task.state_dict())\n\n        model = pretrain_task.build_model(w2v_args.model, from_checkpoint=True)\n        if state is not None and not cfg.no_pretrained_weights:\n            # set strict=False because we omit some modules\n            model.load_state_dict(state[\"model\"], strict=False)\n\n        model.remove_pretraining_modules()\n\n        super().__init__(pretrain_task.source_dictionary)\n\n        d = w2v_args.model.encoder_embed_dim\n\n        self.w2v_model = model\n\n        self.final_dropout = nn.Dropout(cfg.final_dropout)\n        self.freeze_finetune_updates = cfg.freeze_finetune_updates\n        self.num_updates = 0\n\n        if task.target_dictionary is not None and not cfg.autoregressive:\n            self.proj = Linear(d, len(task.target_dictionary))\n        elif getattr(cfg, \"decoder_embed_dim\", d) != d:\n            self.proj = Linear(d, cfg.decoder_embed_dim)\n        else:\n            self.proj = None\n\n    def set_num_updates(self, num_updates):\n        \"\"\"Set the number of parameters updates.\"\"\"\n        super().set_num_updates(num_updates)\n        self.num_updates = num_updates\n\n    def forward(self, source, padding_mask, tbc=True, **kwargs):\n\n        w2v_args = {\n            \"source\": source,\n            \"padding_mask\": padding_mask,\n            \"mask\": self.apply_mask and self.training,\n        }\n\n        ft = self.freeze_finetune_updates <= self.num_updates\n\n        with torch.no_grad() if not ft else contextlib.ExitStack():\n            x, padding_mask = self.w2v_model.extract_features(**w2v_args)\n\n            if tbc:\n                # B x T x C -> T x B x C\n                x = x.transpose(0, 1)\n\n        x = self.final_dropout(x)\n\n        if self.proj:\n            x = self.proj(x)\n\n        return {\n            \"encoder_out\": x,  # T x B x C\n            \"encoder_padding_mask\": padding_mask,  # B x T\n            \"padding_mask\": padding_mask,\n        }\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        if encoder_out[\"encoder_out\"] is not None:\n            encoder_out[\"encoder_out\"] = encoder_out[\"encoder_out\"].index_select(\n                1, new_order\n            )\n        if encoder_out[\"encoder_padding_mask\"] is not None:\n            encoder_out[\"encoder_padding_mask\"] = encoder_out[\n                \"encoder_padding_mask\"\n            ].index_select(0, new_order)\n        if encoder_out[\"padding_mask\"] is not None:\n            encoder_out[\"padding_mask\"] = encoder_out[\"padding_mask\"].index_select(\n                0, new_order\n            )\n        return encoder_out\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return None\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        return state_dict\n\n\nclass TransformerDecoder(FairseqIncrementalDecoder):\n    \"\"\"\n    Transformer decoder consisting of *args.decoder_layers* layers. Each layer\n    is a :class:`TransformerDecoderLayer`.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        dictionary (~fairseq.data.Dictionary): decoding dictionary\n        embed_tokens (torch.nn.Embedding): output embedding\n        no_encoder_attn (bool, optional): whether to attend to encoder outputs\n            (default: False).\n    \"\"\"\n\n    def __init__(\n        self,\n        cfg: HubertSeq2SeqConfig,\n        dictionary,\n        embed_tokens,\n        no_encoder_attn=False,\n    ):\n        super().__init__(dictionary)\n\n        self.dropout = cfg.decoder_dropout\n        self.share_input_output_embed = cfg.share_decoder_input_output_embed\n\n        input_embed_dim = embed_tokens.embedding_dim\n        embed_dim = cfg.decoder_embed_dim\n        self.output_embed_dim = cfg.decoder_embed_dim\n\n        self.layerdrop = cfg.decoder_layerdrop\n\n        self.padding_idx = embed_tokens.padding_idx\n        self.max_target_positions = cfg.max_target_positions\n\n        self.embed_tokens = embed_tokens\n        self.embed_scale = math.sqrt(embed_dim)  # todo: try with input_embed_dim\n\n        self.project_in_dim = (\n            Linear(input_embed_dim, embed_dim, bias=False)\n            if embed_dim != input_embed_dim\n            else None\n        )\n\n        self.embed_positions = (\n            PositionalEmbedding(\n                cfg.max_target_positions,\n                embed_dim,\n                self.padding_idx,\n                learned=cfg.decoder_learned_pos,\n            )\n            if not cfg.no_token_positional_embeddings\n            else None\n        )\n\n        # TODO: update this when transformer gets converted to dataclass configs\n        transformer_cfg = copy.deepcopy(cfg)\n        with open_dict(transformer_cfg):\n            transformer_cfg.dropout = transformer_cfg.decoder_dropout\n            transformer_cfg.attention_dropout = (\n                transformer_cfg.decoder_attention_dropout\n            )\n            transformer_cfg.activation_dropout = (\n                transformer_cfg.decoder_activation_dropout\n            )\n\n        self.layers = nn.ModuleList([])\n        self.layers.extend(\n            [\n                TransformerDecoderLayer(transformer_cfg, no_encoder_attn)\n                for _ in range(transformer_cfg.decoder_layers)\n            ]\n        )\n\n        if not self.share_input_output_embed:\n            self.embed_out = nn.Parameter(\n                torch.Tensor(len(dictionary), self.output_embed_dim)\n            )\n            nn.init.normal_(self.embed_out, mean=0, std=self.output_embed_dim**-0.5)\n\n        if transformer_cfg.decoder_normalize_before:\n            self.layer_norm = LayerNorm(embed_dim)\n        else:\n            self.layer_norm = None\n\n    def forward(\n        self, prev_output_tokens, encoder_out=None, incremental_state=None, **unused\n    ):\n        \"\"\"\n        Args:\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for teacher forcing\n            encoder_out (Tensor, optional): output from the encoder, used for\n                encoder-side attention\n            incremental_state (dict): dictionary used for storing state during\n                :ref:`Incremental decoding`\n\n        Returns:\n            tuple:\n                - the decoder's output of shape `(batch, tgt_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        if type(prev_output_tokens) == list:\n            max_len = max((len(x) for x in prev_output_tokens))\n            tmp = torch.zeros(\n                [len(prev_output_tokens), max_len], device=prev_output_tokens[0].device\n            )\n            for (i, p) in enumerate(prev_output_tokens):\n                tmp[i, : len(p)] = p\n            prev_output_tokens = tmp\n        prev_output_tokens = prev_output_tokens.long()\n        x, extra = self.extract_features(\n            prev_output_tokens, encoder_out, incremental_state\n        )\n        x = self.output_layer(x)\n        return x, extra\n\n    def extract_features(\n        self, prev_output_tokens, encoder_out=None, incremental_state=None, **unused\n    ):\n        \"\"\"\n        Similar to *forward* but only return features.\n\n        Returns:\n            tuple:\n                - the decoder's features of shape `(batch, tgt_len, embed_dim)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n\n        # embed positions\n        positions = (\n            self.embed_positions(\n                prev_output_tokens, incremental_state=incremental_state\n            )\n            if self.embed_positions is not None\n            else None\n        )\n\n        if incremental_state is not None:\n            prev_output_tokens = prev_output_tokens[:, -1:]\n            if positions is not None:\n                positions = positions[:, -1:]\n\n        # embed tokens and positions\n        x = self.embed_scale * self.embed_tokens(prev_output_tokens)\n\n        if self.project_in_dim is not None:\n            x = self.project_in_dim(x)\n\n        if positions is not None:\n            x += positions\n        x = F.dropout(x, p=self.dropout, training=self.training)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n        attn = None\n\n        inner_states = [x]\n\n        # decoder layers\n        self_attn_padding_mask = None\n        if prev_output_tokens.eq(self.padding_idx).any():\n            self_attn_padding_mask = prev_output_tokens.eq(self.padding_idx)\n        for layer in self.layers:\n            dropout_probability = np.random.random()\n            if not self.training or (dropout_probability > self.layerdrop):\n                x, attn, _ = layer(\n                    x,\n                    encoder_out[\"encoder_out\"] if encoder_out is not None else None,\n                    encoder_out[\"padding_mask\"] if encoder_out is not None else None,\n                    incremental_state,\n                    self_attn_mask=self.buffered_future_mask(x)\n                    if incremental_state is None\n                    else None,\n                    self_attn_padding_mask=self_attn_padding_mask,\n                )\n                inner_states.append(x)\n\n        if self.layer_norm:\n            x = self.layer_norm(x)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        return x, {\"attn\": attn, \"inner_states\": inner_states}\n\n    def output_layer(self, features, **kwargs):\n        \"\"\"Project features to the vocabulary size.\"\"\"\n        # project back to size of vocabulary\n        if self.share_input_output_embed:\n            return F.linear(features, self.embed_tokens.weight)\n        else:\n            return F.linear(features, self.embed_out)\n\n    def max_positions(self):\n        \"\"\"Maximum output length supported by the decoder.\"\"\"\n        if self.embed_positions is None:\n            return self.max_target_positions\n        return min(self.max_target_positions, self.embed_positions.max_positions)\n\n    def buffered_future_mask(self, tensor):\n        dim = tensor.size(0)\n        if (\n            not hasattr(self, \"_future_mask\")\n            or self._future_mask is None\n            or self._future_mask.device != tensor.device\n            or self._future_mask.size(0) < dim\n        ):\n            self._future_mask = torch.triu(\n                utils.fill_with_neg_inf(tensor.new(dim, dim)), 1\n            )\n        return self._future_mask[:dim, :dim]\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        return state_dict\n\n\ndef Embedding(num_embeddings, embedding_dim, padding_idx):\n    m = nn.Embedding(num_embeddings, embedding_dim, padding_idx=padding_idx)\n    nn.init.normal_(m.weight, mean=0, std=embedding_dim**-0.5)\n    nn.init.constant_(m.weight[padding_idx], 0)\n    return m\n\n\ndef Linear(in_features, out_features, bias=True):\n    m = nn.Linear(in_features, out_features, bias)\n    nn.init.xavier_uniform_(m.weight)\n    if bias:\n        nn.init.constant_(m.bias, 0.0)\n    return m\n"
  },
  {
    "path": "fairseq/models/huggingface/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport importlib\nimport os\n\n\n# automatically import any Python files in the models/huggingface/ directory\nmodels_dir = os.path.dirname(__file__)\nfor file in os.listdir(models_dir):\n    path = os.path.join(models_dir, file)\n    if (\n        not file.startswith(\"_\")\n        and not file.startswith(\".\")\n        and (file.endswith(\".py\") or os.path.isdir(path))\n    ):\n        model_name = file[: file.find(\".py\")] if file.endswith(\".py\") else file\n        module = importlib.import_module(\"fairseq.models.huggingface.\" + model_name)\n"
  },
  {
    "path": "fairseq/models/huggingface/hf_gpt2.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport sys\nfrom typing import Dict, List, Optional\n\nimport torch\nfrom fairseq.models import (\n    FairseqIncrementalDecoder,\n    FairseqLanguageModel,\n    register_model,\n    register_model_architecture,\n)\n\n\nlogger = logging.getLogger(__name__)\n\n\nDEFAULT_MAX_TARGET_POSITIONS = 1024\n\n\n@register_model(\"hf_gpt2\")\nclass HuggingFaceGPT2LanguageModel(FairseqLanguageModel):\n    def __init__(self, decoder):\n        super().__init__(decoder)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--embed-dim', type=int, metavar='N',\n                            help='embedding dimension')\n        parser.add_argument('--num-attention-heads', type=int, metavar='N',\n                            help='num attention heads')\n        parser.add_argument('--num-layers', type=int, metavar='N',\n                            help='num layers')\n        parser.add_argument('--dropout', type=float, metavar='D',\n                            help='dropout probability for all fully connected layers '\n                                 'in the embeddings, encoder, and pooler')\n        parser.add_argument('--attention-dropout', type=float, metavar='D',\n                            help='dropout probability for attention weights')\n        # fmt: on\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        default_architecture(args)\n        return cls(HuggingFaceGPT2Decoder(args, task))\n\n\nclass HuggingFaceGPT2Decoder(FairseqIncrementalDecoder):\n    def __init__(self, args, task):\n        try:\n            from transformers import GPT2Config, GPT2LMHeadModel\n        except ImportError:\n            raise ImportError(\n                \"\\n\\nPlease install huggingface/transformers with:\"\n                \"\\n\\n  pip install transformers\"\n            )\n\n        super().__init__(task.target_dictionary)\n\n        config = GPT2Config(\n            vocab_size=len(task.target_dictionary),\n            n_positions=args.max_target_positions + 1,\n            n_ctx=args.max_target_positions,\n            n_embd=args.embed_dim,\n            n_layer=args.num_layers,\n            n_head=args.num_attention_heads,\n            resid_pdrop=args.dropout,\n            embd_pdrop=args.dropout,\n            attn_pdrop=args.attention_dropout,\n            layer_norm_epsilon=1e-6,\n        )\n        self.model = GPT2LMHeadModel(config)\n\n        # set zero embedding for padding symbol\n        self.pad_idx = task.target_dictionary.pad()\n        self.model.transformer.wte.weight.data[self.pad_idx].zero_()\n        self.model.transformer.wpe.weight.data[0].zero_()\n\n    def forward(\n        self,\n        prev_output_tokens,\n        src_lengths=None,\n        incremental_state: Optional[Dict[str, List[torch.Tensor]]] = None,\n        encoder_out=None,\n    ):\n        features = self.extract_features(prev_output_tokens, incremental_state)\n        lm_logits = self.model.lm_head(features)\n        return (lm_logits,)\n\n    def extract_features(\n        self,\n        prev_output_tokens,\n        incremental_state: Optional[Dict[str, List[torch.Tensor]]] = None,\n    ):\n        if incremental_state:\n            past = self.get_incremental_state(\"past\")\n        else:\n            past = None\n\n        # don't attend to padding symbols\n        attention_mask = prev_output_tokens.ne(self.pad_idx).int()\n\n        # set position ids to exclude padding symbols\n        position_ids = attention_mask * (\n            torch.arange(1, 1 + prev_output_tokens.size(1))\n            .to(prev_output_tokens)\n            .repeat(prev_output_tokens.size(0), 1)\n        )\n\n        outputs = self.model.transformer(\n            input_ids=prev_output_tokens,\n            past=past,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n        )\n        last_hidden_states = outputs[0]\n\n        if incremental_state:\n            self.set_incremental_state(incremental_state, \"past\", outputs[1])\n\n        return last_hidden_states\n\n    def max_positions(self):\n        return self.model.config.n_positions - 1\n\n\n@register_model_architecture(\"hf_gpt2\", \"hf_gpt2\")\ndef default_architecture(args):\n    if getattr(args, \"max_target_positions\", None) is None:\n        args.max_target_positions = getattr(\n            args, \"tokens_per_sample\", DEFAULT_MAX_TARGET_POSITIONS\n        )\n    args.embed_dim = getattr(args, \"embed_dim\", 768)\n    args.num_attention_heads = getattr(args, \"num_attention_heads\", 12)\n    args.num_layers = getattr(args, \"num_layers\", 12)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.1)\n\n\n@register_model_architecture(\"hf_gpt2\", \"hf_gpt2_medium\")\ndef hf_gpt2_medium(args):\n    args.embed_dim = getattr(args, \"embed_dim\", 1024)\n    args.num_attention_heads = getattr(args, \"num_attention_heads\", 16)\n    args.num_layers = getattr(args, \"num_layers\", 24)\n    default_architecture(args)\n\n\n@register_model_architecture(\"hf_gpt2\", \"hf_gpt2_large\")\ndef hf_gpt2_large(args):\n    args.embed_dim = getattr(args, \"embed_dim\", 1280)\n    args.num_attention_heads = getattr(args, \"num_attention_heads\", 20)\n    args.num_layers = getattr(args, \"num_layers\", 36)\n    default_architecture(args)\n\n\n@register_model_architecture(\"hf_gpt2\", \"hf_gpt2_xl\")\ndef hf_gpt2_xl(args):\n    args.embed_dim = getattr(args, \"embed_dim\", 1600)\n    args.num_attention_heads = getattr(args, \"num_attention_heads\", 25)\n    args.num_layers = getattr(args, \"num_layers\", 48)\n    default_architecture(args)\n"
  },
  {
    "path": "fairseq/models/lightconv.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom typing import Any, Dict, List, Optional, Tuple\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nfrom fairseq import utils\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderDecoderModel,\n    FairseqIncrementalDecoder,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.modules import (\n    AdaptiveSoftmax,\n    DynamicConv_scripatable as DynamicConv,\n    FairseqDropout,\n    LayerNorm,\n    LightweightConv,\n    MultiheadAttention,\n    PositionalEmbedding,\n)\nfrom fairseq.utils import safe_hasattr\nfrom torch import Tensor\n\n\n@register_model(\"lightconv\")\nclass LightConvModel(FairseqEncoderDecoderModel):\n    \"\"\"\n    LightConv and DynamicConv model from `\"Pay Less Attention with Lightweight and Dynamic Convolutions\" (Wu, et al, 2019)\n    <https://openreview.net/pdf?id=SkVhlh09tX>`_.\n    To use LightConv please set ``--encoder-conv-type lightweight --decoder-conv-type lightweight``\n    To use DynamicConv please set ``--encoder-conv-type dynamic --decoder-conv-type dynamic``\n\n    Args:\n        encoder (LightConvEncoder): the encoder\n        decoder (LightConvDecoder): the decoder\n\n    The LightConv model provides the following named architectures and\n    command-line arguments:\n\n    .. argparse::\n        :ref: fairseq.models.lightconv_parser\n        :prog:\n    \"\"\"\n\n    @classmethod\n    def hub_models(cls):\n        # fmt: off\n\n        def moses_subword(path):\n            return {\n                'path': path,\n                'tokenizer': 'moses',\n                'bpe': 'subword_nmt',\n            }\n\n        return {\n            'lightconv.no_glu.iwslt14.de-en': moses_subword('https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/iwslt14.de-en.lightconv.tar.gz'),\n            'dynamicconv.no_glu.iwslt14.de-en': moses_subword('https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/iwslt14.de-en.dynamicconv.tar.gz'),\n            'lightconv.no_glu.wmt16.en-de': moses_subword('https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt16.en-de.joined-dict.lightconv.tar.gz'),\n            'dynamicconv.no_glu.wmt16.en-de': moses_subword('https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt16.en-de.joined-dict.dynamicconv.tar.gz'),\n            'lightconv.glu.wmt16.en-de': moses_subword('https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt16.en-de.joined-dict.lightconv-glu.tar.gz'),\n            'dynamicconv.glu.wmt16.en-de': moses_subword('https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt16.en-de.joined-dict.dynamicconv-glu.tar.gz'),\n            'lightconv.glu.wmt17.en-de': moses_subword('https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt16.en-de.joined-dict.lightconv-glu.tar.gz'),\n            'dynamicconv.glu.wmt17.en-de': moses_subword('https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt16.en-de.joined-dict.dynamicconv-glu.tar.gz'),\n            'lightconv.glu.wmt14.en-fr': moses_subword('https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt14.en-fr.joined-dict.lightconv-glu.tar.gz'),\n            'dynamicconv.glu.wmt14.en-fr': moses_subword('https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt14.en-fr.joined-dict.dynamicconv-glu.tar.gz'),\n            'lightconv.glu.wmt17.zh-en': moses_subword('https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt17.zh-en.lightconv-glu.tar.gz'),\n            'dynamicconv.glu.wmt17.zh-en': moses_subword('https://dl.fbaipublicfiles.com/fairseq/models/dynamicconv/wmt17.zh-en.dynamicconv-glu.tar.gz'),\n        }\n        # fmt: on\n\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        parser.add_argument(\n            \"--dropout\", type=float, metavar=\"D\", help=\"dropout probability\"\n        )\n        parser.add_argument(\n            \"--attention-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for attention weights\",\n        )\n        parser.add_argument(\n            \"--relu-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability after ReLU in FFN\",\n        )\n        parser.add_argument(\n            \"--input-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability of the inputs\",\n        )\n        parser.add_argument(\n            \"--encoder-embed-path\",\n            type=str,\n            metavar=\"STR\",\n            help=\"path to pre-trained encoder embedding\",\n        )\n        parser.add_argument(\n            \"--encoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--encoder-conv-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--encoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--encoder-layers\", type=int, metavar=\"N\", help=\"num encoder layers\"\n        )\n        parser.add_argument(\n            \"--encoder-attention-heads\",\n            type=int,\n            metavar=\"N\",\n            help=\"num encoder attention heads or LightConv/DynamicConv heads\",\n        )\n        parser.add_argument(\n            \"--encoder-normalize-before\",\n            action=\"store_true\",\n            help=\"apply layernorm before each encoder block\",\n        )\n        parser.add_argument(\n            \"--encoder-learned-pos\",\n            action=\"store_true\",\n            help=\"use learned positional embeddings in the encoder\",\n        )\n        parser.add_argument(\n            \"--decoder-embed-path\",\n            type=str,\n            metavar=\"STR\",\n            help=\"path to pre-trained decoder embedding\",\n        )\n        parser.add_argument(\n            \"--decoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--decoder-conv-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--decoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--decoder-layers\", type=int, metavar=\"N\", help=\"num decoder layers\"\n        )\n        parser.add_argument(\n            \"--decoder-attention-heads\",\n            type=int,\n            metavar=\"N\",\n            help=\"num decoder attention heads or LightConv/DynamicConv heads\",\n        )\n        parser.add_argument(\n            \"--decoder-learned-pos\",\n            action=\"store_true\",\n            help=\"use learned positional embeddings in the decoder\",\n        )\n        parser.add_argument(\n            \"--decoder-normalize-before\",\n            action=\"store_true\",\n            help=\"apply layernorm before each decoder block\",\n        )\n        parser.add_argument(\n            \"--share-decoder-input-output-embed\",\n            action=\"store_true\",\n            help=\"share decoder input and output embeddings\",\n        )\n        parser.add_argument(\n            \"--share-all-embeddings\",\n            action=\"store_true\",\n            help=\"share encoder, decoder and output embeddings\"\n            \" (requires shared dictionary and embed dim)\",\n        )\n        parser.add_argument(\n            \"--adaptive-softmax-cutoff\",\n            metavar=\"EXPR\",\n            help=\"comma separated list of adaptive softmax cutoff points. \"\n            \"Must be used with adaptive_loss criterion\",\n        ),\n        parser.add_argument(\n            \"--adaptive-softmax-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"sets adaptive softmax dropout for the tail projections\",\n        )\n\n        \"\"\"LightConv and DynamicConv arguments\"\"\"\n        parser.add_argument(\n            \"--encoder-kernel-size-list\",\n            type=lambda x: utils.eval_str_list(x, int),\n            help='list of kernel size (default: \"[3,7,15,31,31,31,31]\")',\n        )\n        parser.add_argument(\n            \"--decoder-kernel-size-list\",\n            type=lambda x: utils.eval_str_list(x, int),\n            help='list of kernel size (default: \"[3,7,15,31,31,31]\")',\n        )\n        parser.add_argument(\n            \"--encoder-glu\", type=utils.eval_bool, help=\"glu after in proj\"\n        )\n        parser.add_argument(\n            \"--decoder-glu\", type=utils.eval_bool, help=\"glu after in proj\"\n        )\n        parser.add_argument(\n            \"--encoder-conv-type\",\n            default=\"dynamic\",\n            type=str,\n            choices=[\"dynamic\", \"lightweight\"],\n            help=\"type of convolution\",\n        )\n        parser.add_argument(\n            \"--decoder-conv-type\",\n            default=\"dynamic\",\n            type=str,\n            choices=[\"dynamic\", \"lightweight\"],\n            help=\"type of convolution\",\n        )\n        parser.add_argument(\"--weight-softmax\", default=True, type=utils.eval_bool)\n        parser.add_argument(\n            \"--weight-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for conv weights\",\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        # make sure all arguments are present in older models\n        base_architecture(args)\n\n        if not safe_hasattr(args, \"max_source_positions\"):\n            args.max_source_positions = 1024\n        if not safe_hasattr(args, \"max_target_positions\"):\n            args.max_target_positions = 1024\n\n        src_dict, tgt_dict = task.source_dictionary, task.target_dictionary\n\n        def build_embedding(dictionary, embed_dim, path=None):\n            num_embeddings = len(dictionary)\n            padding_idx = dictionary.pad()\n            emb = Embedding(num_embeddings, embed_dim, padding_idx)\n            # if provided, load from preloaded dictionaries\n            if path:\n                embed_dict = utils.parse_embedding(path)\n                utils.load_embedding(embed_dict, dictionary, emb)\n            return emb\n\n        if args.share_all_embeddings:\n            if src_dict != tgt_dict:\n                raise RuntimeError(\n                    \"--share-all-embeddings requires a joined dictionary\"\n                )\n            if args.encoder_embed_dim != args.decoder_embed_dim:\n                raise RuntimeError(\n                    \"--share-all-embeddings requires --encoder-embed-dim to match --decoder-embed-dim\"\n                )\n            if args.decoder_embed_path and (\n                args.decoder_embed_path != args.encoder_embed_path\n            ):\n                raise RuntimeError(\n                    \"--share-all-embeddings not compatible with --decoder-embed-path\"\n                )\n            encoder_embed_tokens = build_embedding(\n                src_dict, args.encoder_embed_dim, args.encoder_embed_path\n            )\n            decoder_embed_tokens = encoder_embed_tokens\n            args.share_decoder_input_output_embed = True\n        else:\n            encoder_embed_tokens = build_embedding(\n                src_dict, args.encoder_embed_dim, args.encoder_embed_path\n            )\n            decoder_embed_tokens = build_embedding(\n                tgt_dict, args.decoder_embed_dim, args.decoder_embed_path\n            )\n\n        encoder = LightConvEncoder(args, src_dict, encoder_embed_tokens)\n        decoder = LightConvDecoder(args, tgt_dict, decoder_embed_tokens)\n        return LightConvModel(encoder, decoder)\n\n    def forward(\n        self,\n        src_tokens: Tensor,\n        src_lengths: Tensor,\n        prev_output_tokens: Tensor,\n    ):\n        \"\"\"\n        (The forward method inherited from the base class has a **kwargs\n        argument in its input, which is not supported in torchscript. This\n        method overwrites the forward method definition without **kwargs.)\n\n        Run the forward pass for an encoder-decoder model.\n\n        First feed a batch of source tokens through the encoder. Then, feed the\n        encoder output and previous decoder outputs (i.e., teacher forcing) to\n        the decoder to produce the next outputs::\n\n            encoder_out = self.encoder(src_tokens, src_lengths)\n            return self.decoder(prev_output_tokens, encoder_out)\n\n        Args:\n            src_tokens (LongTensor): tokens in the source language of shape\n                `(batch, src_len)`\n            src_lengths (LongTensor): source sentence lengths of shape `(batch)`\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for teacher forcing\n\n        Returns:\n            tuple:\n                - the decoder's output of shape `(batch, tgt_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        encoder_out = self.encoder(src_tokens, src_lengths)\n        decoder_out = self.decoder(prev_output_tokens, encoder_out=encoder_out)\n        return decoder_out\n\n\nclass LightConvEncoder(FairseqEncoder):\n    \"\"\"\n    LightConv encoder consisting of *args.encoder_layers* layers. Each layer\n    is a :class:`LightConvEncoderLayer`.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        dictionary (~fairseq.data.Dictionary): encoding dictionary\n        embed_tokens (torch.nn.Embedding): input embedding\n    \"\"\"\n\n    def __init__(self, args, dictionary, embed_tokens):\n        super().__init__(dictionary)\n        self.dropout_module = FairseqDropout(\n            args.dropout, module_name=self.__class__.__name__\n        )\n\n        embed_dim = embed_tokens.embedding_dim\n        self.padding_idx = embed_tokens.padding_idx\n        self.max_source_positions = args.max_source_positions\n\n        self.embed_tokens = embed_tokens\n        self.embed_scale = math.sqrt(embed_dim)\n        self.embed_positions = (\n            PositionalEmbedding(\n                args.max_source_positions,\n                embed_dim,\n                self.padding_idx,\n                learned=args.encoder_learned_pos,\n            )\n            if not args.no_token_positional_embeddings\n            else None\n        )\n\n        self.layers = nn.ModuleList([])\n        self.layers.extend(\n            [\n                LightConvEncoderLayer(\n                    args, kernel_size=args.encoder_kernel_size_list[i]\n                )\n                for i in range(args.encoder_layers)\n            ]\n        )\n        self.register_buffer(\"version\", torch.Tensor([2]))\n        self.normalize = args.encoder_normalize_before\n        if self.normalize:\n            self.layer_norm = LayerNorm(embed_dim)\n        else:\n            self.layer_norm = None\n\n    def forward(\n        self, src_tokens: Tensor, src_lengths: Optional[Tensor] = None\n    ) -> Dict[str, List[Tensor]]:\n        \"\"\"\n        Args:\n            src_tokens (LongTensor): tokens in the source language of shape\n                `(batch, src_len)`\n\n        Returns:\n            dict:\n                - **encoder_out** (Tensor): the last encoder layer's output of\n                  shape `(src_len, batch, embed_dim)`\n                - **encoder_padding_mask** (ByteTensor): the positions of\n                  padding elements of shape `(batch, src_len)`\n        \"\"\"\n        # embed tokens and positions\n        x = self.embed_scale * self.embed_tokens(src_tokens)\n        if self.embed_positions is not None:\n            x += self.embed_positions(src_tokens)\n        x = self.dropout_module(x)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        # compute padding mask\n        encoder_padding_mask = src_tokens.eq(self.padding_idx)  # B x T\n        if not encoder_padding_mask.any():\n            encoder_mask = None\n        else:\n            encoder_mask = encoder_padding_mask\n\n        # encoder layers\n        for layer in self.layers:\n            x = layer(x, encoder_mask)\n\n        if self.layer_norm is not None:\n            x = self.layer_norm(x)\n\n        output_dict: Dict[str, List[Tensor]] = {}\n        if src_lengths is not None:\n            output_dict[\"src_lengths\"] = [src_lengths]\n        output_dict[\"encoder_out\"] = [x]  # T x B x C\n        if encoder_mask is not None:\n            output_dict[\"encoder_padding_mask\"] = [encoder_mask]  # B x T\n\n        return output_dict\n\n    @torch.jit.export\n    def reorder_encoder_out(\n        self, encoder_out: Dict[str, List[Tensor]], new_order: Tensor\n    ):\n        \"\"\"\n        Reorder encoder output according to *new_order*.\n\n        Args:\n            encoder_out: output from the ``forward()`` method\n            new_order (LongTensor): desired order\n\n        Returns:\n            *encoder_out* rearranged according to *new_order*\n        \"\"\"\n        if len(encoder_out[\"encoder_out\"]) == 0:\n            encoder = []\n        else:\n            encoder = [encoder_out[\"encoder_out\"][0].index_select(1, new_order)]\n        output_dict = {\"encoder_out\": encoder}\n\n        if (\"encoder_padding_mask\" not in encoder_out) or (\n            len(encoder_out[\"encoder_padding_mask\"]) == 0\n        ):\n            encoder_padding_mask = []\n        else:\n            encoder_padding_mask = [\n                encoder_out[\"encoder_padding_mask\"][0].index_select(0, new_order)\n            ]\n        output_dict[\"encoder_padding_mask\"] = encoder_padding_mask\n        return output_dict\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        if self.embed_positions is None:\n            return self.max_source_positions\n        return min(self.max_source_positions, self.embed_positions.max_positions)\n\n\nclass LightConvDecoder(FairseqIncrementalDecoder):\n    \"\"\"\n    LightConv decoder consisting of *args.decoder_layers* layers. Each layer\n    is a :class:`LightConvDecoderLayer`.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        dictionary (~fairseq.data.Dictionary): decoding dictionary\n        embed_tokens (torch.nn.Embedding): output embedding\n        no_encoder_attn (bool, optional): whether to attend to encoder outputs.\n            Default: ``False``\n    \"\"\"\n\n    def __init__(\n        self, args, dictionary, embed_tokens, no_encoder_attn=False, final_norm=True\n    ):\n        super().__init__(dictionary)\n        self.dropout_module = FairseqDropout(\n            args.dropout, module_name=self.__class__.__name__\n        )\n        self.share_input_output_embed = args.share_decoder_input_output_embed\n\n        input_embed_dim = embed_tokens.embedding_dim\n        embed_dim = args.decoder_embed_dim\n        output_embed_dim = args.decoder_output_dim\n\n        padding_idx = embed_tokens.padding_idx\n        self.max_target_positions = args.max_target_positions\n\n        self.embed_tokens = embed_tokens\n        self.embed_scale = math.sqrt(embed_dim)  # todo: try with input_embed_dim\n\n        self.project_in_dim = (\n            Linear(input_embed_dim, embed_dim, bias=False)\n            if embed_dim != input_embed_dim\n            else None\n        )\n\n        self.embed_positions = (\n            PositionalEmbedding(\n                args.max_target_positions,\n                embed_dim,\n                padding_idx,\n                learned=args.decoder_learned_pos,\n            )\n            if not args.no_token_positional_embeddings\n            else None\n        )\n\n        self.layers = nn.ModuleList([])\n        self.layers.extend(\n            [\n                LightConvDecoderLayer(\n                    args,\n                    no_encoder_attn,\n                    kernel_size=args.decoder_kernel_size_list[i],\n                    dictionary=dictionary,\n                )\n                for i in range(args.decoder_layers)\n            ]\n        )\n\n        self.adaptive_softmax = None\n        self.output_projection = None\n\n        self.project_out_dim = (\n            Linear(embed_dim, output_embed_dim, bias=False)\n            if embed_dim != output_embed_dim and not args.tie_adaptive_weights\n            else None\n        )\n\n        if args.adaptive_softmax_cutoff is not None:\n            self.adaptive_softmax = AdaptiveSoftmax(\n                len(dictionary),\n                output_embed_dim,\n                utils.eval_str_list(args.adaptive_softmax_cutoff, type=int),\n                dropout=args.adaptive_softmax_dropout,\n                adaptive_inputs=embed_tokens if args.tie_adaptive_weights else None,\n                factor=args.adaptive_softmax_factor,\n                tie_proj=args.tie_adaptive_proj,\n            )\n        elif self.share_input_output_embed:\n            self.output_projection = nn.Linear(\n                self.embed_tokens.weight.shape[1],\n                self.embed_tokens.weight.shape[0],\n                bias=False,\n            )\n            self.output_projection.weight = self.embed_tokens.weight\n\n        else:\n            self.output_projection = nn.Linear(\n                output_embed_dim, len(dictionary), bias=False\n            )\n            nn.init.normal_(\n                self.output_projection.weight, mean=0, std=output_embed_dim**-0.5\n            )\n        self.register_buffer(\"version\", torch.Tensor([2]))\n        self.normalize = args.decoder_normalize_before and final_norm\n        if self.normalize:\n            self.layer_norm = LayerNorm(embed_dim)\n        else:\n            self.layer_norm = None\n\n    def forward(\n        self,\n        prev_output_tokens: Tensor,\n        encoder_out: Optional[Dict[str, List[Tensor]]] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        src_lengths: Optional[Any] = None,\n    ):\n        \"\"\"\n        Args:\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for teacher forcing\n            encoder_out (Tensor, optional): output from the encoder, used for\n                encoder-side attention\n            incremental_state (dict): dictionary used for storing state during\n                :ref:`Incremental decoding`\n\n        Returns:\n            tuple:\n                - the last decoder layer's output of shape `(batch, tgt_len,\n                  vocab)`\n                - the last decoder layer's attention weights of shape `(batch,\n                  tgt_len, src_len)`\n        \"\"\"\n        # embed positions\n        positions = (\n            self.embed_positions(\n                prev_output_tokens,\n                incremental_state=incremental_state,\n            )\n            if self.embed_positions is not None\n            else None\n        )\n\n        if incremental_state is not None:\n            prev_output_tokens = prev_output_tokens[:, -1:]\n            if positions is not None:\n                positions = positions[:, -1:]\n\n        # embed tokens and positions\n        x = self.embed_scale * self.embed_tokens(prev_output_tokens.contiguous())\n\n        if self.project_in_dim is not None:\n            x = self.project_in_dim(x)\n\n        if positions is not None:\n            x += positions\n        x = self.dropout_module(x)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n        attn = None\n\n        inner_states: List[Optional[Tensor]] = [x]\n\n        # decoder layers\n        attn: Optional[Tensor] = None\n        for layer in self.layers:\n            encoder: Optional[Tensor] = None\n            encoder_padding_mask: Optional[Tensor] = None\n            if encoder_out is not None:\n                if len(encoder_out[\"encoder_out\"]) > 0:\n                    encoder = encoder_out[\"encoder_out\"][0]\n                if (\n                    \"encoder_padding_mask\" in encoder_out\n                    and len(encoder_out[\"encoder_padding_mask\"]) > 0\n                ):\n                    encoder_padding_mask = encoder_out[\"encoder_padding_mask\"][0]\n            x, attn = layer(\n                x,\n                encoder,\n                encoder_padding_mask,\n                incremental_state,\n            )\n            inner_states.append(x)\n\n        if self.layer_norm is not None:\n            x = self.layer_norm(x)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        if self.project_out_dim is not None:\n            x = self.project_out_dim(x)\n\n        if self.adaptive_softmax is None:\n            # project back to size of vocabulary\n            x = self.output_projection(x)\n\n        return x, {\"attn\": [attn], \"inner_states\": inner_states}\n\n    def max_positions(self):\n        \"\"\"Maximum output length supported by the decoder.\"\"\"\n        if self.embed_positions is None:\n            return self.max_target_positions\n        return min(self.max_target_positions, self.embed_positions.max_positions)\n\n    def buffered_future_mask(self, tensor):\n        dim = tensor.size(0)\n        if (\n            not hasattr(self, \"_future_mask\")\n            or self._future_mask is None\n            or self._future_mask.device != tensor.device\n        ):\n            self._future_mask = torch.triu(\n                utils.fill_with_neg_inf(tensor.new(dim, dim)), 1\n            )\n        if self._future_mask.size(0) < dim:\n            self._future_mask = torch.triu(\n                utils.fill_with_neg_inf(self._future_mask.resize_(dim, dim)), 1\n            )\n        return self._future_mask[:dim, :dim]\n\n\nclass LightConvEncoderLayer(nn.Module):\n    \"\"\"Encoder layer block.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        kernel_size: kernel size of the convolution\n    \"\"\"\n\n    def __init__(self, args, kernel_size=0):\n        super().__init__()\n        self.embed_dim = args.encoder_embed_dim\n        self.conv_dim = args.encoder_conv_dim\n        padding_l = (\n            kernel_size // 2\n            if kernel_size % 2 == 1\n            else ((kernel_size - 1) // 2, kernel_size // 2)\n        )\n\n        if args.encoder_glu:\n            self.linear1 = Linear(self.embed_dim, 2 * self.conv_dim)\n            self.act = nn.GLU()\n        else:\n            self.linear1 = Linear(self.embed_dim, self.conv_dim)\n            self.act = None\n        if args.encoder_conv_type == \"lightweight\":\n            self.conv = LightweightConv(\n                self.conv_dim,\n                kernel_size,\n                padding_l=padding_l,\n                weight_softmax=args.weight_softmax,\n                num_heads=args.encoder_attention_heads,\n                weight_dropout=args.weight_dropout,\n            )\n        elif args.encoder_conv_type == \"dynamic\":\n            self.conv = DynamicConv(\n                self.conv_dim,\n                kernel_size,\n                padding_l=padding_l,\n                weight_softmax=args.weight_softmax,\n                num_heads=args.encoder_attention_heads,\n                weight_dropout=args.weight_dropout,\n            )\n        else:\n            raise NotImplementedError\n        self.linear2 = Linear(self.conv_dim, self.embed_dim)\n\n        self.dropout_module = FairseqDropout(\n            args.dropout, module_name=self.__class__.__name__\n        )\n        self.relu_dropout_module = FairseqDropout(\n            args.relu_dropout, module_name=self.__class__.__name__\n        )\n        self.input_dropout_module = FairseqDropout(\n            args.input_dropout, module_name=self.__class__.__name__\n        )\n        self.normalize_before = args.encoder_normalize_before\n        self.fc1 = Linear(self.embed_dim, args.encoder_ffn_embed_dim)\n        self.fc2 = Linear(args.encoder_ffn_embed_dim, self.embed_dim)\n        self.layer_norm1 = LayerNorm(self.embed_dim)\n        self.layer_norm2 = LayerNorm(self.embed_dim)\n\n    def forward(self, x, encoder_padding_mask: Optional[Tensor] = None) -> Tensor:\n        \"\"\"\n        Args:\n            x (Tensor): input to the layer of shape `(seq_len, batch, embed_dim)`\n            encoder_padding_mask (ByteTensor): binary ByteTensor of shape\n                `(batch, src_len)` where padding elements are indicated by ``1``.\n\n        Returns:\n            encoded output of shape `(batch, src_len, embed_dim)`\n        \"\"\"\n        residual = x\n        normalize = self.maybe_layer_norm(before=True)\n        if normalize:\n            x = self.layer_norm1(x)\n        x = self.input_dropout_module(x)\n        x = self.linear1(x)\n        if self.act is not None:\n            x = self.act(x)\n        if encoder_padding_mask is not None:\n            x = x.masked_fill(encoder_padding_mask.transpose(0, 1).unsqueeze(2), 0)\n        x = self.conv(x)\n        x = self.linear2(x)\n        x = self.dropout_module(x)\n        x = residual + x\n        normalize = self.maybe_layer_norm(after=True)\n        if normalize:\n            x = self.layer_norm1(x)\n\n        residual = x\n        normalize = self.maybe_layer_norm(before=True)\n        if normalize:\n            x = self.layer_norm2(x)\n        x = F.relu(self.fc1(x))\n        x = self.relu_dropout_module(x)\n        x = self.fc2(x)\n        x = self.dropout_module(x)\n        x = residual + x\n        normalize = self.maybe_layer_norm(after=True)\n        if normalize:\n            x = self.layer_norm2(x)\n        return x\n\n    def maybe_layer_norm(self, before: bool = False, after: bool = False):\n        assert before ^ after, \"Incorrect arguments\"\n        return after ^ self.normalize_before\n\n    def extra_repr(self):\n        return (\n            \"dropout={}, relu_dropout={}, input_dropout={}, normalize_before={}\".format(\n                self.dropout_module.p,\n                self.relu_dropout_module.p,\n                self.input_dropout_module.p,\n                self.normalize_before,\n            )\n        )\n\n\nclass LightConvDecoderLayer(nn.Module):\n    \"\"\"Decoder layer block.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        no_encoder_attn (bool, optional): whether to attend to encoder outputs.\n            Default: ``False``\n        kernel_size: kernel size of the convolution\n    \"\"\"\n\n    def __init__(self, args, no_encoder_attn=False, kernel_size=0, dictionary=None):\n        super().__init__()\n        self.embed_dim = args.decoder_embed_dim\n        self.conv_dim = args.decoder_conv_dim\n        if args.decoder_glu:\n            self.linear1 = Linear(self.embed_dim, 2 * self.conv_dim)\n            self.act = nn.GLU()\n        else:\n            self.linear1 = Linear(self.embed_dim, self.conv_dim)\n            self.act = None\n        if args.decoder_conv_type == \"lightweight\":\n            self.conv = LightweightConv(\n                self.conv_dim,\n                kernel_size,\n                padding_l=kernel_size - 1,\n                weight_softmax=args.weight_softmax,\n                num_heads=args.decoder_attention_heads,\n                weight_dropout=args.weight_dropout,\n            )\n        elif args.decoder_conv_type == \"dynamic\":\n            self.conv = DynamicConv(\n                self.conv_dim,\n                kernel_size,\n                padding_l=kernel_size - 1,\n                weight_softmax=args.weight_softmax,\n                num_heads=args.decoder_attention_heads,\n                weight_dropout=args.weight_dropout,\n            )\n        else:\n            raise NotImplementedError\n        self.linear2 = Linear(self.conv_dim, self.embed_dim)\n\n        self.dropout_module = FairseqDropout(\n            args.dropout, module_name=self.__class__.__name__\n        )\n        self.relu_dropout_module = FairseqDropout(\n            args.relu_dropout, module_name=self.__class__.__name__\n        )\n        self.input_dropout_module = FairseqDropout(\n            args.input_dropout, module_name=self.__class__.__name__\n        )\n        self.normalize_before = args.decoder_normalize_before\n\n        self.conv_layer_norm = LayerNorm(self.embed_dim)\n\n        if no_encoder_attn:\n            self.encoder_attn = None\n            self.encoder_attn_layer_norm = None\n        else:\n            self.encoder_attn = MultiheadAttention(\n                self.embed_dim,\n                args.decoder_attention_heads,\n                dropout=args.attention_dropout,\n                encoder_decoder_attention=True,\n                dictionary=dictionary,\n            )\n            self.encoder_attn_layer_norm = LayerNorm(self.embed_dim)\n\n        self.fc1 = Linear(self.embed_dim, args.decoder_ffn_embed_dim)\n        self.fc2 = Linear(args.decoder_ffn_embed_dim, self.embed_dim)\n\n        self.final_layer_norm = LayerNorm(self.embed_dim)\n        self.need_attn = True\n\n    def forward(\n        self,\n        x: Tensor,\n        encoder_out: Optional[Tensor],\n        encoder_padding_mask: Optional[Tensor],\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]],\n        prev_conv_state: Optional[Tensor] = None,\n        prev_attn_state: Optional[Tuple[Tensor, Tensor]] = None,\n        conv_mask: Optional[Tensor] = None,\n        conv_padding_mask: Optional[Tensor] = None,\n    ):\n        \"\"\"\n        Args:\n            x (Tensor): input to the layer of shape `(seq_len, batch, embed_dim)`\n            encoder_padding_mask (ByteTensor): binary ByteTensor of shape\n                `(batch, src_len)` where padding elements are indicated by ``1``.\n\n        Returns:\n            encoded output of shape `(batch, src_len, embed_dim)`\n        \"\"\"\n        residual = x\n        normalize = self.maybe_layer_norm(before=True)\n        if normalize:\n            x = self.conv_layer_norm(x)\n        if prev_conv_state is not None:\n            self.conv._set_input_buffer(incremental_state, prev_conv_state)\n        x = self.input_dropout_module(x)\n        x = self.linear1(x)\n        if self.act is not None:\n            x = self.act(x)\n        x = self.conv(x, incremental_state=incremental_state)\n        x = self.linear2(x)\n        x = self.dropout_module(x)\n        x = residual + x\n        normalize = self.maybe_layer_norm(after=True)\n        if normalize:\n            x = self.conv_layer_norm(x)\n\n        attn: Optional[Tensor] = None\n        if self.encoder_attn is not None:\n            residual = x\n            normalize = self.maybe_layer_norm(before=True)\n            if normalize:\n                x = self.encoder_attn_layer_norm(x)\n\n            if prev_attn_state is not None:\n                saved_state: Dict[str, Optional[Tensor]] = {\n                    \"prev_key\": prev_attn_state[0],\n                    \"prev_value\": prev_attn_state[1],\n                }\n                self.encoder_attn._set_input_buffer(incremental_state, saved_state)\n            x, attn = self.encoder_attn(\n                query=x,\n                key=encoder_out,\n                value=encoder_out,\n                key_padding_mask=encoder_padding_mask,\n                incremental_state=incremental_state,\n                static_kv=True,\n                need_weights=(not self.training and self.need_attn),\n            )\n            x = self.dropout_module(x)\n            x = residual + x\n            normalize = self.maybe_layer_norm(after=True)\n            if normalize:\n                x = self.encoder_attn_layer_norm(x)\n\n        residual = x\n        normalize = self.maybe_layer_norm(before=True)\n        if normalize:\n            x = self.final_layer_norm(x)\n        x = F.relu(self.fc1(x))\n        x = self.relu_dropout_module(x)\n        x = self.fc2(x)\n        x = self.dropout_module(x)\n        x = residual + x\n        normalize = self.maybe_layer_norm(after=True)\n        if normalize:\n            x = self.final_layer_norm(x)\n        return x, attn\n\n    def maybe_layer_norm(self, before: bool = False, after: bool = False):\n        assert before ^ after, \"Incorrect usage\"\n        return after ^ self.normalize_before\n\n    def make_generation_fast_(self, need_attn: bool = False, **kwargs):\n        self.need_attn = need_attn\n\n    def extra_repr(self):\n        return (\n            \"dropout={}, relu_dropout={}, input_dropout={}, normalize_before={}\".format(\n                self.dropout_module.p,\n                self.relu_dropout_module.p,\n                self.input_dropout_module.p,\n                self.normalize_before,\n            )\n        )\n\n\ndef Embedding(num_embeddings, embedding_dim, padding_idx):\n    m = nn.Embedding(num_embeddings, embedding_dim, padding_idx=padding_idx)\n    nn.init.normal_(m.weight, mean=0, std=embedding_dim**-0.5)\n    nn.init.constant_(m.weight[padding_idx], 0)\n    return m\n\n\ndef Linear(in_features, out_features, bias=True):\n    m = nn.Linear(in_features, out_features, bias)\n    nn.init.xavier_uniform_(m.weight)\n    if bias:\n        nn.init.constant_(m.bias, 0.0)\n    return m\n\n\n@register_model_architecture(\"lightconv\", \"lightconv\")\ndef base_architecture(args):\n    args.encoder_embed_path = getattr(args, \"encoder_embed_path\", None)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 7)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", False)\n    args.decoder_embed_path = getattr(args, \"decoder_embed_path\", None)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", args.encoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", args.encoder_ffn_embed_dim\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", False)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.0)\n    args.relu_dropout = getattr(args, \"relu_dropout\", 0.0)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.share_all_embeddings = getattr(args, \"share_all_embeddings\", False)\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n\n    args.encoder_conv_dim = getattr(args, \"encoder_conv_dim\", args.encoder_embed_dim)\n    args.decoder_conv_dim = getattr(args, \"decoder_conv_dim\", args.decoder_embed_dim)\n\n    args.encoder_kernel_size_list = getattr(\n        args, \"encoder_kernel_size_list\", [3, 7, 15, 31, 31, 31, 31]\n    )\n    args.decoder_kernel_size_list = getattr(\n        args, \"decoder_kernel_size_list\", [3, 7, 15, 31, 31, 31]\n    )\n    if len(args.encoder_kernel_size_list) == 1:\n        args.encoder_kernel_size_list = (\n            args.encoder_kernel_size_list * args.encoder_layers\n        )\n    if len(args.decoder_kernel_size_list) == 1:\n        args.decoder_kernel_size_list = (\n            args.decoder_kernel_size_list * args.decoder_layers\n        )\n    assert (\n        len(args.encoder_kernel_size_list) == args.encoder_layers\n    ), \"encoder_kernel_size_list doesn't match encoder_layers\"\n    assert (\n        len(args.decoder_kernel_size_list) == args.decoder_layers\n    ), \"decoder_kernel_size_list doesn't match decoder_layers\"\n    args.encoder_glu = getattr(args, \"encoder_glu\", True)\n    args.decoder_glu = getattr(args, \"decoder_glu\", True)\n    args.input_dropout = getattr(args, \"input_dropout\", 0.1)\n    args.weight_dropout = getattr(args, \"weight_dropout\", args.attention_dropout)\n\n\n@register_model_architecture(\"lightconv\", \"lightconv_iwslt_de_en\")\ndef lightconv_iwslt_de_en(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 1024)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 7)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 1024)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 4)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.1)\n    args.weight_dropout = getattr(args, \"weight_dropout\", 0.1)\n    args.encoder_glu = getattr(args, \"encoder_glu\", False)\n    args.decoder_glu = getattr(args, \"decoder_glu\", False)\n    args.input_dropout = getattr(args, \"input_dropout\", 0.0)\n    base_architecture(args)\n\n\n@register_model_architecture(\"lightconv\", \"lightconv_wmt_en_de\")\ndef lightconv_wmt_en_de(args):\n    base_architecture(args)\n\n\n@register_model_architecture(\"lightconv\", \"lightconv_wmt_en_de_big\")\ndef lightconv_wmt_en_de_big(args):\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.1)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 4096)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 16)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 1024)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 4096)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 16)\n    args.dropout = getattr(args, \"dropout\", 0.3)\n    base_architecture(args)\n\n\n@register_model_architecture(\"lightconv\", \"lightconv_wmt_en_fr_big\")\ndef lightconv_wmt_en_fr_big(args):\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    lightconv_wmt_en_de_big(args)\n\n\n@register_model_architecture(\"lightconv\", \"lightconv_wmt_zh_en_big\")\ndef lightconv_wmt_zh_en_big(args):\n    args.dropout = getattr(args, \"dropout\", 0.2)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.2)\n    args.weight_dropout = getattr(args, \"weight_dropout\", 0.2)\n    lightconv_wmt_en_de_big(args)\n"
  },
  {
    "path": "fairseq/models/lightconv_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq import utils\nfrom fairseq.models import (\n    FairseqLanguageModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.lightconv import Embedding, LightConvDecoder\nfrom fairseq.modules import AdaptiveInput, CharacterTokenEmbedder\n\n\n@register_model(\"lightconv_lm\")\nclass LightConvLanguageModel(FairseqLanguageModel):\n    def __init__(self, decoder):\n        super().__init__(decoder)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        parser.add_argument(\n            \"--dropout\",\n            default=0.1,\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability\",\n        )\n        parser.add_argument(\n            \"--attention-dropout\",\n            default=0.0,\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for attention weights\",\n        )\n        parser.add_argument(\n            \"--relu-dropout\",\n            default=0.0,\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability after ReLU in FFN\",\n        )\n        parser.add_argument(\n            \"--input-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability of the inputs\",\n        )\n        parser.add_argument(\n            \"--decoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--decoder-output-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder output dimension\",\n        )\n        parser.add_argument(\n            \"--decoder-input-dim\", type=int, metavar=\"N\", help=\"decoder input dimension\"\n        )\n        parser.add_argument(\n            \"--decoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--decoder-layers\", type=int, metavar=\"N\", help=\"num decoder layers\"\n        )\n        parser.add_argument(\n            \"--decoder-attention-heads\",\n            type=int,\n            metavar=\"N\",\n            help=\"num decoder attention heads or LightConv/DynamicConv heads\",\n        )\n        parser.add_argument(\n            \"--decoder-normalize-before\",\n            default=False,\n            action=\"store_true\",\n            help=\"apply layernorm before each decoder block\",\n        )\n        parser.add_argument(\n            \"--adaptive-softmax-cutoff\",\n            metavar=\"EXPR\",\n            help=\"comma separated list of adaptive softmax cutoff points. \"\n            \"Must be used with adaptive_loss criterion\",\n        )\n        parser.add_argument(\n            \"--adaptive-softmax-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"sets adaptive softmax dropout for the tail projections\",\n        )\n        parser.add_argument(\n            \"--adaptive-softmax-factor\",\n            type=float,\n            metavar=\"N\",\n            help=\"adaptive input factor\",\n        )\n        parser.add_argument(\n            \"--no-token-positional-embeddings\",\n            default=False,\n            action=\"store_true\",\n            help=\"if set, disables positional embeddings (outside self attention)\",\n        )\n        parser.add_argument(\n            \"--share-decoder-input-output-embed\",\n            default=False,\n            action=\"store_true\",\n            help=\"share decoder input and output embeddings\",\n        )\n        parser.add_argument(\n            \"--character-embeddings\",\n            default=False,\n            action=\"store_true\",\n            help=\"if set, uses character embedding convolutions to produce token embeddings\",\n        )\n        parser.add_argument(\n            \"--character-filters\",\n            type=str,\n            metavar=\"LIST\",\n            default=\"[(1, 64), (2, 128), (3, 192), (4, 256), (5, 256), (6, 256), (7, 256)]\",\n            help=\"size of character embeddings\",\n        )\n        parser.add_argument(\n            \"--character-embedding-dim\",\n            type=int,\n            metavar=\"N\",\n            default=4,\n            help=\"size of character embeddings\",\n        )\n        parser.add_argument(\n            \"--char-embedder-highway-layers\",\n            type=int,\n            metavar=\"N\",\n            default=2,\n            help=\"number of highway layers for character token embeddder\",\n        )\n        parser.add_argument(\n            \"--adaptive-input\",\n            default=False,\n            action=\"store_true\",\n            help=\"if set, uses adaptive input\",\n        )\n        parser.add_argument(\n            \"--adaptive-input-factor\",\n            type=float,\n            metavar=\"N\",\n            help=\"adaptive input factor\",\n        )\n        parser.add_argument(\n            \"--adaptive-input-cutoff\",\n            metavar=\"EXPR\",\n            help=\"comma separated list of adaptive input cutoff points.\",\n        )\n        parser.add_argument(\n            \"--tie-adaptive-weights\",\n            action=\"store_true\",\n            help=\"if set, ties the weights of adaptive softmax and adaptive input\",\n        )\n        parser.add_argument(\n            \"--tie-adaptive-proj\",\n            action=\"store_true\",\n            help=\"if set, ties the projection weights of adaptive softmax and adaptive input\",\n        )\n        parser.add_argument(\n            \"--decoder-learned-pos\",\n            action=\"store_true\",\n            help=\"use learned positional embeddings in the decoder\",\n        )\n\n        \"\"\"LightConv and DynamicConv arguments\"\"\"\n        parser.add_argument(\n            \"--decoder-kernel-size-list\",\n            type=lambda x: utils.eval_str_list(x, int),\n            help='list of kernel size (default: \"[3,7,15,31,31,31]\")',\n        )\n        parser.add_argument(\n            \"--decoder-glu\", type=utils.eval_bool, help=\"glu after in proj\"\n        )\n        parser.add_argument(\n            \"--decoder-conv-type\",\n            default=\"dynamic\",\n            type=str,\n            choices=[\"dynamic\", \"lightweight\"],\n            help=\"type of convolution\",\n        )\n        parser.add_argument(\"--weight-softmax\", default=True, type=utils.eval_bool)\n        parser.add_argument(\n            \"--weight-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for conv weights\",\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        # make sure all arguments are present in older models\n        base_lm_architecture(args)\n\n        if getattr(args, \"max_source_positions\", None) is None:\n            args.max_source_positions = args.tokens_per_sample\n        if getattr(args, \"max_target_positions\", None) is None:\n            args.max_target_positions = args.tokens_per_sample\n\n        if args.character_embeddings:\n            embed_tokens = CharacterTokenEmbedder(\n                task.dictionary,\n                eval(args.character_filters),\n                args.character_embedding_dim,\n                args.decoder_embed_dim,\n                args.char_embedder_highway_layers,\n            )\n        elif args.adaptive_input:\n            embed_tokens = AdaptiveInput(\n                len(task.dictionary),\n                task.dictionary.pad(),\n                args.decoder_input_dim,\n                args.adaptive_input_factor,\n                args.decoder_embed_dim,\n                utils.eval_str_list(args.adaptive_input_cutoff, type=int),\n            )\n        else:\n            embed_tokens = Embedding(\n                len(task.dictionary), args.decoder_input_dim, task.dictionary.pad()\n            )\n\n        if args.tie_adaptive_weights:\n            assert args.adaptive_input\n            assert args.adaptive_input_factor == args.adaptive_softmax_factor\n            assert (\n                args.adaptive_softmax_cutoff == args.adaptive_input_cutoff\n            ), \"{} != {}\".format(\n                args.adaptive_softmax_cutoff, args.adaptive_input_cutoff\n            )\n            assert args.decoder_input_dim == args.decoder_output_dim\n\n        decoder = LightConvDecoder(\n            args,\n            task.output_dictionary,\n            embed_tokens,\n            no_encoder_attn=True,\n            final_norm=False,\n        )\n        return LightConvLanguageModel(decoder)\n\n\n@register_model_architecture(\"lightconv_lm\", \"lightconv_lm\")\ndef base_lm_architecture(args):\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 2048)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.adaptive_softmax_factor = getattr(args, \"adaptive_softmax_factor\", 4)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n\n    args.character_embeddings = getattr(args, \"character_embeddings\", False)\n\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n    args.decoder_conv_dim = getattr(args, \"decoder_conv_dim\", args.decoder_embed_dim)\n\n    # The model training is not stable without this\n    args.decoder_normalize_before = True\n\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.adaptive_input_factor = getattr(args, \"adaptive_input_factor\", 4)\n    args.adaptive_input_cutoff = getattr(args, \"adaptive_input_cutoff\", None)\n\n    args.tie_adaptive_weights = getattr(args, \"tie_adaptive_weights\", False)\n    args.tie_adaptive_proj = getattr(args, \"tie_adaptive_proj\", False)\n\n    args.decoder_kernel_size_list = getattr(\n        args, \"decoder_kernel_size_list\", [3, 7, 15, 31, 31, 31]\n    )\n    if len(args.decoder_kernel_size_list) == 1:\n        args.decoder_kernel_size_list = (\n            args.decoder_kernel_size_list * args.decoder_layers\n        )\n    assert (\n        len(args.decoder_kernel_size_list) == args.decoder_layers\n    ), \"decoder_kernel_size_list doesn't match decoder_layers\"\n    args.decoder_glu = getattr(args, \"decoder_glu\", True)\n    args.input_dropout = getattr(args, \"input_dropout\", 0.1)\n    args.weight_dropout = getattr(args, \"weight_dropout\", args.attention_dropout)\n\n\n@register_model_architecture(\"lightconv_lm\", \"lightconv_lm_gbw\")\ndef lightconv_lm_gbw(args):\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.1)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 4096)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 16)\n    base_lm_architecture(args)\n"
  },
  {
    "path": "fairseq/models/lstm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Dict, List, Optional, Tuple\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderDecoderModel,\n    FairseqIncrementalDecoder,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.modules import AdaptiveSoftmax, FairseqDropout\nfrom torch import Tensor\n\n\nDEFAULT_MAX_SOURCE_POSITIONS = 1e5\nDEFAULT_MAX_TARGET_POSITIONS = 1e5\n\n\n@register_model(\"lstm\")\nclass LSTMModel(FairseqEncoderDecoderModel):\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--dropout', type=float, metavar='D',\n                            help='dropout probability')\n        parser.add_argument('--encoder-embed-dim', type=int, metavar='N',\n                            help='encoder embedding dimension')\n        parser.add_argument('--encoder-embed-path', type=str, metavar='STR',\n                            help='path to pre-trained encoder embedding')\n        parser.add_argument('--encoder-freeze-embed', action='store_true',\n                            help='freeze encoder embeddings')\n        parser.add_argument('--encoder-hidden-size', type=int, metavar='N',\n                            help='encoder hidden size')\n        parser.add_argument('--encoder-layers', type=int, metavar='N',\n                            help='number of encoder layers')\n        parser.add_argument('--encoder-bidirectional', action='store_true',\n                            help='make all layers of encoder bidirectional')\n        parser.add_argument('--decoder-embed-dim', type=int, metavar='N',\n                            help='decoder embedding dimension')\n        parser.add_argument('--decoder-embed-path', type=str, metavar='STR',\n                            help='path to pre-trained decoder embedding')\n        parser.add_argument('--decoder-freeze-embed', action='store_true',\n                            help='freeze decoder embeddings')\n        parser.add_argument('--decoder-hidden-size', type=int, metavar='N',\n                            help='decoder hidden size')\n        parser.add_argument('--decoder-layers', type=int, metavar='N',\n                            help='number of decoder layers')\n        parser.add_argument('--decoder-out-embed-dim', type=int, metavar='N',\n                            help='decoder output embedding dimension')\n        parser.add_argument('--decoder-attention', type=str, metavar='BOOL',\n                            help='decoder attention')\n        parser.add_argument('--adaptive-softmax-cutoff', metavar='EXPR',\n                            help='comma separated list of adaptive softmax cutoff points. '\n                                 'Must be used with adaptive_loss criterion')\n        parser.add_argument('--share-decoder-input-output-embed', default=False,\n                            action='store_true',\n                            help='share decoder input and output embeddings')\n        parser.add_argument('--share-all-embeddings', default=False, action='store_true',\n                            help='share encoder, decoder and output embeddings'\n                                 ' (requires shared dictionary and embed dim)')\n\n        # Granular dropout settings (if not specified these default to --dropout)\n        parser.add_argument('--encoder-dropout-in', type=float, metavar='D',\n                            help='dropout probability for encoder input embedding')\n        parser.add_argument('--encoder-dropout-out', type=float, metavar='D',\n                            help='dropout probability for encoder output')\n        parser.add_argument('--decoder-dropout-in', type=float, metavar='D',\n                            help='dropout probability for decoder input embedding')\n        parser.add_argument('--decoder-dropout-out', type=float, metavar='D',\n                            help='dropout probability for decoder output')\n        # fmt: on\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        # make sure that all args are properly defaulted (in case there are any new ones)\n        base_architecture(args)\n\n        if args.encoder_layers != args.decoder_layers:\n            raise ValueError(\"--encoder-layers must match --decoder-layers\")\n\n        max_source_positions = getattr(\n            args, \"max_source_positions\", DEFAULT_MAX_SOURCE_POSITIONS\n        )\n        max_target_positions = getattr(\n            args, \"max_target_positions\", DEFAULT_MAX_TARGET_POSITIONS\n        )\n\n        def load_pretrained_embedding_from_file(embed_path, dictionary, embed_dim):\n            num_embeddings = len(dictionary)\n            padding_idx = dictionary.pad()\n            embed_tokens = Embedding(num_embeddings, embed_dim, padding_idx)\n            embed_dict = utils.parse_embedding(embed_path)\n            utils.print_embed_overlap(embed_dict, dictionary)\n            return utils.load_embedding(embed_dict, dictionary, embed_tokens)\n\n        if args.encoder_embed_path:\n            pretrained_encoder_embed = load_pretrained_embedding_from_file(\n                args.encoder_embed_path, task.source_dictionary, args.encoder_embed_dim\n            )\n        else:\n            num_embeddings = len(task.source_dictionary)\n            pretrained_encoder_embed = Embedding(\n                num_embeddings, args.encoder_embed_dim, task.source_dictionary.pad()\n            )\n\n        if args.share_all_embeddings:\n            # double check all parameters combinations are valid\n            if task.source_dictionary != task.target_dictionary:\n                raise ValueError(\"--share-all-embeddings requires a joint dictionary\")\n            if args.decoder_embed_path and (\n                args.decoder_embed_path != args.encoder_embed_path\n            ):\n                raise ValueError(\n                    \"--share-all-embed not compatible with --decoder-embed-path\"\n                )\n            if args.encoder_embed_dim != args.decoder_embed_dim:\n                raise ValueError(\n                    \"--share-all-embeddings requires --encoder-embed-dim to \"\n                    \"match --decoder-embed-dim\"\n                )\n            pretrained_decoder_embed = pretrained_encoder_embed\n            args.share_decoder_input_output_embed = True\n        else:\n            # separate decoder input embeddings\n            pretrained_decoder_embed = None\n            if args.decoder_embed_path:\n                pretrained_decoder_embed = load_pretrained_embedding_from_file(\n                    args.decoder_embed_path,\n                    task.target_dictionary,\n                    args.decoder_embed_dim,\n                )\n        # one last double check of parameter combinations\n        if args.share_decoder_input_output_embed and (\n            args.decoder_embed_dim != args.decoder_out_embed_dim\n        ):\n            raise ValueError(\n                \"--share-decoder-input-output-embeddings requires \"\n                \"--decoder-embed-dim to match --decoder-out-embed-dim\"\n            )\n\n        if args.encoder_freeze_embed:\n            pretrained_encoder_embed.weight.requires_grad = False\n        if args.decoder_freeze_embed:\n            pretrained_decoder_embed.weight.requires_grad = False\n\n        encoder = LSTMEncoder(\n            dictionary=task.source_dictionary,\n            embed_dim=args.encoder_embed_dim,\n            hidden_size=args.encoder_hidden_size,\n            num_layers=args.encoder_layers,\n            dropout_in=args.encoder_dropout_in,\n            dropout_out=args.encoder_dropout_out,\n            bidirectional=args.encoder_bidirectional,\n            pretrained_embed=pretrained_encoder_embed,\n            max_source_positions=max_source_positions,\n        )\n        decoder = LSTMDecoder(\n            dictionary=task.target_dictionary,\n            embed_dim=args.decoder_embed_dim,\n            hidden_size=args.decoder_hidden_size,\n            out_embed_dim=args.decoder_out_embed_dim,\n            num_layers=args.decoder_layers,\n            dropout_in=args.decoder_dropout_in,\n            dropout_out=args.decoder_dropout_out,\n            attention=utils.eval_bool(args.decoder_attention),\n            encoder_output_units=encoder.output_units,\n            pretrained_embed=pretrained_decoder_embed,\n            share_input_output_embed=args.share_decoder_input_output_embed,\n            adaptive_softmax_cutoff=(\n                utils.eval_str_list(args.adaptive_softmax_cutoff, type=int)\n                if args.criterion == \"adaptive_loss\"\n                else None\n            ),\n            max_target_positions=max_target_positions,\n            residuals=False,\n        )\n        return cls(encoder, decoder)\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths,\n        prev_output_tokens,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n    ):\n        encoder_out = self.encoder(src_tokens, src_lengths=src_lengths)\n        decoder_out = self.decoder(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            incremental_state=incremental_state,\n        )\n        return decoder_out\n\n\nclass LSTMEncoder(FairseqEncoder):\n    \"\"\"LSTM encoder.\"\"\"\n\n    def __init__(\n        self,\n        dictionary,\n        embed_dim=512,\n        hidden_size=512,\n        num_layers=1,\n        dropout_in=0.1,\n        dropout_out=0.1,\n        bidirectional=False,\n        left_pad=True,\n        pretrained_embed=None,\n        padding_idx=None,\n        max_source_positions=DEFAULT_MAX_SOURCE_POSITIONS,\n    ):\n        super().__init__(dictionary)\n        self.num_layers = num_layers\n        self.dropout_in_module = FairseqDropout(\n            dropout_in * 1.0, module_name=self.__class__.__name__\n        )\n        self.dropout_out_module = FairseqDropout(\n            dropout_out * 1.0, module_name=self.__class__.__name__\n        )\n        self.bidirectional = bidirectional\n        self.hidden_size = hidden_size\n        self.max_source_positions = max_source_positions\n\n        num_embeddings = len(dictionary)\n        self.padding_idx = padding_idx if padding_idx is not None else dictionary.pad()\n        if pretrained_embed is None:\n            self.embed_tokens = Embedding(num_embeddings, embed_dim, self.padding_idx)\n        else:\n            self.embed_tokens = pretrained_embed\n\n        self.lstm = LSTM(\n            input_size=embed_dim,\n            hidden_size=hidden_size,\n            num_layers=num_layers,\n            dropout=self.dropout_out_module.p if num_layers > 1 else 0.0,\n            bidirectional=bidirectional,\n        )\n        self.left_pad = left_pad\n\n        self.output_units = hidden_size\n        if bidirectional:\n            self.output_units *= 2\n\n    def forward(\n        self,\n        src_tokens: Tensor,\n        src_lengths: Tensor,\n        enforce_sorted: bool = True,\n    ):\n        \"\"\"\n        Args:\n            src_tokens (LongTensor): tokens in the source language of\n                shape `(batch, src_len)`\n            src_lengths (LongTensor): lengths of each source sentence of\n                shape `(batch)`\n            enforce_sorted (bool, optional): if True, `src_tokens` is\n                expected to contain sequences sorted by length in a\n                decreasing order. If False, this condition is not\n                required. Default: True.\n        \"\"\"\n        if self.left_pad:\n            # nn.utils.rnn.pack_padded_sequence requires right-padding;\n            # convert left-padding to right-padding\n            src_tokens = utils.convert_padding_direction(\n                src_tokens,\n                torch.zeros_like(src_tokens).fill_(self.padding_idx),\n                left_to_right=True,\n            )\n\n        bsz, seqlen = src_tokens.size()\n\n        # embed tokens\n        x = self.embed_tokens(src_tokens)\n        x = self.dropout_in_module(x)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        # pack embedded source tokens into a PackedSequence\n        packed_x = nn.utils.rnn.pack_padded_sequence(\n            x, src_lengths.cpu(), enforce_sorted=enforce_sorted\n        )\n\n        # apply LSTM\n        if self.bidirectional:\n            state_size = 2 * self.num_layers, bsz, self.hidden_size\n        else:\n            state_size = self.num_layers, bsz, self.hidden_size\n        h0 = x.new_zeros(*state_size)\n        c0 = x.new_zeros(*state_size)\n        packed_outs, (final_hiddens, final_cells) = self.lstm(packed_x, (h0, c0))\n\n        # unpack outputs and apply dropout\n        x, _ = nn.utils.rnn.pad_packed_sequence(\n            packed_outs, padding_value=self.padding_idx * 1.0\n        )\n        x = self.dropout_out_module(x)\n        assert list(x.size()) == [seqlen, bsz, self.output_units]\n\n        if self.bidirectional:\n            final_hiddens = self.combine_bidir(final_hiddens, bsz)\n            final_cells = self.combine_bidir(final_cells, bsz)\n\n        encoder_padding_mask = src_tokens.eq(self.padding_idx).t()\n\n        return tuple(\n            (\n                x,  # seq_len x batch x hidden\n                final_hiddens,  # num_layers x batch x num_directions*hidden\n                final_cells,  # num_layers x batch x num_directions*hidden\n                encoder_padding_mask,  # seq_len x batch\n            )\n        )\n\n    def combine_bidir(self, outs, bsz: int):\n        out = outs.view(self.num_layers, 2, bsz, -1).transpose(1, 2).contiguous()\n        return out.view(self.num_layers, bsz, -1)\n\n    def reorder_encoder_out(\n        self, encoder_out: Tuple[Tensor, Tensor, Tensor, Tensor], new_order\n    ):\n        return tuple(\n            (\n                encoder_out[0].index_select(1, new_order),\n                encoder_out[1].index_select(1, new_order),\n                encoder_out[2].index_select(1, new_order),\n                encoder_out[3].index_select(1, new_order),\n            )\n        )\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return self.max_source_positions\n\n\nclass AttentionLayer(nn.Module):\n    def __init__(self, input_embed_dim, source_embed_dim, output_embed_dim, bias=False):\n        super().__init__()\n\n        self.input_proj = Linear(input_embed_dim, source_embed_dim, bias=bias)\n        self.output_proj = Linear(\n            input_embed_dim + source_embed_dim, output_embed_dim, bias=bias\n        )\n\n    def forward(self, input, source_hids, encoder_padding_mask):\n        # input: bsz x input_embed_dim\n        # source_hids: srclen x bsz x source_embed_dim\n\n        # x: bsz x source_embed_dim\n        x = self.input_proj(input)\n\n        # compute attention\n        attn_scores = (source_hids * x.unsqueeze(0)).sum(dim=2)\n\n        # don't attend over padding\n        if encoder_padding_mask is not None:\n            attn_scores = (\n                attn_scores.float()\n                .masked_fill_(encoder_padding_mask, float(\"-inf\"))\n                .type_as(attn_scores)\n            )  # FP16 support: cast to float and back\n\n        attn_scores = F.softmax(attn_scores, dim=0)  # srclen x bsz\n\n        # sum weighted sources\n        x = (attn_scores.unsqueeze(2) * source_hids).sum(dim=0)\n\n        x = torch.tanh(self.output_proj(torch.cat((x, input), dim=1)))\n        return x, attn_scores\n\n\nclass LSTMDecoder(FairseqIncrementalDecoder):\n    \"\"\"LSTM decoder.\"\"\"\n\n    def __init__(\n        self,\n        dictionary,\n        embed_dim=512,\n        hidden_size=512,\n        out_embed_dim=512,\n        num_layers=1,\n        dropout_in=0.1,\n        dropout_out=0.1,\n        attention=True,\n        encoder_output_units=512,\n        pretrained_embed=None,\n        share_input_output_embed=False,\n        adaptive_softmax_cutoff=None,\n        max_target_positions=DEFAULT_MAX_TARGET_POSITIONS,\n        residuals=False,\n    ):\n        super().__init__(dictionary)\n        self.dropout_in_module = FairseqDropout(\n            dropout_in * 1.0, module_name=self.__class__.__name__\n        )\n        self.dropout_out_module = FairseqDropout(\n            dropout_out * 1.0, module_name=self.__class__.__name__\n        )\n        self.hidden_size = hidden_size\n        self.share_input_output_embed = share_input_output_embed\n        self.need_attn = True\n        self.max_target_positions = max_target_positions\n        self.residuals = residuals\n        self.num_layers = num_layers\n\n        self.adaptive_softmax = None\n        num_embeddings = len(dictionary)\n        padding_idx = dictionary.pad()\n        if pretrained_embed is None:\n            self.embed_tokens = Embedding(num_embeddings, embed_dim, padding_idx)\n        else:\n            self.embed_tokens = pretrained_embed\n\n        self.encoder_output_units = encoder_output_units\n        if encoder_output_units != hidden_size and encoder_output_units != 0:\n            self.encoder_hidden_proj = Linear(encoder_output_units, hidden_size)\n            self.encoder_cell_proj = Linear(encoder_output_units, hidden_size)\n        else:\n            self.encoder_hidden_proj = self.encoder_cell_proj = None\n\n        # disable input feeding if there is no encoder\n        # input feeding is described in arxiv.org/abs/1508.04025\n        input_feed_size = 0 if encoder_output_units == 0 else hidden_size\n        self.layers = nn.ModuleList(\n            [\n                LSTMCell(\n                    input_size=input_feed_size + embed_dim\n                    if layer == 0\n                    else hidden_size,\n                    hidden_size=hidden_size,\n                )\n                for layer in range(num_layers)\n            ]\n        )\n\n        if attention:\n            # TODO make bias configurable\n            self.attention = AttentionLayer(\n                hidden_size, encoder_output_units, hidden_size, bias=False\n            )\n        else:\n            self.attention = None\n\n        if hidden_size != out_embed_dim:\n            self.additional_fc = Linear(hidden_size, out_embed_dim)\n\n        if adaptive_softmax_cutoff is not None:\n            # setting adaptive_softmax dropout to dropout_out for now but can be redefined\n            self.adaptive_softmax = AdaptiveSoftmax(\n                num_embeddings,\n                hidden_size,\n                adaptive_softmax_cutoff,\n                dropout=dropout_out,\n            )\n        elif not self.share_input_output_embed:\n            self.fc_out = Linear(out_embed_dim, num_embeddings, dropout=dropout_out)\n\n    def forward(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Tuple[Tensor, Tensor, Tensor, Tensor]] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        src_lengths: Optional[Tensor] = None,\n    ):\n        x, attn_scores = self.extract_features(\n            prev_output_tokens, encoder_out, incremental_state\n        )\n        return self.output_layer(x), attn_scores\n\n    def extract_features(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Tuple[Tensor, Tensor, Tensor, Tensor]] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n    ):\n        \"\"\"\n        Similar to *forward* but only return features.\n        \"\"\"\n        # get outputs from encoder\n        if encoder_out is not None:\n            encoder_outs = encoder_out[0]\n            encoder_hiddens = encoder_out[1]\n            encoder_cells = encoder_out[2]\n            encoder_padding_mask = encoder_out[3]\n        else:\n            encoder_outs = torch.empty(0)\n            encoder_hiddens = torch.empty(0)\n            encoder_cells = torch.empty(0)\n            encoder_padding_mask = torch.empty(0)\n        srclen = encoder_outs.size(0)\n\n        if incremental_state is not None and len(incremental_state) > 0:\n            prev_output_tokens = prev_output_tokens[:, -1:]\n\n        bsz, seqlen = prev_output_tokens.size()\n\n        # embed tokens\n        x = self.embed_tokens(prev_output_tokens)\n        x = self.dropout_in_module(x)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        # initialize previous states (or get from cache during incremental generation)\n        if incremental_state is not None and len(incremental_state) > 0:\n            prev_hiddens, prev_cells, input_feed = self.get_cached_state(\n                incremental_state\n            )\n        elif encoder_out is not None:\n            # setup recurrent cells\n            prev_hiddens = [encoder_hiddens[i] for i in range(self.num_layers)]\n            prev_cells = [encoder_cells[i] for i in range(self.num_layers)]\n            if self.encoder_hidden_proj is not None:\n                prev_hiddens = [self.encoder_hidden_proj(y) for y in prev_hiddens]\n                prev_cells = [self.encoder_cell_proj(y) for y in prev_cells]\n            input_feed = x.new_zeros(bsz, self.hidden_size)\n        else:\n            # setup zero cells, since there is no encoder\n            zero_state = x.new_zeros(bsz, self.hidden_size)\n            prev_hiddens = [zero_state for i in range(self.num_layers)]\n            prev_cells = [zero_state for i in range(self.num_layers)]\n            input_feed = None\n\n        assert (\n            srclen > 0 or self.attention is None\n        ), \"attention is not supported if there are no encoder outputs\"\n        attn_scores: Optional[Tensor] = (\n            x.new_zeros(srclen, seqlen, bsz) if self.attention is not None else None\n        )\n        outs = []\n        for j in range(seqlen):\n            # input feeding: concatenate context vector from previous time step\n            if input_feed is not None:\n                input = torch.cat((x[j, :, :], input_feed), dim=1)\n            else:\n                input = x[j]\n\n            for i, rnn in enumerate(self.layers):\n                # recurrent cell\n                hidden, cell = rnn(input, (prev_hiddens[i], prev_cells[i]))\n\n                # hidden state becomes the input to the next layer\n                input = self.dropout_out_module(hidden)\n                if self.residuals:\n                    input = input + prev_hiddens[i]\n\n                # save state for next time step\n                prev_hiddens[i] = hidden\n                prev_cells[i] = cell\n\n            # apply attention using the last layer's hidden state\n            if self.attention is not None:\n                assert attn_scores is not None\n                out, attn_scores[:, j, :] = self.attention(\n                    hidden, encoder_outs, encoder_padding_mask\n                )\n            else:\n                out = hidden\n            out = self.dropout_out_module(out)\n\n            # input feeding\n            if input_feed is not None:\n                input_feed = out\n\n            # save final output\n            outs.append(out)\n\n        # Stack all the necessary tensors together and store\n        prev_hiddens_tensor = torch.stack(prev_hiddens)\n        prev_cells_tensor = torch.stack(prev_cells)\n        cache_state = torch.jit.annotate(\n            Dict[str, Optional[Tensor]],\n            {\n                \"prev_hiddens\": prev_hiddens_tensor,\n                \"prev_cells\": prev_cells_tensor,\n                \"input_feed\": input_feed,\n            },\n        )\n        self.set_incremental_state(incremental_state, \"cached_state\", cache_state)\n\n        # collect outputs across time steps\n        x = torch.cat(outs, dim=0).view(seqlen, bsz, self.hidden_size)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(1, 0)\n\n        if hasattr(self, \"additional_fc\") and self.adaptive_softmax is None:\n            x = self.additional_fc(x)\n            x = self.dropout_out_module(x)\n        # srclen x tgtlen x bsz -> bsz x tgtlen x srclen\n        if not self.training and self.need_attn and self.attention is not None:\n            assert attn_scores is not None\n            attn_scores = attn_scores.transpose(0, 2)\n        else:\n            attn_scores = None\n        return x, attn_scores\n\n    def output_layer(self, x):\n        \"\"\"Project features to the vocabulary size.\"\"\"\n        if self.adaptive_softmax is None:\n            if self.share_input_output_embed:\n                x = F.linear(x, self.embed_tokens.weight)\n            else:\n                x = self.fc_out(x)\n        return x\n\n    def get_cached_state(\n        self,\n        incremental_state: Dict[str, Dict[str, Optional[Tensor]]],\n    ) -> Tuple[List[Tensor], List[Tensor], Optional[Tensor]]:\n        cached_state = self.get_incremental_state(incremental_state, \"cached_state\")\n        assert cached_state is not None\n        prev_hiddens_ = cached_state[\"prev_hiddens\"]\n        assert prev_hiddens_ is not None\n        prev_cells_ = cached_state[\"prev_cells\"]\n        assert prev_cells_ is not None\n        prev_hiddens = [prev_hiddens_[i] for i in range(self.num_layers)]\n        prev_cells = [prev_cells_[j] for j in range(self.num_layers)]\n        input_feed = cached_state[\n            \"input_feed\"\n        ]  # can be None for decoder-only language models\n        return prev_hiddens, prev_cells, input_feed\n\n    def reorder_incremental_state(\n        self,\n        incremental_state: Dict[str, Dict[str, Optional[Tensor]]],\n        new_order: Tensor,\n    ):\n        if incremental_state is None or len(incremental_state) == 0:\n            return\n        prev_hiddens, prev_cells, input_feed = self.get_cached_state(incremental_state)\n        prev_hiddens = [p.index_select(0, new_order) for p in prev_hiddens]\n        prev_cells = [p.index_select(0, new_order) for p in prev_cells]\n        if input_feed is not None:\n            input_feed = input_feed.index_select(0, new_order)\n        cached_state_new = torch.jit.annotate(\n            Dict[str, Optional[Tensor]],\n            {\n                \"prev_hiddens\": torch.stack(prev_hiddens),\n                \"prev_cells\": torch.stack(prev_cells),\n                \"input_feed\": input_feed,\n            },\n        )\n        self.set_incremental_state(incremental_state, \"cached_state\", cached_state_new),\n        return\n\n    def max_positions(self):\n        \"\"\"Maximum output length supported by the decoder.\"\"\"\n        return self.max_target_positions\n\n    def make_generation_fast_(self, need_attn=False, **kwargs):\n        self.need_attn = need_attn\n\n\ndef Embedding(num_embeddings, embedding_dim, padding_idx):\n    m = nn.Embedding(num_embeddings, embedding_dim, padding_idx=padding_idx)\n    nn.init.uniform_(m.weight, -0.1, 0.1)\n    nn.init.constant_(m.weight[padding_idx], 0)\n    return m\n\n\ndef LSTM(input_size, hidden_size, **kwargs):\n    m = nn.LSTM(input_size, hidden_size, **kwargs)\n    for name, param in m.named_parameters():\n        if \"weight\" in name or \"bias\" in name:\n            param.data.uniform_(-0.1, 0.1)\n    return m\n\n\ndef LSTMCell(input_size, hidden_size, **kwargs):\n    m = nn.LSTMCell(input_size, hidden_size, **kwargs)\n    for name, param in m.named_parameters():\n        if \"weight\" in name or \"bias\" in name:\n            param.data.uniform_(-0.1, 0.1)\n    return m\n\n\ndef Linear(in_features, out_features, bias=True, dropout=0.0):\n    \"\"\"Linear layer (input: N x T x C)\"\"\"\n    m = nn.Linear(in_features, out_features, bias=bias)\n    m.weight.data.uniform_(-0.1, 0.1)\n    if bias:\n        m.bias.data.uniform_(-0.1, 0.1)\n    return m\n\n\n@register_model_architecture(\"lstm\", \"lstm\")\ndef base_architecture(args):\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_embed_path = getattr(args, \"encoder_embed_path\", None)\n    args.encoder_freeze_embed = getattr(args, \"encoder_freeze_embed\", False)\n    args.encoder_hidden_size = getattr(\n        args, \"encoder_hidden_size\", args.encoder_embed_dim\n    )\n    args.encoder_layers = getattr(args, \"encoder_layers\", 1)\n    args.encoder_bidirectional = getattr(args, \"encoder_bidirectional\", False)\n    args.encoder_dropout_in = getattr(args, \"encoder_dropout_in\", args.dropout)\n    args.encoder_dropout_out = getattr(args, \"encoder_dropout_out\", args.dropout)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_embed_path = getattr(args, \"decoder_embed_path\", None)\n    args.decoder_freeze_embed = getattr(args, \"decoder_freeze_embed\", False)\n    args.decoder_hidden_size = getattr(\n        args, \"decoder_hidden_size\", args.decoder_embed_dim\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 1)\n    args.decoder_out_embed_dim = getattr(args, \"decoder_out_embed_dim\", 512)\n    args.decoder_attention = getattr(args, \"decoder_attention\", \"1\")\n    args.decoder_dropout_in = getattr(args, \"decoder_dropout_in\", args.dropout)\n    args.decoder_dropout_out = getattr(args, \"decoder_dropout_out\", args.dropout)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.share_all_embeddings = getattr(args, \"share_all_embeddings\", False)\n    args.adaptive_softmax_cutoff = getattr(\n        args, \"adaptive_softmax_cutoff\", \"10000,50000,200000\"\n    )\n\n\n@register_model_architecture(\"lstm\", \"lstm_wiseman_iwslt_de_en\")\ndef lstm_wiseman_iwslt_de_en(args):\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_dropout_in = getattr(args, \"encoder_dropout_in\", 0)\n    args.encoder_dropout_out = getattr(args, \"encoder_dropout_out\", 0)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 256)\n    args.decoder_out_embed_dim = getattr(args, \"decoder_out_embed_dim\", 256)\n    args.decoder_dropout_in = getattr(args, \"decoder_dropout_in\", 0)\n    args.decoder_dropout_out = getattr(args, \"decoder_dropout_out\", args.dropout)\n    base_architecture(args)\n\n\n@register_model_architecture(\"lstm\", \"lstm_luong_wmt_en_de\")\ndef lstm_luong_wmt_en_de(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1000)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 4)\n    args.encoder_dropout_out = getattr(args, \"encoder_dropout_out\", 0)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 1000)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 4)\n    args.decoder_out_embed_dim = getattr(args, \"decoder_out_embed_dim\", 1000)\n    args.decoder_dropout_out = getattr(args, \"decoder_dropout_out\", 0)\n    base_architecture(args)\n"
  },
  {
    "path": "fairseq/models/lstm_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq import utils\nfrom fairseq.models import (\n    FairseqLanguageModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.lstm import Embedding, LSTMDecoder\n\n\nDEFAULT_MAX_TARGET_POSITIONS = 1e5\n\n\n@register_model(\"lstm_lm\")\nclass LSTMLanguageModel(FairseqLanguageModel):\n    def __init__(self, decoder):\n        super().__init__(decoder)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--dropout', type=float, metavar='D',\n                            help='dropout probability')\n        parser.add_argument('--decoder-embed-dim', type=int, metavar='N',\n                            help='decoder embedding dimension')\n        parser.add_argument('--decoder-embed-path', type=str, metavar='STR',\n                            help='path to pre-trained decoder embedding')\n        parser.add_argument('--decoder-hidden-size', type=int, metavar='N',\n                            help='decoder hidden size')\n        parser.add_argument('--decoder-layers', type=int, metavar='N',\n                            help='number of decoder layers')\n        parser.add_argument('--decoder-out-embed-dim', type=int, metavar='N',\n                            help='decoder output embedding dimension')\n        parser.add_argument('--decoder-attention', type=str, metavar='BOOL',\n                            help='decoder attention')\n        parser.add_argument('--adaptive-softmax-cutoff', metavar='EXPR',\n                            help='comma separated list of adaptive softmax cutoff points. '\n                                 'Must be used with adaptive_loss criterion')\n        parser.add_argument('--residuals', default=False,\n                            action='store_true',\n                            help='applying residuals between LSTM layers')\n\n        # Granular dropout settings (if not specified these default to --dropout)\n        parser.add_argument('--decoder-dropout-in', type=float, metavar='D',\n                            help='dropout probability for decoder input embedding')\n        parser.add_argument('--decoder-dropout-out', type=float, metavar='D',\n                            help='dropout probability for decoder output')\n        parser.add_argument('--share-decoder-input-output-embed', default=False,\n                            action='store_true',\n                            help='share decoder input and output embeddings')\n        # fmt: on\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        # make sure all arguments are present in older models\n        base_architecture(args)\n\n        if getattr(args, \"max_target_positions\", None) is not None:\n            max_target_positions = args.max_target_positions\n        else:\n            max_target_positions = getattr(\n                args, \"tokens_per_sample\", DEFAULT_MAX_TARGET_POSITIONS\n            )\n\n        def load_pretrained_embedding_from_file(embed_path, dictionary, embed_dim):\n            num_embeddings = len(dictionary)\n            padding_idx = dictionary.pad()\n            embed_tokens = Embedding(num_embeddings, embed_dim, padding_idx)\n            embed_dict = utils.parse_embedding(embed_path)\n            utils.print_embed_overlap(embed_dict, dictionary)\n            return utils.load_embedding(embed_dict, dictionary, embed_tokens)\n\n        pretrained_decoder_embed = None\n        if args.decoder_embed_path:\n            pretrained_decoder_embed = load_pretrained_embedding_from_file(\n                args.decoder_embed_path, task.target_dictionary, args.decoder_embed_dim\n            )\n\n        if args.share_decoder_input_output_embed:\n            # double check all parameters combinations are valid\n            if task.source_dictionary != task.target_dictionary:\n                raise ValueError(\n                    \"--share-decoder-input-output-embeddings requires a joint dictionary\"\n                )\n\n            if args.decoder_embed_dim != args.decoder_out_embed_dim:\n                raise ValueError(\n                    \"--share-decoder-input-output-embeddings requires \"\n                    \"--decoder-embed-dim to match --decoder-out-embed-dim\"\n                )\n\n        decoder = LSTMDecoder(\n            dictionary=task.dictionary,\n            embed_dim=args.decoder_embed_dim,\n            hidden_size=args.decoder_hidden_size,\n            out_embed_dim=args.decoder_out_embed_dim,\n            num_layers=args.decoder_layers,\n            dropout_in=args.decoder_dropout_in,\n            dropout_out=args.decoder_dropout_out,\n            attention=False,  # decoder-only language model doesn't support attention\n            encoder_output_units=0,\n            pretrained_embed=pretrained_decoder_embed,\n            share_input_output_embed=args.share_decoder_input_output_embed,\n            adaptive_softmax_cutoff=(\n                utils.eval_str_list(args.adaptive_softmax_cutoff, type=int)\n                if args.criterion == \"adaptive_loss\"\n                else None\n            ),\n            max_target_positions=max_target_positions,\n            residuals=args.residuals,\n        )\n\n        return cls(decoder)\n\n\n@register_model_architecture(\"lstm_lm\", \"lstm_lm\")\ndef base_architecture(args):\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_embed_path = getattr(args, \"decoder_embed_path\", None)\n    args.decoder_hidden_size = getattr(\n        args, \"decoder_hidden_size\", args.decoder_embed_dim\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 1)\n    args.decoder_out_embed_dim = getattr(args, \"decoder_out_embed_dim\", 512)\n    args.decoder_attention = getattr(args, \"decoder_attention\", \"0\")\n    args.decoder_dropout_in = getattr(args, \"decoder_dropout_in\", args.dropout)\n    args.decoder_dropout_out = getattr(args, \"decoder_dropout_out\", args.dropout)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.adaptive_softmax_cutoff = getattr(\n        args, \"adaptive_softmax_cutoff\", \"10000,50000,200000\"\n    )\n    args.residuals = getattr(args, \"residuals\", False)\n"
  },
  {
    "path": "fairseq/models/masked_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.modules import (\n    LayerNorm,\n    SinusoidalPositionalEmbedding,\n    TransformerSentenceEncoder,\n)\nfrom fairseq.modules.transformer_sentence_encoder import init_bert_params\nfrom fairseq.utils import safe_hasattr\n\n\nlogger = logging.getLogger(__name__)\n\n\n@register_model(\"masked_lm\")\nclass MaskedLMModel(FairseqEncoderModel):\n    \"\"\"\n    Class for training a Masked Language Model. It also supports an\n    additional sentence level prediction if the sent-loss argument is set.\n    \"\"\"\n\n    def __init__(self, args, encoder):\n        super().__init__(encoder)\n        self.args = args\n\n        # if specified then apply bert initialization on the model. We need\n        # to explictly call this to make sure that the output embeddings\n        # and projection layers are also correctly initialized\n        if getattr(args, \"apply_bert_init\", False):\n            self.apply(init_bert_params)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        # Arguments related to dropout\n        parser.add_argument(\n            \"--dropout\", type=float, metavar=\"D\", help=\"dropout probability\"\n        )\n        parser.add_argument(\n            \"--attention-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for\" \" attention weights\",\n        )\n        parser.add_argument(\n            \"--act-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability after\" \" activation in FFN\",\n        )\n\n        # Arguments related to hidden states and self-attention\n        parser.add_argument(\n            \"--encoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--encoder-layers\", type=int, metavar=\"N\", help=\"num encoder layers\"\n        )\n        parser.add_argument(\n            \"--encoder-attention-heads\",\n            type=int,\n            metavar=\"N\",\n            help=\"num encoder attention heads\",\n        )\n\n        # Arguments related to input and output embeddings\n        parser.add_argument(\n            \"--encoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--share-encoder-input-output-embed\",\n            action=\"store_true\",\n            help=\"share encoder input\" \" and output embeddings\",\n        )\n        parser.add_argument(\n            \"--encoder-learned-pos\",\n            action=\"store_true\",\n            help=\"use learned positional embeddings in the encoder\",\n        )\n        parser.add_argument(\n            \"--no-token-positional-embeddings\",\n            action=\"store_true\",\n            help=\"if set, disables positional embeddings\" \" (outside self attention)\",\n        )\n        parser.add_argument(\n            \"--num-segment\", type=int, metavar=\"N\", help=\"num segment in the input\"\n        )\n        parser.add_argument(\n            \"--max-positions\", type=int, help=\"number of positional embeddings to learn\"\n        )\n\n        # Arguments related to sentence level prediction\n        parser.add_argument(\n            \"--sentence-class-num\",\n            type=int,\n            metavar=\"N\",\n            help=\"number of classes for sentence task\",\n        )\n        parser.add_argument(\n            \"--sent-loss\",\n            action=\"store_true\",\n            help=\"if set,\" \" calculate sentence level predictions\",\n        )\n\n        # Arguments related to parameter initialization\n        parser.add_argument(\n            \"--apply-bert-init\",\n            action=\"store_true\",\n            help=\"use custom param initialization for BERT\",\n        )\n\n        # misc params\n        parser.add_argument(\n            \"--activation-fn\",\n            choices=utils.get_available_activation_fns(),\n            help=\"activation function to use\",\n        )\n        parser.add_argument(\n            \"--pooler-activation-fn\",\n            choices=utils.get_available_activation_fns(),\n            help=\"Which activation function to use for pooler layer.\",\n        )\n        parser.add_argument(\n            \"--encoder-normalize-before\",\n            action=\"store_true\",\n            help=\"apply layernorm before each encoder block\",\n        )\n\n    def forward(self, src_tokens, segment_labels=None, **kwargs):\n        return self.encoder(src_tokens, segment_labels=segment_labels, **kwargs)\n\n    def max_positions(self):\n        return self.encoder.max_positions\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        # make sure all arguments are present in older models\n        base_architecture(args)\n\n        if not safe_hasattr(args, \"max_positions\"):\n            args.max_positions = args.tokens_per_sample\n\n        logger.info(args)\n\n        encoder = MaskedLMEncoder(args, task.dictionary)\n        return cls(args, encoder)\n\n\nclass MaskedLMEncoder(FairseqEncoder):\n    \"\"\"\n    Encoder for Masked Language Modelling.\n    \"\"\"\n\n    def __init__(self, args, dictionary):\n        super().__init__(dictionary)\n\n        self.padding_idx = dictionary.pad()\n        self.vocab_size = dictionary.__len__()\n        self.max_positions = args.max_positions\n\n        self.sentence_encoder = TransformerSentenceEncoder(\n            padding_idx=self.padding_idx,\n            vocab_size=self.vocab_size,\n            num_encoder_layers=args.encoder_layers,\n            embedding_dim=args.encoder_embed_dim,\n            ffn_embedding_dim=args.encoder_ffn_embed_dim,\n            num_attention_heads=args.encoder_attention_heads,\n            dropout=args.dropout,\n            attention_dropout=args.attention_dropout,\n            activation_dropout=args.act_dropout,\n            max_seq_len=self.max_positions,\n            num_segments=args.num_segment,\n            use_position_embeddings=not args.no_token_positional_embeddings,\n            encoder_normalize_before=args.encoder_normalize_before,\n            apply_bert_init=args.apply_bert_init,\n            activation_fn=args.activation_fn,\n            learned_pos_embedding=args.encoder_learned_pos,\n        )\n\n        self.share_input_output_embed = args.share_encoder_input_output_embed\n        self.embed_out = None\n        self.sentence_projection_layer = None\n        self.sentence_out_dim = args.sentence_class_num\n        self.lm_output_learned_bias = None\n\n        # Remove head is set to true during fine-tuning\n        self.load_softmax = not getattr(args, \"remove_head\", False)\n\n        self.masked_lm_pooler = nn.Linear(\n            args.encoder_embed_dim, args.encoder_embed_dim\n        )\n        self.pooler_activation = utils.get_activation_fn(args.pooler_activation_fn)\n\n        self.lm_head_transform_weight = nn.Linear(\n            args.encoder_embed_dim, args.encoder_embed_dim\n        )\n        self.activation_fn = utils.get_activation_fn(args.activation_fn)\n        self.layer_norm = LayerNorm(args.encoder_embed_dim)\n\n        self.lm_output_learned_bias = None\n        if self.load_softmax:\n            self.lm_output_learned_bias = nn.Parameter(torch.zeros(self.vocab_size))\n\n            if not self.share_input_output_embed:\n                self.embed_out = nn.Linear(\n                    args.encoder_embed_dim, self.vocab_size, bias=False\n                )\n\n            if args.sent_loss:\n                self.sentence_projection_layer = nn.Linear(\n                    args.encoder_embed_dim, self.sentence_out_dim, bias=False\n                )\n\n    def forward(self, src_tokens, segment_labels=None, masked_tokens=None, **unused):\n        \"\"\"\n        Forward pass for Masked LM encoder. This first computes the token\n        embedding using the token embedding matrix, position embeddings (if\n        specified) and segment embeddings (if specified).\n\n        Here we assume that the sentence representation corresponds to the\n        output of the classification_token (see bert_task or cross_lingual_lm\n        task for more details).\n        Args:\n            - src_tokens: B x T matrix representing sentences\n            - segment_labels: B x T matrix representing segment label for tokens\n        Returns:\n            - a tuple of the following:\n                - logits for predictions in format B x T x C to be used in\n                  softmax afterwards\n                - a dictionary of additional data, where 'pooled_output' contains\n                  the representation for classification_token and 'inner_states'\n                  is a list of internal model states used to compute the\n                  predictions (similar in ELMO). 'sentence_logits'\n                  is the prediction logit for NSP task and is only computed if\n                  this is specified in the input arguments.\n        \"\"\"\n\n        inner_states, sentence_rep = self.sentence_encoder(\n            src_tokens,\n            segment_labels=segment_labels,\n        )\n\n        x = inner_states[-1].transpose(0, 1)\n        # project masked tokens only\n        if masked_tokens is not None:\n            x = x[masked_tokens, :]\n        x = self.layer_norm(self.activation_fn(self.lm_head_transform_weight(x)))\n\n        pooled_output = self.pooler_activation(self.masked_lm_pooler(sentence_rep))\n\n        # project back to size of vocabulary\n        if self.share_input_output_embed and hasattr(\n            self.sentence_encoder.embed_tokens, \"weight\"\n        ):\n            x = F.linear(x, self.sentence_encoder.embed_tokens.weight)\n        elif self.embed_out is not None:\n            x = self.embed_out(x)\n        if self.lm_output_learned_bias is not None:\n            x = x + self.lm_output_learned_bias\n        sentence_logits = None\n        if self.sentence_projection_layer:\n            sentence_logits = self.sentence_projection_layer(pooled_output)\n\n        return x, {\n            \"inner_states\": inner_states,\n            \"pooled_output\": pooled_output,\n            \"sentence_logits\": sentence_logits,\n        }\n\n    def max_positions(self):\n        \"\"\"Maximum output length supported by the encoder.\"\"\"\n        return self.max_positions\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        if not self.load_softmax:\n            for k in list(state_dict.keys()):\n                if (\n                    \"embed_out.weight\" in k\n                    or \"sentence_projection_layer.weight\" in k\n                    or \"lm_output_learned_bias\" in k\n                ):\n                    del state_dict[k]\n        return state_dict\n\n\n@register_model_architecture(\"masked_lm\", \"masked_lm\")\ndef base_architecture(args):\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.1)\n    args.act_dropout = getattr(args, \"act_dropout\", 0.0)\n\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 4096)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 6)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.share_encoder_input_output_embed = getattr(\n        args, \"share_encoder_input_output_embed\", False\n    )\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", False)\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.num_segment = getattr(args, \"num_segment\", 2)\n\n    args.sentence_class_num = getattr(args, \"sentence_class_num\", 2)\n    args.sent_loss = getattr(args, \"sent_loss\", False)\n\n    args.apply_bert_init = getattr(args, \"apply_bert_init\", False)\n\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n    args.pooler_activation_fn = getattr(args, \"pooler_activation_fn\", \"tanh\")\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n\n\n@register_model_architecture(\"masked_lm\", \"bert_base\")\ndef bert_base_architecture(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 768)\n    args.share_encoder_input_output_embed = getattr(\n        args, \"share_encoder_input_output_embed\", True\n    )\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", True)\n    args.num_segment = getattr(args, \"num_segment\", 2)\n\n    args.encoder_layers = getattr(args, \"encoder_layers\", 12)\n\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 12)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 3072)\n\n    args.sentence_class_num = getattr(args, \"sentence_class_num\", 2)\n    args.sent_loss = getattr(args, \"sent_loss\", True)\n\n    args.apply_bert_init = getattr(args, \"apply_bert_init\", True)\n\n    args.activation_fn = getattr(args, \"activation_fn\", \"gelu\")\n    args.pooler_activation_fn = getattr(args, \"pooler_activation_fn\", \"tanh\")\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", True)\n    base_architecture(args)\n\n\n@register_model_architecture(\"masked_lm\", \"bert_large\")\ndef bert_large_architecture(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 24)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 16)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 4096)\n    bert_base_architecture(args)\n\n\n@register_model_architecture(\"masked_lm\", \"xlm_base\")\ndef xlm_architecture(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.share_encoder_input_output_embed = getattr(\n        args, \"share_encoder_input_output_embed\", True\n    )\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", True)\n    args.num_segment = getattr(args, \"num_segment\", 1)\n\n    args.encoder_layers = getattr(args, \"encoder_layers\", 6)\n\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 4096)\n\n    args.sent_loss = getattr(args, \"sent_loss\", False)\n\n    args.activation_fn = getattr(args, \"activation_fn\", \"gelu\")\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.pooler_activation_fn = getattr(args, \"pooler_activation_fn\", \"tanh\")\n    args.apply_bert_init = getattr(args, \"apply_bert_init\", True)\n    base_architecture(args)\n"
  },
  {
    "path": "fairseq/models/model_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import List, Optional\n\nimport torch\nfrom torch import Tensor\n\n\n@torch.jit.script\ndef script_skip_tensor_list(x: List[Tensor], mask):\n    res = [xi[mask] if xi.size(0) == mask.size(0) else xi[:, mask] for xi in x]\n    outputs = []\n    for i, t in enumerate(res):\n        if t.numel() != 0:\n            outputs.append(t)\n        else:\n            outputs.append(x[i])\n    return outputs\n\n\n@torch.jit.script\ndef script_skip_tensor(x: Tensor, mask):\n    # None case\n    if x.size(0) == 0:\n        return x\n    res = x[mask] if x.size(0) == mask.size(0) else x[:, mask]\n    if res.numel() == 0:\n        return x\n    else:\n        return res\n\n\n@torch.jit.script\ndef expand_2d_or_3d_tensor(x, trg_dim: int, padding_idx: int):\n    \"\"\"\n    Expand 2D/3D tensor on dim=1\n    \"\"\"\n    if x is None:\n        return None\n\n    assert x.dim() == 2 or x.dim() == 3\n    assert trg_dim >= x.size(1), (trg_dim, x.size())\n    if trg_dim == x.size(1):\n        return x\n\n    dims = [x.size(0), trg_dim - x.size(1)]\n    if x.dim() == 3:\n        dims.append(x.size(2))\n    x = torch.cat([x, torch.zeros(dims).to(x).fill_(padding_idx)], 1)\n\n    return x\n\n\n@torch.jit.script\ndef coalesce(x: Optional[Tensor], y: Tensor) -> Tensor:\n    return x if x is not None else y\n\n\n@torch.jit.script\ndef fill_tensors(\n    x: Optional[Tensor], mask, y: Optional[Tensor], padding_idx: int\n) -> Optional[Tensor]:\n    \"\"\"\n    Filling tensor x with y at masked positions (dim=0).\n    \"\"\"\n    if x is None or x.size()[0] == 0 or y is None:\n        return x\n    assert x.dim() == y.dim() and mask.size(0) == x.size(0)\n    assert x.dim() == 2 or (x.dim() == 3 and x.size(2) == y.size(2))\n\n    n_selected = mask.sum()\n    if n_selected == 0:\n        return x\n    assert n_selected == y.size(0)\n    if n_selected == x.size(0):\n        return y\n\n    if x.size(1) < y.size(1):\n        x = expand_2d_or_3d_tensor(x, y.size(1), padding_idx)\n        x[mask] = y\n    elif x.size(1) > y.size(1):\n        x[mask] = torch.tensor(padding_idx).type_as(x)\n        if x.dim() == 2:\n            x[mask, : y.size(1)] = y\n        else:\n            x[mask, : y.size(1), :] = y\n    else:\n        x[mask] = y\n    return x\n"
  },
  {
    "path": "fairseq/models/multilingual_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom collections import OrderedDict\n\nfrom fairseq import utils\nfrom fairseq.models import (\n    FairseqMultiModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.transformer import (\n    Embedding,\n    TransformerDecoder,\n    TransformerEncoder,\n    TransformerModel,\n    base_architecture,\n)\nfrom fairseq.utils import safe_hasattr\n\n\n@register_model(\"multilingual_transformer\")\nclass MultilingualTransformerModel(FairseqMultiModel):\n    \"\"\"Train Transformer models for multiple language pairs simultaneously.\n\n    Requires `--task multilingual_translation`.\n\n    We inherit all arguments from TransformerModel and assume that all language\n    pairs use a single Transformer architecture. In addition, we provide several\n    options that are specific to the multilingual setting.\n\n    Args:\n        --share-encoder-embeddings: share encoder embeddings across all source languages\n        --share-decoder-embeddings: share decoder embeddings across all target languages\n        --share-encoders: share all encoder params (incl. embeddings) across all source languages\n        --share-decoders: share all decoder params (incl. embeddings) across all target languages\n    \"\"\"\n\n    def __init__(self, encoders, decoders):\n        super().__init__(encoders, decoders)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        TransformerModel.add_args(parser)\n        parser.add_argument(\n            \"--share-encoder-embeddings\",\n            action=\"store_true\",\n            help=\"share encoder embeddings across languages\",\n        )\n        parser.add_argument(\n            \"--share-decoder-embeddings\",\n            action=\"store_true\",\n            help=\"share decoder embeddings across languages\",\n        )\n        parser.add_argument(\n            \"--share-encoders\",\n            action=\"store_true\",\n            help=\"share encoders across languages\",\n        )\n        parser.add_argument(\n            \"--share-decoders\",\n            action=\"store_true\",\n            help=\"share decoders across languages\",\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        from fairseq.tasks.multilingual_translation import MultilingualTranslationTask\n\n        assert isinstance(task, MultilingualTranslationTask)\n\n        # make sure all arguments are present in older models\n        base_multilingual_architecture(args)\n\n        if not safe_hasattr(args, \"max_source_positions\"):\n            args.max_source_positions = 1024\n        if not safe_hasattr(args, \"max_target_positions\"):\n            args.max_target_positions = 1024\n\n        src_langs = [lang_pair.split(\"-\")[0] for lang_pair in task.model_lang_pairs]\n        tgt_langs = [lang_pair.split(\"-\")[1] for lang_pair in task.model_lang_pairs]\n\n        if args.share_encoders:\n            args.share_encoder_embeddings = True\n        if args.share_decoders:\n            args.share_decoder_embeddings = True\n\n        def build_embedding(dictionary, embed_dim, path=None):\n            num_embeddings = len(dictionary)\n            padding_idx = dictionary.pad()\n            emb = Embedding(num_embeddings, embed_dim, padding_idx)\n            # if provided, load from preloaded dictionaries\n            if path:\n                embed_dict = utils.parse_embedding(path)\n                utils.load_embedding(embed_dict, dictionary, emb)\n            return emb\n\n        # build shared embeddings (if applicable)\n        shared_encoder_embed_tokens, shared_decoder_embed_tokens = None, None\n        if args.share_all_embeddings:\n            if args.encoder_embed_dim != args.decoder_embed_dim:\n                raise ValueError(\n                    \"--share-all-embeddings requires --encoder-embed-dim to match --decoder-embed-dim\"\n                )\n            if args.decoder_embed_path and (\n                args.decoder_embed_path != args.encoder_embed_path\n            ):\n                raise ValueError(\n                    \"--share-all-embeddings not compatible with --decoder-embed-path\"\n                )\n            shared_encoder_embed_tokens = FairseqMultiModel.build_shared_embeddings(\n                dicts=task.dicts,\n                langs=task.langs,\n                embed_dim=args.encoder_embed_dim,\n                build_embedding=build_embedding,\n                pretrained_embed_path=args.encoder_embed_path,\n            )\n            shared_decoder_embed_tokens = shared_encoder_embed_tokens\n            args.share_decoder_input_output_embed = True\n        else:\n            if args.share_encoder_embeddings:\n                shared_encoder_embed_tokens = FairseqMultiModel.build_shared_embeddings(\n                    dicts=task.dicts,\n                    langs=src_langs,\n                    embed_dim=args.encoder_embed_dim,\n                    build_embedding=build_embedding,\n                    pretrained_embed_path=args.encoder_embed_path,\n                )\n            if args.share_decoder_embeddings:\n                shared_decoder_embed_tokens = FairseqMultiModel.build_shared_embeddings(\n                    dicts=task.dicts,\n                    langs=tgt_langs,\n                    embed_dim=args.decoder_embed_dim,\n                    build_embedding=build_embedding,\n                    pretrained_embed_path=args.decoder_embed_path,\n                )\n\n        # encoders/decoders for each language\n        lang_encoders, lang_decoders = {}, {}\n\n        def get_encoder(lang):\n            if lang not in lang_encoders:\n                if shared_encoder_embed_tokens is not None:\n                    encoder_embed_tokens = shared_encoder_embed_tokens\n                else:\n                    encoder_embed_tokens = build_embedding(\n                        task.dicts[lang],\n                        args.encoder_embed_dim,\n                        args.encoder_embed_path,\n                    )\n                lang_encoders[lang] = cls._get_module_class(\n                    True, args, task.dicts[lang], encoder_embed_tokens, src_langs\n                )\n            return lang_encoders[lang]\n\n        def get_decoder(lang):\n            if lang not in lang_decoders:\n                if shared_decoder_embed_tokens is not None:\n                    decoder_embed_tokens = shared_decoder_embed_tokens\n                else:\n                    decoder_embed_tokens = build_embedding(\n                        task.dicts[lang],\n                        args.decoder_embed_dim,\n                        args.decoder_embed_path,\n                    )\n                lang_decoders[lang] = cls._get_module_class(\n                    False, args, task.dicts[lang], decoder_embed_tokens, tgt_langs\n                )\n            return lang_decoders[lang]\n\n        # shared encoders/decoders (if applicable)\n        shared_encoder, shared_decoder = None, None\n        if args.share_encoders:\n            shared_encoder = get_encoder(src_langs[0])\n        if args.share_decoders:\n            shared_decoder = get_decoder(tgt_langs[0])\n\n        encoders, decoders = OrderedDict(), OrderedDict()\n        for lang_pair, src, tgt in zip(task.model_lang_pairs, src_langs, tgt_langs):\n            encoders[lang_pair] = (\n                shared_encoder if shared_encoder is not None else get_encoder(src)\n            )\n            decoders[lang_pair] = (\n                shared_decoder if shared_decoder is not None else get_decoder(tgt)\n            )\n\n        return MultilingualTransformerModel(encoders, decoders)\n\n    @classmethod\n    def _get_module_class(cls, is_encoder, args, lang_dict, embed_tokens, langs):\n        module_class = TransformerEncoder if is_encoder else TransformerDecoder\n        return module_class(args, lang_dict, embed_tokens)\n\n    def load_state_dict(self, state_dict, strict=True, model_cfg=None):\n        state_dict_subset = state_dict.copy()\n        for k, _ in state_dict.items():\n            assert k.startswith(\"models.\")\n            lang_pair = k.split(\".\")[1]\n            if lang_pair not in self.models:\n                del state_dict_subset[k]\n        super().load_state_dict(state_dict_subset, strict=strict, model_cfg=model_cfg)\n\n\n@register_model_architecture(\"multilingual_transformer\", \"multilingual_transformer\")\ndef base_multilingual_architecture(args):\n    base_architecture(args)\n    args.share_encoder_embeddings = getattr(args, \"share_encoder_embeddings\", False)\n    args.share_decoder_embeddings = getattr(args, \"share_decoder_embeddings\", False)\n    args.share_encoders = getattr(args, \"share_encoders\", False)\n    args.share_decoders = getattr(args, \"share_decoders\", False)\n\n\n@register_model_architecture(\n    \"multilingual_transformer\", \"multilingual_transformer_iwslt_de_en\"\n)\ndef multilingual_transformer_iwslt_de_en(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 1024)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 6)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 1024)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 4)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    base_multilingual_architecture(args)\n"
  },
  {
    "path": "fairseq/models/multires_hubert/__init__.py",
    "content": "from .multires_hubert import *  # noqa\nfrom .multires_hubert_asr import *  # noqa\n"
  },
  {
    "path": "fairseq/models/multires_hubert/multires_hubert.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom dataclasses import dataclass, field\nfrom typing import Dict, List, Optional, Tuple\n\nimport numpy as np\nimport torch\nimport math\nimport torch.nn as nn\nfrom omegaconf import II\nfrom fairseq.models.wav2vec.wav2vec import norm_block\n\nfrom fairseq import utils\nfrom fairseq.data.data_utils import compute_mask_indices\nfrom fairseq.data.dictionary import Dictionary\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.models import BaseFairseqModel, register_model\nfrom fairseq.models.wav2vec.wav2vec2 import (\n    EXTRACTOR_MODE_CHOICES,\n    MASKING_DISTRIBUTION_CHOICES,\n    LAYER_TYPE_CHOICES,\n    ConvFeatureExtractionModel,\n    TransformerEncoder,\n)\nfrom omegaconf import II, MISSING, open_dict\nfrom fairseq.modules import GradMultiply, LayerNorm\nfrom fairseq.tasks.multires_hubert_pretraining import (\n    MultiresHubertPretrainingConfig,\n    MultiresHubertPretrainingTask,\n)\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass MultiresHubertConfig(FairseqDataclass):\n    label_rate: float = II(\"task.label_rate\")\n    #     label_rate: 1,2,2,5\n    #                 (imply (1,2), (2,5))\n    #     if base label_rate = 50\n    #     (1,2), (2,5) --> label rates 50, 25, 10\n    label_rate_ratios: List[int] = field(\n        default=MISSING, metadata={\"help\": \"tuple for label rates e.g., [(1,2), (2,5)]\"}\n    )\n\n    extractor_mode: EXTRACTOR_MODE_CHOICES = field(\n        default=\"default\",\n        metadata={\n            \"help\": \"mode for feature extractor. default has a single group \"\n            \"norm with d groups in the first conv block, whereas layer_norm \"\n            \"has layer norms in every block (meant to use with normalize=True)\"\n        },\n    )\n    # the blocks for each label rate\n    encoder_layers: int = field(\n        default=\"2\",\n        metadata={\n            \"help\": \"num encoder layers in the each block (one sub module of the U-net)\"\n        },\n    )\n    override_encoder_layers: str = field(\n        default=\"\",\n        metadata={\n            \"help\": \"specific layer numbers for each block (one sub module of the U-net) for the training\"\n        },\n    )\n    encoder_embed_dim: int = field(\n        default=768, metadata={\"help\": \"encoder embedding dimension\"}\n    )\n    encoder_ffn_embed_dim: int = field(\n        default=3072, metadata={\"help\": \"encoder embedding dimension for FFN\"}\n    )\n    encoder_attention_heads: int = field(\n        default=12, metadata={\"help\": \"num encoder attention heads\"}\n    )\n    activation_fn: ChoiceEnum(utils.get_available_activation_fns()) = field(\n        default=\"gelu\", metadata={\"help\": \"activation function to use\"}\n    )\n    layer_type: LAYER_TYPE_CHOICES = field(\n        default=\"transformer\", metadata={\"help\": \"layer type in encoder\"}\n    )\n    conv_adapator_kernal: int = field(\n        default=7, metadata={\"help\": \"kernal size for conv adaptor\"}\n    )\n    use_plain_updownsample: bool = field(\n        default=False, metadata={\"help\": \"whether to use plain up downsample\"}\n    )\n\n    # dropouts\n    dropout: float = field(\n        default=0.1,\n        metadata={\"help\": \"dropout probability for the transformer\"},\n    )\n    attention_dropout: float = field(\n        default=0.1,\n        metadata={\"help\": \"dropout probability for attention weights\"},\n    )\n    activation_dropout: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout probability after activation in FFN\"},\n    )\n    encoder_layerdrop: float = field(\n        default=0.0,\n        metadata={\"help\": \"probability of dropping a tarnsformer layer\"},\n    )\n    dropout_input: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout to apply to the input (after feat extr)\"},\n    )\n    dropout_features: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout to apply to the features (after feat extr)\"},\n    )\n\n    final_dim: int = field(\n        default=0,\n        metadata={\n            \"help\": \"project final representations and targets to this many \"\n            \"dimensions. set to encoder_embed_dim is <= 0\"\n        },\n    )\n    untie_final_proj: bool = field(\n        default=True,\n        metadata={\"help\": \"use separate projection for each target\"},\n    )\n    layer_norm_first: bool = field(\n        default=False,\n        metadata={\"help\": \"apply layernorm first in the transformer\"},\n    )\n    conv_feature_layers: str = field(\n        default=\"[(512,10,5)] + [(512,3,2)] * 4 + [(512,2,2)] * 2\",\n        metadata={\n            \"help\": \"string describing convolutional feature extraction \"\n            \"layers in form of a python list that contains \"\n            \"[(dim, kernel_size, stride), ...]\"\n        },\n    )\n    conv_bias: bool = field(\n        default=False, metadata={\"help\": \"include bias in conv encoder\"}\n    )\n    logit_temp: float = field(\n        default=0.1, metadata={\"help\": \"temperature to divide logits by\"}\n    )\n    target_glu: bool = field(\n        default=False, metadata={\"help\": \"adds projection + glu to targets\"}\n    )\n    feature_grad_mult: float = field(\n        default=1.0,\n        metadata={\"help\": \"multiply feature extractor var grads by this\"},\n    )\n    use_single_target: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"whether to use single data (in that case, we will compute with the fixed label rate)\"\n        },\n    )\n    use_single_prediction: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if true, we will not conduct mlm prediction in low resolution in the middle\"\n        },\n    )\n    use_multi_stream: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"whether to use multi-stream setting (in this setting, we have multiple streams with the same resolution)\"\n        },\n    )\n\n    # masking\n    mask_length: int = field(default=10, metadata={\"help\": \"mask length\"})\n    mask_prob: float = field(\n        default=0.65,\n        metadata={\"help\": \"probability of replacing a token with mask\"},\n    )\n    mask_selection: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\", metadata={\"help\": \"how to choose mask length\"}\n    )\n    mask_other: float = field(\n        default=0,\n        metadata={\n            \"help\": \"secondary mask argument \"\n            \"(used for more complex distributions), \"\n            \"see help in compute_mask_indicesh\"\n        },\n    )\n    no_mask_overlap: bool = field(\n        default=False, metadata={\"help\": \"whether to allow masks to overlap\"}\n    )\n    mask_min_space: int = field(\n        default=1,\n        metadata={\"help\": \"min space between spans (if no overlap is enabled)\"},\n    )\n\n    # channel masking\n    mask_channel_length: int = field(\n        default=10,\n        metadata={\"help\": \"length of the mask for features (channels)\"},\n    )\n    mask_channel_prob: float = field(\n        default=0.0,\n        metadata={\"help\": \"probability of replacing a feature with 0\"},\n    )\n    mask_channel_selection: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\",\n        metadata={\"help\": \"how to choose mask length for channel masking\"},\n    )\n    mask_channel_other: float = field(\n        default=0,\n        metadata={\n            \"help\": \"secondary mask argument \"\n            \"(used for more complex distributions), \"\n            \"see help in compute_mask_indicesh\"\n        },\n    )\n    no_mask_channel_overlap: bool = field(\n        default=False,\n        metadata={\"help\": \"whether to allow channel masks to overlap\"},\n    )\n    mask_channel_min_space: int = field(\n        default=1,\n        metadata={\"help\": \"min space between spans (if no overlap is enabled)\"},\n    )\n\n    # positional embeddings\n    conv_pos: int = field(\n        default=128,\n        metadata={\"help\": \"number of filters for convolutional positional embeddings\"},\n    )\n    conv_pos_groups: int = field(\n        default=16,\n        metadata={\"help\": \"number of groups for convolutional positional embedding\"},\n    )\n\n    latent_temp: Tuple[float, float, float] = field(\n        default=(2, 0.5, 0.999995),\n        metadata={\"help\": \"legacy (to be removed)\"},\n    )\n\n    # loss computation\n    skip_masked: bool = field(\n        default=False,\n        metadata={\"help\": \"skip computing losses over masked frames\"},\n    )\n    skip_nomask: bool = field(\n        default=False,\n        metadata={\"help\": \"skip computing losses over unmasked frames\"},\n    )\n\n    checkpoint_activations: bool = field(\n        default=False,\n        metadata={\"help\": \"recompute activations and save memory for extra compute\"},\n    )\n\n    # FP16 optimization\n    required_seq_len_multiple: int = field(\n        default=2,\n        metadata={\n            \"help\": \"pad the input to encoder such that the sequence length is divisible by multiple\"\n        },\n    )\n\n    # Conformer\n    depthwise_conv_kernel_size: int = field(\n        default=31,\n        metadata={\n            \"help\": \"depthwise-conv-kernel-size for convolution in conformer layer\"\n        },\n    )\n    attn_type: str = field(\n        default=\"\",\n        metadata={\"help\": \"if espnet use ESPNET MHA\"},\n    )\n    pos_enc_type: str = field(\n        default=\"abs\",\n        metadata={\"help\": \"Positional encoding type to use in conformer\"},\n    )\n    fp16: bool = field(default=False, metadata={\"help\": \"If fp16 is being used\"})\n\n\n@register_model(\"multires_hubert\", dataclass=MultiresHubertConfig)\nclass MultiresHubertModel(BaseFairseqModel):\n    def __init__(\n        self,\n        cfg: MultiresHubertConfig,\n        task_cfg: MultiresHubertPretrainingConfig,\n        dictionaries: List[Dictionary],\n    ) -> None:\n        super().__init__()\n        logger.info(f\"MultiresHubertModel Config: {cfg}\")\n\n        feature_enc_layers = eval(cfg.conv_feature_layers)  # noqa\n        self.embed = feature_enc_layers[-1][0]\n\n        self.feature_extractor = ConvFeatureExtractionModel(\n            conv_layers=feature_enc_layers,\n            dropout=0.0,\n            mode=cfg.extractor_mode,\n            conv_bias=cfg.conv_bias,\n        )\n        self.post_extract_proj = (\n            nn.Linear(self.embed, cfg.encoder_embed_dim)\n            if self.embed != cfg.encoder_embed_dim\n            else None\n        )\n\n        # Estimate label rates\n        assert (\n            cfg.label_rate_ratios != \"None\"\n        ), \"without ratios, the model is exactly as the Hubert model\"\n        self.label_rate_ratios = []\n        self.base_rate = cfg.label_rate\n        self.label_rates = []\n        self.downsample_modules = nn.ModuleList()\n        self.upsample_modules = nn.ModuleList()\n        self.encoders = nn.ModuleList()\n        self.decoders = nn.ModuleList()\n        self.use_single_target = cfg.use_single_target\n        self.use_single_prediction = cfg.use_single_prediction\n        self.use_plain_updownsample = cfg.use_plain_updownsample\n\n        # For decide the override encoder layers, so that the layer number is not equally distributed\n        if cfg.override_encoder_layers != \"\":\n            self.override_encoder_layers = eval(cfg.override_encoder_layers)\n            assert (\n                len(self.override_encoder_layers) % 2 == 1\n            ), \"must be odd number of layers if specify detailed layers\"\n            assert (\n                len(self.override_encoder_layers) // 2\n                == len(cfg.label_rate_ratios) // 2\n            ), \"number of override encoder layers must match the label rate ratios information\"\n            self.len_encoder_modules = len(self.override_encoder_layers)\n        else:\n            self.override_encoder_layers = None\n            self.len_encoder_modules = None\n\n        # use different layers instead of equally distributed ones\n        middle_override_encoder_layer = (\n            self.override_encoder_layers[self.len_encoder_modules // 2]\n            if self.override_encoder_layers is not None\n            else None\n        )\n        skip_middle_pos_conv = False if len(cfg.label_rate_ratios) < 2 else True\n\n        self.middle_encoder = TransformerEncoder(\n            cfg,\n            skip_pos_conv=skip_middle_pos_conv,\n            override_encoder_layer=middle_override_encoder_layer,\n        )\n\n        first_pos_conv = False  # only enable pos_conv for the first encoder\n        raw_label_rate_ratios = cfg.label_rate_ratios\n        for i in range(len(raw_label_rate_ratios) // 2):\n            # check if have override encoder layers\n            if self.override_encoder_layers is not None:\n                override_encoder_layer = self.override_encoder_layers[i]\n                override_decoder_layer = self.override_encoder_layers[\n                    self.len_encoder_modules - 1 - i\n                ]\n            else:\n                override_encoder_layer, override_decoder_layer = None, None\n\n            self.label_rate_ratios.append(\n                (raw_label_rate_ratios[i * 2], raw_label_rate_ratios[i * 2 + 1])\n            )\n            if self.use_plain_updownsample:\n                self.downsample_modules.append(\n                    ConvDownsampler(\n                        k=cfg.conv_adapator_kernal,\n                        label_rate=(\n                            (\n                                raw_label_rate_ratios[i * 2],\n                                raw_label_rate_ratios[i * 2 + 1],\n                            )\n                        ),\n                        dropout=0.0,\n                        channels=cfg.encoder_embed_dim,\n                        activation=nn.GELU(),\n                        log_compression=False,\n                        skip_connections=True,\n                        highway=True,\n                        residual_scale=0.4,\n                    )\n                )\n            else:\n                self.downsample_modules.append(\n                    ConvAdapter(\n                        k=cfg.conv_adapator_kernal,\n                        label_rate=(\n                            (\n                                raw_label_rate_ratios[i * 2],\n                                raw_label_rate_ratios[i * 2 + 1],\n                            )\n                        ),\n                        dropout=0.0,\n                        channels=cfg.encoder_embed_dim,\n                        activation=nn.GELU(),\n                        log_compression=False,\n                        skip_connections=True,\n                        highway=True,\n                        residual_scale=0.4,\n                    )\n                )\n            if not first_pos_conv:\n                self.encoders.append(\n                    TransformerEncoder(\n                        cfg, override_encoder_layer=override_encoder_layer\n                    )\n                )  # TODO(jiatong): add conformer options\n                first_pos_conv = True\n            else:\n                self.encoders.append(\n                    TransformerEncoder(\n                        cfg,\n                        skip_pos_conv=True,\n                        override_encoder_layer=override_encoder_layer,\n                    )\n                )\n            if self.use_plain_updownsample:\n                self.upsample_modules.append(\n                    ConvUpsampler(\n                        k=cfg.conv_adapator_kernal,\n                        label_rate=(\n                            (\n                                raw_label_rate_ratios[i * 2 + 1],\n                                raw_label_rate_ratios[i * 2],\n                            )\n                        ),\n                        dropout=0.0,\n                        channels=cfg.encoder_embed_dim,\n                        activation=nn.GELU(),\n                        log_compression=False,\n                        skip_connections=True,\n                        highway=True,\n                        residual_scale=0.4,\n                    )\n                )\n            else:\n                self.upsample_modules.append(\n                    ConvAdapter(\n                        k=cfg.conv_adapator_kernal,\n                        label_rate=(\n                            (\n                                raw_label_rate_ratios[i * 2 + 1],\n                                raw_label_rate_ratios[i * 2],\n                            )\n                        ),\n                        dropout=0.0,\n                        channels=cfg.encoder_embed_dim,\n                        activation=nn.GELU(),\n                        log_compression=False,\n                        skip_connections=True,\n                        highway=True,\n                        residual_scale=0.4,\n                    )\n                )\n            self.decoders.append(\n                TransformerEncoder(\n                    cfg,\n                    skip_pos_conv=True,\n                    override_encoder_layer=override_decoder_layer,\n                )\n            )\n\n        base_ds_rate = np.prod([s for _, _, s in feature_enc_layers])\n        self.feature_ds_rates = [base_ds_rate]\n        running_rate = self.base_rate\n\n        if cfg.use_single_target or cfg.use_multi_stream:\n            self.label_rates = self.base_rate\n        else:\n            self.label_rates.append(self.base_rate)\n\n        for label_rate_ratio in self.label_rate_ratios:\n            upsample_rate, downsample_rate = label_rate_ratio\n            if (base_ds_rate * upsample_rate) % downsample_rate != 0:\n                logger.warning(\n                    \"base rate: {} cannot be ideally processed with downsample rate {}\".format(\n                        base_ds_rate, downsample_rate\n                    )\n                )\n\n            base_ds_rate = base_ds_rate * downsample_rate // upsample_rate\n            self.feature_ds_rates.append(base_ds_rate)\n\n            if not cfg.use_single_target and not cfg.use_multi_stream:\n                running_rate = running_rate * upsample_rate // downsample_rate\n                self.label_rates.append(running_rate)\n        self.label_nums = len(\n            self.feature_ds_rates\n        )  # the number of labels for prediction (activate at iter 2)\n\n        if type(self.label_rates) == float:\n            self.feat2tar_ratios = [\n                self.feature_ds_rates[i] * self.label_rates / task_cfg.sample_rate\n                for i in range(len(self.feature_ds_rates))\n            ]\n        else:\n            self.feat2tar_ratios = [\n                self.feature_ds_rates[i] * self.label_rates[i] / task_cfg.sample_rate\n                for i in range(len(self.feature_ds_rates))\n            ]\n\n        # self.feat2tar_ratios = self.feat2tar_ratios[::-1]\n\n        # An running example of the label rate:\n        #     base_ds_rate = 320\n        #     self.label_rate_ratios = [(1, 2)]\n        #     self.feature_ds_rates = [320, 640]\n        #     self.label_rates = [50, 25]\n        #     self.feat2tar_ratios = [1, 1]\n\n        # Another running example of the label rate:\n        #     base_ds_rate = 320\n        #     self.label_rate_ratios = [(1, 2)]\n        #     self.feature_ds_rates = [320, 640]\n        #     self.label_rates = 100\n        #     self.feat2tar_ratios = [4, 2]\n        #     self.use_sinlge_target = True\n\n        logging.info(\n            \"ds_rates: {}, label_rates: {}, feat2tar_ratios: {}\".format(\n                self.feature_ds_rates, self.label_rates, self.feat2tar_ratios\n            )\n        )\n\n        self.mask_prob = cfg.mask_prob\n        self.mask_selection = cfg.mask_selection\n        self.mask_other = cfg.mask_other\n        self.mask_length = cfg.mask_length\n        self.no_mask_overlap = cfg.no_mask_overlap\n        self.mask_min_space = cfg.mask_min_space\n\n        self.mask_channel_prob = cfg.mask_channel_prob\n        self.mask_channel_selection = cfg.mask_channel_selection\n        self.mask_channel_other = cfg.mask_channel_other\n        self.mask_channel_length = cfg.mask_channel_length\n        self.no_mask_channel_overlap = cfg.no_mask_channel_overlap\n        self.mask_channel_min_space = cfg.mask_channel_min_space\n\n        self.dropout_input = nn.Dropout(cfg.dropout_input)\n        self.dropout_features = nn.Dropout(cfg.dropout_features)\n\n        self.feature_grad_mult = cfg.feature_grad_mult\n        self.logit_temp = cfg.logit_temp\n        self.skip_masked = cfg.skip_masked\n        self.skip_nomask = cfg.skip_nomask\n\n        # Note(jiatong): different from hubert, we just set the final dim as encoder_embed_dim\n        final_dim = cfg.final_dim if cfg.final_dim > 0 else cfg.encoder_embed_dim\n\n        self.mask_emb = nn.Parameter(\n            torch.FloatTensor(cfg.encoder_embed_dim).uniform_()\n        )\n\n        self.layer_norm = LayerNorm(self.embed)\n\n        self.predictor_head_num = 1 if self.use_single_prediction else self.label_nums\n\n        self.target_glu = None\n        if cfg.target_glu:\n            self.target_glus = nn.ModuleList()\n            for i in range(self.predictor_head_num):\n                self.target_glus.append(\n                    nn.Sequential(nn.Linear(final_dim, final_dim * 2), nn.GLU())\n                )\n\n        self.untie_final_proj = cfg.untie_final_proj\n        self.final_projs = nn.ModuleList()\n\n        # Note(jiatong): we do not have untie cases for multires hubert\n        for i in range(self.predictor_head_num):\n            self.final_projs.append(nn.Linear(cfg.encoder_embed_dim, final_dim))\n\n        # modules below are not needed during fine-tuning\n        self.multires_classes = []\n        self.label_embs_concat = nn.ParameterList()\n\n        for i in range(self.predictor_head_num):\n            if self.use_single_target:\n                num_classes = len(dictionaries[0])\n            else:\n                num_classes = len(dictionaries[i])\n            self.multires_classes.append(num_classes)\n            self.label_embs_concat.append(\n                nn.Parameter(torch.FloatTensor(num_classes, final_dim))\n            )\n            nn.init.uniform_(self.label_embs_concat[i])\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        \"\"\"Upgrade a (possibly old) state dict for new versions of fairseq.\"\"\"\n\n        super().upgrade_state_dict_named(state_dict, name)\n        return state_dict\n\n    @classmethod\n    def build_model(\n        cls, cfg: MultiresHubertConfig, task: MultiresHubertPretrainingTask\n    ):\n        \"\"\"Build a new model instance.\"\"\"\n\n        model = MultiresHubertModel(cfg, task.cfg, task.dictionaries)\n        return model\n\n    def apply_mask(self, x, padding_mask, target_list):\n        B, T, C = x.shape\n        if self.mask_prob > 0:\n            mask_indices = compute_mask_indices(\n                (B, T),\n                padding_mask,\n                self.mask_prob,\n                self.mask_length,\n                self.mask_selection,\n                self.mask_other,\n                min_masks=2,\n                no_overlap=self.no_mask_overlap,\n                min_space=self.mask_min_space,\n            )\n            mask_indices = torch.from_numpy(mask_indices).to(x.device)\n            x[mask_indices] = self.mask_emb\n        else:\n            mask_indices = None\n\n        if self.mask_channel_prob > 0:\n            mask_channel_indices = compute_mask_indices(\n                (B, C),\n                None,\n                self.mask_channel_prob,\n                self.mask_channel_length,\n                self.mask_channel_selection,\n                self.mask_channel_other,\n                no_overlap=self.no_mask_channel_overlap,\n                min_space=self.mask_channel_min_space,\n            )\n            mask_channel_indices = (\n                torch.from_numpy(mask_channel_indices)\n                .to(x.device)\n                .unsqueeze(1)\n                .expand(-1, T, -1)\n            )\n            x[mask_channel_indices] = 0\n\n        return x, mask_indices\n\n    def compute_nce(self, x, pos, negs):\n        neg_is_pos = (pos == negs).all(-1)\n        pos = pos.unsqueeze(0)\n        targets = torch.cat([pos, negs], dim=0)\n\n        logits = torch.cosine_similarity(x.float(), targets.float(), dim=-1).type_as(x)\n        logits /= self.logit_temp\n        if neg_is_pos.any():\n            logits[1:][neg_is_pos] = float(\"-inf\")\n        logits = logits.transpose(0, 1)  # (num_x, num_cls+1)\n        return logits\n\n    def forward_features(self, source: torch.Tensor) -> torch.Tensor:\n        if self.feature_grad_mult > 0:\n            features = self.feature_extractor(source)\n            if self.feature_grad_mult != 1.0:\n                features = GradMultiply.apply(features, self.feature_grad_mult)\n        else:\n            with torch.no_grad():\n                features = self.feature_extractor(source)\n        return features\n\n    def forward_targets(\n        self,\n        features: torch.Tensor,\n        target: torch.Tensor,\n        feat2tar_ratio: float,\n    ) -> Tuple[torch.Tensor, torch.Tensor]:\n        # Trim features to ensure labels exist and then get aligned labels\n\n        feat_tsz = features.size(1)\n\n        # skip if no target is provided\n        if target is None:\n            return features, None, None\n        targ_tsz = target.size(1)\n        if feat2tar_ratio * feat_tsz > targ_tsz:\n            feat_tsz = int(targ_tsz / feat2tar_ratio)\n            features = features[:, :feat_tsz]\n        target_inds = torch.arange(feat_tsz).float() * feat2tar_ratio\n        target = target[:, target_inds.long()]\n        return features, target\n\n    def forward_padding_mask(\n        self,\n        features: torch.Tensor,\n        padding_mask: torch.Tensor,\n    ) -> torch.Tensor:\n        extra = padding_mask.size(1) % features.size(1)\n        if extra > 0:\n            padding_mask = padding_mask[:, :-extra]\n        padding_mask = padding_mask.view(padding_mask.size(0), features.size(1), -1)\n        padding_mask = padding_mask.all(-1)\n        return padding_mask\n\n    def forward(\n        self,\n        source: torch.Tensor,\n        target_list: Optional[List[torch.Tensor]] = None,\n        padding_mask: Optional[torch.Tensor] = None,\n        mask: bool = True,\n        features_only: bool = False,\n        output_layer: Optional[int] = None,\n    ) -> Dict[str, torch.Tensor]:\n        \"\"\"output layer is 1-based\"\"\"\n        features = self.forward_features(source)\n\n        features_pen = features.float().pow(2).mean()\n\n        features = features.transpose(1, 2)\n        features = self.layer_norm(features)\n        unmasked_features = features.clone()\n\n        if padding_mask is not None:\n            padding_mask = self.forward_padding_mask(features, padding_mask)\n\n        if self.post_extract_proj is not None:\n            features = self.post_extract_proj(features)\n\n        features = self.dropout_input(features)\n        unmasked_features = self.dropout_features(unmasked_features)\n\n        if mask:\n            x, mask_indices = self.apply_mask(features, padding_mask, target_list)\n        else:\n            x = features\n            mask_indices = None\n\n        # feature: (B, T, D), float\n        # target: (B, T), long\n        # x: (B, T, D), float\n        # padding_mask: (B, T), bool\n        # mask_indices: (B, T), bool\n\n        def align_size_sum(feat1, pad1, feat2):\n            assert (\n                abs(feat1.size(1) - feat2.size(1)) < 10\n            ), \"misaligned results for feat1 and feat2 of size {} - {}\".format(\n                feat1.size(1), feat2.size(1)\n            )\n            common_size = min(feat1.size(1), feat2.size(1))\n\n            return (\n                feat1[:, :common_size] + feat2[:, :common_size],\n                pad1[:, :common_size],\n            )\n\n        # process encoders\n        res_outputs = []  # final output for different resolution\n        multi_mask_indices = []  # mask indices for different resolution\n        residuals = []  # record the x in encoders\n        padding_masks = []  # final padding masks\n        # The encoder has (self.label_nums - 1) blocks\n        for i in range(self.label_nums - 1):\n            x, _ = self.encoders[i](x, padding_mask=padding_mask, layer=None)\n            residuals.append(x)\n            x, padding_mask, mask_indices = self.downsample_modules[i](\n                x, padding=padding_mask, mask_indices=mask_indices\n            )\n\n        residual = self.middle_encoder(x, padding_mask=padding_mask, layer=None)[0]\n        x = x + residual\n        res_outputs.append(x)\n\n        # process decoders\n        # The encoder has (self.label_nums - 1) blocks\n        padding_masks.append(padding_mask)\n        multi_mask_indices.append(mask_indices)\n        residuals.reverse()  # NOTE(jiatong): reverse res_output to match corresponding input\n        for i in range(self.label_nums - 1):\n            x, padding_mask, mask_indices = self.upsample_modules[\n                self.label_nums - 2 - i\n            ](x, padding=padding_mask, mask_indices=mask_indices)\n            x, _ = self.decoders[i](x, padding_mask=padding_mask, layer=None)\n            x, padding_mask = align_size_sum(x, padding_mask, residuals[i])\n            res_outputs.append(x)\n            padding_masks.append(padding_mask)\n            multi_mask_indices.append(mask_indices)\n\n        # NOTE(jiatong): need reverse of target list to allow matched target-representation\n        res_outputs.reverse()\n        padding_masks.reverse()\n        multi_mask_indices.reverse()\n        if target_list is not None:\n            new_target_list = []\n            for i in range(self.label_nums):\n                if self.use_single_target:\n                    res_outputs[i], reformat_target_list = self.forward_targets(\n                        res_outputs[i], target_list[0], self.feat2tar_ratios[i]\n                    )\n                    new_target_list.append(reformat_target_list)\n                else:\n                    if target_list[i] is not None:\n                        res_outputs[i], reformat_target_list = self.forward_targets(\n                            res_outputs[i], target_list[i], self.feat2tar_ratios[i]\n                        )\n                        new_target_list.append(reformat_target_list)\n                    else:\n                        # Append a None target list then it won't be used to calculate loss\n                        new_target_list.append(None)\n                if padding_masks[i] is not None:\n                    padding_masks[i] = self.forward_padding_mask(\n                        res_outputs[i], padding_masks[i]\n                    )\n                if multi_mask_indices[i] is not None:\n                    multi_mask_indices[i] = self.forward_padding_mask(\n                        res_outputs[i], multi_mask_indices[i]\n                    )\n\n\n        if features_only:\n            # NOTE(jiatong): need to reverse back\n            res_outputs.reverse()\n            return {\n                \"x\": res_outputs,\n                \"padding_mask\": padding_masks[0],\n                \"features\": features,\n            }\n\n        def compute_pred(proj_x, target, label_embs):\n            # compute logits for the i-th label set\n            y = torch.index_select(label_embs, 0, target.long())\n            negs = label_embs.unsqueeze(1).expand(-1, proj_x.size(0), -1)\n            if self.target_glu:\n                y = self.target_glu(y)\n                negs = self.target_glu(negs)\n            # proj_x: (S, D)\n            # y: (S, D)\n            # negs: (Neg, S, D)\n            return self.compute_nce(proj_x, y, negs)\n\n        logit_m_list, logit_u_list = [], []\n        for j in range(self.label_nums):\n            if new_target_list[j] is None:\n                continue  # skip empty targets\n            label_embs_list = self.label_embs_concat[j].split(\n                [self.multires_classes[j]], 0\n            )\n            # set the variables (after the set, the procedure is the same as hubert)\n            # all the elements are list with only one element (to simulate the normal hubert process)\n            x = res_outputs[j]\n            target = new_target_list[j]\n            padding_mask = padding_masks[j]\n            mask_indices = multi_mask_indices[j]\n            final_proj = self.final_projs[j]\n\n            if not self.skip_masked:\n                masked_indices = torch.logical_and(~padding_mask, mask_indices)\n                proj_x_m = final_proj(x[masked_indices])\n                logit_m_list.append(\n                    compute_pred(proj_x_m, target[masked_indices], label_embs_list[0])\n                )\n            else:\n                logit_m_list.append(None)\n\n            if not self.skip_nomask:\n                nomask_indices = torch.logical_and(~padding_mask, ~mask_indices)\n                proj_x_u = final_proj(x[nomask_indices])\n                logit_u_list.append(\n                    compute_pred(proj_x_u, target[nomask_indices], label_embs_list[0])\n                )\n            else:\n                logit_u_list.append(None)\n\n            # if we only want one prediction, we can exit now\n            if self.predictor_head_num == 1:\n                break\n\n        result = {\n            \"logit_m_list\": logit_m_list,\n            \"logit_u_list\": logit_u_list,\n            \"padding_mask\": padding_mask,\n            \"features_pen\": features_pen,\n        }\n        return result\n\n    def extract_features(\n        self,\n        source: torch.Tensor,\n        padding_mask: Optional[torch.Tensor] = None,\n        mask: bool = False,\n        ret_conv: bool = False,\n        output_layer: Optional[int] = None,\n        last_layer: Optional[bool] = False,\n    ) -> Tuple[torch.Tensor, torch.Tensor]:\n        res = self.forward(\n            source,\n            padding_mask=padding_mask,\n            mask=mask,\n            features_only=True,\n            output_layer=output_layer,\n        )\n        feature = res[\"features\"] if ret_conv else res[\"x\"]\n        if last_layer:\n            feature = feature[-1]\n        return feature, res[\"padding_mask\"]\n\n    def get_logits(self, net_output, is_masked=True):\n        if is_masked:\n            logits_list = net_output[\"logit_m_list\"]\n        else:\n            logits_list = net_output[\"logit_u_list\"]\n        logits_list = [x.float() for x in logits_list if x is not None]\n        return logits_list\n\n    def get_targets(self, net_output, is_masked=True):\n        logits_list = self.get_logits(net_output, is_masked)\n        targets_list = [x.new_zeros(x.size(0), dtype=torch.long) for x in logits_list]\n        return targets_list\n\n    def get_extra_losses(self, net_output):\n        extra_losses = []\n        names = []\n\n        if \"features_pen\" in net_output:\n            extra_losses.append(net_output[\"features_pen\"])\n            names.append(\"features_pen\")\n\n        return extra_losses, names\n\n    def remove_pretraining_modules(self):\n        self.target_glu = None\n        self.final_proj = None\n\n\nclass ConvAdapter(nn.Module):\n    \"\"\"Conv adapter that combines two modules with different label rate with downsample or upsample.\n    To allow different ratios than integer, two convs are utilized with first to upsample (numerator)\n    and the second to downsample (denominator)\"\"\"\n\n    def __init__(\n        self,\n        k,\n        label_rate,\n        dropout,\n        channels,\n        activation,\n        log_compression=False,\n        skip_connections=True,\n        highway=True,\n        residual_scale=0.4,\n        non_affine_group_norm=False,\n    ):\n        super().__init__()\n\n        def downsample_block(channel, k, stride):\n            return nn.Sequential(\n                # with padding (k - 1) // 2 to keep the same size\n                nn.Conv1d(\n                    channel,\n                    channel,\n                    k,\n                    stride=stride,\n                    bias=False,\n                    padding=(k - 1) // 2,\n                ),\n                nn.Dropout(p=dropout),\n                norm_block(\n                    is_layer_norm=False, dim=channel, affine=not non_affine_group_norm\n                ),\n                activation,\n            )\n\n        def upsample_block(channel, k, stride):\n            return nn.Sequential(\n                # with padding (k - 1) // 2 to keep the same size\n                nn.ConvTranspose1d(\n                    channel,\n                    channel,\n                    k,\n                    stride=stride,\n                    bias=False,\n                    padding=0,  # padding=(k - 1) // 2,\n                    output_padding=(stride - 1),\n                ),\n                nn.Dropout(p=dropout),\n                norm_block(\n                    is_layer_norm=False, dim=channel, affine=not non_affine_group_norm\n                ),\n                activation,\n            )\n\n        assert len(label_rate) == 2, \"label_rate should be sized two to apply fusion\"\n        # Lout =(Lin~H~R1)~Wstride~H~R2~Wpadding+dilation~W(kernel_size~H~R1)+output_padding+1\n        self.upsample_conv = upsample_block(channels, k, label_rate[0])\n        self.downsample_conv = downsample_block(channels, k, label_rate[1])\n\n        self.upsample_rate, self.downsample_rate = label_rate\n        self.log_compression = log_compression\n        self.skip_connections = skip_connections\n        self.highway = highway\n        self.residual_scale = math.sqrt(residual_scale)\n\n    def forward(self, x, padding=None, mask_indices=None):\n        # Assume x1 = (B, T, C) as input\n        x = x.permute(0, 2, 1)\n        residual_before_upsample = x\n        x = self.upsample_conv(x)\n        upsample_size = x.size(2)\n\n        # conduct upsample\n        if self.skip_connections:\n            residual_upsample = torch.repeat_interleave(\n                residual_before_upsample, self.upsample_rate, dim=2\n            )\n            upsample_size = min(upsample_size, residual_upsample.size(2))\n            x = (\n                x[..., :upsample_size] + residual_upsample[..., :upsample_size]\n            ) * self.residual_scale\n\n        residual_before_downsample = x\n        x = self.downsample_conv(x)\n        downsample_size = x.size(2)\n\n        if self.skip_connections:\n            residual_downsample = residual_before_downsample[\n                ..., :: self.downsample_rate\n            ]\n            downsample_size = min(x.size(2), residual_downsample.size(2))\n            x = (\n                x[..., :downsample_size] + residual_downsample[..., :downsample_size]\n            ) * self.residual_scale\n\n        if self.highway:\n            residual_after_sample = residual_upsample[..., :: self.downsample_rate]\n            final_size = min(x.size(2), residual_after_sample.size(2))\n            x = (\n                x[..., :final_size] + residual_after_sample[..., :final_size]\n            ) * self.residual_scale\n\n        if self.log_compression:\n            x = x.abs()\n            x = x + 1\n            x = x.log()\n\n        x = x.permute(0, 2, 1)\n\n        # process padding\n        if padding is not None:\n            padding = torch.repeat_interleave(padding, self.upsample_rate, dim=1)\n            padding = padding[..., :: self.downsample_rate]\n            padding = padding[..., : x.size(1)]\n\n        # process mask indices\n        if mask_indices is not None:\n            mask_indices = torch.repeat_interleave(\n                mask_indices, self.upsample_rate, dim=1\n            )\n            mask_indices = mask_indices[..., :: self.downsample_rate]\n            mask_indices = mask_indices[..., : x.size(1)]\n        return x, padding, mask_indices\n\n\nclass ConvDownsampler(nn.Module):\n    \"\"\"Conv downsampler that combines two modules with different label rate with downsample or upsample.\n    To allow different ratios than integer, two convs are utilized with first to upsample (numerator)\n    and the second to downsample (denominator)\"\"\"\n\n    def __init__(\n        self,\n        k,\n        label_rate,\n        dropout,\n        channels,\n        activation,\n        log_compression=False,\n        skip_connections=True,\n        highway=True,\n        residual_scale=0.4,\n        non_affine_group_norm=False,\n    ):\n        super().__init__()\n\n        def downsample_block(channel, k, stride):\n            return nn.Sequential(\n                # with padding (k - 1) // 2 to keep the same size\n                nn.Conv1d(\n                    channel,\n                    channel,\n                    k,\n                    stride=stride,\n                    bias=False,\n                    padding=(k - 1) // 2,\n                ),\n                nn.Dropout(p=dropout),\n                norm_block(\n                    is_layer_norm=False, dim=channel, affine=not non_affine_group_norm\n                ),\n                activation,\n            )\n\n        assert len(label_rate) == 2, \"label_rate should be sized two to apply fusion\"\n        self.downsample_conv = downsample_block(channels, k, label_rate[1])\n\n        upsample_rate, self.downsample_rate = label_rate\n        assert upsample_rate == 1, \"must be 1 to perform downsample only\"\n        self.log_compression = log_compression\n        self.skip_connections = skip_connections\n        self.highway = highway  # Useless as placeholder\n        self.residual_scale = math.sqrt(residual_scale)\n\n    def forward(self, x, padding=None, mask_indices=None):\n        # Assume x1 = (B, T, C) as input\n        x = x.permute(0, 2, 1)\n\n        residual_before_downsample = x\n        x = self.downsample_conv(x)\n        downsample_size = x.size(2)\n\n        if self.skip_connections:\n            residual_downsample = residual_before_downsample[\n                ..., :: self.downsample_rate\n            ]\n            downsample_size = min(x.size(2), residual_downsample.size(2))\n            x = (\n                x[..., :downsample_size] + residual_downsample[..., :downsample_size]\n            ) * self.residual_scale\n\n        if self.log_compression:\n            x = x.abs()\n            x = x + 1\n            x = x.log()\n\n        x = x.permute(0, 2, 1)\n\n        # process padding\n        if padding is not None:\n            padding = padding[..., :: self.downsample_rate]\n            padding = padding[..., : x.size(1)]\n\n        # process mask indices\n        if mask_indices is not None:\n            mask_indices = mask_indices[..., :: self.downsample_rate]\n            mask_indices = mask_indices[..., : x.size(1)]\n        return x, padding, mask_indices\n\n\nclass ConvUpsampler(nn.Module):\n    \"\"\"Conv upsampler that combines two modules with different label rate with downsample or upsample.\n    To allow different ratios than integer, two convs are utilized with first to upsample (numerator)\n    and the second to downsample (denominator)\"\"\"\n\n    def __init__(\n        self,\n        k,\n        label_rate,\n        dropout,\n        channels,\n        activation,\n        log_compression=False,\n        skip_connections=True,\n        highway=True,\n        residual_scale=0.4,\n        non_affine_group_norm=False,\n    ):\n        super().__init__()\n\n        def upsample_block(channel, k, stride):\n            return nn.Sequential(\n                # with padding (k - 1) // 2 to keep the same size\n                nn.ConvTranspose1d(\n                    channel,\n                    channel,\n                    k,\n                    stride=stride,\n                    bias=False,\n                    padding=0,  # padding=(k - 1) // 2,\n                    output_padding=(stride - 1),\n                ),\n                nn.Dropout(p=dropout),\n                norm_block(\n                    is_layer_norm=False, dim=channel, affine=not non_affine_group_norm\n                ),\n                activation,\n            )\n\n        assert len(label_rate) == 2, \"label_rate should be sized two to apply fusion\"\n        # Lout =(Lin~H~R1)~Wstride~H~R2~Wpadding+dilation~W(kernel_size~H~R1)+output_padding+1\n        self.upsample_conv = upsample_block(channels, k, label_rate[0])\n\n        self.upsample_rate, downsample_rate = label_rate\n        assert downsample_rate == 1, \"must be 1 to perform downsample only\"\n        self.log_compression = log_compression\n        self.skip_connections = skip_connections\n        self.highway = highway  # Useless\n        self.residual_scale = math.sqrt(residual_scale)\n\n    def forward(self, x, padding=None, mask_indices=None):\n        # Assume x1 = (B, T, C) as input\n        x = x.permute(0, 2, 1)\n        residual_before_upsample = x\n        x = self.upsample_conv(x)\n        upsample_size = x.size(2)\n\n        # conduct upsample\n        if self.skip_connections:\n            residual_upsample = torch.repeat_interleave(\n                residual_before_upsample, self.upsample_rate, dim=2\n            )\n            upsample_size = min(upsample_size, residual_upsample.size(2))\n            x = (\n                x[..., :upsample_size] + residual_upsample[..., :upsample_size]\n            ) * self.residual_scale\n\n        if self.log_compression:\n            x = x.abs()\n            x = x + 1\n            x = x.log()\n\n        x = x.permute(0, 2, 1)\n\n        # process padding\n        if padding is not None:\n            padding = torch.repeat_interleave(padding, self.upsample_rate, dim=1)\n            padding = padding[..., : x.size(1)]\n\n        # process mask indices\n        if mask_indices is not None:\n            mask_indices = torch.repeat_interleave(\n                mask_indices, self.upsample_rate, dim=1\n            )\n            mask_indices = mask_indices[..., : x.size(1)]\n        return x, padding, mask_indices\n"
  },
  {
    "path": "fairseq/models/multires_hubert/multires_hubert_asr.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport contextlib\nfrom argparse import Namespace\nfrom dataclasses import dataclass, field\nfrom typing import Any\n\nimport torch\nimport torch.nn as nn\nfrom omegaconf import II, MISSING\n\nfrom fairseq import checkpoint_utils, tasks, utils\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.models import BaseFairseqModel, FairseqEncoder, register_model\nfrom fairseq.models.hubert.hubert import MASKING_DISTRIBUTION_CHOICES\nfrom fairseq.tasks import FairseqTask\n\n\n@dataclass\nclass MultiresHubertAsrConfig(FairseqDataclass):\n    multires_hubert_path: str = field(\n        default=MISSING, metadata={\"help\": \"path to multires_hubert model\"}\n    )\n    no_pretrained_weights: bool = field(\n        default=False,\n        metadata={\"help\": \"if true, does not load pretrained weights\"},\n    )\n    dropout_input: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout to apply to the input (after feat extr)\"},\n    )\n    final_dropout: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout after transformer and before final projection\"},\n    )\n    dropout: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout probability inside hubert model\"},\n    )\n    attention_dropout: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"dropout probability for attention weights \" \"inside hubert model\"\n        },\n    )\n    activation_dropout: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"dropout probability after activation in FFN \" \"inside hubert model\"\n        },\n    )\n\n    # masking\n    apply_mask: bool = field(\n        default=False, metadata={\"help\": \"apply masking during fine-tuning\"}\n    )\n    mask_length: int = field(\n        default=10, metadata={\"help\": \"repeat the mask indices multiple times\"}\n    )\n    mask_prob: float = field(\n        default=0.5,\n        metadata={\n            \"help\": \"probability of replacing a token with mask \"\n            \"(normalized by length)\"\n        },\n    )\n    mask_selection: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\", metadata={\"help\": \"how to choose masks\"}\n    )\n    mask_other: float = field(\n        default=0,\n        metadata={\n            \"help\": \"secondary mask argument \"\n            \"(used for more complex distributions), \"\n            \"see help in compute_mask_indices\"\n        },\n    )\n    no_mask_overlap: bool = field(\n        default=False, metadata={\"help\": \"whether to allow masks to overlap\"}\n    )\n\n    # channel masking\n    mask_channel_length: int = field(\n        default=10,\n        metadata={\"help\": \"length of the mask for features (channels)\"},\n    )\n    mask_channel_prob: float = field(\n        default=0.0,\n        metadata={\"help\": \"probability of replacing a feature with 0\"},\n    )\n    mask_channel_selection: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\",\n        metadata={\"help\": \"how to choose mask length for channel masking\"},\n    )\n    mask_channel_other: float = field(\n        default=0,\n        metadata={\n            \"help\": \"secondary mask argument \"\n            \"(used for more complex distributions), \"\n            \"see help in compute_mask_indices\"\n        },\n    )\n    no_mask_channel_overlap: bool = field(\n        default=False,\n        metadata={\"help\": \"whether to allow channel masks to overlap\"},\n    )\n    freeze_finetune_updates: int = field(\n        default=0,\n        metadata={\"help\": \"dont finetune hubert for this many updates\"},\n    )\n    feature_grad_mult: float = field(\n        default=0.0,\n        metadata={\"help\": \"reset feature grad mult in hubert to this\"},\n    )\n    layerdrop: float = field(\n        default=0.0,\n        metadata={\"help\": \"probability of dropping a layer in hubert\"},\n    )\n    normalize: bool = II(\"task.normalize\")\n    data: str = II(\"task.data\")\n\n    # this holds the loaded hubert args\n    multires_hubert_args: Any = None\n\n\n@dataclass\nclass MultiresHubertCtcConfig(MultiresHubertAsrConfig):\n    pass\n\n\n@register_model(\"multires_hubert_ctc\", dataclass=MultiresHubertAsrConfig)\nclass MultiresHubertCtc(BaseFairseqModel):\n    def __init__(\n        self, cfg: MultiresHubertAsrConfig, multireshubert_encoder: BaseFairseqModel\n    ):\n        super().__init__()\n        self.cfg = cfg\n        self.multireshubert_encoder = multireshubert_encoder\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        super().upgrade_state_dict_named(state_dict, name)\n        return state_dict\n\n    @classmethod\n    def build_model(cls, cfg: MultiresHubertAsrConfig, task: FairseqTask):\n        \"\"\"Build a new model instance.\"\"\"\n        multireshubert_encoder = MultiresHubertEncoder(cfg, task)\n        return cls(cfg, multireshubert_encoder)\n\n    def get_normalized_probs(self, net_output, log_probs, sample=None):\n        \"\"\"Get normalized probabilities (or log probs) from a net's output.\"\"\"\n\n        logits = net_output[\"encoder_out\"]\n        if log_probs:\n            return utils.log_softmax(logits.float(), dim=-1)\n        else:\n            return utils.softmax(logits.float(), dim=-1)\n\n    def get_logits(self, net_output):\n        logits = net_output[\"encoder_out\"]\n        padding = net_output[\"encoder_padding_mask\"]\n        if padding is not None and padding.any():\n            padding = padding.T\n            logits[padding][..., 0] = 0\n            logits[padding][..., 1:] = float(\"-inf\")\n\n        return logits\n\n    def forward(self, **kwargs):\n        x = self.multireshubert_encoder(**kwargs)\n        return x\n\n\n@dataclass\nclass MultiresHubertSeq2SeqConfig(MultiresHubertAsrConfig):\n    decoder_embed_dim: int = field(\n        default=768, metadata={\"help\": \"decoder embedding dimension\"}\n    )\n    decoder_ffn_embed_dim: int = field(\n        default=3072, metadata={\"help\": \"decoder embedding dimension for FFN\"}\n    )\n    decoder_layers: int = field(default=6, metadata={\"help\": \"num of decoder layers\"})\n    decoder_layerdrop: float = field(\n        default=0.0, metadata={\"help\": \"decoder layerdrop chance\"}\n    )\n    decoder_attention_heads: int = field(\n        default=4, metadata={\"help\": \"num decoder attention heads\"}\n    )\n    decoder_learned_pos: bool = field(\n        default=False,\n        metadata={\"help\": \"use learned positional embeddings in the decoder\"},\n    )\n    decoder_normalize_before: bool = field(\n        default=False,\n        metadata={\"help\": \"apply layernorm before each decoder block\"},\n    )\n    no_token_positional_embeddings: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, disables positional embeddings \" \"(outside self attention)\"\n        },\n    )\n    decoder_dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout probability in the decoder\"}\n    )\n    decoder_attention_dropout: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"dropout probability for attention weights \" \"inside the decoder\"\n        },\n    )\n    decoder_activation_dropout: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"dropout probability after activation in FFN \" \"inside the decoder\"\n        },\n    )\n    max_target_positions: int = field(\n        default=2048, metadata={\"help\": \"max target positions\"}\n    )\n    share_decoder_input_output_embed: bool = field(\n        default=False,\n        metadata={\"help\": \"share decoder input and output embeddings\"},\n    )\n\n\nclass MultiresHubertEncoder(FairseqEncoder):\n    def __init__(self, cfg: MultiresHubertAsrConfig, task):\n        self.apply_mask = cfg.apply_mask\n\n        arg_overrides = {\n            \"dropout\": cfg.dropout,\n            \"activation_dropout\": cfg.activation_dropout,\n            \"dropout_input\": cfg.dropout_input,\n            \"attention_dropout\": cfg.attention_dropout,\n            \"mask_length\": cfg.mask_length,\n            \"mask_prob\": cfg.mask_prob,\n            \"mask_selection\": cfg.mask_selection,\n            \"mask_other\": cfg.mask_other,\n            \"no_mask_overlap\": cfg.no_mask_overlap,\n            \"mask_channel_length\": cfg.mask_channel_length,\n            \"mask_channel_prob\": cfg.mask_channel_prob,\n            \"mask_channel_selection\": cfg.mask_channel_selection,\n            \"mask_channel_other\": cfg.mask_channel_other,\n            \"no_mask_channel_overlap\": cfg.no_mask_channel_overlap,\n            \"encoder_layerdrop\": cfg.layerdrop,\n            \"feature_grad_mult\": cfg.feature_grad_mult,\n        }\n\n        if cfg.multires_hubert_args is None:\n            state = checkpoint_utils.load_checkpoint_to_cpu(\n                cfg.multires_hubert_path, arg_overrides\n            )\n            multires_hubert_args = state.get(\"cfg\", None)\n            if multires_hubert_args is None:\n                multires_hubert_args = convert_namespace_to_omegaconf(state[\"args\"])\n            cfg.multires_hubert_args = multires_hubert_args\n        else:\n            state = None\n            multires_hubert_args = cfg.multires_hubert_args\n            if isinstance(multires_hubert_args, Namespace):\n                cfg.multires_hubert_args = (\n                    multires_hubert_args\n                ) = convert_namespace_to_omegaconf(multires_hubert_args)\n\n        assert cfg.normalize == multires_hubert_args.task.normalize, (\n            \"Fine-tuning works best when data normalization is the same. \"\n            \"Please check that --normalize is set or unset for \"\n            \"both pre-training and here\"\n        )\n\n        multires_hubert_args.task.data = cfg.data\n        pretrain_task = tasks.setup_task(multires_hubert_args.task)\n        if state is not None and \"task_state\" in state:\n            # This will load the stored \"dictionaries\" object\n            pretrain_task.load_state_dict(state[\"task_state\"])\n        else:\n            pretrain_task.load_state_dict(task.state_dict())\n\n        model = pretrain_task.build_model(\n            multires_hubert_args.model, from_checkpoint=True\n        )\n        if state is not None and not cfg.no_pretrained_weights:\n            # set strict=False because we omit some modules\n            model.load_state_dict(state[\"model\"], strict=False)\n\n        model.remove_pretraining_modules()\n\n        super().__init__(pretrain_task.source_dictionary)\n\n        d = multires_hubert_args.model.encoder_embed_dim\n\n        self.multires_hubert_model = model\n\n        self.final_dropout = nn.Dropout(cfg.final_dropout)\n        self.freeze_finetune_updates = cfg.freeze_finetune_updates\n        self.num_updates = 0\n\n        if task.target_dictionary is not None:\n            self.proj = Linear(d, len(task.target_dictionary))\n        elif getattr(cfg, \"decoder_embed_dim\", d) != d:\n            self.proj = Linear(d, cfg.decoder_embed_dim)\n        else:\n            self.proj = None\n\n    def set_num_updates(self, num_updates):\n        \"\"\"Set the number of parameters updates.\"\"\"\n        super().set_num_updates(num_updates)\n        self.num_updates = num_updates\n\n    def forward(self, source, padding_mask, tbc=True, **kwargs):\n        multires_hubert_args = {\n            \"source\": source,\n            \"padding_mask\": padding_mask,\n            \"mask\": self.apply_mask and self.training,\n            \"last_layer\": True,\n        }\n\n        ft = self.freeze_finetune_updates <= self.num_updates\n\n        with torch.no_grad() if not ft else contextlib.ExitStack():\n            x, padding_mask = self.multires_hubert_model.extract_features(\n                **multires_hubert_args\n            )\n\n            if tbc:\n                # B x T x C -> T x B x C\n                x = x.transpose(0, 1)\n\n        x = self.final_dropout(x)\n\n        if self.proj:\n            x = self.proj(x)\n\n        return {\n            \"encoder_out\": x,  # T x B x C\n            \"encoder_padding_mask\": padding_mask,  # B x T\n            \"padding_mask\": padding_mask,\n        }\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        if encoder_out[\"encoder_out\"] is not None:\n            encoder_out[\"encoder_out\"] = encoder_out[\"encoder_out\"].index_select(\n                1, new_order\n            )\n        if encoder_out[\"encoder_padding_mask\"] is not None:\n            encoder_out[\"encoder_padding_mask\"] = encoder_out[\n                \"encoder_padding_mask\"\n            ].index_select(0, new_order)\n        return encoder_out\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return None\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        return state_dict\n\n\ndef Embedding(num_embeddings, embedding_dim, padding_idx):\n    m = nn.Embedding(num_embeddings, embedding_dim, padding_idx=padding_idx)\n    nn.init.normal_(m.weight, mean=0, std=embedding_dim**-0.5)\n    nn.init.constant_(m.weight[padding_idx], 0)\n    return m\n\n\ndef Linear(in_features, out_features, bias=True):\n    m = nn.Linear(in_features, out_features, bias)\n    nn.init.xavier_uniform_(m.weight)\n    if bias:\n        nn.init.constant_(m.bias, 0.0)\n    return m\n"
  },
  {
    "path": "fairseq/models/nat/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"isort:skip_file\"\"\"\n\nfrom .fairseq_nat_model import *\nfrom .nonautoregressive_transformer import *\nfrom .nat_crf_transformer import *\nfrom .iterative_nonautoregressive_transformer import *\nfrom .cmlm_transformer import *\nfrom .levenshtein_transformer import *\nfrom .insertion_transformer import *\n"
  },
  {
    "path": "fairseq/models/nat/cmlm_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nThis file implements:\nGhazvininejad, Marjan, et al.\n\"Constant-time machine translation with conditional masked language models.\"\narXiv preprint arXiv:1904.09324 (2019).\n\"\"\"\n\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.nat import NATransformerModel\nfrom fairseq.utils import new_arange\n\n\ndef _skeptical_unmasking(output_scores, output_masks, p):\n    sorted_index = output_scores.sort(-1)[1]\n    boundary_len = (\n        (output_masks.sum(1, keepdim=True).type_as(output_scores) - 2) * p\n    ).long()\n    skeptical_mask = new_arange(output_masks) < boundary_len\n    return skeptical_mask.scatter(1, sorted_index, skeptical_mask)\n\n\n@register_model(\"cmlm_transformer\")\nclass CMLMNATransformerModel(NATransformerModel):\n    @staticmethod\n    def add_args(parser):\n        NATransformerModel.add_args(parser)\n\n    def forward(\n        self, src_tokens, src_lengths, prev_output_tokens, tgt_tokens, **kwargs\n    ):\n        assert not self.decoder.src_embedding_copy, \"do not support embedding copy.\"\n\n        # encoding\n        encoder_out = self.encoder(src_tokens, src_lengths=src_lengths, **kwargs)\n        # length prediction\n        length_out = self.decoder.forward_length(\n            normalize=False, encoder_out=encoder_out\n        )\n        length_tgt = self.decoder.forward_length_prediction(\n            length_out, encoder_out, tgt_tokens\n        )\n\n        # decoding\n        word_ins_out = self.decoder(\n            normalize=False,\n            prev_output_tokens=prev_output_tokens,\n            encoder_out=encoder_out,\n        )\n        word_ins_mask = prev_output_tokens.eq(self.unk)\n\n        return {\n            \"word_ins\": {\n                \"out\": word_ins_out,\n                \"tgt\": tgt_tokens,\n                \"mask\": word_ins_mask,\n                \"ls\": self.args.label_smoothing,\n                \"nll_loss\": True,\n            },\n            \"length\": {\n                \"out\": length_out,\n                \"tgt\": length_tgt,\n                \"factor\": self.decoder.length_loss_factor,\n            },\n        }\n\n    def forward_decoder(self, decoder_out, encoder_out, decoding_format=None, **kwargs):\n\n        step = decoder_out.step\n        max_step = decoder_out.max_step\n\n        output_tokens = decoder_out.output_tokens\n        output_scores = decoder_out.output_scores\n        history = decoder_out.history\n\n        # execute the decoder\n        output_masks = output_tokens.eq(self.unk)\n        _scores, _tokens = self.decoder(\n            normalize=True,\n            prev_output_tokens=output_tokens,\n            encoder_out=encoder_out,\n        ).max(-1)\n        output_tokens.masked_scatter_(output_masks, _tokens[output_masks])\n        output_scores.masked_scatter_(output_masks, _scores[output_masks])\n\n        if history is not None:\n            history.append(output_tokens.clone())\n\n        # skeptical decoding (depend on the maximum decoding steps.)\n        if (step + 1) < max_step:\n            skeptical_mask = _skeptical_unmasking(\n                output_scores, output_tokens.ne(self.pad), 1 - (step + 1) / max_step\n            )\n\n            output_tokens.masked_fill_(skeptical_mask, self.unk)\n            output_scores.masked_fill_(skeptical_mask, 0.0)\n\n            if history is not None:\n                history.append(output_tokens.clone())\n\n        return decoder_out._replace(\n            output_tokens=output_tokens,\n            output_scores=output_scores,\n            attn=None,\n            history=history,\n        )\n\n\n@register_model_architecture(\"cmlm_transformer\", \"cmlm_transformer\")\ndef cmlm_base_architecture(args):\n    args.encoder_embed_path = getattr(args, \"encoder_embed_path\", None)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 6)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", False)\n    args.decoder_embed_path = getattr(args, \"decoder_embed_path\", None)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", args.encoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", args.encoder_ffn_embed_dim\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", False)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.0)\n    args.activation_dropout = getattr(args, \"activation_dropout\", 0.0)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.share_all_embeddings = getattr(args, \"share_all_embeddings\", True)\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.apply_bert_init = getattr(args, \"apply_bert_init\", False)\n\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n\n    # --- special arguments ---\n    args.sg_length_pred = getattr(args, \"sg_length_pred\", False)\n    args.pred_length_offset = getattr(args, \"pred_length_offset\", False)\n    args.length_loss_factor = getattr(args, \"length_loss_factor\", 0.1)\n    args.ngram_predictor = getattr(args, \"ngram_predictor\", 1)\n    args.src_embedding_copy = getattr(args, \"src_embedding_copy\", False)\n\n\n@register_model_architecture(\"cmlm_transformer\", \"cmlm_transformer_wmt_en_de\")\ndef cmlm_wmt_en_de(args):\n    cmlm_base_architecture(args)\n"
  },
  {
    "path": "fairseq/models/nat/fairseq_nat_model.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\nfrom fairseq.models.transformer import (\n    TransformerDecoder,\n    TransformerEncoder,\n    TransformerModel,\n)\nfrom fairseq.modules.transformer_sentence_encoder import init_bert_params\n\n\ndef ensemble_encoder(func):\n    def wrapper(self, *args, **kwargs):\n        if self.ensemble_models is None or len(self.ensemble_models) == 1:\n            return func(self, *args, **kwargs)\n        encoder_outs = [\n            func(model, *args, **kwargs, return_all_hiddens=True)\n            for model in self.ensemble_models\n        ]\n        _encoder_out = encoder_outs[0].copy()\n\n        def stack(key):\n            outs = [e[key][0] for e in encoder_outs]\n            return [torch.stack(outs, -1) if outs[0] is not None else None]\n\n        _encoder_out[\"encoder_out\"] = stack(\"encoder_out\")\n        _encoder_out[\"encoder_embedding\"] = stack(\"encoder_embedding\")\n\n        num_layers = len(_encoder_out[\"encoder_states\"])\n        if num_layers > 0:\n            _encoder_out[\"encoder_states\"] = [\n                torch.stack([e[\"encoder_states\"][i] for e in encoder_outs], -1)\n                for i in range(num_layers)\n            ]\n        return _encoder_out\n\n    return wrapper\n\n\ndef ensemble_decoder(func):\n    def wrapper(self, normalize=False, encoder_out=None, *args, **kwargs):\n        if self.ensemble_models is None or len(self.ensemble_models) == 1:\n            return func(\n                self, normalize=normalize, encoder_out=encoder_out, *args, **kwargs\n            )\n\n        def _replace(encoder_out, new_val):\n            new_encoder_out = encoder_out.copy()\n            new_encoder_out[\"encoder_out\"] = [new_val]\n            return new_encoder_out\n\n        action_outs = [\n            func(\n                model,\n                normalize=normalize,\n                encoder_out=_replace(\n                    encoder_out, encoder_out[\"encoder_out\"][0][:, :, :, i]\n                ),\n                *args,\n                **kwargs\n            )\n            for i, model in enumerate(self.ensemble_models)\n        ]\n\n        if not isinstance(action_outs[0], tuple):  # return multiple values\n            action_outs = [[a] for a in action_outs]\n        else:\n            action_outs = [list(a) for a in action_outs]\n\n        ensembled_outs = []\n        for i in range(len(action_outs[0])):\n            if i == 0 and normalize:\n                ensembled_outs += [\n                    torch.logsumexp(\n                        torch.stack([a[i] for a in action_outs], -1), dim=-1\n                    )\n                    - math.log(len(self.ensemble_models))\n                ]\n            elif action_outs[0][i] is not None:\n                ensembled_outs += [torch.stack([a[i] for a in action_outs], -1)]\n            else:\n                ensembled_outs += [None]\n\n        if len(ensembled_outs) == 1:\n            return ensembled_outs[0]\n        return tuple(ensembled_outs)\n\n    return wrapper\n\n\nclass FairseqNATModel(TransformerModel):\n    \"\"\"\n    Abstract class for all nonautoregressive-based models\n    \"\"\"\n\n    def __init__(self, args, encoder, decoder):\n        super().__init__(args, encoder, decoder)\n        self.tgt_dict = decoder.dictionary\n        self.bos = decoder.dictionary.bos()\n        self.eos = decoder.dictionary.eos()\n        self.pad = decoder.dictionary.pad()\n        self.unk = decoder.dictionary.unk()\n\n        self.ensemble_models = None\n\n    @property\n    def allow_length_beam(self):\n        return False\n\n    @property\n    def allow_ensemble(self):\n        return True\n\n    def enable_ensemble(self, models):\n        self.encoder.ensemble_models = [m.encoder for m in models]\n        self.decoder.ensemble_models = [m.decoder for m in models]\n\n    @staticmethod\n    def add_args(parser):\n        TransformerModel.add_args(parser)\n        parser.add_argument(\n            \"--apply-bert-init\",\n            action=\"store_true\",\n            help=\"use custom param initialization for BERT\",\n        )\n\n    @classmethod\n    def build_decoder(cls, args, tgt_dict, embed_tokens):\n        decoder = FairseqNATDecoder(args, tgt_dict, embed_tokens)\n        if getattr(args, \"apply_bert_init\", False):\n            decoder.apply(init_bert_params)\n        return decoder\n\n    @classmethod\n    def build_encoder(cls, args, src_dict, embed_tokens):\n        encoder = FairseqNATEncoder(args, src_dict, embed_tokens)\n        if getattr(args, \"apply_bert_init\", False):\n            encoder.apply(init_bert_params)\n        return encoder\n\n    def forward_encoder(self, encoder_inputs):\n        return self.encoder(*encoder_inputs)\n\n    def forward_decoder(self, *args, **kwargs):\n        return NotImplementedError\n\n    def initialize_output_tokens(self, *args, **kwargs):\n        return NotImplementedError\n\n    def forward(self, *args, **kwargs):\n        return NotImplementedError\n\n\nclass FairseqNATEncoder(TransformerEncoder):\n    def __init__(self, args, dictionary, embed_tokens):\n        super().__init__(args, dictionary, embed_tokens)\n        self.ensemble_models = None\n\n    @ensemble_encoder\n    def forward(self, *args, **kwargs):\n        return super().forward(*args, **kwargs)\n\n\nclass FairseqNATDecoder(TransformerDecoder):\n    def __init__(self, args, dictionary, embed_tokens, no_encoder_attn=False):\n        super().__init__(args, dictionary, embed_tokens, no_encoder_attn)\n        self.ensemble_models = None\n"
  },
  {
    "path": "fairseq/models/nat/insertion_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\nimport torch.nn.functional as F\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.nat import (\n    FairseqNATModel,\n    LevenshteinTransformerDecoder,\n    LevenshteinTransformerModel,\n    ensemble_decoder,\n)\nfrom fairseq.models.transformer import Linear\nfrom fairseq.modules.transformer_sentence_encoder import init_bert_params\nfrom fairseq.utils import new_arange\n\n\nclass NegativeDistanceScore(object):\n    def __init__(self):\n\n        # pre-compute some values\n        self.scores = {}\n\n        self.scores[0.5] = self.compute_score_full(50, 0.5)\n        self.scores[1.0] = self.compute_score_full(50, 1.0)\n        self.scores[2.0] = self.compute_score_full(50, 2.0)\n\n    def __call__(self, i, L, tau):\n        if (tau is None) or (tau > 1000):\n            return 1 / L\n\n        if tau in self.scores:\n            if L < self.scores[tau].shape[0]:\n                return self.scores[tau][L - 1, i]\n        return self.compute_score(L, tau)[i]\n\n    def compute_score(self, L, tau):\n        s = np.array([-abs(L / 2 - i) / tau for i in range(L)])\n        s = np.exp(s - s.max())\n        return s / s.sum()\n\n    def compute_score_full(self, L, tau):\n        s = -abs(np.arange(0, L - 1)[:, None] / 2 - np.arange(L)[None, :]) / tau\n        s = np.tril(s, 0) + np.triu(s - float(\"inf\"), 1)\n        s = np.exp(s - s.max(1, keepdims=True))\n        return s / s.sum(1, keepdims=True)\n\n\nneg_scorer = NegativeDistanceScore()\n\n\ndef _get_ins_targets(in_tokens, out_tokens, padding_idx, unk_idx, vocab_size, tau=None):\n    try:\n        from fairseq import libnat\n    except ImportError as e:\n        import sys\n\n        sys.stderr.write(\"ERROR: missing libnat. run `pip install --editable .`\\n\")\n        raise e\n\n    B = in_tokens.size(0)\n    T = in_tokens.size(1)\n    V = vocab_size\n\n    with torch.cuda.device_of(in_tokens):\n        in_tokens_list = [\n            [t for t in s if t != padding_idx] for i, s in enumerate(in_tokens.tolist())\n        ]\n        out_tokens_list = [\n            [t for t in s if t != padding_idx]\n            for i, s in enumerate(out_tokens.tolist())\n        ]\n\n    full_labels = libnat.suggested_ed2_path(\n        in_tokens_list, out_tokens_list, padding_idx\n    )\n    insert_labels = [a[:-1] for a in full_labels]\n\n    # numericalize1\n    insert_label_tensors = in_tokens.new_zeros(B * (T - 1) * V).float()\n    insert_index, insert_labels = zip(\n        *[\n            (w + (j + i * (T - 1)) * V, neg_scorer(k, len(label), tau))\n            for i, labels in enumerate(insert_labels)\n            for j, label in enumerate(labels[1:-1])\n            for k, w in enumerate(label)\n        ]\n    )  # HACK 1:-1\n    insert_index, insert_labels = [\n        torch.tensor(list(a), device=in_tokens.device)\n        for a in [insert_index, insert_labels]\n    ]\n    insert_label_tensors.scatter_(0, insert_index.long(), insert_labels)\n    insert_label_tensors = insert_label_tensors.view(B, T - 1, V)\n\n    return insert_label_tensors\n\n\ndef _apply_ins_words(in_tokens, in_scores, word_ins_pred, word_ins_scores, padding_idx):\n\n    padding_masks = in_tokens[:, 1:].eq(padding_idx)\n    word_ins_scores.masked_fill_(padding_masks, 0.0)\n    word_ins_pred.masked_fill_(padding_masks, padding_idx)\n\n    in_coords = new_arange(in_tokens).type_as(in_scores)\n\n    # shift all padding predictions to infinite\n    out_coords = (in_coords[:, 1:] - 0.5).masked_fill(\n        word_ins_pred.eq(padding_idx), float(\"inf\")\n    )\n    out_coords = torch.cat([in_coords, out_coords], 1).sort(-1)[1]\n    out_tokens = torch.cat([in_tokens, word_ins_pred], 1).gather(1, out_coords)\n    out_scores = torch.cat([in_scores, word_ins_scores], 1).gather(1, out_coords)\n    return out_tokens, out_scores\n\n\n@register_model(\"insertion_transformer\")\nclass InsertionTransformerModel(LevenshteinTransformerModel):\n    def __init__(self, args, encoder, decoder):\n        super().__init__(args, encoder, decoder)\n\n    @staticmethod\n    def add_args(parser):\n        FairseqNATModel.add_args(parser)\n        parser.add_argument(\"--label-tau\", default=None, type=float)\n\n    @classmethod\n    def build_decoder(cls, args, tgt_dict, embed_tokens):\n        decoder = InsertionTransformerDecoder(args, tgt_dict, embed_tokens)\n        if getattr(args, \"apply_bert_init\", False):\n            decoder.apply(init_bert_params)\n        return decoder\n\n    def forward(\n        self, src_tokens, src_lengths, prev_output_tokens, tgt_tokens, **kwargs\n    ):\n\n        assert tgt_tokens is not None, \"forward function only supports training.\"\n\n        # encoding\n        encoder_out = self.encoder(src_tokens, src_lengths=src_lengths, **kwargs)\n\n        # generate training labels for insertion\n        word_ins_out = self.decoder.forward_word_ins(\n            normalize=False,\n            prev_output_tokens=prev_output_tokens,\n            encoder_out=encoder_out,\n        )\n\n        word_ins_tgt = _get_ins_targets(\n            prev_output_tokens,\n            tgt_tokens,\n            self.pad,\n            self.unk,\n            len(self.tgt_dict),\n            tau=self.decoder.label_tau,\n        ).type_as(word_ins_out)\n        word_ins_masks = prev_output_tokens[:, 1:].ne(self.pad)\n\n        return {\n            \"word_ins\": {\n                \"out\": word_ins_out,\n                \"tgt\": word_ins_tgt,\n                \"mask\": word_ins_masks,\n                \"ls\": self.args.label_smoothing,\n                \"nll_loss\": True,\n            }\n        }\n\n    def forward_decoder(\n        self, decoder_out, encoder_out, eos_penalty=0.0, max_ratio=None, **kwargs\n    ):\n\n        output_tokens = decoder_out.output_tokens\n        output_scores = decoder_out.output_scores\n        history = decoder_out.history\n\n        # TODO: decoding for InsertionTransformer\n        word_ins_score = self.decoder.forward_word_ins(\n            normalize=True, prev_output_tokens=output_tokens, encoder_out=encoder_out\n        )\n\n        if eos_penalty > 0.0:\n            word_ins_score[:, :, self.pad] -= eos_penalty\n        word_ins_score, word_ins_pred = word_ins_score.max(-1)\n        output_tokens, output_scores = _apply_ins_words(\n            output_tokens, output_scores, word_ins_pred, word_ins_score, self.pad\n        )\n\n        # delete some unnecessary paddings\n        cut_off = output_tokens.ne(self.pad).sum(1).max()\n        output_tokens = output_tokens[:, :cut_off]\n        output_scores = output_scores[:, :cut_off]\n\n        if history is not None:\n            history.append(output_tokens.clone())\n\n        return decoder_out._replace(\n            output_tokens=output_tokens,\n            output_scores=output_scores,\n            attn=None,\n            history=history,\n        )\n\n\nclass InsertionTransformerDecoder(LevenshteinTransformerDecoder):\n    def __init__(self, args, dictionary, embed_tokens, no_encoder_attn=False):\n        # use the TransformerDecoder's __init__\n        super(LevenshteinTransformerDecoder, self).__init__(\n            args, dictionary, embed_tokens, no_encoder_attn=no_encoder_attn\n        )\n\n        self.dictionary = dictionary\n        self.bos = dictionary.bos()\n        self.unk = dictionary.unk()\n        self.eos = dictionary.eos()\n        self.pool_out = Linear(self.output_embed_dim * 2, self.output_embed_dim)\n\n        self.label_tau = getattr(args, \"label_tau\", None)\n\n    @ensemble_decoder\n    def forward_word_ins(self, normalize, encoder_out, prev_output_tokens):\n        features = self.extract_features(prev_output_tokens, encoder_out=encoder_out)[0]\n        features = self.pool_out(\n            torch.cat([features[:, :-1, :], features[:, 1:, :]], 2)\n        )\n        decoder_out = self.output_layer(features)\n        return F.log_softmax(decoder_out, -1) if normalize else decoder_out\n\n    def forward_mask_ins(self, *args, **kwargs):\n        raise NotImplementedError\n\n    def forward_word_del(self, *args, **kwargs):\n        raise NotImplementedError\n\n\n@register_model_architecture(\"insertion_transformer\", \"insertion_transformer\")\ndef insertion_base_architecture(args):\n    args.encoder_embed_path = getattr(args, \"encoder_embed_path\", None)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 6)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", False)\n    args.decoder_embed_path = getattr(args, \"decoder_embed_path\", None)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", args.encoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", args.encoder_ffn_embed_dim\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", False)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.0)\n    args.activation_dropout = getattr(args, \"activation_dropout\", 0.0)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.share_all_embeddings = getattr(args, \"share_all_embeddings\", False)\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.apply_bert_init = getattr(args, \"apply_bert_init\", False)\n\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n\n    # special for insertion transformer\n    args.label_tau = getattr(args, \"label_tau\", None)\n"
  },
  {
    "path": "fairseq/models/nat/iterative_nonautoregressive_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.nat import NATransformerModel\n\n\ndef _sequential_poisoning(s, V, beta=0.33, bos=2, eos=3, pad=1):\n    # s: input batch\n    # V: vocabulary size\n    rand_words = torch.randint(low=4, high=V, size=s.size(), device=s.device)\n    choices = torch.rand(size=s.size(), device=s.device)\n    choices.masked_fill_((s == pad) | (s == bos) | (s == eos), 1)\n\n    replace = choices < beta / 3\n    repeat = (choices >= beta / 3) & (choices < beta * 2 / 3)\n    swap = (choices >= beta * 2 / 3) & (choices < beta)\n    safe = choices >= beta\n\n    for i in range(s.size(1) - 1):\n        rand_word = rand_words[:, i]\n        next_word = s[:, i + 1]\n        self_word = s[:, i]\n\n        replace_i = replace[:, i]\n        swap_i = swap[:, i] & (next_word != 3)\n        repeat_i = repeat[:, i] & (next_word != 3)\n        safe_i = safe[:, i] | ((next_word == 3) & (~replace_i))\n\n        s[:, i] = (\n            self_word * (safe_i | repeat_i).long()\n            + next_word * swap_i.long()\n            + rand_word * replace_i.long()\n        )\n        s[:, i + 1] = (\n            next_word * (safe_i | replace_i).long()\n            + self_word * (swap_i | repeat_i).long()\n        )\n    return s\n\n\ndef gumbel_noise(input, TINY=1e-8):\n    return (\n        input.new_zeros(*input.size())\n        .uniform_()\n        .add_(TINY)\n        .log_()\n        .neg_()\n        .add_(TINY)\n        .log_()\n        .neg_()\n    )\n\n\n@register_model(\"iterative_nonautoregressive_transformer\")\nclass IterNATransformerModel(NATransformerModel):\n    @staticmethod\n    def add_args(parser):\n        NATransformerModel.add_args(parser)\n        parser.add_argument(\n            \"--train-step\",\n            type=int,\n            help=\"number of refinement iterations during training\",\n        )\n        parser.add_argument(\n            \"--dae-ratio\",\n            type=float,\n            help=\"the probability of switching to the denoising auto-encoder loss\",\n        )\n        parser.add_argument(\n            \"--stochastic-approx\",\n            action=\"store_true\",\n            help=\"sampling from the decoder as the inputs for next iteration\",\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        model = super().build_model(args, task)\n        model.train_step = getattr(args, \"train_step\", 4)\n        model.dae_ratio = getattr(args, \"dae_ratio\", 0.5)\n        model.stochastic_approx = getattr(args, \"stochastic_approx\", False)\n        return model\n\n    def forward(\n        self, src_tokens, src_lengths, prev_output_tokens, tgt_tokens, **kwargs\n    ):\n\n        B, T = prev_output_tokens.size()\n\n        # encoding\n        encoder_out = self.encoder(src_tokens, src_lengths=src_lengths, **kwargs)\n\n        # length prediction\n        length_out = self.decoder.forward_length(\n            normalize=False, encoder_out=encoder_out\n        )\n        length_tgt = self.decoder.forward_length_prediction(\n            length_out, encoder_out, tgt_tokens\n        )\n\n        # decoding\n        word_ins_outs, word_ins_tgts, word_ins_masks = [], [], []\n        for t in range(self.train_step):\n            word_ins_out = self.decoder(\n                normalize=False,\n                prev_output_tokens=prev_output_tokens,\n                encoder_out=encoder_out,\n                step=t,\n            )\n            word_ins_tgt = tgt_tokens\n            word_ins_mask = word_ins_tgt.ne(self.pad)\n\n            word_ins_outs.append(word_ins_out)\n            word_ins_tgts.append(word_ins_tgt)\n            word_ins_masks.append(word_ins_mask)\n\n            if t < (self.train_step - 1):\n                # prediction for next iteration\n                if self.stochastic_approx:\n                    word_ins_prediction = (\n                        word_ins_out + gumbel_noise(word_ins_out)\n                    ).max(-1)[1]\n                else:\n                    word_ins_prediction = word_ins_out.max(-1)[1]\n\n                prev_output_tokens = prev_output_tokens.masked_scatter(\n                    word_ins_mask, word_ins_prediction[word_ins_mask]\n                )\n\n                if self.dae_ratio > 0:\n                    # we do not perform denoising for the first iteration\n                    corrputed = (\n                        torch.rand(size=(B,), device=prev_output_tokens.device)\n                        < self.dae_ratio\n                    )\n                    corrputed_tokens = _sequential_poisoning(\n                        tgt_tokens[corrputed],\n                        len(self.tgt_dict),\n                        0.33,\n                        self.bos,\n                        self.eos,\n                        self.pad,\n                    )\n                    prev_output_tokens[corrputed] = corrputed_tokens\n\n        # concat everything\n        word_ins_out = torch.cat(word_ins_outs, 0)\n        word_ins_tgt = torch.cat(word_ins_tgts, 0)\n        word_ins_mask = torch.cat(word_ins_masks, 0)\n\n        return {\n            \"word_ins\": {\n                \"out\": word_ins_out,\n                \"tgt\": word_ins_tgt,\n                \"mask\": word_ins_mask,\n                \"ls\": self.args.label_smoothing,\n                \"nll_loss\": True,\n            },\n            \"length\": {\n                \"out\": length_out,\n                \"tgt\": length_tgt,\n                \"factor\": self.decoder.length_loss_factor,\n            },\n        }\n\n\n@register_model_architecture(\n    \"iterative_nonautoregressive_transformer\", \"iterative_nonautoregressive_transformer\"\n)\ndef inat_base_architecture(args):\n    args.encoder_embed_path = getattr(args, \"encoder_embed_path\", None)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 6)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", False)\n    args.decoder_embed_path = getattr(args, \"decoder_embed_path\", None)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", args.encoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", args.encoder_ffn_embed_dim\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", False)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.0)\n    args.activation_dropout = getattr(args, \"activation_dropout\", 0.0)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.share_all_embeddings = getattr(args, \"share_all_embeddings\", False)\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.apply_bert_init = getattr(args, \"apply_bert_init\", False)\n\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n\n    # --- special arguments ---\n    args.sg_length_pred = getattr(args, \"sg_length_pred\", False)\n    args.pred_length_offset = getattr(args, \"pred_length_offset\", False)\n    args.length_loss_factor = getattr(args, \"length_loss_factor\", 0.1)\n    args.ngram_predictor = getattr(args, \"ngram_predictor\", 1)\n    args.src_embedding_copy = getattr(args, \"src_embedding_copy\", False)\n\n    args.train_step = getattr(args, \"train_step\", 4)\n    args.dae_ratio = getattr(args, \"dae_ratio\", 0.5)\n    args.stochastic_approx = getattr(args, \"stochastic_approx\", False)\n\n\n@register_model_architecture(\n    \"iterative_nonautoregressive_transformer\",\n    \"iterative_nonautoregressive_transformer_wmt_en_de\",\n)\ndef iter_nat_wmt_en_de(args):\n    inat_base_architecture(args)\n"
  },
  {
    "path": "fairseq/models/nat/levenshtein_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq.iterative_refinement_generator import DecoderOut\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.nat import FairseqNATDecoder, FairseqNATModel, ensemble_decoder\nfrom fairseq.models.transformer import Embedding\nfrom fairseq.modules import TransformerDecoderLayer\nfrom fairseq.modules.transformer_sentence_encoder import init_bert_params\n\nfrom .levenshtein_utils import (\n    _apply_del_words,\n    _apply_ins_masks,\n    _apply_ins_words,\n    _fill,\n    _get_del_targets,\n    _get_ins_targets,\n    _skip,\n    _skip_encoder_out,\n)\n\n\n@register_model(\"levenshtein_transformer\")\nclass LevenshteinTransformerModel(FairseqNATModel):\n    @property\n    def allow_length_beam(self):\n        return False\n\n    @staticmethod\n    def add_args(parser):\n        FairseqNATModel.add_args(parser)\n        parser.add_argument(\n            \"--early-exit\",\n            default=\"6,6,6\",\n            type=str,\n            help=\"number of decoder layers before word_del, mask_ins, word_ins\",\n        )\n        parser.add_argument(\n            \"--no-share-discriminator\",\n            action=\"store_true\",\n            help=\"separate parameters for discriminator\",\n        )\n        parser.add_argument(\n            \"--no-share-maskpredictor\",\n            action=\"store_true\",\n            help=\"separate parameters for mask-predictor\",\n        )\n        parser.add_argument(\n            \"--share-discriminator-maskpredictor\",\n            action=\"store_true\",\n            help=\"share the parameters for both mask-predictor and discriminator\",\n        )\n        parser.add_argument(\n            \"--sampling-for-deletion\",\n            action=\"store_true\",\n            help=\"instead of argmax, use sampling to predict the tokens\",\n        )\n\n    @classmethod\n    def build_decoder(cls, args, tgt_dict, embed_tokens):\n        decoder = LevenshteinTransformerDecoder(args, tgt_dict, embed_tokens)\n        if getattr(args, \"apply_bert_init\", False):\n            decoder.apply(init_bert_params)\n        return decoder\n\n    def forward(\n        self, src_tokens, src_lengths, prev_output_tokens, tgt_tokens, **kwargs\n    ):\n\n        assert tgt_tokens is not None, \"forward function only supports training.\"\n\n        # encoding\n        encoder_out = self.encoder(src_tokens, src_lengths=src_lengths, **kwargs)\n\n        # generate training labels for insertion\n        masked_tgt_masks, masked_tgt_tokens, mask_ins_targets = _get_ins_targets(\n            prev_output_tokens, tgt_tokens, self.pad, self.unk\n        )\n        mask_ins_targets = mask_ins_targets.clamp(min=0, max=255)  # for safe prediction\n        mask_ins_masks = prev_output_tokens[:, 1:].ne(self.pad)\n\n        mask_ins_out, _ = self.decoder.forward_mask_ins(\n            normalize=False,\n            prev_output_tokens=prev_output_tokens,\n            encoder_out=encoder_out,\n        )\n        word_ins_out, _ = self.decoder.forward_word_ins(\n            normalize=False,\n            prev_output_tokens=masked_tgt_tokens,\n            encoder_out=encoder_out,\n        )\n\n        # make online prediction\n        if self.decoder.sampling_for_deletion:\n            word_predictions = torch.multinomial(\n                F.softmax(word_ins_out, -1).view(-1, word_ins_out.size(-1)), 1\n            ).view(word_ins_out.size(0), -1)\n        else:\n            word_predictions = F.log_softmax(word_ins_out, dim=-1).max(2)[1]\n\n        word_predictions.masked_scatter_(\n            ~masked_tgt_masks, tgt_tokens[~masked_tgt_masks]\n        )\n\n        # generate training labels for deletion\n        word_del_targets = _get_del_targets(word_predictions, tgt_tokens, self.pad)\n        word_del_out, _ = self.decoder.forward_word_del(\n            normalize=False,\n            prev_output_tokens=word_predictions,\n            encoder_out=encoder_out,\n        )\n        word_del_masks = word_predictions.ne(self.pad)\n\n        return {\n            \"mask_ins\": {\n                \"out\": mask_ins_out,\n                \"tgt\": mask_ins_targets,\n                \"mask\": mask_ins_masks,\n                \"ls\": 0.01,\n            },\n            \"word_ins\": {\n                \"out\": word_ins_out,\n                \"tgt\": tgt_tokens,\n                \"mask\": masked_tgt_masks,\n                \"ls\": self.args.label_smoothing,\n                \"nll_loss\": True,\n            },\n            \"word_del\": {\n                \"out\": word_del_out,\n                \"tgt\": word_del_targets,\n                \"mask\": word_del_masks,\n            },\n        }\n\n    def forward_decoder(\n        self, decoder_out, encoder_out, eos_penalty=0.0, max_ratio=None, **kwargs\n    ):\n\n        output_tokens = decoder_out.output_tokens\n        output_scores = decoder_out.output_scores\n        attn = decoder_out.attn\n        history = decoder_out.history\n\n        bsz = output_tokens.size(0)\n        if max_ratio is None:\n            max_lens = torch.zeros_like(output_tokens).fill_(255)\n        else:\n            if not encoder_out[\"encoder_padding_mask\"]:\n                max_src_len = encoder_out[\"encoder_out\"].size(0)\n                src_lens = encoder_out[\"encoder_out\"].new(bsz).fill_(max_src_len)\n            else:\n                src_lens = (~encoder_out[\"encoder_padding_mask\"][0]).sum(1)\n            max_lens = (src_lens * max_ratio).clamp(min=10).long()\n\n        # delete words\n        # do not delete tokens if it is <s> </s>\n        can_del_word = output_tokens.ne(self.pad).sum(1) > 2\n        if can_del_word.sum() != 0:  # we cannot delete, skip\n            word_del_score, word_del_attn = self.decoder.forward_word_del(\n                normalize=True,\n                prev_output_tokens=_skip(output_tokens, can_del_word),\n                encoder_out=_skip_encoder_out(self.encoder, encoder_out, can_del_word),\n            )\n            word_del_pred = word_del_score.max(-1)[1].bool()\n\n            _tokens, _scores, _attn = _apply_del_words(\n                output_tokens[can_del_word],\n                output_scores[can_del_word],\n                word_del_attn,\n                word_del_pred,\n                self.pad,\n                self.bos,\n                self.eos,\n            )\n            output_tokens = _fill(output_tokens, can_del_word, _tokens, self.pad)\n            output_scores = _fill(output_scores, can_del_word, _scores, 0)\n            attn = _fill(attn, can_del_word, _attn, 0.0)\n\n            if history is not None:\n                history.append(output_tokens.clone())\n\n        # insert placeholders\n        can_ins_mask = output_tokens.ne(self.pad).sum(1) < max_lens\n        if can_ins_mask.sum() != 0:\n            mask_ins_score, _ = self.decoder.forward_mask_ins(\n                normalize=True,\n                prev_output_tokens=_skip(output_tokens, can_ins_mask),\n                encoder_out=_skip_encoder_out(self.encoder, encoder_out, can_ins_mask),\n            )\n            if eos_penalty > 0.0:\n                mask_ins_score[:, :, 0] = mask_ins_score[:, :, 0] - eos_penalty\n            mask_ins_pred = mask_ins_score.max(-1)[1]\n            mask_ins_pred = torch.min(\n                mask_ins_pred, max_lens[can_ins_mask, None].expand_as(mask_ins_pred)\n            )\n\n            _tokens, _scores = _apply_ins_masks(\n                output_tokens[can_ins_mask],\n                output_scores[can_ins_mask],\n                mask_ins_pred,\n                self.pad,\n                self.unk,\n                self.eos,\n            )\n            output_tokens = _fill(output_tokens, can_ins_mask, _tokens, self.pad)\n            output_scores = _fill(output_scores, can_ins_mask, _scores, 0)\n\n            if history is not None:\n                history.append(output_tokens.clone())\n\n        # insert words\n        can_ins_word = output_tokens.eq(self.unk).sum(1) > 0\n        if can_ins_word.sum() != 0:\n            word_ins_score, word_ins_attn = self.decoder.forward_word_ins(\n                normalize=True,\n                prev_output_tokens=_skip(output_tokens, can_ins_word),\n                encoder_out=_skip_encoder_out(self.encoder, encoder_out, can_ins_word),\n            )\n            word_ins_score, word_ins_pred = word_ins_score.max(-1)\n            _tokens, _scores = _apply_ins_words(\n                output_tokens[can_ins_word],\n                output_scores[can_ins_word],\n                word_ins_pred,\n                word_ins_score,\n                self.unk,\n            )\n\n            output_tokens = _fill(output_tokens, can_ins_word, _tokens, self.pad)\n            output_scores = _fill(output_scores, can_ins_word, _scores, 0)\n            attn = _fill(attn, can_ins_word, word_ins_attn, 0.0)\n\n            if history is not None:\n                history.append(output_tokens.clone())\n\n        # delete some unnecessary paddings\n        cut_off = output_tokens.ne(self.pad).sum(1).max()\n        output_tokens = output_tokens[:, :cut_off]\n        output_scores = output_scores[:, :cut_off]\n        attn = None if attn is None else attn[:, :cut_off, :]\n\n        return decoder_out._replace(\n            output_tokens=output_tokens,\n            output_scores=output_scores,\n            attn=attn,\n            history=history,\n        )\n\n    def initialize_output_tokens(self, encoder_out, src_tokens):\n        initial_output_tokens = src_tokens.new_zeros(src_tokens.size(0), 2)\n        initial_output_tokens[:, 0] = self.bos\n        initial_output_tokens[:, 1] = self.eos\n\n        initial_output_scores = initial_output_tokens.new_zeros(\n            *initial_output_tokens.size()\n        ).type_as(encoder_out[\"encoder_out\"][0])\n\n        return DecoderOut(\n            output_tokens=initial_output_tokens,\n            output_scores=initial_output_scores,\n            attn=None,\n            step=0,\n            max_step=0,\n            history=None,\n        )\n\n\nclass LevenshteinTransformerDecoder(FairseqNATDecoder):\n    def __init__(self, args, dictionary, embed_tokens, no_encoder_attn=False):\n        super().__init__(\n            args, dictionary, embed_tokens, no_encoder_attn=no_encoder_attn\n        )\n        self.dictionary = dictionary\n        self.bos = dictionary.bos()\n        self.unk = dictionary.unk()\n        self.eos = dictionary.eos()\n        self.sampling_for_deletion = getattr(args, \"sampling_for_deletion\", False)\n        self.embed_mask_ins = Embedding(256, self.output_embed_dim * 2, None)\n        self.embed_word_del = Embedding(2, self.output_embed_dim, None)\n\n        # del_word, ins_mask, ins_word\n        self.early_exit = [int(i) for i in args.early_exit.split(\",\")]\n        assert len(self.early_exit) == 3\n\n        # copy layers for mask-predict/deletion\n        self.layers_msk = None\n        if getattr(args, \"no_share_maskpredictor\", False):\n            self.layers_msk = nn.ModuleList(\n                [\n                    TransformerDecoderLayer(args, no_encoder_attn)\n                    for _ in range(self.early_exit[1])\n                ]\n            )\n        self.layers_del = None\n        if getattr(args, \"no_share_discriminator\", False):\n            self.layers_del = nn.ModuleList(\n                [\n                    TransformerDecoderLayer(args, no_encoder_attn)\n                    for _ in range(self.early_exit[0])\n                ]\n            )\n\n        if getattr(args, \"share_discriminator_maskpredictor\", False):\n            assert getattr(\n                args, \"no_share_discriminator\", False\n            ), \"must set saperate discriminator\"\n            self.layers_msk = self.layers_del\n\n    def extract_features(\n        self,\n        prev_output_tokens,\n        encoder_out=None,\n        early_exit=None,\n        layers=None,\n        **unused\n    ):\n        \"\"\"\n        Similar to *forward* but only return features.\n        Inputs:\n            prev_output_tokens: Tensor(B, T)\n            encoder_out: a dictionary of hidden states and masks\n\n        Returns:\n            tuple:\n                - the decoder's features of shape `(batch, tgt_len, embed_dim)`\n                - a dictionary with any model-specific outputs\n            the LevenshteinTransformer decoder has full-attention to all generated tokens\n        \"\"\"\n        # embed positions\n        positions = (\n            self.embed_positions(prev_output_tokens)\n            if self.embed_positions is not None\n            else None\n        )\n\n        # embed tokens and positions\n        x = self.embed_scale * self.embed_tokens(prev_output_tokens)\n        if self.project_in_dim is not None:\n            x = self.project_in_dim(x)\n\n        if positions is not None:\n            x += positions\n        x = self.dropout_module(x)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n        attn = None\n        inner_states = [x]\n\n        # decoder layers\n        decoder_padding_mask = prev_output_tokens.eq(self.padding_idx)\n        layers = self.layers if layers is None else layers\n        early_exit = len(layers) if early_exit is None else early_exit\n        for _, layer in enumerate(layers[:early_exit]):\n            x, attn, _ = layer(\n                x,\n                encoder_out[\"encoder_out\"][0]\n                if (encoder_out is not None and len(encoder_out[\"encoder_out\"]) > 0)\n                else None,\n                encoder_out[\"encoder_padding_mask\"][0]\n                if (\n                    encoder_out is not None\n                    and len(encoder_out[\"encoder_padding_mask\"]) > 0\n                )\n                else None,\n                self_attn_mask=None,\n                self_attn_padding_mask=decoder_padding_mask,\n            )\n            inner_states.append(x)\n\n        if self.layer_norm:\n            x = self.layer_norm(x)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        if self.project_out_dim is not None:\n            x = self.project_out_dim(x)\n\n        return x, {\"attn\": attn, \"inner_states\": inner_states}\n\n    @ensemble_decoder\n    def forward_mask_ins(self, normalize, encoder_out, prev_output_tokens, **unused):\n        features, extra = self.extract_features(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            early_exit=self.early_exit[1],\n            layers=self.layers_msk,\n            **unused\n        )\n        features_cat = torch.cat([features[:, :-1, :], features[:, 1:, :]], 2)\n        decoder_out = F.linear(features_cat, self.embed_mask_ins.weight)\n        if normalize:\n            return F.log_softmax(decoder_out, -1), extra[\"attn\"]\n        return decoder_out, extra[\"attn\"]\n\n    @ensemble_decoder\n    def forward_word_ins(self, normalize, encoder_out, prev_output_tokens, **unused):\n        features, extra = self.extract_features(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            early_exit=self.early_exit[2],\n            layers=self.layers,\n            **unused\n        )\n        decoder_out = self.output_layer(features)\n        if normalize:\n            return F.log_softmax(decoder_out, -1), extra[\"attn\"]\n        return decoder_out, extra[\"attn\"]\n\n    @ensemble_decoder\n    def forward_word_del(self, normalize, encoder_out, prev_output_tokens, **unused):\n        features, extra = self.extract_features(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            early_exit=self.early_exit[0],\n            layers=self.layers_del,\n            **unused\n        )\n        decoder_out = F.linear(features, self.embed_word_del.weight)\n        if normalize:\n            return F.log_softmax(decoder_out, -1), extra[\"attn\"]\n        return decoder_out, extra[\"attn\"]\n\n\n@register_model_architecture(\"levenshtein_transformer\", \"levenshtein_transformer\")\ndef levenshtein_base_architecture(args):\n    args.encoder_embed_path = getattr(args, \"encoder_embed_path\", None)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 6)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", False)\n    args.decoder_embed_path = getattr(args, \"decoder_embed_path\", None)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", args.encoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", args.encoder_ffn_embed_dim\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", False)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.0)\n    args.activation_dropout = getattr(args, \"activation_dropout\", 0.0)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.share_all_embeddings = getattr(args, \"share_all_embeddings\", False)\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.apply_bert_init = getattr(args, \"apply_bert_init\", False)\n\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.sampling_for_deletion = getattr(args, \"sampling_for_deletion\", False)\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n    args.early_exit = getattr(args, \"early_exit\", \"6,6,6\")\n    args.no_share_discriminator = getattr(args, \"no_share_discriminator\", False)\n    args.no_share_maskpredictor = getattr(args, \"no_share_maskpredictor\", False)\n    args.share_discriminator_maskpredictor = getattr(\n        args, \"share_discriminator_maskpredictor\", False\n    )\n    args.no_share_last_layer = getattr(args, \"no_share_last_layer\", False)\n\n\n@register_model_architecture(\n    \"levenshtein_transformer\", \"levenshtein_transformer_wmt_en_de\"\n)\ndef levenshtein_transformer_wmt_en_de(args):\n    levenshtein_base_architecture(args)\n\n\n# similar parameters used in the \"Attention Is All You Need\" paper (Vaswani et al., 2017)\n@register_model_architecture(\n    \"levenshtein_transformer\", \"levenshtein_transformer_vaswani_wmt_en_de_big\"\n)\ndef levenshtein_transformer_vaswani_wmt_en_de_big(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 4096)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 16)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 1024)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 4096)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 16)\n    args.dropout = getattr(args, \"dropout\", 0.3)\n    levenshtein_base_architecture(args)\n\n\n# default parameters used in tensor2tensor implementation\n@register_model_architecture(\n    \"levenshtein_transformer\", \"levenshtein_transformer_wmt_en_de_big\"\n)\ndef levenshtein_transformer_wmt_en_de_big_t2t(args):\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", True)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", True)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.1)\n    args.activation_dropout = getattr(args, \"activation_dropout\", 0.1)\n    levenshtein_transformer_vaswani_wmt_en_de_big(args)\n"
  },
  {
    "path": "fairseq/models/nat/levenshtein_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nfrom fairseq.utils import new_arange\n\n\n# -------------- Helper Functions --------------------------------------------------- #\n\n\ndef load_libnat():\n    try:\n        from fairseq import libnat_cuda\n\n        return libnat_cuda, True\n\n    except ImportError as e:\n        print(str(e) + \"... fall back to CPU version\")\n\n        try:\n            from fairseq import libnat\n\n            return libnat, False\n\n        except ImportError as e:\n            import sys\n\n            sys.stderr.write(\n                \"ERROR: missing libnat_cuda. run `python setup.py build_ext --inplace`\\n\"\n            )\n            raise e\n\n\ndef _get_ins_targets(in_tokens, out_tokens, padding_idx, unk_idx):\n    libnat, use_cuda = load_libnat()\n\n    def _get_ins_targets_cuda(in_tokens, out_tokens, padding_idx, unk_idx):\n        in_masks = in_tokens.ne(padding_idx)\n        out_masks = out_tokens.ne(padding_idx)\n        mask_ins_targets, masked_tgt_masks = libnat.generate_insertion_labels(\n            out_tokens.int(),\n            libnat.levenshtein_distance(\n                in_tokens.int(),\n                out_tokens.int(),\n                in_masks.sum(1).int(),\n                out_masks.sum(1).int(),\n            ),\n        )\n        masked_tgt_masks = masked_tgt_masks.bool() & out_masks\n        mask_ins_targets = mask_ins_targets.type_as(in_tokens)[\n            :, 1 : in_masks.size(1)\n        ].masked_fill_(~in_masks[:, 1:], 0)\n        masked_tgt_tokens = out_tokens.masked_fill(masked_tgt_masks, unk_idx)\n        return masked_tgt_masks, masked_tgt_tokens, mask_ins_targets\n\n    def _get_ins_targets_cpu(in_tokens, out_tokens, padding_idx, unk_idx):\n        in_seq_len, out_seq_len = in_tokens.size(1), out_tokens.size(1)\n\n        in_tokens_list = [\n            [t for t in s if t != padding_idx] for i, s in enumerate(in_tokens.tolist())\n        ]\n        out_tokens_list = [\n            [t for t in s if t != padding_idx]\n            for i, s in enumerate(out_tokens.tolist())\n        ]\n\n        full_labels = libnat.suggested_ed2_path(\n            in_tokens_list, out_tokens_list, padding_idx\n        )\n        mask_inputs = [\n            [len(c) if c[0] != padding_idx else 0 for c in a[:-1]] for a in full_labels\n        ]\n\n        # generate labels\n        masked_tgt_masks = []\n        for mask_input in mask_inputs:\n            mask_label = []\n            for beam_size in mask_input[1:-1]:  # HACK 1:-1\n                mask_label += [0] + [1 for _ in range(beam_size)]\n            masked_tgt_masks.append(\n                mask_label + [0 for _ in range(out_seq_len - len(mask_label))]\n            )\n        mask_ins_targets = [\n            mask_input[1:-1]\n            + [0 for _ in range(in_seq_len - 1 - len(mask_input[1:-1]))]\n            for mask_input in mask_inputs\n        ]\n\n        # transform to tensor\n        masked_tgt_masks = torch.tensor(\n            masked_tgt_masks, device=out_tokens.device\n        ).bool()\n        mask_ins_targets = torch.tensor(mask_ins_targets, device=in_tokens.device)\n        masked_tgt_tokens = out_tokens.masked_fill(masked_tgt_masks, unk_idx)\n        return masked_tgt_masks, masked_tgt_tokens, mask_ins_targets\n\n    if use_cuda:\n        return _get_ins_targets_cuda(in_tokens, out_tokens, padding_idx, unk_idx)\n    return _get_ins_targets_cpu(in_tokens, out_tokens, padding_idx, unk_idx)\n\n\ndef _get_del_targets(in_tokens, out_tokens, padding_idx):\n    libnat, use_cuda = load_libnat()\n\n    def _get_del_targets_cuda(in_tokens, out_tokens, padding_idx):\n        in_masks = in_tokens.ne(padding_idx)\n        out_masks = out_tokens.ne(padding_idx)\n\n        word_del_targets = libnat.generate_deletion_labels(\n            in_tokens.int(),\n            libnat.levenshtein_distance(\n                in_tokens.int(),\n                out_tokens.int(),\n                in_masks.sum(1).int(),\n                out_masks.sum(1).int(),\n            ),\n        )\n        word_del_targets = word_del_targets.type_as(in_tokens).masked_fill_(\n            ~in_masks, 0\n        )\n        return word_del_targets\n\n    def _get_del_targets_cpu(in_tokens, out_tokens, padding_idx):\n        out_seq_len = out_tokens.size(1)\n        with torch.cuda.device_of(in_tokens):\n            in_tokens_list = [\n                [t for t in s if t != padding_idx]\n                for i, s in enumerate(in_tokens.tolist())\n            ]\n            out_tokens_list = [\n                [t for t in s if t != padding_idx]\n                for i, s in enumerate(out_tokens.tolist())\n            ]\n\n        full_labels = libnat.suggested_ed2_path(\n            in_tokens_list, out_tokens_list, padding_idx\n        )\n        word_del_targets = [b[-1] for b in full_labels]\n        word_del_targets = [\n            labels + [0 for _ in range(out_seq_len - len(labels))]\n            for labels in word_del_targets\n        ]\n\n        # transform to tensor\n        word_del_targets = torch.tensor(word_del_targets, device=out_tokens.device)\n        return word_del_targets\n\n    if use_cuda:\n        return _get_del_targets_cuda(in_tokens, out_tokens, padding_idx)\n    return _get_del_targets_cpu(in_tokens, out_tokens, padding_idx)\n\n\ndef _apply_ins_masks(\n    in_tokens, in_scores, mask_ins_pred, padding_idx, unk_idx, eos_idx\n):\n\n    in_masks = in_tokens.ne(padding_idx)\n    in_lengths = in_masks.sum(1)\n\n    # HACK: hacky way to shift all the paddings to eos first.\n    in_tokens.masked_fill_(~in_masks, eos_idx)\n    mask_ins_pred.masked_fill_(~in_masks[:, 1:], 0)\n\n    out_lengths = in_lengths + mask_ins_pred.sum(1)\n    out_max_len = out_lengths.max()\n    out_masks = new_arange(out_lengths, out_max_len)[None, :] < out_lengths[:, None]\n\n    reordering = (mask_ins_pred + in_masks[:, 1:].long()).cumsum(1)\n    out_tokens = (\n        in_tokens.new_zeros(in_tokens.size(0), out_max_len)\n        .fill_(padding_idx)\n        .masked_fill_(out_masks, unk_idx)\n    )\n    out_tokens[:, 0] = in_tokens[:, 0]\n    out_tokens.scatter_(1, reordering, in_tokens[:, 1:])\n\n    out_scores = None\n    if in_scores is not None:\n        in_scores.masked_fill_(~in_masks, 0)\n        out_scores = in_scores.new_zeros(*out_tokens.size())\n        out_scores[:, 0] = in_scores[:, 0]\n        out_scores.scatter_(1, reordering, in_scores[:, 1:])\n\n    return out_tokens, out_scores\n\n\ndef _apply_ins_words(in_tokens, in_scores, word_ins_pred, word_ins_scores, unk_idx):\n    word_ins_masks = in_tokens.eq(unk_idx)\n    out_tokens = in_tokens.masked_scatter(word_ins_masks, word_ins_pred[word_ins_masks])\n\n    if in_scores is not None:\n        out_scores = in_scores.masked_scatter(\n            word_ins_masks, word_ins_scores[word_ins_masks]\n        )\n    else:\n        out_scores = None\n\n    return out_tokens, out_scores\n\n\ndef _apply_del_words(\n    in_tokens, in_scores, in_attn, word_del_pred, padding_idx, bos_idx, eos_idx\n):\n    # apply deletion to a tensor\n    in_masks = in_tokens.ne(padding_idx)\n    bos_eos_masks = in_tokens.eq(bos_idx) | in_tokens.eq(eos_idx)\n\n    max_len = in_tokens.size(1)\n    word_del_pred.masked_fill_(~in_masks, 1)\n    word_del_pred.masked_fill_(bos_eos_masks, 0)\n\n    reordering = new_arange(in_tokens).masked_fill_(word_del_pred, max_len).sort(1)[1]\n\n    out_tokens = in_tokens.masked_fill(word_del_pred, padding_idx).gather(1, reordering)\n\n    out_scores = None\n    if in_scores is not None:\n        out_scores = in_scores.masked_fill(word_del_pred, 0).gather(1, reordering)\n\n    out_attn = None\n    if in_attn is not None:\n        _mask = word_del_pred[:, :, None].expand_as(in_attn)\n        _reordering = reordering[:, :, None].expand_as(in_attn)\n        out_attn = in_attn.masked_fill(_mask, 0.0).gather(1, _reordering)\n\n    return out_tokens, out_scores, out_attn\n\n\ndef _skip(x, mask):\n    \"\"\"\n    Getting sliced (dim=0) tensor by mask. Supporting tensor and list/dict of tensors.\n    \"\"\"\n    if isinstance(x, int):\n        return x\n\n    if x is None:\n        return None\n\n    if isinstance(x, torch.Tensor):\n        if x.size(0) == mask.size(0):\n            return x[mask]\n        elif x.size(1) == mask.size(0):\n            return x[:, mask]\n\n    if isinstance(x, list):\n        return [_skip(x_i, mask) for x_i in x]\n\n    if isinstance(x, dict):\n        return {k: _skip(v, mask) for k, v in x.items()}\n\n    raise NotImplementedError\n\n\ndef _skip_encoder_out(encoder, encoder_out, mask):\n    if not mask.any():\n        return encoder_out\n    else:\n        return encoder.reorder_encoder_out(\n            encoder_out, mask.nonzero(as_tuple=False).squeeze()\n        )\n\n\ndef _fill(x, mask, y, padding_idx):\n    \"\"\"\n    Filling tensor x with y at masked positions (dim=0).\n    \"\"\"\n    if x is None:\n        return y\n    assert x.dim() == y.dim() and mask.size(0) == x.size(0)\n    assert x.dim() == 2 or (x.dim() == 3 and x.size(2) == y.size(2))\n    n_selected = mask.sum()\n    assert n_selected == y.size(0)\n\n    if n_selected == x.size(0):\n        return y\n\n    if x.size(1) < y.size(1):\n        dims = [x.size(0), y.size(1) - x.size(1)]\n        if x.dim() == 3:\n            dims.append(x.size(2))\n        x = torch.cat([x, x.new_zeros(*dims).fill_(padding_idx)], 1)\n        x[mask] = y\n    elif x.size(1) > y.size(1):\n        x[mask] = padding_idx\n        if x.dim() == 2:\n            x[mask, : y.size(1)] = y\n        else:\n            x[mask, : y.size(1), :] = y\n    else:\n        x[mask] = y\n    return x\n"
  },
  {
    "path": "fairseq/models/nat/nat_crf_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.nat import NATransformerModel, base_architecture\nfrom fairseq.modules import DynamicCRF\n\n\n@register_model(\"nacrf_transformer\")\nclass NACRFTransformerModel(NATransformerModel):\n    def __init__(self, args, encoder, decoder):\n        super().__init__(args, encoder, decoder)\n        self.crf_layer = DynamicCRF(\n            num_embedding=len(self.tgt_dict),\n            low_rank=args.crf_lowrank_approx,\n            beam_size=args.crf_beam_approx,\n        )\n\n    @property\n    def allow_ensemble(self):\n        return False\n\n    @staticmethod\n    def add_args(parser):\n        NATransformerModel.add_args(parser)\n        parser.add_argument(\n            \"--crf-lowrank-approx\",\n            type=int,\n            help=\"the dimension of low-rank approximation of transition\",\n        )\n        parser.add_argument(\n            \"--crf-beam-approx\",\n            type=int,\n            help=\"the beam size for apporixmating the normalizing factor\",\n        )\n        parser.add_argument(\n            \"--word-ins-loss-factor\",\n            type=float,\n            help=\"weights on NAT loss used to co-training with CRF loss.\",\n        )\n\n    def forward(\n        self, src_tokens, src_lengths, prev_output_tokens, tgt_tokens, **kwargs\n    ):\n        # encoding\n        encoder_out = self.encoder(src_tokens, src_lengths=src_lengths, **kwargs)\n\n        # length prediction\n        length_out = self.decoder.forward_length(\n            normalize=False, encoder_out=encoder_out\n        )\n        length_tgt = self.decoder.forward_length_prediction(\n            length_out, encoder_out, tgt_tokens\n        )\n\n        # decoding\n        word_ins_out = self.decoder(\n            normalize=False,\n            prev_output_tokens=prev_output_tokens,\n            encoder_out=encoder_out,\n        )\n        word_ins_tgt, word_ins_mask = tgt_tokens, tgt_tokens.ne(self.pad)\n\n        # compute the log-likelihood of CRF\n        crf_nll = -self.crf_layer(word_ins_out, word_ins_tgt, word_ins_mask)\n        crf_nll = (crf_nll / word_ins_mask.type_as(crf_nll).sum(-1)).mean()\n\n        return {\n            \"word_ins\": {\n                \"out\": word_ins_out,\n                \"tgt\": word_ins_tgt,\n                \"mask\": word_ins_mask,\n                \"ls\": self.args.label_smoothing,\n                \"nll_loss\": True,\n                \"factor\": self.args.word_ins_loss_factor,\n            },\n            \"word_crf\": {\"loss\": crf_nll},\n            \"length\": {\n                \"out\": length_out,\n                \"tgt\": length_tgt,\n                \"factor\": self.decoder.length_loss_factor,\n            },\n        }\n\n    def forward_decoder(self, decoder_out, encoder_out, decoding_format=None, **kwargs):\n        output_tokens = decoder_out.output_tokens\n        output_scores = decoder_out.output_scores\n        history = decoder_out.history\n\n        # execute the decoder and get emission scores\n        output_masks = output_tokens.ne(self.pad)\n        word_ins_out = self.decoder(\n            normalize=False, prev_output_tokens=output_tokens, encoder_out=encoder_out\n        )\n\n        # run viterbi decoding through CRF\n        _scores, _tokens = self.crf_layer.forward_decoder(word_ins_out, output_masks)\n        output_tokens.masked_scatter_(output_masks, _tokens[output_masks])\n        output_scores.masked_scatter_(output_masks, _scores[output_masks])\n        if history is not None:\n            history.append(output_tokens.clone())\n\n        return decoder_out._replace(\n            output_tokens=output_tokens,\n            output_scores=output_scores,\n            attn=None,\n            history=history,\n        )\n\n\n@register_model_architecture(\"nacrf_transformer\", \"nacrf_transformer\")\ndef nacrf_base_architecture(args):\n    args.crf_lowrank_approx = getattr(args, \"crf_lowrank_approx\", 32)\n    args.crf_beam_approx = getattr(args, \"crf_beam_approx\", 64)\n    args.word_ins_loss_factor = getattr(args, \"word_ins_loss_factor\", 0.5)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", True)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", True)\n    base_architecture(args)\n"
  },
  {
    "path": "fairseq/models/nat/nonautoregressive_ensembles.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq.models.nat import (\n    _apply_del_words,\n    _apply_ins_masks,\n    _apply_ins_words,\n    _fill,\n    _skip,\n    _skip_encoder_out,\n)\n\n\nclass _EnsembleModelEncoder(object):\n    def __init__(self, models):\n        self.models = models\n\n    def reorder_encoder_out(self, encoder_outs, new_order):\n        encoder_outs = [\n            model.encoder.reorder_encoder_out(encoder_out, new_order)\n            for model, encoder_out in zip(self.models, encoder_outs)\n        ]\n        return encoder_outs\n\n\nclass BasicEnsembleModel(torch.nn.Module):\n    \"\"\"A wrapper around an ensemble of models.\"\"\"\n\n    def __init__(self, models):\n        super().__init__()\n        self.models = torch.nn.ModuleList(models)\n        self.bos = self.models[0].decoder.dictionary.bos()\n        self.eos = self.models[0].decoder.dictionary.eos()\n        self.pad = self.models[0].decoder.dictionary.pad()\n        self.unk = self.models[0].decoder.dictionary.unk()\n        self.encoder = _EnsembleModelEncoder(self.models)\n\n    def has_encoder(self):\n        return hasattr(self.models[0], \"encoder\")\n\n    def max_decoder_positions(self):\n        return min(m.max_decoder_positions() for m in self.models)\n\n    @torch.no_grad()\n    def forward_encoder(self, encoder_input):\n        if not self.has_encoder():\n            return None\n        return [model.forward_encoder(encoder_input) for model in self.models]\n\n    @torch.no_grad()\n    def forward_decoder(self, *inputs):\n        raise NotImplementedError\n\n    def initialize_output_tokens(self, *inputs):\n        raise NotImplementedError\n\n\nclass EnsembleLevT(BasicEnsembleModel):\n    \"\"\"A wrapper around an ensemble of models.\"\"\"\n\n    def __init__(self, models):\n        super().__init__(models)\n\n    @torch.no_grad()\n    def forward_decoder(\n        self, decoder_out, encoder_outs, eos_penalty=0.0, max_ratio=None, **kwargs\n    ):\n        # LevT ensembling\n        # A pipeline of three steps: deletion, placeholder, and word insertion.\n        # We need to average scores in each step in a pipeline way because of dependence.\n        # deletion\n        output_tokens = decoder_out.output_tokens\n        output_scores = decoder_out.output_scores\n        attn = decoder_out.attn\n\n        bsz = output_tokens.size(0)\n        if max_ratio is None:\n            max_lens = output_tokens.new().fill_(255)\n        else:\n            if not encoder_outs[0][\"encoder_padding_mask\"]:\n                src_lens = (\n                    encoder_outs[0][\"encoder_out\"][0]\n                    .new(bsz)\n                    .fill_(encoder_outs[0][\"encoder_out\"][0].size(1))\n                )\n            else:\n                src_lens = (~encoder_outs[0][\"encoder_padding_mask\"][0]).sum(1)\n            max_lens = (src_lens * max_ratio).clamp(min=10).long()\n\n        # delete words\n        # do not delete tokens if it is <s> </s>\n        can_del_word = output_tokens.ne(self.pad).sum(1) > 2\n        if can_del_word.sum() != 0:  # we cannot delete, skip\n            output_tokens, output_scores, attn = self.forward_word_del(\n                encoder_outs,\n                output_tokens,\n                output_scores,\n                attn,\n                can_del_word,\n            )\n\n        # insert placeholders\n        can_ins_mask = output_tokens.ne(self.pad).sum(1) < max_lens\n        if can_ins_mask.sum() != 0:\n            output_tokens, output_scores = self.forward_mask_ins(\n                encoder_outs,\n                output_tokens,\n                output_scores,\n                can_ins_mask,\n                eos_penalty,\n                max_lens,\n            )\n\n        # insert words\n        can_ins_word = output_tokens.eq(self.unk).sum(1) > 0\n        if can_ins_word.sum() != 0:\n            output_tokens, output_scores, attn = self.forward_word_ins(\n                encoder_outs,\n                output_tokens,\n                output_scores,\n                attn,\n                can_ins_word,\n            )\n\n        # delete some unnecessary paddings\n        cut_off = output_tokens.ne(self.pad).sum(1).max()\n        output_tokens = output_tokens[:, :cut_off]\n        output_scores = output_scores[:, :cut_off]\n        attn = None if attn is None else attn[:, :cut_off, :]\n        return decoder_out._replace(\n            output_tokens=output_tokens,\n            output_scores=output_scores,\n            attn=attn,\n            history=None,\n        )\n\n    def forward_word_del(\n        self, encoder_outs, output_tokens, output_scores, attn, can_del_word\n    ):\n        word_del_score_avg = []\n        word_del_attn_avg = []\n        for model, encoder_out in zip(self.models, encoder_outs):\n            word_del_out, word_del_attn = model.decoder.forward_word_del(\n                _skip(output_tokens, can_del_word),\n                _skip_encoder_out(model.encoder, encoder_out, can_del_word),\n            )\n            word_del_score = F.log_softmax(word_del_out, 2)\n            word_del_score_avg.append(word_del_score)\n            word_del_attn_avg.append(word_del_attn)\n        word_del_score_avg = torch.logsumexp(\n            torch.stack(word_del_score_avg, dim=0), dim=0\n        ) - math.log(len(self.models))\n        word_del_pred = word_del_score_avg.max(-1)[1].bool()\n        if word_del_attn_avg[0] is not None:\n            word_del_attn_avg = torch.stack(word_del_attn_avg, dim=0) / len(self.models)\n        else:\n            word_del_attn_avg = None\n\n        _tokens, _scores, _attn = _apply_del_words(\n            output_tokens[can_del_word],\n            output_scores[can_del_word],\n            word_del_attn_avg,\n            word_del_pred,\n            self.pad,\n            self.bos,\n            self.eos,\n        )\n        output_tokens = _fill(output_tokens, can_del_word, _tokens, self.pad)\n        output_scores = _fill(output_scores, can_del_word, _scores, 0)\n        attn = _fill(attn, can_del_word, _attn, 0.0)\n        return output_tokens, output_scores, attn\n\n    def forward_mask_ins(\n        self,\n        encoder_outs,\n        output_tokens,\n        output_scores,\n        can_ins_mask,\n        eos_penalty,\n        max_lens,\n    ):\n        mask_ins_score_avg = []\n        for model, encoder_out in zip(self.models, encoder_outs):\n            mask_ins_out, _ = model.decoder.forward_mask_ins(\n                _skip(output_tokens, can_ins_mask),\n                _skip_encoder_out(model.encoder, encoder_out, can_ins_mask),\n            )\n            mask_ins_score = F.log_softmax(mask_ins_out, 2)\n            if eos_penalty > 0.0:\n                mask_ins_score[:, :, 0] -= eos_penalty\n            mask_ins_score_avg.append(mask_ins_score)\n        mask_ins_score_avg = torch.logsumexp(\n            torch.stack(mask_ins_score_avg, dim=0), dim=0\n        ) - math.log(len(self.models))\n        mask_ins_pred = mask_ins_score_avg.max(-1)[1]\n        mask_ins_pred = torch.min(\n            mask_ins_pred, max_lens[can_ins_mask, None].expand_as(mask_ins_pred)\n        )\n        _tokens, _scores = _apply_ins_masks(\n            output_tokens[can_ins_mask],\n            output_scores[can_ins_mask],\n            mask_ins_pred,\n            self.pad,\n            self.unk,\n            self.eos,\n        )\n        output_tokens = _fill(output_tokens, can_ins_mask, _tokens, self.pad)\n        output_scores = _fill(output_scores, can_ins_mask, _scores, 0)\n        return output_tokens, output_scores\n\n    def forward_word_ins(\n        self, encoder_outs, output_tokens, output_scores, attn, can_ins_word\n    ):\n        word_ins_score_avg = []\n        word_ins_attn_avg = []\n        for model, encoder_out in zip(self.models, encoder_outs):\n            word_ins_out, word_ins_attn = model.decoder.forward_word_ins(\n                _skip(output_tokens, can_ins_word),\n                _skip_encoder_out(model.encoder, encoder_out, can_ins_word),\n            )\n            word_ins_score = F.log_softmax(word_ins_out, 2)\n            word_ins_score_avg.append(word_ins_score)\n            word_ins_attn_avg.append(word_ins_attn)\n        word_ins_score_avg = torch.logsumexp(\n            torch.stack(word_ins_score_avg, dim=0), dim=0\n        ) - math.log(len(self.models))\n        if word_ins_attn_avg[0] is not None:\n            word_ins_attn_avg = torch.stack(word_ins_attn_avg, dim=0) / len(self.models)\n        else:\n            word_ins_attn_avg = None\n        word_ins_score_max, word_ins_pred = word_ins_score_avg.max(-1)\n\n        _tokens, _scores = _apply_ins_words(\n            output_tokens[can_ins_word],\n            output_scores[can_ins_word],\n            word_ins_pred,\n            word_ins_score_max,\n            self.unk,\n        )\n\n        output_tokens = _fill(output_tokens, can_ins_word, _tokens, self.pad)\n        output_scores = _fill(output_scores, can_ins_word, _scores, 0)\n        attn = _fill(attn, can_ins_word, word_ins_attn, 0.0)\n        return output_tokens, output_scores, attn\n\n    def initialize_output_tokens(self, encoder_outs, src_tokens):\n        # LevT doesn't do length prediction.\n        return self.models[0].initialize_output_tokens(encoder_outs[0], src_tokens)\n"
  },
  {
    "path": "fairseq/models/nat/nonautoregressive_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.iterative_refinement_generator import DecoderOut\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.nat import FairseqNATDecoder, FairseqNATModel, ensemble_decoder\nfrom fairseq.models.transformer import Embedding\nfrom fairseq.modules.transformer_sentence_encoder import init_bert_params\n\n\ndef _mean_pooling(enc_feats, src_masks):\n    # enc_feats: T x B x C\n    # src_masks: B x T or None\n    if src_masks is None:\n        enc_feats = enc_feats.mean(0)\n    else:\n        src_masks = (~src_masks).transpose(0, 1).type_as(enc_feats)\n        enc_feats = (\n            (enc_feats / src_masks.sum(0)[None, :, None]) * src_masks[:, :, None]\n        ).sum(0)\n    return enc_feats\n\n\ndef _argmax(x, dim):\n    return (x == x.max(dim, keepdim=True)[0]).type_as(x)\n\n\ndef _uniform_assignment(src_lens, trg_lens):\n    max_trg_len = trg_lens.max()\n    steps = (src_lens.float() - 1) / (trg_lens.float() - 1)  # step-size\n    # max_trg_len\n    index_t = utils.new_arange(trg_lens, max_trg_len).float()\n    index_t = steps[:, None] * index_t[None, :]  # batch_size X max_trg_len\n    index_t = torch.round(index_t).long().detach()\n    return index_t\n\n\n@register_model(\"nonautoregressive_transformer\")\nclass NATransformerModel(FairseqNATModel):\n    @property\n    def allow_length_beam(self):\n        return True\n\n    @staticmethod\n    def add_args(parser):\n        FairseqNATModel.add_args(parser)\n\n        # length prediction\n        parser.add_argument(\n            \"--src-embedding-copy\",\n            action=\"store_true\",\n            help=\"copy encoder word embeddings as the initial input of the decoder\",\n        )\n        parser.add_argument(\n            \"--pred-length-offset\",\n            action=\"store_true\",\n            help=\"predicting the length difference between the target and source sentences\",\n        )\n        parser.add_argument(\n            \"--sg-length-pred\",\n            action=\"store_true\",\n            help=\"stop the gradients back-propagated from the length predictor\",\n        )\n        parser.add_argument(\n            \"--length-loss-factor\",\n            type=float,\n            help=\"weights on the length prediction loss\",\n        )\n\n    @classmethod\n    def build_decoder(cls, args, tgt_dict, embed_tokens):\n        decoder = NATransformerDecoder(args, tgt_dict, embed_tokens)\n        if getattr(args, \"apply_bert_init\", False):\n            decoder.apply(init_bert_params)\n        return decoder\n\n    def forward(\n        self, src_tokens, src_lengths, prev_output_tokens, tgt_tokens, **kwargs\n    ):\n        # encoding\n        encoder_out = self.encoder(src_tokens, src_lengths=src_lengths, **kwargs)\n\n        # length prediction\n        length_out = self.decoder.forward_length(\n            normalize=False, encoder_out=encoder_out\n        )\n        length_tgt = self.decoder.forward_length_prediction(\n            length_out, encoder_out, tgt_tokens\n        )\n\n        # decoding\n        word_ins_out = self.decoder(\n            normalize=False,\n            prev_output_tokens=prev_output_tokens,\n            encoder_out=encoder_out,\n        )\n\n        return {\n            \"word_ins\": {\n                \"out\": word_ins_out,\n                \"tgt\": tgt_tokens,\n                \"mask\": tgt_tokens.ne(self.pad),\n                \"ls\": self.args.label_smoothing,\n                \"nll_loss\": True,\n            },\n            \"length\": {\n                \"out\": length_out,\n                \"tgt\": length_tgt,\n                \"factor\": self.decoder.length_loss_factor,\n            },\n        }\n\n    def forward_decoder(self, decoder_out, encoder_out, decoding_format=None, **kwargs):\n        step = decoder_out.step\n        output_tokens = decoder_out.output_tokens\n        output_scores = decoder_out.output_scores\n        history = decoder_out.history\n\n        # execute the decoder\n        output_masks = output_tokens.ne(self.pad)\n        _scores, _tokens = self.decoder(\n            normalize=True,\n            prev_output_tokens=output_tokens,\n            encoder_out=encoder_out,\n            step=step,\n        ).max(-1)\n\n        output_tokens.masked_scatter_(output_masks, _tokens[output_masks])\n        output_scores.masked_scatter_(output_masks, _scores[output_masks])\n        if history is not None:\n            history.append(output_tokens.clone())\n\n        return decoder_out._replace(\n            output_tokens=output_tokens,\n            output_scores=output_scores,\n            attn=None,\n            history=history,\n        )\n\n    def initialize_output_tokens(self, encoder_out, src_tokens):\n        # length prediction\n        length_tgt = self.decoder.forward_length_prediction(\n            self.decoder.forward_length(normalize=True, encoder_out=encoder_out),\n            encoder_out=encoder_out,\n        )\n\n        max_length = length_tgt.clamp_(min=2).max()\n        idx_length = utils.new_arange(src_tokens, max_length)\n\n        initial_output_tokens = src_tokens.new_zeros(\n            src_tokens.size(0), max_length\n        ).fill_(self.pad)\n        initial_output_tokens.masked_fill_(\n            idx_length[None, :] < length_tgt[:, None], self.unk\n        )\n        initial_output_tokens[:, 0] = self.bos\n        initial_output_tokens.scatter_(1, length_tgt[:, None] - 1, self.eos)\n\n        initial_output_scores = initial_output_tokens.new_zeros(\n            *initial_output_tokens.size()\n        ).type_as(encoder_out[\"encoder_out\"][0])\n\n        return DecoderOut(\n            output_tokens=initial_output_tokens,\n            output_scores=initial_output_scores,\n            attn=None,\n            step=0,\n            max_step=0,\n            history=None,\n        )\n\n    def regenerate_length_beam(self, decoder_out, beam_size):\n        output_tokens = decoder_out.output_tokens\n        length_tgt = output_tokens.ne(self.pad).sum(1)\n        length_tgt = (\n            length_tgt[:, None]\n            + utils.new_arange(length_tgt, 1, beam_size)\n            - beam_size // 2\n        )\n        length_tgt = length_tgt.view(-1).clamp_(min=2)\n        max_length = length_tgt.max()\n        idx_length = utils.new_arange(length_tgt, max_length)\n\n        initial_output_tokens = output_tokens.new_zeros(\n            length_tgt.size(0), max_length\n        ).fill_(self.pad)\n        initial_output_tokens.masked_fill_(\n            idx_length[None, :] < length_tgt[:, None], self.unk\n        )\n        initial_output_tokens[:, 0] = self.bos\n        initial_output_tokens.scatter_(1, length_tgt[:, None] - 1, self.eos)\n\n        initial_output_scores = initial_output_tokens.new_zeros(\n            *initial_output_tokens.size()\n        ).type_as(decoder_out.output_scores)\n\n        return decoder_out._replace(\n            output_tokens=initial_output_tokens, output_scores=initial_output_scores\n        )\n\n\nclass NATransformerDecoder(FairseqNATDecoder):\n    def __init__(self, args, dictionary, embed_tokens, no_encoder_attn=False):\n        super().__init__(\n            args, dictionary, embed_tokens, no_encoder_attn=no_encoder_attn\n        )\n        self.dictionary = dictionary\n        self.bos = dictionary.bos()\n        self.unk = dictionary.unk()\n        self.eos = dictionary.eos()\n\n        self.encoder_embed_dim = args.encoder_embed_dim\n        self.sg_length_pred = getattr(args, \"sg_length_pred\", False)\n        self.pred_length_offset = getattr(args, \"pred_length_offset\", False)\n        self.length_loss_factor = getattr(args, \"length_loss_factor\", 0.1)\n        self.src_embedding_copy = getattr(args, \"src_embedding_copy\", False)\n        self.embed_length = Embedding(256, self.encoder_embed_dim, None)\n\n    @ensemble_decoder\n    def forward(self, normalize, encoder_out, prev_output_tokens, step=0, **unused):\n        features, _ = self.extract_features(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            embedding_copy=(step == 0) & self.src_embedding_copy,\n        )\n        decoder_out = self.output_layer(features)\n        return F.log_softmax(decoder_out, -1) if normalize else decoder_out\n\n    @ensemble_decoder\n    def forward_length(self, normalize, encoder_out):\n        enc_feats = encoder_out[\"encoder_out\"][0]  # T x B x C\n        if len(encoder_out[\"encoder_padding_mask\"]) > 0:\n            src_masks = encoder_out[\"encoder_padding_mask\"][0]  # B x T\n        else:\n            src_masks = None\n        enc_feats = _mean_pooling(enc_feats, src_masks)\n        if self.sg_length_pred:\n            enc_feats = enc_feats.detach()\n        length_out = F.linear(enc_feats, self.embed_length.weight)\n        return F.log_softmax(length_out, -1) if normalize else length_out\n\n    def extract_features(\n        self,\n        prev_output_tokens,\n        encoder_out=None,\n        early_exit=None,\n        embedding_copy=False,\n        **unused\n    ):\n        \"\"\"\n        Similar to *forward* but only return features.\n\n        Inputs:\n            prev_output_tokens: Tensor(B, T)\n            encoder_out: a dictionary of hidden states and masks\n\n        Returns:\n            tuple:\n                - the decoder's features of shape `(batch, tgt_len, embed_dim)`\n                - a dictionary with any model-specific outputs\n            the LevenshteinTransformer decoder has full-attention to all generated tokens\n        \"\"\"\n        # embedding\n        if embedding_copy:\n            src_embd = encoder_out[\"encoder_embedding\"][0]\n            if len(encoder_out[\"encoder_padding_mask\"]) > 0:\n                src_mask = encoder_out[\"encoder_padding_mask\"][0]\n            else:\n                src_mask = None\n            src_mask = (\n                ~src_mask\n                if src_mask is not None\n                else prev_output_tokens.new_ones(*src_embd.size()[:2]).bool()\n            )\n\n            x, decoder_padding_mask = self.forward_embedding(\n                prev_output_tokens,\n                self.forward_copying_source(\n                    src_embd, src_mask, prev_output_tokens.ne(self.padding_idx)\n                ),\n            )\n\n        else:\n\n            x, decoder_padding_mask = self.forward_embedding(prev_output_tokens)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n        attn = None\n        inner_states = [x]\n\n        # decoder layers\n        for i, layer in enumerate(self.layers):\n\n            # early exit from the decoder.\n            if (early_exit is not None) and (i >= early_exit):\n                break\n\n            x, attn, _ = layer(\n                x,\n                encoder_out[\"encoder_out\"][0]\n                if (encoder_out is not None and len(encoder_out[\"encoder_out\"]) > 0)\n                else None,\n                encoder_out[\"encoder_padding_mask\"][0]\n                if (\n                    encoder_out is not None\n                    and len(encoder_out[\"encoder_padding_mask\"]) > 0\n                )\n                else None,\n                self_attn_mask=None,\n                self_attn_padding_mask=decoder_padding_mask,\n            )\n            inner_states.append(x)\n\n        if self.layer_norm:\n            x = self.layer_norm(x)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        if self.project_out_dim is not None:\n            x = self.project_out_dim(x)\n\n        return x, {\"attn\": attn, \"inner_states\": inner_states}\n\n    def forward_embedding(self, prev_output_tokens, states=None):\n        # embed positions\n        positions = (\n            self.embed_positions(prev_output_tokens)\n            if self.embed_positions is not None\n            else None\n        )\n\n        # embed tokens and positions\n        if states is None:\n            x = self.embed_scale * self.embed_tokens(prev_output_tokens)\n            if self.project_in_dim is not None:\n                x = self.project_in_dim(x)\n        else:\n            x = states\n\n        if positions is not None:\n            x += positions\n        x = self.dropout_module(x)\n        decoder_padding_mask = prev_output_tokens.eq(self.padding_idx)\n        return x, decoder_padding_mask\n\n    def forward_copying_source(self, src_embeds, src_masks, tgt_masks):\n        length_sources = src_masks.sum(1)\n        length_targets = tgt_masks.sum(1)\n        mapped_inputs = _uniform_assignment(length_sources, length_targets).masked_fill(\n            ~tgt_masks, 0\n        )\n        copied_embedding = torch.gather(\n            src_embeds,\n            1,\n            mapped_inputs.unsqueeze(-1).expand(\n                *mapped_inputs.size(), src_embeds.size(-1)\n            ),\n        )\n        return copied_embedding\n\n    def forward_length_prediction(self, length_out, encoder_out, tgt_tokens=None):\n        enc_feats = encoder_out[\"encoder_out\"][0]  # T x B x C\n        if len(encoder_out[\"encoder_padding_mask\"]) > 0:\n            src_masks = encoder_out[\"encoder_padding_mask\"][0]  # B x T\n        else:\n            src_masks = None\n        if self.pred_length_offset:\n            if src_masks is None:\n                src_lengs = enc_feats.new_ones(enc_feats.size(1)).fill_(\n                    enc_feats.size(0)\n                )\n            else:\n                src_lengs = (~src_masks).transpose(0, 1).type_as(enc_feats).sum(0)\n            src_lengs = src_lengs.long()\n\n        if tgt_tokens is not None:\n            # obtain the length target\n            tgt_lengs = tgt_tokens.ne(self.padding_idx).sum(1).long()\n            if self.pred_length_offset:\n                length_tgt = tgt_lengs - src_lengs + 128\n            else:\n                length_tgt = tgt_lengs\n            length_tgt = length_tgt.clamp(min=0, max=255)\n\n        else:\n            # predict the length target (greedy for now)\n            # TODO: implementing length-beam\n            pred_lengs = length_out.max(-1)[1]\n            if self.pred_length_offset:\n                length_tgt = pred_lengs - 128 + src_lengs\n            else:\n                length_tgt = pred_lengs\n\n        return length_tgt\n\n\n@register_model_architecture(\n    \"nonautoregressive_transformer\", \"nonautoregressive_transformer\"\n)\ndef base_architecture(args):\n    args.encoder_embed_path = getattr(args, \"encoder_embed_path\", None)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 6)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", False)\n    args.decoder_embed_path = getattr(args, \"decoder_embed_path\", None)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", args.encoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", args.encoder_ffn_embed_dim\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", False)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.0)\n    args.activation_dropout = getattr(args, \"activation_dropout\", 0.0)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.share_all_embeddings = getattr(args, \"share_all_embeddings\", False)\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.apply_bert_init = getattr(args, \"apply_bert_init\", False)\n\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n\n    # --- special arguments ---\n    args.sg_length_pred = getattr(args, \"sg_length_pred\", False)\n    args.pred_length_offset = getattr(args, \"pred_length_offset\", False)\n    args.length_loss_factor = getattr(args, \"length_loss_factor\", 0.1)\n    args.src_embedding_copy = getattr(args, \"src_embedding_copy\", False)\n\n\n@register_model_architecture(\n    \"nonautoregressive_transformer\", \"nonautoregressive_transformer_wmt_en_de\"\n)\ndef nonautoregressive_transformer_wmt_en_de(args):\n    base_architecture(args)\n"
  },
  {
    "path": "fairseq/models/roberta/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .hub_interface import *  # noqa\nfrom .model import *  # noqa\nfrom .enc_dec import *  # noqa\nfrom .model_camembert import *  # noqa\nfrom .model_gottbert import *  # noqa\nfrom .model_xlmr import *  # noqa\n"
  },
  {
    "path": "fairseq/models/roberta/alignment_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom collections import Counter\nfrom typing import List\n\nimport torch\n\n\ndef align_bpe_to_words(roberta, bpe_tokens: torch.LongTensor, other_tokens: List[str]):\n    \"\"\"\n    Helper to align GPT-2 BPE to other tokenization formats (e.g., spaCy).\n\n    Args:\n        roberta (RobertaHubInterface): RoBERTa instance\n        bpe_tokens (torch.LongTensor): GPT-2 BPE tokens of shape `(T_bpe)`\n        other_tokens (List[str]): other tokens of shape `(T_words)`\n\n    Returns:\n        List[str]: mapping from *other_tokens* to corresponding *bpe_tokens*.\n    \"\"\"\n    assert bpe_tokens.dim() == 1\n    assert bpe_tokens[0] == 0\n\n    def clean(text):\n        return text.strip()\n\n    # remove whitespaces to simplify alignment\n    bpe_tokens = [roberta.task.source_dictionary.string([x]) for x in bpe_tokens]\n    bpe_tokens = [\n        clean(roberta.bpe.decode(x) if x not in {\"<s>\", \"\"} else x) for x in bpe_tokens\n    ]\n    other_tokens = [clean(str(o)) for o in other_tokens]\n\n    # strip leading <s>\n    bpe_tokens = bpe_tokens[1:]\n    assert \"\".join(bpe_tokens) == \"\".join(other_tokens)\n\n    # create alignment from every word to a list of BPE tokens\n    alignment = []\n    bpe_toks = filter(lambda item: item[1] != \"\", enumerate(bpe_tokens, start=1))\n    j, bpe_tok = next(bpe_toks)\n    for other_tok in other_tokens:\n        bpe_indices = []\n        while True:\n            if other_tok.startswith(bpe_tok):\n                bpe_indices.append(j)\n                other_tok = other_tok[len(bpe_tok) :]\n                try:\n                    j, bpe_tok = next(bpe_toks)\n                except StopIteration:\n                    j, bpe_tok = None, None\n            elif bpe_tok.startswith(other_tok):\n                # other_tok spans multiple BPE tokens\n                bpe_indices.append(j)\n                bpe_tok = bpe_tok[len(other_tok) :]\n                other_tok = \"\"\n            else:\n                raise Exception('Cannot align \"{}\" and \"{}\"'.format(other_tok, bpe_tok))\n            if other_tok == \"\":\n                break\n        assert len(bpe_indices) > 0\n        alignment.append(bpe_indices)\n    assert len(alignment) == len(other_tokens)\n\n    return alignment\n\n\ndef align_features_to_words(roberta, features, alignment):\n    \"\"\"\n    Align given features to words.\n\n    Args:\n        roberta (RobertaHubInterface): RoBERTa instance\n        features (torch.Tensor): features to align of shape `(T_bpe x C)`\n        alignment: alignment between BPE tokens and words returned by\n            func:`align_bpe_to_words`.\n    \"\"\"\n    assert features.dim() == 2\n\n    bpe_counts = Counter(j for bpe_indices in alignment for j in bpe_indices)\n    assert bpe_counts[0] == 0  # <s> shouldn't be aligned\n    denom = features.new([bpe_counts.get(j, 1) for j in range(len(features))])\n    weighted_features = features / denom.unsqueeze(-1)\n\n    output = [weighted_features[0]]\n    largest_j = -1\n    for bpe_indices in alignment:\n        output.append(weighted_features[bpe_indices].sum(dim=0))\n        largest_j = max(largest_j, *bpe_indices)\n    for j in range(largest_j + 1, len(features)):\n        output.append(weighted_features[j])\n    output = torch.stack(output)\n    assert torch.all(torch.abs(output.sum(dim=0) - features.sum(dim=0)) < 1e-4)\n    return output\n\n\ndef spacy_nlp():\n    if getattr(spacy_nlp, \"_nlp\", None) is None:\n        try:\n            from spacy.lang.en import English\n\n            spacy_nlp._nlp = English()\n        except ImportError:\n            raise ImportError(\"Please install spacy with: pip install spacy\")\n    return spacy_nlp._nlp\n\n\ndef spacy_tokenizer():\n    if getattr(spacy_tokenizer, \"_tokenizer\", None) is None:\n        try:\n            nlp = spacy_nlp()\n            spacy_tokenizer._tokenizer = nlp.Defaults.create_tokenizer(nlp)\n        except ImportError:\n            raise ImportError(\"Please install spacy with: pip install spacy\")\n    return spacy_tokenizer._tokenizer\n"
  },
  {
    "path": "fairseq/models/roberta/enc_dec.py",
    "content": "import argparse\nimport logging\n\nimport torch.nn as nn\nimport fairseq.checkpoint_utils\nfrom fairseq.models import (\n    FairseqEncoderDecoderModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.transformer import TransformerDecoder\nfrom fairseq.models.roberta import model as roberta\n\nlogger = logging.getLogger(__name__)\n\n\n@register_model(\"roberta_enc_dec\")\nclass RobertaEncDecModel(FairseqEncoderDecoderModel):\n    @staticmethod\n    def add_args(parser):\n        parser.add_argument(\n            \"--pretrained-mlm-checkpoint\",\n            default=None,\n            type=str,\n            metavar=\"PRETRAINED\",\n            help=\"path to pretrained mlm checkpoint\",\n        )\n        parser.add_argument(\n            \"--pretrained-decoder\", action=\"store_true\", help=\"reload decoder\"\n        )\n        parser.add_argument(\n            \"--hack-layernorm-embedding\",\n            action=\"store_true\",\n            help=\"hack to reload old models trained with encoder-normalize-before=False (no equivalent to encoder-normalize-before=False and layernorm_embedding=False\",\n        )\n        parser.add_argument(\n            \"--share-decoder-input-output-embed\",\n            action=\"store_true\",\n            help=\"share decoder input and output embeddings\",\n        )\n        parser.add_argument(\n            \"--share-all-embeddings\",\n            action=\"store_true\",\n            help=\"share encoder, decoder and output embeddings\"\n            \" (requires shared dictionary and embed dim)\",\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        # make sure all arguments are present\n        base_enc_dec_architecture(args)\n        if args.pretrained_mlm_checkpoint:\n            arg_overrides = None\n            if args.hack_layernorm_embedding:\n                arg_overrides = {\"layernorm_embedding\": False}\n            loaded = fairseq.checkpoint_utils.load_model_ensemble_and_task(\n                [args.pretrained_mlm_checkpoint], arg_overrides=arg_overrides\n            )\n            ([roberta_enc], _cfg, _task) = loaded\n        else:\n            # Do we need to edit untie_weights here ?\n            share_in_out = (\n                args.share_decoder_input_output_embed or args.share_all_embeddings\n            )\n            args.untie_weights_roberta = not share_in_out\n            if args.hack_layernorm_embedding:\n                args.layernorm_embedding = False\n                args.encoder_normalize_before = False\n            roberta_enc = roberta.RobertaModel.build_model(args, task)\n\n        return cls.from_roberta(roberta_enc, args, task.source_dictionary)\n\n    @staticmethod\n    def from_roberta(roberta_enc: roberta.RobertaModel, args, dictionary):\n        encoder = roberta_enc.encoder.sentence_encoder\n        vocab_size, embed_dim = encoder.embed_tokens.weight.shape\n\n        if args.share_all_embeddings:\n            lm_head = roberta_enc.encoder.lm_head\n            assert encoder.embed_tokens.weight is lm_head.weight, (\n                \"Can't use --share-all-embeddings with a model \"\n                \"that was pretraiend with --untie-weights-roberta_enc\"\n            )\n        else:\n            lm_head = roberta.RobertaLMHead(\n                embed_dim, vocab_size, roberta_enc.args.activation_fn\n            )\n\n        dec_embs = nn.Embedding(vocab_size, embed_dim, dictionary.pad())\n        if args.share_all_embeddings or args.share_decoder_input_output_embed:\n            # Note: I wasn't able to use Embedding _weight parameter to achive this sharing.\n            dec_embs.weight = lm_head.weight\n\n        decoder = TransformerDecoder(\n            RobertaEncDecModel.read_args_from_roberta(roberta_enc.args),\n            dictionary,\n            dec_embs,\n            no_encoder_attn=False,\n            output_projection=lm_head,\n        )\n        if getattr(args, \"pretrained_decoder\", False):\n            decoder_dict = encoder.state_dict()\n\n            # TODO: hide setting \"encoder_attn\" layers behind a flag.\n            for k, w in list(decoder_dict.items()):\n                if \".self_attn\" in k:\n                    k_enc_attn = k.replace(\".self_attn\", \".encoder_attn\")\n                    decoder_dict[k_enc_attn] = w.detach().clone()\n\n            for k, w in lm_head.state_dict().items():\n                decoder_dict[\"output_projection.\" + k] = w\n\n            missing_keys, unexpected_keys = decoder.load_state_dict(\n                decoder_dict, strict=False\n            )\n            # missing_keys = [m for m in missing_keys if \".encoder_attn\" not in m]\n            assert not missing_keys and not unexpected_keys, (\n                \"Failed to load state dict. \"\n                f\"Missing keys: {missing_keys}. \"\n                f\"Unexpected keys: {unexpected_keys}.\"\n            )\n\n        if args.share_all_embeddings:\n            assert decoder.output_projection.weight is decoder.embed_tokens.weight\n            assert encoder.embed_tokens.weight is decoder.embed_tokens.weight\n        elif args.share_decoder_input_output_embed:\n            assert decoder.output_projection.weight is decoder.embed_tokens.weight\n            assert encoder.embed_tokens.weight is not decoder.embed_tokens.weight\n        else:\n            assert decoder.output_projection.weight is not decoder.embed_tokens.weight\n            assert encoder.embed_tokens.weight is not decoder.embed_tokens.weight\n\n        return RobertaEncDecModel(encoder, decoder)\n\n    @staticmethod\n    def read_args_from_roberta(roberta_args: argparse.Namespace):\n        # TODO: this would become easier if encoder/decoder where using a similar\n        # TransformerConfig object\n        args = argparse.Namespace(**vars(roberta_args))\n        attr_map = [\n            (\"encoder_attention_heads\", \"decoder_attention_heads\"),\n            (\"encoder_embed_dim\", \"decoder_embed_dim\"),\n            (\"encoder_embed_dim\", \"decoder_output_dim\"),\n            (\"encoder_normalize_before\", \"decoder_normalize_before\"),\n            (\"encoder_layers_to_keep\", \"decoder_layers_to_keep\"),\n            (\"encoder_ffn_embed_dim\", \"decoder_ffn_embed_dim\"),\n            (\"encoder_layerdrop\", \"decoder_layerdrop\"),\n            (\"encoder_layers\", \"decoder_layers\"),\n            (\"encoder_learned_pos\", \"decoder_learned_pos\"),\n            # should this be set from here ?\n            (\"max_positions\", \"max_target_positions\"),\n        ]\n        for k1, k2 in attr_map:\n            setattr(args, k2, getattr(roberta_args, k1))\n\n        args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n        args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n        args.share_decoder_input_output_embed = not roberta_args.untie_weights_roberta\n        return args\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        prefix = name + \".\" if name != \"\" else \"\"\n        super().upgrade_state_dict_named(state_dict, name)\n        old_keys = list(state_dict.keys())\n\n        # rename decoder -> encoder before upgrading children modules\n        for k in old_keys:\n            if k.startswith(prefix + \"encoder.lm_head\"):\n                state_dict.pop(k)\n                continue\n            new_k = k\n            new_k = new_k.replace(\".sentence_encoder.\", \".\")\n            new_k = new_k.replace(\"decoder.lm_head.\", \"decoder.output_projection.\")\n            if k == new_k:\n                continue\n            # print(k, \"->\", new_k)\n            state_dict[new_k] = state_dict.pop(k)\n\n\n@register_model_architecture(\"roberta_enc_dec\", \"roberta_enc_dec\")\ndef base_enc_dec_architecture(args):\n    args.hack_layernorm_embedding = getattr(args, \"hack_layernorm_embedding\", False)\n    args.pretrained_mlm_checkpoint = getattr(args, \"pretrained_mlm_checkpoint\", None)\n    args.pretrained_decoder = getattr(args, \"pretrained_decoder\", None)\n    args.share_all_embeddings = getattr(args, \"share_all_embeddings\", False)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n\n    roberta.base_architecture(args)\n"
  },
  {
    "path": "fairseq/models/roberta/hub_interface.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.data import encoders\n\n\nclass RobertaHubInterface(nn.Module):\n    \"\"\"A simple PyTorch Hub interface to RoBERTa.\n\n    Usage: https://github.com/pytorch/fairseq/tree/main/examples/roberta\n    \"\"\"\n\n    def __init__(self, cfg, task, model):\n        super().__init__()\n        self.cfg = cfg\n        self.task = task\n        self.model = model\n\n        self.bpe = encoders.build_bpe(cfg.bpe)\n\n        # this is useful for determining the device\n        self.register_buffer(\"_float_tensor\", torch.tensor([0], dtype=torch.float))\n\n    @property\n    def device(self):\n        return self._float_tensor.device\n\n    def encode(\n        self, sentence: str, *addl_sentences, no_separator=False\n    ) -> torch.LongTensor:\n        \"\"\"\n        BPE-encode a sentence (or multiple sentences).\n\n        Every sequence begins with a beginning-of-sentence (`<s>`) symbol.\n        Every sentence ends with an end-of-sentence (`</s>`) and we use an\n        extra end-of-sentence (`</s>`) as a separator.\n\n        Example (single sentence): `<s> a b c </s>`\n        Example (sentence pair): `<s> d e f </s> </s> 1 2 3 </s>`\n\n        The BPE encoding follows GPT-2. One subtle detail is that the GPT-2 BPE\n        requires leading spaces. For example::\n\n            >>> roberta.encode('Hello world').tolist()\n            [0, 31414, 232, 2]\n            >>> roberta.encode(' world').tolist()\n            [0, 232, 2]\n            >>> roberta.encode('world').tolist()\n            [0, 8331, 2]\n        \"\"\"\n        bpe_sentence = \"<s> \" + self.bpe.encode(sentence) + \" </s>\"\n        for s in addl_sentences:\n            bpe_sentence += \" </s>\" if not no_separator else \"\"\n            bpe_sentence += \" \" + self.bpe.encode(s) + \" </s>\"\n        tokens = self.task.source_dictionary.encode_line(\n            bpe_sentence, append_eos=False, add_if_not_exist=False\n        )\n        return tokens.long()\n\n    def decode(self, tokens: torch.LongTensor):\n        assert tokens.dim() == 1\n        tokens = tokens.numpy()\n        if tokens[0] == self.task.source_dictionary.bos():\n            tokens = tokens[1:]  # remove <s>\n        eos_mask = tokens == self.task.source_dictionary.eos()\n        doc_mask = eos_mask[1:] & eos_mask[:-1]\n        sentences = np.split(tokens, doc_mask.nonzero()[0] + 1)\n        sentences = [\n            self.bpe.decode(self.task.source_dictionary.string(s)) for s in sentences\n        ]\n        if len(sentences) == 1:\n            return sentences[0]\n        return sentences\n\n    def extract_features(\n        self, tokens: torch.LongTensor, return_all_hiddens: bool = False\n    ) -> torch.Tensor:\n        if tokens.dim() == 1:\n            tokens = tokens.unsqueeze(0)\n        if tokens.size(-1) > self.model.max_positions():\n            raise ValueError(\n                \"tokens exceeds maximum length: {} > {}\".format(\n                    tokens.size(-1), self.model.max_positions()\n                )\n            )\n        features, extra = self.model(\n            tokens.to(device=self.device),\n            features_only=True,\n            return_all_hiddens=return_all_hiddens,\n        )\n        if return_all_hiddens:\n            # convert from T x B x C -> B x T x C\n            inner_states = extra[\"inner_states\"]\n            return [inner_state.transpose(0, 1) for inner_state in inner_states]\n        else:\n            return features  # just the last layer's features\n\n    def register_classification_head(\n        self, name: str, num_classes: int = None, embedding_size: int = None, **kwargs\n    ):\n        self.model.register_classification_head(\n            name, num_classes=num_classes, embedding_size=embedding_size, **kwargs\n        )\n\n    def predict(self, head: str, tokens: torch.LongTensor, return_logits: bool = False):\n        features = self.extract_features(tokens.to(device=self.device))\n        logits = self.model.classification_heads[head](features)\n        if return_logits:\n            return logits\n        return F.log_softmax(logits, dim=-1)\n\n    def extract_features_aligned_to_words(\n        self, sentence: str, return_all_hiddens: bool = False\n    ) -> torch.Tensor:\n        \"\"\"Extract RoBERTa features, aligned to spaCy's word-level tokenizer.\"\"\"\n        from fairseq.models.roberta import alignment_utils\n        from spacy.tokens import Doc\n\n        nlp = alignment_utils.spacy_nlp()\n        tokenizer = alignment_utils.spacy_tokenizer()\n\n        # tokenize both with GPT-2 BPE and spaCy\n        bpe_toks = self.encode(sentence)\n        spacy_toks = tokenizer(sentence)\n        spacy_toks_ws = [t.text_with_ws for t in tokenizer(sentence)]\n        alignment = alignment_utils.align_bpe_to_words(self, bpe_toks, spacy_toks_ws)\n\n        # extract features and align them\n        features = self.extract_features(\n            bpe_toks, return_all_hiddens=return_all_hiddens\n        )\n        features = features.squeeze(0)\n        aligned_feats = alignment_utils.align_features_to_words(\n            self, features, alignment\n        )\n\n        # wrap in spaCy Doc\n        doc = Doc(\n            nlp.vocab,\n            words=[\"<s>\"] + [x.text for x in spacy_toks] + [\"</s>\"],\n            spaces=[True]\n            + [x.endswith(\" \") for x in spacy_toks_ws[:-1]]\n            + [True, False],\n        )\n        assert len(doc) == aligned_feats.size(0)\n        doc.user_token_hooks[\"vector\"] = lambda token: aligned_feats[token.i]\n        return doc\n\n    def fill_mask(self, masked_input: str, topk: int = 5):\n        masked_token = \"<mask>\"\n        assert (\n            masked_token in masked_input and masked_input.count(masked_token) == 1\n        ), \"Please add one {0} token for the input, eg: 'He is a {0} guy'\".format(\n            masked_token\n        )\n\n        text_spans = masked_input.split(masked_token)\n        text_spans_bpe = (\n            (\" {0} \".format(masked_token))\n            .join([self.bpe.encode(text_span.rstrip()) for text_span in text_spans])\n            .strip()\n        )\n        tokens = self.task.source_dictionary.encode_line(\n            \"<s> \" + text_spans_bpe + \" </s>\",\n            append_eos=False,\n            add_if_not_exist=False,\n        )\n\n        masked_index = (tokens == self.task.mask_idx).nonzero(as_tuple=False)\n        if tokens.dim() == 1:\n            tokens = tokens.unsqueeze(0)\n\n        with utils.model_eval(self.model):\n            features, extra = self.model(\n                tokens.long().to(device=self.device),\n                features_only=False,\n                return_all_hiddens=False,\n            )\n        logits = features[0, masked_index, :].squeeze()\n        prob = logits.softmax(dim=0)\n        values, index = prob.topk(k=topk, dim=0)\n        topk_predicted_token_bpe = self.task.source_dictionary.string(index)\n\n        topk_filled_outputs = []\n        for index, predicted_token_bpe in enumerate(\n            topk_predicted_token_bpe.split(\" \")\n        ):\n            predicted_token = self.bpe.decode(predicted_token_bpe)\n            # Quick hack to fix https://github.com/pytorch/fairseq/issues/1306\n            if predicted_token_bpe.startswith(\"\\u2581\"):\n                predicted_token = \" \" + predicted_token\n            if \" {0}\".format(masked_token) in masked_input:\n                topk_filled_outputs.append(\n                    (\n                        masked_input.replace(\n                            \" {0}\".format(masked_token), predicted_token\n                        ),\n                        values[index].item(),\n                        predicted_token,\n                    )\n                )\n            else:\n                topk_filled_outputs.append(\n                    (\n                        masked_input.replace(masked_token, predicted_token),\n                        values[index].item(),\n                        predicted_token,\n                    )\n                )\n        return topk_filled_outputs\n\n    def disambiguate_pronoun(self, sentence: str) -> bool:\n        \"\"\"\n        Usage::\n\n            >>> disambiguate_pronoun('The _trophy_ would not fit in the brown suitcase because [it] was too big.')\n            True\n\n            >>> disambiguate_pronoun('The trophy would not fit in the brown suitcase because [it] was too big.')\n            'The trophy'\n        \"\"\"\n        assert hasattr(\n            self.task, \"disambiguate_pronoun\"\n        ), \"roberta.disambiguate_pronoun() requires a model trained with the WSC task.\"\n        with utils.model_eval(self.model):\n            return self.task.disambiguate_pronoun(\n                self.model, sentence, use_cuda=self.device.type == \"cuda\"\n            )\n"
  },
  {
    "path": "fairseq/models/roberta/model.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nRoBERTa: A Robustly Optimized BERT Pretraining Approach.\n\"\"\"\n\nimport logging\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nfrom fairseq import utils\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.transformer import DEFAULT_MIN_PARAMS_TO_WRAP, TransformerEncoder\nfrom fairseq.modules import LayerNorm\nfrom fairseq.modules.quant_noise import quant_noise as apply_quant_noise_\nfrom fairseq.modules.transformer_sentence_encoder import init_bert_params\nfrom fairseq.utils import safe_getattr, safe_hasattr\n\nfrom .hub_interface import RobertaHubInterface\n\nlogger = logging.getLogger(__name__)\n\n\n@register_model(\"roberta\")\nclass RobertaModel(FairseqEncoderModel):\n    @classmethod\n    def hub_models(cls):\n        return {\n            \"roberta.base\": \"http://dl.fbaipublicfiles.com/fairseq/models/roberta.base.tar.gz\",\n            \"roberta.large\": \"http://dl.fbaipublicfiles.com/fairseq/models/roberta.large.tar.gz\",\n            \"roberta.large.mnli\": \"http://dl.fbaipublicfiles.com/fairseq/models/roberta.large.mnli.tar.gz\",\n            \"roberta.large.wsc\": \"http://dl.fbaipublicfiles.com/fairseq/models/roberta.large.wsc.tar.gz\",\n        }\n\n    def __init__(self, args, encoder):\n        super().__init__(encoder)\n        self.args = args\n\n        # We follow BERT's random weight initialization\n        self.apply(init_bert_params)\n\n        self.classification_heads = nn.ModuleDict()\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        parser.add_argument(\n            \"--encoder-layers\", type=int, metavar=\"L\", help=\"num encoder layers\"\n        )\n        parser.add_argument(\n            \"--encoder-embed-dim\",\n            type=int,\n            metavar=\"H\",\n            help=\"encoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--encoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"F\",\n            help=\"encoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--encoder-attention-heads\",\n            type=int,\n            metavar=\"A\",\n            help=\"num encoder attention heads\",\n        )\n        parser.add_argument(\n            \"--activation-fn\",\n            choices=utils.get_available_activation_fns(),\n            help=\"activation function to use\",\n        )\n        parser.add_argument(\n            \"--pooler-activation-fn\",\n            choices=utils.get_available_activation_fns(),\n            help=\"activation function to use for pooler layer\",\n        )\n        parser.add_argument(\n            \"--encoder-normalize-before\",\n            action=\"store_true\",\n            help=\"apply layernorm before each encoder block\",\n        )\n        parser.add_argument(\n            \"--layernorm-embedding\",\n            action=\"store_true\",\n            help=\"add layernorm to embedding\",\n        )\n        parser.add_argument(\n            \"--dropout\", type=float, metavar=\"D\", help=\"dropout probability\"\n        )\n        parser.add_argument(\n            \"--attention-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for attention weights\",\n        )\n        parser.add_argument(\n            \"--activation-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability after activation in FFN\",\n        )\n        parser.add_argument(\n            \"--pooler-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability in the masked_lm pooler layers\",\n        )\n        parser.add_argument(\n            \"--max-positions\", type=int, help=\"number of positional embeddings to learn\"\n        )\n        parser.add_argument(\n            \"--load-checkpoint-heads\",\n            action=\"store_true\",\n            help=\"(re-)register and load heads when loading checkpoints\",\n        )\n        parser.add_argument(\n            \"--untie-weights-roberta\",\n            action=\"store_true\",\n            help=\"Untie weights between embeddings and classifiers in RoBERTa\",\n        )\n        # args for \"Reducing Transformer Depth on Demand with Structured Dropout\" (Fan et al., 2019)\n        parser.add_argument(\n            \"--encoder-layerdrop\",\n            type=float,\n            metavar=\"D\",\n            default=0,\n            help=\"LayerDrop probability for encoder\",\n        )\n        parser.add_argument(\n            \"--encoder-layers-to-keep\",\n            default=None,\n            help=\"which layers to *keep* when pruning as a comma-separated list\",\n        )\n        # args for Training with Quantization Noise for Extreme Model Compression ({Fan*, Stock*} et al., 2020)\n        parser.add_argument(\n            \"--quant-noise-pq\",\n            type=float,\n            metavar=\"D\",\n            default=0,\n            help=\"iterative PQ quantization noise at training time\",\n        )\n        parser.add_argument(\n            \"--quant-noise-pq-block-size\",\n            type=int,\n            metavar=\"D\",\n            default=8,\n            help=\"block size of quantization noise at training time\",\n        )\n        parser.add_argument(\n            \"--quant-noise-scalar\",\n            type=float,\n            metavar=\"D\",\n            default=0,\n            help=\"scalar quantization noise and scalar quantization at training time\",\n        )\n        # args for \"Better Fine-Tuning by Reducing Representational Collapse\" (Aghajanyan et al. 2020)\n        parser.add_argument(\n            \"--spectral-norm-classification-head\",\n            action=\"store_true\",\n            default=False,\n            help=\"Apply spectral normalization on the classification head\",\n        )\n        # args for Fully Sharded Data Parallel (FSDP) training\n        parser.add_argument(\n            \"--min-params-to-wrap\",\n            type=int,\n            metavar=\"D\",\n            default=DEFAULT_MIN_PARAMS_TO_WRAP,\n            help=(\n                \"minimum number of params for a layer to be wrapped with FSDP() when \"\n                \"training with --ddp-backend=fully_sharded. Smaller values will \"\n                \"improve memory efficiency, but may make torch.distributed \"\n                \"communication less efficient due to smaller input sizes. This option \"\n                \"is set to 0 (i.e., always wrap) when --checkpoint-activations or \"\n                \"--offload-activations are passed.\"\n            ),\n        )\n        # args for AdaPruning\n        # In short, it adds regularizarion for the multihead attention module and feed forward neural nets\n        # For more details, please refer to the paper https://openreview.net/forum?id=_CMSV7FTzGI\n        parser.add_argument(\n            \"--mha-reg-scale-factor\",\n            type=float,\n            metavar=\"D\",\n            default=0.0,\n            help=\"scaling factor for regularization term in adptive pruning, recommendation is 0.000375\",\n        )\n        parser.add_argument(\n            \"--ffn-reg-scale-factor\",\n            type=float,\n            metavar=\"D\",\n            default=0.0,\n            help=\"scaling factor for regularization term in adptive pruning, recommendation is 0.000375\",\n        )\n        parser.add_argument(\n            \"--mha-heads-to-keep\",\n            type=int,\n            metavar=\"D\",\n            default=-1,\n            help=\"number of heads to keep in each multi-head attention module, -1 means keeping all heads\",\n        )\n        parser.add_argument(\n            \"--ffn-blocks-to-remove\",\n            type=int,\n            metavar=\"D\",\n            default=-1,\n            help=\"number of feedforward blocks to remove in each transformer layer, -1 means keeping all ffn blocks\",\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        from omegaconf import OmegaConf\n\n        if OmegaConf.is_config(args):\n            OmegaConf.set_struct(args, False)\n\n        # make sure all arguments are present\n        base_architecture(args)\n\n        if not safe_hasattr(args, \"max_positions\"):\n            if not safe_hasattr(args, \"tokens_per_sample\"):\n                args.tokens_per_sample = task.max_positions()\n            args.max_positions = args.tokens_per_sample\n\n        encoder = RobertaEncoder(args, task.source_dictionary)\n\n        if OmegaConf.is_config(args):\n            OmegaConf.set_struct(args, True)\n\n        return cls(args, encoder)\n\n    def forward(\n        self,\n        src_tokens,\n        features_only=False,\n        return_all_hiddens=False,\n        classification_head_name=None,\n        **kwargs,\n    ):\n        if classification_head_name is not None:\n            features_only = True\n\n        x, extra = self.encoder(src_tokens, features_only, return_all_hiddens, **kwargs)\n\n        if classification_head_name is not None:\n            x = self.classification_heads[classification_head_name](x)\n        return x, extra\n\n    def _get_adaptive_head_loss(self):\n        norm_loss = 0\n        scaling = float(self.args.mha_reg_scale_factor)\n        for layer in self.encoder.sentence_encoder.layers:\n            norm_loss_layer = 0\n            for i in range(layer.self_attn.num_heads):\n                start_idx = i * layer.self_attn.head_dim\n                end_idx = (i + 1) * layer.self_attn.head_dim\n                norm_loss_layer += scaling * (\n                    torch.sum(\n                        torch.abs(\n                            layer.self_attn.q_proj.weight[\n                                start_idx:end_idx,\n                            ]\n                        )\n                    )\n                    + torch.sum(\n                        torch.abs(layer.self_attn.q_proj.bias[start_idx:end_idx])\n                    )\n                )\n                norm_loss_layer += scaling * (\n                    torch.sum(\n                        torch.abs(\n                            layer.self_attn.k_proj.weight[\n                                start_idx:end_idx,\n                            ]\n                        )\n                    )\n                    + torch.sum(\n                        torch.abs(layer.self_attn.k_proj.bias[start_idx:end_idx])\n                    )\n                )\n                norm_loss_layer += scaling * (\n                    torch.sum(\n                        torch.abs(\n                            layer.self_attn.v_proj.weight[\n                                start_idx:end_idx,\n                            ]\n                        )\n                    )\n                    + torch.sum(\n                        torch.abs(layer.self_attn.v_proj.bias[start_idx:end_idx])\n                    )\n                )\n\n            norm_loss += norm_loss_layer\n        return norm_loss\n\n    def _get_adaptive_ffn_loss(self):\n        ffn_scale_factor = float(self.args.ffn_reg_scale_factor)\n        filter_loss = 0\n        for layer in self.encoder.sentence_encoder.layers:\n            filter_loss += torch.sum(\n                torch.abs(layer.fc1.weight * ffn_scale_factor)\n            ) + torch.sum(torch.abs(layer.fc2.weight * ffn_scale_factor))\n            filter_loss += torch.sum(\n                torch.abs(layer.fc1.bias * ffn_scale_factor)\n            ) + torch.sum(torch.abs(layer.fc2.bias * ffn_scale_factor))\n        return filter_loss\n\n    def get_normalized_probs(self, net_output, log_probs, sample=None):\n        \"\"\"Get normalized probabilities (or log probs) from a net's output.\"\"\"\n        logits = net_output[0].float()\n        if log_probs:\n            return F.log_softmax(logits, dim=-1)\n        else:\n            return F.softmax(logits, dim=-1)\n\n    def register_classification_head(\n        self, name, num_classes=None, inner_dim=None, **kwargs\n    ):\n        \"\"\"Register a classification head.\"\"\"\n        if name in self.classification_heads:\n            prev_num_classes = self.classification_heads[name].out_proj.out_features\n            prev_inner_dim = self.classification_heads[name].dense.out_features\n            if num_classes != prev_num_classes or inner_dim != prev_inner_dim:\n                logger.warning(\n                    're-registering head \"{}\" with num_classes {} (prev: {}) '\n                    \"and inner_dim {} (prev: {})\".format(\n                        name, num_classes, prev_num_classes, inner_dim, prev_inner_dim\n                    )\n                )\n        self.classification_heads[name] = RobertaClassificationHead(\n            input_dim=self.args.encoder_embed_dim,\n            inner_dim=inner_dim or self.args.encoder_embed_dim,\n            num_classes=num_classes,\n            activation_fn=self.args.pooler_activation_fn,\n            pooler_dropout=self.args.pooler_dropout,\n            q_noise=self.args.quant_noise_pq,\n            qn_block_size=self.args.quant_noise_pq_block_size,\n            do_spectral_norm=self.args.spectral_norm_classification_head,\n        )\n\n    @property\n    def supported_targets(self):\n        return {\"self\"}\n\n    @classmethod\n    def from_pretrained(\n        cls,\n        model_name_or_path,\n        checkpoint_file=\"model.pt\",\n        data_name_or_path=\".\",\n        bpe=\"gpt2\",\n        **kwargs,\n    ):\n        from fairseq import hub_utils\n\n        x = hub_utils.from_pretrained(\n            model_name_or_path,\n            checkpoint_file,\n            data_name_or_path,\n            archive_map=cls.hub_models(),\n            bpe=bpe,\n            load_checkpoint_heads=True,\n            **kwargs,\n        )\n\n        logger.info(x[\"args\"])\n        return RobertaHubInterface(x[\"args\"], x[\"task\"], x[\"models\"][0])\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        prefix = name + \".\" if name != \"\" else \"\"\n\n        # rename decoder -> encoder before upgrading children modules\n        for k in list(state_dict.keys()):\n            if k.startswith(prefix + \"decoder\"):\n                new_k = prefix + \"encoder\" + k[len(prefix + \"decoder\") :]\n                state_dict[new_k] = state_dict[k]\n                del state_dict[k]\n\n        # rename emb_layer_norm -> layernorm_embedding\n        for k in list(state_dict.keys()):\n            if \".emb_layer_norm.\" in k:\n                new_k = k.replace(\".emb_layer_norm.\", \".layernorm_embedding.\")\n                state_dict[new_k] = state_dict[k]\n                del state_dict[k]\n\n        # upgrade children modules\n        super().upgrade_state_dict_named(state_dict, name)\n\n        # Handle new classification heads present in the state dict.\n        current_head_names = (\n            []\n            if not hasattr(self, \"classification_heads\")\n            else self.classification_heads.keys()\n        )\n        keys_to_delete = []\n        for k in state_dict.keys():\n            if not k.startswith(prefix + \"classification_heads.\"):\n                continue\n\n            head_name = k[len(prefix + \"classification_heads.\") :].split(\".\")[0]\n            num_classes = state_dict[\n                prefix + \"classification_heads.\" + head_name + \".out_proj.weight\"\n            ].size(0)\n            inner_dim = state_dict[\n                prefix + \"classification_heads.\" + head_name + \".dense.weight\"\n            ].size(0)\n\n            if getattr(self.args, \"load_checkpoint_heads\", False):\n                if head_name not in current_head_names:\n                    self.register_classification_head(head_name, num_classes, inner_dim)\n            else:\n                if head_name not in current_head_names:\n                    logger.warning(\n                        \"deleting classification head ({}) from checkpoint \"\n                        \"not present in current model: {}\".format(head_name, k)\n                    )\n                    keys_to_delete.append(k)\n                elif (\n                    num_classes\n                    != self.classification_heads[head_name].out_proj.out_features\n                    or inner_dim\n                    != self.classification_heads[head_name].dense.out_features\n                ):\n                    logger.warning(\n                        \"deleting classification head ({}) from checkpoint \"\n                        \"with different dimensions than current model: {}\".format(\n                            head_name, k\n                        )\n                    )\n                    keys_to_delete.append(k)\n        for k in keys_to_delete:\n            del state_dict[k]\n\n        # Copy any newly-added classification heads into the state dict\n        # with their current weights.\n        if hasattr(self, \"classification_heads\"):\n            cur_state = self.classification_heads.state_dict()\n            for k, v in cur_state.items():\n                if prefix + \"classification_heads.\" + k not in state_dict:\n                    logger.info(\"Overwriting \" + prefix + \"classification_heads.\" + k)\n                    state_dict[prefix + \"classification_heads.\" + k] = v\n\n            # adapt data2vec models\n            if (\n                \"encoder._ema\" in state_dict\n                and \"encoder.lm_head.weight\" not in state_dict\n            ):\n                lm_state = self.encoder.lm_head.state_dict()\n                for k, v in lm_state.items():\n                    state_dict[\"encoder.lm_head.\" + k] = v\n\n            for k in list(state_dict.keys()):\n                if k.startswith(\"encoder.regression_head\") or k == \"encoder._ema\":\n                    del state_dict[k]\n\n\nclass RobertaLMHead(nn.Module):\n    \"\"\"Head for masked language modeling.\"\"\"\n\n    def __init__(self, embed_dim, output_dim, activation_fn, weight=None):\n        super().__init__()\n        self.dense = nn.Linear(embed_dim, embed_dim)\n        self.activation_fn = utils.get_activation_fn(activation_fn)\n        self.layer_norm = LayerNorm(embed_dim)\n\n        if weight is None:\n            weight = nn.Linear(embed_dim, output_dim, bias=False).weight\n        self.weight = weight\n        self.bias = nn.Parameter(torch.zeros(output_dim))\n\n    def forward(self, features, masked_tokens=None, **kwargs):\n        # Only project the masked tokens while training,\n        # saves both memory and computation\n        if masked_tokens is not None:\n            features = features[masked_tokens, :]\n\n        x = self.dense(features)\n        x = self.activation_fn(x)\n        x = self.layer_norm(x)\n        # project back to size of vocabulary with bias\n        x = F.linear(x, self.weight) + self.bias\n        return x\n\n\nclass RobertaClassificationHead(nn.Module):\n    \"\"\"Head for sentence-level classification tasks.\"\"\"\n\n    def __init__(\n        self,\n        input_dim,\n        inner_dim,\n        num_classes,\n        activation_fn,\n        pooler_dropout,\n        q_noise=0,\n        qn_block_size=8,\n        do_spectral_norm=False,\n    ):\n        super().__init__()\n        self.dense = nn.Linear(input_dim, inner_dim)\n        self.activation_fn = utils.get_activation_fn(activation_fn)\n        self.dropout = nn.Dropout(p=pooler_dropout)\n        self.out_proj = apply_quant_noise_(\n            nn.Linear(inner_dim, num_classes), q_noise, qn_block_size\n        )\n        if do_spectral_norm:\n            if q_noise != 0:\n                raise NotImplementedError(\n                    \"Attempting to use Spectral Normalization with Quant Noise. This is not officially supported\"\n                )\n            self.out_proj = torch.nn.utils.spectral_norm(self.out_proj)\n\n    def forward(self, features, **kwargs):\n        x = features[:, 0, :]  # take <s> token (equiv. to [CLS])\n        x = self.dropout(x)\n        x = self.dense(x)\n        x = self.activation_fn(x)\n        x = self.dropout(x)\n        x = self.out_proj(x)\n        return x\n\n\nclass RobertaEncoder(FairseqEncoder):\n    \"\"\"RoBERTa encoder.\"\"\"\n\n    def __init__(self, args, dictionary):\n        super().__init__(dictionary)\n\n        # set any missing default values\n        base_architecture(args)\n        self.args = args\n\n        if args.encoder_layers_to_keep:\n            args.encoder_layers = len(args.encoder_layers_to_keep.split(\",\"))\n\n        embed_tokens = self.build_embedding(\n            len(dictionary), args.encoder_embed_dim, dictionary.pad()\n        )\n\n        self.sentence_encoder = self.build_encoder(args, dictionary, embed_tokens)\n\n        self.lm_head = self.build_lm_head(\n            embed_dim=args.encoder_embed_dim,\n            output_dim=len(dictionary),\n            activation_fn=args.activation_fn,\n            weight=(\n                self.sentence_encoder.embed_tokens.weight\n                if not args.untie_weights_roberta\n                else None\n            ),\n        )\n\n    def build_embedding(self, vocab_size, embedding_dim, padding_idx):\n        return nn.Embedding(vocab_size, embedding_dim, padding_idx)\n\n    def build_encoder(self, args, dictionary, embed_tokens):\n        encoder = TransformerEncoder(args, dictionary, embed_tokens)\n        encoder.apply(init_bert_params)\n        return encoder\n\n    def build_lm_head(self, embed_dim, output_dim, activation_fn, weight):\n        return RobertaLMHead(embed_dim, output_dim, activation_fn, weight)\n\n    def forward(\n        self,\n        src_tokens,\n        features_only=False,\n        return_all_hiddens=False,\n        masked_tokens=None,\n        **unused,\n    ):\n        \"\"\"\n        Args:\n            src_tokens (LongTensor): input tokens of shape `(batch, src_len)`\n            features_only (bool, optional): skip LM head and just return\n                features. If True, the output will be of shape\n                `(batch, src_len, embed_dim)`.\n            return_all_hiddens (bool, optional): also return all of the\n                intermediate hidden states (default: False).\n\n        Returns:\n            tuple:\n                - the LM output of shape `(batch, src_len, vocab)`\n                - a dictionary of additional data, where 'inner_states'\n                  is a list of hidden states. Note that the hidden\n                  states have shape `(src_len, batch, vocab)`.\n        \"\"\"\n        x, extra = self.extract_features(\n            src_tokens, return_all_hiddens=return_all_hiddens\n        )\n        if not features_only:\n            x = self.output_layer(x, masked_tokens=masked_tokens)\n        return x, extra\n\n    def extract_features(self, src_tokens, return_all_hiddens=False, **kwargs):\n        encoder_out = self.sentence_encoder(\n            src_tokens,\n            return_all_hiddens=return_all_hiddens,\n            token_embeddings=kwargs.get(\"token_embeddings\", None),\n        )\n        # T x B x C -> B x T x C\n        features = encoder_out[\"encoder_out\"][0].transpose(0, 1)\n        inner_states = encoder_out[\"encoder_states\"] if return_all_hiddens else None\n        return features, {\"inner_states\": inner_states}\n\n    def output_layer(self, features, masked_tokens=None, **unused):\n        return self.lm_head(features, masked_tokens)\n\n    def max_positions(self):\n        \"\"\"Maximum output length supported by the encoder.\"\"\"\n        return self.args.max_positions\n\n\n@register_model_architecture(\"roberta\", \"roberta\")\ndef base_architecture(args):\n    args.encoder_layers = safe_getattr(args, \"encoder_layers\", 12)\n    args.encoder_embed_dim = safe_getattr(args, \"encoder_embed_dim\", 768)\n    args.encoder_ffn_embed_dim = safe_getattr(args, \"encoder_ffn_embed_dim\", 3072)\n    args.encoder_attention_heads = safe_getattr(args, \"encoder_attention_heads\", 12)\n\n    args.dropout = safe_getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = safe_getattr(args, \"attention_dropout\", 0.1)\n    args.activation_dropout = safe_getattr(args, \"activation_dropout\", 0.0)\n    args.pooler_dropout = safe_getattr(args, \"pooler_dropout\", 0.0)\n\n    args.max_source_positions = safe_getattr(args, \"max_positions\", 512)\n    args.no_token_positional_embeddings = safe_getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n\n    # BERT has a few structural differences compared to the original Transformer\n    args.encoder_learned_pos = safe_getattr(args, \"encoder_learned_pos\", True)\n    args.layernorm_embedding = safe_getattr(args, \"layernorm_embedding\", True)\n    args.no_scale_embedding = safe_getattr(args, \"no_scale_embedding\", True)\n    args.activation_fn = safe_getattr(args, \"activation_fn\", \"gelu\")\n    args.encoder_normalize_before = safe_getattr(\n        args, \"encoder_normalize_before\", False\n    )\n    args.pooler_activation_fn = safe_getattr(args, \"pooler_activation_fn\", \"tanh\")\n    args.untie_weights_roberta = safe_getattr(args, \"untie_weights_roberta\", False)\n\n    # Adaptive input config\n    args.adaptive_input = safe_getattr(args, \"adaptive_input\", False)\n\n    # LayerDrop config\n    args.encoder_layerdrop = safe_getattr(args, \"encoder_layerdrop\", 0.0)\n    args.encoder_layers_to_keep = safe_getattr(args, \"encoder_layers_to_keep\", None)\n\n    # Quantization noise config\n    args.quant_noise_pq = safe_getattr(args, \"quant_noise_pq\", 0)\n    args.quant_noise_pq_block_size = safe_getattr(args, \"quant_noise_pq_block_size\", 8)\n    args.quant_noise_scalar = safe_getattr(args, \"quant_noise_scalar\", 0)\n\n    # R4F config\n    args.spectral_norm_classification_head = safe_getattr(\n        args, \"spectral_norm_classification_head\", False\n    )\n\n\n@register_model_architecture(\"roberta\", \"roberta_prenorm\")\ndef roberta_prenorm_architecture(args):\n    args.layernorm_embedding = safe_getattr(args, \"layernorm_embedding\", False)\n    args.encoder_normalize_before = safe_getattr(args, \"encoder_normalize_before\", True)\n    base_architecture(args)\n\n\n@register_model_architecture(\"roberta\", \"roberta_base\")\ndef roberta_base_architecture(args):\n    base_architecture(args)\n\n\n@register_model_architecture(\"roberta\", \"roberta_large\")\ndef roberta_large_architecture(args):\n    args.encoder_layers = safe_getattr(args, \"encoder_layers\", 24)\n    args.encoder_embed_dim = safe_getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_ffn_embed_dim = safe_getattr(args, \"encoder_ffn_embed_dim\", 4096)\n    args.encoder_attention_heads = safe_getattr(args, \"encoder_attention_heads\", 16)\n    base_architecture(args)\n\n\n@register_model_architecture(\"roberta\", \"xlm\")\ndef xlm_architecture(args):\n    args.encoder_layers = safe_getattr(args, \"encoder_layers\", 16)\n    args.encoder_embed_dim = safe_getattr(args, \"encoder_embed_dim\", 1280)\n    args.encoder_ffn_embed_dim = safe_getattr(args, \"encoder_ffn_embed_dim\", 1280 * 4)\n    args.encoder_attention_heads = safe_getattr(args, \"encoder_attention_heads\", 16)\n    base_architecture(args)\n"
  },
  {
    "path": "fairseq/models/roberta/model_camembert.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nCamemBERT: a Tasty French Language Model\n\"\"\"\n\nfrom fairseq.models import register_model\n\nfrom .hub_interface import RobertaHubInterface\nfrom .model import RobertaModel\n\n\n@register_model(\"camembert\")\nclass CamembertModel(RobertaModel):\n    @classmethod\n    def hub_models(cls):\n        return {\n            \"camembert\": \"http://dl.fbaipublicfiles.com/fairseq/models/camembert-base.tar.gz\",\n            \"camembert.v0\": \"http://dl.fbaipublicfiles.com/fairseq/models/camembert-base.tar.gz\",\n            \"camembert-base\": \"http://dl.fbaipublicfiles.com/fairseq/models/camembert-base.tar.gz\",\n            \"camembert-large\": \"http://dl.fbaipublicfiles.com/fairseq/models/camembert-large.tar.gz\",\n            \"camembert-base-ccnet\": \"http://dl.fbaipublicfiles.com/fairseq/models/camembert-base-ccnet.tar.gz\",\n            \"camembert-base-ccnet-4gb\": \"http://dl.fbaipublicfiles.com/fairseq/models/camembert-base-ccnet-4gb.tar.gz\",\n            \"camembert-base-wikipedia-4gb\": \"http://dl.fbaipublicfiles.com/fairseq/models/camembert-base-wikipedia-4gb.tar.gz\",\n            \"camembert-base-oscar-4gb\": \"http://dl.fbaipublicfiles.com/fairseq/models/camembert-base-oscar-4gb.tar.gz\",\n        }\n\n    @classmethod\n    def from_pretrained(\n        cls,\n        model_name_or_path,\n        checkpoint_file=\"model.pt\",\n        data_name_or_path=\".\",\n        bpe=\"sentencepiece\",\n        **kwargs\n    ):\n        from fairseq import hub_utils\n\n        x = hub_utils.from_pretrained(\n            model_name_or_path,\n            checkpoint_file,\n            data_name_or_path,\n            archive_map=cls.hub_models(),\n            bpe=bpe,\n            load_checkpoint_heads=True,\n            **kwargs,\n        )\n        return RobertaHubInterface(x[\"args\"], x[\"task\"], x[\"models\"][0])\n"
  },
  {
    "path": "fairseq/models/roberta/model_gottbert.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nGottBERT: a pure German Language Model\n\"\"\"\n\nfrom fairseq.models import register_model\n\nfrom .hub_interface import RobertaHubInterface\nfrom .model import RobertaModel\n\n\n@register_model(\"gottbert\")\nclass GottbertModel(RobertaModel):\n    @classmethod\n    def hub_models(cls):\n        return {\n            \"gottbert-base\": \"https://dl.gottbert.de/fairseq/models/gottbert-base.tar.gz\",\n        }\n\n    @classmethod\n    def from_pretrained(\n        cls,\n        model_name_or_path,\n        checkpoint_file=\"model.pt\",\n        data_name_or_path=\".\",\n        bpe=\"hf_byte_bpe\",\n        bpe_vocab=\"vocab.json\",\n        bpe_merges=\"merges.txt\",\n        bpe_add_prefix_space=False,\n        **kwargs\n    ):\n        from fairseq import hub_utils\n\n        x = hub_utils.from_pretrained(\n            model_name_or_path,\n            checkpoint_file,\n            data_name_or_path,\n            archive_map=cls.hub_models(),\n            bpe=bpe,\n            load_checkpoint_heads=True,\n            bpe_vocab=bpe_vocab,\n            bpe_merges=bpe_merges,\n            bpe_add_prefix_space=bpe_add_prefix_space,\n            **kwargs,\n        )\n        return RobertaHubInterface(x[\"args\"], x[\"task\"], x[\"models\"][0])\n"
  },
  {
    "path": "fairseq/models/roberta/model_xlmr.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nUnsupervised Cross-lingual Representation Learning at Scale\n\"\"\"\n\nfrom fairseq.models import register_model\n\nfrom .hub_interface import RobertaHubInterface\nfrom .model import RobertaModel\n\n\n@register_model(\"xlmr\")\nclass XLMRModel(RobertaModel):\n    @classmethod\n    def hub_models(cls):\n        return {\n            \"xlmr.base\": \"http://dl.fbaipublicfiles.com/fairseq/models/xlmr.base.tar.gz\",\n            \"xlmr.large\": \"http://dl.fbaipublicfiles.com/fairseq/models/xlmr.large.tar.gz\",\n            \"xlmr.xl\": \"http://dl.fbaipublicfiles.com/fairseq/models/xlmr/xlmr.xl.tar.gz\",\n            \"xlmr.xxl\": \"http://dl.fbaipublicfiles.com/fairseq/models/xlmr/xlmr.xxl.tar.gz\",\n        }\n\n    @classmethod\n    def from_pretrained(\n        cls,\n        model_name_or_path,\n        checkpoint_file=\"model.pt\",\n        data_name_or_path=\".\",\n        bpe=\"sentencepiece\",\n        **kwargs\n    ):\n        from fairseq import hub_utils\n\n        x = hub_utils.from_pretrained(\n            model_name_or_path,\n            checkpoint_file,\n            data_name_or_path,\n            archive_map=cls.hub_models(),\n            bpe=bpe,\n            load_checkpoint_heads=True,\n            **kwargs,\n        )\n        return RobertaHubInterface(x[\"args\"], x[\"task\"], x[\"models\"][0])\n"
  },
  {
    "path": "fairseq/models/speech_dlm/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .speech_dlm import *  # noqa\nfrom .hub_interface import *  # noqa\n"
  },
  {
    "path": "fairseq/models/speech_dlm/hub_interface.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport copy\nimport logging\nfrom typing import Any, Dict, Iterator, List\n\nimport torch\nfrom fairseq import utils\nfrom omegaconf import open_dict\nfrom torch import nn\n\nfrom tqdm import tqdm\n\nfrom fairseq.hub_utils import GeneratorHubInterface\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass MultichannelGeneratorHubInterface(GeneratorHubInterface):\n    \"\"\"Pytorch Hub interface for generating sequences from a pre-trained\n    multichannel language model.\n    \"\"\"\n\n    def __init__(self, cfg, task, models):\n        super().__init__(cfg, task, models)\n        self.cfg = cfg\n        self.task = task\n        self.models = nn.ModuleList(models)\n        self.src_dicts = task.source_dictionaries\n        self.tgt_dicts = task.target_dictionaries\n        self.channels = task.channels\n\n        # optimize model for generation\n        for model in self.models:\n            model.prepare_for_inference_(cfg)\n\n    def sample(\n        self,\n        sentences: List[Dict[str, str]],\n        beam: int = 1,\n        verbose: bool = False,\n        **kwargs\n    ) -> List[str]:\n        if isinstance(sentences, dict):\n            return self.sample([sentences], beam=beam, verbose=verbose, **kwargs)[0]\n        tokenized_sentences = [self.encode(sentence) for sentence in sentences]\n        batched_hypos = self.generate(tokenized_sentences, beam, verbose, **kwargs)\n        return [self.decode(hypos[0][\"tokens\"]) for hypos in batched_hypos]\n\n    def score(self, sentences: List[Dict[str, str]], **kwargs):\n        raise NotImplementedError(\n            \"MultichannelGeneratorHubInterface doesn't support score() method\"\n        )\n\n    def generate(\n        self,\n        tokenized_sentences: List[Dict[str, torch.LongTensor]],\n        beam: int = 5,\n        verbose: bool = False,\n        skip_invalid_size_inputs=False,\n        inference_step_args=None,\n        **kwargs\n    ) -> List[List[Dict[str, torch.Tensor]]]:\n        if isinstance(tokenized_sentences, dict):\n            return self.generate(\n                [tokenized_sentences], beam=beam, verbose=verbose, **kwargs\n            )[0]\n\n        # build generator using current args as well as any kwargs\n        gen_args = copy.deepcopy(self.cfg.generation)\n        with open_dict(gen_args):\n            gen_args.beam = beam\n            for k, v in kwargs.items():\n                setattr(gen_args, k, v)\n        generator = self.task.build_generator(self.models, gen_args)\n\n        inference_step_args = inference_step_args or {}\n        results = []\n        for batch in tqdm(\n            self._build_batches(tokenized_sentences, skip_invalid_size_inputs)\n        ):\n            batch = utils.apply_to_sample(lambda t: t.to(self.device), batch)\n            translations = self.task.inference_step(\n                generator, self.models, batch, **inference_step_args\n            )\n            for id, hypos in zip(batch[\"id\"].tolist(), translations):\n                # The output of the generator is supposed to be a tensor of size (bsz x max_len x n_channels)\n                # So we need to convert it to dictionary form\n                for i in range(len(hypos)):\n                    hypos[i][\"tokens\"] = {\n                        channel: hypos[i][\"tokens\"][..., j]\n                        for j, channel in enumerate(self.channels)\n                    }\n                results.append((id, hypos))\n\n        # sort output to match input order\n        outputs = [hypos for _, hypos in sorted(results, key=lambda x: x[0])]\n\n        if verbose:\n\n            def getarg(name, default):\n                return getattr(gen_args, name, getattr(self.cfg, name, default))\n\n            for source_tokens, target_hypotheses in zip(tokenized_sentences, outputs):\n                src_str_with_unk = {\n                    channel: self.string(source_tokens[channel], channel)\n                    for channel in source_tokens\n                }\n                logger.info(\"S\\t{}\".format(src_str_with_unk))\n                for hypo in target_hypotheses:\n                    hypo_str = self.decode(hypo[\"tokens\"])\n                    logger.info(\"H\\t{}\\t{}\".format(hypo[\"score\"], hypo_str))\n                    # hypo[\"positional_scores\"]: T x n_channels\n                    pos_scores = {}\n                    for c, channel in enumerate(source_tokens):\n                        pos_scores[channel] = \" \".join(\n                            map(\n                                lambda x: \"{:.4f}\".format(x),\n                                hypo[\"positional_scores\"][:, c].tolist(),\n                            )\n                        )\n                    logger.info(\"P\\t{}\".format(pos_scores))\n\n        return outputs\n\n    def encode(self, sentence: Dict[str, str]) -> Dict[str, torch.LongTensor]:\n        assert isinstance(\n            sentence, dict\n        ), \"Input sentence is expected to be a dictionary over channels\"\n        assert set(sentence.keys()) == set(\n            self.channels\n        ), \"Mismatch between input sentence keys and model channels ({} vs {})\".format(\n            set(sentence.keys()), set(self.channels)\n        )\n        encoded_sentence = {}\n        for channel in sentence:\n            sentence_channel = sentence[channel]\n            sentence_channel = self.tokenize(sentence_channel)\n            sentence_channel = self.apply_bpe(sentence_channel)\n            sentence_channel = self.binarize(sentence_channel, channel)\n            encoded_sentence[channel] = sentence_channel\n        sentence_size = encoded_sentence[self.channels[0]].size()\n        assert all(\n            encoded_sentence[channel].size() == sentence_size\n            for channel in encoded_sentence\n        ), \"Input tensors are expected to have the same size in all channels\"\n        return encoded_sentence\n\n    def decode(self, tokens: Dict[str, torch.LongTensor]) -> Dict[str, str]:\n        assert isinstance(\n            tokens, dict\n        ), \"Input tokens are expected to be a dictionary over channels\"\n        assert set(tokens.keys()) == set(\n            self.channels\n        ), \"Mismatch between input tokens keys and model channels ({} vs {})\".format(\n            set(tokens.keys()), set(self.channels)\n        )\n        decoded_sentence = {}\n        for channel in tokens:\n            tokens_channel = tokens[channel]\n            sentence_channel = self.string(tokens_channel, channel)\n            sentence_channel = self.remove_bpe(sentence_channel)\n            sentence_channel = self.detokenize(sentence_channel)\n            decoded_sentence[channel] = sentence_channel\n        return decoded_sentence\n\n    def binarize(self, sentence: str, channel: str) -> torch.LongTensor:\n        return (\n            self.src_dicts[channel].encode_line(sentence, add_if_not_exist=False).long()\n        )\n\n    def string(self, tokens: torch.LongTensor, channel: str) -> str:\n        return self.tgt_dicts[channel].string(tokens)\n\n    def _build_batches(\n        self, tokens: List[Dict[str, List[int]]], skip_invalid_size_inputs: bool\n    ) -> Iterator[Dict[str, Any]]:\n        lengths = torch.LongTensor([next(iter(d.values())).numel() for d in tokens])\n        batch_iterator = self.task.get_batch_iterator(\n            dataset=self.task.build_dataset_for_inference(tokens, lengths),\n            max_tokens=self.cfg.dataset.max_tokens,\n            max_sentences=self.cfg.dataset.batch_size,\n            max_positions=self.max_positions,\n            ignore_invalid_inputs=skip_invalid_size_inputs,\n            disable_iterator_cache=True,\n        ).next_epoch_itr(shuffle=False)\n        return batch_iterator\n"
  },
  {
    "path": "fairseq/models/speech_dlm/modules/__init__.py",
    "content": ""
  },
  {
    "path": "fairseq/models/speech_dlm/modules/speech_dlm_decoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom typing import Any, Dict, List, Optional, Tuple\n\nimport torch\nimport torch.nn as nn\nfrom fairseq import utils\nfrom fairseq.models import FairseqIncrementalDecoder\nfrom fairseq.modules import (\n    FairseqDropout,\n    LayerDropModuleList,\n    LayerNorm,\n    PositionalEmbedding,\n)\nfrom .speech_dlm_decoder_layer import (\n    CrossChannelTransformerDecoderLayer,\n    StandardTransformerDecoderLayer,\n)\nfrom fairseq.modules.checkpoint_activations import checkpoint_wrapper\nfrom fairseq.modules.quant_noise import quant_noise as apply_quant_noise_\nfrom torch import Tensor\n\n\nclass CrossChannelTransformerDecoder(FairseqIncrementalDecoder):\n    \"\"\"\n    Cross-channel Transformer Decoder Block for parallel spoken dialogue units\n    as described in the paper: https://arxiv.org/pdf/2203.16502.pdf;\n    consisting of *args.decoder_layers* layers. Each layer is a\n    :class:`StandardTransformerDecoderLayer` or\n    :class:`CrossChannelTransformerDecoderLayer`.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        dictionary (~fairseq.data.Dictionary): decoding dictionary\n        embed_tokens (torch.nn.Embedding): output embedding\n        channels (list): list of channel names (string)\n        no_encoder_attn (bool, optional): whether to attend to encoder outputs\n            (default: False).\n    \"\"\"\n\n    def __init__(self, args, dictionary, embed_tokens, channels, no_encoder_attn=False):\n        self.args = args\n        super().__init__(dictionary)\n        self.register_buffer(\"version\", torch.Tensor([3]))\n        self._future_mask = torch.empty(0)\n\n        self.dropout_module = FairseqDropout(\n            args.dropout, module_name=self.__class__.__name__\n        )\n        self.decoder_layerdrop = args.decoder_layerdrop\n        self.share_input_output_embed = args.share_decoder_input_output_embed\n        self.channels = channels\n\n        input_embed_dim = embed_tokens.embedding_dim\n        embed_dim = args.decoder_embed_dim\n        self.embed_dim = embed_dim\n        self.output_embed_dim = args.decoder_output_dim\n\n        self.padding_idx = embed_tokens.padding_idx\n        self.max_target_positions = args.max_target_positions\n\n        self.embed_tokens = embed_tokens\n\n        self.embed_scale = 1.0 if args.no_scale_embedding else math.sqrt(embed_dim)\n\n        if args.quant_noise_pq > 0:\n            self.quant_noise = apply_quant_noise_(\n                nn.Linear(embed_dim, embed_dim, bias=False),\n                args.quant_noise_pq,\n                args.quant_noise_pq_block_size,\n            )\n        else:\n            self.quant_noise = None\n\n        self.project_in_dim = (\n            nn.Linear(input_embed_dim, embed_dim, bias=False)\n            if embed_dim != input_embed_dim\n            else None\n        )\n        self.embed_positions = (\n            PositionalEmbedding(\n                self.max_target_positions,\n                embed_dim,\n                self.padding_idx,\n                learned=args.decoder_learned_pos,\n            )\n            if not args.no_token_positional_embeddings\n            else None\n        )\n\n        if getattr(args, \"layernorm_embedding\", False):\n            self.layernorm_embedding = LayerNorm(embed_dim)\n        else:\n            self.layernorm_embedding = None\n\n        self.cross_self_attention = getattr(args, \"cross_self_attention\", False)\n\n        assert 0 <= args.decoder_cross_layers <= args.decoder_layers, (\n            \"The number of cross-channel attention decoder layers must be non-negative\"\n            f\"and not exceeds the number of decoder layers (found {args.decoder_cross_layers})\"\n        )\n\n        if self.decoder_layerdrop > 0.0:\n            self.layers = LayerDropModuleList(p=self.decoder_layerdrop)\n        else:\n            self.layers = nn.ModuleList([])\n        self.layers.extend(\n            [\n                self.build_decoder_layer(args, no_encoder_attn)\n                if i < args.decoder_layers - args.decoder_cross_layers\n                else self.build_cross_decoder_layer(args, no_encoder_attn)\n                for i in range(args.decoder_layers)\n            ]\n        )\n        self.num_layers = len(self.layers)\n        self.non_cross_layers = args.decoder_layers - args.decoder_cross_layers\n\n        if args.decoder_normalize_before and not getattr(\n            args, \"no_decoder_final_norm\", False\n        ):\n            self.layer_norm = LayerNorm(embed_dim)\n        else:\n            self.layer_norm = None\n\n        self.project_out_dim = (\n            nn.Linear(embed_dim, self.output_embed_dim, bias=False)\n            if embed_dim != self.output_embed_dim\n            else None\n        )\n\n        self.output_projection = None\n        self.is_cross_prediction = bool(\n            float(args.main_and_cross_weights.split(\",\")[1]) != 0\n        )\n        self.n_output_projections = (\n            1 if not self.is_cross_prediction else len(self.channels)\n        )\n\n        if self.share_input_output_embed:\n            # Output projection is a list of projections\n            # where the first proj is for the main-channel,\n            # then roll in a cicular way.\n            # For example: if the main channel has index i\n            # the second proj is for channel i+1 (mod N_channels), etc.\n            self.output_projection = nn.ModuleList(\n                [\n                    nn.Linear(\n                        embed_tokens.weight.shape[1],  # embed_dim\n                        embed_tokens.weight.shape[0],  # n_dictionaries\n                        bias=False,\n                    )\n                    for _ in range(self.n_output_projections)\n                ]\n            )\n            # Only share the main-channel projection\n            self.output_projection[0].weight = embed_tokens.weight\n            for i in range(1, self.n_output_projections):\n                nn.init.normal_(\n                    self.output_projection[i].weight,\n                    mean=0,\n                    std=embed_tokens.weight.shape[1] ** -0.5,\n                )\n        else:\n            self.output_projection = nn.ModuleList(\n                [\n                    nn.Linear(self.output_embed_dim, len(dictionary), bias=False)\n                    for _ in range(self.n_output_projections)\n                ]\n            )\n            for i in range(self.n_output_projections):\n                nn.init.normal_(\n                    self.output_projection[i].weight,\n                    mean=0,\n                    std=self.output_embed_dim**-0.5,\n                )\n        self.output_duration_prediction = (\n            None\n            if str(args.duration_prediction).lower() == \"false\"\n            else nn.ModuleList(\n                [\n                    nn.Linear(self.output_embed_dim, 1)\n                    for _ in range(self.n_output_projections)\n                ]\n            )\n        )\n\n    def build_decoder_layer(self, args, no_encoder_attn=False):\n        layer = StandardTransformerDecoderLayer(args, no_encoder_attn)\n        if getattr(args, \"checkpoint_activations\", False):\n            offload_to_cpu = getattr(args, \"offload_activations\", False)\n            layer = checkpoint_wrapper(layer, offload_to_cpu=offload_to_cpu)\n        return layer\n\n    def build_cross_decoder_layer(self, args, no_encoder_attn=False):\n        layer = CrossChannelTransformerDecoderLayer(args, no_encoder_attn)\n        if getattr(args, \"checkpoint_activations\", False):\n            offload_to_cpu = getattr(args, \"offload_activations\", False)\n            layer = checkpoint_wrapper(layer, offload_to_cpu=offload_to_cpu)\n        return layer\n\n    def forward(\n        self,\n        prev_output_tokens: Dict[str, Tensor],\n        encoder_out: Optional[Dict[str, List[Tensor]]] = None,\n        incremental_state: Optional[\n            List[Dict[str, Dict[str, Optional[Tensor]]]]\n        ] = None,\n        features_only: bool = False,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n        src_lengths: Optional[Any] = None,\n        # return_all_hiddens: bool = False,\n    ):\n        \"\"\"\n        Args:\n            prev_output_tokens (dict[str, LongTensor]): previous decoder outputs,\n                dictionary over all channels with the values being the tensors\n                of shape `(batch, tgt_len)`, for teacher forcing\n            encoder_out (optional): output from the encoder, used for\n                encoder-side attention\n            incremental_state (dict): list of dictionaries used for storing state\n                during :ref:`Incremental decoding`\n            features_only (bool, optional): only return features without\n                applying output layer (default: False).\n            full_context_alignment (bool, optional): don't apply\n                auto-regressive mask to self-attention (default: False).\n\n        Returns:\n            tuple:\n                - the decoder's output, dict over channels of tensors\n                    of shape `(batch, tgt_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        x, extra = self.extract_features(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            incremental_state=incremental_state,\n            full_context_alignment=full_context_alignment,\n            alignment_layer=alignment_layer,\n            alignment_heads=alignment_heads,\n        )\n        if not features_only:\n            x = self.output_layer(x)\n        return x, extra\n\n    def extract_features(\n        self,\n        prev_output_tokens: Dict[str, Tensor],\n        encoder_out: Optional[Dict[str, List[Tensor]]],\n        incremental_state: Optional[\n            List[Dict[str, Dict[str, Optional[Tensor]]]]\n        ] = None,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n    ):\n        return self.extract_features_scriptable(\n            prev_output_tokens,\n            encoder_out,\n            incremental_state,\n            full_context_alignment,\n            alignment_layer,\n            alignment_heads,\n        )\n\n    \"\"\"\n    A scriptable subclass of this class has an extract_features method and calls\n    super().extract_features, but super() is not supported in torchscript. A copy of\n    this function is made to be used in the subclass instead.\n    \"\"\"\n\n    def extract_features_scriptable(\n        self,\n        prev_output_tokens: Dict[str, Tensor],\n        encoder_out: Optional[Dict[str, List[Tensor]]],\n        incremental_state: Optional[\n            List[Dict[str, Dict[str, Optional[Tensor]]]]\n        ] = None,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n    ):\n        \"\"\"\n        The core function of *forward* but only return features.\n\n        The input (prev_output_tokens) is a dictionary over all channels,\n        expected to have the following form:\n            {\n                'channel1' : Tensor((batch x tgt_len)),\n                'channel2' : Tensor((batch x tgt_len)),\n            }\n\n        Args:\n            full_context_alignment (bool, optional): don't apply\n                auto-regressive mask to self-attention (default: False).\n            alignment_layer (int, optional): return mean alignment over\n                heads at this layer (default: last layer).\n            alignment_heads (int, optional): only average alignment over\n                this many heads (default: all heads).\n\n        Returns:\n            tuple:\n                - the decoder's features, dict over channels of tensors\n                    of shape `(batch, tgt_len, embed_dim)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        if alignment_layer is None:\n            alignment_layer = self.num_layers - 1\n\n        x_list = []\n        for i, channel in enumerate(self.channels):\n            # embed positions\n            positions = None\n            if self.embed_positions is not None:\n                positions = self.embed_positions(\n                    prev_output_tokens[channel],\n                    incremental_state=incremental_state[i]\n                    if incremental_state is not None\n                    else None,\n                )\n\n            if incremental_state is not None:\n                prev_output_tokens[channel] = prev_output_tokens[channel][:, -1:]\n                if positions is not None:\n                    positions = positions[:, -1:]\n\n            # embed tokens and positions\n            x = self.embed_tokens(prev_output_tokens[channel])\n\n            if self.project_in_dim is not None:\n                x = self.project_in_dim(x)\n\n            x = self.embed_scale * x\n\n            if self.quant_noise is not None:\n                x = self.quant_noise(x)\n\n            if positions is not None:\n                x += positions\n\n            if self.layernorm_embedding is not None:\n                x = self.layernorm_embedding(x)\n\n            x = self.dropout_module(x)\n\n            # B x T x C -> T x B x C\n            x = x.transpose(0, 1)\n\n            x_list.append(x)\n\n        self_attn_padding_mask: Optional[Tensor] = None\n        if (\n            self.cross_self_attention\n            or prev_output_tokens[self.channels[0]].eq(self.padding_idx).any()\n        ):\n            self_attn_padding_mask = prev_output_tokens[self.channels[0]].eq(\n                self.padding_idx\n            )\n\n        # decoder layers\n        attn: Optional[Dict[Tensor]] = None\n        inner_states: List[Optional[Dict[str, Tensor]]] = [\n            {channel: x_list[i] for i, channel in enumerate(self.channels)}\n        ]\n        for idx, layer in enumerate(self.layers):\n            if incremental_state is None and not full_context_alignment:\n                self_attn_mask = self.buffered_future_mask(x_list[0])\n            else:\n                self_attn_mask = None\n\n            # need to change to tensor for the checkpoint activation to work\n            if isinstance(x_list, list):\n                x_list = torch.stack(x_list)\n            x_list, layer_attn_list, _ = layer(\n                x_list,\n                encoder_out[\"encoder_out\"][0]\n                if (encoder_out is not None and len(encoder_out[\"encoder_out\"]) > 0)\n                else None,\n                encoder_out[\"encoder_padding_mask\"][0]\n                if (\n                    encoder_out is not None\n                    and len(encoder_out[\"encoder_padding_mask\"]) > 0\n                )\n                else None,\n                incremental_state,\n                self_attn_mask=self_attn_mask,\n                self_attn_padding_mask=self_attn_padding_mask,\n                need_attn=bool((idx == alignment_layer)),\n                need_head_weights=bool((idx == alignment_layer)),\n            )\n\n            inner_states.append(\n                {channel: x_list[i] for i, channel in enumerate(self.channels)}\n            )\n            if idx == alignment_layer and all(\n                layer_attn is not None for layer_attn in layer_attn_list\n            ):\n                attn = {\n                    channel: layer_attn_list[i].float().to(x_list[0])\n                    for i, channel in enumerate(self.channels)\n                }\n        # change back from tensor to list\n        if not isinstance(x_list, list):\n            x_list = list(torch.unbind(x_list))\n\n        if attn is not None:\n            for channel in attn:\n                if alignment_heads is not None:\n                    attn[channel] = attn[channel][:alignment_heads]\n\n                # average probabilities over heads\n                attn[channel] = attn[channel].mean(dim=0)\n\n        for i, x in enumerate(x_list):\n            if self.layer_norm is not None:\n                x = self.layer_norm(x)\n\n            # T x B x C -> B x T x C\n            x = x.transpose(0, 1)\n\n            if self.project_out_dim is not None:\n                x = self.project_out_dim(x)\n\n            x_list[i] = x\n\n        x = {channel: x_list[i] for i, channel in enumerate(self.channels)}\n\n        return x, {\"attn\": [attn], \"inner_states\": inner_states}\n\n    def output_layer(self, features):\n        \"\"\"Project features to the vocabulary size.\n        Return a dictionary of the form:\n            {\n                'input-channel': {\n                    'predicted-channel': token prediction tensor of shape `(batch, tgt_len, vocab)`,\n                }\n            }\n\n        if duration_prediction is enabled\n            {\n                'input-channel': {\n                    'predicted-channel': {\n                        'pred_token': token prediction tensor of shape `(batch, tgt_len, vocab)`,\n                        'pred_duration': duration prediction tensor\n                    }\n                }\n            }\n        \"\"\"\n        # project back to size of vocabulary\n        if self.output_duration_prediction is None:\n            if self.is_cross_prediction:\n                return {\n                    channel: {\n                        pred_channel: self.output_projection[j - i](features[channel])\n                        for j, pred_channel in enumerate(self.channels)\n                    }\n                    for i, channel in enumerate(self.channels)\n                }\n            else:\n                return {\n                    channel: {channel: self.output_projection[0](features[channel])}\n                    for i, channel in enumerate(self.channels)\n                }\n        else:\n            if self.is_cross_prediction:\n                return {\n                    channel: {\n                        pred_channel: {\n                            \"pred_token\": self.output_projection[j - i](\n                                features[channel]\n                            ),\n                            \"pred_duration\": self.output_duration_prediction[j - i](\n                                features[channel]\n                            ),\n                        }\n                        for j, pred_channel in enumerate(self.channels)\n                    }\n                    for i, channel in enumerate(self.channels)\n                }\n            else:\n                return {\n                    channel: {\n                        channel: {\n                            \"pred_token\": self.output_projection[0](features[channel]),\n                            \"pred_duration\": self.output_duration_prediction[0](\n                                features[channel]\n                            ),\n                        }\n                    }\n                    for i, channel in enumerate(self.channels)\n                }\n\n    def max_positions(self):\n        \"\"\"Maximum output length supported by the decoder.\"\"\"\n        if self.embed_positions is None:\n            return self.max_target_positions\n        return min(self.max_target_positions, self.embed_positions.max_positions)\n\n    def buffered_future_mask(self, tensor):\n        dim = tensor.size(0)\n        # self._future_mask.device != tensor.device is not working in TorchScript. This is a workaround.\n        if (\n            self._future_mask.size(0) == 0\n            or (not self._future_mask.device == tensor.device)\n            or self._future_mask.size(0) < dim\n        ):\n            self._future_mask = torch.triu(\n                utils.fill_with_neg_inf(torch.zeros([dim, dim])), 1\n            )\n        self._future_mask = self._future_mask.to(tensor)\n        return self._future_mask[:dim, :dim]\n\n    def get_normalized_probs_scriptable(\n        self,\n        net_output: Tuple[Tensor, Optional[Dict[str, List[Optional[Tensor]]]]],\n        log_probs: bool,\n        sample: Optional[Dict[str, Tensor]] = None,\n    ):\n        \"\"\"Get normalized probabilities (or log probs) from a net's output.\"\"\"\n\n        logits_dict = net_output[0]\n        out_dict = {}\n        for channel in logits_dict:\n            out_dict[channel] = {}\n            for pred_channel in logits_dict[channel]:\n                if isinstance(logits_dict[channel][pred_channel], dict):\n                    pred_token_logits = logits_dict[channel][pred_channel][\"pred_token\"]\n                else:\n                    pred_token_logits = logits_dict[channel][pred_channel]\n                if log_probs:\n                    out = utils.log_softmax(\n                        pred_token_logits, dim=-1, onnx_trace=self.onnx_trace\n                    )\n                else:\n                    out = utils.softmax(\n                        pred_token_logits, dim=-1, onnx_trace=self.onnx_trace\n                    )\n                if isinstance(logits_dict[channel][pred_channel], dict):\n                    out_dict[channel][pred_channel] = {\n                        \"pred_token\": out,\n                        \"pred_duration\": logits_dict[channel][pred_channel][\n                            \"pred_duration\"\n                        ].float(),\n                    }  # move to float32 to avoid inf loss\n                else:\n                    out_dict[channel][pred_channel] = out\n        return out_dict\n\n    def reorder_incremental_state_scripting(\n        self,\n        incremental_state: List[Dict[str, Dict[str, Optional[Tensor]]]],\n        new_order: Tensor,\n    ):\n        \"\"\"Main entry point for reordering the incremental state.\n\n        Due to limitations in TorchScript, we call this function in\n        :class:`fairseq.sequence_generator.SequenceGenerator` instead of\n        calling :func:`reorder_incremental_state` directly.\n        \"\"\"\n        for module in self.modules():\n            if hasattr(module, \"reorder_incremental_state\"):\n                for i, incremental_state_channel in enumerate(incremental_state):\n                    result = module.reorder_incremental_state(\n                        incremental_state_channel, new_order\n                    )\n                    if result is not None:\n                        incremental_state[i] = result\n"
  },
  {
    "path": "fairseq/models/speech_dlm/modules/speech_dlm_decoder_layer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Dict, List, Tuple, Optional\n\nimport torch\nimport torch.nn as nn\nfrom fairseq import utils\nfrom fairseq.modules import LayerNorm, MultiheadAttention\nfrom fairseq.modules.fairseq_dropout import FairseqDropout\nfrom fairseq.modules.quant_noise import quant_noise\nfrom torch import Tensor\n\n\nclass CrossChannelTransformerDecoderLayer(nn.Module):\n    \"\"\"Cross-Attention Transformer Decoder Layer block as described\n    in the paper: https://arxiv.org/pdf/2203.16502.pdf\n\n    Composed of a Multi-head Self Attention block followed by a\n    Multi-head Cross-Attention block which attends to the self-attention\n    outputs of the other channels. The weights of the attention blocks\n    in all channels are shared.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        no_encoder_attn (bool, optional): whether to attend to encoder outputs\n            (default: False).\n    \"\"\"\n\n    def __init__(\n        self, args, no_encoder_attn=False, add_bias_kv=False, add_zero_attn=False\n    ):\n        super().__init__()\n        self.embed_dim = args.decoder_embed_dim\n        self.dropout_module = FairseqDropout(\n            args.dropout, module_name=self.__class__.__name__\n        )\n        self.quant_noise = getattr(args, \"quant_noise_pq\", 0)\n        self.quant_noise_block_size = getattr(args, \"quant_noise_pq_block_size\", 8)\n\n        # This cross_self_attention is used for encoder-decoder systems,\n        # It's not the cross-channel attention (defined below as cross_channel_attn)\n        self.cross_self_attention = getattr(args, \"cross_self_attention\", False)\n\n        self.self_attn = self.build_self_attention(\n            self.embed_dim,\n            args,\n            add_bias_kv=add_bias_kv,\n            add_zero_attn=add_zero_attn,\n        )\n        self.cross_channel_attn = self.build_cross_channel_attention(\n            self.embed_dim,\n            args,\n            add_bias_kv=add_bias_kv,\n            add_zero_attn=add_zero_attn,\n        )\n\n        self.activation_fn = utils.get_activation_fn(\n            activation=str(args.activation_fn)\n            if getattr(args, \"activation_fn\", None) is not None\n            else \"relu\"\n        )\n        activation_dropout_p = getattr(args, \"activation_dropout\", 0) or 0\n        if activation_dropout_p == 0:\n            # for backwards compatibility with models that use args.relu_dropout\n            activation_dropout_p = getattr(args, \"relu_dropout\", 0) or 0\n        self.activation_dropout_module = FairseqDropout(\n            float(activation_dropout_p), module_name=self.__class__.__name__\n        )\n        self.normalize_before = args.decoder_normalize_before\n\n        # use layerNorm rather than FusedLayerNorm for exporting.\n        # char_inputs can be used to determint this.\n        # TODO  remove this once we update apex with the fix\n        export = getattr(args, \"char_inputs\", False)\n        self.self_attn_layer_norm = LayerNorm(self.embed_dim, export=export)\n        self.cross_channel_attn_layer_norm = LayerNorm(self.embed_dim, export=export)\n\n        if no_encoder_attn:\n            self.encoder_attn = None\n            self.encoder_attn_layer_norm = None\n        else:\n            self.encoder_attn = self.build_encoder_attention(self.embed_dim, args)\n            self.encoder_attn_layer_norm = LayerNorm(self.embed_dim, export=export)\n\n        self.fc1 = self.build_fc1(\n            self.embed_dim,\n            args.decoder_ffn_embed_dim,\n            self.quant_noise,\n            self.quant_noise_block_size,\n        )\n        self.fc2 = self.build_fc2(\n            args.decoder_ffn_embed_dim,\n            self.embed_dim,\n            self.quant_noise,\n            self.quant_noise_block_size,\n        )\n\n        self.final_layer_norm = LayerNorm(self.embed_dim, export=export)\n        self.need_attn = True\n\n        self.onnx_trace = False\n\n    def build_fc1(self, input_dim, output_dim, q_noise, qn_block_size):\n        return quant_noise(nn.Linear(input_dim, output_dim), q_noise, qn_block_size)\n\n    def build_fc2(self, input_dim, output_dim, q_noise, qn_block_size):\n        return quant_noise(nn.Linear(input_dim, output_dim), q_noise, qn_block_size)\n\n    def build_self_attention(\n        self, embed_dim, args, add_bias_kv=False, add_zero_attn=False\n    ):\n        return MultiheadAttention(\n            embed_dim,\n            args.decoder_attention_heads,\n            dropout=args.attention_dropout,\n            add_bias_kv=add_bias_kv,\n            add_zero_attn=add_zero_attn,\n            self_attention=not getattr(args, \"cross_self_attention\", False),\n            q_noise=self.quant_noise,\n            qn_block_size=self.quant_noise_block_size,\n        )\n\n    def build_cross_channel_attention(\n        self, embed_dim, args, add_bias_kv=False, add_zero_attn=False\n    ):\n        return MultiheadAttention(\n            embed_dim,\n            args.decoder_attention_heads,\n            dropout=args.attention_dropout,\n            add_bias_kv=add_bias_kv,\n            add_zero_attn=add_zero_attn,\n            self_attention=False,\n            q_noise=self.quant_noise,\n            qn_block_size=self.quant_noise_block_size,\n        )\n\n    def build_encoder_attention(self, embed_dim, args):\n        return MultiheadAttention(\n            embed_dim,\n            args.decoder_attention_heads,\n            kdim=getattr(args, \"encoder_embed_dim\", None),\n            vdim=getattr(args, \"encoder_embed_dim\", None),\n            dropout=args.attention_dropout,\n            encoder_decoder_attention=True,\n            q_noise=self.quant_noise,\n            qn_block_size=self.quant_noise_block_size,\n        )\n\n    def prepare_for_onnx_export_(self):\n        self.onnx_trace = True\n\n    def residual_connection(self, x, residual):\n        return residual + x\n\n    def forward(\n        self,\n        x_list_tensor: List[torch.Tensor],\n        encoder_out: Optional[torch.Tensor] = None,\n        encoder_padding_mask: Optional[torch.Tensor] = None,\n        incremental_state: Optional[\n            List[Dict[str, Dict[str, Optional[Tensor]]]]\n        ] = None,\n        prev_self_attn_state: Optional[List[Tuple[torch.Tensor, torch.Tensor]]] = None,\n        prev_attn_state: Optional[List[torch.Tensor]] = None,\n        self_attn_mask: Optional[torch.Tensor] = None,\n        self_attn_padding_mask: Optional[torch.Tensor] = None,\n        need_attn: bool = False,\n        need_head_weights: bool = False,\n    ):\n        \"\"\"\n        Args:\n            x_list_tensor (List[Tensor]): list of input tensors in different channels,\n                each tensor is of shape `(seq_len, batch, embed_dim)`\n            encoder_padding_mask (ByteTensor, optional): binary\n                ByteTensor of shape `(batch, src_len)` where padding\n                elements are indicated by ``1``.\n            incremental_state (optional): list of incremental_state dictionaries over\n                different channels (sequence generation mode)\n            prev_self_attn_state (List[Tuple[Tensor, Tensor]], optional): list of tuples\n                (self_attn_state, cross_channel_attn_state) over different channels\n            need_attn (bool, optional): return attention weights\n            need_head_weights (bool, optional): return attention weights\n                for each head (default: return average over heads).\n\n        Returns:\n            list of encoded output of shape `(seq_len, batch, embed_dim)`\n        \"\"\"\n        n_channels = len(x_list_tensor)\n        if need_head_weights:\n            need_attn = True\n\n        # incremental_state is a list of dictionaries over different channels\n        if incremental_state is not None:\n            assert isinstance(incremental_state, list)\n            assert len(incremental_state) == n_channels\n\n        # prev_self_attn_state is a list of tuples (self_attn_state, cross_channel_attn_state) over different channels\n        if prev_self_attn_state is not None:\n            assert isinstance(prev_self_attn_state, list)\n            assert len(prev_self_attn_state) == n_channels\n            for prev_self_attn_state_channel in prev_self_attn_state:\n                assert isinstance(prev_self_attn_state_channel, tuple)\n                assert len(prev_self_attn_state_channel) == 2\n\n        # Backup for other channels & cross channel attention\n        self_attn_mask_orin = self_attn_mask\n        self_attn_padding_mask_orin = self_attn_padding_mask\n\n        x_list = []\n        attn_list = []\n        for i, x in enumerate(x_list_tensor):\n            residual = x\n\n            if self.normalize_before:\n                x = self.self_attn_layer_norm(x)\n\n            if prev_self_attn_state is not None:\n                prev_key, prev_value = prev_self_attn_state[i][0][:2]\n                saved_state: Dict[str, Optional[Tensor]] = {\n                    \"prev_key\": prev_key,\n                    \"prev_value\": prev_value,\n                }\n                if len(prev_self_attn_state[i][0]) >= 3:\n                    saved_state[\"prev_key_padding_mask\"] = prev_self_attn_state[i][0][2]\n                assert incremental_state is not None\n                self.self_attn._set_input_buffer(incremental_state[i], saved_state)\n            _self_attn_input_buffer = self.self_attn._get_input_buffer(\n                incremental_state[i] if incremental_state is not None else None\n            )\n            if self.cross_self_attention and not (\n                incremental_state is not None\n                and _self_attn_input_buffer is not None\n                and \"prev_key\" in _self_attn_input_buffer\n            ):\n                if self_attn_mask_orin is not None:\n                    assert encoder_out is not None\n                    self_attn_mask = torch.cat(\n                        (\n                            x.new_zeros(x.size(0), encoder_out.size(0)),\n                            self_attn_mask_orin,\n                        ),\n                        dim=1,\n                    )\n                if self_attn_padding_mask_orin is not None:\n                    if encoder_padding_mask is None:\n                        assert encoder_out is not None\n                        encoder_padding_mask = self_attn_padding_mask_orin.new_zeros(\n                            encoder_out.size(1), encoder_out.size(0)\n                        )\n                    self_attn_padding_mask = torch.cat(\n                        (encoder_padding_mask, self_attn_padding_mask_orin), dim=1\n                    )\n                assert encoder_out is not None\n                y = torch.cat((encoder_out, x), dim=0)\n            else:\n                y = x\n\n            x, attn = self.self_attn(\n                query=x,\n                key=y,\n                value=y,\n                key_padding_mask=self_attn_padding_mask,\n                incremental_state=incremental_state[i]\n                if incremental_state is not None\n                else None,\n                need_weights=False,\n                attn_mask=self_attn_mask,\n            )\n\n            x = self.dropout_module(x)\n            x = self.residual_connection(x, residual)\n            if not self.normalize_before:\n                x = self.self_attn_layer_norm(x)\n\n            if self.encoder_attn is not None and encoder_out is not None:\n                residual = x\n                if self.normalize_before:\n                    x = self.encoder_attn_layer_norm(x)\n                if prev_attn_state is not None:\n                    prev_key, prev_value = prev_attn_state[:2]\n                    saved_state: Dict[str, Optional[Tensor]] = {\n                        \"prev_key\": prev_key,\n                        \"prev_value\": prev_value,\n                    }\n                    if len(prev_attn_state) >= 3:\n                        saved_state[\"prev_key_padding_mask\"] = prev_attn_state[2]\n                    assert incremental_state is not None\n                    self.encoder_attn._set_input_buffer(\n                        incremental_state[i], saved_state\n                    )\n\n                x, attn = self.encoder_attn(\n                    query=x,\n                    key=encoder_out,\n                    value=encoder_out,\n                    key_padding_mask=encoder_padding_mask,\n                    incremental_state=incremental_state[i]\n                    if incremental_state is not None\n                    else None,\n                    static_kv=True,\n                    need_weights=need_attn or (not self.training and self.need_attn),\n                    need_head_weights=need_head_weights,\n                )\n                x = self.dropout_module(x)\n                x = self.residual_connection(x, residual)\n                if not self.normalize_before:\n                    x = self.encoder_attn_layer_norm(x)\n\n            x_list.append(x)\n            attn_list.append(attn)\n\n        # Store attentions & new x(s) (bc the old x(s) are used in other channels)\n        x_list_new = []\n        # Here comes the cross channel attention\n        for i, x in enumerate(x_list):\n            residual = x\n            if self.normalize_before:\n                x = self.cross_channel_attn_layer_norm(x)\n\n            if prev_self_attn_state is not None:\n                prev_key, prev_value = prev_self_attn_state[i][1][:2]\n                saved_state: Dict[str, Optional[Tensor]] = {\n                    \"prev_key\": prev_key,\n                    \"prev_value\": prev_value,\n                }\n                if len(prev_self_attn_state[i][1]) >= 3:\n                    saved_state[\"prev_key_padding_mask\"] = prev_self_attn_state[i][1][2]\n                assert incremental_state is not None\n                self.cross_channel_attn._set_input_buffer(\n                    incremental_state[i], saved_state\n                )\n\n            # The cross attention is computed with the concatenation of attentions from other channels\n            if len(x_list) > 1:\n                x_other = torch.cat(\n                    [x_list[(i + j) % len(x_list)] for j in range(1, len(x_list))],\n                    dim=0,\n                )\n            else:\n                # Self-attention when having only one channel\n                x_other = x_list[i]\n\n            x, attn = self.cross_channel_attn(\n                query=x,\n                key=x_other,\n                value=x_other,\n                key_padding_mask=self_attn_padding_mask_orin,\n                incremental_state=incremental_state[i]\n                if incremental_state is not None\n                else None,\n                need_weights=False,\n                attn_mask=self_attn_mask_orin,\n            )\n\n            x = self.dropout_module(x)\n            x = self.residual_connection(x, residual)\n            if not self.normalize_before:\n                x = self.cross_channel_attn_layer_norm(x)\n\n            x_list_new.append(x)\n        x_list = x_list_new\n\n        for i, x in enumerate(x_list):\n            residual = x\n            if self.normalize_before:\n                x = self.final_layer_norm(x)\n\n            x = self.activation_fn(self.fc1(x))\n            x = self.activation_dropout_module(x)\n            x = self.fc2(x)\n            x = self.dropout_module(x)\n            x = self.residual_connection(x, residual)\n            if not self.normalize_before:\n                x = self.final_layer_norm(x)\n\n            x_list[i] = x\n        # Trick for the checkpoint activation\n        x_list_tensor = torch.stack(x_list)\n        if self.onnx_trace and incremental_state is not None:\n            self_and_cross_attn_state_list = []\n            for i in range(n_channels):\n                self_and_cross_attn_state = []\n                for self_attn_module in [self.self_attn, self.cross_channel_attn]:\n                    saved_state = self_attn_module._get_input_buffer(\n                        incremental_state[i]\n                    )\n                    assert saved_state is not None\n                    if self_attn_padding_mask is not None:\n                        self_attn_module_state = [\n                            saved_state[\"prev_key\"],\n                            saved_state[\"prev_value\"],\n                            saved_state[\"prev_key_padding_mask\"],\n                        ]\n                    else:\n                        self_attn_module_state = [\n                            saved_state[\"prev_key\"],\n                            saved_state[\"prev_value\"],\n                        ]\n                    self_and_cross_attn_state.append(self_attn_module_state)\n                self_and_cross_attn_state_list.append(tuple(self_and_cross_attn_state))\n            return x_list_tensor, attn_list, self_and_cross_attn_state_list\n        return x_list_tensor, attn_list, None\n\n    def make_generation_fast_(self, need_attn: bool = False, **kwargs):\n        self.need_attn = need_attn\n\n\n# Rewrite fairseq.modules.TransformerDecoderLayer\n# to be compatible with checkpoint_activations\n# (avoid forwarding model multiple times)\nclass StandardTransformerDecoderLayer(nn.Module):\n    \"\"\"Rewrite fairseq.modules.TransformerDecoderLayer to avoid forwarding\n    model multiple times and be compatible with checkpoint_activations.\n\n    The input is expected to be a list of tensors from different channels,\n    each is forwarded to the same model (shared attention weights).\n\n    In the original paper each operation (multi-head attention, encoder\n    attention or FFN) is postprocessed with: `dropout -> add residual ->\n    layernorm`. In the tensor2tensor code they suggest that learning is more\n    robust when preprocessing each layer with layernorm and postprocessing with:\n    `dropout -> add residual`. We default to the approach in the paper, but the\n    tensor2tensor approach can be enabled by setting\n    *args.decoder_normalize_before* to ``True``.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        no_encoder_attn (bool, optional): whether to attend to encoder outputs\n            (default: False).\n    \"\"\"\n\n    def __init__(\n        self, args, no_encoder_attn=False, add_bias_kv=False, add_zero_attn=False\n    ):\n        super().__init__()\n        self.embed_dim = args.decoder_embed_dim\n        self.dropout_module = FairseqDropout(\n            args.dropout, module_name=self.__class__.__name__\n        )\n        self.quant_noise = getattr(args, \"quant_noise_pq\", 0)\n        self.quant_noise_block_size = getattr(args, \"quant_noise_pq_block_size\", 8)\n\n        self.cross_self_attention = getattr(args, \"cross_self_attention\", False)\n\n        self.self_attn = self.build_self_attention(\n            self.embed_dim,\n            args,\n            add_bias_kv=add_bias_kv,\n            add_zero_attn=add_zero_attn,\n        )\n\n        self.activation_fn = utils.get_activation_fn(\n            activation=str(args.activation_fn)\n            if getattr(args, \"activation_fn\", None) is not None\n            else \"relu\"\n        )\n        activation_dropout_p = getattr(args, \"activation_dropout\", 0) or 0\n        if activation_dropout_p == 0:\n            # for backwards compatibility with models that use args.relu_dropout\n            activation_dropout_p = getattr(args, \"relu_dropout\", 0) or 0\n        self.activation_dropout_module = FairseqDropout(\n            float(activation_dropout_p), module_name=self.__class__.__name__\n        )\n        self.normalize_before = args.decoder_normalize_before\n\n        # use layerNorm rather than FusedLayerNorm for exporting.\n        # char_inputs can be used to determint this.\n        # TODO  remove this once we update apex with the fix\n        export = getattr(args, \"char_inputs\", False)\n        self.self_attn_layer_norm = LayerNorm(self.embed_dim, export=export)\n\n        if no_encoder_attn:\n            self.encoder_attn = None\n            self.encoder_attn_layer_norm = None\n        else:\n            self.encoder_attn = self.build_encoder_attention(self.embed_dim, args)\n            self.encoder_attn_layer_norm = LayerNorm(self.embed_dim, export=export)\n\n        self.fc1 = self.build_fc1(\n            self.embed_dim,\n            args.decoder_ffn_embed_dim,\n            self.quant_noise,\n            self.quant_noise_block_size,\n        )\n        self.fc2 = self.build_fc2(\n            args.decoder_ffn_embed_dim,\n            self.embed_dim,\n            self.quant_noise,\n            self.quant_noise_block_size,\n        )\n\n        self.final_layer_norm = LayerNorm(self.embed_dim, export=export)\n        self.need_attn = True\n\n        self.onnx_trace = False\n\n    def build_fc1(self, input_dim, output_dim, q_noise, qn_block_size):\n        return quant_noise(nn.Linear(input_dim, output_dim), q_noise, qn_block_size)\n\n    def build_fc2(self, input_dim, output_dim, q_noise, qn_block_size):\n        return quant_noise(nn.Linear(input_dim, output_dim), q_noise, qn_block_size)\n\n    def build_self_attention(\n        self, embed_dim, args, add_bias_kv=False, add_zero_attn=False\n    ):\n        return MultiheadAttention(\n            embed_dim,\n            args.decoder_attention_heads,\n            dropout=args.attention_dropout,\n            add_bias_kv=add_bias_kv,\n            add_zero_attn=add_zero_attn,\n            self_attention=not getattr(args, \"cross_self_attention\", False),\n            q_noise=self.quant_noise,\n            qn_block_size=self.quant_noise_block_size,\n        )\n\n    def build_encoder_attention(self, embed_dim, args):\n        return MultiheadAttention(\n            embed_dim,\n            args.decoder_attention_heads,\n            kdim=getattr(args, \"encoder_embed_dim\", None),\n            vdim=getattr(args, \"encoder_embed_dim\", None),\n            dropout=args.attention_dropout,\n            encoder_decoder_attention=True,\n            q_noise=self.quant_noise,\n            qn_block_size=self.quant_noise_block_size,\n        )\n\n    def prepare_for_onnx_export_(self):\n        self.onnx_trace = True\n\n    def residual_connection(self, x, residual):\n        return residual + x\n\n    def forward(\n        self,\n        x_list_tensor: List[torch.Tensor],\n        encoder_out: Optional[torch.Tensor] = None,\n        encoder_padding_mask: Optional[torch.Tensor] = None,\n        incremental_state: Optional[\n            List[Dict[str, Dict[str, Optional[Tensor]]]]\n        ] = None,\n        prev_self_attn_state: Optional[List[Tuple[torch.Tensor, torch.Tensor]]] = None,\n        prev_attn_state: Optional[List[torch.Tensor]] = None,\n        self_attn_mask: Optional[torch.Tensor] = None,\n        self_attn_padding_mask: Optional[torch.Tensor] = None,\n        need_attn: bool = False,\n        need_head_weights: bool = False,\n    ):\n        \"\"\"\n        Args:\n            x_list_tensor (List[Tensor]): list of input tensors in different channels,\n                each tensor is of shape `(seq_len, batch, embed_dim)`\n            encoder_padding_mask (ByteTensor, optional): binary\n                ByteTensor of shape `(batch, src_len)` where padding\n                elements are indicated by ``1``.\n            incremental_state (optional): list of incremental_state dictionaries over\n                different channels (sequence generation mode)\n            prev_self_attn_state (List[Tuple[Tensor, Tensor]], optional): list of tuples\n                (self_attn_state, cross_channel_attn_state) over different channels\n            need_attn (bool, optional): return attention weights\n            need_head_weights (bool, optional): return attention weights\n                for each head (default: return average over heads).\n\n        Returns:\n            list of encoded output of shape `(seq_len, batch, embed_dim)`\n        \"\"\"\n        n_channels = len(x_list_tensor)\n        if need_head_weights:\n            need_attn = True\n\n        # incremental_state is a list of dictionaries over different channels\n        if incremental_state is not None:\n            assert isinstance(incremental_state, list)\n            assert len(incremental_state) == n_channels\n\n        # prev_self_attn_state is a list of self_attn_state over different channels\n        if prev_self_attn_state is not None:\n            assert isinstance(prev_self_attn_state, list)\n            assert len(prev_self_attn_state) == n_channels\n\n        x_list = []\n        attn_list = []\n        for i, x in enumerate(x_list_tensor):\n            residual = x\n\n            if self.normalize_before:\n                x = self.self_attn_layer_norm(x)\n\n            if prev_self_attn_state is not None:\n                prev_key, prev_value = prev_self_attn_state[i][:2]\n                saved_state: Dict[str, Optional[Tensor]] = {\n                    \"prev_key\": prev_key,\n                    \"prev_value\": prev_value,\n                }\n                if len(prev_self_attn_state[i]) >= 3:\n                    saved_state[\"prev_key_padding_mask\"] = prev_self_attn_state[2]\n                assert incremental_state is not None\n                self.self_attn._set_input_buffer(incremental_state[i], saved_state)\n            _self_attn_input_buffer = self.self_attn._get_input_buffer(\n                incremental_state\n            )\n            if self.cross_self_attention and not (\n                incremental_state is not None\n                and _self_attn_input_buffer is not None\n                and \"prev_key\" in _self_attn_input_buffer\n            ):\n                if self_attn_mask is not None:\n                    assert encoder_out is not None\n                    self_attn_mask = torch.cat(\n                        (x.new_zeros(x.size(0), encoder_out.size(0)), self_attn_mask),\n                        dim=1,\n                    )\n                if self_attn_padding_mask is not None:\n                    if encoder_padding_mask is None:\n                        assert encoder_out is not None\n                        encoder_padding_mask = self_attn_padding_mask.new_zeros(\n                            encoder_out.size(1), encoder_out.size(0)\n                        )\n                    self_attn_padding_mask = torch.cat(\n                        (encoder_padding_mask, self_attn_padding_mask), dim=1\n                    )\n                assert encoder_out is not None\n                y = torch.cat((encoder_out, x), dim=0)\n            else:\n                y = x\n\n            x, attn = self.self_attn(\n                query=x,\n                key=y,\n                value=y,\n                key_padding_mask=self_attn_padding_mask,\n                incremental_state=incremental_state[i]\n                if incremental_state is not None\n                else None,\n                need_weights=False,\n                attn_mask=self_attn_mask,\n            )\n            x = self.dropout_module(x)\n            x = self.residual_connection(x, residual)\n            if not self.normalize_before:\n                x = self.self_attn_layer_norm(x)\n\n            if self.encoder_attn is not None and encoder_out is not None:\n                residual = x\n                if self.normalize_before:\n                    x = self.encoder_attn_layer_norm(x)\n                if prev_attn_state is not None:\n                    prev_key, prev_value = prev_attn_state[:2]\n                    saved_state: Dict[str, Optional[Tensor]] = {\n                        \"prev_key\": prev_key,\n                        \"prev_value\": prev_value,\n                    }\n                    if len(prev_attn_state) >= 3:\n                        saved_state[\"prev_key_padding_mask\"] = prev_attn_state[2]\n                    assert incremental_state is not None\n                    self.encoder_attn._set_input_buffer(incremental_state, saved_state)\n\n                x, attn = self.encoder_attn(\n                    query=x,\n                    key=encoder_out,\n                    value=encoder_out,\n                    key_padding_mask=encoder_padding_mask,\n                    incremental_state=incremental_state[i]\n                    if incremental_state is not None\n                    else None,\n                    static_kv=True,\n                    need_weights=need_attn or (not self.training and self.need_attn),\n                    need_head_weights=need_head_weights,\n                )\n                x = self.dropout_module(x)\n                x = self.residual_connection(x, residual)\n                if not self.normalize_before:\n                    x = self.encoder_attn_layer_norm(x)\n\n            residual = x\n            if self.normalize_before:\n                x = self.final_layer_norm(x)\n\n            x = self.activation_fn(self.fc1(x))\n            x = self.activation_dropout_module(x)\n            x = self.fc2(x)\n            x = self.dropout_module(x)\n            x = self.residual_connection(x, residual)\n            if not self.normalize_before:\n                x = self.final_layer_norm(x)\n\n            x_list.append(x)\n            attn_list.append(attn)\n\n        # Trick for the checkpoint activation\n        x_list_tensor = torch.stack(x_list)\n        if self.onnx_trace and incremental_state is not None:\n            self_attn_state_list = []\n            for i in range(n_channels):\n                saved_state = self.self_attn._get_input_buffer(incremental_state[i])\n                assert saved_state is not None\n                if self_attn_padding_mask is not None:\n                    self_attn_state = [\n                        saved_state[\"prev_key\"],\n                        saved_state[\"prev_value\"],\n                        saved_state[\"prev_key_padding_mask\"],\n                    ]\n                else:\n                    self_attn_state = [\n                        saved_state[\"prev_key\"],\n                        saved_state[\"prev_value\"],\n                    ]\n                self_attn_state_list.append(self_attn_state)\n            return x_list_tensor, attn_list, self_attn_state_list\n        return x_list_tensor, attn_list, None\n\n    def make_generation_fast_(self, need_attn: bool = False, **kwargs):\n        self.need_attn = need_attn\n"
  },
  {
    "path": "fairseq/models/speech_dlm/sequence_generator/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .multichannel_sequence_generator import *  # noqa\n"
  },
  {
    "path": "fairseq/models/speech_dlm/sequence_generator/multichannel_search.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Dict, Optional\n\nimport torch\nimport torch.nn as nn\nfrom torch import Tensor\n\n\nclass MultichannelSearch(nn.Module):\n    def __init__(self, tgt_dicts):\n        super().__init__()\n        tgt_dict = list(tgt_dicts.values())[0]\n        self.pad = tgt_dict.pad()\n        self.unk = tgt_dict.unk()\n        self.eos = tgt_dict.eos()\n        for tgt_dict in tgt_dicts.values():\n            assert self.pad == tgt_dict.pad()\n            assert self.unk == tgt_dict.unk()\n            assert self.eos == tgt_dict.eos()\n        self.vocab_sizes = {channel: len(tgt_dicts[channel]) for channel in tgt_dicts}\n        self.src_lengths = torch.tensor(-1)\n        self.supports_constraints = False\n        self.stop_on_max_len = False\n\n    def step(\n        self, step, lprobs, scores, prev_output_tokens=None, original_batch_idxs=None\n    ):\n        \"\"\"Take a single search step.\n\n        Args:\n            step: the current search step, starting at 0\n            lprobs: dictionary of channels {channel : (bsz x input_beam_size x vocab_size_channel)}\n                the model's log-probabilities over the vocabulary at the current step\n            scores: {channel : (bsz x input_beam_size x step)}\n                the historical model scores of each hypothesis up to this point\n            prev_output_tokens: {channel : (bsz x step)}\n                the previously generated oputput tokens\n            original_batch_idxs: (bsz)\n                the tensor with the batch indices, in the range [0, bsz)\n                this is useful in case there has been applied a re-ordering\n                and we need to know the orignal indices\n\n        Return: A tuple of (scores, indices, beams) where:\n            scores: {channel : (bsz x output_beam_size)}\n                the scores of the chosen elements; output_beam_size can be\n                larger than input_beam_size, e.g., we may return\n                2*input_beam_size to account for EOS\n            indices: {channel : (bsz x output_beam_size)}\n                the indices of the chosen elements\n            beams: (bsz x output_beam_size)\n                the hypothesis ids of the chosen elements, in the range [0, input_beam_size)\n        \"\"\"\n        raise NotImplementedError\n\n    @torch.jit.export\n    def set_src_lengths(self, src_lengths):\n        self.src_lengths = src_lengths\n\n    @torch.jit.export\n    def init_constraints(self, batch_constraints: Optional[Tensor], beam_size: int):\n        \"\"\"Initialize constraint states for constrained decoding (if supported).\n\n        Args:\n            batch_constraints: (torch.Tensor, optional)\n                the list of constraints, in packed form\n            beam_size: (int)\n                the beam size\n        Returns:\n            *encoder_out* rearranged according to *new_order*\n        \"\"\"\n        pass\n\n    def prune_sentences(self, batch_idxs: Tensor):\n        \"\"\"\n        Removes constraint states for completed sentences (if supported).\n        This is called from sequence_generator._generate() when sentences are\n        deleted from the batch.\n\n        Args:\n            batch_idxs: Indices of *sentences* whose constraint state should be *kept*.\n        \"\"\"\n        pass\n\n    def update_constraints(self, active_hypos: Tensor):\n        \"\"\"\n        Updates the constraint states by selecting the beam items that are retained.\n        This is called at each time step of sequence_generator._generate() when\n        the set of 2 * {beam_size} candidate hypotheses are reduced to the beam size.\n\n        Args:\n            active_hypos: (batch size, beam size)\n              list of integers denoting, for each sentence, which beam candidate items\n              should be kept.\n        \"\"\"\n        pass\n\n\ndef unravel_index(index, shape):\n    out = []\n    for dim in reversed(shape):\n        out.append(index % dim)\n        index = index // dim\n    return torch.stack(tuple(reversed(out)), dim=-1)\n\n\ndef topk_sum(lprobs_list, k):\n    \"\"\"\n    lprobs_list = [lprobs_1,...,lprobs_n], where:\n        lprobs_1 : (batch_size x beam_size x vocab_1)\n        ...\n        lprobs_n : (batch_size x beam_size x vocab_n)\n\n    Return:\n        - topk_values : (batch_size x k)\n            values of the topk sum of the form :\n                lprobs_1[bsz, beam_idx, vocab_1_idx] + ... + lprobs_n[bsz, beam_idx, vocab_n_idx]\n        - topk_idxs : (batch_size x k x n+1)\n            each (n+1)-tensor being [beam_idx, vocab_1_idx, ..., vocab_n_idx]\n    \"\"\"\n    # Reduce all lprobs to k candidates first to reduce later complexity\n    # We may assume that k << vocab\n    lprobs_topk_list = []\n    lprobs_topk_indices_list = []\n    for lprobs in lprobs_list:\n        k_i = min(k, lprobs.size(-1))\n        topk_values, topk_indices = torch.topk(lprobs, k=k_i)\n        # topk_values : (batch_size x beam_size x k_i)\n        # topk_indices : (batch_size x beam_size x k_i)\n        lprobs_topk_list.append(topk_values)\n        lprobs_topk_indices_list.append(topk_indices)\n\n    # Compute all possible sums\n    sum_lprobs_topk = lprobs_topk_list[0]\n    for i in range(1, len(lprobs_topk_list)):\n        unsqueezed_lprobs = lprobs_topk_list[i]\n        for _ in range(i):\n            unsqueezed_lprobs = unsqueezed_lprobs.unsqueeze(-2)\n        sum_lprobs_topk = sum_lprobs_topk.unsqueeze(-1) + unsqueezed_lprobs\n    # sum_lprobs : (batch_size x beam_size x k_1 x ... x k_n)\n\n    # Get the top k sums and the (transformed indices)\n    topk_sum_values, topk_sum_indices = torch.topk(\n        sum_lprobs_topk.view(sum_lprobs_topk.size(0), -1), k=k\n    )\n    # topk_sum_values : (batch_size x k)\n    # topk_sum_indices : (batch_size x k)\n    topk_sum_indices = unravel_index(topk_sum_indices, tuple(sum_lprobs_topk.shape[1:]))\n    # topk_sum_indices : (batch_size x k x n+1)\n\n    # Convert the transformed indices to the true indices\n    for i_batch in range(topk_sum_indices.size(0)):\n        for i_cand in range(topk_sum_indices.size(1)):\n            i_beam, *transformed_vocab_indices = topk_sum_indices[i_batch, i_cand]\n            true_vocab_indices = [i_beam]\n            for j, transformed_vocab_j_idx in enumerate(transformed_vocab_indices):\n                true_vocab_j_idx = lprobs_topk_indices_list[j][\n                    i_batch, i_beam, transformed_vocab_j_idx\n                ]\n                true_vocab_indices.append(true_vocab_j_idx)\n            topk_sum_indices[i_batch, i_cand] = torch.tensor(true_vocab_indices)\n\n    topk_sum_beams = topk_sum_indices[:, :, 0]\n    topk_sum_indices = topk_sum_indices[:, :, 1:]\n\n    return topk_sum_values, topk_sum_indices, topk_sum_beams\n\n\nclass MultichannelBeamSearch(MultichannelSearch):\n    def __init__(self, tgt_dicts):\n        super().__init__(tgt_dicts)\n        self.constraint_states = None\n\n    @torch.jit.export\n    def step(\n        self,\n        step: int,\n        lprobs,\n        scores: Optional[Dict[str, Tensor]],\n        prev_output_tokens: Optional[Dict[str, Tensor]] = None,\n        original_batch_idxs: Optional[Tensor] = None,\n    ):\n        channels = list(lprobs.keys())\n        bsz, beam_size, _ = lprobs[channels[0]].size()\n\n        lprobs_list = []\n        if step == 0:\n            # at the first step all hypotheses are equally likely, so use\n            # only the first beam\n            for channel in channels:\n                lprobs_list.append(lprobs[channel][:, ::beam_size, :].contiguous())\n        else:\n            # make probs contain cumulative scores for each hypothesis\n            assert scores is not None\n            for channel in channels:\n                lprobs_list.append(\n                    lprobs[channel] + scores[channel][:, :, step - 1].unsqueeze(-1)\n                )\n\n        topk_sum_values, topk_sum_indices, topk_sum_beams = topk_sum(\n            lprobs_list, k=beam_size * 2\n        )\n\n        beams_buf = topk_sum_beams\n        scores_buf = {}\n        indices_buf = {}\n        for i, channel in enumerate(channels):\n            indices_buf[channel] = topk_sum_indices[:, :, i]\n            scores_buf[channel] = (\n                torch.tensor(\n                    [\n                        lprobs_list[i][i_batch, i_beam, i_index]\n                        for i_batch in range(bsz)\n                        for i_beam, i_index in zip(\n                            beams_buf[i_batch], indices_buf[channel][i_batch]\n                        )\n                    ]\n                )\n                .view(bsz, -1)\n                .to(lprobs_list[i].device)\n            )\n\n        # At this point, beams_buf and indices_buf are single-dim and contain relative indices\n        return scores_buf, indices_buf, beams_buf\n\n\nclass ContiguousMultichannelBeamSearch(MultichannelSearch):\n    def __init__(self, tgt_dicts):\n        super().__init__(tgt_dicts)\n        self.constraint_states = None\n\n    @torch.jit.export\n    def step(\n        self,\n        step: int,\n        lprobs,\n        scores: Optional[Tensor],\n        prev_output_tokens: Optional[Tensor] = None,\n        original_batch_idxs: Optional[Tensor] = None,\n    ):\n        n_channels = len(lprobs)\n        bsz, beam_size, _ = lprobs[0].size()\n\n        lprobs_list = []\n        if step == 0:\n            # at the first step all hypotheses are equally likely, so use\n            # only the first beam\n            for i in range(n_channels):\n                lprobs_list.append(lprobs[i][:, ::beam_size, :].contiguous())\n        else:\n            # make probs contain cumulative scores for each hypothesis\n            assert scores is not None\n            for i in range(n_channels):\n                lprobs_list.append(lprobs[i] + scores[:, :, step - 1, i].unsqueeze(-1))\n\n        topk_sum_values, topk_sum_indices, topk_sum_beams = topk_sum(\n            lprobs_list, k=beam_size * 2\n        )\n\n        beams_buf = topk_sum_beams\n        indices_buf = topk_sum_indices\n        scores_buf = (\n            torch.tensor(\n                [\n                    lprobs_list[i][i_batch, i_beam, i_index]\n                    for i in range(len(lprobs_list))\n                    for i_batch in range(bsz)\n                    for i_beam, i_index in zip(\n                        beams_buf[i_batch], indices_buf[i_batch, :, i]\n                    )\n                ]\n            )\n            .view(len(lprobs_list), bsz, -1)\n            .permute(1, 2, 0)\n            .to(lprobs_list[0].device)\n        )\n\n        # At this point, beams_buf and indices_buf are single-dim and contain relative indices\n        return scores_buf, indices_buf, beams_buf\n\n\nclass ContiguousMultichannelSampling(MultichannelSearch):\n    sampling_topk: int\n    sampling_topp: float\n\n    def __init__(self, tgt_dicts, sampling_topk=-1, sampling_topp=-1.0):\n        super().__init__(tgt_dicts)\n        self.sampling_topk = sampling_topk\n        self.sampling_topp = sampling_topp\n\n    def _sample_topp(self, lprobs):\n        \"\"\"Sample among the smallest set of elements whose cumulative probability mass exceeds p.\n\n        See `\"The Curious Case of Neural Text Degeneration\"\n        (Holtzman et al., 2019) <https://arxiv.org/abs/1904.09751>`_.\n\n        Args:\n            lprobs: (bsz x input_beam_size x vocab_size)\n                the model's log-probabilities over the vocabulary at the current step\n\n        Return: A tuple of (trimed_probs, truncated_indices) where:\n            trimed_probs: (bsz x input_beam_size x ?)\n                the model's probabilities over the elements selected to sample from. The\n                width of the third dimension is determined by top-P.\n            truncated_indices: (bsz x input_beam_size x ?)\n                the indices of the chosen elements.\n        \"\"\"\n        probs = lprobs.exp_()\n\n        # sort the last dimension (vocab dimension) in descending order\n        sorted_probs, sorted_indices = probs.sort(descending=True)\n\n        # compute a mask to indicate the words to be included in the top-P set.\n        cumsum_probs = sorted_probs.cumsum(dim=2)\n        mask = cumsum_probs.lt(self.sampling_topp)\n\n        # note that mask was computed by 'lt'. One more word needs to be included\n        # so that the cumulative probability mass can exceed p.\n        cumsum_mask = mask.cumsum(dim=2)\n        last_included = cumsum_mask[:, :, -1:]\n        last_included.clamp_(0, mask.size()[2] - 1)\n        mask = mask.scatter_(2, last_included, 1)\n\n        # truncate unnecessary dims.\n        max_dim = last_included.max()\n        truncated_mask = mask[:, :, : max_dim + 1]\n        truncated_probs = sorted_probs[:, :, : max_dim + 1]\n        truncated_indices = sorted_indices[:, :, : max_dim + 1]\n\n        # trim the words that are not in top-P by setting their probabilities\n        # to 0, so that they would not be sampled later.\n        trim_mask = ~truncated_mask\n        trimed_probs = truncated_probs.masked_fill_(trim_mask, 0)\n        return trimed_probs, truncated_indices\n\n    @torch.jit.export\n    def step(\n        self,\n        step: int,\n        lprobs,\n        scores,\n        prev_output_tokens: Optional[Tensor] = None,\n        original_batch_idxs: Optional[Tensor] = None,\n    ):\n        n_channels = len(lprobs)\n        bsz, beam_size, vocab_size = lprobs[0].size()\n\n        if step == 0:\n            # at the first step all hypotheses are equally likely, so use\n            # only the first beam\n            for i in range(n_channels):\n                lprobs[i] = lprobs[i][:, ::beam_size, :].contiguous()\n\n        probs = []\n        top_indices = []\n        for i in range(n_channels):\n            if self.sampling_topp > 0:\n                # only sample from the smallest set of words whose cumulative probability mass exceeds p\n                probs_i, top_indices_i = self._sample_topp(lprobs[i])\n            elif self.sampling_topk > 0:\n                # only sample from top-k candidates\n                lprobs[i], top_indices_i = lprobs[i].topk(\n                    min(self.sampling_topk, lprobs[i].size(-1))\n                )\n                probs_i = lprobs[i].exp_()\n            else:\n                probs_i = lprobs[i].exp_()\n\n                # dummy data to be consistent with true branch for type check\n                top_indices_i = torch.empty(0).to(probs_i)\n            probs.append(probs_i)\n            top_indices.append(top_indices_i)\n        # sample\n        indices_buf = []\n        for i in range(n_channels):\n            if step == 0:\n                indices_buf.append(\n                    torch.multinomial(\n                        probs[i].view(bsz, -1),\n                        beam_size,\n                        replacement=True,\n                    ).view(bsz, beam_size)\n                )\n            else:\n                indices_buf.append(\n                    torch.multinomial(\n                        probs[i].view(bsz * beam_size, -1),\n                        1,\n                        replacement=True,\n                    ).view(bsz, beam_size)\n                )\n\n        if step == 0:\n            for i in range(n_channels):\n                # expand to beam size\n                probs[i] = probs[i].expand(bsz, beam_size, -1)\n\n        # gather scores\n        scores_buf = []\n        for i in range(n_channels):\n            scores_buf.append(\n                torch.gather(probs[i], dim=2, index=indices_buf[i].unsqueeze(-1))\n            )\n            scores_buf[i] = scores_buf[i].log_().view(bsz, -1)\n\n        # remap indices if using top-k or top-P sampling\n        if self.sampling_topk > 0 or self.sampling_topp > 0:\n            for i in range(n_channels):\n                indices_buf[i] = torch.gather(\n                    top_indices[i].expand(bsz, beam_size, -1),\n                    dim=2,\n                    index=indices_buf[i].unsqueeze(-1),\n                ).squeeze(2)\n\n        if step == 0:\n            beams_buf = indices_buf[0].new_zeros(bsz, beam_size)\n        else:\n            beams_buf = torch.arange(0, beam_size).to(indices_buf[0]).repeat(bsz, 1)\n            # make scores cumulative\n            for i in range(n_channels):\n                scores_buf[i].add_(\n                    torch.gather(scores[:, :, step - 1, i], dim=1, index=beams_buf)\n                )\n        scores_buf = torch.stack(scores_buf, dim=-1)\n        indices_buf = torch.stack(indices_buf, dim=-1)\n\n        return scores_buf, indices_buf, beams_buf\n"
  },
  {
    "path": "fairseq/models/speech_dlm/sequence_generator/multichannel_sequence_generator.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom typing import Dict, List, Optional\n\nfrom omegaconf.listconfig import ListConfig\nfrom omegaconf.dictconfig import DictConfig\n\nimport torch\nimport torch.nn as nn\nfrom fairseq.models import FairseqIncrementalDecoder\nfrom torch import Tensor\nfrom fairseq.ngram_repeat_block import NGramRepeatBlock\nfrom .multichannel_search import ContiguousMultichannelBeamSearch\nfrom fairseq.models.speech_dlm import SpeechDLM\n\n\nclass MultichannelSequenceGenerator(nn.Module):\n    def __init__(\n        self,\n        models,\n        tgt_dicts,\n        beam_size=1,\n        max_len_a=0,\n        max_len_b=200,\n        min_len=1,\n        normalize_scores=True,\n        len_penalty=1.0,\n        unk_penalty=0.0,\n        temperature=1.0,\n        match_source_len=False,\n        no_repeat_ngram_size=0,\n        search_strategy=None,\n        eos=None,\n        symbols_to_strip_from_output=None,\n        lm_model=None,\n        lm_weight=1.0,\n        duration_temperature=1.0,\n    ):\n        \"\"\"Generate multi-channel parallel units with the SpeechDLM model\n        as described in the paper: https://arxiv.org/pdf/2203.16502.pdf;\n\n        Args:\n            models (List[~fairseq.models.FairseqModel]): ensemble of models,\n                currently support fairseq.models.TransformerModel for scripting\n            beam_size (int, optional): beam width (default: 1)\n            max_len_a/b (int, optional): generate sequences of maximum length\n                ax + b, where x is the source length\n            min_len (int, optional): the minimum length of the generated output\n                (not including end-of-sentence)\n            normalize_scores (bool, optional): normalize scores by the length\n                of the output (default: True)\n            len_penalty (float, optional): length penalty, where <1.0 favors\n                shorter, >1.0 favors longer sentences (default: 1.0)\n            unk_penalty (float, optional): unknown word penalty, where <0\n                produces more unks, >0 produces fewer (default: 0.0)\n            temperature (float, optional): temperature, where values\n                >1.0 produce more uniform samples and values <1.0 produce\n                sharper samples (default: 1.0)\n            match_source_len (bool, optional): outputs should match the source\n                length (default: False)\n            duration_temperature (float, optional): rate of the duration prediction,\n                higher rate induces a faster generated wav (default: 1.0)\n        \"\"\"\n        super().__init__()\n        if isinstance(models, MultichannelEnsembleModel):\n            self.model = models\n        else:\n            self.model = MultichannelEnsembleModel(models)\n        self.tgt_dicts = tgt_dicts\n        self.pad = list(tgt_dicts.values())[0].pad()\n        self.unk = list(tgt_dicts.values())[0].unk()\n        self.eos = list(tgt_dicts.values())[0].eos() if eos is None else eos\n        self.symbols_to_strip_from_output = (\n            symbols_to_strip_from_output.union({self.eos})\n            if symbols_to_strip_from_output is not None\n            else {self.eos}\n        )\n        self.channels = list(tgt_dicts.keys())\n        self.n_channels = len(self.channels)\n        self.vocab_sizes = [len(tgt_dicts[channel]) for channel in self.channels]\n        # the max beam size is the dictionary size - 1, since we never select pad\n        max_possible_beam_size = 1\n        for i in self.vocab_sizes:\n            max_possible_beam_size *= i - 1\n        self.beam_size = min(beam_size, max_possible_beam_size)\n        self.max_len_a = max_len_a\n        self.max_len_b = max_len_b\n        self.min_len = min_len\n\n        self.normalize_scores = normalize_scores\n        self.len_penalty = len_penalty\n        self.unk_penalty = unk_penalty\n        if isinstance(temperature, (int, float)):\n            temperature = {channel: temperature for channel in self.channels}\n        elif isinstance(temperature, ListConfig) or isinstance(temperature, list):\n            temperature = {\n                channel: temperature[i] for i, channel in enumerate(self.channels)\n            }\n        assert isinstance(temperature, DictConfig) or isinstance(\n            temperature, dict\n        ), f\"temperature: expected dict, but found {type(temperature)}\"\n        self.temperature = temperature\n        self.match_source_len = match_source_len\n\n        if no_repeat_ngram_size > 0:\n            self.repeat_ngram_blocker = NGramRepeatBlock(no_repeat_ngram_size)\n        else:\n            self.repeat_ngram_blocker = None\n\n        for channel in temperature:\n            assert temperature[channel] > 0, \"--temperature must be greater than 0\"\n\n        if search_strategy is None:\n            self.search = ContiguousMultichannelBeamSearch(tgt_dicts)\n        else:\n            self.search = search_strategy\n        # We only need to set src_lengths in LengthConstrainedBeamSearch.\n        # As a module attribute, setting it would break in multithread\n        # settings when the model is shared.\n        self.should_set_src_lengths = (\n            hasattr(self.search, \"needs_src_lengths\") and self.search.needs_src_lengths\n        )\n\n        self.model.eval()\n\n        self.lm_model = lm_model\n        self.lm_weight = lm_weight\n        if self.lm_model is not None:\n            self.lm_model.eval()\n\n        self.duration_prediction = bool(\n            str(getattr(models[0].decoder.args, \"duration_prediction\", \"false\")).lower()\n            == \"true\"\n        )\n        self.delayed_duration = bool(\n            str(\n                getattr(models[0].decoder.args, \"delayed_duration_target\", \"false\")\n            ).lower()\n            == \"true\"\n        )\n        self.duration_temperature = duration_temperature\n\n    def cuda(self):\n        self.model.cuda()\n        return self\n\n    @torch.no_grad()\n    def forward(\n        self,\n        sample: Dict[str, Dict[str, Tensor]],  # TODO: Modify this\n        prefix_tokens: Optional[Dict[str, Tensor]] = None,\n        bos_token: Optional[int] = None,\n    ):\n        \"\"\"Generate a batch of translations.\n\n        Args:\n            sample (dict): batch\n            prefix_tokens (dict of torch.LongTensor, optional): force decoder to begin\n                with these tokens\n            bos_token (int, optional): beginning of sentence token\n                (default: self.eos)\n        \"\"\"\n        return self._generate(sample, prefix_tokens, bos_token=bos_token)\n\n    @torch.no_grad()\n    def generate(self, models, sample: Dict[str, Dict[str, Tensor]], **kwargs):\n        \"\"\"Generate translations. Match the api of other fairseq generators.\n\n        Args:\n            models (List[~fairseq.models.FairseqModel]): ensemble of models\n            sample (dict): batch\n            prefix_tokens (dict of torch.LongTensor, optional): force decoder to begin\n                with these tokens\n            constraints (torch.LongTensor, optional): force decoder to include\n                the list of constraints\n            bos_token (int, optional): beginning of sentence token\n                (default: self.eos)\n        \"\"\"\n        return self._generate(sample, **kwargs)\n\n    def _generate(\n        self,\n        sample: Dict[str, Dict[str, Tensor]],\n        prefix_tokens: Optional[Dict[str, Tensor]] = None,\n        constraints: Optional[Tensor] = None,\n        bos_token: Optional[int] = None,\n    ):\n        \"\"\"\n        Here sample is expected to have the following form\n            {\n                'id': index,\n                'net_input': {\n                    'src_tokens': {\n                        'channel1' : tensor((batch x src_length)),\n                        'channel2' : tensor((batch x src_length)),\n                    },\n                    ...\n                },\n            }\n        and prefix_tokens\n            {\n                'channel1' : tensor((batch x prefix_length)),\n                'channel2' : tensor((batch x prefix_length)),\n            }\n        \"\"\"\n        if self.model.is_speech_dlm:\n            incremental_states = torch.jit.annotate(\n                List[Dict[str, Dict[str, Optional[Tensor]]]],\n                [\n                    torch.jit.annotate(\n                        List[Dict[str, Dict[str, Optional[Tensor]]]],\n                        [{} for _ in range(self.n_channels)],\n                    )\n                    for i in range(self.model.models_size)\n                ],\n            )\n        else:\n            incremental_states = torch.jit.annotate(\n                List[Dict[str, Dict[str, Optional[Tensor]]]],\n                [\n                    torch.jit.annotate(Dict[str, Dict[str, Optional[Tensor]]], {})\n                    for i in range(self.model.models_size)\n                ],\n            )\n        net_input = sample[\"net_input\"]\n        # Convert from dict to tensor form\n        # shape of src_tokens : (bsz x src_len x n_channels)\n        src_tokens = torch.stack(\n            [net_input[\"src_tokens\"][channel] for channel in self.channels], dim=-1\n        )\n        prefix_tokens = torch.stack(\n            [prefix_tokens[channel] for channel in self.channels], dim=-1\n        )\n        # length of the source text being the character length except EndOfSentence and pad\n        src_lengths = (\n            (src_tokens[..., 0].ne(self.eos) & src_tokens[..., 0].ne(self.pad))\n            .long()\n            .sum(dim=1)\n        )\n\n        # bsz: total number of sentences in beam\n        # Note that src_tokens may have more than 2 dimensions (i.e. audio features)\n        bsz, src_len = src_tokens.size()[:2]\n        beam_size = self.beam_size\n\n        if constraints is not None and not self.search.supports_constraints:\n            raise NotImplementedError(\n                \"Target-side constraints were provided, but search method doesn't support them\"\n            )\n\n        # Initialize constraints, when active\n        self.search.init_constraints(constraints, beam_size)\n\n        max_len: int = -1\n        if self.match_source_len:\n            max_len = src_lengths.max().item()\n        else:\n            max_len = min(\n                int(self.max_len_a * src_len + self.max_len_b),\n                # exclude the EOS marker\n                self.model.max_decoder_positions() - 1,\n            )\n        assert (\n            self.min_len <= max_len\n        ), \"min_len cannot be larger than max_len, please adjust these!\"\n        # compute the encoder output for each beam\n        encoder_outs = self.model.forward_encoder(net_input)\n\n        # placeholder of indices for bsz * beam_size to hold tokens and accumulative scores\n        new_order = torch.arange(bsz).view(-1, 1).repeat(1, beam_size).view(-1)\n        new_order = new_order.to(src_tokens.device).long()\n        encoder_outs = self.model.reorder_encoder_out(encoder_outs, new_order)\n        # ensure encoder_outs is a List.\n        assert encoder_outs is not None\n\n        # initialize buffers\n        # cumulative scores of hypotheses\n        scores = (\n            torch.zeros(bsz * beam_size, max_len + 1, self.n_channels)\n            .to(src_tokens)\n            .float()\n        )  # +1 for eos; pad is never chosen for scoring\n        tokens = (\n            torch.zeros(bsz * beam_size, max_len + 2, self.n_channels)\n            .to(src_tokens)\n            .long()\n            .fill_(self.pad)\n        )  # +2 for eos and pad\n        tokens[:, 0] = self.eos if bos_token is None else bos_token\n        attn: Optional[Tensor] = None\n\n        # A list that indicates candidates that should be ignored.\n        # For example, suppose we're sampling and have already finalized 2/5\n        # samples. Then cands_to_ignore would mark 2 positions as being ignored,\n        # so that we only finalize the remaining 3 samples.\n        cands_to_ignore = (\n            torch.zeros(bsz, beam_size).to(src_tokens).eq(-1)\n        )  # forward and backward-compatible False mask\n\n        # list of completed sentences\n        finalized = torch.jit.annotate(\n            List[List[Dict[str, Tensor]]],\n            [torch.jit.annotate(List[Dict[str, Tensor]], []) for i in range(bsz)],\n        )  # contains lists of dictionaries of infomation about the hypothesis being finalized at each step\n\n        finished = [\n            False for i in range(bsz)\n        ]  # a boolean array indicating if the sentence at the index is finished or not\n        num_remaining_sent = bsz  # number of sentences remaining\n\n        # number of candidate hypos per step\n        cand_size = 2 * beam_size  # 2 x beam size in case half are EOS\n\n        # offset arrays for converting between different indexing schemes\n        bbsz_offsets = (\n            (torch.arange(0, bsz) * beam_size)\n            .unsqueeze(1)\n            .type_as(tokens)\n            .to(src_tokens.device)\n        )\n        cand_offsets = torch.arange(0, cand_size).type_as(tokens).to(src_tokens.device)\n\n        reorder_state: Optional[Tensor] = None\n        batch_idxs: Optional[Tensor] = None\n\n        original_batch_idxs: Optional[Tensor] = None\n        if \"id\" in sample and isinstance(sample[\"id\"], Tensor):\n            original_batch_idxs = sample[\"id\"]\n        else:\n            original_batch_idxs = torch.arange(0, bsz).type_as(tokens)\n\n        if self.duration_prediction:\n            dur_counter = torch.ones(bsz * beam_size, self.n_channels).to(src_tokens)\n            # save the indice where the dur_counter just copied from dur_pred\n            dur_counter_jump_indices = None\n\n        for step in range(max_len + 1):  # one extra step for EOS marker\n            # reorder decoder internal states based on the prev choice of beams\n            if reorder_state is not None:\n                if batch_idxs is not None:\n                    # update beam indices to take into account removed sentences\n                    corr = batch_idxs - torch.arange(batch_idxs.numel()).type_as(\n                        batch_idxs\n                    )\n                    reorder_state.view(-1, beam_size).add_(\n                        corr.unsqueeze(-1) * beam_size\n                    )\n                    original_batch_idxs = original_batch_idxs[batch_idxs]\n                self.model.reorder_incremental_state(incremental_states, reorder_state)\n                encoder_outs = self.model.reorder_encoder_out(\n                    encoder_outs, reorder_state\n                )\n\n            input_tokens = {\n                channel: tokens[:, : step + 1, i]\n                for i, channel in enumerate(self.channels)\n            }\n\n            lprobs_dict, avg_attn_scores = self.model.forward_decoder(\n                input_tokens,\n                encoder_outs,\n                incremental_states,\n                self.temperature,\n            )\n\n            # Because the sizes of vocab is different, we cannot concat the lprobs to form a single tensor\n            if not self.duration_prediction:\n                lprobs_list = list(lprobs_dict.values())\n            else:\n                lprobs_list = [\n                    net_output[\"pred_token\"] for net_output in lprobs_dict.values()\n                ]\n\n                # non-positive predicted durations\n                dur_preds = (\n                    torch.stack(\n                        [\n                            net_output[\"pred_duration\"]\n                            for net_output in lprobs_dict.values()\n                        ]\n                    )\n                    .squeeze(-1)\n                    .T\n                )\n                dur_preds = dur_preds / self.duration_temperature\n                dur_preds = dur_preds.round().long()\n                dur_preds[dur_preds < 1] = 1\n\n                # dur_preds & dur_counter needs to be modified when there isn't an edge\n                if step > 0:\n                    non_edge_indices = tokens[:, step, :] == tokens[:, step - 1, :]\n                    if self.delayed_duration:\n                        dur_preds[non_edge_indices] = 1\n                    else:\n                        if dur_counter_jump_indices is not None:\n                            dur_counter[dur_counter_jump_indices & non_edge_indices] = 2\n\n                # update dur_counter\n                if step > 0:\n                    if self.delayed_duration:\n                        dur_counter -= (\n                            (dur_counter == 1)\n                            | (tokens[:, step, :] == tokens[:, step - 1, :])\n                        ).int()\n                        dur_counter[dur_counter < 0] = 0\n                    else:\n                        dur_counter -= (\n                            tokens[:, step, :] == tokens[:, step - 1, :]\n                        ).int()\n                        dur_counter[dur_counter < 1] = 1\n\n                # whether to copy previous token (ie. if the counter is still on)\n                # and get get the new duration\n                if self.delayed_duration:\n                    dur_counter_jump_indices = dur_counter == 0\n                    dur_counter[dur_counter_jump_indices] = dur_preds[\n                        dur_counter_jump_indices\n                    ]\n\n                # whether to copy previous token in this step\n                copy_prev_token = dur_counter != 1\n                if self.delayed_duration is False:\n                    dur_counter_jump_indices = dur_counter == 1\n                    dur_counter[dur_counter_jump_indices] = dur_preds[\n                        dur_counter_jump_indices\n                    ]\n                # else:\n                # dur_counter[dur_counter==0] = dur_preds[dur_counter==0] - 1\n                # copy_prev_token = (dur_counter > 0)\n\n            if self.lm_model is not None:\n                assert False, \"Currently not supported in multichannelLM case\"\n\n            for i in range(self.n_channels):\n                lprobs_list[i][lprobs_list[i] != lprobs_list[i]] = torch.tensor(\n                    -math.inf\n                ).to(lprobs_list[i])\n\n                lprobs_list[i][:, self.pad] = -math.inf  # never select pad\n                lprobs_list[i][:, self.unk] -= self.unk_penalty  # apply unk penalty\n\n                # handle max length constraint\n                if step >= max_len:\n                    lprobs_list[i][:, : self.eos] = -math.inf\n                    lprobs_list[i][:, self.eos + 1 :] = -math.inf\n                else:\n                    lprobs_list[i][\n                        :, self.eos\n                    ] = -math.inf  # quick fix for short generation\n\n                # handle prefix tokens (possibly with different lengths)\n                if (\n                    prefix_tokens is not None\n                    and step < prefix_tokens.size(1)\n                    and step < max_len\n                ):\n                    (\n                        lprobs_list[i],\n                        tokens[..., i],\n                        scores[..., i],\n                    ) = self._prefix_tokens(\n                        step,\n                        lprobs_list[i],\n                        scores[..., i],\n                        tokens[..., i],\n                        prefix_tokens[..., i],\n                        beam_size,\n                    )\n                    if self.duration_prediction:\n                        # Can copy previous token if the prefix token is padding or unk (1-channel conditionned case)\n                        can_copy_mask = (\n                            prefix_tokens[:, step, i].eq(self.pad)\n                            | prefix_tokens[:, step, i].eq(self.unk)\n                        ).repeat_interleave(beam_size)\n                        copy_prev_token[:, i] &= can_copy_mask\n                elif step < self.min_len:\n                    # minimum length constraint (does not apply if using prefix_tokens)\n                    lprobs_list[i][:, self.eos] = -math.inf\n\n                if self.duration_prediction:\n                    if step < max_len:\n                        for j in range(copy_prev_token.size(0)):\n                            if copy_prev_token[j, i]:\n                                prev_token = tokens[j, step, i]\n                                lprobs_list[i][j, :prev_token] = -math.inf\n                                lprobs_list[i][j, prev_token + 1 :] = -math.inf\n                                # lprobs_list[i][j, prev_token] = 0.\n                                # dur_counter[j,i] -= 1\n                            # else:\n                            #     prev_token = tokens[j, step, i]\n                            # if not (lprobs_list[i][j,:].ne(-math.inf).nonzero() == prev_token).all():\n                            #     lprobs_list[i][j, prev_token] = -math.inf\n                            #     dur_counter[j,i] = 0.\n\n            # Record attention scores, only support avg_attn_scores is a Tensor\n            if avg_attn_scores is not None:\n                if attn is None:\n                    attn = torch.empty(\n                        bsz * beam_size, avg_attn_scores.size(1), max_len + 2\n                    ).to(scores)\n                attn[:, :, step + 1].copy_(avg_attn_scores)\n\n            scores = scores.type_as(lprobs_list[0])\n            eos_bbsz_idx = torch.empty(0).to(\n                tokens\n            )  # indices of hypothesis ending with eos (finished sentences)\n            eos_scores = torch.empty(0).to(\n                scores\n            )  # scores of hypothesis ending with eos (finished sentences)\n\n            if self.should_set_src_lengths:\n                self.search.set_src_lengths(src_lengths)\n\n            if self.repeat_ngram_blocker is not None:\n                for i in range(self.n_channels):\n                    lprobs_list[i] = self.repeat_ngram_blocker(\n                        tokens, lprobs_list[i], bsz, beam_size, step\n                    )\n\n            # Shape: (batch, cand_size)\n            cand_scores, cand_indices, cand_beams = self.search.step(\n                step,\n                [\n                    lprobs_list[i].view(bsz, -1, self.vocab_sizes[i])\n                    for i in range(self.n_channels)\n                ],\n                scores.view(bsz, beam_size, -1, self.n_channels)[:, :, :step, :],\n                tokens[:, : step + 1],\n                original_batch_idxs,\n            )\n\n            # cand_bbsz_idx contains beam indices for the top candidate\n            # hypotheses, with a range of values: [0, bsz*beam_size),\n            # and dimensions: [bsz, cand_size]\n            cand_bbsz_idx = cand_beams.add(bbsz_offsets)\n\n            # finalize hypotheses that end in eos\n            # Shape of eos_mask: (batch size, beam size)\n            eos_mask = cand_indices.eq(self.eos) & cand_scores.ne(-math.inf)\n            eos_mask = torch.any(eos_mask, dim=-1, keepdim=False)\n            eos_mask[:, :beam_size][cands_to_ignore] = torch.tensor(0).to(eos_mask)\n\n            # only consider eos when it's among the top beam_size indices\n            # Now we know what beam item(s) to finish\n            # Shape: 1d list of absolute-numbered\n            eos_bbsz_idx = torch.masked_select(\n                cand_bbsz_idx[:, :beam_size], mask=eos_mask[:, :beam_size]\n            )\n\n            finalized_sents: List[int] = []\n            if eos_bbsz_idx.numel() > 0:\n                eos_scores = torch.stack(\n                    [\n                        torch.masked_select(\n                            cand_scores[:, :beam_size, i], mask=eos_mask[:, :beam_size]\n                        )\n                        for i in range(self.n_channels)\n                    ],\n                    dim=-1,\n                )\n                finalized_sents = self.finalize_hypos(\n                    step,\n                    eos_bbsz_idx,\n                    eos_scores,\n                    tokens,\n                    scores,\n                    finalized,\n                    finished,\n                    beam_size,\n                    attn,\n                    src_lengths,\n                    max_len,\n                )\n                num_remaining_sent -= len(finalized_sents)\n\n            assert num_remaining_sent >= 0\n            if num_remaining_sent == 0:\n                break\n            if self.search.stop_on_max_len and step >= max_len:\n                break\n            assert step < max_len, f\"{step} < {max_len}\"\n\n            # Remove finalized sentences (ones for which {beam_size}\n            # finished hypotheses have been generated) from the batch.\n            if len(finalized_sents) > 0:\n                new_bsz = bsz - len(finalized_sents)\n\n                # construct batch_idxs which holds indices of batches to keep for the next pass\n                batch_mask = torch.ones(\n                    bsz, dtype=torch.bool, device=cand_indices.device\n                )\n                batch_mask[finalized_sents] = False\n                # TODO replace `nonzero(as_tuple=False)` after TorchScript supports it\n                batch_idxs = torch.arange(\n                    bsz, device=cand_indices.device\n                ).masked_select(batch_mask)\n\n                # Choose the subset of the hypothesized constraints that will continue\n                self.search.prune_sentences(batch_idxs)\n\n                eos_mask = eos_mask[batch_idxs]\n                cand_beams = cand_beams[batch_idxs]\n                bbsz_offsets.resize_(new_bsz, 1)\n                cand_bbsz_idx = cand_beams.add(bbsz_offsets)\n                cand_scores = cand_scores[batch_idxs]\n                cand_indices = cand_indices[batch_idxs]\n\n                if prefix_tokens is not None:\n                    prefix_tokens = prefix_tokens[batch_idxs]\n                src_lengths = src_lengths[batch_idxs]\n                cands_to_ignore = cands_to_ignore[batch_idxs]\n\n                scores = scores.view(bsz, -1)[batch_idxs].view(\n                    new_bsz * beam_size, -1, self.n_channels\n                )\n                tokens = tokens.view(bsz, -1)[batch_idxs].view(\n                    new_bsz * beam_size, -1, self.n_channels\n                )\n                if self.duration_prediction:\n                    dur_counter = dur_counter.view(bsz, -1)[batch_idxs].view(\n                        new_bsz * beam_size, self.n_channels\n                    )\n                if attn is not None:\n                    attn = attn.view(bsz, -1)[batch_idxs].view(\n                        new_bsz * beam_size, attn.size(1), -1\n                    )\n                bsz = new_bsz\n            else:\n                batch_idxs = None\n\n            # Set active_mask so that values > cand_size indicate eos hypos\n            # and values < cand_size indicate candidate active hypos.\n            # After, the min values per row are the top candidate active hypos\n\n            # Rewrite the operator since the element wise or is not supported in torchscript.\n\n            eos_mask[:, :beam_size] = ~((~cands_to_ignore) & (~eos_mask[:, :beam_size]))\n            active_mask = torch.add(\n                eos_mask.type_as(cand_offsets) * cand_size,\n                cand_offsets[: eos_mask.size(1)],\n            )\n\n            # get the top beam_size active hypotheses, which are just\n            # the hypos with the smallest values in active_mask.\n            # {active_hypos} indicates which {beam_size} hypotheses\n            # from the list of {2 * beam_size} candidates were\n            # selected. Shapes: (batch size, beam size)\n            new_cands_to_ignore, active_hypos = torch.topk(\n                active_mask, k=beam_size, dim=1, largest=False\n            )\n\n            # update cands_to_ignore to ignore any finalized hypos.\n            cands_to_ignore = new_cands_to_ignore.ge(cand_size)[:, :beam_size]\n            # Make sure there is at least one active item for each sentence in the batch.\n            assert (~cands_to_ignore).any(dim=1).all()\n\n            # update cands_to_ignore to ignore any finalized hypos\n            # {active_bbsz_idx} denotes which beam number is continued for each new hypothesis (a beam\n            # can be selected more than once).\n            active_bbsz_idx = torch.gather(cand_bbsz_idx, dim=1, index=active_hypos)\n            active_bbsz_idx = active_bbsz_idx.view(-1)\n\n            # active_scores = torch.stack([\n            #     torch.gather(cand_scores[...,0], dim=1, index=active_hypos)\n            #         for i in range(self.n_channels)\n            #         ], dim = -1)\n            # active_scores = active_scores.view(-1)\n\n            # copy tokens and scores for active hypotheses\n\n            # Set the tokens for each beam (can select the same row more than once)\n            tokens[:, : step + 1] = torch.index_select(\n                tokens[:, : step + 1], dim=0, index=active_bbsz_idx\n            )\n            # Select the next token for each of them\n            for i in range(self.n_channels):\n                tokens.view(bsz, beam_size, -1, self.n_channels)[\n                    :, :, step + 1, i\n                ] = torch.gather(cand_indices[..., i], dim=1, index=active_hypos)\n            if step > 0:\n                scores[:, :step] = torch.index_select(\n                    scores[:, :step], dim=0, index=active_bbsz_idx\n                )\n            for i in range(self.n_channels):\n                scores.view(bsz, beam_size, -1, self.n_channels)[\n                    :, :, step, i\n                ] = torch.gather(cand_scores[..., i], dim=1, index=active_hypos)\n\n            if self.duration_prediction:\n                dur_counter = torch.index_select(\n                    dur_counter, dim=0, index=active_bbsz_idx\n                )\n\n            # Update constraints based on which candidates were selected for the next beam\n            self.search.update_constraints(active_hypos)\n\n            # copy attention for active hypotheses\n            if attn is not None:\n                attn[:, :, : step + 2] = torch.index_select(\n                    attn[:, :, : step + 2], dim=0, index=active_bbsz_idx\n                )\n\n            # reorder incremental state in decoder\n            reorder_state = active_bbsz_idx\n\n        # sort by score descending\n        for sent in range(len(finalized)):\n            scores = torch.tensor(\n                [float(elem[\"score\"].item()) for elem in finalized[sent]]\n            )\n            _, sorted_scores_indices = torch.sort(scores, descending=True)\n            finalized[sent] = [finalized[sent][ssi] for ssi in sorted_scores_indices]\n            finalized[sent] = torch.jit.annotate(\n                List[Dict[str, Tensor]], finalized[sent]\n            )\n        return finalized\n\n    def _prefix_tokens(\n        self, step: int, lprobs, scores, tokens, prefix_tokens, beam_size: int\n    ):\n        \"\"\"Handle prefix tokens\"\"\"\n        prefix_toks = prefix_tokens[:, step].unsqueeze(-1).repeat(1, beam_size).view(-1)\n        prefix_lprobs = lprobs.gather(-1, prefix_toks.unsqueeze(-1))\n        prefix_mask = prefix_toks.ne(self.pad)\n        # used for 1-channel generation, do not force the unk token (i.e. unk tokens are changed)\n        prefix_mask &= prefix_toks.ne(self.unk)\n        # zeroing the copying tokens\n        # if step > 0:\n        #     copy_mask = (prefix_tokens[:, step] == prefix_tokens[:, step-1]).unsqueeze(-1).repeat(1, beam_size).view(-1)\n        #     prefix_lprobs[copy_mask & prefix_mask] = 0.\n        lprobs[prefix_mask] = torch.tensor(-math.inf).to(lprobs)\n        lprobs[prefix_mask] = lprobs[prefix_mask].scatter(\n            -1, prefix_toks[prefix_mask].unsqueeze(-1), prefix_lprobs[prefix_mask]\n        )\n        # shouldn't stop at unk token\n        unk_mask = prefix_toks.eq(self.unk)\n        if len(lprobs[unk_mask]) > 0:\n            # otherwise it won't assign to lprobs,\n            # see: https://discuss.pytorch.org/t/how-to-mask-and-assign-a-value-to-tensor/18437\n            copy_lprobs = lprobs[unk_mask][:, :]\n            copy_lprobs[:, self.eos] = -math.inf\n            lprobs[unk_mask] = copy_lprobs\n        # if prefix includes eos, then we should make sure tokens and\n        # scores are the same across all beams\n        eos_mask = prefix_toks.eq(self.eos)\n        if eos_mask.any():\n            # validate that the first beam matches the prefix\n            first_beam = tokens[eos_mask].view(-1, beam_size, tokens.size(-1))[\n                :, 0, 1 : step + 1\n            ]\n            eos_mask_batch_dim = eos_mask.view(-1, beam_size)[:, 0]\n            target_prefix = prefix_tokens[eos_mask_batch_dim][:, :step]\n            assert (first_beam == target_prefix).all()\n\n            # copy tokens, scores and lprobs from the first beam to all beams\n            tokens = self.replicate_first_beam(tokens, eos_mask_batch_dim, beam_size)\n            scores = self.replicate_first_beam(scores, eos_mask_batch_dim, beam_size)\n            lprobs = self.replicate_first_beam(lprobs, eos_mask_batch_dim, beam_size)\n        return lprobs, tokens, scores\n\n    def replicate_first_beam(self, tensor, mask, beam_size: int):\n        tensor = tensor.view(-1, beam_size, tensor.size(-1))\n        tensor[mask] = tensor[mask][:, :1, :]\n        return tensor.view(-1, tensor.size(-1))\n\n    def finalize_hypos(\n        self,\n        step: int,\n        bbsz_idx,\n        eos_scores,\n        tokens,\n        scores,\n        finalized: List[List[Dict[str, Tensor]]],\n        finished: List[bool],\n        beam_size: int,\n        attn: Optional[Tensor],\n        src_lengths,\n        max_len: int,\n    ):\n        \"\"\"Finalize hypothesis, store finalized information in `finalized`, and change `finished` accordingly.\n        A sentence is finalized when {beam_size} finished items have been collected for it.\n\n        Returns number of sentences (not beam items) being finalized.\n        These will be removed from the batch and not processed further.\n        Args:\n            bbsz_idx (Tensor):\n        \"\"\"\n        assert bbsz_idx.numel() == eos_scores.size(0)\n\n        # clone relevant token and attention tensors.\n        # tokens is (batch * beam, max_len). So the index_select\n        # gets the newly EOS rows, then selects cols 1..{step + 2}\n        tokens_clone = tokens.index_select(0, bbsz_idx)[\n            :, 1 : step + 2\n        ]  # skip the first index, which is EOS\n\n        tokens_clone[:, step] = self.eos\n        attn_clone = (\n            attn.index_select(0, bbsz_idx)[:, :, 1 : step + 2]\n            if attn is not None\n            else None\n        )\n\n        # compute scores per token position\n        pos_scores = scores.index_select(0, bbsz_idx)[:, : step + 1]\n        pos_scores[:, step, :] = eos_scores\n        # convert from cumulative to per-position scores\n        pos_scores[:, 1:] = pos_scores[:, 1:] - pos_scores[:, :-1]\n\n        # normalize sentence-level scores\n        if self.normalize_scores:\n            eos_scores /= (step + 1) ** self.len_penalty\n\n        # cum_unfin records which sentences in the batch are finished.\n        # It helps match indexing between (a) the original sentences\n        # in the batch and (b) the current, possibly-reduced set of\n        # sentences.\n        cum_unfin: List[int] = []\n        prev = 0\n        for f in finished:\n            if f:\n                prev += 1\n            else:\n                cum_unfin.append(prev)\n\n        # The keys here are of the form \"{sent}_{unfin_idx}\", where\n        # \"unfin_idx\" is the index in the current (possibly reduced)\n        # list of sentences, and \"sent\" is the index in the original,\n        # unreduced batch\n        # set() is not supported in script export\n        sents_seen: Dict[str, Optional[Tensor]] = {}\n\n        # For every finished beam item\n        for i in range(bbsz_idx.size()[0]):\n            idx = bbsz_idx[i]\n            score = eos_scores[i].sum()\n            # sentence index in the current (possibly reduced) batch\n            unfin_idx = idx // beam_size\n            # sentence index in the original (unreduced) batch\n            sent = unfin_idx + cum_unfin[unfin_idx]\n            # Cannot create dict for key type '(int, int)' in torchscript.\n            # The workaround is to cast int to string\n            seen = str(sent.item()) + \"_\" + str(unfin_idx.item())\n            if seen not in sents_seen:\n                sents_seen[seen] = None\n\n            if self.match_source_len and step > src_lengths[unfin_idx]:\n                score = torch.tensor(-math.inf).to(score)\n\n            # An input sentence (among those in a batch) is finished when\n            # beam_size hypotheses have been collected for it\n            if len(finalized[sent]) < beam_size:\n                if attn_clone is not None:\n                    # remove padding tokens from attn scores\n                    hypo_attn = attn_clone[i]\n                else:\n                    hypo_attn = torch.empty(0)\n\n                finalized[sent].append(\n                    {\n                        \"tokens\": tokens_clone[i],\n                        \"score\": score,\n                        \"attention\": hypo_attn,  # src_len x tgt_len\n                        \"alignment\": torch.empty(0),\n                        \"positional_scores\": pos_scores[i],\n                    }\n                )\n\n        newly_finished: List[int] = []\n\n        for seen in sents_seen.keys():\n            # check termination conditions for this sentence\n            sent: int = int(float(seen.split(\"_\")[0]))\n            unfin_idx: int = int(float(seen.split(\"_\")[1]))\n\n            if not finished[sent] and self.is_finished(\n                step, unfin_idx, max_len, len(finalized[sent]), beam_size\n            ):\n                finished[sent] = True\n                newly_finished.append(unfin_idx)\n\n        return newly_finished\n\n    def is_finished(\n        self,\n        step: int,\n        unfin_idx: int,\n        max_len: int,\n        finalized_sent_len: int,\n        beam_size: int,\n    ):\n        \"\"\"\n        Check whether decoding for a sentence is finished, which\n        occurs when the list of finalized sentences has reached the\n        beam size, or when we reach the maximum length.\n        \"\"\"\n        assert finalized_sent_len <= beam_size\n        if finalized_sent_len == beam_size or step == max_len:\n            return True\n        return False\n\n\nclass MultichannelEnsembleModel(nn.Module):\n    \"\"\"A wrapper around an ensemble of SpeechDLM models.\"\"\"\n\n    def __init__(self, models):\n        super().__init__()\n        self.models_size = len(models)\n        # method '__len__' is not supported in ModuleList for torch script\n        self.single_model = models[0]\n        self.models = nn.ModuleList(models)\n\n        self.has_incremental: bool = False\n        if all(\n            hasattr(m, \"decoder\") and isinstance(m.decoder, FairseqIncrementalDecoder)\n            for m in models\n        ):\n            self.has_incremental = True\n\n        if isinstance(models[0], SpeechDLM):\n            self.is_speech_dlm = True\n        # Otherwise it's a multi-channel language model (without cross-prediction outputs)\n        else:\n            self.is_speech_dlm = False\n\n        if getattr(models[0].decoder.args, \"duration_prediction\", False):\n            self.is_duration_prediction = True\n        else:\n            self.is_duration_prediction = False\n\n    def forward(self):\n        pass\n\n    def has_encoder(self):\n        return hasattr(self.single_model, \"encoder\")\n\n    def has_incremental_states(self):\n        return self.has_incremental\n\n    def max_decoder_positions(self):\n        return min([m.max_decoder_positions() for m in self.models])\n\n    @torch.jit.export\n    def forward_encoder(self, net_input: Dict[str, Tensor]):\n        if not self.has_encoder():\n            return None\n        return [model.encoder.forward_torchscript(net_input) for model in self.models]\n\n    @torch.jit.export\n    def forward_decoder(\n        self,\n        tokens,\n        encoder_outs: List[Dict[str, List[Tensor]]],\n        incremental_states: List[Dict[str, Dict[str, Optional[Tensor]]]],\n        temperature: Dict[str, float] = 1.0,\n    ):\n        if isinstance(temperature, (float, int)):\n            temperature = {channel: temperature for channel in tokens}\n        log_probs = {channel: [] for channel in tokens}\n        avg_attn: Optional[Tensor] = None\n        encoder_out: Optional[Dict[str, List[Tensor]]] = None\n        for i, model in enumerate(self.models):\n            if self.has_encoder():\n                encoder_out = encoder_outs[i]\n            # decode each model\n            if self.has_incremental_states():\n                decoder_out = model.decoder.forward(\n                    tokens,\n                    encoder_out=encoder_out,\n                    incremental_state=incremental_states[i],\n                )\n            else:\n                decoder_out = model.decoder.forward(tokens, encoder_out=encoder_out)\n\n            attn: Optional[Tensor] = None\n            decoder_len = len(decoder_out)\n            if decoder_len > 1 and decoder_out[1] is not None:\n                if isinstance(decoder_out[1], Tensor):\n                    attn = decoder_out[1]\n                else:\n                    attn_holder = decoder_out[1][\"attn\"]\n                    if isinstance(attn_holder, Tensor):\n                        attn = attn_holder\n                    elif attn_holder is not None:\n                        attn = attn_holder[0]\n                if attn is not None:\n                    attn = attn[:, -1, :]\n\n            if self.is_speech_dlm:\n                if self.is_duration_prediction:\n                    decoder_out_divided_by_temperature = {\n                        channel_src: {\n                            channel_pred: {\n                                \"pred_token\": decoder_out[0][channel_src][channel_pred][\n                                    \"pred_token\"\n                                ][:, -1:, :].div_(temperature[channel_pred]),\n                                \"pred_duration\": decoder_out[0][channel_src][\n                                    channel_pred\n                                ][\"pred_duration\"][:, -1:, :],\n                            }\n                            for channel_pred in decoder_out[0][channel_src]\n                        }\n                        for channel_src in decoder_out[0]\n                    }\n                else:\n                    decoder_out_divided_by_temperature = {\n                        channel_src: {\n                            channel_pred: decoder_out[0][channel_src][channel_pred][\n                                :, -1:, :\n                            ].div_(temperature[channel_pred])\n                            for channel_pred in decoder_out[0][channel_src]\n                        }\n                        for channel_src in decoder_out[0]\n                    }\n            else:\n                decoder_out_divided_by_temperature = {\n                    channel: decoder_out[0][channel][:, -1:, :].div_(\n                        temperature[channel]\n                    )\n                    for channel in decoder_out[0]\n                }\n            decoder_out_tuple = (\n                decoder_out_divided_by_temperature,\n                None if decoder_len <= 1 else decoder_out[1],\n            )\n\n            probs = model.get_normalized_probs(\n                decoder_out_tuple, log_probs=True, sample=None\n            )\n\n            if self.is_speech_dlm:\n                if self.is_duration_prediction:\n                    probs = {\n                        channel: {\n                            \"pred_token\": probs[channel][channel][\"pred_token\"][\n                                :, -1, :\n                            ],\n                            \"pred_duration\": probs[channel][channel][\"pred_duration\"][\n                                :, -1, :\n                            ],\n                        }\n                        for channel in probs\n                    }\n                else:\n                    probs = {\n                        channel: probs[channel][channel][:, -1, :] for channel in probs\n                    }\n            else:\n                probs = {channel: probs[channel][:, -1, :] for channel in probs}\n            if self.models_size == 1:\n                return probs, attn\n\n            for channel in probs:\n                log_probs[channel].append(probs[channel])\n            if attn is not None:\n                if avg_attn is None:\n                    avg_attn = attn\n                else:\n                    avg_attn.add_(attn)\n\n        avg_probs = {}\n        for channel in log_probs:\n            avg_probs[channel] = torch.logsumexp(\n                torch.stack(log_probs[channel], dim=0), dim=0\n            ) - math.log(self.models_size)\n\n        if avg_attn is not None:\n            avg_attn.div_(self.models_size)\n        return avg_probs, avg_attn\n\n    @torch.jit.export\n    def reorder_encoder_out(\n        self, encoder_outs: Optional[List[Dict[str, List[Tensor]]]], new_order\n    ):\n        \"\"\"\n        Reorder encoder output according to *new_order*.\n\n        Args:\n            encoder_out: output from the ``forward()`` method\n            new_order (LongTensor): desired order\n\n        Returns:\n            *encoder_out* rearranged according to *new_order*\n        \"\"\"\n        new_outs: List[Dict[str, List[Tensor]]] = []\n        if not self.has_encoder():\n            return new_outs\n        for i, model in enumerate(self.models):\n            assert encoder_outs is not None\n            new_outs.append(\n                model.encoder.reorder_encoder_out(encoder_outs[i], new_order)\n            )\n        return new_outs\n\n    @torch.jit.export\n    def reorder_incremental_state(\n        self,\n        incremental_states: List[Dict[str, Dict[str, Optional[Tensor]]]],\n        new_order,\n    ):\n        if not self.has_incremental_states():\n            return\n        for i, model in enumerate(self.models):\n            model.decoder.reorder_incremental_state_scripting(\n                incremental_states[i], new_order\n            )\n"
  },
  {
    "path": "fairseq/models/speech_dlm/speech_dlm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom dataclasses import dataclass, field\nfrom typing import Optional\n\nfrom fairseq import utils\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.models import (\n    FairseqLanguageModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.transformer import Embedding\nfrom .modules.speech_dlm_decoder import CrossChannelTransformerDecoder\nfrom omegaconf import II\n\n\nDEFAULT_MAX_TARGET_POSITIONS = 1024\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass SpeechDLMConfig(FairseqDataclass):\n    activation_fn: ChoiceEnum(utils.get_available_activation_fns()) = field(\n        default=\"relu\", metadata={\"help\": \"activation function to use\"}\n    )\n    dropout: float = field(default=0.1, metadata={\"help\": \"dropout probability\"})\n    attention_dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout probability for attention weights\"}\n    )\n    activation_dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout probability after activation in FFN.\"}\n    )\n    relu_dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout probability after activation in FFN.\"}\n    )\n    decoder_embed_dim: int = field(\n        default=512, metadata={\"help\": \"decoder embedding dimension\"}\n    )\n    decoder_output_dim: int = field(\n        default=512, metadata={\"help\": \"decoder output dimension\"}\n    )\n    decoder_input_dim: int = field(\n        default=512, metadata={\"help\": \"decoder input dimension\"}\n    )\n    decoder_ffn_embed_dim: int = field(\n        default=2048, metadata={\"help\": \"decoder embedding dimension for FFN\"}\n    )\n    decoder_layers: int = field(default=6, metadata={\"help\": \"num decoder layers\"})\n    decoder_cross_layers: int = field(\n        default=-1, metadata={\"help\": \"num self cross attention decoder layers\"}\n    )\n    decoder_attention_heads: int = field(\n        default=8, metadata={\"help\": \"num decoder attention heads\"}\n    )\n    decoder_normalize_before: bool = field(\n        default=False, metadata={\"help\": \"apply layernorm before each decoder block\"}\n    )\n    no_decoder_final_norm: bool = field(\n        default=False,\n        metadata={\"help\": \"don't add an extra layernorm after the last decoder block\"},\n    )\n    no_token_positional_embeddings: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, disables positional embeddings (outside self attention)\"\n        },\n    )\n    share_decoder_input_output_embed: bool = field(\n        default=False, metadata={\"help\": \"share decoder input and output embeddings\"}\n    )\n    decoder_learned_pos: bool = field(\n        default=False,\n        metadata={\"help\": \"use learned positional embeddings in the decoder\"},\n    )\n    decoder_layerdrop: float = field(\n        default=0.0, metadata={\"help\": \"LayerDrop probability for decoder\"}\n    )\n    decoder_layers_to_keep: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"which layers to *keep* when pruning as a comma-separated list\"\n        },\n    )\n    layernorm_embedding: bool = field(\n        default=False, metadata={\"help\": \"add layernorm to embedding\"}\n    )\n    no_scale_embedding: bool = field(\n        default=False, metadata={\"help\": \"if True, dont scale embeddings\"}\n    )\n    checkpoint_activations: bool = field(\n        default=False, metadata={\"help\": \"checkpoint activations at each layer\"}\n    )\n    offload_activations: bool = field(\n        default=False,\n        metadata={\"help\": \"move checkpointed activations to CPU after they are used.\"},\n    )\n    quant_noise_pq: float = field(\n        default=0.0,\n        metadata={\"help\": \"iterative PQ quantization noise at training time\"},\n    )\n    quant_noise_pq_block_size: int = field(\n        default=8,\n        metadata={\"help\": \"block size of quantization noise at training time\"},\n    )\n    # TODO common var add to parent\n    quant_noise_scalar: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"scalar quantization noise and scalar quantization at training time\"\n        },\n    )\n    add_bos_token: bool = II(\"task.add_bos_token\")\n    tokens_per_sample: int = II(\"task.tokens_per_sample\")\n    max_target_positions: Optional[int] = II(\"task.max_target_positions\")\n    tpu: bool = II(\"common.tpu\")\n    duration_prediction: str = II(\"task.duration_prediction\")\n    delayed_duration_target: str = II(\"task.delayed_duration_target\")\n    main_and_cross_weights: str = II(\"criterion.main_and_cross_weights\")\n\n\n@register_model(\"speech_dlm\", dataclass=SpeechDLMConfig)\nclass SpeechDLM(FairseqLanguageModel):\n    \"\"\"Spoken Unit-based Dialogue Language Model model (SpeechDLM) as described\n    in the paper: https://arxiv.org/pdf/2203.16502.pdf\n    \"\"\"\n\n    def __init__(self, decoder):\n        super().__init__(decoder)\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        # make sure all arguments are present in older models\n        base_lm_architecture(args)\n\n        if args.decoder_layers_to_keep:\n            args.decoder_layers = len(args.decoder_layers_to_keep.split(\",\"))\n\n        if args.decoder_cross_layers < 0:\n            args.decoder_cross_layers = args.decoder_layers\n\n        if getattr(args, \"max_target_positions\", None) is None:\n            args.max_target_positions = getattr(\n                args, \"tokens_per_sample\", DEFAULT_MAX_TARGET_POSITIONS\n            )\n\n        # Assert all dictionary to be the same\n        assert all(\n            task.source_dictionaries[channel] == task.source_dictionary\n            for channel in task.channels\n        ), \"Source dictionaries of all channels are expected to be the same!!!\"\n        assert all(\n            task.target_dictionaries[channel] == task.target_dictionary\n            for channel in task.channels\n        ), \"Target dictionaries of all channels are expected to be the same!!!\"\n        # Build the unit embeddings\n        embed_tokens = cls.build_embedding(\n            args, task.source_dictionary, args.decoder_input_dim\n        )\n\n        decoder = CrossChannelTransformerDecoder(\n            args,\n            task.target_dictionary,\n            embed_tokens,\n            channels=task.channels,\n            no_encoder_attn=True,\n        )\n        return cls(decoder)\n\n    @classmethod\n    def build_embedding(cls, args, dictionary, embed_dim, path=None):\n        embed_tokens = Embedding(len(dictionary), embed_dim, dictionary.pad())\n        return embed_tokens\n\n    @classmethod\n    def from_pretrained(\n        cls,\n        model_name_or_path,\n        checkpoint_file=\"model.pt\",\n        data_name_or_path=\".\",\n        **kwargs,\n    ):\n        \"\"\"\n        Load a :class:`~fairseq.models.FairseqModel` from a pre-trained model\n        file. Downloads and caches the pre-trained model file if needed.\n\n        The base implementation returns a\n        :class:`~fairseq.hub_utils.GeneratorHubInterface`, which can be used to\n        generate translations or sample from language models. The underlying\n        :class:`~fairseq.models.FairseqModel` can be accessed via the\n        *generator.models* attribute.\n\n        This function return a class:`MultichannelGeneratorHubInterface` object,\n        which allows generation in multiple channels with a multichannel model.\n\n        Args:\n            model_name_or_path (str): either the name of a pre-trained model to\n                load or a path/URL to a pre-trained model state dict\n            checkpoint_file (str, optional): colon-separated list of checkpoint\n                files in the model archive to ensemble (default: 'model.pt')\n            data_name_or_path (str, optional): point args.data to the archive\n                at the given path/URL. Can start with '.' or './' to reuse the\n                model archive path.\n        \"\"\"\n        from fairseq import hub_utils\n        from .hub_interface import MultichannelGeneratorHubInterface\n\n        x = hub_utils.from_pretrained(\n            model_name_or_path,\n            checkpoint_file,\n            data_name_or_path,\n            archive_map=cls.hub_models(),\n            **kwargs,\n        )\n        logger.info(x[\"args\"])\n        return MultichannelGeneratorHubInterface(x[\"args\"], x[\"task\"], x[\"models\"])\n\n    @property\n    def supported_targets(self):\n        return {\"next\", \"edge\", \"duration\"}\n\n\ndef base_lm_architecture(args):\n    # backward compatibility for older model checkpoints\n    if hasattr(args, \"decoder_final_norm\"):\n        args.no_decoder_final_norm = not args.decoder_final_norm\n\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.0)\n\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 2048)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.decoder_cross_layers = getattr(args, \"decoder_cross_layers\", 6)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n    args.decoder_layerdrop = getattr(args, \"decoder_layerdrop\", 0)\n    args.decoder_layers_to_keep = getattr(args, \"decoder_layers_to_keep\", None)\n    args.quant_noise_pq = getattr(args, \"quant_noise_pq\", 0)\n    args.quant_noise_pq_block_size = getattr(args, \"quant_noise_pq_block_size\", 8)\n    args.quant_noise_scalar = getattr(args, \"quant_noise_scalar\", 0)\n\n    args.add_bos_token = getattr(args, \"add_bos_token\", False)\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n\n    # Model training is not stable without this\n    args.decoder_normalize_before = True\n    args.no_decoder_final_norm = getattr(args, \"no_decoder_final_norm\", False)\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", False)\n    args.layernorm_embedding = getattr(args, \"layernorm_embedding\", False)\n    args.checkpoint_activations = getattr(args, \"checkpoint_activations\", False)\n    args.offload_activations = getattr(args, \"offload_activations\", False)\n    if args.offload_activations:\n        args.checkpoint_activations = True\n\n\n@register_model_architecture(\"speech_dlm\", \"speech_dlm_big\")\ndef speech_dlm_big(args):\n    args.decoder_layers = getattr(args, \"decoder_layers\", 12)\n    args.decoder_cross_layers = getattr(args, \"decoder_cross_layers\", 12)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 1024)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 4096)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 16)\n    base_lm_architecture(args)\n"
  },
  {
    "path": "fairseq/models/speech_to_speech/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .s2s_conformer import *  # noqa\nfrom .s2s_conformer_translatotron2 import *  # noqa\nfrom .s2s_conformer_unity import *  # noqa\nfrom .s2s_transformer import *  # noqa\n"
  },
  {
    "path": "fairseq/models/speech_to_speech/modules/__init__.py",
    "content": ""
  },
  {
    "path": "fairseq/models/speech_to_speech/modules/ctc_decoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom torch import nn\n\nfrom fairseq.models import FairseqEncoder\n\n\nclass CTCDecoder(FairseqEncoder):\n    def __init__(self, dictionary, in_dim):\n        super().__init__(dictionary)\n        self.proj = nn.Linear(in_dim, len(dictionary))\n\n    def forward(self, src_tokens, src_lengths=None, **kwargs):\n        encoder_out = self.proj(src_tokens)\n        return {\"encoder_out\": encoder_out}\n"
  },
  {
    "path": "fairseq/models/speech_to_speech/modules/stacked_embedding.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nfrom torch import nn\n\nfrom fairseq.models.transformer import Linear\n\n\nclass StackedEmbedding(nn.Embedding):\n    \"\"\"Embedding module that supports stacked units -> single embedding\"\"\"\n\n    def __init__(self, num_embeddings, embed_dim, padding_idx, num_stacked=1):\n        super().__init__(num_embeddings, embed_dim, padding_idx)\n        # follow transformer.Embedding\n        nn.init.normal_(self.weight, mean=0, std=embed_dim**-0.5)\n        nn.init.constant_(self.weight[padding_idx], 0)\n\n        self.offset = (\n            4  # skip <bos>, <pad>, <eos>, <unk>, specific to fairseq dictionary\n        )\n        self.vocab_size = num_embeddings - self.offset\n        self.num_stacked = num_stacked\n\n        if self.num_stacked > 1:\n            self.project_in_dim = Linear(embed_dim * num_stacked, embed_dim, bias=False)\n\n    def forward(self, input):\n        if self.num_stacked == 1:\n            return super().forward(input)\n\n        # expand input indices\n        mask = input >= self.offset\n        stacked_input = []\n        cum_input = input.new_zeros(input.shape)\n        for i in range(1, self.num_stacked + 1):\n            div = pow(self.vocab_size, i)\n            next_input = torch.remainder(input - self.offset - cum_input, div)\n            cum_input += next_input\n            next_input = torch.floor_divide(next_input, div // self.vocab_size)\n            stacked_input.append((next_input + self.offset) * mask + input * ~mask)\n\n        stacked_input = torch.stack(stacked_input[::-1], dim=2)\n        embed = super().forward(stacked_input).view(input.size(0), input.size(1), -1)\n        embed = self.project_in_dim(embed)\n        return embed\n"
  },
  {
    "path": "fairseq/models/speech_to_speech/modules/transformer_decoder_aug.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Any, Dict, List, Optional\n\nfrom torch import Tensor\n\nfrom fairseq.models.transformer import Linear\nfrom fairseq.models.transformer.transformer_decoder_aug import AugTransformerDecoder\n\n\nclass AugTransformerUnitDecoder(AugTransformerDecoder):\n    \"\"\"Based on Transformer decoder, with support to decoding stacked units\"\"\"\n\n    def __init__(\n        self,\n        args,\n        dictionary,\n        embed_tokens,\n        no_encoder_attn=False,\n        output_projection=None,\n    ):\n        super().__init__(\n            args, dictionary, embed_tokens, no_encoder_attn, output_projection\n        )\n        self.n_frames_per_step = args.n_frames_per_step\n\n        self.out_proj_n_frames = (\n            Linear(\n                self.output_embed_dim,\n                self.output_embed_dim * self.n_frames_per_step,\n                bias=False,\n            )\n            if self.n_frames_per_step > 1\n            else None\n        )\n\n    def forward(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]] = None,\n        encoder_out_aug: Optional[Dict[str, List[Tensor]]] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        features_only: bool = False,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n        src_lengths: Optional[Any] = None,\n        return_all_hiddens: bool = False,\n    ):\n        \"\"\"\n        Args:\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for teacher forcing\n            encoder_out (optional): output from the encoder, used for\n                encoder-side attention, should be of size T x B x C\n            incremental_state (dict): dictionary used for storing state during\n                :ref:`Incremental decoding`\n            features_only (bool, optional): only return features without\n                applying output layer (default: False).\n            full_context_alignment (bool, optional): don't apply\n                auto-regressive mask to self-attention (default: False).\n\n        Returns:\n            tuple:\n                - the decoder's output of shape `(batch, tgt_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n\n        x, extra = self.extract_features(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            encoder_out_aug=encoder_out_aug,\n            incremental_state=incremental_state,\n            full_context_alignment=full_context_alignment,\n            alignment_layer=alignment_layer,\n            alignment_heads=alignment_heads,\n        )\n\n        if not features_only:\n            bsz, seq_len, d = x.size()\n            if self.out_proj_n_frames:\n                x = self.out_proj_n_frames(x)\n            x = self.output_layer(x.view(bsz, seq_len, self.n_frames_per_step, d))\n            x = x.view(bsz, seq_len * self.n_frames_per_step, -1)\n            if (\n                incremental_state is None and self.n_frames_per_step > 1\n            ):  # teacher-forcing mode in training\n                x = x[\n                    :, : -(self.n_frames_per_step - 1), :\n                ]  # remove extra frames after <eos>\n\n        return x, extra\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        if self.n_frames_per_step > 1:\n            move_keys = [\n                (\n                    f\"{name}.project_in_dim.weight\",\n                    f\"{name}.embed_tokens.project_in_dim.weight\",\n                )\n            ]\n            for from_k, to_k in move_keys:\n                if from_k in state_dict and to_k not in state_dict:\n                    state_dict[to_k] = state_dict[from_k]\n                    del state_dict[from_k]\n"
  },
  {
    "path": "fairseq/models/speech_to_speech/modules/transformer_encoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch.nn as nn\n\nfrom fairseq.models import FairseqEncoder\nfrom fairseq.modules import LayerNorm, TransformerEncoderLayer\n\n\nclass TransformerEncoderNoEmb(FairseqEncoder):\n    \"\"\"Transformer encoder without token embeddings.\"\"\"\n\n    def __init__(self, args):\n        super().__init__(None)\n\n        self.layers = nn.ModuleList(\n            [TransformerEncoderLayer(args) for _ in range(args.encoder_layers)]\n        )\n        if args.encoder_normalize_before:\n            self.layer_norm = LayerNorm(args.encoder_embed_dim)\n        else:\n            self.layer_norm = None\n\n    def forward(self, x, encoder_padding_mask, return_all_hiddens=False):\n\n        encoder_states = []\n\n        for layer in self.layers:\n            x = layer(x, encoder_padding_mask)\n            if return_all_hiddens:\n                encoder_states.append(x)\n\n        if self.layer_norm is not None:\n            x = self.layer_norm(x)\n\n        return {\n            \"encoder_out\": [x],  # T x B x C\n            \"encoder_padding_mask\": [encoder_padding_mask]\n            if encoder_padding_mask is not None and encoder_padding_mask.any()\n            else [],  # B x T\n            \"encoder_embedding\": [],  # B x T x C\n            \"encoder_states\": encoder_states,  # List[T x B x C]\n            \"src_tokens\": [],\n            \"src_lengths\": [],\n        }\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        new_encoder_out = (\n            []\n            if len(encoder_out[\"encoder_out\"]) == 0\n            else [x.index_select(1, new_order) for x in encoder_out[\"encoder_out\"]]\n        )\n\n        new_encoder_padding_mask = (\n            []\n            if len(encoder_out[\"encoder_padding_mask\"]) == 0\n            else [\n                x.index_select(0, new_order)\n                for x in encoder_out[\"encoder_padding_mask\"]\n            ]\n        )\n\n        new_encoder_embedding = (\n            []\n            if len(encoder_out[\"encoder_embedding\"]) == 0\n            else [\n                x.index_select(0, new_order) for x in encoder_out[\"encoder_embedding\"]\n            ]\n        )\n\n        encoder_states = encoder_out[\"encoder_states\"]\n        if len(encoder_states) > 0:\n            for idx, state in enumerate(encoder_states):\n                encoder_states[idx] = state.index_select(1, new_order)\n\n        return {\n            \"encoder_out\": new_encoder_out,  # T x B x C\n            \"encoder_padding_mask\": new_encoder_padding_mask,  # B x T\n            \"encoder_embedding\": new_encoder_embedding,  # B x T x C\n            \"encoder_states\": encoder_states,  # List[T x B x C]\n            \"src_tokens\": [],  # B x T\n            \"src_lengths\": [],  # B x 1\n        }\n"
  },
  {
    "path": "fairseq/models/speech_to_speech/s2s_conformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom pathlib import Path\n\nimport torch\n\nfrom fairseq import checkpoint_utils\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.speech_to_speech.s2s_transformer import (\n    S2SpecTTransformerModel,\n    S2UTTransformerModel,\n    s2spect_architecture_base,\n    s2ut_architecture_base,\n)\nfrom fairseq.models.speech_to_text import S2TConformerEncoder\nfrom fairseq.models.transformer import Linear\n\nlogger = logging.getLogger(__name__)\n\n\ndef build_s2s_conformer_encoder(args):\n    encoder = S2SConformerEncoder(args)\n    pretraining_path = getattr(args, \"load_pretrained_encoder_from\", None)\n    if pretraining_path is not None:\n        if not Path(pretraining_path).exists():\n            logger.warning(\n                f\"skipped pretraining because {pretraining_path} does not exist\"\n            )\n        else:\n            encoder = checkpoint_utils.load_pretrained_component_from_model(\n                component=encoder, checkpoint=pretraining_path\n            )\n            logger.info(f\"loaded pretrained encoder from: {pretraining_path}\")\n    return encoder\n\n\nclass S2SConformerEncoder(S2TConformerEncoder):\n    \"\"\"Based on S2T transformer encoder, with support\n    to incorporate target speaker embedding.\"\"\"\n\n    def __init__(self, args):\n        super().__init__(args)\n\n        self.spk_emb_proj = None\n        if args.target_speaker_embed:\n            self.spk_emb_proj = Linear(\n                args.encoder_embed_dim + args.speaker_embed_dim, args.encoder_embed_dim\n            )\n\n    def forward(\n        self, src_tokens, src_lengths, tgt_speaker=None, return_all_hiddens=False\n    ):\n        out = super().forward(src_tokens, src_lengths, return_all_hiddens)\n\n        if self.spk_emb_proj:\n            x = out[\"encoder_out\"][0]\n            seq_len, bsz, _ = x.size()\n            tgt_speaker_emb = tgt_speaker.view(1, bsz, -1).expand(seq_len, bsz, -1)\n            x = self.spk_emb_proj(torch.cat([x, tgt_speaker_emb], dim=2))\n            out[\"encoder_out\"][0] = x\n\n        return out\n\n\n@register_model(\"s2ut_conformer\")\nclass S2UTConformerModel(S2UTTransformerModel):\n    \"\"\"\n    Direct speech-to-speech translation model with Conformer encoder + Transformer discrete unit decoder\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        S2UTTransformerModel.add_args(parser)\n        parser.add_argument(\n            \"--depthwise-conv-kernel-size\",\n            type=int,\n            metavar=\"N\",\n            help=\"kernel size of depthwise convolution layers\",\n        )\n        parser.add_argument(\n            \"--attn-type\",\n            type=str,\n            metavar=\"STR\",\n            help=\"If not specified uses fairseq MHA. Other valid option is espnet for using conformer\",\n        )\n        parser.add_argument(\n            \"--pos-enc-type\",\n            type=str,\n            metavar=\"STR\",\n            help=\"Must be specified in addition to attn-type=espnet for rel_pos and rope\",\n        )\n\n    @classmethod\n    def build_encoder(cls, args):\n        return build_s2s_conformer_encoder(args)\n\n\n@register_model(\"s2spect_conformer\")\nclass S2SpecTConformerModel(S2SpecTTransformerModel):\n    \"\"\"\n    Direct speech-to-speech translation model with Conformer encoder + TTS Transformer decoder\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        S2SpecTTransformerModel.add_args(parser)\n        parser.add_argument(\"--depthwise-conv-kernel-size\", type=int, default=31)\n        parser.add_argument(\n            \"--attn-type\",\n            type=str,\n            default=None,\n            help=\"If not specified uses fairseq MHA. Other valid option is espnet for using conformer\",\n        )\n        parser.add_argument(\n            \"--pos-enc-type\",\n            type=str,\n            default=\"abs\",\n            help=\"Must be specified in addition to attn-type=espnet for rel_pos and rope\",\n        )\n\n    @classmethod\n    def build_encoder(cls, args):\n        return build_s2s_conformer_encoder(args)\n\n\n@register_model_architecture(\"s2ut_conformer\", \"s2ut_conformer\")\ndef s2ut_conformer_architecture_base(args):\n    args.attn_type = getattr(args, \"attn_type\", None)\n    args.pos_enc_type = getattr(args, \"pos_enc_type\", \"abs\")\n    args.input_feat_per_channel = getattr(args, \"input_feat_per_channel\", 80)\n    args.input_channels = getattr(args, \"input_channels\", 1)\n    args.max_source_positions = getattr(args, \"max_source_positions\", 6000)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 16)\n    args.depthwise_conv_kernel_size = getattr(args, \"depthwise_conv_kernel_size\", 31)\n    s2ut_architecture_base(args)\n\n\n@register_model_architecture(\"s2spect_conformer\", \"s2spect_conformer\")\ndef s2spect_conformer_architecture_base(args):\n    args.attn_type = getattr(args, \"attn_type\", None)\n    args.pos_enc_type = getattr(args, \"pos_enc_type\", \"abs\")\n    args.input_feat_per_channel = getattr(args, \"input_feat_per_channel\", 80)\n    args.input_channels = getattr(args, \"input_channels\", 1)\n    args.max_source_positions = getattr(args, \"max_source_positions\", 6000)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 16)\n    args.depthwise_conv_kernel_size = getattr(args, \"depthwise_conv_kernel_size\", 31)\n    s2spect_architecture_base(args)\n\n\n@register_model_architecture(\"s2spect_conformer\", \"s2spect_conformer_fisher\")\ndef s2spect_architecture_fisher(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 256 * 8)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n\n    # decoder\n    args.prenet_dim = getattr(args, \"prenet_dim\", 32)\n\n    s2spect_conformer_architecture_base(args)\n"
  },
  {
    "path": "fairseq/models/speech_to_speech/s2s_conformer_translatotron2.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport copy\nimport logging\n\nfrom fairseq.models import (\n    FairseqEncoderModel,\n    FairseqLanguageModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.speech_to_speech.modules.ctc_decoder import CTCDecoder\nfrom fairseq.models.speech_to_speech.modules.transformer_encoder import (\n    TransformerEncoderNoEmb,\n)\nfrom fairseq.models.speech_to_speech.s2s_conformer import S2SpecTConformerModel\nfrom fairseq.models.speech_to_speech.s2s_conformer_unity import (\n    multitask_text_transformer_decoder_arch,\n)\nfrom fairseq.models.speech_to_speech.s2s_transformer import (\n    base_multitask_text_transformer_decoder_arch,\n    s2spect_architecture_base,\n)\nfrom fairseq.models.text_to_speech import TTSTransformerDecoder\nfrom fairseq.models.transformer import TransformerDecoder, TransformerModelBase\n\nlogger = logging.getLogger(__name__)\n\n\n@register_model(\"s2spect2_conformer\")\nclass S2SpecT2ConformerModel(S2SpecTConformerModel):\n    \"\"\"\n    Direct speech-to-speech translation model with Conformer encoder + MT Transformer decoder + TTS Transformer decoder\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        S2SpecTConformerModel.add_args(parser)\n        parser.add_argument(\n            \"--translation-decoder-layers\",\n            type=int,\n            default=4,\n            metavar=\"N\",\n            help=\"num decoder layers in the first-pass translation module\",\n        )\n        parser.add_argument(\n            \"--synthesizer\",\n            default=\"transformer\",\n            choices=[\"transformer\"],\n            help=\"\",\n        )\n        parser.add_argument(\n            \"--synthesizer-encoder-layers\",\n            type=int,\n            default=0,\n            metavar=\"N\",\n            help=\"num encoder layers in the second-pass synthesizer module\",\n        )\n\n    @classmethod\n    def build_multitask_decoder(\n        cls,\n        args,\n        tgt_dict,\n        in_dim,\n        is_mt_decoder,\n        decoder_layers,\n        decoder_embed_dim,\n        decoder_attention_heads,\n    ):\n        decoder_args = args.decoder_args\n        decoder_args.encoder_embed_dim = in_dim\n        if args.decoder_type == \"transformer\":\n            if is_mt_decoder:\n                multitask_text_transformer_decoder_arch(\n                    decoder_args,\n                    decoder_layers,\n                    decoder_embed_dim,\n                    decoder_attention_heads,\n                )  # 4L\n            else:\n                base_multitask_text_transformer_decoder_arch(decoder_args)  # 2L\n            task_decoder = TransformerDecoder(\n                decoder_args,\n                tgt_dict,\n                embed_tokens=TransformerModelBase.build_embedding(\n                    decoder_args,\n                    tgt_dict,\n                    decoder_args.decoder_embed_dim,\n                ),\n            )\n        elif args.decoder_type == \"ctc\":\n            task_decoder = CTCDecoder(\n                dictionary=tgt_dict,\n                in_dim=in_dim,\n            )\n        else:\n            raise NotImplementedError(\n                \"currently only support multitask decoder_type 'transformer', 'ctc'\"\n            )\n\n        return task_decoder\n\n    @classmethod\n    def build_decoder(cls, args):\n        _args = copy.deepcopy(args)\n        _args.encoder_embed_dim = args.decoder_embed_dim\n\n        if args.synthesizer == \"transformer\":\n            return TTSTransformerDecoder(_args, None, padding_idx=1)\n        else:\n            raise NotImplementedError(args.synthesizer)\n\n    @classmethod\n    def build_model(cls, args, task):\n        encoder = cls.build_encoder(args)\n        decoder = cls.build_decoder(args)\n        base_model = cls(encoder, decoder)\n\n        # set up multitask decoders\n        base_model.mt_task_name = None\n        base_model.multitask_decoders = {}\n        has_first_pass_decoder = False\n        for task_name, task_obj in task.multitask_tasks.items():\n            if task_obj.is_first_pass_decoder:\n                has_first_pass_decoder = True\n                base_model.mt_task_name = task_name\n\n            in_dim = (\n                args.encoder_embed_dim\n                if task_obj.args.input_from == \"encoder\"\n                else args.decoder_embed_dim\n            )\n            task_decoder = cls.build_multitask_decoder(\n                task_obj.args,\n                task_obj.target_dictionary,\n                in_dim,\n                task_obj.is_first_pass_decoder,\n                getattr(args, \"translation_decoder_layers\", 4),\n                getattr(args, \"decoder_embed_dim\", 256),\n                getattr(args, \"decoder_attention_heads\", 4),\n            )\n\n            setattr(base_model, f\"{task_name}_decoder\", task_decoder)\n            decoder_model_cls = (\n                FairseqEncoderModel\n                if task_obj.args.decoder_type == \"ctc\"\n                else FairseqLanguageModel\n            )\n            base_model.multitask_decoders[task_name] = decoder_model_cls(\n                getattr(base_model, f\"{task_name}_decoder\")\n            )\n\n        assert has_first_pass_decoder, \"set at least one intermediate non-CTC decoder\"\n\n        # set up encoder on top of the auxiliary MT decoder\n        if getattr(args, \"synthesizer_encoder_layers\", 0) > 0:\n            base_model.synthesizer_encoder = cls.build_text_encoder(args)\n        else:\n            base_model.synthesizer_encoder = None\n\n        return base_model\n\n    @classmethod\n    def build_text_encoder(cls, args):\n        _args = copy.deepcopy(args)\n        _args.encoder_layers = args.synthesizer_encoder_layers\n        _args.encoder_embed_dim = args.decoder_embed_dim\n        _args.encoder_ffn_embed_dim = args.decoder_ffn_embed_dim\n        _args.encoder_attention_heads = args.decoder_attention_heads\n        _args.encoder_normalize_before = True\n        return TransformerEncoderNoEmb(_args)\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths,\n        prev_output_tokens,\n        prev_output_tokens_mt,\n        tgt_speaker=None,\n        incremental_state=None,\n        target_lengths=None,\n        speaker=None,\n        return_all_hiddens=False,\n    ):\n        encoder_out = self.encoder(\n            src_tokens,\n            src_lengths=src_lengths,\n            tgt_speaker=tgt_speaker,\n            return_all_hiddens=return_all_hiddens,\n        )\n\n        # 1. MT decoder\n        mt_decoder = getattr(self, f\"{self.mt_task_name}_decoder\")\n        mt_decoder_out = mt_decoder(\n            prev_output_tokens_mt,\n            encoder_out=encoder_out,\n        )\n        x = mt_decoder_out[1][\"inner_states\"][-1]\n        if mt_decoder.layer_norm is not None:\n            x = mt_decoder.layer_norm(x)\n\n        mt_decoder_padding_mask = None\n        if prev_output_tokens_mt.eq(mt_decoder.padding_idx).any():\n            mt_decoder_padding_mask = prev_output_tokens_mt.eq(mt_decoder.padding_idx)\n\n        # 2. TTS encoder\n        if self.synthesizer_encoder is not None:\n            tts_encoder_out = self.synthesizer_encoder(\n                x,\n                mt_decoder_padding_mask,\n                return_all_hiddens=return_all_hiddens,\n            )\n        else:\n            tts_encoder_out = {\n                \"encoder_out\": [x],  # T x B x C\n                \"encoder_padding_mask\": [mt_decoder_padding_mask],  # B x T\n            }\n\n        # 3. TTS decoder\n        decoder_out = self.decoder(\n            prev_output_tokens,\n            encoder_out=tts_encoder_out,\n            incremental_state=incremental_state,\n            target_lengths=target_lengths,\n            speaker=speaker,\n        )\n        if return_all_hiddens:\n            decoder_out[-1][\"encoder_states\"] = encoder_out[\"encoder_states\"]\n            decoder_out[-1][\"encoder_padding_mask\"] = encoder_out[\n                \"encoder_padding_mask\"\n            ]\n        decoder_out[-1][\"mt_decoder_out\"] = mt_decoder_out\n        return decoder_out\n\n\n@register_model_architecture(\n    model_name=\"s2spect2_conformer\", arch_name=\"s2spect2_conformer\"\n)\ndef s2spect2_conformer_architecture_base(args):\n    args.conv_version = getattr(args, \"conv_version\", \"convtransformer\")\n    args.attn_type = getattr(args, \"attn_type\", None)\n    args.pos_enc_type = getattr(args, \"pos_enc_type\", \"abs\")\n    args.max_source_positions = getattr(args, \"max_source_positions\", 6000)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 16)\n    args.depthwise_conv_kernel_size = getattr(args, \"depthwise_conv_kernel_size\", 31)\n    s2spect_architecture_base(args)\n\n\n# for old naming\n@register_model_architecture(\n    model_name=\"s2spect2_conformer\", arch_name=\"s2spect_conformer_translatotron2\"\n)\ndef s2spect2_conformer_architecture_base_legacy(args):\n    s2spect2_conformer_architecture_base(args)\n"
  },
  {
    "path": "fairseq/models/speech_to_speech/s2s_conformer_unity.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport copy\nimport logging\n\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderModel,\n    FairseqLanguageModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.speech_to_speech.modules.ctc_decoder import CTCDecoder\nfrom fairseq.models.speech_to_speech.modules.stacked_embedding import StackedEmbedding\nfrom fairseq.models.speech_to_speech.modules.transformer_decoder_aug import (\n    AugTransformerUnitDecoder,\n)\nfrom fairseq.models.speech_to_speech.modules.transformer_encoder import (\n    TransformerEncoderNoEmb,\n)\nfrom fairseq.models.speech_to_speech.s2s_conformer import S2UTConformerModel\nfrom fairseq.models.speech_to_speech.s2s_transformer import (\n    TransformerUnitDecoder,\n    base_multitask_text_transformer_decoder_arch,\n    s2ut_architecture_base,\n)\nfrom fairseq.models.transformer import TransformerDecoder, TransformerModelBase\n\nlogger = logging.getLogger(__name__)\n\n\ndef multitask_text_transformer_decoder_arch(\n    args, decoder_layers, decoder_embed_dim=256, decoder_attention_heads=4\n):\n    args.decoder_layers = decoder_layers\n    args.decoder_embed_dim = decoder_embed_dim\n    args.decoder_attention_heads = decoder_attention_heads\n    base_multitask_text_transformer_decoder_arch(args)\n\n\n@register_model(\"unity_conformer\")\nclass UnityConformerModel(S2UTConformerModel):\n    \"\"\"\n    Direct speech-to-speech translation model with Conformer encoder + MT Transformer decoder + Transformer discrete unit decoder\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        S2UTConformerModel.add_args(parser)\n        parser.add_argument(\n            \"--translation-decoder-layers\",\n            type=int,\n            default=4,\n            metavar=\"N\",\n            help=\"num decoder layers in the first-pass translation module\",\n        )\n        parser.add_argument(\n            \"--synthesizer\",\n            default=\"transformer\",\n            choices=[\"transformer\"],\n            help=\"\",\n        )\n        parser.add_argument(\n            \"--synthesizer-encoder-layers\",\n            type=int,\n            default=0,\n            metavar=\"N\",\n            help=\"num encoder layers in the second-pass synthesizer module\",\n        )\n        parser.add_argument(\n            \"--synthesizer-augmented-cross-attention\",\n            action=\"store_true\",\n            default=False,\n            help=\"augmented cross-attention over speech encoder output\",\n        )\n\n    @classmethod\n    def build_multitask_decoder(\n        cls,\n        args,\n        tgt_dict,\n        in_dim,\n        is_first_pass_decoder,\n        decoder_layers,\n        decoder_embed_dim,\n        decoder_attention_heads,\n    ):\n        decoder_args = args.decoder_args\n        decoder_args.encoder_embed_dim = in_dim\n        if args.decoder_type == \"transformer\":\n            if is_first_pass_decoder:\n                multitask_text_transformer_decoder_arch(\n                    decoder_args,\n                    decoder_layers,\n                    decoder_embed_dim,\n                    decoder_attention_heads,\n                )  # 4L\n            else:\n                base_multitask_text_transformer_decoder_arch(decoder_args)  # 2L\n            task_decoder = TransformerDecoder(\n                decoder_args,\n                tgt_dict,\n                embed_tokens=TransformerModelBase.build_embedding(\n                    decoder_args,\n                    tgt_dict,\n                    decoder_args.decoder_embed_dim,\n                ),\n            )\n        elif args.decoder_type == \"ctc\":\n            task_decoder = CTCDecoder(\n                dictionary=tgt_dict,\n                in_dim=in_dim,\n            )\n        else:\n            raise NotImplementedError(\n                \"currently only support multitask decoder_type 'transformer', 'ctc'\"\n            )\n\n        return task_decoder\n\n    @classmethod\n    def build_decoder(cls, args, tgt_dict, aug_attn=False):\n        num_embeddings = len(tgt_dict)\n        padding_idx = tgt_dict.pad()\n        embed_tokens = StackedEmbedding(\n            num_embeddings,\n            args.decoder_embed_dim,\n            padding_idx,\n            num_stacked=args.n_frames_per_step,\n        )\n\n        _args = copy.deepcopy(args)\n        _args.encoder_embed_dim = args.decoder_embed_dim\n\n        decoder_cls = AugTransformerUnitDecoder if aug_attn else TransformerUnitDecoder\n        return decoder_cls(\n            _args,\n            tgt_dict,\n            embed_tokens,\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        encoder = cls.build_encoder(args)\n        decoder = cls.build_decoder(\n            args,\n            task.target_dictionary,\n            aug_attn=getattr(args, \"synthesizer_augmented_cross_attention\", False),\n        )\n        base_model = cls(encoder, decoder)\n\n        base_model.t2u_augmented_cross_attn = getattr(\n            args, \"synthesizer_augmented_cross_attention\", False\n        )\n\n        # set up multitask decoders\n        base_model.mt_task_name = None\n        base_model.multitask_decoders = {}\n        has_first_pass_decoder = False\n        for task_name, task_obj in task.multitask_tasks.items():\n            if task_obj.is_first_pass_decoder:\n                has_first_pass_decoder = True\n                base_model.mt_task_name = task_name\n\n            in_dim = (\n                args.encoder_embed_dim\n                if task_obj.args.input_from == \"encoder\"\n                else args.decoder_embed_dim\n            )\n            task_decoder = cls.build_multitask_decoder(\n                task_obj.args,\n                task_obj.target_dictionary,\n                in_dim,\n                task_obj.is_first_pass_decoder,\n                getattr(args, \"translation_decoder_layers\", 4),\n                getattr(args, \"decoder_embed_dim\", 256),\n                getattr(args, \"decoder_attention_heads\", 4),\n            )\n\n            setattr(base_model, f\"{task_name}_decoder\", task_decoder)\n            decoder_model_cls = (\n                FairseqEncoderModel\n                if task_obj.args.decoder_type == \"ctc\"\n                else FairseqLanguageModel\n            )\n            base_model.multitask_decoders[task_name] = decoder_model_cls(\n                getattr(base_model, f\"{task_name}_decoder\")\n            )\n\n        assert has_first_pass_decoder, \"set at least one intermediate non-CTC decoder\"\n\n        # set up encoder on top of the auxiliary MT decoder\n        if getattr(args, \"synthesizer_encoder_layers\", 0) > 0:\n            base_model.synthesizer_encoder = cls.build_text_encoder(args)\n        else:\n            base_model.synthesizer_encoder = None\n\n        return base_model\n\n    @classmethod\n    def build_text_encoder(cls, args):\n        _args = copy.deepcopy(args)\n        _args.encoder_layers = args.synthesizer_encoder_layers\n        _args.encoder_embed_dim = args.decoder_embed_dim\n        _args.encoder_ffn_embed_dim = args.decoder_ffn_embed_dim\n        _args.encoder_attention_heads = args.decoder_attention_heads\n        _args.encoder_normalize_before = True\n        return TransformerEncoderNoEmb(_args)\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths,\n        prev_output_tokens,\n        prev_output_tokens_mt,\n        tgt_speaker=None,\n        return_all_hiddens=False,\n    ):\n        mt_decoder = getattr(self, f\"{self.mt_task_name}_decoder\")\n\n        encoder_out = self.encoder(\n            src_tokens,\n            src_lengths=src_lengths,\n            tgt_speaker=tgt_speaker,\n            return_all_hiddens=return_all_hiddens,\n        )\n\n        # 1. MT decoder\n        mt_decoder_out = mt_decoder(\n            prev_output_tokens_mt,\n            encoder_out=encoder_out,\n        )\n        x = mt_decoder_out[1][\"inner_states\"][-1]\n        if mt_decoder.layer_norm is not None:\n            x = mt_decoder.layer_norm(x)\n\n        mt_decoder_padding_mask = None\n        if prev_output_tokens_mt.eq(mt_decoder.padding_idx).any():\n            mt_decoder_padding_mask = prev_output_tokens_mt.eq(mt_decoder.padding_idx)\n\n        # 2. T2U encoder\n        if self.synthesizer_encoder is not None:\n            t2u_encoder_out = self.synthesizer_encoder(\n                x,\n                mt_decoder_padding_mask,\n                return_all_hiddens=return_all_hiddens,\n            )\n        else:\n            t2u_encoder_out = {\n                \"encoder_out\": [x],  # T x B x C\n                \"encoder_padding_mask\": [mt_decoder_padding_mask],  # B x T\n            }\n\n        # 3. T2U decoder\n        if self.t2u_augmented_cross_attn:\n            decoder_out = self.decoder(\n                prev_output_tokens,\n                encoder_out=encoder_out,\n                encoder_out_aug=t2u_encoder_out,\n            )\n        else:\n            decoder_out = self.decoder(\n                prev_output_tokens,\n                encoder_out=t2u_encoder_out,\n            )\n        if return_all_hiddens:\n            decoder_out[-1][\"encoder_states\"] = encoder_out[\"encoder_states\"]\n            decoder_out[-1][\"encoder_padding_mask\"] = encoder_out[\n                \"encoder_padding_mask\"\n            ]\n        decoder_out[-1][\"mt_decoder_out\"] = mt_decoder_out\n        return decoder_out\n\n\n@register_model_architecture(model_name=\"unity_conformer\", arch_name=\"unity_conformer\")\ndef unity_conformer_architecture_base(args):\n    args.conv_version = getattr(args, \"conv_version\", \"convtransformer\")\n    args.attn_type = getattr(args, \"attn_type\", None)\n    args.pos_enc_type = getattr(args, \"pos_enc_type\", \"abs\")\n    args.max_source_positions = getattr(args, \"max_source_positions\", 6000)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 16)\n    args.depthwise_conv_kernel_size = getattr(args, \"depthwise_conv_kernel_size\", 31)\n    s2ut_architecture_base(args)\n\n\n# for old naming\n@register_model_architecture(\n    model_name=\"unity_conformer\", arch_name=\"s2ut_conformer_translatotron2\"\n)\ndef unity_conformer_architecture_base_legacy(args):\n    unity_conformer_architecture_base(args)\n"
  },
  {
    "path": "fairseq/models/speech_to_speech/s2s_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom pathlib import Path\nfrom typing import Any, Dict, List, Optional\n\nimport torch\nfrom torch import Tensor\n\nfrom fairseq import checkpoint_utils, utils\nfrom fairseq.models import (\n    FairseqEncoderDecoderModel,\n    FairseqEncoderModel,\n    FairseqLanguageModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.speech_to_speech.modules.ctc_decoder import CTCDecoder\nfrom fairseq.models.speech_to_speech.modules.stacked_embedding import StackedEmbedding\nfrom fairseq.models.speech_to_text import S2TTransformerEncoder\nfrom fairseq.models.text_to_speech import TTSTransformerDecoder\nfrom fairseq.models.transformer import Linear, TransformerDecoder, TransformerModelBase\n\nlogger = logging.getLogger(__name__)\n\n\nclass S2STransformerEncoder(S2TTransformerEncoder):\n    \"\"\"Based on S2T transformer encoder, with support\n    to incorporate target speaker embedding.\"\"\"\n\n    def __init__(self, args):\n        super().__init__(args)\n\n        self.spk_emb_proj = None\n        if args.target_speaker_embed:\n            self.spk_emb_proj = Linear(\n                args.encoder_embed_dim + args.speaker_embed_dim, args.encoder_embed_dim\n            )\n\n    def forward(\n        self, src_tokens, src_lengths, tgt_speaker=None, return_all_hiddens=False\n    ):\n        out = super().forward(src_tokens, src_lengths, return_all_hiddens)\n\n        if self.spk_emb_proj:\n            x = out[\"encoder_out\"][0]\n            seq_len, bsz, _ = x.size()\n            tgt_speaker_emb = tgt_speaker.view(1, bsz, -1).expand(seq_len, bsz, -1)\n            x = self.spk_emb_proj(torch.cat([x, tgt_speaker_emb], dim=2))\n            out[\"encoder_out\"][0] = x\n\n        return out\n\n\nclass TransformerUnitDecoder(TransformerDecoder):\n    \"\"\"Based on Transformer decoder, with support to decoding stacked units\"\"\"\n\n    def __init__(\n        self,\n        args,\n        dictionary,\n        embed_tokens,\n        no_encoder_attn=False,\n        output_projection=None,\n    ):\n        super().__init__(\n            args, dictionary, embed_tokens, no_encoder_attn, output_projection\n        )\n        self.n_frames_per_step = args.n_frames_per_step\n\n        self.out_proj_n_frames = (\n            Linear(\n                self.output_embed_dim,\n                self.output_embed_dim * self.n_frames_per_step,\n                bias=False,\n            )\n            if self.n_frames_per_step > 1\n            else None\n        )\n\n    def forward(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        features_only: bool = False,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n        src_lengths: Optional[Any] = None,\n        return_all_hiddens: bool = False,\n    ):\n        \"\"\"\n        Args:\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for teacher forcing\n            encoder_out (optional): output from the encoder, used for\n                encoder-side attention, should be of size T x B x C\n            incremental_state (dict): dictionary used for storing state during\n                :ref:`Incremental decoding`\n            features_only (bool, optional): only return features without\n                applying output layer (default: False).\n            full_context_alignment (bool, optional): don't apply\n                auto-regressive mask to self-attention (default: False).\n\n        Returns:\n            tuple:\n                - the decoder's output of shape `(batch, tgt_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n\n        x, extra = self.extract_features(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            incremental_state=incremental_state,\n            full_context_alignment=full_context_alignment,\n            alignment_layer=alignment_layer,\n            alignment_heads=alignment_heads,\n        )\n\n        if not features_only:\n            bsz, seq_len, d = x.size()\n            if self.out_proj_n_frames:\n                x = self.out_proj_n_frames(x)\n            x = self.output_layer(x.view(bsz, seq_len, self.n_frames_per_step, d))\n            x = x.view(bsz, seq_len * self.n_frames_per_step, -1)\n            if (\n                incremental_state is None and self.n_frames_per_step > 1\n            ):  # teacher-forcing mode in training\n                x = x[\n                    :, : -(self.n_frames_per_step - 1), :\n                ]  # remove extra frames after <eos>\n\n        return x, extra\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        if self.n_frames_per_step > 1:\n            move_keys = [\n                (\n                    f\"{name}.project_in_dim.weight\",\n                    f\"{name}.embed_tokens.project_in_dim.weight\",\n                )\n            ]\n            for from_k, to_k in move_keys:\n                if from_k in state_dict and to_k not in state_dict:\n                    state_dict[to_k] = state_dict[from_k]\n                    del state_dict[from_k]\n\n\nclass S2STransformerMultitaskModelBase(FairseqEncoderDecoderModel):\n    @classmethod\n    def build_encoder(cls, args):\n        encoder = S2STransformerEncoder(args)\n        pretraining_path = getattr(args, \"load_pretrained_encoder_from\", None)\n        if pretraining_path is not None:\n            if not Path(pretraining_path).exists():\n                logger.warning(\n                    f\"skipped pretraining because {pretraining_path} does not exist\"\n                )\n            else:\n                encoder = checkpoint_utils.load_pretrained_component_from_model(\n                    component=encoder, checkpoint=pretraining_path\n                )\n                logger.info(f\"loaded pretrained encoder from: {pretraining_path}\")\n        return encoder\n\n    @classmethod\n    def build_multitask_decoder(cls, args, tgt_dict, in_dim):\n        decoder_args = args.decoder_args\n        decoder_args.encoder_embed_dim = in_dim\n        if args.decoder_type == \"transformer\":\n            base_multitask_text_transformer_decoder_arch(decoder_args)\n            task_decoder = TransformerDecoder(\n                decoder_args,\n                tgt_dict,\n                embed_tokens=TransformerModelBase.build_embedding(\n                    decoder_args,\n                    tgt_dict,\n                    decoder_args.decoder_embed_dim,\n                ),\n            )\n        elif args.decoder_type == \"ctc\":\n            task_decoder = CTCDecoder(\n                dictionary=tgt_dict,\n                in_dim=in_dim,\n            )\n        else:\n            raise NotImplementedError(\n                \"currently only support multitask decoder_type 'transformer', 'ctc'\"\n            )\n\n        return task_decoder\n\n    @classmethod\n    def build_model(cls, args, task):\n        encoder = cls.build_encoder(args)\n        decoder = (\n            cls.build_decoder(args, task.target_dictionary)\n            if task.args.target_is_code\n            else cls.build_decoder(args)\n        )\n        base_model = cls(encoder, decoder)\n\n        # set up multitask decoders\n        base_model.multitask_decoders = {}\n        for task_name, task_obj in task.multitask_tasks.items():\n            in_dim = (\n                args.encoder_embed_dim\n                if task_obj.args.input_from == \"encoder\"\n                else args.decoder_embed_dim\n            )\n            task_decoder = cls.build_multitask_decoder(\n                task_obj.args, task_obj.target_dictionary, in_dim\n            )\n\n            setattr(base_model, f\"{task_name}_decoder\", task_decoder)\n            decoder_model_cls = (\n                FairseqEncoderModel\n                if task_obj.args.decoder_type == \"ctc\"\n                else FairseqLanguageModel\n            )\n            base_model.multitask_decoders[task_name] = decoder_model_cls(\n                getattr(base_model, f\"{task_name}_decoder\")\n            )\n\n        return base_model\n\n    def forward_encoder(self, src_tokens, src_lengths, speaker=None, **kwargs):\n        return self.encoder(\n            src_tokens, src_lengths=src_lengths, tgt_speaker=speaker, **kwargs\n        )\n\n\n@register_model(\"s2ut_transformer\")\nclass S2UTTransformerModel(S2STransformerMultitaskModelBase):\n    \"\"\"\n    Direct speech-to-speech translation model with Transformer encoder + Transformer discrete unit decoder\n    https://arxiv.org/abs/2107.05604\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        # input\n        parser.add_argument(\n            \"--conv-kernel-sizes\",\n            type=str,\n            metavar=\"STR\",\n            help=\"kernel sizes of Conv1d (s2t_transformer) subsampling layers\",\n        )\n        parser.add_argument(\n            \"--conv-channels\",\n            type=int,\n            metavar=\"N\",\n            help=\"# of channels in Conv1d (s2t_transformer) subsampling layers\",\n        )\n        parser.add_argument(\n            \"--conv-out-channels\",\n            type=int,\n            metavar=\"N\",\n            help=\"# of channels in Conv2d (convtransformer) subsampling layers\",\n        )\n        parser.add_argument(\n            \"--conv-version\",\n            type=str,\n            default=\"s2t_transformer\",\n            choices=[\"s2t_transformer\", \"convtransformer\"],\n            help=\"version of frontend convolutional layers\",\n        )\n        # Transformer\n        parser.add_argument(\n            \"--activation-fn\",\n            type=str,\n            default=\"relu\",\n            choices=utils.get_available_activation_fns(),\n            help=\"activation function to use\",\n        )\n        parser.add_argument(\n            \"--dropout\", type=float, metavar=\"D\", help=\"dropout probability\"\n        )\n        parser.add_argument(\n            \"--attention-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for attention weights\",\n        )\n        parser.add_argument(\n            \"--activation-dropout\",\n            \"--relu-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability after activation in FFN.\",\n        )\n        parser.add_argument(\n            \"--encoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--encoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--encoder-layers\", type=int, metavar=\"N\", help=\"num encoder layers\"\n        )\n        parser.add_argument(\n            \"--encoder-attention-heads\",\n            type=int,\n            metavar=\"N\",\n            help=\"num encoder attention heads\",\n        )\n        parser.add_argument(\n            \"--encoder-normalize-before\",\n            action=\"store_true\",\n            help=\"apply layernorm before each encoder block\",\n        )\n        parser.add_argument(\n            \"--decoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--decoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--decoder-layers\", type=int, metavar=\"N\", help=\"num decoder layers\"\n        )\n        parser.add_argument(\n            \"--decoder-attention-heads\",\n            type=int,\n            metavar=\"N\",\n            help=\"num decoder attention heads\",\n        )\n        parser.add_argument(\n            \"--decoder-normalize-before\",\n            action=\"store_true\",\n            help=\"apply layernorm before each decoder block\",\n        )\n        parser.add_argument(\n            \"--share-decoder-input-output-embed\",\n            action=\"store_true\",\n            help=\"share decoder input and output embeddings\",\n        )\n        parser.add_argument(\n            \"--layernorm-embedding\",\n            action=\"store_true\",\n            help=\"add layernorm to embedding\",\n        )\n        parser.add_argument(\n            \"--no-scale-embedding\",\n            action=\"store_true\",\n            help=\"if True, dont scale embeddings\",\n        )\n        parser.add_argument(\n            \"--load-pretrained-encoder-from\",\n            type=str,\n            metavar=\"STR\",\n            help=\"model to take encoder weights from (for initialization)\",\n        )\n        parser.add_argument(\n            \"--encoder-freezing-updates\",\n            type=int,\n            metavar=\"N\",\n            help=\"freeze encoder for first N updates\",\n        )\n        # speaker\n        parser.add_argument(\n            \"--speaker-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"speaker embedding dimension\",\n        )\n\n    @classmethod\n    def build_decoder(cls, args, tgt_dict):\n        num_embeddings = len(tgt_dict)\n        padding_idx = tgt_dict.pad()\n        embed_tokens = StackedEmbedding(\n            num_embeddings,\n            args.decoder_embed_dim,\n            padding_idx,\n            num_stacked=args.n_frames_per_step,\n        )\n\n        return TransformerUnitDecoder(\n            args,\n            tgt_dict,\n            embed_tokens,\n        )\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths,\n        prev_output_tokens,\n        tgt_speaker=None,\n        return_all_hiddens=False,\n    ):\n        encoder_out = self.encoder(\n            src_tokens,\n            src_lengths=src_lengths,\n            tgt_speaker=tgt_speaker,\n            return_all_hiddens=return_all_hiddens,\n        )\n        decoder_out = self.decoder(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n        )\n        if return_all_hiddens:\n            decoder_out[-1][\"encoder_states\"] = encoder_out[\"encoder_states\"]\n            decoder_out[-1][\"encoder_padding_mask\"] = encoder_out[\n                \"encoder_padding_mask\"\n            ]\n        return decoder_out\n\n\n@register_model(\"s2spect_transformer\")\nclass S2SpecTTransformerModel(S2STransformerMultitaskModelBase):\n    \"\"\"\n    Speech-to-spectrogram model with S2T Transformer encoder + TTS Transformer decoder\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        # input\n        parser.add_argument(\n            \"--conv-kernel-sizes\",\n            type=str,\n            metavar=\"STR\",\n            help=\"kernel sizes of Conv1d (s2t_transformer) subsampling layers\",\n        )\n        parser.add_argument(\n            \"--conv-channels\",\n            type=int,\n            metavar=\"N\",\n            help=\"# of channels in Conv1d (s2t_transformer) subsampling layers\",\n        )\n        parser.add_argument(\n            \"--conv-version\",\n            type=str,\n            default=\"s2t_transformer\",\n            choices=[\"s2t_transformer\", \"convtransformer\"],\n            help=\"version of frontend convolutional layers\",\n        )\n        # Transformer\n        parser.add_argument(\n            \"--activation-fn\",\n            type=str,\n            default=\"relu\",\n            choices=utils.get_available_activation_fns(),\n            help=\"activation function to use\",\n        )\n        parser.add_argument(\n            \"--dropout\", type=float, metavar=\"D\", help=\"dropout probability\"\n        )\n        parser.add_argument(\n            \"--attention-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for attention weights\",\n        )\n        parser.add_argument(\n            \"--activation-dropout\",\n            \"--relu-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability after activation in FFN.\",\n        )\n        parser.add_argument(\n            \"--encoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--encoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--encoder-layers\", type=int, metavar=\"N\", help=\"num encoder layers\"\n        )\n        parser.add_argument(\n            \"--encoder-attention-heads\",\n            type=int,\n            metavar=\"N\",\n            help=\"num encoder attention heads\",\n        )\n        parser.add_argument(\n            \"--encoder-normalize-before\",\n            action=\"store_true\",\n            help=\"apply layernorm before each encoder block\",\n        )\n        parser.add_argument(\n            \"--no-scale-embedding\",\n            action=\"store_true\",\n            help=\"if True, dont scale embeddings\",\n        )\n        parser.add_argument(\n            \"--load-pretrained-encoder-from\",\n            type=str,\n            metavar=\"STR\",\n            help=\"model to take encoder weights from (for initialization)\",\n        )\n        parser.add_argument(\n            \"--encoder-freezing-updates\",\n            type=int,\n            metavar=\"N\",\n            help=\"freeze encoder for first N updates\",\n        )\n        # speaker\n        parser.add_argument(\n            \"--speaker-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"speaker embedding dimension\",\n        )\n        # decoder\n        parser.add_argument(\"--output-frame-dim\", type=int)\n        # decoder prenet\n        parser.add_argument(\"--prenet-dropout\", type=float)\n        parser.add_argument(\"--prenet-layers\", type=int)\n        parser.add_argument(\"--prenet-dim\", type=int)\n        # decoder postnet\n        parser.add_argument(\"--postnet-dropout\", type=float)\n        parser.add_argument(\"--postnet-layers\", type=int)\n        parser.add_argument(\"--postnet-conv-dim\", type=int)\n        parser.add_argument(\"--postnet-conv-kernel-size\", type=int)\n        # decoder transformer layers\n        parser.add_argument(\"--decoder-transformer-layers\", type=int)\n        parser.add_argument(\"--decoder-embed-dim\", type=int)\n        parser.add_argument(\"--decoder-ffn-embed-dim\", type=int)\n        parser.add_argument(\"--decoder-normalize-before\", action=\"store_true\")\n        parser.add_argument(\"--decoder-attention-heads\", type=int)\n\n    @classmethod\n    def build_decoder(cls, args):\n        return TTSTransformerDecoder(args, None, padding_idx=1)\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths,\n        prev_output_tokens,\n        tgt_speaker=None,\n        incremental_state=None,\n        target_lengths=None,\n        speaker=None,\n        return_all_hiddens=False,\n    ):\n        encoder_out = self.encoder(\n            src_tokens,\n            src_lengths=src_lengths,\n            tgt_speaker=tgt_speaker,\n            return_all_hiddens=return_all_hiddens,\n        )\n        decoder_out = self.decoder(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            incremental_state=incremental_state,\n            target_lengths=target_lengths,\n            speaker=speaker,\n        )\n        if return_all_hiddens:\n            decoder_out[-1][\"encoder_states\"] = encoder_out[\"encoder_states\"]\n            decoder_out[-1][\"encoder_padding_mask\"] = encoder_out[\n                \"encoder_padding_mask\"\n            ]\n        return decoder_out\n\n\ndef base_multitask_text_transformer_decoder_arch(args):\n    args.dropout = getattr(args, \"dropout\", 0.3)\n    args.decoder_layerdrop = getattr(args, \"decoder_layerdrop\", 0.0)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", True\n    )\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 256)\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n\n    args.max_target_positions = getattr(args, \"max_target_positions\", 1024)\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", False)\n\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.quant_noise_pq = getattr(args, \"quant_noise_pq\", 0)\n\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n\n    args.decoder_layers = getattr(args, \"decoder_layers\", 2)\n\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n\n    # decoder layer\n    args.activation_dropout = getattr(args, \"activation_dropout\", args.dropout)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", True)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 2048)\n\n    args.attention_dropout = getattr(args, \"attention_dropout\", args.dropout)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 4)\n\n\ndef base_s2st_transformer_encoder_architecture(args):\n    args.encoder_freezing_updates = getattr(args, \"encoder_freezing_updates\", 0)\n\n    # Convolutional subsampler\n    args.input_channels = getattr(args, \"input_channels\", 1)\n    args.conv_kernel_sizes = getattr(args, \"conv_kernel_sizes\", \"5,5\")  # for Conv1d\n    args.conv_channels = getattr(args, \"conv_channels\", 1024)  # for Conv1d\n    args.conv_out_channels = getattr(args, \"conv_out_channels\", 256)  # for Conv2d\n    args.conv_version = getattr(args, \"conv_version\", \"s2t_transformer\")\n    # Transformer\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 12)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", True)\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", False)\n\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = getattr(args, \"attention_dropout\", args.dropout)\n    args.activation_dropout = getattr(args, \"activation_dropout\", args.dropout)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n\n    args.speaker_embed_dim = getattr(args, \"speaker_embed_dim\", 256)\n\n\n@register_model_architecture(\n    model_name=\"s2ut_transformer\", arch_name=\"s2ut_transformer\"\n)\ndef s2ut_architecture_base(args):\n    base_s2st_transformer_encoder_architecture(args)\n\n    # decoder\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", args.encoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", args.encoder_ffn_embed_dim\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", True)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.decoder_layerdrop = getattr(args, \"decoder_layerdrop\", 0.0)\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n    args.quant_noise_pq = getattr(args, \"quant_noise_pq\", 0)\n\n\n@register_model_architecture(\"s2ut_transformer\", \"s2ut_transformer_fisher\")\ndef s2ut_architecture_fisher(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n\n    s2ut_architecture_base(args)\n\n\n@register_model_architecture(\n    model_name=\"s2spect_transformer\", arch_name=\"s2spect_transformer\"\n)\ndef s2spect_architecture_base(args):\n    base_s2st_transformer_encoder_architecture(args)\n\n    # decoder\n    args.output_frame_dim = getattr(args, \"output_frame_dim\", 80)\n    # decoder prenet\n    args.prenet_dropout = getattr(args, \"prenet_dropout\", 0.5)\n    args.prenet_layers = getattr(args, \"prenet_layers\", 2)\n    args.prenet_dim = getattr(args, \"prenet_dim\", 256)\n    # decoder postnet\n    args.postnet_dropout = getattr(args, \"postnet_dropout\", 0.5)\n    args.postnet_layers = getattr(args, \"postnet_layers\", 5)\n    args.postnet_conv_dim = getattr(args, \"postnet_conv_dim\", 512)\n    args.postnet_conv_kernel_size = getattr(args, \"postnet_conv_kernel_size\", 5)\n    # decoder transformer layers\n    args.decoder_transformer_layers = getattr(args, \"decoder_transformer_layers\", 6)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", 4 * args.decoder_embed_dim\n    )\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", False)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 4)\n\n\n@register_model_architecture(\"s2spect_transformer\", \"s2spect_transformer_fisher\")\ndef s2spect_architecture_fisher(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 256 * 8)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n\n    # decoder\n    args.prenet_dim = getattr(args, \"prenet_dim\", 32)\n\n    s2spect_architecture_base(args)\n"
  },
  {
    "path": "fairseq/models/speech_to_text/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .berard import *  # noqa\nfrom .convtransformer import *  # noqa\nfrom .multi_modality_model import *  # noqa\nfrom .s2t_conformer import *  # noqa\nfrom .s2t_transformer import *  # noqa\nfrom .s2t_wav_transformer import *  # noqa\nfrom .xm_transformer import *  # noqa\nfrom .xm_transformer_unity import *  # noqa\n"
  },
  {
    "path": "fairseq/models/speech_to_text/berard.py",
    "content": "#!/usr/bin/env python3\n\nfrom ast import literal_eval\nfrom typing import List, Tuple\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nfrom fairseq import checkpoint_utils, utils\nfrom fairseq.data.data_utils import lengths_to_padding_mask\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderDecoderModel,\n    FairseqIncrementalDecoder,\n    register_model,\n    register_model_architecture,\n)\n\n\n@register_model(\"s2t_berard\")\nclass BerardModel(FairseqEncoderDecoderModel):\n    \"\"\"Implementation of a model similar to https://arxiv.org/abs/1802.04200\n\n    Paper title: End-to-End Automatic Speech Translation of Audiobooks\n    An implementation is available in tensorflow at\n    https://github.com/eske/seq2seq\n    Relevant files in this implementation are the config\n    (https://github.com/eske/seq2seq/blob/master/config/LibriSpeech/AST.yaml)\n    and the model code\n    (https://github.com/eske/seq2seq/blob/master/translate/models.py).\n    The encoder and decoder try to be close to the original implementation.\n    The attention is an MLP as in Bahdanau et al.\n    (https://arxiv.org/abs/1409.0473).\n    There is no state initialization by averaging the encoder outputs.\n    \"\"\"\n\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @staticmethod\n    def add_args(parser):\n        parser.add_argument(\n            \"--input-layers\",\n            type=str,\n            metavar=\"EXPR\",\n            help=\"List of linear layer dimensions. These \"\n            \"layers are applied to the input features and \"\n            \"are followed by tanh and possibly dropout.\",\n        )\n        parser.add_argument(\n            \"--dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"Dropout probability to use in the encoder/decoder. \"\n            \"Note that this parameters control dropout in various places, \"\n            \"there is no fine-grained control for dropout for embeddings \"\n            \"vs LSTM layers for example.\",\n        )\n        parser.add_argument(\n            \"--in-channels\",\n            type=int,\n            metavar=\"N\",\n            help=\"Number of encoder input channels. \" \"Typically value is 1.\",\n        )\n        parser.add_argument(\n            \"--conv-layers\",\n            type=str,\n            metavar=\"EXPR\",\n            help=\"List of conv layers \" \"(format: (channels, kernel, stride)).\",\n        )\n        parser.add_argument(\n            \"--num-blstm-layers\",\n            type=int,\n            metavar=\"N\",\n            help=\"Number of encoder bi-LSTM layers.\",\n        )\n        parser.add_argument(\n            \"--lstm-size\", type=int, metavar=\"N\", help=\"LSTM hidden size.\"\n        )\n        parser.add_argument(\n            \"--decoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"Embedding dimension of the decoder target tokens.\",\n        )\n        parser.add_argument(\n            \"--decoder-hidden-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"Decoder LSTM hidden dimension.\",\n        )\n        parser.add_argument(\n            \"--decoder-num-layers\",\n            type=int,\n            metavar=\"N\",\n            help=\"Number of decoder LSTM layers.\",\n        )\n        parser.add_argument(\n            \"--attention-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"Hidden layer dimension in MLP attention.\",\n        )\n        parser.add_argument(\n            \"--output-layer-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"Hidden layer dim for linear layer prior to output projection.\",\n        )\n        parser.add_argument(\n            \"--load-pretrained-encoder-from\",\n            type=str,\n            metavar=\"STR\",\n            help=\"model to take encoder weights from (for initialization)\",\n        )\n        parser.add_argument(\n            \"--load-pretrained-decoder-from\",\n            type=str,\n            metavar=\"STR\",\n            help=\"model to take decoder weights from (for initialization)\",\n        )\n\n    @classmethod\n    def build_encoder(cls, args, task):\n        encoder = BerardEncoder(\n            input_layers=literal_eval(args.input_layers),\n            conv_layers=literal_eval(args.conv_layers),\n            in_channels=args.input_channels,\n            input_feat_per_channel=args.input_feat_per_channel,\n            num_blstm_layers=args.num_blstm_layers,\n            lstm_size=args.lstm_size,\n            dropout=args.dropout,\n        )\n        if getattr(args, \"load_pretrained_encoder_from\", None) is not None:\n            encoder = checkpoint_utils.load_pretrained_component_from_model(\n                component=encoder, checkpoint=args.load_pretrained_encoder_from\n            )\n        return encoder\n\n    @classmethod\n    def build_decoder(cls, args, task):\n        decoder = LSTMDecoder(\n            dictionary=task.target_dictionary,\n            embed_dim=args.decoder_embed_dim,\n            num_layers=args.decoder_num_layers,\n            hidden_size=args.decoder_hidden_dim,\n            dropout=args.dropout,\n            encoder_output_dim=2 * args.lstm_size,  # bidirectional\n            attention_dim=args.attention_dim,\n            output_layer_dim=args.output_layer_dim,\n        )\n        if getattr(args, \"load_pretrained_decoder_from\", None) is not None:\n            decoder = checkpoint_utils.load_pretrained_component_from_model(\n                component=decoder, checkpoint=args.load_pretrained_decoder_from\n            )\n        return decoder\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n        encoder = cls.build_encoder(args, task)\n        decoder = cls.build_decoder(args, task)\n\n        return cls(encoder, decoder)\n\n    def get_normalized_probs(self, net_output, log_probs, sample=None):\n        # net_output['encoder_out'] is a (B, T, D) tensor\n        lprobs = super().get_normalized_probs(net_output, log_probs, sample)\n        # lprobs is a (B, T, D) tensor\n        lprobs.batch_first = True\n        return lprobs\n\n\nclass BerardEncoder(FairseqEncoder):\n    def __init__(\n        self,\n        input_layers: List[int],\n        conv_layers: List[Tuple[int]],\n        in_channels: int,\n        input_feat_per_channel: int,\n        num_blstm_layers: int,\n        lstm_size: int,\n        dropout: float,\n    ):\n        \"\"\"\n        Args:\n            input_layers: list of linear layer dimensions. These layers are\n                applied to the input features and are followed by tanh and\n                possibly dropout.\n            conv_layers: list of conv2d layer configurations. A configuration is\n                a tuple (out_channels, conv_kernel_size, stride).\n            in_channels: number of input channels.\n            input_feat_per_channel: number of input features per channel. These\n                are speech features, typically 40 or 80.\n            num_blstm_layers: number of bidirectional LSTM layers.\n            lstm_size: size of the LSTM hidden (and cell) size.\n            dropout: dropout probability. Dropout can be applied after the\n                linear layers and LSTM layers but not to the convolutional\n                layers.\n        \"\"\"\n        super().__init__(None)\n\n        self.input_layers = nn.ModuleList()\n        in_features = input_feat_per_channel\n        for out_features in input_layers:\n            if dropout > 0:\n                self.input_layers.append(\n                    nn.Sequential(\n                        nn.Linear(in_features, out_features), nn.Dropout(p=dropout)\n                    )\n                )\n            else:\n                self.input_layers.append(nn.Linear(in_features, out_features))\n            in_features = out_features\n\n        self.in_channels = in_channels\n        self.input_dim = input_feat_per_channel\n        self.conv_kernel_sizes_and_strides = []\n        self.conv_layers = nn.ModuleList()\n        lstm_input_dim = input_layers[-1]\n        for conv_layer in conv_layers:\n            out_channels, conv_kernel_size, conv_stride = conv_layer\n            self.conv_layers.append(\n                nn.Conv2d(\n                    in_channels,\n                    out_channels,\n                    conv_kernel_size,\n                    stride=conv_stride,\n                    padding=conv_kernel_size // 2,\n                )\n            )\n            self.conv_kernel_sizes_and_strides.append((conv_kernel_size, conv_stride))\n            in_channels = out_channels\n            lstm_input_dim //= conv_stride\n\n        lstm_input_dim *= conv_layers[-1][0]\n        self.lstm_size = lstm_size\n        self.num_blstm_layers = num_blstm_layers\n        self.lstm = nn.LSTM(\n            input_size=lstm_input_dim,\n            hidden_size=lstm_size,\n            num_layers=num_blstm_layers,\n            dropout=dropout,\n            bidirectional=True,\n        )\n        self.output_dim = 2 * lstm_size  # bidirectional\n        if dropout > 0:\n            self.dropout = nn.Dropout(p=dropout)\n        else:\n            self.dropout = None\n\n    def forward(self, src_tokens, src_lengths=None, **kwargs):\n        \"\"\"\n        Args\n            src_tokens: padded tensor (B, T, C * feat)\n            src_lengths: tensor of original lengths of input utterances (B,)\n        \"\"\"\n        bsz, max_seq_len, _ = src_tokens.size()\n        # (B, C, T, feat)\n        x = (\n            src_tokens.view(bsz, max_seq_len, self.in_channels, self.input_dim)\n            .transpose(1, 2)\n            .contiguous()\n        )\n\n        for input_layer in self.input_layers:\n            x = input_layer(x)\n            x = torch.tanh(x)\n\n        for conv_layer in self.conv_layers:\n            x = conv_layer(x)\n\n        bsz, _, output_seq_len, _ = x.size()\n\n        # (B, C, T, feat) -> (B, T, C, feat) -> (T, B, C, feat) ->\n        # (T, B, C * feat)\n        x = x.transpose(1, 2).transpose(0, 1).contiguous().view(output_seq_len, bsz, -1)\n\n        input_lengths = src_lengths.clone()\n        for k, s in self.conv_kernel_sizes_and_strides:\n            p = k // 2\n            input_lengths = (input_lengths.float() + 2 * p - k) / s + 1\n            input_lengths = input_lengths.floor().long()\n\n        packed_x = nn.utils.rnn.pack_padded_sequence(x, input_lengths)\n\n        h0 = x.new(2 * self.num_blstm_layers, bsz, self.lstm_size).zero_()\n        c0 = x.new(2 * self.num_blstm_layers, bsz, self.lstm_size).zero_()\n        packed_outs, _ = self.lstm(packed_x, (h0, c0))\n\n        # unpack outputs and apply dropout\n        x, output_lengths = nn.utils.rnn.pad_packed_sequence(packed_outs)\n        if self.dropout is not None:\n            x = self.dropout(x)\n\n        encoder_padding_mask = (\n            lengths_to_padding_mask(output_lengths).to(src_tokens.device).t()\n        )\n\n        return {\n            \"encoder_out\": x,  # (T, B, C)\n            \"encoder_padding_mask\": encoder_padding_mask,  # (T, B)\n        }\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        encoder_out[\"encoder_out\"] = encoder_out[\"encoder_out\"].index_select(\n            1, new_order\n        )\n        encoder_out[\"encoder_padding_mask\"] = encoder_out[\n            \"encoder_padding_mask\"\n        ].index_select(1, new_order)\n        return encoder_out\n\n\nclass MLPAttention(nn.Module):\n    \"\"\"The original attention from Badhanau et al. (2014)\n\n    https://arxiv.org/abs/1409.0473, based on a Multi-Layer Perceptron.\n    The attention score between position i in the encoder and position j in the\n    decoder is: alpha_ij = V_a * tanh(W_ae * enc_i + W_ad * dec_j + b_a)\n    \"\"\"\n\n    def __init__(self, decoder_hidden_state_dim, context_dim, attention_dim):\n        super().__init__()\n\n        self.context_dim = context_dim\n        self.attention_dim = attention_dim\n        # W_ae and b_a\n        self.encoder_proj = nn.Linear(context_dim, self.attention_dim, bias=True)\n        # W_ad\n        self.decoder_proj = nn.Linear(\n            decoder_hidden_state_dim, self.attention_dim, bias=False\n        )\n        # V_a\n        self.to_scores = nn.Linear(self.attention_dim, 1, bias=False)\n\n    def forward(self, decoder_state, source_hids, encoder_padding_mask):\n        \"\"\"The expected input dimensions are:\n        decoder_state: bsz x decoder_hidden_state_dim\n        source_hids: src_len x bsz x context_dim\n        encoder_padding_mask: src_len x bsz\n        \"\"\"\n        src_len, bsz, _ = source_hids.size()\n        # (src_len*bsz) x context_dim (to feed through linear)\n        flat_source_hids = source_hids.view(-1, self.context_dim)\n        # (src_len*bsz) x attention_dim\n        encoder_component = self.encoder_proj(flat_source_hids)\n        # src_len x bsz x attention_dim\n        encoder_component = encoder_component.view(src_len, bsz, self.attention_dim)\n        # 1 x bsz x attention_dim\n        decoder_component = self.decoder_proj(decoder_state).unsqueeze(0)\n        # Sum with broadcasting and apply the non linearity\n        # src_len x bsz x attention_dim\n        hidden_att = torch.tanh(\n            (decoder_component + encoder_component).view(-1, self.attention_dim)\n        )\n        # Project onto the reals to get attentions scores (src_len x bsz)\n        attn_scores = self.to_scores(hidden_att).view(src_len, bsz)\n\n        # Mask + softmax (src_len x bsz)\n        if encoder_padding_mask is not None:\n            attn_scores = (\n                attn_scores.float()\n                .masked_fill_(encoder_padding_mask, float(\"-inf\"))\n                .type_as(attn_scores)\n            )  # FP16 support: cast to float and back\n        # srclen x bsz\n        normalized_masked_attn_scores = F.softmax(attn_scores, dim=0)\n\n        # Sum weighted sources (bsz x context_dim)\n        attn_weighted_context = (\n            source_hids * normalized_masked_attn_scores.unsqueeze(2)\n        ).sum(dim=0)\n\n        return attn_weighted_context, normalized_masked_attn_scores\n\n\nclass LSTMDecoder(FairseqIncrementalDecoder):\n    def __init__(\n        self,\n        dictionary,\n        embed_dim,\n        num_layers,\n        hidden_size,\n        dropout,\n        encoder_output_dim,\n        attention_dim,\n        output_layer_dim,\n    ):\n        \"\"\"\n        Args:\n            dictionary: target text dictionary.\n            embed_dim: embedding dimension for target tokens.\n            num_layers: number of LSTM layers.\n            hidden_size: hidden size for LSTM layers.\n            dropout: dropout probability. Dropout can be applied to the\n                embeddings, the LSTM layers, and the context vector.\n            encoder_output_dim: encoder output dimension (hidden size of\n                encoder LSTM).\n            attention_dim: attention dimension for MLP attention.\n            output_layer_dim: size of the linear layer prior to output\n                projection.\n        \"\"\"\n        super().__init__(dictionary)\n        self.num_layers = num_layers\n        self.hidden_size = hidden_size\n        num_embeddings = len(dictionary)\n        padding_idx = dictionary.pad()\n        self.embed_tokens = nn.Embedding(num_embeddings, embed_dim, padding_idx)\n        if dropout > 0:\n            self.dropout = nn.Dropout(p=dropout)\n        else:\n            self.dropout = None\n\n        self.layers = nn.ModuleList()\n        for layer_id in range(num_layers):\n            input_size = embed_dim if layer_id == 0 else encoder_output_dim\n            self.layers.append(\n                nn.LSTMCell(input_size=input_size, hidden_size=hidden_size)\n            )\n\n        self.context_dim = encoder_output_dim\n        self.attention = MLPAttention(\n            decoder_hidden_state_dim=hidden_size,\n            context_dim=encoder_output_dim,\n            attention_dim=attention_dim,\n        )\n\n        self.deep_output_layer = nn.Linear(\n            hidden_size + encoder_output_dim + embed_dim, output_layer_dim\n        )\n        self.output_projection = nn.Linear(output_layer_dim, num_embeddings)\n\n    def forward(\n        self, prev_output_tokens, encoder_out=None, incremental_state=None, **kwargs\n    ):\n        encoder_padding_mask = encoder_out[\"encoder_padding_mask\"]\n        encoder_outs = encoder_out[\"encoder_out\"]\n\n        if incremental_state is not None:\n            prev_output_tokens = prev_output_tokens[:, -1:]\n        bsz, seqlen = prev_output_tokens.size()\n\n        srclen = encoder_outs.size(0)\n\n        # embed tokens\n        embeddings = self.embed_tokens(prev_output_tokens)\n        x = embeddings\n        if self.dropout is not None:\n            x = self.dropout(x)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        # initialize previous states (or get from cache during incremental\n        # generation)\n        cached_state = utils.get_incremental_state(\n            self, incremental_state, \"cached_state\"\n        )\n        if cached_state is not None:\n            prev_hiddens, prev_cells = cached_state\n        else:\n            prev_hiddens = [encoder_out[\"encoder_out\"].mean(dim=0)] * self.num_layers\n            prev_cells = [x.new_zeros(bsz, self.hidden_size)] * self.num_layers\n\n        attn_scores = x.new_zeros(bsz, srclen)\n        attention_outs = []\n        outs = []\n        for j in range(seqlen):\n            input = x[j, :, :]\n            attention_out = None\n            for i, layer in enumerate(self.layers):\n                # the previous state is one layer below except for the bottom\n                # layer where the previous state is the state emitted by the\n                # top layer\n                hidden, cell = layer(\n                    input,\n                    (\n                        prev_hiddens[(i - 1) % self.num_layers],\n                        prev_cells[(i - 1) % self.num_layers],\n                    ),\n                )\n                if self.dropout is not None:\n                    hidden = self.dropout(hidden)\n                prev_hiddens[i] = hidden\n                prev_cells[i] = cell\n                if attention_out is None:\n                    attention_out, attn_scores = self.attention(\n                        hidden, encoder_outs, encoder_padding_mask\n                    )\n                    if self.dropout is not None:\n                        attention_out = self.dropout(attention_out)\n                    attention_outs.append(attention_out)\n                input = attention_out\n\n            # collect the output of the top layer\n            outs.append(hidden)\n\n        # cache previous states (no-op except during incremental generation)\n        utils.set_incremental_state(\n            self, incremental_state, \"cached_state\", (prev_hiddens, prev_cells)\n        )\n\n        # collect outputs across time steps\n        x = torch.cat(outs, dim=0).view(seqlen, bsz, self.hidden_size)\n        attention_outs_concat = torch.cat(attention_outs, dim=0).view(\n            seqlen, bsz, self.context_dim\n        )\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n        attention_outs_concat = attention_outs_concat.transpose(0, 1)\n\n        # concat LSTM output, attention output and embedding\n        # before output projection\n        x = torch.cat((x, attention_outs_concat, embeddings), dim=2)\n        x = self.deep_output_layer(x)\n        x = torch.tanh(x)\n        if self.dropout is not None:\n            x = self.dropout(x)\n        # project back to size of vocabulary\n        x = self.output_projection(x)\n\n        # to return the full attn_scores tensor, we need to fix the decoder\n        # to account for subsampling input frames\n        # return x, attn_scores\n        return x, None\n\n    def reorder_incremental_state(self, incremental_state, new_order):\n        super().reorder_incremental_state(incremental_state, new_order)\n        cached_state = utils.get_incremental_state(\n            self, incremental_state, \"cached_state\"\n        )\n        if cached_state is None:\n            return\n\n        def reorder_state(state):\n            if isinstance(state, list):\n                return [reorder_state(state_i) for state_i in state]\n            return state.index_select(0, new_order)\n\n        new_state = tuple(map(reorder_state, cached_state))\n        utils.set_incremental_state(self, incremental_state, \"cached_state\", new_state)\n\n\n@register_model_architecture(model_name=\"s2t_berard\", arch_name=\"s2t_berard\")\ndef berard(args):\n    \"\"\"The original version: \"End-to-End Automatic Speech Translation of\n    Audiobooks\" (https://arxiv.org/abs/1802.04200)\n    \"\"\"\n    args.input_layers = getattr(args, \"input_layers\", \"[256, 128]\")\n    args.conv_layers = getattr(args, \"conv_layers\", \"[(16, 3, 2), (16, 3, 2)]\")\n    args.num_blstm_layers = getattr(args, \"num_blstm_layers\", 3)\n    args.lstm_size = getattr(args, \"lstm_size\", 256)\n    args.dropout = getattr(args, \"dropout\", 0.2)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 128)\n    args.decoder_num_layers = getattr(args, \"decoder_num_layers\", 2)\n    args.decoder_hidden_dim = getattr(args, \"decoder_hidden_dim\", 512)\n    args.attention_dim = getattr(args, \"attention_dim\", 512)\n    args.output_layer_dim = getattr(args, \"output_layer_dim\", 128)\n    args.load_pretrained_encoder_from = getattr(\n        args, \"load_pretrained_encoder_from\", None\n    )\n    args.load_pretrained_decoder_from = getattr(\n        args, \"load_pretrained_decoder_from\", None\n    )\n\n\n@register_model_architecture(model_name=\"s2t_berard\", arch_name=\"s2t_berard_256_3_3\")\ndef berard_256_3_3(args):\n    \"\"\"Used in\n    * \"Harnessing Indirect Training Data for End-to-End Automatic Speech\n    Translation: Tricks of the Trade\" (https://arxiv.org/abs/1909.06515)\n    * \"CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus\"\n    (https://arxiv.org/pdf/2002.01320.pdf)\n    * \"Self-Supervised Representations Improve End-to-End Speech Translation\"\n    (https://arxiv.org/abs/2006.12124)\n    \"\"\"\n    args.decoder_num_layers = getattr(args, \"decoder_num_layers\", 3)\n    berard(args)\n\n\n@register_model_architecture(model_name=\"s2t_berard\", arch_name=\"s2t_berard_512_3_2\")\ndef berard_512_3_2(args):\n    args.num_blstm_layers = getattr(args, \"num_blstm_layers\", 3)\n    args.lstm_size = getattr(args, \"lstm_size\", 512)\n    args.dropout = getattr(args, \"dropout\", 0.3)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 256)\n    args.decoder_num_layers = getattr(args, \"decoder_num_layers\", 2)\n    args.decoder_hidden_dim = getattr(args, \"decoder_hidden_dim\", 1024)\n    args.attention_dim = getattr(args, \"attention_dim\", 512)\n    args.output_layer_dim = getattr(args, \"output_layer_dim\", 256)\n    berard(args)\n\n\n@register_model_architecture(model_name=\"s2t_berard\", arch_name=\"s2t_berard_512_5_3\")\ndef berard_512_5_3(args):\n    args.num_blstm_layers = getattr(args, \"num_blstm_layers\", 5)\n    args.lstm_size = getattr(args, \"lstm_size\", 512)\n    args.dropout = getattr(args, \"dropout\", 0.3)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 256)\n    args.decoder_num_layers = getattr(args, \"decoder_num_layers\", 3)\n    args.decoder_hidden_dim = getattr(args, \"decoder_hidden_dim\", 1024)\n    args.attention_dim = getattr(args, \"attention_dim\", 512)\n    args.output_layer_dim = getattr(args, \"output_layer_dim\", 256)\n    berard(args)\n"
  },
  {
    "path": "fairseq/models/speech_to_text/convtransformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport math\nfrom typing import Dict, List, Optional, Tuple\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom torch import Tensor\n\nfrom fairseq import checkpoint_utils, utils\nfrom fairseq.data.data_utils import lengths_to_padding_mask\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderDecoderModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.speech_to_text.modules.convolution import infer_conv_output_dim\nfrom fairseq.models.transformer import Embedding, TransformerDecoder\nfrom fairseq.modules import LayerNorm, PositionalEmbedding, TransformerEncoderLayer\n\nlogger = logging.getLogger(__name__)\n\n\n@register_model(\"convtransformer\")\nclass ConvTransformerModel(FairseqEncoderDecoderModel):\n    \"\"\"\n    Transformer-based Speech translation model from ESPNet-ST\n    https://arxiv.org/abs/2004.10234\n    \"\"\"\n\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        parser.add_argument(\n            \"--input-feat-per-channel\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder input dimension per input channel\",\n        )\n        parser.add_argument(\n            \"--activation-fn\",\n            choices=utils.get_available_activation_fns(),\n            help=\"activation function to use\",\n        )\n        parser.add_argument(\n            \"--dropout\", type=float, metavar=\"D\", help=\"dropout probability\"\n        )\n        parser.add_argument(\n            \"--attention-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for attention weights\",\n        )\n        parser.add_argument(\n            \"--activation-dropout\",\n            \"--relu-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability after activation in FFN.\",\n        )\n        parser.add_argument(\n            \"--encoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--encoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--encoder-layers\", type=int, metavar=\"N\", help=\"num encoder layers\"\n        )\n        parser.add_argument(\n            \"--encoder-attention-heads\",\n            type=int,\n            metavar=\"N\",\n            help=\"num encoder attention heads\",\n        )\n        parser.add_argument(\n            \"--encoder-normalize-before\",\n            action=\"store_true\",\n            help=\"apply layernorm before each encoder block\",\n        )\n        parser.add_argument(\n            \"--decoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--decoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--decoder-layers\", type=int, metavar=\"N\", help=\"num decoder layers\"\n        )\n        parser.add_argument(\n            \"--decoder-attention-heads\",\n            type=int,\n            metavar=\"N\",\n            help=\"num decoder attention heads\",\n        )\n        parser.add_argument(\n            \"--decoder-normalize-before\",\n            action=\"store_true\",\n            help=\"apply layernorm before each decoder block\",\n        )\n        parser.add_argument(\n            \"--decoder-output-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder output dimension (extra linear layer if different from decoder embed dim)\",\n        )\n        parser.add_argument(\n            \"--share-decoder-input-output-embed\",\n            action=\"store_true\",\n            help=\"share decoder input and output embeddings\",\n        )\n        parser.add_argument(\n            \"--layernorm-embedding\",\n            action=\"store_true\",\n            help=\"add layernorm to embedding\",\n        )\n        parser.add_argument(\n            \"--no-scale-embedding\",\n            action=\"store_true\",\n            help=\"if True, dont scale embeddings\",\n        )\n        parser.add_argument(\n            \"--load-pretrained-encoder-from\",\n            type=str,\n            metavar=\"STR\",\n            help=\"model to take encoder weights from (for initialization)\",\n        )\n        parser.add_argument(\n            \"--load-pretrained-decoder-from\",\n            type=str,\n            metavar=\"STR\",\n            help=\"model to take decoder weights from (for initialization)\",\n        )\n        parser.add_argument(\n            \"--conv-out-channels\",\n            type=int,\n            metavar=\"INT\",\n            help=\"the number of output channels of conv layer\",\n        )\n\n    @classmethod\n    def build_encoder(cls, args):\n        encoder = ConvTransformerEncoder(args)\n        if getattr(args, \"load_pretrained_encoder_from\", None) is not None:\n            encoder = checkpoint_utils.load_pretrained_component_from_model(\n                component=encoder, checkpoint=args.load_pretrained_encoder_from\n            )\n        return encoder\n\n    @classmethod\n    def build_decoder(cls, args, task, embed_tokens):\n        decoder = TransformerDecoderNoExtra(args, task.target_dictionary, embed_tokens)\n        if getattr(args, \"load_pretrained_decoder_from\", None) is not None:\n            decoder = checkpoint_utils.load_pretrained_component_from_model(\n                component=decoder, checkpoint=args.load_pretrained_decoder_from\n            )\n        return decoder\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        # make sure all arguments are present in older models\n        base_architecture(args)\n\n        def build_embedding(dictionary, embed_dim):\n            num_embeddings = len(dictionary)\n            padding_idx = dictionary.pad()\n            return Embedding(num_embeddings, embed_dim, padding_idx)\n\n        decoder_embed_tokens = build_embedding(\n            task.target_dictionary, args.decoder_embed_dim\n        )\n        encoder = cls.build_encoder(args)\n        decoder = cls.build_decoder(args, task, decoder_embed_tokens)\n        return cls(encoder, decoder)\n\n    @staticmethod\n    @torch.jit.unused\n    def set_batch_first(lprobs):\n        lprobs.batch_first = True\n\n    def get_normalized_probs(\n        self,\n        net_output: Tuple[Tensor, Optional[Dict[str, List[Optional[Tensor]]]]],\n        log_probs: bool,\n        sample: Optional[Dict[str, Tensor]] = None,\n    ):\n        # net_output['encoder_out'] is a (B, T, D) tensor\n        lprobs = self.get_normalized_probs_scriptable(net_output, log_probs, sample)\n        if self.training:\n            self.set_batch_first(lprobs)\n        return lprobs\n\n    def output_layout(self):\n        return \"BTD\"\n\n    \"\"\"\n    The forward method inherited from the base class has a **kwargs argument in\n    its input, which is not supported in torchscript. This method overrites the forward\n    method definition without **kwargs.\n    \"\"\"\n\n    def forward(self, src_tokens, src_lengths, prev_output_tokens):\n        encoder_out = self.encoder(src_tokens=src_tokens, src_lengths=src_lengths)\n        decoder_out = self.decoder(\n            prev_output_tokens=prev_output_tokens, encoder_out=encoder_out\n        )\n        return decoder_out\n\n\nclass ConvTransformerEncoder(FairseqEncoder):\n    \"\"\"Conv + Transformer encoder\"\"\"\n\n    def __init__(self, args):\n        \"\"\"Construct an Encoder object.\"\"\"\n        super().__init__(None)\n\n        self.dropout = args.dropout\n        self.embed_scale = (\n            1.0 if args.no_scale_embedding else math.sqrt(args.encoder_embed_dim)\n        )\n        self.padding_idx = 1\n        self.in_channels = 1\n        self.input_dim = args.input_feat_per_channel\n        self.conv = torch.nn.Sequential(\n            torch.nn.Conv2d(1, args.conv_out_channels, 3, stride=2, padding=3 // 2),\n            torch.nn.ReLU(),\n            torch.nn.Conv2d(\n                args.conv_out_channels,\n                args.conv_out_channels,\n                3,\n                stride=2,\n                padding=3 // 2,\n            ),\n            torch.nn.ReLU(),\n        )\n        transformer_input_dim = infer_conv_output_dim(\n            self.in_channels, self.input_dim, args.conv_out_channels\n        )\n        self.out = torch.nn.Linear(transformer_input_dim, args.encoder_embed_dim)\n        self.embed_positions = PositionalEmbedding(\n            args.max_source_positions,\n            args.encoder_embed_dim,\n            self.padding_idx,\n            learned=False,\n        )\n\n        self.transformer_layers = nn.ModuleList([])\n        self.transformer_layers.extend(\n            [TransformerEncoderLayer(args) for i in range(args.encoder_layers)]\n        )\n        if args.encoder_normalize_before:\n            self.layer_norm = LayerNorm(args.encoder_embed_dim)\n        else:\n            self.layer_norm = None\n\n    def pooling_ratio(self):\n        return 4\n\n    def forward(self, src_tokens, src_lengths):\n        \"\"\"Encode input sequence.\n        :param torch.Tensor xs: input tensor\n        :param torch.Tensor masks: input mask\n        :return: position embedded tensor and mask\n        :rtype Tuple[torch.Tensor, torch.Tensor]:\n        \"\"\"\n        bsz, max_seq_len, _ = src_tokens.size()\n        x = (\n            src_tokens.view(bsz, max_seq_len, self.in_channels, self.input_dim)\n            .transpose(1, 2)\n            .contiguous()\n        )\n        x = self.conv(x)\n        bsz, _, output_seq_len, _ = x.size()\n        x = x.transpose(1, 2).transpose(0, 1).contiguous().view(output_seq_len, bsz, -1)\n        x = self.out(x)\n        x = self.embed_scale * x\n\n        subsampling_factor = int(max_seq_len * 1.0 / output_seq_len + 0.5)\n        input_len_0 = (src_lengths.float() / subsampling_factor).ceil().long()\n        input_len_1 = x.size(0) * torch.ones([src_lengths.size(0)]).long().to(\n            input_len_0.device\n        )\n        input_lengths = torch.min(input_len_0, input_len_1)\n\n        encoder_padding_mask = lengths_to_padding_mask(input_lengths)\n\n        positions = self.embed_positions(encoder_padding_mask).transpose(0, 1)\n        x += positions\n        x = F.dropout(x, p=self.dropout, training=self.training)\n\n        for layer in self.transformer_layers:\n            x = layer(x, encoder_padding_mask)\n\n        if not encoder_padding_mask.any():\n            maybe_encoder_padding_mask = None\n        else:\n            maybe_encoder_padding_mask = encoder_padding_mask\n\n        return {\n            \"encoder_out\": [x],\n            \"encoder_padding_mask\": [maybe_encoder_padding_mask]\n            if maybe_encoder_padding_mask is not None\n            else [],\n            \"encoder_embedding\": [],\n            \"encoder_states\": [],\n            \"src_tokens\": [],\n            \"src_lengths\": [],\n        }\n\n    @torch.jit.export\n    def reorder_encoder_out(self, encoder_out: Dict[str, List[Tensor]], new_order):\n        \"\"\"\n        Reorder encoder output according to *new_order*.\n\n        Args:\n            encoder_out: output from the ``forward()`` method\n            new_order (LongTensor): desired order\n\n        Returns:\n            *encoder_out* rearranged according to *new_order*\n        \"\"\"\n        new_encoder_out = [encoder_out[\"encoder_out\"][0].index_select(1, new_order)]\n        if len(encoder_out[\"encoder_padding_mask\"]) == 0:\n            new_encoder_padding_mask = []\n        else:\n            new_encoder_padding_mask = [\n                (encoder_out[\"encoder_padding_mask\"][0]).index_select(0, new_order)\n            ]\n        if len(encoder_out[\"encoder_embedding\"]) == 0:\n            new_encoder_embedding = []\n        else:\n            new_encoder_embedding = [\n                (encoder_out[\"encoder_embedding\"][0]).index_select(0, new_order)\n            ]\n        encoder_states = encoder_out[\"encoder_states\"]\n        if len(encoder_states) > 0:\n            for idx, state in enumerate(encoder_states):\n                encoder_states[idx] = state.index_select(1, new_order)\n\n        return {\n            \"encoder_out\": new_encoder_out,\n            \"encoder_padding_mask\": new_encoder_padding_mask,\n            \"encoder_embedding\": new_encoder_embedding,\n            \"encoder_states\": encoder_states,\n            \"src_tokens\": [],\n            \"src_lengths\": [],\n        }\n\n\nclass TransformerDecoderNoExtra(TransformerDecoder):\n    def extract_features(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]],\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n    ):\n        # call scriptable method from parent class\n        x, _ = self.extract_features_scriptable(\n            prev_output_tokens,\n            encoder_out,\n            incremental_state,\n            full_context_alignment,\n            alignment_layer,\n            alignment_heads,\n        )\n        return x, None\n\n\n@register_model_architecture(model_name=\"convtransformer\", arch_name=\"convtransformer\")\ndef base_architecture(args):\n    args.input_feat_per_channel = getattr(args, \"input_feat_per_channel\", 80)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 6)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", args.encoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", args.encoder_ffn_embed_dim\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", False)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.0)\n    args.activation_dropout = getattr(args, \"activation_dropout\", 0.0)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.decoder_layerdrop = getattr(args, \"decoder_layerdrop\", 0.0)\n\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", False)\n    args.quant_noise_pq = getattr(args, \"quant_noise_pq\", 0)\n    args.max_source_positions = getattr(args, \"max_source_positions\", 3000)\n    args.max_target_positions = getattr(args, \"max_target_positions\", 1024)\n    args.tie_adaptive_weights = getattr(args, \"tie_adaptive_weights\", False)\n    args.conv_out_channels = getattr(args, \"conv_out_channels\", args.encoder_embed_dim)\n\n\n@register_model_architecture(\"convtransformer\", \"convtransformer_espnet\")\ndef convtransformer_espnet(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 12)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 4)\n"
  },
  {
    "path": "fairseq/models/speech_to_text/hub_interface.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom argparse import Namespace\nfrom typing import Optional, Tuple, Union\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nimport fairseq.data.audio.feature_transforms.utterance_cmvn as utt_cmvn\nfrom fairseq.data import encoders\nfrom fairseq.data.audio.audio_utils import convert_waveform as convert_wav\nfrom fairseq.data.audio.audio_utils import get_fbank\nfrom fairseq.data.audio.audio_utils import get_waveform as get_wav\nfrom fairseq.data.audio.speech_to_text_dataset import SpeechToTextDataset\n\nlogger = logging.getLogger(__name__)\n\n\nclass S2THubInterface(nn.Module):\n    def __init__(self, cfg, task, model):\n        super().__init__()\n        self.cfg = cfg\n        self.task = task\n        self.model = model\n        self.model.eval()\n        self.generator = self.task.build_generator([self.model], self.cfg.generation)\n\n    @classmethod\n    def get_model_input(cls, task, audio: Union[str, torch.Tensor]):\n        input_type = task.data_cfg.hub.get(\"input_type\", \"fbank80\")\n        if input_type == \"fbank80_w_utt_cmvn\":\n            if isinstance(audio, str):\n                feat = utt_cmvn.UtteranceCMVN()(get_fbank(audio))\n                feat = feat.unsqueeze(0)  # T x D -> 1 x T x D\n            else:\n                import torchaudio.compliance.kaldi as kaldi\n\n                feat = kaldi.fbank(audio, num_mel_bins=80).numpy()  # 1 x T x D\n        elif input_type in {\"waveform\", \"standardized_waveform\"}:\n            if isinstance(audio, str):\n                feat, sr = get_wav(audio)  # C x T\n                feat, _ = convert_wav(\n                    feat, sr, to_sample_rate=16_000, to_mono=True\n                )  # C x T -> 1 x T\n            else:\n                feat = audio.numpy()\n        else:\n            raise ValueError(f\"Unknown value: input_type = {input_type}\")\n\n        src_lengths = torch.Tensor([feat.shape[1]]).long()\n        src_tokens = torch.from_numpy(feat)  # 1 x T (x D)\n        if input_type == \"standardized_waveform\":\n            with torch.no_grad():\n                src_tokens = F.layer_norm(src_tokens, src_tokens.shape)\n\n        return {\n            \"net_input\": {\n                \"src_tokens\": src_tokens,\n                \"src_lengths\": src_lengths,\n                \"prev_output_tokens\": None,\n            },\n            \"target_lengths\": None,\n            \"speaker\": None,\n        }\n\n    @classmethod\n    def detokenize(cls, task, tokens):\n        text = task.tgt_dict.string(tokens)\n        tkn_cfg = task.data_cfg.bpe_tokenizer\n        tokenizer = encoders.build_bpe(Namespace(**tkn_cfg))\n        return text if tokenizer is None else tokenizer.decode(text)\n\n    @classmethod\n    def get_prefix_token(cls, task, lang):\n        prefix_size = int(task.data_cfg.prepend_tgt_lang_tag)\n        prefix_tokens = None\n        if prefix_size > 0:\n            assert lang is not None\n            lang_tag = SpeechToTextDataset.get_lang_tag_idx(lang, task.tgt_dict)\n            prefix_tokens = torch.Tensor([lang_tag]).long().unsqueeze(0)\n        return prefix_tokens\n\n    @classmethod\n    def get_prediction(\n        cls, task, model, generator, sample, tgt_lang=None, synthesize_speech=False\n    ) -> Union[str, Tuple[str, Tuple[torch.Tensor, int]]]:\n        _tgt_lang = tgt_lang or task.data_cfg.hub.get(\"tgt_lang\", None)\n        prefix = cls.get_prefix_token(task, _tgt_lang)\n        pred_tokens = generator.generate([model], sample, prefix_tokens=prefix)\n        pred = cls.detokenize(task, pred_tokens[0][0][\"tokens\"])\n        eos_token = task.data_cfg.config.get(\"eos_token\", None)\n        if eos_token:\n            pred = \" \".join(pred.split(\" \")[:-1])\n\n        if synthesize_speech:\n            pfx = f\"{_tgt_lang}_\" if task.data_cfg.prepend_tgt_lang_tag else \"\"\n            tts_model_id = task.data_cfg.hub.get(f\"{pfx}tts_model_id\", None)\n            speaker = task.data_cfg.hub.get(f\"{pfx}speaker\", None)\n            if tts_model_id is None:\n                logger.warning(\"TTS model configuration not found\")\n            else:\n                _repo, _id = tts_model_id.split(\":\")\n                tts_model = torch.hub.load(_repo, _id, verbose=False)\n                pred = (pred, tts_model.predict(pred, speaker=speaker))\n        return pred\n\n    def predict(\n        self,\n        audio: Union[str, torch.Tensor],\n        tgt_lang: Optional[str] = None,\n        synthesize_speech: bool = False,\n    ) -> Union[str, Tuple[str, Tuple[torch.Tensor, int]]]:\n        # `audio` is either a file path or a 1xT Tensor\n        # return either text or (text, synthetic speech)\n        sample = self.get_model_input(self.task, audio)\n        return self.get_prediction(\n            self.task,\n            self.model,\n            self.generator,\n            sample,\n            tgt_lang=tgt_lang,\n            synthesize_speech=synthesize_speech,\n        )\n"
  },
  {
    "path": "fairseq/models/speech_to_text/modules/__init__.py",
    "content": ""
  },
  {
    "path": "fairseq/models/speech_to_text/modules/augmented_memory_attention.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import List, Tuple\n\nimport torch\nimport torch.nn.functional as F\nfrom torch import Tensor, nn\n\nfrom fairseq.models import FairseqEncoder\nfrom fairseq.models.speech_to_text import ConvTransformerEncoder\nfrom fairseq.models.speech_to_text.utils import (\n    attention_suppression,\n    lengths_to_encoder_padding_mask,\n    segments_to_sequence,\n    sequence_to_segments,\n)\nfrom fairseq.modules import MultiheadAttention, TransformerEncoderLayer\n\n# ------------------------------------------------------------------------------\n#   AugmentedMemoryConvTransformerEncoder\n# ------------------------------------------------------------------------------\n\n\nclass AugmentedMemoryConvTransformerEncoder(ConvTransformerEncoder):\n    def __init__(self, args):\n        super().__init__(args)\n\n        args.encoder_stride = self.stride()\n\n        self.left_context = args.left_context // args.encoder_stride\n\n        self.right_context = args.right_context // args.encoder_stride\n\n        self.left_context_after_stride = args.left_context // args.encoder_stride\n        self.right_context_after_stride = args.right_context // args.encoder_stride\n\n        self.transformer_layers = nn.ModuleList([])\n        self.transformer_layers.extend(\n            [\n                AugmentedMemoryTransformerEncoderLayer(args)\n                for i in range(args.encoder_layers)\n            ]\n        )\n\n    def stride(self):\n        # Hard coded here. Should infer from convs in future\n        stride = 4\n        return stride\n\n    def forward(self, src_tokens, src_lengths, states=None):\n        \"\"\"Encode input sequence.\n        :param torch.Tensor xs: input tensor\n        :param torch.Tensor masks: input mask\n        :return: position embedded tensor and mask\n        :rtype Tuple[torch.Tensor, torch.Tensor]:\n        \"\"\"\n        bsz, max_seq_len, _ = src_tokens.size()\n        x = (\n            src_tokens.view(bsz, max_seq_len, self.in_channels, self.input_dim)\n            .transpose(1, 2)\n            .contiguous()\n        )\n        x = self.conv(x)\n        bsz, _, output_seq_len, _ = x.size()\n        x = x.transpose(1, 2).transpose(0, 1).contiguous().view(output_seq_len, bsz, -1)\n        x = self.out(x)\n        x = self.embed_scale * x\n\n        subsampling_factor = 1.0 * max_seq_len / output_seq_len\n        input_lengths = torch.max(\n            (src_lengths.float() / subsampling_factor).ceil().long(),\n            x.size(0) * src_lengths.new_ones([src_lengths.size(0)]).long(),\n        )\n\n        encoder_padding_mask, _ = lengths_to_encoder_padding_mask(\n            input_lengths, batch_first=True\n        )\n\n        # TODO: fix positional embedding\n        positions = self.embed_positions(encoder_padding_mask).transpose(0, 1)\n\n        x += positions\n        x = F.dropout(x, p=self.dropout, training=self.training)\n\n        # State to store memory banks etc.\n        if states is None:\n            states = [\n                {\"memory_banks\": None, \"encoder_states\": None}\n                for i in range(len(self.transformer_layers))\n            ]\n\n        for i, layer in enumerate(self.transformer_layers):\n            # x size:\n            # (self.left_size + self.segment_size + self.right_size)\n            # / self.stride, num_heads, dim\n            # TODO: Consider mask here\n            x = layer(x, states[i])\n            states[i][\"encoder_states\"] = x[\n                self.left_context_after_stride : -self.right_context_after_stride\n            ]\n\n        lengths = (\n            (\n                ~encoder_padding_mask[\n                    :, self.left_context_after_stride : -self.right_context_after_stride\n                ]\n            )\n            .sum(dim=1, keepdim=True)\n            .long()\n        )\n\n        return states[-1][\"encoder_states\"], lengths, states\n\n\n# ------------------------------------------------------------------------------\n#   AugmentedMemoryTransformerEncoderLayer\n# ------------------------------------------------------------------------------\nclass AugmentedMemoryTransformerEncoderLayer(TransformerEncoderLayer):\n    def __init__(self, args):\n        super().__init__(args)\n\n        self.left_context = args.left_context // args.encoder_stride\n        self.right_context = args.right_context // args.encoder_stride\n\n    def forward(self, x, state):\n\n        length, batch_size, x_dim = x.size()\n\n        residual = x\n\n        if self.normalize_before:\n            x = self.self_attn_layer_norm(x)\n\n        # init_state\n        if state.get(\"memory_banks\", None) is None:\n            state[\"memory_banks\"] = []\n\n        # TODO reseach new sum_query method\n        seg_start = self.left_context\n        seg_end = length - self.right_context\n        if seg_start < seg_end:\n            summarization_query = torch.mean(x[seg_start:seg_end], keepdim=True, dim=0)\n        else:\n            summarization_query = x.new_zeros(1, batch_size, x_dim)\n\n        x = torch.cat([x, summarization_query], dim=0)\n\n        x = self.self_attn(input_and_summary=x, state=state)\n\n        x = self.dropout_module(x)\n        x = residual + x\n\n        if not self.normalize_before:\n            x = self.self_attn_layer_norm(x)\n\n        residual = x\n        if self.normalize_before:\n            x = self.final_layer_norm(x)\n\n        x = self.activation_fn(self.fc1(x))\n        x = self.activation_dropout_module(x)\n        x = self.fc2(x)\n        x = self.dropout_module(x)\n        x = residual + x\n        if not self.normalize_before:\n            x = self.final_layer_norm(x)\n\n        return x\n\n    def build_self_attention(self, embed_dim, args):\n        return AugmentedMemoryMultiheadAttention(\n            embed_dim=embed_dim,\n            num_heads=args.encoder_attention_heads,\n            dropout=args.attention_dropout,\n            self_attention=True,\n            q_noise=self.quant_noise,\n            qn_block_size=self.quant_noise_block_size,\n            tanh_on_mem=True,\n            max_memory_size=args.max_memory_size,\n        )\n\n\n# ------------------------------------------------------------------------------\n#   AugmentedMemoryMultiheadAttention\n# ------------------------------------------------------------------------------\nclass AugmentedMemoryMultiheadAttention(MultiheadAttention):\n    \"\"\"\n    Augmented Memory Attention from\n    Streaming Transformer-based Acoustic Models\n    Using Self-attention with Augmented Memory\n    https://arxiv.org/abs/2005.08042\n    \"\"\"\n\n    def __init__(\n        self,\n        embed_dim,\n        num_heads,\n        kdim=None,\n        vdim=None,\n        dropout=0.0,\n        bias=True,\n        add_bias_kv=False,\n        add_zero_attn=False,\n        self_attention=False,\n        encoder_decoder_attention=False,\n        q_noise=0.0,\n        qn_block_size=8,\n        tanh_on_mem=False,\n        memory_dim=None,\n        std_scale=0.5,  # 0.5 based on https://arxiv.org/abs/2005.09137\n        max_memory_size=-1,\n        disable_mem_on_mem_attn=True,\n    ):\n        super().__init__(\n            embed_dim,\n            num_heads,\n            kdim,\n            vdim,\n            dropout,\n            bias,\n            add_bias_kv,\n            add_zero_attn,\n            self_attention,\n            encoder_decoder_attention,\n            q_noise,\n            qn_block_size,\n        )\n\n        self.memory_dim = memory_dim if memory_dim is not None else embed_dim\n        self.std_scale = std_scale\n        self.disable_mem_on_mem_attn = disable_mem_on_mem_attn\n\n        # This Operator was used for factorization in PySpeech\n        self.v2e = lambda x: x\n\n        if tanh_on_mem:\n            self.squash_mem = torch.tanh\n            self.nonlinear_squash_mem = True\n        else:\n            self.squash_mem = lambda x: x\n            self.nonlinear_squash_mem = False\n\n        self.max_memory_size = max_memory_size\n\n    def forward(self, input_and_summary, state):\n        \"\"\"\n        input: Encoder states of current segment with left or right context,\n            plus one summarization query\n\n        \"\"\"\n\n        length, batch_size, _ = input_and_summary.shape\n        length = length - 1  # not include sum_query, last index\n\n        memory = state[\"memory_banks\"]\n        # TODO: positional embedding on memory\n\n        if self.max_memory_size > -1 and len(memory) > self.max_memory_size:\n            # TODO: need to fix here\n            if self.max_memory_size == 0:\n                memory = memory.new_zeros(1, memory.size(1), self.memory_dim)\n            else:\n                memory = memory[-self.max_memory_size :]\n\n        memory_and_input = torch.cat(memory + [input_and_summary[:-1]], dim=0)\n        input_and_sum_query = input_and_summary\n\n        q = self.q_proj(self.v2e(input_and_sum_query))\n        k = self.k_proj(self.v2e(memory_and_input))\n        v = self.v_proj(self.v2e(memory_and_input))\n\n        q = (\n            q.contiguous()\n            .view(-1, batch_size * self.num_heads, self.head_dim)\n            .transpose(0, 1)\n            * self.scaling\n        )\n        k = (\n            k.contiguous()\n            .view(-1, batch_size * self.num_heads, self.head_dim)\n            .transpose(0, 1)\n        )\n\n        v = (\n            v.contiguous()\n            .view(-1, batch_size * self.num_heads, self.head_dim)\n            .transpose(0, 1)\n        )\n\n        attention_weights = torch.bmm(q, k.transpose(1, 2))\n\n        if self.disable_mem_on_mem_attn:\n            attention_weights = self.suppress_mem_on_mem_attention(\n                batch_size, self.num_heads, len(memory), attention_weights\n            )\n\n        if self.std_scale is not None:\n            attention_weights = attention_suppression(attention_weights, self.std_scale)\n\n        assert list(attention_weights.shape) == [\n            batch_size * self.num_heads,\n            length + 1,\n            length + len(memory),\n        ]\n\n        attention_weights = torch.nn.functional.softmax(\n            attention_weights.float(), dim=-1\n        ).type_as(attention_weights)\n\n        attention_probs = self.dropout_module(attention_weights)\n\n        # [T, T, B, n_head] + [T, B, n_head, d_head] -> [T, B, n_head, d_head]\n        attention = torch.bmm(attention_probs, v)\n\n        assert list(attention.shape) == [\n            batch_size * self.num_heads,\n            length + 1,\n            self.head_dim,\n        ]\n\n        attention = (\n            attention.transpose(0, 1)\n            .contiguous()\n            .view(length + 1, batch_size, self.embed_dim)\n        )\n\n        output_and_memory = self.out_proj(attention)\n\n        next_m = output_and_memory[-1:]\n        next_m = self.squash_mem(next_m)\n        output = output_and_memory[:-1]\n\n        state[\"memory_banks\"].append(next_m)\n\n        return output\n\n    def suppress_mem_on_mem_attention(\n        self, B: int, num_heads: int, mem_size: int, attention_weight: Tensor\n    ):\n        \"\"\"\n        Arguments:\n            - B: batch size\n            - num_heads: number of attention heads\n            - mem_size: size of memory bank\n            - attention_weight: a [B*num_heads, T + 1, T + mem_size] vector\n\n        Return:\n            modified attention_weight with [B*num_heads, -1, :mem_size] = -inf\n        \"\"\"\n        attention_weight[:, -1, :mem_size] = float(\"-inf\")\n        return attention_weight\n\n\n# ------------------------------------------------------------------------------\n#   SequenceEncoder\n# ------------------------------------------------------------------------------\nclass SequenceEncoder(FairseqEncoder):\n    \"\"\"\n    SequenceEncoder encodes sequences.\n\n    More specifically, `src_tokens` and `src_lengths` in `forward()` should\n    describe a batch of \"complete\" sequences rather than segments.\n\n    Segment-by-segment inference can be triggered by `segment_size`:\n    1) `segment_size` is None:\n        SequenceEncoder treats the input sequence as one single segment.\n    2) `segment_size` is not None (some int instead):\n        SequenceEncoder does the following:\n            1. breaks the input sequence into several segments\n            2. inference on each segment and collect the outputs\n            3. concatanete segment outputs into the output sequence.\n    Note that `segment_size` here shouldn't include additional left/right\n    contexts needed, for example if we wish to infer with LC-BLSTM where the\n    middle chunk size is 100 and right context is 20, `segment_size` should be\n    100.\n    \"\"\"\n\n    def __init__(self, args, module):\n        super().__init__(None)\n\n        self.module = module\n        self.input_time_axis = 1\n        self.output_time_axis = 0\n        self.segment_size = args.segment_size\n        self.left_context = args.left_context\n        self.right_context = args.right_context\n\n    def forward(\n        self,\n        src_tokens: Tensor,\n        src_lengths: Tensor,\n        states=None,\n    ):\n\n        seg_src_tokens_lengths = sequence_to_segments(\n            sequence=src_tokens,\n            time_axis=self.input_time_axis,\n            lengths=src_lengths,\n            segment_size=self.segment_size,\n            extra_left_context=self.left_context,\n            extra_right_context=self.right_context,\n        )\n\n        seg_encoder_states_lengths: List[Tuple[Tensor, Tensor]] = []\n\n        for seg_src_tokens, seg_src_lengths in seg_src_tokens_lengths:\n            (seg_encoder_states, seg_enc_lengths, states) = self.module(\n                seg_src_tokens,\n                seg_src_lengths,\n                states=states,\n            )\n\n            seg_encoder_states_lengths.append((seg_encoder_states, seg_enc_lengths))\n\n        encoder_out, enc_lengths = segments_to_sequence(\n            segments=seg_encoder_states_lengths, time_axis=self.output_time_axis\n        )\n\n        encoder_padding_mask, _ = lengths_to_encoder_padding_mask(\n            enc_lengths, batch_first=True\n        )\n\n        if not encoder_padding_mask.any():\n            encoder_padding_mask = None\n\n        return {\n            \"encoder_out\": [encoder_out],\n            \"encoder_padding_mask\": [encoder_padding_mask],\n            \"encoder_embedding\": [],\n            \"encoder_states\": [states],\n            \"src_tokens\": [],\n            \"src_lengths\": [],\n        }\n\n    def incremental_encode(\n        self,\n        seg_src_tokens: Tensor,\n        seg_src_lengths: Tensor,\n        states=None,\n    ):\n        \"\"\"\n        Different from forward function, this function takes segmented speech\n        as input, and append encoder states to previous states\n        \"\"\"\n        (seg_encoder_states, seg_enc_lengths, states) = self.module(\n            seg_src_tokens,\n            seg_src_lengths,\n            states=states,\n        )\n        return seg_encoder_states, seg_enc_lengths, states\n\n\n# ------------------------------------------------------------------------------\n#   Augmented memory model decorator\n# ------------------------------------------------------------------------------\ndef augmented_memory(klass):\n    class StreamSeq2SeqModel(klass):\n        @staticmethod\n        def add_args(parser):\n            super(StreamSeq2SeqModel, StreamSeq2SeqModel).add_args(parser)\n            parser.add_argument(\n                \"--segment-size\", type=int, required=True, help=\"Length of the segment.\"\n            )\n            parser.add_argument(\n                \"--left-context\",\n                type=int,\n                default=0,\n                help=\"Left context for the segment.\",\n            )\n            parser.add_argument(\n                \"--right-context\",\n                type=int,\n                default=0,\n                help=\"Right context for the segment.\",\n            )\n            parser.add_argument(\n                \"--max-memory-size\",\n                type=int,\n                default=-1,\n                help=\"Right context for the segment.\",\n            )\n\n    StreamSeq2SeqModel.__name__ = klass.__name__\n    return StreamSeq2SeqModel\n"
  },
  {
    "path": "fairseq/models/speech_to_text/modules/convolution.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom typing import List\n\nimport torch\nimport torch.nn as nn\n\n\nclass Conv1dSubsampler(nn.Module):\n    \"\"\"Convolutional subsampler: a stack of 1D convolution (along temporal\n    dimension) followed by non-linear activation via gated linear units\n    (https://arxiv.org/abs/1911.08460)\n\n    Args:\n        in_channels (int): the number of input channels\n        mid_channels (int): the number of intermediate channels\n        out_channels (int): the number of output channels\n        kernel_sizes (List[int]): the kernel size for each convolutional layer\n    \"\"\"\n\n    def __init__(\n        self,\n        in_channels: int,\n        mid_channels: int,\n        out_channels: int,\n        kernel_sizes: List[int] = (3, 3),\n    ):\n        super(Conv1dSubsampler, self).__init__()\n        self.n_layers = len(kernel_sizes)\n        self.conv_layers = nn.ModuleList(\n            nn.Conv1d(\n                in_channels if i == 0 else mid_channels // 2,\n                mid_channels if i < self.n_layers - 1 else out_channels * 2,\n                k,\n                stride=2,\n                padding=k // 2,\n            )\n            for i, k in enumerate(kernel_sizes)\n        )\n\n    def get_out_seq_lens_tensor(self, in_seq_lens_tensor):\n        out = in_seq_lens_tensor.clone()\n        for _ in range(self.n_layers):\n            out = ((out.float() - 1) / 2 + 1).floor().long()\n        return out\n\n    def forward(self, src_tokens, src_lengths):\n        bsz, in_seq_len, _ = src_tokens.size()  # B x T x (C x D)\n        x = src_tokens.transpose(1, 2).contiguous()  # -> B x (C x D) x T\n        for conv in self.conv_layers:\n            x = conv(x)\n            x = nn.functional.glu(x, dim=1)\n        _, _, out_seq_len = x.size()\n        x = x.transpose(1, 2).transpose(0, 1).contiguous()  # -> T x B x (C x D)\n        return x, self.get_out_seq_lens_tensor(src_lengths)\n\n\ndef infer_conv_output_dim(in_channels, input_dim, out_channels):\n    sample_seq_len = 200\n    sample_bsz = 10\n    x = torch.randn(sample_bsz, in_channels, sample_seq_len, input_dim)\n    x = torch.nn.Conv2d(in_channels, out_channels, 3, stride=2, padding=3 // 2)(x)\n    x = torch.nn.Conv2d(out_channels, out_channels, 3, stride=2, padding=3 // 2)(x)\n    x = x.transpose(1, 2)\n    mb, seq = x.size()[:2]\n    return x.contiguous().view(mb, seq, -1).size(-1)\n\n\nclass Conv2dSubsampler(nn.Module):\n    \"\"\"Convolutional subsampler: a stack of 2D convolution based on ESPnet implementation\n    (https://github.com/espnet/espnet)\n\n    Args:\n        input_channels (int): the number of input channels\n        input_feat_per_channel (int): encoder input dimension per input channel\n        conv_out_channels (int): the number of output channels of conv layer\n        encoder_embed_dim (int): encoder dimentions\n    \"\"\"\n\n    def __init__(\n        self,\n        input_channels: int,\n        input_feat_per_channel: int,\n        conv_out_channels: int,\n        encoder_embed_dim: int,\n    ):\n        super().__init__()\n        assert input_channels == 1, input_channels\n        self.conv = torch.nn.Sequential(\n            torch.nn.Conv2d(\n                input_channels, conv_out_channels, 3, stride=2, padding=3 // 2\n            ),\n            torch.nn.ReLU(),\n            torch.nn.Conv2d(\n                conv_out_channels,\n                conv_out_channels,\n                3,\n                stride=2,\n                padding=3 // 2,\n            ),\n            torch.nn.ReLU(),\n        )\n        transformer_input_dim = infer_conv_output_dim(\n            input_channels, input_feat_per_channel, conv_out_channels\n        )\n        self.out = torch.nn.Linear(transformer_input_dim, encoder_embed_dim)\n\n    def forward(self, src_tokens, src_lengths):\n        B, T_i, C = src_tokens.size()\n        x = src_tokens.view(B, T_i, 1, C).transpose(1, 2).contiguous()\n        x = self.conv(x)\n        B, _, T_o, _ = x.size()\n        x = x.transpose(1, 2).transpose(0, 1).contiguous().view(T_o, B, -1)\n        x = self.out(x)\n\n        subsampling_factor = int(T_i * 1.0 / T_o + 0.5)\n        input_len_0 = (src_lengths.float() / subsampling_factor).ceil().long()\n        input_len_1 = x.size(0) * torch.ones([src_lengths.size(0)]).long().to(\n            input_len_0.device\n        )\n        input_lengths = torch.min(input_len_0, input_len_1)\n        return x, input_lengths\n"
  },
  {
    "path": "fairseq/models/speech_to_text/modules/emformer.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\n\nimport math\nimport re\nfrom functools import partial\nfrom typing import List, Optional, Tuple\n\nimport torch\nimport torch.nn as nn\nfrom torch import Tensor\nfrom torch import device as Device\n\nfrom fairseq.models import FairseqEncoder\nfrom fairseq.models.speech_to_text.utils import (\n    NoOp,\n    attention_suppression,\n    layer_norm_backward_hook,\n    lengths_to_padding_mask,\n    segments_to_sequence,\n)\n\ntry:\n    import torch.ao.quantization as quantization\n    from torch.ao.quantization.qconfig import (\n        default_dynamic_qconfig,\n        per_channel_dynamic_qconfig,\n    )\nexcept ImportError:\n    import torch.quantization as quantization\n    from torch.quantization.qconfig import (\n        default_dynamic_qconfig,\n        per_channel_dynamic_qconfig,\n    )\n\n\nclass RelativePositionEmbedding(nn.Module):\n    \"\"\"\n    Implementation according to https://arxiv.org/abs/1803.02155\n    \"\"\"\n\n    def __init__(self, head_dim, max_position, norm_init=True):\n        super().__init__()\n        self.head_dim = head_dim\n        self.max_position = max_position\n        self.embeddings = nn.Parameter(torch.Tensor(max_position * 2 + 1, head_dim))\n        if norm_init:\n            nn.init.xavier_normal_(self.embeddings)\n        else:\n            nn.init.xavier_uniform_(self.embeddings)\n\n    def forward(self, input: Tensor):\n        output = nn.functional.embedding(input.long(), self.embeddings)\n        return output\n\n\nclass Fp32LayerNorm(nn.Module):\n    def __init__(\n        self,\n        input_dim,\n        clamp_grad=True,\n        max_grad_value=256,\n        eps=1e-5,\n        elementwise_affine=True,\n    ):\n        super().__init__()\n        self.torch_module = torch.nn.LayerNorm(\n            input_dim, eps=eps, elementwise_affine=elementwise_affine\n        )\n        if clamp_grad:\n            hook = partial(layer_norm_backward_hook, clamp_value=max_grad_value)\n            self.torch_module.register_backward_hook(hook)\n\n    def forward(self, input):\n        output = torch.nn.functional.layer_norm(\n            input.float(),\n            self.torch_module.normalized_shape,\n            self.torch_module.weight.float()\n            if self.torch_module.weight is not None\n            else None,\n            self.torch_module.bias.float()\n            if self.torch_module.bias is not None\n            else None,\n            self.torch_module.eps,\n        ).type_as(input)\n        return output\n\n\n# ------------------------------------------------------------------------------\n#   PositionwiseFF\n# ------------------------------------------------------------------------------\n\n\nclass PositionwiseFF(nn.Module):\n    \"\"\"\n    FFN layer in transformer.\n\n    Args:\n        input_dim: input embedding dimension\n        ffn_dim: FFN layer inner dimension\n        dropout_on_fc1: dropout for first linear layer\n        dropout_on_fc2: dropout fr second linear layer\n        activation_fn: activation function used after first linear layer. \\\n                Only relu or gelu is supported.\n\n    \"\"\"\n\n    def __init__(\n        self, input_dim, ffn_dim, dropout_on_fc1, dropout_on_fc2, activation_fn\n    ):\n        super(PositionwiseFF, self).__init__()\n\n        self.input_dim = input_dim\n        self.ffn_dim = ffn_dim\n        if activation_fn == \"relu\":\n            ac = nn.ReLU()\n        elif activation_fn == \"gelu\":\n            ac = nn.GELU()\n        else:\n            raise ValueError(\"Unsupported activation_fn = ({})\".format(activation_fn))\n\n        # fc1 -> ac -> dropout -> fc2 -> dropout\n        self.module = nn.Sequential(\n            nn.Linear(input_dim, ffn_dim),\n            ac,\n            nn.Dropout(dropout_on_fc1),\n            nn.Linear(ffn_dim, input_dim),\n            nn.Dropout(dropout_on_fc2),\n        )\n\n        self.layer_norm = Fp32LayerNorm(input_dim)\n\n    def forward(self, input):\n        module_out = self.module(self.layer_norm(input))\n        output = module_out + input\n\n        return output\n\n    def quantize_(self, params=None):\n        if params and \"per_channel\" in params and params[\"per_channel\"]:\n            qconfig = per_channel_dynamic_qconfig\n        else:\n            qconfig = default_dynamic_qconfig\n        quantization.quantize_dynamic(\n            self, {torch.nn.Linear: qconfig}, dtype=torch.qint8, inplace=True\n        )\n        return self\n\n\n# ------------------------------------------------------------------------------\n#   SummarizationLayer\n# ------------------------------------------------------------------------------\n\n\nclass SummarizationLayer(nn.Module):\n    def __init__(self, method, segment_size, embedding_dim):\n        super(SummarizationLayer, self).__init__()\n        self.segment_size = segment_size\n        self.embedding_dim = embedding_dim\n        nonlin_match = re.match(r\"nonlinear\\((?P<act>[a-z]+),(?P<dim>[0-9]+)\\)\", method)\n        self.method = method\n        if method == \"mean\":\n            self.module = nn.AvgPool1d(\n                kernel_size=segment_size,\n                stride=segment_size,\n                ceil_mode=True,\n            )\n        elif method == \"max\":\n            self.module = nn.MaxPool1d(\n                kernel_size=segment_size,\n                stride=segment_size,\n                ceil_mode=True,\n            )\n        elif method == \"linear\":\n            self.module = nn.Linear(segment_size, 1)\n        elif nonlin_match:\n            nonlin_args = nonlin_match.groupdict()\n            act_type = nonlin_args[\"act\"]\n            hid_dim = int(nonlin_args[\"dim\"])\n            if act_type == \"relu\":\n                act = nn.ReLU()\n            elif act_type == \"gelu\":\n                act = nn.GELU()\n            else:\n                raise ValueError(\"Unsupported activation_fn = ({})\".format(act_type))\n            self.module = nn.Sequential(\n                nn.Linear(segment_size, hid_dim),\n                act,\n                nn.Linear(hid_dim, 1),\n            )\n        else:\n            raise ValueError(\"Unsupported summarization method = ({})\".format(method))\n\n    def forward(self, input):\n        # T, B, D -> B, D, T\n        input = input.permute(1, 2, 0)\n\n        if self.method == \"mean\" or self.method == \"max\":\n            output = self.module(input)\n            output = output.permute(2, 0, 1)\n            return output\n\n        full_seg_length = input.size(2) // self.segment_size * self.segment_size\n        if full_seg_length > 0:\n            # at least one seg is full\n            B = input.size(0)\n            D = input.size(1)\n            input_todo = (\n                input[:, :, :full_seg_length]\n                .contiguous()\n                .view(B, -1, self.segment_size)\n            )\n            output = self.module(input_todo)\n            output = output.view(B, D, -1)\n        else:\n            output = input.new_zeros(input.size(0), input.size(1), 0)\n        left = input.size(2) - full_seg_length\n        if left > 0:\n            # when last seg is not full, use zeros as last memory placeholder\n            zeros = input.new_zeros(input.size(0), input.size(1), 1)\n            output = torch.cat([output, zeros], dim=2)\n        output = output.permute(2, 0, 1)\n        return output\n\n\n# ------------------------------------------------------------------------------\n#   NoSegAugmentedMemoryMultiheadAttentionBmm\n# ------------------------------------------------------------------------------\n\n\nclass NoSegAugmentedMemoryMultiheadAttentionBmm(nn.Module):\n    \"\"\"\n    Whole utterance augmented memory multihead attention using BMM.\n\n    Different with previous augmented memory multihead attention where\n    the utterance is chunked into segments. Here we use attention mask\n    achieve so. The input embedding [right_context, utterance, summary]\n    is a concatenation of right context, utterance and summary.\n\n    Right context block is the concatenation of all the right context for\n    each segments. [right_context_0, right_context_1, ..., right_context_n]\n    For example, if we have utterance = [v0, v1, v2, ...., v20]. segment\n    size 8, right_context size 4. Then the right context blocks =\n    [v8, v9, v10, v11, v16, v17, v18, v19, 0, 0, 0, 0], where v8, v9, v10,\n    and v11 are the right context for first segment. v16, v17, v18 and v19\n    are the right context for second segment. 0, 0, 0 and 0 are right context\n    for the last segment.\n\n    utterance is corresponding to input embedding sequence\n\n    summary is concatenation of average of each segments. [summary_0,\n    summary_1, ..., ].\n\n    In augmented memory multihead attention, the query is [right_context,\n    utterance, summary], key is [memory, right_context, utterance]. Different\n    with AugmentedMemoryMultiheadAttentionBmm, memory here is passed from\n    previous attention layer. For the first attention layer, memory is average\n    of each segment.\n\n    Memory is a concatenation of memory from each segments in previous attention\n    layer. For example, current layer is i, then memory is [m_0, m_1, ..., m_n].\n    Each m_k is the output from seg_k in layer i-1.\n\n    args:\n        input_dim: input embedding dimension\n        num_heads: number of heads in multihead self-attention\n        dropout: attention dropout\n        std_scale: if std_scale is not None. The weak attention suppression is\n            turned on. For std_scale = 0.5, all the attention smaller than\n            mean + 0.5 * std will be suppressed.\n        scaled_init: whether to use scaled init for linear weight\n        tanh_on_mem: whether to use tanh on memory output\n        use_mem: whether to use memory or not. When max_memory_size is 0, then\n            we don't have memory anymore.\n        layer_index: current self-attention layer index that is used in depth\n            initialization\n        max_relative_position: max relative position used in relative position\n            embedding\n        rpe_old_option: To be compatible with previous model. The previous model\n            was trained with attention += attention + rpe. The correct equation\n            should be attention = attention + rpe\n\n    \"\"\"\n\n    def __init__(\n        self,\n        input_dim,\n        num_heads,\n        dropout=0.0,\n        std_scale=None,\n        scaled_init=False,\n        tanh_on_mem=False,\n        use_mem=True,\n        mini_batches=False,\n        negative_inf=\"-inf\",\n        layer_index=-1,\n        max_relative_position=0,\n        rpe_old_option=True,\n    ):\n        if input_dim % num_heads:\n            raise ValueError(\n                \"input_dim ({}) must be divisible by num_heads ({})\".format(\n                    input_dim, num_heads\n                )\n            )\n\n        super().__init__()\n\n        embed_dim = input_dim\n        self.e2h_kv = torch.nn.Linear(input_dim, 2 * input_dim, bias=True)\n        self.e2h_q = torch.nn.Linear(input_dim, input_dim, bias=True)\n        self.rpe_old_option = rpe_old_option\n        if max_relative_position > 0:\n            self.use_rpe = True\n            self.rpe_k = RelativePositionEmbedding(\n                head_dim=input_dim // num_heads,\n                max_position=max_relative_position,\n            )\n            self.rpe_v = RelativePositionEmbedding(\n                head_dim=input_dim // num_heads,\n                max_position=max_relative_position,\n            )\n        else:\n            self.use_rpe = False\n            self.rpe_k = None\n            self.rpe_v = None\n        if scaled_init:\n            if layer_index == -1:\n                gain = 1.0 / math.sqrt(2)\n            else:\n                # https://arxiv.org/abs/2005.09684 depthwise initialization\n                # stablize the training greatly. Use depthwise initialization to\n                # replace incremental loss.\n                gain = 1.0 / math.sqrt(layer_index + 1)\n            torch.nn.init.xavier_uniform_(self.e2h_kv.weight, gain=gain)\n            torch.nn.init.xavier_uniform_(self.e2h_q.weight, gain=gain)\n\n        self.out_proj = torch.nn.Linear(embed_dim, embed_dim, bias=True)\n\n        self.embed_dim = embed_dim\n        self.num_heads = num_heads\n        self.dropout = dropout\n\n        self.head_dim = embed_dim // num_heads\n        self.scaling = self.head_dim**-0.5\n\n        self.std_scale = std_scale\n        self.use_mem = use_mem\n        self.mini_batches = mini_batches\n        self.negative_inf = negative_inf\n\n        if tanh_on_mem:\n            self.squash_mem = torch.tanh\n            self.nonlinear_squash_mem = True\n        else:\n            self.squash_mem = NoOp()\n            self.nonlinear_squash_mem = False\n\n    def prepare_qkv(\n        self,\n        input: Tensor,\n        mems: Tensor,\n        lengths: Tensor,\n        summary_length: int,\n        lc_length: int,\n    ):\n        # T: right_context length + utterance_length  + summary_length\n        T, B, D = input.shape\n        mem_length = mems.size(0)\n        utterance_length = torch.max(lengths)\n\n        right_context_blocks_length = T - utterance_length - summary_length\n        rc_block = input[:right_context_blocks_length, :, :]\n        utterance_block = input[right_context_blocks_length : T - summary_length, :, :]\n\n        if B == 1:\n            padding_mask = None\n        else:\n            klengths = lengths + mem_length + right_context_blocks_length + lc_length\n            padding_mask = lengths_to_padding_mask(lengths=klengths)\n\n        mem_rc_input = torch.cat([mems, rc_block, utterance_block], dim=0)\n\n        # In training lc_length = 0\n        key_length = mem_rc_input.size(0) + lc_length\n        rc_input_sum = input\n        q = self.e2h_q(rc_input_sum)\n        kv = self.e2h_kv(mem_rc_input)\n        k, v = kv.chunk(chunks=2, dim=2)\n        result_qkv = (q, k, v)\n        input_shape = (T, B, D)\n        result_lengths_info = (\n            mem_length,\n            utterance_length,\n            right_context_blocks_length,\n            key_length,\n        )\n        if padding_mask is not None:\n            assert padding_mask.size(0) == B\n            assert padding_mask.size(1) == key_length\n\n        return result_qkv, input_shape, result_lengths_info, padding_mask\n\n    def prepare_attention_weights(\n        self,\n        q: Tensor,\n        new_k: Tensor,\n        new_v: Tensor,\n        input_shape: Tuple[int, int, int],\n        rpe: Optional[Tensor],\n    ) -> Tuple[Tensor, Tensor, Tensor]:\n        T, B, D = input_shape\n        q = (\n            q.contiguous().view(-1, B * self.num_heads, self.head_dim).transpose(0, 1)\n            * self.scaling\n        )\n\n        k = (\n            new_k.contiguous()\n            .view(-1, B * self.num_heads, self.head_dim)\n            .transpose(0, 1)\n        )\n\n        v = (\n            new_v.contiguous()\n            .view(-1, B * self.num_heads, self.head_dim)\n            .transpose(0, 1)\n        )\n\n        attention_weights = torch.bmm(q, k.transpose(1, 2))\n        if self.use_rpe and rpe is not None and self.rpe_v is not None:\n            r_k = self.rpe_k(rpe)\n            # [q, B*h, d] * [q, k, d] -> [B*h, q, k]\n            attention_weights_rpe = torch.matmul(\n                q.transpose(0, 1), r_k.transpose(1, 2)\n            ).transpose(0, 1)\n            attention_weights = attention_weights + attention_weights_rpe\n        attention_weights_float = attention_weights.float()\n\n        return attention_weights, attention_weights_float, v\n\n    def prepare_attention_output(\n        self,\n        attention_weights: Tensor,\n        attention_weights_float: Tensor,\n        v: Tensor,\n        input_shape: Tuple[int, int, int],\n        key_length: int,\n        padding_mask: Optional[Tensor],\n        rpe: Optional[Tensor],\n    ) -> Tensor:\n        T, B, D = input_shape\n        if padding_mask is not None:\n            attention_weights_float = attention_weights_float.view(\n                B, self.num_heads, T, key_length\n            )\n            attention_weights_float = attention_weights_float.masked_fill(\n                padding_mask.unsqueeze(1).unsqueeze(2).to(torch.bool), float(\"-inf\")\n            )\n            attention_weights_float = attention_weights_float.view(\n                B * self.num_heads, T, key_length\n            )\n\n        if self.std_scale is not None:\n            attention_weights_float = attention_suppression(\n                attention_weights_float, self.std_scale\n            )\n\n        attention_weights_float = torch.nn.functional.softmax(\n            attention_weights_float, dim=-1\n        )\n        attention_weights = attention_weights_float.type_as(attention_weights)\n\n        attention_probs = torch.nn.functional.dropout(\n            attention_weights, p=self.dropout, training=self.training\n        )\n\n        # [T, key_length, B, n_head]+ [key_length, B, n_head, d_head]\n        # -> [T, B, n_head, d_head]\n        attention = torch.bmm(attention_probs, v)\n        if self.use_rpe and rpe is not None and self.rpe_v is not None:\n            r_v = self.rpe_v(rpe)\n            attention_rpe = torch.matmul(\n                attention_probs.transpose(0, 1), r_v\n            ).transpose(0, 1)\n\n            if self.rpe_old_option:\n                attention += attention + attention_rpe\n            else:\n                attention = attention + attention_rpe\n\n        assert list(attention.shape) == [B * self.num_heads, T, self.head_dim]\n\n        attention = attention.transpose(0, 1).contiguous().view(T, B, self.embed_dim)\n\n        rc_output_memory = self.out_proj(attention)\n        return rc_output_memory\n\n    @torch.jit.unused\n    def forward(\n        self,\n        input: Tensor,\n        lengths: Tensor,\n        mems: Tensor,\n        attention_mask: Tensor,\n        pre_mems: Optional[Tensor] = None,\n        left_context_key: Optional[Tensor] = None,\n        left_context_val: Optional[Tensor] = None,\n        rpe: Optional[Tensor] = None,\n    ) -> Tuple[Tensor, Tensor, Tensor, Tensor]:\n        \"\"\"\n        forward function for NoSegAugmentedMemoryMultiheadAttentionBmm in training.\n\n        args:\n            input: formed in the following way\n                [right_context_0, right_contex_1, ..., seg_0, seg_1,\n                ..., summary_0, summary_1,..]\n            lengths: the length of query which is [seg_0, seg_1, ....]\n            mems: [mem_0, mem_1, ...].\n            attention_mask: attention mask for query = [right_context, query, summary]\n                key = [mem, right_context, query]. This is only used for traing.\n\n        \"\"\"\n        if self.use_mem:\n            mem_length = mems.size(0)\n            summary_length = mem_length + 1\n            if pre_mems is not None:\n                mems = torch.cat([pre_mems, mems], dim=0)\n        else:\n            mem_length = 0\n            summary_length = 0\n\n        # In training, lc_length = 0\n        if left_context_key is not None:\n            lc_length = left_context_key.size(0)\n        else:\n            lc_length = 0\n        results = self.prepare_qkv(\n            input=input,\n            mems=mems,\n            lengths=lengths,\n            summary_length=summary_length,\n            lc_length=lc_length,\n        )\n        result_qkv, input_shape, result_lengths_info, padding_mask = results\n        q, k, v = result_qkv\n        (\n            mem_length,\n            utterance_length,\n            right_context_blocks_length,\n            key_length,\n        ) = result_lengths_info\n\n        if left_context_key is not None:\n            # add the cache key and value\n            new_k = torch.cat(\n                [\n                    k[: mem_length + right_context_blocks_length, :, :],\n                    left_context_key,\n                    k[-utterance_length:, :, :],\n                ],\n                dim=0,\n            )\n            new_v = torch.cat(\n                [\n                    v[: mem_length + right_context_blocks_length, :, :],\n                    left_context_val,\n                    v[-utterance_length:, :, :],\n                ],\n                dim=0,\n            )\n            next_k = new_k[mem_length + right_context_blocks_length :, :, :]\n            next_v = new_v[mem_length + right_context_blocks_length :, :, :]\n        else:\n            new_k = k\n            new_v = v\n            next_k = None\n            next_v = None\n\n        attention_weights, attention_weights_float, v = self.prepare_attention_weights(\n            q=q,\n            new_k=new_k,\n            new_v=new_v,\n            input_shape=input_shape,\n            rpe=rpe,\n        )\n\n        # mask attention\n        attention_mask = attention_mask.unsqueeze(0)\n        attention_weights_float = attention_weights_float.masked_fill(\n            attention_mask, float(self.negative_inf)\n        )\n\n        rc_output_memory = self.prepare_attention_output(\n            attention_weights=attention_weights,\n            attention_weights_float=attention_weights_float,\n            v=v,\n            input_shape=input_shape,\n            key_length=key_length,\n            padding_mask=padding_mask,\n            rpe=rpe,\n        )\n\n        if self.use_mem:\n            # next_m length equals to summary length - 1\n            # last memory is ignored\n            if self.mini_batches:\n                next_m = rc_output_memory[-summary_length:]\n            else:\n                next_m = rc_output_memory[-summary_length:-1]\n\n            next_m = self.squash_mem(next_m)\n            # rc and output\n            rc_output = rc_output_memory[:-summary_length]\n            if not self.nonlinear_squash_mem:\n                next_m = torch.clamp(next_m, min=-10, max=10)\n        else:\n            next_m = mems\n            rc_output = rc_output_memory\n\n        return rc_output, next_m, next_k, next_v\n\n    @torch.jit.export\n    def forward_jit(\n        self,\n        input: Tensor,\n        lengths: Tensor,\n        mems: Tensor,\n        left_context_key: Tensor,\n        left_context_val: Tensor,\n        rpe: Optional[Tensor],\n    ) -> Tuple[Tensor, Tensor, Tensor, Tensor]:\n        \"\"\"\n        forward function for NoSegAugmentedMemoryMultiheadAttentionBmm in decoding.\n\n        args:\n            input: formed in the following way\n                [right_context_0, right_contex_1, ..., seg_0, seg_1,\n                ..., summary_0, summary_1,..]\n            lengths: the length of query which is [seg_0, seg_1, ....]\n            mems: [mem_0, mem_1, ...].\n            left_context_key: left_context for key part. This is only used for online\n                decoding. In training, this is empty tensor\n            left_context_val: left_context for value part. This is only used for online\n                decoding. In training, this is empty tensor\n\n        \"\"\"\n        lc_length = left_context_key.size(0)\n\n        # In decoding, summary_length = 1 or 0\n        if self.use_mem:\n            summary_length = 1\n        else:\n            summary_length = 0\n\n        results = self.prepare_qkv(\n            input=input,\n            mems=mems,\n            lengths=lengths,\n            summary_length=summary_length,\n            lc_length=lc_length,\n        )\n        result_qkv, input_shape, result_lengths_info, padding_mask = results\n        q, k, v = result_qkv\n        (\n            mem_length,\n            utterance_length,\n            right_context_blocks_length,\n            key_length,\n        ) = result_lengths_info\n\n        # add the cache key and value\n        new_k = torch.cat(\n            [\n                k[: mem_length + right_context_blocks_length, :, :],\n                left_context_key,\n                k[-utterance_length:, :, :],\n            ],\n            dim=0,\n        )\n        new_v = torch.cat(\n            [\n                v[: mem_length + right_context_blocks_length, :, :],\n                left_context_val,\n                v[-utterance_length:, :, :],\n            ],\n            dim=0,\n        )\n        next_k = new_k[mem_length + right_context_blocks_length :, :, :]\n        next_v = new_v[mem_length + right_context_blocks_length :, :, :]\n\n        attention_weights, attention_weights_float, v = self.prepare_attention_weights(\n            q=q,\n            new_k=new_k,\n            new_v=new_v,\n            input_shape=input_shape,\n            rpe=rpe,\n        )\n        # In online decoding, we don't have attention mask. But we still need\n        # to disable the attention from summary query to memory\n        attention_weights_float[:, -1, :mem_length] = float(self.negative_inf)\n        rc_output_memory = self.prepare_attention_output(\n            attention_weights=attention_weights,\n            attention_weights_float=attention_weights_float,\n            v=v,\n            input_shape=input_shape,\n            key_length=key_length,\n            padding_mask=padding_mask,\n            rpe=rpe,\n        )\n\n        # In decoding, summary length is 1\n        if self.use_mem:\n            next_m = rc_output_memory[-1:]\n            next_m = self.squash_mem(next_m)\n            # rc and output\n            rc_output = rc_output_memory[:-1]\n            if not self.nonlinear_squash_mem:\n                next_m = torch.clamp(next_m, min=-10, max=10)\n        else:\n            rc_output = rc_output_memory\n            # empty tensor as input mems\n            next_m = mems\n\n        return rc_output, next_m, next_k, next_v\n\n    def quantize_(self, params=None):\n        if params and \"per_channel\" in params and params[\"per_channel\"]:\n            qconfig = per_channel_dynamic_qconfig\n        else:\n            qconfig = default_dynamic_qconfig\n        quantization.quantize_dynamic(\n            self, {torch.nn.Linear: qconfig}, dtype=torch.qint8, inplace=True\n        )\n        return self\n\n\nclass NoSegAugmentedMemoryTransformer(nn.Module):\n    \"\"\"\n    Whole utterance augmented memory transformer.\n\n    This is not pyspeech nn layer. It is used as a module in a master layer where\n    multiple transformers is used.\n    \"\"\"\n\n    def __init__(\n        self,\n        input_dim,\n        num_heads,\n        ffn_dim,\n        dropout_in_attn=0.0,\n        dropout_on_attn=None,\n        dropout_on_fc1=None,\n        dropout_on_fc2=None,\n        activation_fn=\"relu\",\n        tanh_on_mem=False,\n        std_scale=None,\n        scaled_init=False,\n        segment_size=128,\n        use_mem=True,\n        mini_batches=False,\n        negative_inf=\"-inf\",\n        layer_index=-1,\n        summarization_method=\"mean\",\n        max_relative_position=0,\n        rpe_old_option=True,\n    ):\n        super(NoSegAugmentedMemoryTransformer, self).__init__()\n\n        self.attention = NoSegAugmentedMemoryMultiheadAttentionBmm(\n            input_dim=input_dim,\n            num_heads=num_heads,\n            dropout=dropout_in_attn,\n            scaled_init=scaled_init,\n            tanh_on_mem=tanh_on_mem,\n            std_scale=std_scale,\n            use_mem=use_mem,\n            mini_batches=mini_batches,\n            negative_inf=negative_inf,\n            layer_index=layer_index,\n            max_relative_position=max_relative_position,\n        )\n        self.dropout = nn.Dropout(dropout_on_attn)\n        self.pos_ff = PositionwiseFF(\n            input_dim=input_dim,\n            ffn_dim=ffn_dim,\n            dropout_on_fc1=dropout_on_fc1,\n            dropout_on_fc2=dropout_on_fc2,\n            activation_fn=activation_fn,\n        )\n        self.layer_norm_pre = Fp32LayerNorm(input_dim)\n        self.layer_norm = Fp32LayerNorm(input_dim)\n        self.segment_size = segment_size\n        self.use_mem = use_mem\n\n        self.memory_op = SummarizationLayer(\n            summarization_method, segment_size, input_dim\n        )\n\n    def set_mini_batches(self, mini_batches):\n        self.attention.mini_batches = mini_batches\n\n    def gen_summary_queries(self, input):\n        sum_input = self.memory_op(input)\n        return sum_input\n\n    def pre_attention_ops(self, input, right_context_blocks):\n        rc_length = right_context_blocks.size(0)\n        input_length = input.size(0)\n\n        rc_and_input = torch.cat([right_context_blocks, input], dim=0)\n        residual_input = rc_and_input\n        rc_and_input = self.layer_norm_pre(rc_and_input)\n\n        query_input = rc_and_input[-input_length:, :, :]\n        return rc_length, input_length, residual_input, query_input, rc_and_input\n\n    def after_attention_ops(self, attention_output, residual_input):\n        output = self.dropout(attention_output)\n        output = output + residual_input\n        output = self.pos_ff(output)\n        output = self.layer_norm(output)\n        return output\n\n    @torch.jit.export\n    def forward_jit(\n        self,\n        input: Tensor,\n        lengths: Tensor,\n        mems: Tensor,\n        left_context_key: Tensor,\n        left_context_val: Tensor,\n        right_context_blocks: Tensor,\n        rpe: Optional[Tensor],\n    ) -> Tuple[Tensor, Tensor, Tensor, Tensor, Tensor]:\n\n        results = self.pre_attention_ops(input, right_context_blocks)\n        rc_length, input_length, residual_input, query_input, rc_and_input = results\n\n        # In online decoding, the summary query size is always 1 or 0\n        if self.use_mem:\n            summary_query = self.gen_summary_queries(query_input)\n            summary_query = summary_query[0:1, :, :]\n            rc_qu_su = torch.cat([rc_and_input, summary_query], dim=0)\n        else:\n            rc_qu_su = rc_and_input\n\n        rc_output, next_m, next_k, next_v = self.attention.forward_jit(\n            input=rc_qu_su,\n            lengths=lengths,\n            mems=mems,\n            left_context_key=left_context_key,\n            left_context_val=left_context_val,\n            rpe=rpe,\n        )\n        rc_output = self.after_attention_ops(rc_output, residual_input)\n        results = (\n            rc_output[-input_length:, :, :],\n            next_m,\n            rc_output[0:rc_length, :, :],\n            next_k,\n            next_v,\n        )\n        return results\n\n    @torch.jit.unused\n    def forward(\n        self,\n        input,\n        lengths,\n        mems,\n        right_context_blocks,\n        attention_mask,\n        pre_mems,\n        left_context_key,\n        left_context_val,\n        rpe,\n    ):\n\n        results = self.pre_attention_ops(input, right_context_blocks)\n        rc_length, input_length, residual_input, query_input, rc_and_input = results\n        if self.use_mem:\n            summary_query = self.gen_summary_queries(query_input)\n            rc_qu_su = torch.cat([rc_and_input, summary_query], dim=0)\n        else:\n            rc_qu_su = rc_and_input\n\n        rc_output, next_m, next_k, next_v = self.attention(\n            input=rc_qu_su,\n            lengths=lengths,\n            mems=mems,\n            attention_mask=attention_mask,\n            pre_mems=pre_mems,\n            left_context_key=left_context_key,\n            left_context_val=left_context_val,\n            rpe=rpe,\n        )\n\n        # [TODO] Note memory did not go through pos_ff. What happen if we pass\n        # memory through the pos_ff as well?\n        rc_output = self.after_attention_ops(rc_output, residual_input)\n        results = (\n            rc_output[-input_length:, :, :],\n            next_m,\n            rc_output[0:rc_length, :, :],\n            next_k,\n            next_v,\n        )\n\n        return results\n\n\nclass NoSegAugmentedMemoryTransformerEncoderLayer(FairseqEncoder):\n    \"\"\"\n    Whole utterance augmented memory transformer encoder layer. This is a master layer\n    where we can define multiple augmented memory transformers. There are two reasons\n    to setup the master layer.\n    1. We only need to define once about the attention mask. All the layers in the master\n       layer share the same mask.\n    2. pyspeech nn layer has special input and output format. Defining one master layer is\n       easier to passing memory between different layes inside the master layer\n\n    args:\n        input_dim: input embedding dimension\n        num_heads: number of heads in multihead self-attention\n        ffn_dim: ffn dimension in FFN layer\n        num_layers: number of augmented memory transformer layers\n        dropout_in_attn: dropout used in multi-head self-attention\n        dropout_on_attn: dropout used for output from te multihead self-attention\n        dropout_on_fc1: dropout used in FFN layer for the first linear layer\n        dropout_on_fc2: dropout used in FFN layer for the second linear layer\n        segment_size: segment size for each segment\n        context_config: (left_context_size, right_context_size) defines the surround context size\n            for each segment\n        max_memory_size: maximum memory size used for each segment\n        scaled_init: whether use scaled init for weight initialization in attention layer\n        std_scale: if std_scale is not None. The weak attention suppression is\n            turned on. For std_scale = 0.5, all the attention smaller than\n            mean + 0.5 * std will be suppressed.\n        activation_fn: activation function used in FFN layer. [ReLU, GELU] supported\n        tanh_on_mem: whether use tanh on memory\n        mini_batches: use mini-btach training\n        negative_inf: the negative infinity value used in attention masking. default is \"-inf\".\n            For some situation, e.g. LM. it is better to use \"-1e8\" to avoid nan issue.\n        summarization_method: method to generate segment summrization embedding\n        max_relative_position: max relatie position for relative position embedding\n        rpe_old_option: To be compatible with previous model. The previous model\n            was trained with attention += attention + rpe. The correct equation\n            should be attention = attention + rpe\n        [TODO]: remove the rpe_old_option by the end of 2021 Q1.\n\n    \"\"\"\n\n    def __init__(\n        self,\n        input_dim,\n        num_heads,\n        ffn_dim,\n        num_layers=1,\n        dropout_in_attn=0.0,\n        dropout_on_attn=0.0,\n        dropout_on_fc1=0.0,\n        dropout_on_fc2=0.0,\n        segment_size=128,\n        context_config=(0, 0),\n        max_memory_size=0,\n        scaled_init=True,\n        std_scale=None,\n        activation_fn=\"relu\",\n        tanh_on_mem=False,\n        mini_batches=False,\n        negative_inf=\"-inf\",\n        deep_init=True,\n        summarization_method=\"mean\",\n        max_relative_position=0,\n        rpe_old_option=True,\n    ):\n        super().__init__(None)\n        if input_dim % num_heads:\n            raise ValueError(\n                \"input_dim ({}) must be divisible by num_heads ({})\".format(\n                    input_dim, num_heads\n                )\n            )\n\n        # we used to support growing memory size. However, it will cause\n        # cross stream batching failure. Now we need to have exact max memory size\n        if max_memory_size < 0:\n            raise ValueError(\"max_memory_size must be >= 0\")\n\n        # Only assign right_context. In decoding, left context will be cached.\n        # No need to let the online decoder to re-assign the left context\n        self.left_context, self.right_context = context_config\n        self.segment_size = segment_size\n        self.memory_dim = input_dim\n        self.max_memory_size = max_memory_size\n        self.mini_batches = mini_batches\n        if self.max_memory_size != 0:\n            self.use_mem = True\n        else:\n            self.use_mem = False\n\n        self.memory_op = SummarizationLayer(\n            summarization_method, segment_size, input_dim\n        )\n\n        self.layers = torch.nn.ModuleList()\n        self.num_layers = num_layers\n        self.max_relative_position = max_relative_position\n        if self.max_relative_position > 0:\n            self.use_rpe = True\n        else:\n            self.use_rpe = False\n        for i in range(self.num_layers):\n            if deep_init:\n                layer_index = i\n            else:\n                layer_index = -1\n\n            self.layers.append(\n                NoSegAugmentedMemoryTransformer(\n                    num_heads=num_heads,\n                    input_dim=input_dim,\n                    ffn_dim=ffn_dim,\n                    dropout_in_attn=dropout_in_attn,\n                    dropout_on_attn=dropout_on_attn,\n                    dropout_on_fc1=dropout_on_fc1,\n                    dropout_on_fc2=dropout_on_fc2,\n                    segment_size=segment_size,\n                    std_scale=std_scale,\n                    activation_fn=activation_fn,\n                    tanh_on_mem=tanh_on_mem,\n                    scaled_init=scaled_init,\n                    use_mem=self.use_mem,\n                    mini_batches=mini_batches,\n                    negative_inf=negative_inf,\n                    layer_index=layer_index,\n                    summarization_method=summarization_method,\n                    max_relative_position=max_relative_position,\n                    rpe_old_option=rpe_old_option,\n                )\n            )\n\n    def set_mini_batches(self, mini_batches):\n        # handy function only used for unit test\n        self.mini_batches = mini_batches\n        for layer in self.layers:\n            layer.set_mini_batches(mini_batches)\n\n    def _get_relative_position(\n        self,\n        input: Tensor,\n        max_relative_position: int,\n        left_context_length: int,\n        past_length: int,\n        is_decoding: bool,\n    ):\n        # For training, we copy the right context to the start of the utterance\n        # First dimension in distance is corresponding to query.\n        # [right context, utterance, summary vector]\n        # Second dimension in distance is corresponding to key.\n        # [Memory bank, right context, utterance]\n        # For summary vector in query part, the distance with\n        # all other position is 2*max_position. For memory bank in key,\n        # the distance with all other positions is 0.\n\n        T, B, D = input.shape\n        num_segs = math.ceil((T - self.right_context) / self.segment_size)\n\n        # utterance\n        u_st = past_length * self.segment_size\n        u_ed = u_st + T\n        utterance_ranges = torch.arange(u_st, u_ed - self.right_context)\n\n        # left context. Only in minibatch or decoding\n        left_context_ranges = torch.arange(u_st - left_context_length, u_st)\n\n        # Right context block\n        # right context + utterance\n        right_context_blocks = []\n        for i in range(0, num_segs - 1):\n            st = (i + 1) * self.segment_size + u_st\n            ed = st + self.right_context\n            assert ed < u_ed\n            temp = torch.arange(st, ed)\n            right_context_blocks.append(temp)\n        right_context_blocks.append(torch.arange(u_ed - self.right_context, u_ed))\n        right_context_ranges = torch.cat(right_context_blocks)\n\n        if self.use_mem:\n            # Memory bank\n            # The position for memory -n, .., -1\n            if is_decoding:\n                memory_size = min(past_length, self.max_memory_size)\n            else:\n                memory_size = num_segs + past_length - 1\n            memory_bank_ranges = torch.arange(\n                -max_relative_position - 1, -max_relative_position - 1 - memory_size, -1\n            )\n\n            # summary vector\n            # The position for summary vector as the T+max_relative_position+1.\n            # After the clamping, the relative position is max_relative_position\n            summary_pos_st = u_ed + max_relative_position + 1\n            summary_vector_ranges = torch.arange(\n                summary_pos_st, summary_pos_st + num_segs\n            )\n\n            key_ranges = torch.cat(\n                [\n                    memory_bank_ranges,\n                    right_context_ranges,\n                    left_context_ranges,\n                    utterance_ranges,\n                ]\n            )\n\n            query_ranges = torch.cat(\n                [right_context_ranges, utterance_ranges, summary_vector_ranges]\n            )\n        else:\n            key_ranges = torch.cat(\n                [right_context_ranges, left_context_ranges, utterance_ranges]\n            )\n\n            query_ranges = torch.cat([right_context_ranges, utterance_ranges])\n\n        distance = key_ranges[None, :] - query_ranges[:, None]\n        distance_clamp = (\n            torch.clamp(distance, -max_relative_position, max_relative_position)\n            + max_relative_position\n        )\n        distance_clamp = distance_clamp.to(input.device).long().detach()\n        return distance_clamp\n\n    def _get_attention_mask(self, input, past_length=0, left_context_cache=0):\n        # attention mask for each query contains three parts:\n        # 1. memory part\n        # 2. left_context + segment\n        # 3. right_context_block\n        # so for each segment and its correspoinding right context block,\n        # the attention matrix is formed by 9 parts:\n        # [0, m, 0, 0, right_context, 0, 0, seg, 0]\n        # [before memory, memory, after memory, before right context, right_context,\n        #  after right context, before seg, seg, after seg]\n        #\n        # Query is formed in the way as [right_context_blocks, utterance, summary]\n        #\n        # Note: put m and right_context before segment is convenient\n        # for padding_mask operation.\n        # Key lengths = m_length + right_context_block_length + lengths\n        utterance_length, batch_size, _ = input.shape\n        summary_length = math.ceil(utterance_length / self.segment_size)\n        num_segs = summary_length\n        rc_length = self.right_context * num_segs\n        rc = self.right_context\n        lc = self.left_context\n\n        # using mini-batches, there is left context cache available for current\n        # sequence.\n        lcc = left_context_cache\n\n        # max_memory_size is 0 then we don't have memory and summary\n        # past_length is the memory carry from previous sequence\n        if self.use_mem:\n            mem_length = num_segs - 1 + past_length\n        else:\n            mem_length = 0\n        rc_mask = []\n        query_mask = []\n        summary_mask = []\n        for j in range(0, num_segs):\n            ssize = min(self.segment_size, utterance_length - j * self.segment_size)\n\n            rc_size = rc\n            rc_mat = []\n            q_mat = []\n            s_mat = []\n            m_start = max(j + past_length - self.max_memory_size, 0)\n\n            # max_memory_size is 0, then we don't use memory\n            if self.use_mem:\n                # part 0: before memory\n                rc_mat.append(input.new_zeros(rc_size, m_start))\n                q_mat.append(input.new_zeros(ssize, m_start))\n                s_mat.append(input.new_zeros(1, m_start))\n\n                # part 1: memory\n                col_1 = j + past_length - m_start\n                rc_mat.append(torch.ones(rc_size, col_1, device=input.device))\n                q_mat.append(torch.ones(ssize, col_1, device=input.device))\n                # based on D22875746, disable summary query attention\n                # on memeory is better for long form utterance\n                s_mat.append(input.new_zeros(1, col_1))\n\n                # part 2: after memory\n                col_2 = mem_length - (j + past_length)\n                rc_mat.append(input.new_zeros(rc_size, col_2))\n                q_mat.append(input.new_zeros(ssize, col_2))\n                s_mat.append(input.new_zeros(1, col_2))\n\n            # part 3: before right context\n            rc_start = j * rc\n            rc_mat.append(input.new_zeros(rc_size, rc_start))\n            q_mat.append(input.new_zeros(ssize, rc_start))\n            s_mat.append(input.new_zeros(1, rc_start))\n\n            # part 4: right context\n            rc_end = rc_start + rc\n            col_4 = rc\n            rc_mat.append(torch.ones(rc_size, col_4, device=input.device))\n            q_mat.append(torch.ones(ssize, col_4, device=input.device))\n            s_mat.append(torch.ones(1, col_4, device=input.device))\n\n            # part 5: after right context\n            col_5 = rc_length - rc_end\n            rc_mat.append(input.new_zeros(rc_size, col_5))\n            q_mat.append(input.new_zeros(ssize, col_5))\n            s_mat.append(input.new_zeros(1, col_5))\n\n            # part 6: before query segment\n            seg_start = max(j * self.segment_size + lcc - lc, 0)\n            rc_mat.append(input.new_zeros(rc_size, seg_start))\n            q_mat.append(input.new_zeros(ssize, seg_start))\n            s_mat.append(input.new_zeros(1, seg_start))\n\n            # part 7: query segment\n            # note: right context is put in right context block\n            # here we only need to consider about left context\n            seg_end = min((j + 1) * self.segment_size + lcc, utterance_length + lcc)\n            col_7 = seg_end - seg_start\n            rc_mat.append(torch.ones(rc_size, col_7, device=input.device))\n            q_mat.append(torch.ones(ssize, col_7, device=input.device))\n            s_mat.append(torch.ones(1, col_7, device=input.device))\n\n            # part 8: after query segment\n            col_8 = utterance_length + lcc - seg_end\n            rc_mat.append(input.new_zeros(rc_size, col_8))\n            q_mat.append(input.new_zeros(ssize, col_8))\n            s_mat.append(input.new_zeros(1, col_8))\n\n            rc_mask.append(torch.cat(rc_mat, dim=1))\n            query_mask.append(torch.cat(q_mat, dim=1))\n            summary_mask.append(torch.cat(s_mat, dim=1))\n\n        # no memory, then we don't need summary either\n        if self.use_mem:\n            attention_mask = (\n                1\n                - torch.cat(\n                    [\n                        torch.cat(rc_mask, dim=0),\n                        torch.cat(query_mask, dim=0),\n                        torch.cat(summary_mask, dim=0),\n                    ],\n                    dim=0,\n                )\n            ).to(torch.bool)\n        else:\n            attention_mask = (\n                1\n                - torch.cat(\n                    [torch.cat(rc_mask, dim=0), torch.cat(query_mask, dim=0)], dim=0\n                )\n            ).to(torch.bool)\n\n        return attention_mask\n\n    @torch.jit.export\n    def init_state(\n        self, batch_size: int, device: Optional[Device] = None\n    ) -> List[Tensor]:\n        empty_memory = torch.zeros(\n            self.num_layers,\n            self.max_memory_size,\n            batch_size,\n            self.memory_dim,\n            device=device,\n        )\n        left_context_key = torch.zeros(\n            self.num_layers,\n            self.left_context,\n            batch_size,\n            self.memory_dim,\n            device=device,\n        )\n        left_context_val = torch.zeros(\n            self.num_layers,\n            self.left_context,\n            batch_size,\n            self.memory_dim,\n            device=device,\n        )\n        past_length = torch.zeros(1, batch_size, dtype=torch.int32, device=device)\n\n        return [empty_memory, left_context_key, left_context_val, past_length]\n\n    @torch.jit.export\n    def batch_state(self, states: List[List[Tensor]]) -> List[Tensor]:\n        if len(states) == 0:\n            return []\n        batched_m = []\n        batched_lc_key = []\n        batched_lc_val = []\n        batched_past_length = []\n        for state in states:\n            if len(state) == 0:\n                continue\n            m, lc_key, lc_val, past_length = state\n            batched_m.append(m)\n            batched_lc_key.append(lc_key)\n            batched_lc_val.append(lc_val)\n            batched_past_length.append(past_length)\n\n        if (\n            (len(batched_m) == 0)\n            or (len(batched_lc_key) == 0)\n            or (len(batched_lc_val) == 0)\n            or (len(batched_past_length) == 0)\n        ):\n            return [\n                torch.tensor([]),\n                torch.tensor([]),\n                torch.tensor([]),\n                torch.tensor([]),\n            ]\n\n        batched_m = torch.cat(batched_m, dim=2)\n        batched_lc_key = torch.cat(batched_lc_key, dim=2)\n        batched_lc_val = torch.cat(batched_lc_val, dim=2)\n        batched_past_length = torch.cat(batched_past_length, dim=1)\n        return [batched_m, batched_lc_key, batched_lc_val, batched_past_length]\n\n    @torch.jit.export\n    def reorder_state(self, state: List[Tensor], indices: Tensor) -> List[Tensor]:\n        if len(state) == 0:\n            return []\n        m, lc_key, lc_val, past_length = state\n        indices = indices.to(device=m.device)\n        reord_m = torch.index_select(m, 2, indices)\n        reord_lc_key = torch.index_select(lc_key, 2, indices)\n        reord_lc_val = torch.index_select(lc_val, 2, indices)\n        reord_past_length = torch.index_select(past_length, 1, indices)\n        return [reord_m, reord_lc_key, reord_lc_val, reord_past_length]\n\n    @torch.jit.export\n    def reset_state(self, state: List[Tensor], indices: Tensor) -> List[Tensor]:\n        m, lc_key, lc_val, past_length = state\n        m = m.index_fill(dim=2, index=indices, value=0.0)\n        lc_key = lc_key.index_fill(dim=2, index=indices, value=0.0)\n        lc_val = lc_val.index_fill(dim=2, index=indices, value=0.0)\n        past_length = past_length.index_fill(dim=1, index=indices, value=0)\n\n        return [m, lc_key, lc_val, past_length]\n\n    @torch.jit.export\n    def state_size(self) -> int:\n        return 4\n\n    @torch.jit.export\n    def batch_size_in_state(\n        self, state: Optional[List[Tensor]], sloppy: bool = True\n    ) -> Optional[int]:\n        if state is None:\n            return None\n        return state[0].size(2)\n\n    def gen_summary_queries(self, input):\n        sum_input = self.memory_op(input)\n        return sum_input\n\n    def _gen_right_context_padded_input(self, input):\n        # This function deals with input that is already\n        # padded with right context (e.g. minibatch training)\n        right_context_blocks = []\n        T, B, D = input.shape\n        num_segs = math.ceil((T - self.right_context) / self.segment_size)\n        for i in range(0, num_segs - 1):\n            st = (i + 1) * self.segment_size\n            ed = st + self.right_context\n            assert ed < T\n            temp = input[st:ed, :, :]\n            right_context_blocks.append(temp)\n\n        # last segment right context is already available\n        right_context_blocks.append(input[T - self.right_context :, :, :])\n        return torch.cat(right_context_blocks, dim=0)\n\n    def _gen_segs_right_context(self, input, lengths):\n        segments = []\n        T, B, D = input.size()\n        nT = T - self.right_context\n\n        # assume input is right context padded\n        num_segs = math.ceil(nT / self.segment_size)\n        # pad zeros to the utterance to make sure each\n        # segment has the same right context. For the\n        for i in range(0, num_segs - 1):\n            st = i * self.segment_size\n            ed = min(T, st + self.segment_size + self.right_context)\n            temp = input[st:ed, :, :]\n            rest_lengths = torch.clamp(\n                lengths - self.segment_size, min=0, max=nT - (i + 1) * self.segment_size\n            )\n            segments.append((temp, lengths - rest_lengths + self.right_context))\n            lengths = rest_lengths\n\n        last_seg = input[st + self.segment_size :, :, :]\n        segments.append((last_seg, rest_lengths + self.right_context))\n\n        return segments\n\n    @torch.jit.unused\n    def forward(\n        self, input: Tensor, padding_masks: Tensor, state: Optional[List[Tensor]] = None\n    ) -> Tuple[Tensor, Tensor, List[Tensor], List[Tensor]]:\n        # Xutai: originally the second argument is lengths.\n        lengths = (~padding_masks).sum(dim=1).long()\n        # mini batch training.\n        if self.mini_batches:\n            return self.forward_mini_batches(input, lengths, state)\n\n        # regular full sequence training. Note, assume the right context in provided\n        # in the input.\n        T, B, D = input.size()\n        right_context_blocks = self._gen_right_context_padded_input(input)\n\n        # generate the relative positional embedding\n        if self.use_rpe:\n            rpe = self._get_relative_position(\n                input=input,\n                max_relative_position=self.max_relative_position,\n                left_context_length=0,\n                past_length=0,\n                is_decoding=False,\n            )\n        else:\n            rpe = None\n        input = input[: T - self.right_context, :, :]\n\n        attention_mask = self._get_attention_mask(input)\n\n        # firt layer use each segment mean as memory\n        # ignore the last one seg average\n        if self.use_mem:\n            mems = self.gen_summary_queries(input)[:-1, :, :]\n        else:\n            mems = torch.zeros(0, input.size(1), input.size(2), device=input.device)\n            mems = mems.type_as(input)\n\n        output = input\n        all_outputs = []\n\n        for layer in self.layers:\n            output, mems, right_context_blocks, _, _ = layer(\n                input=output,\n                lengths=lengths,\n                attention_mask=attention_mask,\n                mems=mems,\n                right_context_blocks=right_context_blocks,\n                pre_mems=None,\n                left_context_key=None,\n                left_context_val=None,\n                rpe=rpe,\n            )\n            all_outputs.append(output)\n        return output, padding_masks, [], all_outputs\n\n    def forward_jit_mini_batch_init(\n        self,\n        seg: Tensor,\n        state: Optional[List[Tensor]] = None,\n        is_decoding: bool = False,\n    ):\n        # Prepare state. In whole sequence training, state is ignored.\n        # For minibatch training, we need to prepare state\n        if state is None:\n            state = self.init_state(batch_size=seg.size(1), device=seg.device)\n            if seg.dtype == torch.half:\n                state = [state[0].half(), state[1].half(), state[2].half(), state[3]]\n\n        if self.use_mem:\n            # note input average only on seg, not on right context\n            # first layer use each segmetn mean as memory. the last\n            # one segment average is used in state\n            full_mems = self.gen_summary_queries(seg)\n            if is_decoding:\n                mems = full_mems[0:1, :, :]\n                state_mems = torch.cat([state[0][0], mems], dim=0)\n            else:\n                mems = full_mems[:-1, :, :]\n                state_mems = torch.cat([state[0][0], full_mems], dim=0)\n        else:\n            mems = state[0][0]\n            state_mems = mems\n\n        # track processed segment number or memory number\n        # the same batch as the same bumber of past length\n        past_length = state[3][0][0].item()\n        past_left_context = min(past_length * self.segment_size, self.left_context)\n        past_length = min(self.max_memory_size, past_length)\n\n        return state, mems, state_mems, past_length, past_left_context\n\n    def state_update_before(\n        self, layer: int, state: List[Tensor], past_length: int, past_left_context: int\n    ):\n        pre_mems = state[0][layer][self.max_memory_size - past_length :, :, :]\n        lc_key = state[1][layer][self.left_context - past_left_context :, :, :]\n        lc_val = state[2][layer][self.left_context - past_left_context :, :, :]\n        return pre_mems, lc_key, lc_val\n\n    def state_update_after(\n        self,\n        layer: int,\n        state: List[Tensor],\n        mems: Tensor,\n        next_key: Tensor,\n        next_val: Tensor,\n        mems_list: List[Tensor],\n        lc_key_list: List[Tensor],\n        lc_val_list: List[Tensor],\n    ):\n        # mems is used for next layer\n        if layer < self.num_layers - 1:\n            state_mems = torch.cat([state[0][layer + 1], mems], dim=0)\n            mems_list.append(state_mems[-self.max_memory_size :, :, :])\n\n        # when mems pass to next sequence, we need the last memory. when mems\n        # use for the next layer, we can ignore the last memory\n        mems = mems[:-1, :, :]\n\n        # note state[1][i] and state[2][i] original length equals to self.left_context\n        new_k = torch.cat([state[1][layer], next_key], dim=0)\n        new_v = torch.cat([state[2][layer], next_val], dim=0)\n        lc_key_list.append(new_k[-self.left_context :, :, :])\n        lc_val_list.append(new_v[-self.left_context :, :, :])\n        return mems_list, lc_key_list, lc_val_list, mems\n\n    def state_update_after_loop(\n        self,\n        state: List[Tensor],\n        mems_list: List[Tensor],\n        lc_key_list: List[Tensor],\n        lc_val_list: List[Tensor],\n        update_length: int,\n    ):\n        state[0] = torch.stack(mems_list, dim=0)\n        state[1] = torch.stack(lc_key_list, dim=0)\n        state[2] = torch.stack(lc_val_list, dim=0)\n        state[3] = state[3] + update_length\n        return state\n\n    @torch.jit.unused\n    def forward_mini_batches(\n        self, input: Tensor, lengths: Tensor, state: Optional[List[Tensor]] = None\n    ) -> Tuple[Tensor, Tensor, List[Tensor], List[Tensor]]:\n        T, B, D = input.size()\n\n        # input without right context\n        seg = input[: T - self.right_context, :, :]\n\n        # get right context blocks\n        right_context_blocks = self._gen_right_context_padded_input(input)\n\n        mems_list = []\n        lc_key_list = []\n        lc_val_list = []\n        results = self.forward_jit_mini_batch_init(seg, state, False)\n        state, mems, state_mems, past_length, past_left_context = results\n\n        # relative position embedding\n        if self.use_rpe:\n            rpe = self._get_relative_position(\n                input=input,\n                max_relative_position=self.max_relative_position,\n                left_context_length=past_left_context,\n                past_length=past_length,\n                is_decoding=False,\n            )\n        else:\n            rpe = None\n\n        # get attention mask based on seg (not include right context) and available\n        # left context\n        attention_mask = self._get_attention_mask(seg, past_length, past_left_context)\n        mems_list.append(state_mems[-self.max_memory_size :, :, :])\n        output = seg\n        i = 0\n        all_outputs = []\n        for layer in self.layers:\n            # In order to make cross stream batching work, mem, left context key\n            # and left context value in the state should always be the same shape.\n            # We use the past length to track the processed segment number. In this\n            # way, we take out the essential memory, left context key and left\n            # context val from the state. After finish the forward for current segment\n            # we add the new memory, left context key and left context value into the\n            # staate and trim out the oldest part to keep the shape consistent.\n            pre_mems, lc_key, lc_val = self.state_update_before(\n                i, state, past_length, past_left_context\n            )\n\n            output, mems, right_context_blocks, next_key, next_val = layer.forward(\n                input=output,\n                lengths=lengths,\n                attention_mask=attention_mask,\n                mems=mems,\n                right_context_blocks=right_context_blocks,\n                pre_mems=pre_mems,\n                left_context_key=lc_key,\n                left_context_val=lc_val,\n                rpe=rpe,\n            )\n            all_outputs.append(output)\n            mems_list, lc_key_list, lc_val_list, mems = self.state_update_after(\n                layer=i,\n                state=state,\n                mems=mems,\n                next_key=next_key,\n                next_val=next_val,\n                mems_list=mems_list,\n                lc_key_list=lc_key_list,\n                lc_val_list=lc_val_list,\n            )\n\n            i += 1\n\n        # update state\n        update_length = math.ceil((T - self.right_context) / self.segment_size)\n        state = self.state_update_after_loop(\n            state=state,\n            mems_list=mems_list,\n            lc_key_list=lc_key_list,\n            lc_val_list=lc_val_list,\n            update_length=update_length,\n        )\n\n        return output, lengths, state, all_outputs\n\n    def forward_jit_test(\n        self, input: Tensor, lengths: Tensor, state: Optional[List[Tensor]] = None\n    ) -> Tuple[Tensor, Tensor, List[Tensor]]:\n        \"\"\"\n        This one simulate sequence encoder forward jit. This is for unit test purpose.\n        It is not used in training or decoding. Note, extra_right_context is set in\n        the model. In unit test, input = [utterance, right_context], lengths =\n        [utterance_length].\n        args:\n            input: input utterance\n            lengths: utterance input length\n            state: None here. input is whole utterance\n        \"\"\"\n        # [TODO] sequence_to_segment has bug in lengths.\n        seg_src_tokens_lengths = self._gen_segs_right_context(input, lengths)\n\n        seg_enc_tokens_lengths: List[Tuple[Tensor, Tensor]] = []\n        state: Optional[List[Tensor]] = None\n        for seg_src_tokens, seg_src_lengths in seg_src_tokens_lengths:\n            seg_enc_tokens, seg_enc_lengths, state = self.forward_jit(\n                input=seg_src_tokens, lengths=seg_src_lengths, state=state\n            )\n            seg_enc_tokens_lengths.append((seg_enc_tokens, seg_enc_lengths))\n\n        enc_tokens, enc_lengths = segments_to_sequence(\n            segments=seg_enc_tokens_lengths, time_axis=0\n        )\n\n        state = []  # returns trivial state\n\n        return enc_tokens, enc_lengths, state\n\n    @torch.jit.export\n    def forward_jit(\n        self, input: Tensor, lengths: Tensor, state: Optional[List[Tensor]] = None\n    ) -> Tuple[Tensor, Tensor, List[Tensor]]:\n        \"\"\"\n        Forward helper for online decoding.\n\n        args:\n            input: [seg, right_context]. We assume in online we\n                always padding the right context to the preset right context size.\n                For the last segment, we may have short segment size, but right\n                context size is the same as other segments\n            lengths: utterance input length is the utterance segment length and\n                     right context size\n            state: [memory, left_context_key, left_context_val]. To improve throughput,\n                in addition to memory, we also cache key and value for left_context in\n                multihead self-attention\n        \"\"\"\n        # In online decoding, input = [segment, right_context]\n        # Lengths = [segment_length, right_context_length]\n        # so we need strip right context in output\n        T, B, D = input.size()\n        rc_str = T - self.right_context\n        rc_end = T\n        right_context_blocks = input[rc_str:rc_end, :, :]\n        seg = input[:rc_str, :, :]\n        lengths = torch.clamp(lengths - self.right_context, min=0)\n        mems_list = []\n        lc_key_list = []\n        lc_val_list = []\n\n        results = self.forward_jit_mini_batch_init(seg, state, True)\n        state, mems, state_mems, past_length, past_left_context = results\n\n        # relative position embedding\n        if self.use_rpe:\n            rpe = self._get_relative_position(\n                input=input,\n                max_relative_position=self.max_relative_position,\n                left_context_length=past_left_context,\n                past_length=past_length,\n                is_decoding=True,\n            )\n        else:\n            rpe = None\n\n        # memory for first layer.\n        mems_list.append(state_mems[-self.max_memory_size :, :, :])\n        output = seg\n        i = 0\n        for layer in self.layers:\n            # In order to make cross stream batching work, mem, left context key\n            # and left context value in the state should always be the same shape.\n            # We use the past length to track the processed segment number. In this\n            # way, we take out the essential memory, left context key and left\n            # context val from the state. After finish the forward for current segment\n            # we add the new memory, left context key and left context value into the\n            # staate and trim out the oldest part to keep the shape consistent.\n            true_mems, lc_key, lc_val = self.state_update_before(\n                layer=i,\n                state=state,\n                past_length=past_length,\n                past_left_context=past_left_context,\n            )\n\n            output, mems, right_context_blocks, next_key, next_val = layer.forward_jit(\n                input=output,\n                lengths=lengths,\n                mems=true_mems,\n                right_context_blocks=right_context_blocks,\n                left_context_key=lc_key,\n                left_context_val=lc_val,\n                rpe=rpe,\n            )\n            # mems is used for next layer\n            mems_list, lc_key_list, lc_val_list, _ = self.state_update_after(\n                layer=i,\n                state=state,\n                mems_list=mems_list,\n                mems=mems,\n                next_key=next_key,\n                next_val=next_val,\n                lc_key_list=lc_key_list,\n                lc_val_list=lc_val_list,\n            )\n            i += 1\n\n        # update state\n        state = self.state_update_after_loop(\n            state=state,\n            mems_list=mems_list,\n            lc_key_list=lc_key_list,\n            lc_val_list=lc_val_list,\n            update_length=1,\n        )\n\n        return output, lengths, state\n\n    def quantize_(self, params=None):\n        if params and \"per_channel\" in params and params[\"per_channel\"]:\n            qconfig = per_channel_dynamic_qconfig\n        else:\n            qconfig = default_dynamic_qconfig\n        quantization.quantize_dynamic(\n            self, {torch.nn.Linear: qconfig}, dtype=torch.qint8, inplace=True\n        )\n        return self\n\n\n# ------------------------------------------------------------------------------\n#   Emformer encoder for seq2seq model\n#   This is a wrapper over the original emformer\n# ------------------------------------------------------------------------------\ndef emformer_encoder(klass):\n    class SpeechEncoder(klass):\n        def __init__(self, args):\n            super().__init__(args)\n            stride = SpeechEncoder.conv_layer_stride(args)\n            trf_left_context = args.segment_left_context // stride\n            trf_right_context = args.segment_right_context // stride\n            context_config = [trf_left_context, trf_right_context]\n            self.transformer_layers = nn.ModuleList(\n                [\n                    NoSegAugmentedMemoryTransformerEncoderLayer(\n                        input_dim=args.encoder_embed_dim,\n                        num_heads=args.encoder_attention_heads,\n                        ffn_dim=args.encoder_ffn_embed_dim,\n                        num_layers=args.encoder_layers,\n                        dropout_in_attn=args.dropout,\n                        dropout_on_attn=args.dropout,\n                        dropout_on_fc1=args.dropout,\n                        dropout_on_fc2=args.dropout,\n                        activation_fn=args.activation_fn,\n                        context_config=context_config,\n                        segment_size=args.segment_length,\n                        max_memory_size=args.max_memory_size,\n                        scaled_init=True,  # TODO: use constant for now.\n                        tanh_on_mem=args.amtrf_tanh_on_mem,\n                    )\n                ]\n            )\n\n        def forward(self, src_tokens, src_lengths):\n            encoder_out = super().forward(src_tokens, src_lengths)\n            output = encoder_out[\"encoder_out\"][0]\n            encoder_padding_masks = encoder_out[\"encoder_padding_mask\"][0]\n\n            # This is because that in the original implementation\n            # the output didn't consider the last segment as right context.\n            encoder_padding_masks = encoder_padding_masks[:, : output.size(0)]\n\n            return {\n                \"encoder_out\": [output],\n                \"encoder_padding_mask\": [encoder_padding_masks],\n                \"encoder_embedding\": [],\n                \"encoder_states\": [],\n                \"src_tokens\": [],\n                \"src_lengths\": [],\n            }\n\n        @staticmethod\n        def conv_layer_stride(args):\n            # TODO: make it configurable from the args\n            return 4\n\n    SpeechEncoder.__name__ = klass.__name__\n    return SpeechEncoder\n"
  },
  {
    "path": "fairseq/models/speech_to_text/multi_modality_model.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.models import FairseqDecoder, FairseqEncoder\n\n\n# a container for different encoders with training samples from  different modality\n# each time, only one encoder is selected\nclass MultiModalityEncoder(FairseqEncoder):\n    def __init__(self, dictionary):\n        super().__init__(dictionary)\n\n    def select_encoder(self, mode, **kwargs):\n        raise NotImplementedError(\"Model must implement the select_encoder method\")\n        return None, kwargs\n\n    # def post_encoder(self, encoder_out, src_tokens, src_lengths, mode, **kwargs):\n    #    # Default do nothing\n    #    return encoder_out\n\n    # get sample data from JointSpeechTextDataset\n    def forward(self, src_tokens, src_lengths=None, mode=\"\", **kwargs):\n        encoder, kwargs = self.select_encoder(mode, **kwargs)\n        # return self.post_encoder(encoder(src_tokens, src_lengths, **kwargs), src_tokens, src_lengths, mode, **kwargs)\n        return encoder(src_tokens, src_lengths, **kwargs)\n\n\n# a container for different decoders with training samples from  different modality\n# each time, only one decoder is selected\nclass MultiInputDecoder(FairseqDecoder):\n    def __init__(self, dictionary):\n        super().__init__(dictionary)\n\n    def select_decoder(self, mode, **kwargs):\n        raise NotImplementedError(\"Model must implement the select_decoder method\")\n        return None, kwargs\n\n    def forward(\n        self, prev_output_tokens, encoder_out, incremental_state=None, mode=\"\", **kwargs\n    ):\n        decoder, kwargs = self.select_decoder(mode, **kwargs)\n        return decoder(\n            prev_output_tokens,\n            encoder_out,\n            incremental_state=incremental_state,\n            **kwargs\n        )\n"
  },
  {
    "path": "fairseq/models/speech_to_text/s2t_conformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport math\nfrom pathlib import Path\n\nimport torch\n\nfrom fairseq import checkpoint_utils\nfrom fairseq.data.data_utils import lengths_to_padding_mask\nfrom fairseq.models import FairseqEncoder, register_model, register_model_architecture\nfrom fairseq.models.speech_to_text.modules.convolution import (\n    Conv1dSubsampler,\n    Conv2dSubsampler,\n)\nfrom fairseq.models.speech_to_text.s2t_transformer import (\n    S2TTransformerEncoder,\n    S2TTransformerModel,\n)\nfrom fairseq.models.speech_to_text.s2t_transformer import (\n    base_architecture as transformer_base_architecture,\n)\nfrom fairseq.modules import PositionalEmbedding, RelPositionalEncoding\nfrom fairseq.modules.conformer_layer import ConformerEncoderLayer\n\nlogger = logging.getLogger(__name__)\n\n\nclass S2TConformerEncoder(FairseqEncoder):\n    \"\"\"Conformer Encoder for speech translation based on https://arxiv.org/abs/2005.08100\"\"\"\n\n    def __init__(self, args):\n        super().__init__(None)\n\n        self.encoder_freezing_updates = args.encoder_freezing_updates\n        self.num_updates = 0\n\n        self.embed_scale = math.sqrt(args.encoder_embed_dim)\n        if args.no_scale_embedding:\n            self.embed_scale = 1.0\n        self.padding_idx = 1\n        self.conv_version = args.conv_version\n        if self.conv_version == \"s2t_transformer\":\n            self.subsample = Conv1dSubsampler(\n                args.input_feat_per_channel * args.input_channels,\n                args.conv_channels,\n                args.encoder_embed_dim,\n                [int(k) for k in args.conv_kernel_sizes.split(\",\")],\n            )\n        elif self.conv_version == \"convtransformer\":\n            self.subsample = Conv2dSubsampler(\n                args.input_channels,\n                args.input_feat_per_channel,\n                args.conv_out_channels,\n                args.encoder_embed_dim,\n            )\n        self.pos_enc_type = args.pos_enc_type\n        if self.pos_enc_type == \"rel_pos\":\n            self.embed_positions = RelPositionalEncoding(\n                args.max_source_positions, args.encoder_embed_dim\n            )\n        elif self.pos_enc_type == \"rope\":\n            self.embed_positions = None\n        else:  # Use absolute positional embedding\n            self.pos_enc_type = \"abs\"\n            self.embed_positions = PositionalEmbedding(\n                args.max_source_positions, args.encoder_embed_dim, self.padding_idx\n            )\n\n        self.linear = torch.nn.Linear(args.encoder_embed_dim, args.encoder_embed_dim)\n        self.dropout = torch.nn.Dropout(args.dropout)\n        self.conformer_layers = torch.nn.ModuleList(\n            [\n                ConformerEncoderLayer(\n                    embed_dim=args.encoder_embed_dim,\n                    ffn_embed_dim=args.encoder_ffn_embed_dim,\n                    attention_heads=args.encoder_attention_heads,\n                    dropout=args.dropout,\n                    depthwise_conv_kernel_size=args.depthwise_conv_kernel_size,\n                    attn_type=args.attn_type,\n                    pos_enc_type=self.pos_enc_type,\n                    use_fp16=args.fp16,\n                )\n                for _ in range(args.encoder_layers)\n            ]\n        )\n\n    def _forward(self, src_tokens, src_lengths, return_all_hiddens=False):\n        \"\"\"\n        Args:\n            src_tokens: Input source tokens Tensor of shape B X T X C\n            src_lengths: Lengths Tensor corresponding to input source tokens\n            return_all_hiddens: If true will append the self attention states to the encoder states\n        Returns:\n            encoder_out: Tensor of shape B X T X C\n            encoder_padding_mask: Optional Tensor with mask\n            encoder_embedding: Optional Tensor. Always empty here\n            encoder_states: List of Optional Tensors wih self attention states\n            src_tokens: Optional Tensor. Always empty here\n            src_lengths: Optional Tensor. Always empty here\n        \"\"\"\n        x, input_lengths = self.subsample(src_tokens, src_lengths)  # returns T X B X C\n        encoder_padding_mask = lengths_to_padding_mask(input_lengths)\n        x = self.embed_scale * x\n        if self.pos_enc_type == \"rel_pos\":\n            positions = self.embed_positions(x)\n\n        elif self.pos_enc_type == \"rope\":\n            positions = None\n\n        else:\n            positions = self.embed_positions(encoder_padding_mask).transpose(0, 1)\n            x += positions\n            positions = None\n\n        x = self.linear(x)\n        x = self.dropout(x)\n        encoder_states = []\n\n        # x is T X B X C\n        for layer in self.conformer_layers:\n            x, _ = layer(x, encoder_padding_mask, positions)\n            if return_all_hiddens:\n                encoder_states.append(x)\n\n        return {\n            \"encoder_out\": [x],  # T x B x C\n            \"encoder_padding_mask\": [encoder_padding_mask]\n            if encoder_padding_mask.any()\n            else [],  # B x T\n            \"encoder_embedding\": [],  # B x T x C\n            \"encoder_states\": encoder_states,  # List[T x B x C]\n            \"src_tokens\": [],\n            \"src_lengths\": [],\n        }\n\n    def forward(self, src_tokens, src_lengths, return_all_hiddens=False):\n        if self.num_updates < self.encoder_freezing_updates:\n            with torch.no_grad():\n                x = self._forward(\n                    src_tokens,\n                    src_lengths,\n                    return_all_hiddens=return_all_hiddens,\n                )\n        else:\n            x = self._forward(\n                src_tokens,\n                src_lengths,\n                return_all_hiddens=return_all_hiddens,\n            )\n        return x\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        \"\"\"Required method for a FairseqEncoder. Calls the method from the parent class\"\"\"\n        return S2TTransformerEncoder.reorder_encoder_out(self, encoder_out, new_order)\n\n    def set_num_updates(self, num_updates):\n        super().set_num_updates(num_updates)\n        self.num_updates = num_updates\n\n\n@register_model(\"s2t_conformer\")\nclass S2TConformerModel(S2TTransformerModel):\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @staticmethod\n    def add_args(parser):\n        S2TTransformerModel.add_args(parser)\n        parser.add_argument(\n            \"--input-feat-per-channel\",\n            type=int,\n            metavar=\"N\",\n            help=\"dimension of input features per channel\",\n        )\n        parser.add_argument(\n            \"--input-channels\",\n            type=int,\n            metavar=\"N\",\n            help=\"number of chennels of input features\",\n        )\n        parser.add_argument(\n            \"--depthwise-conv-kernel-size\",\n            type=int,\n            metavar=\"N\",\n            help=\"kernel size of depthwise convolution layers\",\n        )\n        parser.add_argument(\n            \"--attn-type\",\n            type=str,\n            metavar=\"STR\",\n            help=\"If not specified uses fairseq MHA. Other valid option is espnet\",\n        )\n        parser.add_argument(\n            \"--pos-enc-type\",\n            type=str,\n            metavar=\"STR\",\n            help=\"Must be specified in addition to attn-type=espnet for rel_pos and rope\",\n        )\n\n    @classmethod\n    def build_encoder(cls, args):\n        encoder = S2TConformerEncoder(args)\n        pretraining_path = getattr(args, \"load_pretrained_encoder_from\", None)\n        if pretraining_path is not None:\n            if not Path(pretraining_path).exists():\n                logger.warning(\n                    f\"skipped pretraining because {pretraining_path} does not exist\"\n                )\n            else:\n                encoder = checkpoint_utils.load_pretrained_component_from_model(\n                    component=encoder, checkpoint=pretraining_path\n                )\n                logger.info(f\"loaded pretrained encoder from: {pretraining_path}\")\n        return encoder\n\n\n@register_model_architecture(\"s2t_conformer\", \"s2t_conformer\")\ndef conformer_base_architecture(args):\n    args.attn_type = getattr(args, \"attn_type\", None)\n    args.pos_enc_type = getattr(args, \"pos_enc_type\", \"abs\")\n    args.input_feat_per_channel = getattr(args, \"input_feat_per_channel\", 80)\n    args.input_channels = getattr(args, \"input_channels\", 1)\n    args.max_source_positions = getattr(args, \"max_source_positions\", 6000)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 16)\n    args.depthwise_conv_kernel_size = getattr(args, \"depthwise_conv_kernel_size\", 31)\n    transformer_base_architecture(args)\n"
  },
  {
    "path": "fairseq/models/speech_to_text/s2t_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport math\nfrom pathlib import Path\nfrom typing import Dict, List, Optional, Tuple\n\nimport torch\nimport torch.nn as nn\nfrom torch import Tensor\n\nfrom fairseq import checkpoint_utils, utils\nfrom fairseq.data.data_utils import lengths_to_padding_mask\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderDecoderModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.speech_to_text.hub_interface import S2THubInterface\nfrom fairseq.models.speech_to_text.modules.convolution import (\n    Conv1dSubsampler,\n    Conv2dSubsampler,\n)\nfrom fairseq.models.transformer import Embedding, TransformerDecoder\nfrom fairseq.modules import (\n    FairseqDropout,\n    LayerNorm,\n    PositionalEmbedding,\n    TransformerEncoderLayer,\n)\n\nlogger = logging.getLogger(__name__)\n\n\n@register_model(\"s2t_transformer\")\nclass S2TTransformerModel(FairseqEncoderDecoderModel):\n    \"\"\"Adapted Transformer model (https://arxiv.org/abs/1706.03762) for\n    speech-to-text tasks. The Transformer encoder/decoder remains the same.\n    A trainable input subsampler is prepended to the Transformer encoder to\n    project inputs into the encoder dimension as well as downsample input\n    sequence for computational efficiency.\"\"\"\n\n    @classmethod\n    def hub_models(cls):\n        base_url = \"http://dl.fbaipublicfiles.com/fairseq/s2t\"\n        model_ids = [\n            \"s2t_transformer_s-en-asr-librispeech\",\n            \"s2t_transformer_m-en-asr-librispeech\",\n            \"s2t_transformer_l-en-asr-librispeech\",\n        ]\n        return {i: f\"{base_url}/{i}.tar.gz\" for i in model_ids}\n\n    @classmethod\n    def from_pretrained(\n        cls,\n        model_name_or_path,\n        checkpoint_file=\"model.pt\",\n        data_name_or_path=\".\",\n        config_yaml=\"config.yaml\",\n        **kwargs,\n    ):\n        from fairseq import hub_utils\n\n        x = hub_utils.from_pretrained(\n            model_name_or_path,\n            checkpoint_file,\n            data_name_or_path,\n            archive_map=cls.hub_models(),\n            config_yaml=config_yaml,\n            **kwargs,\n        )\n        return S2THubInterface(x[\"args\"], x[\"task\"], x[\"models\"][0])\n\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        # input\n        parser.add_argument(\n            \"--conv-kernel-sizes\",\n            type=str,\n            metavar=\"STR\",\n            help=\"kernel sizes of Conv1d (s2t_transformer) subsampling layers\",\n        )\n        parser.add_argument(\n            \"--conv-channels\",\n            type=int,\n            metavar=\"N\",\n            help=\"# of channels in Conv1d (s2t_transformer) subsampling layers\",\n        )\n        parser.add_argument(\n            \"--conv-out-channels\",\n            type=int,\n            metavar=\"N\",\n            help=\"# of channels in Conv2d (convtransformer) subsampling layers\",\n        )\n        parser.add_argument(\n            \"--conv-version\",\n            type=str,\n            default=\"s2t_transformer\",\n            choices=[\"s2t_transformer\", \"convtransformer\"],\n            help=\"version of frontend convolutional layers\",\n        )\n        # Transformer\n        parser.add_argument(\n            \"--activation-fn\",\n            type=str,\n            default=\"relu\",\n            choices=utils.get_available_activation_fns(),\n            help=\"activation function to use\",\n        )\n        parser.add_argument(\n            \"--dropout\", type=float, metavar=\"D\", help=\"dropout probability\"\n        )\n        parser.add_argument(\n            \"--attention-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability for attention weights\",\n        )\n        parser.add_argument(\n            \"--activation-dropout\",\n            \"--relu-dropout\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout probability after activation in FFN.\",\n        )\n        parser.add_argument(\n            \"--encoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--encoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"encoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--encoder-layers\", type=int, metavar=\"N\", help=\"num encoder layers\"\n        )\n        parser.add_argument(\n            \"--encoder-attention-heads\",\n            type=int,\n            metavar=\"N\",\n            help=\"num encoder attention heads\",\n        )\n        parser.add_argument(\n            \"--encoder-normalize-before\",\n            action=\"store_true\",\n            help=\"apply layernorm before each encoder block\",\n        )\n        parser.add_argument(\n            \"--decoder-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension\",\n        )\n        parser.add_argument(\n            \"--decoder-ffn-embed-dim\",\n            type=int,\n            metavar=\"N\",\n            help=\"decoder embedding dimension for FFN\",\n        )\n        parser.add_argument(\n            \"--decoder-layers\", type=int, metavar=\"N\", help=\"num decoder layers\"\n        )\n        parser.add_argument(\n            \"--decoder-attention-heads\",\n            type=int,\n            metavar=\"N\",\n            help=\"num decoder attention heads\",\n        )\n        parser.add_argument(\n            \"--decoder-normalize-before\",\n            action=\"store_true\",\n            help=\"apply layernorm before each decoder block\",\n        )\n        parser.add_argument(\n            \"--share-decoder-input-output-embed\",\n            action=\"store_true\",\n            help=\"share decoder input and output embeddings\",\n        )\n        parser.add_argument(\n            \"--layernorm-embedding\",\n            action=\"store_true\",\n            help=\"add layernorm to embedding\",\n        )\n        parser.add_argument(\n            \"--no-scale-embedding\",\n            action=\"store_true\",\n            help=\"if True, dont scale embeddings\",\n        )\n        parser.add_argument(\n            \"--load-pretrained-encoder-from\",\n            type=str,\n            metavar=\"STR\",\n            help=\"model to take encoder weights from (for initialization)\",\n        )\n        parser.add_argument(\n            \"--encoder-freezing-updates\",\n            type=int,\n            metavar=\"N\",\n            help=\"freeze encoder for first N updates\",\n        )\n\n    @classmethod\n    def build_encoder(cls, args):\n        encoder = S2TTransformerEncoder(args)\n        pretraining_path = getattr(args, \"load_pretrained_encoder_from\", None)\n        if pretraining_path is not None:\n            if not Path(pretraining_path).exists():\n                logger.warning(\n                    f\"skipped pretraining because {pretraining_path} does not exist\"\n                )\n            else:\n                encoder = checkpoint_utils.load_pretrained_component_from_model(\n                    component=encoder, checkpoint=pretraining_path\n                )\n                logger.info(f\"loaded pretrained encoder from: {pretraining_path}\")\n        return encoder\n\n    @classmethod\n    def build_decoder(cls, args, task, embed_tokens):\n        return TransformerDecoderScriptable(args, task.target_dictionary, embed_tokens)\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        # make sure all arguments are present in older models\n        base_architecture(args)\n\n        def build_embedding(dictionary, embed_dim):\n            num_embeddings = len(dictionary)\n            padding_idx = dictionary.pad()\n            return Embedding(num_embeddings, embed_dim, padding_idx)\n\n        decoder_embed_tokens = build_embedding(\n            task.target_dictionary, args.decoder_embed_dim\n        )\n        args.tgt_dict_size = len(task.target_dictionary)\n        encoder = cls.build_encoder(args)\n        decoder = cls.build_decoder(args, task, decoder_embed_tokens)\n        return cls(encoder, decoder)\n\n    def get_normalized_probs(\n        self,\n        net_output: Tuple[Tensor, Optional[Dict[str, List[Optional[Tensor]]]]],\n        log_probs: bool,\n        sample: Optional[Dict[str, Tensor]] = None,\n    ):\n        # net_output['encoder_out'] is a (B, T, D) tensor\n        lprobs = self.get_normalized_probs_scriptable(net_output, log_probs, sample)\n        lprobs.batch_first = True\n        return lprobs\n\n    def get_ctc_target(self, sample: Optional[Dict[str, Tensor]]):\n        return sample[\"target\"], sample[\"target_lengths\"]\n\n    def get_ctc_output(\n        self,\n        net_output: Tuple[Tensor, Optional[Dict[str, List[Optional[Tensor]]]]],\n        sample: Optional[Dict[str, Tensor]],\n    ):\n        encoder_out = net_output[1][\"encoder_out\"][\"encoder_out\"][0]\n        logits = self.encoder.ctc_proj(encoder_out)  # T x B x C\n        out = utils.log_softmax(logits.float(), dim=-1)\n        padding_mask = net_output[1][\"encoder_out\"][\"encoder_padding_mask\"]\n        lens = out.new_full((out.shape[1],), out.shape[0]).long()\n        if len(padding_mask) > 0:\n            lens -= padding_mask[0].sum(dim=-1)\n        return out, lens\n\n    def forward(self, src_tokens, src_lengths, prev_output_tokens):\n        \"\"\"\n        The forward method inherited from the base class has a **kwargs\n        argument in its input, which is not supported in torchscript. This\n        method overwrites the forward method definition without **kwargs.\n        \"\"\"\n        encoder_out = self.encoder(src_tokens=src_tokens, src_lengths=src_lengths)\n        decoder_out = self.decoder(\n            prev_output_tokens=prev_output_tokens, encoder_out=encoder_out\n        )\n        return decoder_out\n\n\nclass S2TTransformerEncoder(FairseqEncoder):\n    \"\"\"Speech-to-text Transformer encoder that consists of input subsampler and\n    Transformer encoder.\"\"\"\n\n    def __init__(self, args):\n        super().__init__(None)\n\n        self.encoder_freezing_updates = args.encoder_freezing_updates\n        self.num_updates = 0\n\n        self.dropout_module = FairseqDropout(\n            p=args.dropout, module_name=self.__class__.__name__\n        )\n        self.embed_scale = math.sqrt(args.encoder_embed_dim)\n        if args.no_scale_embedding:\n            self.embed_scale = 1.0\n        self.padding_idx = 1\n\n        self.conv_version = args.conv_version\n        if self.conv_version == \"s2t_transformer\":\n            self.subsample = Conv1dSubsampler(\n                args.input_feat_per_channel * args.input_channels,\n                args.conv_channels,\n                args.encoder_embed_dim,\n                [int(k) for k in args.conv_kernel_sizes.split(\",\")],\n            )\n        elif self.conv_version == \"convtransformer\":\n            self.subsample = Conv2dSubsampler(\n                args.input_channels,\n                args.input_feat_per_channel,\n                args.conv_out_channels,\n                args.encoder_embed_dim,\n            )\n\n        self.embed_positions = PositionalEmbedding(\n            args.max_source_positions, args.encoder_embed_dim, self.padding_idx\n        )\n\n        self.transformer_layers = nn.ModuleList(\n            [TransformerEncoderLayer(args) for _ in range(args.encoder_layers)]\n        )\n        if args.encoder_normalize_before:\n            self.layer_norm = LayerNorm(args.encoder_embed_dim)\n        else:\n            self.layer_norm = None\n\n        self.ctc_proj = None\n        if getattr(args, \"ctc_weight\", 0.0) > 0.0:\n            self.ctc_proj = nn.Linear(args.encoder_embed_dim, args.tgt_dict_size)\n\n    def _forward(self, src_tokens, src_lengths, return_all_hiddens=False):\n        x, input_lengths = self.subsample(src_tokens, src_lengths)\n        x = self.embed_scale * x\n\n        encoder_padding_mask = lengths_to_padding_mask(input_lengths)\n        positions = self.embed_positions(encoder_padding_mask).transpose(0, 1)\n        x += positions\n        x = self.dropout_module(x)\n\n        encoder_states = []\n\n        for layer in self.transformer_layers:\n            x = layer(x, encoder_padding_mask)\n            if return_all_hiddens:\n                encoder_states.append(x)\n\n        if self.layer_norm is not None:\n            x = self.layer_norm(x)\n\n        return {\n            \"encoder_out\": [x],  # T x B x C\n            \"encoder_padding_mask\": [encoder_padding_mask]\n            if encoder_padding_mask.any()\n            else [],  # B x T\n            \"encoder_embedding\": [],  # B x T x C\n            \"encoder_states\": encoder_states,  # List[T x B x C]\n            \"src_tokens\": [],\n            \"src_lengths\": [],\n        }\n\n    def forward(self, src_tokens, src_lengths, return_all_hiddens=False):\n        if self.num_updates < self.encoder_freezing_updates:\n            with torch.no_grad():\n                x = self._forward(\n                    src_tokens, src_lengths, return_all_hiddens=return_all_hiddens\n                )\n        else:\n            x = self._forward(\n                src_tokens, src_lengths, return_all_hiddens=return_all_hiddens\n            )\n        return x\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        new_encoder_out = (\n            []\n            if len(encoder_out[\"encoder_out\"]) == 0\n            else [x.index_select(1, new_order) for x in encoder_out[\"encoder_out\"]]\n        )\n\n        new_encoder_padding_mask = (\n            []\n            if len(encoder_out[\"encoder_padding_mask\"]) == 0\n            else [\n                x.index_select(0, new_order)\n                for x in encoder_out[\"encoder_padding_mask\"]\n            ]\n        )\n\n        new_encoder_embedding = (\n            []\n            if len(encoder_out[\"encoder_embedding\"]) == 0\n            else [\n                x.index_select(0, new_order) for x in encoder_out[\"encoder_embedding\"]\n            ]\n        )\n\n        encoder_states = encoder_out[\"encoder_states\"]\n        if len(encoder_states) > 0:\n            for idx, state in enumerate(encoder_states):\n                encoder_states[idx] = state.index_select(1, new_order)\n\n        return {\n            \"encoder_out\": new_encoder_out,  # T x B x C\n            \"encoder_padding_mask\": new_encoder_padding_mask,  # B x T\n            \"encoder_embedding\": new_encoder_embedding,  # B x T x C\n            \"encoder_states\": encoder_states,  # List[T x B x C]\n            \"src_tokens\": [],  # B x T\n            \"src_lengths\": [],  # B x 1\n        }\n\n    def set_num_updates(self, num_updates):\n        super().set_num_updates(num_updates)\n        self.num_updates = num_updates\n\n\nclass TransformerDecoderScriptable(TransformerDecoder):\n    def extract_features(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n    ):\n        # call scriptable method from parent class\n        x, _ = self.extract_features_scriptable(\n            prev_output_tokens,\n            encoder_out,\n            incremental_state,\n            full_context_alignment,\n            alignment_layer,\n            alignment_heads,\n        )\n        extra = {\"encoder_out\": encoder_out} if incremental_state is None else None\n        return x, extra\n\n\n@register_model_architecture(model_name=\"s2t_transformer\", arch_name=\"s2t_transformer\")\ndef base_architecture(args):\n    args.encoder_freezing_updates = getattr(args, \"encoder_freezing_updates\", 0)\n    # Convolutional subsampler\n    args.input_channels = getattr(args, \"input_channels\", 1)\n    args.conv_kernel_sizes = getattr(args, \"conv_kernel_sizes\", \"5,5\")  # for Conv1d\n    args.conv_channels = getattr(args, \"conv_channels\", 1024)  # for Conv1d\n    args.conv_out_channels = getattr(args, \"conv_out_channels\", 256)  # for Conv2d\n    args.conv_version = getattr(args, \"conv_version\", \"s2t_transformer\")\n    # Transformer\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 12)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", True)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", args.encoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", args.encoder_ffn_embed_dim\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", True)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = getattr(args, \"attention_dropout\", args.dropout)\n    args.activation_dropout = getattr(args, \"activation_dropout\", args.dropout)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.decoder_layerdrop = getattr(args, \"decoder_layerdrop\", 0.0)\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", False)\n    args.quant_noise_pq = getattr(args, \"quant_noise_pq\", 0)\n\n\n@register_model_architecture(\"s2t_transformer\", \"s2t_transformer_s\")\ndef s2t_transformer_s(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 256 * 8)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 4)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    base_architecture(args)\n\n\n@register_model_architecture(\"s2t_transformer\", \"s2t_transformer_xs\")\ndef s2t_transformer_xs(args):\n    args.encoder_layers = getattr(args, \"encoder_layers\", 6)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 3)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 256 * 4)\n    args.dropout = getattr(args, \"dropout\", 0.3)\n    s2t_transformer_s(args)\n\n\n@register_model_architecture(\"s2t_transformer\", \"s2t_transformer_sp\")\ndef s2t_transformer_sp(args):\n    args.encoder_layers = getattr(args, \"encoder_layers\", 16)\n    s2t_transformer_s(args)\n\n\n@register_model_architecture(\"s2t_transformer\", \"s2t_transformer_m\")\ndef s2t_transformer_m(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 512 * 4)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.dropout = getattr(args, \"dropout\", 0.15)\n    base_architecture(args)\n\n\n@register_model_architecture(\"s2t_transformer\", \"s2t_transformer_mp\")\ndef s2t_transformer_mp(args):\n    args.encoder_layers = getattr(args, \"encoder_layers\", 16)\n    s2t_transformer_m(args)\n\n\n@register_model_architecture(\"s2t_transformer\", \"s2t_transformer_l\")\ndef s2t_transformer_l(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 1024 * 4)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 16)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 16)\n    args.dropout = getattr(args, \"dropout\", 0.2)\n    base_architecture(args)\n\n\n@register_model_architecture(\"s2t_transformer\", \"s2t_transformer_lp\")\ndef s2t_transformer_lp(args):\n    args.encoder_layers = getattr(args, \"encoder_layers\", 16)\n    s2t_transformer_l(args)\n"
  },
  {
    "path": "fairseq/models/speech_to_text/s2t_wav_transformer.py",
    "content": "#!/usr/bin/env python3\n\nimport math\n\nimport torch\nimport torch.nn as nn\n\nfrom fairseq.data.data_utils import compute_mask_indices\nfrom fairseq.models import FairseqEncoder\nfrom fairseq.models.wav2vec import ConvFeatureExtractionModel\nfrom fairseq.modules import GradMultiply, LayerNorm, SamePad, TransformerEncoderLayer\n\n\n#   Transformer encoder with wave input, it is adopted from wav2vec 2.0 Encoder.\n#       use wav input\n#       use trained position embedding so it is easier to match with text input\nclass SpeechWavTransformerEncoder(FairseqEncoder):\n\n    # extra parameters for speech encoder besides those defined in transformermodel\n    @staticmethod\n    def add_args(parser):\n        parser.add_argument(\n            \"--dropout-input\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout to apply to the input (after feat extr)\",\n        )\n        parser.add_argument(\n            \"--dropout-features\",\n            type=float,\n            metavar=\"D\",\n            help=\"dropout to apply to the unmasked features (after feat extr)\",\n        )\n        parser.add_argument(\n            \"--speech-extractor-mode\",\n            type=str,\n            default=\"layer_norm\",\n            choices=[\"default\", \"layer_norm\"],\n            help=\"feature extractor norm\",\n        )\n\n        parser.add_argument(\n            \"--speech-conv-bias\",\n            action=\"store_true\",\n            help=\"include bias in speech conv encoder\",\n        )\n\n        parser.add_argument(\n            \"--conv-feature-layers\",\n            default=\"[(512, 10, 5)] + [(512, 3, 2)] * 4 + [(512,2,2)] + [(512,2,2)]\",\n            help=\"string describing convolutional feature extraction layers in form of a python list that contains [(dim, kernel_size, stride), ...]\",\n        )\n\n        parser.add_argument(\n            \"--speech-mask-length\",\n            type=int,\n            help=\"repeat the mask indices multiple times\",\n        )\n\n        parser.add_argument(\n            \"--speech-mask-prob\",\n            type=float,\n            help=\"probability of replacing a token with mask\",\n        )\n\n        parser.add_argument(\n            \"--speech-mask-selection\",\n            type=str,\n            choices=[\"static\", \"uniform\", \"normal\", \"poisson\"],\n            help=\"how to choose masks\",\n        )\n\n        parser.add_argument(\n            \"--speech-mask-other\",\n            type=float,\n            help=\"stdev of the mask length in case of 'normal' selection strategy\",\n        )\n\n        parser.add_argument(\n            \"--speech-no-mask-overlap\",\n            action=\"store_true\",\n            help=\"whether to allow masks to overlap\",\n        )\n\n        parser.add_argument(\n            \"--speech-mask-min-space\",\n            type=int,\n            help=\"min space between spans (if no overlap is enabled)\",\n        )\n\n        parser.add_argument(\n            \"--speech-mask-channel-length\",\n            type=int,\n            help=\"repeat the mask indices multiple times\",\n        )\n\n        parser.add_argument(\n            \"--speech-mask-channel-prob\",\n            type=float,\n            help=\"probability of replacing a token with mask\",\n        )\n\n        parser.add_argument(\n            \"--speech-mask-channel-selection\",\n            type=str,\n            choices=[\"static\", \"uniform\", \"normal\", \"poisson\"],\n            help=\"how to choose masks\",\n        )\n\n        parser.add_argument(\n            \"--speech-mask-channel-other\",\n            type=float,\n            help=\"stdev of the mask length in case of 'normal' selection strategy\",\n        )\n\n        parser.add_argument(\n            \"--speech-no-mask-channel-overlap\",\n            action=\"store_true\",\n            help=\"whether to allow masks to overlap\",\n        )\n\n        parser.add_argument(\n            \"--no-scale-feature\",\n            action=\"store_true\",\n            help=\"no scale for the calculated features\",\n        )\n\n        parser.add_argument(\n            \"--speech-mask-channel-min-space\",\n            type=int,\n            help=\"min space between spans (if no overlap is enabled)\",\n        )\n\n        parser.add_argument(\n            \"--feature-grad-mult\",\n            type=float,\n            help=\"reset feature grad mult in wav2vec 2.0 to this\",\n        )\n\n        # positional embeddings\n        parser.add_argument(\n            \"--conv-pos\",\n            type=int,\n            default=128,\n            help=\"number of filters for convolutional positional embeddings\",\n        )\n\n        parser.add_argument(\n            \"--conv-pos-groups\",\n            type=int,\n            default=16,\n            help=\"number of groups for convolutional positional embedding\",\n        )\n        # model configures\n        parser.add_argument(\n            \"--speech-encoder-layers\",\n            type=int,\n            help=\"number of speech encoder layers\",\n        )\n        parser.add_argument(\n            \"--text-encoder-layers\",\n            type=int,\n            help=\"number of text encoder layers\",\n        )\n\n    def __init__(self, args, alway_mask=False):\n        super().__init__(args)\n        self.args = args\n        self.dropout = args.dropout\n        self.embedding_dim = args.encoder_embed_dim\n        self.feat_scale = math.sqrt(args.encoder_embed_dim)\n        if args.no_scale_feature:\n            self.feat_scale = 1.0\n\n        subsample = ConvFeatureExtractionModel(\n            conv_layers=eval(args.conv_feature_layers),\n            dropout=0.0,\n            mode=args.speech_extractor_mode,  # default, layer_norm\n            conv_bias=args.speech_conv_bias,\n        )\n        self.feature_enc_layers = eval(args.conv_feature_layers)\n        self.subsample = subsample\n        self.feat_proj = (\n            nn.Linear(self.feature_enc_layers[-1][0], self.embedding_dim)\n            if self.feature_enc_layers[-1][0] != self.embedding_dim\n            else None\n        )\n\n        self.feat_layer_norm = LayerNorm(self.feature_enc_layers[-1][0])\n\n        self.embed_positions = nn.Conv1d(\n            self.embedding_dim,\n            self.embedding_dim,\n            kernel_size=args.conv_pos,\n            padding=args.conv_pos // 2,\n            groups=args.conv_pos_groups,\n        )\n        std = math.sqrt(4 / (args.conv_pos * self.embedding_dim))\n        nn.init.normal_(self.embed_positions.weight, mean=0, std=std)\n        nn.init.constant_(self.embed_positions.bias, 0)\n\n        self.embed_positions = nn.utils.weight_norm(\n            self.embed_positions, name=\"weight\", dim=2\n        )\n        self.embed_positions = nn.Sequential(\n            self.embed_positions, SamePad(args.conv_pos), nn.GELU()\n        )\n\n        self.mask_prob = args.speech_mask_prob\n        self.mask_selection = args.speech_mask_selection\n        self.mask_other = args.speech_mask_other\n        self.mask_length = args.speech_mask_length\n        self.no_mask_overlap = args.speech_no_mask_overlap\n        self.mask_min_space = args.speech_mask_min_space\n\n        self.mask_channel_prob = args.speech_mask_channel_prob\n        self.mask_channel_selection = args.speech_mask_channel_selection\n        self.mask_channel_other = args.speech_mask_channel_other\n        self.mask_channel_length = args.speech_mask_channel_length\n        self.no_mask_channel_overlap = args.speech_no_mask_channel_overlap\n        self.mask_channel_min_space = args.speech_mask_channel_min_space\n\n        self.dropout_input = nn.Dropout(args.dropout_input)\n        self.dropout_features = nn.Dropout(args.dropout_features)\n\n        self.feature_grad_mult = args.feature_grad_mult\n\n        self.mask_emb = nn.Parameter(\n            torch.FloatTensor(args.encoder_embed_dim).uniform_()\n        )\n\n        self.layers = nn.ModuleList(\n            [TransformerEncoderLayer(args) for _ in range(args.encoder_layers)]\n        )\n        self.layer_norm = LayerNorm(args.encoder_embed_dim)\n        self.normalize_before = args.encoder_normalize_before\n        self.alway_mask = alway_mask\n\n    def _get_feat_extract_output_lengths(self, input_lengths: torch.LongTensor):\n        \"\"\"\n        Computes the output length of the convolutional layers\n        \"\"\"\n\n        def _conv_out_length(input_length, kernel_size, stride):\n            return torch.floor((input_length - kernel_size) / stride + 1)\n\n        for i in range(len(self.feature_enc_layers)):\n            input_lengths = _conv_out_length(\n                input_lengths,\n                self.feature_enc_layers[i][1],\n                self.feature_enc_layers[i][2],\n            )\n\n        return input_lengths.to(torch.long)\n\n    def apply_mask(self, x, padding_mask):\n        B, T, C = x.shape\n        if self.mask_prob > 0:\n            mask_indices = compute_mask_indices(\n                (B, T),\n                padding_mask,\n                self.mask_prob,\n                self.mask_length,\n                self.mask_selection,\n                self.mask_other,\n                min_masks=2,\n                no_overlap=self.no_mask_overlap,\n                min_space=self.mask_min_space,\n            )\n            mask_indices = torch.from_numpy(mask_indices).to(x.device)\n            x[mask_indices] = self.mask_emb\n        else:\n            mask_indices = None\n\n        if self.mask_channel_prob > 0:\n            mask_channel_indices = compute_mask_indices(\n                (B, C),\n                None,\n                self.mask_channel_prob,\n                self.mask_channel_length,\n                self.mask_channel_selection,\n                self.mask_channel_other,\n                no_overlap=self.no_mask_channel_overlap,\n                min_space=self.mask_channel_min_space,\n            )\n            mask_channel_indices = (\n                torch.from_numpy(mask_channel_indices)\n                .to(x.device)\n                .unsqueeze(1)\n                .expand(-1, T, -1)\n            )\n            x[mask_channel_indices] = 0\n\n        return x, mask_indices\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths,\n        return_all_hiddens=False,\n        padding_mask=None,\n        features_only=True,\n    ):\n        mask = self.training or self.alway_mask\n        if self.feature_grad_mult > 0 and self.training:\n            features = self.subsample(src_tokens)\n            if self.feature_grad_mult != 1.0:\n                features = GradMultiply.apply(features, self.feature_grad_mult)\n        else:\n            with torch.no_grad():\n                features = self.subsample(src_tokens)\n        features = features.transpose(1, 2)\n        features = self.feat_layer_norm(features)\n        if self.feat_proj is not None:\n            features = self.feat_proj(features)\n\n        if padding_mask is not None:\n            input_lengths = (1 - padding_mask.long()).sum(-1)\n        else:\n            input_lengths = src_lengths\n        # apply conv formula to get real output_lengths\n        output_lengths = self._get_feat_extract_output_lengths(input_lengths)\n\n        padding_mask = torch.zeros(\n            features.shape[:2], dtype=features.dtype, device=features.device\n        )\n\n        # these two operations makes sure that all values\n        # before the output lengths indices are attended to\n        padding_mask[\n            (\n                torch.arange(padding_mask.shape[0], device=padding_mask.device),\n                output_lengths - 1,\n            )\n        ] = 1\n        padding_mask = (1 - padding_mask.flip([-1]).cumsum(-1).flip([-1])).bool()\n\n        features = self.feat_scale * features if self.feat_scale != 1.0 else features\n        unmasked_features = features.clone()\n\n        features = self.dropout_input(features)\n        unmasked_features = self.dropout_features(unmasked_features)\n        if mask:\n            x, mask_indices = self.apply_mask(features, padding_mask)\n        else:\n            x = features\n            mask_indices = None\n\n        def cal_transformer_layers(x, encoder_padding_mask, return_all_hiddens=False):\n            # x: B x T x C\n            positions = self.embed_positions(x.transpose(1, 2)).transpose(1, 2)\n            x = x + positions\n            if not self.normalize_before:\n                x = self.layer_norm(x)\n\n            # B x T x C -> T x B x C\n            x = x.transpose(0, 1)\n            encoder_states = []\n            for layer in self.layers:\n                x = layer(x, encoder_padding_mask)\n                if return_all_hiddens:\n                    encoder_states.append(x)\n            if self.normalize_before:\n                x = self.layer_norm(x)\n            return x, encoder_states\n\n        x, encoder_states = cal_transformer_layers(x, padding_mask, return_all_hiddens)\n        if features_only:\n            return {\n                \"encoder_out\": [x],  # [T x B x C]\n                \"encoder_padding_mask\": [padding_mask]\n                if padding_mask is not None\n                else [],  # B x T\n                \"encoder_embedding\": [],  #\n                \"encoder_states\": encoder_states,  # List[T x B x C]\n                \"src_tokens\": [],\n                \"src_lengths\": [],\n                \"mask_indices\": [mask_indices],\n            }\n\n        x_unmasked = x\n        if self.mask_prob > 0 or self.mask_channel_prob > 0:\n            x_unmasked, _ = cal_transformer_layers(unmasked_features, padding_mask)\n        return {\n            \"encoder_out\": [x],  # [T x B x C]\n            \"encoder_unmasked_out\": [x_unmasked],  # [T x B x C]\n            \"encoder_padding_mask\": [padding_mask]\n            if padding_mask is not None\n            else [],  # B x T\n            \"encoder_embedding\": [],  #\n            \"encoder_states\": encoder_states,  # List[T x B x C]\n            \"src_tokens\": [],\n            \"src_lengths\": [],\n            \"mask_indices\": [mask_indices] if mask_indices is not None else [],  # B X T\n        }\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        new_encoder_out = (\n            []\n            if len(encoder_out[\"encoder_out\"]) == 0\n            else [x.index_select(1, new_order) for x in encoder_out[\"encoder_out\"]]\n        )\n\n        new_encoder_padding_mask = (\n            []\n            if len(encoder_out[\"encoder_padding_mask\"]) == 0\n            else [\n                x.index_select(0, new_order)\n                for x in encoder_out[\"encoder_padding_mask\"]\n            ]\n        )\n\n        new_encoder_embedding = (\n            []\n            if len(encoder_out[\"encoder_embedding\"]) == 0\n            else [\n                x.index_select(0, new_order) for x in encoder_out[\"encoder_embedding\"]\n            ]\n        )\n\n        encoder_states = encoder_out[\"encoder_states\"]\n        if len(encoder_states) > 0:\n            for idx, state in enumerate(encoder_states):\n                encoder_states[idx] = state.index_select(1, new_order)\n\n        return {\n            \"encoder_out\": new_encoder_out,  # T x B x C\n            \"encoder_padding_mask\": new_encoder_padding_mask,  # B x T\n            \"encoder_embedding\": new_encoder_embedding,  # B x T x C\n            \"encoder_states\": encoder_states,  # List[T x B x C]\n            \"src_tokens\": [],  # B x T\n            \"src_lengths\": [],  # B x 1\n        }\n\n\nclass StackedSpeechWavTransformerEncoder(FairseqEncoder):\n    def __init__(self, speech_enc, text_enc_layers, text_layer_norm):\n        super().__init__(None)\n        self.speech_encoder = speech_enc\n        self.text_encoder_layers = text_enc_layers\n        self.final_layer_norm = text_layer_norm\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths=None,\n        return_all_hiddens=False,\n        padding_mask=None,\n        features_only=True,\n    ):\n\n        out = self.speech_encoder.forward(\n            src_tokens,\n            src_lengths,\n            return_all_hiddens,\n            padding_mask=padding_mask,\n            features_only=features_only,\n        )\n        x = out[\"encoder_out\"][0]\n        encoder_padding_mask = None\n        if len(out[\"encoder_padding_mask\"]) > 0:\n            encoder_padding_mask = out[\"encoder_padding_mask\"][0]\n\n        def cal_text_layers(x, padding_mask, return_all_hiddens=False):\n            encoder_states = []\n            for layer in self.text_encoder_layers:\n                x = layer(x, padding_mask)\n                if return_all_hiddens:\n                    encoder_states.append(x)\n            if self.final_layer_norm is not None:\n                x = self.final_layer_norm(x)\n            return x, encoder_states\n\n        x, encoder_states = cal_text_layers(x, encoder_padding_mask, return_all_hiddens)\n        if features_only:\n            return {\n                \"encoder_out\": [x],  # T x B x C\n                \"encoder_padding_mask\": [encoder_padding_mask]\n                if encoder_padding_mask is not None\n                else [],  # B x T\n                \"encoder_embedding\": [],  # B x T x C\n                \"encoder_states\": encoder_states,  # List[T x B x C]\n                \"src_tokens\": [],\n                \"src_lengths\": [],\n            }\n\n        x_u = out[\"encoder_unmasked_out\"][0]\n        x_u, _ = cal_text_layers(x_u, encoder_padding_mask)\n\n        return {\n            \"encoder_out\": [x],  # [T x B x C]\n            \"encoder_unmasked_out\": [x_u],  # [T x B x C]\n            \"encoder_padding_mask\": [encoder_padding_mask]\n            if encoder_padding_mask is not None\n            else [],  # B x T\n            \"encoder_embedding\": [],  #\n            \"encoder_states\": encoder_states,  # List[T x B x C]\n            \"src_tokens\": [],\n            \"src_lengths\": [],\n            \"mask_indices\": out[\"mask_indices\"],  # B X T\n        }\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        return self.speech_encoder.reorder_encoder_out(encoder_out, new_order)\n"
  },
  {
    "path": "fairseq/models/speech_to_text/utils.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\n\nimport logging\nfrom collections.abc import Iterable\nfrom itertools import repeat\nfrom typing import List, Optional, Tuple\n\nimport torch\nfrom torch import Tensor\n\n# ------------------------------------------------------------------------------\n#   assert_equal()\n# ------------------------------------------------------------------------------\n\n\ndef assert_equal(value1, value2, name1=None, name2=None):\n    \"\"\"Asserts two values are equal otherwise raise an error.\"\"\"\n\n    str_name1 = \"\" if name1 is None else \"{} \".format(name1)\n    str_name2 = \"\" if name2 is None else \"{} \".format(name2)\n    if value1 != value2:\n        str_value1 = \"{}\" if name1 is None else \"({})\"\n        str_value1 = str_value1.format(value1)\n        str_value2 = \"{}\" if name2 is None else \"({})\"\n        str_value2 = str_value2.format(value2)\n        raise ValueError(\n            \"Expected {}{} == {}{}\".format(str_name1, str_value1, str_name2, str_value2)\n        )\n\n\ndef fill_config(config, key, value):\n    if value is not None:\n        if key not in config or config[key] is None:\n            config[key] = value\n        assert_equal(value, config[key], \"value\", f'config[\"{key}\"]')\n\n\n# ------------------------------------------------------------------------------\n#   check_and_return_expected()\n# ------------------------------------------------------------------------------\n\n\ndef check_and_return_expected(value, undefined_value, expected_value, name=None):\n    \"\"\"\n    Return the expected value while checking if the given value is undefined or\n    equal to the expected value.\n    \"\"\"\n    if (undefined_value is None and value is None) or (undefined_value == value):\n        return expected_value\n    if value != expected_value:\n        str_name = \"\" if name is None else \"{} \".format(name)\n        str_value = \"{}\" if name is None else \"({})\"\n        str_value = str_value.format(value)\n        raise ValueError(\n            \"Expected {}{} == {}\".format(str_name, str_value, expected_value)\n        )\n    return expected_value\n\n\n# ------------------------------------------------------------------------------\n#   get_time_axis()\n# ------------------------------------------------------------------------------\n\n\ndef get_time_axis(layout):\n    \"\"\"\n    Extract the time axis from the layout, for example for breaking sequence into\n    segments.\n    \"\"\"\n    if layout in [\"TB\", \"TBD\"]:\n        return 0\n    if layout in [\"BT\", \"BTD\"]:\n        return 1\n    if layout in [\"BCTD\"]:\n        return 2\n    raise ValueError(\"Unsupported layout = {}\".format(layout))\n\n\n# ------------------------------------------------------------------------------\n#   get_batch_axis()\n# ------------------------------------------------------------------------------\n\n\ndef get_batch_axis(layout):\n    \"\"\"\n    Extract the batch axis from the layout\n    \"\"\"\n    if layout in [\"TB\", \"TBD\"]:\n        return 1\n    if layout in [\"BT\", \"BTD\", \"BCTD\"]:\n        return 0\n    raise ValueError(\"Unsupported layout = {}\".format(layout))\n\n\n# ------------------------------------------------------------------------------\n#   monotonically_increasing_and_bounded()\n# ------------------------------------------------------------------------------\n\n\ndef monotonically_increasing_and_bounded(iterable, min=None, max=None):\n    \"\"\"\n    Check if the elements in the given iterable are monotonically increasing and\n    bounded by upper/lower bounds.\n    \"\"\"\n    if not isinstance(iterable, Iterable):\n        raise TypeError(\n            \"Expected iterable to be of type Iterable, got ({})\".format(\n                iterable.__class__.__name__\n            )\n        )\n    for i in range(len(iterable)):\n        if min is not None and iterable[i] < min:\n            return False\n        if max is not None and iterable[i] > max:\n            return False\n        if i > 0 and iterable[i] <= iterable[i - 1]:\n            return False\n    return True\n\n\n# ------------------------------------------------------------------------------\n#   to_pair()\n# ------------------------------------------------------------------------------\n\n\ndef to_pair(value, name):\n    \"\"\"Make a pair (of type tuple) of given value.\"\"\"\n    if isinstance(value, Iterable):\n        if len(value) != 2:\n            raise ValueError(\n                \"Expected `{}` to have exactly 2 elements, got: ({})\".format(\n                    name, value\n                )\n            )\n        return value\n    return tuple(repeat(value, 2))\n\n\n# ------------------------------------------------------------------------------\n#   infer_conv_output_attrs()\n# ------------------------------------------------------------------------------\n\n\n# TODO(cfyeh): figure out if we can get `output_dim` without calling the module.\ndef infer_conv_output_attrs(\n    module, input_channels, input_dim, batch_size=1, max_length=8\n):\n    \"\"\"Get output attributes of a module with input.\"\"\"\n    input = torch.randn(batch_size, input_channels, max_length, input_dim)\n    output = module(input)\n    output_channels = output.shape[1]\n    output_dim = output.shape[-1]\n    return output_channels, output_dim\n\n\n# ------------------------------------------------------------------------------\n#   NoOp\n# ------------------------------------------------------------------------------\n\n\nclass NoOp(torch.nn.Module):\n    \"\"\"\n    NoOp simply passes the input as the output.\n    \"\"\"\n\n    def __init__(self):\n        super().__init__()\n\n    def forward(self, input: Tensor) -> Tensor:\n        return input\n\n\n# ------------------------------------------------------------------------------\n#   Permute: a torch.nn.Module applies permutation on the input tensor.\n# ------------------------------------------------------------------------------\n\n\nclass Permute(torch.nn.Module):\n    def __init__(self, dims):\n        super().__init__()\n        self.dims = dims\n\n    def forward(self, input: Tensor) -> Tensor:\n        return input.permute(self.dims).contiguous()\n\n\n# ------------------------------------------------------------------------------\n#   lengths_to_padding_mask()\n# ------------------------------------------------------------------------------\n\n\ndef lengths_to_padding_mask(lengths: Tensor) -> Tensor:\n    \"\"\"Convert lengths of shape (B, ) to padding mask.\"\"\"\n    batch_size = lengths.shape[0]\n    max_length = int(torch.max(lengths).item())\n    padding_mask = torch.arange(  # [0, ..., T-1]\n        max_length, device=lengths.device, dtype=lengths.dtype\n    ).expand(batch_size, max_length) >= lengths.unsqueeze(1)\n\n    return padding_mask\n\n\n# ------------------------------------------------------------------------------\n#   lengths_to_attention_mask()\n# ------------------------------------------------------------------------------\n\n\ndef lengths_to_attention_mask(\n    lengths: Tensor,\n    left_context: Optional[int] = None,\n    right_context: Optional[int] = None,\n) -> Optional[Tensor]:\n    \"\"\"\n    Generate attention mask based on (lengths, left_context, right_context).\n    left_context is None means unlimited left context.\n    right_context is None means unlimited right context.\n    \"\"\"\n\n    if left_context is None and right_context is None:\n        return None\n\n    max_length = int(torch.max(lengths).item())\n\n    # For example, with `max_length` == 5,\n    # indices = tensor([\n    #     [ 0,  1,  2,  3,  4,  5],\n    #     [-1,  0,  1,  2,  3,  4],\n    #     [-2, -1,  0,  1,  2,  3],\n    #     [-3, -2, -1,  0,  1,  2],\n    #     [-4, -3, -2, -1,  0,  1],\n    #     [-5, -4, -3, -2, -1,  0],\n    # ])\n\n    # In some cases the second torch.arange is created on cpu which causes a\n    # failure. Adding the device option to guard against it.\n    indices = torch.arange(\n        max_length, device=lengths.device, dtype=lengths.dtype\n    ).expand(max_length, max_length) - torch.arange(\n        max_length, device=lengths.device\n    ).view(\n        max_length, -1\n    )\n\n    # For example, with `max_length` == 5,\n    # bool_mask = tensor([\n    #     [True, True, True, True, True],\n    #     [True, True, True, True, True],\n    #     [True, True, True, True, True],\n    #     [True, True, True, True, True],\n    #     [True, True, True, True, True],\n    # ])\n    bool_mask = (\n        torch.tensor([True]).to(device=lengths.device).expand(max_length, max_length)\n    )\n\n    # For example, with `max_length` == 5, left_context == 2\n    # left_mask = tensor([\n    #     [ True,  True, True, True, True],\n    #     [ True,  True, True, True, True],\n    #     [ True,  True, True, True, True],\n    #     [False,  True, True, True, True],\n    #     [False, False, True, True, True],\n    # ])\n    if left_context is not None:\n        left_mask = indices >= -left_context\n        bool_mask = bool_mask & left_mask\n\n    # For example, with `max_length` == 5, right_context == 1\n    # right_mask = tensor([\n    #     [True, True, False, False, False],\n    #     [True, True,  True, False, False],\n    #     [True, True,  True,  True, False],\n    #     [True, True,  True,  True,  True],\n    #     [True, True,  True,  True,  True],\n    # ])\n    if right_context is not None:\n        right_mask = indices <= right_context\n        bool_mask = bool_mask & right_mask\n\n    bool_mask = (~bool_mask).to(device=lengths.device)\n    return bool_mask\n\n\n# ------------------------------------------------------------------------------\n#   infer_output_norm()\n# ------------------------------------------------------------------------------\n\n\ndef infer_output_norm(module, output_norm=None):\n    \"\"\"\n    Infer the output norm (string and module) needed on the module gvien desired\n    output normalization.\n    \"\"\"\n    if output_norm == module.output_norm():\n        # output_norm already matches module.output_norm().\n        return (None, NoOp())\n\n    if output_norm is None and module.output_norm() is not None:\n        logger = logging.getLogger(\"infer_output_norm()\")\n        logger.warning(\n            \"trying to set output_norm ({}) \".format(output_norm)\n            + \"but got module.output_norm() ({}), \".format(module.output_norm())\n            + \"the combined output_norm() will be ({})\".format(module.output_norm())\n        )\n        return (None, NoOp())\n\n    if output_norm == \"log_softmax\":\n        if module.output_norm() is not None:\n            raise ValueError(\n                \"incompatible output_norm ({}) \".format(output_norm)\n                + \"and module.output_norm() ({})\".format(module.output_norm())\n            )\n        else:\n            return (\"log_softmax\", torch.nn.LogSoftmax(dim=-1))\n\n    if output_norm == \"softmax\":\n        if module.output_norm() is not None:\n            raise ValueError(\n                \"incompatible output_norm ({}) \".format(output_norm)\n                + \"and module.output_norm() ({})\".format(module.output_norm())\n            )\n        else:\n            return (\"softmax\", torch.nn.Softmax(dim=-1))\n\n    raise ValueError(\n        \"output_norm ({}) not in \".format(output_norm)\n        + \"supported list = [None, softmax, log_softmax]\"\n    )\n\n\n# ------------------------------------------------------------------------------\n#   infer_channels_from_layout()\n# ------------------------------------------------------------------------------\n\n\ndef infer_channels_from_layout(layout, channels):\n    \"\"\"Extract the number of channels from the layout.\"\"\"\n    if layout in (\"TBD\", \"BTD\"):\n        if channels is not None and channels != 1:\n            raise ValueError(\n                \"Expected channels ({}) to be 1 for layout = {}\".format(\n                    channels, layout\n                )\n            )\n        if channels is None:\n            return 1\n    return channels\n\n\n# ------------------------------------------------------------------------------\n#   pad_sequence()\n# ------------------------------------------------------------------------------\n\n\n@torch.jit.export\ndef pad_sequence(\n    sequence: Tensor,\n    time_axis: int,\n    extra_left_context: int = 0,\n    extra_right_context: int = 0,\n) -> Tensor:\n    \"\"\"Pad extra left/right contexts to the sequence.\"\"\"\n\n    if extra_left_context == 0 and extra_right_context == 0:\n        return sequence\n\n    tensors_to_concat = []\n\n    if extra_left_context:\n        size = (extra_left_context,)\n        fill_value = 0\n        indices = torch.full(\n            size=size,\n            fill_value=fill_value,\n            dtype=torch.long,\n            device=sequence.device,\n        )\n        left_padding = torch.index_select(sequence, time_axis, indices)\n        tensors_to_concat.append(left_padding)\n\n    tensors_to_concat.append(sequence)\n\n    # NOTE(cfyeh): for efficiency reason we pad 0 instead of the last frame for\n    #              extra right contexts.\n    if extra_right_context:\n        size = list(sequence.shape)\n        size[time_axis] = extra_right_context\n        right_padding = torch.zeros(size, dtype=sequence.dtype, device=sequence.device)\n        tensors_to_concat.append(right_padding)\n\n    padded_sequence = torch.cat(tensors_to_concat, dim=time_axis)\n    return padded_sequence\n\n\n# ------------------------------------------------------------------------------\n#   sequence_to_segments()\n# ------------------------------------------------------------------------------\n\n\n@torch.jit.export\ndef sequence_to_segments(\n    sequence: Tensor,\n    time_axis: int,\n    lengths: Tensor,\n    segment_size: Optional[int] = None,\n    extra_left_context: int = 0,\n    extra_right_context: int = 0,\n) -> List[Tuple[Tensor, Tensor]]:\n    \"\"\"Breaks sequence into segments.\"\"\"\n\n    sequence = pad_sequence(\n        sequence=sequence,\n        time_axis=time_axis,\n        extra_left_context=extra_left_context,\n        extra_right_context=extra_right_context,\n    )\n\n    lengths = lengths + extra_left_context + extra_right_context\n\n    segments: List[Tuple[Tensor, Tensor]] = []\n\n    if segment_size is None:\n        segments.append((sequence, lengths))\n        return segments\n\n    offset = 0\n    end = sequence.shape[time_axis]\n    step = segment_size\n    size = extra_left_context + segment_size + extra_right_context\n\n    while offset + extra_left_context + extra_right_context < end:\n        clamped_size = min(size, end - offset)\n        segment_lengths = torch.clamp(lengths - offset, min=0, max=clamped_size)\n        indices = torch.arange(\n            start=offset,\n            end=(offset + clamped_size),\n            step=1,\n            dtype=torch.long,\n            device=sequence.device,\n        )\n        segment_tensor = torch.index_select(sequence, time_axis, indices)\n        segments.append((segment_tensor, segment_lengths))\n        offset = offset + step\n\n    return segments\n\n\n# ------------------------------------------------------------------------------\n#   segments_to_sequence()\n# ------------------------------------------------------------------------------\n\n\n@torch.jit.export\ndef segments_to_sequence(\n    segments: List[Tuple[Tensor, Tensor]], time_axis: int\n) -> Tuple[Tensor, Tensor]:\n    \"\"\"Concatenate segments into a full sequence.\"\"\"\n    if len(segments) == 1:\n        return segments[0]\n\n    tensors_to_concat: List[Tensor] = []\n    lengths_to_stack: List[Tensor] = []\n\n    for tensor, lengths in segments:\n        tensors_to_concat.append(tensor)\n        lengths_to_stack.append(lengths)\n\n    sequence = torch.cat(tensors_to_concat, dim=time_axis)\n    lengths = torch.stack(lengths_to_stack, dim=0)\n    lengths = torch.sum(lengths, dim=0)\n\n    return sequence, lengths\n\n\ndef lengths_to_encoder_padding_mask(lengths, batch_first: bool = False):\n    \"\"\"\n    convert lengths (a 1-D Long/Int tensor) to 2-D binary tensor\n\n    Args:\n        lengths: a (B, )-shaped tensor\n        batch_first: whether to return a (B, T) tensor\n\n    Return:\n        max_length: maximum length of B sequences\n        encoder_padding_mask: a (max_length, B) binary mask, where\n        [t, b] = False for t < lengths[b] and True otherwise\n\n    TODO:\n        kernelize this function if benchmarking shows this function is slow\n    \"\"\"\n    max_lengths = torch.max(lengths).item()\n    bsz = lengths.size(0)\n    encoder_padding_mask = torch.arange(\n        max_lengths\n    ).to(  # a (T, ) tensor with [0, ..., T-1]\n        lengths.device\n    ).view(  # move to the right device\n        1, max_lengths\n    ).expand(  # reshape to (1, T)-shaped tensor\n        bsz, -1\n    ) > lengths.view(  # expand to (B, T)-shaped tensor\n        bsz, 1\n    ).expand(\n        -1, max_lengths\n    )\n    if not batch_first:\n        return encoder_padding_mask.t(), max_lengths\n    else:\n        return encoder_padding_mask, max_lengths\n\n\n# ------------------------------------------------------------------------------\n#   attention suppression\n# ------------------------------------------------------------------------------\n\n\ndef attention_suppression(attention_weights: Tensor, scale: float):\n    # B, H, qlen, klen -> B, H, qlen, 1\n    attention_prob = torch.nn.functional.softmax(attention_weights.float(), dim=-1)\n    attention_nozeros = attention_prob.to(torch.bool)\n    nozeros_sum = torch.sum(attention_nozeros.to(torch.float), dim=-1, keepdim=True)\n\n    # For very sparse situation, we need get round about 0s\n    key_sum = torch.sum(attention_prob, dim=-1, keepdim=True)\n\n    # nozeros_sum should > 1\n    key_mean = key_sum / (nozeros_sum + 1e-8)\n\n    # std calculation\n    dis = (attention_prob - key_mean) * (attention_prob - key_mean)\n\n    # if attention_prob[i] < threshold, then dis_masked[i] = 0; for all i\n    dis_masked = torch.where(\n        attention_nozeros, dis, attention_prob.new_zeros(attention_prob.size())\n    )\n\n    key_var = torch.sum(dis_masked, dim=-1, keepdim=True)\n    key_var = key_var / (nozeros_sum - 1.0 + 1e-8)\n    key_std = torch.sqrt(key_var)\n    key_thread = key_mean - scale * key_std\n\n    # if attention_prob[i] >= key_thread, then attention_prob[i]\n    # , otherwise \"-inf\"\n    inf_tensor = attention_prob.new_zeros(attention_prob.size()).detach()\n    inf_tensor[:] = float(\"-inf\")\n    attention_weights_float = torch.where(\n        attention_prob < key_thread,\n        inf_tensor,\n        attention_weights.float(),\n    )\n\n    return attention_weights_float.type_as(attention_weights)\n\n\ndef layer_norm_backward_hook(module, grad_input, grad_output, clamp_value):\n    return tuple(torch.clamp(v, min=-clamp_value, max=clamp_value) for v in grad_input)\n"
  },
  {
    "path": "fairseq/models/speech_to_text/xm_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport copy\nimport logging\nfrom typing import Dict, List, Optional, Tuple\n\nimport numpy as np\nimport torch\nimport torch.nn as nn\nfrom torch import Tensor\n\nfrom fairseq import checkpoint_utils, utils\nfrom fairseq.data.data_utils import lengths_to_padding_mask\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderDecoderModel,\n    FairseqEncoderModel,\n    FairseqLanguageModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.speech_to_speech.modules.ctc_decoder import CTCDecoder\nfrom fairseq.models.speech_to_text.hub_interface import S2THubInterface\nfrom fairseq.models.transformer import (\n    Embedding,\n    TransformerDecoder,\n    TransformerModelBase,\n)\nfrom fairseq.models.wav2vec import Wav2VecEncoder\nfrom fairseq.modules.layer_norm import LayerNorm\n\nlogger = logging.getLogger(__name__)\n\n\ndef build_embedding(dictionary, embed_dim):\n    num_embeddings = len(dictionary)\n    padding_idx = dictionary.pad()\n    return Embedding(num_embeddings, embed_dim, padding_idx)\n\n\nclass Conv1dAdaptor(nn.Module):\n    def __init__(\n        self,\n        in_dim,\n        out_dim,\n        n_layers=3,\n        kernel_size=3,\n        stride=2,\n        layerdrop=0.0,\n        layernorm=False,\n        proj=False,\n    ):\n        super().__init__()\n        self.proj, self.proj_ln = None, None\n        self.post_proj, self.post_proj_ln = None, None\n        if proj:\n            self.proj = nn.Sequential(\n                nn.Linear(in_dim, in_dim * 4), nn.ReLU(), nn.Linear(in_dim * 4, in_dim)\n            )\n            self.proj_ln = LayerNorm(in_dim)\n            self.post_proj = nn.Sequential(\n                nn.Linear(out_dim, out_dim * 4),\n                nn.ReLU(),\n                nn.Linear(out_dim * 4, out_dim),\n            )\n            self.post_proj_ln = LayerNorm(out_dim)\n\n        self.layers = nn.ModuleList(\n            nn.Conv1d(\n                in_dim if i == 0 else out_dim,\n                out_dim * 2,\n                kernel_size,\n                stride=stride,\n                padding=kernel_size // 2,\n            )\n            for i in range(n_layers)\n        )\n        self.stride = stride\n        self.layerdrop = layerdrop\n        self.layernorm = LayerNorm(in_dim) if layernorm else None\n\n    @classmethod\n    def add_args(cls, parser):\n        parser.add_argument(\"--adaptor-n-layers\", type=int)\n        parser.add_argument(\"--adaptor-kernel-size\", type=int)\n        parser.add_argument(\"--adaptor-stride\", type=int)\n        parser.add_argument(\"--adaptor-layerdrop\", type=float)\n        parser.add_argument(\"--adaptor-layernorm\", action=\"store_true\")\n        parser.add_argument(\"--adaptor-proj\", action=\"store_true\")\n\n    def forward(self, x, padding_mask: Optional[torch.Tensor]):\n        if self.layernorm is not None:\n            x = self.layernorm(x)\n\n        if self.proj is not None:\n            x = x + 0.5 * self.proj(x)\n            x = self.proj_ln(x)\n\n        if padding_mask is not None:\n            x = utils.index_put(x, padding_mask.T, 0)\n\n        # T x B x C -> B x C x T\n        x = x.transpose(0, 1).transpose(1, 2)\n        out_lens = None\n        if padding_mask is not None:\n            out_lens = (~padding_mask).sum(1).float()\n\n        for layer in self.layers:\n            layerdrop_prob = np.random.random()\n            if not self.training or (layerdrop_prob > self.layerdrop):\n                x = nn.functional.glu(layer(x), dim=1)\n                if padding_mask is not None:\n                    out_lens = ((out_lens - 1) / self.stride + 1).floor()\n        # B x C x T -> T x B x C\n        x = x.transpose(1, 2).transpose(0, 1)\n\n        if self.post_proj is not None:\n            x = x + 0.5 * self.post_proj(x)\n            x = self.post_proj_ln(x)\n\n        out_padding_mask = None\n        if padding_mask is not None:\n            out_padding_mask = lengths_to_padding_mask(out_lens.long())\n            x = utils.index_put(x, out_padding_mask.T, 0)\n        return x, out_padding_mask\n\n\ndef add_wav2vec_asr_args(parser):\n    parser.add_argument(\"--w2v-path\", help=\"path to wav2vec 2.0 model\")\n    parser.add_argument(\n        \"--no-pretrained-weights\",\n        action=\"store_true\",\n        help=\"if true, does not load pretrained weights\",\n    )\n    parser.add_argument(\n        \"--dropout-input\",\n        type=float,\n        metavar=\"D\",\n        help=\"dropout to apply to the input (after feat extr)\",\n    )\n    parser.add_argument(\n        \"--final-dropout\",\n        type=float,\n        metavar=\"D\",\n        help=\"dropout after transformer and before final projection\",\n    )\n    parser.add_argument(\n        \"--apply-mask\", action=\"store_true\", help=\"apply masking during fine-tuning\"\n    )\n    parser.add_argument(\n        \"--dropout\",\n        type=float,\n        metavar=\"D\",\n        help=\"dropout probability inside wav2vec 2.0 model\",\n    )\n    parser.add_argument(\n        \"--attention-dropout\",\n        type=float,\n        metavar=\"D\",\n        help=\"dropout probability for attention weights inside wav2vec 2.0 model\",\n    )\n    parser.add_argument(\n        \"--activation-dropout\",\n        \"--relu-dropout\",\n        type=float,\n        metavar=\"D\",\n        help=\"dropout probability after activation in FFN inside wav2vec 2.0 model\",\n    )\n    parser.add_argument(\n        \"--mask-length\", type=int, help=\"repeat the mask indices multiple times\"\n    )\n    parser.add_argument(\n        \"--mask-prob\", type=float, help=\"probability of replacing a token with mask\"\n    )\n    parser.add_argument(\n        \"--mask-selection\",\n        type=str,\n        choices=[\"static\", \"uniform\", \"normal\", \"poisson\"],\n        help=\"how to choose masks\",\n    )\n    parser.add_argument(\n        \"--mask-other\",\n        type=float,\n        help=\"stdev of the mask length in case of 'normal' selection strategy\",\n    )\n    parser.add_argument(\n        \"--no-mask-overlap\",\n        action=\"store_true\",\n        help=\"whether to allow masks to overlap\",\n    )\n    parser.add_argument(\n        \"--mask-channel-length\", type=int, help=\"repeat the mask indices multiple times\"\n    )\n    parser.add_argument(\n        \"--mask-channel-prob\",\n        type=float,\n        help=\"probability of replacing a token with mask\",\n    )\n    parser.add_argument(\n        \"--mask-channel-selection\",\n        type=str,\n        choices=[\"static\", \"uniform\", \"normal\", \"poisson\"],\n        help=\"how to choose masks\",\n    )\n    parser.add_argument(\n        \"--mask-channel-other\",\n        type=float,\n        help=\"stdev of the mask length in case of 'normal' selection strategy\",\n    )\n    parser.add_argument(\n        \"--no-mask-channel-overlap\",\n        action=\"store_true\",\n        help=\"whether to allow masks to overlap\",\n    )\n    parser.add_argument(\n        \"--freeze-finetune-updates\",\n        type=int,\n        metavar=\"N\",\n        help=\"dont finetune wav2vec for this many updates\",\n    )\n    parser.add_argument(\n        \"--feature-grad-mult\",\n        type=float,\n        metavar=\"D\",\n        help=\"reset feature grad mult in wav2vec 2.0 to this\",\n    )\n    parser.add_argument(\n        \"--layerdrop\",\n        type=float,\n        metavar=\"D\",\n        help=\"probability of dropping a layer in wav2vec 2.0\",\n    )\n    parser.add_argument(\n        \"--max-positions\",\n        type=int,\n        metavar=\"N\",\n        help=\"Max input positions to be used in the conformer encoder in wav2vec 2.0\",\n    )\n    parser.add_argument(\"--encoder-proj\", action=\"store_true\")\n    parser.add_argument(\"--w2v-args\", default=None)\n    parser.add_argument(\n        \"--remove-weight-norm\",\n        action=\"store_true\",\n        help=\"if set, then the weight-norm (in one pos_conv layer) is removed from the model\",\n    )\n    parser.add_argument(\n        \"--encoder-embed-dim\",\n        type=int,\n        metavar=\"N\",\n        help=\"encoder embedding dimension to be used when w2v_path is None and no encoder_proj is set\",\n    )\n\n\ndef need_finetuning(ft_params, param_name):\n    if ft_params == \"all\":\n        return True\n    ft_params_list = ft_params.split(\",\")\n    for ft_param in ft_params_list:\n        if ft_param in param_name:\n            return True\n    return False\n\n\nclass Wav2VecEncoderWithAdaptor(FairseqEncoder):\n    def build_adaptor(self, args):\n        adaptor = None\n        if args.adaptor_n_layers > 0:\n            adaptor = Conv1dAdaptor(\n                args.decoder_embed_dim,\n                args.decoder_embed_dim,\n                n_layers=args.adaptor_n_layers,\n                kernel_size=args.adaptor_kernel_size,\n                stride=args.adaptor_stride,\n                layerdrop=args.adaptor_layerdrop,\n                layernorm=args.adaptor_layernorm,\n                proj=args.adaptor_proj,\n            )\n        return adaptor\n\n    def __init__(self, args):\n        super().__init__(None)\n        self.w2v_encoder = Wav2VecEncoder(args)\n        self.is_v0_arch = not args.adaptor_proj\n        self.w2v_proj_ln = None\n        if not self.is_v0_arch and self.w2v_encoder.proj is not None:\n            self.w2v_proj_ln = LayerNorm(args.decoder_embed_dim)\n        self.adaptor = self.build_adaptor(args)\n\n        self.num_updates = 0\n        self.freezing_updates = args.w2v_freezing_updates\n        self.finetuning_params = args.finetune_w2v_params\n        for k, p in self.w2v_encoder.w2v_model.named_parameters():\n            p.requires_grad = need_finetuning(self.finetuning_params, k)\n\n    @classmethod\n    def add_args(cls, parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        add_wav2vec_asr_args(parser)\n        parser.add_argument(\n            \"--normalize\",\n            action=\"store_true\",\n            help=\"if set, normalizes input to have 0 mean and unit variance\",\n        )\n        parser.add_argument(\n            \"--finetune-w2v-params\",\n            type=str,\n            metavar=\"STR\",\n            help=\"comma-separated param strings to finetune.\",\n        )\n        parser.add_argument(\"--w2v-freezing-updates\", type=int)\n        parser.add_argument(\"--load-pretrained-encoder-from\", type=str, metavar=\"STR\")\n        Conv1dAdaptor.add_args(parser)\n\n    def set_num_updates(self, num_updates):\n        super().set_num_updates(num_updates)\n        self.num_updates = num_updates\n\n    def forward(self, src_tokens, src_lengths=None, **kwargs):\n        if (\n            self.freezing_updates is not None\n            and self.num_updates > self.freezing_updates\n        ):\n            for p in self.w2v_encoder.w2v_model.parameters():\n                p.requires_grad = True\n\n        padding_mask = lengths_to_padding_mask(src_lengths)\n        out = self.w2v_encoder.forward(src_tokens, padding_mask, tbc=True)\n        x, padding_mask = out[\"encoder_out\"], out[\"padding_mask\"]\n        if self.w2v_proj_ln is not None:\n            x = self.w2v_proj_ln(x)\n\n        if self.adaptor is not None:\n            x, padding_mask = self.adaptor(x, padding_mask)\n\n        return {\n            \"encoder_out\": [x],  # T x B x C\n            \"encoder_padding_mask\": []\n            if padding_mask is None\n            else [padding_mask],  # B x T\n            \"encoder_embedding\": [],  # B x T x C\n            \"encoder_states\": [],  # List[T x B x C]\n            \"src_tokens\": [],\n            \"src_lengths\": [],\n        }\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        new_encoder_out = (\n            []\n            if len(encoder_out[\"encoder_out\"]) == 0\n            else [x.index_select(1, new_order) for x in encoder_out[\"encoder_out\"]]\n        )\n\n        new_encoder_padding_mask = (\n            []\n            if len(encoder_out[\"encoder_padding_mask\"]) == 0\n            else [\n                x.index_select(0, new_order)\n                for x in encoder_out[\"encoder_padding_mask\"]\n            ]\n        )\n\n        new_encoder_embedding = (\n            []\n            if len(encoder_out[\"encoder_embedding\"]) == 0\n            else [\n                x.index_select(0, new_order) for x in encoder_out[\"encoder_embedding\"]\n            ]\n        )\n\n        encoder_states = encoder_out[\"encoder_states\"]\n        if len(encoder_states) > 0:\n            for idx, state in enumerate(encoder_states):\n                encoder_states[idx] = state.index_select(1, new_order)\n\n        return {\n            \"encoder_out\": new_encoder_out,  # T x B x C\n            \"encoder_padding_mask\": new_encoder_padding_mask,  # B x T\n            \"encoder_embedding\": new_encoder_embedding,  # B x T x C\n            \"encoder_states\": encoder_states,  # List[T x B x C]\n            \"src_tokens\": [],  # B x T\n            \"src_lengths\": [],  # B x 1\n        }\n\n\ndef add_decoder_args(parser):\n    parser.add_argument(\n        \"--activation-fn\",\n        type=str,\n        default=\"relu\",\n        choices=utils.get_available_activation_fns(),\n        help=\"activation function to use\",\n    )\n    parser.add_argument(\n        \"--decoder-dropout\", type=float, metavar=\"D\", help=\"dropout probability\"\n    )\n    parser.add_argument(\n        \"--decoder-attention-dropout\",\n        type=float,\n        metavar=\"D\",\n        help=\"dropout probability for attention weights\",\n    )\n    parser.add_argument(\n        \"--decoder-activation-dropout\",\n        type=float,\n        metavar=\"D\",\n        help=\"dropout probability after activation in FFN.\",\n    )\n    parser.add_argument(\n        \"--decoder-embed-dim\", type=int, metavar=\"N\", help=\"decoder embedding dimension\"\n    )\n    parser.add_argument(\n        \"--decoder-ffn-embed-dim\",\n        type=int,\n        metavar=\"N\",\n        help=\"decoder embedding dimension for FFN\",\n    )\n    parser.add_argument(\n        \"--decoder-layers\", type=int, metavar=\"N\", help=\"num decoder layers\"\n    )\n    parser.add_argument(\n        \"--decoder-attention-heads\",\n        type=int,\n        metavar=\"N\",\n        help=\"num decoder attention heads\",\n    )\n    parser.add_argument(\n        \"--decoder-normalize-before\",\n        action=\"store_true\",\n        help=\"apply layernorm before each decoder block\",\n    )\n    parser.add_argument(\n        \"--layernorm-embedding\", action=\"store_true\", help=\"add layernorm to embedding\"\n    )\n    parser.add_argument(\n        \"--decoder-layerdrop\",\n        type=float,\n        metavar=\"D\",\n        help=\"layerdrop probability for decoder\",\n    )\n    parser.add_argument(\n        \"--decoder-learned-pos\",\n        action=\"store_true\",\n        help=\"learn positional embedding in decoder\",\n    )\n    parser.add_argument(\n        \"--share-decoder-input-output-embed\",\n        action=\"store_true\",\n        help=\"share decoder input and output embeddings\",\n    )\n    parser.add_argument(\n        \"--no-scale-embedding\",\n        action=\"store_true\",\n        help=\"if True, dont scale embeddings\",\n    )\n    parser.add_argument(\n        \"--load-pretrained-decoder-from\",\n        type=str,\n        metavar=\"STR\",\n        help=\"model to take decoder weights from (for initialization)\",\n    )\n    parser.add_argument(\n        \"--finetune-decoder-params\",\n        type=str,\n        metavar=\"STR\",\n        help=\"comma-separated param strings to finetune.\",\n    )\n\n\ndef remove_weight_norm_from_model(model):\n    from functools import reduce\n\n    layers_with_wn = []\n    for param_name, _ in model.named_parameters():\n        if param_name.endswith(\"_g\"):\n            # retrieve the module with this param_name\n            module_names = param_name.split(\".\")[\n                :-1\n            ]  # exclude the actual parameter name\n            wn_module = reduce(getattr, module_names, model)\n            layers_with_wn.append(wn_module)\n    for wn_module in layers_with_wn:\n        torch.nn.utils.remove_weight_norm(wn_module)\n        logger.warning(f\"Weight norm removed from module with {wn_module}\\n\")\n\n\n@register_model(\"xm_transformer\")\nclass XMTransformerModel(FairseqEncoderDecoderModel):\n    @classmethod\n    def hub_models(cls):\n        base_url = \"http://dl.fbaipublicfiles.com/fairseq/s2t\"\n        model_ids = [\n            \"xm_transformer_600m-es_en-multi_domain\",\n            \"xm_transformer_600m-ru_en-multi_domain\",\n            \"xm_transformer_600m-fr_en-multi_domain\",\n            \"xm_transformer_600m-en_es-multi_domain\",\n            \"xm_transformer_600m-en_ru-multi_domain\",\n            \"xm_transformer_600m-en_fr-multi_domain\",\n            \"xm_transformer_600m-en_zh-multi_domain\",\n            \"xm_transformer_600m-en_ar-multi_domain\",\n            \"xm_transformer_600m-en_tr-multi_domain\",\n            \"xm_transformer_600m-en_vi-multi_domain\",\n            \"xm_transformer-21_en-xls_r_300m\",\n            \"xm_transformer-en_15-xls_r_300m\",\n            \"xm_transformer-21_en-xls_r_1b\",\n            \"xm_transformer-en_15-xls_r_1b\",\n            \"xm_transformer-21_en-xls_r_2b\",\n            \"xm_transformer-en_15-xls_r_2b\",\n            \"xm_transformer-22_16-xls_r_2b\",\n            \"xm_transformer_s2ut_800m-es-en-st-asr-bt_h1_2022\",\n            \"xm_transformer_s2ut_800m-en-es-st_plus_asr\",\n            \"xm_transformer_s2ut_800m-hk-en-h1_2022\",\n            \"xm_transformer_s2ut_800m-en-hk-h1_2022\",\n        ]\n        return {i: f\"{base_url}/{i}.tar.gz\" for i in model_ids}\n\n    @classmethod\n    def from_pretrained(\n        cls,\n        model_name_or_path,\n        checkpoint_file=\"model.pt\",\n        data_name_or_path=\".\",\n        config_yaml=\"config.yaml\",\n        task=\"speech_to_text\",\n        generation_args=None,\n        **kwargs,\n    ):\n        from fairseq import hub_utils\n\n        x = hub_utils.from_pretrained(\n            model_name_or_path,\n            checkpoint_file,\n            data_name_or_path,\n            archive_map=cls.hub_models(),\n            config_yaml=config_yaml,\n            task=task,\n            generation_args=generation_args,\n            **kwargs,\n        )\n        return S2THubInterface(x[\"args\"], x[\"task\"], x[\"models\"][0])\n\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @classmethod\n    def add_args(cls, parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        Wav2VecEncoderWithAdaptor.add_args(parser)\n        add_decoder_args(parser)\n        parser.add_argument(\"--checkpoint-activations\", action=\"store_true\")\n        parser.add_argument(\"--offload-activations\", action=\"store_true\")\n        parser.add_argument(\"--min-params-to-wrap\", type=int, metavar=\"N\")\n\n    @classmethod\n    def maybe_load_pretrained(cls, component, checkpoint: Optional[str] = None):\n        if checkpoint is None:\n            return component\n\n        _load = checkpoint_utils.load_pretrained_component_from_model\n        try:\n            return _load(component, checkpoint)\n        except RuntimeError as e:\n            logger.warning(e)\n            return _load(component, checkpoint, strict=False)\n\n    @classmethod\n    def build_encoder(cls, args):\n        _args = copy.deepcopy(args)\n        if not args.adaptor_proj and not args.encoder_proj:  # V0 arch\n            if args.w2v_path:\n                state = checkpoint_utils.load_checkpoint_to_cpu(args.w2v_path)\n                if state.get(\"cfg\") is not None:\n                    encoder_embed_dim = state[\"cfg\"]._content[\"model\"][\n                        \"encoder_embed_dim\"\n                    ]\n                elif state.get(\"args\") is not None:\n                    encoder_embed_dim = state[\"args\"].encoder_embed_dim\n                else:\n                    raise ValueError(f\"Invalid config in {args.w2v_path}\")\n                _args.decoder_embed_dim = encoder_embed_dim\n                del state\n            else:\n                _args.decoder_embed_dim = args.encoder_embed_dim\n\n        encoder = Wav2VecEncoderWithAdaptor(_args)\n        encoder = cls.maybe_load_pretrained(\n            encoder, getattr(args, \"load_pretrained_encoder_from\", None)\n        )\n        if args.remove_weight_norm:\n            # remove the wn for EMA usage\n            logger.warning(\"Removing weight norm from wav2vec encoder\")\n            remove_weight_norm_from_model(encoder)\n\n        return encoder\n\n    @classmethod\n    def get_decoder_args_from_checkpoint(cls, ckpt_args):\n        assert \"model\" in ckpt_args, \"Model args not found in checkpoint cfg!\"\n        decoder_args = {}\n        for k, v in ckpt_args[\"model\"].__dict__.items():\n            if \"decoder\" in k:\n                decoder_args[k] = v\n\n        return decoder_args\n\n    @classmethod\n    def override_decoder_args(cls, cli_args, decoder_args_dict):\n        for k, v in decoder_args_dict.items():\n            if v != getattr(cli_args, k, None):\n                logger.warning(\n                    f\"Overriding decoder arg {k}: from {getattr(cli_args, k, None)} to {v}\"\n                )\n                setattr(cli_args, k, v)\n\n        return cli_args\n\n    @classmethod\n    def build_decoder(cls, args, task, embed_tokens):\n        _args = copy.deepcopy(args)\n        if args.adaptor_proj or args.encoder_proj:  # not V0 arch\n            _args.encoder_embed_dim = _args.decoder_embed_dim\n        _args.dropout = args.decoder_dropout\n        _args.attention_dropout = args.decoder_attention_dropout\n        _args.activation_dropout = args.decoder_activation_dropout\n        _args.layerdrop = _args.decoder_layerdrop\n\n        decoder = TransformerDecoder(_args, task.target_dictionary, embed_tokens)\n        decoder = cls.maybe_load_pretrained(\n            decoder, getattr(args, \"load_pretrained_decoder_from\", None)\n        )\n\n        for k, p in decoder.named_parameters():\n            p.requires_grad = need_finetuning(args.finetune_decoder_params, k)\n        return decoder\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        # make sure all arguments are present in older models\n        base_architecture(args)\n        if getattr(args, \"load_pretrained_decoder_from\", None) is not None:\n            ckpt = torch.load(getattr(args, \"load_pretrained_decoder_from\", None))\n            decoder_args_dict = cls.get_decoder_args_from_checkpoint(ckpt[\"cfg\"])\n            args = cls.override_decoder_args(args, decoder_args_dict)\n\n        decoder_embed_tokens = build_embedding(\n            task.target_dictionary, args.decoder_embed_dim\n        )\n\n        encoder = cls.build_encoder(args)\n        decoder = cls.build_decoder(args, task, decoder_embed_tokens)\n        base_model = cls(encoder, decoder)\n\n        # set up multitask decoders\n        base_model.multitask_decoders = {}\n        for i, (task_name, task_obj) in enumerate(task.multitask_tasks.items()):\n            # dummy auxiliary decoder\n            if task_obj.args.get_loss_weight(0) == 0:\n                continue\n\n            task_decoder = cls.build_multitask_decoder(\n                args, task_obj.args, task_obj.target_dictionary, args.decoder_embed_dim\n            )\n\n            setattr(base_model, f\"{task_name}_decoder\", task_decoder)\n            decoder_model_cls = (\n                FairseqEncoderModel\n                if task_obj.args.decoder_type == \"ctc\"\n                else FairseqLanguageModel\n            )\n            base_model.multitask_decoders[task_name] = decoder_model_cls(\n                getattr(base_model, f\"{task_name}_decoder\")\n            )\n        return base_model\n\n    @classmethod\n    def build_multitask_decoder(\n        cls,\n        args,\n        mtl_args,\n        tgt_dict,\n        in_dim,\n        is_first_pass_decoder=False,\n    ):\n        decoder_args = mtl_args.decoder_args\n        decoder_args.encoder_embed_dim = in_dim\n        if mtl_args.decoder_type == \"transformer\":\n            if is_first_pass_decoder:\n                task_decoder = cls.build_text_decoder(args, tgt_dict)\n            else:\n                from fairseq.models.speech_to_speech import (\n                    base_multitask_text_transformer_decoder_arch,\n                )\n\n                base_multitask_text_transformer_decoder_arch(decoder_args)  # 2L\n                task_decoder = TransformerDecoder(\n                    decoder_args,\n                    tgt_dict,\n                    embed_tokens=TransformerModelBase.build_embedding(\n                        decoder_args,\n                        tgt_dict,\n                        decoder_args.decoder_embed_dim,\n                    ),\n                )\n        elif mtl_args.decoder_type == \"ctc\":\n            task_decoder = CTCDecoder(\n                dictionary=tgt_dict,\n                in_dim=in_dim,\n            )\n        else:\n            raise NotImplementedError(\n                \"currently only support multitask decoder_type 'transformer', 'ctc'\"\n            )\n\n        return task_decoder\n\n    def get_normalized_probs(\n        self,\n        net_output: Tuple[Tensor, Optional[Dict[str, List[Optional[Tensor]]]]],\n        log_probs: bool,\n        sample: Optional[Dict[str, Tensor]] = None,\n    ):\n        return self.get_normalized_probs_scriptable(net_output, log_probs, sample)\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths,\n        prev_output_tokens,\n        return_all_hiddens=False,\n        **kwargs,\n    ):\n        \"\"\"\n        The forward method inherited from the base class has a **kwargs\n        argument in its input, which is not supported in torchscript. This\n        method overwrites the forward method definition without **kwargs.\n        \"\"\"\n        encoder_out = self.encoder(\n            src_tokens=src_tokens, src_lengths=src_lengths, **kwargs\n        )\n        decoder_out = self.decoder(\n            prev_output_tokens=prev_output_tokens, encoder_out=encoder_out\n        )\n        if return_all_hiddens:\n            decoder_out[-1][\"encoder_states\"] = encoder_out[\"encoder_out\"]\n            # NOTE: from the top layer\n            decoder_out[-1][\"encoder_padding_mask\"] = encoder_out[\n                \"encoder_padding_mask\"\n            ]\n        return decoder_out\n\n    def upgrade_state_dict(self, state_dict):\n        for k, _ in state_dict.items():\n            if \"adaptor.layers\" in state_dict:\n                new = k.replace(\"adaptor.layers\", \"adaptor_layers\")\n                state_dict[new] = state_dict[k]\n                del state_dict[k]\n\n\ndef set_default_w2v_encoder_args(args):\n    args.no_pretrained_weights = getattr(args, \"no_pretrained_weights\", False)\n    args.dropout_input = getattr(args, \"dropout_input\", 0)\n    args.final_dropout = getattr(args, \"final_dropout\", 0)\n    args.apply_mask = getattr(args, \"apply_mask\", False)\n    args.dropout = getattr(args, \"dropout\", 0)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0)\n    args.activation_dropout = getattr(args, \"activation_dropout\", 0)\n    args.encoder_proj = getattr(args, \"encoder_proj\", False)\n    args.remove_weight_norm = getattr(args, \"remove_weight_norm\", False)\n\n    args.mask_length = getattr(args, \"mask_length\", 10)\n    args.mask_prob = getattr(args, \"mask_prob\", 0.5)\n    args.mask_selection = getattr(args, \"mask_selection\", \"static\")\n    args.mask_other = getattr(args, \"mask_other\", 0)\n    args.no_mask_overlap = getattr(args, \"no_mask_overlap\", False)\n    args.mask_channel_length = getattr(args, \"mask_channel_length\", 10)\n    args.mask_channel_prob = getattr(args, \"mask_channel_prob\", 0.5)\n    args.mask_channel_before = getattr(args, \"mask_channel_before\", False)\n    args.mask_channel_selection = getattr(args, \"mask_channel_selection\", \"static\")\n    args.mask_channel_other = getattr(args, \"mask_channel_other\", 0)\n    args.no_mask_channel_overlap = getattr(args, \"no_mask_channel_overlap\", False)\n\n    args.freeze_finetune_updates = getattr(args, \"freeze_finetune_updates\", 0)\n    args.feature_grad_mult = 0.1\n    args.layerdrop = getattr(args, \"layerdrop\", 0.0)\n\n    args.normalize = getattr(args, \"normalize\", False)\n    args.finetune_w2v_params = getattr(args, \"finetune_w2v_params\", \"all\")\n    args.w2v_freezing_updates = getattr(args, \"w2v_freezing_updates\", None)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n\n\ndef set_default_adaptor_args(args):\n    args.adaptor_n_layers = getattr(args, \"adaptor_n_layers\", 3)\n    args.adaptor_kernel_size = getattr(args, \"adaptor_kernel_size\", 3)\n    args.adaptor_stride = getattr(args, \"adaptor_stride\", 2)\n    args.adaptor_layerdrop = getattr(args, \"adaptor_layerdrop\", 0.0)\n    args.adaptor_layernorm = getattr(args, \"adaptor_layernorm\", False)\n    args.adaptor_proj = getattr(args, \"adaptor_proj\", False)\n\n\ndef set_default_transformer_decoder_args(args):\n    args.decoder_embed_path = getattr(args, \"decoder_embed_path\", None)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 1024)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 4 * 1024)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 12)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 16)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", False)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.decoder_layerdrop = getattr(args, \"decoder_layerdrop\", 0.0)\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.decoder_attention_dropout = getattr(args, \"decoder_attention_dropout\", 0.0)\n    args.decoder_activation_dropout = getattr(args, \"decoder_activation_dropout\", 0.0)\n    args.decoder_dropout = getattr(args, \"decoder_dropout\", 0.1)\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", False)\n    args.quant_noise_pq = getattr(args, \"quant_noise_pq\", 0)\n    args.layernorm_embedding = getattr(args, \"layernorm_embedding\", False)\n\n    args.activation_fn = getattr(args, \"activation_fn\", \"gelu\")\n    args.pooler_activation_fn = getattr(args, \"pooler_activation_fn\", \"tanh\")\n    args.pooler_dropout = getattr(args, \"pooler_dropout\", 0.0)\n\n    args.finetune_decoder_params = getattr(args, \"finetune_decoder_params\", \"all\")\n\n\ndef set_default_general_args(args):\n    args.checkpoint_activations = getattr(args, \"checkpoint_activations\", False)\n    args.offload_activations = getattr(args, \"offload_activations\", False)\n    args.min_params_to_wrap = getattr(args, \"min_params_to_wrap\", int(1e8))\n    args.max_positions = getattr(args, \"max_positions\", 3000)\n\n\n@register_model_architecture(model_name=\"xm_transformer\", arch_name=\"xm_transformer\")\ndef base_architecture(args):\n    set_default_general_args(args)\n    set_default_w2v_encoder_args(args)\n    set_default_adaptor_args(args)\n    set_default_transformer_decoder_args(args)\n"
  },
  {
    "path": "fairseq/models/speech_to_text/xm_transformer_unity.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport copy\nimport logging\n\nfrom fairseq.models import (\n    FairseqEncoderModel,\n    FairseqLanguageModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.speech_to_speech.modules.ctc_decoder import CTCDecoder\nfrom fairseq.models.speech_to_speech.modules.transformer_encoder import (\n    TransformerEncoderNoEmb,\n)\nfrom fairseq.models.speech_to_text.xm_transformer import XMTransformerModel\nfrom fairseq.models.speech_to_text.xm_transformer import (\n    base_architecture as xm_t_base_architecture,\n)\nfrom fairseq.models.speech_to_text.xm_transformer import (\n    build_embedding,\n    need_finetuning,\n    set_default_adaptor_args,\n    set_default_general_args,\n    set_default_transformer_decoder_args,\n    set_default_w2v_encoder_args,\n)\nfrom fairseq.models.transformer import Linear, TransformerDecoder, TransformerModelBase\nfrom fairseq.models.transformer.transformer_decoder_aug import AugTransformerDecoder\n\nlogger = logging.getLogger(__name__)\n\n\ndef unit_transformer_decoder_arch_base(\n    args, decoder_layers=6, decoder_embed_dim=768, decoder_attention_heads=12\n):\n    args.encoder_layers = decoder_layers\n    args.decoder_layers = decoder_layers\n    args.decoder_embed_dim = decoder_embed_dim\n    args.decoder_ffn_embed_dim = decoder_embed_dim * 4\n    args.decoder_attention_heads = decoder_attention_heads\n    args.encoder_embed_dim = args.decoder_embed_dim\n    args.decoder_output_dim = decoder_embed_dim\n    args.decoder_input_dim = decoder_embed_dim\n\n\ndef unit_transformer_decoder_arch_large(\n    args, decoder_layers=12, decoder_embed_dim=1024, decoder_attention_heads=16\n):\n    args.encoder_layers = decoder_layers\n    args.decoder_layers = decoder_layers\n    args.decoder_embed_dim = decoder_embed_dim\n    args.decoder_ffn_embed_dim = decoder_embed_dim * 4\n    args.decoder_attention_heads = decoder_attention_heads\n    args.encoder_embed_dim = args.decoder_embed_dim\n    args.decoder_output_dim = decoder_embed_dim\n    args.decoder_input_dim = decoder_embed_dim\n\n\n@register_model(\"unity_xm_transformer\")\nclass XMTransformerModelUnitY(XMTransformerModel):\n    @classmethod\n    def hub_models(cls):\n        base_url = \"http://dl.fbaipublicfiles.com/fairseq/s2t\"\n        model_ids = []\n        return {i: f\"{base_url}/{i}.tar.gz\" for i in model_ids}\n\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @classmethod\n    def add_args(cls, parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        XMTransformerModel.add_args(parser)\n        parser.add_argument(\n            \"--translation-decoder-layers\",\n            type=int,\n            default=4,\n            metavar=\"N\",\n            help=\"num decoder layers in the first-pass translation module\",\n        )\n        parser.add_argument(\n            \"--synthesizer-encoder-layers\",\n            type=int,\n            default=0,\n            metavar=\"N\",\n            help=\"num encoder layers in the second-pass synthesizer module\",\n        )\n        parser.add_argument(\n            \"--synthesizer-augmented-cross-attention\",\n            action=\"store_true\",\n            default=False,\n            help=\"augmented cross-attention over speech encoder output\",\n        )\n        parser.add_argument(\n            \"--load-pretrained-aux-decoder-from\",\n            type=str,\n            metavar=\"STR\",\n            help=\"model to take decoder weights from (for initialization)\",\n        )\n\n    @classmethod\n    def build_text_decoder(cls, args, tgt_dict):\n        _args = copy.deepcopy(args)\n\n        if args.adaptor_proj or args.encoder_proj:  # not V0 arch\n            _args.encoder_embed_dim = _args.decoder_embed_dim\n        _args.dropout = args.decoder_dropout\n        _args.attention_dropout = args.decoder_attention_dropout\n        _args.activation_dropout = args.decoder_activation_dropout\n        _args.layerdrop = _args.decoder_layerdrop\n        _args.decoder_layers = _args.translation_decoder_layers\n\n        embed_tokens = build_embedding(tgt_dict, _args.decoder_embed_dim)\n        decoder = TransformerDecoder(_args, tgt_dict, embed_tokens)\n\n        if getattr(args, \"load_pretrained_aux_decoder_from\", None) is not None:\n            decoder = cls.maybe_load_pretrained(\n                decoder, getattr(args, \"load_pretrained_aux_decoder_from\", None)\n            )\n\n            for k, p in decoder.named_parameters():\n                p.requires_grad = need_finetuning(args.finetune_decoder_params, k)\n        return decoder\n\n    @classmethod\n    def build_decoder(cls, args, task, aug_attn=False):\n        _args = copy.deepcopy(args)\n        _args.layerdrop = 0.0  # turn off layerdrop for shallow layers\n\n        _args.encoder_embed_dim = args.decoder_embed_dim\n\n        proj = None\n        if args.decoder_embed_dim != _args.decoder_embed_dim:\n            proj = Linear(args.decoder_embed_dim, _args.decoder_embed_dim)\n\n        embed_tokens = build_embedding(task.target_dictionary, _args.decoder_embed_dim)\n        decoder_cls = AugTransformerDecoder if aug_attn else TransformerDecoder\n        decoder = decoder_cls(_args, task.target_dictionary, embed_tokens)\n\n        if getattr(args, \"load_pretrained_decoder_from\", None) is not None:\n            # load all layers first and then discard the bottom layers\n            embed_tokens = build_embedding(\n                task.target_dictionary, _args.decoder_embed_dim\n            )\n            decoder_tmp = decoder_cls(_args, task.target_dictionary, embed_tokens)\n            decoder_tmp = cls.maybe_load_pretrained(\n                decoder_tmp, getattr(_args, \"load_pretrained_decoder_from\", None)\n            )\n            state_dict = decoder_tmp.state_dict()\n            for k, p in decoder.named_parameters():\n                p.data = state_dict[k].data\n                p.requires_grad = need_finetuning(_args.finetune_decoder_params, k)\n            decoder.layers = decoder.layers[-_args.decoder_layers :]\n\n        return decoder, proj, _args\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        # make sure all arguments are present in older models\n        xm_t_base_architecture(args)\n\n        encoder = cls.build_encoder(args)\n        decoder, proj, unit_args = cls.build_decoder(\n            args,\n            task,\n            aug_attn=getattr(args, \"synthesizer_augmented_cross_attention\", False),\n        )\n        base_model = cls(encoder, decoder)\n        setattr(base_model, \"proj\", proj)\n\n        base_model.t2u_augmented_cross_attn = getattr(\n            args, \"synthesizer_augmented_cross_attention\", False\n        )\n\n        # set up multitask decoders\n        base_model.mt_task_name = None\n        base_model.multitask_decoders = {}\n        has_first_pass_decoder = False\n        for task_name, task_obj in task.multitask_tasks.items():\n            if task_obj.is_first_pass_decoder:\n                has_first_pass_decoder = True\n                base_model.mt_task_name = task_name\n\n            task_decoder = cls.build_multitask_decoder(\n                args,\n                task_obj.args,\n                task_obj.target_dictionary,\n                args.decoder_embed_dim,\n                task_obj.is_first_pass_decoder,\n            )\n\n            setattr(base_model, f\"{task_name}_decoder\", task_decoder)\n            decoder_model_cls = (\n                FairseqEncoderModel\n                if task_obj.args.decoder_type == \"ctc\"\n                else FairseqLanguageModel\n            )\n            base_model.multitask_decoders[task_name] = decoder_model_cls(\n                getattr(base_model, f\"{task_name}_decoder\")\n            )\n\n        assert has_first_pass_decoder, \"set at least one intermediate non-CTC decoder\"\n\n        # set up encoder on top of the auxiliary MT decoder\n        if getattr(args, \"synthesizer_encoder_layers\", 0) > 0:\n            base_model.synthesizer_encoder = cls.build_t2u_encoder(unit_args)\n        else:\n            base_model.synthesizer_encoder = None\n\n        return base_model\n\n    @classmethod\n    def build_t2u_encoder(cls, args):\n        _args = copy.deepcopy(args)\n        _args.encoder_layers = _args.synthesizer_encoder_layers\n        _args.encoder_embed_dim = args.decoder_embed_dim\n        _args.encoder_ffn_embed_dim = args.decoder_ffn_embed_dim\n        _args.encoder_attention_heads = args.decoder_attention_heads\n        _args.encoder_normalize_before = True\n        return TransformerEncoderNoEmb(_args)\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths,\n        prev_output_tokens,\n        prev_output_tokens_mt,\n        return_all_hiddens=False,\n        tgt_speaker=None,\n        **kwargs,\n    ):\n        \"\"\"\n        The forward method inherited from the base class has a **kwargs\n        argument in its input, which is not supported in torchscript. This\n        method overwrites the forward method definition without **kwargs.\n        \"\"\"\n        encoder_out = self.encoder(\n            src_tokens=src_tokens, src_lengths=src_lengths, **kwargs\n        )\n\n        # 1. MT decoder\n        mt_decoder = getattr(self, f\"{self.mt_task_name}_decoder\")\n        mt_decoder_out = mt_decoder(\n            prev_output_tokens_mt,\n            encoder_out=encoder_out,\n        )\n        x = mt_decoder_out[1][\"inner_states\"][-1]\n        if mt_decoder.layer_norm is not None:\n            x = mt_decoder.layer_norm(x)\n        if self.proj is not None:\n            x = self.proj(x)\n\n        mt_decoder_padding_mask = None\n        if prev_output_tokens_mt.eq(mt_decoder.padding_idx).any():\n            mt_decoder_padding_mask = prev_output_tokens_mt.eq(mt_decoder.padding_idx)\n\n        # 2. T2U encoder\n        if self.synthesizer_encoder is not None:\n            t2u_encoder_out = self.synthesizer_encoder(\n                x,\n                mt_decoder_padding_mask,\n            )\n        else:\n            t2u_encoder_out = {\n                \"encoder_out\": [x],  # T x B x C\n                \"encoder_padding_mask\": [mt_decoder_padding_mask],  # B x T\n            }\n\n        # 3. T2U decoder\n        if self.t2u_augmented_cross_attn:\n            decoder_out = self.decoder(\n                prev_output_tokens,\n                encoder_out=encoder_out,\n                encoder_out_aug=t2u_encoder_out,\n            )\n        else:\n            decoder_out = self.decoder(\n                prev_output_tokens,\n                encoder_out=t2u_encoder_out,\n            )\n        if return_all_hiddens:\n            decoder_out[-1][\"encoder_states\"] = encoder_out[\"encoder_out\"]\n            # NOTE: from the top layer\n            decoder_out[-1][\"encoder_padding_mask\"] = encoder_out[\n                \"encoder_padding_mask\"\n            ]\n        decoder_out[-1][\"mt_decoder_out\"] = mt_decoder_out\n        return decoder_out\n\n\n@register_model_architecture(\n    model_name=\"unity_xm_transformer\", arch_name=\"unity_xm_transformer\"\n)\ndef base_architecture_unity(args):\n    set_default_general_args(args)\n    set_default_w2v_encoder_args(args)\n    set_default_adaptor_args(args)\n    set_default_transformer_decoder_args(args)\n\n    args.layernorm_embedding = False\n    args.decoder_learned_pos = False\n\n\n# for old models\n@register_model_architecture(\n    model_name=\"unity_xm_transformer\", arch_name=\"xm_transformer_t2\"\n)\ndef base_architecture_unity_legacy(args):\n    base_architecture_unity(args)\n"
  },
  {
    "path": "fairseq/models/text_to_speech/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .tacotron2 import *  # noqa\nfrom .tts_transformer import *  # noqa\nfrom .fastspeech2 import *  # noqa\nfrom .vocoder import *  # noqa\n"
  },
  {
    "path": "fairseq/models/text_to_speech/codehifigan.py",
    "content": "from argparse import Namespace\nimport torch\nimport torch.nn as nn\n\nfrom fairseq.models.text_to_speech.fastspeech2 import VariancePredictor\nfrom fairseq.models.text_to_speech.hifigan import Generator\n\n\nclass CodeGenerator(Generator):\n    def __init__(self, cfg):\n        super().__init__(cfg)\n        self.dict = nn.Embedding(cfg[\"num_embeddings\"], cfg[\"embedding_dim\"])\n        self.multispkr = cfg.get(\"multispkr\", None)\n        self.embedder = cfg.get(\"embedder_params\", None)\n\n        if self.multispkr and not self.embedder:\n            self.spkr = nn.Embedding(cfg.get(\"num_speakers\", 200), cfg[\"embedding_dim\"])\n        elif self.embedder:\n            self.spkr = nn.Linear(cfg.get(\"embedder_dim\", 256), cfg[\"embedding_dim\"])\n\n        self.dur_predictor = None\n        if cfg.get(\"dur_predictor_params\", None):\n            self.dur_predictor = VariancePredictor(\n                Namespace(**cfg[\"dur_predictor_params\"])\n            )\n\n        self.f0 = cfg.get(\"f0\", None)\n        n_f0_bin = cfg.get(\"f0_quant_num_bin\", 0)\n        self.f0_quant_embed = (\n            None if n_f0_bin <= 0 else nn.Embedding(n_f0_bin, cfg[\"embedding_dim\"])\n        )\n\n    @staticmethod\n    def _upsample(signal, max_frames):\n        if signal.dim() == 3:\n            bsz, channels, cond_length = signal.size()\n        elif signal.dim() == 2:\n            signal = signal.unsqueeze(2)\n            bsz, channels, cond_length = signal.size()\n        else:\n            signal = signal.view(-1, 1, 1)\n            bsz, channels, cond_length = signal.size()\n\n        signal = signal.unsqueeze(3).repeat(1, 1, 1, max_frames // cond_length)\n\n        # pad zeros as needed (if signal's shape does not divide completely with max_frames)\n        reminder = (max_frames - signal.shape[2] * signal.shape[3]) // signal.shape[3]\n        if reminder > 0:\n            raise NotImplementedError(\n                \"Padding condition signal - misalignment between condition features.\"\n            )\n\n        signal = signal.view(bsz, channels, max_frames)\n        return signal\n\n    def forward(self, **kwargs):\n        x = self.dict(kwargs[\"code\"]).transpose(1, 2)\n\n        if self.dur_predictor and kwargs.get(\"dur_prediction\", False):\n            assert x.size(0) == 1, \"only support single sample\"\n            log_dur_pred = self.dur_predictor(x.transpose(1, 2))\n            dur_out = torch.clamp(\n                torch.round((torch.exp(log_dur_pred) - 1)).long(), min=1\n            )\n            # B x C x T\n            x = torch.repeat_interleave(x, dur_out.view(-1), dim=2)\n\n        if self.f0:\n            if self.f0_quant_embed:\n                kwargs[\"f0\"] = self.f0_quant_embed(kwargs[\"f0\"].long()).transpose(1, 2)\n            else:\n                kwargs[\"f0\"] = kwargs[\"f0\"].unsqueeze(1)\n\n            if x.shape[-1] < kwargs[\"f0\"].shape[-1]:\n                x = self._upsample(x, kwargs[\"f0\"].shape[-1])\n            elif x.shape[-1] > kwargs[\"f0\"].shape[-1]:\n                kwargs[\"f0\"] = self._upsample(kwargs[\"f0\"], x.shape[-1])\n            x = torch.cat([x, kwargs[\"f0\"]], dim=1)\n\n        if self.multispkr:\n            assert (\n                \"spkr\" in kwargs\n            ), 'require \"spkr\" input for multispeaker CodeHiFiGAN vocoder'\n            spkr = self.spkr(kwargs[\"spkr\"]).transpose(1, 2)\n            spkr = self._upsample(spkr, x.shape[-1])\n            x = torch.cat([x, spkr], dim=1)\n\n        for k, feat in kwargs.items():\n            if k in [\"spkr\", \"code\", \"f0\", \"dur_prediction\"]:\n                continue\n\n            feat = self._upsample(feat, x.shape[-1])\n            x = torch.cat([x, feat], dim=1)\n\n        return super().forward(x)\n"
  },
  {
    "path": "fairseq/models/text_to_speech/fastspeech2.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nimport torch\nfrom torch import nn\n\nfrom fairseq import utils\nfrom fairseq.data.data_utils import lengths_to_padding_mask\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.text_to_speech.hub_interface import TTSHubInterface\nfrom fairseq.models.text_to_speech.tacotron2 import Postnet\nfrom fairseq.modules import (\n    FairseqDropout,\n    LayerNorm,\n    MultiheadAttention,\n    PositionalEmbedding,\n)\n\nlogger = logging.getLogger(__name__)\n\n\ndef model_init(m):\n    if isinstance(m, nn.Conv1d):\n        nn.init.xavier_uniform_(m.weight, torch.nn.init.calculate_gain(\"relu\"))\n\n\ndef Embedding(num_embeddings, embedding_dim, padding_idx=None):\n    m = nn.Embedding(num_embeddings, embedding_dim, padding_idx=padding_idx)\n    nn.init.normal_(m.weight, mean=0, std=embedding_dim**-0.5)\n    return m\n\n\nclass PositionwiseFeedForward(nn.Module):\n    def __init__(self, in_dim, hidden_dim, kernel_size, dropout):\n        super().__init__()\n        self.ffn = nn.Sequential(\n            nn.Conv1d(\n                in_dim,\n                hidden_dim,\n                kernel_size=kernel_size,\n                padding=(kernel_size - 1) // 2,\n            ),\n            nn.ReLU(),\n            nn.Conv1d(\n                hidden_dim,\n                in_dim,\n                kernel_size=kernel_size,\n                padding=(kernel_size - 1) // 2,\n            ),\n        )\n        self.layer_norm = LayerNorm(in_dim)\n        self.dropout = self.dropout_module = FairseqDropout(\n            p=dropout, module_name=self.__class__.__name__\n        )\n\n    def forward(self, x):\n        # B x T x C\n        residual = x\n        x = self.ffn(x.transpose(1, 2)).transpose(1, 2)\n        x = self.dropout(x)\n        return self.layer_norm(x + residual)\n\n\nclass FFTLayer(torch.nn.Module):\n    def __init__(\n        self, embed_dim, n_heads, hidden_dim, kernel_size, dropout, attention_dropout\n    ):\n        super().__init__()\n        self.self_attn = MultiheadAttention(\n            embed_dim, n_heads, dropout=attention_dropout, self_attention=True\n        )\n        self.layer_norm = LayerNorm(embed_dim)\n        self.ffn = PositionwiseFeedForward(\n            embed_dim, hidden_dim, kernel_size, dropout=dropout\n        )\n\n    def forward(self, x, padding_mask=None):\n        # B x T x C\n        residual = x\n        x = x.transpose(0, 1)\n        x, _ = self.self_attn(\n            query=x, key=x, value=x, key_padding_mask=padding_mask, need_weights=False\n        )\n        x = x.transpose(0, 1)\n        x = self.layer_norm(x + residual)\n        return self.ffn(x)\n\n\nclass LengthRegulator(nn.Module):\n    def forward(self, x, durations):\n        # x: B x T x C\n        out_lens = durations.sum(dim=1)\n        max_len = out_lens.max()\n        bsz, seq_len, dim = x.size()\n        out = x.new_zeros((bsz, max_len, dim))\n\n        for b in range(bsz):\n            indices = []\n            for t in range(seq_len):\n                indices.extend([t] * utils.item(durations[b, t]))\n            indices = torch.tensor(indices, dtype=torch.long).to(x.device)\n            out_len = utils.item(out_lens[b])\n            out[b, :out_len] = x[b].index_select(0, indices)\n\n        return out, out_lens\n\n\nclass VariancePredictor(nn.Module):\n    def __init__(self, args):\n        super().__init__()\n        self.conv1 = nn.Sequential(\n            nn.Conv1d(\n                args.encoder_embed_dim,\n                args.var_pred_hidden_dim,\n                kernel_size=args.var_pred_kernel_size,\n                padding=(args.var_pred_kernel_size - 1) // 2,\n            ),\n            nn.ReLU(),\n        )\n        self.ln1 = nn.LayerNorm(args.var_pred_hidden_dim)\n        self.dropout_module = FairseqDropout(\n            p=args.var_pred_dropout, module_name=self.__class__.__name__\n        )\n        self.conv2 = nn.Sequential(\n            nn.Conv1d(\n                args.var_pred_hidden_dim,\n                args.var_pred_hidden_dim,\n                kernel_size=args.var_pred_kernel_size,\n                padding=1,\n            ),\n            nn.ReLU(),\n        )\n        self.ln2 = nn.LayerNorm(args.var_pred_hidden_dim)\n        self.proj = nn.Linear(args.var_pred_hidden_dim, 1)\n\n    def forward(self, x):\n        # Input: B x T x C; Output: B x T\n        x = self.conv1(x.transpose(1, 2)).transpose(1, 2)\n        x = self.dropout_module(self.ln1(x))\n        x = self.conv2(x.transpose(1, 2)).transpose(1, 2)\n        x = self.dropout_module(self.ln2(x))\n        return self.proj(x).squeeze(dim=2)\n\n\nclass VarianceAdaptor(nn.Module):\n    def __init__(self, args):\n        super().__init__()\n        self.args = args\n        self.length_regulator = LengthRegulator()\n        self.duration_predictor = VariancePredictor(args)\n        self.pitch_predictor = VariancePredictor(args)\n        self.energy_predictor = VariancePredictor(args)\n\n        n_bins, steps = self.args.var_pred_n_bins, self.args.var_pred_n_bins - 1\n        self.pitch_bins = torch.linspace(args.pitch_min, args.pitch_max, steps)\n        self.embed_pitch = Embedding(n_bins, args.encoder_embed_dim)\n        self.energy_bins = torch.linspace(args.energy_min, args.energy_max, steps)\n        self.embed_energy = Embedding(n_bins, args.encoder_embed_dim)\n\n    def get_pitch_emb(self, x, tgt=None, factor=1.0):\n        out = self.pitch_predictor(x)\n        bins = self.pitch_bins.to(x.device)\n        if tgt is None:\n            out = out * factor\n            emb = self.embed_pitch(torch.bucketize(out, bins))\n        else:\n            emb = self.embed_pitch(torch.bucketize(tgt, bins))\n        return out, emb\n\n    def get_energy_emb(self, x, tgt=None, factor=1.0):\n        out = self.energy_predictor(x)\n        bins = self.energy_bins.to(x.device)\n        if tgt is None:\n            out = out * factor\n            emb = self.embed_energy(torch.bucketize(out, bins))\n        else:\n            emb = self.embed_energy(torch.bucketize(tgt, bins))\n        return out, emb\n\n    def forward(\n        self,\n        x,\n        padding_mask,\n        durations=None,\n        pitches=None,\n        energies=None,\n        d_factor=1.0,\n        p_factor=1.0,\n        e_factor=1.0,\n    ):\n        # x: B x T x C\n        log_dur_out = self.duration_predictor(x)\n        dur_out = torch.clamp(\n            torch.round((torch.exp(log_dur_out) - 1) * d_factor).long(), min=0\n        )\n        dur_out.masked_fill_(padding_mask, 0)\n\n        pitch_out, pitch_emb = self.get_pitch_emb(x, pitches, p_factor)\n        x = x + pitch_emb\n        energy_out, energy_emb = self.get_energy_emb(x, energies, e_factor)\n        x = x + energy_emb\n\n        x, out_lens = self.length_regulator(\n            x, dur_out if durations is None else durations\n        )\n\n        return x, out_lens, log_dur_out, pitch_out, energy_out\n\n\nclass FastSpeech2Encoder(FairseqEncoder):\n    def __init__(self, args, src_dict, embed_speaker):\n        super().__init__(src_dict)\n        self.args = args\n        self.padding_idx = src_dict.pad()\n        self.n_frames_per_step = args.n_frames_per_step\n        self.out_dim = args.output_frame_dim * args.n_frames_per_step\n\n        self.embed_speaker = embed_speaker\n        self.spk_emb_proj = None\n        if embed_speaker is not None:\n            self.spk_emb_proj = nn.Linear(\n                args.encoder_embed_dim + args.speaker_embed_dim, args.encoder_embed_dim\n            )\n\n        self.dropout_module = FairseqDropout(\n            p=args.dropout, module_name=self.__class__.__name__\n        )\n        self.embed_tokens = Embedding(\n            len(src_dict), args.encoder_embed_dim, padding_idx=self.padding_idx\n        )\n\n        self.embed_positions = PositionalEmbedding(\n            args.max_source_positions, args.encoder_embed_dim, self.padding_idx\n        )\n        self.pos_emb_alpha = nn.Parameter(torch.ones(1))\n        self.dec_pos_emb_alpha = nn.Parameter(torch.ones(1))\n\n        self.encoder_fft_layers = nn.ModuleList(\n            FFTLayer(\n                args.encoder_embed_dim,\n                args.encoder_attention_heads,\n                args.fft_hidden_dim,\n                args.fft_kernel_size,\n                dropout=args.dropout,\n                attention_dropout=args.attention_dropout,\n            )\n            for _ in range(args.encoder_layers)\n        )\n\n        self.var_adaptor = VarianceAdaptor(args)\n\n        self.decoder_fft_layers = nn.ModuleList(\n            FFTLayer(\n                args.decoder_embed_dim,\n                args.decoder_attention_heads,\n                args.fft_hidden_dim,\n                args.fft_kernel_size,\n                dropout=args.dropout,\n                attention_dropout=args.attention_dropout,\n            )\n            for _ in range(args.decoder_layers)\n        )\n\n        self.out_proj = nn.Linear(args.decoder_embed_dim, self.out_dim)\n\n        self.postnet = None\n        if args.add_postnet:\n            self.postnet = Postnet(\n                self.out_dim,\n                args.postnet_conv_dim,\n                args.postnet_conv_kernel_size,\n                args.postnet_layers,\n                args.postnet_dropout,\n            )\n\n        self.apply(model_init)\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths=None,\n        speaker=None,\n        durations=None,\n        pitches=None,\n        energies=None,\n        **kwargs,\n    ):\n        x = self.embed_tokens(src_tokens)\n\n        enc_padding_mask = src_tokens.eq(self.padding_idx)\n        x += self.pos_emb_alpha * self.embed_positions(enc_padding_mask)\n        x = self.dropout_module(x)\n\n        for layer in self.encoder_fft_layers:\n            x = layer(x, enc_padding_mask)\n\n        if self.embed_speaker is not None:\n            bsz, seq_len, _ = x.size()\n            emb = self.embed_speaker(speaker).expand(bsz, seq_len, -1)\n            x = self.spk_emb_proj(torch.cat([x, emb], dim=2))\n\n        x, out_lens, log_dur_out, pitch_out, energy_out = self.var_adaptor(\n            x, enc_padding_mask, durations, pitches, energies\n        )\n\n        dec_padding_mask = lengths_to_padding_mask(out_lens)\n        x += self.dec_pos_emb_alpha * self.embed_positions(dec_padding_mask)\n        for layer in self.decoder_fft_layers:\n            x = layer(x, dec_padding_mask)\n\n        x = self.out_proj(x)\n        x_post = None\n        if self.postnet is not None:\n            x_post = x + self.postnet(x)\n        return x, x_post, out_lens, log_dur_out, pitch_out, energy_out\n\n\n@register_model(\"fastspeech2\")\nclass FastSpeech2Model(FairseqEncoderModel):\n    \"\"\"\n    Implementation for https://arxiv.org/abs/2006.04558\n    \"\"\"\n\n    NON_AUTOREGRESSIVE = True\n\n    @classmethod\n    def hub_models(cls):\n        base_url = \"http://dl.fbaipublicfiles.com/fairseq/s2\"\n        model_ids = [\n            \"fastspeech2-en-ljspeech\",\n            \"fastspeech2-en-200_speaker-cv4\",\n        ]\n        return {i: f\"{base_url}/{i}.tar.gz\" for i in model_ids}\n\n    @classmethod\n    def from_pretrained(\n        cls,\n        model_name_or_path,\n        checkpoint_file=\"model.pt\",\n        data_name_or_path=\".\",\n        config_yaml=\"config.yaml\",\n        vocoder: str = \"griffin_lim\",\n        fp16: bool = False,\n        **kwargs,\n    ):\n        from fairseq import hub_utils\n\n        x = hub_utils.from_pretrained(\n            model_name_or_path,\n            checkpoint_file,\n            data_name_or_path,\n            archive_map=cls.hub_models(),\n            config_yaml=config_yaml,\n            vocoder=vocoder,\n            fp16=fp16,\n            **kwargs,\n        )\n        return TTSHubInterface(x[\"args\"], x[\"task\"], x[\"models\"][0])\n\n    @staticmethod\n    def add_args(parser):\n        parser.add_argument(\"--dropout\", type=float)\n        parser.add_argument(\"--output-frame-dim\", type=int)\n        parser.add_argument(\"--speaker-embed-dim\", type=int)\n        # FFT blocks\n        parser.add_argument(\"--fft-hidden-dim\", type=int)\n        parser.add_argument(\"--fft-kernel-size\", type=int)\n        parser.add_argument(\"--attention-dropout\", type=float)\n        parser.add_argument(\"--encoder-layers\", type=int)\n        parser.add_argument(\"--encoder-embed-dim\", type=int)\n        parser.add_argument(\"--encoder-attention-heads\", type=int)\n        parser.add_argument(\"--decoder-layers\", type=int)\n        parser.add_argument(\"--decoder-embed-dim\", type=int)\n        parser.add_argument(\"--decoder-attention-heads\", type=int)\n        # variance predictor\n        parser.add_argument(\"--var-pred-n-bins\", type=int)\n        parser.add_argument(\"--var-pred-hidden-dim\", type=int)\n        parser.add_argument(\"--var-pred-kernel-size\", type=int)\n        parser.add_argument(\"--var-pred-dropout\", type=float)\n        # postnet\n        parser.add_argument(\"--add-postnet\", action=\"store_true\")\n        parser.add_argument(\"--postnet-dropout\", type=float)\n        parser.add_argument(\"--postnet-layers\", type=int)\n        parser.add_argument(\"--postnet-conv-dim\", type=int)\n        parser.add_argument(\"--postnet-conv-kernel-size\", type=int)\n\n    def __init__(self, encoder, args, src_dict):\n        super().__init__(encoder)\n        self._num_updates = 0\n\n        out_dim = args.output_frame_dim * args.n_frames_per_step\n        self.ctc_proj = None\n        if getattr(args, \"ctc_weight\", 0.0) > 0.0:\n            self.ctc_proj = nn.Linear(out_dim, len(src_dict))\n\n    @classmethod\n    def build_model(cls, args, task):\n        embed_speaker = task.get_speaker_embeddings(args)\n        encoder = FastSpeech2Encoder(args, task.src_dict, embed_speaker)\n        return cls(encoder, args, task.src_dict)\n\n    def set_num_updates(self, num_updates):\n        super().set_num_updates(num_updates)\n        self._num_updates = num_updates\n\n    def get_normalized_probs(self, net_output, log_probs, sample=None):\n        logits = self.ctc_proj(net_output[0])\n        if log_probs:\n            return utils.log_softmax(logits.float(), dim=-1)\n        else:\n            return utils.softmax(logits.float(), dim=-1)\n\n\n@register_model_architecture(\"fastspeech2\", \"fastspeech2\")\ndef base_architecture(args):\n    args.dropout = getattr(args, \"dropout\", 0.2)\n    args.output_frame_dim = getattr(args, \"output_frame_dim\", 80)\n    args.speaker_embed_dim = getattr(args, \"speaker_embed_dim\", 64)\n    # FFT blocks\n    args.fft_hidden_dim = getattr(args, \"fft_hidden_dim\", 1024)\n    args.fft_kernel_size = getattr(args, \"fft_kernel_size\", 9)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.0)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 4)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 256)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 2)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 4)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 256)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 2)\n    # variance predictor\n    args.var_pred_n_bins = getattr(args, \"var_pred_n_bins\", 256)\n    args.var_pred_hidden_dim = getattr(args, \"var_pred_hidden_dim\", 256)\n    args.var_pred_kernel_size = getattr(args, \"var_pred_kernel_size\", 3)\n    args.var_pred_dropout = getattr(args, \"var_pred_dropout\", 0.5)\n    # postnet\n    args.add_postnet = getattr(args, \"add_postnet\", False)\n    args.postnet_dropout = getattr(args, \"postnet_dropout\", 0.5)\n    args.postnet_layers = getattr(args, \"postnet_layers\", 5)\n    args.postnet_conv_dim = getattr(args, \"postnet_conv_dim\", 512)\n    args.postnet_conv_kernel_size = getattr(args, \"postnet_conv_kernel_size\", 5)\n"
  },
  {
    "path": "fairseq/models/text_to_speech/hifigan.py",
    "content": "import torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom torch.nn import Conv1d, ConvTranspose1d\nfrom torch.nn.utils import remove_weight_norm, weight_norm\n\nLRELU_SLOPE = 0.1\n\n\ndef init_weights(m, mean=0.0, std=0.01):\n    classname = m.__class__.__name__\n    if classname.find(\"Conv\") != -1:\n        m.weight.data.normal_(mean, std)\n\n\ndef get_padding(kernel_size, dilation=1):\n    return (kernel_size * dilation - dilation) // 2\n\n\nclass ResBlock(torch.nn.Module):\n    def __init__(self, channels, kernel_size=3, dilation=(1, 3, 5)):\n        super(ResBlock, self).__init__()\n        self.convs1 = nn.ModuleList(\n            [\n                weight_norm(\n                    Conv1d(\n                        channels,\n                        channels,\n                        kernel_size,\n                        1,\n                        dilation=dilation[0],\n                        padding=get_padding(kernel_size, dilation[0]),\n                    )\n                ),\n                weight_norm(\n                    Conv1d(\n                        channels,\n                        channels,\n                        kernel_size,\n                        1,\n                        dilation=dilation[1],\n                        padding=get_padding(kernel_size, dilation[1]),\n                    )\n                ),\n                weight_norm(\n                    Conv1d(\n                        channels,\n                        channels,\n                        kernel_size,\n                        1,\n                        dilation=dilation[2],\n                        padding=get_padding(kernel_size, dilation[2]),\n                    )\n                ),\n            ]\n        )\n        self.convs1.apply(init_weights)\n\n        self.convs2 = nn.ModuleList(\n            [\n                weight_norm(\n                    Conv1d(\n                        channels,\n                        channels,\n                        kernel_size,\n                        1,\n                        dilation=1,\n                        padding=get_padding(kernel_size, 1),\n                    )\n                ),\n                weight_norm(\n                    Conv1d(\n                        channels,\n                        channels,\n                        kernel_size,\n                        1,\n                        dilation=1,\n                        padding=get_padding(kernel_size, 1),\n                    )\n                ),\n                weight_norm(\n                    Conv1d(\n                        channels,\n                        channels,\n                        kernel_size,\n                        1,\n                        dilation=1,\n                        padding=get_padding(kernel_size, 1),\n                    )\n                ),\n            ]\n        )\n        self.convs2.apply(init_weights)\n\n    def forward(self, x):\n        for c1, c2 in zip(self.convs1, self.convs2):\n            xt = F.leaky_relu(x, LRELU_SLOPE)\n            xt = c1(xt)\n            xt = F.leaky_relu(xt, LRELU_SLOPE)\n            xt = c2(xt)\n            x = xt + x\n        return x\n\n    def remove_weight_norm(self):\n        for layer in self.convs1:\n            remove_weight_norm(layer)\n        for layer in self.convs2:\n            remove_weight_norm(layer)\n\n\nclass Generator(torch.nn.Module):\n    def __init__(self, cfg):\n        super(Generator, self).__init__()\n        self.num_kernels = len(cfg[\"resblock_kernel_sizes\"])\n        self.num_upsamples = len(cfg[\"upsample_rates\"])\n        self.conv_pre = weight_norm(\n            Conv1d(\n                cfg.get(\"model_in_dim\", 80),\n                cfg[\"upsample_initial_channel\"],\n                7,\n                1,\n                padding=3,\n            )\n        )\n\n        self.ups = nn.ModuleList()\n        for i, (u, k) in enumerate(\n            zip(cfg[\"upsample_rates\"], cfg[\"upsample_kernel_sizes\"])\n        ):\n            self.ups.append(\n                weight_norm(\n                    ConvTranspose1d(\n                        cfg[\"upsample_initial_channel\"] // (2**i),\n                        cfg[\"upsample_initial_channel\"] // (2 ** (i + 1)),\n                        k,\n                        u,\n                        padding=(k - u) // 2,\n                    )\n                )\n            )\n\n        self.resblocks = nn.ModuleList()\n        for i in range(len(self.ups)):\n            ch = cfg[\"upsample_initial_channel\"] // (2 ** (i + 1))\n            for k, d in zip(\n                cfg[\"resblock_kernel_sizes\"], cfg[\"resblock_dilation_sizes\"]\n            ):\n                self.resblocks.append(ResBlock(ch, k, d))\n\n        self.conv_post = weight_norm(Conv1d(ch, 1, 7, 1, padding=3))\n        self.ups.apply(init_weights)\n        self.conv_post.apply(init_weights)\n\n    def forward(self, x):\n        x = self.conv_pre(x)\n        for i in range(self.num_upsamples):\n            x = F.leaky_relu(x, LRELU_SLOPE)\n            x = self.ups[i](x)\n            xs = None\n            for j in range(self.num_kernels):\n                if xs is None:\n                    xs = self.resblocks[i * self.num_kernels + j](x)\n                else:\n                    xs += self.resblocks[i * self.num_kernels + j](x)\n            x = xs / self.num_kernels\n        x = F.leaky_relu(x)\n        x = self.conv_post(x)\n        x = torch.tanh(x)\n\n        return x\n\n    def remove_weight_norm(self):\n        print(\"Removing weight norm...\")\n        for layer in self.ups:\n            remove_weight_norm(layer)\n        for layer in self.resblocks:\n            layer.remove_weight_norm()\n        remove_weight_norm(self.conv_pre)\n        remove_weight_norm(self.conv_post)\n"
  },
  {
    "path": "fairseq/models/text_to_speech/hub_interface.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport random\nfrom pathlib import Path\nfrom typing import Dict, Optional, Tuple\n\nimport torch\nimport torch.nn as nn\n\nlogger = logging.getLogger(__name__)\n\n\nclass TTSHubInterface(nn.Module):\n    def __init__(self, cfg, task, model):\n        super().__init__()\n        self.cfg = cfg\n        self.task = task\n        self.model = model\n        self.model.eval()\n\n        self.update_cfg_with_data_cfg(self.cfg, self.task.data_cfg)\n        self.generator = self.task.build_generator([self.model], self.cfg)\n\n    @classmethod\n    def phonemize(\n        cls,\n        text: str,\n        lang: Optional[str],\n        phonemizer: Optional[str] = None,\n        preserve_punct: bool = False,\n        to_simplified_zh: bool = False,\n    ):\n        if to_simplified_zh:\n            import hanziconv\n\n            text = hanziconv.HanziConv.toSimplified(text)\n\n        if phonemizer == \"g2p\":\n            import g2p_en\n\n            g2p = g2p_en.G2p()\n            if preserve_punct:\n                return \" \".join(\"|\" if p == \" \" else p for p in g2p(text))\n            else:\n                res = [{\",\": \"sp\", \";\": \"sp\"}.get(p, p) for p in g2p(text)]\n                return \" \".join(p for p in res if p.isalnum())\n        if phonemizer == \"g2pc\":\n            import g2pc\n\n            g2p = g2pc.G2pC()\n            return \" \".join([w[3] for w in g2p(text)])\n        elif phonemizer == \"ipa\":\n            assert lang is not None\n            import phonemizer\n            from phonemizer.separator import Separator\n\n            lang_map = {\"en\": \"en-us\", \"fr\": \"fr-fr\"}\n            return phonemizer.phonemize(\n                text,\n                backend=\"espeak\",\n                language=lang_map.get(lang, lang),\n                separator=Separator(word=\"| \", phone=\" \"),\n            )\n        else:\n            return text\n\n    @classmethod\n    def tokenize(cls, text: str, tkn_cfg: Dict[str, str]):\n        sentencepiece_model = tkn_cfg.get(\"sentencepiece_model\", None)\n        if sentencepiece_model is not None:\n            assert Path(sentencepiece_model).exists()\n            import sentencepiece as sp\n\n            spm = sp.SentencePieceProcessor()\n            spm.Load(sentencepiece_model)\n            return \" \".join(spm.Encode(text, out_type=str))\n        else:\n            return text\n\n    @classmethod\n    def update_cfg_with_data_cfg(cls, cfg, data_cfg):\n        cfg[\"task\"].vocoder = data_cfg.vocoder.get(\"type\", \"griffin_lim\")\n\n    @classmethod\n    def get_model_input(\n        cls, task, text: str, speaker: Optional[int] = None, verbose: bool = False\n    ):\n        phonemized = cls.phonemize(\n            text,\n            task.data_cfg.hub.get(\"lang\", None),\n            task.data_cfg.hub.get(\"phonemizer\", None),\n            task.data_cfg.hub.get(\"preserve_punct\", False),\n            task.data_cfg.hub.get(\"to_simplified_zh\", False),\n        )\n        tkn_cfg = task.data_cfg.bpe_tokenizer\n        tokenized = cls.tokenize(phonemized, tkn_cfg)\n        if verbose:\n            logger.info(f\"text: {text}\")\n            logger.info(f\"phonemized: {phonemized}\")\n            logger.info(f\"tokenized: {tokenized}\")\n\n        spk = task.data_cfg.hub.get(\"speaker\", speaker)\n        n_speakers = len(task.speaker_to_id or {})\n        if spk is None and n_speakers > 0:\n            spk = random.randint(0, n_speakers - 1)\n        if spk is not None:\n            spk = max(0, min(spk, n_speakers - 1))\n        if verbose:\n            logger.info(f\"speaker: {spk}\")\n        spk = None if spk is None else torch.Tensor([[spk]]).long()\n\n        src_tokens = task.src_dict.encode_line(tokenized, add_if_not_exist=False).view(\n            1, -1\n        )\n        src_lengths = torch.Tensor([len(tokenized.split())]).long()\n        return {\n            \"net_input\": {\n                \"src_tokens\": src_tokens,\n                \"src_lengths\": src_lengths,\n                \"prev_output_tokens\": None,\n            },\n            \"target_lengths\": None,\n            \"speaker\": spk,\n        }\n\n    @classmethod\n    def get_prediction(cls, task, model, generator, sample) -> Tuple[torch.Tensor, int]:\n        prediction = generator.generate(model, sample)\n        return prediction[0][\"waveform\"], task.sr\n\n    def predict(\n        self, text: str, speaker: Optional[int] = None, verbose: bool = False\n    ) -> Tuple[torch.Tensor, int]:\n        sample = self.get_model_input(self.task, text, speaker, verbose=verbose)\n        return self.get_prediction(self.task, self.model, self.generator, sample)\n\n\nclass VocoderHubInterface(nn.Module):\n    \"\"\"Vocoder interface to run vocoder models through hub. Currently we only support unit vocoder\"\"\"\n\n    def __init__(self, cfg, model):\n        super().__init__()\n        self.vocoder = model\n        self.vocoder.eval()\n        self.sr = 16000\n        self.multispkr = self.vocoder.model.multispkr\n        if self.multispkr:\n            logger.info(\"multi-speaker vocoder\")\n            self.num_speakers = cfg.get(\n                \"num_speakers\",\n                200,\n            )  # following the default in codehifigan to set to 200\n\n    def get_model_input(\n        self,\n        text: str,\n        speaker: Optional[int] = -1,\n    ):\n        units = list(map(int, text.strip().split()))\n        x = {\n            \"code\": torch.LongTensor(units).view(1, -1),\n        }\n        if not speaker:\n            speaker = -1\n        if self.multispkr:\n            assert (\n                speaker < self.num_speakers\n            ), f\"invalid --speaker-id ({speaker}) with total #speakers = {self.num_speakers}\"\n            spk = random.randint(0, self.num_speakers - 1) if speaker == -1 else speaker\n            x[\"spkr\"] = torch.LongTensor([spk]).view(1, 1)\n        return x\n\n    def get_prediction(self, sample, dur_prediction: Optional[bool] = True):\n        wav = self.vocoder(sample, dur_prediction)\n        return wav, self.sr\n\n    def predict(\n        self,\n        text: str,\n        speaker: Optional[int] = None,\n        dur_prediction: Optional[bool] = True,\n    ):\n        sample = self.get_model_input(text, speaker)\n        return self.get_prediction(sample, dur_prediction)\n"
  },
  {
    "path": "fairseq/models/text_to_speech/tacotron2.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nimport torch\nfrom torch import nn\nfrom torch.nn import functional as F\n\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderDecoderModel,\n    FairseqIncrementalDecoder,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.modules import LSTMCellWithZoneOut, LocationAttention\n\n\nlogger = logging.getLogger(__name__)\n\n\ndef encoder_init(m):\n    if isinstance(m, nn.Conv1d):\n        nn.init.xavier_uniform_(m.weight, torch.nn.init.calculate_gain(\"relu\"))\n\n\nclass Tacotron2Encoder(FairseqEncoder):\n    def __init__(self, args, src_dict, embed_speaker):\n        super().__init__(src_dict)\n        self.padding_idx = src_dict.pad()\n        self.embed_speaker = embed_speaker\n        self.spk_emb_proj = None\n        if embed_speaker is not None:\n            self.spk_emb_proj = nn.Linear(\n                args.encoder_embed_dim + args.speaker_embed_dim, args.encoder_embed_dim\n            )\n\n        self.embed_tokens = nn.Embedding(\n            len(src_dict), args.encoder_embed_dim, padding_idx=self.padding_idx\n        )\n\n        assert args.encoder_conv_kernel_size % 2 == 1\n        self.convolutions = nn.ModuleList(\n            nn.Sequential(\n                nn.Conv1d(\n                    args.encoder_embed_dim,\n                    args.encoder_embed_dim,\n                    kernel_size=args.encoder_conv_kernel_size,\n                    padding=((args.encoder_conv_kernel_size - 1) // 2),\n                ),\n                nn.BatchNorm1d(args.encoder_embed_dim),\n                nn.ReLU(),\n                nn.Dropout(args.encoder_dropout),\n            )\n            for _ in range(args.encoder_conv_layers)\n        )\n\n        self.lstm = nn.LSTM(\n            args.encoder_embed_dim,\n            args.encoder_embed_dim // 2,\n            num_layers=args.encoder_lstm_layers,\n            batch_first=True,\n            bidirectional=True,\n        )\n\n        self.apply(encoder_init)\n\n    def forward(self, src_tokens, src_lengths=None, speaker=None, **kwargs):\n        x = self.embed_tokens(src_tokens)\n        x = x.transpose(1, 2).contiguous()  # B x T x C -> B x C x T\n        for conv in self.convolutions:\n            x = conv(x)\n        x = x.transpose(1, 2).contiguous()  # B x C x T -> B x T x C\n\n        src_lengths = src_lengths.cpu().long()\n        x = nn.utils.rnn.pack_padded_sequence(x, src_lengths, batch_first=True)\n        x = self.lstm(x)[0]\n        x = nn.utils.rnn.pad_packed_sequence(x, batch_first=True)[0]\n\n        encoder_padding_mask = src_tokens.eq(self.padding_idx)\n\n        if self.embed_speaker is not None:\n            seq_len, bsz, _ = x.size()\n            emb = self.embed_speaker(speaker).expand(seq_len, bsz, -1)\n            x = self.spk_emb_proj(torch.cat([x, emb], dim=2))\n\n        return {\n            \"encoder_out\": [x],  # B x T x C\n            \"encoder_padding_mask\": encoder_padding_mask,  # B x T\n        }\n\n\nclass Prenet(nn.Module):\n    def __init__(self, in_dim, n_layers, n_units, dropout):\n        super().__init__()\n        self.layers = nn.ModuleList(\n            nn.Sequential(nn.Linear(in_dim if i == 0 else n_units, n_units), nn.ReLU())\n            for i in range(n_layers)\n        )\n        self.dropout = dropout\n\n    def forward(self, x):\n        for layer in self.layers:\n            x = F.dropout(layer(x), p=self.dropout)  # always applies dropout\n        return x\n\n\nclass Postnet(nn.Module):\n    def __init__(self, in_dim, n_channels, kernel_size, n_layers, dropout):\n        super(Postnet, self).__init__()\n        self.convolutions = nn.ModuleList()\n        assert kernel_size % 2 == 1\n        for i in range(n_layers):\n            cur_layers = (\n                [\n                    nn.Conv1d(\n                        in_dim if i == 0 else n_channels,\n                        n_channels if i < n_layers - 1 else in_dim,\n                        kernel_size=kernel_size,\n                        padding=((kernel_size - 1) // 2),\n                    ),\n                    nn.BatchNorm1d(n_channels if i < n_layers - 1 else in_dim),\n                ]\n                + ([nn.Tanh()] if i < n_layers - 1 else [])\n                + [nn.Dropout(dropout)]\n            )\n            nn.init.xavier_uniform_(\n                cur_layers[0].weight,\n                torch.nn.init.calculate_gain(\"tanh\" if i < n_layers - 1 else \"linear\"),\n            )\n            self.convolutions.append(nn.Sequential(*cur_layers))\n\n    def forward(self, x):\n        x = x.transpose(1, 2)  # B x T x C -> B x C x T\n        for conv in self.convolutions:\n            x = conv(x)\n        return x.transpose(1, 2)\n\n\ndef decoder_init(m):\n    if isinstance(m, torch.nn.Conv1d):\n        nn.init.xavier_uniform_(m.weight, torch.nn.init.calculate_gain(\"tanh\"))\n\n\nclass Tacotron2Decoder(FairseqIncrementalDecoder):\n    def __init__(self, args, src_dict):\n        super().__init__(None)\n        self.args = args\n        self.n_frames_per_step = args.n_frames_per_step\n        self.out_dim = args.output_frame_dim * args.n_frames_per_step\n\n        self.prenet = Prenet(\n            self.out_dim, args.prenet_layers, args.prenet_dim, args.prenet_dropout\n        )\n\n        # take prev_context, prev_frame, (speaker embedding) as input\n        self.attention_lstm = LSTMCellWithZoneOut(\n            args.zoneout,\n            args.prenet_dim + args.encoder_embed_dim,\n            args.decoder_lstm_dim,\n        )\n\n        # take attention_lstm output, attention_state, encoder_out as input\n        self.attention = LocationAttention(\n            args.attention_dim,\n            args.encoder_embed_dim,\n            args.decoder_lstm_dim,\n            (1 + int(args.attention_use_cumprob)),\n            args.attention_conv_dim,\n            args.attention_conv_kernel_size,\n        )\n\n        # take attention_lstm output, context, (gated_latent) as input\n        self.lstm = nn.ModuleList(\n            LSTMCellWithZoneOut(\n                args.zoneout,\n                args.encoder_embed_dim + args.decoder_lstm_dim,\n                args.decoder_lstm_dim,\n            )\n            for i in range(args.decoder_lstm_layers)\n        )\n\n        proj_in_dim = args.encoder_embed_dim + args.decoder_lstm_dim\n        self.feat_proj = nn.Linear(proj_in_dim, self.out_dim)\n        self.eos_proj = nn.Linear(proj_in_dim, 1)\n\n        self.postnet = Postnet(\n            self.out_dim,\n            args.postnet_conv_dim,\n            args.postnet_conv_kernel_size,\n            args.postnet_layers,\n            args.postnet_dropout,\n        )\n\n        self.ctc_proj = None\n        if getattr(args, \"ctc_weight\", 0.0) > 0.0:\n            self.ctc_proj = nn.Linear(self.out_dim, len(src_dict))\n\n        self.apply(decoder_init)\n\n    def _get_states(self, incremental_state, enc_out):\n        bsz, in_len, _ = enc_out.size()\n        alstm_h = self.get_incremental_state(incremental_state, \"alstm_h\")\n        if alstm_h is None:\n            alstm_h = enc_out.new_zeros(bsz, self.args.decoder_lstm_dim)\n        alstm_c = self.get_incremental_state(incremental_state, \"alstm_c\")\n        if alstm_c is None:\n            alstm_c = enc_out.new_zeros(bsz, self.args.decoder_lstm_dim)\n\n        lstm_h = self.get_incremental_state(incremental_state, \"lstm_h\")\n        if lstm_h is None:\n            lstm_h = [\n                enc_out.new_zeros(bsz, self.args.decoder_lstm_dim)\n                for _ in range(self.args.decoder_lstm_layers)\n            ]\n        lstm_c = self.get_incremental_state(incremental_state, \"lstm_c\")\n        if lstm_c is None:\n            lstm_c = [\n                enc_out.new_zeros(bsz, self.args.decoder_lstm_dim)\n                for _ in range(self.args.decoder_lstm_layers)\n            ]\n\n        attn_w = self.get_incremental_state(incremental_state, \"attn_w\")\n        if attn_w is None:\n            attn_w = enc_out.new_zeros(bsz, in_len)\n        attn_w_cum = self.get_incremental_state(incremental_state, \"attn_w_cum\")\n        if attn_w_cum is None:\n            attn_w_cum = enc_out.new_zeros(bsz, in_len)\n        return alstm_h, alstm_c, lstm_h, lstm_c, attn_w, attn_w_cum\n\n    def _get_init_attn_c(self, enc_out, enc_mask):\n        bsz = enc_out.size(0)\n        if self.args.init_attn_c == \"zero\":\n            return enc_out.new_zeros(bsz, self.args.encoder_embed_dim)\n        elif self.args.init_attn_c == \"avg\":\n            enc_w = (~enc_mask).type(enc_out.type())\n            enc_w = enc_w / enc_w.sum(dim=1, keepdim=True)\n            return torch.sum(enc_out * enc_w.unsqueeze(2), dim=1)\n        else:\n            raise ValueError(f\"{self.args.init_attn_c} not supported\")\n\n    def forward(\n        self,\n        prev_output_tokens,\n        encoder_out=None,\n        incremental_state=None,\n        target_lengths=None,\n        **kwargs,\n    ):\n        enc_mask = encoder_out[\"encoder_padding_mask\"]\n        enc_out = encoder_out[\"encoder_out\"][0]\n        in_len = enc_out.size(1)\n\n        if incremental_state is not None:\n            prev_output_tokens = prev_output_tokens[:, -1:, :]\n        bsz, out_len, _ = prev_output_tokens.size()\n\n        prenet_out = self.prenet(prev_output_tokens)\n        (alstm_h, alstm_c, lstm_h, lstm_c, attn_w, attn_w_cum) = self._get_states(\n            incremental_state, enc_out\n        )\n        attn_ctx = self._get_init_attn_c(enc_out, enc_mask)\n\n        attn_out = enc_out.new_zeros(bsz, in_len, out_len)\n        feat_out = enc_out.new_zeros(bsz, out_len, self.out_dim)\n        eos_out = enc_out.new_zeros(bsz, out_len)\n        for t in range(out_len):\n            alstm_in = torch.cat((attn_ctx, prenet_out[:, t, :]), dim=1)\n            alstm_h, alstm_c = self.attention_lstm(alstm_in, (alstm_h, alstm_c))\n\n            attn_state = attn_w.unsqueeze(1)\n            if self.args.attention_use_cumprob:\n                attn_state = torch.stack((attn_w, attn_w_cum), dim=1)\n            attn_ctx, attn_w = self.attention(enc_out, enc_mask, alstm_h, attn_state)\n            attn_w_cum = attn_w_cum + attn_w\n            attn_out[:, :, t] = attn_w\n\n            for i, cur_lstm in enumerate(self.lstm):\n                if i == 0:\n                    lstm_in = torch.cat((attn_ctx, alstm_h), dim=1)\n                else:\n                    lstm_in = torch.cat((attn_ctx, lstm_h[i - 1]), dim=1)\n                lstm_h[i], lstm_c[i] = cur_lstm(lstm_in, (lstm_h[i], lstm_c[i]))\n\n            proj_in = torch.cat((attn_ctx, lstm_h[-1]), dim=1)\n            feat_out[:, t, :] = self.feat_proj(proj_in)\n            eos_out[:, t] = self.eos_proj(proj_in).squeeze(1)\n        self.attention.clear_cache()\n\n        self.set_incremental_state(incremental_state, \"alstm_h\", alstm_h)\n        self.set_incremental_state(incremental_state, \"alstm_c\", alstm_c)\n        self.set_incremental_state(incremental_state, \"lstm_h\", lstm_h)\n        self.set_incremental_state(incremental_state, \"lstm_c\", lstm_c)\n        self.set_incremental_state(incremental_state, \"attn_w\", attn_w)\n        self.set_incremental_state(incremental_state, \"attn_w_cum\", attn_w_cum)\n\n        post_feat_out = feat_out + self.postnet(feat_out)\n        eos_out = eos_out.view(bsz, out_len, 1)\n        return post_feat_out, eos_out, {\"attn\": attn_out, \"feature_out\": feat_out}\n\n\n@register_model(\"tacotron_2\")\nclass Tacotron2Model(FairseqEncoderDecoderModel):\n    \"\"\"\n    Implementation for https://arxiv.org/pdf/1712.05884.pdf\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        # encoder\n        parser.add_argument(\"--encoder-dropout\", type=float)\n        parser.add_argument(\"--encoder-embed-dim\", type=int)\n        parser.add_argument(\"--encoder-conv-layers\", type=int)\n        parser.add_argument(\"--encoder-conv-kernel-size\", type=int)\n        parser.add_argument(\"--encoder-lstm-layers\", type=int)\n        # decoder\n        parser.add_argument(\"--attention-dim\", type=int)\n        parser.add_argument(\"--attention-conv-dim\", type=int)\n        parser.add_argument(\"--attention-conv-kernel-size\", type=int)\n        parser.add_argument(\"--prenet-dropout\", type=float)\n        parser.add_argument(\"--prenet-layers\", type=int)\n        parser.add_argument(\"--prenet-dim\", type=int)\n        parser.add_argument(\"--postnet-dropout\", type=float)\n        parser.add_argument(\"--postnet-layers\", type=int)\n        parser.add_argument(\"--postnet-conv-dim\", type=int)\n        parser.add_argument(\"--postnet-conv-kernel-size\", type=int)\n        parser.add_argument(\"--init-attn-c\", type=str)\n        parser.add_argument(\"--attention-use-cumprob\", action=\"store_true\")\n        parser.add_argument(\"--zoneout\", type=float)\n        parser.add_argument(\"--decoder-lstm-layers\", type=int)\n        parser.add_argument(\"--decoder-lstm-dim\", type=int)\n        parser.add_argument(\"--output-frame-dim\", type=int)\n\n    def __init__(self, *args, **kwargs):\n        super().__init__(*args, **kwargs)\n        self._num_updates = 0\n\n    @classmethod\n    def build_model(cls, args, task):\n        embed_speaker = task.get_speaker_embeddings(args)\n        encoder = Tacotron2Encoder(args, task.src_dict, embed_speaker)\n        decoder = Tacotron2Decoder(args, task.src_dict)\n        return cls(encoder, decoder)\n\n    def forward_encoder(self, src_tokens, src_lengths, **kwargs):\n        return self.encoder(src_tokens, src_lengths=src_lengths, **kwargs)\n\n    def set_num_updates(self, num_updates):\n        super().set_num_updates(num_updates)\n        self._num_updates = num_updates\n\n\n@register_model_architecture(\"tacotron_2\", \"tacotron_2\")\ndef base_architecture(args):\n    # encoder\n    args.encoder_dropout = getattr(args, \"encoder_dropout\", 0.5)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_conv_layers = getattr(args, \"encoder_conv_layers\", 3)\n    args.encoder_conv_kernel_size = getattr(args, \"encoder_conv_kernel_size\", 5)\n    args.encoder_lstm_layers = getattr(args, \"encoder_lstm_layers\", 1)\n    # decoder\n    args.attention_dim = getattr(args, \"attention_dim\", 128)\n    args.attention_conv_dim = getattr(args, \"attention_conv_dim\", 32)\n    args.attention_conv_kernel_size = getattr(args, \"attention_conv_kernel_size\", 15)\n    args.prenet_dropout = getattr(args, \"prenet_dropout\", 0.5)\n    args.prenet_layers = getattr(args, \"prenet_layers\", 2)\n    args.prenet_dim = getattr(args, \"prenet_dim\", 256)\n    args.postnet_dropout = getattr(args, \"postnet_dropout\", 0.5)\n    args.postnet_layers = getattr(args, \"postnet_layers\", 5)\n    args.postnet_conv_dim = getattr(args, \"postnet_conv_dim\", 512)\n    args.postnet_conv_kernel_size = getattr(args, \"postnet_conv_kernel_size\", 5)\n    args.init_attn_c = getattr(args, \"init_attn_c\", \"zero\")\n    args.attention_use_cumprob = getattr(args, \"attention_use_cumprob\", True)\n    args.zoneout = getattr(args, \"zoneout\", 0.1)\n    args.decoder_lstm_layers = getattr(args, \"decoder_lstm_layers\", 2)\n    args.decoder_lstm_dim = getattr(args, \"decoder_lstm_dim\", 1024)\n    args.output_frame_dim = getattr(args, \"output_frame_dim\", 80)\n"
  },
  {
    "path": "fairseq/models/text_to_speech/tts_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom typing import List, Optional\n\nimport torch\nfrom torch import nn\n\nfrom fairseq import utils\nfrom fairseq.data.data_utils import lengths_to_padding_mask\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderDecoderModel,\n    FairseqIncrementalDecoder,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.text_to_speech.hub_interface import TTSHubInterface\nfrom fairseq.models.text_to_speech.tacotron2 import Postnet, Prenet\nfrom fairseq.modules import (\n    FairseqDropout,\n    LayerNorm,\n    PositionalEmbedding,\n    TransformerDecoderLayer,\n    TransformerEncoderLayer,\n)\n\nlogger = logging.getLogger(__name__)\n\n\ndef encoder_init(m):\n    if isinstance(m, nn.Conv1d):\n        nn.init.xavier_uniform_(m.weight, torch.nn.init.calculate_gain(\"relu\"))\n\n\ndef Embedding(num_embeddings, embedding_dim):\n    m = nn.Embedding(num_embeddings, embedding_dim)\n    nn.init.normal_(m.weight, mean=0, std=embedding_dim**-0.5)\n    return m\n\n\nclass TTSTransformerEncoder(FairseqEncoder):\n    def __init__(self, args, src_dict, embed_speaker):\n        super().__init__(src_dict)\n        self.padding_idx = src_dict.pad()\n        self.embed_speaker = embed_speaker\n        self.spk_emb_proj = None\n        if embed_speaker is not None:\n            self.spk_emb_proj = nn.Linear(\n                args.encoder_embed_dim + args.speaker_embed_dim, args.encoder_embed_dim\n            )\n\n        self.dropout_module = FairseqDropout(\n            p=args.dropout, module_name=self.__class__.__name__\n        )\n        self.embed_tokens = nn.Embedding(\n            len(src_dict), args.encoder_embed_dim, padding_idx=self.padding_idx\n        )\n        assert args.encoder_conv_kernel_size % 2 == 1\n        self.prenet = nn.ModuleList(\n            nn.Sequential(\n                nn.Conv1d(\n                    args.encoder_embed_dim,\n                    args.encoder_embed_dim,\n                    kernel_size=args.encoder_conv_kernel_size,\n                    padding=((args.encoder_conv_kernel_size - 1) // 2),\n                ),\n                nn.BatchNorm1d(args.encoder_embed_dim),\n                nn.ReLU(),\n                nn.Dropout(args.encoder_dropout),\n            )\n            for _ in range(args.encoder_conv_layers)\n        )\n        self.prenet_proj = nn.Linear(args.encoder_embed_dim, args.encoder_embed_dim)\n        self.embed_positions = PositionalEmbedding(\n            args.max_source_positions, args.encoder_embed_dim, self.padding_idx\n        )\n        self.pos_emb_alpha = nn.Parameter(torch.ones(1))\n\n        self.transformer_layers = nn.ModuleList(\n            TransformerEncoderLayer(args)\n            for _ in range(args.encoder_transformer_layers)\n        )\n        if args.encoder_normalize_before:\n            self.layer_norm = LayerNorm(args.encoder_embed_dim)\n        else:\n            self.layer_norm = None\n\n        self.apply(encoder_init)\n\n    def forward(self, src_tokens, src_lengths=None, speaker=None, **kwargs):\n        x = self.embed_tokens(src_tokens)\n        x = x.transpose(1, 2).contiguous()  # B x T x C -> B x C x T\n        for conv in self.prenet:\n            x = conv(x)\n        x = x.transpose(1, 2).contiguous()  # B x C x T -> B x T x C\n        x = self.prenet_proj(x)\n\n        padding_mask = src_tokens.eq(self.padding_idx)\n        positions = self.embed_positions(padding_mask)\n        x += self.pos_emb_alpha * positions\n        x = self.dropout_module(x)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        for layer in self.transformer_layers:\n            x = layer(x, padding_mask)\n\n        if self.layer_norm is not None:\n            x = self.layer_norm(x)\n\n        if self.embed_speaker is not None:\n            seq_len, bsz, _ = x.size()\n            emb = self.embed_speaker(speaker).transpose(0, 1)\n            emb = emb.expand(seq_len, bsz, -1)\n            x = self.spk_emb_proj(torch.cat([x, emb], dim=2))\n\n        return {\n            \"encoder_out\": [x],  # T x B x C\n            \"encoder_padding_mask\": [padding_mask]\n            if padding_mask.any()\n            else [],  # B x T\n            \"encoder_embedding\": [],  # B x T x C\n            \"encoder_states\": [],  # List[T x B x C]\n            \"src_tokens\": [],\n            \"src_lengths\": [],\n        }\n\n\ndef decoder_init(m):\n    if isinstance(m, torch.nn.Conv1d):\n        nn.init.xavier_uniform_(m.weight, torch.nn.init.calculate_gain(\"tanh\"))\n\n\nclass TTSTransformerDecoder(FairseqIncrementalDecoder):\n    def __init__(self, args, src_dict, padding_idx=1):\n        super().__init__(None)\n        self._future_mask = torch.empty(0)\n\n        self.args = args\n        self.padding_idx = src_dict.pad() if src_dict else padding_idx\n        self.n_frames_per_step = args.n_frames_per_step\n        self.out_dim = args.output_frame_dim * args.n_frames_per_step\n\n        self.dropout_module = FairseqDropout(\n            args.dropout, module_name=self.__class__.__name__\n        )\n        self.embed_positions = PositionalEmbedding(\n            args.max_target_positions, args.decoder_embed_dim, self.padding_idx\n        )\n        self.pos_emb_alpha = nn.Parameter(torch.ones(1))\n        self.prenet = nn.Sequential(\n            Prenet(\n                self.out_dim, args.prenet_layers, args.prenet_dim, args.prenet_dropout\n            ),\n            nn.Linear(args.prenet_dim, args.decoder_embed_dim),\n        )\n\n        self.n_transformer_layers = args.decoder_transformer_layers\n        self.transformer_layers = nn.ModuleList(\n            TransformerDecoderLayer(args) for _ in range(self.n_transformer_layers)\n        )\n        if args.decoder_normalize_before:\n            self.layer_norm = LayerNorm(args.decoder_embed_dim)\n        else:\n            self.layer_norm = None\n\n        self.feat_proj = nn.Linear(args.decoder_embed_dim, self.out_dim)\n        self.eos_proj = nn.Linear(args.decoder_embed_dim, 1)\n\n        self.postnet = Postnet(\n            self.out_dim,\n            args.postnet_conv_dim,\n            args.postnet_conv_kernel_size,\n            args.postnet_layers,\n            args.postnet_dropout,\n        )\n\n        self.ctc_proj = None\n        if getattr(args, \"ctc_weight\", 0.0) > 0.0:\n            self.ctc_proj = nn.Linear(self.out_dim, len(src_dict))\n\n        self.apply(decoder_init)\n\n    def extract_features(\n        self,\n        prev_outputs,\n        encoder_out=None,\n        incremental_state=None,\n        target_lengths=None,\n        speaker=None,\n        **kwargs,\n    ):\n        alignment_layer = self.n_transformer_layers - 1\n        self_attn_padding_mask = lengths_to_padding_mask(target_lengths)\n        positions = self.embed_positions(\n            self_attn_padding_mask, incremental_state=incremental_state\n        )\n\n        if incremental_state is not None:\n            prev_outputs = prev_outputs[:, -1:, :]\n            self_attn_padding_mask = self_attn_padding_mask[:, -1:]\n            if positions is not None:\n                positions = positions[:, -1:]\n\n        x = self.prenet(prev_outputs)\n        x += self.pos_emb_alpha * positions\n        x = self.dropout_module(x)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        if not self_attn_padding_mask.any():\n            self_attn_padding_mask = None\n\n        attn: Optional[torch.Tensor] = None\n        inner_states: List[Optional[torch.Tensor]] = [x]\n        for idx, transformer_layer in enumerate(self.transformer_layers):\n            if incremental_state is None:\n                self_attn_mask = self.buffered_future_mask(x)\n            else:\n                self_attn_mask = None\n\n            x, layer_attn, _ = transformer_layer(\n                x,\n                encoder_out[\"encoder_out\"][0]\n                if (encoder_out is not None and len(encoder_out[\"encoder_out\"]) > 0)\n                else None,\n                encoder_out[\"encoder_padding_mask\"][0]\n                if (\n                    encoder_out is not None\n                    and len(encoder_out[\"encoder_padding_mask\"]) > 0\n                )\n                else None,\n                incremental_state,\n                self_attn_mask=self_attn_mask,\n                self_attn_padding_mask=self_attn_padding_mask,\n                need_attn=bool((idx == alignment_layer)),\n                need_head_weights=bool((idx == alignment_layer)),\n            )\n            inner_states.append(x)\n            if layer_attn is not None and idx == alignment_layer:\n                attn = layer_attn.float().to(x)\n\n        if attn is not None:\n            # average probabilities over heads, transpose to\n            # (B, src_len, tgt_len)\n            attn = attn.mean(dim=0).transpose(2, 1)\n\n        if self.layer_norm is not None:\n            x = self.layer_norm(x)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        return x, {\"attn\": attn, \"inner_states\": inner_states}\n\n    def forward(\n        self,\n        prev_output_tokens,\n        encoder_out=None,\n        incremental_state=None,\n        target_lengths=None,\n        speaker=None,\n        **kwargs,\n    ):\n        x, extra = self.extract_features(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            incremental_state=incremental_state,\n            target_lengths=target_lengths,\n            speaker=speaker,\n            **kwargs,\n        )\n        attn = extra[\"attn\"]\n        feat_out = self.feat_proj(x)\n        bsz, seq_len, _ = x.size()\n        eos_out = self.eos_proj(x)\n        post_feat_out = feat_out + self.postnet(feat_out)\n        return (\n            post_feat_out,\n            eos_out,\n            {\n                \"attn\": attn,\n                \"feature_out\": feat_out,\n                \"inner_states\": extra[\"inner_states\"],\n            },\n        )\n\n    def get_normalized_probs(self, net_output, log_probs, sample):\n        logits = self.ctc_proj(net_output[2][\"feature_out\"])\n        if log_probs:\n            return utils.log_softmax(logits.float(), dim=-1)\n        else:\n            return utils.softmax(logits.float(), dim=-1)\n\n    def buffered_future_mask(self, tensor):\n        dim = tensor.size(0)\n        # self._future_mask.device != tensor.device is not working in TorchScript. This is a workaround.\n        if (\n            self._future_mask.size(0) == 0\n            or (not self._future_mask.device == tensor.device)\n            or self._future_mask.size(0) < dim\n        ):\n            self._future_mask = torch.triu(\n                utils.fill_with_neg_inf(torch.zeros([dim, dim])), 1\n            )\n        self._future_mask = self._future_mask.to(tensor)\n        return self._future_mask[:dim, :dim]\n\n\n@register_model(\"tts_transformer\")\nclass TTSTransformerModel(FairseqEncoderDecoderModel):\n    \"\"\"\n    Implementation for https://arxiv.org/pdf/1809.08895.pdf\n    \"\"\"\n\n    @classmethod\n    def hub_models(cls):\n        base_url = \"http://dl.fbaipublicfiles.com/fairseq/s2\"\n        model_ids = [\n            \"tts_transformer-en-ljspeech\",\n            \"tts_transformer-en-200_speaker-cv4\",\n            \"tts_transformer-es-css10\",\n            \"tts_transformer-fr-cv7_css10\",\n            \"tts_transformer-ru-cv7_css10\",\n            \"tts_transformer-zh-cv7_css10\",\n            \"tts_transformer-ar-cv7_css10\",\n            \"tts_transformer-tr-cv7_css10\",\n            \"tts_transformer-vi-cv7\",\n        ]\n        return {i: f\"{base_url}/{i}.tar.gz\" for i in model_ids}\n\n    @classmethod\n    def from_pretrained(\n        cls,\n        model_name_or_path,\n        checkpoint_file=\"model.pt\",\n        data_name_or_path=\".\",\n        config_yaml=\"config.yaml\",\n        vocoder: str = \"griffin_lim\",\n        fp16: bool = False,\n        **kwargs,\n    ):\n        from fairseq import hub_utils\n\n        x = hub_utils.from_pretrained(\n            model_name_or_path,\n            checkpoint_file,\n            data_name_or_path,\n            archive_map=cls.hub_models(),\n            config_yaml=config_yaml,\n            vocoder=vocoder,\n            fp16=fp16,\n            **kwargs,\n        )\n        return TTSHubInterface(x[\"args\"], x[\"task\"], x[\"models\"][0])\n\n    @staticmethod\n    def add_args(parser):\n        parser.add_argument(\"--dropout\", type=float)\n        parser.add_argument(\"--output-frame-dim\", type=int)\n        parser.add_argument(\"--speaker-embed-dim\", type=int)\n        # encoder prenet\n        parser.add_argument(\"--encoder-dropout\", type=float)\n        parser.add_argument(\"--encoder-conv-layers\", type=int)\n        parser.add_argument(\"--encoder-conv-kernel-size\", type=int)\n        # encoder transformer layers\n        parser.add_argument(\"--encoder-transformer-layers\", type=int)\n        parser.add_argument(\"--encoder-embed-dim\", type=int)\n        parser.add_argument(\"--encoder-ffn-embed-dim\", type=int)\n        parser.add_argument(\"--encoder-normalize-before\", action=\"store_true\")\n        parser.add_argument(\"--encoder-attention-heads\", type=int)\n        parser.add_argument(\"--attention-dropout\", type=float)\n        parser.add_argument(\"--activation-dropout\", \"--relu-dropout\", type=float)\n        parser.add_argument(\"--activation-fn\", type=str, default=\"relu\")\n        # decoder prenet\n        parser.add_argument(\"--prenet-dropout\", type=float)\n        parser.add_argument(\"--prenet-layers\", type=int)\n        parser.add_argument(\"--prenet-dim\", type=int)\n        # decoder postnet\n        parser.add_argument(\"--postnet-dropout\", type=float)\n        parser.add_argument(\"--postnet-layers\", type=int)\n        parser.add_argument(\"--postnet-conv-dim\", type=int)\n        parser.add_argument(\"--postnet-conv-kernel-size\", type=int)\n        # decoder transformer layers\n        parser.add_argument(\"--decoder-transformer-layers\", type=int)\n        parser.add_argument(\"--decoder-embed-dim\", type=int)\n        parser.add_argument(\"--decoder-ffn-embed-dim\", type=int)\n        parser.add_argument(\"--decoder-normalize-before\", action=\"store_true\")\n        parser.add_argument(\"--decoder-attention-heads\", type=int)\n\n    def __init__(self, *args, **kwargs):\n        super().__init__(*args, **kwargs)\n        self._num_updates = 0\n\n    @classmethod\n    def build_model(cls, args, task):\n        embed_speaker = task.get_speaker_embeddings(args)\n        encoder = TTSTransformerEncoder(args, task.src_dict, embed_speaker)\n        decoder = TTSTransformerDecoder(args, task.src_dict)\n        return cls(encoder, decoder)\n\n    def forward_encoder(self, src_tokens, src_lengths, speaker=None, **kwargs):\n        return self.encoder(\n            src_tokens, src_lengths=src_lengths, speaker=speaker, **kwargs\n        )\n\n    def set_num_updates(self, num_updates):\n        super().set_num_updates(num_updates)\n        self._num_updates = num_updates\n\n\n@register_model_architecture(\"tts_transformer\", \"tts_transformer\")\ndef base_architecture(args):\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.output_frame_dim = getattr(args, \"output_frame_dim\", 80)\n    args.speaker_embed_dim = getattr(args, \"speaker_embed_dim\", 64)\n    # encoder prenet\n    args.encoder_dropout = getattr(args, \"encoder_dropout\", 0.5)\n    args.encoder_conv_layers = getattr(args, \"encoder_conv_layers\", 3)\n    args.encoder_conv_kernel_size = getattr(args, \"encoder_conv_kernel_size\", 5)\n    # encoder transformer layers\n    args.encoder_transformer_layers = getattr(args, \"encoder_transformer_layers\", 6)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(\n        args, \"encoder_ffn_embed_dim\", 4 * args.encoder_embed_dim\n    )\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.0)\n    args.activation_dropout = getattr(args, \"activation_dropout\", 0.0)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n    # decoder prenet\n    args.prenet_dropout = getattr(args, \"prenet_dropout\", 0.5)\n    args.prenet_layers = getattr(args, \"prenet_layers\", 2)\n    args.prenet_dim = getattr(args, \"prenet_dim\", 256)\n    # decoder postnet\n    args.postnet_dropout = getattr(args, \"postnet_dropout\", 0.5)\n    args.postnet_layers = getattr(args, \"postnet_layers\", 5)\n    args.postnet_conv_dim = getattr(args, \"postnet_conv_dim\", 512)\n    args.postnet_conv_kernel_size = getattr(args, \"postnet_conv_kernel_size\", 5)\n    # decoder transformer layers\n    args.decoder_transformer_layers = getattr(args, \"decoder_transformer_layers\", 6)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", 4 * args.decoder_embed_dim\n    )\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", False)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 4)\n"
  },
  {
    "path": "fairseq/models/text_to_speech/vocoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport json\nimport logging\nfrom typing import Dict\n\nimport numpy as np\nimport torch\nimport torch.nn.functional as F\nfrom torch import nn\n\nfrom fairseq.data.audio.audio_utils import (\n    TTSSpectrogram,\n    get_fourier_basis,\n    get_mel_filters,\n    get_window,\n)\nfrom fairseq.data.audio.speech_to_text_dataset import S2TDataConfig\nfrom fairseq.models import BaseFairseqModel, register_model\nfrom fairseq.models.text_to_speech.codehifigan import CodeGenerator as CodeHiFiGANModel\nfrom fairseq.models.text_to_speech.hifigan import Generator as HiFiGANModel\nfrom fairseq.models.text_to_speech.hub_interface import VocoderHubInterface\n\nlogger = logging.getLogger(__name__)\n\n\nclass PseudoInverseMelScale(torch.nn.Module):\n    def __init__(self, n_stft, n_mels, sample_rate, f_min, f_max) -> None:\n        super(PseudoInverseMelScale, self).__init__()\n        self.n_mels = n_mels\n        basis = get_mel_filters(sample_rate, (n_stft - 1) * 2, n_mels, f_min, f_max)\n        basis = torch.pinverse(basis)  # F x F_mel\n        self.register_buffer(\"basis\", basis)\n\n    def forward(self, melspec: torch.Tensor) -> torch.Tensor:\n        # pack batch\n        shape = melspec.shape  # B_1 x ... x B_K x F_mel x T\n        n_mels, time = shape[-2], shape[-1]\n        melspec = melspec.view(-1, n_mels, time)\n\n        freq, _ = self.basis.size()  # F x F_mel\n        assert self.n_mels == n_mels, (self.n_mels, n_mels)\n        specgram = self.basis.matmul(melspec).clamp(min=0)\n\n        # unpack batch\n        specgram = specgram.view(shape[:-2] + (freq, time))\n        return specgram\n\n\nclass GriffinLim(torch.nn.Module):\n    def __init__(\n        self,\n        n_fft: int,\n        win_length: int,\n        hop_length: int,\n        n_iter: int,\n        window_fn=torch.hann_window,\n    ):\n        super(GriffinLim, self).__init__()\n        self.transform = TTSSpectrogram(\n            n_fft, win_length, hop_length, return_phase=True\n        )\n\n        basis = get_fourier_basis(n_fft)\n        basis = torch.pinverse(n_fft / hop_length * basis).T[:, None, :]\n        basis *= get_window(window_fn, n_fft, win_length)\n        self.register_buffer(\"basis\", basis)\n\n        self.n_fft = n_fft\n        self.win_length = win_length\n        self.hop_length = hop_length\n        self.n_iter = n_iter\n\n        self.tiny = 1.1754944e-38\n\n    @classmethod\n    def get_window_sum_square(\n        cls, n_frames, hop_length, win_length, n_fft, window_fn=torch.hann_window\n    ) -> torch.Tensor:\n        w_sq = get_window(window_fn, n_fft, win_length) ** 2\n        n = n_fft + hop_length * (n_frames - 1)\n        x = torch.zeros(n, dtype=torch.float32)\n        for i in range(n_frames):\n            ofst = i * hop_length\n            x[ofst : min(n, ofst + n_fft)] += w_sq[: max(0, min(n_fft, n - ofst))]\n        return x\n\n    def inverse(self, magnitude: torch.Tensor, phase) -> torch.Tensor:\n        x = torch.cat(\n            [magnitude * torch.cos(phase), magnitude * torch.sin(phase)], dim=1\n        )\n        x = F.conv_transpose1d(x, self.basis, stride=self.hop_length)\n        win_sum_sq = self.get_window_sum_square(\n            magnitude.shape[-1],\n            hop_length=self.hop_length,\n            win_length=self.win_length,\n            n_fft=self.n_fft,\n        ).to(magnitude.device)\n        # remove modulation effects\n        approx_nonzero_indices = win_sum_sq > self.tiny\n        x[:, :, approx_nonzero_indices] /= win_sum_sq[approx_nonzero_indices]\n        x *= self.n_fft / self.hop_length\n        x = x[:, :, self.n_fft // 2 :]\n        x = x[:, :, : -self.n_fft // 2 :]\n        return x\n\n    def forward(self, specgram: torch.Tensor) -> torch.Tensor:\n        angles = np.angle(np.exp(2j * np.pi * np.random.rand(*specgram.shape)))\n        angles = torch.from_numpy(angles).to(specgram)\n        _specgram = specgram.view(-1, specgram.shape[-2], specgram.shape[-1])\n        waveform = self.inverse(_specgram, angles).squeeze(1)\n        for _ in range(self.n_iter):\n            _, angles = self.transform(waveform)\n            waveform = self.inverse(_specgram, angles).squeeze(1)\n        return waveform.squeeze(0)\n\n\nclass GriffinLimVocoder(nn.Module):\n    def __init__(\n        self,\n        sample_rate,\n        win_size,\n        hop_size,\n        n_fft,\n        n_mels,\n        f_min,\n        f_max,\n        window_fn,\n        spec_bwd_max_iter=32,\n        fp16=False,\n    ):\n        super().__init__()\n        self.inv_mel_transform = PseudoInverseMelScale(\n            n_stft=n_fft // 2 + 1,\n            n_mels=n_mels,\n            sample_rate=sample_rate,\n            f_min=f_min,\n            f_max=f_max,\n        )\n        self.gl_transform = GriffinLim(\n            n_fft=n_fft,\n            win_length=win_size,\n            hop_length=hop_size,\n            window_fn=window_fn,\n            n_iter=spec_bwd_max_iter,\n        )\n        if fp16:\n            self.half()\n            self.inv_mel_transform.half()\n            self.gl_transform.half()\n        else:\n            self.float()\n            self.inv_mel_transform.float()\n            self.gl_transform.float()\n\n    def forward(self, x):\n        # x: (B x) T x D -> (B x) 1 x T\n        # NOTE: batched forward produces noisier waveform. recommend running\n        # one utterance at a time\n        self.eval()\n        x = x.exp().transpose(-1, -2)\n        x = self.inv_mel_transform(x)\n        x = self.gl_transform(x)\n        return x\n\n    @classmethod\n    def from_data_cfg(cls, args, data_cfg: S2TDataConfig):\n        feat_cfg = data_cfg.config[\"features\"]\n        window_fn = getattr(torch, feat_cfg[\"window_fn\"] + \"_window\")\n        return cls(\n            sample_rate=feat_cfg[\"sample_rate\"],\n            win_size=int(feat_cfg[\"win_len_t\"] * feat_cfg[\"sample_rate\"]),\n            hop_size=int(feat_cfg[\"hop_len_t\"] * feat_cfg[\"sample_rate\"]),\n            n_fft=feat_cfg[\"n_fft\"],\n            n_mels=feat_cfg[\"n_mels\"],\n            f_min=feat_cfg[\"f_min\"],\n            f_max=feat_cfg[\"f_max\"],\n            window_fn=window_fn,\n            spec_bwd_max_iter=args.spec_bwd_max_iter,\n            fp16=args.fp16,\n        )\n\n\nclass HiFiGANVocoder(nn.Module):\n    def __init__(\n        self, checkpoint_path: str, model_cfg: Dict[str, str], fp16: bool = False\n    ) -> None:\n        super().__init__()\n        self.model = HiFiGANModel(model_cfg)\n        state_dict = torch.load(checkpoint_path)\n        self.model.load_state_dict(state_dict[\"generator\"])\n        if fp16:\n            self.model.half()\n        logger.info(f\"loaded HiFiGAN checkpoint from {checkpoint_path}\")\n\n    def forward(self, x: torch.Tensor) -> torch.Tensor:\n        # (B x) T x D -> (B x) 1 x T\n        model = self.model.eval()\n        if len(x.shape) == 2:\n            return model(x.unsqueeze(0).transpose(1, 2)).detach().squeeze(0)\n        else:\n            return model(x.transpose(-1, -2)).detach()\n\n    @classmethod\n    def from_data_cfg(cls, args, data_cfg: S2TDataConfig):\n        vocoder_cfg = data_cfg.vocoder\n        assert vocoder_cfg.get(\"type\", \"griffin_lim\") == \"hifigan\"\n        with open(vocoder_cfg[\"config\"]) as f:\n            model_cfg = json.load(f)\n        return cls(vocoder_cfg[\"checkpoint\"], model_cfg, fp16=args.fp16)\n\n\n@register_model(\"CodeHiFiGANVocoder\")\nclass CodeHiFiGANVocoder(BaseFairseqModel):\n    def __init__(\n        self, checkpoint_path: str, model_cfg: Dict[str, str], fp16: bool = False\n    ) -> None:\n        super().__init__()\n        self.model = CodeHiFiGANModel(model_cfg)\n        if torch.cuda.is_available():\n            state_dict = torch.load(checkpoint_path)\n        else:\n            state_dict = torch.load(checkpoint_path, map_location=torch.device(\"cpu\"))\n        self.model.load_state_dict(state_dict[\"generator\"])\n        self.model.eval()\n        if fp16:\n            self.model.half()\n        self.model.remove_weight_norm()\n        logger.info(f\"loaded CodeHiFiGAN checkpoint from {checkpoint_path}\")\n\n    def forward(self, x: Dict[str, torch.Tensor], dur_prediction=False) -> torch.Tensor:\n        assert \"code\" in x\n        x[\"dur_prediction\"] = dur_prediction\n\n        # remove invalid code\n        mask = x[\"code\"] >= 0\n        x[\"code\"] = x[\"code\"][mask].unsqueeze(dim=0)\n        if \"f0\" in x:\n            f0_up_ratio = x[\"f0\"].size(1) // x[\"code\"].size(1)\n            mask = mask.unsqueeze(2).repeat(1, 1, f0_up_ratio).view(-1, x[\"f0\"].size(1))\n            x[\"f0\"] = x[\"f0\"][mask].unsqueeze(dim=0)\n\n        return self.model(**x).detach().squeeze()\n\n    @classmethod\n    def from_data_cfg(cls, args, data_cfg):\n        vocoder_cfg = data_cfg.vocoder\n        assert vocoder_cfg is not None, \"vocoder not specified in the data config\"\n        with open(vocoder_cfg[\"config\"]) as f:\n            model_cfg = json.load(f)\n        return cls(vocoder_cfg[\"checkpoint\"], model_cfg, fp16=args.fp16)\n\n    @classmethod\n    def hub_models(cls):\n        base_url = \"http://dl.fbaipublicfiles.com/fairseq/vocoder\"\n        model_ids = [\n            \"unit_hifigan_mhubert_vp_en_es_fr_it3_400k_layer11_km1000_lj_dur\",\n            \"unit_hifigan_mhubert_vp_en_es_fr_it3_400k_layer11_km1000_es_css10_dur\",\n            \"unit_hifigan_HK_layer12.km2500_frame_TAT-TTS\",\n        ]\n        return {i: f\"{base_url}/{i}.tar.gz\" for i in model_ids}\n\n    @classmethod\n    def from_pretrained(\n        cls,\n        model_name_or_path,\n        checkpoint_file=\"model.pt\",\n        data_name_or_path=\".\",\n        config=\"config.json\",\n        fp16: bool = False,\n        **kwargs,\n    ):\n        from fairseq import hub_utils\n\n        x = hub_utils.from_pretrained(\n            model_name_or_path,\n            checkpoint_file,\n            data_name_or_path,\n            archive_map=cls.hub_models(),\n            config_yaml=config,\n            fp16=fp16,\n            is_vocoder=True,\n            **kwargs,\n        )\n\n        with open(f\"{x['args']['data']}/{config}\") as f:\n            vocoder_cfg = json.load(f)\n        assert len(x[\"args\"][\"model_path\"]) == 1, \"Too many vocoder models in the input\"\n\n        vocoder = CodeHiFiGANVocoder(x[\"args\"][\"model_path\"][0], vocoder_cfg)\n        return VocoderHubInterface(vocoder_cfg, vocoder)\n\n\ndef get_vocoder(args, data_cfg: S2TDataConfig):\n    if args.vocoder == \"griffin_lim\":\n        return GriffinLimVocoder.from_data_cfg(args, data_cfg)\n    elif args.vocoder == \"hifigan\":\n        return HiFiGANVocoder.from_data_cfg(args, data_cfg)\n    elif args.vocoder == \"code_hifigan\":\n        return CodeHiFiGANVocoder.from_data_cfg(args, data_cfg)\n    else:\n        raise ValueError(\"Unknown vocoder\")\n"
  },
  {
    "path": "fairseq/models/transformer/__init__.py",
    "content": "# Copyright (c) Facebook Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"isort:skip_file\"\"\"\n\nfrom .transformer_config import (\n    TransformerConfig,\n    DEFAULT_MAX_SOURCE_POSITIONS,\n    DEFAULT_MAX_TARGET_POSITIONS,\n    DEFAULT_MIN_PARAMS_TO_WRAP,\n)\nfrom .transformer_decoder import TransformerDecoder, TransformerDecoderBase, Linear\nfrom .transformer_encoder import TransformerEncoder, TransformerEncoderBase\nfrom .transformer_legacy import (\n    TransformerModel,\n    base_architecture,\n    tiny_architecture,\n    transformer_iwslt_de_en,\n    transformer_wmt_en_de,\n    transformer_vaswani_wmt_en_de_big,\n    transformer_vaswani_wmt_en_fr_big,\n    transformer_wmt_en_de_big,\n    transformer_wmt_en_de_big_t2t,\n)\nfrom .transformer_base import TransformerModelBase, Embedding\n\n\n__all__ = [\n    \"TransformerModelBase\",\n    \"TransformerConfig\",\n    \"TransformerDecoder\",\n    \"TransformerDecoderBase\",\n    \"TransformerEncoder\",\n    \"TransformerEncoderBase\",\n    \"TransformerModel\",\n    \"Embedding\",\n    \"Linear\",\n    \"base_architecture\",\n    \"tiny_architecture\",\n    \"transformer_iwslt_de_en\",\n    \"transformer_wmt_en_de\",\n    \"transformer_vaswani_wmt_en_de_big\",\n    \"transformer_vaswani_wmt_en_fr_big\",\n    \"transformer_wmt_en_de_big\",\n    \"transformer_wmt_en_de_big_t2t\",\n    \"DEFAULT_MAX_SOURCE_POSITIONS\",\n    \"DEFAULT_MAX_TARGET_POSITIONS\",\n    \"DEFAULT_MIN_PARAMS_TO_WRAP\",\n]\n"
  },
  {
    "path": "fairseq/models/transformer/transformer_base.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Dict, List, Optional, Tuple\n\nimport torch\nimport torch.nn as nn\nfrom torch import Tensor\n\nimport logging\n\nfrom fairseq import utils\nfrom fairseq.dataclass.utils import gen_parser_from_dataclass\nfrom fairseq.distributed import fsdp_wrap\nfrom fairseq.models import FairseqEncoderDecoderModel\nfrom fairseq.models.transformer import (\n    TransformerConfig,\n    TransformerDecoderBase,\n    TransformerEncoderBase,\n)\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass TransformerModelBase(FairseqEncoderDecoderModel):\n    \"\"\"\n    Transformer model from `\"Attention Is All You Need\" (Vaswani, et al, 2017)\n    <https://arxiv.org/abs/1706.03762>`_.\n\n    Args:\n        encoder (TransformerEncoder): the encoder\n        decoder (TransformerDecoder): the decoder\n\n    The Transformer model provides the following named architectures and\n    command-line arguments:\n\n    .. argparse::\n        :ref: fairseq.models.transformer_parser\n        :prog:\n    \"\"\"\n\n    def __init__(self, cfg, encoder, decoder):\n        super().__init__(encoder, decoder)\n        self.cfg = cfg\n        self.supports_align_args = True\n\n    @classmethod\n    def add_args(cls, parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        # we want to build the args recursively in this case.\n        gen_parser_from_dataclass(\n            parser, TransformerConfig(), delete_default=False, with_prefix=\"\"\n        )\n\n    @classmethod\n    def build_model(cls, cfg, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        # --  TODO T96535332\n        #  bug caused by interaction between OmegaConf II and argparsing\n        cfg.decoder.input_dim = int(cfg.decoder.input_dim)\n        cfg.decoder.output_dim = int(cfg.decoder.output_dim)\n        # --\n\n        if cfg.encoder.layers_to_keep:\n            cfg.encoder.layers = len(cfg.encoder.layers_to_keep.split(\",\"))\n        if cfg.decoder.layers_to_keep:\n            cfg.decoder.layers = len(cfg.decoder.layers_to_keep.split(\",\"))\n\n        src_dict, tgt_dict = task.source_dictionary, task.target_dictionary\n\n        if cfg.share_all_embeddings:\n            if src_dict != tgt_dict:\n                raise ValueError(\"--share-all-embeddings requires a joined dictionary\")\n            if cfg.encoder.embed_dim != cfg.decoder.embed_dim:\n                raise ValueError(\n                    \"--share-all-embeddings requires --encoder-embed-dim to match --decoder-embed-dim\"\n                )\n            if cfg.decoder.embed_path and (\n                cfg.decoder.embed_path != cfg.encoder.embed_path\n            ):\n                raise ValueError(\n                    \"--share-all-embeddings not compatible with --decoder-embed-path\"\n                )\n            encoder_embed_tokens = cls.build_embedding(\n                cfg, src_dict, cfg.encoder.embed_dim, cfg.encoder.embed_path\n            )\n            decoder_embed_tokens = encoder_embed_tokens\n            cfg.share_decoder_input_output_embed = True\n        elif cfg.merge_src_tgt_embed:\n            logger.info(f\"source dict size: {len(src_dict)}\")\n            logger.info(f\"target dict size: {len(tgt_dict)}\")\n            src_dict.update(tgt_dict)\n            task.src_dict = src_dict\n            task.tgt_dict = src_dict\n            logger.info(f\"merged dict size: {len(src_dict)}\")\n            encoder_embed_tokens = cls.build_embedding(\n                cfg, src_dict, cfg.encoder.embed_dim\n            )\n            decoder_embed_tokens = encoder_embed_tokens\n            cfg.share_decoder_input_output_embed = True\n        else:\n            encoder_embed_tokens = cls.build_embedding(\n                cfg, src_dict, cfg.encoder.embed_dim, cfg.encoder.embed_path\n            )\n            decoder_embed_tokens = cls.build_embedding(\n                cfg, tgt_dict, cfg.decoder.embed_dim, cfg.decoder.embed_path\n            )\n        if cfg.offload_activations:\n            cfg.checkpoint_activations = True  # offloading implies checkpointing\n        encoder = cls.build_encoder(cfg, src_dict, encoder_embed_tokens)\n        decoder = cls.build_decoder(cfg, tgt_dict, decoder_embed_tokens)\n        return cls(cfg, encoder, decoder)\n\n    @classmethod\n    def build_embedding(cls, cfg, dictionary, embed_dim, path=None):\n        num_embeddings = len(dictionary)\n        padding_idx = dictionary.pad()\n\n        emb = Embedding(num_embeddings, embed_dim, padding_idx)\n        # if provided, load from preloaded dictionaries\n        if path:\n            embed_dict = utils.parse_embedding(path)\n            utils.load_embedding(embed_dict, dictionary, emb)\n        return emb\n\n    @classmethod\n    def build_encoder(cls, cfg, src_dict, embed_tokens):\n        return TransformerEncoderBase(cfg, src_dict, embed_tokens)\n\n    @classmethod\n    def build_decoder(cls, cfg, tgt_dict, embed_tokens):\n        return TransformerDecoderBase(\n            cfg,\n            tgt_dict,\n            embed_tokens,\n            no_encoder_attn=cfg.no_cross_attention,\n        )\n\n    # TorchScript doesn't support optional arguments with variable length (**kwargs).\n    # Current workaround is to add union of all arguments in child classes.\n    def forward(\n        self,\n        src_tokens,\n        src_lengths,\n        prev_output_tokens,\n        return_all_hiddens: bool = True,\n        features_only: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n    ):\n        \"\"\"\n        Run the forward pass for an encoder-decoder model.\n\n        Copied from the base class, but without ``**kwargs``,\n        which are not supported by TorchScript.\n        \"\"\"\n        encoder_out = self.encoder(\n            src_tokens, src_lengths=src_lengths, return_all_hiddens=return_all_hiddens\n        )\n        decoder_out = self.decoder(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            features_only=features_only,\n            alignment_layer=alignment_layer,\n            alignment_heads=alignment_heads,\n            src_lengths=src_lengths,\n            return_all_hiddens=return_all_hiddens,\n        )\n        return decoder_out\n\n    # Since get_normalized_probs is in the Fairseq Model which is not scriptable,\n    # I rewrite the get_normalized_probs from Base Class to call the\n    # helper function in the Base Class.\n    @torch.jit.export\n    def get_normalized_probs(\n        self,\n        net_output: Tuple[Tensor, Optional[Dict[str, List[Optional[Tensor]]]]],\n        log_probs: bool,\n        sample: Optional[Dict[str, Tensor]] = None,\n    ):\n        \"\"\"Get normalized probabilities (or log probs) from a net's output.\"\"\"\n        return self.get_normalized_probs_scriptable(net_output, log_probs, sample)\n\n\ndef Embedding(num_embeddings, embedding_dim, padding_idx):\n    m = nn.Embedding(num_embeddings, embedding_dim, padding_idx=padding_idx)\n    nn.init.normal_(m.weight, mean=0, std=embedding_dim**-0.5)\n    nn.init.constant_(m.weight[padding_idx], 0)\n    return m\n"
  },
  {
    "path": "fairseq/models/transformer/transformer_config.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport re\nfrom dataclasses import dataclass, field, fields\nfrom typing import List, Optional\n\nfrom omegaconf import II\n\nfrom fairseq import utils\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.utils import safe_getattr, safe_hasattr\n\nDEFAULT_MAX_SOURCE_POSITIONS = 1024\nDEFAULT_MAX_TARGET_POSITIONS = 1024\n\nDEFAULT_MIN_PARAMS_TO_WRAP = int(1e8)\n\n_NAME_PARSER = r\"(decoder|encoder|quant_noise)_(.*)\"\n\n\n@dataclass\nclass EncDecBaseConfig(FairseqDataclass):\n    embed_path: Optional[str] = field(\n        default=None, metadata={\"help\": \"path to pre-trained embedding\"}\n    )\n    embed_dim: Optional[int] = field(\n        default=512, metadata={\"help\": \"embedding dimension\"}\n    )\n    ffn_embed_dim: int = field(\n        default=2048, metadata={\"help\": \"embedding dimension for FFN\"}\n    )\n    layers: int = field(default=6, metadata={\"help\": \"number of layers\"})\n    attention_heads: int = field(\n        default=8, metadata={\"help\": \"number of attention heads\"}\n    )\n    normalize_before: bool = field(\n        default=False, metadata={\"help\": \"apply layernorm before each block\"}\n    )\n    learned_pos: bool = field(\n        default=False, metadata={\"help\": \"use learned positional embeddings\"}\n    )\n    # args for \"Reducing Transformer Depth on Demand with Structured Dropout\" (Fan et al., 2019)\n    layerdrop: float = field(default=0, metadata={\"help\": \"LayerDrop probability\"})\n    layers_to_keep: Optional[List[int]] = field(\n        default=None, metadata={\"help\": \"which layers to *keep* when pruning\"}\n    )\n\n    xformers_att_config: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"config for xFormers attention, defined in xformers.components.attention.AttentionConfig\"\n        },\n    )\n\n\n@dataclass\nclass DecoderConfig(EncDecBaseConfig):\n    input_dim: int = II(\"model.decoder.embed_dim\")\n    output_dim: int = field(\n        default=II(\"model.decoder.embed_dim\"),\n        metadata={\n            \"help\": \"decoder output dimension (extra linear layer if different from decoder embed dim)\"\n        },\n    )\n\n    def __post_init__(self):\n        #  II doesn't work if we are just creating the object outside of hydra so fix that\n        if self.input_dim == II(\"model.decoder.embed_dim\"):\n            self.input_dim = self.embed_dim\n        if self.output_dim == II(\"model.decoder.embed_dim\"):\n            self.output_dim = self.embed_dim\n\n\n@dataclass\nclass QuantNoiseConfig(FairseqDataclass):\n    pq: float = field(\n        default=0.0,\n        metadata={\"help\": \"iterative PQ quantization noise at training time\"},\n    )\n    pq_block_size: int = field(\n        default=8,\n        metadata={\"help\": \"block size of quantization noise at training time\"},\n    )\n    scalar: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"scalar quantization noise and scalar quantization at training time\"\n        },\n    )\n\n\n@dataclass\nclass TransformerConfig(FairseqDataclass):\n    activation_fn: ChoiceEnum(utils.get_available_activation_fns()) = field(\n        default=\"relu\",\n        metadata={\"help\": \"activation function to use\"},\n    )\n    dropout: float = field(default=0.1, metadata={\"help\": \"dropout probability\"})\n    attention_dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout probability for attention weights\"}\n    )\n    activation_dropout: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"dropout probability after activation in FFN.\",\n            \"alias\": \"--relu-dropout\",\n        },\n    )\n    adaptive_input: bool = False\n    encoder: EncDecBaseConfig = EncDecBaseConfig()\n    # TODO should really be in the encoder config\n    max_source_positions: int = field(\n        default=DEFAULT_MAX_SOURCE_POSITIONS,\n        metadata={\"help\": \"Maximum input length supported by the encoder\"},\n    )\n    decoder: DecoderConfig = DecoderConfig()\n    # TODO should really be in the decoder config\n    max_target_positions: int = field(\n        default=DEFAULT_MAX_TARGET_POSITIONS,\n        metadata={\"help\": \"Maximum output length supported by the decoder\"},\n    )\n    share_decoder_input_output_embed: bool = field(\n        default=False, metadata={\"help\": \"share decoder input and output embeddings\"}\n    )\n    share_all_embeddings: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"share encoder, decoder and output embeddings (requires shared dictionary and embed dim)\"\n        },\n    )\n    merge_src_tgt_embed: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if true then the source and target embedding table is \"\n            \"merged into one table. This is going to make the model smaller but \"\n            \"it might hurt performance.\"\n        },\n    )\n    no_token_positional_embeddings: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if True, disables positional embeddings (outside self attention)\"\n        },\n    )\n    adaptive_softmax_cutoff: Optional[List[int]] = field(\n        default=None,\n        metadata={\n            \"help\": \"list of adaptive softmax cutoff points. Must be used with adaptive_loss criterion\"\n        },\n    )\n    adaptive_softmax_dropout: float = field(\n        default=0.0,\n        metadata={\"help\": \"sets adaptive softmax dropout for the tail projections\"},\n    )\n    adaptive_softmax_factor: float = field(\n        default=4, metadata={\"help\": \"adaptive input factor\"}\n    )\n    layernorm_embedding: bool = field(\n        default=False, metadata={\"help\": \"add layernorm to embedding\"}\n    )\n    tie_adaptive_weights: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, ties the weights of adaptive softmax and adaptive input\"\n        },\n    )\n    tie_adaptive_proj: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, ties the projection weights of adaptive softmax and adaptive input\"\n        },\n    )\n    no_scale_embedding: bool = field(\n        default=False, metadata={\"help\": \"if True, dont scale embeddings\"}\n    )\n    checkpoint_activations: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"checkpoint activations at each layer, which saves GPU memory usage at the cost of some additional compute\"\n        },\n    )\n    offload_activations: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"checkpoint activations at each layer, then save to gpu. Sets --checkpoint-activations.\"\n        },\n    )\n    # args for \"Cross+Self-Attention for Transformer Models\" (Peitz et al., 2019)\n    no_cross_attention: bool = field(\n        default=False, metadata={\"help\": \"do not perform cross-attention\"}\n    )\n    cross_self_attention: bool = field(\n        default=False, metadata={\"help\": \"perform cross+self-attention\"}\n    )\n    # args for Training with Quantization Noise for Extreme Model Compression ({Fan*, Stock*} et al., 2020)\n    quant_noise: QuantNoiseConfig = field(default=QuantNoiseConfig())\n    min_params_to_wrap: int = field(\n        default=DEFAULT_MIN_PARAMS_TO_WRAP,\n        metadata={\n            \"help\": \"minimum number of params for a layer to be wrapped with FSDP() when \"\n            \"training with --ddp-backend=fully_sharded. Smaller values will \"\n            \"improve memory efficiency, but may make torch.distributed \"\n            \"communication less efficient due to smaller input sizes. This option \"\n            \"is set to 0 (i.e., always wrap) when --checkpoint-activations or \"\n            \"--offload-activations are passed.\"\n        },\n    )\n    # DEPRECATED field, but some old checkpoints might have it\n    char_inputs: bool = field(\n        default=False, metadata={\"help\": \"if set, model takes character ids as input\"}\n    )\n    relu_dropout: float = 0.0\n    # config for \"BASE Layers: Simplifying Training of Large, Sparse Models\"\n    base_layers: Optional[int] = field(\n        default=0, metadata={\"help\": \"number of BASE layers in total\"}\n    )\n    base_sublayers: Optional[int] = field(\n        default=1, metadata={\"help\": \"number of sublayers in each BASE layer\"}\n    )\n    base_shuffle: Optional[int] = field(\n        default=1,\n        metadata={\"help\": \"shuffle tokens between workers before computing assignment\"},\n    )\n\n    export: bool = field(\n        default=False,\n        metadata={\"help\": \"make the layernorm exportable with torchscript.\"},\n    )\n\n    # copied from transformer_lm but expected in transformer_decoder:\n    no_decoder_final_norm: bool = field(\n        default=False,\n        metadata={\"help\": \"don't add an extra layernorm after the last decoder block\"},\n    )\n\n    # We need to make this hierarchical dataclass like the flat namespace\n    # __getattr__ and __setattr__ here allow backward compatibility\n    # for subclasses of Transformer(Legacy) that depend on read/write on\n    # the flat namespace.\n\n    def __getattr__(self, name):\n        match = re.match(_NAME_PARSER, name)\n        if match:\n            sub = safe_getattr(self, match[1])\n            return safe_getattr(sub, match[2])\n        raise AttributeError(f\"invalid argument {name}.\")\n\n    def __setattr__(self, name, value):\n        match = re.match(_NAME_PARSER, name)\n        if match:\n            sub = safe_getattr(self, match[1])\n            setattr(sub, match[2], value)\n        else:\n            super().__setattr__(name, value)\n\n    @staticmethod\n    def _copy_keys(args, cls, prefix, seen):\n        \"\"\"\n        copy the prefixed keys (decoder_embed_dim) to the DC fields: decoder.embed_dim\n        \"\"\"\n        cfg = cls()\n        for fld in fields(cls):\n            # for all the fields in the DC, find the fields (e.g. embed_dim)\n            # in the namespace with the prefix (e.g. decoder)\n            # and set it on the dc.\n            args_key = f\"{prefix}_{fld.name}\"\n            if safe_hasattr(args, args_key):\n                seen.add(args_key)\n                setattr(cfg, fld.name, safe_getattr(args, args_key))\n            if safe_hasattr(args, fld.name):\n                seen.add(fld.name)\n                setattr(cfg, fld.name, safe_getattr(args, fld.name))\n        return cfg\n\n    @classmethod\n    def from_namespace(cls, args):\n        if args is None:\n            return None\n        if not isinstance(args, cls):\n            seen = set()\n            config = cls()\n            # currently, we can go generically from DC fields to args hierarchically\n            # but we can't easily deconstruct a flat namespace to a hierarchical\n            # DC. Mostly because we could have a sub-dc called `decoder-foo` that should not\n            # go to the sub struct called `decoder`. There are ways to go around this, but let's keep it simple\n            # for now.\n            for fld in fields(cls):\n                # concretelly, the transformer_config know what sub-dc it has, so we go through all the dc fields\n                # and if it's one that has a sub-dc, we build that sub-dc with `copy_keys()`\n                if fld.name == \"decoder\":\n                    if safe_hasattr(args, \"decoder\"):\n                        #  in some cases, the args we receive is already structured (as DictConfigs), so let's just build the correct DC\n                        seen.add(\"decoder\")\n                        config.decoder = DecoderConfig(**args.decoder)\n                    else:\n                        config.decoder = cls._copy_keys(\n                            args, DecoderConfig, \"decoder\", seen\n                        )\n                elif fld.name == \"encoder\":\n                    # same but for encoder\n                    if safe_hasattr(args, \"encoder\"):\n                        seen.add(\"encoder\")\n                        config.encoder = EncDecBaseConfig(**args.encoder)\n                    else:\n                        config.encoder = cls._copy_keys(\n                            args, EncDecBaseConfig, \"encoder\", seen\n                        )\n                elif fld.name == \"quant_noise\":\n                    # same but for quant_noise\n                    if safe_hasattr(args, \"quant_noise\"):\n                        seen.add(\"quant_noise\")\n                        config.quant_noise = QuantNoiseConfig(**args.quant_noise)\n                    else:\n                        config.quant_noise = cls._copy_keys(\n                            args, QuantNoiseConfig, \"quant_noise\", seen\n                        )\n                elif safe_hasattr(args, fld.name):\n                    # if it's not a structure field, it's just a normal field, copy it over\n                    seen.add(fld.name)\n                    setattr(config, fld.name, safe_getattr(args, fld.name))\n            # we got all the fields defined in the dataclass, but\n            # the argparse namespace might have extra args for two reasons:\n            #   - we are in a legacy class so all the args are not declared in the dataclass. Ideally once everyone has defined a dataclass for their model, we won't need this\n            #   - some places expect args to be there but never define them\n            args_dict = (\n                args._asdict()\n                if safe_hasattr(args, \"_asdict\")\n                else vars(args)\n                if safe_hasattr(args, \"__dict__\")\n                else {}\n            )  # namedtupled doesn't have __dict__ :-/\n            for key, value in args_dict.items():\n                if key not in seen:\n                    setattr(config, key, value)\n            return config\n        else:\n            return args\n"
  },
  {
    "path": "fairseq/models/transformer/transformer_decoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom typing import Any, Dict, List, Optional\n\nimport torch\nimport torch.nn as nn\nfrom torch import Tensor\n\nfrom fairseq import utils\nfrom fairseq.distributed import fsdp_wrap\nfrom fairseq.models import FairseqIncrementalDecoder\nfrom fairseq.models.transformer import TransformerConfig\nfrom fairseq.modules import (\n    AdaptiveSoftmax,\n    BaseLayer,\n    FairseqDropout,\n    LayerDropModuleList,\n    LayerNorm,\n    PositionalEmbedding,\n    SinusoidalPositionalEmbedding,\n    transformer_layer,\n)\nfrom fairseq.modules.checkpoint_activations import checkpoint_wrapper\nfrom fairseq.modules.quant_noise import quant_noise as apply_quant_noise_\n\n\n# rewrite name for backward compatibility in `make_generation_fast_`\ndef module_name_fordropout(module_name: str) -> str:\n    if module_name == \"TransformerDecoderBase\":\n        return \"TransformerDecoder\"\n    else:\n        return module_name\n\n\nclass TransformerDecoderBase(FairseqIncrementalDecoder):\n    \"\"\"\n    Transformer decoder consisting of *cfg.decoder.layers* layers. Each layer\n    is a :class:`TransformerDecoderLayer`.\n\n    Args:\n        cfg (argparse.Namespace): parsed command-line arguments\n        dictionary (~fairseq.data.Dictionary): decoding dictionary\n        embed_tokens (torch.nn.Embedding): output embedding\n        no_encoder_attn (bool, optional): whether to attend to encoder outputs\n            (default: False).\n    \"\"\"\n\n    def __init__(\n        self,\n        cfg,\n        dictionary,\n        embed_tokens,\n        no_encoder_attn=False,\n        output_projection=None,\n    ):\n        self.cfg = cfg\n        super().__init__(dictionary)\n        self.register_buffer(\"version\", torch.Tensor([3]))\n        self._future_mask = torch.empty(0)\n\n        self.dropout_module = FairseqDropout(\n            cfg.dropout, module_name=module_name_fordropout(self.__class__.__name__)\n        )\n        self.decoder_layerdrop = cfg.decoder.layerdrop\n        self.share_input_output_embed = cfg.share_decoder_input_output_embed\n\n        input_embed_dim = embed_tokens.embedding_dim\n        embed_dim = cfg.decoder.embed_dim\n        self.embed_dim = embed_dim\n        self.output_embed_dim = cfg.decoder.output_dim\n\n        self.padding_idx = embed_tokens.padding_idx\n        self.max_target_positions = cfg.max_target_positions\n\n        self.embed_tokens = embed_tokens\n\n        self.embed_scale = 1.0 if cfg.no_scale_embedding else math.sqrt(embed_dim)\n\n        if not cfg.adaptive_input and cfg.quant_noise.pq > 0:\n            self.quant_noise = apply_quant_noise_(\n                nn.Linear(embed_dim, embed_dim, bias=False),\n                cfg.quant_noise.pq,\n                cfg.quant_noise.pq_block_size,\n            )\n        else:\n            self.quant_noise = None\n\n        self.project_in_dim = (\n            Linear(input_embed_dim, embed_dim, bias=False)\n            if embed_dim != input_embed_dim\n            else None\n        )\n        self.embed_positions = (\n            PositionalEmbedding(\n                self.max_target_positions,\n                embed_dim,\n                self.padding_idx,\n                learned=cfg.decoder.learned_pos,\n            )\n            if not cfg.no_token_positional_embeddings\n            else None\n        )\n        if cfg.layernorm_embedding:\n            self.layernorm_embedding = LayerNorm(embed_dim, export=cfg.export)\n        else:\n            self.layernorm_embedding = None\n\n        self.cross_self_attention = cfg.cross_self_attention\n\n        if self.decoder_layerdrop > 0.0:\n            self.layers = LayerDropModuleList(p=self.decoder_layerdrop)\n        else:\n            self.layers = nn.ModuleList([])\n        self.layers.extend(\n            [\n                self.build_decoder_layer(cfg, no_encoder_attn)\n                for _ in range(cfg.decoder.layers)\n            ]\n        )\n        self.num_layers = len(self.layers)\n\n        if cfg.decoder.normalize_before and not cfg.no_decoder_final_norm:\n            self.layer_norm = LayerNorm(embed_dim, export=cfg.export)\n        else:\n            self.layer_norm = None\n\n        self.project_out_dim = (\n            Linear(embed_dim, self.output_embed_dim, bias=False)\n            if embed_dim != self.output_embed_dim and not cfg.tie_adaptive_weights\n            else None\n        )\n\n        self.adaptive_softmax = None\n        self.output_projection = output_projection\n        if self.output_projection is None:\n            self.build_output_projection(cfg, dictionary, embed_tokens)\n\n    def build_output_projection(self, cfg, dictionary, embed_tokens):\n        if cfg.adaptive_softmax_cutoff is not None:\n            self.adaptive_softmax = AdaptiveSoftmax(\n                len(dictionary),\n                self.output_embed_dim,\n                utils.eval_str_list(cfg.adaptive_softmax_cutoff, type=int),\n                dropout=cfg.adaptive_softmax_dropout,\n                adaptive_inputs=embed_tokens if cfg.tie_adaptive_weights else None,\n                factor=cfg.adaptive_softmax_factor,\n                tie_proj=cfg.tie_adaptive_proj,\n            )\n        elif self.share_input_output_embed:\n            self.output_projection = nn.Linear(\n                self.embed_tokens.weight.shape[1],\n                self.embed_tokens.weight.shape[0],\n                bias=False,\n            )\n            self.output_projection.weight = self.embed_tokens.weight\n        else:\n            self.output_projection = nn.Linear(\n                self.output_embed_dim, len(dictionary), bias=False\n            )\n            nn.init.normal_(\n                self.output_projection.weight, mean=0, std=self.output_embed_dim**-0.5\n            )\n        num_base_layers = cfg.base_layers\n        for i in range(num_base_layers):\n            self.layers.insert(\n                ((i + 1) * cfg.decoder.layers) // (num_base_layers + 1),\n                BaseLayer(cfg),\n            )\n\n    def build_decoder_layer(self, cfg, no_encoder_attn=False):\n        layer = transformer_layer.TransformerDecoderLayerBase(cfg, no_encoder_attn)\n        checkpoint = cfg.checkpoint_activations\n        if checkpoint:\n            offload_to_cpu = cfg.offload_activations\n            layer = checkpoint_wrapper(layer, offload_to_cpu=offload_to_cpu)\n        # if we are checkpointing, enforce that FSDP always wraps the\n        # checkpointed layer, regardless of layer size\n        min_params_to_wrap = cfg.min_params_to_wrap if not checkpoint else 0\n        layer = fsdp_wrap(layer, min_num_params=min_params_to_wrap)\n        return layer\n\n    def forward(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        features_only: bool = False,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n        src_lengths: Optional[Any] = None,\n        return_all_hiddens: bool = False,\n    ):\n        \"\"\"\n        Args:\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for teacher forcing\n            encoder_out (optional): output from the encoder, used for\n                encoder-side attention, should be of size T x B x C\n            incremental_state (dict): dictionary used for storing state during\n                :ref:`Incremental decoding`\n            features_only (bool, optional): only return features without\n                applying output layer (default: False).\n            full_context_alignment (bool, optional): don't apply\n                auto-regressive mask to self-attention (default: False).\n\n        Returns:\n            tuple:\n                - the decoder's output of shape `(batch, tgt_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n\n        x, extra = self.extract_features(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            incremental_state=incremental_state,\n            full_context_alignment=full_context_alignment,\n            alignment_layer=alignment_layer,\n            alignment_heads=alignment_heads,\n        )\n\n        if not features_only:\n            x = self.output_layer(x)\n        return x, extra\n\n    def extract_features(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]],\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n    ):\n        return self.extract_features_scriptable(\n            prev_output_tokens,\n            encoder_out,\n            incremental_state,\n            full_context_alignment,\n            alignment_layer,\n            alignment_heads,\n        )\n\n    \"\"\"\n    A scriptable subclass of this class has an extract_features method and calls\n    super().extract_features, but super() is not supported in torchscript. A copy of\n    this function is made to be used in the subclass instead.\n    \"\"\"\n\n    def extract_features_scriptable(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]],\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n    ):\n        \"\"\"\n        Similar to *forward* but only return features.\n\n        Includes several features from \"Jointly Learning to Align and\n        Translate with Transformer Models\" (Garg et al., EMNLP 2019).\n\n        Args:\n            full_context_alignment (bool, optional): don't apply\n                auto-regressive mask to self-attention (default: False).\n            alignment_layer (int, optional): return mean alignment over\n                heads at this layer (default: last layer).\n            alignment_heads (int, optional): only average alignment over\n                this many heads (default: all heads).\n\n        Returns:\n            tuple:\n                - the decoder's features of shape `(batch, tgt_len, embed_dim)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        bs, slen = prev_output_tokens.size()\n        if alignment_layer is None:\n            alignment_layer = self.num_layers - 1\n\n        enc: Optional[Tensor] = None\n        padding_mask: Optional[Tensor] = None\n        if encoder_out is not None and len(encoder_out[\"encoder_out\"]) > 0:\n            enc = encoder_out[\"encoder_out\"][0]\n        if encoder_out is not None and len(encoder_out[\"encoder_padding_mask\"]) > 0:\n            padding_mask = encoder_out[\"encoder_padding_mask\"][0]\n\n        # embed positions\n        positions = None\n        if self.embed_positions is not None:\n            positions = self.embed_positions(\n                prev_output_tokens, incremental_state=incremental_state\n            )\n\n        if incremental_state is not None:\n            prev_output_tokens = prev_output_tokens[:, -1:]\n            if positions is not None:\n                positions = positions[:, -1:]\n\n        # Prevent torchscript exporting issue for dynamic quant embedding\n        prev_output_tokens = prev_output_tokens.contiguous()\n        # embed tokens and positions\n        x = self.embed_scale * self.embed_tokens(prev_output_tokens)\n\n        if self.quant_noise is not None:\n            x = self.quant_noise(x)\n\n        if self.project_in_dim is not None:\n            x = self.project_in_dim(x)\n\n        if positions is not None:\n            x += positions\n\n        if self.layernorm_embedding is not None:\n            x = self.layernorm_embedding(x)\n\n        x = self.dropout_module(x)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        self_attn_padding_mask: Optional[Tensor] = None\n        if self.cross_self_attention or prev_output_tokens.eq(self.padding_idx).any():\n            self_attn_padding_mask = prev_output_tokens.eq(self.padding_idx)\n\n        # decoder layers\n        attn: Optional[Tensor] = None\n        inner_states: List[Optional[Tensor]] = [x]\n        for idx, layer in enumerate(self.layers):\n            if incremental_state is None and not full_context_alignment:\n                self_attn_mask = self.buffered_future_mask(x)\n            else:\n                self_attn_mask = None\n\n            x, layer_attn, _ = layer(\n                x,\n                enc,\n                padding_mask,\n                incremental_state,\n                self_attn_mask=self_attn_mask,\n                self_attn_padding_mask=self_attn_padding_mask,\n                need_attn=bool((idx == alignment_layer)),\n                need_head_weights=bool((idx == alignment_layer)),\n            )\n            inner_states.append(x)\n            if layer_attn is not None and idx == alignment_layer:\n                attn = layer_attn.float().to(x)\n\n        if attn is not None:\n            if alignment_heads is not None:\n                attn = attn[:alignment_heads]\n\n            # average probabilities over heads\n            attn = attn.mean(dim=0)\n\n        if self.layer_norm is not None:\n            x = self.layer_norm(x)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        if self.project_out_dim is not None:\n            x = self.project_out_dim(x)\n\n        return x, {\"attn\": [attn], \"inner_states\": inner_states}\n\n    def output_layer(self, features):\n        \"\"\"Project features to the vocabulary size.\"\"\"\n        if self.adaptive_softmax is None:\n            # project back to size of vocabulary\n            return self.output_projection(features)\n        else:\n            return features\n\n    def max_positions(self):\n        \"\"\"Maximum output length supported by the decoder.\"\"\"\n        if self.embed_positions is None:\n            return self.max_target_positions\n        return min(self.max_target_positions, self.embed_positions.max_positions)\n\n    def buffered_future_mask(self, tensor):\n        dim = tensor.size(0)\n        # self._future_mask.device != tensor.device is not working in TorchScript. This is a workaround.\n        if (\n            self._future_mask.size(0) == 0\n            or (not self._future_mask.device == tensor.device)\n            or self._future_mask.size(0) < dim\n        ):\n            self._future_mask = torch.triu(\n                utils.fill_with_neg_inf(torch.zeros([dim, dim])), 1\n            )\n        self._future_mask = self._future_mask.to(tensor)\n        return self._future_mask[:dim, :dim]\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        \"\"\"Upgrade a (possibly old) state dict for new versions of fairseq.\"\"\"\n        if f\"{name}.output_projection.weight\" not in state_dict:\n            if self.share_input_output_embed:\n                embed_out_key = f\"{name}.embed_tokens.weight\"\n            else:\n                embed_out_key = f\"{name}.embed_out\"\n            if embed_out_key in state_dict:\n                state_dict[f\"{name}.output_projection.weight\"] = state_dict[\n                    embed_out_key\n                ]\n                if not self.share_input_output_embed:\n                    del state_dict[embed_out_key]\n\n        for i in range(self.num_layers):\n            # update layer norms\n            layer_norm_map = {\n                \"0\": \"self_attn_layer_norm\",\n                \"1\": \"encoder_attn_layer_norm\",\n                \"2\": \"final_layer_norm\",\n            }\n            for old, new in layer_norm_map.items():\n                for m in (\"weight\", \"bias\"):\n                    k = \"{}.layers.{}.layer_norms.{}.{}\".format(name, i, old, m)\n                    if k in state_dict:\n                        state_dict[\n                            \"{}.layers.{}.{}.{}\".format(name, i, new, m)\n                        ] = state_dict[k]\n                        del state_dict[k]\n\n        version_key = \"{}.version\".format(name)\n        if utils.item(state_dict.get(version_key, torch.Tensor([1]))[0]) <= 2:\n            # earlier checkpoints did not normalize after the stack of layers\n            self.layer_norm = None\n            self.normalize = False\n            state_dict[version_key] = torch.Tensor([1])\n\n        return state_dict\n\n\ndef Linear(in_features, out_features, bias=True):\n    m = nn.Linear(in_features, out_features, bias)\n    nn.init.xavier_uniform_(m.weight)\n    if bias:\n        nn.init.constant_(m.bias, 0.0)\n    return m\n\n\nclass TransformerDecoder(TransformerDecoderBase):\n    def __init__(\n        self,\n        args,\n        dictionary,\n        embed_tokens,\n        no_encoder_attn=False,\n        output_projection=None,\n    ):\n        self.args = args\n        super().__init__(\n            TransformerConfig.from_namespace(args),\n            dictionary,\n            embed_tokens,\n            no_encoder_attn=no_encoder_attn,\n            output_projection=output_projection,\n        )\n\n    def build_output_projection(self, args, dictionary, embed_tokens):\n        super().build_output_projection(\n            TransformerConfig.from_namespace(args), dictionary, embed_tokens\n        )\n\n    def build_decoder_layer(self, args, no_encoder_attn=False):\n        return super().build_decoder_layer(\n            TransformerConfig.from_namespace(args), no_encoder_attn=no_encoder_attn\n        )\n"
  },
  {
    "path": "fairseq/models/transformer/transformer_decoder_aug.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Any, Dict, List, Optional\n\nimport torch\nimport torch.nn as nn\nfrom torch import Tensor\n\nfrom fairseq import utils\nfrom fairseq.distributed import fsdp_wrap\nfrom fairseq.models.transformer import TransformerConfig\nfrom fairseq.models.transformer.transformer_decoder import TransformerDecoderBase\nfrom fairseq.modules import (\n    LayerDropModuleList,\n    SinusoidalPositionalEmbedding,\n    transformer_layer_aug,\n)\nfrom fairseq.modules.checkpoint_activations import checkpoint_wrapper\n\n\nclass AugTransformerDecoderBase(TransformerDecoderBase):\n    \"\"\"\n    Transformer decoder augmented with an additional cross-attention. Each layer\n    is a :class:`AugTransformerDecoderLayerBase`.\n\n    Args:\n        cfg (argparse.Namespace): parsed command-line arguments\n        dictionary (~fairseq.data.Dictionary): decoding dictionary\n        embed_tokens (torch.nn.Embedding): output embedding\n        encoder_attn_merge_type (str, optional): the way to combine outputs from\n            two cross-attention modules. If \"sequential\" is set, two cross-attention\n            modules are stacked sequentially. If \"parallel\" is set, they are processed\n            in parallel and combined before feeding it to FFN (default: sequential).\n        dropnet_ratio (float, optional): a probability to drop each cross-attention\n            module during training (default: 0.0).\n    \"\"\"\n\n    def __init__(\n        self,\n        cfg,\n        dictionary,\n        embed_tokens,\n        output_projection=None,\n        encoder_attn_merge_type=\"sequential\",\n        dropnet_ratio=0.0,\n    ):\n        super().__init__(\n            cfg,\n            dictionary,\n            embed_tokens,\n            no_encoder_attn=False,\n            output_projection=output_projection,\n        )\n        # assert cfg.cross_self_attention\n        self.cross_self_attention = cfg.cross_self_attention\n\n        if self.decoder_layerdrop > 0.0:\n            self.layers = LayerDropModuleList(p=self.decoder_layerdrop)\n        else:\n            self.layers = nn.ModuleList([])\n        self.layers.extend(\n            [\n                self.build_decoder_layer(cfg, encoder_attn_merge_type, dropnet_ratio)\n                for _ in range(cfg.decoder.layers)\n            ]\n        )\n\n    def build_decoder_layer(\n        self,\n        cfg,\n        encoder_attn_merge_type=\"sequential\",\n        dropnet_ratio=0,\n    ):\n        layer = transformer_layer_aug.AugTransformerDecoderLayerBase(\n            cfg,\n            no_encoder_attn=False,\n            encoder_attn_merge_type=encoder_attn_merge_type,\n            dropnet_ratio=dropnet_ratio,\n        )\n        checkpoint = cfg.checkpoint_activations\n        if checkpoint:\n            offload_to_cpu = cfg.offload_activations\n            layer = checkpoint_wrapper(layer, offload_to_cpu=offload_to_cpu)\n        # if we are checkpointing, enforce that FSDP always wraps the\n        # checkpointed layer, regardless of layer size\n        min_params_to_wrap = cfg.min_params_to_wrap if not checkpoint else 0\n        layer = fsdp_wrap(layer, min_num_params=min_params_to_wrap)\n        return layer\n\n    def forward(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]] = None,\n        encoder_out_aug: Optional[Dict[str, List[Tensor]]] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        features_only: bool = False,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n        src_lengths: Optional[Any] = None,\n        return_all_hiddens: bool = False,\n    ):\n        \"\"\"\n        Args:\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for teacher forcing\n            encoder_out (optional): output from the encoder, used for\n                encoder-side attention, should be of size T x B x C\n            incremental_state (dict): dictionary used for storing state during\n                :ref:`Incremental decoding`\n            features_only (bool, optional): only return features without\n                applying output layer (default: False).\n            full_context_alignment (bool, optional): don't apply\n                auto-regressive mask to self-attention (default: False).\n\n        Returns:\n            tuple:\n                - the decoder's output of shape `(batch, tgt_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n\n        x, extra = self.extract_features(\n            prev_output_tokens,\n            encoder_out=encoder_out,\n            encoder_out_aug=encoder_out_aug,\n            incremental_state=incremental_state,\n            full_context_alignment=full_context_alignment,\n            alignment_layer=alignment_layer,\n            alignment_heads=alignment_heads,\n        )\n\n        if not features_only:\n            x = self.output_layer(x)\n        return x, extra\n\n    def extract_features(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]],\n        encoder_out_aug: Optional[Dict[str, List[Tensor]]],\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n    ):\n        return self.extract_features_scriptable(\n            prev_output_tokens,\n            encoder_out,\n            encoder_out_aug,\n            incremental_state,\n            full_context_alignment,\n            alignment_layer,\n            alignment_heads,\n        )\n\n    \"\"\"\n    A scriptable subclass of this class has an extract_features method and calls\n    super().extract_features, but super() is not supported in torchscript. A copy of\n    this function is made to be used in the subclass instead.\n    \"\"\"\n\n    def extract_features_scriptable(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]],\n        encoder_out_aug: Optional[Dict[str, List[Tensor]]],\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n    ):\n        \"\"\"\n        Similar to *forward* but only return features.\n\n        Includes several features from \"Jointly Learning to Align and\n        Translate with Transformer Models\" (Garg et al., EMNLP 2019).\n\n        Args:\n            full_context_alignment (bool, optional): don't apply\n                auto-regressive mask to self-attention (default: False).\n            alignment_layer (int, optional): return mean alignment over\n                heads at this layer (default: last layer).\n            alignment_heads (int, optional): only average alignment over\n                this many heads (default: all heads).\n\n        Returns:\n            tuple:\n                - the decoder's features of shape `(batch, tgt_len, embed_dim)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n        bs, slen = prev_output_tokens.size()\n        if alignment_layer is None:\n            alignment_layer = self.num_layers - 1\n\n        enc: Optional[Tensor] = None\n        padding_mask: Optional[Tensor] = None\n        if encoder_out is not None and len(encoder_out[\"encoder_out\"]) > 0:\n            enc = encoder_out[\"encoder_out\"][0]\n        if encoder_out is not None and len(encoder_out[\"encoder_padding_mask\"]) > 0:\n            padding_mask = encoder_out[\"encoder_padding_mask\"][0]\n\n        enc_aug: Optional[Tensor] = None\n        padding_mask_aug: Optional[Tensor] = None\n        if encoder_out_aug is not None and len(encoder_out_aug[\"encoder_out\"]) > 0:\n            enc_aug = encoder_out_aug[\"encoder_out\"][0]\n        if (\n            encoder_out_aug is not None\n            and len(encoder_out_aug[\"encoder_padding_mask\"]) > 0\n        ):\n            padding_mask_aug = encoder_out_aug[\"encoder_padding_mask\"][0]\n\n        # embed positions\n        positions = None\n        if self.embed_positions is not None:\n            positions = self.embed_positions(\n                prev_output_tokens, incremental_state=incremental_state\n            )\n\n        if incremental_state is not None:\n            prev_output_tokens = prev_output_tokens[:, -1:]\n            if positions is not None:\n                positions = positions[:, -1:]\n\n        # Prevent torchscript exporting issue for dynamic quant embedding\n        prev_output_tokens = prev_output_tokens.contiguous()\n        # embed tokens and positions\n        x = self.embed_scale * self.embed_tokens(prev_output_tokens)\n\n        if self.quant_noise is not None:\n            x = self.quant_noise(x)\n\n        if self.project_in_dim is not None:\n            x = self.project_in_dim(x)\n\n        if positions is not None:\n            x += positions\n\n        if self.layernorm_embedding is not None:\n            x = self.layernorm_embedding(x)\n\n        x = self.dropout_module(x)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        self_attn_padding_mask: Optional[Tensor] = None\n        if self.cross_self_attention or prev_output_tokens.eq(self.padding_idx).any():\n            self_attn_padding_mask = prev_output_tokens.eq(self.padding_idx)\n\n        # decoder layers\n        attn: Optional[Tensor] = None\n        attn_aug: Optional[Tensor] = None\n        inner_states: List[Optional[Tensor]] = [x]\n        for idx, layer in enumerate(self.layers):\n            if incremental_state is None and not full_context_alignment:\n                self_attn_mask = self.buffered_future_mask(x)\n            else:\n                self_attn_mask = None\n\n            x, layer_attn, layer_attn_aug, _ = layer(\n                x,\n                enc,\n                padding_mask,\n                enc_aug,\n                padding_mask_aug,\n                incremental_state,\n                self_attn_mask=self_attn_mask,\n                self_attn_padding_mask=self_attn_padding_mask,\n                need_attn=bool((idx == alignment_layer)),\n                need_head_weights=bool((idx == alignment_layer)),\n            )\n            inner_states.append(x)\n            if layer_attn is not None and idx == alignment_layer:\n                attn = layer_attn.float().to(x)\n            if layer_attn_aug is not None and idx == alignment_layer:\n                attn_aug = layer_attn_aug.float().to(x)\n\n        if attn is not None:\n            if alignment_heads is not None:\n                attn = attn[:alignment_heads]\n\n            # average probabilities over heads\n            attn = attn.mean(dim=0)\n\n        if attn_aug is not None:\n            if alignment_heads is not None:\n                attn_aug = attn_aug[:alignment_heads]\n\n            # average probabilities over heads\n            attn_aug = attn_aug.mean(dim=0)\n\n        if self.layer_norm is not None:\n            x = self.layer_norm(x)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        if self.project_out_dim is not None:\n            x = self.project_out_dim(x)\n\n        return x, {\"attn\": [attn], \"attn_aug\": [attn_aug], \"inner_states\": inner_states}\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        \"\"\"Upgrade a (possibly old) state dict for new versions of fairseq.\"\"\"\n        if f\"{name}.output_projection.weight\" not in state_dict:\n            if self.share_input_output_embed:\n                embed_out_key = f\"{name}.embed_tokens.weight\"\n            else:\n                embed_out_key = f\"{name}.embed_out\"\n            if embed_out_key in state_dict:\n                state_dict[f\"{name}.output_projection.weight\"] = state_dict[\n                    embed_out_key\n                ]\n                if not self.share_input_output_embed:\n                    del state_dict[embed_out_key]\n\n        for i in range(self.num_layers):\n            # update layer norms\n            layer_norm_map = {\n                \"0\": \"self_attn_layer_norm\",\n                \"1\": \"encoder_attn_layer_norm\",\n                \"2\": \"encoder_attn_layer_norm2\",\n                \"3\": \"final_layer_norm\",\n            }\n            for old, new in layer_norm_map.items():\n                for m in (\"weight\", \"bias\"):\n                    k = \"{}.layers.{}.layer_norms.{}.{}\".format(name, i, old, m)\n                    if k in state_dict:\n                        state_dict[\n                            \"{}.layers.{}.{}.{}\".format(name, i, new, m)\n                        ] = state_dict[k]\n                        del state_dict[k]\n\n        version_key = \"{}.version\".format(name)\n        if utils.item(state_dict.get(version_key, torch.Tensor([1]))[0]) <= 2:\n            # earlier checkpoints did not normalize after the stack of layers\n            self.layer_norm = None\n            self.normalize = False\n            state_dict[version_key] = torch.Tensor([1])\n\n        return state_dict\n\n\nclass AugTransformerDecoder(AugTransformerDecoderBase):\n    def __init__(\n        self,\n        args,\n        dictionary,\n        embed_tokens,\n        output_projection=None,\n    ):\n        self.args = args\n        super().__init__(\n            TransformerConfig.from_namespace(args),\n            dictionary,\n            embed_tokens,\n            no_encoder_attn=False,\n            output_projection=output_projection,\n            encoder_attn_merge_type=getattr(\n                args, \"synthesizer_augmented_cross_attention_merge_type\", \"sequential\"\n            ),\n            dropnet_ratio=getattr(args, \"dropnet_ratio\", 0),\n        )\n\n    def build_output_projection(self, args, dictionary, embed_tokens):\n        super().build_output_projection(\n            TransformerConfig.from_namespace(args), dictionary, embed_tokens\n        )\n\n    def build_decoder_layer(\n        self,\n        args,\n        encoder_attn_merge_type=\"sequential\",\n        dropnet_ratio=0,\n    ):\n        return super().build_decoder_layer(\n            TransformerConfig.from_namespace(args),\n            no_encoder_attn=False,\n            encoder_attn_merge_type=encoder_attn_merge_type,\n            dropnet_ratio=dropnet_ratio,\n        )\n"
  },
  {
    "path": "fairseq/models/transformer/transformer_encoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom typing import Dict, List, Optional\n\nimport torch\nimport torch.nn as nn\nfrom torch import Tensor\n\nfrom fairseq import utils\nfrom fairseq.distributed import fsdp_wrap\nfrom fairseq.models import FairseqEncoder\nfrom fairseq.models.transformer import TransformerConfig\nfrom fairseq.modules import (\n    FairseqDropout,\n    LayerDropModuleList,\n    LayerNorm,\n    PositionalEmbedding,\n    SinusoidalPositionalEmbedding,\n    transformer_layer,\n)\nfrom fairseq.modules.checkpoint_activations import checkpoint_wrapper\nfrom fairseq.modules.quant_noise import quant_noise as apply_quant_noise_\n\n\n# rewrite name for backward compatibility in `make_generation_fast_`\ndef module_name_fordropout(module_name: str) -> str:\n    if module_name == \"TransformerEncoderBase\":\n        return \"TransformerEncoder\"\n    else:\n        return module_name\n\n\nclass TransformerEncoderBase(FairseqEncoder):\n    \"\"\"\n    Transformer encoder consisting of *cfg.encoder.layers* layers. Each layer\n    is a :class:`TransformerEncoderLayer`.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        dictionary (~fairseq.data.Dictionary): encoding dictionary\n        embed_tokens (torch.nn.Embedding): input embedding\n    \"\"\"\n\n    def __init__(self, cfg, dictionary, embed_tokens, return_fc=False):\n        self.cfg = cfg\n        super().__init__(dictionary)\n        self.register_buffer(\"version\", torch.Tensor([3]))\n\n        self.dropout_module = FairseqDropout(\n            cfg.dropout, module_name=module_name_fordropout(self.__class__.__name__)\n        )\n        self.encoder_layerdrop = cfg.encoder.layerdrop\n        self.return_fc = return_fc\n\n        embed_dim = embed_tokens.embedding_dim\n        self.padding_idx = embed_tokens.padding_idx\n        self.max_source_positions = cfg.max_source_positions\n\n        self.embed_tokens = embed_tokens\n\n        self.embed_scale = 1.0 if cfg.no_scale_embedding else math.sqrt(embed_dim)\n\n        self.embed_positions = (\n            PositionalEmbedding(\n                cfg.max_source_positions,\n                embed_dim,\n                self.padding_idx,\n                learned=cfg.encoder.learned_pos,\n            )\n            if not cfg.no_token_positional_embeddings\n            else None\n        )\n        if cfg.layernorm_embedding:\n            self.layernorm_embedding = LayerNorm(embed_dim, export=cfg.export)\n        else:\n            self.layernorm_embedding = None\n\n        if not cfg.adaptive_input and cfg.quant_noise.pq > 0:\n            self.quant_noise = apply_quant_noise_(\n                nn.Linear(embed_dim, embed_dim, bias=False),\n                cfg.quant_noise.pq,\n                cfg.quant_noise.pq_block_size,\n            )\n        else:\n            self.quant_noise = None\n\n        if self.encoder_layerdrop > 0.0:\n            self.layers = LayerDropModuleList(p=self.encoder_layerdrop)\n        else:\n            self.layers = nn.ModuleList([])\n        self.layers.extend(\n            [self.build_encoder_layer(cfg) for i in range(cfg.encoder.layers)]\n        )\n        self.num_layers = len(self.layers)\n\n        if cfg.encoder.normalize_before:\n            self.layer_norm = LayerNorm(embed_dim, export=cfg.export)\n        else:\n            self.layer_norm = None\n\n    def build_encoder_layer(self, cfg):\n        layer = transformer_layer.TransformerEncoderLayerBase(\n            cfg, return_fc=self.return_fc\n        )\n        checkpoint = cfg.checkpoint_activations\n        if checkpoint:\n            offload_to_cpu = cfg.offload_activations\n            layer = checkpoint_wrapper(layer, offload_to_cpu=offload_to_cpu)\n        # if we are checkpointing, enforce that FSDP always wraps the\n        # checkpointed layer, regardless of layer size\n        min_params_to_wrap = cfg.min_params_to_wrap if not checkpoint else 0\n        layer = fsdp_wrap(layer, min_num_params=min_params_to_wrap)\n        return layer\n\n    def forward_embedding(\n        self, src_tokens, token_embedding: Optional[torch.Tensor] = None\n    ):\n        # embed tokens and positions\n        if token_embedding is None:\n            token_embedding = self.embed_tokens(src_tokens)\n        x = embed = self.embed_scale * token_embedding\n        if self.embed_positions is not None:\n            x = embed + self.embed_positions(src_tokens)\n        if self.layernorm_embedding is not None:\n            x = self.layernorm_embedding(x)\n        x = self.dropout_module(x)\n        if self.quant_noise is not None:\n            x = self.quant_noise(x)\n        return x, embed\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths: Optional[torch.Tensor] = None,\n        return_all_hiddens: bool = False,\n        token_embeddings: Optional[torch.Tensor] = None,\n    ):\n        \"\"\"\n        Args:\n            src_tokens (LongTensor): tokens in the source language of shape\n                `(batch, src_len)`\n            src_lengths (torch.LongTensor): lengths of each source sentence of\n                shape `(batch)`\n            return_all_hiddens (bool, optional): also return all of the\n                intermediate hidden states (default: False).\n            token_embeddings (torch.Tensor, optional): precomputed embeddings\n                default `None` will recompute embeddings\n\n        Returns:\n            dict:\n                - **encoder_out** (Tensor): the last encoder layer's output of\n                  shape `(src_len, batch, embed_dim)`\n                - **encoder_padding_mask** (ByteTensor): the positions of\n                  padding elements of shape `(batch, src_len)`\n                - **encoder_embedding** (Tensor): the (scaled) embedding lookup\n                  of shape `(batch, src_len, embed_dim)`\n                - **encoder_states** (List[Tensor]): all intermediate\n                  hidden states of shape `(src_len, batch, embed_dim)`.\n                  Only populated if *return_all_hiddens* is True.\n        \"\"\"\n        return self.forward_scriptable(\n            src_tokens, src_lengths, return_all_hiddens, token_embeddings\n        )\n\n    # TorchScript doesn't support super() method so that the scriptable Subclass\n    # can't access the base class model in Torchscript.\n    # Current workaround is to add a helper function with different name and\n    # call the helper function from scriptable Subclass.\n    def forward_scriptable(\n        self,\n        src_tokens,\n        src_lengths: Optional[torch.Tensor] = None,\n        return_all_hiddens: bool = False,\n        token_embeddings: Optional[torch.Tensor] = None,\n    ):\n        \"\"\"\n        Args:\n            src_tokens (LongTensor): tokens in the source language of shape\n                `(batch, src_len)`\n            src_lengths (torch.LongTensor): lengths of each source sentence of\n                shape `(batch)`\n            return_all_hiddens (bool, optional): also return all of the\n                intermediate hidden states (default: False).\n            token_embeddings (torch.Tensor, optional): precomputed embeddings\n                default `None` will recompute embeddings\n\n        Returns:\n            dict:\n                - **encoder_out** (Tensor): the last encoder layer's output of\n                  shape `(src_len, batch, embed_dim)`\n                - **encoder_padding_mask** (ByteTensor): the positions of\n                  padding elements of shape `(batch, src_len)`\n                - **encoder_embedding** (Tensor): the (scaled) embedding lookup\n                  of shape `(batch, src_len, embed_dim)`\n                - **encoder_states** (List[Tensor]): all intermediate\n                  hidden states of shape `(src_len, batch, embed_dim)`.\n                  Only populated if *return_all_hiddens* is True.\n        \"\"\"\n        # compute padding mask\n        encoder_padding_mask = src_tokens.eq(self.padding_idx)\n        has_pads = (\n            torch.tensor(src_tokens.device.type == \"xla\") or encoder_padding_mask.any()\n        )\n        # Torchscript doesn't handle bool Tensor correctly, so we need to work around.\n        if torch.jit.is_scripting():\n            has_pads = torch.tensor(1) if has_pads else torch.tensor(0)\n\n        x, encoder_embedding = self.forward_embedding(src_tokens, token_embeddings)\n\n        # account for padding while computing the representation\n        x = x * (\n            1 - encoder_padding_mask.unsqueeze(-1).type_as(x) * has_pads.type_as(x)\n        )\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        encoder_states = []\n        fc_results = []\n\n        if return_all_hiddens:\n            encoder_states.append(x)\n\n        # encoder layers\n        for layer in self.layers:\n            lr = layer(\n                x, encoder_padding_mask=encoder_padding_mask if has_pads else None\n            )\n\n            if isinstance(lr, tuple) and len(lr) == 2:\n                x, fc_result = lr\n            else:\n                x = lr\n                fc_result = None\n\n            if return_all_hiddens and not torch.jit.is_scripting():\n                assert encoder_states is not None\n                encoder_states.append(x)\n                fc_results.append(fc_result)\n\n        if self.layer_norm is not None:\n            x = self.layer_norm(x)\n\n        # The Pytorch Mobile lite interpreter does not supports returning NamedTuple in\n        # `forward` so we use a dictionary instead.\n        # TorchScript does not support mixed values so the values are all lists.\n        # The empty list is equivalent to None.\n        src_lengths = (\n            src_tokens.ne(self.padding_idx)\n            .sum(dim=1, dtype=torch.int32)\n            .reshape(-1, 1)\n            .contiguous()\n        )\n        return {\n            \"encoder_out\": [x],  # T x B x C\n            \"encoder_padding_mask\": [encoder_padding_mask],  # B x T\n            \"encoder_embedding\": [encoder_embedding],  # B x T x C\n            \"encoder_states\": encoder_states,  # List[T x B x C]\n            \"fc_results\": fc_results,  # List[T x B x C]\n            \"src_tokens\": [],\n            \"src_lengths\": [src_lengths],\n        }\n\n    @torch.jit.export\n    def reorder_encoder_out(self, encoder_out: Dict[str, List[Tensor]], new_order):\n        \"\"\"\n        Reorder encoder output according to *new_order*.\n\n        Args:\n            encoder_out: output from the ``forward()`` method\n            new_order (LongTensor): desired order\n\n        Returns:\n            *encoder_out* rearranged according to *new_order*\n        \"\"\"\n        if len(encoder_out[\"encoder_out\"]) == 0:\n            new_encoder_out = []\n        else:\n            new_encoder_out = [encoder_out[\"encoder_out\"][0].index_select(1, new_order)]\n        if len(encoder_out[\"encoder_padding_mask\"]) == 0:\n            new_encoder_padding_mask = []\n        else:\n            new_encoder_padding_mask = [\n                encoder_out[\"encoder_padding_mask\"][0].index_select(0, new_order)\n            ]\n        if len(encoder_out[\"encoder_embedding\"]) == 0:\n            new_encoder_embedding = []\n        else:\n            new_encoder_embedding = [\n                encoder_out[\"encoder_embedding\"][0].index_select(0, new_order)\n            ]\n\n        if len(encoder_out[\"src_tokens\"]) == 0:\n            src_tokens = []\n        else:\n            src_tokens = [(encoder_out[\"src_tokens\"][0]).index_select(0, new_order)]\n\n        if len(encoder_out[\"src_lengths\"]) == 0:\n            src_lengths = []\n        else:\n            src_lengths = [(encoder_out[\"src_lengths\"][0]).index_select(0, new_order)]\n\n        encoder_states = encoder_out[\"encoder_states\"]\n        if len(encoder_states) > 0:\n            for idx, state in enumerate(encoder_states):\n                encoder_states[idx] = state.index_select(1, new_order)\n\n        return {\n            \"encoder_out\": new_encoder_out,  # T x B x C\n            \"encoder_padding_mask\": new_encoder_padding_mask,  # B x T\n            \"encoder_embedding\": new_encoder_embedding,  # B x T x C\n            \"encoder_states\": encoder_states,  # List[T x B x C]\n            \"src_tokens\": src_tokens,  # B x T\n            \"src_lengths\": src_lengths,  # B x 1\n        }\n\n    @torch.jit.export\n    def _reorder_encoder_out(self, encoder_out: Dict[str, List[Tensor]], new_order):\n        \"\"\"Dummy re-order function for beamable enc-dec attention\"\"\"\n        return encoder_out\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        if self.embed_positions is None:\n            return self.max_source_positions\n        return min(self.max_source_positions, self.embed_positions.max_positions)\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        \"\"\"Upgrade a (possibly old) state dict for new versions of fairseq.\"\"\"\n        for i in range(self.num_layers):\n            # update layer norms\n            self.layers[i].upgrade_state_dict_named(\n                state_dict, \"{}.layers.{}\".format(name, i)\n            )\n\n        version_key = \"{}.version\".format(name)\n        if utils.item(state_dict.get(version_key, torch.Tensor([1]))[0]) < 2:\n            # earlier checkpoints did not normalize after the stack of layers\n            self.layer_norm = None\n            self.normalize = False\n            state_dict[version_key] = torch.Tensor([1])\n        return state_dict\n\n\nclass TransformerEncoder(TransformerEncoderBase):\n    def __init__(self, args, dictionary, embed_tokens, return_fc=False):\n        self.args = args\n        super().__init__(\n            TransformerConfig.from_namespace(args),\n            dictionary,\n            embed_tokens,\n            return_fc=return_fc,\n        )\n\n    def build_encoder_layer(self, args):\n        return super().build_encoder_layer(\n            TransformerConfig.from_namespace(args),\n        )\n"
  },
  {
    "path": "fairseq/models/transformer/transformer_legacy.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.dataclass.utils import gen_parser_from_dataclass\nfrom fairseq.models import (\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.transformer.transformer_config import (\n    TransformerConfig,\n    DEFAULT_MAX_SOURCE_POSITIONS,\n    DEFAULT_MAX_TARGET_POSITIONS,\n    DEFAULT_MIN_PARAMS_TO_WRAP,\n)\nfrom fairseq.models.transformer.transformer_base import (\n    TransformerModelBase,\n)\n\n\n@register_model(\"transformer\")\nclass TransformerModel(TransformerModelBase):\n    \"\"\"\n    This is the legacy implementation of the transformer model that\n    uses argparse for configuration.\n    \"\"\"\n\n    @classmethod\n    def hub_models(cls):\n        # fmt: off\n\n        def moses_subword(path):\n            return {\n                'path': path,\n                'tokenizer': 'moses',\n                'bpe': 'subword_nmt',\n            }\n\n        def moses_fastbpe(path):\n            return {\n                'path': path,\n                'tokenizer': 'moses',\n                'bpe': 'fastbpe',\n            }\n\n        def spm(path):\n            return {\n                'path': path,\n                'bpe': 'sentencepiece',\n                'tokenizer': 'space',\n            }\n\n        return {\n            'transformer.wmt14.en-fr': moses_subword('https://dl.fbaipublicfiles.com/fairseq/models/wmt14.en-fr.joined-dict.transformer.tar.bz2'),\n            'transformer.wmt16.en-de': 'https://dl.fbaipublicfiles.com/fairseq/models/wmt16.en-de.joined-dict.transformer.tar.bz2',\n            'transformer.wmt18.en-de': moses_subword('https://dl.fbaipublicfiles.com/fairseq/models/wmt18.en-de.ensemble.tar.gz'),\n            'transformer.wmt19.en-de': moses_fastbpe('https://dl.fbaipublicfiles.com/fairseq/models/wmt19.en-de.joined-dict.ensemble.tar.gz'),\n            'transformer.wmt19.en-ru': moses_fastbpe('https://dl.fbaipublicfiles.com/fairseq/models/wmt19.en-ru.ensemble.tar.gz'),\n            'transformer.wmt19.de-en': moses_fastbpe('https://dl.fbaipublicfiles.com/fairseq/models/wmt19.de-en.joined-dict.ensemble.tar.gz'),\n            'transformer.wmt19.ru-en': moses_fastbpe('https://dl.fbaipublicfiles.com/fairseq/models/wmt19.ru-en.ensemble.tar.gz'),\n            'transformer.wmt19.en-de.single_model': moses_fastbpe('https://dl.fbaipublicfiles.com/fairseq/models/wmt19.en-de.joined-dict.single_model.tar.gz'),\n            'transformer.wmt19.en-ru.single_model': moses_fastbpe('https://dl.fbaipublicfiles.com/fairseq/models/wmt19.en-ru.single_model.tar.gz'),\n            'transformer.wmt19.de-en.single_model': moses_fastbpe('https://dl.fbaipublicfiles.com/fairseq/models/wmt19.de-en.joined-dict.single_model.tar.gz'),\n            'transformer.wmt19.ru-en.single_model': moses_fastbpe('https://dl.fbaipublicfiles.com/fairseq/models/wmt19.ru-en.single_model.tar.gz'),\n            'transformer.wmt20.en-ta': spm('https://dl.fbaipublicfiles.com/fairseq/models/wmt20.en-ta.single.tar.gz'),\n            'transformer.wmt20.en-iu.news': spm('https://dl.fbaipublicfiles.com/fairseq/models/wmt20.en-iu.news.single.tar.gz'),\n            'transformer.wmt20.en-iu.nh': spm('https://dl.fbaipublicfiles.com/fairseq/models/wmt20.en-iu.nh.single.tar.gz'),\n            'transformer.wmt20.ta-en': spm('https://dl.fbaipublicfiles.com/fairseq/models/wmt20.ta-en.single.tar.gz'),\n            'transformer.wmt20.iu-en.news': spm('https://dl.fbaipublicfiles.com/fairseq/models/wmt20.iu-en.news.single.tar.gz'),\n            'transformer.wmt20.iu-en.nh': spm('https://dl.fbaipublicfiles.com/fairseq/models/wmt20.iu-en.nh.single.tar.gz'),\n            'transformer.flores101.mm100.615M': spm('https://dl.fbaipublicfiles.com/flores101/pretrained_models/flores101_mm100_615M.tar.gz'),\n            'transformer.flores101.mm100.175M': spm('https://dl.fbaipublicfiles.com/flores101/pretrained_models/flores101_mm100_175M.tar.gz'),\n        }\n        # fmt: on\n\n    def __init__(self, args, encoder, decoder):\n        cfg = TransformerConfig.from_namespace(args)\n        super().__init__(cfg, encoder, decoder)\n        self.args = args\n\n    @classmethod\n    def add_args(cls, parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        # we want to build the args recursively in this case.\n        # do not set defaults so that settings defaults from various architectures still works\n        gen_parser_from_dataclass(\n            parser, TransformerConfig(), delete_default=True, with_prefix=\"\"\n        )\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        # make sure all arguments are present in older models\n        base_architecture(args)\n\n        if args.encoder_layers_to_keep:\n            args.encoder_layers = len(args.encoder_layers_to_keep.split(\",\"))\n        if args.decoder_layers_to_keep:\n            args.decoder_layers = len(args.decoder_layers_to_keep.split(\",\"))\n\n        if getattr(args, \"max_source_positions\", None) is None:\n            args.max_source_positions = DEFAULT_MAX_SOURCE_POSITIONS\n        if getattr(args, \"max_target_positions\", None) is None:\n            args.max_target_positions = DEFAULT_MAX_TARGET_POSITIONS\n\n        src_dict, tgt_dict = task.source_dictionary, task.target_dictionary\n\n        if args.share_all_embeddings:\n            if src_dict != tgt_dict:\n                raise ValueError(\"--share-all-embeddings requires a joined dictionary\")\n            if args.encoder_embed_dim != args.decoder_embed_dim:\n                raise ValueError(\n                    \"--share-all-embeddings requires --encoder-embed-dim to match --decoder-embed-dim\"\n                )\n            if args.decoder_embed_path and (\n                args.decoder_embed_path != args.encoder_embed_path\n            ):\n                raise ValueError(\n                    \"--share-all-embeddings not compatible with --decoder-embed-path\"\n                )\n            args.share_decoder_input_output_embed = True\n\n        if getattr(args, \"offload_activations\", False):\n            args.checkpoint_activations = True  # offloading implies checkpointing\n\n        if not args.share_all_embeddings:\n            args.min_params_to_wrap = getattr(\n                args, \"min_params_to_wrap\", DEFAULT_MIN_PARAMS_TO_WRAP\n            )\n        cfg = TransformerConfig.from_namespace(args)\n        return super().build_model(cfg, task)\n\n    @classmethod\n    def build_embedding(cls, args, dictionary, embed_dim, path=None):\n        return super().build_embedding(\n            TransformerConfig.from_namespace(args), dictionary, embed_dim, path\n        )\n\n    @classmethod\n    def build_encoder(cls, args, src_dict, embed_tokens):\n        return super().build_encoder(\n            TransformerConfig.from_namespace(args), src_dict, embed_tokens\n        )\n\n    @classmethod\n    def build_decoder(cls, args, tgt_dict, embed_tokens):\n        return super().build_decoder(\n            TransformerConfig.from_namespace(args), tgt_dict, embed_tokens\n        )\n\n\n# architectures\n\n\n@register_model_architecture(\"transformer\", \"transformer_tiny\")\ndef tiny_architecture(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 64)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 64)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 2)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 2)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 2)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 2)\n    return base_architecture(args)\n\n\n@register_model_architecture(\"transformer\", \"transformer\")\ndef base_architecture(args):\n    args.encoder_embed_path = getattr(args, \"encoder_embed_path\", None)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 2048)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 6)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 8)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.encoder_learned_pos = getattr(args, \"encoder_learned_pos\", False)\n\n    args.decoder_embed_path = getattr(args, \"decoder_embed_path\", None)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", args.encoder_embed_dim)\n    args.decoder_ffn_embed_dim = getattr(\n        args, \"decoder_ffn_embed_dim\", args.encoder_ffn_embed_dim\n    )\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 8)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", False)\n    args.decoder_learned_pos = getattr(args, \"decoder_learned_pos\", False)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.0)\n    args.activation_dropout = getattr(args, \"activation_dropout\", 0.0)\n    args.activation_fn = getattr(args, \"activation_fn\", \"relu\")\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.adaptive_softmax_cutoff = getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.share_decoder_input_output_embed = getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.share_all_embeddings = getattr(args, \"share_all_embeddings\", False)\n    args.merge_src_tgt_embed = getattr(args, \"merge_src_tgt_embed\", False)\n    args.no_token_positional_embeddings = getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.adaptive_input = getattr(args, \"adaptive_input\", False)\n    args.no_cross_attention = getattr(args, \"no_cross_attention\", False)\n    args.cross_self_attention = getattr(args, \"cross_self_attention\", False)\n\n    args.decoder_output_dim = getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = getattr(args, \"decoder_input_dim\", args.decoder_embed_dim)\n\n    args.no_scale_embedding = getattr(args, \"no_scale_embedding\", False)\n    args.layernorm_embedding = getattr(args, \"layernorm_embedding\", False)\n    args.tie_adaptive_weights = getattr(args, \"tie_adaptive_weights\", False)\n    args.checkpoint_activations = getattr(args, \"checkpoint_activations\", False)\n    args.offload_activations = getattr(args, \"offload_activations\", False)\n    if args.offload_activations:\n        args.checkpoint_activations = True\n    args.encoder_layers_to_keep = getattr(args, \"encoder_layers_to_keep\", None)\n    args.decoder_layers_to_keep = getattr(args, \"decoder_layers_to_keep\", None)\n    args.encoder_layerdrop = getattr(args, \"encoder_layerdrop\", 0)\n    args.decoder_layerdrop = getattr(args, \"decoder_layerdrop\", 0)\n    args.quant_noise_pq = getattr(args, \"quant_noise_pq\", 0)\n    args.quant_noise_pq_block_size = getattr(args, \"quant_noise_pq_block_size\", 8)\n    args.quant_noise_scalar = getattr(args, \"quant_noise_scalar\", 0)\n\n\n@register_model_architecture(\"transformer\", \"transformer_iwslt_de_en\")\ndef transformer_iwslt_de_en(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 512)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 1024)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 4)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 6)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 1024)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 4)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 6)\n    base_architecture(args)\n\n\n@register_model_architecture(\"transformer\", \"transformer_wmt_en_de\")\ndef transformer_wmt_en_de(args):\n    base_architecture(args)\n\n\n# parameters used in the \"Attention Is All You Need\" paper (Vaswani et al., 2017)\n@register_model_architecture(\"transformer\", \"transformer_vaswani_wmt_en_de_big\")\ndef transformer_vaswani_wmt_en_de_big(args):\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 4096)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 16)\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", False)\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 1024)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 4096)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 16)\n    args.dropout = getattr(args, \"dropout\", 0.3)\n    base_architecture(args)\n\n\n@register_model_architecture(\"transformer\", \"transformer_vaswani_wmt_en_fr_big\")\ndef transformer_vaswani_wmt_en_fr_big(args):\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    transformer_vaswani_wmt_en_de_big(args)\n\n\n@register_model_architecture(\"transformer\", \"transformer_wmt_en_de_big\")\ndef transformer_wmt_en_de_big(args):\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.1)\n    transformer_vaswani_wmt_en_de_big(args)\n\n\n# default parameters used in tensor2tensor implementation\n@register_model_architecture(\"transformer\", \"transformer_wmt_en_de_big_t2t\")\ndef transformer_wmt_en_de_big_t2t(args):\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", True)\n    args.decoder_normalize_before = getattr(args, \"decoder_normalize_before\", True)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.1)\n    args.activation_dropout = getattr(args, \"activation_dropout\", 0.1)\n    transformer_vaswani_wmt_en_de_big(args)\n"
  },
  {
    "path": "fairseq/models/transformer_align.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.transformer import (\n    TransformerModel,\n    base_architecture,\n    transformer_wmt_en_de_big,\n)\n\n\n@register_model(\"transformer_align\")\nclass TransformerAlignModel(TransformerModel):\n    \"\"\"\n    See \"Jointly Learning to Align and Translate with Transformer\n    Models\" (Garg et al., EMNLP 2019).\n    \"\"\"\n\n    def __init__(self, encoder, decoder, args):\n        super().__init__(args, encoder, decoder)\n        self.alignment_heads = args.alignment_heads\n        self.alignment_layer = args.alignment_layer\n        self.full_context_alignment = args.full_context_alignment\n\n    @staticmethod\n    def add_args(parser):\n        # fmt: off\n        super(TransformerAlignModel, TransformerAlignModel).add_args(parser)\n        parser.add_argument('--alignment-heads', type=int, metavar='D',\n                            help='Number of cross attention heads per layer to supervised with alignments')\n        parser.add_argument('--alignment-layer', type=int, metavar='D',\n                            help='Layer number which has to be supervised. 0 corresponding to the bottommost layer.')\n        parser.add_argument('--full-context-alignment', action='store_true',\n                            help='Whether or not alignment is supervised conditioned on the full target context.')\n        # fmt: on\n\n    @classmethod\n    def build_model(cls, args, task):\n        # set any default arguments\n        transformer_align(args)\n\n        transformer_model = TransformerModel.build_model(args, task)\n        return TransformerAlignModel(\n            transformer_model.encoder, transformer_model.decoder, args\n        )\n\n    def forward(self, src_tokens, src_lengths, prev_output_tokens):\n        encoder_out = self.encoder(src_tokens, src_lengths)\n        return self.forward_decoder(prev_output_tokens, encoder_out)\n\n    def forward_decoder(\n        self,\n        prev_output_tokens,\n        encoder_out=None,\n        incremental_state=None,\n        features_only=False,\n        **extra_args,\n    ):\n        attn_args = {\n            \"alignment_layer\": self.alignment_layer,\n            \"alignment_heads\": self.alignment_heads,\n        }\n        decoder_out = self.decoder(prev_output_tokens, encoder_out, **attn_args)\n\n        if self.full_context_alignment:\n            attn_args[\"full_context_alignment\"] = self.full_context_alignment\n            _, alignment_out = self.decoder(\n                prev_output_tokens,\n                encoder_out,\n                features_only=True,\n                **attn_args,\n                **extra_args,\n            )\n            decoder_out[1][\"attn\"] = alignment_out[\"attn\"]\n\n        return decoder_out\n\n\n@register_model_architecture(\"transformer_align\", \"transformer_align\")\ndef transformer_align(args):\n    args.alignment_heads = getattr(args, \"alignment_heads\", 1)\n    args.alignment_layer = getattr(args, \"alignment_layer\", 4)\n    args.full_context_alignment = getattr(args, \"full_context_alignment\", False)\n    base_architecture(args)\n\n\n@register_model_architecture(\"transformer_align\", \"transformer_wmt_en_de_big_align\")\ndef transformer_wmt_en_de_big_align(args):\n    args.alignment_heads = getattr(args, \"alignment_heads\", 1)\n    args.alignment_layer = getattr(args, \"alignment_layer\", 4)\n    transformer_wmt_en_de_big(args)\n"
  },
  {
    "path": "fairseq/models/transformer_from_pretrained_xlm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nfrom typing import Any, Dict\n\nfrom fairseq import checkpoint_utils\nfrom fairseq.data.legacy.masked_lm_dictionary import MaskedLMDictionary\nfrom fairseq.models import register_model, register_model_architecture\nfrom fairseq.models.transformer import (\n    TransformerDecoder,\n    TransformerEncoder,\n    TransformerModel,\n    base_architecture as transformer_base_architecture,\n)\n\n\n@register_model(\"transformer_from_pretrained_xlm\")\nclass TransformerFromPretrainedXLMModel(TransformerModel):\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add model-specific arguments to the parser.\"\"\"\n        TransformerModel.add_args(parser)\n        parser.add_argument(\n            \"--pretrained-xlm-checkpoint\",\n            type=str,\n            metavar=\"STR\",\n            help=\"XLM model to use for initializing transformer encoder and/or decoder\",\n        )\n        parser.add_argument(\n            \"--init-encoder-only\",\n            action=\"store_true\",\n            help=\"if set, don't load the XLM weights and embeddings into decoder\",\n        )\n        parser.add_argument(\n            \"--init-decoder-only\",\n            action=\"store_true\",\n            help=\"if set, don't load the XLM weights and embeddings into encoder\",\n        )\n\n    @classmethod\n    def build_model(self, args, task, cls_dictionary=MaskedLMDictionary):\n        assert hasattr(args, \"pretrained_xlm_checkpoint\"), (\n            \"You must specify a path for --pretrained-xlm-checkpoint to use \"\n            \"--arch transformer_from_pretrained_xlm\"\n        )\n        assert isinstance(task.source_dictionary, cls_dictionary) and isinstance(\n            task.target_dictionary, cls_dictionary\n        ), (\n            \"You should use a MaskedLMDictionary when using --arch \"\n            \"transformer_from_pretrained_xlm because the pretrained XLM model \"\n            \"was trained using data binarized with MaskedLMDictionary. \"\n            \"For translation, you may want to use --task \"\n            \"translation_from_pretrained_xlm\"\n        )\n        assert not (\n            getattr(args, \"init_encoder_only\", False)\n            and getattr(args, \"init_decoder_only\", False)\n        ), \"Only one of --init-encoder-only and --init-decoder-only can be set.\"\n        return super().build_model(args, task)\n\n    @classmethod\n    def build_encoder(cls, args, src_dict, embed_tokens):\n        return TransformerEncoderFromPretrainedXLM(args, src_dict, embed_tokens)\n\n    @classmethod\n    def build_decoder(cls, args, tgt_dict, embed_tokens):\n        return TransformerDecoderFromPretrainedXLM(args, tgt_dict, embed_tokens)\n\n\ndef upgrade_state_dict_with_xlm_weights(\n    state_dict: Dict[str, Any], pretrained_xlm_checkpoint: str\n) -> Dict[str, Any]:\n    \"\"\"\n    Load XLM weights into a Transformer encoder or decoder model.\n\n    Args:\n        state_dict: state dict for either TransformerEncoder or\n            TransformerDecoder\n        pretrained_xlm_checkpoint: checkpoint to load XLM weights from\n\n    Raises:\n        AssertionError: If architecture (num layers, attention heads, etc.)\n            does not match between the current Transformer encoder or\n            decoder and the pretrained_xlm_checkpoint\n    \"\"\"\n    if not os.path.exists(pretrained_xlm_checkpoint):\n        raise IOError(\"Model file not found: {}\".format(pretrained_xlm_checkpoint))\n\n    state = checkpoint_utils.load_checkpoint_to_cpu(pretrained_xlm_checkpoint)\n    xlm_state_dict = state[\"model\"]\n    for key in xlm_state_dict.keys():\n\n        for search_key in [\"embed_tokens\", \"embed_positions\", \"layers\"]:\n            if search_key in key:\n                subkey = key[key.find(search_key) :]\n                assert subkey in state_dict, (\n                    \"{} Transformer encoder / decoder \"\n                    \"state_dict does not contain {}. Cannot \"\n                    \"load {} from pretrained XLM checkpoint \"\n                    \"{} into Transformer.\".format(\n                        str(state_dict.keys()), subkey, key, pretrained_xlm_checkpoint\n                    )\n                )\n\n                state_dict[subkey] = xlm_state_dict[key]\n    return state_dict\n\n\nclass TransformerEncoderFromPretrainedXLM(TransformerEncoder):\n    def __init__(self, args, dictionary, embed_tokens):\n        super().__init__(args, dictionary, embed_tokens)\n        if getattr(args, \"init_decoder_only\", False):\n            # Don't load XLM weights for encoder if --init-decoder-only\n            return\n\n        assert hasattr(args, \"pretrained_xlm_checkpoint\"), (\n            \"--pretrained-xlm-checkpoint must be specified to load Transformer \"\n            \"encoder from pretrained XLM\"\n        )\n        xlm_loaded_state_dict = upgrade_state_dict_with_xlm_weights(\n            state_dict=self.state_dict(),\n            pretrained_xlm_checkpoint=args.pretrained_xlm_checkpoint,\n        )\n        self.load_state_dict(xlm_loaded_state_dict, strict=True)\n\n\nclass TransformerDecoderFromPretrainedXLM(TransformerDecoder):\n    def __init__(self, args, dictionary, embed_tokens, no_encoder_attn=False):\n        super().__init__(args, dictionary, embed_tokens, no_encoder_attn)\n        if getattr(args, \"init_encoder_only\", False):\n            # Don't load XLM weights for decoder if --init-encoder-only\n            return\n        assert hasattr(args, \"pretrained_xlm_checkpoint\"), (\n            \"--pretrained-xlm-checkpoint must be specified to load Transformer \"\n            \"decoder from pretrained XLM\"\n        )\n\n        xlm_loaded_state_dict = upgrade_state_dict_with_xlm_weights(\n            state_dict=self.state_dict(),\n            pretrained_xlm_checkpoint=args.pretrained_xlm_checkpoint,\n        )\n        self.load_state_dict(xlm_loaded_state_dict, strict=True)\n\n\n@register_model_architecture(\n    \"transformer_from_pretrained_xlm\", \"transformer_from_pretrained_xlm\"\n)\ndef base_architecture(args):\n    transformer_base_architecture(args)\n"
  },
  {
    "path": "fairseq/models/transformer_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom dataclasses import dataclass, field\nfrom typing import Optional\n\nfrom omegaconf import II\n\nfrom fairseq import options, utils\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.models import (\n    FairseqLanguageModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.models.transformer import (\n    DEFAULT_MIN_PARAMS_TO_WRAP,\n    Embedding,\n    TransformerDecoder,\n)\nfrom fairseq.modules import AdaptiveInput, CharacterTokenEmbedder\nfrom fairseq.utils import safe_getattr, safe_hasattr\n\nDEFAULT_MAX_TARGET_POSITIONS = 1024\n\n\n@dataclass\nclass TransformerLanguageModelConfig(FairseqDataclass):\n    activation_fn: ChoiceEnum(utils.get_available_activation_fns()) = field(\n        default=\"relu\", metadata={\"help\": \"activation function to use\"}\n    )\n    dropout: float = field(default=0.1, metadata={\"help\": \"dropout probability\"})\n    attention_dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout probability for attention weights\"}\n    )\n    activation_dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout probability after activation in FFN.\"}\n    )\n    relu_dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout probability after activation in FFN.\"}\n    )\n    decoder_embed_dim: int = field(\n        default=512, metadata={\"help\": \"decoder embedding dimension\"}\n    )\n    decoder_output_dim: int = field(\n        default=512, metadata={\"help\": \"decoder output dimension\"}\n    )\n    decoder_input_dim: int = field(\n        default=512, metadata={\"help\": \"decoder input dimension\"}\n    )\n    decoder_ffn_embed_dim: int = field(\n        default=2048, metadata={\"help\": \"decoder embedding dimension for FFN\"}\n    )\n    decoder_layers: int = field(default=6, metadata={\"help\": \"num decoder layers\"})\n    decoder_attention_heads: int = field(\n        default=8, metadata={\"help\": \"num decoder attention heads\"}\n    )\n    decoder_normalize_before: bool = field(\n        default=False, metadata={\"help\": \"apply layernorm before each decoder block\"}\n    )\n    no_decoder_final_norm: bool = field(\n        default=False,\n        metadata={\"help\": \"don't add an extra layernorm after the last decoder block\"},\n    )\n    adaptive_softmax_cutoff: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"comma separated list of adaptive softmax cutoff points. \"\n            \"Must be used with adaptive_loss criterion\"\n        },\n    )\n    adaptive_softmax_dropout: float = field(\n        default=0,\n        metadata={\"help\": \"sets adaptive softmax dropout for the tail projections\"},\n    )\n    adaptive_softmax_factor: float = field(\n        default=4, metadata={\"help\": \"adaptive input factor\"}\n    )\n    no_token_positional_embeddings: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, disables positional embeddings (outside self attention)\"\n        },\n    )\n    share_decoder_input_output_embed: bool = field(\n        default=False, metadata={\"help\": \"share decoder input and output embeddings\"}\n    )\n    character_embeddings: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, uses character embedding convolutions to produce token embeddings\"\n        },\n    )\n    character_filters: str = field(\n        default=\"[(1, 64), (2, 128), (3, 192), (4, 256), (5, 256), (6, 256), (7, 256)]\",\n        metadata={\"help\": \"size of character embeddings\"},\n    )\n    character_embedding_dim: int = field(\n        default=4, metadata={\"help\": \"size of character embeddings\"}\n    )\n    char_embedder_highway_layers: int = field(\n        default=2,\n        metadata={\"help\": \"number of highway layers for character token embeddder\"},\n    )\n    adaptive_input: bool = field(\n        default=False, metadata={\"help\": \"if set, uses adaptive input\"}\n    )\n    adaptive_input_factor: float = field(\n        default=4, metadata={\"help\": \"adaptive input factor\"}\n    )\n    adaptive_input_cutoff: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"comma separated list of adaptive input cutoff points.\"},\n    )\n    tie_adaptive_weights: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, ties the weights of adaptive softmax and adaptive input\"\n        },\n    )\n    tie_adaptive_proj: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, ties the projection weights of adaptive softmax and adaptive input\"\n        },\n    )\n    decoder_learned_pos: bool = field(\n        default=False,\n        metadata={\"help\": \"use learned positional embeddings in the decoder\"},\n    )\n    layernorm_embedding: bool = field(\n        default=False, metadata={\"help\": \"add layernorm to embedding\"}\n    )\n    no_scale_embedding: bool = field(\n        default=False, metadata={\"help\": \"if True, dont scale embeddings\"}\n    )\n    checkpoint_activations: bool = field(\n        default=False, metadata={\"help\": \"checkpoint activations at each layer\"}\n    )\n    offload_activations: bool = field(\n        default=False,\n        metadata={\"help\": \"move checkpointed activations to CPU after they are used.\"},\n    )\n    # config for \"Reducing Transformer Depth on Demand with Structured Dropout\" (Fan et al., 2019)\n    decoder_layerdrop: float = field(\n        default=0.0, metadata={\"help\": \"LayerDrop probability for decoder\"}\n    )\n    decoder_layers_to_keep: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"which layers to *keep* when pruning as a comma-separated list\"\n        },\n    )\n    # config for Training with Quantization Noise for Extreme Model Compression ({Fan*, Stock*} et al., 2020)\n    quant_noise_pq: float = field(\n        default=0.0,\n        metadata={\"help\": \"iterative PQ quantization noise at training time\"},\n    )\n    quant_noise_pq_block_size: int = field(\n        default=8,\n        metadata={\"help\": \"block size of quantization noise at training time\"},\n    )\n    quant_noise_scalar: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"scalar quantization noise and scalar quantization at training time\"\n        },\n    )\n    # config for Fully Sharded Data Parallel (FSDP) training\n    min_params_to_wrap: int = field(\n        default=DEFAULT_MIN_PARAMS_TO_WRAP,\n        metadata={\n            \"help\": (\n                \"minimum number of params for a layer to be wrapped with FSDP() when \"\n                \"training with --ddp-backend=fully_sharded. Smaller values will \"\n                \"improve memory efficiency, but may make torch.distributed \"\n                \"communication less efficient due to smaller input sizes. This option \"\n                \"is set to 0 (i.e., always wrap) when --checkpoint-activations or \"\n                \"--offload-activations are passed.\"\n            )\n        },\n    )\n    # config for \"BASE Layers: Simplifying Training of Large, Sparse Models\"\n    base_layers: Optional[int] = field(\n        default=0, metadata={\"help\": \"number of BASE layers in total\"}\n    )\n    base_sublayers: Optional[int] = field(\n        default=1, metadata={\"help\": \"number of sublayers in each BASE layer\"}\n    )\n    base_shuffle: Optional[int] = field(\n        default=1,\n        metadata={\"help\": \"shuffle tokens between workers before computing assignment\"},\n    )\n    # NormFormer\n    scale_fc: Optional[bool] = field(\n        default=False,\n        metadata={\"help\": \"Insert LayerNorm between fully connected layers\"},\n    )\n    scale_attn: Optional[bool] = field(\n        default=False, metadata={\"help\": \"Insert LayerNorm after attention\"}\n    )\n    scale_heads: Optional[bool] = field(\n        default=False,\n        metadata={\"help\": \"Learn a scale coefficient for each attention head\"},\n    )\n    scale_resids: Optional[bool] = field(\n        default=False,\n        metadata={\"help\": \"Learn a scale coefficient for each residual connection\"},\n    )\n\n    # xFormers arguments\n    decoder_xformers_att_config: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"config for xFormers library attention, defined in xformers.components.attention.AttentionConfig\",\n        },\n    )\n\n    # options from other parts of the config\n    add_bos_token: bool = II(\"task.add_bos_token\")\n    tokens_per_sample: int = II(\"task.tokens_per_sample\")\n    max_target_positions: Optional[int] = II(\"task.max_target_positions\")\n    tpu: bool = II(\"common.tpu\")\n\n\n@register_model(\"transformer_lm\", dataclass=TransformerLanguageModelConfig)\nclass TransformerLanguageModel(FairseqLanguageModel):\n    @classmethod\n    def hub_models(cls):\n        def moses_fastbpe(path):\n            return {\"path\": path, \"tokenizer\": \"moses\", \"bpe\": \"fastbpe\"}\n\n        def spm(path):\n            return {\"path\": path, \"tokenizer\": \"space\", \"bpe\": \"sentencepiece\"}\n\n        return {\n            \"transformer_lm.gbw.adaptive_huge\": \"https://dl.fbaipublicfiles.com/fairseq/models/lm/adaptive_lm_gbw_huge.tar.bz2\",\n            \"transformer_lm.wiki103.adaptive\": \"https://dl.fbaipublicfiles.com/fairseq/models/lm/adaptive_lm_wiki103.v2.tar.bz2\",\n            \"transformer_lm.wmt19.en\": moses_fastbpe(\n                \"https://dl.fbaipublicfiles.com/fairseq/models/lm/wmt19.en.tar.bz2\"\n            ),\n            \"transformer_lm.wmt19.de\": moses_fastbpe(\n                \"https://dl.fbaipublicfiles.com/fairseq/models/lm/wmt19.de.tar.bz2\"\n            ),\n            \"transformer_lm.wmt19.ru\": moses_fastbpe(\n                \"https://dl.fbaipublicfiles.com/fairseq/models/lm/wmt19.ru.tar.bz2\"\n            ),\n            \"transformer_lm.wmt20.en\": spm(\n                \"https://dl.fbaipublicfiles.com/fairseq/models/lm/wmt20.en.tar.gz\"\n            ),\n            \"transformer_lm.wmt20.ta\": spm(\n                \"https://dl.fbaipublicfiles.com/fairseq/models/lm/wmt20.ta.tar.gz\"\n            ),\n            \"transformer_lm.wmt20.iu.news\": spm(\n                \"https://dl.fbaipublicfiles.com/fairseq/models/lm/wmt20.iu.news.tar.gz\"\n            ),\n            \"transformer_lm.wmt20.iu.nh\": spm(\n                \"https://dl.fbaipublicfiles.com/fairseq/models/lm/wmt20.iu.nh.tar.gz\"\n            ),\n        }\n\n    def __init__(self, decoder):\n        super().__init__(decoder)\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        if args.decoder_layers_to_keep:\n            args.decoder_layers = len(args.decoder_layers_to_keep.split(\",\"))\n\n        if safe_getattr(args, \"max_target_positions\", None) is None:\n            args.max_target_positions = safe_getattr(\n                args, \"tokens_per_sample\", DEFAULT_MAX_TARGET_POSITIONS\n            )\n\n        if args.character_embeddings:\n            embed_tokens = CharacterTokenEmbedder(\n                task.source_dictionary,\n                eval(args.character_filters),\n                args.character_embedding_dim,\n                args.decoder_embed_dim,\n                args.char_embedder_highway_layers,\n            )\n        elif args.adaptive_input:\n            embed_tokens = AdaptiveInput(\n                len(task.source_dictionary),\n                task.source_dictionary.pad(),\n                args.decoder_input_dim,\n                args.adaptive_input_factor,\n                args.decoder_embed_dim,\n                options.eval_str_list(args.adaptive_input_cutoff, type=int),\n                args.quant_noise_pq,\n                args.quant_noise_pq_block_size,\n            )\n        else:\n            embed_tokens = cls.build_embedding(\n                args, task.source_dictionary, args.decoder_input_dim\n            )\n\n        if args.tie_adaptive_weights:\n            assert args.adaptive_input\n            assert args.adaptive_input_factor == args.adaptive_softmax_factor\n            assert (\n                args.adaptive_softmax_cutoff == args.adaptive_input_cutoff\n            ), \"{} != {}\".format(\n                args.adaptive_softmax_cutoff, args.adaptive_input_cutoff\n            )\n            assert args.decoder_input_dim == args.decoder_output_dim\n\n        decoder = TransformerDecoder(\n            args, task.target_dictionary, embed_tokens, no_encoder_attn=True\n        )\n        return cls(decoder)\n\n    @classmethod\n    def build_embedding(cls, args, dictionary, embed_dim, path=None):\n        embed_tokens = Embedding(len(dictionary), embed_dim, dictionary.pad())\n        return embed_tokens\n\n\ndef base_lm_architecture(args):\n    # backward compatibility for older model checkpoints\n    if safe_hasattr(args, \"no_tie_adaptive_proj\"):\n        # previous models defined --no-tie-adaptive-proj, so use the existence of\n        # that option to determine if this is an \"old\" model checkpoint\n        args.no_decoder_final_norm = True  # old models always set this to True\n        if args.no_tie_adaptive_proj is False:\n            args.tie_adaptive_proj = True\n    if safe_hasattr(args, \"decoder_final_norm\"):\n        args.no_decoder_final_norm = not args.decoder_final_norm\n\n    args.dropout = safe_getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = safe_getattr(args, \"attention_dropout\", 0.0)\n\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 512)\n    args.decoder_ffn_embed_dim = safe_getattr(args, \"decoder_ffn_embed_dim\", 2048)\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 6)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 8)\n    args.adaptive_softmax_cutoff = safe_getattr(args, \"adaptive_softmax_cutoff\", None)\n    args.adaptive_softmax_dropout = safe_getattr(args, \"adaptive_softmax_dropout\", 0)\n    args.adaptive_softmax_factor = safe_getattr(args, \"adaptive_softmax_factor\", 4)\n    args.decoder_learned_pos = safe_getattr(args, \"decoder_learned_pos\", False)\n    args.activation_fn = safe_getattr(args, \"activation_fn\", \"relu\")\n\n    args.decoder_layerdrop = safe_getattr(args, \"decoder_layerdrop\", 0)\n    args.decoder_layers_to_keep = safe_getattr(args, \"decoder_layers_to_keep\", None)\n    args.quant_noise_pq = safe_getattr(args, \"quant_noise_pq\", 0)\n    args.quant_noise_pq_block_size = safe_getattr(args, \"quant_noise_pq_block_size\", 8)\n    args.quant_noise_scalar = safe_getattr(args, \"quant_noise_scalar\", 0)\n\n    args.base_layers = safe_getattr(args, \"base_layers\", 0)\n    args.base_sublayers = safe_getattr(args, \"base_sublayers\", 1)\n    args.base_shuffle = safe_getattr(args, \"base_shuffle\", False)\n\n    args.add_bos_token = safe_getattr(args, \"add_bos_token\", False)\n    args.no_token_positional_embeddings = safe_getattr(\n        args, \"no_token_positional_embeddings\", False\n    )\n    args.share_decoder_input_output_embed = safe_getattr(\n        args, \"share_decoder_input_output_embed\", False\n    )\n    args.character_embeddings = safe_getattr(args, \"character_embeddings\", False)\n\n    args.decoder_output_dim = safe_getattr(\n        args, \"decoder_output_dim\", args.decoder_embed_dim\n    )\n    args.decoder_input_dim = safe_getattr(\n        args, \"decoder_input_dim\", args.decoder_embed_dim\n    )\n\n    # Model training is not stable without this\n    args.decoder_normalize_before = True\n    args.no_decoder_final_norm = safe_getattr(args, \"no_decoder_final_norm\", False)\n\n    args.adaptive_input = safe_getattr(args, \"adaptive_input\", False)\n    args.adaptive_input_factor = safe_getattr(args, \"adaptive_input_factor\", 4)\n    args.adaptive_input_cutoff = safe_getattr(args, \"adaptive_input_cutoff\", None)\n\n    args.tie_adaptive_weights = safe_getattr(args, \"tie_adaptive_weights\", False)\n    args.tie_adaptive_proj = safe_getattr(args, \"tie_adaptive_proj\", False)\n\n    args.no_scale_embedding = safe_getattr(args, \"no_scale_embedding\", False)\n    args.layernorm_embedding = safe_getattr(args, \"layernorm_embedding\", False)\n    args.checkpoint_activations = safe_getattr(args, \"checkpoint_activations\", False)\n    args.offload_activations = safe_getattr(args, \"offload_activations\", False)\n    args.scale_fc = safe_getattr(args, \"scale_fc\", False)\n    args.scale_attn = safe_getattr(args, \"scale_attn\", False)\n    args.scale_heads = safe_getattr(args, \"scale_heads\", False)\n    args.scale_resids = safe_getattr(args, \"scale_resids\", False)\n    if args.offload_activations:\n        args.checkpoint_activations = True\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_big\")\ndef transformer_lm_big(args):\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 12)\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 1024)\n    args.decoder_ffn_embed_dim = safe_getattr(args, \"decoder_ffn_embed_dim\", 4096)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 16)\n    base_lm_architecture(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_wiki103\")\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_baevski_wiki103\")\ndef transformer_lm_baevski_wiki103(args):\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 16)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 8)\n    args.dropout = safe_getattr(args, \"dropout\", 0.3)\n    args.adaptive_input = safe_getattr(args, \"adaptive_input\", True)\n    args.tie_adaptive_weights = safe_getattr(args, \"tie_adaptive_weights\", True)\n    args.adaptive_input_cutoff = safe_getattr(\n        args, \"adaptive_input_cutoff\", \"20000,60000\"\n    )\n    args.adaptive_softmax_cutoff = safe_getattr(\n        args, \"adaptive_softmax_cutoff\", \"20000,60000\"\n    )\n    args.adaptive_softmax_dropout = safe_getattr(args, \"adaptive_softmax_dropout\", 0.2)\n    args.attention_dropout = safe_getattr(args, \"attention_dropout\", 0.1)\n    args.activation_dropout = safe_getattr(args, \"activation_dropout\", 0.1)\n    args.no_decoder_final_norm = safe_getattr(args, \"no_decoder_final_norm\", True)\n    args.tie_adaptive_proj = safe_getattr(args, \"tie_adaptive_proj\", True)\n    transformer_lm_big(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gbw\")\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_baevski_gbw\")\ndef transformer_lm_baevski_gbw(args):\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 512)\n    args.dropout = safe_getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = safe_getattr(args, \"attention_dropout\", 0.1)\n    args.no_decoder_final_norm = safe_getattr(args, \"no_decoder_final_norm\", True)\n    transformer_lm_big(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gpt\")\ndef transformer_lm_gpt(args):\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 768)\n    args.decoder_ffn_embed_dim = safe_getattr(args, \"decoder_ffn_embed_dim\", 3072)\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 12)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 12)\n    args.dropout = safe_getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = safe_getattr(args, \"attention_dropout\", 0.1)\n    args.activation_fn = safe_getattr(args, \"activation_fn\", \"gelu\")\n    base_lm_architecture(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gpt2_small\")\ndef transformer_lm_gpt2_small(args):\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 1024)\n    args.decoder_ffn_embed_dim = safe_getattr(args, \"decoder_ffn_embed_dim\", 4096)\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 24)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 16)\n    args.dropout = safe_getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = safe_getattr(args, \"attention_dropout\", 0.1)\n    args.activation_fn = safe_getattr(args, \"activation_fn\", \"gelu\")\n    base_lm_architecture(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gpt2_tiny\")\ndef transformer_lm_gpt2_tiny(args):\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 64)\n    args.decoder_ffn_embed_dim = safe_getattr(args, \"decoder_ffn_embed_dim\", 64)\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 2)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 1)\n    args.dropout = safe_getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = safe_getattr(args, \"attention_dropout\", 0.1)\n    args.activation_fn = safe_getattr(args, \"activation_fn\", \"gelu\")\n    base_lm_architecture(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gpt2_medium\")\ndef transformer_lm_gpt2_medium(args):\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 1280)\n    args.decoder_ffn_embed_dim = safe_getattr(args, \"decoder_ffn_embed_dim\", 5120)\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 36)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 20)\n    args.dropout = safe_getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = safe_getattr(args, \"attention_dropout\", 0.1)\n    args.activation_fn = safe_getattr(args, \"activation_fn\", \"gelu\")\n    base_lm_architecture(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gpt2_big\")\ndef transformer_lm_gpt2_big(args):\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 1600)\n    args.decoder_ffn_embed_dim = safe_getattr(args, \"decoder_ffn_embed_dim\", 6400)\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 48)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 25)\n    args.dropout = safe_getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = safe_getattr(args, \"attention_dropout\", 0.1)\n    args.activation_fn = safe_getattr(args, \"activation_fn\", \"gelu\")\n    base_lm_architecture(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gpt2_big_wide\")\ndef transformer_lm_gpt2_big_wide(args):\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 2048)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 8192)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 24)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 32)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.1)\n    args.activation_fn = getattr(args, \"activation_fn\", \"gelu\")\n    base_lm_architecture(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gpt2_bigger\")\ndef transformer_lm_gpt2_bigger(args):\n    args.decoder_embed_dim = getattr(args, \"decoder_embed_dim\", 2048)\n    args.decoder_ffn_embed_dim = getattr(args, \"decoder_ffn_embed_dim\", 8192)\n    args.decoder_layers = getattr(args, \"decoder_layers\", 48)\n    args.decoder_attention_heads = getattr(args, \"decoder_attention_heads\", 32)\n    args.dropout = getattr(args, \"dropout\", 0.1)\n    args.attention_dropout = getattr(args, \"attention_dropout\", 0.1)\n    args.activation_fn = getattr(args, \"activation_fn\", \"gelu\")\n    base_lm_architecture(args)\n\n\ndef base_gpt3_architecture(args):\n    args.decoder_input_dim = args.decoder_embed_dim\n    args.decoder_output_dim = args.decoder_embed_dim\n    args.decoder_ffn_embed_dim = safe_getattr(\n        args, \"decoder_ffn_embed_dim\", args.decoder_embed_dim * 4\n    )\n    # GPT-3 used learned positional embeddings, rather than sinusoidal\n    args.decoder_learned_pos = safe_getattr(args, \"decoder_learned_pos\", True)\n    args.dropout = safe_getattr(args, \"dropout\", 0.0)\n    args.attention_dropout = safe_getattr(args, \"attention_dropout\", 0.0)\n    args.activation_fn = safe_getattr(args, \"activation_fn\", \"gelu\")\n    args.share_decoder_input_output_embed = True\n    base_lm_architecture(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gpt3_small\")\ndef transformer_lm_gpt3_small(args):\n    # 125M params\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 12)\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 768)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 12)\n    base_gpt3_architecture(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gpt3_medium\")\ndef transformer_lm_gpt3_medium(args):\n    # 350M params\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 24)\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 1024)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 16)\n    base_gpt3_architecture(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gpt3_large\")\ndef transformer_lm_gpt3_large(args):\n    # 760M params\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 24)\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 1536)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 16)\n    base_gpt3_architecture(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gpt3_xl\")\ndef transformer_lm_gpt3_xl(args):\n    # 1.3B params\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 24)\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 2048)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 32)\n    base_gpt3_architecture(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gpt3_2_7\")\ndef transformer_lm_gpt3_2_7(args):\n    # 2.7B params\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 32)\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 2560)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 32)\n    base_gpt3_architecture(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gpt3_6_7\")\ndef transformer_lm_gpt3_6_7(args):\n    # 6.7B params\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 32)\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 4096)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 32)\n    base_gpt3_architecture(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gpt3_13\")\ndef transformer_lm_gpt3_13(args):\n    # 13B params\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 40)\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 5120)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 40)\n    base_gpt3_architecture(args)\n\n\n@register_model_architecture(\"transformer_lm\", \"transformer_lm_gpt3_175\")\ndef transformer_lm_gpt3_175(args):\n    # 175B params\n    args.decoder_layers = safe_getattr(args, \"decoder_layers\", 96)\n    args.decoder_embed_dim = safe_getattr(args, \"decoder_embed_dim\", 12288)\n    args.decoder_attention_heads = safe_getattr(args, \"decoder_attention_heads\", 96)\n    base_gpt3_architecture(args)\n"
  },
  {
    "path": "fairseq/models/transformer_ulm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom dataclasses import dataclass, field\nfrom fairseq.models.fairseq_decoder import FairseqDecoder\nimport numpy as np\nfrom typing import Optional, Dict, Any, List\nimport torch\nfrom torch import nn\nfrom fairseq.data.data_utils import compute_mask_indices\nfrom fairseq.dataclass import ChoiceEnum\nfrom fairseq.models import (\n    FairseqLanguageModel,\n    register_model,\n    register_model_architecture,\n)\nfrom fairseq.tasks.speech_ulm_task import SpeechUnitLanguageModelingTask\nfrom fairseq.models.transformer import Embedding, TransformerDecoder, Linear\nfrom fairseq.models.transformer_lm import TransformerLanguageModelConfig\nfrom torch import Tensor\n\n\nDEFAULT_MAX_TARGET_POSITIONS = 1024\nMASKING_DISTRIBUTION_CHOICES = ChoiceEnum([\"static\", \"uniform\", \"normal\", \"poisson\"])\n\n\n@dataclass\nclass SpeechUnitLanguageModelConfig(TransformerLanguageModelConfig):\n    mask_unit_seg_prob: float = field(\n        default=0.0, metadata={\"help\": \"probability to mask a segment of unit sequence\"}\n    )\n    mask_unit_seg_leng: int = field(\n        default=5, metadata={\"help\": \"length of unit segment mask\"}\n    )\n    mask_unit_seg_type: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\", metadata={\"help\": \"how to choose unit mask length\"}\n    )\n\n    mask_dur_prob: float = field(\n        default=0.0, metadata={\"help\": \"probability to mask entire duration sequence\"}\n    )\n    mask_dur_seg_prob: float = field(\n        default=0.0,\n        metadata={\"help\": \"probability to mask a segment of duration sequence\"},\n    )\n    mask_dur_seg_leng: int = field(\n        default=5, metadata={\"help\": \"length of duration segment mask\"}\n    )\n    mask_dur_seg_type: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\", metadata={\"help\": \"how to choose duration mask length\"}\n    )\n\n    mask_f0_prob: float = field(\n        default=0.0, metadata={\"help\": \"probability to mask entire duration sequence\"}\n    )\n    mask_f0_seg_prob: float = field(\n        default=0.0, metadata={\"help\": \"probability to mask a segment of f0 sequence\"}\n    )\n    mask_f0_seg_leng: int = field(\n        default=5, metadata={\"help\": \"length of f0 segment mask\"}\n    )\n    mask_f0_seg_type: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\", metadata={\"help\": \"how to choose f0 mask length\"}\n    )\n\n\n@register_model(\"transformer_ulm\", dataclass=SpeechUnitLanguageModelConfig)\nclass TransformerUnitLanguageModel(FairseqLanguageModel):\n    def __init__(\n        self,\n        cfg: SpeechUnitLanguageModelConfig,\n        task: SpeechUnitLanguageModelingTask,\n        decoder: FairseqDecoder,\n    ):\n        super().__init__(decoder)\n        self.cfg = cfg\n\n        self.channel_names = task.channel_names\n        self.channel_sizes = task.channel_sizes\n\n        self.unit_mask_val = task.source_dictionary.unk()\n        self.dur_mask_val = (\n            task.source_duration_dictionary.unk() if task.cfg.discrete_duration else 0\n        )\n        self.f0_mask_val = (\n            task.source_f0_dictionary.unk() if task.cfg.discrete_f0 else 0\n        )\n\n        self.ignore_duration_input = task.cfg.ignore_duration_input\n        self.ignore_f0_input = task.cfg.ignore_f0_input\n\n    @classmethod\n    def build_model(cls, args, task):\n        base_ulm_architecture(args)\n\n        if getattr(args, \"max_target_positions\", None) is None:\n            args.max_target_positions = getattr(\n                args, \"tokens_per_sample\", DEFAULT_MAX_TARGET_POSITIONS\n            )\n\n        embed_tokens = Embedding(\n            len(task.source_dictionary),\n            args.decoder_input_dim,\n            padding_idx=task.source_dictionary.pad(),\n        )\n        embed_duration = None\n        if task.cfg.discrete_duration:\n            embed_duration = Embedding(\n                len(task.source_duration_dictionary),\n                args.decoder_input_dim,\n                padding_idx=0,  # duration uses 0 for padding\n            )\n        embed_f0 = None\n        if task.cfg.discrete_f0:\n            embed_f0 = Embedding(\n                len(task.source_f0_dictionary),\n                args.decoder_input_dim,\n                padding_idx=task.source_f0_dictionary.pad(),\n            )\n\n        decoder = MultiStreamTransformerDecoder(\n            args,\n            task.target_dictionary,\n            embed_tokens,\n            [embed_duration, embed_f0],\n            no_encoder_attn=True,\n            channel_sizes=task.channel_sizes,\n        )\n\n        return cls(args, task, decoder)\n\n    def apply_seg_dropout(self, inp, mask_prob, mask_leng, mask_type, mask_val):\n        B, T = inp.size()\n        if mask_prob > 0:\n            mask_indices = compute_mask_indices(\n                (B, T), None, mask_prob, mask_leng, mask_type  # may mask padding\n            )\n            mask_indices = torch.from_numpy(mask_indices).to(inp.device)\n            inp[mask_indices] = mask_val\n        else:\n            mask_indices = torch.zeros_like(inp).bool()\n        return inp, mask_indices\n\n    def apply_seq_dropout(self, inp, mask_prob, mask_val):\n        B, T = inp.size()\n        if mask_prob > 0:\n            mask_indices = np.random.uniform(0, 1, (B,)) < mask_prob\n            mask_indices = (\n                torch.from_numpy(mask_indices).to(inp.device).unsqueeze(1).expand(-1, T)\n            )\n            inp[mask_indices] = mask_val\n        else:\n            mask_indices = torch.zeros_like(inp).bool()\n        return inp, mask_indices\n\n    def apply_dropout(self, src_tokens, dur_src, f0_src):\n        src_tokens, unit_mask = self.apply_seg_dropout(\n            src_tokens,\n            self.cfg.mask_unit_seg_prob,\n            self.cfg.mask_unit_seg_leng,\n            self.cfg.mask_unit_seg_type,\n            self.unit_mask_val,\n        )\n\n        dur_src, dur_mask = self.apply_seq_dropout(\n            dur_src, self.cfg.mask_dur_prob, self.dur_mask_val\n        )\n        dur_src, _dur_mask = self.apply_seg_dropout(\n            dur_src,\n            self.cfg.mask_dur_seg_prob,\n            self.cfg.mask_dur_seg_leng,\n            self.cfg.mask_dur_seg_type,\n            self.dur_mask_val,\n        )\n        dur_mask = dur_mask.logical_or(_dur_mask)\n\n        f0_src, f0_mask = self.apply_seq_dropout(\n            f0_src, self.cfg.mask_f0_prob, self.f0_mask_val\n        )\n        f0_src, _f0_mask = self.apply_seg_dropout(\n            f0_src,\n            self.cfg.mask_f0_seg_prob,\n            self.cfg.mask_f0_seg_leng,\n            self.cfg.mask_f0_seg_type,\n            self.f0_mask_val,\n        )\n        f0_mask = f0_mask.logical_or(_f0_mask)\n\n        return src_tokens, unit_mask, dur_src, dur_mask, f0_src, f0_mask\n\n    def forward(\n        self,\n        src_tokens: torch.Tensor,\n        dur_src: torch.Tensor,\n        f0_src: torch.Tensor,\n        src_lengths: Optional[Any] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n    ):\n        if self.ignore_duration_input:\n            dur_src = torch.zeros_like(dur_src)\n\n        if self.ignore_f0_input:\n            f0_src = torch.zeros_like(f0_src)\n\n        if self.training:\n            (\n                src_tokens,\n                unit_mask,\n                dur_src,\n                dur_mask,\n                f0_src,\n                f0_mask,\n            ) = self.apply_dropout(src_tokens, dur_src, f0_src)\n        else:\n            unit_masks = dur_mask = f0_mask = None\n\n        prediction, _ = self.decoder(\n            prev_output_tokens=(src_tokens, dur_src, f0_src),\n            incremental_state=incremental_state,\n            src_lengths=src_lengths,\n            features_only=True,\n        )\n\n        result = dict(zip(self.channel_names, prediction))\n\n        return result\n\n\ndef base_ulm_architecture(args):\n    from .transformer_lm import base_lm_architecture\n\n    base_lm_architecture(args)\n\n\n@register_model_architecture(\"transformer_ulm\", \"transformer_ulm_big\")\ndef transformer_ulm_big(args):\n    from .transformer_lm import transformer_lm_big\n\n    transformer_lm_big(args)\n    base_ulm_architecture(args)\n\n\n@register_model_architecture(\"transformer_ulm\", \"transformer_ulm_tiny\")\ndef transformer_ulm_tiny(args):\n    from .transformer_lm import transformer_lm_gpt2_tiny\n\n    transformer_lm_gpt2_tiny(args)\n    base_ulm_architecture(args)\n\n\nclass MultiStreamTransformerDecoder(TransformerDecoder):\n    def __init__(\n        self,\n        args,\n        dictionary,\n        embed_tokens,\n        embed_other_list,\n        no_encoder_attn,\n        channel_sizes,\n    ):\n        super().__init__(\n            args, dictionary, embed_tokens, no_encoder_attn=no_encoder_attn\n        )\n\n        # embed each channel and project if dimensions do not match\n        self.embed_other_list = torch.nn.ModuleList(embed_other_list)\n        self.proj_other_list = torch.nn.ModuleList()\n        dim = embed_tokens.embedding_dim\n        for embed_other in embed_other_list:\n            other_dim = 1 if embed_other is None else embed_other.embedding_dim\n            self.proj_other_list.append(\n                nn.Linear(other_dim, dim) if other_dim != dim else None\n            )\n\n        # tranformer output to prediction\n        self.channel_sizes = channel_sizes\n        self.project_out_dim = Linear(\n            embed_tokens.embedding_dim, sum(channel_sizes), bias=False\n        )\n\n    def extract_features_scriptable(\n        self,\n        prev_output_tokens,\n        encoder_out: Optional[Dict[str, List[Tensor]]],\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        full_context_alignment: bool = False,\n        alignment_layer: Optional[int] = None,\n        alignment_heads: Optional[int] = None,\n    ):\n        if alignment_layer is None:\n            alignment_layer = self.num_layers - 1\n\n        # XXX: first multi-channel change start\n        prev_output_tokens, *other_channels = prev_output_tokens\n        # XXX: first multi-channel change end\n\n        # embed positions\n        positions = None\n        if self.embed_positions is not None:\n            positions = self.embed_positions(\n                prev_output_tokens, incremental_state=incremental_state\n            )\n\n        if incremental_state is not None:\n            prev_output_tokens = prev_output_tokens[:, -1:]\n            other_channels = [o[:, -1:] for o in other_channels]\n            if positions is not None:\n                positions = positions[:, -1:]\n\n        # embed tokens and positions\n        x = self.embed_scale * self.embed_tokens(prev_output_tokens)\n\n        # XXX: second multi-channel change start\n        other_channels = [\n            o.unsqueeze(-1).to(dtype=x.dtype) if emb is None else emb(o)\n            for o, emb in zip(other_channels, self.embed_other_list)\n        ]\n        other_channels = [\n            o if proj_other is None else proj_other(o)\n            for o, proj_other in zip(other_channels, self.proj_other_list)\n        ]\n        for o in other_channels:\n            x = x + o\n        # XXX: second multi-channel change end\n\n        if self.quant_noise is not None:\n            x = self.quant_noise(x)\n\n        if self.project_in_dim is not None:\n            x = self.project_in_dim(x)\n\n        if positions is not None:\n            x += positions\n\n        if self.layernorm_embedding is not None:\n            x = self.layernorm_embedding(x)\n\n        x = self.dropout_module(x)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        self_attn_padding_mask: Optional[Tensor] = None\n        if self.cross_self_attention or prev_output_tokens.eq(self.padding_idx).any():\n            self_attn_padding_mask = prev_output_tokens.eq(self.padding_idx)\n\n        # decoder layers\n        attn: Optional[Tensor] = None\n        inner_states: List[Optional[Tensor]] = [x]\n        for idx, layer in enumerate(self.layers):\n            if incremental_state is None and not full_context_alignment:\n                self_attn_mask = self.buffered_future_mask(x)\n            else:\n                self_attn_mask = None\n\n            x, layer_attn, _ = layer(\n                x,\n                encoder_out[\"encoder_out\"][0]\n                if (encoder_out is not None and len(encoder_out[\"encoder_out\"]) > 0)\n                else None,\n                encoder_out[\"encoder_padding_mask\"][0]\n                if (\n                    encoder_out is not None\n                    and len(encoder_out[\"encoder_padding_mask\"]) > 0\n                )\n                else None,\n                incremental_state,\n                self_attn_mask=self_attn_mask,\n                self_attn_padding_mask=self_attn_padding_mask,\n                need_attn=bool((idx == alignment_layer)),\n                need_head_weights=bool((idx == alignment_layer)),\n            )\n            inner_states.append(x)\n            if layer_attn is not None and idx == alignment_layer:\n                attn = layer_attn.float().to(x)\n\n        if attn is not None:\n            if alignment_heads is not None:\n                attn = attn[:alignment_heads]\n\n            # average probabilities over heads\n            attn = attn.mean(dim=0)\n\n        if self.layer_norm is not None:\n            x = self.layer_norm(x)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        if self.project_out_dim is not None:\n            x = self.project_out_dim(x)\n        else:\n            assert False\n\n        # XXX: the last change start\n        result = []\n        start = 0\n        for channel_size in self.channel_sizes:\n            end = start + channel_size\n            result.append(x[:, :, start:end])\n            start = end\n        assert end == x.size(-1)\n        # XXX: the last change end\n\n        return result, {\"attn\": [attn], \"inner_states\": inner_states}\n"
  },
  {
    "path": "fairseq/models/wav2vec/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .wav2vec import *  # noqa\nfrom .wav2vec2 import *  # noqa\nfrom .wav2vec2_asr import *  # noqa\nfrom .wav2vec2_laser import *  # noqa\nfrom .wav2vec2_classification import * # noqa\n"
  },
  {
    "path": "fairseq/models/wav2vec/utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nimport torch.nn.functional as F\n\n\ndef pad_to_multiple(x, multiple, dim=-1, value=0):\n    # Inspired from https://github.com/lucidrains/local-attention/blob/master/local_attention/local_attention.py#L41\n    if x is None:\n        return None, 0\n    tsz = x.size(dim)\n    m = tsz / multiple\n    remainder = math.ceil(m) * multiple - tsz\n    if m.is_integer():\n        return x, 0\n    pad_offset = (0,) * (-1 - dim) * 2\n\n    return F.pad(x, (*pad_offset, 0, remainder), value=value), remainder\n"
  },
  {
    "path": "fairseq/models/wav2vec/wav2vec.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\nimport logging\nimport math\nfrom typing import Optional, Tuple\nfrom omegaconf import II\nimport sys\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.models import BaseFairseqModel, register_model\nfrom fairseq.modules import (\n    Fp32GroupNorm,\n    Fp32LayerNorm,\n    GumbelVectorQuantizer,\n    KmeansVectorQuantizer,\n    TransposeLast,\n)\nfrom fairseq.tasks import FairseqTask\nfrom fairseq.utils import buffered_arange\n\n\nlogger = logging.getLogger(__name__)\n\n\nAGGREGATOR_CHOICES = ChoiceEnum([\"cnn\", \"gru\"])\nPROJECT_FEATURES_CHOICES = ChoiceEnum([\"none\", \"same\", \"new\"])\nACTIVATION_CHOICES = ChoiceEnum([\"relu\", \"gelu\"])\nVQ_TYPE_CHOICES = ChoiceEnum([\"none\", \"gumbel\", \"kmeans\"])\n\n\n@dataclass\nclass Wav2VecConfig(FairseqDataclass):\n    prediction_steps: int = field(\n        default=12, metadata={\"help\": \"number of steps ahead to predict\"}\n    )\n    sample_distance: Optional[int] = field(\n        default=None,\n        metadata={\n            \"help\": \"sample distance from target. does not work properly with cross-sampling\"\n        },\n    )\n    cross_sample_negatives: int = field(\n        default=0, metadata={\"help\": \"num of cross sampled negatives\"}\n    )\n    num_negatives: int = field(\n        default=10, metadata={\"help\": \"num of sampled negatives\"}\n    )\n    conv_feature_layers: str = field(\n        default=\"[(512, 10, 5), (512, 8, 4), (512, 4, 2), (512, 4, 2), (512, 4, 2), (512, 1, 1), (512, 1, 1), (512, 1, 1)]\",\n        metadata={\n            \"help\": \"convolutional feature extraction layers [(dim, kernel_size, stride), ...]\"\n        },\n    )\n    conv_aggregator_layers: str = field(\n        default=\"[(512, 2, 1), (512, 3, 1), (512, 4, 1), (512, 5, 1), (512, 6, 1), (512, 7, 1), (512, 8, 1), (512, 9, 1), (512, 10, 1), (512, 11, 1), (512, 12, 1), (512, 13, 1)]\",\n        metadata={\n            \"help\": \"convolutional aggregator layers [(dim, kernel_size, stride), ...]\"\n        },\n    )\n    dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout to apply within the model\"}\n    )\n    dropout_features: float = field(\n        default=0.0, metadata={\"help\": \"dropout to apply to the features\"}\n    )\n    dropout_agg: float = field(\n        default=0.0, metadata={\"help\": \"dropout to apply after aggregation step\"}\n    )\n    aggregator: AGGREGATOR_CHOICES = field(\n        default=\"cnn\", metadata={\"help\": \"type of aggregator to use\"}\n    )\n    gru_dim: int = field(default=512, metadata={\"help\": \"GRU dimensionality\"})\n    no_conv_bias: bool = field(\n        default=False, metadata={\"help\": \"if set, does not learn bias for conv layers\"}\n    )\n    agg_zero_pad: bool = field(\n        default=False,\n        metadata={\"help\": \"if set, zero pads in aggregator instead of repl pad\"},\n    )\n    skip_connections_feat: bool = field(\n        default=False,\n        metadata={\"help\": \"if set, adds skip connections to the feature extractor\"},\n    )\n    skip_connections_agg: bool = field(\n        default=True,\n        metadata={\"help\": \"if set, adds skip connections to the aggregator\"},\n    )\n    residual_scale: float = field(\n        default=0.5, metadata={\"help\": \"scales residual by sqrt(value)\"}\n    )\n    log_compression: bool = field(\n        default=True,\n        metadata={\"help\": \"if set, adds a log compression to feature extractor\"},\n    )\n    balanced_classes: bool = field(\n        default=False,\n        metadata={\"help\": \"if set, loss is scaled to balance for number of negatives\"},\n    )\n    project_features: PROJECT_FEATURES_CHOICES = field(\n        default=\"none\",\n        metadata={\n            \"help\": \"if not none, features are projected using the (same or new) aggregator\"\n        },\n    )\n    non_affine_group_norm: bool = field(\n        default=False, metadata={\"help\": \"if set, group norm is not affine\"}\n    )\n    offset: str = field(\n        default=\"auto\",\n        metadata={\n            \"help\": \"if set to 'auto', it is computed automatically from the receptive field, else set to int value\"\n        },\n    )\n    activation: ACTIVATION_CHOICES = field(\n        default=\"relu\",\n        metadata={\n            \"help\": \"if set to 'auto', it is computed automatically from the receptive field, else set to int value\"\n        },\n    )\n    vq_type: VQ_TYPE_CHOICES = field(\n        default=\"none\", metadata={\"help\": \"which type of quantizer to use\"}\n    )\n    vq_vars: int = field(\n        default=320,\n        metadata={\"help\": \"project to this many vector quantized variables per group\"},\n    )\n    vq_groups: int = field(\n        default=2, metadata={\"help\": \"number of groups of latent variables\"}\n    )\n    vq_dim: int = field(\n        default=0,\n        metadata={\n            \"help\": \"uses this dimensionality for quantized vectors. 0 to use model dim // groups\"\n        },\n    )\n    vq_depth: int = field(\n        default=1, metadata={\"help\": \"number of layers for vq weight projection\"}\n    )\n    combine_groups: bool = field(\n        default=False, metadata={\"help\": \"if set, variables are shared among groups\"}\n    )\n    vq_temp: Tuple[float, float, float] = field(\n        default=(2.0, 0.5, 0.999995),\n        metadata={\n            \"help\": \"temperature for latent variable sampling with gumbel softmax. should be a tuple of 3 values (start, end, decay)\"\n        },\n    )\n    vq_gamma: float = field(\n        default=0.25,\n        metadata={\"help\": \"gamma parameter for kmeans style vector quantization\"},\n    )\n    infonce: bool = II(\"criterion.infonce\")\n\n\n@register_model(\"wav2vec\", dataclass=Wav2VecConfig)\nclass Wav2VecModel(BaseFairseqModel):\n    @classmethod\n    def build_model(cls, cfg: Wav2VecConfig, task: FairseqTask):\n        \"\"\"Build a new model instance.\"\"\"\n\n        model = Wav2VecModel(cfg)\n        logger.info(model)\n        return model\n\n    def __init__(self, cfg: Wav2VecConfig):\n        super().__init__()\n\n        self.prediction_steps = cfg.prediction_steps\n        offset = cfg.offset\n\n        if cfg.activation == \"relu\":\n            activation = nn.ReLU()\n        elif cfg.activation == \"gelu\":\n            activation = nn.GELU()\n        else:\n            raise Exception(\"unknown activation \" + cfg.activation)\n\n        feature_enc_layers = eval(cfg.conv_feature_layers)\n        self.feature_extractor = ConvFeatureExtractionModel(\n            conv_layers=feature_enc_layers,\n            dropout=0.0,\n            log_compression=cfg.log_compression,\n            skip_connections=cfg.skip_connections_feat,\n            residual_scale=cfg.residual_scale,\n            non_affine_group_norm=cfg.non_affine_group_norm,\n            activation=activation,\n        )\n        embed = feature_enc_layers[-1][0]\n\n        self.vector_quantizer = None\n        if cfg.vq_type == \"gumbel\":\n            self.vector_quantizer = GumbelVectorQuantizer(\n                dim=embed,\n                num_vars=cfg.vq_vars,\n                temp=cfg.vq_temp,\n                groups=cfg.vq_groups,\n                combine_groups=cfg.combine_groups,\n                vq_dim=cfg.vq_dim if cfg.vq_dim > 0 else embed,\n                time_first=False,\n                activation=activation,\n                weight_proj_depth=cfg.vq_depth,\n                weight_proj_factor=2,\n            )\n        elif cfg.vq_type == \"kmeans\":\n            self.vector_quantizer = KmeansVectorQuantizer(\n                dim=embed,\n                num_vars=cfg.vq_vars,\n                groups=cfg.vq_groups,\n                combine_groups=cfg.combine_groups,\n                vq_dim=cfg.vq_dim if cfg.vq_dim > 0 else embed,\n                time_first=False,\n                gamma=cfg.vq_gamma,\n            )\n        else:\n            assert (\n                cfg.vq_type == \"none\" or cfg.vq_type is None\n            ), \"Unknown quantizer type\"\n\n        if cfg.offset == \"auto\":\n            jin = 0\n            rin = 0\n            for _, k, stride in feature_enc_layers:\n                if rin == 0:\n                    rin = k\n                rin = rin + (k - 1) * jin\n                if jin == 0:\n                    jin = stride\n                else:\n                    jin *= stride\n            offset = math.ceil(rin / jin)\n\n        offset = int(offset)\n\n        def make_aggregator():\n            if cfg.aggregator == \"cnn\":\n                agg_layers = eval(cfg.conv_aggregator_layers)\n                agg_dim = agg_layers[-1][0]\n                feature_aggregator = ConvAggegator(\n                    conv_layers=agg_layers,\n                    embed=embed,\n                    dropout=cfg.dropout,\n                    skip_connections=cfg.skip_connections_agg,\n                    residual_scale=cfg.residual_scale,\n                    non_affine_group_norm=cfg.non_affine_group_norm,\n                    conv_bias=not cfg.no_conv_bias,\n                    zero_pad=cfg.agg_zero_pad,\n                    activation=activation,\n                )\n            elif cfg.aggregator == \"gru\":\n                agg_dim = cfg.gru_dim\n                feature_aggregator = nn.Sequential(\n                    TransposeLast(),\n                    nn.GRU(\n                        input_size=embed,\n                        hidden_size=agg_dim,\n                        num_layers=1,\n                        dropout=cfg.dropout,\n                    ),\n                    TransposeLast(deconstruct_idx=0),\n                )\n            else:\n                raise Exception(\"unknown aggregator type \" + cfg.aggregator)\n\n            return feature_aggregator, agg_dim\n\n        self.feature_aggregator, agg_dim = make_aggregator()\n\n        self.wav2vec_predictions = Wav2VecPredictionsModel(\n            in_dim=agg_dim,\n            out_dim=embed,\n            prediction_steps=cfg.prediction_steps,\n            n_negatives=cfg.num_negatives,\n            cross_sample_negatives=cfg.cross_sample_negatives,\n            sample_distance=cfg.sample_distance,\n            dropout=cfg.dropout,\n            offset=offset,\n            balanced_classes=cfg.balanced_classes,\n            infonce=cfg.infonce,\n        )\n\n        self.dropout_feats = nn.Dropout(p=cfg.dropout_features)\n        self.dropout_agg = nn.Dropout(p=cfg.dropout_agg)\n\n        if cfg.project_features == \"none\":\n            self.project_features = None\n        elif cfg.project_features == \"same\":\n            self.project_features = self.feature_aggregator\n        elif cfg.project_features == \"new\":\n            self.project_features, _ = make_aggregator()\n\n    def forward(self, source):\n        result = {}\n\n        features = self.feature_extractor(source)\n        if self.vector_quantizer:\n            q_res = self.vector_quantizer(features)\n            features = q_res[\"x\"]\n            for k in q_res.keys():\n                if k != \"x\":\n                    result[k] = q_res[k]\n\n        x = self.dropout_feats(features)\n        x = self.feature_aggregator(x)\n        x = self.dropout_agg(x)\n\n        if self.project_features is not None:\n            features = self.project_features(features)\n        x, targets = self.wav2vec_predictions(x, features)\n        result[\"cpc_logits\"] = x\n        result[\"cpc_targets\"] = targets\n\n        return result\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        super().upgrade_state_dict_named(state_dict, name)\n\n    def max_positions(self):\n        \"\"\"Maximum length supported by the model.\"\"\"\n        return sys.maxsize\n\n    def get_logits(self, net_output):\n        logits = net_output[\"cpc_logits\"]\n        return logits\n\n    def get_targets(self, sample, net_output):\n        t = net_output[\"cpc_targets\"]\n        if isinstance(t, tuple):\n            t = t[0]\n        return t.contiguous()\n\n    def get_target_weights(self, targets, net_output):\n        targets = net_output[\"cpc_targets\"]\n        if isinstance(targets, tuple) and targets[-1] is not None:\n            return targets[-1]\n        return None\n\n    def get_extra_losses(self, net_output):\n        loss = None\n        if \"prob_perplexity\" in net_output:\n            loss = net_output[\"num_vars\"] - net_output[\"prob_perplexity\"]\n        elif \"kmeans_loss\" in net_output:\n            loss = net_output[\"kmeans_loss\"]\n\n        return loss\n\n\ndef norm_block(is_layer_norm, dim, affine=True):\n    if is_layer_norm:\n        mod = nn.Sequential(\n            TransposeLast(),\n            Fp32LayerNorm(dim, elementwise_affine=affine),\n            TransposeLast(),\n        )\n    else:\n        mod = Fp32GroupNorm(1, dim, affine=affine)\n\n    return mod\n\n\nclass ConvFeatureExtractionModel(nn.Module):\n    def __init__(\n        self,\n        conv_layers,\n        dropout,\n        log_compression,\n        skip_connections,\n        residual_scale,\n        non_affine_group_norm,\n        activation,\n    ):\n        super().__init__()\n\n        def block(n_in, n_out, k, stride):\n            return nn.Sequential(\n                nn.Conv1d(n_in, n_out, k, stride=stride, bias=False),\n                nn.Dropout(p=dropout),\n                norm_block(\n                    is_layer_norm=False, dim=n_out, affine=not non_affine_group_norm\n                ),\n                activation,\n            )\n\n        in_d = 1\n        self.conv_layers = nn.ModuleList()\n        for dim, k, stride in conv_layers:\n            self.conv_layers.append(block(in_d, dim, k, stride))\n            in_d = dim\n\n        self.log_compression = log_compression\n        self.skip_connections = skip_connections\n        self.residual_scale = math.sqrt(residual_scale)\n\n    def forward(self, x):\n        # BxT -> BxCxT\n        x = x.unsqueeze(1)\n\n        for conv in self.conv_layers:\n            residual = x\n            x = conv(x)\n            if self.skip_connections and x.size(1) == residual.size(1):\n                tsz = x.size(2)\n                r_tsz = residual.size(2)\n                residual = residual[..., :: r_tsz // tsz][..., :tsz]\n                x = (x + residual) * self.residual_scale\n\n        if self.log_compression:\n            x = x.abs()\n            x = x + 1\n            x = x.log()\n\n        return x\n\n\nclass ZeroPad1d(nn.Module):\n    def __init__(self, pad_left, pad_right):\n        super().__init__()\n        self.pad_left = pad_left\n        self.pad_right = pad_right\n\n    def forward(self, x):\n        return F.pad(x, (self.pad_left, self.pad_right))\n\n\nclass ConvAggegator(nn.Module):\n    def __init__(\n        self,\n        conv_layers,\n        embed,\n        dropout,\n        skip_connections,\n        residual_scale,\n        non_affine_group_norm,\n        conv_bias,\n        zero_pad,\n        activation,\n    ):\n        super().__init__()\n\n        def block(n_in, n_out, k, stride):\n            # padding dims only really make sense for stride = 1\n            ka = k // 2\n            kb = ka - 1 if k % 2 == 0 else ka\n\n            pad = (\n                ZeroPad1d(ka + kb, 0) if zero_pad else nn.ReplicationPad1d((ka + kb, 0))\n            )\n\n            return nn.Sequential(\n                pad,\n                nn.Conv1d(n_in, n_out, k, stride=stride, bias=conv_bias),\n                nn.Dropout(p=dropout),\n                norm_block(False, n_out, affine=not non_affine_group_norm),\n                activation,\n            )\n\n        in_d = embed\n        self.conv_layers = nn.ModuleList()\n        self.residual_proj = nn.ModuleList()\n        for dim, k, stride in conv_layers:\n            if in_d != dim and skip_connections:\n                self.residual_proj.append(nn.Conv1d(in_d, dim, 1, bias=False))\n            else:\n                self.residual_proj.append(None)\n\n            self.conv_layers.append(block(in_d, dim, k, stride))\n            in_d = dim\n        self.conv_layers = nn.Sequential(*self.conv_layers)\n        self.skip_connections = skip_connections\n        self.residual_scale = math.sqrt(residual_scale)\n\n    def forward(self, x):\n        for rproj, conv in zip(self.residual_proj, self.conv_layers):\n            residual = x\n            x = conv(x)\n            if self.skip_connections:\n                if rproj is not None:\n                    residual = rproj(residual)\n                x = (x + residual) * self.residual_scale\n        return x\n\n\nclass Wav2VecPredictionsModel(nn.Module):\n    def __init__(\n        self,\n        in_dim,\n        out_dim,\n        prediction_steps,\n        n_negatives,\n        cross_sample_negatives,\n        sample_distance,\n        dropout,\n        offset,\n        balanced_classes,\n        infonce,\n    ):\n        super().__init__()\n\n        self.n_negatives = n_negatives\n        self.cross_sample_negatives = cross_sample_negatives\n        self.sample_distance = sample_distance\n        self.project_to_steps = nn.ConvTranspose2d(\n            in_dim, out_dim, (1, prediction_steps)\n        )\n        self.dropout = nn.Dropout(p=dropout)\n        self.offset = offset\n        self.balanced_classes = balanced_classes\n        self.infonce = infonce\n\n    def sample_negatives(self, y):\n        bsz, fsz, tsz = y.shape\n\n        y = y.transpose(0, 1)  # BCT -> CBT\n        y = y.contiguous().view(fsz, -1)  # CBT => C(BxT)\n\n        cross_high = tsz * bsz\n        high = tsz if self.sample_distance is None else min(tsz, self.sample_distance)\n        assert high > 1\n\n        neg_idxs = torch.randint(low=0, high=high, size=(bsz, self.n_negatives * tsz))\n\n        with torch.no_grad():\n            if self.n_negatives > 0:\n                tszs = (\n                    buffered_arange(tsz)\n                    .unsqueeze(-1)\n                    .expand(-1, self.n_negatives)\n                    .flatten()\n                )\n\n                neg_idxs = torch.randint(\n                    low=0, high=high - 1, size=(bsz, self.n_negatives * tsz)\n                )\n                neg_idxs[neg_idxs >= tszs] += 1\n\n            if self.cross_sample_negatives > 0:\n                tszs = (\n                    buffered_arange(tsz)\n                    .unsqueeze(-1)\n                    .expand(-1, self.cross_sample_negatives)\n                    .flatten()\n                )\n\n                cross_neg_idxs = torch.randint(\n                    low=0,\n                    high=cross_high - 1,\n                    size=(bsz, self.cross_sample_negatives * tsz),\n                )\n                cross_neg_idxs[cross_neg_idxs >= tszs] += 1\n\n        if self.n_negatives > 0:\n            for i in range(1, bsz):\n                neg_idxs[i] += i * high\n        else:\n            neg_idxs = cross_neg_idxs\n\n        if self.cross_sample_negatives > 0 and self.n_negatives > 0:\n            neg_idxs = torch.cat([neg_idxs, cross_neg_idxs], dim=1)\n\n        negs = y[..., neg_idxs.view(-1)]\n        negs = negs.view(\n            fsz, bsz, self.n_negatives + self.cross_sample_negatives, tsz\n        ).permute(\n            2, 1, 0, 3\n        )  # to NxBxCxT\n\n        return negs\n\n    def forward(self, x, y):\n\n        x = x.unsqueeze(-1)\n        x = self.project_to_steps(x)  # BxCxTxS\n        x = self.dropout(x)\n\n        negatives = self.sample_negatives(y)\n        y = y.unsqueeze(0)\n        targets = torch.cat([y, negatives], dim=0)  # Copies x B x C x T\n\n        copies = targets.size(0)\n        bsz, dim, tsz, steps = x.shape\n        steps = min(steps, tsz - self.offset)\n\n        predictions = x.new(\n            bsz * copies * (tsz - self.offset + 1) * steps\n            - ((steps + 1) * steps // 2) * copies * bsz\n        )\n        if self.infonce:\n            labels = predictions.new_full(\n                (predictions.shape[0] // copies,), 0, dtype=torch.long\n            )\n        else:\n            labels = torch.zeros_like(predictions)\n        weights = (\n            torch.full_like(labels, 1 / self.n_negatives)\n            if self.balanced_classes and not self.infonce\n            else None\n        )\n\n        start = end = 0\n        for i in range(steps):\n            offset = i + self.offset\n            end = start + (tsz - offset) * bsz * copies\n            if self.infonce:\n                predictions[start:end] = torch.einsum(\n                    \"bct,nbct->tbn\", x[..., :-offset, i], targets[..., offset:]\n                ).flatten()\n            else:\n                pos_num = (end - start) // copies\n                predictions[start:end] = torch.einsum(\n                    \"bct,nbct->nbt\", x[..., :-offset, i], targets[..., offset:]\n                ).flatten()\n                labels[start : start + pos_num] = 1.0\n                if weights is not None:\n                    weights[start : start + pos_num] = 1.0\n            start = end\n        assert end == predictions.numel(), \"{} != {}\".format(end, predictions.numel())\n\n        if self.infonce:\n            predictions = predictions.view(-1, copies)\n        else:\n            if weights is not None:\n                labels = (labels, weights)\n\n        return predictions, labels\n"
  },
  {
    "path": "fairseq/models/wav2vec/wav2vec2.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom dataclasses import dataclass, field\nfrom typing import List, Tuple\n\nimport numpy as np\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nfrom fairseq import utils\nfrom fairseq.data.data_utils import compute_mask_indices\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.distributed import fsdp_wrap\nfrom fairseq.models import BaseFairseqModel, register_model\nfrom fairseq.distributed.fully_sharded_data_parallel import FullyShardedDataParallel\nfrom fairseq.modules import (\n    Fp32GroupNorm,\n    Fp32LayerNorm,\n    GradMultiply,\n    GumbelVectorQuantizer,\n    LayerNorm,\n    MultiheadAttention,\n    RelPositionalEncoding,\n    SamePad,\n    TransposeLast,\n)\nfrom fairseq.modules.checkpoint_activations import checkpoint_wrapper\nfrom fairseq.modules.conformer_layer import ConformerWav2Vec2EncoderLayer\nfrom fairseq.modules.transformer_sentence_encoder import init_bert_params\nfrom fairseq.utils import buffered_arange, index_put, is_xla_tensor\n\nfrom .utils import pad_to_multiple\n\nEXTRACTOR_MODE_CHOICES = ChoiceEnum([\"default\", \"layer_norm\"])\nMASKING_DISTRIBUTION_CHOICES = ChoiceEnum([\"static\", \"uniform\", \"normal\", \"poisson\"])\nLAYER_TYPE_CHOICES = ChoiceEnum([\"transformer\", \"conformer\", \"trf_adp\"])\n\n\n@dataclass\nclass Wav2Vec2Config(FairseqDataclass):\n    extractor_mode: EXTRACTOR_MODE_CHOICES = field(\n        default=\"default\",\n        metadata={\n            \"help\": \"mode for feature extractor. default has a single group norm with d \"\n            \"groups in the first conv block, whereas layer_norm has layer norms in \"\n            \"every block (meant to use with normalize=True)\"\n        },\n    )\n    encoder_layers: int = field(\n        default=12, metadata={\"help\": \"num encoder layers in the transformer\"}\n    )\n    encoder_embed_dim: int = field(\n        default=768, metadata={\"help\": \"encoder embedding dimension\"}\n    )\n    encoder_ffn_embed_dim: int = field(\n        default=3072, metadata={\"help\": \"encoder embedding dimension for FFN\"}\n    )\n    encoder_attention_heads: int = field(\n        default=12, metadata={\"help\": \"num encoder attention heads\"}\n    )\n    activation_fn: ChoiceEnum(utils.get_available_activation_fns()) = field(\n        default=\"gelu\", metadata={\"help\": \"activation function to use\"}\n    )\n    layer_type: LAYER_TYPE_CHOICES = field(\n        default=\"transformer\", metadata={\"help\": \"layer type in encoder\"}\n    )\n    # dropouts\n    dropout: float = field(\n        default=0.1, metadata={\"help\": \"dropout probability for the transformer\"}\n    )\n    attention_dropout: float = field(\n        default=0.1, metadata={\"help\": \"dropout probability for attention weights\"}\n    )\n    activation_dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout probability after activation in FFN\"}\n    )\n    encoder_layerdrop: float = field(\n        default=0.0, metadata={\"help\": \"probability of dropping a tarnsformer layer\"}\n    )\n    dropout_input: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout to apply to the input (after feat extr)\"},\n    )\n    dropout_features: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout to apply to the features (after feat extr)\"},\n    )\n\n    final_dim: int = field(\n        default=0,\n        metadata={\n            \"help\": \"project final representations and targets to this many dimensions.\"\n            \"set to encoder_embed_dim is <= 0\"\n        },\n    )\n    layer_norm_first: bool = field(\n        default=False, metadata={\"help\": \"apply layernorm first in the transformer\"}\n    )\n    conv_feature_layers: str = field(\n        default=\"[(512, 10, 5)] + [(512, 3, 2)] * 4 + [(512,2,2)] + [(512,2,2)]\",\n        metadata={\n            \"help\": \"string describing convolutional feature extraction layers in form of a python list that contains \"\n            \"[(dim, kernel_size, stride), ...]\"\n        },\n    )\n    conv_bias: bool = field(\n        default=False, metadata={\"help\": \"include bias in conv encoder\"}\n    )\n    logit_temp: float = field(\n        default=0.1, metadata={\"help\": \"temperature to divide logits by\"}\n    )\n    quantize_targets: bool = field(\n        default=False, metadata={\"help\": \"use quantized targets\"}\n    )\n    quantize_input: bool = field(\n        default=False, metadata={\"help\": \"use quantized inputs\"}\n    )\n    same_quantizer: bool = field(\n        default=False, metadata={\"help\": \"use same quantizer for inputs and targets\"}\n    )\n    target_glu: bool = field(\n        default=False, metadata={\"help\": \"adds projection + glu to targets\"}\n    )\n    feature_grad_mult: float = field(\n        default=1.0, metadata={\"help\": \"multiply feature extractor var grads by this\"}\n    )\n    quantizer_depth: int = field(\n        default=1,\n        metadata={\"help\": \"number of quantizer layers\"},\n    )\n    quantizer_factor: int = field(\n        default=3,\n        metadata={\n            \"help\": \"dimensionality increase for inner quantizer layers (if depth > 1)\"\n        },\n    )\n    latent_vars: int = field(\n        default=320,\n        metadata={\"help\": \"number of latent variables V in each group of the codebook\"},\n    )\n    latent_groups: int = field(\n        default=2,\n        metadata={\"help\": \"number of groups G of latent variables in the codebook\"},\n    )\n    latent_dim: int = field(\n        default=0,\n        metadata={\n            \"help\": \"if > 0, uses this dimensionality for latent variables. \"\n            \"otherwise uses final_dim / latent_groups\"\n        },\n    )\n\n    # masking\n    mask_length: int = field(default=10, metadata={\"help\": \"mask length\"})\n    mask_prob: float = field(\n        default=0.65, metadata={\"help\": \"probability of replacing a token with mask\"}\n    )\n    mask_selection: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\", metadata={\"help\": \"how to choose mask length\"}\n    )\n    mask_other: float = field(\n        default=0,\n        metadata={\n            \"help\": \"secondary mask argument (used for more complex distributions), \"\n            \"see help in compute_mask_indices\"\n        },\n    )\n    no_mask_overlap: bool = field(\n        default=False, metadata={\"help\": \"whether to allow masks to overlap\"}\n    )\n    mask_min_space: int = field(\n        default=1,\n        metadata={\"help\": \"min space between spans (if no overlap is enabled)\"},\n    )\n    require_same_masks: bool = field(\n        default=True,\n        metadata={\n            \"help\": \"whether to number of masked timesteps must be the same across all \"\n            \"examples in a batch\"\n        },\n    )\n    mask_dropout: float = field(\n        default=0.0,\n        metadata={\"help\": \"percent of masks to unmask for each sample\"},\n    )\n\n    # channel masking\n    mask_channel_length: int = field(\n        default=10, metadata={\"help\": \"length of the mask for features (channels)\"}\n    )\n    mask_channel_prob: float = field(\n        default=0.0, metadata={\"help\": \"probability of replacing a feature with 0\"}\n    )\n    mask_channel_before: bool = False\n    mask_channel_selection: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\",\n        metadata={\"help\": \"how to choose mask length for channel masking\"},\n    )\n    mask_channel_other: float = field(\n        default=0,\n        metadata={\n            \"help\": \"secondary mask argument (used for more complex distributions), \"\n            \"see help in compute_mask_indicesh\"\n        },\n    )\n    no_mask_channel_overlap: bool = field(\n        default=False, metadata={\"help\": \"whether to allow channel masks to overlap\"}\n    )\n    mask_channel_min_space: int = field(\n        default=1,\n        metadata={\"help\": \"min space between spans (if no overlap is enabled)\"},\n    )\n\n    # negative selection\n    num_negatives: int = field(\n        default=100,\n        metadata={\"help\": \"number of negative examples from the same sample\"},\n    )\n    negatives_from_everywhere: bool = field(\n        default=False,\n        metadata={\"help\": \"sample negatives from everywhere, not just masked states\"},\n    )\n    cross_sample_negatives: int = field(\n        default=0, metadata={\"help\": \"number of negative examples from the any sample\"}\n    )\n    codebook_negatives: int = field(\n        default=0, metadata={\"help\": \"number of negative examples codebook\"}\n    )\n\n    # positional embeddings\n    conv_pos: int = field(\n        default=128,\n        metadata={\"help\": \"number of filters for convolutional positional embeddings\"},\n    )\n    conv_pos_groups: int = field(\n        default=16,\n        metadata={\"help\": \"number of groups for convolutional positional embedding\"},\n    )\n    pos_conv_depth: int = field(\n        default=1,\n        metadata={\"help\": \"depth of positional encoder network\"},\n    )\n\n    latent_temp: Tuple[float, float, float] = field(\n        default=(2, 0.5, 0.999995),\n        metadata={\n            \"help\": \"temperature for latent variable sampling. \"\n            \"can be tuple of 3 values (start, end, decay)\"\n        },\n    )\n    max_positions: int = field(default=100000, metadata={\"help\": \"Max positions\"})\n    checkpoint_activations: bool = field(\n        default=False,\n        metadata={\"help\": \"recompute activations and save memory for extra compute\"},\n    )\n\n    # FP16 optimization\n    required_seq_len_multiple: int = field(\n        default=2,\n        metadata={\n            \"help\": \"pad the input to encoder such that the sequence length is divisible by multiple\"\n        },\n    )\n    crop_seq_to_multiple: int = field(\n        default=1,\n        metadata={\n            \"help\": \"crop convolutional feature extractor output such that the sequence length is divisible by multiple\"\n        },\n    )\n\n    # Conformer\n    depthwise_conv_kernel_size: int = field(\n        default=31,\n        metadata={\n            \"help\": \"depthwise-conv-kernel-size for convolution in conformer layer\"\n        },\n    )\n    attn_type: str = field(\n        default=\"\",\n        metadata={\"help\": \"if espnet use ESPNET MHA\"},\n    )\n    pos_enc_type: str = field(\n        default=\"abs\",\n        metadata={\"help\": \"Positional encoding type to use in conformer\"},\n    )\n    fp16: bool = field(default=False, metadata={\"help\": \"If fp16 is being used\"})\n\n    # Adapter num\n    adp_num: int = field(\n        default=-1\n    )\n    adp_dim: int = field(\n        default=64\n    )\n    adp_act_fn: str = field(\n        default=\"relu\"\n    )\n    adp_trf_idx: str = field(\n        default=\"all\",\n    )\n\n\n@register_model(\"wav2vec2\", dataclass=Wav2Vec2Config)\nclass Wav2Vec2Model(BaseFairseqModel):\n    def __init__(self, cfg: Wav2Vec2Config):\n        super().__init__()\n        self.cfg = cfg\n\n        feature_enc_layers = eval(cfg.conv_feature_layers)\n        self.embed = feature_enc_layers[-1][0]\n\n        self.feature_extractor = ConvFeatureExtractionModel(\n            conv_layers=feature_enc_layers,\n            dropout=0.0,\n            mode=cfg.extractor_mode,\n            conv_bias=cfg.conv_bias,\n        )\n\n        self.post_extract_proj = (\n            nn.Linear(self.embed, cfg.encoder_embed_dim)\n            if self.embed != cfg.encoder_embed_dim and not cfg.quantize_input\n            else None\n        )\n\n        self.crop_seq_to_multiple = cfg.crop_seq_to_multiple\n\n        self.mask_prob = cfg.mask_prob\n        self.mask_selection = cfg.mask_selection\n        self.mask_other = cfg.mask_other\n        self.mask_length = cfg.mask_length\n        self.no_mask_overlap = cfg.no_mask_overlap\n        self.mask_min_space = cfg.mask_min_space\n\n        self.mask_channel_prob = cfg.mask_channel_prob\n        self.mask_channel_before = cfg.mask_channel_before\n        self.mask_channel_selection = cfg.mask_channel_selection\n        self.mask_channel_other = cfg.mask_channel_other\n        self.mask_channel_length = cfg.mask_channel_length\n        self.no_mask_channel_overlap = cfg.no_mask_channel_overlap\n        self.mask_channel_min_space = cfg.mask_channel_min_space\n\n        self.dropout_input = nn.Dropout(cfg.dropout_input)\n        self.dropout_features = nn.Dropout(cfg.dropout_features)\n\n        self.feature_grad_mult = cfg.feature_grad_mult\n\n        self.quantizer = None\n        self.input_quantizer = None\n\n        self.n_negatives = cfg.num_negatives\n        self.cross_sample_negatives = cfg.cross_sample_negatives\n        self.codebook_negatives = cfg.codebook_negatives\n        self.negatives_from_everywhere = cfg.negatives_from_everywhere\n\n        self.logit_temp = cfg.logit_temp\n\n        final_dim = cfg.final_dim if cfg.final_dim > 0 else cfg.encoder_embed_dim\n\n        if cfg.quantize_targets:\n            vq_dim = cfg.latent_dim if cfg.latent_dim > 0 else final_dim\n            self.quantizer = GumbelVectorQuantizer(\n                dim=self.embed,\n                num_vars=cfg.latent_vars,\n                temp=cfg.latent_temp,\n                groups=cfg.latent_groups,\n                combine_groups=False,\n                vq_dim=vq_dim,\n                time_first=True,\n                weight_proj_depth=cfg.quantizer_depth,\n                weight_proj_factor=cfg.quantizer_factor,\n            )\n            self.project_q = nn.Linear(vq_dim, final_dim)\n        else:\n            self.project_q = nn.Linear(self.embed, final_dim)\n\n        if cfg.quantize_input:\n            if cfg.same_quantizer and self.quantizer is not None:\n                vq_dim = final_dim\n                self.input_quantizer = self.quantizer\n            else:\n                vq_dim = cfg.latent_dim if cfg.latent_dim > 0 else cfg.encoder_embed_dim\n                self.input_quantizer = GumbelVectorQuantizer(\n                    dim=self.embed,\n                    num_vars=cfg.latent_vars,\n                    temp=cfg.latent_temp,\n                    groups=cfg.latent_groups,\n                    combine_groups=False,\n                    vq_dim=vq_dim,\n                    time_first=True,\n                    weight_proj_depth=cfg.quantizer_depth,\n                    weight_proj_factor=cfg.quantizer_factor,\n                )\n            self.project_inp = nn.Linear(vq_dim, cfg.encoder_embed_dim)\n\n        self.mask_emb = nn.Parameter(\n            torch.FloatTensor(cfg.encoder_embed_dim).uniform_()\n        )\n        encoder_cls = TransformerEncoder\n        if cfg.layer_type == \"conformer\" and cfg.pos_enc_type in [\"rel_pos\", \"rope\"]:\n            encoder_cls = ConformerEncoder\n\n        self.encoder = encoder_cls(cfg)\n        self.layer_norm = LayerNorm(self.embed)\n\n        self.target_glu = None\n        if cfg.target_glu:\n            self.target_glu = nn.Sequential(\n                nn.Linear(final_dim, final_dim * 2), nn.GLU()\n            )\n\n        self.final_proj = nn.Linear(cfg.encoder_embed_dim, final_dim)\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        super().upgrade_state_dict_named(state_dict, name)\n        \"\"\"Upgrade a (possibly old) state dict for new versions of fairseq.\"\"\"\n        return state_dict\n\n    @classmethod\n    def build_model(cls, cfg: Wav2Vec2Config, task=None):\n        \"\"\"Build a new model instance.\"\"\"\n\n        return cls(cfg)\n\n    def apply_mask(\n        self,\n        x,\n        padding_mask,\n        mask_indices=None,\n        mask_channel_indices=None,\n    ):\n        B, T, C = x.shape\n\n        if self.mask_channel_prob > 0 and self.mask_channel_before:\n            mask_channel_indices = compute_mask_indices(\n                (B, C),\n                None,\n                self.mask_channel_prob,\n                self.mask_channel_length,\n                self.mask_channel_selection,\n                self.mask_channel_other,\n                no_overlap=self.no_mask_channel_overlap,\n                min_space=self.mask_channel_min_space,\n            )\n            mask_channel_indices = (\n                torch.from_numpy(mask_channel_indices)\n                .to(x.device)\n                .unsqueeze(1)\n                .expand(-1, T, -1)\n            )\n            x[mask_channel_indices] = 0\n\n        if self.mask_prob > 0:\n            if mask_indices is None:\n                mask_indices = compute_mask_indices(\n                    (B, T),\n                    padding_mask,\n                    self.mask_prob,\n                    self.mask_length,\n                    self.mask_selection,\n                    self.mask_other,\n                    min_masks=2,\n                    no_overlap=self.no_mask_overlap,\n                    min_space=self.mask_min_space,\n                    require_same_masks=self.cfg.require_same_masks,\n                    mask_dropout=self.cfg.mask_dropout,\n                )\n                mask_indices = torch.from_numpy(mask_indices).to(x.device)\n            x = index_put(x, mask_indices, self.mask_emb)\n        else:\n            mask_indices = None\n\n        if self.mask_channel_prob > 0 and not self.mask_channel_before:\n            if mask_channel_indices is None:\n                mask_channel_indices = compute_mask_indices(\n                    (B, C),\n                    None,\n                    self.mask_channel_prob,\n                    self.mask_channel_length,\n                    self.mask_channel_selection,\n                    self.mask_channel_other,\n                    no_overlap=self.no_mask_channel_overlap,\n                    min_space=self.mask_channel_min_space,\n                )\n                mask_channel_indices = (\n                    torch.from_numpy(mask_channel_indices)\n                    .to(x.device)\n                    .unsqueeze(1)\n                    .expand(-1, T, -1)\n                )\n            x = index_put(x, mask_channel_indices, 0)\n\n        return x, mask_indices\n\n    def sample_negatives(self, y, num, padding_count=None):\n\n        if self.n_negatives == 0 and self.cross_sample_negatives == 0:\n            return y.new(0)\n\n        bsz, tsz, fsz = y.shape\n        y = y.view(-1, fsz)  # BTC => (BxT)C\n\n        # FIXME: what happens if padding_count is specified?\n        cross_high = tsz * bsz\n        high = tsz - (padding_count or 0)\n        with torch.no_grad():\n            assert high > 1, f\"{bsz,tsz,fsz}\"\n\n            if self.n_negatives > 0:\n                tszs = (\n                    buffered_arange(num)\n                    .unsqueeze(-1)\n                    .expand(-1, self.n_negatives)\n                    .flatten()\n                )\n\n                neg_idxs = torch.randint(\n                    low=0, high=high - 1, size=(bsz, self.n_negatives * num)\n                )\n                neg_idxs[neg_idxs >= tszs] += 1\n\n            if self.cross_sample_negatives > 0:\n                tszs = (\n                    buffered_arange(num)\n                    .unsqueeze(-1)\n                    .expand(-1, self.cross_sample_negatives)\n                    .flatten()\n                )\n\n                cross_neg_idxs = torch.randint(\n                    low=0,\n                    high=cross_high - 1,\n                    size=(bsz, self.cross_sample_negatives * num),\n                )\n                cross_neg_idxs[cross_neg_idxs >= tszs] += 1\n\n        if self.n_negatives > 0:\n            neg_idxs = neg_idxs + (torch.arange(bsz).unsqueeze(1) * high)\n        else:\n            neg_idxs = cross_neg_idxs\n\n        if self.cross_sample_negatives > 0 and self.n_negatives > 0:\n            neg_idxs = torch.cat([neg_idxs, cross_neg_idxs], dim=1)\n\n        negs = y[neg_idxs.view(-1)]\n        negs = negs.view(\n            bsz, num, self.n_negatives + self.cross_sample_negatives, fsz\n        ).permute(\n            2, 0, 1, 3\n        )  # to NxBxTxC\n        return negs, neg_idxs\n\n    def compute_preds(self, x, y, negatives):\n\n        neg_is_pos = (y == negatives).all(-1)\n        y = y.unsqueeze(0)\n        targets = torch.cat([y, negatives], dim=0)\n\n        logits = torch.cosine_similarity(x.float(), targets.float(), dim=-1)\n        logits = logits / self.logit_temp\n        logits = logits.type_as(x)\n\n        if is_xla_tensor(logits) or neg_is_pos.any():\n            if not hasattr(self, \"_inftensor\"):\n                fillval = -float(2**30)\n                self._inftensor = (\n                    torch.tensor(fillval).to(x.device)\n                    if is_xla_tensor(logits)\n                    else float(\"-inf\")\n                )\n            logits[1:] = index_put(logits[1:], neg_is_pos, self._inftensor)\n\n        return logits\n\n    def _get_feat_extract_output_lengths(self, input_lengths: torch.LongTensor):\n        \"\"\"\n        Computes the output length of the convolutional layers\n        \"\"\"\n\n        def _conv_out_length(input_length, kernel_size, stride):\n            return torch.floor((input_length - kernel_size) / stride + 1)\n\n        conv_cfg_list = eval(self.cfg.conv_feature_layers)\n\n        for i in range(len(conv_cfg_list)):\n            input_lengths = _conv_out_length(\n                input_lengths, conv_cfg_list[i][1], conv_cfg_list[i][2]\n            )\n\n        return input_lengths.to(torch.long)\n\n    def forward(\n        self,\n        source,\n        padding_mask=None,\n        mask=True,\n        features_only=False,\n        layer=None,\n        mask_indices=None,\n        mask_channel_indices=None,\n        padding_count=None,\n        corpus_key=None,\n    ):\n\n        if self.feature_grad_mult > 0:\n            features = self.feature_extractor(source)\n            if self.feature_grad_mult != 1.0:\n                features = GradMultiply.apply(features, self.feature_grad_mult)\n        else:\n            with torch.no_grad():\n                features = self.feature_extractor(source)\n\n        features_pen = features.float().pow(2).mean()\n\n        features = features.transpose(1, 2)\n        features = self.layer_norm(features)\n        unmasked_features = features.clone()\n\n        if padding_mask is not None and padding_mask.any():\n            input_lengths = (1 - padding_mask.long()).sum(-1)\n            # apply conv formula to get real output_lengths\n            output_lengths = self._get_feat_extract_output_lengths(input_lengths)\n\n            padding_mask = torch.zeros(\n                features.shape[:2], dtype=features.dtype, device=features.device\n            )\n\n            # these two operations makes sure that all values\n            # before the output lengths indices are attended to\n            padding_mask[\n                (\n                    torch.arange(padding_mask.shape[0], device=padding_mask.device),\n                    output_lengths - 1,\n                )\n            ] = 1\n            padding_mask = (1 - padding_mask.flip([-1]).cumsum(-1).flip([-1])).bool()\n        else:\n            padding_mask = None\n\n        time_steps_to_drop = features.size(1) % self.crop_seq_to_multiple\n        if time_steps_to_drop != 0:\n            features = features[:, :-time_steps_to_drop]\n            unmasked_features = unmasked_features[:, :-time_steps_to_drop]\n            if padding_mask is not None:\n                padding_mask = padding_mask[:, :-time_steps_to_drop]\n\n        if self.post_extract_proj is not None:\n            features = self.post_extract_proj(features)\n\n        features = self.dropout_input(features)\n        unmasked_features = self.dropout_features(unmasked_features)\n\n        num_vars = None\n        code_ppl = None\n        prob_ppl = None\n        curr_temp = None\n\n        if self.input_quantizer:\n            q = self.input_quantizer(features, produce_targets=False)\n            features = q[\"x\"]\n            num_vars = q[\"num_vars\"]\n            code_ppl = q[\"code_perplexity\"]\n            prob_ppl = q[\"prob_perplexity\"]\n            curr_temp = q[\"temp\"]\n            features = self.project_inp(features)\n\n        if mask:\n            x, mask_indices = self.apply_mask(\n                features,\n                padding_mask,\n                mask_indices=mask_indices,\n                mask_channel_indices=mask_channel_indices,\n            )\n            if not is_xla_tensor(x) and mask_indices is not None:\n                # tpu-comment: reducing the size in a dynamic way causes\n                # too many recompilations on xla.\n                y = unmasked_features[mask_indices].view(\n                    unmasked_features.size(0), -1, unmasked_features.size(-1)\n                )\n            else:\n                y = unmasked_features\n        else:\n            x = features\n            y = unmasked_features\n            mask_indices = None\n\n        x, layer_results = self.encoder(\n            x, padding_mask=padding_mask, layer=layer, corpus_key=corpus_key\n        )\n\n        if features_only:\n            return {\n                \"x\": x,\n                \"padding_mask\": padding_mask,\n                \"features\": unmasked_features,\n                \"layer_results\": layer_results,\n            }\n\n        if self.quantizer:\n            if self.negatives_from_everywhere:\n                q = self.quantizer(unmasked_features, produce_targets=False)\n                y = q[\"x\"]\n                num_vars = q[\"num_vars\"]\n                code_ppl = q[\"code_perplexity\"]\n                prob_ppl = q[\"prob_perplexity\"]\n                curr_temp = q[\"temp\"]\n                y = self.project_q(y)\n\n                negs, _ = self.sample_negatives(\n                    y,\n                    mask_indices[0].sum(),\n                    padding_count=padding_count,\n                )\n                y = y[mask_indices].view(y.size(0), -1, y.size(-1))\n\n            else:\n                q = self.quantizer(y, produce_targets=False)\n                y = q[\"x\"]\n                num_vars = q[\"num_vars\"]\n                code_ppl = q[\"code_perplexity\"]\n                prob_ppl = q[\"prob_perplexity\"]\n                curr_temp = q[\"temp\"]\n\n                y = self.project_q(y)\n\n                negs, _ = self.sample_negatives(\n                    y,\n                    y.size(1),\n                    padding_count=padding_count,\n                )\n\n            if self.codebook_negatives > 0:\n                cb_negs = self.quantizer.sample_from_codebook(\n                    y.size(0) * y.size(1), self.codebook_negatives\n                )\n                cb_negs = cb_negs.view(\n                    self.codebook_negatives, y.size(0), y.size(1), -1\n                )  # order doesnt matter\n                cb_negs = self.project_q(cb_negs)\n                negs = torch.cat([negs, cb_negs], dim=0)\n        else:\n            y = self.project_q(y)\n\n            if self.negatives_from_everywhere:\n                negs, _ = self.sample_negatives(\n                    unmasked_features,\n                    y.size(1),\n                    padding_count=padding_count,\n                )\n                negs = self.project_q(negs)\n            else:\n                negs, _ = self.sample_negatives(\n                    y,\n                    y.size(1),\n                    padding_count=padding_count,\n                )\n\n        if not is_xla_tensor(x):\n            # tpu-comment: reducing the size in a dynamic way causes\n            # too many recompilations on xla.\n            x = x[mask_indices].view(x.size(0), -1, x.size(-1))\n\n        if self.target_glu:\n            y = self.target_glu(y)\n            negs = self.target_glu(negs)\n\n        x = self.final_proj(x)\n        x = self.compute_preds(x, y, negs)\n\n        result = {\n            \"x\": x,\n            \"padding_mask\": padding_mask,\n            \"features_pen\": features_pen,\n        }\n\n        if prob_ppl is not None:\n            result[\"prob_perplexity\"] = prob_ppl\n            result[\"code_perplexity\"] = code_ppl\n            result[\"num_vars\"] = num_vars\n            result[\"temp\"] = curr_temp\n\n        return result\n\n    def quantize(self, x):\n        assert self.quantizer is not None\n        x = self.feature_extractor(x)\n        x = x.transpose(1, 2)\n        x = self.layer_norm(x)\n        return self.quantizer.forward_idx(x)\n\n    def extract_features(\n        self, source, padding_mask, mask=False, layer=None, corpus_key=None\n    ):\n        res = self.forward(\n            source,\n            padding_mask,\n            mask=mask,\n            features_only=True,\n            layer=layer,\n            corpus_key=corpus_key,\n        )\n        return res\n\n    def get_logits(self, net_output):\n        logits = net_output[\"x\"]\n        logits = logits.transpose(0, 2)\n        logits = logits.reshape(-1, logits.size(-1))\n        return logits\n\n    def get_targets(self, sample, net_output, expand_steps=True):\n        x = net_output[\"x\"]\n        return x.new_zeros(x.size(1) * x.size(2), dtype=torch.long)\n\n    def get_extra_losses(self, net_output):\n        pen = []\n\n        if \"prob_perplexity\" in net_output:\n            pen.append(\n                (net_output[\"num_vars\"] - net_output[\"prob_perplexity\"])\n                / net_output[\"num_vars\"]\n            )\n\n        if \"features_pen\" in net_output:\n            pen.append(net_output[\"features_pen\"])\n\n        return pen\n\n    def remove_pretraining_modules(self, last_layer=None):\n        self.quantizer = None\n        self.project_q = None\n        self.target_glu = None\n        self.final_proj = None\n\n        if last_layer is not None:\n            self.encoder.layers = nn.ModuleList(\n                l for i, l in enumerate(self.encoder.layers) if i <= last_layer\n            )\n\n\nclass ConvFeatureExtractionModel(nn.Module):\n    def __init__(\n        self,\n        conv_layers: List[Tuple[int, int, int]],\n        dropout: float = 0.0,\n        mode: str = \"default\",\n        conv_bias: bool = False,\n    ):\n        super().__init__()\n\n        assert mode in {\"default\", \"layer_norm\"}\n\n        def block(\n            n_in,\n            n_out,\n            k,\n            stride,\n            is_layer_norm=False,\n            is_group_norm=False,\n            conv_bias=False,\n        ):\n            def make_conv():\n                conv = nn.Conv1d(n_in, n_out, k, stride=stride, bias=conv_bias)\n                nn.init.kaiming_normal_(conv.weight)\n                return conv\n\n            assert (\n                is_layer_norm and is_group_norm\n            ) == False, \"layer norm and group norm are exclusive\"\n\n            if is_layer_norm:\n                return nn.Sequential(\n                    make_conv(),\n                    nn.Dropout(p=dropout),\n                    nn.Sequential(\n                        TransposeLast(),\n                        Fp32LayerNorm(dim, elementwise_affine=True),\n                        TransposeLast(),\n                    ),\n                    nn.GELU(),\n                )\n            elif is_group_norm:\n                return nn.Sequential(\n                    make_conv(),\n                    nn.Dropout(p=dropout),\n                    Fp32GroupNorm(dim, dim, affine=True),\n                    nn.GELU(),\n                )\n            else:\n                return nn.Sequential(make_conv(), nn.Dropout(p=dropout), nn.GELU())\n\n        in_d = 1\n        self.conv_layers = nn.ModuleList()\n        for i, cl in enumerate(conv_layers):\n            assert len(cl) == 3, \"invalid conv definition: \" + str(cl)\n            (dim, k, stride) = cl\n\n            self.conv_layers.append(\n                block(\n                    in_d,\n                    dim,\n                    k,\n                    stride,\n                    is_layer_norm=mode == \"layer_norm\",\n                    is_group_norm=mode == \"default\" and i == 0,\n                    conv_bias=conv_bias,\n                )\n            )\n            in_d = dim\n\n    def forward(self, x):\n\n        # BxT -> BxCxT\n        x = x.unsqueeze(1)\n\n        for conv in self.conv_layers:\n            x = conv(x)\n\n        return x\n\n\ndef make_conv_pos(e, k, g, is_batch_norm=False):\n    pos_conv = nn.Conv1d(\n        e,\n        e,\n        kernel_size=k,\n        padding=k // 2,\n        groups=g,\n    )\n    dropout = 0\n    std = math.sqrt((4 * (1.0 - dropout)) / (k * e))\n    nn.init.normal_(pos_conv.weight, mean=0, std=std)\n    nn.init.constant_(pos_conv.bias, 0)\n\n    if not is_batch_norm:\n        pos_conv = nn.utils.weight_norm(pos_conv, name=\"weight\", dim=2)\n        pos_conv = nn.Sequential(pos_conv, SamePad(k), nn.GELU())\n    else:\n        batch_norm = nn.BatchNorm1d(e)\n        pos_conv = nn.Sequential(batch_norm, pos_conv, SamePad(k), nn.GELU())\n\n    return pos_conv\n\n\nclass TransformerEncoder(nn.Module):\n    def build_encoder_layer(self, args: Wav2Vec2Config, **kwargs):\n        if args.layer_type == \"transformer\":\n            layer = TransformerSentenceEncoderLayer(\n                embedding_dim=self.embedding_dim,\n                ffn_embedding_dim=args.encoder_ffn_embed_dim,\n                num_attention_heads=args.encoder_attention_heads,\n                dropout=self.dropout,\n                attention_dropout=args.attention_dropout,\n                activation_dropout=args.activation_dropout,\n                activation_fn=args.activation_fn,\n                layer_norm_first=args.layer_norm_first,\n            )\n        elif args.layer_type == \"conformer\":\n            layer = ConformerWav2Vec2EncoderLayer(\n                embed_dim=self.embedding_dim,\n                ffn_embed_dim=args.encoder_ffn_embed_dim,\n                attention_heads=args.encoder_attention_heads,\n                dropout=args.dropout,\n                depthwise_conv_kernel_size=args.depthwise_conv_kernel_size,\n                activation_fn=\"swish\",\n                attn_type=args.attn_type,\n                use_fp16=args.fp16,\n                pos_enc_type=\"abs\",\n            )\n        elif args.layer_type == \"trf_adp\":\n            use_adp = False\n            if args.adp_trf_idx == \"all\":\n                use_adp = True\n            else:\n                adp_trf_idx = list(range(*[int(g) for g in args.adp_trf_idx.split(\":\")]))\n                if kwargs.get(\"layer_idx\", None) in adp_trf_idx:\n                    use_adp = True\n            if use_adp:\n                layer = TransformerSentenceEncoderWithAdapterLayer(\n                    embedding_dim=self.embedding_dim,\n                    ffn_embedding_dim=args.encoder_ffn_embed_dim,\n                    num_attention_heads=args.encoder_attention_heads,\n                    dropout=self.dropout,\n                    attention_dropout=args.attention_dropout,\n                    activation_dropout=args.activation_dropout,\n                    activation_fn=args.activation_fn,\n                    layer_norm_first=args.layer_norm_first,\n                    adapter_num=args.adp_num,\n                    adapter_dim=args.adp_dim,\n                    adapter_act_fn=args.adp_act_fn,\n                )\n            else:\n                layer = TransformerSentenceEncoderLayer(\n                    embedding_dim=self.embedding_dim,\n                    ffn_embedding_dim=args.encoder_ffn_embed_dim,\n                    num_attention_heads=args.encoder_attention_heads,\n                    dropout=self.dropout,\n                    attention_dropout=args.attention_dropout,\n                    activation_dropout=args.activation_dropout,\n                    activation_fn=args.activation_fn,\n                    layer_norm_first=args.layer_norm_first,\n                )\n\n        layer = fsdp_wrap(layer)\n        if args.checkpoint_activations:\n            layer = checkpoint_wrapper(layer)\n        return layer\n\n    def __init__(self, args: Wav2Vec2Config, skip_pos_conv: bool = False, override_encoder_layer: int = None):\n        super().__init__()\n\n        self.dropout = args.dropout\n        self.embedding_dim = args.encoder_embed_dim\n        self.required_seq_len_multiple = args.required_seq_len_multiple\n\n        pos_conv_depth = getattr(args, \"pos_conv_depth\", 1)\n        if pos_conv_depth > 1:\n            num_layers = args.pos_conv_depth\n            k = max(3, args.conv_pos // num_layers)\n\n            def make_conv_block(e, k, g, l):\n                return nn.Sequential(\n                    *[\n                        nn.Sequential(\n                            nn.Conv1d(\n                                e,\n                                e,\n                                kernel_size=k,\n                                padding=k // 2,\n                                groups=g,\n                            ),\n                            SamePad(k),\n                            TransposeLast(),\n                            LayerNorm(e, elementwise_affine=False),\n                            TransposeLast(),\n                            nn.GELU(),\n                        )\n                        for _ in range(l)\n                    ]\n                )\n\n            self.pos_conv = make_conv_block(\n                self.embedding_dim, k, args.conv_pos_groups, num_layers\n            )\n        elif skip_pos_conv:\n            self.pos_conv = None\n        else:\n            self.pos_conv = make_conv_pos(\n                self.embedding_dim,\n                args.conv_pos,\n                args.conv_pos_groups,\n                is_batch_norm=args.conv_pos_batch_norm\n                if hasattr(args, \"conv_pos_batch_norm\")\n                else False,\n            )\n\n        if override_encoder_layer is None:\n            encoder_layers = args.encoder_layers\n        else:\n            encoder_layers = override_encoder_layer\n\n        self.layers = nn.ModuleList(\n            [self.build_encoder_layer(args, layer_idx=ii) for ii in range(encoder_layers)]\n        )\n        self.layer_norm_first = args.layer_norm_first\n        self.layer_norm = LayerNorm(self.embedding_dim)\n        self.layerdrop = args.encoder_layerdrop\n\n        self.apply(init_bert_params)\n\n    def forward(self, x, padding_mask=None, layer=None, corpus_key=None):\n        x, layer_results = self.extract_features(\n            x, padding_mask, layer, corpus_key=corpus_key\n        )\n\n        if self.layer_norm_first and layer is None:\n            x = self.layer_norm(x)\n\n        return x, layer_results\n\n    def extract_features(\n        self,\n        x,\n        padding_mask=None,\n        tgt_layer=None,\n        min_layer=0,\n        corpus_key=None,\n    ):\n\n        if padding_mask is not None:\n            x = index_put(x, padding_mask, 0)\n\n        if self.pos_conv is not None:\n            x_conv = self.pos_conv(x.transpose(1, 2))\n            x_conv = x_conv.transpose(1, 2)\n            x = x + x_conv\n\n        if not self.layer_norm_first:\n            x = self.layer_norm(x)\n\n        # pad to the sequence length dimension\n        x, pad_length = pad_to_multiple(\n            x, self.required_seq_len_multiple, dim=-2, value=0\n        )\n        if pad_length > 0 and padding_mask is None:\n            padding_mask = x.new_zeros((x.size(0), x.size(1)), dtype=torch.bool)\n            padding_mask[:, -pad_length:] = True\n        else:\n            padding_mask, _ = pad_to_multiple(\n                padding_mask, self.required_seq_len_multiple, dim=-1, value=True\n            )\n        x = F.dropout(x, p=self.dropout, training=self.training)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        layer_results = []\n        r = None\n\n        for i, layer in enumerate(self.layers):\n            dropout_probability = np.random.random() if self.layerdrop > 0 else 1\n            if not self.training or (dropout_probability > self.layerdrop):\n                layer_check = layer\n                if isinstance(layer, FullyShardedDataParallel):\n                    layer_check = layer.unwrapped_module\n                if (corpus_key is None) or (\n                    not isinstance(layer_check, (\n                        TransformerSentenceEncoderWithAdapterLayer,\n                        )\n                    )\n                ):\n                    x, (z, lr) = layer(\n                        x, self_attn_padding_mask=padding_mask, need_weights=False\n                    )\n                else:\n                    x, (z, lr) = layer(\n                        x,\n                        self_attn_padding_mask=padding_mask,\n                        need_weights=False,\n                        corpus_key=corpus_key,\n                    )\n                if i >= min_layer:\n                    layer_results.append((x, z, lr))\n            if i == tgt_layer:\n                r = x\n                break\n\n        if r is not None:\n            x = r\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        # undo paddding\n        if pad_length > 0:\n            x = x[:, :-pad_length]\n\n            def undo_pad(a, b, c):\n                return (\n                    a[:-pad_length],\n                    b[:-pad_length] if b is not None else b,\n                    c[:-pad_length],\n                )\n\n            layer_results = [undo_pad(*u) for u in layer_results]\n\n        return x, layer_results\n\n    def max_positions(self):\n        \"\"\"Maximum output length supported by the encoder.\"\"\"\n        return self.args.max_positions\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        \"\"\"Upgrade a (possibly old) state dict for new versions of fairseq.\"\"\"\n        return state_dict\n\n\nclass ConformerEncoder(TransformerEncoder):\n    def build_encoder_layer(self, args):\n        layer = ConformerWav2Vec2EncoderLayer(\n            embed_dim=self.embedding_dim,\n            ffn_embed_dim=args.encoder_ffn_embed_dim,\n            attention_heads=args.encoder_attention_heads,\n            dropout=args.dropout,\n            depthwise_conv_kernel_size=args.depthwise_conv_kernel_size,\n            activation_fn=\"swish\",\n            attn_type=args.attn_type,\n            pos_enc_type=args.pos_enc_type,\n            use_fp16=args.fp16,  # only used for rope\n        )\n        layer = fsdp_wrap(layer)\n        if args.checkpoint_activations:\n            layer = checkpoint_wrapper(layer)\n        return layer\n\n    def __init__(self, args):\n        super().__init__(args)\n        self.args = args\n        self.dropout = args.dropout\n        self.embedding_dim = args.encoder_embed_dim\n        self.pos_enc_type = args.pos_enc_type\n        max_source_positions = self.max_positions()\n\n        if self.pos_enc_type == \"rel_pos\":\n            self.embed_positions = RelPositionalEncoding(\n                max_source_positions, self.embedding_dim\n            )\n        elif self.pos_enc_type == \"rope\":\n            self.embed_positions = None\n        else:\n            raise Exception(\"Unsupported positional encoding type\")\n\n        self.layers = nn.ModuleList(\n            [self.build_encoder_layer(args) for _ in range(args.encoder_layers)]\n        )\n        self.layer_norm_first = args.layer_norm_first\n        self.layer_norm = LayerNorm(self.embedding_dim)\n        self.layerdrop = args.encoder_layerdrop\n\n        self.apply(init_bert_params)\n\n    def extract_features(self, x, padding_mask=None, tgt_layer=None):\n        if padding_mask is not None:\n            x = index_put(x, padding_mask, 0)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        # B X T X C here\n        position_emb = None\n        if self.pos_enc_type == \"rel_pos\":\n            position_emb = self.embed_positions(x)\n\n        if not self.layer_norm_first:\n            x = self.layer_norm(x)\n\n        x = F.dropout(x, p=self.dropout, training=self.training)\n\n        layer_results = []\n        r = None\n        for i, layer in enumerate(self.layers):\n            dropout_probability = np.random.random()\n            if not self.training or (dropout_probability > self.layerdrop):\n                x, z = layer(\n                    x,\n                    self_attn_padding_mask=padding_mask,\n                    need_weights=False,\n                    position_emb=position_emb,\n                )\n                if tgt_layer is not None:\n                    layer_results.append((x, z))\n            if i == tgt_layer:\n                r = x\n                break\n\n        if r is not None:\n            x = r\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        return x, layer_results\n\n\nclass TransformerSentenceEncoderLayer(nn.Module):\n    \"\"\"\n    Implements a Transformer Encoder Layer used in BERT/XLM style pre-trained\n    models.\n    \"\"\"\n\n    def __init__(\n        self,\n        embedding_dim: float = 768,\n        ffn_embedding_dim: float = 3072,\n        num_attention_heads: int = 8,\n        dropout: float = 0.1,\n        attention_dropout: float = 0.1,\n        activation_dropout: float = 0.1,\n        activation_fn: str = \"relu\",\n        layer_norm_first: bool = False,\n    ) -> None:\n\n        super().__init__()\n        # Initialize parameters\n        self.embedding_dim = embedding_dim\n        self.dropout = dropout\n        self.activation_dropout = activation_dropout\n\n        # Initialize blocks\n        self.activation_fn = utils.get_activation_fn(activation_fn)\n        self.self_attn = MultiheadAttention(\n            self.embedding_dim,\n            num_attention_heads,\n            dropout=attention_dropout,\n            self_attention=True,\n        )\n\n        self.dropout1 = nn.Dropout(dropout)\n        self.dropout2 = nn.Dropout(self.activation_dropout)\n        self.dropout3 = nn.Dropout(dropout)\n\n        self.layer_norm_first = layer_norm_first\n\n        # layer norm associated with the self attention layer\n        self.self_attn_layer_norm = LayerNorm(self.embedding_dim)\n        self.fc1 = nn.Linear(self.embedding_dim, ffn_embedding_dim)\n        self.fc2 = nn.Linear(ffn_embedding_dim, self.embedding_dim)\n\n        # layer norm associated with the position wise feed-forward NN\n        self.final_layer_norm = LayerNorm(self.embedding_dim)\n\n    def forward(\n        self,\n        x: torch.Tensor,\n        self_attn_mask: torch.Tensor = None,\n        self_attn_padding_mask: torch.Tensor = None,\n        need_weights: bool = False,\n        att_args=None,\n    ):\n        \"\"\"\n        LayerNorm is applied either before or after the self-attention/ffn\n        modules similar to the original Transformer imlementation.\n        \"\"\"\n        residual = x\n\n        if self.layer_norm_first:\n            x = self.self_attn_layer_norm(x)\n            x, attn = self.self_attn(\n                query=x,\n                key=x,\n                value=x,\n                key_padding_mask=self_attn_padding_mask,\n                attn_mask=self_attn_mask,\n                need_weights=False,\n            )\n            x = self.dropout1(x)\n            x = residual + x\n\n            residual = x\n            x = self.final_layer_norm(x)\n            x = self.activation_fn(self.fc1(x))\n            x = self.dropout2(x)\n            x = self.fc2(x)\n\n            layer_result = x\n\n            x = self.dropout3(x)\n            x = residual + x\n        else:\n            x, attn = self.self_attn(\n                query=x,\n                key=x,\n                value=x,\n                key_padding_mask=self_attn_padding_mask,\n                need_weights=False,\n            )\n\n            x = self.dropout1(x)\n            x = residual + x\n\n            x = self.self_attn_layer_norm(x)\n\n            residual = x\n            x = self.activation_fn(self.fc1(x))\n            x = self.dropout2(x)\n            x = self.fc2(x)\n\n            layer_result = x\n\n            x = self.dropout3(x)\n            x = residual + x\n            x = self.final_layer_norm(x)\n\n        return x, (attn, layer_result)\n\n\nclass AdapterFast(nn.Module):\n    def __init__(self, adapter_num, input_dim, hidden_dim, act_fn):\n        \"\"\"\n        Implements adapter modules directly with 3D tensor weight as parameters\n        and without using ModuleList orto speed up training throughput.\n        \"\"\"\n        super().__init__()\n\n        self.adapter_num = adapter_num\n        self.input_dim = input_dim\n        self.hidden_dim = hidden_dim\n        self.W_a = nn.Parameter(torch.empty(adapter_num, hidden_dim, input_dim))\n        self.W_b = nn.Parameter(torch.empty(adapter_num, input_dim, hidden_dim))\n        self.b_a = nn.Parameter(torch.empty(adapter_num, hidden_dim))\n        self.b_b = nn.Parameter(torch.empty(adapter_num, input_dim))\n\n        self.ln_W = nn.Parameter(torch.empty(adapter_num, input_dim))\n        self.ln_b = nn.Parameter(torch.empty(adapter_num, input_dim))\n        self.act_fn = nn.Identity()\n        if act_fn == \"relu\":\n            self.act_fn = nn.ReLU()\n        elif act_fn == \"gelu\":\n            self.act_fn = nn.GELU()\n        elif act_fn == \"selu\":\n            self.act_fn = nn.SELU()\n        else:\n            raise ValueError(f\"unsupported {act_fn}\")\n\n\n        self.input_dim = input_dim\n        self.reset_parameters()\n\n    def reset_parameters(self):\n        for ii in range(self.adapter_num):\n            nn.init.kaiming_uniform_(self.W_a[ii], a=math.sqrt(5))\n            nn.init.kaiming_uniform_(self.W_b[ii], a=math.sqrt(5))\n            fan_in, _ = nn.init._calculate_fan_in_and_fan_out(self.W_a[ii])\n            bound = 1 / math.sqrt(fan_in) if fan_in > 0 else 0\n            nn.init.uniform_(self.b_a[ii], -bound, bound)\n            fan_in, _ = nn.init._calculate_fan_in_and_fan_out(self.W_b[ii])\n            bound = 1 / math.sqrt(fan_in) if fan_in > 0 else 0\n            nn.init.uniform_(self.b_b[ii], -bound, bound)\n\n        nn.init.ones_(self.ln_W)\n        nn.init.zeros_(self.ln_b)\n\n    def forward(self, x, adapter_id):\n        ii = adapter_id\n        h = x\n        h = F.layer_norm(h, (self.input_dim, ), self.ln_W[ii], self.ln_b[ii])\n        h = F.linear(h, self.W_a[ii], self.b_a[ii])\n        h = self.act_fn(h)\n        h = F.linear(h, self.W_b[ii], self.b_b[ii])\n        outputs = h\n        return outputs\n\n    def extra_repr(self):\n        return ('adapter={}, input_dim={}, hidden_dim={}'.format(self.adapter_num, self.input_dim, self.hidden_dim))\n\n\n\nclass TransformerSentenceEncoderWithAdapterLayer(TransformerSentenceEncoderLayer):\n    \"\"\"\n    Implements a Transformer Encoder Layer with adapters used in BERT/XLM style pre-trained\n    models. An adapter module is added along with vanilla Transformer module.\n    \"\"\"\n\n    def __init__(\n        self,\n        embedding_dim: float = 768,\n        ffn_embedding_dim: float = 3072,\n        num_attention_heads: int = 8,\n        dropout: float = 0.1,\n        attention_dropout: float = 0.1,\n        activation_dropout: float = 0.1,\n        activation_fn: str = \"relu\",\n        layer_norm_first: bool = False,\n        adapter_num=201,\n        adapter_dim=64,\n        adapter_act_fn=\"relu\",\n    ) -> None:\n\n        super().__init__(\n            embedding_dim=embedding_dim,\n            ffn_embedding_dim=ffn_embedding_dim,\n            num_attention_heads=num_attention_heads,\n            dropout=dropout,\n            attention_dropout=attention_dropout,\n            activation_dropout=activation_dropout,\n            activation_fn=activation_fn,\n            layer_norm_first=layer_norm_first,\n\n        )\n\n        self.adapter_num = adapter_num\n        self.adapter_dim = adapter_dim\n        self.adapter_layer = AdapterFast(adapter_num, self.embedding_dim, self.adapter_dim, adapter_act_fn)\n\n    def forward(\n        self,\n        x: torch.Tensor,\n        self_attn_mask: torch.Tensor = None,\n        self_attn_padding_mask: torch.Tensor = None,\n        need_weights: bool = False,\n        att_args=None,\n        corpus_key=None,\n    ):\n\n        x, (attn, layer_result) = super().forward(\n            x=x,\n            self_attn_mask=self_attn_mask,\n            self_attn_padding_mask=self_attn_padding_mask,\n            need_weights=need_weights,\n            att_args=att_args,\n        )\n        assert corpus_key is not None\n        assert len(set(corpus_key)) == 1, f\"corpus_key items are not same {corpus_key}\"\n        y = self.adapter_layer(x, corpus_key[0])\n        x = x + y\n        return x, (attn, layer_result)\n"
  },
  {
    "path": "fairseq/models/wav2vec/wav2vec2_asr.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport contextlib\nimport copy\nimport logging\nimport math\nimport re\nfrom argparse import Namespace\nfrom dataclasses import dataclass, field\nfrom typing import Any, Optional\n\nimport numpy as np\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom omegaconf import II, MISSING, open_dict\n\nfrom fairseq import checkpoint_utils, tasks, utils\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.models import (\n    BaseFairseqModel,\n    FairseqEncoder,\n    FairseqEncoderDecoderModel,\n    FairseqIncrementalDecoder,\n    register_model,\n)\nfrom fairseq.models.wav2vec.wav2vec2 import MASKING_DISTRIBUTION_CHOICES, LAYER_TYPE_CHOICES, AdapterFast\nfrom fairseq.modules import LayerNorm, PositionalEmbedding, TransformerDecoderLayer\nfrom fairseq.tasks import FairseqTask\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass Wav2Vec2AsrConfig(FairseqDataclass):\n    w2v_path: str = field(\n        default=MISSING, metadata={\"help\": \"path to wav2vec 2.0 model\"}\n    )\n    no_pretrained_weights: bool = field(\n        default=False, metadata={\"help\": \"if true, does not load pretrained weights\"}\n    )\n    dropout_input: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout to apply to the input (after feat extr)\"},\n    )\n\n    final_dropout: float = field(\n        default=0.0,\n        metadata={\"help\": \"dropout after transformer and before final projection\"},\n    )\n    dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout probability inside wav2vec 2.0 model\"}\n    )\n    attention_dropout: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"dropout probability for attention weights inside wav2vec 2.0 model\"\n        },\n    )\n    activation_dropout: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"dropout probability after activation in FFN inside wav2vec 2.0 model\"\n        },\n    )\n\n    # masking\n    apply_mask: bool = field(\n        default=False, metadata={\"help\": \"apply masking during fine-tuning\"}\n    )\n    mask_length: int = field(\n        default=10, metadata={\"help\": \"repeat the mask indices multiple times\"}\n    )\n    mask_prob: float = field(\n        default=0.5,\n        metadata={\n            \"help\": \"probability of replacing a token with mask (normalized by length)\"\n        },\n    )\n    mask_selection: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\", metadata={\"help\": \"how to choose masks\"}\n    )\n    mask_other: float = field(\n        default=0,\n        metadata={\n            \"help\": \"secondary mask argument (used for more complex distributions), \"\n            \"see help in compute_mask_indices\"\n        },\n    )\n    no_mask_overlap: bool = field(\n        default=False, metadata={\"help\": \"whether to allow masks to overlap\"}\n    )\n    mask_min_space: Optional[int] = field(\n        default=1,\n        metadata={\"help\": \"min space between spans (if no overlap is enabled)\"},\n    )\n    require_same_masks: bool = field(\n        default=True,\n        metadata={\n            \"help\": \"whether to number of masked timesteps must be the same across all \"\n            \"examples in a batch\"\n        },\n    )\n    mask_dropout: float = field(\n        default=0.0,\n        metadata={\"help\": \"percent of masks to unmask for each sample\"},\n    )\n\n    # channel masking\n    mask_channel_length: int = field(\n        default=10, metadata={\"help\": \"length of the mask for features (channels)\"}\n    )\n    mask_channel_prob: float = field(\n        default=0.0, metadata={\"help\": \"probability of replacing a feature with 0\"}\n    )\n    mask_channel_selection: MASKING_DISTRIBUTION_CHOICES = field(\n        default=\"static\",\n        metadata={\"help\": \"how to choose mask length for channel masking\"},\n    )\n    mask_channel_other: float = field(\n        default=0,\n        metadata={\n            \"help\": \"secondary mask argument (used for more complex distributions), \"\n            \"see help in compute_mask_indicesh\"\n        },\n    )\n    no_mask_channel_overlap: bool = field(\n        default=False, metadata={\"help\": \"whether to allow channel masks to overlap\"}\n    )\n    freeze_finetune_updates: int = field(\n        default=0, metadata={\"help\": \"dont finetune wav2vec for this many updates\"}\n    )\n    feature_grad_mult: float = field(\n        default=0.0, metadata={\"help\": \"reset feature grad mult in wav2vec 2.0 to this\"}\n    )\n    layerdrop: float = field(\n        default=0.0, metadata={\"help\": \"probability of dropping a layer in wav2vec 2.0\"}\n    )\n    drop_path: float = 0\n    mask_channel_min_space: Optional[int] = field(\n        default=1,\n        metadata={\"help\": \"min space between spans (if no overlap is enabled)\"},\n    )\n    mask_channel_before: bool = False\n    normalize: bool = II(\"task.normalize\")\n    update_alibi: bool = True\n    data: str = II(\"task.data\")\n    # this holds the loaded wav2vec args\n    w2v_args: Any = None\n    offload_activations: bool = field(\n        default=False, metadata={\"help\": \"offload_activations\"}\n    )\n    min_params_to_wrap: int = field(\n        default=int(1e8),\n        metadata={\n            \"help\": \"minimum number of params for a layer to be wrapped with FSDP() when \"\n            \"training with --ddp-backend=fully_sharded. Smaller values will \"\n            \"improve memory efficiency, but may make torch.distributed \"\n            \"communication less efficient due to smaller input sizes. This option \"\n            \"is set to 0 (i.e., always wrap) when --checkpoint-activations or \"\n            \"--offload-activations are passed.\"\n        },\n    )\n\n    checkpoint_activations: bool = field(\n        default=False,\n        metadata={\"help\": \"recompute activations and save memory for extra compute\"},\n    )\n    ddp_backend: str = II(\"distributed_training.ddp_backend\")\n\n    zero_mask: bool = False\n    load_ema: bool = False\n\n    layer_decay: float = 1\n\n\n    layer_type: LAYER_TYPE_CHOICES = field(\n        default=\"transformer\", metadata={\"help\": \"layer type in encoder\"}\n    )\n    # Adapter num\n    adp_num: int = field(\n        default=-1\n    )\n    adp_dim: int = field(\n        default=64\n    )\n    adp_act_fn: str = field(\n        default=\"relu\"\n    )\n    adp_trf_idx: str = field(\n        default=\"all\",\n    )\n\n    freeze_regex: Optional[str] = field(\n        default=None,\n    )\n\n@dataclass\nclass Wav2Vec2CtcConfig(Wav2Vec2AsrConfig):\n    blank_weight: float = 0\n    blank_mode: str = \"add\"\n\n\n@register_model(\"wav2vec_ctc\", dataclass=Wav2Vec2CtcConfig)\nclass Wav2VecCtc(BaseFairseqModel):\n    def __init__(self, cfg: Wav2Vec2CtcConfig, w2v_encoder: BaseFairseqModel):\n        super().__init__()\n        self.cfg = cfg\n        self.w2v_encoder = w2v_encoder\n        self.blank_weight = cfg.blank_weight\n        self.blank_mode = cfg.blank_mode\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        super().upgrade_state_dict_named(state_dict, name)\n        return state_dict\n\n    @classmethod\n    def build_model(cls, cfg: Wav2Vec2CtcConfig, task: FairseqTask):\n        \"\"\"Build a new model instance.\"\"\"\n        w2v_encoder = Wav2VecEncoder(cfg, len(task.target_dictionary))\n        return cls(cfg, w2v_encoder)\n\n    def get_logits(self, net_output, normalize=False):\n        logits = net_output[\"encoder_out\"]\n        if self.blank_weight != 0:\n            if self.blank_mode == \"add\":\n                logits[..., 0] += self.blank_weight\n            elif self.blank_mode == \"set\":\n                logits[..., 0] = self.blank_weight\n            else:\n                raise Exception(f\"invalid blank mode {self.blank_mode}\")\n\n        if net_output[\"padding_mask\"] is not None and net_output[\"padding_mask\"].any():\n            number_of_classes = logits.size(-1)\n            masking_tensor = torch.ones(\n                number_of_classes, device=logits.device\n            ) * float(\"-inf\")\n            masking_tensor[0] = 0\n\n            if logits.size(0) > net_output[\"padding_mask\"].size(1):\n                net_output[\"padding_mask\"] = F.pad(\n                    net_output[\"padding_mask\"], (1, 0), value=False\n                )\n\n            logits[net_output[\"padding_mask\"].T] = masking_tensor.type_as(logits)\n\n        if normalize:\n            logits = utils.log_softmax(logits.float(), dim=-1)\n\n        return logits\n\n    def get_normalized_probs(self, net_output, log_probs):\n        \"\"\"Get normalized probabilities (or log probs) from a net's output.\"\"\"\n\n        logits = self.get_logits(net_output)\n\n        if log_probs:\n            return utils.log_softmax(logits.float(), dim=-1)\n        else:\n            return utils.softmax(logits.float(), dim=-1)\n\n    def forward(self, **kwargs):\n        x = self.w2v_encoder(**kwargs)\n        return x\n\n\n@dataclass\nclass Wav2Vec2Seq2SeqConfig(Wav2Vec2AsrConfig):\n    decoder_embed_dim: int = field(\n        default=768, metadata={\"help\": \"decoder embedding dimension\"}\n    )\n    decoder_ffn_embed_dim: int = field(\n        default=3072, metadata={\"help\": \"decoder embedding dimension for FFN\"}\n    )\n    decoder_layers: int = field(default=6, metadata={\"help\": \"num of decoder layers\"})\n    decoder_layerdrop: float = field(\n        default=0.0, metadata={\"help\": \"decoder layerdrop chance\"}\n    )\n    decoder_attention_heads: int = field(\n        default=4, metadata={\"help\": \"num decoder attention heads\"}\n    )\n    decoder_learned_pos: bool = field(\n        default=False,\n        metadata={\"help\": \"use learned positional embeddings in the decoder\"},\n    )\n    decoder_normalize_before: bool = field(\n        default=False, metadata={\"help\": \"apply layernorm before each decoder block\"}\n    )\n    no_token_positional_embeddings: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, disables positional embeddings (outside self attention)\"\n        },\n    )\n    decoder_dropout: float = field(\n        default=0.0, metadata={\"help\": \"dropout probability in the decoder\"}\n    )\n    decoder_attention_dropout: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"dropout probability for attention weights inside the decoder\"\n        },\n    )\n    decoder_activation_dropout: float = field(\n        default=0.0,\n        metadata={\n            \"help\": \"dropout probability after activation in FFN inside the decoder\"\n        },\n    )\n    max_target_positions: int = field(\n        default=2048, metadata={\"help\": \"max target positions\"}\n    )\n    share_decoder_input_output_embed: bool = field(\n        default=False, metadata={\"help\": \"share decoder input and output embeddings\"}\n    )\n    autoregressive: bool = II(\"task.autoregressive\")\n\n\n@register_model(\"wav2vec_seq2seq\", dataclass=Wav2Vec2Seq2SeqConfig)\nclass Wav2Vec2Seq2SeqModel(FairseqEncoderDecoderModel):\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @classmethod\n    def build_model(cls, cfg: Wav2Vec2Seq2SeqConfig, task: FairseqTask):\n        \"\"\"Build a new model instance.\"\"\"\n\n        assert (\n            cfg.autoregressive\n        ), \"Please set task.autoregressive=true for seq2seq asr models\"\n\n        src_dict, tgt_dict = task.source_dictionary, task.target_dictionary\n\n        def build_embedding(dictionary, embed_dim):\n            num_embeddings = len(dictionary)\n            padding_idx = dictionary.pad()\n            emb = Embedding(num_embeddings, embed_dim, padding_idx)\n            return emb\n\n        decoder_embed_tokens = build_embedding(tgt_dict, cfg.decoder_embed_dim)\n\n        encoder = cls.build_encoder(cfg)\n        decoder = cls.build_decoder(cfg, tgt_dict, decoder_embed_tokens)\n\n        return Wav2Vec2Seq2SeqModel(encoder, decoder)\n\n    @classmethod\n    def build_encoder(cls, cfg: Wav2Vec2AsrConfig):\n        return Wav2VecEncoder(cfg)\n\n    @classmethod\n    def build_decoder(cls, cfg: Wav2Vec2Seq2SeqConfig, tgt_dict, embed_tokens):\n        return TransformerDecoder(cfg, tgt_dict, embed_tokens)\n\n    def forward(self, **kwargs):\n        encoder_out = self.encoder(**kwargs)\n        decoder_out = self.decoder(encoder_out=encoder_out, **kwargs)\n        return decoder_out\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        super().upgrade_state_dict_named(state_dict, name)\n        return state_dict\n\n\nclass Wav2VecEncoder(FairseqEncoder):\n    def __init__(self, cfg: Wav2Vec2AsrConfig, output_size=None):\n        self.apply_mask = cfg.apply_mask\n\n        arg_overrides = {\n            \"dropout\": cfg.dropout,\n            \"activation_dropout\": cfg.activation_dropout,\n            \"dropout_input\": cfg.dropout_input,\n            \"attention_dropout\": cfg.attention_dropout,\n            \"mask_length\": cfg.mask_length,\n            \"mask_prob\": cfg.mask_prob,\n            \"require_same_masks\": getattr(cfg, \"require_same_masks\", True),\n            \"pct_holes\": getattr(cfg, \"mask_dropout\", 0),\n            \"mask_selection\": cfg.mask_selection,\n            \"mask_other\": cfg.mask_other,\n            \"no_mask_overlap\": cfg.no_mask_overlap,\n            \"mask_channel_length\": cfg.mask_channel_length,\n            \"mask_channel_prob\": cfg.mask_channel_prob,\n            \"mask_channel_before\": cfg.mask_channel_before,\n            \"mask_channel_selection\": cfg.mask_channel_selection,\n            \"mask_channel_other\": cfg.mask_channel_other,\n            \"no_mask_channel_overlap\": cfg.no_mask_channel_overlap,\n            \"encoder_layerdrop\": cfg.layerdrop,\n            \"feature_grad_mult\": cfg.feature_grad_mult,\n            \"checkpoint_activations\": cfg.checkpoint_activations,\n            \"offload_activations\": cfg.offload_activations,\n            \"min_params_to_wrap\": cfg.min_params_to_wrap,\n            # d2v multi args\n            \"encoder_dropout\": cfg.dropout,\n            \"drop_path\": getattr(cfg, \"drop_path\", 0),\n            \"mask_dropout\": getattr(cfg, \"mask_dropout\", 0),\n            \"zero_mask\": getattr(cfg, \"zero_mask\", False),\n            \"local_grad_mult\": cfg.feature_grad_mult,\n            \"layerdrop\": cfg.layerdrop,\n            \"prenet_layerdrop\": cfg.layerdrop,\n            \"prenet_dropout\": cfg.dropout,\n            \"post_mlp_drop\": cfg.dropout,\n            \"encoder_zero_mask\": getattr(cfg, \"zero_mask\", False),\n            \"inverse_mask\": False,\n            \"learned_alibi_scale\": getattr(cfg, \"update_alibi\", True),\n        }\n\n        if cfg.w2v_args is None:\n            state = checkpoint_utils.load_checkpoint_to_cpu(cfg.w2v_path, arg_overrides)\n            w2v_args = state.get(\"cfg\", None)\n            if w2v_args is None:\n                w2v_args = convert_namespace_to_omegaconf(state[\"args\"])\n            w2v_args.criterion = None\n            w2v_args.lr_scheduler = None\n\n            cfg.w2v_args = w2v_args\n\n            logger.info(w2v_args)\n\n        else:\n            state = None\n            w2v_args = cfg.w2v_args\n            if isinstance(w2v_args, Namespace):\n                cfg.w2v_args = w2v_args = convert_namespace_to_omegaconf(w2v_args)\n\n        self.is_d2v_multi = \"data2vec_multi\" in w2v_args.model.get(\"_name\", None)\n\n        if not self.is_d2v_multi:\n            model_normalized = w2v_args.task.get(\n                \"normalize\", w2v_args.model.get(\"normalize\", False)\n            )\n            assert cfg.normalize == model_normalized, (\n                \"Fine-tuning works best when data normalization is the same. \"\n                \"Please check that --normalize is set or unset for both pre-training and here\"\n            )\n\n            with open_dict(w2v_args):\n                args_replacement = [\"checkpoint_activations\", \"layer_type\", \n                    \"adp_num\", \"adp_dim\",\n                    \"adp_act_fn\", \"adp_trf_idx\"]\n                for _args in args_replacement:\n                    if hasattr(cfg, _args) and getattr(cfg, _args, None) is not None:\n                        w2v_args.model[_args] = getattr(cfg, _args, None)\n\n            if hasattr(cfg, \"checkpoint_activations\") and cfg.checkpoint_activations:\n                with open_dict(w2v_args):\n                    w2v_args.model.checkpoint_activations = cfg.checkpoint_activations\n\n            w2v_args.task.data = cfg.data\n            task = tasks.setup_task(w2v_args.task, from_checkpoint=True)\n            model = task.build_model(w2v_args.model, from_checkpoint=True)\n            model.remove_pretraining_modules()\n            d = w2v_args.model.encoder_embed_dim\n        else:\n            assert cfg.normalize\n\n            if hasattr(w2v_args.task, \"audio\"):\n                w2v_args.task.audio.data = cfg.data\n            else:\n                w2v_args.task.data = cfg.data\n            task = tasks.setup_task(w2v_args.task, from_checkpoint=True)\n\n            model = task.build_model(w2v_args.model, from_checkpoint=True)\n\n            model.remove_pretraining_modules(modality=\"audio\")\n            d = w2v_args.model.embed_dim\n\n        if state is not None and not cfg.no_pretrained_weights:\n            if cfg.load_ema:\n                assert \"_ema\" in state[\"model\"]\n                for k in state[\"model\"][\"_ema\"]:\n                    mk = \"encoder.\" + k\n                    assert mk in state[\"model\"], mk\n                    state[\"model\"][mk] = state[\"model\"][\"_ema\"][k]\n            self.load_model_weights(state, model, cfg)\n\n        super().__init__(task.source_dictionary)\n\n        self.w2v_model = model\n\n        self.final_dropout = nn.Dropout(cfg.final_dropout)\n        self.freeze_finetune_updates = cfg.freeze_finetune_updates\n        self.num_updates = 0\n\n        targ_d = None\n        self.proj = None\n\n        if output_size is not None:\n            targ_d = output_size\n        elif getattr(cfg, \"decoder_embed_dim\", d) != d:\n            targ_d = cfg.decoder_embed_dim\n\n        if targ_d is not None:\n            self.proj = Linear(d, targ_d)\n\n        if cfg.freeze_regex is not None:\n            self.freeze_regex(cfg.freeze_regex)\n\n        layer_decay = getattr(cfg, \"layer_decay\", 1)\n        if layer_decay < 1:\n            mod_encs = list(model.modality_encoders.values())\n            assert len(mod_encs) == 1, len(mod_encs)\n            blocks = list(mod_encs[0].context_encoder.blocks) + list(model.blocks)\n            num_layers = len(blocks) + 1\n            layer_scales = list(\n                layer_decay ** (num_layers - i) for i in range(num_layers + 1)\n            )\n\n            for i, b in enumerate(blocks):\n                lid = i + 1\n                if layer_scales[lid] == 1.0:\n                    continue\n\n                for n, p in b.named_parameters():\n                    optim_override = getattr(p, \"optim_overrides\", {})\n                    if \"optimizer\" not in optim_override:\n                        optim_override[\"optimizer\"] = {}\n\n                    optim_override[\"optimizer\"][\"lr_scale\"] = layer_scales[lid]\n                    p.optim_overrides = optim_override\n\n    def freeze_regex(self, pattern):\n        unfrozen_names = []\n        for name, param in self.named_parameters():\n            if re.fullmatch(pattern, name) is not None:\n                param.requires_grad_(False)\n            else:\n                unfrozen_names.append(name)\n\n    def load_model_weights(self, state, model, cfg):\n        if cfg.ddp_backend == \"fully_sharded\":\n            from fairseq.distributed import FullyShardedDataParallel\n\n            for name, module in model.named_modules():\n                if \"encoder.layers\" in name and len(name.split(\".\")) == 3:\n                    # Only for layers, we do a special handling and load the weights one by one\n                    # We dont load all weights together as that wont be memory efficient and may\n                    # cause oom\n                    new_dict = {\n                        k.replace(name + \".\", \"\"): v\n                        for (k, v) in state[\"model\"].items()\n                        if name + \".\" in k\n                    }\n                    assert isinstance(module, FullyShardedDataParallel)\n                    with module.summon_full_params():\n                        module.load_state_dict(new_dict, strict=True)\n                    module._reset_lazy_init()\n\n            # Once layers are loaded, filter them out and load everything else.\n            r = re.compile(\"encoder.layers.\\d.\")\n            filtered_list = list(filter(r.match, state[\"model\"].keys()))\n\n            new_big_dict = {\n                k: v for (k, v) in state[\"model\"].items() if k not in filtered_list\n            }\n\n            model.load_state_dict(new_big_dict, strict=False)\n        else:\n            to_delete = {\"_ema\", \"target_proj\", \"decoder\"}\n            for k in to_delete:\n                if k in state[\"model\"]:\n                    del state[\"model\"][k]\n\n            if hasattr(model, \"modality_encoders\"):\n                if \"modality_encoders.AUDIO.encoder_mask\" not in state[\"model\"]:\n                    model.modality_encoders[\"AUDIO\"].encoder_mask = None\n                elif not cfg.zero_mask:\n                    model.modality_encoders[\"AUDIO\"].encoder_mask = None\n                    del state[\"model\"][\"modality_encoders.AUDIO.encoder_mask\"]\n\n                for k in list(state[\"model\"].keys()):\n                    if k.startswith(\"modality_encoders.\") and not k.startswith(\n                        \"modality_encoders.AUDIO\"\n                    ):\n                        del state[\"model\"][k]\n\n            print(model)\n            model.load_state_dict(state[\"model\"], strict=True)\n\n    def set_num_updates(self, num_updates):\n        \"\"\"Set the number of parameters updates.\"\"\"\n        super().set_num_updates(num_updates)\n        self.num_updates = num_updates\n\n    def forward(self, source, padding_mask, **kwargs):\n\n        w2v_args = {\n            \"source\": source,\n            \"padding_mask\": padding_mask,\n            \"mask\": self.apply_mask and self.training,\n        }\n        if \"corpus_key\" in kwargs:\n            w2v_args[\"corpus_key\"] = kwargs[\"corpus_key\"]\n\n        if self.is_d2v_multi:\n            w2v_args[\"mode\"] = \"AUDIO\"\n\n        ft = self.freeze_finetune_updates <= self.num_updates\n\n        with torch.no_grad() if not ft else contextlib.ExitStack():\n            res = self.w2v_model.extract_features(**w2v_args)\n\n            x = res[\"x\"]\n            padding_mask = res[\"padding_mask\"]\n\n            # B x T x C -> T x B x C\n            x = x.transpose(0, 1)\n\n        x = self.final_dropout(x)\n\n        if self.proj:\n            x = self.proj(x)\n\n        return {\n            \"encoder_out\": x,  # T x B x C\n            \"padding_mask\": padding_mask,  # B x T,\n            \"layer_results\": res[\"layer_results\"],\n        }\n\n    def forward_torchscript(self, net_input):\n        if torch.jit.is_scripting():\n            return self.forward(net_input[\"source\"], net_input[\"padding_mask\"])\n        else:\n            return self.forward_non_torchscript(net_input)\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        if encoder_out[\"encoder_out\"] is not None:\n            encoder_out[\"encoder_out\"] = encoder_out[\"encoder_out\"].index_select(\n                1, new_order\n            )\n        if encoder_out[\"padding_mask\"] is not None:\n            encoder_out[\"padding_mask\"] = encoder_out[\"padding_mask\"].index_select(\n                0, new_order\n            )\n        return encoder_out\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return None\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        return state_dict\n\n\nclass TransformerDecoder(FairseqIncrementalDecoder):\n    \"\"\"\n    Transformer decoder consisting of *args.decoder_layers* layers. Each layer\n    is a :class:`TransformerDecoderLayer`.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        dictionary (~fairseq.data.Dictionary): decoding dictionary\n        embed_tokens (torch.nn.Embedding): output embedding\n        no_encoder_attn (bool, optional): whether to attend to encoder outputs\n            (default: False).\n    \"\"\"\n\n    def __init__(\n        self,\n        cfg: Wav2Vec2Seq2SeqConfig,\n        dictionary,\n        embed_tokens,\n        no_encoder_attn=False,\n    ):\n        super().__init__(dictionary)\n\n        self.dropout = cfg.decoder_dropout\n        self.share_input_output_embed = cfg.share_decoder_input_output_embed\n\n        input_embed_dim = embed_tokens.embedding_dim\n        embed_dim = cfg.decoder_embed_dim\n        self.output_embed_dim = cfg.decoder_embed_dim\n\n        self.layerdrop = cfg.decoder_layerdrop\n\n        self.padding_idx = embed_tokens.padding_idx\n        self.max_target_positions = cfg.max_target_positions\n\n        self.embed_tokens = embed_tokens\n        self.embed_scale = math.sqrt(embed_dim)  # todo: try with input_embed_dim\n\n        self.project_in_dim = (\n            Linear(input_embed_dim, embed_dim, bias=False)\n            if embed_dim != input_embed_dim\n            else None\n        )\n\n        self.embed_positions = (\n            PositionalEmbedding(\n                cfg.max_target_positions,\n                embed_dim,\n                self.padding_idx,\n                learned=cfg.decoder_learned_pos,\n            )\n            if not cfg.no_token_positional_embeddings\n            else None\n        )\n\n        # TODO: update this when transformer gets converted to dataclass configs\n        transformer_cfg = copy.deepcopy(cfg)\n        with open_dict(transformer_cfg):\n            transformer_cfg.dropout = transformer_cfg.decoder_dropout\n            transformer_cfg.attention_dropout = (\n                transformer_cfg.decoder_attention_dropout\n            )\n            transformer_cfg.activation_dropout = (\n                transformer_cfg.decoder_activation_dropout\n            )\n\n        self.layers = nn.ModuleList([])\n        self.layers.extend(\n            [\n                TransformerDecoderLayer(transformer_cfg, no_encoder_attn)\n                for _ in range(transformer_cfg.decoder_layers)\n            ]\n        )\n\n        if not self.share_input_output_embed:\n            self.embed_out = nn.Parameter(\n                torch.Tensor(len(dictionary), self.output_embed_dim)\n            )\n            nn.init.normal_(self.embed_out, mean=0, std=self.output_embed_dim**-0.5)\n\n        if transformer_cfg.decoder_normalize_before:\n            self.layer_norm = LayerNorm(embed_dim)\n        else:\n            self.layer_norm = None\n\n    def forward(\n        self, prev_output_tokens, encoder_out=None, incremental_state=None, **unused\n    ):\n        \"\"\"\n        Args:\n            prev_output_tokens (LongTensor): previous decoder outputs of shape\n                `(batch, tgt_len)`, for teacher forcing\n            encoder_out (Tensor, optional): output from the encoder, used for\n                encoder-side attention\n            incremental_state (dict): dictionary used for storing state during\n                :ref:`Incremental decoding`\n\n        Returns:\n            tuple:\n                - the decoder's output of shape `(batch, tgt_len, vocab)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n\n        if type(prev_output_tokens) == list:\n            max_len = max((len(x) for x in prev_output_tokens))\n            tmp = torch.zeros(\n                [len(prev_output_tokens), max_len], device=prev_output_tokens[0].device\n            )\n            for (i, p) in enumerate(prev_output_tokens):\n                tmp[i, : len(p)] = p\n            prev_output_tokens = tmp\n\n        prev_output_tokens = prev_output_tokens.long()\n        x, extra = self.extract_features(\n            prev_output_tokens, encoder_out, incremental_state\n        )\n        x = self.output_layer(x)\n        return x, extra\n\n    def extract_features(\n        self, prev_output_tokens, encoder_out=None, incremental_state=None, **unused\n    ):\n        \"\"\"\n        Similar to *forward* but only return features.\n\n        Returns:\n            tuple:\n                - the decoder's features of shape `(batch, tgt_len, embed_dim)`\n                - a dictionary with any model-specific outputs\n        \"\"\"\n\n        # embed positions\n        positions = (\n            self.embed_positions(\n                prev_output_tokens, incremental_state=incremental_state\n            )\n            if self.embed_positions is not None\n            else None\n        )\n\n        if incremental_state is not None:\n            prev_output_tokens = prev_output_tokens[:, -1:]\n            if positions is not None:\n                positions = positions[:, -1:]\n\n        # embed tokens and positions\n        x = self.embed_scale * self.embed_tokens(prev_output_tokens)\n\n        if self.project_in_dim is not None:\n            x = self.project_in_dim(x)\n\n        if positions is not None:\n            x += positions\n        x = F.dropout(x, p=self.dropout, training=self.training)\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n        attn = None\n\n        inner_states = [x]\n\n        # decoder layers\n        self_attn_padding_mask = None\n        if prev_output_tokens.eq(self.padding_idx).any():\n            self_attn_padding_mask = prev_output_tokens.eq(self.padding_idx)\n        for layer in self.layers:\n            dropout_probability = np.random.random()\n            if not self.training or (dropout_probability > self.layerdrop):\n                x, attn, _ = layer(\n                    x,\n                    encoder_out[\"encoder_out\"] if encoder_out is not None else None,\n                    encoder_out[\"padding_mask\"] if encoder_out is not None else None,\n                    incremental_state,\n                    self_attn_mask=self.buffered_future_mask(x)\n                    if incremental_state is None\n                    else None,\n                    self_attn_padding_mask=self_attn_padding_mask,\n                )\n                inner_states.append(x)\n\n        if self.layer_norm:\n            x = self.layer_norm(x)\n\n        # T x B x C -> B x T x C\n        x = x.transpose(0, 1)\n\n        return x, {\"attn\": attn, \"inner_states\": inner_states}\n\n    def output_layer(self, features, **kwargs):\n        \"\"\"Project features to the vocabulary size.\"\"\"\n        # project back to size of vocabulary\n        if self.share_input_output_embed:\n            return F.linear(features, self.embed_tokens.weight)\n        else:\n            return F.linear(features, self.embed_out)\n\n    def max_positions(self):\n        \"\"\"Maximum output length supported by the decoder.\"\"\"\n        if self.embed_positions is None:\n            return self.max_target_positions\n        return min(self.max_target_positions, self.embed_positions.max_positions)\n\n    def buffered_future_mask(self, tensor):\n        dim = tensor.size(0)\n        if (\n            not hasattr(self, \"_future_mask\")\n            or self._future_mask is None\n            or self._future_mask.device != tensor.device\n            or self._future_mask.size(0) < dim\n        ):\n            self._future_mask = torch.triu(\n                utils.fill_with_neg_inf(tensor.new(dim, dim)), 1\n            )\n        return self._future_mask[:dim, :dim]\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        return state_dict\n\n\ndef Embedding(num_embeddings, embedding_dim, padding_idx):\n    m = nn.Embedding(num_embeddings, embedding_dim, padding_idx=padding_idx)\n    nn.init.normal_(m.weight, mean=0, std=embedding_dim**-0.5)\n    nn.init.constant_(m.weight[padding_idx], 0)\n    return m\n\n\ndef Linear(in_features, out_features, bias=True):\n    m = nn.Linear(in_features, out_features, bias)\n    nn.init.xavier_uniform_(m.weight)\n    if bias:\n        nn.init.constant_(m.bias, 0.0)\n    return m\n"
  },
  {
    "path": "fairseq/models/wav2vec/wav2vec2_classification.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport contextlib\nimport logging\nfrom argparse import Namespace\nfrom dataclasses import dataclass, field\nfrom typing import Any, Optional\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom omegaconf import II, MISSING, open_dict\n\nfrom fairseq import checkpoint_utils, tasks, utils\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.models import BaseFairseqModel, FairseqEncoder, register_model\nfrom fairseq.models.wav2vec.wav2vec2 import MASKING_DISTRIBUTION_CHOICES, Wav2Vec2Config\nfrom fairseq.models.wav2vec.wav2vec2_asr import Embedding, Linear, Wav2VecEncoder, Wav2Vec2AsrConfig\nfrom fairseq.tasks import FairseqTask\n\nlogging.basicConfig(level=logging.DEBUG)\n\n\n@dataclass\nclass Wav2Vec2ClassificationConfig(Wav2Vec2AsrConfig):\n    latent_embed_dim: Optional[int] = field(\n        default=None, metadata={\"help\": \"latent dim (encoder w2v -> latent -> class\"}\n    )\n    pooling: str = field(\n        default=\"first_token\",\n        metadata={\"help\": \"pooling layer choices\"},\n    )\n    activation_fn: ChoiceEnum(utils.get_available_activation_fns()) = field(\n        default=\"gelu\", metadata={\"help\": \"activation function to use\"}\n    )\n\n\n@register_model(\"wav2vec_classification\", dataclass=Wav2Vec2ClassificationConfig)\nclass Wav2VecClassification(BaseFairseqModel):\n    # TODO: Can be shared/merged with ASR model class as w2v_encoder params are common.\n    def __init__(\n        self,\n        cfg: Wav2Vec2ClassificationConfig,\n        w2v_encoder: BaseFairseqModel,\n        pooling_layer,\n    ):\n        super().__init__()\n        self.cfg = cfg\n        self.w2v_encoder = w2v_encoder\n        self.pooling_layer = pooling_layer\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        super().upgrade_state_dict_named(state_dict, name)\n        return state_dict\n\n    @classmethod\n    def build_model(cls, cfg: Wav2Vec2ClassificationConfig, task: FairseqTask):\n        \"\"\"Build a new model instance.\"\"\"\n        w2v_encoder = Wav2VecEncoder(cfg, None)\n        pooling_layer = get_pooling_layer(\n            cfg,\n            w2v_encoder.w2v_model.encoder.layers[-1].embedding_dim,\n            len(task.target_dictionary),\n            len(w2v_encoder.w2v_model.encoder.layers),\n        )\n        return cls(cfg, w2v_encoder, pooling_layer)\n\n    def get_normalized_probs(self, net_output, log_probs):\n        \"\"\"Get normalized probabilities (or log probs) from a net's output.\"\"\"\n        logits = net_output\n\n        if log_probs:\n            return utils.log_softmax(logits.float(), dim=-1)\n        else:\n            return utils.softmax(logits.float(), dim=-1)\n\n    def get_logits(self, net_output):\n        return net_output\n\n    def forward(self, **kwargs):\n        encoder_out_dict = self.w2v_encoder(**kwargs)\n        w2v_encoder_out = encoder_out_dict[\"encoder_out\"]  # TxBxC\n        w2v_encoder_padding_mask = encoder_out_dict[\"padding_mask\"]  # BxT\n        # w2v_encoder_layer_results = encoder_out_dict[\"layer_results\"]\n        return self.pooling_layer(\n            last_layer_feats=w2v_encoder_out,\n            padding_mask=w2v_encoder_padding_mask,\n            # all_layer_feats=w2v_encoder_layer_results,\n        )\n\n    # def forward_latent(self, **kwargs):\n    #     encoder_out_dict = self.w2v_encoder(**kwargs)\n    #     w2v_encoder_out = encoder_out_dict[\"encoder_out\"]\n    #     w2v_encoder_padding_mask = encoder_out_dict[\"encoder_padding_mask\"]\n    #     w2v_encoder_layer_results = encoder_out_dict[\"layer_results\"]\n    #     return self.pooling_layer.forward_latent(\n    #         last_layer_feats=w2v_encoder_out,\n    #         padding_mask=w2v_encoder_padding_mask,\n    #         all_layer_feats=w2v_encoder_layer_results,\n    #     )\n\n\ndef get_pooling_layer(\n    cfg: Wav2Vec2ClassificationConfig,\n    encoder_embed_dim: int,\n    num_targets: int,\n    encoder_layers: int,\n):\n    assert cfg.pooling == 'mean'\n    if cfg.pooling == \"first_token\":\n        return FirstToken(cfg, encoder_embed_dim, num_targets)\n    # elif cfg.pooling == \"mean\":\n    #     return MeanPooling(cfg, encoder_embed_dim, num_targets)\n    elif cfg.pooling == \"mean\":\n        return MeanPoolingFast(cfg, encoder_embed_dim, num_targets)\n    elif cfg.pooling == \"mean_amsoftmax\":\n        return MeanPoolingFastAMSoftmax(cfg, encoder_embed_dim, num_targets)\n    elif cfg.pooling == \"max\":\n        return MaxPoolingFast(cfg, encoder_embed_dim, num_targets)\n    elif cfg.pooling == \"elmo\":\n        return LayerWeightedMeanPooling(\n            cfg, encoder_embed_dim, num_targets, encoder_layers\n        )\n    else:\n        raise NotImplementedError(f\"{cfg.pooling} has not been implemented yet.\")\n\n\nclass Pooling(nn.Module):\n    def __init__(\n        self,\n        cfg: Wav2Vec2ClassificationConfig,\n        encoder_embed_dim: int,\n        num_targets: int,\n    ):\n        super().__init__()\n        self.projection = Linear(encoder_embed_dim, num_targets)\n\n    def forward(self, last_layer_feats, **kwargs):\n        raise NotImplementedError()\n\n\nclass FirstToken(Pooling):\n    def __init__(self, *args, **kwargs):\n        super().__init__(*args, **kwargs)\n\n    def forward(self, last_layer_feats, **kwargs):\n        return self.projection(last_layer_feats[:, 0])\n\n\n# class MeanPooling(Pooling):\n#     def __init__(\n#         self,\n#         cfg: Wav2VecClassificationConfig,\n#         encoder_embed_dim: int,\n#         num_targets: int,\n#         **kwargs,\n#     ):\n#         super().__init__(cfg, encoder_embed_dim, num_targets)\n#         self.activation_fn = utils.get_activation_fn(cfg.activation_fn)\n#         self.linear = Linear(encoder_embed_dim, encoder_embed_dim)\n\n#     def forward(self, last_layer_feats, padding_mask, **kwargs):\n#         # last_layer_feats: [BxTxD]\n#         # padding_mask: [BxT]\n#         last_layer_feats = self.linear(self.activation_fn(last_layer_feats))\n#         input_lengths = (1 - padding_mask.long()).sum(-1)\n#         pooled_feature_list = []\n#         for i in range(len(last_layer_feats)):\n#             length = input_lengths[i]\n#             pooled_feature = torch.mean(last_layer_feats[i][:length], dim=0)\n#             pooled_feature_list.append(pooled_feature)\n#         return self.projection(torch.stack(pooled_feature_list))\n\n\ndef fn_mean(x, mask):\n    \"\"\"\n    Args:\n        x: TxBxD\n        mask: BxT\n    Return:\n        y: BxD\n    \"\"\"\n    if mask is not None:\n        mask = mask.t()[:, :, None]\n        return (x * mask).sum(0) / mask.sum(0)\n    else:\n        return x.sum(0) / x.shape[0]\n\n\nclass MeanPoolingFast(nn.Module):\n    def __init__(\n        self,\n        cfg: Wav2Vec2ClassificationConfig,\n        encoder_embed_dim: int,\n        num_targets: int,\n        **kwargs,\n    ):\n        super().__init__()\n        self.activation_fn = utils.get_activation_fn(cfg.activation_fn)\n        self.latent_embed_dim = (\n            cfg.latent_embed_dim\n            if cfg.latent_embed_dim is not None\n            else encoder_embed_dim\n        )\n        logging.debug(f\"| {self.latent_embed_dim=}\")\n        self.linear = Linear(encoder_embed_dim, self.latent_embed_dim)\n        self.projection = Linear(self.latent_embed_dim, num_targets)\n\n    def forward(self, last_layer_feats, padding_mask, **kwargs):\n        \"\"\"\n        Arguments\n            features - [TxBxD] Acoustic feature with shape\n            padding_mask - [BxT]     Padding Mask\n        \"\"\"\n        if padding_mask is not None:\n            feat_mask = (~padding_mask).to(last_layer_feats.dtype)\n        else:\n            feat_mask = None\n        feat = self.linear(last_layer_feats)\n        feat = fn_mean(feat, feat_mask)\n        feat = self.activation_fn(feat)\n        return self.projection(feat)\n\n    def forward_latent(self, last_layer_feats, padding_mask, **kwargs):\n        \"\"\"\n        Arguments\n            features - [TxBxD] Acoustic feature with shape\n            padding_mask - [BxT]     Padding Mask\n        \"\"\"\n        if padding_mask is not None:\n            feat_mask = (~padding_mask).to(last_layer_feats.dtype)\n        else:\n            feat_mask = None\n        feat = self.linear(last_layer_feats)\n        feat = fn_mean(feat, feat_mask)\n        return feat\n\n\nclass MeanPoolingFastAMSoftmax(MeanPoolingFast):\n    def __init__(\n        self,\n        cfg: Wav2Vec2ClassificationConfig,\n        encoder_embed_dim: int,\n        num_targets: int,\n        **kwargs,\n    ):\n        super().__init__(cfg, encoder_embed_dim, num_targets, **kwargs)\n        self.projection = Linear(self.latent_embed_dim, num_targets, bias=False)\n        nn.init.xavier_normal_(self.projection.weight, gain=1)\n\n    def forward(self, last_layer_feats, padding_mask, **kwargs):\n\n        \"\"\"\n        Arguments\n            features - [BxTxD] Acoustic feature with shape\n            padding_mask - [BxT]     Padding Mask\n        \"\"\"\n        feat_mask = (~padding_mask).to(last_layer_feats.dtype)  # T,B -> B,T\n        feat = self.linear(last_layer_feats)  # B,T,D\n        feat = fn_mean(feat, feat_mask)  # B,D\n        feat = self.activation_fn(feat)\n        # normalize feat\n        feat_norm = F.normalize(feat, p=2, dim=-1)  # B,D\n        weight_norm = F.normalize(self.projection.weight.t(), p=2, dim=-1)  # D,K\n        cos_fw = feat_norm @ weight_norm\n        return cos_fw\n\n\ndef fn_max(x, mask):\n    \"\"\"\n    Args:\n        x: TxBxD\n        mask: BxT\n    Return:\n        y: BxD\n    \"\"\"\n    mask = mask.t()[:, :, None].to(torch.bool)\n    return x.masked_fill(~mask, -1e-8).max(0)[0]\n\n\nclass MaxPoolingFast(Pooling):\n    def __init__(\n        self,\n        cfg: Wav2Vec2ClassificationConfig,\n        encoder_embed_dim: int,\n        num_targets: int,\n        **kwargs,\n    ):\n        super().__init__(cfg, encoder_embed_dim, num_targets)\n        self.activation_fn = utils.get_activation_fn(cfg.activation_fn)\n        self.linear = Linear(encoder_embed_dim, encoder_embed_dim)\n\n    def forward(self, last_layer_feats, padding_mask, **kwargs):\n\n        \"\"\"\n        Arguments\n            features - [TxBxD] Acoustic feature with shape\n            padding_mask - [BxT]     Padding Mask\n        \"\"\"\n        feat_mask = (~padding_mask).to(last_layer_feats.dtype)\n        feat = self.linear(last_layer_feats)\n        feat = fn_max(feat, feat_mask)\n        feat = self.activation_fn(feat)\n        return self.projection(feat)\n\n\nclass LayerWeightedMeanPooling(MeanPoolingFast):\n    \"\"\"Elmo-style weighted average representation.\"\"\"\n\n    def __init__(\n        self,\n        cfg: Wav2Vec2ClassificationConfig,\n        encoder_embed_dim: int,\n        num_targets: int,\n        encoder_layers: int,\n    ):\n        super().__init__(cfg, encoder_embed_dim, num_targets)\n        self.num_layers = encoder_layers\n        self.weights = nn.Parameter(torch.ones(encoder_layers))\n\n    def forward(self, last_layer_feats, padding_mask, all_layer_feats):\n        # last_layer_feats: [BxTxD]\n        # padding_mask: [BxT]\n        if not self.training:\n            msg = (\n                f\"Number of layers in input features = {len(all_layer_feats)}.\"\n                f\" Expected {self.num_layers} layers.\"\n            )\n            assert len(all_layer_feats) == self.num_layers, msg\n\n        # Stack up all layers and reshape to (num_layers, features)\n        all_layer_feats_stacked = torch.stack(all_layer_feats, dim=0)\n        num_layers, *original_feat_shape = all_layer_feats_stacked.shape\n        all_layer_feats_stacked_flat = all_layer_feats_stacked.view(num_layers, -1)\n\n        # Weighted average\n        normalized_weights = F.softmax(self.weights, dim=-1)\n        weighted_avg_features = (\n            normalized_weights.unsqueeze(-1) * all_layer_feats_stacked_flat\n        ).sum(dim=0)\n        weighted_avg_features = weighted_avg_features.view(*original_feat_shape)\n\n        # Mean Pooling on weighted average features.\n        return super().forward(weighted_avg_features, padding_mask)"
  },
  {
    "path": "fairseq/models/wav2vec/wav2vec2_laser.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.models import BaseFairseqModel, register_model\nfrom fairseq.models.wav2vec.wav2vec2_asr import (\n    Wav2Vec2CtcConfig,\n    Wav2VecCtc,\n    Wav2VecEncoder,\n)\nfrom fairseq.tasks import FairseqTask\n\n\n@register_model(\"wav2vec2_laser\", dataclass=Wav2Vec2CtcConfig)\nclass Wav2VecLaser(Wav2VecCtc):\n    def __init__(self, cfg: Wav2Vec2CtcConfig, w2v_encoder: BaseFairseqModel):\n        super().__init__(cfg, w2v_encoder)\n        self.num_updates = 0\n        self.freeze_finetune_updates = cfg.freeze_finetune_updates\n\n    @classmethod\n    def build_model(cls, cfg: Wav2Vec2CtcConfig, task: FairseqTask):\n        \"\"\"Build a new model instance.\"\"\"\n        w2v_encoder = Wav2VecEncoder(cfg, 1024)\n        return cls(cfg, w2v_encoder)\n\n    def forward(self, **kwargs):\n        output = super().forward(**kwargs)\n        x_out = output[\"encoder_out\"] * 0.01\n        out_pad_mask = output[\"padding_mask\"]\n        # Set padded outputs to -inf so they are not selected by max-pooling\n        if out_pad_mask is not None and out_pad_mask.any():\n            x_out = (\n                x_out.float()\n                .masked_fill_(out_pad_mask.T.unsqueeze(-1), float(\"-inf\"))\n                .type_as(x_out)\n            )\n        return x_out.max(dim=0)[0]\n"
  },
  {
    "path": "fairseq/models/xmod/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .model import *  # noqa\nfrom .transformer_layer_xmod import *  # noqa\n"
  },
  {
    "path": "fairseq/models/xmod/hub_interface.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom fairseq.models.roberta.hub_interface import RobertaHubInterface\nimport torch\nimport torch.nn.functional as F\n\n\nclass XMODHubInterface(RobertaHubInterface):\n    def extract_features(\n        self,\n        tokens: torch.LongTensor,\n        return_all_hiddens: bool = False,\n        lang_id=None,\n    ) -> torch.Tensor:\n        if tokens.dim() == 1:\n            tokens = tokens.unsqueeze(0)\n        if tokens.size(-1) > self.model.max_positions():\n            raise ValueError(\n                \"tokens exceeds maximum length: {} > {}\".format(\n                    tokens.size(-1), self.model.max_positions()\n                )\n            )\n        features, extra = self.model(\n            tokens.to(device=self.device),\n            features_only=True,\n            return_all_hiddens=return_all_hiddens,\n            lang_id=lang_id,\n        )\n        if return_all_hiddens:\n            # convert from T x B x C -> B x T x C\n            inner_states = extra[\"inner_states\"]\n            return [inner_state.transpose(0, 1) for inner_state in inner_states]\n        else:\n            return features  # just the last layer's features\n\n    def predict(\n        self,\n        head: str,\n        tokens: torch.LongTensor,\n        return_logits: bool = False,\n        lang_id=None,\n    ):\n        features = self.extract_features(tokens.to(device=self.device), lang_id=lang_id)\n        logits = self.model.classification_heads[head](features)\n        if return_logits:\n            return logits\n        return F.log_softmax(logits, dim=-1)\n"
  },
  {
    "path": "fairseq/models/xmod/model.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom ..roberta.model_xlmr import XLMRModel\nfrom fairseq.models.xmod.transformer_layer_xmod import XMODTransformerEncoderLayerBase\nfrom ..roberta.model import base_architecture, RobertaEncoder\nfrom fairseq.models.transformer import TransformerEncoder\nfrom fairseq.modules.transformer_sentence_encoder import init_bert_params\nfrom typing import Optional\nfrom fairseq.models.xmod.hub_interface import XMODHubInterface\nimport torch\nfrom fairseq.distributed import fsdp_wrap\nfrom fairseq.models import (\n    register_model,\n    register_model_architecture,\n)\n\nfrom fairseq.modules.checkpoint_activations import checkpoint_wrapper\n\nDEFAULT_MIN_PARAMS_TO_WRAP = int(1e8)\n\n\n@register_model(\"xmod\")\nclass XMODModel(XLMRModel):\n    @classmethod\n    def hub_models(cls):\n        return {\n            \"xmod.base\": \"https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.81.1M.tar.gz\",\n            \"xmod.large.prenorm\": \"https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.large.prenorm.81.500k.tar.gz\",\n            \"xmod.base.13.125k\": \"https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.13.125k.tar.gz\",\n            \"xmod.base.30.125k\": \"https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.30.125k.tar.gz\",\n            \"xmod.base.30.195k\": \"https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.30.195k.tar.gz\",\n            \"xmod.base.60.125k\": \"https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.60.125k.tar.gz\",\n            \"xmod.base.60.265k\": \"https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.60.265k.tar.gz\",\n            \"xmod.base.75.125k\": \"https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.75.125k.tar.gz\",\n            \"xmod.base.75.269k\": \"https://dl.fbaipublicfiles.com/fairseq/models/xmod/xmod.base.75.269k.tar.gz\",\n        }\n\n    @classmethod\n    def from_pretrained(\n        cls,\n        model_name_or_path,\n        checkpoint_file=\"model.pt\",\n        data_name_or_path=\".\",\n        bpe=\"sentencepiece\",\n        **kwargs,\n    ):\n        from fairseq import hub_utils\n\n        x = hub_utils.from_pretrained(\n            model_name_or_path,\n            checkpoint_file,\n            data_name_or_path,\n            archive_map=cls.hub_models(),\n            bpe=bpe,\n            load_checkpoint_heads=True,\n            **kwargs,\n        )\n        return XMODHubInterface(x[\"args\"], x[\"task\"], x[\"models\"][0])\n\n    @classmethod\n    def build_model(cls, args, task):\n        \"\"\"Build a new model instance.\"\"\"\n\n        from omegaconf import OmegaConf\n\n        if OmegaConf.is_config(args):\n            OmegaConf.set_struct(args, False)\n\n        # make sure all arguments are present\n        base_architecture(args)\n\n        if not hasattr(args, \"max_positions\"):\n            if not hasattr(args, \"tokens_per_sample\"):\n                args.tokens_per_sample = task.max_positions()\n            args.max_positions = args.tokens_per_sample\n\n        encoder = XMODEncoder(args, task.source_dictionary)\n\n        if OmegaConf.is_config(args):\n            OmegaConf.set_struct(args, True)\n\n        return cls(args, encoder)\n\n    def forward(\n        self,\n        src_tokens,\n        features_only=False,\n        return_all_hiddens=False,\n        classification_head_name=None,\n        lang_id=None,\n        **kwargs,\n    ):\n        if classification_head_name is not None:\n            features_only = True\n        x, extra = self.encoder(\n            src_tokens, features_only, return_all_hiddens, lang_id=lang_id, **kwargs\n        )\n\n        if classification_head_name is not None:\n            x = self.classification_heads[classification_head_name](x)\n        return x, extra\n\n\nclass XMODEncoder(RobertaEncoder):\n    \"\"\"XMOD encoder.\"\"\"\n\n    def build_encoder(self, args, dictionary, embed_tokens):\n        encoder = XMODTransformerEncoder(args, dictionary, embed_tokens)\n        encoder.apply(init_bert_params)\n        return encoder\n\n    def forward(\n        self,\n        src_tokens,\n        features_only=False,\n        return_all_hiddens=False,\n        masked_tokens=None,\n        lang_id=None,\n        **unused,\n    ):\n        \"\"\"\n        Args:\n            src_tokens (LongTensor): input tokens of shape `(batch, src_len)`\n            features_only (bool, optional): skip LM head and just return\n                features. If True, the output will be of shape\n                `(batch, src_len, embed_dim)`.\n            return_all_hiddens (bool, optional): also return all of the\n                intermediate hidden states (default: False).\n\n        Returns:\n            tuple:\n                - the LM output of shape `(batch, src_len, vocab)`\n                - a dictionary of additional data, where 'inner_states'\n                  is a list of hidden states. Note that the hidden\n                  states have shape `(src_len, batch, vocab)`.\n        \"\"\"\n        x, extra = self.extract_features(\n            src_tokens, return_all_hiddens=return_all_hiddens, lang_id=lang_id\n        )\n        if not features_only:\n            x = self.output_layer(x, masked_tokens=masked_tokens)\n        return x, extra\n\n    def extract_features(\n        self, src_tokens, return_all_hiddens=False, lang_id=None, **kwargs\n    ):\n        encoder_out = self.sentence_encoder(\n            src_tokens,\n            return_all_hiddens=return_all_hiddens,\n            lang_id=lang_id,\n            token_embeddings=kwargs.get(\"token_embeddings\", None),\n        )\n        # T x B x C -> B x T x C\n        features = encoder_out[\"encoder_out\"][0].transpose(0, 1)\n        inner_states = encoder_out[\"encoder_states\"] if return_all_hiddens else None\n        return features, {\"inner_states\": inner_states}\n\n\nclass XMODTransformerEncoder(TransformerEncoder):\n    def build_encoder_layer(self, cfg):\n        layer = XMODTransformerEncoderLayerBase(cfg)\n        checkpoint = cfg.checkpoint_activations\n        if checkpoint:\n            offload_to_cpu = cfg.offload_activations\n            layer = checkpoint_wrapper(layer, offload_to_cpu=offload_to_cpu)\n        # if we are checkpointing, enforce that FSDP always wraps the\n        # checkpointed layer, regardless of layer size\n        min_params_to_wrap = cfg.min_params_to_wrap if not checkpoint else 0\n        layer = fsdp_wrap(layer, min_num_params=min_params_to_wrap)\n        return layer\n\n    def forward(\n        self,\n        src_tokens,\n        src_lengths: Optional[torch.Tensor] = None,\n        return_all_hiddens: bool = False,\n        token_embeddings: Optional[torch.Tensor] = None,\n        lang_id=None,\n    ):\n        \"\"\"\n        Args:\n            src_tokens (LongTensor): tokens in the source language of shape\n                `(batch, src_len)`\n            src_lengths (torch.LongTensor): lengths of each source sentence of\n                shape `(batch)`\n            return_all_hiddens (bool, optional): also return all of the\n                intermediate hidden states (default: False).\n            token_embeddings (torch.Tensor, optional): precomputed embeddings\n                default `None` will recompute embeddings\n\n        Returns:\n            dict:\n                - **encoder_out** (Tensor): the last encoder layer's output of\n                  shape `(src_len, batch, embed_dim)`\n                - **encoder_padding_mask** (ByteTensor): the positions of\n                  padding elements of shape `(batch, src_len)`\n                - **encoder_embedding** (Tensor): the (scaled) embedding lookup\n                  of shape `(batch, src_len, embed_dim)`\n                - **encoder_states** (List[Tensor]): all intermediate\n                  hidden states of shape `(src_len, batch, embed_dim)`.\n                  Only populated if *return_all_hiddens* is True.\n        \"\"\"\n        return self.forward_scriptable(\n            src_tokens,\n            src_lengths,\n            return_all_hiddens,\n            token_embeddings,\n            lang_id=lang_id,\n        )\n        # TorchScript doesn't support super() method so that the scriptable Subclass\n        # can't access the base class model in Torchscript.\n        # Current workaround is to add a helper function with different name and\n        # call the helper function from scriptable Subclass.\n\n    def forward_scriptable(\n        self,\n        src_tokens,\n        src_lengths: Optional[torch.Tensor] = None,\n        return_all_hiddens: bool = False,\n        token_embeddings: Optional[torch.Tensor] = None,\n        lang_id=None,\n    ):\n        \"\"\"\n        Args:\n            src_tokens (LongTensor): tokens in the source language of shape\n                `(batch, src_len)`\n            src_lengths (torch.LongTensor): lengths of each source sentence of\n                shape `(batch)`\n            return_all_hiddens (bool, optional): also return all of the\n                intermediate hidden states (default: False).\n            token_embeddings (torch.Tensor, optional): precomputed embeddings\n                default `None` will recompute embeddings\n\n        Returns:\n            dict:\n                - **encoder_out** (Tensor): the last encoder layer's output of\n                  shape `(src_len, batch, embed_dim)`\n                - **encoder_padding_mask** (ByteTensor): the positions of\n                  padding elements of shape `(batch, src_len)`\n                - **encoder_embedding** (Tensor): the (scaled) embedding lookup\n                  of shape `(batch, src_len, embed_dim)`\n                - **encoder_states** (List[Tensor]): all intermediate\n                  hidden states of shape `(src_len, batch, embed_dim)`.\n                  Only populated if *return_all_hiddens* is True.\n        \"\"\"\n        # compute padding mask\n        encoder_padding_mask = src_tokens.eq(self.padding_idx)\n        has_pads = src_tokens.device.type == \"xla\" or encoder_padding_mask.any()\n\n        x, encoder_embedding = self.forward_embedding(src_tokens, token_embeddings)\n\n        # account for padding while computing the representation\n        if has_pads:\n            x = x * (1 - encoder_padding_mask.unsqueeze(-1).type_as(x))\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        encoder_states = []\n\n        if return_all_hiddens:\n            encoder_states.append(x)\n\n        # encoder layers\n        for layer in self.layers:\n            x = layer(\n                x,\n                encoder_padding_mask=encoder_padding_mask if has_pads else None,\n                lang_id=lang_id,\n            )\n            if return_all_hiddens:\n                assert encoder_states is not None\n                encoder_states.append(x)\n\n        if self.layer_norm is not None:\n            x = self.layer_norm(x)\n\n        # The Pytorch Mobile lite interpreter does not supports returning NamedTuple in\n        # `forward` so we use a dictionary instead.\n        # TorchScript does not support mixed values so the values are all lists.\n        # The empty list is equivalent to None.\n        src_lengths = (\n            src_tokens.ne(self.padding_idx)\n            .sum(dim=1, dtype=torch.int32)\n            .reshape(-1, 1)\n            .contiguous()\n        )\n        return {\n            \"encoder_out\": [x],  # T x B x C\n            \"encoder_padding_mask\": [encoder_padding_mask],  # B x T\n            \"encoder_embedding\": [encoder_embedding],  # B x T x C\n            \"encoder_states\": encoder_states,  # List[T x B x C]\n            \"src_tokens\": [],\n            \"src_lengths\": [src_lengths],\n        }\n\n\n@register_model_architecture(\"xmod\", \"xmod_base_13\")\ndef roberta_base_architecture(args):\n    args.ffn_modules = getattr(args, \"ffn_modules\", False)\n    args.adapter_modules = getattr(args, \"adapter_modules\", True)\n    args.adapter_layer_norm = getattr(args, \"adapter_layer_norm\", False)\n    args.adapter_reuse_layer_norm = getattr(args, \"adapter_reuse_layer_norm\", True)\n    args.ln_before_adapter = getattr(args, \"ln_before_adapter\", True)\n    args.languages = getattr(\n        args,\n        \"languages\",\n        [\n            \"ar_AR\",\n            \"en_XX\",\n            \"fi_FI\",\n            \"fr_XX\",\n            \"hi_IN\",\n            \"id_ID\",\n            \"ka_GE\",\n            \"ko_KR\",\n            \"ru_RU\",\n            \"sw_KE\",\n            \"ta_IN\",\n            \"th_TH\",\n            \"vi_VN\",\n        ],\n    )\n    base_architecture(args)\n\n\n@register_model_architecture(\"xmod\", \"xmod_base_30\")\ndef roberta_base_architecture(args):\n    args.ffn_modules = getattr(args, \"ffn_modules\", False)\n    args.adapter_modules = getattr(args, \"adapter_modules\", True)\n    args.adapter_layer_norm = getattr(args, \"adapter_layer_norm\", False)\n    args.adapter_reuse_layer_norm = getattr(args, \"adapter_reuse_layer_norm\", True)\n    args.ln_before_adapter = getattr(args, \"ln_before_adapter\", True)\n    args.languages = getattr(\n        args,\n        \"languages\",\n        [\n            \"ar_AR\",\n            \"cs_CZ\",\n            \"en_XX\",\n            \"eu_ES\",\n            \"fi_FI\",\n            \"fr_XX\",\n            \"hi_IN\",\n            \"hr_HR\",\n            \"hu_HU\",\n            \"hy_AM\",\n            \"id_ID\",\n            \"it_IT\",\n            \"ka_GE\",\n            \"ko_KR\",\n            \"lt_LT\",\n            \"ml_IN\",\n            \"mn_MN\",\n            \"ms_MY\",\n            \"pl_PL\",\n            \"ro_RO\",\n            \"ru_RU\",\n            \"si_LK\",\n            \"sk_SK\",\n            \"sq_AL\",\n            \"sv_SE\",\n            \"sw_KE\",\n            \"ta_IN\",\n            \"th_TH\",\n            \"tl_XX\",\n            \"vi_VN\",\n        ],\n    )\n    base_architecture(args)\n\n\n@register_model_architecture(\"xmod\", \"xmod_base_60\")\ndef roberta_base_architecture(args):\n    args.ffn_modules = getattr(args, \"ffn_modules\", False)\n    args.adapter_modules = getattr(args, \"adapter_modules\", True)\n    args.adapter_layer_norm = getattr(args, \"adapter_layer_norm\", False)\n    args.adapter_reuse_layer_norm = getattr(args, \"adapter_reuse_layer_norm\", True)\n    args.ln_before_adapter = getattr(args, \"ln_before_adapter\", True)\n    args.languages = getattr(\n        args,\n        \"languages\",\n        [\n            \"af_ZA\",\n            \"am_ET\",\n            \"ar_AR\",\n            \"be_BY\",\n            \"bn_IN\",\n            \"ca_ES\",\n            \"cs_CZ\",\n            \"cy_GB\",\n            \"da_DK\",\n            \"en_XX\",\n            \"eo_EO\",\n            \"et_EE\",\n            \"eu_ES\",\n            \"fa_IR\",\n            \"fi_FI\",\n            \"fr_XX\",\n            \"ga_IE\",\n            \"gl_ES\",\n            \"gu_IN\",\n            \"ha_NG\",\n            \"hi_IN\",\n            \"hr_HR\",\n            \"hu_HU\",\n            \"hy_AM\",\n            \"id_ID\",\n            \"is_IS\",\n            \"it_IT\",\n            \"ka_GE\",\n            \"ko_KR\",\n            \"ku_TR\",\n            \"la_VA\",\n            \"lt_LT\",\n            \"lv_LV\",\n            \"mk_MK\",\n            \"ml_IN\",\n            \"mn_MN\",\n            \"ms_MY\",\n            \"ne_NP\",\n            \"nl_XX\",\n            \"no_XX\",\n            \"pl_PL\",\n            \"ps_AF\",\n            \"pt_XX\",\n            \"ro_RO\",\n            \"ru_RU\",\n            \"sa_IN\",\n            \"sd_PK\",\n            \"si_LK\",\n            \"sk_SK\",\n            \"sl_SI\",\n            \"so_SO\",\n            \"sq_AL\",\n            \"sr_RS\",\n            \"sv_SE\",\n            \"sw_KE\",\n            \"ta_IN\",\n            \"te_IN\",\n            \"th_TH\",\n            \"tl_XX\",\n            \"vi_VN\",\n        ],\n    )\n    base_architecture(args)\n\n\n@register_model_architecture(\"xmod\", \"xmod_base_75\")\ndef roberta_base_architecture(args):\n    args.ffn_modules = getattr(args, \"ffn_modules\", False)\n    args.adapter_modules = getattr(args, \"adapter_modules\", True)\n    args.adapter_layer_norm = getattr(args, \"adapter_layer_norm\", False)\n    args.adapter_reuse_layer_norm = getattr(args, \"adapter_reuse_layer_norm\", True)\n    args.ln_before_adapter = getattr(args, \"ln_before_adapter\", True)\n    args.languages = getattr(\n        args,\n        \"languages\",\n        [\n            \"af_ZA\",\n            \"am_ET\",\n            \"ar_AR\",\n            \"as_IN\",\n            \"be_BY\",\n            \"bn_IN\",\n            \"br_FR\",\n            \"bs_BA\",\n            \"ca_ES\",\n            \"cs_CZ\",\n            \"cy_GB\",\n            \"da_DK\",\n            \"en_XX\",\n            \"eo_EO\",\n            \"et_EE\",\n            \"eu_ES\",\n            \"fa_IR\",\n            \"fi_FI\",\n            \"fr_XX\",\n            \"fy_NL\",\n            \"ga_IE\",\n            \"gd_GB\",\n            \"gl_ES\",\n            \"gu_IN\",\n            \"ha_NG\",\n            \"hi_IN\",\n            \"hr_HR\",\n            \"hu_HU\",\n            \"hy_AM\",\n            \"id_ID\",\n            \"is_IS\",\n            \"it_IT\",\n            \"jv_ID\",\n            \"ka_GE\",\n            \"kn_IN\",\n            \"ko_KR\",\n            \"ku_TR\",\n            \"la_VA\",\n            \"lt_LT\",\n            \"lv_LV\",\n            \"mg_MG\",\n            \"mk_MK\",\n            \"ml_IN\",\n            \"mn_MN\",\n            \"mr_IN\",\n            \"ms_MY\",\n            \"ne_NP\",\n            \"nl_XX\",\n            \"no_XX\",\n            \"om_KE\",\n            \"or_IN\",\n            \"pa_IN\",\n            \"pl_PL\",\n            \"ps_AF\",\n            \"pt_XX\",\n            \"ro_RO\",\n            \"ru_RU\",\n            \"sa_IN\",\n            \"sd_PK\",\n            \"si_LK\",\n            \"sk_SK\",\n            \"sl_SI\",\n            \"so_SO\",\n            \"sq_AL\",\n            \"sr_RS\",\n            \"su_ID\",\n            \"sv_SE\",\n            \"sw_KE\",\n            \"ta_IN\",\n            \"te_IN\",\n            \"th_TH\",\n            \"tl_XX\",\n            \"vi_VN\",\n            \"xh_ZA\",\n            \"yi_DE\",\n        ],\n    )\n    base_architecture(args)\n\n\n@register_model_architecture(\"xmod\", \"xmod_base\")\ndef roberta_base_architecture(args):\n    args.ffn_modules = getattr(args, \"ffn_modules\", False)\n    args.adapter_modules = getattr(args, \"adapter_modules\", True)\n    args.adapter_layer_norm = getattr(args, \"adapter_layer_norm\", False)\n    args.adapter_reuse_layer_norm = getattr(args, \"adapter_reuse_layer_norm\", True)\n    args.ln_before_adapter = getattr(args, \"ln_before_adapter\", True)\n    args.languages = getattr(\n        args,\n        \"languages\",\n        [\n            \"en_XX\",\n            \"id_ID\",\n            \"vi_VN\",\n            \"ru_RU\",\n            \"fa_IR\",\n            \"sv_SE\",\n            \"ja_XX\",\n            \"fr_XX\",\n            \"de_DE\",\n            \"ro_RO\",\n            \"ko_KR\",\n            \"hu_HU\",\n            \"es_XX\",\n            \"fi_FI\",\n            \"uk_UA\",\n            \"da_DK\",\n            \"pt_XX\",\n            \"no_XX\",\n            \"th_TH\",\n            \"pl_PL\",\n            \"bg_BG\",\n            \"nl_XX\",\n            \"zh_CN\",\n            \"he_IL\",\n            \"el_GR\",\n            \"it_IT\",\n            \"sk_SK\",\n            \"hr_HR\",\n            \"tr_TR\",\n            \"ar_AR\",\n            \"cs_CZ\",\n            \"lt_LT\",\n            \"hi_IN\",\n            \"zh_TW\",\n            \"ca_ES\",\n            \"ms_MY\",\n            \"sl_SI\",\n            \"lv_LV\",\n            \"ta_IN\",\n            \"bn_IN\",\n            \"et_EE\",\n            \"az_AZ\",\n            \"sq_AL\",\n            \"sr_RS\",\n            \"kk_KZ\",\n            \"ka_GE\",\n            \"tl_XX\",\n            \"ur_PK\",\n            \"is_IS\",\n            \"hy_AM\",\n            \"ml_IN\",\n            \"mk_MK\",\n            \"be_BY\",\n            \"la_VA\",\n            \"te_IN\",\n            \"eu_ES\",\n            \"gl_ES\",\n            \"mn_MN\",\n            \"kn_IN\",\n            \"ne_NP\",\n            \"sw_KE\",\n            \"si_LK\",\n            \"mr_IN\",\n            \"af_ZA\",\n            \"gu_IN\",\n            \"cy_GB\",\n            \"eo_EO\",\n            \"km_KH\",\n            \"ky_KG\",\n            \"uz_UZ\",\n            \"ps_AF\",\n            \"pa_IN\",\n            \"ga_IE\",\n            \"ha_NG\",\n            \"am_ET\",\n            \"lo_LA\",\n            \"ku_TR\",\n            \"so_SO\",\n            \"my_MM\",\n            \"or_IN\",\n            \"sa_IN\",\n        ],\n    )\n    base_architecture(args)\n\n\n@register_model_architecture(\"xmod\", \"xmod_large_prenorm\")\ndef roberta_base_architecture(args):\n    args.ffn_modules = getattr(args, \"ffn_modules\", False)\n    args.adapter_modules = getattr(args, \"adapter_modules\", True)\n    args.adapter_layer_norm = getattr(args, \"adapter_layer_norm\", True)\n    args.adapter_reuse_layer_norm = getattr(args, \"adapter_reuse_layer_norm\", False)\n    args.ln_before_adapter = getattr(args, \"ln_before_adapter\", False)\n    # args.bottleneck = getattr(args, \"bottleneck\", 8)\n    args.bottleneck = getattr(args, \"bottleneck\", 4)\n    args.languages = getattr(\n        args,\n        \"languages\",\n        [\n            \"en_XX\",\n            \"id_ID\",\n            \"vi_VN\",\n            \"ru_RU\",\n            \"fa_IR\",\n            \"sv_SE\",\n            \"ja_XX\",\n            \"fr_XX\",\n            \"de_DE\",\n            \"ro_RO\",\n            \"ko_KR\",\n            \"hu_HU\",\n            \"es_XX\",\n            \"fi_FI\",\n            \"uk_UA\",\n            \"da_DK\",\n            \"pt_XX\",\n            \"no_XX\",\n            \"th_TH\",\n            \"pl_PL\",\n            \"bg_BG\",\n            \"nl_XX\",\n            \"zh_CN\",\n            \"he_IL\",\n            \"el_GR\",\n            \"it_IT\",\n            \"sk_SK\",\n            \"hr_HR\",\n            \"tr_TR\",\n            \"ar_AR\",\n            \"cs_CZ\",\n            \"lt_LT\",\n            \"hi_IN\",\n            \"zh_TW\",\n            \"ca_ES\",\n            \"ms_MY\",\n            \"sl_SI\",\n            \"lv_LV\",\n            \"ta_IN\",\n            \"bn_IN\",\n            \"et_EE\",\n            \"az_AZ\",\n            \"sq_AL\",\n            \"sr_RS\",\n            \"kk_KZ\",\n            \"ka_GE\",\n            \"tl_XX\",\n            \"ur_PK\",\n            \"is_IS\",\n            \"hy_AM\",\n            \"ml_IN\",\n            \"mk_MK\",\n            \"be_BY\",\n            \"la_VA\",\n            \"te_IN\",\n            \"eu_ES\",\n            \"gl_ES\",\n            \"mn_MN\",\n            \"kn_IN\",\n            \"ne_NP\",\n            \"sw_KE\",\n            \"si_LK\",\n            \"mr_IN\",\n            \"af_ZA\",\n            \"gu_IN\",\n            \"cy_GB\",\n            \"eo_EO\",\n            \"km_KH\",\n            \"ky_KG\",\n            \"uz_UZ\",\n            \"ps_AF\",\n            \"pa_IN\",\n            \"ga_IE\",\n            \"ha_NG\",\n            \"am_ET\",\n            \"lo_LA\",\n            \"ku_TR\",\n            \"so_SO\",\n            \"my_MM\",\n            \"or_IN\",\n            \"sa_IN\",\n        ],\n    )\n\n    args.encoder_normalize_before = getattr(args, \"encoder_normalize_before\", True)\n    args.encoder_layers = getattr(args, \"encoder_layers\", 24)\n    args.encoder_embed_dim = getattr(args, \"encoder_embed_dim\", 1024)\n    args.encoder_ffn_embed_dim = getattr(args, \"encoder_ffn_embed_dim\", 4096)\n    args.encoder_attention_heads = getattr(args, \"encoder_attention_heads\", 16)\n    base_architecture(args)\n"
  },
  {
    "path": "fairseq/models/xmod/transformer_layer_xmod.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.modules.transformer_layer import TransformerEncoderLayer\nfrom typing import Optional\nimport torch\nimport torch.nn as nn\nfrom fairseq import utils\nfrom fairseq.modules import LayerNorm\nfrom fairseq.modules.fairseq_dropout import FairseqDropout\nfrom fairseq.modules.quant_noise import quant_noise\nfrom torch import Tensor\n\n\nclass Adapter(nn.Module):\n    def __init__(self, cfg, red_fac=2):\n        super(Adapter, self).__init__()\n        self.cfg = cfg\n        self.embed_dim = cfg.encoder_embed_dim\n        self.quant_noise = getattr(cfg, \"quant_noise_pq\", 0)\n        self.quant_noise_block_size = getattr(cfg, \"quant_noise_pq_block_size\", 8) or 8\n        self.activation_fn = utils.get_activation_fn(\n            activation=getattr(cfg, \"activation_fn\", \"relu\") or \"relu\"\n        )\n        self.fc1 = quant_noise(\n            nn.Linear(self.embed_dim, self.embed_dim // red_fac),\n            p=self.quant_noise,\n            block_size=self.quant_noise_block_size,\n        )\n        self.fc2 = quant_noise(\n            nn.Linear(self.embed_dim // red_fac, self.embed_dim),\n            p=self.quant_noise,\n            block_size=self.quant_noise_block_size,\n        )\n        activation_dropout_p = getattr(cfg, \"activation_dropout\", 0) or 0\n        if activation_dropout_p == 0:\n            # for backwards compatibility with models that use cfg.relu_dropout\n            activation_dropout_p = getattr(cfg, \"relu_dropout\", 0) or 0\n        self.activation_dropout_module = FairseqDropout(\n            float(activation_dropout_p), module_name=self.__class__.__name__\n        )\n\n    def forward(self, x):\n        x = self.activation_fn(self.fc1(x))\n        if not hasattr(self.cfg, \"adapter_dropout\") or self.cfg.adapter_dropout:\n            x = self.activation_dropout_module(x)\n        x = self.fc2(x)\n        return x\n\n\nclass XMODTransformerEncoderLayerBase(TransformerEncoderLayer):\n    \"\"\"Encoder layer block.\n\n    In the original paper each operation (multi-head attention or FFN) is\n    postprocessed with: `dropout -> add residual -> layernorm`. In the\n    tensor2tensor code they suggest that learning is more robust when\n    preprocessing each layer with layernorm and postprocessing with:\n    `dropout -> add residual`. We default to the approach in the paper, but the\n    tensor2tensor approach can be enabled by setting\n    *cfg.encoder.normalize_before* to ``True``.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n    \"\"\"\n\n    def __init__(self, cfg):\n        super().__init__(cfg)\n        if hasattr(cfg, \"adapter_modules\") and cfg.adapter_modules:\n            export = getattr(cfg, \"export\", False)\n            if cfg.adapter_layer_norm:\n                self.adapter_layer_norm = LayerNorm(self.embed_dim, export=export)\n            self.adapter_modules = nn.ModuleDict(dict())\n            if hasattr(self.cfg, \"bottleneck\"):\n                bottleneck = self.cfg.bottleneck\n            else:\n                bottleneck = 2\n            for language in cfg.languages:\n                self.adapter_modules[str(language)] = Adapter(cfg, red_fac=bottleneck)\n\n    def lang_adapter(self, lang_id, x):\n        # If language adapters exist pass throught them\n        if hasattr(self.cfg, \"adapter_modules\") and self.cfg.adapter_modules:\n            if lang_id is None:\n                lang_id = [\"en_XX\"] * x.shape[1]\n            d_langs = [lang_id[0]]\n            lang_lengths = [1]\n            for lang in lang_id[1:]:\n                if lang == d_langs[-1]:\n                    lang_lengths[-1] += 1\n                else:\n                    d_langs.append(lang)\n                    lang_lengths.append(1)\n\n            if (\n                not hasattr(self.cfg, \"ln_before_adapter\")\n                or not self.cfg.ln_before_adapter\n            ):\n                residual = x\n            if self.cfg.adapter_layer_norm:\n                x = self.adapter_layer_norm(x)\n            elif self.cfg.adapter_reuse_layer_norm:\n                x = self.final_layer_norm(x)\n            if hasattr(self.cfg, \"ln_before_adapter\") and self.cfg.ln_before_adapter:\n                residual = x\n\n            split_x = torch.split(x, lang_lengths, 1)\n            x_ = []\n            for i, (lang, s_x) in enumerate(zip(d_langs, split_x)):\n                lang = lang.replace(\"_rom\", \"\").replace(\"_zaw\", \"\")\n                x_.append(self.adapter_modules[str(lang)](s_x))\n            x = torch.cat(x_, 1)\n\n            x = self.dropout_module(x)\n            x = self.residual_connection(x, residual)\n\n        return x\n\n    def forward(\n        self,\n        x,\n        encoder_padding_mask: Optional[Tensor],\n        attn_mask: Optional[Tensor] = None,\n        lang_id: Optional[list] = None,\n    ):\n        \"\"\"\n        Args:\n            x (Tensor): input to the layer of shape `(seq_len, batch, embed_dim)`\n            encoder_padding_mask (ByteTensor): binary ByteTensor of shape\n                `(batch, seq_len)` where padding elements are indicated by ``1``.\n            attn_mask (ByteTensor): binary tensor of shape `(tgt_len, src_len)`,\n                where `tgt_len` is the length of output and `src_len` is the\n                length of input, though here both are equal to `seq_len`.\n                `attn_mask[tgt_i, src_j] = 1` means that when calculating the\n                embedding for `tgt_i`, we exclude (mask out) `src_j`. This is\n                useful for strided self-attention.\n\n        Returns:\n            encoded output of shape `(seq_len, batch, embed_dim)`\n        \"\"\"\n        # anything in original attn_mask = 1, becomes -1e8\n        # anything in original attn_mask = 0, becomes 0\n        # Note that we cannot use -inf here, because at some edge cases,\n        # the attention weight (before softmax) for some padded element in query\n        # will become -inf, which results in NaN in model parameters\n        if attn_mask is not None:\n            attn_mask = attn_mask.masked_fill(attn_mask.to(torch.bool), -1e8)\n\n        residual = x\n        if self.normalize_before:\n            x = self.self_attn_layer_norm(x)\n        x, _ = self.self_attn(\n            query=x,\n            key=x,\n            value=x,\n            key_padding_mask=encoder_padding_mask,\n            need_weights=False,\n            attn_mask=attn_mask,\n        )\n        x = self.dropout_module(x)\n        x = self.residual_connection(x, residual)\n        if not self.normalize_before:\n            x = self.self_attn_layer_norm(x)\n\n        residual = x\n        if self.normalize_before:\n            x = self.final_layer_norm(x)\n        x = self.activation_fn(self.fc1(x))\n        x = self.activation_dropout_module(x)\n        x = self.fc2(x)\n        x = self.dropout_module(x)\n        x = self.residual_connection(x, residual)\n\n        x = self.lang_adapter(lang_id, x)\n\n        if not self.normalize_before:\n            x = self.final_layer_norm(x)\n        return x\n"
  },
  {
    "path": "fairseq/modules/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"isort:skip_file\"\"\"\n\nfrom .adaptive_input import AdaptiveInput\nfrom .adaptive_softmax import AdaptiveSoftmax\nfrom .base_layer import BaseLayer\nfrom .beamable_mm import BeamableMM\nfrom .character_token_embedder import CharacterTokenEmbedder\nfrom .conv_tbc import ConvTBC\nfrom .cross_entropy import cross_entropy\nfrom .downsampled_multihead_attention import DownsampledMultiHeadAttention\nfrom .dynamic_convolution import DynamicConv, DynamicConv1dTBC, DynamicConv_scripatable\nfrom .dynamic_crf_layer import DynamicCRF\nfrom .ema_module import EMAModuleConfig, EMAModule\nfrom .fairseq_dropout import FairseqDropout\nfrom .fp32_batch_norm import Fp32BatchNorm\nfrom .fp32_group_norm import Fp32GroupNorm\nfrom .fp32_instance_norm import Fp32InstanceNorm\nfrom .gelu import gelu, gelu_accurate\nfrom .grad_multiply import GradMultiply\nfrom .gumbel_vector_quantizer import GumbelVectorQuantizer\nfrom .kmeans_vector_quantizer import KmeansVectorQuantizer\nfrom .layer_drop import LayerDropModuleList\nfrom .layer_norm import Fp32LayerNorm, LayerNorm\nfrom .learned_positional_embedding import LearnedPositionalEmbedding\nfrom .lightweight_convolution import LightweightConv, LightweightConv1dTBC\nfrom .linearized_convolution import LinearizedConvolution\nfrom .location_attention import LocationAttention\nfrom .lstm_cell_with_zoneout import LSTMCellWithZoneOut\nfrom .multihead_attention import MultiheadAttention\nfrom .positional_embedding import PositionalEmbedding\nfrom .same_pad import SamePad, SamePad2d\nfrom .scalar_bias import ScalarBias\nfrom .sinusoidal_positional_embedding import SinusoidalPositionalEmbedding\nfrom .transformer_sentence_encoder_layer import TransformerSentenceEncoderLayer\nfrom .transformer_sentence_encoder import TransformerSentenceEncoder\nfrom .transpose_last import TransposeLast\nfrom .unfold import unfold1d\nfrom .transformer_layer import TransformerDecoderLayer, TransformerEncoderLayer\nfrom .vggblock import VGGBlock\nfrom .espnet_multihead_attention import (\n    ESPNETMultiHeadedAttention,\n    RelPositionMultiHeadedAttention,\n    RotaryPositionMultiHeadedAttention,\n)\nfrom .rotary_positional_embedding import RotaryPositionalEmbedding\nfrom .positional_encoding import (\n    RelPositionalEncoding,\n)\n\n__all__ = [\n    \"AdaptiveInput\",\n    \"AdaptiveSoftmax\",\n    \"BaseLayer\",\n    \"BeamableMM\",\n    \"CharacterTokenEmbedder\",\n    \"ConvTBC\",\n    \"cross_entropy\",\n    \"DownsampledMultiHeadAttention\",\n    \"DynamicConv1dTBC\",\n    \"DynamicConv\",\n    \"DynamicConv_scripatable\",\n    \"DynamicCRF\",\n    \"EMAModule\",\n    \"EMAModuleConfig\",\n    \"FairseqDropout\",\n    \"Fp32BatchNorm\",\n    \"Fp32GroupNorm\",\n    \"Fp32LayerNorm\",\n    \"Fp32InstanceNorm\",\n    \"gelu\",\n    \"gelu_accurate\",\n    \"GradMultiply\",\n    \"GumbelVectorQuantizer\",\n    \"KmeansVectorQuantizer\",\n    \"LayerDropModuleList\",\n    \"LayerNorm\",\n    \"LearnedPositionalEmbedding\",\n    \"LightweightConv1dTBC\",\n    \"LightweightConv\",\n    \"LinearizedConvolution\",\n    \"LocationAttention\",\n    \"LSTMCellWithZoneOut\",\n    \"MultiheadAttention\",\n    \"PositionalEmbedding\",\n    \"SamePad\",\n    \"SamePad2d\",\n    \"ScalarBias\",\n    \"SinusoidalPositionalEmbedding\",\n    \"TransformerSentenceEncoderLayer\",\n    \"TransformerSentenceEncoder\",\n    \"TransformerDecoderLayer\",\n    \"TransformerEncoderLayer\",\n    \"TransposeLast\",\n    \"VGGBlock\",\n    \"unfold1d\",\n    \"ESPNETMultiheadedAttention\",\n    \"PositionalEmbedding\",\n    \"RelPositionMultiHeadedAttention\",\n    \"RelPositionalEncoding\",\n    \"RotaryPositionalEmbedding\",\n    \"RotaryPositionMultiHeadedAttention\",\n]\n"
  },
  {
    "path": "fairseq/modules/adaptive_input.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom typing import List\n\nimport torch\nfrom torch import nn\n\nfrom fairseq.modules.quant_noise import quant_noise\n\n\nclass AdaptiveInput(nn.Module):\n    def __init__(\n        self,\n        vocab_size: int,\n        padding_idx: int,\n        initial_dim: int,\n        factor: float,\n        output_dim: int,\n        cutoff: List[int],\n        q_noise: float = 0,\n        qn_block_size: int = 8,\n    ):\n        super().__init__()\n\n        if vocab_size > cutoff[-1]:\n            cutoff = cutoff + [vocab_size]\n        else:\n            assert (\n                vocab_size == cutoff[-1]\n            ), \"cannot specify cutoff larger than vocab size\"\n\n        self.cutoff = cutoff\n        self.embedding_dim = output_dim\n        self.padding_idx = padding_idx\n\n        self.embeddings = nn.ModuleList()\n        for i in range(len(self.cutoff)):\n            prev = self.cutoff[i - 1] if i > 0 else 0\n            size = self.cutoff[i] - prev\n            dim = int(initial_dim // (factor**i))\n            seq = nn.Sequential(\n                nn.Embedding(size, dim, self.padding_idx),\n                quant_noise(\n                    nn.Linear(dim, output_dim, bias=False), q_noise, qn_block_size\n                ),\n            )\n\n            self.embeddings.append(seq)\n            self.padding_idx = None\n        self.padding_idx = padding_idx\n\n        def init_weights(m):\n            if isinstance(m, nn.Embedding):\n                nn.init.normal_(m.weight, mean=0, std=m.weight.shape[1] ** -0.5)\n                nn.init.constant_(m.weight[padding_idx], 0)\n            elif hasattr(m, \"weight\"):\n                nn.init.xavier_uniform_(m.weight)\n\n        self.apply(init_weights)\n\n        self.register_buffer(\"_float_tensor\", torch.FloatTensor(1))\n\n    def weights_for_band(self, band: int):\n        return self.embeddings[band][0].weight, self.embeddings[band][1].weight\n\n    def forward(self, input: torch.Tensor):\n        result = self._float_tensor.new(input.shape + (self.embedding_dim,))\n        for i in range(len(self.cutoff)):\n            mask = input.lt(self.cutoff[i])\n            if i > 0:\n                mask.mul_(input.ge(self.cutoff[i - 1]))\n                chunk_input = input[mask] - self.cutoff[i - 1]\n            else:\n                chunk_input = input[mask]\n            if mask.any():\n                result[mask] = self.embeddings[i](chunk_input)\n        return result\n"
  },
  {
    "path": "fairseq/modules/adaptive_softmax.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport functools\nimport operator\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq.modules.fairseq_dropout import FairseqDropout\nfrom fairseq.modules.quant_noise import quant_noise\nfrom torch import nn\n\n\nclass TiedLinear(nn.Module):\n    def __init__(self, weight, transpose):\n        super().__init__()\n        self.weight = weight\n        self.transpose = transpose\n\n    def forward(self, input):\n        return F.linear(input, self.weight.t() if self.transpose else self.weight)\n\n\nclass TiedHeadModule(nn.Module):\n    def __init__(self, weights, input_dim, num_classes, q_noise, qn_block_size):\n        super().__init__()\n        tied_emb, _ = weights\n        self.num_words, emb_dim = tied_emb.size()\n\n        self.word_proj = quant_noise(\n            TiedLinear(tied_emb, transpose=False), q_noise, qn_block_size\n        )\n        if input_dim != emb_dim:\n            self.word_proj = nn.Sequential(\n                quant_noise(\n                    nn.Linear(input_dim, emb_dim, bias=False), q_noise, qn_block_size\n                ),\n                self.word_proj,\n            )\n\n        self.class_proj = quant_noise(\n            nn.Linear(input_dim, num_classes, bias=False), q_noise, qn_block_size\n        )\n        self.out_dim = self.num_words + num_classes\n\n        self.register_buffer(\"_float_tensor\", torch.FloatTensor(1))\n\n    def forward(self, input):\n        inp_sz = functools.reduce(operator.mul, input.shape[:-1], 1)\n        out = self._float_tensor.new(inp_sz, self.out_dim)\n        out[:, : self.num_words] = self.word_proj(input.view(inp_sz, -1))\n        out[:, self.num_words :] = self.class_proj(input.view(inp_sz, -1))\n        return out\n\n\nclass AdaptiveSoftmax(nn.Module):\n    \"\"\"\n    This is an implementation of the efficient softmax approximation for\n    graphical processing units (GPU), described in the paper \"Efficient softmax\n    approximation for GPUs\" (http://arxiv.org/abs/1609.04309).\n    \"\"\"\n\n    def __init__(\n        self,\n        vocab_size,\n        input_dim,\n        cutoff,\n        dropout,\n        factor=4.0,\n        adaptive_inputs=None,\n        tie_proj=False,\n        q_noise=0,\n        qn_block_size=8,\n    ):\n        super().__init__()\n\n        if vocab_size > cutoff[-1]:\n            cutoff = cutoff + [vocab_size]\n        else:\n            assert (\n                vocab_size == cutoff[-1]\n            ), \"cannot specify cutoff larger than vocab size\"\n\n        output_dim = cutoff[0] + len(cutoff) - 1\n\n        self.vocab_size = vocab_size\n        self.cutoff = cutoff\n        self.dropout_module = FairseqDropout(\n            dropout, module_name=self.__class__.__name__\n        )\n        self.input_dim = input_dim\n        self.factor = factor\n        self.q_noise = q_noise\n        self.qn_block_size = qn_block_size\n\n        self.lsm = nn.LogSoftmax(dim=1)\n\n        if adaptive_inputs is not None:\n            self.head = TiedHeadModule(\n                adaptive_inputs.weights_for_band(0),\n                input_dim,\n                len(cutoff) - 1,\n                self.q_noise,\n                self.qn_block_size,\n            )\n        else:\n            self.head = quant_noise(\n                nn.Linear(input_dim, output_dim, bias=False),\n                self.q_noise,\n                self.qn_block_size,\n            )\n\n        self._make_tail(adaptive_inputs, tie_proj)\n\n        def init_weights(m):\n            if (\n                hasattr(m, \"weight\")\n                and not isinstance(m, TiedLinear)\n                and not isinstance(m, TiedHeadModule)\n            ):\n                nn.init.xavier_uniform_(m.weight)\n\n        self.apply(init_weights)\n\n        self.register_buffer(\"version\", torch.LongTensor([1]))\n\n    def _make_tail(self, adaptive_inputs=None, tie_proj=False):\n        self.tail = nn.ModuleList()\n        for i in range(len(self.cutoff) - 1):\n            dim = int(self.input_dim // self.factor ** (i + 1))\n\n            tied_emb, tied_proj = (\n                adaptive_inputs.weights_for_band(i + 1)\n                if adaptive_inputs is not None\n                else (None, None)\n            )\n\n            if tied_proj is not None:\n                if tie_proj:\n                    proj = quant_noise(\n                        TiedLinear(tied_proj, transpose=True),\n                        self.q_noise,\n                        self.qn_block_size,\n                    )\n                else:\n                    proj = quant_noise(\n                        nn.Linear(tied_proj.size(0), tied_proj.size(1), bias=False),\n                        self.q_noise,\n                        self.qn_block_size,\n                    )\n            else:\n                proj = quant_noise(\n                    nn.Linear(self.input_dim, dim, bias=False),\n                    self.q_noise,\n                    self.qn_block_size,\n                )\n\n            if tied_emb is None:\n                out_proj = nn.Linear(\n                    dim, self.cutoff[i + 1] - self.cutoff[i], bias=False\n                )\n            else:\n                out_proj = TiedLinear(tied_emb, transpose=False)\n\n            m = nn.Sequential(\n                proj,\n                nn.Dropout(self.dropout_module.p),\n                quant_noise(out_proj, self.q_noise, self.qn_block_size),\n            )\n\n            self.tail.append(m)\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        version_name = name + \".version\"\n        if version_name not in state_dict:\n            raise Exception(\"This version of the model is no longer supported\")\n\n    def adapt_target(self, target):\n        \"\"\"\n        In order to be efficient, the AdaptiveSoftMax does not compute the\n        scores for all the word of the vocabulary for all the examples. It is\n        thus necessary to call the method adapt_target of the AdaptiveSoftMax\n        layer inside each forward pass.\n        \"\"\"\n\n        target = target.view(-1)\n        new_target = [target.clone()]\n        target_idxs = []\n\n        for i in range(len(self.cutoff) - 1):\n            mask = target.ge(self.cutoff[i]).mul(target.lt(self.cutoff[i + 1]))\n            new_target[0][mask] = self.cutoff[0] + i\n\n            if mask.any():\n                target_idxs.append(mask.nonzero(as_tuple=False).squeeze(1))\n                new_target.append(target[mask].add(-self.cutoff[i]))\n            else:\n                target_idxs.append(None)\n                new_target.append(None)\n\n        return new_target, target_idxs\n\n    def forward(self, input, target):\n        \"\"\"\n        Args:\n            input: (b x t x d)\n            target: (b x t)\n        Returns:\n            2 lists: output for each cutoff section and new targets by cut off\n        \"\"\"\n\n        input = input.contiguous().view(-1, input.size(-1))\n        input = self.dropout_module(input)\n\n        new_target, target_idxs = self.adapt_target(target)\n        output = [self.head(input)]\n\n        for i in range(len(target_idxs)):\n            if target_idxs[i] is not None:\n                output.append(self.tail[i](input.index_select(0, target_idxs[i])))\n            else:\n                output.append(None)\n\n        return output, new_target\n\n    def get_log_prob(self, input, target):\n        \"\"\"\n        Computes the log probabilities for all the words of the vocabulary,\n        given a 2D tensor of hidden vectors.\n        \"\"\"\n\n        bsz, length, dim = input.size()\n        input = input.contiguous().view(-1, dim)\n\n        if target is not None:\n            _, target_idxs = self.adapt_target(target)\n        else:\n            target_idxs = None\n\n        head_y = self.head(input)\n        log_probs = head_y.new_zeros(input.size(0), self.vocab_size)\n\n        head_sz = self.cutoff[0] + len(self.tail)\n        log_probs[:, :head_sz] = self.lsm(head_y)\n        tail_priors = log_probs[:, self.cutoff[0] : head_sz].clone()\n\n        for i in range(len(self.tail)):\n            start = self.cutoff[i]\n            end = self.cutoff[i + 1]\n\n            if target_idxs is None:\n                tail_out = log_probs[:, start:end]\n                tail_out.copy_(self.tail[i](input))\n                log_probs[:, start:end] = self.lsm(tail_out).add_(\n                    tail_priors[:, i, None]\n                )\n            elif target_idxs[i] is not None:\n                idxs = target_idxs[i]\n                tail_out = log_probs[idxs, start:end]\n                tail_out.copy_(self.tail[i](input[idxs]))\n                log_probs[idxs, start:end] = self.lsm(tail_out).add_(\n                    tail_priors[idxs, i, None]\n                )\n\n        log_probs = log_probs.view(bsz, length, -1)\n        return log_probs\n"
  },
  {
    "path": "fairseq/modules/base_layer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch.nn as nn\nimport torch\nimport sys\nfrom fairseq import utils\nfrom fairseq.distributed import utils as distributed_utils\nfrom fairseq.modules.layer_norm import LayerNorm\n\n\nclass BaseLayer(nn.Module):\n    def __init__(self, args):\n        super().__init__()\n        self.num_workers = distributed_utils.get_data_parallel_world_size()\n        expert_centroids = torch.empty(self.num_workers, args.decoder_embed_dim)\n        torch.nn.init.orthogonal_(expert_centroids, gain=0.1)\n        self.register_parameter(\n            \"expert_centroids\", torch.nn.Parameter(expert_centroids)\n        )\n        self.expert_network = nn.Sequential(\n            *([BaseSublayer(args) for _ in range(args.base_sublayers)])\n        )\n        self.expert_id = distributed_utils.get_data_parallel_rank()\n        self.shuffle = args.base_shuffle\n        self.cpp = self.load_assignment()\n\n        # Add a special attribute to the expert parameters, so we know not to sync their gradients\n        for param in self.expert_network.parameters():\n            param.expert = True\n\n    def forward(self, input_features, *args, **kwargs):\n        features = input_features.reshape(-1, input_features.size(-1))\n        is_training = input_features.requires_grad\n\n        if self.shuffle and is_training:\n            # Send each token to a random worker, to break correlations within the batch\n            shuffle_sort = torch.randperm(features.size(0), device=features.device)\n            features = All2All.apply(features[shuffle_sort])\n\n        with torch.no_grad():\n            # Compute similarity of each token to each expert, for routing\n            token_expert_affinities = features.matmul(\n                self.expert_centroids.transpose(0, 1)\n            )\n\n        # Compute which token goes to which expert\n        sort_by_expert, input_splits, output_splits = (\n            self.balanced_assignment(token_expert_affinities)\n            if is_training\n            else self.greedy_assignment(token_expert_affinities)\n        )\n        # Swap these tokens for the right ones for our expert\n        routed_features = All2All.apply(\n            features[sort_by_expert], output_splits, input_splits\n        )\n\n        if routed_features.size(0) > 0:\n            # Mix in the expert network based on how appropriate it is for these tokens\n            alpha = torch.sigmoid(\n                routed_features.mv(self.expert_centroids[self.expert_id])\n            ).unsqueeze(1)\n            routed_features = (\n                alpha * self.expert_network(routed_features)\n                + (1 - alpha) * routed_features\n            )\n        # Return to original worker and ordering\n        result = All2All.apply(routed_features, input_splits, output_splits)[\n            self.inverse_sort(sort_by_expert)\n        ]\n\n        if self.shuffle and is_training:\n            # Undo shuffling\n            result = All2All.apply(result)[self.inverse_sort(shuffle_sort)]\n\n        # Return additional Nones for compatibility with TransformerDecoderLayer\n        return result.view(input_features.size()), None, None\n\n    def inverse_sort(self, order):\n        # Creates an index that undoes a sort: xs==xs[order][inverse_sort(order)]\n        return torch.empty_like(order).scatter_(\n            0, order, torch.arange(0, order.size(0), device=order.device)\n        )\n\n    def balanced_assignment(self, scores):\n        ok = scores.isfinite()\n        if not ok.all():\n            # NaNs here can break the assignment algorithm\n            scores[~ok] = scores[ok].min()\n        return self.cpp.balanced_assignment(scores), None, None\n\n    # Assigns each token to the top k experts\n    def greedy_assignment(self, scores, k=1):\n        token_to_workers = torch.topk(scores, dim=1, k=k, largest=True).indices.view(-1)\n        token_to_workers, sort_ordering = torch.sort(token_to_workers)\n        worker2token = sort_ordering // k\n\n        # Find how many tokens we're sending to each other worker (being careful for sending 0 tokens to some workers)\n        output_splits = torch.zeros(\n            (self.num_workers,), dtype=torch.long, device=scores.device\n        )\n        workers, counts = torch.unique_consecutive(token_to_workers, return_counts=True)\n        output_splits[workers] = counts\n        # Tell other workers how many tokens to expect from us\n        input_splits = All2All.apply(output_splits)\n        return worker2token, input_splits.tolist(), output_splits.tolist()\n\n    def load_assignment(self):\n        try:\n            from fairseq import libbase\n\n            return libbase\n\n        except ImportError as e:\n            sys.stderr.write(\n                \"ERROR: missing libbase. run `python setup.py build_ext --inplace`\\n\"\n            )\n            raise e\n\n\nclass BaseSublayer(nn.Module):\n    def __init__(self, args):\n        super().__init__()\n        self.activation_fn = utils.get_activation_fn(\n            activation=getattr(args, \"activation_fn\", \"relu\") or \"relu\"\n        )\n        self.norm = LayerNorm(args.decoder_embed_dim, export=False)\n        self.ff1 = torch.nn.Linear(args.decoder_embed_dim, args.decoder_ffn_embed_dim)\n        self.ff2 = torch.nn.Linear(args.decoder_ffn_embed_dim, args.decoder_embed_dim)\n        self.ff2.weight.data.zero_()\n\n    def forward(self, xs):\n        return xs + self.ff2(self.activation_fn(self.ff1(self.norm(xs))))\n\n\n# Wraps torch.distributed.all_to_all_single as a function that supports autograd\nclass All2All(torch.autograd.Function):\n    @staticmethod\n    def forward(ctx, xs, input_splits=None, output_splits=None):\n        ctx.input_splits = input_splits\n        ctx.output_splits = output_splits\n\n        ys = (\n            torch.empty_like(xs)\n            if output_splits is None\n            else xs.new_empty(size=[sum(output_splits)] + list(xs.size()[1:]))\n        )\n        torch.distributed.all_to_all_single(\n            ys, xs, output_split_sizes=output_splits, input_split_sizes=input_splits\n        )\n        return ys\n\n    @staticmethod\n    def backward(ctx, grad_output):\n        result = (\n            torch.empty_like(grad_output)\n            if ctx.input_splits is None\n            else grad_output.new_empty(\n                size=[sum(ctx.input_splits)] + list(grad_output.size()[1:])\n            )\n        )\n        torch.distributed.all_to_all_single(\n            result,\n            grad_output,\n            output_split_sizes=ctx.input_splits,\n            input_split_sizes=ctx.output_splits,\n        )\n        return result, None, None\n"
  },
  {
    "path": "fairseq/modules/beamable_mm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\n\n\nclass BeamableMM(nn.Module):\n    \"\"\"This module provides an optimized MM for beam decoding with attention.\n\n    It leverage the fact that the source-side of the input is replicated beam\n    times and the target-side of the input is of width one. This layer speeds up\n    inference by replacing the inputs {(bsz x 1 x nhu), (bsz x sz2 x nhu)}\n    with smaller inputs {(bsz/beam x beam x nhu), (bsz/beam x sz2 x nhu)}.\n    \"\"\"\n\n    def __init__(self, beam_size=None):\n        super(BeamableMM, self).__init__()\n        self.beam_size = beam_size\n\n    def forward(self, input1, input2):\n        if (\n            not self.training\n            and self.beam_size is not None  # test mode\n            and input1.dim() == 3  # beam size is set\n            and input1.size(1)  # only support batched input\n            == 1  # single time step update\n        ):\n            bsz, beam = input1.size(0), self.beam_size\n\n            # bsz x 1 x nhu --> bsz/beam x beam x nhu\n            input1 = input1[:, 0, :].unfold(0, beam, beam).transpose(2, 1)\n\n            # bsz x sz2 x nhu --> bsz/beam x sz2 x nhu\n            input2 = input2.unfold(0, beam, beam)[:, :, :, 0]\n\n            # use non batched operation if bsz = beam\n            if input1.size(0) == 1:\n                output = torch.mm(input1[0, :, :], input2[0, :, :])\n            else:\n                output = input1.bmm(input2)\n            return output.view(bsz, 1, -1)\n        else:\n            return input1.bmm(input2)\n\n    def set_beam_size(self, beam_size):\n        self.beam_size = beam_size\n"
  },
  {
    "path": "fairseq/modules/character_token_embedder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom typing import List, Tuple\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq.data import Dictionary\nfrom torch import nn\n\n\nCHAR_PAD_IDX = 0\nCHAR_EOS_IDX = 257\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass CharacterTokenEmbedder(torch.nn.Module):\n    def __init__(\n        self,\n        vocab: Dictionary,\n        filters: List[Tuple[int, int]],\n        char_embed_dim: int,\n        word_embed_dim: int,\n        highway_layers: int,\n        max_char_len: int = 50,\n        char_inputs: bool = False,\n    ):\n        super(CharacterTokenEmbedder, self).__init__()\n\n        self.onnx_trace = False\n        self.embedding_dim = word_embed_dim\n        self.max_char_len = max_char_len\n        self.char_embeddings = nn.Embedding(257, char_embed_dim, padding_idx=0)\n        self.symbol_embeddings = nn.Parameter(torch.FloatTensor(2, word_embed_dim))\n        self.eos_idx, self.unk_idx = 0, 1\n        self.char_inputs = char_inputs\n\n        self.convolutions = nn.ModuleList()\n        for width, out_c in filters:\n            self.convolutions.append(\n                nn.Conv1d(char_embed_dim, out_c, kernel_size=width)\n            )\n\n        last_dim = sum(f[1] for f in filters)\n\n        self.highway = Highway(last_dim, highway_layers) if highway_layers > 0 else None\n\n        self.projection = nn.Linear(last_dim, word_embed_dim)\n\n        assert (\n            vocab is not None or char_inputs\n        ), \"vocab must be set if not using char inputs\"\n        self.vocab = None\n        if vocab is not None:\n            self.set_vocab(vocab, max_char_len)\n\n        self.reset_parameters()\n\n    def prepare_for_onnx_export_(self):\n        self.onnx_trace = True\n\n    def set_vocab(self, vocab, max_char_len):\n        word_to_char = torch.LongTensor(len(vocab), max_char_len)\n\n        truncated = 0\n        for i in range(len(vocab)):\n            if i < vocab.nspecial:\n                char_idxs = [0] * max_char_len\n            else:\n                chars = vocab[i].encode()\n                # +1 for padding\n                char_idxs = [c + 1 for c in chars] + [0] * (max_char_len - len(chars))\n            if len(char_idxs) > max_char_len:\n                truncated += 1\n                char_idxs = char_idxs[:max_char_len]\n            word_to_char[i] = torch.LongTensor(char_idxs)\n\n        if truncated > 0:\n            logger.info(\n                \"truncated {} words longer than {} characters\".format(\n                    truncated, max_char_len\n                )\n            )\n\n        self.vocab = vocab\n        self.word_to_char = word_to_char\n\n    @property\n    def padding_idx(self):\n        return Dictionary().pad() if self.vocab is None else self.vocab.pad()\n\n    def reset_parameters(self):\n        nn.init.xavier_normal_(self.char_embeddings.weight)\n        nn.init.xavier_normal_(self.symbol_embeddings)\n        nn.init.xavier_uniform_(self.projection.weight)\n\n        nn.init.constant_(\n            self.char_embeddings.weight[self.char_embeddings.padding_idx], 0.0\n        )\n        nn.init.constant_(self.projection.bias, 0.0)\n\n    def forward(\n        self,\n        input: torch.Tensor,\n    ):\n        if self.char_inputs:\n            chars = input.view(-1, self.max_char_len)\n            pads = chars[:, 0].eq(CHAR_PAD_IDX)\n            eos = chars[:, 0].eq(CHAR_EOS_IDX)\n            if eos.any():\n                if self.onnx_trace:\n                    chars = torch.where(eos.unsqueeze(1), chars.new_zeros(1), chars)\n                else:\n                    chars[eos] = 0\n\n            unk = None\n        else:\n            flat_words = input.view(-1)\n            chars = self.word_to_char[flat_words.type_as(self.word_to_char)].type_as(\n                input\n            )\n            pads = flat_words.eq(self.vocab.pad())\n            eos = flat_words.eq(self.vocab.eos())\n            unk = flat_words.eq(self.vocab.unk())\n\n        word_embs = self._convolve(chars)\n        if self.onnx_trace:\n            if pads.any():\n                word_embs = torch.where(\n                    pads.unsqueeze(1), word_embs.new_zeros(1), word_embs\n                )\n            if eos.any():\n                word_embs = torch.where(\n                    eos.unsqueeze(1), self.symbol_embeddings[self.eos_idx], word_embs\n                )\n            if unk is not None and unk.any():\n                word_embs = torch.where(\n                    unk.unsqueeze(1), self.symbol_embeddings[self.unk_idx], word_embs\n                )\n        else:\n            if pads.any():\n                word_embs[pads] = 0\n            if eos.any():\n                word_embs[eos] = self.symbol_embeddings[self.eos_idx]\n            if unk is not None and unk.any():\n                word_embs[unk] = self.symbol_embeddings[self.unk_idx]\n\n        return word_embs.view(input.size()[:2] + (-1,))\n\n    def _convolve(\n        self,\n        char_idxs: torch.Tensor,\n    ):\n        char_embs = self.char_embeddings(char_idxs)\n        char_embs = char_embs.transpose(1, 2)  # BTC -> BCT\n\n        conv_result = []\n\n        for conv in self.convolutions:\n            x = conv(char_embs)\n            x, _ = torch.max(x, -1)\n            x = F.relu(x)\n            conv_result.append(x)\n\n        x = torch.cat(conv_result, dim=-1)\n\n        if self.highway is not None:\n            x = self.highway(x)\n        x = self.projection(x)\n\n        return x\n\n\nclass Highway(torch.nn.Module):\n    \"\"\"\n    A `Highway layer <https://arxiv.org/abs/1505.00387>`_.\n    Adopted from the AllenNLP implementation.\n    \"\"\"\n\n    def __init__(self, input_dim: int, num_layers: int = 1):\n        super(Highway, self).__init__()\n        self.input_dim = input_dim\n        self.layers = nn.ModuleList(\n            [nn.Linear(input_dim, input_dim * 2) for _ in range(num_layers)]\n        )\n        self.activation = nn.ReLU()\n\n        self.reset_parameters()\n\n    def reset_parameters(self):\n        for layer in self.layers:\n            # As per comment in AllenNLP:\n            # We should bias the highway layer to just carry its input forward.  We do that by\n            # setting the bias on `B(x)` to be positive, because that means `g` will be biased to\n            # be high, so we will carry the input forward.  The bias on `B(x)` is the second half\n            # of the bias vector in each Linear layer.\n            nn.init.constant_(layer.bias[self.input_dim :], 1)\n\n            nn.init.constant_(layer.bias[: self.input_dim], 0)\n            nn.init.xavier_normal_(layer.weight)\n\n    def forward(self, x: torch.Tensor):\n        for layer in self.layers:\n            projection = layer(x)\n            proj_x, gate = projection.chunk(2, dim=-1)\n            proj_x = self.activation(proj_x)\n            gate = torch.sigmoid(gate)\n            x = gate * x + (gate.new_tensor([1]) - gate) * proj_x\n        return x\n"
  },
  {
    "path": "fairseq/modules/checkpoint_activations.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport functools\nfrom typing import Any, Dict, List, Tuple, Union\n\nimport torch\nimport torch.utils.checkpoint as checkpoint\nfrom fairseq import utils\n\n\ndef checkpoint_wrapper(m, offload_to_cpu=False):\n    \"\"\"\n    A friendlier wrapper for performing activation checkpointing.\n\n    Compared to the PyTorch version, this version:\n    - wraps an nn.Module, so that all subsequent calls will use checkpointing\n    - handles keyword arguments in the forward\n    - handles non-Tensor outputs from the forward\n\n    Usage::\n\n        checkpointed_module = checkpoint_wrapper(my_module, offload_to_cpu=True)\n        a, b = checkpointed_module(x, y=3, z=torch.Tensor([1]))\n    \"\"\"\n    # should I check whether original_forward has already been set?\n    assert not hasattr(\n        m, \"precheckpoint_forward\"\n    ), \"checkpoint function has already been applied?\"\n    m.precheckpoint_forward = m.forward\n    m.forward = functools.partial(\n        _checkpointed_forward,\n        m.precheckpoint_forward,  # original_forward\n        offload_to_cpu,\n    )\n    return m\n\n\ndef unwrap_checkpoint(m: torch.nn.Module):\n    \"\"\"\n    unwrap a module and its children from checkpoint_wrapper\n    \"\"\"\n    for module in m.modules():\n        if hasattr(module, \"precheckpoint_forward\"):\n            module.forward = module.precheckpoint_forward\n            del module.precheckpoint_forward\n        if hasattr(module, \"old_deepcopy_method\"):\n            module.__deepcopy__ = module.old_deepcopy_method\n            del module.old_deepcopy_method\n    return m\n\n\ndef _checkpointed_forward(original_forward, offload_to_cpu, *args, **kwargs):\n    # Autograd Functions in PyTorch work best with positional args, since\n    # the backward must return gradients (or None) for every input argument.\n    # We can flatten keyword arguments to make this easier.\n    kwarg_keys, flat_args = pack_kwargs(*args, **kwargs)\n    parent_ctx_dict = {\"offload\": offload_to_cpu}\n    output = CheckpointFunction.apply(\n        original_forward, parent_ctx_dict, kwarg_keys, *flat_args\n    )\n    if isinstance(output, torch.Tensor):\n        return output\n    else:\n        packed_non_tensor_outputs = parent_ctx_dict[\"packed_non_tensor_outputs\"]\n        if packed_non_tensor_outputs:\n            output = unpack_non_tensors(output, packed_non_tensor_outputs)\n        return output\n\n\ndef pack_kwargs(*args, **kwargs) -> Tuple[List[str], List[Any]]:\n    \"\"\"\n    Usage::\n\n        kwarg_keys, flat_args = pack_kwargs(1, 2, a=3, b=4)\n        args, kwargs = unpack_kwargs(kwarg_keys, flat_args)\n        assert args == [1, 2]\n        assert kwargs == {\"a\": 3, \"b\": 4}\n    \"\"\"\n    kwarg_keys = []\n    flat_args = list(args)\n    for k, v in kwargs.items():\n        kwarg_keys.append(k)\n        flat_args.append(v)\n    return kwarg_keys, flat_args\n\n\ndef unpack_kwargs(\n    kwarg_keys: List[str], flat_args: List[Any]\n) -> Tuple[List[Any], Dict[str, Any]]:\n    if len(kwarg_keys) == 0:\n        return flat_args, {}\n    args = flat_args[: -len(kwarg_keys)]\n    kwargs = {k: v for k, v in zip(kwarg_keys, flat_args[-len(kwarg_keys) :])}\n    return args, kwargs\n\n\ndef split_non_tensors(\n    mixed: Union[torch.Tensor, Tuple[Any]]\n) -> Tuple[Tuple[torch.Tensor], Dict[str, List[Any]]]:\n    \"\"\"\n    Usage::\n\n        x = torch.Tensor([1])\n        y = torch.Tensor([2])\n        tensors, packed_non_tensors = split_non_tensors((x, y, None, 3))\n        recon = unpack_non_tensors(tensors, packed_non_tensors)\n        assert recon == (x, y, None, 3)\n    \"\"\"\n    if isinstance(mixed, torch.Tensor):\n        return (mixed,), None\n    tensors = []\n    packed_non_tensors = {\"is_tensor\": [], \"objects\": []}\n    for o in mixed:\n        if isinstance(o, torch.Tensor):\n            packed_non_tensors[\"is_tensor\"].append(True)\n            tensors.append(o)\n        else:\n            packed_non_tensors[\"is_tensor\"].append(False)\n            packed_non_tensors[\"objects\"].append(o)\n    return tuple(tensors), packed_non_tensors\n\n\ndef unpack_non_tensors(\n    tensors: Tuple[torch.Tensor],\n    packed_non_tensors: Dict[str, List[Any]],\n) -> Tuple[Any]:\n    if packed_non_tensors is None:\n        return tensors\n    assert isinstance(packed_non_tensors, dict)\n    mixed = []\n    is_tensor_list = packed_non_tensors[\"is_tensor\"]\n    objects = packed_non_tensors[\"objects\"]\n    assert len(tensors) + len(objects) == len(is_tensor_list)\n    obj_i = tnsr_i = 0\n    for is_tensor in is_tensor_list:\n        if is_tensor:\n            mixed.append(tensors[tnsr_i])\n            tnsr_i += 1\n        else:\n            mixed.append(objects[obj_i])\n            obj_i += 1\n    return tuple(mixed)\n\n\nclass CheckpointFunction(torch.autograd.Function):\n    \"\"\"Similar to the torch version, but support non-Tensor outputs.\n\n    The caller is expected to provide a dict (*parent_ctx_dict*) that will hold\n    the non-Tensor outputs. These should be combined with the Tensor *outputs*\n    by calling ``unpack_non_tensors``.\n    \"\"\"\n\n    @staticmethod\n    def forward(ctx, run_function, parent_ctx_dict, kwarg_keys, *args):\n        if torch.is_grad_enabled():  # grad may be disabled, e.g., during validation\n            checkpoint.check_backward_validity(args)\n\n        ctx.run_function = run_function\n        ctx.kwarg_keys = kwarg_keys\n        ctx.fwd_rng_state = utils.get_rng_state()\n\n        tensor_inputs, packed_non_tensor_inputs = split_non_tensors(args)\n        if parent_ctx_dict[\"offload\"]:\n            ctx.fwd_device = tuple(x.device for x in tensor_inputs)\n            ctx.grad_requirements = tuple(x.requires_grad for x in tensor_inputs)\n            tensor_inputs = tuple(\n                x.to(torch.device(\"cpu\"), non_blocking=True) for x in tensor_inputs\n            )\n\n        else:\n            ctx.fwd_device, ctx.grad_requirements = None, None\n\n        ctx.save_for_backward(*tensor_inputs)\n        ctx.packed_non_tensor_inputs = packed_non_tensor_inputs\n\n        with torch.no_grad():\n            unpacked_args, unpacked_kwargs = unpack_kwargs(kwarg_keys, args)\n            outputs = run_function(*unpacked_args, **unpacked_kwargs)\n\n        if isinstance(outputs, torch.Tensor):\n            return outputs\n        else:\n            # Autograd Functions don't like non-Tensor outputs. We can split the\n            # non-Tensor and Tensor outputs, returning the former by reference\n            # through *parent_ctx_dict* and returning the latter directly.\n            outputs, packed_non_tensor_outputs = split_non_tensors(outputs)\n            parent_ctx_dict[\"packed_non_tensor_outputs\"] = packed_non_tensor_outputs\n            return outputs\n\n    @staticmethod\n    def backward(ctx, *args):\n        if not torch.autograd._is_checkpoint_valid():\n            raise RuntimeError(\n                \"Checkpointing is not compatible with .grad(), please use .backward() if possible\"\n            )\n\n        tensor_inputs: Tuple = ctx.saved_tensors\n        tensor_inputs = checkpoint.detach_variable(tensor_inputs)\n        if ctx.fwd_device is not None:\n            tensor_inputs = [\n                t.to(ctx.fwd_device[i], non_blocking=True)\n                for i, t in enumerate(tensor_inputs)\n            ]\n            for i, need_grad in enumerate(ctx.grad_requirements):\n                tensor_inputs[i].requires_grad = need_grad\n        inputs = unpack_non_tensors(tensor_inputs, ctx.packed_non_tensor_inputs)\n\n        # Store the current states.\n        bwd_rng_state = utils.get_rng_state()\n\n        # Set the states to what it used to be before the forward pass.\n        utils.set_rng_state(ctx.fwd_rng_state)\n\n        with torch.enable_grad():\n            unpacked_args, unpacked_kwargs = unpack_kwargs(ctx.kwarg_keys, inputs)\n            outputs = ctx.run_function(*unpacked_args, **unpacked_kwargs)\n            tensor_outputs, _ = split_non_tensors(outputs)\n        # Set the states back to what it was at the start of this function.\n        utils.set_rng_state(bwd_rng_state)\n\n        # Run backward() with only Tensors that require grad\n        outputs_with_grad = []\n        args_with_grad = []\n        for i in range(len(tensor_outputs)):\n            if tensor_outputs[i].requires_grad:\n                outputs_with_grad.append(tensor_outputs[i])\n                args_with_grad.append(args[i])\n        if len(outputs_with_grad) == 0:\n            raise RuntimeError(\n                \"None of the outputs have requires_grad=True, \"\n                \"this checkpoint() is not necessary\"\n            )\n\n        torch.autograd.backward(outputs_with_grad, args_with_grad)\n\n        grads = tuple(\n            inp.grad if isinstance(inp, torch.Tensor) else None for inp in inputs\n        )\n        return (None, None, None) + grads\n"
  },
  {
    "path": "fairseq/modules/conformer_layer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom typing import Optional\n\nimport torch\n\nfrom fairseq.modules import (\n    ESPNETMultiHeadedAttention,\n    LayerNorm,\n    MultiheadAttention,\n    RelPositionMultiHeadedAttention,\n    RotaryPositionMultiHeadedAttention,\n)\nfrom fairseq.utils import get_activation_fn\n\n\nclass ConvolutionModule(torch.nn.Module):\n    \"\"\"Convolution block used in the conformer block\"\"\"\n\n    def __init__(\n        self,\n        embed_dim,\n        channels,\n        depthwise_kernel_size,\n        dropout,\n        activation_fn=\"swish\",\n        bias=False,\n        export=False,\n    ):\n        \"\"\"\n        Args:\n            embed_dim: Embedding dimension\n            channels: Number of channels in depthwise conv layers\n            depthwise_kernel_size: Depthwise conv layer kernel size\n            dropout: dropout value\n            activation_fn: Activation function to use after depthwise convolution kernel\n            bias: If bias should be added to conv layers\n            export: If layernorm should be exported to jit\n        \"\"\"\n        super(ConvolutionModule, self).__init__()\n        assert (\n            depthwise_kernel_size - 1\n        ) % 2 == 0, \"kernel_size should be a odd number for 'SAME' padding\"\n        self.layer_norm = LayerNorm(embed_dim, export=export)\n        self.pointwise_conv1 = torch.nn.Conv1d(\n            embed_dim,\n            2 * channels,\n            kernel_size=1,\n            stride=1,\n            padding=0,\n            bias=bias,\n        )\n        self.glu = torch.nn.GLU(dim=1)\n        self.depthwise_conv = torch.nn.Conv1d(\n            channels,\n            channels,\n            depthwise_kernel_size,\n            stride=1,\n            padding=(depthwise_kernel_size - 1) // 2,\n            groups=channels,\n            bias=bias,\n        )\n        self.batch_norm = torch.nn.BatchNorm1d(channels)\n        self.activation = get_activation_fn(activation_fn)(channels)\n        self.pointwise_conv2 = torch.nn.Conv1d(\n            channels,\n            embed_dim,\n            kernel_size=1,\n            stride=1,\n            padding=0,\n            bias=bias,\n        )\n        self.dropout = torch.nn.Dropout(dropout)\n\n    def forward(self, x):\n        \"\"\"\n        Args:\n            x: Input of shape B X T X C\n        Returns:\n          Tensor of shape B X T X C\n        \"\"\"\n        x = self.layer_norm(x)\n        # exchange the temporal dimension and the feature dimension\n        x = x.transpose(1, 2)\n\n        # GLU mechanism\n        x = self.pointwise_conv1(x)  # (batch, 2*channel, dim)\n        x = self.glu(x)  # (batch, channel, dim)\n\n        # 1D Depthwise Conv\n        x = self.depthwise_conv(x)\n        x = self.batch_norm(x)\n        x = self.activation(x)\n\n        x = self.pointwise_conv2(x)\n        x = self.dropout(x)\n        return x.transpose(1, 2)\n\n\nclass FeedForwardModule(torch.nn.Module):\n    \"\"\"Positionwise feed forward layer used in conformer\"\"\"\n\n    def __init__(\n        self,\n        input_feat,\n        hidden_units,\n        dropout1,\n        dropout2,\n        activation_fn=\"swish\",\n        bias=True,\n    ):\n        \"\"\"\n        Args:\n            input_feat: Input feature dimension\n            hidden_units: Hidden unit dimension\n            dropout1: dropout value for layer1\n            dropout2: dropout value for layer2\n            activation_fn: Name of activation function\n            bias: If linear layers should have bias\n        \"\"\"\n\n        super(FeedForwardModule, self).__init__()\n        self.layer_norm = LayerNorm(input_feat)\n        self.w_1 = torch.nn.Linear(input_feat, hidden_units, bias=bias)\n        self.w_2 = torch.nn.Linear(hidden_units, input_feat, bias=bias)\n        self.dropout1 = torch.nn.Dropout(dropout1)\n        self.dropout2 = torch.nn.Dropout(dropout2)\n        self.activation = get_activation_fn(activation_fn)(hidden_units)\n\n    def forward(self, x):\n        \"\"\"\n        Args:\n            x: Input Tensor of shape  T X B X C\n        Returns:\n            Tensor of shape T X B X C\n        \"\"\"\n        x = self.layer_norm(x)\n        x = self.w_1(x)\n        x = self.activation(x)\n        x = self.dropout1(x)\n        x = self.w_2(x)\n        return self.dropout2(x)\n\n\nclass ConformerEncoderLayer(torch.nn.Module):\n    \"\"\"Conformer block based on https://arxiv.org/abs/2005.08100. We currently don't support relative positional encoding in MHA\"\"\"\n\n    def __init__(\n        self,\n        embed_dim,\n        ffn_embed_dim,\n        attention_heads,\n        dropout,\n        use_fp16,\n        depthwise_conv_kernel_size=31,\n        activation_fn=\"swish\",\n        attn_type=None,\n        pos_enc_type=\"abs\",\n    ):\n        \"\"\"\n        Args:\n            embed_dim: Input embedding dimension\n            ffn_embed_dim: FFN layer dimension\n            attention_heads: Number of attention heads in MHA\n            dropout: dropout value\n            depthwise_conv_kernel_size: Size of kernel in depthwise conv layer in convolution module\n            activation_fn: Activation function name to use in convulation block and feed forward block\n            attn_type: MHA implementation from ESPNET vs fairseq\n            pos_enc_type: Positional encoding type - abs, rope, rel_pos\n        \"\"\"\n        self.pos_enc_type = pos_enc_type\n        super(ConformerEncoderLayer, self).__init__()\n\n        self.ffn1 = FeedForwardModule(\n            embed_dim,\n            ffn_embed_dim,\n            dropout,\n            dropout,\n        )\n\n        self.self_attn_layer_norm = LayerNorm(embed_dim, export=False)\n        self.self_attn_dropout = torch.nn.Dropout(dropout)\n        if attn_type == \"espnet\":\n            if self.pos_enc_type == \"rel_pos\":\n                self.self_attn = RelPositionMultiHeadedAttention(\n                    embed_dim,\n                    attention_heads,\n                    dropout=dropout,\n                )\n            elif self.pos_enc_type == \"rope\":\n                self.self_attn = RotaryPositionMultiHeadedAttention(\n                    embed_dim, attention_heads, dropout=dropout, precision=use_fp16\n                )\n            elif self.pos_enc_type == \"abs\":\n                self.self_attn = ESPNETMultiHeadedAttention(\n                    embed_dim,\n                    attention_heads,\n                    dropout=dropout,\n                )\n            else:\n                raise Exception(f\"Unsupported attention type {self.pos_enc_type}\")\n        else:\n            # Default to fairseq MHA\n            self.self_attn = MultiheadAttention(\n                embed_dim,\n                attention_heads,\n                dropout=dropout,\n            )\n\n        self.conv_module = ConvolutionModule(\n            embed_dim=embed_dim,\n            channels=embed_dim,\n            depthwise_kernel_size=depthwise_conv_kernel_size,\n            dropout=dropout,\n            activation_fn=activation_fn,\n        )\n\n        self.ffn2 = FeedForwardModule(\n            embed_dim,\n            ffn_embed_dim,\n            dropout,\n            dropout,\n            activation_fn=activation_fn,\n        )\n        self.final_layer_norm = LayerNorm(embed_dim, export=False)\n\n    def forward(\n        self,\n        x,\n        encoder_padding_mask: Optional[torch.Tensor],\n        position_emb: Optional[torch.Tensor] = None,\n    ):\n        \"\"\"\n        Args:\n            x: Tensor of shape T X B X C\n            encoder_padding_mask: Optional mask tensor\n            positions:\n        Returns:\n            Tensor of shape T X B X C\n        \"\"\"\n        residual = x\n        x = self.ffn1(x)\n        x = x * 0.5 + residual\n        residual = x\n        x = self.self_attn_layer_norm(x)\n        if self.pos_enc_type == \"rel_pos\":\n            x, attn = self.self_attn(\n                query=x,\n                key=x,\n                value=x,\n                key_padding_mask=encoder_padding_mask,\n                pos_emb=position_emb,\n                need_weights=False,\n            )\n        else:\n            x, attn = self.self_attn(\n                query=x,\n                key=x,\n                value=x,\n                key_padding_mask=encoder_padding_mask,\n                need_weights=False,\n            )\n        x = self.self_attn_dropout(x)\n        x = x + residual\n\n        residual = x\n        # TBC to BTC\n        x = x.transpose(0, 1)\n        x = self.conv_module(x)\n        # BTC to TBC\n        x = x.transpose(0, 1)\n        x = residual + x\n\n        residual = x\n        x = self.ffn2(x)\n\n        layer_result = x\n\n        x = x * 0.5 + residual\n\n        x = self.final_layer_norm(x)\n        return x, (attn, layer_result)\n\n\nclass ConformerWav2Vec2EncoderLayer(ConformerEncoderLayer):\n    \"\"\"Encoder layer for Wav2vec2 encoder\"\"\"\n\n    def forward(\n        self,\n        x: torch.Tensor,\n        self_attn_mask: torch.Tensor = None,\n        self_attn_padding_mask: torch.Tensor = None,\n        need_weights: bool = False,\n        att_args=None,\n        position_emb=None,\n    ):\n        return super().forward(x, self_attn_padding_mask, position_emb)\n"
  },
  {
    "path": "fairseq/modules/conv_tbc.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nfrom torch import nn\nfrom torch.nn.modules.utils import _single\nfrom torch import Tensor\n\n\nclass ConvTBC(torch.nn.Module):\n    \"\"\"1D convolution over an input of shape (time x batch x channel)\n\n    The implementation uses gemm to perform the convolution. This implementation\n    is faster than cuDNN for small kernel sizes.\n    \"\"\"\n\n    def __init__(self, in_channels, out_channels, kernel_size, padding=0):\n        super(ConvTBC, self).__init__()\n        self.in_channels = in_channels\n        self.out_channels = out_channels\n        self.kernel_size = _single(kernel_size)\n        self.padding = _single(padding)\n\n        self.weight = torch.nn.Parameter(\n            torch.Tensor(self.kernel_size[0], in_channels, out_channels)\n        )\n        self.bias = torch.nn.Parameter(torch.Tensor(out_channels))\n\n        self.reset_parameters()\n\n    def reset_parameters(self):\n        nn.init.xavier_normal_(self.weight)\n        nn.init.zeros_(self.bias)\n\n    def conv_tbc(self, input: Tensor):\n        return torch.conv_tbc(\n            input.contiguous(), self.weight, self.bias, self.padding[0]\n        )\n\n    def forward(self, input: Tensor):\n        return self.conv_tbc(input)\n\n    def __repr__(self):\n        s = (\n            \"{name}({in_channels}, {out_channels}, kernel_size={kernel_size}\"\n            \", padding={padding}\"\n        )\n        if self.bias is None:\n            s += \", bias=False\"\n        s += \")\"\n        return s.format(name=self.__class__.__name__, **self.__dict__)\n"
  },
  {
    "path": "fairseq/modules/cross_entropy.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nimport torch\nimport torch.nn.functional as F\n\nlogger = logging.getLogger(__name__)\n\n\ndef _cross_entropy_pytorch(logits, target, ignore_index=None, reduction=\"mean\"):\n    lprobs = F.log_softmax(logits, dim=-1, dtype=torch.float32)\n    return F.nll_loss(\n        lprobs,\n        target,\n        ignore_index=ignore_index,\n        reduction=reduction,\n    )\n\n\ntry:\n    import xentropy_cuda\n    from apex.contrib import xentropy\n\n    def cross_entropy(logits, target, ignore_index=-100, reduction=\"mean\"):\n        if logits.device == torch.device(\"cpu\"):\n            return _cross_entropy_pytorch(logits, target, ignore_index, reduction)\n        else:\n            if not getattr(cross_entropy, \"_has_logged_once\", False):\n                logger.info(\"using fused cross entropy\")\n                cross_entropy._has_logged_once = True\n\n            half_to_float = logits.dtype == torch.half\n            losses = xentropy.SoftmaxCrossEntropyLoss.apply(\n                logits,\n                target,\n                0.0,\n                ignore_index,\n                half_to_float,\n            )\n            if reduction == \"sum\":\n                return losses.sum()\n            elif reduction == \"mean\":\n                if ignore_index >= 0:\n                    return losses.sum() / target.ne(ignore_index).sum()\n                else:\n                    return losses.mean()\n            elif reduction == \"none\":\n                return losses\n            else:\n                raise NotImplementedError\n\nexcept ImportError:\n\n    def cross_entropy(logits, target, ignore_index=-100, reduction=\"mean\"):\n        return _cross_entropy_pytorch(logits, target, ignore_index, reduction)\n"
  },
  {
    "path": "fairseq/modules/cuda_utils.cu",
    "content": "/**\n * Copyright (c) Facebook, Inc. and its affiliates.\n *\n * This source code is licensed under the MIT license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\ntemplate <typename U, typename V>\nconstexpr __host__ __device__ auto divUp(U a, V b) -> decltype(a + b) {\n  return (a + b - 1) / b;\n}\n\ntemplate <int FS, int SB, int padding_l, typename scalar_t>\n__inline__ __device__ void zeroSharedMem(scalar_t* data) {\n  /*\n    Given an array of length FS + SB, zero out the first padding_l and last\n    (FS - padding_l) values in the array\n  */\n\n  int tid = threadIdx.x;\n\n  if (FS < SB) {\n    // zero all if we have enough threads in a block to do all of them\n    if (tid < padding_l || tid > SB - FS + padding_l - 1) {\n      data[tid] = scalar_t(0.0);\n    }\n  } else {\n    // otherwise zero out one block at a time\n    const int numIterations = divUp<int, int>(FS, SB);\n    for (int i = 0; i < numIterations; i++) {\n      int offset = i * SB;\n      if (tid + offset < padding_l) {\n        data[tid + offset] = scalar_t(0.0);\n      } else if (tid + offset < FS) {\n        data[SB + tid + offset] = scalar_t(0.0);\n      }\n    }\n  }\n}\n\ntemplate <typename scalar_t>\n__inline__ __device__ scalar_t warpReduce(scalar_t data) {\n  /*\n    Reduce an array within each warp. After processing all values in warp will\n    caontain the sum of all original values in that warp.\n\n    data - pointer to data to reduce\n  */\n  data += __shfl_xor_sync(SHFL_MASK, data, 16);\n  data += __shfl_xor_sync(SHFL_MASK, data, 8);\n  data += __shfl_xor_sync(SHFL_MASK, data, 4);\n  data += __shfl_xor_sync(SHFL_MASK, data, 2);\n  data += __shfl_xor_sync(SHFL_MASK, data, 1);\n  return data;\n}\n\ntemplate <typename scalar_t>\n__inline__ __device__ scalar_t blockReduce(scalar_t data) {\n  /*\n     Reduce an entire array on the block level. After processing, the\n     first value in the array will contain the reduced sum.\n\n     data - pointer to data to reduce\n  */\n\n  static __shared__ scalar_t warpSum[32];\n  const int tid = threadIdx.x;\n  int wid = tid / 32;\n  int lane = tid % 32;\n\n  __syncthreads();\n\n  // reduce each warp then write to shared memory\n  scalar_t sum = warpReduce(data);\n  if (lane == 0) {\n    warpSum[wid] = sum;\n  }\n\n  __syncthreads();\n\n  scalar_t v;\n  // perform final sum of partial warp sums\n  if (tid < blockDim.x / 32) {\n    v = warpSum[lane];\n  } else {\n    v = scalar_t(0.0);\n  }\n\n  if (wid == 0) {\n    v = warpReduce(v);\n  }\n  __syncthreads();\n\n  return v;\n}\n\nvoid checkCudaStatus(cudaError_t status, int lineNumber = -1) {\n  if (status != cudaSuccess) {\n    std::cout << cudaGetErrorString(status) << \" at line \" << lineNumber\n              << std::endl;\n    std::cout << \"Exiting\" << std::endl;\n    exit(1);\n  }\n}\n\ntemplate <int FS, int SB, int padding_l, typename scalar_t>\n__device__ void load_input_to_shared(\n    const scalar_t* input, // global memory\n    int inputOffset,\n    int sequenceLength,\n    int iteration,\n    int numIterations,\n    bool no_prev,\n    scalar_t* output /* shared memory */) {\n  /*\n    Load a block size of input into shared memory with\n    right and left overhang of total size FS. If previously\n    loaded memory, overlap will be shifted over to reduce\n    global memory access\n\n    input - pointer to start of channel sequence\n    inputOffset - how far in the sequence to start loading\n    sequenceLength - total length of sequence\n    iteration - which block of sequence we are loading\n    numIterations - total number of blocks to load\n    no_prev - whether to load the whole block if the previous block\n              wasn't loaded\n    output - shared memory to write input to\n  */\n\n  const int tid = threadIdx.x;\n\n  // Load the left \"overhang\" of input\n  if (iteration > 0) {\n    if (padding_l < SB) {\n      // load all at once\n      if (tid < padding_l) {\n        output[tid] =\n            (no_prev) ? input[inputOffset - padding_l + tid] : output[tid + SB];\n      }\n    } else {\n      // load in chunks of size SB\n      int numIterations = divUp<int, int>(padding_l, SB);\n      for (int i = 0; i < numIterations; i++) {\n        int offset = i * SB;\n        if ((tid + offset) < padding_l) {\n          output[tid + offset] = (no_prev)\n              ? input[inputOffset - padding_l + tid + offset]\n              : output[tid + offset + SB];\n        }\n      }\n    }\n  }\n\n  // Load the right \"overhang\" of input\n  if (iteration < (numIterations - 1)) {\n    const int elementsLeft = sequenceLength - (iteration + 1) * SB;\n\n    if ((FS - padding_l) < SB) {\n      // load all at once\n      if (tid < (FS - padding_l)) {\n        output[padding_l + SB + tid] = (tid < elementsLeft)\n            ? input[inputOffset + SB + tid]\n            : scalar_t(0.0);\n      }\n    } else {\n      // load in chunks of size SB\n      int numIterations = divUp<int, int>(FS - padding_l, SB);\n      for (int i = 0; i < numIterations; i++) {\n        int offset = i * SB;\n        if ((tid + offset) < (FS - padding_l)) {\n          output[padding_l + SB + tid + offset] =\n              ((tid + offset) < elementsLeft)\n              ? input[inputOffset + SB + tid + offset]\n              : scalar_t(0.0);\n        }\n      }\n    }\n  }\n\n  // We should also clear out the right \"overhang\"\n  if (iteration == (numIterations - 1)) {\n    if ((FS - padding_l) < SB) {\n      // clear out all at once\n      if (tid < (FS - padding_l)) {\n        output[padding_l + SB + tid] = scalar_t(0.0);\n      }\n    } else {\n      // clear in chunks of size SB\n      int numIterations = divUp<int, int>(FS - padding_l, SB);\n      for (int i = 0; i < numIterations; i++) {\n        int offset = i * SB;\n        if ((tid + offset) < (FS - padding_l)) {\n          output[padding_l + SB + tid + offset] = scalar_t(0.0);\n        }\n      }\n    }\n  }\n  output[tid + padding_l] = ((inputOffset + tid) < sequenceLength)\n      ? input[inputOffset + tid]\n      : scalar_t(0.0);\n}\n"
  },
  {
    "path": "fairseq/modules/downsampled_multihead_attention.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n#\n\nimport math\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nfrom fairseq.modules.fairseq_dropout import FairseqDropout\nfrom fairseq.modules.scalar_bias import scalar_bias\n\n\nclass SingleHeadAttention(nn.Module):\n    \"\"\"\n    Single-head attention that supports Gating and Downsampling\n    \"\"\"\n\n    def __init__(\n        self,\n        out_channels,\n        embed_dim,\n        head_dim,\n        head_index,\n        dropout=0.0,\n        bias=True,\n        project_input=True,\n        gated=False,\n        downsample=False,\n        num_heads=1,\n    ):\n        super().__init__()\n        self.embed_dim = embed_dim\n        self.dropout_module = FairseqDropout(\n            dropout, module_name=self.__class__.__name__\n        )\n        self.head_index = head_index\n        self.head_dim = head_dim\n        self.project_input = project_input\n        self.gated = gated\n        self.downsample = downsample\n        self.num_heads = num_heads\n        self.projection = None\n\n        k_layers = []\n        v_layers = []\n        if self.downsample:\n            k_layers.append(Downsample(self.head_index))\n            v_layers.append(Downsample(self.head_index))\n            out_proj_size = self.head_dim\n        else:\n            out_proj_size = self.head_dim * self.num_heads\n        if self.gated:\n            k_layers.append(GatedLinear(self.embed_dim, out_proj_size, bias=bias))\n            self.in_proj_q = GatedLinear(self.embed_dim, out_proj_size, bias=bias)\n            v_layers.append(GatedLinear(self.embed_dim, out_proj_size, bias=bias))\n        else:\n            k_layers.append(Linear(self.embed_dim, out_proj_size, bias=bias))\n            self.in_proj_q = Linear(self.embed_dim, out_proj_size, bias=bias)\n            v_layers.append(Linear(self.embed_dim, out_proj_size, bias=bias))\n\n        self.in_proj_k = nn.Sequential(*k_layers)\n        self.in_proj_v = nn.Sequential(*v_layers)\n\n        if self.downsample:\n            self.out_proj = Linear(out_proj_size, self.head_dim, bias=bias)\n        else:\n            self.out_proj = Linear(out_proj_size, out_channels, bias=bias)\n\n        self.scaling = self.head_dim**-0.5\n\n    def forward(\n        self,\n        query,\n        key,\n        value,\n        mask_future_timesteps=False,\n        key_padding_mask=None,\n        use_scalar_bias=False,\n    ):\n        \"\"\"Input shape: Time x Batch x Channel\n        Self-attention can be implemented by passing in the same arguments for\n        query, key and value. Future timesteps can be masked with the\n        `mask_future_timesteps` argument. Padding elements can be excluded from\n        the key by passing a binary ByteTensor (`key_padding_mask`) with shape:\n        batch x src_len, where padding elements are indicated by 1s.\n        \"\"\"\n        src_len, bsz, out_channels = key.size()\n        tgt_len = query.size(0)\n        assert list(query.size()) == [tgt_len, bsz, out_channels]\n        assert key.size() == value.size()\n\n        if key_padding_mask is not None:\n            assert key_padding_mask.size(0) == bsz\n            assert key_padding_mask.size(1) == src_len\n\n        if self.downsample:\n            size = bsz\n        else:\n            size = bsz * self.num_heads\n\n        k = key\n        v = value\n        q = query\n        if self.project_input:\n            q = self.in_proj_q(q)\n            k = self.in_proj_k(k)\n            v = self.in_proj_v(v)\n            src_len = k.size()[0]\n        q *= self.scaling\n\n        if not self.downsample:\n            q = q.view(tgt_len, size, self.head_dim)\n            k = k.view(src_len, size, self.head_dim)\n            v = v.view(src_len, size, self.head_dim)\n\n        q = q.transpose(0, 1)\n        k = k.transpose(0, 1)\n        v = v.transpose(0, 1)\n\n        attn_weights = torch.bmm(q, k.transpose(1, 2))\n        if mask_future_timesteps:\n            assert (\n                query.size() == key.size()\n            ), \"mask_future_timesteps only applies to self-attention\"\n            attn_weights *= torch.tril(\n                attn_weights.data.new([1]).expand(tgt_len, tgt_len).clone(),\n                diagonal=-1,\n            )[:, :: self.head_index + 1 if self.downsample else 1].unsqueeze(0)\n            attn_weights += torch.triu(\n                attn_weights.data.new([-math.inf]).expand(tgt_len, tgt_len).clone(),\n                diagonal=0,\n            )[:, :: self.head_index + 1 if self.downsample else 1].unsqueeze(0)\n        tgt_size = tgt_len\n        if use_scalar_bias:\n            attn_weights = scalar_bias(attn_weights, 2)\n            v = scalar_bias(v, 1)\n            tgt_size += 1\n\n        if key_padding_mask is not None:\n            # don't attend to padding symbols\n            if key_padding_mask.max() > 0:\n                if self.downsample:\n                    attn_weights = attn_weights.view(bsz, 1, tgt_len, src_len)\n                else:\n                    attn_weights = attn_weights.view(\n                        size, self.num_heads, tgt_len, src_len\n                    )\n                attn_weights = attn_weights.masked_fill(\n                    key_padding_mask.unsqueeze(1).unsqueeze(2),\n                    -math.inf,\n                )\n                attn_weights = attn_weights.view(size, tgt_len, src_len)\n        attn_weights = F.softmax(attn_weights, dim=-1)\n        attn_weights = self.dropout_module(attn_weights)\n\n        attn = torch.bmm(attn_weights, v)\n        if self.downsample:\n            attn = attn.transpose(0, 1).contiguous().view(tgt_len, bsz, self.head_dim)\n        else:\n            attn = attn.transpose(0, 1).contiguous().view(tgt_len, bsz, self.embed_dim)\n\n        attn = self.out_proj(attn)\n\n        return attn, attn_weights\n\n\nclass DownsampledMultiHeadAttention(nn.ModuleList):\n    \"\"\"\n    Multi-headed attention with Gating and Downsampling\n    \"\"\"\n\n    def __init__(\n        self,\n        out_channels,\n        embed_dim,\n        num_heads,\n        dropout=0.0,\n        bias=True,\n        project_input=True,\n        gated=False,\n        downsample=False,\n    ):\n        self.embed_dim = embed_dim\n        self.num_heads = num_heads\n        self.head_dim = embed_dim // num_heads\n        self.downsample = downsample\n        self.gated = gated\n        self.project_input = project_input\n        assert self.head_dim * num_heads == embed_dim\n\n        if self.downsample:\n            attention_heads = []\n            for index in range(self.num_heads):\n                attention_heads.append(\n                    SingleHeadAttention(\n                        out_channels,\n                        self.embed_dim,\n                        self.head_dim,\n                        index,\n                        dropout,\n                        bias,\n                        self.project_input,\n                        self.gated,\n                        self.downsample,\n                        self.num_heads,\n                    )\n                )\n            super().__init__(modules=attention_heads)\n            self.out_proj = Linear(embed_dim, out_channels, bias=bias)\n        else:\n            # either we have a list of attention heads, or just one attention head\n            # if not being downsampled, we can do the heads with one linear layer instead of separate ones\n            super().__init__()\n            self.attention_module = SingleHeadAttention(\n                out_channels,\n                self.embed_dim,\n                self.head_dim,\n                1,\n                dropout,\n                bias,\n                self.project_input,\n                self.gated,\n                self.downsample,\n                self.num_heads,\n            )\n\n    def forward(\n        self,\n        query,\n        key,\n        value,\n        mask_future_timesteps=False,\n        key_padding_mask=None,\n        use_scalar_bias=False,\n    ):\n        src_len, bsz, embed_dim = key.size()\n        tgt_len = query.size(0)\n        assert embed_dim == self.embed_dim\n        assert list(query.size()) == [tgt_len, bsz, embed_dim]\n        assert key.size() == value.size()\n\n        tgt_size = tgt_len\n        if use_scalar_bias:\n            tgt_size += 1\n\n        attn = []\n        attn_weights = []\n        if self.downsample:\n            for attention_head_number in range(self.num_heads):\n                # call the forward of each attention head\n                _attn, _attn_weight = self[attention_head_number](\n                    query,\n                    key,\n                    value,\n                    mask_future_timesteps,\n                    key_padding_mask,\n                    use_scalar_bias,\n                )\n                attn.append(_attn)\n                attn_weights.append(_attn_weight)\n            full_attn = torch.cat(attn, dim=2)\n            full_attn = self.out_proj(full_attn)\n            return full_attn, attn_weights[0].clone()\n        else:\n            _attn, _attn_weight = self.attention_module(\n                query,\n                key,\n                value,\n                mask_future_timesteps,\n                key_padding_mask,\n                use_scalar_bias,\n            )\n            attn.append(_attn)\n            attn_weights.append(_attn_weight)\n            full_attn = torch.cat(attn, dim=2)\n            full_attn_weights = torch.cat(attn_weights)\n            full_attn_weights = full_attn_weights.view(\n                bsz, self.num_heads, tgt_size, src_len\n            )\n            full_attn_weights = full_attn_weights.sum(dim=1) / self.num_heads\n            return full_attn, full_attn_weights\n\n\nclass Downsample(nn.Module):\n    \"\"\"\n    Selects every nth element, where n is the index\n    \"\"\"\n\n    def __init__(self, index):\n        super().__init__()\n        self.index = index\n\n    def forward(self, x):\n        return x[:: self.index + 1]\n\n\ndef Linear(in_features, out_features, dropout=0.0, bias=True):\n    \"\"\"Weight-normalized Linear layer (input: B x T x C)\"\"\"\n    m = nn.Linear(in_features, out_features, bias=bias)\n    m.weight.data.normal_(mean=0, std=math.sqrt((1 - dropout) / in_features))\n    m.bias.data.zero_()\n    return nn.utils.weight_norm(m)\n\n\ndef GatedLinear(in_features, out_features, dropout=0.0, bias=True):\n    \"\"\"Weight-normalized Linear layer (input: B x T x C) with interspersed GLU units\"\"\"\n    return nn.Sequential(\n        Linear(in_features, out_features * 4, dropout, bias),\n        nn.GLU(),\n        Linear(out_features * 2, out_features * 2, dropout, bias),\n        nn.GLU(),\n        Linear(out_features, out_features, dropout, bias),\n    )\n"
  },
  {
    "path": "fairseq/modules/dynamic_convolution.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Dict, Optional\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.incremental_decoding_utils import (\n    FairseqIncrementalState,\n    with_incremental_state,\n)\nfrom fairseq.modules.fairseq_dropout import FairseqDropout\nfrom torch import Tensor\n\nfrom .unfold import unfold1d\n\n\ndef DynamicConv(\n    input_size,\n    kernel_size=1,\n    padding_l=None,\n    num_heads=1,\n    weight_dropout=0.0,\n    weight_softmax=False,\n    renorm_padding=False,\n    bias=False,\n    conv_bias=False,\n    query_size=None,\n    in_proj=False,\n):\n    if torch.cuda.is_available():\n        try:\n            from fairseq.modules.dynamicconv_layer import DynamicconvLayer\n\n            return DynamicconvLayer(\n                input_size,\n                kernel_size=kernel_size,\n                padding_l=padding_l,\n                num_heads=num_heads,\n                weight_dropout=weight_dropout,\n                weight_softmax=weight_softmax,\n                renorm_padding=renorm_padding,\n                bias=bias,\n                conv_bias=conv_bias,\n                query_size=query_size,\n            )\n        except ImportError as e:\n            print(e)\n    return DynamicConv1dTBC(\n        input_size,\n        kernel_size=kernel_size,\n        padding_l=padding_l,\n        num_heads=num_heads,\n        weight_dropout=weight_dropout,\n        weight_softmax=weight_softmax,\n        renorm_padding=renorm_padding,\n        bias=bias,\n        conv_bias=conv_bias,\n        query_size=query_size,\n    )\n\n\ndef Linear(in_features, out_features, bias=True):\n    m = nn.Linear(in_features, out_features, bias)\n    nn.init.xavier_uniform_(m.weight)\n    if bias:\n        nn.init.constant_(m.bias, 0.0)\n    return m\n\n\n@with_incremental_state\nclass DynamicConv1dTBC(nn.Module):\n    \"\"\"Dynamic lightweight convolution taking T x B x C inputs\n    Args:\n        input_size: # of channels of the input\n        kernel_size: convolution channels\n        padding_l: padding to the left when using \"same\" padding\n        num_heads: number of heads used. The weight is of shape (num_heads, 1, kernel_size)\n        weight_dropout: the drop rate of the DropConnect to drop the weight\n        weight_softmax: normalize the weight with softmax before the convolution\n        renorm_padding: re-normalize the filters to ignore the padded part (only the non-padding parts sum up to 1)\n        bias: use bias\n        conv_bias: bias of the convolution\n        query_size: specified when feeding a different input as the query\n        in_proj: project the input and generate the filter together\n\n    Shape:\n        Input: TxBxC, i.e. (timesteps, batch_size, input_size)\n        Output: TxBxC, i.e. (timesteps, batch_size, input_size)\n\n    Attributes:\n        weight: the learnable weights of the module of shape\n            `(num_heads, 1, kernel_size)`\n        bias:   the learnable bias of the module of shape `(input_size)`\n    \"\"\"\n\n    def __init__(\n        self,\n        input_size,\n        kernel_size=1,\n        padding_l=None,\n        num_heads=1,\n        weight_dropout=0.0,\n        weight_softmax=False,\n        renorm_padding=False,\n        bias=False,\n        conv_bias=False,\n        query_size=None,\n        in_proj=False,\n    ):\n        super().__init__()\n        self.input_size = input_size\n        self.query_size = input_size if query_size is None else query_size\n        self.kernel_size = kernel_size\n        self.padding_l = padding_l\n        self.num_heads = num_heads\n        self.weight_dropout_module = FairseqDropout(\n            weight_dropout, module_name=self.__class__.__name__\n        )\n        self.weight_softmax = weight_softmax\n        self.renorm_padding = renorm_padding\n\n        if in_proj:\n            self.weight_linear = Linear(\n                self.input_size, self.input_size + num_heads * kernel_size * 1\n            )\n        else:\n            self.weight_linear = Linear(\n                self.query_size, num_heads * kernel_size * 1, bias=bias\n            )\n        if conv_bias:\n            self.conv_bias = nn.Parameter(torch.Tensor(input_size))\n        else:\n            self.conv_bias = None\n        self.reset_parameters()\n\n    @property\n    def in_proj(self):\n        return (\n            self.weight_linear.out_features\n            == self.input_size + self.num_heads * self.kernel_size\n        )\n\n    def reset_parameters(self):\n        self.weight_linear.reset_parameters()\n        if self.conv_bias is not None:\n            nn.init.constant_(self.conv_bias, 0.0)\n\n    def forward(self, x, incremental_state=None, query=None, unfold=None):\n        \"\"\"Assuming the input, x, of the shape T x B x C and producing an output in the shape T x B x C\n        args:\n            x: Input of shape T x B x C, i.e. (timesteps, batch_size, input_size)\n            incremental_state: A dict to keep the state\n            unfold: unfold the input or not. If not, we use the matrix trick instead\n            query: use the specified query to predict the conv filters\n        \"\"\"\n        unfold = (\n            x.size(0) > 512 if unfold is None else unfold\n        )  # use unfold mode as default for long sequence to save memory\n        unfold = unfold or (incremental_state is not None)\n        assert query is None or not self.in_proj\n\n        if query is None:\n            query = x\n        if unfold:\n            output = self._forward_unfolded(x, incremental_state, query)\n        else:\n            output = self._forward_expanded(x, incremental_state, query)\n\n        if self.conv_bias is not None:\n            output = output + self.conv_bias.view(1, 1, -1)\n        return output\n\n    def _forward_unfolded(self, x, incremental_state, query):\n        \"\"\"The conventional implementation of convolutions.\n        Unfolding the input by having a window shifting to the right.\"\"\"\n        T, B, C = x.size()\n        K, H = self.kernel_size, self.num_heads\n        R = C // H\n        assert R * H == C == self.input_size\n\n        if self.in_proj:\n            proj = self.weight_linear(x)\n            x = proj.narrow(2, 0, self.input_size).contiguous()\n            weight = (\n                proj.narrow(2, self.input_size, H * K).contiguous().view(T * B * H, -1)\n            )\n        else:\n            weight = self.weight_linear(query).view(T * B * H, -1)\n\n        # renorm_padding is only implemented in _forward_expanded\n        assert not self.renorm_padding or incremental_state is not None\n\n        if incremental_state is not None:\n            input_buffer = self._get_input_buffer(incremental_state)\n            if input_buffer is None:\n                input_buffer = x.new()\n            x_unfold = torch.cat([input_buffer, x.unsqueeze(3)], dim=3)\n            if self.kernel_size > 1:\n                self._set_input_buffer(\n                    incremental_state, x_unfold[:, :, :, -self.kernel_size + 1 :]\n                )\n            x_unfold = x_unfold.view(T * B * H, R, -1)\n        else:\n            padding_l = self.padding_l\n            if K > T and padding_l == K - 1:\n                weight = weight.narrow(1, K - T, T)\n                K, padding_l = T, T - 1\n            # unfold the input: T x B x C --> T' x B x C x K\n            x_unfold = unfold1d(x, K, padding_l, 0)\n            x_unfold = x_unfold.view(T * B * H, R, K)\n\n        if self.weight_softmax and not self.renorm_padding:\n            weight = F.softmax(weight, dim=1)\n        weight = weight.narrow(1, 0, K)\n\n        if incremental_state is not None:\n            weight = weight[:, -x_unfold.size(2) :]\n            K = weight.size(1)\n\n        if self.weight_softmax and self.renorm_padding:\n            weight = F.softmax(weight, dim=1)\n\n        weight = self.weight_dropout_module(weight, inplace=False)\n\n        output = torch.bmm(x_unfold, weight.unsqueeze(2))  # T*B*H x R x 1\n        output = output.view(T, B, C)\n        return output\n\n    def _forward_expanded(self, x, incremental_stat, query):\n        \"\"\"Turn the convolution filters into band matrices and do matrix multiplication.\n        This is faster when the sequence is short, but less memory efficient.\n        This is not used in the decoder during inference.\n        \"\"\"\n        T, B, C = x.size()\n        K, H = self.kernel_size, self.num_heads\n        R = C // H\n        assert R * H == C == self.input_size\n        if self.in_proj:\n            proj = self.weight_linear(x)\n            x = proj.narrow(2, 0, self.input_size).contiguous()\n            weight = (\n                proj.narrow(2, self.input_size, H * K).contiguous().view(T * B * H, -1)\n            )\n        else:\n            weight = self.weight_linear(query).view(T * B * H, -1)\n\n        if not self.renorm_padding:\n            if self.weight_softmax:\n                weight = F.softmax(weight, dim=1)\n            weight = self.weight_dropout_module(weight, inplace=False)\n        weight = weight.narrow(1, 0, K).contiguous()\n        weight = weight.view(T, B * H, K).transpose(0, 1)\n\n        x = x.view(T, B * H, R).transpose(0, 1)\n        if self.weight_softmax and self.renorm_padding:\n            # turn the convolution filters into band matrices\n            weight_expanded = weight.new(B * H, T, T + K - 1).fill_(float(\"-inf\"))\n            weight_expanded.as_strided(\n                (B * H, T, K), (T * (T + K - 1), T + K, 1)\n            ).copy_(weight)\n            weight_expanded = weight_expanded.narrow(2, self.padding_l, T)\n            # normalize the weight over valid positions like self-attention\n            weight_expanded = F.softmax(weight_expanded, dim=2)\n            weight_expanded = self.weight_dropout_module(weight_expanded, inplace=False)\n        else:\n            P = self.padding_l\n            # For efficiency, we cut the kernel size and reduce the padding when the kernel is larger than the length\n            if K > T and P == K - 1:\n                weight = weight.narrow(2, K - T, T)\n                K, P = T, T - 1\n            # turn the convolution filters into band matrices\n            weight_expanded = weight.new_zeros(B * H, T, T + K - 1, requires_grad=False)\n            weight_expanded.as_strided(\n                (B * H, T, K), (T * (T + K - 1), T + K, 1)\n            ).copy_(weight)\n            weight_expanded = weight_expanded.narrow(2, P, T)  # B*H x T x T\n        output = torch.bmm(weight_expanded, x)\n        output = output.transpose(0, 1).contiguous().view(T, B, C)\n        return output\n\n    def reorder_incremental_state(self, incremental_state, new_order):\n        input_buffer = self._get_input_buffer(incremental_state)\n        if input_buffer is not None:\n            input_buffer = input_buffer.index_select(1, new_order)\n            self._set_input_buffer(incremental_state, input_buffer)\n\n    def _get_input_buffer(self, incremental_state):\n        return utils.get_incremental_state(self, incremental_state, \"input_buffer\")\n\n    def _set_input_buffer(self, incremental_state, new_buffer):\n        return utils.set_incremental_state(\n            self, incremental_state, \"input_buffer\", new_buffer\n        )\n\n    def extra_repr(self):\n        s = \"{}, kernel_size={}, padding_l={}, num_heads={}, weight_softmax={}, conv_bias={}, renorm_padding={}, in_proj={}\".format(\n            self.input_size,\n            self.kernel_size,\n            self.padding_l,\n            self.num_heads,\n            self.weight_softmax,\n            self.conv_bias is not None,\n            self.renorm_padding,\n            self.in_proj,\n        )\n\n        if self.query_size != self.input_size:\n            s += \", query_size={}\".format(self.query_size)\n        if self.weight_dropout_module.p > 0.0:\n            s += \", weight_dropout={}\".format(self.weight_dropout_module.p)\n        return s\n\n\nclass DynamicConv_scripatable(nn.Module, FairseqIncrementalState):\n    \"\"\"Dynamic lightweight convolution taking T x B x C inputs\n    Args:\n        input_size: # of channels of the input\n        kernel_size: convolution channels\n        padding_l: padding to the left when using \"same\" padding\n        num_heads: number of heads used. The weight is of shape (num_heads, 1, kernel_size)\n        weight_dropout: the drop rate of the DropConnect to drop the weight\n        weight_softmax: normalize the weight with softmax before the convolution\n        renorm_padding: re-normalize the filters to ignore the padded part (only the non-padding parts sum up to 1)\n        bias: use bias\n        conv_bias: bias of the convolution\n        query_size: specified when feeding a different input as the query\n        in_proj: project the input and generate the filter together\n\n    Shape:\n        Input: TxBxC, i.e. (timesteps, batch_size, input_size)\n        Output: TxBxC, i.e. (timesteps, batch_size, input_size)\n\n    Attributes:\n        weight: the learnable weights of the module of shape\n            `(num_heads, 1, kernel_size)`\n        bias:   the learnable bias of the module of shape `(input_size)`\n    \"\"\"\n\n    def __init__(\n        self,\n        input_size,\n        kernel_size=1,\n        padding_l=None,\n        num_heads=1,\n        weight_dropout=0.0,\n        weight_softmax=False,\n        renorm_padding=False,\n        bias=False,\n        conv_bias=False,\n        query_size=None,\n        in_proj=False,\n    ):\n        super().__init__()\n        self.input_size = input_size\n        self.query_size = input_size if query_size is None else query_size\n        self.kernel_size = kernel_size\n        self.padding_l = padding_l\n        self.num_heads = num_heads\n        self.weight_dropout_module = FairseqDropout(\n            weight_dropout, module_name=self.__class__.__name__\n        )\n        self.weight_softmax = weight_softmax\n        self.renorm_padding = renorm_padding\n\n        if in_proj:\n            self.weight_linear = Linear(\n                self.input_size, self.input_size + num_heads * kernel_size * 1\n            )\n        else:\n            self.weight_linear = Linear(\n                self.query_size, num_heads * kernel_size * 1, bias=bias\n            )\n        self.in_proj = (\n            self.weight_linear.out_features\n            == self.input_size + self.num_heads * self.kernel_size\n        )\n        self.has_conv_bias = conv_bias\n        self.conv_bias = nn.Parameter(torch.Tensor(input_size).view(1, 1, -1))\n        self.init_incremental_state()\n\n        self.reset_parameters()\n\n    def reset_parameters(self):\n        self.weight_linear.reset_parameters()\n        if self.has_conv_bias:\n            nn.init.constant_(self.conv_bias, 0.0)\n\n    def forward(\n        self,\n        x,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        query: Optional[Tensor] = None,\n    ):\n        \"\"\"Assuming the input, x, of the shape T x B x C and producing an output in the shape T x B x C\n        args:\n            x: Input of shape T x B x C, i.e. (timesteps, batch_size, input_size)\n            incremental_state: A dict to keep the state\n            unfold: unfold the input or not. If not, we use the matrix trick instead\n            query: use the specified query to predict the conv filters\n        \"\"\"\n        assert query is None or not self.in_proj\n\n        if query is None:\n            query = x\n\n        output = self._forward_unfolded(x, incremental_state, query)\n\n        if self.has_conv_bias:\n            output = output + self.conv_bias\n        return output\n\n    def _forward_unfolded(\n        self,\n        x,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]],\n        query,\n    ):\n        \"\"\"The conventional implementation of convolutions.\n        Unfolding the input by having a window shifting to the right.\"\"\"\n        T, B, C = x.size()\n        K, H = self.kernel_size, self.num_heads\n        R = C // H\n        assert R * H == C == self.input_size\n\n        TxBxH = T * B * H\n\n        if self.in_proj:\n            proj = self.weight_linear(x)\n            x = proj.narrow(2, 0, self.input_size).contiguous()\n            weight = proj.narrow(2, self.input_size, H * K).contiguous().view(TxBxH, -1)\n        else:\n            weight = self.weight_linear(query).view(TxBxH, -1)\n\n        # renorm_padding is only implemented in _forward_expanded\n        assert not self.renorm_padding or incremental_state is not None\n\n        if incremental_state is not None:\n            input_buffer = self._get_input_buffer(incremental_state)\n            if input_buffer is not None:\n                x_unfold = torch.cat([input_buffer, x.unsqueeze(3)], dim=3)\n            else:\n                x_unfold = x.unsqueeze(3).clone()\n            if self.kernel_size > 1:\n                self._set_input_buffer(\n                    incremental_state, x_unfold[:, :, :, -self.kernel_size + 1 :]\n                )\n            x_unfold = x_unfold.view(TxBxH, R, -1)\n        else:\n            padding_l = self.padding_l\n            if K > T and padding_l == K - 1:\n                weight = weight.narrow(1, K - T, T)\n                K, padding_l = T, T - 1\n            # unfold the input: T x B x C --> T' x B x C x K\n            x_unfold = unfold1d(x, K, padding_l, 0.0)\n            x_unfold = x_unfold.view(TxBxH, R, K)\n\n        if self.weight_softmax and not self.renorm_padding:\n            weight = F.softmax(weight, dim=1)\n        weight = weight.narrow(1, 0, K)\n\n        if incremental_state is not None:\n            weight = weight[:, -(x_unfold.size(2)) :]\n            K = weight.size(1)\n\n        if self.weight_softmax and self.renorm_padding:\n            weight = F.softmax(weight, dim=1)\n\n        weight = self.weight_dropout_module(weight, inplace=False)\n\n        output = torch.bmm(x_unfold, weight.unsqueeze(2))  # T x B x H x R x 1\n        output = output.view(T, B, C)\n        return output\n\n    def reorder_incremental_state(\n        self,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]],\n        new_order: Tensor,\n    ):\n        input_buffer = self._get_input_buffer(incremental_state)\n        if input_buffer is not None:\n            input_buffer = input_buffer.index_select(1, new_order)\n            self._set_input_buffer(incremental_state, input_buffer)\n\n    def _get_input_buffer(\n        self, incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]]\n    ):\n        result = self.get_incremental_state(incremental_state, \"input_buffer\")\n        if result is not None and \"input_buffer\" in result:\n            return result[\"input_buffer\"]\n        else:\n            return None\n\n    def _set_input_buffer(\n        self,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]],\n        new_buffer: Optional[Tensor],\n    ):\n        result = self.set_incremental_state(\n            incremental_state, \"input_buffer\", {\"input_buffer\": new_buffer}\n        )\n        if result is not None:\n            incremental_state = result\n        return incremental_state\n\n    def extra_repr(self):\n        s = \"{}, kernel_size={}, padding_l={}, num_heads={}, weight_softmax={}, conv_bias={}, renorm_padding={}, in_proj={}\".format(  # noqa\n            self.input_size,\n            self.kernel_size,\n            self.padding_l,\n            self.num_heads,\n            self.weight_softmax,\n            self.conv_bias is not None,\n            self.renorm_padding,\n            self.in_proj,\n        )\n\n        if self.query_size != self.input_size:\n            s += \", query_size={}\".format(self.query_size)\n        if self.weight_dropout_module.p > 0.0:\n            s += \", weight_dropout={}\".format(self.weight_dropout_module.p)\n        return s\n"
  },
  {
    "path": "fairseq/modules/dynamic_crf_layer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nThis file is to re-implemented the low-rank and beam approximation of CRF layer\nProposed by:\n\nSun, Zhiqing, et al.\nFast Structured Decoding for Sequence Models\nhttps://arxiv.org/abs/1910.11555\n\nThe CRF implementation is mainly borrowed from\nhttps://github.com/kmkurn/pytorch-crf/blob/master/torchcrf/__init__.py\n\n\"\"\"\n\nimport numpy as np\nimport torch\nimport torch.nn as nn\n\n\ndef logsumexp(x, dim=1):\n    return torch.logsumexp(x.float(), dim=dim).type_as(x)\n\n\nclass DynamicCRF(nn.Module):\n    \"\"\"Dynamic CRF layer is used to approximate the traditional\n    Conditional Random Fields (CRF)\n    $P(y | x) = 1/Z(x) exp(sum_i s(y_i, x) + sum_i t(y_{i-1}, y_i, x))$\n\n    where in this function, we assume the emition scores (s) are given,\n    and the transition score is a |V| x |V| matrix $M$\n\n    in the following two aspects:\n     (1) it used a low-rank approximation for the transition matrix:\n         $M = E_1 E_2^T$\n     (2) it used a beam to estimate the normalizing factor Z(x)\n    \"\"\"\n\n    def __init__(self, num_embedding, low_rank=32, beam_size=64):\n        super().__init__()\n\n        self.E1 = nn.Embedding(num_embedding, low_rank)\n        self.E2 = nn.Embedding(num_embedding, low_rank)\n\n        self.vocb = num_embedding\n        self.rank = low_rank\n        self.beam = beam_size\n\n    def extra_repr(self):\n        return \"vocab_size={}, low_rank={}, beam_size={}\".format(\n            self.vocb, self.rank, self.beam\n        )\n\n    def forward(self, emissions, targets, masks, beam=None):\n        \"\"\"\n        Compute the conditional log-likelihood of a sequence of target tokens given emission scores\n\n        Args:\n            emissions (`~torch.Tensor`): Emission score are usually the unnormalized decoder output\n                ``(batch_size, seq_len, vocab_size)``. We assume batch-first\n            targets (`~torch.LongTensor`): Sequence of target token indices\n                ``(batch_size, seq_len)\n            masks (`~torch.ByteTensor`): Mask tensor with the same size as targets\n\n        Returns:\n            `~torch.Tensor`: approximated log-likelihood\n        \"\"\"\n        numerator = self._compute_score(emissions, targets, masks)\n        denominator = self._compute_normalizer(emissions, targets, masks, beam)\n        return numerator - denominator\n\n    def forward_decoder(self, emissions, masks=None, beam=None):\n        \"\"\"\n        Find the most likely output sequence using Viterbi algorithm.\n\n        Args:\n            emissions (`~torch.Tensor`): Emission score are usually the unnormalized decoder output\n                ``(batch_size, seq_len, vocab_size)``. We assume batch-first\n            masks (`~torch.ByteTensor`): Mask tensor with the same size as targets\n\n        Returns:\n            `~torch.LongTensor`: decoded sequence from the CRF model\n        \"\"\"\n        return self._viterbi_decode(emissions, masks, beam)\n\n    def _compute_score(self, emissions, targets, masks=None):\n        batch_size, seq_len = targets.size()\n        emission_scores = emissions.gather(2, targets[:, :, None])[:, :, 0]  # B x T\n        transition_scores = (self.E1(targets[:, :-1]) * self.E2(targets[:, 1:])).sum(2)\n\n        scores = emission_scores\n        scores[:, 1:] += transition_scores\n\n        if masks is not None:\n            scores = scores * masks.type_as(scores)\n        return scores.sum(-1)\n\n    def _compute_normalizer(self, emissions, targets=None, masks=None, beam=None):\n        # HACK: we include \"target\" which is a hueristic for training\n        # HACK: we use a beam of tokens to approximate the normalizing factor (which is bad?)\n\n        beam = beam if beam is not None else self.beam\n        batch_size, seq_len = emissions.size()[:2]\n        if targets is not None:\n            _emissions = emissions.scatter(2, targets[:, :, None], np.float(\"inf\"))\n            beam_targets = _emissions.topk(beam, 2)[1]\n            beam_emission_scores = emissions.gather(2, beam_targets)\n        else:\n            beam_emission_scores, beam_targets = emissions.topk(beam, 2)\n        beam_transition_score1 = self.E1(beam_targets[:, :-1])  # B x (T-1) x K x D\n        beam_transition_score2 = self.E2(beam_targets[:, 1:])  # B x (T-1) x K x D\n        beam_transition_matrix = torch.bmm(\n            beam_transition_score1.view(-1, beam, self.rank),\n            beam_transition_score2.view(-1, beam, self.rank).transpose(1, 2),\n        )\n        beam_transition_matrix = beam_transition_matrix.view(batch_size, -1, beam, beam)\n\n        # compute the normalizer in the log-space\n        score = beam_emission_scores[:, 0]  # B x K\n        for i in range(1, seq_len):\n            next_score = score[:, :, None] + beam_transition_matrix[:, i - 1]\n            next_score = logsumexp(next_score, dim=1) + beam_emission_scores[:, i]\n\n            if masks is not None:\n                score = torch.where(masks[:, i : i + 1], next_score, score)\n            else:\n                score = next_score\n\n        # Sum (log-sum-exp) over all possible tags\n        return logsumexp(score, dim=1)\n\n    def _viterbi_decode(self, emissions, masks=None, beam=None):\n        # HACK: we use a beam of tokens to approximate the normalizing factor (which is bad?)\n\n        beam = beam if beam is not None else self.beam\n        batch_size, seq_len = emissions.size()[:2]\n        beam_emission_scores, beam_targets = emissions.topk(beam, 2)\n        beam_transition_score1 = self.E1(beam_targets[:, :-1])  # B x (T-1) x K x D\n        beam_transition_score2 = self.E2(beam_targets[:, 1:])  # B x (T-1) x K x D\n        beam_transition_matrix = torch.bmm(\n            beam_transition_score1.view(-1, beam, self.rank),\n            beam_transition_score2.view(-1, beam, self.rank).transpose(1, 2),\n        )\n        beam_transition_matrix = beam_transition_matrix.view(batch_size, -1, beam, beam)\n\n        traj_tokens, traj_scores = [], []\n        finalized_tokens, finalized_scores = [], []\n\n        # compute the normalizer in the log-space\n        score = beam_emission_scores[:, 0]  # B x K\n        dummy = (\n            torch.arange(beam, device=score.device).expand(*score.size()).contiguous()\n        )\n\n        for i in range(1, seq_len):\n            traj_scores.append(score)\n            _score = score[:, :, None] + beam_transition_matrix[:, i - 1]\n            _score, _index = _score.max(dim=1)\n            _score = _score + beam_emission_scores[:, i]\n\n            if masks is not None:\n                score = torch.where(masks[:, i : i + 1], _score, score)\n                index = torch.where(masks[:, i : i + 1], _index, dummy)\n            else:\n                score, index = _score, _index\n            traj_tokens.append(index)\n\n        # now running the back-tracing and find the best\n        best_score, best_index = score.max(dim=1)\n        finalized_tokens.append(best_index[:, None])\n        finalized_scores.append(best_score[:, None])\n\n        for idx, scs in zip(reversed(traj_tokens), reversed(traj_scores)):\n            previous_index = finalized_tokens[-1]\n            finalized_tokens.append(idx.gather(1, previous_index))\n            finalized_scores.append(scs.gather(1, previous_index))\n\n        finalized_tokens.reverse()\n        finalized_tokens = torch.cat(finalized_tokens, 1)\n        finalized_tokens = beam_targets.gather(2, finalized_tokens[:, :, None])[:, :, 0]\n\n        finalized_scores.reverse()\n        finalized_scores = torch.cat(finalized_scores, 1)\n        finalized_scores[:, 1:] = finalized_scores[:, 1:] - finalized_scores[:, :-1]\n\n        return finalized_scores, finalized_tokens\n"
  },
  {
    "path": "fairseq/modules/dynamicconv_layer/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .dynamicconv_layer import DynamicconvLayer  # noqa\n"
  },
  {
    "path": "fairseq/modules/dynamicconv_layer/cuda_function_gen.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\ndef gen_forward():\n\n    kernels = [3, 5, 7, 15, 31, 63, 127, 255]\n    blocks = [32, 64, 128, 256]\n\n    head = \"\"\"\n/**\n * Copyright (c) Facebook, Inc. and its affiliates.\n *\n * This source code is licensed under the MIT license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include \"dynamicconv_cuda.cuh\"\n\nstd::vector<at::Tensor> dynamicconv_cuda_forward(at::Tensor input, at::Tensor weight, int padding_l) {\n\n    at::DeviceGuard g(input.device());\n    const auto minibatch = input.size(0);\n    const auto numFeatures = input.size(1);\n    const auto sequenceLength = input.size(2);\n\n    const auto numHeads = weight.size(1);\n    const auto filterSize = weight.size(2);\n\n    const auto numFiltersInBlock = numFeatures / numHeads;\n    const dim3 blocks(minibatch, numFeatures);\n\n    auto output = at::zeros_like(input);\n    auto stream = at::cuda::getCurrentCUDAStream();\n\"\"\"\n\n    switch = \"\"\"\n    switch(filterSize) {\n\"\"\"\n\n    case_k = \"\"\"\n        case {k}:\n\"\"\"\n\n    main_block = \"\"\"\n            if (padding_l == {pad}) {{\n                AT_DISPATCH_FLOATING_TYPES_AND_HALF(input.scalar_type(), \"dynamicconv_forward\", ([&] {{\n                    dynamicconv_forward_kernel<{k}, {b_size}, {pad}, scalar_t>\n                    <<<blocks, {b_size}, 0, stream>>>(\n                            input.data<scalar_t>(),\n                            weight.data<scalar_t>(),\n                            minibatch,\n                            sequenceLength,\n                            numFeatures,\n                            numFiltersInBlock,\n                            numHeads,\n                            output.data<scalar_t>());\n                }}));\n            }} else\n\"\"\"\n\n    bad_padding = \"\"\"\n            {\n                std::cout << \"WARNING: Unsupported padding size - skipping forward pass\" << std::endl;\n            }\n            break;\\n\n\"\"\"\n\n    end = \"\"\"\n        default:\n            std::cout << \"WARNING: Unsupported filter length passed - skipping forward pass\" << std::endl;\n    }\n\n    return {output};\n}\n\"\"\"\n\n    with open(\"dynamicconv_cuda_forward.cu\", \"w\") as forward:\n        forward.write(head)\n        forward.write(switch)\n        for k in kernels:\n            b_size = 32\n            for b in blocks:\n                if b > k:\n                    b_size = b\n                    break\n            forward.write(case_k.format(k=k))\n            for pad in [k // 2, k - 1]:\n                forward.write(main_block.format(k=k, b_size=b_size, pad=pad))\n            forward.write(bad_padding)\n        forward.write(end)\n\n\ndef gen_backward():\n\n    kernels = [3, 5, 7, 15, 31, 63, 127, 255]\n    thresh = [512, 512, 512, 512, 512, 380, 256, 256]\n    min_block = [64, 64, 64, 64, 64, 64, 128, 256]\n    seqs = [32 * x for x in [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16]]\n\n    head = \"\"\"\n/**\n * Copyright (c) Facebook, Inc. and its affiliates.\n *\n * This source code is licensed under the MIT license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include \"dynamicconv_cuda.cuh\"\n\nstd::vector<at::Tensor> dynamicconv_cuda_backward(at::Tensor gradOutput, int padding_l, at::Tensor input, at::Tensor weight) {\n\n    at::DeviceGuard g(input.device());\n    const auto minibatch = input.size(0);\n    const auto numFeatures = input.size(1);\n    const auto sequenceLength = input.size(2);\n\n    const auto numHeads = weight.size(1);\n    const auto filterSize = weight.size(2);\n\n    const auto numFiltersInBlock = numFeatures / numHeads;\n    auto numChunks = 1;\n\n    auto gradInput = at::zeros_like(input);\n    auto gradWeight = at::zeros_like(weight);\n    auto stream = at::cuda::getCurrentCUDAStream();\n\n    dim3 blocks(minibatch, numHeads, numChunks);\n\"\"\"\n\n    sequence_if = \"\"\"\n    if (sequenceLength < {seq}) {{\n        switch(filterSize) {{\n\"\"\"\n\n    case_k = \"\"\"\n            case {k}:\n\"\"\"\n\n    chunks_reset = \"\"\"\n                numChunks = int(ceilf(sequenceLength/float({b_size})));\n                blocks = dim3(minibatch, numHeads, numChunks);\n\"\"\"\n\n    main_block = \"\"\"\n                if (padding_l == {p}) {{\n                    AT_DISPATCH_FLOATING_TYPES_AND_HALF(gradOutput.scalar_type(), \"dynamicconv_backward\", ([&] {{\n                        dynamicconv_backward_kernel<{k}, {b_size}, {p}, scalar_t>\n                        <<<blocks, {b_size}, 0, stream>>>(\n                                    gradOutput.data<scalar_t>(),\n                                    input.data<scalar_t>(),\n                                    weight.data<scalar_t>(),\n                                    minibatch,\n                                    sequenceLength,\n                                    numFeatures,\n                                    numFiltersInBlock,\n                                    numHeads,\n                                    gradWeight.data<scalar_t>(),\n                                    gradInput.data<scalar_t>());\n                    }}));\n                }} else\n\"\"\"\n\n    bad_padding = \"\"\"\n                {\n                    std::cout << \"WARNING: Unsupported padding size - skipping backward pass\" << std::endl;\n                }\n                break;\\n\n\"\"\"\n\n    bad_filter = \"\"\"\n            default:\n                std::cout << \"WARNING: Unsupported filter length passed - skipping backward pass\" << std::endl;\n        }\n\"\"\"\n\n    con_else = \"\"\"\n    } else\n\"\"\"\n\n    final_else = \"\"\"\n    {\n        switch(filterSize) {\n\"\"\"\n\n    last_return = \"\"\"\n    }\n    return {gradInput, gradWeight};\n}\n\"\"\"\n\n    with open(\"dynamicconv_cuda_backward.cu\", \"w\") as backward:\n        backward.write(head)\n        for seq in seqs:\n            backward.write(sequence_if.format(seq=seq))\n            for k, t, m in zip(kernels, thresh, min_block):\n                backward.write(case_k.format(k=k))\n                if seq <= t:\n                    b_size = seq\n                else:\n                    b_size = m\n                    backward.write(chunks_reset.format(b_size=b_size))\n                for p in [k // 2, k - 1]:\n                    backward.write(main_block.format(k=k, b_size=b_size, p=p))\n                backward.write(bad_padding)\n            backward.write(bad_filter)\n            backward.write(con_else)\n        backward.write(final_else)\n        for k, m in zip(kernels, min_block):\n            backward.write(case_k.format(k=k))\n            backward.write(chunks_reset.format(b_size=m))\n            for p in [k // 2, k - 1]:\n                backward.write(main_block.format(k=k, b_size=m, p=p))\n            backward.write(bad_padding)\n        backward.write(bad_filter)\n        backward.write(last_return)\n\n\nif __name__ == \"__main__\":\n    gen_forward()\n    gen_backward()\n"
  },
  {
    "path": "fairseq/modules/dynamicconv_layer/dynamicconv_cuda.cpp",
    "content": "/**\n * Copyright (c) Facebook, Inc. and its affiliates.\n *\n * This source code is licensed under the MIT license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include <torch/extension.h>\n#include <vector>\n\nstd::vector<at::Tensor>\ndynamicconv_cuda_forward(at::Tensor input, at::Tensor filters, int padding_l);\n\nstd::vector<at::Tensor> dynamicconv_cuda_backward(\n    at::Tensor gradOutput,\n    int padding_l,\n    at::Tensor input,\n    at::Tensor filters);\n\n#define CHECK_CUDA(x) \\\n  AT_ASSERTM(x.type().is_cuda(), #x \" must be a CUDA tensor\")\n#define CHECK_CONTIGUOUS(x) \\\n  AT_ASSERTM(x.is_contiguous(), #x \" must be contiguous\")\n#define CHECK_INPUT(x) \\\n  CHECK_CUDA(x);       \\\n  CHECK_CONTIGUOUS(x)\n\nstd::vector<at::Tensor>\ndynamicconv_forward(at::Tensor input, at::Tensor filters, int padding_l) {\n  CHECK_INPUT(input);\n  CHECK_INPUT(filters);\n\n  return dynamicconv_cuda_forward(input, filters, padding_l);\n}\n\nstd::vector<at::Tensor> dynamicconv_backward(\n    at::Tensor gradOutput,\n    int padding_l,\n    at::Tensor input,\n    at::Tensor filters) {\n  CHECK_INPUT(gradOutput);\n  CHECK_INPUT(input);\n  CHECK_INPUT(filters);\n\n  return dynamicconv_cuda_backward(gradOutput, padding_l, input, filters);\n}\n\nPYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {\n  m.def(\"forward\", &dynamicconv_forward, \"dynamicconv forward (CUDA)\");\n  m.def(\"backward\", &dynamicconv_backward, \"dynamicconv backward (CUDA)\");\n}\n"
  },
  {
    "path": "fairseq/modules/dynamicconv_layer/dynamicconv_cuda.cuh",
    "content": "/**\n * Copyright (c) Facebook, Inc. and its affiliates.\n *\n * This source code is licensed under the MIT license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include <ATen/ATen.h>\n#include <c10/cuda/CUDAStream.h>\n\n#include <cuda.h>\n#include <cuda_fp16.h>\n#include <cuda_runtime.h>\n\n#include <algorithm>\n#include <functional>\n#include <iostream>\n#include <stdexcept>\n#include <utility>\n#include <vector>\n\n#include <assert.h>\n#include <math.h>\n#include <stdlib.h>\n\n#define SHFL_MASK 0xffffffff\n\ntemplate <int FS, int SB, int padding_l, typename scalar_t>\n__global__ void dynamicconv_forward_kernel(\n    const scalar_t* input,\n    const scalar_t* weight,\n    int minibatch,\n    int sequenceLength,\n    int numFeatures,\n    int numFiltersInBlock,\n    int numHeads,\n    scalar_t* output);\n\ntemplate <int FS, int SB, int padding_l, typename scalar_t>\n__global__ void dynamicconv_backward_kernel(\n    const scalar_t* gradOutput, // B * C * T\n    const scalar_t* input, // B * C * T\n    const scalar_t* weight,\n    int minibatch,\n    int sequenceLength,\n    int numFeatures,\n    int numFiltersInBlock,\n    int numHeads,\n    scalar_t* gradWeight,\n    scalar_t* gradInput); // B * H * k * T\n"
  },
  {
    "path": "fairseq/modules/dynamicconv_layer/dynamicconv_cuda_kernel.cu",
    "content": "/**\n * Copyright (c) Facebook, Inc. and its affiliates.\n *\n * This source code is licensed under the MIT license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include \"../cuda_utils.cu\"\n#include \"dynamicconv_cuda.cuh\"\n#include \"dynamicconv_cuda_backward.cu\"\n#include \"dynamicconv_cuda_forward.cu\"\n\n// FS is filter size and kernels are specialized for filter sizes\ntemplate <int FS, int SB, int padding_l, typename scalar_t>\n__global__ void dynamicconv_forward_kernel(\n    const scalar_t* input,\n    const scalar_t* weight,\n    int minibatch,\n    int sequenceLength,\n    int numFeatures,\n    int numFiltersInBlock,\n    int numHeads,\n    scalar_t* output) {\n  assert(blockDim.x == SB);\n\n  const int tid = threadIdx.x;\n  const int batchIdx = blockIdx.x;\n  const int featureIdx = blockIdx.y;\n  const int head = featureIdx / numFiltersInBlock;\n\n  const int IOOffset =\n      batchIdx * numFeatures * sequenceLength + featureIdx * sequenceLength;\n  const scalar_t* inputFeature = &input[IOOffset];\n  scalar_t* outputFeature = &output[IOOffset];\n\n  scalar_t filter[FS];\n\n  __shared__ scalar_t tempInput[SB + FS];\n  zeroSharedMem<FS, SB, padding_l>(tempInput);\n\n  const int numIterations = divUp<int, int>(sequenceLength, SB);\n\n  for (int i = 0; i < numIterations; ++i) {\n    __syncthreads();\n    const int inputOffset = i * SB;\n    load_input_to_shared<FS, SB, padding_l>(\n        inputFeature,\n        inputOffset,\n        sequenceLength,\n        i,\n        numIterations,\n        false,\n        tempInput);\n    __syncthreads();\n    if (inputOffset + tid < sequenceLength) {\n#pragma unroll\n      for (int k = 0; k < FS; ++k) {\n        const int filterOffset = batchIdx * numHeads * FS * sequenceLength +\n            head * FS * sequenceLength + k * sequenceLength + i * SB + tid;\n        filter[k] = weight[filterOffset];\n      }\n\n      scalar_t out = scalar_t(0.0);\n#pragma unroll\n      for (int k = 0; k < FS; ++k) {\n        out += filter[k] * tempInput[tid + k];\n      }\n\n      outputFeature[inputOffset + tid] = out;\n    }\n  }\n}\n\ntemplate <int FS, int SB, int padding_l, typename scalar_t>\n__global__ void dynamicconv_backward_kernel(\n    const scalar_t* gradOutput, // B * C * T\n    const scalar_t* input, // B * C * T\n    const scalar_t* weight,\n    int minibatch,\n    int sequenceLength,\n    int numFeatures,\n    int numFiltersInBlock,\n    int numHeads,\n    scalar_t* gradWeight,\n    scalar_t* gradInput) { // B * H * k * T\n\n  assert(blockDim.x == SB);\n\n  // each block operates on a single batch and filter head\n  const int tid = threadIdx.x;\n  const int batchIdx = blockIdx.x;\n  const int headIdx = blockIdx.y;\n  const int chunkIdx = blockIdx.z;\n\n  const int numChunks = divUp<int, int>(sequenceLength, SB);\n  const int inputOffset = chunkIdx * SB;\n\n  // initialize shared memory for output gradient and input\n  __shared__ scalar_t tempGradOutput[SB + FS];\n  __shared__ scalar_t tempInput[SB + FS];\n  const int padding = FS - padding_l - 1;\n\n  zeroSharedMem<FS, SB, padding>(tempGradOutput);\n  zeroSharedMem<FS, SB, padding_l>(tempInput);\n\n  // initialize local filter and weight gradient sum arrays\n  scalar_t tempGradSum[FS];\n  scalar_t bfilter[FS];\n  for (int k = 0; k < FS; ++k) {\n    tempGradSum[k] = scalar_t(0.0);\n\n    int idxOffset = inputOffset + tid + k - padding;\n    if (idxOffset >= 0 && idxOffset < sequenceLength) {\n      int bfilterOffset = batchIdx * numHeads * FS * sequenceLength +\n          headIdx * FS * sequenceLength + (FS - k - 1) * sequenceLength +\n          idxOffset;\n      bfilter[k] = weight[bfilterOffset];\n    } else {\n      bfilter[k] = scalar_t(0.0);\n    }\n  }\n\n  // iterate over filter block\n  for (int featureIdx = 0; featureIdx < numFiltersInBlock; ++featureIdx) {\n    __syncthreads();\n\n    // load input and output gradient for this channel and chunk\n    const int IOOffset = batchIdx * numFeatures * sequenceLength +\n        (headIdx * numFiltersInBlock + featureIdx) * sequenceLength;\n    const scalar_t* inputFeature = &input[IOOffset];\n    const scalar_t* gradOutputFeature = &gradOutput[IOOffset];\n    scalar_t* gradInputFeature = &gradInput[IOOffset];\n\n    load_input_to_shared<FS, SB, padding>(\n        gradOutputFeature,\n        inputOffset,\n        sequenceLength,\n        chunkIdx,\n        numChunks,\n        true,\n        tempGradOutput);\n    load_input_to_shared<FS, SB, padding_l>(\n        inputFeature,\n        inputOffset,\n        sequenceLength,\n        chunkIdx,\n        numChunks,\n        true,\n        tempInput);\n    __syncthreads();\n\n    // sum input and weight gradients\n    scalar_t out = scalar_t(0.0);\n#pragma unroll\n    for (int k = 0; k < FS; ++k) {\n      tempGradSum[k] += tempInput[tid + k] * tempGradOutput[tid + padding];\n      out += bfilter[k] * tempGradOutput[tid + k];\n    }\n\n    if (inputOffset + tid < sequenceLength) {\n      gradInputFeature[inputOffset + tid] = out;\n    }\n  }\n\n  const int gradOffset =\n      batchIdx * numHeads * FS * sequenceLength + headIdx * FS * sequenceLength;\n  scalar_t* gradWeightFeature = &gradWeight[gradOffset];\n\n  // write weight gradient\n  if (inputOffset + tid < sequenceLength) {\n    for (int k = 0; k < FS; ++k) {\n      const int outputOffset = k * sequenceLength + inputOffset + tid;\n      gradWeightFeature[outputOffset] = tempGradSum[k];\n    }\n  }\n}\n"
  },
  {
    "path": "fairseq/modules/dynamicconv_layer/dynamicconv_layer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport dynamicconv_cuda\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.incremental_decoding_utils import with_incremental_state\nfrom fairseq.modules.fairseq_dropout import FairseqDropout\nfrom fairseq.modules.unfold import unfold1d\nfrom torch import nn\nfrom torch.autograd import Function\n\n\nclass dynamicconvFunction(Function):\n    @staticmethod\n    def forward(ctx, x, weights, padding_l):\n        ctx.padding_l = padding_l\n        outputs = dynamicconv_cuda.forward(x, weights, padding_l)\n        variables = [x, weights]\n        ctx.save_for_backward(*variables)\n        return outputs[0]\n\n    @staticmethod\n    def backward(ctx, grad_output):\n        outputs = dynamicconv_cuda.backward(\n            grad_output.contiguous(), ctx.padding_l, *ctx.saved_tensors\n        )\n        grad_input, grad_weights = outputs\n        return grad_input, grad_weights, None\n\n\n@with_incremental_state\nclass DynamicconvLayer(nn.Module):\n    def __init__(\n        self,\n        input_size,\n        kernel_size=1,\n        padding_l=None,\n        weight_softmax=False,\n        num_heads=1,\n        weight_dropout=0.0,\n        bias=False,\n        renorm_padding=False,\n        conv_bias=False,\n        query_size=None,\n    ):\n\n        super(DynamicconvLayer, self).__init__()\n        self.input_size = input_size\n        self.query_size = input_size if query_size is None else query_size\n        self.kernel_size = kernel_size\n        self.padding_l = padding_l\n        self.num_heads = num_heads\n        self.weight_softmax = weight_softmax\n        self.weight_dropout_module = FairseqDropout(\n            weight_dropout, module_name=self.__class__.__name__\n        )\n        self.renorm_padding = renorm_padding\n        self.bias = bias\n\n        self.weight_linear = nn.Linear(input_size, num_heads * kernel_size, bias)\n        if conv_bias:\n            self.conv_bias = nn.Parameter(torch.Tensor(input_size))\n        else:\n            self.conv_bias = None\n        self.reset_parameters()\n\n    def reset_parameters(self):\n        nn.init.xavier_uniform_(self.weight_linear.weight)\n        if self.conv_bias is not None:\n            nn.init.constant_(self.conv_bias, 0.0)\n            nn.init.constant_(self.weight_linaer.bias, 0.0)\n\n    def forward(self, x, incremental_state=None, query=None, unfold=None):\n\n        T, B, C = x.size()\n        K, H = self.kernel_size, self.num_heads\n        # R = C // H\n\n        # during inference time, incremental BMM is faster\n        if incremental_state is not None:\n            unfold = (\n                x.size(0) > 512 if unfold is None else unfold\n            )  # use unfold mode as default for long sequence to save memory\n            unfold = unfold or (incremental_state is not None)\n            assert query is None\n\n            if query is None:\n                query = x\n            if unfold:\n                output = self._forward_unfolded(x, incremental_state, query)\n            else:\n                output = self._forward_expanded(x, incremental_state, query)\n\n            if self.conv_bias is not None:\n                output = output + self.conv_bias.view(1, 1, -1)\n\n            return output\n\n        # during training time, use CUDA kernel\n        else:\n            weight = self.weight_linear(x).view(T, B, H, K)\n            if self.weight_softmax:\n                weight = F.softmax(weight, dim=-1)\n            if self.weight_dropout_module.p:\n                weight = self.weight_dropout_module(weight)\n\n            weight = weight.permute(1, 2, 3, 0).contiguous()\n            self.filters = weight\n            x = x.permute(1, 2, 0).contiguous()\n            output = dynamicconvFunction.apply(x, weight, self.padding_l).permute(\n                2, 0, 1\n            )\n            if self.conv_bias is not None:\n                output = output + self.conv_bias.view(1, 1, -1)\n            return output\n\n    def reorder_incremental_state(self, incremental_state, new_order):\n        input_buffer = self._get_input_buffer(incremental_state)\n        if input_buffer is not None:\n            input_buffer = input_buffer.index_select(1, new_order)\n            self._set_input_buffer(incremental_state, input_buffer)\n\n    def _get_input_buffer(self, incremental_state):\n        return utils.get_incremental_state(self, incremental_state, \"input_buffer\")\n\n    def _set_input_buffer(self, incremental_state, new_buffer):\n        return utils.set_incremental_state(\n            self, incremental_state, \"input_buffer\", new_buffer\n        )\n\n    def _forward_unfolded(self, x, incremental_state, query):\n        \"\"\"The conventional implementation of convolutions.\n        Unfolding the input by having a window shifting to the right.\"\"\"\n        T, B, C = x.size()\n        K, H = self.kernel_size, self.num_heads\n        R = C // H\n        assert R * H == C == self.input_size\n\n        weight = self.weight_linear(query).view(T * B * H, -1)\n\n        # renorm_padding is only implemented in _forward_expanded\n        assert not self.renorm_padding or incremental_state is not None\n\n        if incremental_state is not None:\n            input_buffer = self._get_input_buffer(incremental_state)\n            if input_buffer is None:\n                input_buffer = x.new()\n            x_unfold = torch.cat([input_buffer, x.unsqueeze(3)], dim=3)\n            if self.kernel_size > 1:\n                self._set_input_buffer(\n                    incremental_state, x_unfold[:, :, :, -self.kernel_size + 1 :]\n                )\n            x_unfold = x_unfold.view(T * B * H, R, -1)\n        else:\n            padding_l = self.padding_l\n            if K > T and padding_l == K - 1:\n                weight = weight.narrow(1, K - T, T)\n                K, padding_l = T, T - 1\n            # unfold the input: T x B x C --> T' x B x C x K\n            x_unfold = unfold1d(x, K, padding_l, 0)\n            x_unfold = x_unfold.view(T * B * H, R, K)\n\n        if self.weight_softmax and not self.renorm_padding:\n            weight = F.softmax(weight, dim=1)\n        weight = weight.narrow(1, 0, K)\n\n        if incremental_state is not None:\n            weight = weight[:, -x_unfold.size(2) :]\n            K = weight.size(1)\n\n        if self.weight_softmax and self.renorm_padding:\n            weight = F.softmax(weight, dim=1)\n\n        weight = self.weight_dropout_module(weight, inplace=False)\n\n        output = torch.bmm(x_unfold, weight.unsqueeze(2))  # T*B*H x R x 1\n        output = output.view(T, B, C)\n        return output\n\n    def _forward_expanded(self, x, incremental_stat, query):\n        \"\"\"Turn the convolution filters into band matrices and do matrix multiplication.\n        This is faster when the sequence is short, but less memory efficient.\n        This is not used in the decoder during inference.\n        \"\"\"\n        T, B, C = x.size()\n        K, H = self.kernel_size, self.num_heads\n        R = C // H\n        assert R * H == C == self.input_size\n        weight = self.weight_linear(query).view(T * B * H, -1)\n\n        if not self.renorm_padding:\n            if self.weight_softmax:\n                weight = F.softmax(weight, dim=1)\n            weight = self.weight_dropout_module(weight, inplace=False)\n        weight = weight.narrow(1, 0, K).contiguous()\n        weight = weight.view(T, B * H, K).transpose(0, 1)\n\n        x = x.view(T, B * H, R).transpose(0, 1)\n        if self.weight_softmax and self.renorm_padding:\n            # turn the convolution filters into band matrices\n            weight_expanded = weight.new(B * H, T, T + K - 1).fill_(float(\"-inf\"))\n            weight_expanded.as_strided(\n                (B * H, T, K), (T * (T + K - 1), T + K, 1)\n            ).copy_(weight)\n            weight_expanded = weight_expanded.narrow(2, self.padding_l, T)\n            # normalize the weight over valid positions like self-attention\n            weight_expanded = F.softmax(weight_expanded, dim=2)\n            weight_expanded = self.weight_dropout_module(weight_expanded, inplace=False)\n        else:\n            P = self.padding_l\n            # For efficiency, we cut the kernel size and reduce the padding when the kernel is larger than the length\n            if K > T and P == K - 1:\n                weight = weight.narrow(2, K - T, T)\n                K, P = T, T - 1\n            # turn the convolution filters into band matrices\n            weight_expanded = weight.new_zeros(B * H, T, T + K - 1, requires_grad=False)\n            weight_expanded.as_strided(\n                (B * H, T, K), (T * (T + K - 1), T + K, 1)\n            ).copy_(weight)\n            weight_expanded = weight_expanded.narrow(2, P, T)  # B*H x T x T\n        output = torch.bmm(weight_expanded, x)\n        output = output.transpose(0, 1).contiguous().view(T, B, C)\n        return output\n"
  },
  {
    "path": "fairseq/modules/dynamicconv_layer/dynamiconv_cpu.cpp",
    "content": "#include <torch/torch.h>\n#include <vector>\n\nstd::vector<float*>\ndynamicconv_cpu_forward(float* input, float* filters, int padding_l);\n\nstd::vector<float*> dynamicconv_cpu_backward(\n    float* gradOutput,\n    int padding_l,\n    float* input,\n    float* filters);\n\nstd::vector<float*>\ndynamicconv_forward(float* input, float* filters, int padding_l) {\n  return dynamicconv_cpu_forward(input, filters, padding_l);\n}\n\nstd::vector<float*> dynamicconv_backward(\n    float* gradOutput,\n    int padding_l,\n    float* input,\n    float* filters) {\n  return dynamicconv_cpu_backward(gradOutput, padding_l, input, filters);\n}\n\nPYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {\n  m.def(\"forward\", &dynamicconv_forward, \"dynamicconv forward (CPU)\");\n  m.def(\"backward\", &dynamicconv_backward, \"dynamicconv backward (CPU)\");\n}\n"
  },
  {
    "path": "fairseq/modules/dynamicconv_layer/setup.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom setuptools import setup\nfrom torch.utils.cpp_extension import BuildExtension, CUDAExtension\n\n\nsetup(\n    name=\"dynamicconv_layer\",\n    ext_modules=[\n        CUDAExtension(\n            name=\"dynamicconv_cuda\",\n            sources=[\n                \"dynamicconv_cuda.cpp\",\n                \"dynamicconv_cuda_kernel.cu\",\n            ],\n        ),\n    ],\n    cmdclass={\"build_ext\": BuildExtension},\n)\n"
  },
  {
    "path": "fairseq/modules/ema_module.py",
    "content": "#!/usr/bin/env python3\n\n\"\"\"\nUsed for EMA tracking a given pytorch module. The user is responsible for calling step()\nand setting the appropriate decay\n\"\"\"\n\nimport copy\nfrom dataclasses import dataclass, field\nimport logging\n\nimport torch\n\nfrom omegaconf import II\nfrom fairseq.dataclass import FairseqDataclass\n\ntry:\n    from amp_C import multi_tensor_l2norm\n\n    multi_tensor_l2norm_available = True\nexcept ImportError:\n    multi_tensor_l2norm_available = False\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass EMAModuleConfig(FairseqDataclass):\n    ema_decay: float = field(\n        default=0.9999, metadata={\"help\": \"decay for exponential moving average model\"}\n    )\n    ema_fp32: bool = field(\n        default=False,\n        metadata={\"help\": \"If true, store EMA model in fp32 even if model is in fp16\"},\n    )\n    add_missing_params: bool = True\n    log_norms: bool = False\n\n\nclass EMAModule:\n    \"\"\"Exponential Moving Average of Fairseq Models\"\"\"\n\n    def __init__(\n        self,\n        model,\n        config: EMAModuleConfig,\n        copy_model=True,\n        device=None,\n        skip_keys=None,\n    ):\n        \"\"\"\n        @param model model to initialize the EMA with\n        @param config EMAConfig object with configuration like\n        ema_decay, ema_update_freq, ema_fp32\n        @param device If provided, copy EMA to this device (e.g. gpu).\n        Otherwise EMA is in the same device as the model.\n        \"\"\"\n\n        self.config = config\n\n        if copy_model:\n            self.model = copy.deepcopy(model)\n            self.model.requires_grad_(False)\n        else:\n            self.model = model\n\n        self.config = config\n        self.decay = config.ema_decay\n        self.skip_keys = skip_keys or set()\n        self.add_missing_params = config.add_missing_params\n        self.fp32_params = {}\n\n        if device is not None:\n            logging.info(f\"Copying EMA model to device {device}\")\n            self.model = self.model.to(device=device)\n\n        if self.config.ema_fp32:\n            self.build_fp32_params()\n\n        self.log_norms = config.log_norms and multi_tensor_l2norm_available\n        self.logs = {}\n\n    def build_fp32_params(self, state_dict=None):\n        \"\"\"\n        Store a copy of the EMA params in fp32.\n        If state dict is passed, the EMA params is copied from\n        the provided state dict. Otherwise, it is copied from the\n        current EMA model parameters.\n        \"\"\"\n        if not self.config.ema_fp32:\n            raise RuntimeError(\n                \"build_fp32_params should not be called if ema_fp32=False. \"\n                \"Use ema_fp32=True if this is really intended.\"\n            )\n\n        if state_dict is None:\n            state_dict = self.model.state_dict()\n\n        def _to_float(t):\n            return t.float() if torch.is_floating_point(t) else t\n\n        for param_key in state_dict:\n            if param_key in self.fp32_params:\n                if param_key == \"__sq_mom\":\n                    self.fp32_params[param_key] = state_dict[param_key]\n                else:\n                    self.fp32_params[param_key].copy_(state_dict[param_key])\n            else:\n                self.fp32_params[param_key] = _to_float(state_dict[param_key])\n                if \"__sq_mom\" in self.fp32_params:\n                    self.fp32_params[\"__sq_mom\"][param_key] = torch.zeros_like(\n                        self.fp32_params[param_key]\n                    )\n\n    def restore(self, state_dict, build_fp32_params=False):\n        \"\"\"Load data from a model spec into EMA model\"\"\"\n        self.model.load_state_dict(state_dict, strict=False)\n        if build_fp32_params:\n            self.build_fp32_params(state_dict)\n\n    def set_decay(self, decay, weight_decay=None):\n        self.decay = decay\n        if weight_decay is not None:\n            self.weight_decay = weight_decay\n\n    def get_decay(self):\n        return self.decay\n\n    def _step_internal(self, new_model):\n        \"\"\"One update of the EMA model based on new model weights\"\"\"\n        decay = self.decay\n\n        ema_state_dict = {}\n        ema_params = (\n            self.fp32_params if self.config.ema_fp32 else self.model.state_dict()\n        )\n\n        new_p = []\n        ema_p = []\n\n        for key, param in new_model.named_parameters():\n            if isinstance(param, dict):\n                continue\n\n            if not self.add_missing_params and key not in ema_params:\n                continue\n\n            try:\n                ema_param = ema_params[key]\n            except KeyError:\n                ema_param = (\n                    param.float().clone() if param.ndim == 1 else copy.deepcopy(param)\n                )\n                ema_params[key] = ema_param\n\n            if param.shape != ema_param.shape:\n                raise ValueError(\n                    \"incompatible tensor shapes between model param and ema param\"\n                    + \"{} vs. {}\".format(param.shape, ema_param.shape)\n                )\n\n            if \"version\" in key:\n                # Do not decay a model.version pytorch param\n                continue\n\n            lr = 1 - decay\n\n            if key in self.skip_keys or not param.requires_grad:\n                ema_params[key].copy_(param.to(dtype=ema_param.dtype).data)\n                ema_param = ema_params[key]\n            else:\n                if self.log_norms:\n                    new_p.append(param)\n                    ema_p.append(ema_param)\n\n                ema_param.mul_(1 - lr)\n                ema_param.add_(param.data.to(dtype=ema_param.dtype), alpha=lr)\n\n            ema_state_dict[key] = ema_param\n\n        for key, param in new_model.named_buffers():\n            ema_state_dict[key] = param\n\n        if self.log_norms:\n            if \"model_norm\" in self.logs:\n                self.prev_model_norm = self.logs[\"model_norm\"]\n\n            chunk_size = 2048 * 32\n            has_inf = torch.zeros(\n                (1, 1), dtype=torch.int, device=next(new_model.parameters()).device\n            )\n\n            new_norm = multi_tensor_l2norm(chunk_size, has_inf, [new_p], False)\n            old_norm = multi_tensor_l2norm(chunk_size, has_inf, [ema_p], False)\n\n            self.logs[\"model_norm\"] = new_norm[0]\n            self.logs[\"ema_norm\"] = old_norm[0]\n\n        self.restore(ema_state_dict, build_fp32_params=False)\n\n    @torch.no_grad()\n    def step(self, new_model):\n        self._step_internal(new_model)\n\n    def reverse(self, model):\n        \"\"\"\n        Load the model parameters from EMA model.\n        Useful for inference or fine-tuning from the EMA model.\n        \"\"\"\n        d = self.model.state_dict()\n        if \"_ema\" in d:\n            del d[\"_ema\"]\n\n        model.load_state_dict(d, strict=False)\n        return model\n"
  },
  {
    "path": "fairseq/modules/espnet_multihead_attention.py",
    "content": "#!/usr/bin/env python3\n# -*- coding: utf-8 -*-\n\n# Copyright 2019 Shigeki Karita\n#  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)\n\n\"\"\"Multi-Head Attention layer definition.\"\"\"\n\nimport math\n\nimport torch\nfrom torch import nn\n\nfrom fairseq.modules.rotary_positional_embedding import (\n    RotaryPositionalEmbedding,\n    apply_rotary_pos_emb,\n)\n\n\nclass ESPNETMultiHeadedAttention(nn.Module):\n    \"\"\"Multi-Head Attention layer.\n    Args:\n        n_head: The number of heads.\n        n_feat: The number of features.\n        dropout: Dropout rate.\n    \"\"\"\n\n    def __init__(self, n_feat, n_head, dropout):\n        \"\"\"Construct an MultiHeadedAttention object.\"\"\"\n        super(ESPNETMultiHeadedAttention, self).__init__()\n        assert n_feat % n_head == 0\n        # We assume d_v always equals d_k\n        self.d_k = n_feat // n_head\n        self.h = n_head\n        self.linear_q = nn.Linear(n_feat, n_feat)\n        self.linear_k = nn.Linear(n_feat, n_feat)\n        self.linear_v = nn.Linear(n_feat, n_feat)\n        self.linear_out = nn.Linear(n_feat, n_feat)\n        self.attn = None\n        self.dropout = nn.Dropout(p=dropout)\n\n    def forward_qkv(self, query, key, value, **kwargs):\n        \"\"\"Transform query, key and value.\n        Args:\n            query: Query tensor  B X T1 X C\n            key: Key tensor B X T2 X C\n            value: Value tensor  B X T2 X C\n        Returns:\n            torch.Tensor: Transformed query tensor  B X n_head X T1 X d_k\n            torch.Tensor: Transformed key tensor B X n_head X T2 X d_k\n            torch.Tensor: Transformed value tensor  B X n_head X T2 X d_k\n        \"\"\"\n        n_batch = query.size(0)\n        q = self.linear_q(query).view(n_batch, -1, self.h, self.d_k)\n        k = self.linear_k(key).view(n_batch, -1, self.h, self.d_k)\n        v = self.linear_v(value).view(n_batch, -1, self.h, self.d_k)\n        q = q.transpose(1, 2)  # (batch, head, time1, d_k)\n        k = k.transpose(1, 2)  # (batch, head, time2, d_k)\n        v = v.transpose(1, 2)  # (batch, head, time2, d_k)\n        return q, k, v\n\n    def forward_attention(self, value, scores, mask):\n        \"\"\"Compute attention context vector.\n        Args:\n            value: Transformed value B X n_head X T2 X d_k.\n            scores: Attention score  B X n_head X T1 X T2\n            mask: Mask  T2 X B\n        Returns:\n            torch.Tensor: Transformed value  B X T1 X d_model\n                weighted by the attention score  B X T1 X T2\n        \"\"\"\n        n_batch = value.size(0)\n        if mask is not None:\n            scores = scores.masked_fill(\n                mask.unsqueeze(1).unsqueeze(2).to(bool),\n                float(\"-inf\"),  # (batch, head, time1, time2)\n            )\n            self.attn = torch.softmax(scores, dim=-1)  # (batch, head, time1, time2)\n\n        else:\n            self.attn = torch.softmax(scores, dim=-1)  # (batch, head, time1, time2)\n        p_attn = self.dropout(self.attn)\n        x = torch.matmul(p_attn, value)  # (batch, head, time1, d_k)\n        x = (\n            x.transpose(1, 2).contiguous().view(n_batch, -1, self.h * self.d_k)\n        )  # (batch, time1, d_model)\n\n        return self.linear_out(x)  # (batch, time1, d_model)\n\n    def forward(self, query, key, value, key_padding_mask=None, **kwargs):\n        \"\"\"Compute scaled dot product attention.\n        Args:\n            query (torch.Tensor): Query tensor T X B X C\n            key (torch.Tensor): Key tensor T X B X C\n            value (torch.Tensor): Value tensor T X B X C\n            mask (torch.Tensor): Mask tensor T X B\n        Returns:\n            torch.Tensor: Output tensor T X B X D.\n        \"\"\"\n        query = query.transpose(0, 1)\n        key = key.transpose(0, 1)\n        value = value.transpose(0, 1)\n\n        q, k, v = self.forward_qkv(query, key, value)\n        scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.d_k)\n        scores = self.forward_attention(v, scores, key_padding_mask)\n        scores = scores.transpose(0, 1)\n        return scores, None\n\n\nclass RelPositionMultiHeadedAttention(ESPNETMultiHeadedAttention):\n    \"\"\"Multi-Head Attention layer with relative position encoding.\n    Paper: https://arxiv.org/abs/1901.02860\n    Args:\n        n_head: The number of heads.\n        n_feat: The number of features.\n        dropout: Dropout rate.\n        zero_triu: Whether to zero the upper triangular part of attention matrix.\n    \"\"\"\n\n    def __init__(self, n_feat, n_head, dropout, zero_triu=False):\n        \"\"\"Construct an RelPositionMultiHeadedAttention object.\"\"\"\n        super().__init__(n_feat, n_head, dropout)\n        self.zero_triu = zero_triu\n        # linear transformation for positional encoding\n        self.linear_pos = nn.Linear(n_feat, n_feat, bias=False)\n        # these two learnable bias are used in matrix c and matrix d\n        # as described in https://arxiv.org/abs/1901.02860 Section 3.3\n        self.pos_bias_u = nn.Parameter(torch.zeros(self.h, self.d_k))\n        self.pos_bias_v = nn.Parameter(torch.zeros(self.h, self.d_k))\n        torch.nn.init.xavier_uniform_(self.pos_bias_u)\n        torch.nn.init.xavier_uniform_(self.pos_bias_v)\n\n    def rel_shift(self, x):\n        \"\"\"Compute relative positional encoding.\n        Args:\n            x: Input tensor B X n_head X T X 2T-1\n        Returns:\n            torch.Tensor: Output tensor.\n        \"\"\"\n        zero_pad = torch.zeros((*x.size()[:3], 1), device=x.device, dtype=x.dtype)\n        x_padded = torch.cat([zero_pad, x], dim=-1)\n\n        x_padded = x_padded.view(*x.size()[:2], x.size(3) + 1, x.size(2))\n        x = x_padded[:, :, 1:].view_as(x)[\n            :, :, :, : x.size(-1) // 2 + 1\n        ]  # only keep the positions from 0 to time2\n\n        if self.zero_triu:\n            ones = torch.ones((x.size(2), x.size(3)), device=x.device)\n            x = x * torch.tril(ones, x.size(3) - x.size(2))[None, None, :, :]\n\n        return x\n\n    def forward(self, query, key, value, pos_emb, key_padding_mask=None, **kwargs):\n        \"\"\"Compute scaled dot product attention.\n        Args:\n            query: Query tensor T X B X C\n            key: Key tensor T X B X C\n            value: Value tensor T X B X C\n            pos_emb: Positional embedding tensor B X 2T-1 X C\n            key_padding_mask: Mask tensor T X B\n        Returns:\n            torch.Tensor: Output tensor T X B X C.\n        \"\"\"\n        query = query.transpose(0, 1)\n        key = key.transpose(0, 1)\n        value = value.transpose(0, 1)\n        pos_emb = pos_emb.transpose(0, 1)\n        q, k, v = self.forward_qkv(query, key, value)\n        q = q.transpose(1, 2)  # (batch, time1, head, d_k)\n        n_batch_pos = pos_emb.size(0)\n        p = self.linear_pos(pos_emb).view(n_batch_pos, -1, self.h, self.d_k)\n        p = p.transpose(1, 2)  # (batch, head, 2*time1-1, d_k)\n\n        # (batch, head, time1, d_k)\n        q_with_bias_u = (q + self.pos_bias_u).transpose(1, 2)\n        # (batch, head, time1, d_k)\n        q_with_bias_v = (q + self.pos_bias_v).transpose(1, 2)\n\n        # compute attention score\n        # first compute matrix a and matrix c\n        # as described in https://arxiv.org/abs/1901.02860 Section 3.3\n        # (batch, head, time1, time2)\n        matrix_ac = torch.matmul(q_with_bias_u, k.transpose(-2, -1))\n\n        # compute matrix b and matrix d\n        # (batch, head, time1, 2*time1-1)\n        matrix_bd = torch.matmul(q_with_bias_v, p.transpose(-2, -1))\n        matrix_bd = self.rel_shift(matrix_bd)\n\n        scores = (matrix_ac + matrix_bd) / math.sqrt(\n            self.d_k\n        )  # (batch, head, time1, time2)\n\n        scores = self.forward_attention(v, scores, key_padding_mask)\n        scores = scores.transpose(0, 1)\n        return scores, None\n\n\nclass RotaryPositionMultiHeadedAttention(ESPNETMultiHeadedAttention):\n    def __init__(\n        self,\n        n_feat,\n        n_head,\n        dropout,\n        precision,\n        rotary_emd_base=10000,\n    ):\n        \"\"\"Construct an RotaryPositionMultiHeadedAttention object.\"\"\"\n        super().__init__(n_feat, n_head, dropout)\n        precision = torch.float\n        self.rotary_ndims = self.d_k  # also try self.d_k//2\n        if precision == \"fp16\":\n            precision = torch.half\n\n        self.rotary_emb = RotaryPositionalEmbedding(\n            self.rotary_ndims, base=rotary_emd_base, precision=precision\n        )\n\n    def forward(self, query, key, value, key_padding_mask=None, **kwargs):\n        \"\"\"Compute rotary position attention.\n        Args:\n            query: Query tensor T X B X C\n            key: Key tensor T X B X C\n            value: Value tensor T X B X C\n            key_padding_mask: Mask tensor T X B\n        Returns:\n            torch.Tensor: Output tensor T X B X D.\n        Notes:\n            Assumes self attn\n        \"\"\"\n\n        T, B, C = value.size()\n        query = query.view(T, B, self.h, self.d_k)\n        key = key.view(T, B, self.h, self.d_k)\n        value = value.view(T, B, self.h, self.d_k)\n        cos, sin = self.rotary_emb(value, seq_len=T)\n        query, key = apply_rotary_pos_emb(\n            query, key, cos, sin, offset=0\n        )  # offset is based on layer_past\n\n        query = query.view(T, B, self.h * self.d_k)\n        key = key.view(T, B, self.h * self.d_k)\n        value = value.view(T, B, self.h * self.d_k)\n\n        # TBD to BTD\n        query = query.transpose(0, 1)\n        key = key.transpose(0, 1)\n        value = value.transpose(0, 1)\n\n        q, k, v = self.forward_qkv(query, key, value)\n        scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.d_k)\n        scores = self.forward_attention(v, scores, key_padding_mask)\n        scores = scores.transpose(0, 1)\n        return scores, None\n"
  },
  {
    "path": "fairseq/modules/fairseq_dropout.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom typing import List, Optional\n\nimport torch.nn as nn\nimport torch.nn.functional as F\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass FairseqDropout(nn.Module):\n    def __init__(self, p, module_name=None):\n        super().__init__()\n        self.p = p\n        self.module_name = module_name\n        self.apply_during_inference = False\n\n    def forward(self, x, inplace: bool = False):\n        if self.p > 0 and (self.training or self.apply_during_inference):\n            return F.dropout(x, p=self.p, training=True, inplace=inplace)\n        else:\n            return x\n\n    def make_generation_fast_(\n        self,\n        name: str,\n        retain_dropout: bool = False,\n        retain_dropout_modules: Optional[List[str]] = None,\n        **kwargs\n    ):\n        if retain_dropout:\n            if retain_dropout_modules is not None and self.module_name is None:\n                logger.warning(\n                    \"Cannot enable dropout during inference for module {} \"\n                    \"because module_name was not set\".format(name)\n                )\n            elif (\n                retain_dropout_modules is None  # if None, apply to all modules\n                or self.module_name in retain_dropout_modules\n            ):\n                logger.info(\n                    \"Enabling dropout during inference for module: {}\".format(name)\n                )\n                self.apply_during_inference = True\n            else:\n                logger.info(\"Disabling dropout for module: {}\".format(name))\n"
  },
  {
    "path": "fairseq/modules/fp32_batch_norm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nbatch norm done in fp32 (for fp16 training)\n\"\"\"\nimport torch\nimport torch.nn as nn\n\n\nclass Fp32BatchNorm(nn.Module):\n    def __init__(self, sync=False, *args, **kwargs):\n        super().__init__()\n\n        if sync:\n            from fairseq.distributed import utils\n\n            if utils.get_global_world_size() == 1:\n                sync = False\n\n        if sync:\n            self.bn = nn.SyncBatchNorm(*args, **kwargs)\n        else:\n            self.bn = nn.BatchNorm1d(*args, **kwargs)\n\n        self.sync = sync\n\n    def forward(self, input):\n        if self.bn.running_mean.dtype != torch.float:\n            if self.sync:\n                self.bn.running_mean = self.bn.running_mean.float()\n                self.bn.running_var = self.bn.running_var.float()\n                if self.bn.affine:\n                    try:\n                        self.bn.weight = self.bn.weight.float()\n                        self.bn.bias = self.bn.bias.float()\n                    except:\n                        self.bn.float()\n            else:\n                self.bn.float()\n\n        output = self.bn(input.float())\n        return output.type_as(input)\n"
  },
  {
    "path": "fairseq/modules/fp32_group_norm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nLayer norm done in fp32 (for fp16 training)\n\"\"\"\n\nimport torch.nn as nn\nimport torch.nn.functional as F\n\n\nclass Fp32GroupNorm(nn.GroupNorm):\n    def __init__(self, *args, **kwargs):\n        super().__init__(*args, **kwargs)\n\n    def forward(self, input):\n        output = F.group_norm(\n            input.float(),\n            self.num_groups,\n            self.weight.float() if self.weight is not None else None,\n            self.bias.float() if self.bias is not None else None,\n            self.eps,\n        )\n        return output.type_as(input)\n"
  },
  {
    "path": "fairseq/modules/fp32_instance_norm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nLayer norm done in fp32 (for fp16 training)\n\"\"\"\n\nimport torch.nn as nn\nimport torch.nn.functional as F\n\n\nclass Fp32InstanceNorm(nn.InstanceNorm1d):\n    def __init__(self, *args, **kwargs):\n        self.transpose_last = \"transpose_last\" in kwargs and kwargs[\"transpose_last\"]\n        if \"transpose_last\" in kwargs:\n            del kwargs[\"transpose_last\"]\n        super().__init__(*args, **kwargs)\n\n    def forward(self, input):\n        if self.transpose_last:\n            input = input.transpose(1, 2)\n        output = F.instance_norm(\n            input.float(),\n            running_mean=self.running_mean,\n            running_var=self.running_var,\n            weight=self.weight.float() if self.weight is not None else None,\n            bias=self.bias.float() if self.bias is not None else None,\n            use_input_stats=self.training or not self.track_running_stats,\n            momentum=self.momentum,\n            eps=self.eps,\n        )\n        if self.transpose_last:\n            output = output.transpose(1, 2)\n        return output.type_as(input)\n"
  },
  {
    "path": "fairseq/modules/gelu.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nSee \"Gaussian Error Linear Units (GELUs)\" by Dan Hendrycks and Kevin Gimpel with\nthe corresponding GitHub repo: https://github.com/hendrycks/GELUs\n\"\"\"\n\nimport math\n\nimport torch\nimport torch.nn as nn\n\n\ndef gelu_accurate(x):\n    if not hasattr(gelu_accurate, \"_a\"):\n        gelu_accurate._a = math.sqrt(2 / math.pi)\n    return (\n        0.5 * x * (1 + torch.tanh(gelu_accurate._a * (x + 0.044715 * torch.pow(x, 3))))\n    )\n\n\ndef gelu(x: torch.Tensor) -> torch.Tensor:\n    return torch.nn.functional.gelu(x.float()).type_as(x)\n"
  },
  {
    "path": "fairseq/modules/grad_multiply.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\n\nclass GradMultiply(torch.autograd.Function):\n    @staticmethod\n    def forward(ctx, x, scale):\n        ctx.scale = scale\n        res = x.new(x)\n        return res\n\n    @staticmethod\n    def backward(ctx, grad):\n        return grad * ctx.scale, None\n"
  },
  {
    "path": "fairseq/modules/gumbel_vector_quantizer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\n\nclass GumbelVectorQuantizer(nn.Module):\n    def __init__(\n        self,\n        dim,\n        num_vars,\n        temp,\n        groups,\n        combine_groups,\n        vq_dim,\n        time_first,\n        activation=nn.GELU(),\n        weight_proj_depth=1,\n        weight_proj_factor=1,\n        hard=True,\n        std=0,\n    ):\n        \"\"\"Vector quantization using gumbel softmax\n\n        Args:\n            dim: input dimension (channels)\n            num_vars: number of quantized vectors per group\n            temp: temperature for training. this should be a tuple of 3 elements: (start, stop, decay factor)\n            groups: number of groups for vector quantization\n            combine_groups: whether to use the vectors for all groups\n            vq_dim: dimensionality of the resulting quantized vector\n            time_first: if true, expect input in BxTxC format, otherwise in BxCxT\n            activation: what activation to use (should be a module). this is only used if weight_proj_depth is > 1\n            weight_proj_depth: number of layers (with activation in between) to project input before computing logits\n            weight_proj_factor: this is used only if weight_proj_depth is > 1. scales the inner dimensionality of\n                                projections by this factor\n        \"\"\"\n        super().__init__()\n\n        self.groups = groups\n        self.combine_groups = combine_groups\n        self.input_dim = dim\n        self.num_vars = num_vars\n        self.time_first = time_first\n        self.hard = hard\n\n        assert (\n            vq_dim % groups == 0\n        ), f\"dim {vq_dim} must be divisible by groups {groups} for concatenation\"\n\n        var_dim = vq_dim // groups\n        num_groups = groups if not combine_groups else 1\n\n        self.vars = nn.Parameter(torch.FloatTensor(1, num_groups * num_vars, var_dim))\n        if std == 0:\n            nn.init.uniform_(self.vars)\n        else:\n            nn.init.normal_(self.vars, mean=0, std=std)\n\n        if weight_proj_depth > 1:\n\n            def block(input_dim, output_dim):\n                return nn.Sequential(nn.Linear(input_dim, output_dim), activation)\n\n            inner_dim = self.input_dim * weight_proj_factor\n            self.weight_proj = nn.Sequential(\n                *[\n                    block(self.input_dim if i == 0 else inner_dim, inner_dim)\n                    for i in range(weight_proj_depth - 1)\n                ],\n                nn.Linear(inner_dim, groups * num_vars),\n            )\n        else:\n            self.weight_proj = nn.Linear(self.input_dim, groups * num_vars)\n            nn.init.normal_(self.weight_proj.weight, mean=0, std=1)\n            nn.init.zeros_(self.weight_proj.bias)\n\n        if isinstance(temp, str):\n            import ast\n\n            temp = ast.literal_eval(temp)\n        assert len(temp) == 3, f\"{temp}, {len(temp)}\"\n\n        self.max_temp, self.min_temp, self.temp_decay = temp\n        self.curr_temp = self.max_temp\n        self.codebook_indices = None\n\n    def set_num_updates(self, num_updates):\n        self.curr_temp = max(\n            self.max_temp * self.temp_decay**num_updates, self.min_temp\n        )\n\n    def get_codebook_indices(self):\n        if self.codebook_indices is None:\n            from itertools import product\n\n            p = [range(self.num_vars)] * self.groups\n            inds = list(product(*p))\n            self.codebook_indices = torch.tensor(\n                inds, dtype=torch.long, device=self.vars.device\n            ).flatten()\n\n            if not self.combine_groups:\n                self.codebook_indices = self.codebook_indices.view(\n                    self.num_vars**self.groups, -1\n                )\n                for b in range(1, self.groups):\n                    self.codebook_indices[:, b] += self.num_vars * b\n                self.codebook_indices = self.codebook_indices.flatten()\n        return self.codebook_indices\n\n    def codebook(self):\n        indices = self.get_codebook_indices()\n        return (\n            self.vars.squeeze(0)\n            .index_select(0, indices)\n            .view(self.num_vars**self.groups, -1)\n        )\n\n    def sample_from_codebook(self, b, n):\n        indices = self.get_codebook_indices()\n        indices = indices.view(-1, self.groups)\n        cb_size = indices.size(0)\n        assert (\n            n < cb_size\n        ), f\"sample size {n} is greater than size of codebook {cb_size}\"\n        sample_idx = torch.randint(low=0, high=cb_size, size=(b * n,))\n        indices = indices[sample_idx]\n\n        z = self.vars.squeeze(0).index_select(0, indices.flatten()).view(b, n, -1)\n        return z\n\n    def to_codebook_index(self, indices):\n        res = indices.new_full(indices.shape[:-1], 0)\n        for i in range(self.groups):\n            exponent = self.groups - i - 1\n            res += indices[..., i] * (self.num_vars**exponent)\n        return res\n\n    def forward_idx(self, x):\n        res = self.forward(x, produce_targets=True)\n        return res[\"x\"], res[\"targets\"]\n\n    def forward(self, x, produce_targets=False):\n\n        result = {\"num_vars\": self.num_vars * self.groups}\n\n        if not self.time_first:\n            x = x.transpose(1, 2)\n\n        bsz, tsz, fsz = x.shape\n        x = x.reshape(-1, fsz)\n        x = self.weight_proj(x)\n        x = x.view(bsz * tsz * self.groups, -1)\n\n        with torch.no_grad():\n            _, k = x.max(-1)\n            hard_x = (\n                x.new_zeros(*x.shape)\n                .scatter_(-1, k.view(-1, 1), 1.0)\n                .view(bsz * tsz, self.groups, -1)\n            )\n            hard_probs = torch.mean(hard_x.float(), dim=0)\n            result[\"code_perplexity\"] = torch.exp(\n                -torch.sum(hard_probs * torch.log(hard_probs + 1e-7), dim=-1)\n            ).sum()\n\n        avg_probs = torch.softmax(\n            x.view(bsz * tsz, self.groups, -1).float(), dim=-1\n        ).mean(dim=0)\n        result[\"prob_perplexity\"] = torch.exp(\n            -torch.sum(avg_probs * torch.log(avg_probs + 1e-7), dim=-1)\n        ).sum()\n\n        result[\"temp\"] = self.curr_temp\n\n        if self.training:\n            x = F.gumbel_softmax(x.float(), tau=self.curr_temp, hard=self.hard).type_as(\n                x\n            )\n        else:\n            x = hard_x\n\n        x = x.view(bsz * tsz, -1)\n\n        vars = self.vars\n        if self.combine_groups:\n            vars = vars.repeat(1, self.groups, 1)\n\n        if produce_targets:\n            result[\"targets\"] = (\n                x.view(bsz * tsz * self.groups, -1)\n                .argmax(dim=-1)\n                .view(bsz, tsz, self.groups)\n                .detach()\n            )\n\n        x = x.unsqueeze(-1) * vars\n        x = x.view(bsz * tsz, self.groups, self.num_vars, -1)\n        x = x.sum(-2)\n        x = x.view(bsz, tsz, -1)\n\n        if not self.time_first:\n            x = x.transpose(1, 2)  # BTC -> BCT\n\n        result[\"x\"] = x\n\n        return result\n"
  },
  {
    "path": "fairseq/modules/kmeans_attention.py",
    "content": "import math\nfrom functools import reduce, wraps\nfrom inspect import isfunction\nfrom operator import mul\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom aml.multimodal_video.utils.einops.lib import rearrange, repeat\nfrom aml.multimodal_video.utils.einops.lib.layers.torch import Rearrange\n\nfrom fairseq.modules.local_attention import LocalAttention\n\n# constants\n\nTOKEN_SELF_ATTN_VALUE = -5e4\nKMEAN_INIT_ITERS = 10\n\n# helper functions\n\n\ndef exists(val):\n    return val is not None\n\n\ndef identity(x, *args, **kwargs):\n    return x\n\n\ndef default(x, d):\n    if not exists(x):\n        return d if not isfunction(d) else d()\n    return x\n\n\ndef cast_tuple(x):\n    return x if isinstance(x, tuple) else (x,)\n\n\ndef cache_fn(f):\n    cache = None\n\n    @wraps(f)\n    def cached_fn(*args, **kwargs):\n        nonlocal cache\n        if exists(cache):\n            return cache\n        cache = f(*args, **kwargs)\n        return cache\n\n    return cached_fn\n\n\ndef to(t):\n    return {\"device\": t.device, \"dtype\": t.dtype}\n\n\ndef find_modules(nn_module, type):\n    return [module for module in nn_module.modules() if isinstance(module, type)]\n\n\ndef is_empty(t):\n    return t.nelement() == 0\n\n\ndef max_neg_value(tensor):\n    return -torch.finfo(tensor.dtype).max\n\n\ndef batched_index_select(values, indices):\n    last_dim = values.shape[-1]\n    return values.gather(2, expand_dim(indices, -1, last_dim))\n\n\ndef merge_dims(ind_from, ind_to, tensor):\n    shape = list(tensor.shape)\n    arr_slice = slice(ind_from, ind_to + 1)\n    shape[arr_slice] = [reduce(mul, shape[arr_slice])]\n    return tensor.reshape(*shape)\n\n\ndef expand_dim(t, dim, k):\n    t = t.unsqueeze(dim)\n    expand_shape = [-1] * len(t.shape)\n    expand_shape[dim] = k\n    return t.expand(*expand_shape)\n\n\ndef scatter_mean(src, t, index, dim, eps=1e-5):\n    numer = src.scatter_add(dim, index, t)\n    denom = src.scatter_add(dim, index, torch.ones_like(t))\n    return numer / (denom + eps)\n\n\ndef split_at_index(dim, index, t):\n    pre_slices = (slice(None),) * dim\n    l = (*pre_slices, slice(None, index))\n    r = (*pre_slices, slice(index, None))\n    return t[l], t[r]\n\n\ndef reshape_dim(t, dim, split_dims):\n    shape = list(t.shape)\n    num_dims = len(shape)\n    dim = (dim + num_dims) % num_dims\n    shape[dim : dim + 1] = split_dims\n    return t.reshape(shape)\n\n\ndef ema(old, new, decay):\n    if not exists(old):\n        return new\n    return old * decay + new * (1 - decay)\n\n\ndef ema_inplace(moving_avg, new, decay):\n    if is_empty(moving_avg):\n        moving_avg.data.copy_(new)\n        return\n    moving_avg.data.mul_(decay).add_(new, alpha=(1 - decay))\n\n\n# helper classes\n\n\ndef map_first_tuple_or_el(x, fn):\n    if isinstance(x, tuple):\n        return (fn(x[0]),) + x[1:]\n    return fn(x)\n\n\nclass Chunk(nn.Module):\n    def __init__(self, chunks, fn, along_dim=-1):\n        super().__init__()\n        self.dim = along_dim\n        self.chunks = chunks\n        self.fn = fn\n\n    def forward(self, x, **kwargs):\n        if self.chunks <= 1:\n            return self.fn(x, **kwargs)\n        chunks = x.chunk(self.chunks, dim=self.dim)\n        return torch.cat([self.fn(c, **kwargs) for c in chunks], dim=self.dim)\n\n\nclass PreNorm(nn.ModuleList):\n    def __init__(self, norm_class, dim, fn):\n        super().__init__()\n        self.norm = norm_class(dim)\n        self.fn = fn\n\n    def forward(self, x, **kwargs):\n        x = self.norm(x)\n        return self.fn(x, **kwargs)\n\n\nclass ReZero(nn.Module):\n    def __init__(self, fn):\n        super().__init__()\n        self.residual_weight = nn.Parameter(torch.zeros(1))\n        self.fn = fn\n\n    def forward(self, x, **kwargs):\n        x = self.fn(x, **kwargs)\n        return map_first_tuple_or_el(x, lambda t: t * self.residual_weight)\n\n\nclass ScaleNorm(nn.Module):\n    def __init__(self, dim, eps=1e-5):\n        super().__init__()\n        self.g = nn.Parameter(torch.ones(1))\n        self.eps = eps\n\n    def forward(self, x):\n        def norm(t):\n            n = torch.norm(t, dim=-1, keepdim=True).clamp(min=self.eps)\n            return t / n * self.g\n\n        return map_first_tuple_or_el(x, norm)\n\n\nclass ProjectInOut(nn.Module):\n    def __init__(self, fn, dim_in, dim_out, project_out=True):\n        super().__init__()\n        self.fn = fn\n        self.project_in = nn.Linear(dim_in, dim_out)\n        self.project_out = nn.Linear(dim_out, dim_in) if project_out else identity\n\n    def forward(self, x, **kwargs):\n        x = self.project_in(x)\n        x, loss = self.fn(x, **kwargs)\n        x = self.project_out(x)\n        return x, loss\n\n\nclass MatrixMultiply(nn.Module):\n    def __init__(self, tensor, transpose=False):\n        super().__init__()\n        self.tensor = tensor\n        self.transpose = transpose\n\n    def forward(self, x):\n        tensor = self.tensor\n        if self.transpose:\n            tensor = tensor.t()\n        return x @ tensor\n\n\n# positional embeddings\n\n\nclass DepthWiseConv1d(nn.Module):\n    def __init__(self, dim_in, dim_out, kernel_size, stride=1, bias=True, causal=False):\n        super().__init__()\n        self.padding = (\n            ((kernel_size - 1), 0) if causal else (kernel_size // 2, kernel_size // 2)\n        )\n\n        self.net = nn.Sequential(\n            nn.Conv1d(\n                dim_in,\n                dim_in,\n                kernel_size=kernel_size,\n                groups=dim_in,\n                stride=stride,\n                bias=bias,\n            ),\n            nn.Conv1d(dim_in, dim_out, 1, bias=bias),\n        )\n\n    def forward(self, x):\n        x = F.pad(x, self.padding, value=0.0)\n        return self.net(x)\n\n\nclass FixedPositionalEmbedding(nn.Module):\n    def __init__(self, dim, max_seq_len):\n        super().__init__()\n        inv_freq = 1.0 / (10000 ** (torch.arange(0, dim, 2).float() / dim))\n        position = torch.arange(0, max_seq_len, dtype=torch.float)\n        sinusoid_inp = torch.einsum(\"i,j->ij\", position, inv_freq)\n        emb = torch.cat((sinusoid_inp.sin(), sinusoid_inp.cos()), dim=-1)\n        self.register_buffer(\"emb\", emb)\n\n    def forward(self, x):\n        return self.emb[None, : x.shape[1], :].to(x)\n\n\ndef rotate_every_two(x):\n    x = rearrange(x, \"... (d j) -> ... d j\", j=2)\n    x1, x2 = x.unbind(dim=-1)\n    x = torch.stack((-x2, x1), dim=-1)\n    return rearrange(x, \"... d j -> ... (d j)\")\n\n\ndef apply_rotary_pos_emb(q, k, sinu_pos):\n    sinu_pos = rearrange(sinu_pos, \"() n (j d) -> n j d\", j=2)\n    sin, cos = sinu_pos.unbind(dim=-2)\n    sin, cos = map(lambda t: repeat(t, \"b n -> b (n j)\", j=2), (sin, cos))\n    q, k = map(lambda t: (t * cos) + (rotate_every_two(t) * sin), (q, k))\n    return q, k\n\n\n# kmeans related function and class\n\n\ndef update_kmeans_on_backwards(module):\n    module.kmean_modules = find_modules(module, Kmeans)\n\n    def hook(_, grad_in, grad_out):\n        for m in module.kmean_modules:\n            m.update()\n\n    return module.register_backward_hook(hook)\n\n\ndef similarity(x, means):\n    return torch.einsum(\"bhld,hcd->bhlc\", x, means)\n\n\ndef dists_and_buckets(x, means):\n    dists = similarity(x, means)\n    _, buckets = torch.max(dists, dim=-1)\n    return dists, buckets\n\n\ndef batched_bincount(index, num_classes, dim=-1):\n    shape = list(index.shape)\n    shape[dim] = num_classes\n    out = index.new_zeros(shape)\n    out.scatter_add_(dim, index, torch.ones_like(index, dtype=index.dtype))\n    return out\n\n\ndef kmeans_iter(x, means, buckets=None):\n    b, h, _, d, dtype, num_clusters = *x.shape, x.dtype, means.shape[1]\n\n    if not exists(buckets):\n        _, buckets = dists_and_buckets(x, means)\n\n    bins = batched_bincount(buckets, num_clusters).sum(0, keepdim=True)\n    zero_mask = bins.long() == 0\n\n    means_ = buckets.new_zeros(b, h, num_clusters, d, dtype=dtype)\n    means_.scatter_add_(-2, expand_dim(buckets, -1, d), x)\n    means_ = F.normalize(means_.sum(0, keepdim=True), dim=-1).type(dtype)\n\n    means = torch.where(zero_mask.unsqueeze(-1), means, means_)\n    means = means.squeeze(0)\n    return means\n\n\ndef distribution(dists, window_size):\n    _, topk_indices = dists.topk(k=window_size, dim=-2)\n    indices = topk_indices.transpose(-2, -1)\n    return indices.reshape(*indices.size()[:2], -1)\n\n\nclass Kmeans(nn.Module):\n    def __init__(\n        self, num_heads, head_dim, num_clusters, ema_decay=0.999, commitment=1e-4\n    ):\n        super().__init__()\n        self.commitment = commitment\n        self.ema_decay = ema_decay\n\n        self.register_buffer(\"means\", torch.randn(num_heads, num_clusters, head_dim))\n        self.register_buffer(\"initted\", torch.tensor(False))\n        self.num_new_means = 0\n        self.new_means = None\n\n    @torch.no_grad()\n    def init(self, x):\n        if self.initted:\n            return\n        _, h, _, d, device, _ = *x.shape, x.device, x.dtype\n\n        num_clusters = self.means.shape[1]\n\n        means = x.transpose(0, 1).contiguous().view(h, -1, d)\n        num_samples = means.shape[1]\n\n        if num_samples >= num_clusters:\n            indices = torch.randperm(num_samples, device=device)[:num_clusters]\n        else:\n            indices = torch.randint(0, num_samples, (num_clusters,), device=device)\n\n        means = means[:, indices]\n\n        for _ in range(KMEAN_INIT_ITERS):\n            means = kmeans_iter(x, means)\n\n        self.num_new_means = 0\n        self.means.data.copy_(means)\n        self.initted.data.copy_(torch.tensor(True))\n\n    @torch.no_grad()\n    def update(self, new_means=None):\n        new_means = default(new_means, self.new_means)\n        assert exists(new_means), \"new kmeans has not been supplied\"\n        ema_inplace(self.means, new_means, self.ema_decay)\n\n        del self.new_means\n        self.new_means = None\n        self.num_new_means = 0\n\n    def forward(self, x, update_means=False):\n        self.init(x)\n\n        b, dtype = x.shape[0], x.dtype\n        means = self.means.type(dtype)\n        x = F.normalize(x, 2, dim=-1).type(dtype)\n\n        with torch.no_grad():\n            dists, buckets = dists_and_buckets(x, means)\n\n        routed_means = batched_index_select(expand_dim(means, 0, b), buckets)\n        loss = F.mse_loss(x, routed_means) * self.commitment\n\n        if update_means:\n            with torch.no_grad():\n                means = kmeans_iter(x, means, buckets)\n            self.new_means = ema(\n                self.new_means, means, self.num_new_means / (self.num_new_means + 1)\n            )\n            self.num_new_means += 1\n\n        return dists, loss\n\n\n# kmeans attention class\n\n\nclass KmeansAttention(nn.Module):\n    def __init__(\n        self,\n        num_clusters,\n        window_size,\n        num_heads,\n        head_dim,\n        causal=False,\n        dropout=0.0,\n        ema_decay=0.999,\n        commitment=1e-4,\n        context_window_size=None,\n        receives_context=False,\n        num_mem_kv=0,\n        shared_qk=False,\n    ):\n        super().__init__()\n        self.num_heads = num_heads\n        self.num_clusters = num_clusters\n        self.head_dim = head_dim\n\n        self.window_size = window_size\n        self.context_window_size = default(context_window_size, window_size)\n        self.causal = causal\n\n        self.shared_qk = shared_qk\n        self.receives_context = receives_context\n        self.kmeans = Kmeans(num_heads, head_dim, num_clusters, ema_decay, commitment)\n        self.dropout = nn.Dropout(dropout)\n\n        self.num_mem_kv = max(num_mem_kv, 1 if causal and not shared_qk else 0)\n        self.mem_key = nn.Parameter(\n            torch.randn(num_heads, num_clusters, self.num_mem_kv, head_dim)\n        )\n        self.mem_value = nn.Parameter(\n            torch.randn(num_heads, num_clusters, self.num_mem_kv, head_dim)\n        )\n\n    def forward(self, q, k, v, query_mask=None, key_mask=None, **kwargs):\n        b, h, t, d, kv_t, wsz, c_wsz, nc, device, dtype = (\n            *q.shape,\n            k.shape[2],\n            self.window_size,\n            self.context_window_size,\n            self.num_clusters,\n            q.device,\n            q.dtype,\n        )\n        is_reverse = kwargs.pop(\"_reverse\", False)\n\n        out = torch.zeros_like(q, dtype=dtype)\n\n        update_kmeans = self.training and not is_reverse\n\n        key_mask = (\n            default(key_mask, query_mask) if not self.receives_context else key_mask\n        )\n        kv_wsz = wsz if not self.receives_context else c_wsz\n\n        wsz = min(wsz, t)\n        kv_wsz = min(kv_wsz, kv_t)\n\n        if not self.shared_qk or self.receives_context:\n            dists, aux_loss = self.kmeans(torch.cat((q, k), dim=2), update_kmeans)\n            q_dists, k_dists = split_at_index(2, t, dists)\n            indices = distribution(q_dists, wsz)\n            kv_indices = distribution(k_dists, kv_wsz)\n        else:\n            dists, aux_loss = self.kmeans(q, update_kmeans)\n            k = F.normalize(k, dim=-1).to(q)\n            indices = distribution(dists, wsz)\n            kv_indices = indices\n\n        q = batched_index_select(q, indices)\n        k = batched_index_select(k, kv_indices)\n        v = batched_index_select(v, kv_indices)\n\n        reshape_with_window = lambda x: x.reshape(b, h, nc, -1, d)\n        q, k, v = map(reshape_with_window, (q, k, v))\n\n        m_k, m_v = map(\n            lambda x: expand_dim(x, 0, b).to(q), (self.mem_key, self.mem_value)\n        )\n        k, v = map(lambda x: torch.cat(x, dim=3), ((m_k, k), (m_v, v)))\n\n        dots = torch.einsum(\"bhnid,bhnjd->bhnij\", q, k) * (d**-0.5)\n\n        mask_value = max_neg_value(dots)\n\n        if exists(query_mask) or exists(key_mask):\n            query_mask = default(\n                query_mask, lambda: torch.ones((b, t), device=device).bool()\n            )\n            key_mask = default(\n                key_mask, lambda: torch.ones((b, kv_t), device=device).bool()\n            )\n\n            q_mask = expand_dim(query_mask, 1, h).gather(2, indices)\n            kv_mask = expand_dim(key_mask, 1, h).gather(2, kv_indices)\n            q_mask, kv_mask = map(lambda t: t.reshape(b, h, nc, -1), (q_mask, kv_mask))\n            mask = q_mask[:, :, :, :, None] * kv_mask[:, :, :, None, :]\n            mask = F.pad(mask, (self.num_mem_kv, 0), value=1)\n            dots.masked_fill_(~mask, mask_value)\n            del mask\n\n        if self.causal:\n            q_mask, kv_mask = map(\n                lambda t: t.reshape(b, h, nc, -1), (indices, kv_indices)\n            )\n            mask = q_mask[:, :, :, :, None] >= kv_mask[:, :, :, None, :]\n            mask = F.pad(mask, (self.num_mem_kv, 0), value=1)\n            dots.masked_fill_(~mask, mask_value)\n            del mask\n\n        if self.shared_qk:\n            q_mask, kv_mask = map(\n                lambda t: t.reshape(b, h, nc, -1), (indices, kv_indices)\n            )\n            mask = q_mask[:, :, :, :, None] == kv_mask[:, :, :, None, :]\n            mask = F.pad(mask, (self.num_mem_kv, 0), value=0)\n            dots.masked_fill_(mask, TOKEN_SELF_ATTN_VALUE)\n            del mask\n\n        dots = dots.softmax(dim=-1)\n        dots = self.dropout(dots)\n\n        bo = torch.einsum(\"bhcij,bhcjd->bhcid\", dots, v)\n        so = torch.reshape(bo, (b, h, -1, bo.shape[-1])).type(dtype)\n        out = scatter_mean(out, so, indices.unsqueeze(-1).expand_as(so), -2)\n        return out, aux_loss\n\n\n# feedforward\n\n\nclass GELU_(nn.Module):\n    def forward(self, x):\n        return (\n            0.5\n            * x\n            * (\n                1\n                + torch.tanh(math.sqrt(2 / math.pi) * (x + 0.044715 * torch.pow(x, 3)))\n            )\n        )\n\n\nGELU = nn.GELU if hasattr(nn, \"GELU\") else GELU_\n\n\nclass FeedForward(nn.Module):\n    def __init__(self, dim, mult=4, dropout=0.0, activation=None, glu=False):\n        super().__init__()\n        activation = default(activation, GELU)\n\n        self.glu = glu\n        self.w1 = nn.Linear(dim, dim * mult * (2 if glu else 1))\n        self.act = activation()\n        self.dropout = nn.Dropout(dropout)\n        self.w2 = nn.Linear(dim * mult, dim)\n\n    def forward(self, x, **kwargs):\n        if not self.glu:\n            x = self.w1(x)\n            x = self.act(x)\n        else:\n            x, v = self.w1(x).chunk(2, dim=-1)\n            x = self.act(x) * v\n\n        x = self.dropout(x)\n        x = self.w2(x)\n        return x\n\n\n# self attention\n\n\nclass SelfAttention(nn.Module):\n    def __init__(\n        self,\n        dim,\n        max_seq_len,\n        heads,\n        local_attn_heads,\n        window_size,\n        dim_head=None,\n        local_attn_window_size=None,\n        local_attn_radius_blocks=1,\n        causal=False,\n        attn_dropout=0.0,\n        dropout=0.0,\n        kmeans_ema_decay=0.999,\n        commitment_factor=1e-4,\n        receives_context=False,\n        context_window_size=None,\n        rel_pos_emb=True,\n        num_mem_kv=0,\n        shared_qk=False,\n        conv_query_kernel=9,\n    ):\n        super().__init__()\n        assert (\n            dim_head or (dim % heads) == 0\n        ), \"hidden dimension must be divisible by number of heads\"\n        assert (\n            max_seq_len % window_size\n        ) == 0, \"maximum sequence length must be divisible by the target window size\"\n        assert (\n            local_attn_heads <= heads\n        ), \"number of local attention heads must be less than total heads\"\n        assert not (\n            receives_context and local_attn_heads > 0\n        ), \"local attention cannot be used for self attention with context\"\n        assert not (\n            receives_context and causal\n        ), \"contextual attention layer cannot be causal\"\n\n        local_attn_window_size = default(local_attn_window_size, window_size)\n        context_window_size = default(context_window_size, window_size)\n\n        self.shared_qk = shared_qk\n        self.receives_context = receives_context\n        self.heads = heads\n        self.local_attn_heads = local_attn_heads\n        self.global_attn_heads = heads - local_attn_heads\n\n        self.causal = causal\n        self.window_size = window_size\n\n        dim_head = default(dim_head, dim // heads)\n        dim_heads = dim_head * heads\n        self.dim_head = dim_head\n\n        num_clusters = max_seq_len // window_size\n\n        # local\n\n        local_dim_heads = dim_head * self.local_attn_heads\n\n        if self.local_attn_heads > 0:\n            rel_pos_emb_config = (dim_head, local_attn_heads) if rel_pos_emb else None\n            self.local_attn = LocalAttention(\n                dim=dim_head,\n                window_size=local_attn_window_size,\n                causal=causal,\n                dropout=attn_dropout,\n                rel_pos_emb_config=rel_pos_emb_config,\n                look_backward=local_attn_radius_blocks,\n                look_forward=0 if causal else local_attn_radius_blocks,\n            )\n            self.local_to_qkv = nn.Linear(dim, 3 * local_dim_heads)\n\n        # global\n\n        global_dim_heads = dim_head * self.global_attn_heads\n\n        if self.global_attn_heads > 0:\n            self.global_attn = KmeansAttention(\n                num_clusters,\n                window_size,\n                self.global_attn_heads,\n                dim_head,\n                causal=causal,\n                dropout=attn_dropout,\n                ema_decay=kmeans_ema_decay,\n                commitment=commitment_factor,\n                receives_context=receives_context,\n                num_mem_kv=num_mem_kv,\n                shared_qk=shared_qk,\n            )\n\n        self.to_q = nn.Sequential(\n            Rearrange(\"b n c -> b c n\"),\n            DepthWiseConv1d(dim, global_dim_heads, conv_query_kernel, causal=causal),\n            Rearrange(\"b c n -> b n c\"),\n        )\n\n        self.to_v = nn.Linear(dim, global_dim_heads, bias=False)\n\n        if not self.shared_qk:\n            self.to_k = nn.Linear(dim, global_dim_heads, bias=False)\n\n        # out\n\n        self.to_out = nn.Linear(dim_heads, dim, bias=False)\n        self.dropout = nn.Dropout(dropout)\n\n    def forward(\n        self,\n        query,\n        key,\n        value,\n        context=None,\n        key_padding_mask=None,\n        context_mask=None,\n        pos_emb=None,\n        **kwargs\n    ):\n        assert not (\n            self.receives_context and not exists(context)\n        ), \"context must be passed if self attention is set to receive context\"\n        input_mask = key_padding_mask\n        x = query.transpose(0, 1)\n        b, t, _, h, dh = *x.shape, self.heads, self.dim_head\n        has_local, has_global = map(\n            lambda x: x > 0, (self.local_attn_heads, self.global_attn_heads)\n        )\n\n        split_heads = (\n            lambda v: reshape_dim(v, -1, (-1, dh)).transpose(1, 2).contiguous()\n        )\n\n        if has_local:\n            local_qkv = self.local_to_qkv(x).chunk(3, dim=-1)\n            lq, lk, lv = map(split_heads, local_qkv)\n\n        if has_global:\n            kv_input = x if not self.receives_context else context\n\n            q, v = self.to_q(x), self.to_v(kv_input)\n\n            if not self.shared_qk:\n                k = self.to_k(kv_input)\n            else:\n                k = self.to_q(kv_input) if self.receives_context else q\n\n            q, k, v = map(split_heads, (q, k, v))\n\n        out = []\n        total_loss = torch.tensor(0.0, requires_grad=True, **to(x))\n\n        if has_local:\n            local_out = self.local_attn(lq, lk, lv, input_mask=input_mask)\n            out.append(local_out)\n\n        if has_global:\n            if not self.receives_context and exists(pos_emb):\n                q, k = apply_rotary_pos_emb(q, k, pos_emb)\n\n            global_out, loss = self.global_attn(\n                q, k, v, query_mask=input_mask, key_mask=context_mask\n            )\n            total_loss = total_loss + loss\n\n            out.append(global_out)\n\n        out = torch.cat(out, dim=1)\n        out = out.reshape(b, h, t, -1).transpose(1, 2).reshape(b, t, -1)\n        out = self.dropout(out.transpose(0, 1))\n        # out = self.to_out(out)\n        return out, total_loss\n"
  },
  {
    "path": "fairseq/modules/kmeans_vector_quantizer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\nfrom fairseq.modules import Fp32GroupNorm\n\n\nclass KmeansVectorQuantizer(nn.Module):\n    def __init__(\n        self, dim, num_vars, groups, combine_groups, vq_dim, time_first, gamma=0.25\n    ):\n        \"\"\"Vector quantization using straight pass-through estimator (i.e. kmeans)\n\n        Args:\n            dim: input dimension (channels)\n            num_vars: number of quantized vectors per group\n            groups: number of groups for vector quantization\n            combine_groups: whether to use the vectors for all groups\n            vq_dim: dimensionality of the resulting quantized vector\n            time_first: if true, expect input in BxTxC format, otherwise in BxCxT\n            gamma: commitment loss coefficient\n        \"\"\"\n        super().__init__()\n\n        self.groups = groups\n        self.combine_groups = combine_groups\n        self.input_dim = dim\n        self.num_vars = num_vars\n        self.vq_dim = vq_dim\n        self.time_first = time_first\n\n        assert (\n            vq_dim % groups == 0\n        ), f\"dim {vq_dim} must be divisible by groups {groups} for concatenation\"\n\n        self.var_dim = vq_dim // groups\n        num_groups = groups if not combine_groups else 1\n\n        self.embedding = nn.Parameter(\n            0.01 * torch.randn(num_vars, num_groups, self.var_dim)\n        )\n        self.projection = nn.Sequential(\n            nn.Conv1d(dim, dim, kernel_size=1, groups=groups, bias=False),\n            Fp32GroupNorm(groups, dim),\n        )\n        self.gamma = gamma\n        self.mse_mean = nn.MSELoss(reduction=\"mean\")\n\n    def _pass_grad(self, x, y):\n        \"\"\"Manually set gradient for backward pass.\n        for y = f(x), ensure that during the backward pass,\n        dL/dy = dL/dx regardless of f(x).\n        Returns:\n            y, with the gradient forced to be dL/dy = dL/dx.\n        \"\"\"\n\n        return y.detach() + (x - x.detach())\n\n    @property\n    def expand_embedding(self):\n        if self.combine_groups:\n            return self.embedding.expand(self.num_vars, self.groups, self.var_dim)\n        return self.embedding\n\n    def forward_idx(self, x):\n        res = self.forward(x, produce_targets=True)\n        return res[\"x\"], res[\"targets\"]\n\n    def forward(self, x, produce_targets=False):\n\n        result = {\"num_vars\": self.num_vars}\n\n        if self.time_first:\n            x = x.transpose(1, 2)\n\n        bsz, fsz, tsz = x.shape\n\n        ze = self.projection(x)\n        ze_ = ze.view(bsz, self.groups, self.var_dim, tsz).permute(0, 3, 1, 2)\n        d = (\n            (ze_.unsqueeze(0) - self.expand_embedding.unsqueeze(1).unsqueeze(1))\n            .view(self.num_vars, bsz, tsz, self.groups, -1)\n            .norm(dim=-1, p=2)\n        )\n        idx = d.argmin(dim=0)\n        zq = (\n            torch.stack(\n                [\n                    self.expand_embedding[idx[..., group], group]\n                    for group in range(self.groups)\n                ],\n                dim=-2,\n            )\n            .view(bsz, tsz, self.groups * self.var_dim)\n            .permute(0, 2, 1)\n        )\n        assert ze.shape == zq.shape, (ze.shape, zq.shape)\n        x = self._pass_grad(ze, zq)\n\n        with torch.no_grad():\n            hard_x = (\n                idx.new_zeros(bsz * tsz * self.groups, self.num_vars)\n                .scatter_(-1, idx.view(-1, 1), 1.0)\n                .view(bsz * tsz, self.groups, -1)\n            )\n            hard_probs = torch.mean(hard_x.float(), dim=0)\n            result[\"code_perplexity\"] = torch.exp(\n                -torch.sum(hard_probs * torch.log(hard_probs + 1e-7), dim=-1)\n            ).sum()\n\n        if produce_targets:\n            result[\"targets\"] = idx\n\n        if self.time_first:\n            x = x.transpose(1, 2)  # BCT -> BTC\n        result[\"x\"] = x\n\n        ze = ze.float()\n        zq = zq.float()\n        latent_loss = self.mse_mean(zq, ze.detach())\n        commitment_loss = self.mse_mean(ze, zq.detach())\n\n        result[\"kmeans_loss\"] = latent_loss + self.gamma * commitment_loss\n\n        return result\n"
  },
  {
    "path": "fairseq/modules/layer_drop.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nLayerDrop as described in https://arxiv.org/abs/1909.11556.\n\"\"\"\n\nimport torch\nimport torch.nn as nn\n\n\nclass LayerDropModuleList(nn.ModuleList):\n    \"\"\"\n    A LayerDrop implementation based on :class:`torch.nn.ModuleList`.\n\n    We refresh the choice of which layers to drop every time we iterate\n    over the LayerDropModuleList instance. During evaluation we always\n    iterate over all layers.\n\n    Usage::\n\n        layers = LayerDropList(p=0.5, modules=[layer1, layer2, layer3])\n        for layer in layers:  # this might iterate over layers 1 and 3\n            x = layer(x)\n        for layer in layers:  # this might iterate over all layers\n            x = layer(x)\n        for layer in layers:  # this might not iterate over any layers\n            x = layer(x)\n\n    Args:\n        p (float): probability of dropping out each layer\n        modules (iterable, optional): an iterable of modules to add\n    \"\"\"\n\n    def __init__(self, p, modules=None):\n        super().__init__(modules)\n        self.p = p\n\n    def __iter__(self):\n        dropout_probs = torch.empty(len(self)).uniform_()\n        for i, m in enumerate(super().__iter__()):\n            if not self.training or (dropout_probs[i] > self.p):\n                yield m\n"
  },
  {
    "path": "fairseq/modules/layer_norm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\ntry:\n    from apex.normalization import FusedLayerNorm as _FusedLayerNorm\n\n    has_fused_layernorm = True\n\n    class FusedLayerNorm(_FusedLayerNorm):\n        @torch.jit.unused\n        def forward(self, x):\n            if not x.is_cuda:\n                return super().forward(x)\n            else:\n                with torch.cuda.device(x.device):\n                    return super().forward(x)\n\nexcept ImportError:\n    has_fused_layernorm = False\n\n\ndef LayerNorm(normalized_shape, eps=1e-5, elementwise_affine=True, export=False):\n    if torch.jit.is_scripting() or torch.jit.is_tracing():\n        export = True\n    if not export and torch.cuda.is_available() and has_fused_layernorm:\n        return FusedLayerNorm(normalized_shape, eps, elementwise_affine)\n    return torch.nn.LayerNorm(normalized_shape, eps, elementwise_affine)\n\n\nclass Fp32LayerNorm(nn.LayerNorm):\n    def __init__(self, *args, **kwargs):\n        super().__init__(*args, **kwargs)\n\n    def forward(self, input):\n        output = F.layer_norm(\n            input.float(),\n            self.normalized_shape,\n            self.weight.float() if self.weight is not None else None,\n            self.bias.float() if self.bias is not None else None,\n            self.eps,\n        )\n        return output.type_as(input)\n"
  },
  {
    "path": "fairseq/modules/learned_positional_embedding.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Dict, Optional\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom torch import Tensor\n\n\nclass LearnedPositionalEmbedding(nn.Embedding):\n    \"\"\"\n    This module learns positional embeddings up to a fixed maximum size.\n    Padding ids are ignored by either offsetting based on padding_idx\n    or by setting padding_idx to None and ensuring that the appropriate\n    position ids are passed to the forward function.\n    \"\"\"\n\n    def __init__(self, num_embeddings: int, embedding_dim: int, padding_idx: int):\n        super().__init__(num_embeddings, embedding_dim, padding_idx)\n        self.onnx_trace = False\n        if self.padding_idx is not None:\n            self.max_positions = self.num_embeddings - self.padding_idx - 1\n        else:\n            self.max_positions = self.num_embeddings\n\n    def forward(\n        self,\n        input: Tensor,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        positions: Optional[Tensor] = None,\n    ):\n        \"\"\"Input is expected to be of size [bsz x seqlen].\"\"\"\n        assert (positions is None) or (\n            self.padding_idx is None\n        ), \"If positions is pre-computed then padding_idx should not be set.\"\n\n        if positions is None:\n            if incremental_state is not None:\n                # positions is the same for every token when decoding a single step\n                # Without the int() cast, it doesn't work in some cases when exporting to ONNX\n                positions = torch.zeros(\n                    (1, 1), device=input.device, dtype=input.dtype\n                ).fill_(int(self.padding_idx + input.size(1)))\n            else:\n                positions = utils.make_positions(\n                    input, self.padding_idx, onnx_trace=self.onnx_trace\n                )\n        return F.embedding(\n            positions,\n            self.weight,\n            self.padding_idx,\n            self.max_norm,\n            self.norm_type,\n            self.scale_grad_by_freq,\n            self.sparse,\n        )\n"
  },
  {
    "path": "fairseq/modules/lightconv_layer/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .lightconv_layer import LightconvLayer  # noqa\n"
  },
  {
    "path": "fairseq/modules/lightconv_layer/cuda_function_gen.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\ndef gen_forward():\n\n    kernels = [3, 5, 7, 15, 31, 63, 127, 255]\n    seqs = [32 * x for x in [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16]]\n\n    head = \"\"\"\n/**\n * Copyright (c) Facebook, Inc. and its affiliates.\n *\n * This source code is licensed under the MIT license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include \"lightconv_cuda.cuh\"\n\nstd::vector<at::Tensor> lightconv_cuda_forward(at::Tensor input, at::Tensor filters, int padding_l) {\n\n    at::DeviceGuard g(input.device());\n    const auto minibatch = input.size(0);\n    const auto numFeatures = input.size(1);\n    const auto sequenceLength = input.size(2);\n\n    const auto numHeads = filters.size(0);\n    const auto filterSize = filters.size(1);\n\n    const auto numFiltersInBlock = numFeatures / numHeads;\n\n    const dim3 blocks(minibatch, numFeatures);\n\n    auto output = at::zeros_like(input);\n    auto stream = at::cuda::getCurrentCUDAStream();\n\"\"\"\n\n    sequence_if = \"\"\"\n    if (sequenceLength <= {seq}) {{\n        switch(filterSize) {{\n\"\"\"\n\n    case_k = \"\"\"\n            case {k}:\n\"\"\"\n\n    main_block = \"\"\"\n                if (padding_l == {pad}) {{\n                    AT_DISPATCH_FLOATING_TYPES_AND_HALF(input.scalar_type(), \"lightconv_forward\", ([&] {{\n                        lightconv_forward_kernel<{k}, {b_size}, {pad}, scalar_t>\n                        <<<blocks, {b_size}, 0, stream>>>(\n                                input.data<scalar_t>(),\n                                filters.data<scalar_t>(),\n                                minibatch,\n                                sequenceLength,\n                                numFeatures,\n                                numFiltersInBlock,\n                                output.data<scalar_t>());\n                    }}));\n                }} else\n\"\"\"\n\n    bad_padding = \"\"\"\n                {\n                    std::cout << \"WARNING: Unsupported padding size - skipping forward pass\" << std::endl;\n                }\n                break;\n\"\"\"\n\n    bad_filter = \"\"\"\n            default:\n                std::cout << \"WARNING: Unsupported filter length passed - skipping forward pass\" << std::endl;\n        }\n\"\"\"\n\n    con_else = \"\"\"\n    } else\n\"\"\"\n\n    final_else = \"\"\"\n    {\n        switch(filterSize) {\n\"\"\"\n\n    final_return = \"\"\"\n    }\n\n    return {output};\n}\n\"\"\"\n\n    with open(\"lightconv_cuda_forward.cu\", \"w\") as forward:\n        forward.write(head)\n        for seq in seqs:\n            forward.write(sequence_if.format(seq=seq))\n            for k in kernels:\n                forward.write(case_k.format(k=k))\n                for pad in [k // 2, k - 1]:\n                    forward.write(main_block.format(k=k, b_size=seq, pad=pad))\n                forward.write(bad_padding)\n            forward.write(bad_filter)\n            forward.write(con_else)\n\n        forward.write(final_else)\n        for k in kernels:\n            forward.write(case_k.format(k=k))\n            for pad in [k // 2, k - 1]:\n                forward.write(main_block.format(k=k, b_size=seq, pad=pad))\n            forward.write(bad_padding)\n        forward.write(bad_filter)\n        forward.write(final_return)\n\n\ndef gen_backward():\n\n    head = \"\"\"\n/**\n * Copyright (c) Facebook, Inc. and its affiliates.\n *\n * This source code is licensed under the MIT license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include \"lightconv_cuda.cuh\"\n\nstd::vector<at::Tensor> lightconv_cuda_backward(\n        at::Tensor gradOutput,\n        int padding_l,\n        at::Tensor input,\n        at::Tensor filters) {\n\n    // gradWrtInput\n    const int minibatch = input.size(0);\n    const int numFeatures = input.size(1);\n    const int sequenceLength = input.size(2);\n\n    const int numHeads = filters.size(0);\n    const int filterSize = filters.size(1);\n\n    const dim3 gradBlocks(minibatch, numFeatures);\n    const dim3 weightGradFirstpassShortBlocks(minibatch, numHeads);\n    const dim3 weightGradSecondpassBlocks(numHeads, filterSize);\n\n    const int numFiltersInBlock = numFeatures / numHeads;\n\n    auto gradInput = at::zeros_like(input);\n    auto gradFilters = at::zeros_like(filters);\n\n    at::DeviceGuard g(input.device());\n    auto stream = at::cuda::getCurrentCUDAStream();\n\n    switch(filterSize) {\n\"\"\"\n\n    sequence_if = \"\"\"\n            if (sequenceLength <= {seq}) {{\n\"\"\"\n\n    case_k = \"\"\"\n        case {k}:\n\"\"\"\n\n    main_block = \"\"\"\n                if (padding_l == {p}) {{\n                    AT_DISPATCH_FLOATING_TYPES_AND_HALF(input.scalar_type(), \"lightconv_backward\", ([&] {{\n                        lightconv_grad_wrt_input_kernel<{k}, {b_size}, {p}, scalar_t>\n                        <<<gradBlocks, {b_size}, 0, stream>>>(\n                                gradOutput.data<scalar_t>(),\n                                filters.data<scalar_t>(),\n                                minibatch,\n                                sequenceLength,\n                                numFeatures,\n                                numFiltersInBlock,\n                                gradInput.data<scalar_t>());\n\n\"\"\"\n\n    weight_grad_short = \"\"\"\n                        at::Tensor tempSumGradFilters = at::zeros({{minibatch, numHeads, filterSize}}, input.options().dtype(at::kFloat));\n                        lightconv_grad_wrt_weights_firstpass_short_kernel<{k}, {b_size}, {p}, scalar_t>\n                        <<<weightGradFirstpassShortBlocks, {b_size}, 0, stream>>>(\n                                input.data<scalar_t>(),\n                                gradOutput.data<scalar_t>(),\n                                minibatch,\n                                sequenceLength,\n                                numFeatures,\n                                numFiltersInBlock,\n                                numHeads,\n                                tempSumGradFilters.data<float>()\n                        );\n\n                        lightconv_grad_wrt_weights_secondpass_short_kernel<{k}, {b_size}, scalar_t>\n                        <<<weightGradSecondpassBlocks, {b_size}, 0, stream>>>(\n                                tempSumGradFilters.data<float>(),\n                                minibatch,\n                                numFiltersInBlock,\n                                gradFilters.data<scalar_t>()\n                        );\n                    }}));\n                }} else\n\"\"\"\n\n    weight_grad = \"\"\"\n                        at::Tensor tempSumGradFilters = at::zeros({{minibatch, numFeatures, filterSize}}, input.options().dtype(at::kFloat));\n                        lightconv_grad_wrt_weights_firstpass_kernel<{k}, {b_size}, {p}, scalar_t>\n                        <<<gradBlocks, {b_size}, 0, stream>>>(\n                                input.data<scalar_t>(),\n                                gradOutput.data<scalar_t>(),\n                                minibatch,\n                                sequenceLength,\n                                numFeatures,\n                                numFiltersInBlock,\n                                tempSumGradFilters.data<float>()\n                        );\n\n                        lightconv_grad_wrt_weights_secondpass_kernel<{k}, {b_size}, scalar_t>\n                        <<<weightGradSecondpassBlocks, {b_size}, 0, stream>>>(\n                                tempSumGradFilters.data<float>(),\n                                minibatch,\n                                numFiltersInBlock,\n                                gradFilters.data<scalar_t>()\n                        );\n                    }}));\n                }} else\n\"\"\"\n\n    bad_padding = \"\"\"\n                {\n                    std::cout << \"WARNING: Unsupported padding size - skipping backward pass\" << std::endl;\n                }\n\"\"\"\n\n    breakout = \"\"\"\n                break;\n\"\"\"\n\n    bad_filter = \"\"\"\n        default:\n            std::cout << \"WARNING: Unsupported filter length passed - skipping backward pass\" << std::endl;\n\"\"\"\n\n    con_else = \"\"\"\n            } else\n\"\"\"\n\n    final_else = \"\"\"\n    {\n        switch(filterSize) {\n\"\"\"\n\n    last_return = \"\"\"\n    }\n    return {gradInput, gradFilters};\n}\n\"\"\"\n\n    kernels = [3, 5, 7, 15, 31, 63, 127, 255]\n    seqs = [32 * x for x in [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16]]\n    thresh = [32, 32, 64, 128, 256, -1, -1, -1]\n    max_mem = [-1, -1, -1, -1, -1, 192, 96, 64]\n\n    with open(\"lightconv_cuda_backward.cu\", \"w\") as backward:\n        backward.write(head)\n        for (k, t, mem) in zip(kernels, thresh, max_mem):\n            backward.write(case_k.format(k=k))\n            for seq in seqs:\n                if (t == -1 or seq <= t) and (mem == -1 or seq < mem):\n                    backward.write(sequence_if.format(seq=seq))\n                    for p in [k // 2, k - 1]:\n                        backward.write(main_block.format(k=k, b_size=seq, p=p))\n                        backward.write(weight_grad_short.format(k=k, b_size=seq, p=p))\n                    backward.write(bad_padding)\n                else:\n                    for p in [k // 2, k - 1]:\n                        backward.write(main_block.format(k=k, b_size=32, p=p))\n                        backward.write(weight_grad.format(k=k, b_size=32, p=p))\n                    backward.write(bad_padding)\n                    backward.write(breakout)\n                    break\n                backward.write(con_else)\n        backward.write(bad_filter)\n        backward.write(last_return)\n\n\nif __name__ == \"__main__\":\n    gen_forward()\n    gen_backward()\n"
  },
  {
    "path": "fairseq/modules/lightconv_layer/lightconv_cuda.cpp",
    "content": "/**\n * Copyright (c) Facebook, Inc. and its affiliates.\n *\n * This source code is licensed under the MIT license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include <torch/extension.h>\n#include <vector>\n\nstd::vector<at::Tensor>\nlightconv_cuda_forward(at::Tensor input, at::Tensor filters, int padding_l);\n\nstd::vector<at::Tensor> lightconv_cuda_backward(\n    at::Tensor gradOutput,\n    int padding_l,\n    at::Tensor input,\n    at::Tensor filters);\n\n#define CHECK_CUDA(x) \\\n  AT_ASSERTM(x.type().is_cuda(), #x \" must be a CUDA tensor\")\n#define CHECK_CONTIGUOUS(x) \\\n  AT_ASSERTM(x.is_contiguous(), #x \" must be contiguous\")\n#define CHECK_INPUT(x) \\\n  CHECK_CUDA(x);       \\\n  CHECK_CONTIGUOUS(x)\n\nstd::vector<at::Tensor>\nlightconv_forward(at::Tensor input, at::Tensor filters, int padding_l) {\n  CHECK_INPUT(input);\n  CHECK_INPUT(filters);\n\n  return lightconv_cuda_forward(input, filters, padding_l);\n}\n\nstd::vector<at::Tensor> lightconv_backward(\n    at::Tensor gradOutput,\n    int padding_l,\n    at::Tensor input,\n    at::Tensor filters) {\n  CHECK_INPUT(gradOutput);\n  CHECK_INPUT(input);\n  CHECK_INPUT(filters);\n\n  return lightconv_cuda_backward(gradOutput, padding_l, input, filters);\n}\n\nPYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {\n  m.def(\"forward\", &lightconv_forward, \"lighconv forward (CUDA)\");\n  m.def(\"backward\", &lightconv_backward, \"lighconv backward (CUDA)\");\n}\n"
  },
  {
    "path": "fairseq/modules/lightconv_layer/lightconv_cuda.cuh",
    "content": "/**\n * Copyright (c) Facebook, Inc. and its affiliates.\n *\n * This source code is licensed under the MIT license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include <ATen/ATen.h>\n#include <c10/cuda/CUDAStream.h>\n\n#include <cuda.h>\n#include <cuda_runtime.h>\n\n#include <algorithm>\n#include <functional>\n#include <iostream>\n#include <stdexcept>\n#include <utility>\n#include <vector>\n\n#include <assert.h>\n#include <stdlib.h>\n\n#define SHFL_MASK 0xffffffff\n\ntemplate <int FS, int SB, int padding_l, typename scalar_t>\n__global__ void lightconv_forward_kernel(\n    const scalar_t* input,\n    const scalar_t* filters,\n    int minibatch,\n    int sequenceLength,\n    int numFeatures,\n    int numFiltersInBlock,\n    scalar_t* output);\n\ntemplate <int FS, int SB, int padding_l, typename scalar_t>\n__global__ void lightconv_grad_wrt_input_kernel(\n    const scalar_t* input,\n    const scalar_t* filters,\n    int minibatch,\n    int sequenceLength,\n    int numFeatures,\n    int numFiltersInBlock,\n    scalar_t* output);\n\ntemplate <int FS, int SB, int padding_l, typename scalar_t>\n__global__ void lightconv_grad_wrt_weights_firstpass_short_kernel(\n    const scalar_t* input,\n    const scalar_t* gradInput,\n    int minibatch,\n    int sequenceLength,\n    int numFeatures,\n    int numFiltersInBlock,\n    int numHeads,\n    float* output);\n\ntemplate <int FS, int SB, typename scalar_t>\n__global__ void lightconv_grad_wrt_weights_secondpass_short_kernel(\n    const float* input,\n    const int minibatch,\n    const int numFiltersInBlock,\n    scalar_t* output);\n\ntemplate <int FS, int SB, int padding_l, typename scalar_t>\n__global__ void lightconv_grad_wrt_weights_firstpass_kernel(\n    const scalar_t* input,\n    const scalar_t* gradInput,\n    int minibatch,\n    int sequenceLength,\n    int numFeatures,\n    int numFiltersInBlock,\n    float* output);\n\ntemplate <int FS, int SB, typename scalar_t>\n__global__ void lightconv_grad_wrt_weights_secondpass_kernel(\n    const float* input,\n    const int minibatch,\n    const int numFiltersInBlock,\n    scalar_t* output);\n"
  },
  {
    "path": "fairseq/modules/lightconv_layer/lightconv_cuda_kernel.cu",
    "content": "/**\n * Copyright (c) Facebook, Inc. and its affiliates.\n *\n * This source code is licensed under the MIT license found in the\n * LICENSE file in the root directory of this source tree.\n */\n\n#include \"../cuda_utils.cu\"\n#include \"lightconv_cuda.cuh\"\n#include \"lightconv_cuda_backward.cu\"\n#include \"lightconv_cuda_forward.cu\"\n\ntemplate <int FS, int SB, int padding_l, typename scalar_t>\n__global__ void lightconv_forward_kernel(\n    const scalar_t* input,\n    const scalar_t* filters,\n    int minibatch,\n    int sequenceLength,\n    int numFeatures,\n    int numFiltersInBlock,\n    scalar_t* output) {\n  const int tid = threadIdx.x;\n  const int batchIdx = blockIdx.x;\n  const int featureIdx = blockIdx.y;\n  const int filterIdx = featureIdx / numFiltersInBlock;\n\n  const int IOOffset =\n      numFeatures * sequenceLength * batchIdx + featureIdx * sequenceLength;\n  const scalar_t* inputFeature = &input[IOOffset];\n  scalar_t* outputFeature = &output[IOOffset];\n  const scalar_t* inputFilter = &filters[filterIdx * FS];\n\n  assert(blockDim.x == SB);\n\n  scalar_t filter[FS];\n#pragma unroll\n  for (int i = 0; i < FS; ++i) {\n    filter[i] = inputFilter[i];\n  }\n\n  __shared__ scalar_t temp[SB + FS];\n  zeroSharedMem<FS, SB, padding_l>(temp);\n\n  const int numIterations = divUp<int, int>(sequenceLength, SB);\n\n  for (int i = 0; i < numIterations; ++i) {\n    // Read input into shared memory\n    const int inputOffset = i * SB;\n\n    load_input_to_shared<FS, SB, padding_l>(\n        inputFeature,\n        inputOffset,\n        sequenceLength,\n        i,\n        numIterations,\n        (numIterations == 1),\n        temp);\n\n    __syncthreads();\n\n    scalar_t out = 0;\n#pragma unroll\n    for (int j = 0; j < FS; ++j) {\n      out += filter[j] * temp[tid + j];\n    }\n\n    // Write output\n    const int outputOffset = inputOffset;\n    if ((outputOffset + tid) < sequenceLength) {\n      outputFeature[outputOffset + tid] = out;\n    }\n\n    __syncthreads();\n  }\n}\n\ntemplate <int FS, int SB, int padding_l, typename scalar_t>\n__global__ void lightconv_grad_wrt_input_kernel(\n    const scalar_t* input,\n    const scalar_t* filters,\n    int minibatch,\n    int sequenceLength,\n    int numFeatures,\n    int numFiltersInBlock,\n    scalar_t* output) {\n  // input grad kernel is similar to forward kernel\n  const int tid = threadIdx.x;\n  const int batchIdx = blockIdx.x;\n  const int featureIdx = blockIdx.y;\n  const int filterIdx = featureIdx / numFiltersInBlock;\n\n  const int IOOffset =\n      numFeatures * sequenceLength * batchIdx + featureIdx * sequenceLength;\n  const scalar_t* inputFeature = &input[IOOffset];\n  scalar_t* outputFeature = &output[IOOffset];\n  const scalar_t* inputFilter = &filters[filterIdx * FS];\n\n  assert(blockDim.x == SB);\n\n  scalar_t filter[FS];\n\n// The only change is loading the filter in reverse\n#pragma unroll\n  for (int i = 0; i < FS; ++i) {\n    filter[i] = inputFilter[FS - i - 1];\n  }\n\n  __shared__ scalar_t temp[SB + FS];\n  const int padding = FS - padding_l - 1;\n  zeroSharedMem<FS, SB, padding>(temp);\n\n  __syncthreads();\n\n  const int numIterations = divUp<int, int>(sequenceLength, SB);\n\n  for (int i = 0; i < numIterations; ++i) {\n    // Read input into shared memory\n    const int inputOffset = i * SB;\n\n    load_input_to_shared<FS, SB, padding>(\n        inputFeature,\n        inputOffset,\n        sequenceLength,\n        i,\n        numIterations,\n        false,\n        temp);\n\n    __syncthreads();\n\n    scalar_t out = 0;\n#pragma unroll\n    for (int j = 0; j < FS; ++j) {\n      out += filter[j] * temp[tid + j];\n    }\n\n    // Write output\n    const int outputOffset = inputOffset;\n    if ((outputOffset + tid) < sequenceLength) {\n      outputFeature[outputOffset + tid] = out;\n    }\n\n    __syncthreads();\n  }\n}\n\n// This is by far the most expensive kernel in terms of time taken.\n// Can be 16x slower than the forward or grad_wrt_input when filter size is 31\ntemplate <int FS, int SB, int padding_l, typename scalar_t>\n__global__ void lightconv_grad_wrt_weights_firstpass_short_kernel(\n    const scalar_t* input,\n    const scalar_t* gradInput,\n    int minibatch,\n    int sequenceLength,\n    int numFeatures,\n    int numFiltersInBlock,\n    int numHeads,\n    float* output) {\n  const int tid = threadIdx.x;\n  const int batchIdx = blockIdx.x;\n  const int filterIdx = blockIdx.y;\n\n  const int numIterations = divUp<int, int>(sequenceLength, SB);\n\n  float* tempOutputGradWeight = &output[filterIdx * FS * minibatch];\n\n  assert(blockDim.x == SB);\n\n  __shared__ scalar_t tempInput[SB + FS];\n  __shared__ scalar_t tempGradInput[SB + FS];\n\n  // local weight accumulation\n  float accumWeights[FS];\n\n  // Initialize memory\n  for (int i = 0; i < FS; ++i) {\n    accumWeights[i] = float(0.0);\n  }\n\n  // loop over each sequence within filterblock\n  for (int idxInFilterBlock = 0; idxInFilterBlock < numFiltersInBlock;\n       ++idxInFilterBlock) {\n    const int featureOffset = batchIdx * numFeatures * sequenceLength +\n        (filterIdx * numFiltersInBlock + idxInFilterBlock) * sequenceLength;\n    const scalar_t* inputFeature = &input[featureOffset];\n    const scalar_t* gradInputFeature = &gradInput[featureOffset];\n\n    zeroSharedMem<FS, SB, padding_l>(tempInput);\n    zeroSharedMem<FS, SB, (FS / 2)>(tempGradInput);\n    __syncthreads();\n\n    for (int i = 0; i < numIterations; ++i) {\n      const int inputOffset = i * SB;\n\n      load_input_to_shared<FS, SB, padding_l>(\n          inputFeature,\n          inputOffset,\n          sequenceLength,\n          i,\n          numIterations,\n          false,\n          tempInput);\n      load_input_to_shared<FS, SB, (FS / 2)>(\n          gradInputFeature,\n          inputOffset,\n          sequenceLength,\n          i,\n          numIterations,\n          false,\n          tempGradInput);\n\n      __syncthreads();\n\n      const int gradIndex = (FS / 2) + tid;\n      scalar_t tempGrad = tempGradInput[gradIndex];\n\n#pragma unroll\n      for (int j = 0; j < FS; j++) {\n        const int inputIndex = tid + j;\n        accumWeights[j] += tempInput[inputIndex] * tempGrad;\n      }\n\n      __syncthreads();\n    }\n  }\n\n  // Row-major sum\n  for (int filterWeightIdx = 0; filterWeightIdx < FS; ++filterWeightIdx) {\n    float temp;\n    if (tid < sequenceLength) {\n      temp = accumWeights[filterWeightIdx];\n    } else {\n      temp = float(0.0);\n    }\n\n    const int outputOffset = filterWeightIdx * minibatch + batchIdx;\n\n    temp = blockReduce(temp);\n\n    if (tid == 0) {\n      tempOutputGradWeight[outputOffset] = temp;\n    }\n  }\n}\n\ntemplate <int FS, int SB, typename scalar_t>\n__global__ void lightconv_grad_wrt_weights_secondpass_short_kernel(\n    const float* input,\n    const int minibatch,\n    const int numFiltersInBlock,\n    scalar_t* output) {\n  assert(blockDim.x == SB);\n\n  const int tid = threadIdx.x;\n\n  const int filterIdx = blockIdx.x;\n  const int filterWeightIdx = blockIdx.y;\n\n  const int inputOffset =\n      filterIdx * FS * minibatch + filterWeightIdx * minibatch;\n  const float* tempInput = &input[inputOffset];\n\n  // read into shared memory for reduction\n  int readIndex = tid;\n\n  float sum = 0.0;\n  while (readIndex < minibatch) {\n    sum += tempInput[readIndex];\n    readIndex += SB;\n  }\n\n  float temp = blockReduce(sum);\n\n  if (tid == 0) {\n    output[blockIdx.x * FS + blockIdx.y] = temp;\n  }\n}\n\n// This is by far the most expensive kernel in terms of time taken.\n// Can be 16x slower than the forward or grad_wrt_input when filter size is 31\ntemplate <int FS, int SB, int padding_l, typename scalar_t>\n__global__ void lightconv_grad_wrt_weights_firstpass_kernel(\n    const scalar_t* input,\n    const scalar_t* gradInput,\n    int minibatch,\n    int sequenceLength,\n    int numFeatures,\n    int numFiltersInBlock,\n    float* output) {\n  assert(blockDim.x == SB);\n\n  const int tid = threadIdx.x;\n  const int batchIdx = blockIdx.x;\n  const int featureIdx = blockIdx.y;\n  const int filterIdx = featureIdx / numFiltersInBlock;\n  const int idxInFilterBlock = featureIdx % numFiltersInBlock;\n\n  const int numIterations = divUp<int, int>(sequenceLength, SB);\n\n  float temp;\n\n  __shared__ scalar_t tempInput[SB + FS];\n  __shared__ scalar_t tempGradInput[SB + FS];\n  zeroSharedMem<FS, SB, padding_l>(tempInput);\n  zeroSharedMem<FS, SB, (FS / 2)>(tempGradInput);\n  __syncthreads();\n\n  float accumWeights[FS];\n\n  for (int i = 0; i < FS; ++i) {\n    accumWeights[i] = float(0.0);\n  }\n\n  const int IOOffset =\n      batchIdx * numFeatures * sequenceLength + featureIdx * sequenceLength;\n  const scalar_t* inputFeature = &input[IOOffset];\n  const scalar_t* gradInputFeature = &gradInput[IOOffset];\n  float* tempOutputGradWeight =\n      &output[filterIdx * FS * minibatch * numFiltersInBlock];\n\n  for (int i = 0; i < numIterations; ++i) {\n    const int inputOffset = i * SB;\n\n    load_input_to_shared<FS, SB, padding_l>(\n        inputFeature,\n        inputOffset,\n        sequenceLength,\n        i,\n        numIterations,\n        false,\n        tempInput);\n    load_input_to_shared<FS, SB, (FS / 2)>(\n        gradInputFeature,\n        inputOffset,\n        sequenceLength,\n        i,\n        numIterations,\n        false,\n        tempGradInput);\n    __syncthreads();\n\n#pragma unroll\n    for (int j = 0; j < FS; ++j) {\n      accumWeights[j] += tempInput[tid + j] * tempGradInput[tid + (FS / 2)];\n    }\n\n    __syncthreads();\n  }\n\n  // Row-major sum\n  for (int filterWeightIdx = 0; filterWeightIdx < FS; ++filterWeightIdx) {\n    // Write to shared memory before reduction\n    if (tid < sequenceLength) {\n      temp = accumWeights[filterWeightIdx];\n    } else {\n      temp = float(0.0);\n    }\n\n    temp = blockReduce(temp);\n\n    const int outputOffset = filterWeightIdx * minibatch * numFiltersInBlock +\n        batchIdx * numFiltersInBlock + idxInFilterBlock;\n\n    if (tid == 0) {\n      tempOutputGradWeight[outputOffset] = temp;\n    }\n  }\n}\n\ntemplate <int FS, int SB, typename scalar_t>\n__global__ void lightconv_grad_wrt_weights_secondpass_kernel(\n    const float* input,\n    const int minibatch,\n    const int numFiltersInBlock,\n    scalar_t* output) {\n  assert(blockDim.x == SB);\n  const int tid = threadIdx.x;\n\n  // What is the id within a minibatch\n  const int filterIdx = blockIdx.x;\n  const int filterWeightIdx = blockIdx.y;\n\n  const int inputOffset = filterIdx * FS * minibatch * numFiltersInBlock +\n      filterWeightIdx * minibatch * numFiltersInBlock;\n  const float* tempInput = &input[inputOffset];\n\n  int readIndex = tid;\n\n  float sum = float(0.0);\n  while (readIndex < (minibatch * numFiltersInBlock)) {\n    sum += tempInput[readIndex];\n    readIndex += SB;\n  }\n\n  float temp = blockReduce(sum);\n\n  if (tid == 0) {\n    output[blockIdx.x * FS + blockIdx.y] = temp;\n  }\n}\n"
  },
  {
    "path": "fairseq/modules/lightconv_layer/lightconv_layer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport lightconv_cuda\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.incremental_decoding_utils import with_incremental_state\nfrom fairseq.modules.fairseq_dropout import FairseqDropout\nfrom torch import nn\nfrom torch.autograd import Function\n\n\nclass lightconvFunction(Function):\n    @staticmethod\n    def forward(ctx, x, weights, padding_l):\n        ctx.padding_l = padding_l\n        outputs = lightconv_cuda.forward(x, weights, padding_l)\n        variables = [x, weights]\n        ctx.save_for_backward(*variables)\n        return outputs[0]\n\n    @staticmethod\n    def backward(ctx, grad_output):\n        outputs = lightconv_cuda.backward(\n            grad_output.contiguous(), ctx.padding_l, *ctx.saved_tensors\n        )\n        grad_input, grad_weights = outputs\n        return grad_input, grad_weights, None\n\n\n@with_incremental_state\nclass LightconvLayer(nn.Module):\n    def __init__(\n        self,\n        input_size,\n        kernel_size=1,\n        padding_l=None,\n        weight_softmax=False,\n        num_heads=1,\n        weight_dropout=0.0,\n        bias=False,\n    ):\n        super(LightconvLayer, self).__init__()\n        self.input_size = input_size\n        self.kernel_size = kernel_size\n        self.padding_l = padding_l\n        self.num_heads = num_heads\n        self.weight_softmax = weight_softmax\n        self.weight_dropout_module = FairseqDropout(\n            weight_dropout, module_name=self.__class__.__name__\n        )\n\n        self.weight = nn.Parameter(torch.Tensor(num_heads, kernel_size))\n        if bias:\n            self.bias = nn.Parameter(torch.Tensor(input_size))\n        else:\n            self.bias = None\n        self.reset_parameters()\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        prefix = name + \".\" if name != \"\" else \"\"\n        for k, v in state_dict.items():\n            if k.endswith(prefix + \"weight\"):\n                if v.dim() == 3 and v.size(1) == 1:\n                    state_dict[k] = v.squeeze(1)\n\n    def reset_parameters(self):\n        nn.init.xavier_uniform_(self.weight)\n        if self.bias is not None:\n            nn.init.constant_(self.bias, 0.0)\n\n    def forward(self, x, incremental_state=None):\n\n        # during inference time, incremental BMM is faster\n        if incremental_state is not None:\n            T, B, C = x.size()\n            K, H = self.kernel_size, self.num_heads\n            R = C // H\n            input_buffer = self._get_input_buffer(incremental_state)\n            if input_buffer is None:\n                input_buffer = x.new()\n            x_unfold = torch.cat([input_buffer, x.unsqueeze(3)], dim=3)\n            if self.kernel_size > 1:\n                self._set_input_buffer(\n                    incremental_state, x_unfold[:, :, :, -self.kernel_size + 1 :]\n                )\n            x_unfold = x_unfold.view(T * B * H, R, -1)\n\n            weight = self.weight\n            if self.weight_softmax:\n                weight = F.softmax(weight.float(), dim=1).type_as(weight)\n\n            weight = weight[:, -x_unfold.size(2) :]\n\n            K = weight.size(1)\n\n            weight = (\n                weight.view(1, H, K)\n                .expand(T * B, H, K)\n                .contiguous()\n                .view(T * B * H, K, 1)\n            )\n\n            weight = self.weight_dropout_module(weight)\n            output = torch.bmm(x_unfold, weight)  # T*B*H x R x 1\n            output = output.view(T, B, C)\n            return output\n\n        # during training time, use CUDA kernel\n        else:\n            x = x.permute(1, 2, 0).contiguous()\n            weight = self.weight\n            if self.weight_softmax:\n                weight = F.softmax(self.weight, -1)\n            if self.weight_dropout_module.p:\n                weight = self.weight_dropout_module(weight)\n            return lightconvFunction.apply(x, weight, self.padding_l).permute(2, 0, 1)\n\n    def reorder_incremental_state(self, incremental_state, new_order):\n        input_buffer = self._get_input_buffer(incremental_state)\n        if input_buffer is not None:\n            input_buffer = input_buffer.index_select(1, new_order)\n            self._set_input_buffer(incremental_state, input_buffer)\n\n    def _get_input_buffer(self, incremental_state):\n        return utils.get_incremental_state(self, incremental_state, \"input_buffer\")\n\n    def _set_input_buffer(self, incremental_state, new_buffer):\n        return utils.set_incremental_state(\n            self, incremental_state, \"input_buffer\", new_buffer\n        )\n\n    def half(self):\n        return self._apply(lambda t: t.half() if t.is_floating_point() else t)\n"
  },
  {
    "path": "fairseq/modules/lightconv_layer/setup.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom setuptools import setup\nfrom torch.utils.cpp_extension import BuildExtension, CUDAExtension\n\n\nsetup(\n    name=\"lightconv_layer\",\n    ext_modules=[\n        CUDAExtension(\n            \"lightconv_cuda\",\n            [\n                \"lightconv_cuda.cpp\",\n                \"lightconv_cuda_kernel.cu\",\n            ],\n        ),\n    ],\n    cmdclass={\"build_ext\": BuildExtension},\n)\n"
  },
  {
    "path": "fairseq/modules/lightweight_convolution.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.incremental_decoding_utils import with_incremental_state\nfrom fairseq.modules.fairseq_dropout import FairseqDropout\nfrom fairseq.modules.unfold import unfold1d\n\n\ndef LightweightConv(\n    input_size,\n    kernel_size=1,\n    padding_l=None,\n    num_heads=1,\n    weight_dropout=0.0,\n    weight_softmax=False,\n    bias=False,\n):\n    if torch.cuda.is_available():\n        try:\n            from fairseq.modules.lightconv_layer import LightconvLayer\n\n            return LightconvLayer(\n                input_size,\n                kernel_size=kernel_size,\n                padding_l=padding_l,\n                num_heads=num_heads,\n                weight_dropout=weight_dropout,\n                weight_softmax=weight_softmax,\n                bias=bias,\n            )\n        except ImportError as e:\n            print(e)\n    return LightweightConv1dTBC(\n        input_size,\n        kernel_size=kernel_size,\n        padding_l=padding_l,\n        num_heads=num_heads,\n        weight_dropout=weight_dropout,\n        weight_softmax=weight_softmax,\n        bias=bias,\n    )\n\n\nclass LightweightConv1d(nn.Module):\n    \"\"\"Lightweight Convolution assuming the input is BxCxT\n    This is just an example that explains LightConv clearer than the TBC version.\n    We don't use this module in the model.\n\n    Args:\n        input_size: # of channels of the input and output\n        kernel_size: convolution channels\n        padding: padding\n        num_heads: number of heads used. The weight is of shape\n            `(num_heads, 1, kernel_size)`\n        weight_softmax: normalize the weight with softmax before the convolution\n\n    Shape:\n        Input: BxCxT, i.e. (batch_size, input_size, timesteps)\n        Output: BxCxT, i.e. (batch_size, input_size, timesteps)\n\n    Attributes:\n        weight: the learnable weights of the module of shape\n            `(num_heads, 1, kernel_size)`\n        bias: the learnable bias of the module of shape `(input_size)`\n    \"\"\"\n\n    def __init__(\n        self,\n        input_size,\n        kernel_size=1,\n        padding=0,\n        num_heads=1,\n        weight_softmax=False,\n        bias=False,\n        weight_dropout=0.0,\n    ):\n        super().__init__()\n        self.input_size = input_size\n        self.kernel_size = kernel_size\n        self.num_heads = num_heads\n        self.padding = padding\n        self.weight_softmax = weight_softmax\n        self.weight = nn.Parameter(torch.Tensor(num_heads, 1, kernel_size))\n\n        if bias:\n            self.bias = nn.Parameter(torch.Tensor(input_size))\n        else:\n            self.bias = None\n        self.weight_dropout_module = FairseqDropout(\n            weight_dropout, module_name=self.__class__.__name__\n        )\n        self.reset_parameters()\n\n    def reset_parameters(self):\n        nn.init.xavier_uniform_(self.weight)\n        if self.bias is not None:\n            nn.init.constant_(self.bias, 0.0)\n\n    def forward(self, input):\n        \"\"\"\n        input size: B x C x T\n        output size: B x C x T\n        \"\"\"\n        B, C, T = input.size()\n        H = self.num_heads\n\n        weight = self.weight\n        if self.weight_softmax:\n            weight = F.softmax(weight, dim=-1)\n\n        weight = self.weight_dropout_module(weight)\n        # Merge every C/H entries into the batch dimension (C = self.input_size)\n        # B x C x T -> (B * C/H) x H x T\n        # One can also expand the weight to C x 1 x K by a factor of C/H\n        # and do not reshape the input instead, which is slow though\n        input = input.view(-1, H, T)\n        output = F.conv1d(input, weight, padding=self.padding, groups=self.num_heads)\n        output = output.view(B, C, T)\n        if self.bias is not None:\n            output = output + self.bias.view(1, -1, 1)\n\n        return output\n\n\n@with_incremental_state\nclass LightweightConv1dTBC(nn.Module):\n    \"\"\"Lightweight Convolution assuming the input is TxBxC\n    Args:\n        input_size: # of channels of the input\n        kernel_size: convolution channels\n        padding_l: padding to the left when using \"same\" padding\n        num_heads: number of heads used. The weight is of shape (num_heads, 1, kernel_size)\n        weight_dropout: the drop rate of the DropConnect to drop the weight\n        weight_softmax: normalize the weight with softmax before the convolution\n        bias: use bias\n\n    Shape:\n        Input: TxBxC, i.e. (timesteps, batch_size, input_size)\n        Output: TxBxC, i.e. (timesteps, batch_size, input_size)\n\n    Attributes:\n        weight: the learnable weights of the module of shape\n            `(num_heads, 1, kernel_size)`\n        bias:   the learnable bias of the module of shape `(input_size)`\n    \"\"\"\n\n    def __init__(\n        self,\n        input_size,\n        kernel_size=1,\n        padding_l=None,\n        num_heads=1,\n        weight_dropout=0.0,\n        weight_softmax=False,\n        bias=False,\n    ):\n        super().__init__()\n        self.input_size = input_size\n        self.kernel_size = kernel_size\n        self.padding_l = padding_l\n        self.num_heads = num_heads\n        self.weight_dropout_module = FairseqDropout(\n            weight_dropout, module_name=self.__class__.__name__\n        )\n        self.weight_softmax = weight_softmax\n\n        self.weight = nn.Parameter(torch.Tensor(num_heads, 1, kernel_size))\n        if bias:\n            self.bias = nn.Parameter(torch.Tensor(input_size))\n        else:\n            self.bias = None\n\n        self.reset_parameters()\n        self.onnx_trace = False\n\n    def reset_parameters(self):\n        nn.init.xavier_uniform_(self.weight)\n        if self.bias is not None:\n            nn.init.constant_(self.bias, 0.0)\n\n    def forward(self, x, incremental_state=None, unfold=False):\n        \"\"\"Assuming the input, x, of the shape T x B x C and producing an output in the shape T x B x C\n        args:\n            x: Input of shape T x B x C, i.e. (timesteps, batch_size, input_size)\n            incremental_state: A dict to keep the state\n            unfold: unfold the input or not. If not, we use the matrix trick instead\n        \"\"\"\n        unfold = unfold or (incremental_state is not None)\n\n        if unfold:\n            output = self._forward_unfolded(x, incremental_state)\n        else:\n            output = self._forward_expanded(x, incremental_state)\n\n        if self.bias is not None:\n            output = output + self.bias.view(1, 1, -1)\n        return output\n\n    def prepare_for_onnx_export_(self):\n        self.onnx_trace = True\n\n    def _forward_unfolded(self, x, incremental_state):\n        \"\"\"The conventional implementation of convolutions.\n        Unfolding the input by having a window shifting to the right.\"\"\"\n        T, B, C = x.size()\n        K, H = self.kernel_size, self.num_heads\n        R = C // H\n        assert R * H == C == self.input_size\n\n        weight = self.weight.view(H, K)\n        if incremental_state is not None:\n            input_buffer = self._get_input_buffer(incremental_state)\n            if input_buffer is None:\n                input_buffer = x.new()\n            x_unfold = torch.cat([input_buffer, x.unsqueeze(3)], dim=3)\n            if self.kernel_size > 1:\n                self._set_input_buffer(\n                    incremental_state, x_unfold[:, :, :, -self.kernel_size + 1 :]\n                )\n            x_unfold = x_unfold.view(T * B * H, R, -1)\n        else:\n            # unfold the input: T x B x C --> T' x B x C x K\n            x_unfold = unfold1d(x, self.kernel_size, self.padding_l, 0)\n            x_unfold = x_unfold.view(T * B * H, R, K)\n\n        if self.weight_softmax:\n            weight = utils.softmax(weight, dim=1, onnx_trace=self.onnx_trace).type_as(\n                weight\n            )\n\n        if incremental_state is not None:\n            weight = weight[:, -x_unfold.size(2) :]\n            K = weight.size(1)\n\n        weight = (\n            weight.view(1, H, K).expand(T * B, H, K).contiguous().view(T * B * H, K, 1)\n        )\n\n        weight = self.weight_dropout_module(weight)\n        output = torch.bmm(x_unfold, weight)  # T*B*H x R x 1\n        output = output.view(T, B, C)\n        return output\n\n    def _forward_expanded(self, x, incremental_state):\n        \"\"\"Turn the convolution filters into band matrices and do matrix multiplication.\n        This is faster when the sequence is short, but less memory efficient.\n        This is not used in the decoder during inference.\n        \"\"\"\n        T, B, C = x.size()\n        K, H = self.kernel_size, self.num_heads\n        R = C // H\n        assert R * H == C == self.input_size\n\n        weight = self.weight.view(H, K)\n        if self.weight_softmax:\n            weight = utils.softmax(weight, dim=1, onnx_trace=self.onnx_trace).type_as(\n                weight\n            )\n        weight = weight.view(1, H, K).expand(T * B, H, K).contiguous()\n        weight = weight.view(T, B * H, K).transpose(0, 1)\n\n        x = x.view(T, B * H, R).transpose(0, 1)\n        P = self.padding_l\n        if K > T and P == K - 1:\n            weight = weight.narrow(2, K - T, T)\n            K, P = T, T - 1\n        # turn the convolution filters into band matrices\n        weight_expanded = weight.new_zeros(B * H, T, T + K - 1, requires_grad=False)\n        weight_expanded.as_strided((B * H, T, K), (T * (T + K - 1), T + K, 1)).copy_(\n            weight\n        )\n        weight_expanded = weight_expanded.narrow(2, P, T)\n        weight_expanded = self.weight_dropout_module(weight_expanded)\n\n        output = torch.bmm(weight_expanded, x)\n        output = output.transpose(0, 1).contiguous().view(T, B, C)\n        return output\n\n    def reorder_incremental_state(self, incremental_state, new_order):\n        input_buffer = self._get_input_buffer(incremental_state)\n        if input_buffer is not None:\n            input_buffer = input_buffer.index_select(1, new_order)\n            self._set_input_buffer(incremental_state, input_buffer)\n\n    def _get_input_buffer(self, incremental_state):\n        return utils.get_incremental_state(self, incremental_state, \"input_buffer\")\n\n    def _set_input_buffer(self, incremental_state, new_buffer):\n        return utils.set_incremental_state(\n            self, incremental_state, \"input_buffer\", new_buffer\n        )\n\n    def extra_repr(self):\n        s = \"{}, kernel_size={}, padding_l={}, num_heads={}, weight_softmax={}, bias={}\".format(\n            self.input_size,\n            self.kernel_size,\n            self.padding_l,\n            self.num_heads,\n            self.weight_softmax,\n            self.bias is not None,\n        )\n        if self.weight_dropout_module.p > 0.0:\n            s += \", weight_dropout={}\".format(self.weight_dropout_module.p)\n        return s\n"
  },
  {
    "path": "fairseq/modules/linearized_convolution.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn.functional as F\nfrom fairseq import utils\nfrom fairseq.incremental_decoding_utils import with_incremental_state\n\nfrom .conv_tbc import ConvTBC\n\nfrom typing import Dict, Optional\nfrom torch import Tensor\n\n\n@with_incremental_state\nclass LinearizedConvolution(ConvTBC):\n    \"\"\"An optimized version of nn.Conv1d.\n\n    At training time, this module uses ConvTBC, which is an optimized version\n    of Conv1d. At inference time, it optimizes incremental generation (i.e.,\n    one time step at a time) by replacing the convolutions with linear layers.\n    Note that the input order changes from training to inference.\n    \"\"\"\n\n    def __init__(self, in_channels, out_channels, kernel_size, **kwargs):\n        super().__init__(in_channels, out_channels, kernel_size, **kwargs)\n        self._linearized_weight = None\n        self.register_backward_hook(self._clear_linearized_weight)\n\n    def state_dict(self, destination=None, prefix=\"\", keep_vars=False):\n        state = ConvTBC.state_dict(self, destination, prefix, keep_vars=keep_vars)\n        # don't store redundant _linearized_weight in checkpoints\n        if prefix + \"_linearized_weight\" in state:\n            del state[prefix + \"_linearized_weight\"]\n        return state\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        prefix = name + \".\" if name != \"\" else \"\"\n        if prefix + \"_linearized_weight\" in state_dict:\n            del state_dict[prefix + \"_linearized_weight\"]\n\n    @torch.jit.export\n    def forward(\n        self,\n        input,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n    ):\n        \"\"\"\n        Args:\n            incremental_state: Used to buffer signal; if not None, then input is\n                expected to contain a single frame. If the input order changes\n                between time steps, call reorder_incremental_state.\n        Input:\n            Time x Batch x Channel during training\n            Batch x Time x Channel during inference\n        \"\"\"\n        if incremental_state is None:\n            output = self.conv_tbc(input)\n            if self.kernel_size[0] > 1 and self.padding[0] > 0:\n                # remove future timesteps added by padding\n                output = output[: -self.padding[0], :, :]\n            return output\n\n        # reshape weight\n        weight = self._get_linearized_weight()\n        kw = self.kernel_size[0]\n\n        bsz = input.size(0)  # input: bsz x len x dim\n        if kw > 1:\n            input = input.data\n            input_buffer = self._get_input_buffer(incremental_state)\n            if input_buffer is None:\n                input_buffer = input.new(bsz, kw, input.size(2)).zero_()\n                self._set_input_buffer(incremental_state, input_buffer)\n            else:\n                # shift buffer\n                input_buffer[:, :-1, :] = input_buffer[:, 1:, :].clone()\n            # append next input\n            input_buffer[:, -1, :] = input[:, -1, :]\n            input = input_buffer\n        with torch.no_grad():\n            output = F.linear(input.view(bsz, -1), weight, self.bias)\n        return output.view(bsz, 1, -1)\n\n    @torch.jit.unused\n    def reorder_incremental_state(\n        self,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]],\n        new_order,\n    ):\n        input_buffer = self._get_input_buffer(incremental_state)\n        if input_buffer is not None:\n            input_buffer = input_buffer.index_select(0, new_order)\n            self._set_input_buffer(incremental_state, input_buffer)\n\n    @torch.jit.unused\n    def _get_input_buffer(\n        self, incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]]\n    ):\n        return utils.get_incremental_state(self, incremental_state, \"input_buffer\")\n\n    @torch.jit.unused\n    def _set_input_buffer(\n        self,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]],\n        new_buffer,\n    ):\n        return utils.set_incremental_state(\n            self, incremental_state, \"input_buffer\", new_buffer\n        )\n\n    @torch.jit.unused\n    def _get_linearized_weight(self):\n        if self._linearized_weight is None:\n            kw = self.kernel_size[0]\n            weight = self.weight.transpose(2, 1).transpose(1, 0).contiguous()\n            assert weight.size() == (self.out_channels, kw, self.in_channels)\n            return weight.view(self.out_channels, -1)\n        return self._linearized_weight\n\n    @torch.jit.unused\n    def _clear_linearized_weight(self, *args):\n        self._linearized_weight = None\n"
  },
  {
    "path": "fairseq/modules/location_attention.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch.nn as nn\nimport torch\nimport torch.nn.functional as F\n\n\nclass LocationAttention(nn.Module):\n    \"\"\"\n    Attention-Based Models for Speech Recognition\n    https://arxiv.org/pdf/1506.07503.pdf\n\n    :param int encoder_dim: # projection-units of encoder\n    :param int decoder_dim: # units of decoder\n    :param int attn_dim: attention dimension\n    :param int conv_dim: # channels of attention convolution\n    :param int conv_kernel_size: filter size of attention convolution\n    \"\"\"\n\n    def __init__(\n        self,\n        attn_dim,\n        encoder_dim,\n        decoder_dim,\n        attn_state_kernel_size,\n        conv_dim,\n        conv_kernel_size,\n        scaling=2.0,\n    ):\n        super(LocationAttention, self).__init__()\n        self.attn_dim = attn_dim\n        self.decoder_dim = decoder_dim\n        self.scaling = scaling\n        self.proj_enc = nn.Linear(encoder_dim, attn_dim)\n        self.proj_dec = nn.Linear(decoder_dim, attn_dim, bias=False)\n        self.proj_attn = nn.Linear(conv_dim, attn_dim, bias=False)\n        self.conv = nn.Conv1d(\n            attn_state_kernel_size,\n            conv_dim,\n            2 * conv_kernel_size + 1,\n            padding=conv_kernel_size,\n            bias=False,\n        )\n        self.proj_out = nn.Sequential(nn.Tanh(), nn.Linear(attn_dim, 1))\n\n        self.proj_enc_out = None  # cache\n\n    def clear_cache(self):\n        self.proj_enc_out = None\n\n    def forward(self, encoder_out, encoder_padding_mask, decoder_h, attn_state):\n        \"\"\"\n        :param torch.Tensor encoder_out: padded encoder hidden state B x T x D\n        :param torch.Tensor encoder_padding_mask: encoder padding mask\n        :param torch.Tensor decoder_h: decoder hidden state B x D\n        :param torch.Tensor attn_prev: previous attention weight B x K x T\n        :return: attention weighted encoder state (B, D)\n        :rtype: torch.Tensor\n        :return: previous attention weights (B x T)\n        :rtype: torch.Tensor\n        \"\"\"\n        bsz, seq_len, _ = encoder_out.size()\n        if self.proj_enc_out is None:\n            self.proj_enc_out = self.proj_enc(encoder_out)\n\n        # B x K x T -> B x C x T\n        attn = self.conv(attn_state)\n        # B x C x T -> B x T x C -> B x T x D\n        attn = self.proj_attn(attn.transpose(1, 2))\n\n        if decoder_h is None:\n            decoder_h = encoder_out.new_zeros(bsz, self.decoder_dim)\n        dec_h = self.proj_dec(decoder_h).view(bsz, 1, self.attn_dim)\n\n        out = self.proj_out(attn + self.proj_enc_out + dec_h).squeeze(2)\n        out.masked_fill_(encoder_padding_mask, -float(\"inf\"))\n\n        w = F.softmax(self.scaling * out, dim=1)\n        c = torch.sum(encoder_out * w.view(bsz, seq_len, 1), dim=1)\n        return c, w\n"
  },
  {
    "path": "fairseq/modules/lstm_cell_with_zoneout.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch.nn as nn\n\n\nclass LSTMCellWithZoneOut(nn.Module):\n    \"\"\"\n    Zoneout: Regularizing RNNs by Randomly Preserving Hidden Activations\n    https://arxiv.org/abs/1606.01305\n    \"\"\"\n\n    def __init__(\n        self, prob: float, input_size: int, hidden_size: int, bias: bool = True\n    ):\n        super(LSTMCellWithZoneOut, self).__init__()\n        self.lstm_cell = nn.LSTMCell(input_size, hidden_size, bias=bias)\n        self.prob = prob\n        if prob > 1.0 or prob < 0.0:\n            raise ValueError(\n                \"zoneout probability must be in the range from \" \"0.0 to 1.0.\"\n            )\n\n    def zoneout(self, h, next_h, prob):\n        if isinstance(h, tuple):\n            return tuple([self.zoneout(h[i], next_h[i], prob) for i in range(len(h))])\n\n        if self.training:\n            mask = h.new_zeros(*h.size()).bernoulli_(prob)\n            return mask * h + (1 - mask) * next_h\n\n        return prob * h + (1 - prob) * next_h\n\n    def forward(self, x, h):\n        return self.zoneout(h, self.lstm_cell(x, h), self.prob)\n"
  },
  {
    "path": "fairseq/modules/multihead_attention.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom typing import Dict, List, Optional, Tuple\n\nimport torch\nimport torch.nn.functional as F\nfrom torch import Tensor, nn\nfrom torch.nn import Parameter\n\ntry:\n    from xformers.components.attention import build_attention\n    from xformers.components.attention.utils import maybe_merge_masks\n\n    _xformers_available = True\nexcept ImportError:\n    _xformers_available = False\n\nfrom fairseq import utils\nfrom fairseq.modules.fairseq_dropout import FairseqDropout\nfrom fairseq.modules.quant_noise import quant_noise\nfrom fairseq.models.fairseq_incremental_decoder import FairseqIncrementalDecoder\n\n\n# TODO: move this into xformers?\n# TODO: uint8 input type should just output a bool\ndef _mask_for_xformers(mask: Tensor, to_dtype: Optional[torch.dtype] = None):\n    \"\"\"\n    call to pytorch multihead accepts three mask types:\n        - ByteTensor where non-zero means to mask\n        - FloatTensor which is an additive mask\n        - BoolTensor where True means to mask\n    xFormers currently accepts boolean and additive maks. For boolean masks\n    the values have opposite meaning. For a BoolTensor True mean to keep the value.\n    \"\"\"\n    float_types = [torch.float, torch.float16]\n    # If an input mask is a float it is an additive mask. Otherwise it is either uint8 or bool.\n    additive = mask.dtype in float_types\n    # If to_dype is not specified, keep same dtype as mask.\n    to_dtype = mask.dtype if to_dtype is None else to_dtype\n    to_additive = to_dtype in float_types\n\n    if additive:\n        if to_additive:\n            return mask.to(to_dtype)\n        mask = mask < 0\n\n    if to_additive:\n        # return additive mask\n        new_mask = torch.zeros_like(mask, dtype=to_dtype)\n        new_mask = new_mask.masked_fill_(mask, -float(\"inf\"))\n        return new_mask\n\n    # In xFormers True is value to keep rather than value to mask\n    mask = ~mask.to(torch.bool)\n    mask = mask.to(to_dtype)\n    return mask\n\n\nclass MultiheadAttention(FairseqIncrementalDecoder):\n    \"\"\"Multi-headed attention.\n\n    See \"Attention Is All You Need\" for more details.\n    \"\"\"\n\n    def __init__(\n        self,\n        embed_dim,\n        num_heads,\n        kdim=None,\n        vdim=None,\n        dropout=0.0,\n        bias=True,\n        add_bias_kv=False,\n        add_zero_attn=False,\n        self_attention=False,\n        encoder_decoder_attention=False,\n        dictionary=None,\n        q_noise=0.0,\n        qn_block_size=8,\n        # TODO: pass in config rather than string.\n        # config defined in xformers.components.attention.AttentionConfig\n        xformers_att_config: Optional[str] = None,\n        xformers_blocksparse_layout: Optional[\n            torch.Tensor\n        ] = None,  # This should be part of the config\n        xformers_blocksparse_blocksize: Optional[\n            int\n        ] = 16,  # This should be part of the config\n    ):\n        super().__init__(dictionary)\n\n        xformers_att_config = utils.eval_str_dict(xformers_att_config)\n        self.use_xformers = xformers_att_config is not None\n        if self.use_xformers and not _xformers_available:\n            raise ImportError(\"\\n\\n  Please install xFormers.\")\n        self.embed_dim = embed_dim\n        self.kdim = kdim if kdim is not None else embed_dim\n        self.vdim = vdim if vdim is not None else embed_dim\n        self.qkv_same_dim = self.kdim == embed_dim and self.vdim == embed_dim\n\n        self.num_heads = num_heads\n        self.dropout_module = FairseqDropout(\n            dropout, module_name=self.__class__.__name__\n        )\n\n        self.head_dim = embed_dim // num_heads\n        assert (\n            self.head_dim * num_heads == self.embed_dim\n        ), \"embed_dim must be divisible by num_heads\"\n        self.scaling = self.head_dim**-0.5\n\n        self.self_attention = self_attention\n        self.encoder_decoder_attention = encoder_decoder_attention\n\n        assert not self.self_attention or self.qkv_same_dim, (\n            \"Self-attention requires query, key and \" \"value to be of the same size\"\n        )\n\n        self.k_proj = quant_noise(\n            nn.Linear(self.kdim, embed_dim, bias=bias), q_noise, qn_block_size\n        )\n        self.v_proj = quant_noise(\n            nn.Linear(self.vdim, embed_dim, bias=bias), q_noise, qn_block_size\n        )\n        self.q_proj = quant_noise(\n            nn.Linear(embed_dim, embed_dim, bias=bias), q_noise, qn_block_size\n        )\n\n        self.out_proj = quant_noise(\n            nn.Linear(embed_dim, embed_dim, bias=bias), q_noise, qn_block_size\n        )\n\n        if add_bias_kv:\n            self.bias_k = Parameter(torch.Tensor(1, 1, embed_dim))\n            self.bias_v = Parameter(torch.Tensor(1, 1, embed_dim))\n        else:\n            self.bias_k = self.bias_v = None\n\n        self.add_zero_attn = add_zero_attn\n        self.beam_size = 1\n        self.reset_parameters()\n\n        if self.use_xformers:\n            xformers_att_config[\"dropout\"] = xformers_att_config.get(\"dropout\", dropout)\n            xformers_att_config[\"num_heads\"] = xformers_att_config.get(\n                \"num_heads\", num_heads\n            )\n\n            if xformers_blocksparse_layout is not None:\n                # Could be part of a single config passed only once\n                xformers_att_config[\"block_size\"] = xformers_blocksparse_blocksize\n                xformers_att_config[\"layout\"] = xformers_blocksparse_layout\n                xformers_att_config[\"name\"] = \"blocksparse\"\n\n            self.attention = build_attention(xformers_att_config)\n\n        self.onnx_trace = False\n        self.skip_embed_dim_check = False\n        self.init_incremental_state()\n\n    def prepare_for_onnx_export_(self):\n        self.onnx_trace = True\n\n    def reset_parameters(self):\n        if self.qkv_same_dim:\n            # Empirically observed the convergence to be much better with\n            # the scaled initialization\n            nn.init.xavier_uniform_(self.k_proj.weight, gain=1 / math.sqrt(2))\n            nn.init.xavier_uniform_(self.v_proj.weight, gain=1 / math.sqrt(2))\n            nn.init.xavier_uniform_(self.q_proj.weight, gain=1 / math.sqrt(2))\n        else:\n            nn.init.xavier_uniform_(self.k_proj.weight)\n            nn.init.xavier_uniform_(self.v_proj.weight)\n            nn.init.xavier_uniform_(self.q_proj.weight)\n\n        nn.init.xavier_uniform_(self.out_proj.weight)\n        if self.out_proj.bias is not None:\n            nn.init.constant_(self.out_proj.bias, 0.0)\n        if self.bias_k is not None:\n            nn.init.xavier_normal_(self.bias_k)\n        if self.bias_v is not None:\n            nn.init.xavier_normal_(self.bias_v)\n\n    def _get_reserve_head_index(self, num_heads_to_keep: int):\n        k_proj_heads_norm = []\n        q_proj_heads_norm = []\n        v_proj_heads_norm = []\n\n        for i in range(self.num_heads):\n            start_idx = i * self.head_dim\n            end_idx = (i + 1) * self.head_dim\n            k_proj_heads_norm.append(\n                torch.sum(\n                    torch.abs(\n                        self.k_proj.weight[\n                            start_idx:end_idx,\n                        ]\n                    )\n                ).tolist()\n                + torch.sum(torch.abs(self.k_proj.bias[start_idx:end_idx])).tolist()\n            )\n            q_proj_heads_norm.append(\n                torch.sum(\n                    torch.abs(\n                        self.q_proj.weight[\n                            start_idx:end_idx,\n                        ]\n                    )\n                ).tolist()\n                + torch.sum(torch.abs(self.q_proj.bias[start_idx:end_idx])).tolist()\n            )\n            v_proj_heads_norm.append(\n                torch.sum(\n                    torch.abs(\n                        self.v_proj.weight[\n                            start_idx:end_idx,\n                        ]\n                    )\n                ).tolist()\n                + torch.sum(torch.abs(self.v_proj.bias[start_idx:end_idx])).tolist()\n            )\n\n        heads_norm = []\n        for i in range(self.num_heads):\n            heads_norm.append(\n                k_proj_heads_norm[i] + q_proj_heads_norm[i] + v_proj_heads_norm[i]\n            )\n\n        sorted_head_index = sorted(\n            range(self.num_heads), key=lambda k: heads_norm[k], reverse=True\n        )\n        reserve_head_index = []\n        for i in range(num_heads_to_keep):\n            start = sorted_head_index[i] * self.head_dim\n            end = (sorted_head_index[i] + 1) * self.head_dim\n            reserve_head_index.append((start, end))\n        return reserve_head_index\n\n    def _adaptive_prune_heads(self, reserve_head_index: List[Tuple[int, int]]):\n        new_q_weight = []\n        new_q_bias = []\n        new_k_weight = []\n        new_k_bias = []\n        new_v_weight = []\n        new_v_bias = []\n        new_out_proj_weight = []\n\n        for ele in reserve_head_index:\n            start_idx, end_idx = ele\n            new_q_weight.append(\n                self.q_proj.weight[\n                    start_idx:end_idx,\n                ]\n            )\n            new_q_bias.append(self.q_proj.bias[start_idx:end_idx])\n\n            new_k_weight.append(\n                self.k_proj.weight[\n                    start_idx:end_idx,\n                ]\n            )\n\n            new_k_bias.append(self.k_proj.bias[start_idx:end_idx])\n\n            new_v_weight.append(\n                self.v_proj.weight[\n                    start_idx:end_idx,\n                ]\n            )\n            new_v_bias.append(self.v_proj.bias[start_idx:end_idx])\n\n            new_out_proj_weight.append(self.out_proj.weight[:, start_idx:end_idx])\n\n        new_q_weight = torch.cat(new_q_weight).detach()\n        new_k_weight = torch.cat(new_k_weight).detach()\n        new_v_weight = torch.cat(new_v_weight).detach()\n        new_out_proj_weight = torch.cat(new_out_proj_weight, dim=-1).detach()\n        new_q_weight.requires_grad = True\n        new_k_weight.requires_grad = True\n        new_v_weight.requires_grad = True\n        new_out_proj_weight.requires_grad = True\n\n        new_q_bias = torch.cat(new_q_bias).detach()\n        new_q_bias.requires_grad = True\n\n        new_k_bias = torch.cat(new_k_bias).detach()\n        new_k_bias.requires_grad = True\n\n        new_v_bias = torch.cat(new_v_bias).detach()\n        new_v_bias.requires_grad = True\n\n        self.q_proj.weight = torch.nn.Parameter(new_q_weight)\n        self.q_proj.bias = torch.nn.Parameter(new_q_bias)\n\n        self.k_proj.weight = torch.nn.Parameter(new_k_weight)\n        self.k_proj.bias = torch.nn.Parameter(new_k_bias)\n\n        self.v_proj.weight = torch.nn.Parameter(new_v_weight)\n        self.v_proj.bias = torch.nn.Parameter(new_v_bias)\n\n        self.out_proj.weight = torch.nn.Parameter(new_out_proj_weight)\n\n        self.num_heads = len(reserve_head_index)\n        self.embed_dim = self.head_dim * self.num_heads\n        self.q_proj.out_features = self.embed_dim\n        self.k_proj.out_features = self.embed_dim\n        self.v_proj.out_features = self.embed_dim\n\n    def _set_skip_embed_dim_check(self):\n        self.skip_embed_dim_check = True\n\n    def _pad_masks(\n        self,\n        key_padding_mask: Optional[Tensor],\n        attn_mask: Optional[Tensor],\n    ) -> Tuple[Optional[Tensor], Optional[Tensor]]:\n        if attn_mask is not None:\n            shape = attn_mask.size()[:-1] + torch.Size([1])\n            attn_mask = torch.cat([attn_mask, attn_mask.new_zeros(shape)], dim=-1)\n        if key_padding_mask is not None:\n            shape = key_padding_mask.size()[:-1] + torch.Size([1])\n            key_padding_mask = torch.cat(\n                [\n                    key_padding_mask,\n                    key_padding_mask.new_zeros(shape),\n                ],\n                dim=-1,\n            )\n        return key_padding_mask, attn_mask\n\n    def _add_bias(\n        self,\n        k: Tensor,\n        v: Tensor,\n        key_padding_mask: Optional[Tensor],\n        attn_mask: Optional[Tensor],\n        bsz: int,\n    ) -> Tuple[Tensor, Tensor, Optional[Tensor], Optional[Tensor]]:\n        assert self.bias_k is not None\n        assert self.bias_v is not None\n        k = torch.cat([k, self.bias_k.repeat(1, bsz, 1)])\n        v = torch.cat([v, self.bias_v.repeat(1, bsz, 1)])\n        key_padding_mask, attn_mask = self._pad_masks(\n            key_padding_mask=key_padding_mask, attn_mask=attn_mask\n        )\n        return k, v, key_padding_mask, attn_mask\n\n    def _append_zero_attn(\n        self,\n        k: Tensor,\n        v: Tensor,\n        key_padding_mask: Optional[Tensor],\n        attn_mask: Optional[Tensor],\n    ) -> Tuple[Tensor, Tensor, Optional[Tensor], Optional[Tensor]]:\n        zero_attn_shape = k.size()[:-2] + torch.Size([1]) + k.size()[-1:]\n        k = torch.cat(\n            [k, torch.zeros(zero_attn_shape, dtype=k.dtype, device=k.device)], dim=-2\n        )\n        v = torch.cat(\n            [v, torch.zeros(zero_attn_shape, dtype=v.dtype, device=v.device)], dim=-2\n        )\n        key_padding_mask, attn_mask = self._pad_masks(\n            key_padding_mask=key_padding_mask, attn_mask=attn_mask\n        )\n        return k, v, key_padding_mask, attn_mask\n\n    def _xformers_attn_forward(\n        self,\n        query,\n        key: Optional[Tensor],\n        value: Optional[Tensor],\n        key_padding_mask: Optional[Tensor] = None,\n        need_weights: bool = True,\n        attn_mask: Optional[Tensor] = None,\n    ) -> Tuple[Tensor, Optional[Tensor]]:\n\n        tgt_len, bsz, embed_dim = query.size()\n\n        if key_padding_mask is not None:\n            assert key_padding_mask.size(0) == bsz\n            assert key_padding_mask.size(1) == tgt_len\n\n        if self.self_attention:\n            key = query\n            value = query\n        elif self.encoder_decoder_attention:\n            value = key\n\n        q = self.q_proj(query)\n        k = self.k_proj(key)\n        v = self.v_proj(value)\n\n        if self.bias_k is not None:\n            assert self.bias_v is not None\n            k, v, attn_mask, key_padding_mask = self._add_bias(\n                k, v, attn_mask, key_padding_mask, bsz\n            )\n\n        def fold_heads(x):\n            return (\n                x.contiguous()\n                .view(-1, bsz * self.num_heads, self.head_dim)\n                .transpose(0, 1)\n            )\n\n        def split_heads(x):\n            return (\n                x.contiguous()\n                .view(-1, bsz, self.num_heads, self.head_dim)\n                .transpose(0, 1)\n                .transpose(1, 2)\n            )\n\n        massage = split_heads if self.attention.requires_head_dimension else fold_heads\n        q = massage(q)\n        if k is not None:\n            k = massage(k)\n        if v is not None:\n            v = massage(v)\n\n        if self.add_zero_attn:\n            k, v, key_padding_mask, attn_mask = self._append_zero_attn(\n                k=k, v=v, key_padding_mask=key_padding_mask, attn_mask=attn_mask\n            )\n\n        kwargs = {}\n\n        if attn_mask is not None and self.attention.supports_attention_mask:\n            attn_mask = _mask_for_xformers(attn_mask, to_dtype=q.dtype)\n            kwargs[\"att_mask\"] = attn_mask\n\n        if key_padding_mask is not None:\n            key_padding_mask = _mask_for_xformers(key_padding_mask, to_dtype=torch.bool)\n            if not self.attention.requires_separate_masks:\n                attn_mask = maybe_merge_masks(\n                    attn_mask,\n                    key_padding_mask,\n                    batch_size=bsz,\n                    src_len=k.size(-2),\n                    tgt_len=q.size(-2),\n                    num_heads=self.num_heads,\n                )\n                key_padding_mask = None\n                kwargs[\"att_mask\"] = attn_mask\n            if self.attention.supports_key_padding_mask:\n                kwargs[\"key_padding_mask\"] = key_padding_mask\n\n        y = self.attention(q, k, v, **kwargs)\n\n        y = (\n            y.view(bsz, self.num_heads, tgt_len, self.head_dim)\n            .transpose(1, 2)\n            .flatten(start_dim=2, end_dim=3)\n            .transpose(0, 1)\n        )\n        assert list(y.size()) == [tgt_len, bsz, embed_dim]\n\n        # Dropout not needed because already applied in attention.\n        # It is applied to the attention weights before matmul with v.\n        y = self.out_proj(y)\n\n        # TODO: support returning attention weights if needed.\n        return y, None\n\n    def forward(\n        self,\n        query: Tensor,\n        key: Optional[Tensor],\n        value: Optional[Tensor],\n        key_padding_mask: Optional[Tensor] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        need_weights: bool = True,\n        static_kv: bool = False,\n        attn_mask: Optional[Tensor] = None,\n        before_softmax: bool = False,\n        need_head_weights: bool = False,\n    ) -> Tuple[Tensor, Optional[Tensor]]:\n        \"\"\"Input shape: Time x Batch x Channel\n\n        Args:\n            key_padding_mask (ByteTensor, optional): mask to exclude\n                keys that are pads, of shape `(batch, src_len)`, where\n                padding elements are indicated by 1s.\n            need_weights (bool, optional): return the attention weights,\n                averaged over heads (default: False).\n            attn_mask (ByteTensor, optional): typically used to\n                implement causal attention, where the mask prevents the\n                attention from looking forward in time (default: None).\n            before_softmax (bool, optional): return the raw attention\n                weights and values before the attention softmax.\n            need_head_weights (bool, optional): return the attention\n                weights for each head. Implies *need_weights*. Default:\n                return the average attention weights over all heads.\n        \"\"\"\n        if need_head_weights:\n            need_weights = True\n\n        is_tpu = query.device.type == \"xla\"\n\n        tgt_len, bsz, embed_dim = query.size()\n        src_len = tgt_len\n        if not self.skip_embed_dim_check:\n            assert (\n                embed_dim == self.embed_dim\n            ), f\"query dim {embed_dim} != {self.embed_dim}\"\n        assert list(query.size()) == [tgt_len, bsz, embed_dim]\n        if key is not None:\n            src_len, key_bsz, _ = key.size()\n            if not torch.jit.is_scripting():\n                assert value is not None\n                assert src_len, key_bsz == value.shape[:2]\n\n        if (\n            not self.onnx_trace\n            and not is_tpu  # don't use PyTorch version on TPUs\n            and incremental_state is None\n            and not static_kv\n            # A workaround for quantization to work. Otherwise JIT compilation\n            # treats bias in linear module as method.\n            and not torch.jit.is_scripting()\n            # The Multihead attention implemented in pytorch forces strong dimension check\n            # for input embedding dimention and K,Q,V projection dimension.\n            # Since pruning will break the dimension check and it is not easy to modify the pytorch API,\n            # it is preferred to bypass the pytorch MHA when we need to skip embed_dim_check\n            and not self.skip_embed_dim_check\n        ):\n            assert key is not None and value is not None\n\n            if self.use_xformers:\n                return self._xformers_attn_forward(\n                    query, key, value, key_padding_mask, need_weights, attn_mask\n                )\n\n            else:\n                return F.multi_head_attention_forward(\n                    query,\n                    key,\n                    value,\n                    self.embed_dim,\n                    self.num_heads,\n                    torch.empty([0]),\n                    torch.cat((self.q_proj.bias, self.k_proj.bias, self.v_proj.bias)),\n                    self.bias_k,\n                    self.bias_v,\n                    self.add_zero_attn,\n                    self.dropout_module.p,\n                    self.out_proj.weight,\n                    self.out_proj.bias,\n                    self.training or self.dropout_module.apply_during_inference,\n                    key_padding_mask.bool() if key_padding_mask is not None else None,\n                    need_weights,\n                    attn_mask,\n                    use_separate_proj_weight=True,\n                    q_proj_weight=self.q_proj.weight,\n                    k_proj_weight=self.k_proj.weight,\n                    v_proj_weight=self.v_proj.weight,\n                )\n\n        if incremental_state is not None:\n            saved_state = self._get_input_buffer(incremental_state)\n            if saved_state is not None and \"prev_key\" in saved_state:\n                # previous time steps are cached - no need to recompute\n                # key and value if they are static\n                if static_kv:\n                    assert self.encoder_decoder_attention and not self.self_attention\n                    key = value = None\n        else:\n            saved_state = None\n\n        if self.self_attention:\n            q = self.q_proj(query)\n            k = self.k_proj(query)\n            v = self.v_proj(query)\n        elif self.encoder_decoder_attention:\n            # encoder-decoder attention\n            q = self.q_proj(query)\n            if key is None:\n                assert value is None\n                k = v = None\n            else:\n                if self.beam_size > 1 and bsz == key.size(1):\n                    # key is [T, bsz*beam_size, C], reduce to [T, bsz, C]\n                    key = key.view(key.size(0), -1, self.beam_size, key.size(2))[\n                        :, :, 0, :\n                    ]\n                    if key_padding_mask is not None:\n                        key_padding_mask = key_padding_mask.view(\n                            -1, self.beam_size, key_padding_mask.size(1)\n                        )[:, 0, :]\n                k = self.k_proj(key)\n                v = self.v_proj(key)\n\n        else:\n            assert key is not None and value is not None\n            q = self.q_proj(query)\n            k = self.k_proj(key)\n            v = self.v_proj(value)\n        q *= self.scaling\n\n        if self.bias_k is not None:\n            assert self.bias_v is not None\n            k, v, attn_mask, key_padding_mask = self._add_bias(\n                k, v, attn_mask, key_padding_mask, bsz\n            )\n\n        q = (\n            q.contiguous()\n            .view(tgt_len, bsz * self.num_heads, self.head_dim)\n            .transpose(0, 1)\n        )\n        kv_bsz = bsz  # need default value for scripting\n        if k is not None:\n            kv_bsz = k.size(1)\n            k = (\n                k.contiguous()\n                .view(-1, kv_bsz * self.num_heads, self.head_dim)\n                .transpose(0, 1)\n            )\n        if v is not None:\n            v = (\n                v.contiguous()\n                .view(-1, kv_bsz * self.num_heads, self.head_dim)\n                .transpose(0, 1)\n            )\n\n        if saved_state is not None:\n            # saved states are stored with shape (bsz, num_heads, seq_len, head_dim)\n            if \"prev_key\" in saved_state:\n                _prev_key = saved_state[\"prev_key\"]\n                assert _prev_key is not None\n                kv_bsz = _prev_key.size(0)\n                prev_key = _prev_key.view(kv_bsz * self.num_heads, -1, self.head_dim)\n                if static_kv:\n                    k = prev_key\n                else:\n                    assert k is not None\n                    k = torch.cat([prev_key, k], dim=1)\n                src_len = k.size(1)\n            if \"prev_value\" in saved_state:\n                _prev_value = saved_state[\"prev_value\"]\n                assert _prev_value is not None\n                assert kv_bsz == _prev_value.size(0)\n                prev_value = _prev_value.view(\n                    kv_bsz * self.num_heads, -1, self.head_dim\n                )\n                if static_kv:\n                    v = prev_value\n                else:\n                    assert v is not None\n                    v = torch.cat([prev_value, v], dim=1)\n            prev_key_padding_mask: Optional[Tensor] = None\n            if \"prev_key_padding_mask\" in saved_state:\n                prev_key_padding_mask = saved_state[\"prev_key_padding_mask\"]\n            assert k is not None and v is not None\n            key_padding_mask = MultiheadAttention._append_prev_key_padding_mask(\n                key_padding_mask=key_padding_mask,\n                prev_key_padding_mask=prev_key_padding_mask,\n                batch_size=kv_bsz,\n                src_len=k.size(1),\n                static_kv=static_kv,\n            )\n\n            saved_state[\"prev_key\"] = k.view(kv_bsz, self.num_heads, -1, self.head_dim)\n            saved_state[\"prev_value\"] = v.view(\n                kv_bsz, self.num_heads, -1, self.head_dim\n            )\n            saved_state[\"prev_key_padding_mask\"] = key_padding_mask\n            # In this branch incremental_state is never None\n            assert incremental_state is not None\n            incremental_state = self._set_input_buffer(incremental_state, saved_state)\n        assert k is not None\n        assert k.size(1) == src_len\n\n        # This is part of a workaround to get around fork/join parallelism\n        # not supporting Optional types.\n        if key_padding_mask is not None and key_padding_mask.dim() == 0:\n            key_padding_mask = None\n\n        if key_padding_mask is not None:\n            assert key_padding_mask.size(0) == kv_bsz\n            assert key_padding_mask.size(1) == src_len\n\n        if self.add_zero_attn:\n            assert v is not None\n            src_len += 1\n            k, v, key_padding_mask, attn_mask = self._append_zero_attn(\n                k=k, v=v, key_padding_mask=key_padding_mask, attn_mask=attn_mask\n            )\n\n        if self.encoder_decoder_attention and bsz != kv_bsz:\n            attn_weights = torch.einsum(\n                \"bxhtd,bhsd->bxhts\",\n                q.view((kv_bsz, -1, self.num_heads) + q.size()[1:]),\n                k.view((kv_bsz, self.num_heads) + k.size()[1:]),\n            )\n            attn_weights = attn_weights.reshape((-1,) + attn_weights.size()[-2:])\n        else:\n            attn_weights = torch.bmm(q, k.transpose(1, 2))\n        attn_weights = self.apply_sparse_mask(attn_weights, tgt_len, src_len, bsz)\n\n        assert list(attn_weights.size()) == [bsz * self.num_heads, tgt_len, src_len]\n\n        if attn_mask is not None:\n            attn_mask = attn_mask.unsqueeze(0)\n            if self.onnx_trace:\n                attn_mask = attn_mask.repeat(attn_weights.size(0), 1, 1)\n            attn_weights += attn_mask\n\n        if key_padding_mask is not None:\n            # don't attend to padding symbols\n            attn_weights = attn_weights.view(bsz, self.num_heads, tgt_len, src_len)\n            if not is_tpu:\n                attn_weights = attn_weights.view(\n                    kv_bsz, -1, self.num_heads, tgt_len, src_len\n                )\n                attn_weights = attn_weights.masked_fill(\n                    key_padding_mask.unsqueeze(1)\n                    .unsqueeze(2)\n                    .unsqueeze(3)\n                    .to(torch.bool),\n                    float(\"-inf\"),\n                )\n            else:\n                attn_weights = attn_weights.transpose(0, 2)\n                attn_weights = attn_weights.masked_fill(key_padding_mask, float(\"-inf\"))\n                attn_weights = attn_weights.transpose(0, 2)\n            attn_weights = attn_weights.view(bsz * self.num_heads, tgt_len, src_len)\n\n        if before_softmax:\n            return attn_weights, v\n\n        attn_weights_float = utils.softmax(\n            attn_weights, dim=-1, onnx_trace=self.onnx_trace\n        )\n        attn_weights = attn_weights_float.type_as(attn_weights)\n        attn_probs = self.dropout_module(attn_weights)\n\n        assert v is not None\n        attn: Optional[Tensor] = None\n        if self.encoder_decoder_attention and bsz != kv_bsz:\n            attn = torch.einsum(\n                \"bxhts,bhsd->bxhtd\",\n                attn_probs.view(\n                    (\n                        kv_bsz,\n                        -1,\n                        self.num_heads,\n                    )\n                    + attn_probs.size()[1:]\n                ),\n                v.view(\n                    (\n                        kv_bsz,\n                        self.num_heads,\n                    )\n                    + v.size()[1:]\n                ),\n            )\n            attn = attn.reshape((-1,) + attn.size()[-2:])\n        else:\n            attn = torch.bmm(attn_probs, v)\n        assert list(attn.size()) == [bsz * self.num_heads, tgt_len, self.head_dim]\n        if self.onnx_trace and attn.size(1) == 1:\n            # when ONNX tracing a single decoder step (sequence length == 1)\n            # the transpose is a no-op copy before view, thus unnecessary\n            attn = attn.contiguous().view(tgt_len, bsz, self.embed_dim)\n        else:\n            attn = attn.transpose(0, 1).contiguous().view(tgt_len, bsz, self.embed_dim)\n        attn = self.out_proj(attn)\n        attn_weights: Optional[Tensor] = None\n        if need_weights:\n            attn_weights = attn_weights_float.view(\n                bsz, self.num_heads, tgt_len, src_len\n            ).transpose(1, 0)\n            if not need_head_weights:\n                # average attention weights over heads\n                attn_weights = attn_weights.mean(dim=0)\n\n        return attn, attn_weights\n\n    @staticmethod\n    def _append_prev_key_padding_mask(\n        key_padding_mask: Optional[Tensor],\n        prev_key_padding_mask: Optional[Tensor],\n        batch_size: int,\n        src_len: int,\n        static_kv: bool,\n    ) -> Optional[Tensor]:\n        # saved key padding masks have shape (bsz, seq_len)\n        if prev_key_padding_mask is not None and static_kv:\n            new_key_padding_mask = prev_key_padding_mask\n        elif prev_key_padding_mask is not None and key_padding_mask is not None:\n            new_key_padding_mask = torch.cat(\n                [prev_key_padding_mask.float(), key_padding_mask.float()], dim=1\n            )\n        # During incremental decoding, as the padding token enters and\n        # leaves the frame, there will be a time when prev or current\n        # is None\n        elif prev_key_padding_mask is not None:\n            if src_len > prev_key_padding_mask.size(1):\n                filler = torch.zeros(\n                    (batch_size, src_len - prev_key_padding_mask.size(1)),\n                    device=prev_key_padding_mask.device,\n                )\n                new_key_padding_mask = torch.cat(\n                    [prev_key_padding_mask.float(), filler.float()], dim=1\n                )\n            else:\n                new_key_padding_mask = prev_key_padding_mask.float()\n        elif key_padding_mask is not None:\n            if src_len > key_padding_mask.size(1):\n                filler = torch.zeros(\n                    (batch_size, src_len - key_padding_mask.size(1)),\n                    device=key_padding_mask.device,\n                )\n                new_key_padding_mask = torch.cat(\n                    [filler.float(), key_padding_mask.float()], dim=1\n                )\n            else:\n                new_key_padding_mask = key_padding_mask.float()\n        else:\n            new_key_padding_mask = prev_key_padding_mask\n        return new_key_padding_mask\n\n    @torch.jit.export\n    def reorder_incremental_state(\n        self,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]],\n        new_order: Tensor,\n    ):\n        \"\"\"Reorder buffered internal state (for incremental generation).\"\"\"\n        input_buffer = self._get_input_buffer(incremental_state)\n        if input_buffer is not None:\n            for k in input_buffer.keys():\n                input_buffer_k = input_buffer[k]\n                if input_buffer_k is not None:\n                    if self.encoder_decoder_attention:\n                        if input_buffer_k.size(0) * self.beam_size == new_order.size(0):\n                            return incremental_state\n                        elif self.beam_size > 1:\n                            input_buffer[k] = input_buffer_k.index_select(\n                                0,\n                                new_order.reshape(-1, self.beam_size)[:, 0]\n                                // self.beam_size,\n                            )\n                        else:\n                            input_buffer[k] = input_buffer_k.index_select(0, new_order)\n                    else:\n                        input_buffer[k] = input_buffer_k.index_select(0, new_order)\n            incremental_state = self._set_input_buffer(incremental_state, input_buffer)\n        return incremental_state\n\n    def set_beam_size(self, beam_size):\n        \"\"\"Used for effiecient beamable enc-dec attention\"\"\"\n        self.beam_size = beam_size\n\n    def _get_input_buffer(\n        self, incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]]\n    ) -> Dict[str, Optional[Tensor]]:\n        result = self.get_incremental_state(incremental_state, \"attn_state\")\n        if result is not None:\n            return result\n        else:\n            empty_result: Dict[str, Optional[Tensor]] = {}\n            return empty_result\n\n    def _set_input_buffer(\n        self,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]],\n        buffer: Dict[str, Optional[Tensor]],\n    ):\n        return self.set_incremental_state(incremental_state, \"attn_state\", buffer)\n\n    def apply_sparse_mask(self, attn_weights, tgt_len: int, src_len: int, bsz: int):\n        return attn_weights\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        prefix = name + \".\" if name != \"\" else \"\"\n        items_to_add = {}\n        keys_to_remove = []\n        for k in state_dict.keys():\n            if k.endswith(prefix + \"in_proj_weight\"):\n                # in_proj_weight used to be q + k + v with same dimensions\n                dim = int(state_dict[k].shape[0] / 3)\n                items_to_add[prefix + \"q_proj.weight\"] = state_dict[k][:dim]\n                items_to_add[prefix + \"k_proj.weight\"] = state_dict[k][dim : 2 * dim]\n                items_to_add[prefix + \"v_proj.weight\"] = state_dict[k][2 * dim :]\n\n                keys_to_remove.append(k)\n\n                k_bias = prefix + \"in_proj_bias\"\n                if k_bias in state_dict.keys():\n                    dim = int(state_dict[k].shape[0] / 3)\n                    items_to_add[prefix + \"q_proj.bias\"] = state_dict[k_bias][:dim]\n                    items_to_add[prefix + \"k_proj.bias\"] = state_dict[k_bias][\n                        dim : 2 * dim\n                    ]\n                    items_to_add[prefix + \"v_proj.bias\"] = state_dict[k_bias][2 * dim :]\n\n                    keys_to_remove.append(prefix + \"in_proj_bias\")\n\n        for k in keys_to_remove:\n            del state_dict[k]\n\n        for key, value in items_to_add.items():\n            state_dict[key] = value\n"
  },
  {
    "path": "fairseq/modules/positional_embedding.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch.nn as nn\n\nfrom .learned_positional_embedding import LearnedPositionalEmbedding\nfrom .sinusoidal_positional_embedding import SinusoidalPositionalEmbedding\n\n\ndef PositionalEmbedding(\n    num_embeddings: int,\n    embedding_dim: int,\n    padding_idx: int,\n    learned: bool = False,\n    auto_expand: bool = True,\n):\n    if learned:\n        # if padding_idx is specified then offset the embedding ids by\n        # this index and adjust num_embeddings appropriately\n        # TODO: The right place for this offset would be inside\n        # LearnedPositionalEmbedding. Move this there for a cleaner implementation.\n        if padding_idx is not None:\n            num_embeddings = num_embeddings + padding_idx + 1\n        m = LearnedPositionalEmbedding(num_embeddings, embedding_dim, padding_idx)\n        nn.init.normal_(m.weight, mean=0, std=embedding_dim**-0.5)\n        if padding_idx is not None:\n            nn.init.constant_(m.weight[padding_idx], 0)\n    else:\n        m = SinusoidalPositionalEmbedding(\n            embedding_dim,\n            padding_idx,\n            init_size=num_embeddings + padding_idx + 1,\n            auto_expand=auto_expand,\n        )\n    return m\n"
  },
  {
    "path": "fairseq/modules/positional_encoding.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch.nn as nn\nimport math\nimport torch\n\n\nclass PositionalEncoding(nn.Module):\n    \"\"\"Positional encoding.\n\n    Args:\n        d_model: Embedding dimension.\n        dropout_rate: Dropout rate.\n        max_len: Maximum input length.\n        reverse: Whether to reverse the input position.\n    \"\"\"\n\n    def __init__(self, d_model, dropout_rate, max_len=5000, reverse=False):\n        \"\"\"Construct an PositionalEncoding object.\"\"\"\n        super(PositionalEncoding, self).__init__()\n        self.d_model = d_model\n        self.reverse = reverse\n        self.xscale = math.sqrt(self.d_model)\n        self.dropout = nn.Dropout(p=dropout_rate)\n        self.pe = None\n        self.extend_pe(torch.tensor(0.0).expand(1, max_len))\n\n    def extend_pe(self, x):\n        \"\"\"Reset the positional encodings.\"\"\"\n        if self.pe is not None:\n            if self.pe.size(1) >= x.size(1):\n                if self.pe.dtype != x.dtype or self.pe.device != x.device:\n                    self.pe = self.pe.to(dtype=x.dtype, device=x.device)\n                return\n        pe = torch.zeros(x.size(1), self.d_model)\n        if self.reverse:\n            position = torch.arange(\n                x.size(1) - 1, -1, -1.0, dtype=torch.float32\n            ).unsqueeze(1)\n        else:\n            position = torch.arange(0, x.size(1), dtype=torch.float32).unsqueeze(1)\n        div_term = torch.exp(\n            torch.arange(0, self.d_model, 2, dtype=torch.float32)\n            * -(math.log(10000.0) / self.d_model)\n        )\n        pe[:, 0::2] = torch.sin(position * div_term)\n        pe[:, 1::2] = torch.cos(position * div_term)\n        pe = pe.unsqueeze(0)\n        self.pe = pe.to(device=x.device, dtype=x.dtype)\n\n    def forward(self, x: torch.Tensor):\n        \"\"\"Add positional encoding.\n        Args:\n            x (torch.Tensor): Input tensor B X T X C\n        Returns:\n            torch.Tensor: Encoded tensor B X T X C\n        \"\"\"\n        self.extend_pe(x)\n        x = x * self.xscale + self.pe[:, : x.size(1)]\n        return self.dropout(x)\n\n\nclass RelPositionalEncoding(nn.Module):\n    \"\"\"Relative positional encoding module (new implementation).\n\n    Args:\n        d_model: Embedding dimension.\n        dropout_rate: Dropout rate.\n        max_len: Maximum input length.\n    \"\"\"\n\n    def __init__(self, max_len, d_model):\n        \"\"\"Construct an PositionalEncoding object.\"\"\"\n        super(RelPositionalEncoding, self).__init__()\n        self.d_model = d_model\n        self.pe = None\n        self.extend_pe(torch.tensor(0.0).expand(1, max_len))\n\n    def extend_pe(self, x):\n        \"\"\"Reset the positional encodings.\"\"\"\n        if self.pe is not None:\n            # self.pe contains both positive and negative parts\n            # the length of self.pe is 2 * input_len - 1\n            if self.pe.size(1) >= x.size(1) * 2 - 1:\n                if self.pe.dtype != x.dtype or self.pe.device != x.device:\n                    self.pe = self.pe.to(dtype=x.dtype, device=x.device)\n                return\n        # Suppose `i` means to the position of query vecotr and `j` means the\n        # position of key vector. We use position relative positions when keys\n        # are to the left (i>j) and negative relative positions otherwise (i<j).\n        pe_positive = torch.zeros(x.size(1), self.d_model)\n        pe_negative = torch.zeros(x.size(1), self.d_model)\n        position = torch.arange(0, x.size(1), dtype=torch.float32).unsqueeze(1)\n        div_term = torch.exp(\n            torch.arange(0, self.d_model, 2, dtype=torch.float32)\n            * -(math.log(10000.0) / self.d_model)\n        )\n        pe_positive[:, 0::2] = torch.sin(position * div_term)\n        pe_positive[:, 1::2] = torch.cos(position * div_term)\n        pe_negative[:, 0::2] = torch.sin(-1 * position * div_term)\n        pe_negative[:, 1::2] = torch.cos(-1 * position * div_term)\n\n        # Reserve the order of positive indices and concat both positive and\n        # negative indices. This is used to support the shifting trick\n        # as in https://arxiv.org/abs/1901.02860\n        pe_positive = torch.flip(pe_positive, [0]).unsqueeze(0)\n        pe_negative = pe_negative[1:].unsqueeze(0)\n        pe = torch.cat([pe_positive, pe_negative], dim=1)\n        self.pe = pe.to(device=x.device, dtype=x.dtype)\n\n    def forward(self, x: torch.Tensor):\n        \"\"\"Add positional encoding.\n        Args:\n            x : Input tensor T X B X C.\n        Returns:\n            torch.Tensor: Encoded tensor T X B X C.\n\n        \"\"\"\n        x = x.transpose(0, 1)  # Change TBC to BTC\n        self.extend_pe(x)\n        pos_emb = self.pe[\n            :,\n            self.pe.size(1) // 2 - x.size(1) + 1 : self.pe.size(1) // 2 + x.size(1),\n        ]\n        pos_emb = pos_emb.transpose(0, 1)  # change to TBC\n        return pos_emb\n"
  },
  {
    "path": "fairseq/modules/quant_noise.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\n\n\ndef quant_noise(module, p, block_size):\n    \"\"\"\n    Wraps modules and applies quantization noise to the weights for\n    subsequent quantization with Iterative Product Quantization as\n    described in \"Training with Quantization Noise for Extreme Model Compression\"\n\n    Args:\n        - module: nn.Module\n        - p: amount of Quantization Noise\n        - block_size: size of the blocks for subsequent quantization with iPQ\n\n    Remarks:\n        - Module weights must have the right sizes wrt the block size\n        - Only Linear, Embedding and Conv2d modules are supported for the moment\n        - For more detail on how to quantize by blocks with convolutional weights,\n          see \"And the Bit Goes Down: Revisiting the Quantization of Neural Networks\"\n        - We implement the simplest form of noise here as stated in the paper\n          which consists in randomly dropping blocks\n    \"\"\"\n\n    # if no quantization noise, don't register hook\n    if p <= 0:\n        return module\n\n    # supported modules\n    assert isinstance(module, (nn.Linear, nn.Embedding, nn.Conv2d))\n\n    # test whether module.weight has the right sizes wrt block_size\n    is_conv = module.weight.ndim == 4\n\n    # 2D matrix\n    if not is_conv:\n        assert (\n            module.weight.size(1) % block_size == 0\n        ), \"Input features must be a multiple of block sizes\"\n\n    # 4D matrix\n    else:\n        # 1x1 convolutions\n        if module.kernel_size == (1, 1):\n            assert (\n                module.in_channels % block_size == 0\n            ), \"Input channels must be a multiple of block sizes\"\n        # regular convolutions\n        else:\n            k = module.kernel_size[0] * module.kernel_size[1]\n            assert k % block_size == 0, \"Kernel size must be a multiple of block size\"\n\n    def _forward_pre_hook(mod, input):\n        # no noise for evaluation\n        if mod.training:\n            if not is_conv:\n                # gather weight and sizes\n                weight = mod.weight\n                in_features = weight.size(1)\n                out_features = weight.size(0)\n\n                # split weight matrix into blocks and randomly drop selected blocks\n                mask = torch.zeros(\n                    in_features // block_size * out_features, device=weight.device\n                )\n                mask.bernoulli_(p)\n                mask = mask.repeat_interleave(block_size, -1).view(-1, in_features)\n\n            else:\n                # gather weight and sizes\n                weight = mod.weight\n                in_channels = mod.in_channels\n                out_channels = mod.out_channels\n\n                # split weight matrix into blocks and randomly drop selected blocks\n                if mod.kernel_size == (1, 1):\n                    mask = torch.zeros(\n                        int(in_channels // block_size * out_channels),\n                        device=weight.device,\n                    )\n                    mask.bernoulli_(p)\n                    mask = mask.repeat_interleave(block_size, -1).view(-1, in_channels)\n                else:\n                    mask = torch.zeros(\n                        weight.size(0), weight.size(1), device=weight.device\n                    )\n                    mask.bernoulli_(p)\n                    mask = (\n                        mask.unsqueeze(2)\n                        .unsqueeze(3)\n                        .repeat(1, 1, mod.kernel_size[0], mod.kernel_size[1])\n                    )\n\n            # scale weights and apply mask\n            mask = mask.to(\n                torch.bool\n            )  # x.bool() is not currently supported in TorchScript\n            s = 1 / (1 - p)\n            mod.weight.data = s * weight.masked_fill(mask, 0)\n\n    module.register_forward_pre_hook(_forward_pre_hook)\n    return module\n"
  },
  {
    "path": "fairseq/modules/quantization/__init__.py",
    "content": ""
  },
  {
    "path": "fairseq/modules/quantization/pq/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .utils import SizeTracker, get_param, attrsetter, quantize_model_  # NOQA\n"
  },
  {
    "path": "fairseq/modules/quantization/pq/em.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport random\nfrom collections import Counter\n\nimport torch\n\n\nclass EM:\n    \"\"\"\n    EM algorithm used to quantize the columns of W to minimize\n\n                         ||W - W_hat||^2\n\n    Args:\n        - W: weight matrix of size (in_features x out_features)\n        - n_iter: number of k-means iterations\n        - n_centroids: number of centroids (size of codebook)\n        - eps: for cluster reassignment when an empty cluster is found\n        - max_tentatives for cluster reassignment when an empty cluster is found\n        - verbose: print error after each iteration\n\n    Remarks:\n        - If one cluster is empty, the most populated cluster is split into\n          two clusters\n        - All the relevant dimensions are specified in the code\n    \"\"\"\n\n    def __init__(\n        self, W, n_centroids=256, n_iter=20, eps=1e-6, max_tentatives=30, verbose=True\n    ):\n        self.W = W\n        self.n_centroids = n_centroids\n        self.n_iter = n_iter\n        self.eps = eps\n        self.max_tentatives = max_tentatives\n        self.verbose = verbose\n        self.centroids = torch.Tensor()\n        self.assignments = torch.Tensor()\n        self.objective = []\n\n    def initialize_centroids(self):\n        \"\"\"\n        Initializes the centroids by sampling random columns from W.\n        \"\"\"\n\n        in_features, out_features = self.W.size()\n        indices = torch.randint(\n            low=0, high=out_features, size=(self.n_centroids,)\n        ).long()\n        self.centroids = self.W[:, indices].t()  # (n_centroids x in_features)\n\n    def step(self, i):\n        \"\"\"\n        There are two standard steps for each iteration: expectation (E) and\n        minimization (M). The E-step (assignment) is performed with an exhaustive\n        search and the M-step (centroid computation) is performed with\n        the exact solution.\n\n        Args:\n            - i: step number\n\n        Remarks:\n            - The E-step heavily uses PyTorch broadcasting to speed up computations\n              and reduce the memory overhead\n        \"\"\"\n\n        # assignments (E-step)\n        distances = self.compute_distances()  # (n_centroids x out_features)\n        self.assignments = torch.argmin(distances, dim=0)  # (out_features)\n        n_empty_clusters = self.resolve_empty_clusters()\n\n        # centroids (M-step)\n        for k in range(self.n_centroids):\n            W_k = self.W[:, self.assignments == k]  # (in_features x size_of_cluster_k)\n            self.centroids[k] = W_k.mean(dim=1)  # (in_features)\n\n        # book-keeping\n        obj = (self.centroids[self.assignments].t() - self.W).norm(p=2).item()\n        self.objective.append(obj)\n        if self.verbose:\n            logging.info(\n                f\"Iteration: {i},\\t\"\n                f\"objective: {obj:.6f},\\t\"\n                f\"resolved empty clusters: {n_empty_clusters}\"\n            )\n\n    def resolve_empty_clusters(self):\n        \"\"\"\n        If one cluster is empty, the most populated cluster is split into\n        two clusters by shifting the respective centroids. This is done\n        iteratively for a fixed number of tentatives.\n        \"\"\"\n\n        # empty clusters\n        counts = Counter(map(lambda x: x.item(), self.assignments))\n        empty_clusters = set(range(self.n_centroids)) - set(counts.keys())\n        n_empty_clusters = len(empty_clusters)\n\n        tentatives = 0\n        while len(empty_clusters) > 0:\n            # given an empty cluster, find most populated cluster and split it into two\n            k = random.choice(list(empty_clusters))\n            m = counts.most_common(1)[0][0]\n            e = torch.randn_like(self.centroids[m]) * self.eps\n            self.centroids[k] = self.centroids[m].clone()\n            self.centroids[k] += e\n            self.centroids[m] -= e\n\n            # recompute assignments\n            distances = self.compute_distances()  # (n_centroids x out_features)\n            self.assignments = torch.argmin(distances, dim=0)  # (out_features)\n\n            # check for empty clusters\n            counts = Counter(map(lambda x: x.item(), self.assignments))\n            empty_clusters = set(range(self.n_centroids)) - set(counts.keys())\n\n            # increment tentatives\n            if tentatives == self.max_tentatives:\n                logging.info(\n                    f\"Could not resolve all empty clusters, {len(empty_clusters)} remaining\"\n                )\n                raise EmptyClusterResolveError\n            tentatives += 1\n\n        return n_empty_clusters\n\n    def compute_distances(self):\n        \"\"\"\n        For every centroid m, computes\n\n                          ||M - m[None, :]||_2\n\n        Remarks:\n            - We rely on PyTorch's broadcasting to speed up computations\n              and reduce the memory overhead\n            - Without chunking, the sizes in the broadcasting are modified as:\n              (n_centroids x n_samples x out_features) -> (n_centroids x out_features)\n            - The broadcasting computation is automatically chunked so that\n              the tensors fit into the memory of the GPU\n        \"\"\"\n\n        nb_centroids_chunks = 1\n\n        while True:\n            try:\n                return torch.cat(\n                    [\n                        (self.W[None, :, :] - centroids_c[:, :, None]).norm(p=2, dim=1)\n                        for centroids_c in self.centroids.chunk(\n                            nb_centroids_chunks, dim=0\n                        )\n                    ],\n                    dim=0,\n                )\n            except RuntimeError:\n                nb_centroids_chunks *= 2\n\n    def assign(self):\n        \"\"\"\n        Assigns each column of W to its closest centroid, thus essentially\n        performing the E-step in train().\n\n        Remarks:\n            - The function must be called after train() or after loading\n              centroids using self.load(), otherwise it will return empty tensors\n        \"\"\"\n\n        distances = self.compute_distances()  # (n_centroids x out_features)\n        self.assignments = torch.argmin(distances, dim=0)  # (out_features)\n\n    def save(self, path, layer):\n        \"\"\"\n        Saves centroids and assignments.\n\n        Args:\n            - path: folder used to save centroids and assignments\n        \"\"\"\n\n        torch.save(self.centroids, os.path.join(path, \"{}_centroids.pth\".format(layer)))\n        torch.save(\n            self.assignments, os.path.join(path, \"{}_assignments.pth\".format(layer))\n        )\n        torch.save(self.objective, os.path.join(path, \"{}_objective.pth\".format(layer)))\n\n    def load(self, path, layer):\n        \"\"\"\n        Loads centroids and assignments from a given path\n\n        Args:\n            - path: folder use to load centroids and assignments\n        \"\"\"\n\n        self.centroids = torch.load(\n            os.path.join(path, \"{}_centroids.pth\".format(layer))\n        )\n        self.assignments = torch.load(\n            os.path.join(path, \"{}_assignments.pth\".format(layer))\n        )\n        self.objective = torch.load(\n            os.path.join(path, \"{}_objective.pth\".format(layer))\n        )\n\n\nclass EmptyClusterResolveError(Exception):\n    pass\n"
  },
  {
    "path": "fairseq/modules/quantization/pq/modules/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .qconv import PQConv2d  # NOQA\nfrom .qemb import PQEmbedding  # NOQA\nfrom .qlinear import PQLinear  # NOQA\n"
  },
  {
    "path": "fairseq/modules/quantization/pq/modules/qconv.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\nfrom torch.nn.modules.utils import _pair\n\n\nclass PQConv2d(nn.Module):\n    \"\"\"\n    Quantized counterpart of nn.Conv2d module. Stores the centroid, the assignments\n    and the non-quantized biases. The full weight is re-instantiated at each forward\n    pass and autograd automatically computes the gradients with respect to the\n    centroids.\n\n    Args:\n        - centroids: centroids of size n_centroids x block_size\n        - assignments: assignments of the centroids to the subvectors\n          of size self.out_channels x n_blocks\n        - bias: the non-quantized bias, must be either torch.Tensor or None\n\n    Remarks:\n        - We refer the reader to the official documentation of the nn.Conv2d module\n          for the other arguments and the behavior of the module.\n        - Performance tests on GPU show that this implementation is 10% slower than\n          the non-quantized nn.Conv2d module for a standard training loop.\n        - During the backward, the gradients are averaged by cluster and not summed.\n          This explains the hook registered to the centroids.\n    \"\"\"\n\n    def __init__(\n        self,\n        centroids,\n        assignments,\n        bias,\n        in_channels,\n        out_channels,\n        kernel_size,\n        stride=1,\n        padding=0,\n        dilation=1,\n        groups=1,\n        padding_mode=\"zeros\",\n    ):\n        super(PQConv2d, self).__init__()\n        self.block_size = centroids.size(1)\n        self.n_centroids = centroids.size(0)\n        self.in_channels = in_channels\n        self.out_channels = out_channels\n        self.kernel_size = _pair(kernel_size)\n        self.stride = _pair(stride)\n        self.padding = _pair(padding)\n        self.dilation = _pair(dilation)\n        self.groups = groups\n        self.padding_mode = padding_mode\n        # check compatibility\n        if in_channels // groups * np.prod(self.kernel_size) % self.block_size != 0:\n            raise ValueError(\"Wrong PQ sizes\")\n        if len(assignments) % out_channels != 0:\n            raise ValueError(\"Wrong PQ sizes\")\n        if in_channels % groups != 0:\n            raise ValueError(\"in_channels must be divisible by groups\")\n        if out_channels % groups != 0:\n            raise ValueError(\"out_channels must be divisible by groups\")\n        # define parameters\n        self.centroids = nn.Parameter(centroids, requires_grad=True)\n        self.register_buffer(\"assignments\", assignments)\n        self.register_buffer(\"counts\", torch.bincount(assignments).type_as(centroids))\n        if bias is not None:\n            self.bias = nn.Parameter(bias)\n        else:\n            self.register_parameter(\"bias\", None)\n        # register hook for averaging gradients per centroids instead of summing\n        self.centroids.register_hook(lambda x: x / self.counts[:, None])\n\n    @property\n    def weight(self):\n        return (\n            self.centroids[self.assignments]\n            .reshape(-1, self.out_channels, self.block_size)\n            .permute(1, 0, 2)\n            .reshape(\n                self.out_channels, self.in_channels // self.groups, *self.kernel_size\n            )\n        )\n\n    def forward(self, x):\n        return F.conv2d(\n            x,\n            self.weight,\n            self.bias,\n            self.stride,\n            self.padding,\n            self.dilation,\n            self.groups,\n        )\n\n    def extra_repr(self):\n        s = \"{in_channels}, {out_channels}, kernel_size={kernel_size}, stride={stride}\"\n        if self.padding != (0,) * len(self.padding):\n            s += \", padding={padding}\"\n        if self.dilation != (1,) * len(self.dilation):\n            s += \", dilation={dilation}\"\n        if self.groups != 1:\n            s += \", groups={groups}\"\n        if self.bias is None:\n            s += \", bias=False\"\n        if self.padding_mode != \"zeros\":\n            s += \", padding_mode={padding_mode}\"\n        s += \", n_centroids={n_centroids}, block_size={block_size}\"\n        return s.format(**self.__dict__)\n"
  },
  {
    "path": "fairseq/modules/quantization/pq/modules/qemb.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\n\nclass PQEmbedding(nn.Module):\n    \"\"\"\n    Quantized counterpart of nn.Embedding module. Stores the centroids and\n    the assignments. The full weight is re-instantiated at each forward\n    pass.\n\n    Args:\n        - centroids: centroids of size n_centroids x block_size\n        - assignments: assignments of the centroids to the subvectors\n          of size self.out_features x n_blocks\n        - bias: the non-quantized bias\n\n    Remarks:\n        - We refer the reader to the official documentation of the nn.Embedding module\n          for the other arguments and the behavior of the module\n        - Performance tests on GPU show that this implementation is 10% slower than\n          the non-quantized nn.Embedding module for a standard training loop.\n    \"\"\"\n\n    def __init__(\n        self,\n        centroids,\n        assignments,\n        num_embeddings,\n        embedding_dim,\n        padding_idx=None,\n        max_norm=None,\n        norm_type=2.0,\n        scale_grad_by_freq=False,\n        sparse=False,\n        _weight=None,\n    ):\n        super(PQEmbedding, self).__init__()\n        self.block_size = centroids.size(1)\n        self.n_centroids = centroids.size(0)\n        self.num_embeddings = num_embeddings\n        self.embedding_dim = embedding_dim\n        if padding_idx is not None:\n            if padding_idx > 0:\n                assert (\n                    padding_idx < self.num_embeddings\n                ), \"Padding_idx must be within num_embeddings\"\n            elif padding_idx < 0:\n                assert (\n                    padding_idx >= -self.num_embeddings\n                ), \"Padding_idx must be within num_embeddings\"\n                padding_idx = self.num_embeddings + padding_idx\n        self.padding_idx = padding_idx\n        self.max_norm = max_norm\n        self.norm_type = norm_type\n        self.scale_grad_by_freq = scale_grad_by_freq\n        self.sparse = sparse\n        # check compatibility\n        if self.embedding_dim % self.block_size != 0:\n            raise ValueError(\"Wrong PQ sizes\")\n        if len(assignments) % self.num_embeddings != 0:\n            raise ValueError(\"Wrong PQ sizes\")\n        # define parameters\n        self.centroids = nn.Parameter(centroids, requires_grad=True)\n        self.register_buffer(\"assignments\", assignments)\n        self.register_buffer(\"counts\", torch.bincount(assignments).type_as(centroids))\n\n    @property\n    def weight(self):\n        return (\n            self.centroids[self.assignments]\n            .reshape(-1, self.num_embeddings, self.block_size)\n            .permute(1, 0, 2)\n            .flatten(1, 2)\n        )\n\n    def forward(self, input):\n        return F.embedding(\n            input,\n            self.weight,\n            self.padding_idx,\n            self.max_norm,\n            self.norm_type,\n            self.scale_grad_by_freq,\n            self.sparse,\n        )\n\n    def extra_repr(self):\n        s = \"{num_embeddings}, {embedding_dim}\"\n        if self.padding_idx is not None:\n            s += \", padding_idx={padding_idx}\"\n        if self.max_norm is not None:\n            s += \", max_norm={max_norm}\"\n        if self.norm_type != 2:\n            s += \", norm_type={norm_type}\"\n        if self.scale_grad_by_freq is not False:\n            s += \", scale_grad_by_freq={scale_grad_by_freq}\"\n        if self.sparse is not False:\n            s += \", sparse=True\"\n        s += \", n_centroids={n_centroids}, block_size={block_size}\"\n\n        return s.format(**self.__dict__)\n"
  },
  {
    "path": "fairseq/modules/quantization/pq/modules/qlinear.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\n\nclass PQLinear(nn.Module):\n    \"\"\"\n    Quantized counterpart of nn.Linear module. Stores the centroid, the assignments\n    and the non-quantized biases. The full weight is re-instantiated at each forward\n    pass.\n\n    Args:\n        - centroids: centroids of size n_centroids x block_size\n        - assignments: assignments of the centroids to the subvectors\n          of size self.out_features x n_blocks\n        - bias: the non-quantized bias\n\n    Remarks:\n        - We refer the reader to the official documentation of the nn.Linear module\n          for the other arguments and the behavior of the module\n        - Performance tests on GPU show that this implementation is 15% slower than\n          the non-quantized nn.Linear module for a standard training loop.\n    \"\"\"\n\n    def __init__(self, centroids, assignments, bias, in_features, out_features):\n        super(PQLinear, self).__init__()\n        self.block_size = centroids.size(1)\n        self.n_centroids = centroids.size(0)\n        self.in_features = in_features\n        self.out_features = out_features\n        # check compatibility\n        if self.in_features % self.block_size != 0:\n            raise ValueError(\"Wrong PQ sizes\")\n        if len(assignments) % self.out_features != 0:\n            raise ValueError(\"Wrong PQ sizes\")\n        # define parameters\n        self.centroids = nn.Parameter(centroids, requires_grad=True)\n        self.register_buffer(\"assignments\", assignments)\n        self.register_buffer(\"counts\", torch.bincount(assignments).type_as(centroids))\n        if bias is not None:\n            self.bias = nn.Parameter(bias)\n        else:\n            self.register_parameter(\"bias\", None)\n\n    @property\n    def weight(self):\n        return (\n            self.centroids[self.assignments]\n            .reshape(-1, self.out_features, self.block_size)\n            .permute(1, 0, 2)\n            .flatten(1, 2)\n        )\n\n    def forward(self, x):\n        return F.linear(\n            x,\n            self.weight,\n            self.bias,\n        )\n\n    def extra_repr(self):\n        return f\"in_features={self.in_features},\\\n                 out_features={self.out_features},\\\n                 n_centroids={self.n_centroids},\\\n                 block_size={self.block_size},\\\n                 bias={self.bias is not None}\"\n"
  },
  {
    "path": "fairseq/modules/quantization/pq/pq.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .em import EM, EmptyClusterResolveError\n\n\nclass PQ(EM):\n    \"\"\"\n    Quantizes the layer weights W with the standard Product Quantization\n    technique. This learns a codebook of codewords or centroids of size\n    block_size from W. For further reference on using PQ to quantize\n    neural networks, see \"And the Bit Goes Down: Revisiting the Quantization\n    of Neural Networks\", Stock et al., ICLR 2020.\n\n    PQ is performed in two steps:\n    (1) The matrix W (weights or fully-connected or convolutional layer)\n        is reshaped to (block_size, -1).\n            - If W is fully-connected (2D), its columns are split into\n              blocks of size block_size.\n            - If W is convolutional (4D), its filters are split along the\n              spatial dimension.\n    (2) We apply the standard EM/k-means algorithm to the resulting reshaped matrix.\n\n    Args:\n        - W: weight matrix to quantize of size (in_features x out_features)\n        - block_size: size of the blocks (subvectors)\n        - n_centroids: number of centroids\n        - n_iter: number of k-means iterations\n        - eps: for cluster reassignment when an empty cluster is found\n        - max_tentatives for cluster reassignment when an empty cluster is found\n        - verbose: print information after each iteration\n\n    Remarks:\n        - block_size be compatible with the shape of W\n    \"\"\"\n\n    def __init__(\n        self,\n        W,\n        block_size,\n        n_centroids=256,\n        n_iter=20,\n        eps=1e-6,\n        max_tentatives=30,\n        verbose=True,\n    ):\n        self.block_size = block_size\n        W_reshaped = self._reshape(W)\n        super(PQ, self).__init__(\n            W_reshaped,\n            n_centroids=n_centroids,\n            n_iter=n_iter,\n            eps=eps,\n            max_tentatives=max_tentatives,\n            verbose=verbose,\n        )\n\n    def _reshape(self, W):\n        \"\"\"\n        Reshapes the matrix W as expained in step (1).\n        \"\"\"\n\n        # fully connected: by convention the weight has size out_features x in_features\n        if len(W.size()) == 2:\n            self.out_features, self.in_features = W.size()\n            assert (\n                self.in_features % self.block_size == 0\n            ), \"Linear: n_blocks must be a multiple of in_features\"\n            return (\n                W.reshape(self.out_features, -1, self.block_size)\n                .permute(2, 1, 0)\n                .flatten(1, 2)\n            )\n\n        # convolutional: we reshape along the spatial dimension\n        elif len(W.size()) == 4:\n            self.out_channels, self.in_channels, self.k_h, self.k_w = W.size()\n            assert (\n                self.in_channels * self.k_h * self.k_w\n            ) % self.block_size == 0, (\n                \"Conv2d: n_blocks must be a multiple of in_channels * k_h * k_w\"\n            )\n            return (\n                W.reshape(self.out_channels, -1, self.block_size)\n                .permute(2, 1, 0)\n                .flatten(1, 2)\n            )\n        # not implemented\n        else:\n            raise NotImplementedError(W.size())\n\n    def encode(self):\n        \"\"\"\n        Performs self.n_iter EM steps.\n        \"\"\"\n\n        self.initialize_centroids()\n        for i in range(self.n_iter):\n            try:\n                self.step(i)\n            except EmptyClusterResolveError:\n                break\n\n    def decode(self):\n        \"\"\"\n        Returns the encoded full weight matrix. Must be called after\n        the encode function.\n        \"\"\"\n\n        # fully connected case\n        if \"k_h\" not in self.__dict__:\n            return (\n                self.centroids[self.assignments]\n                .reshape(-1, self.out_features, self.block_size)\n                .permute(1, 0, 2)\n                .flatten(1, 2)\n            )\n\n        # convolutional case\n        else:\n            return (\n                self.centroids[self.assignments]\n                .reshape(-1, self.out_channels, self.block_size)\n                .permute(1, 0, 2)\n                .reshape(self.out_channels, self.in_channels, self.k_h, self.k_w)\n            )\n"
  },
  {
    "path": "fairseq/modules/quantization/pq/utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport re\nfrom operator import attrgetter, itemgetter\nimport torch\nimport numpy as np\nimport torch.distributed as dist\nimport torch.nn as nn\n\nfrom .modules import PQConv2d, PQEmbedding, PQLinear\nfrom .pq import PQ\n\n\ndef quantize_model_(\n    model,\n    size_tracker,\n    layers_to_quantize,\n    block_sizes_config,\n    n_centroids_config,\n    step=0,\n    n_iter=15,\n    eps=1e-6,\n    max_tentatives=100,\n    remove_weights=False,\n    verbose=True,\n    state_dict=None,\n):\n    \"\"\"\n    Quantize a model in-place by stages. All the targeted\n    layers are replaced by their quantized counterpart,\n    and the model is ready for the finetuning of the\n    centroids in a standard training loop (no modifications\n    required). Note that we do not quantize biases.\n\n    Args:\n        - model: a nn.Module\n        - size_tracker: useful for tracking quatization statistics\n        - layers_to_quantize: a list containing regexps for\n          filtering the layers to quantize at each stage according\n          to their name (as in model.named_parameters())\n        - block_sizes_config: dict like\n          {\n              'Conv2d': ('kernel_size', {'(3, 3)': 9, '(1, 1)': 4}),\n              'Linear': ('in_features', {'*': 8})\n          }\n          For instance, all conv2d layers with kernel size 3x3 have\n          a block size of 9 and all Linear layers are quantized with\n          a block size of 8, irrespective of their size.\n        - n_centroids_config: dict like\n          {\n              'Conv2d': ('kernel_size', {'*': 256}),\n              'Linear': ('in_features', {'*': 256})\n          }\n          For instance, all conv2d layers are quantized with 256 centroids\n        - step: the layers to quantize inplace corresponding\n          to layers_to_quantize[step]\n    \"\"\"\n\n    quantized_layers = get_layers(\n        model, layers_to_quantize[step], remove_weights=remove_weights\n    )\n\n    for layer in quantized_layers:\n\n        # book-keeping\n        is_master_process = (not dist.is_initialized()) or (\n            dist.is_initialized() and dist.get_rank() == 0\n        )\n        verbose = verbose and is_master_process\n\n        # get block size and centroids\n        module = attrgetter(layer)(model)\n        block_size = get_param(module, layer, block_sizes_config)\n        n_centroids = get_param(module, layer, n_centroids_config)\n        if verbose:\n            logging.info(\n                f\"Quantizing layer {layer} with block size {block_size} and {n_centroids} centroids\"\n            )\n\n        # quantize layer\n        weight = module.weight.data.clone()\n        is_bias = \"bias\" in [x[0] for x in module.named_parameters()]\n        bias = module.bias.data.clone() if is_bias else None\n        quantizer = PQ(\n            weight,\n            block_size,\n            n_centroids=n_centroids,\n            n_iter=n_iter,\n            eps=eps,\n            max_tentatives=max_tentatives,\n            verbose=verbose,\n        )\n\n        # quantization performed on all GPUs with same seed\n        quantizer.encode()\n        centroids = quantizer.centroids.contiguous()\n        assignments = quantizer.assignments.contiguous()\n\n        # If n_iter = 0 and state_dict is provided, then\n        # we initialize random assignments and centroids to\n        # random values of the appropriate dimensions\n        # because the quantized model parameters will\n        # overwritten by the state_dict later on.\n        if n_iter == 0 and state_dict:\n            # Initialize random centroids of the correct size\n            centroids = torch.rand(centroids.size())\n            centroids.cuda()\n            # Get counts and assignment keys from layer in loaded checkpoint.\n            counts_key = layer + \".\" + \"counts\"\n            assignment_key = layer + \".\" + \"assignments\"\n            # Get number of different bins to include.\n            counts = list(state_dict[counts_key].shape)[0]\n            print(layer)\n            print(state_dict[counts_key])\n            print(counts)\n            # Initialize random assignments of the correct size\n            # with an appropriate number of bins.\n            num_assignments = list(state_dict[assignment_key].shape)[0]\n            num_extra = num_assignments - counts\n            print(num_assignments)\n            print(num_extra)\n            assignments_bins = torch.arange(counts)\n            assignments_rand = torch.randint(0, counts - 1, (num_extra,))\n            assignments = torch.cat((assignments_bins, assignments_rand), 0)\n            # assignments = assignments.type(torch.IntTensor)\n            assignments.cuda()\n            print(\"assignments\")\n            print(assignments)\n\n        # broadcast results to make sure weights are up-to-date\n        if dist.is_initialized():\n            dist.broadcast(centroids, 0)\n            dist.broadcast(assignments, 0)\n\n        # instantiate the quantized counterpart\n        if isinstance(module, nn.Linear):\n            out_features, in_features = map(\n                lambda k: module.__dict__[k], [\"out_features\", \"in_features\"]\n            )\n            quantized_module = PQLinear(\n                centroids, assignments, bias, in_features, out_features\n            )\n        elif isinstance(module, nn.Embedding):\n            num_embeddings, embedding_dim = map(\n                lambda k: module.__dict__[k], [\"num_embeddings\", \"embedding_dim\"]\n            )\n            quantized_module = PQEmbedding(\n                centroids, assignments, num_embeddings, embedding_dim\n            )\n        elif isinstance(module, nn.Conv2d):\n            out_channels, in_channels, kernel_size = map(\n                lambda k: module.__dict__[k],\n                [\"out_channels\", \"in_channels\", \"kernel_size\"],\n            )\n            stride, padding, dilation, groups, padding_mode = map(\n                lambda k: module.__dict__[k],\n                [\"stride\", \"padding\", \"dilation\", \"groups\", \"padding_mode\"],\n            )\n\n            quantized_module = PQConv2d(\n                centroids,\n                assignments,\n                bias,\n                in_channels,\n                out_channels,\n                kernel_size,\n                stride=stride,\n                padding=padding,\n                dilation=dilation,\n                groups=groups,\n                padding_mode=padding_mode,\n            )\n        else:\n            raise ValueError(f\"Module {module} not yet supported for quantization\")\n\n        # replace layer by its quantized counterpart\n        attrsetter(layer)(model, quantized_module)\n\n        # update statistics\n        size_tracker.update(weight, block_size, n_centroids)\n\n    # return name of quantized layers\n    return quantized_layers\n\n\ndef get_layers(model, filter_regexp, remove_weights=False):\n    \"\"\"\n    Filters out the layers according to a regexp. Note that\n    we omit biases.\n\n    Args:\n        - model: a nn.Module\n        - filter_regexp: a regexp to filter the layers to keep\n          according to their name in model.named_parameters().\n          For instance, the regexp:\n\n             down_layers\\\\.[123456]\\\\.(conv[12]|identity\\\\.conv))\n\n          is keeping blocks down_layers from 1 to 6, and inside\n          each block is keeping conv1, conv2 and identity.conv.\n\n    Remarks:\n        - We add (module\\\\.)? at the beginning of the regexp to\n          account for the possible use of nn.parallel.DataParallel\n    \"\"\"\n\n    # get all parameter names\n    all_layers = map(itemgetter(0), model.named_parameters())\n\n    # remove biases\n    all_layers = filter(lambda x: \"bias\" not in x, all_layers)\n\n    # remove .weight in all other names (or .weight_orig is spectral norm)\n    all_layers = map(lambda x: x.replace(\".weight_orig\", \"\"), all_layers)\n    # remove weights indicates whether the weights extension should be removed, in addition to\n    # weight_orig and weight extension on names\n    if remove_weights:\n        all_layers = map(lambda x: x.replace(\".weights\", \"\"), all_layers)\n    all_layers = map(lambda x: x.replace(\".weight\", \"\"), all_layers)\n\n    # return filtered layers\n    filter_regexp = \"(module\\\\.)?\" + \"(\" + filter_regexp + \")\"\n    r = re.compile(filter_regexp)\n\n    return list(filter(r.match, all_layers))\n\n\ndef get_param(module, layer_name, param_config):\n    \"\"\"\n    Given a quantization configuration, get the right parameter\n    for the module to be quantized.\n\n    Args:\n        - module: a nn.Module\n        - layer_name: the name of the layer\n        - param_config: a dict like\n          {\n              'Conv2d': ('kernel_size', {'(3, 3)': 9, '(1, 1)': 4}),\n              'Linear': ('in_features', {'*': 8})\n          }\n          For instance, all conv2d layers with kernel size 3x3 have\n          a block size of 9 and all Linear layers are quantized with\n          a block size of 8, irrespective of their size.\n\n    Remarks:\n        - if 'fuzzy_name' is passed as a parameter, layers whose layer_name\n          include 'fuzzy_name' will be assigned the given parameter.\n          In the following example, conv.expand layers will have a block\n          size of 9 while conv.reduce will have a block size of 4 and all\n          other layers will have a block size of 2.\n          {\n              'Conv2d': ('fuzzy_name', {'expand': 9, 'reduce': 4, '*': 2}),\n              'Linear': ('fuzzy_name', {'classifier': 8, 'projection': 4})\n          }\n\n    \"\"\"\n\n    layer_type = module.__class__.__name__\n\n    if layer_type not in param_config:\n        raise KeyError(f\"Layer type {layer_type} not in config for layer {module}\")\n\n    feature, params = param_config[module.__class__.__name__]\n\n    if feature != \"fuzzy_name\":\n        feature_value = str(getattr(module, feature))\n        if feature_value not in params:\n            if \"*\" in params:\n                feature_value = \"*\"\n            else:\n                raise KeyError(\n                    f\"{feature}={feature_value} not in config for layer {module}\"\n                )\n    else:\n        feature_values = [name for name in params if name in layer_name]\n        if len(feature_values) == 0:\n            if \"*\" in params:\n                feature_value = \"*\"\n            else:\n                raise KeyError(f\"name={layer_name} not in config for {module}\")\n        else:\n            feature_value = feature_values[0]\n\n    return params[feature_value]\n\n\nclass SizeTracker(object):\n    \"\"\"\n    Class to keep track of the compressed network size with iPQ.\n\n    Args:\n        - model: a nn.Module\n\n    Remarks:\n        - The compressed size is the sum of three components\n          for each layer in the network:\n              (1) Storing the centroids given by iPQ in fp16\n              (2) Storing the assignments of the blocks in int8\n              (3) Storing all non-compressed elements such as biases\n        - This cost in only valid if we use 256 centroids (then\n          indexing can indeed by done with int8).\n    \"\"\"\n\n    def __init__(self, model):\n        self.model = model\n        self.size_non_compressed_model = self.compute_size()\n        self.size_non_quantized = self.size_non_compressed_model\n        self.size_index = 0\n        self.size_centroids = 0\n        self.n_quantized_layers = 0\n\n    def compute_size(self):\n        \"\"\"\n        Computes the size of the model (in MB).\n        \"\"\"\n\n        res = 0\n        for _, p in self.model.named_parameters():\n            res += p.numel()\n        return res * 4 / 1024 / 1024\n\n    def update(self, W, block_size, n_centroids):\n        \"\"\"\n        Updates the running statistics when quantizing a new layer.\n        \"\"\"\n\n        # bits per weights\n        bits_per_weight = np.log2(n_centroids) / block_size\n        self.n_quantized_layers += 1\n\n        # size of indexing the subvectors of size block_size (in MB)\n        size_index_layer = bits_per_weight * W.numel() / 8 / 1024 / 1024\n        self.size_index += size_index_layer\n\n        # size of the centroids stored in float16 (in MB)\n        size_centroids_layer = n_centroids * block_size * 2 / 1024 / 1024\n        self.size_centroids += size_centroids_layer\n\n        # size of non-compressed layers, e.g. LayerNorms or biases (in MB)\n        size_uncompressed_layer = W.numel() * 4 / 1024 / 1024\n        self.size_non_quantized -= size_uncompressed_layer\n\n    def __repr__(self):\n        size_compressed = (\n            self.size_index + self.size_centroids + self.size_non_quantized\n        )\n        compression_ratio = self.size_non_compressed_model / size_compressed  # NOQA\n        return (\n            f\"Non-compressed model size: {self.size_non_compressed_model:.2f} MB. \"\n            f\"After quantizing {self.n_quantized_layers} layers, size \"\n            f\"(indexing + centroids + other): {self.size_index:.2f} MB + \"\n            f\"{self.size_centroids:.2f} MB + {self.size_non_quantized:.2f} MB = \"\n            f\"{size_compressed:.2f} MB, compression ratio: {compression_ratio:.2f}x\"\n        )\n\n\ndef attrsetter(*items):\n    def resolve_attr(obj, attr):\n        attrs = attr.split(\".\")\n        head = attrs[:-1]\n        tail = attrs[-1]\n\n        for name in head:\n            obj = getattr(obj, name)\n        return obj, tail\n\n    def g(obj, val):\n        for attr in items:\n            resolved_obj, resolved_attr = resolve_attr(obj, attr)\n            setattr(resolved_obj, resolved_attr, val)\n\n    return g\n"
  },
  {
    "path": "fairseq/modules/quantization/quantization_options.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\ndef parse_config_yaml(yaml_data):\n    # Initialize to default options.\n    quantization_options = {\n        \"n_centroids\": {\n            \"Linear\": [\"in_features\", {\"*\": 256}],\n            \"Embedding\": [\"embedding_dim\", {\"*\": 256}],\n        },\n        \"block_sizes\": {\n            \"Linear\": [\"fuzzy_name\", {\"fc\": 8, \"attn\": 4, \"emb\": 4}],\n            \"Embedding\": [\"fuzzy_name\", {\"emb\": 8}],\n        },\n        \"layers_to_quantize\": [\n            \"decoder\\\\.layers\\\\.\\\\d+\\\\.fc[12]\",\n            \"decoder\\\\.embed_tokens\\\\.embeddings\\\\.[012]\\\\.[01]\",\n            \"decoder\\\\.layers\\\\.\\\\d+\\\\.self_attn\\\\.(k_proj|v_proj|q_proj|out_proj)\",\n        ],\n    }\n\n    if \"n_centroids\" in yaml_data:\n        quantization_options[\"n_centroids\"] = {\n            layer: convert_yaml_to_tuple(layer_data)\n            for layer, layer_data in yaml_data[\"n_centroids\"].items()\n        }\n    if \"block_sizes\" in yaml_data:\n        quantization_options[\"block_sizes\"] = {\n            layer: convert_yaml_to_tuple(layer_data)\n            for layer, layer_data in yaml_data[\"block_sizes\"].items()\n        }\n    if \"layers_to_quantize\" in yaml_data:\n        quantization_options[\"layers_to_quantize\"] = yaml_data[\"layers_to_quantize\"]\n\n    return quantization_options\n\n\ndef convert_yaml_to_tuple(yaml_dictionary):\n    \"\"\"Converts a yaml dictionary with two keys: `key` and `value` into a two\n    argument tuple of those values.\"\"\"\n    return (yaml_dictionary[\"key\"], yaml_dictionary[\"value\"])\n"
  },
  {
    "path": "fairseq/modules/quantization/scalar/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .utils import quantize_model_  # NOQA\n"
  },
  {
    "path": "fairseq/modules/quantization/scalar/modules/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom .qact import ActivationQuantizer  # NOQA\nfrom .qconv import IntConv2d  # NOQA\nfrom .qemb import IntEmbedding  # NOQA\nfrom .qlinear import IntLinear  # NOQA\n"
  },
  {
    "path": "fairseq/modules/quantization/scalar/modules/qact.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\nfrom ..ops import emulate_int\n\n\nclass ActivationQuantizer:\n    \"\"\"\n    Fake scalar quantization of the activations using a forward hook.\n\n    Args:\n        - module. a nn.Module for which we quantize the *post-activations*\n        - p: proportion of activations to quantize, set by default to 1\n        - update_step: to recompute quantization parameters\n        - bits: number of bits for quantization\n        - method: choose among {\"tensor\", \"histogram\", \"channel\"}\n        - clamp_threshold: to prevent gradients overflow\n\n    Remarks:\n        - Parameters scale and zero_point are recomputed every update_step\n          forward pass to reduce the overhead\n        - For the list of quantization methods and number of bits, see ops.py\n        - To remove the hook from the module, simply call self.handle.remove()\n        - At test time, the activations are fully quantized\n        - We use the straight-through estimator so that the gradients\n          back-propagate nicely in the network, this is implemented with\n          the detach() trick\n        - The activations are hard-clamped in [-clamp_threshold, clamp_threshold]\n          to prevent overflow during the backward pass\n    \"\"\"\n\n    def __init__(\n        self,\n        module,\n        p=1,\n        update_step=1000,\n        bits=8,\n        method=\"histogram\",\n        clamp_threshold=5,\n    ):\n        self.module = module\n        self.p = p\n        self.update_step = update_step\n        self.counter = 0\n        self.bits = bits\n        self.method = method\n        self.clamp_threshold = clamp_threshold\n        self.handle = None\n        self.register_hook()\n\n    def register_hook(self):\n        # forward hook\n        def quantize_hook(module, x, y):\n\n            # update parameters every 1000 iterations\n            if self.counter % self.update_step == 0:\n                self.scale = None\n                self.zero_point = None\n            self.counter += 1\n\n            # train with QuantNoise and evaluate the fully quantized network\n            p = self.p if self.module.training else 1\n\n            # quantize activations\n            y_q, self.scale, self.zero_point = emulate_int(\n                y.detach(),\n                bits=self.bits,\n                method=self.method,\n                scale=self.scale,\n                zero_point=self.zero_point,\n            )\n\n            # mask to apply noise\n            mask = torch.zeros_like(y)\n            mask.bernoulli_(1 - p)\n            noise = (y_q - y).masked_fill(mask.bool(), 0)\n\n            # using straight-through estimator (STE)\n            clamp_low = -self.scale * self.zero_point\n            clamp_high = self.scale * (2**self.bits - 1 - self.zero_point)\n            return torch.clamp(y, clamp_low.item(), clamp_high.item()) + noise.detach()\n\n        # register hook\n        self.handle = self.module.register_forward_hook(quantize_hook)\n"
  },
  {
    "path": "fairseq/modules/quantization/scalar/modules/qconv.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn.functional as F\nfrom torch.nn.modules.conv import _ConvNd\nfrom torch.nn.modules.utils import _pair\n\nfrom ..ops import emulate_int\n\n\nclass IntConv2d(_ConvNd):\n    \"\"\"\n    Quantized counterpart of the nn.Conv2d module that applies QuantNoise during training.\n\n    Args:\n        - standard nn.Conv2d parameters\n        - p: amount of noise to inject (0 = no quantization, 1 = quantize all the weights)\n        - bits: number of bits\n        - method: choose among {\"tensor\", \"histogram\", \"channel\"}\n        - update_step: recompute scale and zero_point every update_steps iterations\n\n    Remarks:\n        - We use the straight-thgourh estimator so that the gradients\n          back-propagate nicely in the network, this is implemented with\n          the detach() trick\n        - Parameters scale and zero_point are recomputed every update_step\n          forward pass to reduce the overhead\n        - At test time, the weights are fully quantized\n    \"\"\"\n\n    def __init__(\n        self,\n        in_channels,\n        out_channels,\n        kernel_size,\n        stride=1,\n        padding=0,\n        dilation=1,\n        groups=1,\n        bias=True,\n        padding_mode=\"zeros\",\n        p=0,\n        bits=8,\n        method=\"histogram\",\n        update_step=1000,\n    ):\n        kernel_size = _pair(kernel_size)\n        stride = _pair(stride)\n        padding = _pair(padding)\n        dilation = _pair(dilation)\n        super(IntConv2d, self).__init__(\n            in_channels,\n            out_channels,\n            kernel_size,\n            stride,\n            padding,\n            dilation,\n            False,\n            _pair(0),\n            groups,\n            bias,\n            padding_mode,\n        )\n\n        # quantization parameters\n        self.p = p\n        self.bits = bits\n        self.method = method\n        self.update_step = update_step\n        self.counter = 0\n\n    def _conv_forward(self, input, weight):\n        if self.padding_mode != \"zeros\":\n            return F.conv2d(\n                F.pad(input, self._padding_repeated_twice, mode=self.padding_mode),\n                weight,\n                self.bias,\n                self.stride,\n                _pair(0),\n                self.dilation,\n                self.groups,\n            )\n        return F.conv2d(\n            input,\n            weight,\n            self.bias,\n            self.stride,\n            self.padding,\n            self.dilation,\n            self.groups,\n        )\n\n    def forward(self, input):\n        # train with QuantNoise and evaluate the fully quantized network\n        p = self.p if self.training else 1\n\n        # update parameters every 100 iterations\n        if self.counter % self.update_step == 0:\n            self.scale = None\n            self.zero_point = None\n        self.counter += 1\n\n        # quantize weight\n        weight_quantized, self.scale, self.zero_point = emulate_int(\n            self.weight.detach(),\n            bits=self.bits,\n            method=self.method,\n            scale=self.scale,\n            zero_point=self.zero_point,\n        )\n\n        # mask to apply noise\n        mask = torch.zeros_like(self.weight)\n        mask.bernoulli_(1 - p)\n        noise = (weight_quantized - self.weight).masked_fill(mask.bool(), 0)\n\n        # using straight-through estimator (STE)\n        clamp_low = -self.scale * self.zero_point\n        clamp_high = self.scale * (2**self.bits - 1 - self.zero_point)\n        weight = (\n            torch.clamp(self.weight, clamp_low.item(), clamp_high.item())\n            + noise.detach()\n        )\n\n        # return output\n        output = self._conv_forward(input, weight)\n        return output\n\n    def extra_repr(self):\n        return (\n            \"in_channels={}, out_channels={}, kernel_size={}, stride={}, \"\n            \"padding={}, dilation={}, groups={}, bias={}, quant_noise={}, \"\n            \"bits={}, method={}\".format(\n                self.in_channels,\n                self.out_channels,\n                self.kernel_size,\n                self.stride,\n                self.padding,\n                self.dilation,\n                self.groups,\n                self.bias is not None,\n                self.p,\n                self.bits,\n                self.method,\n            )\n        )\n"
  },
  {
    "path": "fairseq/modules/quantization/scalar/modules/qemb.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nfrom ..ops import emulate_int\n\n\nclass IntEmbedding(nn.Module):\n    \"\"\"\n    Quantized counterpart of the nn.Embedding module that applies QuantNoise during training.\n\n    Args:\n        - num_embeddings: number of tokens\n        - embedding_dim: embedding dimension\n        - p: amount of noise to inject (0 = no quantization, 1 = quantize all the weights)\n        - bits: number of bits\n        - method: choose among {\"tensor\", \"histogram\", \"channel\"}\n        - update_step: recompute scale and zero_point every update_steps iterations\n\n    Remarks:\n        - We use the straight-through estimator so that the gradients\n          back-propagate nicely in the network, this is implemented with\n          the detach() trick\n        - Parameters scale and zero_point are recomputed every update_step\n          forward pass to reduce the overhead\n        - At test time, the weights are fully quantized\n    \"\"\"\n\n    def __init__(\n        self,\n        num_embeddings,\n        embedding_dim,\n        padding_idx=None,\n        max_norm=None,\n        norm_type=2.0,\n        scale_grad_by_freq=False,\n        sparse=False,\n        _weight=None,\n        p=0,\n        update_step=1000,\n        bits=8,\n        method=\"histogram\",\n    ):\n        super(IntEmbedding, self).__init__()\n        self.num_embeddings = num_embeddings\n        self.embedding_dim = embedding_dim\n        if padding_idx is not None:\n            if padding_idx > 0:\n                assert (\n                    padding_idx < self.num_embeddings\n                ), \"Padding_idx must be within num_embeddings\"\n            elif padding_idx < 0:\n                assert (\n                    padding_idx >= -self.num_embeddings\n                ), \"Padding_idx must be within num_embeddings\"\n                padding_idx = self.num_embeddings + padding_idx\n        self.padding_idx = padding_idx\n        self.max_norm = max_norm\n        self.norm_type = norm_type\n        self.scale_grad_by_freq = scale_grad_by_freq\n        if _weight is None:\n            self.weight = nn.Parameter(torch.Tensor(num_embeddings, embedding_dim))\n            self.reset_parameters()\n        else:\n            assert list(_weight.shape) == [\n                num_embeddings,\n                embedding_dim,\n            ], \"Shape of weight does not match num_embeddings and embedding_dim\"\n            self.weight = nn.Parameter(_weight)\n        self.sparse = sparse\n\n        # quantization parameters\n        self.p = p\n        self.bits = bits\n        self.method = method\n        self.update_step = update_step\n        self.counter = 0\n\n    def reset_parameters(self):\n        nn.init.normal_(self.weight)\n        if self.padding_idx is not None:\n            with torch.no_grad():\n                self.weight[self.padding_idx].fill_(0)\n\n    def forward(self, input):\n        # train with QuantNoise and evaluate the fully quantized network\n        p = self.p if self.training else 1\n\n        # update parameters every 1000 iterations\n        if self.counter % self.update_step == 0:\n            self.scale = None\n            self.zero_point = None\n        self.counter += 1\n\n        # quantize weight\n        weight_quantized, self.scale, self.zero_point = emulate_int(\n            self.weight.detach(),\n            bits=self.bits,\n            method=self.method,\n            scale=self.scale,\n            zero_point=self.zero_point,\n        )\n\n        # mask to apply noise\n        mask = torch.zeros_like(self.weight)\n        mask.bernoulli_(1 - p)\n        noise = (weight_quantized - self.weight).masked_fill(mask.bool(), 0)\n\n        # using straight-through estimator (STE)\n        clamp_low = -self.scale * self.zero_point\n        clamp_high = self.scale * (2**self.bits - 1 - self.zero_point)\n        weight = (\n            torch.clamp(self.weight, clamp_low.item(), clamp_high.item())\n            + noise.detach()\n        )\n\n        # return output\n        output = F.embedding(\n            input,\n            weight,\n            self.padding_idx,\n            self.max_norm,\n            self.norm_type,\n            self.scale_grad_by_freq,\n            self.sparse,\n        )\n        return output\n\n    def extra_repr(self):\n        s = \"{num_embeddings}, {embedding_dim}\"\n        if self.padding_idx is not None:\n            s += \", padding_idx={padding_idx}\"\n        if self.max_norm is not None:\n            s += \", max_norm={max_norm}\"\n        if self.norm_type != 2:\n            s += \", norm_type={norm_type}\"\n        if self.scale_grad_by_freq is not False:\n            s += \", scale_grad_by_freq={scale_grad_by_freq}\"\n        if self.sparse is not False:\n            s += \", sparse=True\"\n        s += \"quant_noise={p}, bits={bits}, method={method}\"\n        return s.format(**self.__dict__)\n"
  },
  {
    "path": "fairseq/modules/quantization/scalar/modules/qlinear.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nfrom ..ops import emulate_int\n\n\nclass IntLinear(nn.Module):\n    \"\"\"\n    Quantized counterpart of the nn.Linear module that applies QuantNoise during training.\n\n    Args:\n        - in_features: input features\n        - out_features: output features\n        - bias: bias or not\n        - p: amount of noise to inject (0 = no quantization, 1 = quantize all the weights)\n        - bits: number of bits\n        - method: choose among {\"tensor\", \"histogram\", \"channel\"}\n        - update_step: recompute scale and zero_point every update_steps iterations\n\n    Remarks:\n        - We use the straight-through estimator so that the gradients\n          back-propagate nicely in the network, this is implemented with\n          the detach() trick.\n        - Parameters scale and zero_point are recomputed every update_step\n          forward pass to reduce the overhead\n        - At test time, the weights are fully quantized\n    \"\"\"\n\n    def __init__(\n        self,\n        in_features,\n        out_features,\n        bias=True,\n        p=0,\n        update_step=3000,\n        bits=8,\n        method=\"histogram\",\n    ):\n        super(IntLinear, self).__init__()\n        self.in_features = int(in_features)\n        self.out_features = int(out_features)\n        self.weight = torch.nn.Parameter(torch.Tensor(out_features, in_features))\n        self.chosen_bias = bias\n        if self.chosen_bias:\n            self.bias = torch.nn.Parameter(torch.Tensor(out_features))\n        else:\n            self.register_parameter(\"bias\", None)\n        self.reset_parameters()\n\n        # quantization parameters\n        self.p = p\n        self.bits = bits\n        self.method = method\n        self.update_step = update_step\n        self.counter = 0\n\n    def reset_parameters(self):\n        nn.init.xavier_uniform_(self.weight)\n        if self.chosen_bias:\n            nn.init.constant_(self.bias, 0.0)\n        return\n\n    def forward(self, input):\n        # train with QuantNoise and evaluate the fully quantized network\n        p = self.p if self.training else 1\n\n        # update parameters every 100 iterations\n        if self.counter % self.update_step == 0:\n            self.scale = None\n            self.zero_point = None\n        self.counter += 1\n\n        # quantize weight\n        weight_quantized, self.scale, self.zero_point = emulate_int(\n            self.weight.detach(),\n            bits=self.bits,\n            method=self.method,\n            scale=self.scale,\n            zero_point=self.zero_point,\n        )\n\n        # mask to apply noise\n        mask = torch.zeros_like(self.weight)\n        mask.bernoulli_(1 - p)\n        noise = (weight_quantized - self.weight).masked_fill(mask.bool(), 0)\n\n        # using straight-through estimator (STE)\n        clamp_low = -self.scale * self.zero_point\n        clamp_high = self.scale * (2**self.bits - 1 - self.zero_point)\n        weight = (\n            torch.clamp(self.weight, clamp_low.item(), clamp_high.item())\n            + noise.detach()\n        )\n\n        # return output\n        output = F.linear(input, weight, self.bias)\n        return output\n\n    def extra_repr(self):\n        return \"in_features={}, out_features={}, bias={}, quant_noise={}, bits={}, method={}\".format(\n            self.in_features,\n            self.out_features,\n            self.bias is not None,\n            self.p,\n            self.bits,\n            self.method,\n        )\n"
  },
  {
    "path": "fairseq/modules/quantization/scalar/ops.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\n\ntry:\n    import torch.ao.quantization as quantization\nexcept ImportError:\n    import torch.quantization as quantization\n\n\ndef emulate_int(w, bits, method, scale=None, zero_point=None):\n    q = globals()[f\"emulate_int8_{method}\"]\n    return q(w, scale=scale, zero_point=zero_point, bits=bits)\n\n\ndef quantize(w, scale, zero_point, bits=8):\n    # In the default behavior, max_val = 255.\n    max_val = 2**bits - 1\n    return (\n        torch.clamp(torch.round(w / scale + zero_point), 0, max_val) - zero_point\n    ) * scale\n\n\ndef emulate_int8_histogram(w, scale=None, zero_point=None, bits=8):\n    if scale is None:\n        obs = quantization.observer.HistogramObserver()\n        obs.to(device=w.device)\n        _ = obs(w.float())\n        scale, zero_point = obs.calculate_qparams()\n        scale = scale.cuda().type_as(w)\n        zero_point = zero_point.cuda().type_as(w)\n    return quantize(w, scale, zero_point, bits=bits), scale, zero_point\n\n\ndef emulate_int8_channel(w, scale=None, zero_point=None, bits=8):\n    if scale is None:\n        obs = quantization.observer.PerChannelMinMaxObserver(\n            ch_axis=-1, qscheme=torch.per_channel_symmetric\n        )\n        obs.to(device=w.device)\n        _ = obs(w)\n        scale, zero_point, ch_axis = obs.get_qparams()\n        scale = scale.cuda().type_as(w)\n        zero_point = zero_point.cuda().type_as(w)\n    return quantize(w, scale, zero_point, bits=bits), scale, zero_point\n\n\ndef emulate_int8_tensor(w, scale=None, zero_point=None, bits=8):\n    if scale is None:\n        obs = quantization.observer.MinMaxObserver()\n        obs.to(device=w.device)\n        _ = obs(w)\n        scale, zero_point = obs.calculate_qparams()\n        scale = scale.cuda().type_as(w)\n        zero_point = zero_point.cuda().type_as(w)\n    return quantize(w, scale, zero_point, bits=bits), scale, zero_point\n"
  },
  {
    "path": "fairseq/modules/quantization/scalar/utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom operator import attrgetter\n\nimport torch.distributed as dist\nimport torch.nn as nn\n\nfrom ..pq.utils import attrsetter, get_layers\nfrom .modules import ActivationQuantizer, IntConv2d, IntEmbedding, IntLinear\n\n\nMAPPING = {nn.Linear: IntLinear, nn.Embedding: IntEmbedding, nn.Conv2d: IntConv2d}\n\n\ndef quantize_model_(\n    model, p=0.2, bits=8, update_step=3000, method=\"histogram\", remove_weights=False\n):\n    \"\"\"\n    Replaces all modules with their scalar quantized counterpart and\n    registers hooks to quantize the post-ativations of those modules.\n\n    Args:\n        - model: a nn.Module\n        - p: amount of noise (0 for no noise, 1 to quantize all the weights/activations)\n        - bits: number of bits\n        - update_step: update quantization parameters every update_step steps\n    \"\"\"\n    # quantize all layers\n    # remove weights indicates whether the weights extension should be removed, in addition to\n    # weight_orig and weight extension on names\n    quantized_layers = get_layers(model, \"(.*?)\", remove_weights=remove_weights)\n\n    for layer in quantized_layers:\n\n        # book-keeping\n        is_master_process = (not dist.is_initialized()) or (\n            dist.is_initialized() and dist.get_rank() == 0\n        )\n\n        # recover module\n        module = attrgetter(layer)(model)\n        if is_master_process:\n            logging.info(\n                f\"Quantizing layer {layer} with bits={bits} and QuantNoise={p}\"\n            )\n\n        # quantization params\n        q_params = {\n            \"p\": p,\n            \"update_step\": update_step,\n            \"bits\": bits,\n            \"method\": method,\n            \"counter\": 0,\n        }\n\n        # instantiate the quantized counterpart\n        if isinstance(module, tuple(MAPPING.keys())):\n            QuantizedModule = MAPPING[module.__class__]\n            quantized_module = QuantizedModule.__new__(QuantizedModule)\n            params = module.__dict__\n            params.update(q_params)\n            quantized_module.__dict__.update(params)\n\n        else:\n            if is_master_process:\n                logging.info(f\"Module {module} not yet supported for quantization\")\n            continue\n\n        # activation quantization\n        a_q = ActivationQuantizer(quantized_module, p=0, bits=bits, method=method)\n\n        # replace layer by its quantized counterpart\n        attrsetter(layer)(model, quantized_module)\n\n    # return name of quantized layers\n    return quantized_layers\n"
  },
  {
    "path": "fairseq/modules/rotary_positional_embedding.py",
    "content": "import torch\n\n\nclass RotaryPositionalEmbedding(torch.nn.Module):\n    def __init__(self, dim, base=10000, precision=torch.half):\n        \"\"\"Rotary positional embedding\n        Reference : https://blog.eleuther.ai/rotary-embeddings/\n        Paper: https://arxiv.org/pdf/2104.09864.pdf\n        Args:\n            dim: Dimension of embedding\n            base: Base value for exponential\n            precision: precision to use for numerical values\n        \"\"\"\n        super().__init__()\n        inv_freq = 1.0 / (base ** (torch.arange(0, dim, 2).float() / dim))\n        self.register_buffer(\"inv_freq\", inv_freq)\n        self.seq_len_cached = 0\n        self.cos_cached = torch.empty(self.seq_len_cached, 1, 1, dim)\n        self.sin_cached = torch.empty(self.seq_len_cached, 1, 1, dim)\n        self.precision = precision\n\n    def forward(self, x, seq_len: int = 0):\n        \"\"\"\n        Args:\n            x: Input x with T X B X C\n            seq_len: Sequence length of input x\n        \"\"\"\n        if seq_len > self.seq_len_cached:\n            self.seq_len_cached = seq_len\n            t = torch.arange(seq_len, device=x.device).type_as(self.inv_freq)\n            freqs = torch.einsum(\"i,j->ij\", t, self.inv_freq)\n            emb = torch.cat((freqs, freqs), dim=-1).to(x.device)\n            self.cos_cached = emb.cos().view(emb.size(0), 1, 1, emb.size(1))\n            self.sin_cached = emb.sin().view(emb.size(0), 1, 1, emb.size(1))\n        return self.cos_cached, self.sin_cached\n\n# rotary pos emb helpers:\ndef rotate_half(x):\n    x1, x2 = x[..., : x.shape[-1] // 2], x[..., x.shape[-1] // 2 :]\n    return torch.cat(\n        (-x2, x1), dim=x1.ndim - 1\n    )  # dim=-1 triggers a bug in earlier torch versions\n\n\ndef apply_rotary_pos_emb(q, k, cos, sin, offset: int = 0):\n    cos, sin = (\n        cos[offset : q.shape[0] + offset, ...],\n        sin[offset : q.shape[0] + offset, ...],\n    )\n    return (q * cos) + (rotate_half(q) * sin), (k * cos) + (rotate_half(k) * sin)\n"
  },
  {
    "path": "fairseq/modules/same_pad.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom torch import nn\n\n\nclass SamePad(nn.Module):\n    def __init__(self, kernel_size, causal=False):\n        super().__init__()\n        if causal:\n            self.remove = kernel_size - 1\n        else:\n            self.remove = 1 if kernel_size % 2 == 0 else 0\n\n    def forward(self, x):\n        if self.remove > 0:\n            x = x[:, :, : -self.remove]\n        return x\n\n\nclass SamePad2d(nn.Module):\n    def __init__(self, kernel_size):\n        super().__init__()\n        self.remove = 1 if kernel_size % 2 == 0 else 0\n\n    def forward(self, x):\n        assert len(x.size()) == 4\n        if self.remove > 0:\n            x = x[:, :, : -self.remove, : -self.remove]\n        return x\n"
  },
  {
    "path": "fairseq/modules/scalar_bias.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n#\n\nimport torch\n\n\nclass ScalarBias(torch.autograd.Function):\n    \"\"\"\n    Adds a vector of scalars, used in self-attention mechanism to allow\n    the model to optionally attend to this vector instead of the past\n    \"\"\"\n\n    @staticmethod\n    def forward(ctx, input, dim, bias_init):\n        size = list(input.size())\n        size[dim] += 1\n        output = input.new(*size).fill_(bias_init)\n        output.narrow(dim, 1, size[dim] - 1).copy_(input)\n        ctx.dim = dim\n        return output\n\n    @staticmethod\n    def backward(ctx, grad):\n        return grad.narrow(ctx.dim, 1, grad.size(ctx.dim) - 1), None, None\n\n\ndef scalar_bias(input, dim, bias_init=0):\n    return ScalarBias.apply(input, dim, bias_init)\n"
  },
  {
    "path": "fairseq/modules/sinusoidal_positional_embedding.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom typing import Any, Optional\n\nimport torch\nimport torch.onnx.operators\nfrom fairseq import utils\nfrom torch import nn, Tensor\n\n\nclass SinusoidalPositionalEmbedding(nn.Module):\n    \"\"\"This module produces sinusoidal positional embeddings of any length.\n\n    Padding symbols are ignored.\n    \"\"\"\n\n    def __init__(self, embedding_dim, padding_idx, init_size=1024, auto_expand=True):\n        super().__init__()\n        self.embedding_dim = embedding_dim\n        self.padding_idx = padding_idx if padding_idx is not None else 0\n        self.register_buffer(\n            \"weights\",\n            SinusoidalPositionalEmbedding.get_embedding(\n                init_size, embedding_dim, padding_idx\n            ),\n            persistent=False,\n        )\n        self.max_positions = int(1e5)\n        self.auto_expand = auto_expand\n        self.onnx_trace = False\n\n    def prepare_for_onnx_export_(self):\n        self.onnx_trace = True\n\n    def _load_from_state_dict(self, state_dict, prefix, *args, **kwargs):\n        # Ignore some deprecated keys that were used in older versions\n        deprecated_keys = [\"weights\", \"_float_tensor\"]\n        for key in deprecated_keys:\n            if prefix + key in state_dict:\n                del state_dict[prefix + key]\n        super()._load_from_state_dict(state_dict, prefix, *args, **kwargs)\n\n    @staticmethod\n    def get_embedding(\n        num_embeddings: int, embedding_dim: int, padding_idx: Optional[int] = None\n    ):\n        \"\"\"Build sinusoidal embeddings.\n\n        This matches the implementation in tensor2tensor, but differs slightly\n        from the description in Section 3.5 of \"Attention Is All You Need\".\n        \"\"\"\n        half_dim = embedding_dim // 2\n        emb = math.log(10000) / (half_dim - 1)\n        emb = torch.exp(torch.arange(half_dim, dtype=torch.float) * -emb)\n        emb = torch.arange(num_embeddings, dtype=torch.float).unsqueeze(\n            1\n        ) * emb.unsqueeze(0)\n        emb = torch.cat([torch.sin(emb), torch.cos(emb)], dim=1).view(\n            num_embeddings, -1\n        )\n        if embedding_dim % 2 == 1:\n            # zero pad\n            emb = torch.cat([emb, torch.zeros(num_embeddings, 1)], dim=1)\n        if padding_idx is not None:\n            emb[padding_idx, :] = 0\n        return emb\n\n    def forward(\n        self,\n        input,\n        incremental_state: Optional[Any] = None,\n        timestep: Optional[Tensor] = None,\n        positions: Optional[Any] = None,\n    ):\n        \"\"\"Input is expected to be of size [bsz x seqlen].\"\"\"\n        bspair = torch.onnx.operators.shape_as_tensor(input)\n        bsz, seq_len = bspair[0], bspair[1]\n        max_pos = self.padding_idx + 1 + seq_len\n        weights = self.weights\n\n        if max_pos > self.weights.size(0):\n            # If the input is longer than the number of pre-computed embeddings,\n            # compute the extra embeddings on the fly.\n            # Only store the expanded embeddings if auto_expand=True.\n            # In multithreading environments, mutating the weights of a module\n            # may cause trouble. Set auto_expand=False if this happens.\n            weights = SinusoidalPositionalEmbedding.get_embedding(\n                max_pos, self.embedding_dim, self.padding_idx\n            ).to(self.weights)\n            if self.auto_expand:\n                self.weights = weights\n\n        if incremental_state is not None:\n            # positions is the same for every token when decoding a single step\n            pos = timestep.view(-1)[0] + 1 if timestep is not None else seq_len\n            if self.onnx_trace:\n                return (\n                    weights.index_select(index=self.padding_idx + pos, dim=0)\n                    .unsqueeze(1)\n                    .repeat(bsz, 1, 1)\n                )\n            return weights[self.padding_idx + pos, :].expand(bsz, 1, -1)\n\n        positions = utils.make_positions(\n            input, self.padding_idx, onnx_trace=self.onnx_trace\n        )\n        if self.onnx_trace:\n            flat_embeddings = weights.detach().index_select(0, positions.view(-1))\n            embedding_shape = torch.cat(\n                (bsz.view(1), seq_len.view(1), torch.tensor([-1], dtype=torch.long))\n            )\n            embeddings = torch.onnx.operators.reshape_from_tensor_shape(\n                flat_embeddings, embedding_shape\n            )\n            return embeddings\n        return (\n            weights.index_select(0, positions.view(-1)).view(bsz, seq_len, -1).detach()\n        )\n"
  },
  {
    "path": "fairseq/modules/sparse_multihead_attention.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\n\nfrom .multihead_attention import MultiheadAttention\n\n\nclass SparseMultiheadAttention(MultiheadAttention):\n    \"\"\"Sparse Multi-Headed Attention.\n\n    \"Generating Long Sequences with Sparse Transformers\". Implements\n    fixed factorized self attention, where l=stride and c=expressivity.\n    A(1) includes all words in the stride window and A(2) takes a summary of c\n    words from the end of each stride window.\n    If is_bidirectional=False, we do not include any words past the current word,\n    as in the paper.\n    \"\"\"\n\n    def __init__(\n        self,\n        embed_dim,\n        num_heads,\n        kdim=None,\n        vdim=None,\n        dropout=0.0,\n        bias=True,\n        add_bias_kv=False,\n        add_zero_attn=False,\n        self_attention=False,\n        encoder_decoder_attention=False,\n        stride=32,\n        expressivity=8,\n        is_bidirectional=True,\n    ):\n\n        super().__init__(\n            embed_dim,\n            num_heads,\n            kdim,\n            vdim,\n            dropout,\n            bias,\n            add_bias_kv,\n            add_zero_attn,\n            self_attention,\n            encoder_decoder_attention,\n        )\n\n        self.is_bidirectional = is_bidirectional\n        self.stride = stride\n        self.expressivity = expressivity\n        assert self.stride > 0 and self.stride >= self.expressivity\n\n    # Used for Ai(2) calculations - beginning of [l-c, l] range\n    def compute_checkpoint(self, word_index):\n        if word_index % self.stride == 0 and word_index != 0:\n            checkpoint_index = word_index - self.expressivity\n        else:\n            checkpoint_index = (\n                math.floor(word_index / self.stride) * self.stride\n                + self.stride\n                - self.expressivity\n            )\n        return checkpoint_index\n\n    # Computes Ai(2)\n    def compute_subset_summaries(self, absolute_max):\n        checkpoint_index = self.compute_checkpoint(0)\n        subset_two = set()\n        while checkpoint_index <= absolute_max - 1:\n            summary = set(\n                range(\n                    checkpoint_index,\n                    min(checkpoint_index + self.expressivity + 1, absolute_max),\n                )\n            )\n            subset_two = subset_two.union(summary)\n            checkpoint_index = self.compute_checkpoint(checkpoint_index + self.stride)\n        return subset_two\n\n    # Sparse Transformer Fixed Attention Pattern: https://arxiv.org/pdf/1904.10509.pdf\n    def compute_fixed_attention_subset(self, word_index, tgt_len):\n        # +1s account for range function; [min, max) -> [min, max]\n        if not self.is_bidirectional:\n            absolute_max = word_index + 1\n        else:\n            absolute_max = tgt_len\n\n        # Subset 1 - whole window\n        rounded_index = (\n            math.floor((word_index + self.stride) / self.stride) * self.stride\n        )\n        if word_index % self.stride == 0 and word_index != 0:\n            subset_one = set(\n                range(word_index - self.stride, min(absolute_max, word_index + 1))\n            )\n        else:\n            subset_one = set(\n                range(\n                    max(0, rounded_index - self.stride),\n                    min(absolute_max, rounded_index + 1),\n                )\n            )\n\n        # Subset 2 - summary per window\n        # If bidirectional, subset 2 is the same for every index\n        subset_two = set()\n        if not self.is_bidirectional:\n            subset_two = self.compute_subset_summaries(absolute_max)\n\n        return subset_one.union(subset_two)\n\n    # Compute sparse mask - if bidirectional, can pre-compute and store\n    def buffered_sparse_mask(self, tensor, tgt_len, src_len):\n        assert tgt_len > self.stride\n        sparse_mask = torch.empty((tgt_len, src_len)).float().fill_(float(\"-inf\"))\n\n        # If bidirectional, subset 2 is the same for every index\n        subset_summaries = set()\n        if self.is_bidirectional:\n            subset_summaries = self.compute_subset_summaries(tgt_len)\n\n        for i in range(tgt_len):\n            fixed_attention_subset = self.compute_fixed_attention_subset(i, tgt_len)\n            fixed_attention_subset = fixed_attention_subset.union(subset_summaries)\n            included_word_indices = torch.LongTensor(list(fixed_attention_subset))\n            sparse_mask[i].index_fill_(0, included_word_indices, 0)\n        return sparse_mask.type_as(tensor)\n\n    def apply_sparse_mask(self, attn_weights, tgt_len, src_len, bsz):\n        sparse_mask = self.buffered_sparse_mask(attn_weights, tgt_len, src_len)\n        sparse_mask = sparse_mask.unsqueeze(0).expand(\n            bsz * self.num_heads, tgt_len, src_len\n        )\n        attn_weights += sparse_mask\n"
  },
  {
    "path": "fairseq/modules/sparse_transformer_sentence_encoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch.nn as nn\nfrom fairseq.modules import TransformerSentenceEncoder\nfrom fairseq.modules.sparse_transformer_sentence_encoder_layer import (\n    SparseTransformerSentenceEncoderLayer,\n)\n\n\nclass SparseTransformerSentenceEncoder(TransformerSentenceEncoder):\n    \"\"\"\n    Sparse implementation of the TransformerSentenceEncoder\n    - see SparseMultiheadAttention\n    \"\"\"\n\n    def __init__(\n        self,\n        padding_idx: int,\n        vocab_size: int,\n        num_encoder_layers: int = 6,\n        embedding_dim: int = 768,\n        ffn_embedding_dim: int = 3072,\n        num_attention_heads: int = 8,\n        dropout: float = 0.1,\n        attention_dropout: float = 0.1,\n        activation_dropout: float = 0.1,\n        max_seq_len: int = 256,\n        num_segments: int = 2,\n        use_position_embeddings: bool = True,\n        offset_positions_by_padding: bool = True,\n        encoder_normalize_before: bool = False,\n        apply_bert_init: bool = False,\n        activation_fn: str = \"relu\",\n        learned_pos_embedding: bool = True,\n        embed_scale: float = None,\n        freeze_embeddings: bool = False,\n        n_trans_layers_to_freeze: int = 0,\n        export: bool = False,\n        is_bidirectional: bool = True,\n        stride: int = 32,\n        expressivity: int = 8,\n    ) -> None:\n\n        super().__init__(\n            padding_idx,\n            vocab_size,\n            num_encoder_layers,\n            embedding_dim,\n            ffn_embedding_dim,\n            num_attention_heads,\n            dropout,\n            attention_dropout,\n            activation_dropout,\n            max_seq_len,\n            num_segments,\n            use_position_embeddings,\n            offset_positions_by_padding,\n            encoder_normalize_before,\n            apply_bert_init,\n            activation_fn,\n            learned_pos_embedding,\n            embed_scale,\n            freeze_embeddings,\n            n_trans_layers_to_freeze,\n            export,\n        )\n\n        self.layers = nn.ModuleList(\n            [\n                SparseTransformerSentenceEncoderLayer(\n                    embedding_dim=self.embedding_dim,\n                    ffn_embedding_dim=ffn_embedding_dim,\n                    num_attention_heads=num_attention_heads,\n                    dropout=dropout,\n                    attention_dropout=attention_dropout,\n                    activation_dropout=activation_dropout,\n                    activation_fn=activation_fn,\n                    export=export,\n                    is_bidirectional=is_bidirectional,\n                    stride=stride,\n                    expressivity=expressivity,\n                )\n                for _ in range(num_encoder_layers)\n            ]\n        )\n\n        def freeze_module_params(m):\n            if m is not None:\n                for p in m.parameters():\n                    p.requires_grad = False\n\n        for layer in range(n_trans_layers_to_freeze):\n            freeze_module_params(self.layers[layer])\n"
  },
  {
    "path": "fairseq/modules/sparse_transformer_sentence_encoder_layer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.modules import TransformerSentenceEncoderLayer\nfrom fairseq.modules.sparse_multihead_attention import SparseMultiheadAttention\n\n\nclass SparseTransformerSentenceEncoderLayer(TransformerSentenceEncoderLayer):\n    \"\"\"\n    Implements a Sprase Transformer Encoder Layer (see SparseMultiheadAttention)\n    \"\"\"\n\n    def __init__(\n        self,\n        embedding_dim: int = 768,\n        ffn_embedding_dim: int = 3072,\n        num_attention_heads: int = 8,\n        dropout: float = 0.1,\n        attention_dropout: float = 0.1,\n        activation_dropout: float = 0.1,\n        activation_fn: str = \"relu\",\n        export: bool = False,\n        is_bidirectional: bool = True,\n        stride: int = 32,\n        expressivity: int = 8,\n    ) -> None:\n\n        super().__init__(\n            embedding_dim,\n            ffn_embedding_dim,\n            num_attention_heads,\n            dropout,\n            attention_dropout,\n            activation_dropout,\n            activation_fn,\n            export,\n        )\n\n        self.self_attn = SparseMultiheadAttention(\n            self.embedding_dim,\n            num_attention_heads,\n            dropout=attention_dropout,\n            add_bias_kv=False,\n            add_zero_attn=False,\n            self_attention=True,\n            is_bidirectional=is_bidirectional,\n            stride=stride,\n            expressivity=expressivity,\n        )\n"
  },
  {
    "path": "fairseq/modules/transformer_layer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Dict, List, Optional\n\nimport torch\nimport torch.nn as nn\nfrom torch import Tensor\n\nfrom fairseq import utils\nfrom fairseq.models.transformer import TransformerConfig\nfrom fairseq.modules import LayerNorm, MultiheadAttention\nfrom fairseq.modules.fairseq_dropout import FairseqDropout\nfrom fairseq.modules.quant_noise import quant_noise\n\n\nclass TransformerEncoderLayerBase(nn.Module):\n    \"\"\"Encoder layer block.\n\n    In the original paper each operation (multi-head attention or FFN) is\n    postprocessed with: `dropout -> add residual -> layernorm`. In the\n    tensor2tensor code they suggest that learning is more robust when\n    preprocessing each layer with layernorm and postprocessing with:\n    `dropout -> add residual`. We default to the approach in the paper, but the\n    tensor2tensor approach can be enabled by setting\n    *cfg.encoder.normalize_before* to ``True``.\n\n    Args:\n        cfg (argparse.Namespace): parsed command-line arguments\n    \"\"\"\n\n    def __init__(self, cfg, return_fc=False):\n        super().__init__()\n        self.cfg = cfg\n        self.return_fc = return_fc\n        self.embed_dim = cfg.encoder.embed_dim\n        self.quant_noise = cfg.quant_noise.pq\n        self.quant_noise_block_size = cfg.quant_noise.pq_block_size\n        self.self_attn = self.build_self_attention(self.embed_dim, cfg)\n        self.self_attn_layer_norm = LayerNorm(self.embed_dim, export=cfg.export)\n        self.dropout_module = FairseqDropout(\n            cfg.dropout, module_name=self.__class__.__name__\n        )\n        self.activation_fn = utils.get_activation_fn(activation=cfg.activation_fn)\n        activation_dropout_p = cfg.activation_dropout\n        if activation_dropout_p == 0:\n            # for backwards compatibility with models that use cfg.relu_dropout\n            activation_dropout_p = cfg.relu_dropout or 0\n        self.activation_dropout_module = FairseqDropout(\n            float(activation_dropout_p), module_name=self.__class__.__name__\n        )\n        self.normalize_before = cfg.encoder.normalize_before\n        self.fc1 = self.build_fc1(\n            self.embed_dim,\n            cfg.encoder.ffn_embed_dim,\n            self.quant_noise,\n            self.quant_noise_block_size,\n        )\n        self.fc2 = self.build_fc2(\n            cfg.encoder.ffn_embed_dim,\n            self.embed_dim,\n            self.quant_noise,\n            self.quant_noise_block_size,\n        )\n\n        self.final_layer_norm = LayerNorm(self.embed_dim, export=cfg.export)\n\n    def build_fc1(self, input_dim, output_dim, q_noise, qn_block_size):\n        return quant_noise(\n            nn.Linear(input_dim, output_dim), p=q_noise, block_size=qn_block_size\n        )\n\n    def build_fc2(self, input_dim, output_dim, q_noise, qn_block_size):\n        return quant_noise(\n            nn.Linear(input_dim, output_dim), p=q_noise, block_size=qn_block_size\n        )\n\n    def _get_fc_rank(self, remove_num: int) -> List[int]:\n        f1_filter_param = []\n        for i in range(self.fc1.out_features):\n            f1_filter_param.append(\n                torch.sum(torch.abs(self.fc1.weight[i]))\n                + torch.sum(torch.abs(self.fc2.weight[:, i]))\n                + torch.abs(self.fc1.bias[i])\n            )\n        return sorted(\n            range(len(f1_filter_param)), key=lambda k: f1_filter_param[k], reverse=False\n        )[0:remove_num]\n\n    def _prune_fc_layer(self, remove_index: List[int]):\n        new_fc1_weight = []\n        new_fc1_bias = []\n        for i in range(self.fc1.out_features):\n            if i not in remove_index:\n                new_fc1_weight.append(self.fc1.weight[i])\n                new_fc1_bias.append(self.fc1.bias[i])\n\n        new_fc1_weight = torch.stack(new_fc1_weight).detach()\n        new_fc1_weight.requires_grad = True\n\n        new_fc1_bias = torch.stack(new_fc1_bias).detach()\n        new_fc1_bias.requires_grad = True\n\n        self.fc1 = quant_noise(\n            nn.Linear(self.fc1.in_features, self.fc1.out_features - len(remove_index)),\n            p=self.quant_noise,\n            block_size=self.quant_noise_block_size,\n        )\n        self.fc1.weight = torch.nn.Parameter(new_fc1_weight)\n        self.fc1.bias = torch.nn.Parameter(new_fc1_bias)\n\n        new_fc2_weight = []\n        new_fc2_bias = []\n        for i in range(self.fc2.in_features):\n            if i not in remove_index:\n                new_fc2_weight.append(self.fc2.weight[:, i])\n        new_fc2_bias = self.fc2.bias.detach()\n\n        new_fc2_weight = torch.stack(new_fc2_weight, dim=-1).detach()\n        new_fc2_weight.requires_grad = True\n\n        new_fc2_bias = self.fc2.bias.detach()\n        new_fc2_bias.requires_grad = True\n\n        self.fc2 = quant_noise(\n            nn.Linear(self.fc2.in_features - len(remove_index), self.fc2.out_features),\n            p=self.quant_noise,\n            block_size=self.quant_noise_block_size,\n        )\n        self.fc2.weight = torch.nn.Parameter(new_fc2_weight)\n        self.fc2.bias = torch.nn.Parameter(new_fc2_bias)\n\n    def build_self_attention(self, embed_dim, cfg):\n        return MultiheadAttention(\n            embed_dim,\n            cfg.encoder.attention_heads,\n            dropout=cfg.attention_dropout,\n            self_attention=True,\n            q_noise=self.quant_noise,\n            qn_block_size=self.quant_noise_block_size,\n            xformers_att_config=cfg.encoder.xformers_att_config,\n        )\n\n    def residual_connection(self, x, residual):\n        return residual + x\n\n    def upgrade_state_dict_named(self, state_dict, name):\n        \"\"\"\n        Rename layer norm states from `...layer_norms.0.weight` to\n        `...self_attn_layer_norm.weight` and `...layer_norms.1.weight` to\n        `...final_layer_norm.weight`\n        \"\"\"\n        layer_norm_map = {\"0\": \"self_attn_layer_norm\", \"1\": \"final_layer_norm\"}\n        for old, new in layer_norm_map.items():\n            for m in (\"weight\", \"bias\"):\n                k = \"{}.layer_norms.{}.{}\".format(name, old, m)\n                if k in state_dict:\n                    state_dict[\"{}.{}.{}\".format(name, new, m)] = state_dict[k]\n                    del state_dict[k]\n\n    def forward(\n        self,\n        x,\n        encoder_padding_mask: Optional[Tensor],\n        attn_mask: Optional[Tensor] = None,\n    ):\n        \"\"\"\n        Args:\n            x (Tensor): input to the layer of shape `(seq_len, batch, embed_dim)`\n            encoder_padding_mask (ByteTensor): binary ByteTensor of shape\n                `(batch, seq_len)` where padding elements are indicated by ``1``.\n            attn_mask (ByteTensor): binary tensor of shape `(tgt_len, src_len)`,\n                where `tgt_len` is the length of output and `src_len` is the\n                length of input, though here both are equal to `seq_len`.\n                `attn_mask[tgt_i, src_j] = 1` means that when calculating the\n                embedding for `tgt_i`, we exclude (mask out) `src_j`. This is\n                useful for strided self-attention.\n\n        Returns:\n            encoded output of shape `(seq_len, batch, embed_dim)`\n        \"\"\"\n        # anything in original attn_mask = 1, becomes -1e8\n        # anything in original attn_mask = 0, becomes 0\n        # Note that we cannot use -inf here, because at some edge cases,\n        # the attention weight (before softmax) for some padded element in query\n        # will become -inf, which results in NaN in model parameters\n        if attn_mask is not None:\n            attn_mask = attn_mask.masked_fill(\n                attn_mask.to(torch.bool), -1e8 if x.dtype == torch.float32 else -1e4\n            )\n\n        residual = x\n        if self.normalize_before:\n            x = self.self_attn_layer_norm(x)\n        x, _ = self.self_attn(\n            query=x,\n            key=x,\n            value=x,\n            key_padding_mask=encoder_padding_mask,\n            need_weights=False,\n            attn_mask=attn_mask,\n        )\n        x = self.dropout_module(x)\n        x = self.residual_connection(x, residual)\n        if not self.normalize_before:\n            x = self.self_attn_layer_norm(x)\n\n        residual = x\n        if self.normalize_before:\n            x = self.final_layer_norm(x)\n        x = self.activation_fn(self.fc1(x))\n        x = self.activation_dropout_module(x)\n        x = self.fc2(x)\n\n        fc_result = x\n\n        x = self.dropout_module(x)\n        x = self.residual_connection(x, residual)\n        if not self.normalize_before:\n            x = self.final_layer_norm(x)\n\n        if self.return_fc and not torch.jit.is_scripting():\n            return x, fc_result\n        return x\n\n\n# backward compatible with the legacy argparse format\nclass TransformerEncoderLayer(TransformerEncoderLayerBase):\n    def __init__(self, args):\n        super().__init__(TransformerConfig.from_namespace(args))\n        self.args = args\n\n    def build_self_attention(self, embed_dim, args):\n        return super().build_self_attention(\n            embed_dim, TransformerConfig.from_namespace(args)\n        )\n\n\nclass TransformerDecoderLayerBase(nn.Module):\n    \"\"\"Decoder layer block.\n\n    In the original paper each operation (multi-head attention, encoder\n    attention or FFN) is postprocessed with: `dropout -> add residual ->\n    layernorm`. In the tensor2tensor code they suggest that learning is more\n    robust when preprocessing each layer with layernorm and postprocessing with:\n    `dropout -> add residual`. We default to the approach in the paper, but the\n    tensor2tensor approach can be enabled by setting\n    *cfg.decoder.normalize_before* to ``True``.\n\n    Args:\n        args (argparse.Namespace): parsed command-line arguments\n        no_encoder_attn (bool, optional): whether to attend to encoder outputs\n            (default: False).\n    \"\"\"\n\n    def __init__(\n        self, cfg, no_encoder_attn=False, add_bias_kv=False, add_zero_attn=False\n    ):\n        super().__init__()\n        self.embed_dim = cfg.decoder.embed_dim\n        self.dropout_module = FairseqDropout(\n            cfg.dropout, module_name=self.__class__.__name__\n        )\n        self.quant_noise = cfg.quant_noise.pq\n        self.quant_noise_block_size = cfg.quant_noise.pq_block_size\n\n        self.cross_self_attention = cfg.cross_self_attention\n\n        self.self_attn = self.build_self_attention(\n            self.embed_dim,\n            cfg,\n            add_bias_kv=add_bias_kv,\n            add_zero_attn=add_zero_attn,\n        )\n        self.attn_ln = (\n            LayerNorm(self.embed_dim)\n            if utils.safe_getattr(cfg, \"scale_attn\", False)\n            else None\n        )\n        self.nh = self.self_attn.num_heads\n        self.head_dim = self.self_attn.head_dim\n        scale_heads = utils.safe_getattr(cfg, \"scale_heads\", False)\n        self.c_attn = (\n            nn.Parameter(torch.ones((self.nh,)), requires_grad=True)\n            if scale_heads\n            else None\n        )\n\n        self.activation_fn = utils.get_activation_fn(activation=cfg.activation_fn)\n        activation_dropout_p = cfg.activation_dropout\n        if activation_dropout_p == 0:\n            # for backwards compatibility with models that use cfg.relu_dropout\n            activation_dropout_p = cfg.relu_dropout or 0\n        self.activation_dropout_module = FairseqDropout(\n            float(activation_dropout_p), module_name=self.__class__.__name__\n        )\n        self.normalize_before = cfg.decoder.normalize_before\n\n        self.self_attn_layer_norm = LayerNorm(self.embed_dim, export=cfg.export)\n\n        if no_encoder_attn:\n            self.encoder_attn = None\n            self.encoder_attn_layer_norm = None\n        else:\n            self.encoder_attn = self.build_encoder_attention(self.embed_dim, cfg)\n            self.encoder_attn_layer_norm = LayerNorm(self.embed_dim, export=cfg.export)\n\n        self.ffn_layernorm = (\n            LayerNorm(cfg.decoder.ffn_embed_dim)\n            if utils.safe_getattr(cfg, \"scale_fc\", False)\n            else None\n        )\n        self.w_resid = (\n            nn.Parameter(\n                torch.ones(\n                    self.embed_dim,\n                ),\n                requires_grad=True,\n            )\n            if utils.safe_getattr(cfg, \"scale_resids\", False)\n            else None\n        )\n\n        self.fc1 = self.build_fc1(\n            self.embed_dim,\n            cfg.decoder.ffn_embed_dim,\n            self.quant_noise,\n            self.quant_noise_block_size,\n        )\n        self.fc2 = self.build_fc2(\n            cfg.decoder.ffn_embed_dim,\n            self.embed_dim,\n            self.quant_noise,\n            self.quant_noise_block_size,\n        )\n\n        self.final_layer_norm = LayerNorm(self.embed_dim, export=cfg.export)\n        self.need_attn = True\n\n        self.onnx_trace = False\n\n    def build_fc1(self, input_dim, output_dim, q_noise, qn_block_size):\n        return quant_noise(nn.Linear(input_dim, output_dim), q_noise, qn_block_size)\n\n    def build_fc2(self, input_dim, output_dim, q_noise, qn_block_size):\n        return quant_noise(nn.Linear(input_dim, output_dim), q_noise, qn_block_size)\n\n    def build_self_attention(\n        self, embed_dim, cfg, add_bias_kv=False, add_zero_attn=False\n    ):\n        return MultiheadAttention(\n            embed_dim,\n            cfg.decoder.attention_heads,\n            dropout=cfg.attention_dropout,\n            add_bias_kv=add_bias_kv,\n            add_zero_attn=add_zero_attn,\n            self_attention=not cfg.cross_self_attention,\n            q_noise=self.quant_noise,\n            qn_block_size=self.quant_noise_block_size,\n            xformers_att_config=cfg.decoder.xformers_att_config,\n        )\n\n    def build_encoder_attention(self, embed_dim, cfg):\n        return MultiheadAttention(\n            embed_dim,\n            cfg.decoder.attention_heads,\n            kdim=cfg.encoder.embed_dim,\n            vdim=cfg.encoder.embed_dim,\n            dropout=cfg.attention_dropout,\n            encoder_decoder_attention=True,\n            q_noise=self.quant_noise,\n            qn_block_size=self.quant_noise_block_size,\n            xformers_att_config=cfg.encoder.xformers_att_config,\n        )\n\n    def prepare_for_onnx_export_(self):\n        self.onnx_trace = True\n\n    def residual_connection(self, x, residual):\n        return residual + x\n\n    def forward(\n        self,\n        x,\n        encoder_out: Optional[torch.Tensor] = None,\n        encoder_padding_mask: Optional[torch.Tensor] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        prev_self_attn_state: Optional[List[torch.Tensor]] = None,\n        prev_attn_state: Optional[List[torch.Tensor]] = None,\n        self_attn_mask: Optional[torch.Tensor] = None,\n        self_attn_padding_mask: Optional[torch.Tensor] = None,\n        need_attn: bool = False,\n        need_head_weights: bool = False,\n    ):\n        \"\"\"\n        Args:\n            x (Tensor): input to the layer of shape `(seq_len, batch, embed_dim)`\n            encoder_padding_mask (ByteTensor, optional): binary\n                ByteTensor of shape `(batch, src_len)` where padding\n                elements are indicated by ``1``.\n            need_attn (bool, optional): return attention weights\n            need_head_weights (bool, optional): return attention weights\n                for each head (default: return average over heads).\n\n        Returns:\n            encoded output of shape `(seq_len, batch, embed_dim)`\n        \"\"\"\n        if need_head_weights:\n            need_attn = True\n\n        residual = x\n        if self.normalize_before:\n            x = self.self_attn_layer_norm(x)\n        if prev_self_attn_state is not None:\n            prev_key, prev_value = prev_self_attn_state[:2]\n            saved_state: Dict[str, Optional[Tensor]] = {\n                \"prev_key\": prev_key,\n                \"prev_value\": prev_value,\n            }\n            if len(prev_self_attn_state) >= 3:\n                saved_state[\"prev_key_padding_mask\"] = prev_self_attn_state[2]\n            assert incremental_state is not None\n            self.self_attn._set_input_buffer(incremental_state, saved_state)\n        _self_attn_input_buffer = self.self_attn._get_input_buffer(incremental_state)\n        if self.cross_self_attention and not (\n            incremental_state is not None\n            and _self_attn_input_buffer is not None\n            and \"prev_key\" in _self_attn_input_buffer\n        ):\n            if self_attn_mask is not None:\n                assert encoder_out is not None\n                self_attn_mask = torch.cat(\n                    (x.new_zeros(x.size(0), encoder_out.size(0)), self_attn_mask), dim=1\n                )\n            if self_attn_padding_mask is not None:\n                if encoder_padding_mask is None:\n                    assert encoder_out is not None\n                    encoder_padding_mask = self_attn_padding_mask.new_zeros(\n                        encoder_out.size(1), encoder_out.size(0)\n                    )\n                self_attn_padding_mask = torch.cat(\n                    (encoder_padding_mask, self_attn_padding_mask), dim=1\n                )\n            assert encoder_out is not None\n            y = torch.cat((encoder_out, x), dim=0)\n        else:\n            y = x\n\n        x, attn = self.self_attn(\n            query=x,\n            key=y,\n            value=y,\n            key_padding_mask=self_attn_padding_mask,\n            incremental_state=incremental_state,\n            need_weights=False,\n            attn_mask=self_attn_mask,\n        )\n        if self.c_attn is not None:\n            tgt_len, bsz = x.size(0), x.size(1)\n            x = x.view(tgt_len, bsz, self.nh, self.head_dim)\n            x = torch.einsum(\"tbhd,h->tbhd\", x, self.c_attn)\n            x = x.reshape(tgt_len, bsz, self.embed_dim)\n        if self.attn_ln is not None:\n            x = self.attn_ln(x)\n        x = self.dropout_module(x)\n        x = self.residual_connection(x, residual)\n        if not self.normalize_before:\n            x = self.self_attn_layer_norm(x)\n\n        if self.encoder_attn is not None and encoder_out is not None:\n            residual = x\n            if self.normalize_before:\n                x = self.encoder_attn_layer_norm(x)\n            if prev_attn_state is not None:\n                prev_key, prev_value = prev_attn_state[:2]\n                saved_state: Dict[str, Optional[Tensor]] = {\n                    \"prev_key\": prev_key,\n                    \"prev_value\": prev_value,\n                }\n                if len(prev_attn_state) >= 3:\n                    saved_state[\"prev_key_padding_mask\"] = prev_attn_state[2]\n                assert incremental_state is not None\n                self.encoder_attn._set_input_buffer(incremental_state, saved_state)\n\n            x, attn = self.encoder_attn(\n                query=x,\n                key=encoder_out,\n                value=encoder_out,\n                key_padding_mask=encoder_padding_mask,\n                incremental_state=incremental_state,\n                static_kv=True,\n                need_weights=need_attn or (not self.training and self.need_attn),\n                need_head_weights=need_head_weights,\n            )\n            x = self.dropout_module(x)\n            x = self.residual_connection(x, residual)\n            if not self.normalize_before:\n                x = self.encoder_attn_layer_norm(x)\n\n        residual = x\n        if self.normalize_before:\n            x = self.final_layer_norm(x)\n\n        x = self.activation_fn(self.fc1(x))\n        x = self.activation_dropout_module(x)\n        if self.ffn_layernorm is not None:\n            x = self.ffn_layernorm(x)\n        x = self.fc2(x)\n        x = self.dropout_module(x)\n        if self.w_resid is not None:\n            residual = torch.mul(self.w_resid, residual)\n        x = self.residual_connection(x, residual)\n        if not self.normalize_before:\n            x = self.final_layer_norm(x)\n        if self.onnx_trace and incremental_state is not None:\n            saved_state = self.self_attn._get_input_buffer(incremental_state)\n            assert saved_state is not None\n            if self_attn_padding_mask is not None:\n                self_attn_state = [\n                    saved_state[\"prev_key\"],\n                    saved_state[\"prev_value\"],\n                    saved_state[\"prev_key_padding_mask\"],\n                ]\n            else:\n                self_attn_state = [saved_state[\"prev_key\"], saved_state[\"prev_value\"]]\n            return x, attn, self_attn_state\n        return x, attn, None\n\n    def make_generation_fast_(self, need_attn: bool = False, **kwargs):\n        self.need_attn = need_attn\n\n\n# backward compatible with the legacy argparse format\nclass TransformerDecoderLayer(TransformerDecoderLayerBase):\n    def __init__(\n        self, args, no_encoder_attn=False, add_bias_kv=False, add_zero_attn=False\n    ):\n        super().__init__(\n            TransformerConfig.from_namespace(args),\n            no_encoder_attn=no_encoder_attn,\n            add_bias_kv=add_bias_kv,\n            add_zero_attn=add_zero_attn,\n        )\n        self.args = args\n\n    def build_self_attention(\n        self, embed_dim, args, add_bias_kv=False, add_zero_attn=False\n    ):\n        return super().build_self_attention(\n            embed_dim,\n            TransformerConfig.from_namespace(args),\n            add_bias_kv=add_bias_kv,\n            add_zero_attn=add_zero_attn,\n        )\n\n    def build_encoder_attention(self, embed_dim, args):\n        return super().build_encoder_attention(\n            embed_dim,\n            TransformerConfig.from_namespace(args),\n        )\n"
  },
  {
    "path": "fairseq/modules/transformer_layer_aug.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Dict, List, Optional\n\nimport torch\nfrom numpy.random import uniform\nfrom torch import Tensor\n\nfrom fairseq.modules import LayerNorm\nfrom fairseq.modules.transformer_layer import TransformerDecoderLayerBase\n\n\nclass AugTransformerDecoderLayerBase(TransformerDecoderLayerBase):\n    \"\"\"Decoder layer block augmented with an additional cross-attention.\n\n    This decoder block is processed with the sequence of the following sub-modules.\n        self-attention -> cross-attention (first) -> cross-attention (second) -> FFN\n\n    Args:\n        cfg (argparse.Namespace): parsed command-line arguments\n        encoder_attn_merge_type (str, optional): the way to combine outputs from\n            two cross-attention modules. If \"sequential\" is set, two cross-attention\n            modules are stacked sequentially. If \"parallel\" is set, they are processed\n            in parallel and combined before feeding it to FFN (default: sequential).\n        dropnet_ratio (float, optional): a probability to drop each cross-attention\n            module during training (default: 0.0).\n    \"\"\"\n\n    def __init__(\n        self,\n        cfg,\n        add_bias_kv=False,\n        add_zero_attn=False,\n        encoder_attn_merge_type=\"sequential\",\n        dropnet_ratio=0.0,\n    ):\n        super().__init__(\n            cfg,\n            no_encoder_attn=False,\n            add_bias_kv=add_bias_kv,\n            add_zero_attn=False,\n        )\n        self.encoder_attn = self.build_encoder_attention(self.embed_dim, cfg)\n        self.encoder_attn_layer_norm = LayerNorm(self.embed_dim, export=cfg.export)\n        self.encoder_attn2 = self.build_encoder_attention(self.embed_dim, cfg)\n        if encoder_attn_merge_type == \"sequential\":\n            self.encoder_attn_layer_norm2 = LayerNorm(self.embed_dim, export=cfg.export)\n        else:\n            self.encoder_attn_layer_norm2 = None\n\n        self.encoder_attn_merge_type = encoder_attn_merge_type\n        self.dropnet_ratio = dropnet_ratio\n\n    def forward(\n        self,\n        x,\n        encoder_out: Optional[torch.Tensor] = None,\n        encoder_padding_mask: Optional[torch.Tensor] = None,\n        encoder_out_aug: Optional[torch.Tensor] = None,\n        encoder_padding_mask2: Optional[torch.Tensor] = None,\n        incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]] = None,\n        prev_self_attn_state: Optional[List[torch.Tensor]] = None,\n        prev_attn_state: Optional[List[torch.Tensor]] = None,\n        self_attn_mask: Optional[torch.Tensor] = None,\n        self_attn_padding_mask: Optional[torch.Tensor] = None,\n        need_attn: bool = False,\n        need_head_weights: bool = False,\n    ):\n        \"\"\"\n        Args:\n            x (Tensor): input to the layer of shape `(seq_len, batch, embed_dim)`\n            encoder_padding_mask (ByteTensor, optional): binary\n                ByteTensor of shape `(batch, src_len)` where padding\n                elements are indicated by ``1``.\n            need_attn (bool, optional): return attention weights\n            need_head_weights (bool, optional): return attention weights\n                for each head (default: return average over heads).\n\n        Returns:\n            encoded output of shape `(seq_len, batch, embed_dim)`\n        \"\"\"\n        if need_head_weights:\n            need_attn = True\n\n        residual = x\n        if self.normalize_before:\n            x = self.self_attn_layer_norm(x)\n        if prev_self_attn_state is not None:\n            prev_key, prev_value = prev_self_attn_state[:2]\n            saved_state: Dict[str, Optional[Tensor]] = {\n                \"prev_key\": prev_key,\n                \"prev_value\": prev_value,\n            }\n            if len(prev_self_attn_state) >= 3:\n                saved_state[\"prev_key_padding_mask\"] = prev_self_attn_state[2]\n            assert incremental_state is not None\n            self.self_attn._set_input_buffer(incremental_state, saved_state)\n        _self_attn_input_buffer = self.self_attn._get_input_buffer(incremental_state)\n        if self.cross_self_attention and not (\n            incremental_state is not None\n            and _self_attn_input_buffer is not None\n            and \"prev_key\" in _self_attn_input_buffer\n        ):\n            if self_attn_mask is not None:\n                assert encoder_out is not None\n                self_attn_mask = torch.cat(\n                    (x.new_zeros(x.size(0), encoder_out.size(0)), self_attn_mask), dim=1\n                )\n            if self_attn_padding_mask is not None:\n                if encoder_padding_mask is None:\n                    assert encoder_out is not None\n                    encoder_padding_mask = self_attn_padding_mask.new_zeros(\n                        encoder_out.size(1), encoder_out.size(0)\n                    )\n                self_attn_padding_mask = torch.cat(\n                    (encoder_padding_mask, self_attn_padding_mask), dim=1\n                )\n            assert encoder_out is not None\n            y = torch.cat((encoder_out, x), dim=0)\n        else:\n            y = x\n\n        x, attn = self.self_attn(\n            query=x,\n            key=y,\n            value=y,\n            key_padding_mask=self_attn_padding_mask,\n            incremental_state=incremental_state,\n            need_weights=False,\n            attn_mask=self_attn_mask,\n        )\n        if self.c_attn is not None:\n            tgt_len, bsz = x.size(0), x.size(1)\n            x = x.view(tgt_len, bsz, self.nh, self.head_dim)\n            x = torch.einsum(\"tbhd,h->tbhd\", x, self.c_attn)\n            x = x.reshape(tgt_len, bsz, self.embed_dim)\n        if self.attn_ln is not None:\n            x = self.attn_ln(x)\n        x = self.dropout_module(x)\n        x = self.residual_connection(x, residual)\n        if not self.normalize_before:\n            x = self.self_attn_layer_norm(x)\n\n        assert encoder_out is not None\n        assert encoder_out_aug is not None\n\n        if self.encoder_attn_merge_type == \"sequential\":\n            ratios = self.get_dropnet_ratio()\n\n            # first encoder attention\n            if ratios[0] > 0:\n                residual = x\n                if self.normalize_before:\n                    x = self.encoder_attn_layer_norm(x)\n                if prev_attn_state is not None:\n                    prev_key, prev_value = prev_attn_state[:2]\n                    saved_state: Dict[str, Optional[Tensor]] = {\n                        \"prev_key\": prev_key,\n                        \"prev_value\": prev_value,\n                    }\n                    if len(prev_attn_state) >= 3:\n                        saved_state[\"prev_key_padding_mask\"] = prev_attn_state[2]\n                    assert incremental_state is not None\n                    self.encoder_attn._set_input_buffer(incremental_state, saved_state)\n\n                x, attn = self.encoder_attn(\n                    query=x,\n                    key=encoder_out,\n                    value=encoder_out,\n                    key_padding_mask=encoder_padding_mask,\n                    incremental_state=incremental_state,\n                    static_kv=True,\n                    need_weights=need_attn or (not self.training and self.need_attn),\n                    need_head_weights=need_head_weights,\n                )\n                x = self.dropout_module(x)\n                x = self.residual_connection(x, residual)\n                if not self.normalize_before:\n                    x = self.encoder_attn_layer_norm(x)\n                x = ratios[0] * x\n\n            # second encoder attention\n            if ratios[1] > 0:\n                residual = x\n                if self.normalize_before:\n                    x = self.encoder_attn_layer_norm2(x)\n                if prev_attn_state is not None:\n                    prev_key, prev_value = prev_attn_state[:2]\n                    saved_state: Dict[str, Optional[Tensor]] = {\n                        \"prev_key\": prev_key,\n                        \"prev_value\": prev_value,\n                    }\n                    if len(prev_attn_state) >= 3:\n                        saved_state[\"prev_key_padding_mask\"] = prev_attn_state[2]\n                    assert incremental_state is not None\n                    self.encoder_attn2._set_input_buffer(incremental_state, saved_state)\n\n                x, attn2 = self.encoder_attn2(\n                    query=x,\n                    key=encoder_out_aug,\n                    value=encoder_out_aug,\n                    key_padding_mask=encoder_padding_mask2,\n                    incremental_state=incremental_state,\n                    static_kv=True,\n                    need_weights=need_attn or (not self.training and self.need_attn),\n                    need_head_weights=need_head_weights,\n                )\n                x = self.dropout_module(x)\n                x = self.residual_connection(x, residual)\n                if not self.normalize_before:\n                    x = self.encoder_attn_layer_norm2(x)\n                x = ratios[1] * x\n\n        elif self.encoder_attn_merge_type == \"parallel\":\n            residual = x\n            if self.normalize_before:\n                x = self.encoder_attn_layer_norm(x)\n            if prev_attn_state is not None:\n                prev_key, prev_value = prev_attn_state[:2]\n                saved_state: Dict[str, Optional[Tensor]] = {\n                    \"prev_key\": prev_key,\n                    \"prev_value\": prev_value,\n                }\n                if len(prev_attn_state) >= 3:\n                    saved_state[\"prev_key_padding_mask\"] = prev_attn_state[2]\n                assert incremental_state is not None\n                self.encoder_attn._set_input_buffer(incremental_state, saved_state)\n\n            x1, attn = self.encoder_attn(\n                query=x,\n                key=encoder_out,\n                value=encoder_out,\n                key_padding_mask=encoder_padding_mask,\n                incremental_state=incremental_state,\n                static_kv=True,\n                need_weights=need_attn or (not self.training and self.need_attn),\n                need_head_weights=need_head_weights,\n            )\n            x2, attn2 = self.encoder_attn2(\n                query=x,\n                key=encoder_out_aug,\n                value=encoder_out_aug,\n                key_padding_mask=encoder_padding_mask2,\n                incremental_state=incremental_state,\n                static_kv=True,\n                need_weights=need_attn or (not self.training and self.need_attn),\n                need_head_weights=need_head_weights,\n            )\n            x1 = self.dropout_module(x1)\n            x2 = self.dropout_module(x2)\n            ratios = self.get_dropnet_ratio()\n            x = ratios[0] * x1 + ratios[1] * x2\n            x = self.residual_connection(x, residual)\n            if not self.normalize_before:\n                x = self.encoder_attn_layer_norm(x)\n\n        else:\n            raise NotImplementedError(self.encoder_attn_merge_type)\n\n        residual = x\n        if self.normalize_before:\n            x = self.final_layer_norm(x)\n\n        x = self.activation_fn(self.fc1(x))\n        x = self.activation_dropout_module(x)\n        if self.ffn_layernorm is not None:\n            x = self.ffn_layernorm(x)\n        x = self.fc2(x)\n        x = self.dropout_module(x)\n        if self.w_resid is not None:\n            residual = torch.mul(self.w_resid, residual)\n        x = self.residual_connection(x, residual)\n        if not self.normalize_before:\n            x = self.final_layer_norm(x)\n        if self.onnx_trace and incremental_state is not None:\n            saved_state = self.self_attn._get_input_buffer(incremental_state)\n            assert saved_state is not None\n            if self_attn_padding_mask is not None:\n                self_attn_state = [\n                    saved_state[\"prev_key\"],\n                    saved_state[\"prev_value\"],\n                    saved_state[\"prev_key_padding_mask\"],\n                ]\n            else:\n                self_attn_state = [saved_state[\"prev_key\"], saved_state[\"prev_value\"]]\n            return x, attn, attn2, self_attn_state\n        return x, attn, attn2, None\n\n    def get_dropnet_ratio(self):\n        if self.encoder_attn_merge_type == \"sequential\":\n            if self.dropnet_ratio > 0:\n                frand = float(uniform(0, 1))\n                if frand < self.dropnet_ratio and self.training:\n                    return [2, 0]\n                elif frand > 1 - self.dropnet_ratio and self.training:\n                    return [0, 2]\n                else:\n                    return [1, 1]\n            else:\n                return [1, 1]\n\n        elif self.encoder_attn_merge_type == \"parallel\":\n            if self.dropnet_ratio > 0:\n                frand = float(uniform(0, 1))\n                if frand < self.dropnet_ratio and self.training:\n                    return [1, 0]\n                elif frand > 1 - self.dropnet_ratio and self.training:\n                    return [0, 1]\n                else:\n                    return [0.5, 0.5]\n            else:\n                return [0.5, 0.5]\n"
  },
  {
    "path": "fairseq/modules/transformer_sentence_encoder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Optional, Tuple\n\nimport torch\nimport torch.nn as nn\nfrom fairseq.modules import (\n    FairseqDropout,\n    LayerDropModuleList,\n    LayerNorm,\n    MultiheadAttention,\n    PositionalEmbedding,\n    TransformerSentenceEncoderLayer,\n)\nfrom fairseq.modules.quant_noise import quant_noise as apply_quant_noise_\n\n\ndef init_bert_params(module):\n    \"\"\"\n    Initialize the weights specific to the BERT Model.\n    This overrides the default initializations depending on the specified arguments.\n        1. If normal_init_linear_weights is set then weights of linear\n           layer will be initialized using the normal distribution and\n           bais will be set to the specified value.\n        2. If normal_init_embed_weights is set then weights of embedding\n           layer will be initialized using the normal distribution.\n        3. If normal_init_proj_weights is set then weights of\n           in_project_weight for MultiHeadAttention initialized using\n           the normal distribution (to be validated).\n    \"\"\"\n\n    def normal_(data):\n        # with FSDP, module params will be on CUDA, so we cast them back to CPU\n        # so that the RNG is consistent with and without FSDP\n        data.copy_(data.cpu().normal_(mean=0.0, std=0.02).to(data.device))\n\n    if isinstance(module, nn.Linear):\n        normal_(module.weight.data)\n        if module.bias is not None:\n            module.bias.data.zero_()\n    if isinstance(module, nn.Embedding):\n        normal_(module.weight.data)\n        if module.padding_idx is not None:\n            module.weight.data[module.padding_idx].zero_()\n    if isinstance(module, MultiheadAttention):\n        normal_(module.q_proj.weight.data)\n        normal_(module.k_proj.weight.data)\n        normal_(module.v_proj.weight.data)\n\n\nclass TransformerSentenceEncoder(nn.Module):\n    \"\"\"\n    Implementation for a Bi-directional Transformer based Sentence Encoder used\n    in BERT/XLM style pre-trained models.\n\n    This first computes the token embedding using the token embedding matrix,\n    position embeddings (if specified) and segment embeddings\n    (if specified). After applying the specified number of\n    TransformerEncoderLayers, it outputs all the internal states of the\n    encoder as well as the final representation associated with the first\n    token (usually CLS token).\n\n    Input:\n        - tokens: B x T matrix representing sentences\n        - segment_labels: B x T matrix representing segment label for tokens\n\n    Output:\n        - a tuple of the following:\n            - a list of internal model states used to compute the\n              predictions where each tensor has shape T x B x C\n            - sentence representation associated with first input token\n              in format B x C.\n    \"\"\"\n\n    def __init__(\n        self,\n        padding_idx: int,\n        vocab_size: int,\n        num_encoder_layers: int = 6,\n        embedding_dim: int = 768,\n        ffn_embedding_dim: int = 3072,\n        num_attention_heads: int = 8,\n        dropout: float = 0.1,\n        attention_dropout: float = 0.1,\n        activation_dropout: float = 0.1,\n        layerdrop: float = 0.0,\n        max_seq_len: int = 256,\n        num_segments: int = 2,\n        use_position_embeddings: bool = True,\n        offset_positions_by_padding: bool = True,\n        encoder_normalize_before: bool = False,\n        apply_bert_init: bool = False,\n        activation_fn: str = \"relu\",\n        learned_pos_embedding: bool = True,\n        embed_scale: float = None,\n        freeze_embeddings: bool = False,\n        n_trans_layers_to_freeze: int = 0,\n        export: bool = False,\n        traceable: bool = False,\n        q_noise: float = 0.0,\n        qn_block_size: int = 8,\n    ) -> None:\n\n        super().__init__()\n        self.padding_idx = padding_idx\n        self.vocab_size = vocab_size\n        self.dropout_module = FairseqDropout(\n            dropout, module_name=self.__class__.__name__\n        )\n        self.layerdrop = layerdrop\n        self.max_seq_len = max_seq_len\n        self.embedding_dim = embedding_dim\n        self.num_segments = num_segments\n        self.use_position_embeddings = use_position_embeddings\n        self.apply_bert_init = apply_bert_init\n        self.learned_pos_embedding = learned_pos_embedding\n        self.traceable = traceable\n\n        self.embed_tokens = self.build_embedding(\n            self.vocab_size, self.embedding_dim, self.padding_idx\n        )\n        self.embed_scale = embed_scale\n\n        if q_noise > 0:\n            self.quant_noise = apply_quant_noise_(\n                nn.Linear(self.embedding_dim, self.embedding_dim, bias=False),\n                q_noise,\n                qn_block_size,\n            )\n        else:\n            self.quant_noise = None\n\n        self.segment_embeddings = (\n            nn.Embedding(self.num_segments, self.embedding_dim, padding_idx=None)\n            if self.num_segments > 0\n            else None\n        )\n\n        self.embed_positions = (\n            PositionalEmbedding(\n                self.max_seq_len,\n                self.embedding_dim,\n                padding_idx=(self.padding_idx if offset_positions_by_padding else None),\n                learned=self.learned_pos_embedding,\n            )\n            if self.use_position_embeddings\n            else None\n        )\n\n        if encoder_normalize_before:\n            self.emb_layer_norm = LayerNorm(self.embedding_dim, export=export)\n        else:\n            self.emb_layer_norm = None\n\n        if self.layerdrop > 0.0:\n            self.layers = LayerDropModuleList(p=self.layerdrop)\n        else:\n            self.layers = nn.ModuleList([])\n        self.layers.extend(\n            [\n                self.build_transformer_sentence_encoder_layer(\n                    embedding_dim=self.embedding_dim,\n                    ffn_embedding_dim=ffn_embedding_dim,\n                    num_attention_heads=num_attention_heads,\n                    dropout=self.dropout_module.p,\n                    attention_dropout=attention_dropout,\n                    activation_dropout=activation_dropout,\n                    activation_fn=activation_fn,\n                    export=export,\n                    q_noise=q_noise,\n                    qn_block_size=qn_block_size,\n                )\n                for _ in range(num_encoder_layers)\n            ]\n        )\n\n        # Apply initialization of model params after building the model\n        if self.apply_bert_init:\n            self.apply(init_bert_params)\n\n        def freeze_module_params(m):\n            if m is not None:\n                for p in m.parameters():\n                    p.requires_grad = False\n\n        if freeze_embeddings:\n            freeze_module_params(self.embed_tokens)\n            freeze_module_params(self.segment_embeddings)\n            freeze_module_params(self.embed_positions)\n            freeze_module_params(self.emb_layer_norm)\n\n        for layer in range(n_trans_layers_to_freeze):\n            freeze_module_params(self.layers[layer])\n\n    def build_embedding(self, vocab_size, embedding_dim, padding_idx):\n        return nn.Embedding(vocab_size, embedding_dim, padding_idx)\n\n    def build_transformer_sentence_encoder_layer(\n        self,\n        embedding_dim,\n        ffn_embedding_dim,\n        num_attention_heads,\n        dropout,\n        attention_dropout,\n        activation_dropout,\n        activation_fn,\n        export,\n        q_noise,\n        qn_block_size,\n    ):\n        return TransformerSentenceEncoderLayer(\n            embedding_dim=embedding_dim,\n            ffn_embedding_dim=ffn_embedding_dim,\n            num_attention_heads=num_attention_heads,\n            dropout=dropout,\n            attention_dropout=attention_dropout,\n            activation_dropout=activation_dropout,\n            activation_fn=activation_fn,\n            export=export,\n            q_noise=q_noise,\n            qn_block_size=qn_block_size,\n        )\n\n    def forward(\n        self,\n        tokens: torch.Tensor,\n        segment_labels: torch.Tensor = None,\n        last_state_only: bool = False,\n        positions: Optional[torch.Tensor] = None,\n        token_embeddings: Optional[torch.Tensor] = None,\n        attn_mask: Optional[torch.Tensor] = None,\n    ) -> Tuple[torch.Tensor, torch.Tensor]:\n        is_tpu = tokens.device.type == \"xla\"\n\n        # compute padding mask. This is needed for multi-head attention\n        padding_mask = tokens.eq(self.padding_idx)\n        if not self.traceable and not is_tpu and not padding_mask.any():\n            padding_mask = None\n\n        if token_embeddings is not None:\n            x = token_embeddings\n        else:\n            x = self.embed_tokens(tokens)\n\n        if self.embed_scale is not None:\n            x = x * self.embed_scale\n\n        if self.embed_positions is not None:\n            x = x + self.embed_positions(tokens, positions=positions)\n\n        if self.segment_embeddings is not None and segment_labels is not None:\n            x = x + self.segment_embeddings(segment_labels)\n\n        if self.quant_noise is not None:\n            x = self.quant_noise(x)\n\n        if self.emb_layer_norm is not None:\n            x = self.emb_layer_norm(x)\n\n        x = self.dropout_module(x)\n\n        # account for padding while computing the representation\n        if padding_mask is not None:\n            x = x * (1 - padding_mask.unsqueeze(-1).type_as(x))\n\n        # B x T x C -> T x B x C\n        x = x.transpose(0, 1)\n\n        inner_states = []\n        if not last_state_only:\n            inner_states.append(x)\n\n        for layer in self.layers:\n            x, _ = layer(\n                x, self_attn_padding_mask=padding_mask, self_attn_mask=attn_mask\n            )\n            if not last_state_only:\n                inner_states.append(x)\n\n        sentence_rep = x[0, :, :]\n\n        if last_state_only:\n            inner_states = [x]\n\n        if self.traceable:\n            return torch.stack(inner_states), sentence_rep\n        else:\n            return inner_states, sentence_rep\n"
  },
  {
    "path": "fairseq/modules/transformer_sentence_encoder_layer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Callable, Optional\n\nimport torch\nimport torch.nn as nn\nfrom fairseq import utils\nfrom fairseq.modules import LayerNorm, MultiheadAttention\nfrom fairseq.modules.fairseq_dropout import FairseqDropout\nfrom fairseq.modules.quant_noise import quant_noise\n\n\nclass TransformerSentenceEncoderLayer(nn.Module):\n    \"\"\"\n    Implements a Transformer Encoder Layer used in BERT/XLM style pre-trained\n    models.\n    \"\"\"\n\n    def __init__(\n        self,\n        embedding_dim: int = 768,\n        ffn_embedding_dim: int = 3072,\n        num_attention_heads: int = 8,\n        dropout: float = 0.1,\n        attention_dropout: float = 0.1,\n        activation_dropout: float = 0.1,\n        activation_fn: str = \"relu\",\n        export: bool = False,\n        q_noise: float = 0.0,\n        qn_block_size: int = 8,\n        init_fn: Callable = None,\n    ) -> None:\n        super().__init__()\n\n        if init_fn is not None:\n            init_fn()\n\n        # Initialize parameters\n        self.embedding_dim = embedding_dim\n        self.num_attention_heads = num_attention_heads\n        self.attention_dropout = attention_dropout\n        self.q_noise = q_noise\n        self.qn_block_size = qn_block_size\n\n        self.dropout_module = FairseqDropout(\n            dropout, module_name=self.__class__.__name__\n        )\n        self.activation_dropout_module = FairseqDropout(\n            activation_dropout, module_name=self.__class__.__name__\n        )\n\n        # Initialize blocks\n        self.activation_fn = utils.get_activation_fn(activation_fn)\n        self.self_attn = self.build_self_attention(\n            self.embedding_dim,\n            num_attention_heads,\n            dropout=attention_dropout,\n            self_attention=True,\n            q_noise=q_noise,\n            qn_block_size=qn_block_size,\n        )\n\n        # layer norm associated with the self attention layer\n        self.self_attn_layer_norm = LayerNorm(self.embedding_dim, export=export)\n\n        self.fc1 = self.build_fc1(\n            self.embedding_dim,\n            ffn_embedding_dim,\n            q_noise=q_noise,\n            qn_block_size=qn_block_size,\n        )\n        self.fc2 = self.build_fc2(\n            ffn_embedding_dim,\n            self.embedding_dim,\n            q_noise=q_noise,\n            qn_block_size=qn_block_size,\n        )\n\n        # layer norm associated with the position wise feed-forward NN\n        self.final_layer_norm = LayerNorm(self.embedding_dim, export=export)\n\n    def build_fc1(self, input_dim, output_dim, q_noise, qn_block_size):\n        return quant_noise(nn.Linear(input_dim, output_dim), q_noise, qn_block_size)\n\n    def build_fc2(self, input_dim, output_dim, q_noise, qn_block_size):\n        return quant_noise(nn.Linear(input_dim, output_dim), q_noise, qn_block_size)\n\n    def build_self_attention(\n        self,\n        embed_dim,\n        num_attention_heads,\n        dropout,\n        self_attention,\n        q_noise,\n        qn_block_size,\n    ):\n        return MultiheadAttention(\n            embed_dim,\n            num_attention_heads,\n            dropout=dropout,\n            self_attention=True,\n            q_noise=q_noise,\n            qn_block_size=qn_block_size,\n        )\n\n    def forward(\n        self,\n        x: torch.Tensor,\n        self_attn_mask: Optional[torch.Tensor] = None,\n        self_attn_padding_mask: Optional[torch.Tensor] = None,\n    ):\n        \"\"\"\n        LayerNorm is applied either before or after the self-attention/ffn\n        modules similar to the original Transformer implementation.\n        \"\"\"\n        residual = x\n        x, attn = self.self_attn(\n            query=x,\n            key=x,\n            value=x,\n            key_padding_mask=self_attn_padding_mask,\n            need_weights=False,\n            attn_mask=self_attn_mask,\n        )\n        x = self.dropout_module(x)\n        x = residual + x\n        x = self.self_attn_layer_norm(x)\n\n        residual = x\n        x = self.activation_fn(self.fc1(x))\n        x = self.activation_dropout_module(x)\n        x = self.fc2(x)\n        x = self.dropout_module(x)\n        x = residual + x\n        x = self.final_layer_norm(x)\n        return x, attn\n"
  },
  {
    "path": "fairseq/modules/transpose_last.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\ntranspose last 2 dimensions of the input\n\"\"\"\n\nimport torch.nn as nn\n\n\nclass TransposeLast(nn.Module):\n    def __init__(self, deconstruct_idx=None, tranpose_dim=-2):\n        super().__init__()\n        self.deconstruct_idx = deconstruct_idx\n        self.tranpose_dim = tranpose_dim\n\n    def forward(self, x):\n        if self.deconstruct_idx is not None:\n            x = x[self.deconstruct_idx]\n        return x.transpose(self.tranpose_dim, -1)\n"
  },
  {
    "path": "fairseq/modules/unfold.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch.nn.functional as F\n\n\ndef unfold1d(x, kernel_size: int, padding_l: int, pad_value: float = 0):\n    \"\"\"unfold T x B x C to T x B x C x K\"\"\"\n    if kernel_size > 1:\n        T, B, C = x.size()\n        x = F.pad(\n            x, (0, 0, 0, 0, padding_l, kernel_size - 1 - padding_l), value=pad_value\n        )\n        x = x.as_strided((T, B, C, kernel_size), (B * C, C, 1, B * C))\n    else:\n        x = x.unsqueeze(3)\n    return x\n"
  },
  {
    "path": "fairseq/modules/vggblock.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom __future__ import absolute_import, division, print_function, unicode_literals\n\nfrom collections.abc import Iterable\nfrom itertools import repeat\n\nimport torch\nimport torch.nn as nn\n\n\ndef _pair(v):\n    if isinstance(v, Iterable):\n        assert len(v) == 2, \"len(v) != 2\"\n        return v\n    return tuple(repeat(v, 2))\n\n\ndef infer_conv_output_dim(conv_op, input_dim, sample_inchannel):\n    sample_seq_len = 200\n    sample_bsz = 10\n    x = torch.randn(sample_bsz, sample_inchannel, sample_seq_len, input_dim)\n    # N x C x H x W\n    # N: sample_bsz, C: sample_inchannel, H: sample_seq_len, W: input_dim\n    x = conv_op(x)\n    # N x C x H x W\n    x = x.transpose(1, 2)\n    # N x H x C x W\n    bsz, seq = x.size()[:2]\n    per_channel_dim = x.size()[3]\n    # bsz: N, seq: H, CxW the rest\n    return x.contiguous().view(bsz, seq, -1).size(-1), per_channel_dim\n\n\nclass VGGBlock(torch.nn.Module):\n    \"\"\"\n    VGG motibated cnn module https://arxiv.org/pdf/1409.1556.pdf\n\n    Args:\n        in_channels: (int) number of input channels (typically 1)\n        out_channels: (int) number of output channels\n        conv_kernel_size: convolution channels\n        pooling_kernel_size: the size of the pooling window to take a max over\n        num_conv_layers: (int) number of convolution layers\n        input_dim: (int) input dimension\n        conv_stride: the stride of the convolving kernel.\n            Can be a single number or a tuple (sH, sW)  Default: 1\n        padding: implicit paddings on both sides of the input.\n            Can be a single number or a tuple (padH, padW). Default: None\n        layer_norm: (bool) if layer norm is going to be applied. Default: False\n\n    Shape:\n        Input: BxCxTxfeat, i.e. (batch_size, input_size, timesteps, features)\n        Output: BxCxTxfeat, i.e. (batch_size, input_size, timesteps, features)\n    \"\"\"\n\n    def __init__(\n        self,\n        in_channels,\n        out_channels,\n        conv_kernel_size,\n        pooling_kernel_size,\n        num_conv_layers,\n        input_dim,\n        conv_stride=1,\n        padding=None,\n        layer_norm=False,\n    ):\n        assert (\n            input_dim is not None\n        ), \"Need input_dim for LayerNorm and infer_conv_output_dim\"\n        super(VGGBlock, self).__init__()\n        self.in_channels = in_channels\n        self.out_channels = out_channels\n        self.conv_kernel_size = _pair(conv_kernel_size)\n        self.pooling_kernel_size = _pair(pooling_kernel_size)\n        self.num_conv_layers = num_conv_layers\n        self.padding = (\n            tuple(e // 2 for e in self.conv_kernel_size)\n            if padding is None\n            else _pair(padding)\n        )\n        self.conv_stride = _pair(conv_stride)\n\n        self.layers = nn.ModuleList()\n        for layer in range(num_conv_layers):\n            conv_op = nn.Conv2d(\n                in_channels if layer == 0 else out_channels,\n                out_channels,\n                self.conv_kernel_size,\n                stride=self.conv_stride,\n                padding=self.padding,\n            )\n            self.layers.append(conv_op)\n            if layer_norm:\n                conv_output_dim, per_channel_dim = infer_conv_output_dim(\n                    conv_op, input_dim, in_channels if layer == 0 else out_channels\n                )\n                self.layers.append(nn.LayerNorm(per_channel_dim))\n                input_dim = per_channel_dim\n            self.layers.append(nn.ReLU())\n\n        if self.pooling_kernel_size is not None:\n            pool_op = nn.MaxPool2d(kernel_size=self.pooling_kernel_size, ceil_mode=True)\n            self.layers.append(pool_op)\n            self.total_output_dim, self.output_dim = infer_conv_output_dim(\n                pool_op, input_dim, out_channels\n            )\n\n    def forward(self, x):\n        for i, _ in enumerate(self.layers):\n            x = self.layers[i](x)\n        return x\n"
  },
  {
    "path": "fairseq/nan_detector.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nimport torch\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass NanDetector:\n    \"\"\"\n    Detects the first NaN or Inf in forward and/or backward pass and logs, together with the module name\n    \"\"\"\n\n    def __init__(self, model, forward=True, backward=True):\n        self.bhooks = []\n        self.fhooks = []\n        self.forward = forward\n        self.backward = backward\n        self.named_parameters = list(model.named_parameters())\n        self.reset()\n\n        for name, mod in model.named_modules():\n            mod.__module_name = name\n            self.add_hooks(mod)\n\n    def __enter__(self):\n        return self\n\n    def __exit__(self, exc_type, exc_value, exc_traceback):\n        # Dump out all model gnorms to enable better debugging\n        norm = {}\n        gradients = {}\n        for name, param in self.named_parameters:\n            if param.grad is not None:\n                grad_norm = torch.norm(param.grad.data.float(), p=2)\n                norm[name] = param.norm().item()\n                if torch.isnan(grad_norm).any() or torch.isinf(grad_norm).any():\n                    gradients[name] = param.grad.data\n        if len(gradients) > 0:\n            logger.info(\"Detected nan/inf grad norm, dumping norms...\")\n            logger.info(f\"norms: {norm}\")\n            logger.info(f\"gradients: {gradients}\")\n\n        self.close()\n\n    def add_hooks(self, module):\n        if self.forward:\n            self.fhooks.append(module.register_forward_hook(self.fhook_fn))\n        if self.backward:\n            self.bhooks.append(module.register_backward_hook(self.bhook_fn))\n\n    def reset(self):\n        self.has_printed_f = False\n        self.has_printed_b = False\n\n    def _detect(self, tensor, name, backward):\n        err = None\n        if (\n            torch.is_floating_point(tensor)\n            # single value tensors (like the loss) will not provide much info\n            and tensor.numel() >= 2\n        ):\n            with torch.no_grad():\n                if torch.isnan(tensor).any():\n                    err = \"NaN\"\n                elif torch.isinf(tensor).any():\n                    err = \"Inf\"\n        if err is not None:\n            err = f\"{err} detected in output of {name}, shape: {tensor.shape}, {'backward' if backward else 'forward'}\"\n        return err\n\n    def _apply(self, module, inp, x, backward):\n        if torch.is_tensor(x):\n            if isinstance(inp, tuple) and len(inp) > 0:\n                inp = inp[0]\n            err = self._detect(x, module.__module_name, backward)\n            if err is not None:\n                if torch.is_tensor(inp) and not backward:\n                    err += (\n                        f\" input max: {inp.max().item()}, input min: {inp.min().item()}\"\n                    )\n\n                has_printed_attr = \"has_printed_b\" if backward else \"has_printed_f\"\n                logger.warning(err)\n                setattr(self, has_printed_attr, True)\n        elif isinstance(x, dict):\n            for v in x.values():\n                self._apply(module, inp, v, backward)\n        elif isinstance(x, list) or isinstance(x, tuple):\n            for v in x:\n                self._apply(module, inp, v, backward)\n\n    def fhook_fn(self, module, inp, output):\n        if not self.has_printed_f:\n            self._apply(module, inp, output, backward=False)\n\n    def bhook_fn(self, module, inp, output):\n        if not self.has_printed_b:\n            self._apply(module, inp, output, backward=True)\n\n    def close(self):\n        for hook in self.fhooks + self.bhooks:\n            hook.remove()\n"
  },
  {
    "path": "fairseq/ngram_repeat_block.py",
    "content": "# Originally from Microsoft Corporation.\n# Licensed under the MIT License.\n\n\"\"\" Wrapper for ngram_repeat_block cuda extension \"\"\"\nimport math\nimport warnings\nfrom typing import List\n\nimport torch\nfrom torch import nn\n\ntry:\n    from fairseq import ngram_repeat_block_cuda\n\n    EXTENSION_BUILT = True\nexcept ImportError:\n    EXTENSION_BUILT = False\n\n\ndef is_cuda_extension_usable() -> bool:\n    \"\"\"Check whether ngram_repeat_block_cuda is built properly\"\"\"\n    if not EXTENSION_BUILT or not torch.cuda.is_available():\n        return False\n    bsz = 2\n    tokens = torch.tensor([[4, 4, 3, 2], [1, 2, 3, 4]], dtype=torch.long, device=\"cuda\")\n    lprobs = torch.rand((8, 12), device=\"cuda\")\n    try:\n        outputs = ngram_repeat_block_cuda.forward(tokens, lprobs, bsz, 3, 4, 3)\n        outputs = outputs + 4  # This line breaks if the extension is built incorrectly.\n        return True\n    except RuntimeError:\n        warnings.warn(\n            \"NGramRepeatBlock extension must be rebuilt.\"\n            'Run TORCH_CUDA_ARCH_LIST=\"6.0;6.1;7.0\" python setup.py build_ext --inplace'\n        )\n        return False\n\n\nclass NGramRepeatBlock(nn.Module):\n    \"\"\"Wrapper class for calling ngram_repeat_block cuda extension\"\"\"\n\n    def __init__(self, no_repeat_ngram_size: int, use_extension: bool = True):\n        super().__init__()\n        self.use_extension = is_cuda_extension_usable() if use_extension else False\n        self.no_repeat_ngram_size = no_repeat_ngram_size\n\n    def reset_parameters(self):\n        pass\n\n    @torch.jit.unused\n    def call_cuda_extension(\n        self,\n        tokens,\n        lprobs,\n        bsz: int,\n        beam_size: int,\n        step: int,\n    ):\n        return ngram_repeat_block_cuda.forward(\n            tokens, lprobs, bsz, step, beam_size, self.no_repeat_ngram_size\n        )\n\n    def forward(\n        self,\n        tokens,\n        lprobs,\n        bsz: int,\n        beam_size: int,\n        step: int,\n    ):\n        \"\"\"\n        Args:\n            tokens(Tensor): Input tokens(Bsz*beam, seq_len)\n            lprobs(Tensor): likelihood probability,\n            Expected to be updated in place.(Bsz*beam, vocab_size)\n            bsz(int): batch size\n            step(int): current step\n            beam_size(int): beam size\n            no_repeat_ngram_size(int): Ngram size\n        \"\"\"\n        msg = f\"expected {bsz *beam_size} got\"\n        assert tokens.size(0) == bsz * beam_size, f\"{msg} {tokens.size(0)}\"\n        assert lprobs.size(0) == bsz * beam_size, f\"{msg} {lprobs.size(0)}\"\n        if self.use_extension:\n            return self.call_cuda_extension(tokens, lprobs, bsz, beam_size, step)\n\n        else:\n            return self._no_repeat_ngram(\n                tokens,\n                lprobs,\n                bsz,\n                beam_size,\n                step,\n            )\n\n    def _no_repeat_ngram(self, tokens, lprobs, bsz: int, beam_size: int, step: int):\n        \"\"\"For each hypothesis generate a list of previous ngrams and set associated lprobs to -inf\"\"\"\n        banned_tokens = [\n            torch.jit.annotate(List[int], []) for bbsz_idx in range(bsz * beam_size)\n        ]\n        if step + 2 - self.no_repeat_ngram_size >= 0:\n            cpu_tokens: List[List[int]] = tokens.cpu().tolist()\n            check_start_pos = step + 2 - self.no_repeat_ngram_size\n            for bbsz_idx in range(bsz * beam_size):\n                ngram_to_check = cpu_tokens[bbsz_idx][\n                    -(self.no_repeat_ngram_size - 1) :\n                ]\n                for i in range(check_start_pos):\n                    if (\n                        ngram_to_check\n                        == cpu_tokens[bbsz_idx][i : i + self.no_repeat_ngram_size - 1]\n                    ):\n                        banned_tokens[bbsz_idx].append(\n                            cpu_tokens[bbsz_idx][i + self.no_repeat_ngram_size - 1]\n                        )\n        for bbsz_idx in range(bsz * beam_size):\n            lprobs[bbsz_idx][\n                torch.tensor(banned_tokens[bbsz_idx], dtype=torch.int64)\n            ] = torch.tensor(-math.inf).to(lprobs)\n        return lprobs\n"
  },
  {
    "path": "fairseq/optim/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"isort:skip_file\"\"\"\n\nimport importlib\nimport os\n\nfrom fairseq import registry\nfrom fairseq.optim.bmuf import FairseqBMUF  # noqa\nfrom fairseq.optim.fairseq_optimizer import (  # noqa\n    FairseqOptimizer,\n    LegacyFairseqOptimizer,\n)\nfrom fairseq.optim.amp_optimizer import AMPOptimizer\nfrom fairseq.optim.fp16_optimizer import FP16Optimizer, MemoryEfficientFP16Optimizer\nfrom fairseq.optim.shard import shard_\nfrom omegaconf import DictConfig\n\n__all__ = [\n    \"AMPOptimizer\",\n    \"FairseqOptimizer\",\n    \"FP16Optimizer\",\n    \"MemoryEfficientFP16Optimizer\",\n    \"shard_\",\n]\n\n(\n    _build_optimizer,\n    register_optimizer,\n    OPTIMIZER_REGISTRY,\n    OPTIMIZER_DATACLASS_REGISTRY,\n) = registry.setup_registry(\"--optimizer\", base_class=FairseqOptimizer, required=True)\n\n\ndef build_optimizer(cfg: DictConfig, params, *extra_args, **extra_kwargs):\n    if all(isinstance(p, dict) for p in params):\n        params = [t for p in params for t in p.values()]\n    params = list(filter(lambda p: p.requires_grad, params))\n    return _build_optimizer(cfg, params, *extra_args, **extra_kwargs)\n\n\n# automatically import any Python files in the optim/ directory\nfor file in sorted(os.listdir(os.path.dirname(__file__))):\n    if file.endswith(\".py\") and not file.startswith(\"_\"):\n        file_name = file[: file.find(\".py\")]\n        importlib.import_module(\"fairseq.optim.\" + file_name)\n"
  },
  {
    "path": "fairseq/optim/adadelta.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch.optim\n\nfrom . import LegacyFairseqOptimizer, register_optimizer\n\n\n@register_optimizer(\"adadelta\")\nclass Adadelta(LegacyFairseqOptimizer):\n    def __init__(self, args, params):\n        super().__init__(args)\n        self._optimizer = torch.optim.Adadelta(params, **self.optimizer_config)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add optimizer-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--adadelta-rho', type=float, default=0.9, metavar='RHO',\n                            help='coefficient used for computing a running average of squared gradients')\n        parser.add_argument('--adadelta-eps', type=float, default=1e-6, metavar='EPS',\n                            help='term added to the denominator to improve numerical stability')\n        parser.add_argument('--weight-decay', '--wd', default=0.0, type=float, metavar='WD',\n                            help='weight decay')\n        parser.add_argument('--anneal-eps', action='store_true', help='flag to anneal eps')\n        # fmt: on\n\n    @property\n    def optimizer_config(self):\n        \"\"\"\n        Return a kwarg dictionary that will be used to override optimizer\n        args stored in checkpoints. This allows us to load a checkpoint and\n        resume training using a different set of optimizer args, e.g., with a\n        different learning rate.\n        \"\"\"\n        return {\n            \"lr\": self.args.lr[0],\n            \"rho\": self.args.adadelta_rho,\n            \"eps\": self.args.adadelta_eps,\n            \"weight_decay\": self.args.weight_decay,\n        }\n\n    @property\n    def supports_flat_params(self):\n        return True\n"
  },
  {
    "path": "fairseq/optim/adafactor.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nimport torch\nimport torch.optim\n\nfrom . import LegacyFairseqOptimizer, register_optimizer\n\n\n@register_optimizer(\"adafactor\")\nclass FairseqAdafactor(LegacyFairseqOptimizer):\n    def __init__(self, args, params):\n        super().__init__(args)\n        self._optimizer = Adafactor(params, **self.optimizer_config)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add optimizer-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--adafactor-eps', default='(1e-30, 1e-3)', metavar=\"E\",\n                            help='epsilons for Adafactor optimizer')\n        parser.add_argument('--clip-threshold', type=float, default=1.0, metavar=\"C\",\n                            help='threshold for clipping update root mean square')\n        parser.add_argument('--decay-rate', type=float, default=-0.8, metavar=\"D\",\n                            help='decay rate of the second moment estimator')\n        parser.add_argument('--beta1', type=float, default=None, metavar=\"B\",\n                            help='beta for first moment estimator. Optional')\n        parser.add_argument('--weight-decay', '--wd', default=0.0, type=float, metavar='WD',\n                            help='weight decay')\n        parser.add_argument('--scale-parameter', action='store_true',\n                            help='scale learning rate by root mean square of parameter')\n        parser.add_argument('--relative-step', action='store_true',\n                            help='set learning rate to inverse square root of timestep,'\n                                 'otherwise use external learning rate')\n        parser.add_argument('--warmup-init', action='store_true',\n                            help='use relative step for warm-up learning rate schedule')\n        # fmt: on\n\n    @property\n    def optimizer_config(self):\n        \"\"\"\n        Return a kwarg dictionary that will be used to override optimizer\n        args stored in checkpoints. This allows us to load a checkpoint and\n        resume training using a different set of optimizer args, e.g., with a\n        different learning rate.\n        Note : Convergence issues empirically observed with fp16 on.\n               Might require search for appropriate configuration.\n        \"\"\"\n        return {\n            \"lr\": self.args.lr[0],\n            \"eps\": eval(self.args.adafactor_eps),\n            \"clip_threshold\": self.args.clip_threshold,\n            \"decay_rate\": self.args.decay_rate,\n            \"beta1\": self.args.beta1,\n            \"weight_decay\": self.args.weight_decay,\n            \"scale_parameter\": self.args.scale_parameter,  # defaults to False\n            \"relative_step\": self.args.relative_step,  # defaults to False\n            \"warmup_init\": self.args.warmup_init,\n        }\n\n\nclass Adafactor(torch.optim.Optimizer):\n    \"\"\"Implements Adafactor algorithm.\n\n    This implementation is based on:\n    `Adafactor: Adaptive Learning Rates with Sublinear Memory Cost`\n    (see https://arxiv.org/abs/1804.04235)\n\n    Note that this optimizer internally adjusts the learning rate\n    depending on the *scale_parameter*, *relative_step* and\n    *warmup_init* options. To use a manual (external) learning rate\n    schedule you should set `scale_parameter=False` and\n    `relative_step=False`.\n\n    Args:\n        params (iterable): iterable of parameters to optimize or dicts defining\n            parameter groups\n        lr (float, optional): external learning rate (default: None)\n        eps (tuple[float, float]): regularization constans for square gradient\n            and parameter scale respectively (default: (1e-30, 1e-3))\n        clip_threshold (float): threshold of root mean square of\n            final gradient update (default: 1.0)\n        decay_rate (float): coefficient used to compute running averages of square\n            gradient (default: -0.8)\n        beta1 (float): coefficient used for computing running averages of gradient\n            (default: None)\n        weight_decay (float, optional): weight decay (L2 penalty) (default: 0)\n        scale_parameter (bool): if True, learning rate is scaled by root mean square of\n            parameter (default: True)\n        relative_step (bool): if True, time-dependent learning rate is computed\n            instead of external learning rate (default: True)\n        warmup_init (bool): time-dependent learning rate computation depends on\n            whether warm-up initialization is being used (default: False)\n    \"\"\"\n\n    def __init__(\n        self,\n        params,\n        lr=None,\n        eps=(1e-30, 1e-3),\n        clip_threshold=1.0,\n        decay_rate=-0.8,\n        beta1=None,\n        weight_decay=0.0,\n        scale_parameter=True,\n        relative_step=True,\n        warmup_init=False,\n    ):\n        if lr is not None and relative_step:\n            raise ValueError(\"Cannot combine manual lr and relative_step options\")\n        if warmup_init and not relative_step:\n            raise ValueError(\"warmup_init requires relative_step=True\")\n\n        defaults = dict(\n            lr=lr,\n            eps=eps,\n            clip_threshold=clip_threshold,\n            decay_rate=decay_rate,\n            beta1=beta1,\n            weight_decay=weight_decay,\n            scale_parameter=scale_parameter,\n            relative_step=relative_step,\n            warmup_init=warmup_init,\n        )\n        super(Adafactor, self).__init__(params, defaults)\n\n    @property\n    def supports_memory_efficient_fp16(self):\n        return True\n\n    @property\n    def supports_flat_params(self):\n        return False\n\n    def _get_lr(self, param_group, param_state):\n        rel_step_sz = param_group[\"lr\"]\n        if param_group[\"relative_step\"]:\n            min_step = (\n                1e-6 * param_state[\"step\"] if param_group[\"warmup_init\"] else 1e-2\n            )\n            rel_step_sz = min(min_step, 1.0 / math.sqrt(param_state[\"step\"]))\n        param_scale = 1.0\n        if param_group[\"scale_parameter\"]:\n            param_scale = max(param_group[\"eps\"][1], param_state[\"RMS\"])\n        return param_scale * rel_step_sz\n\n    def _get_options(self, param_group, param_shape):\n        factored = len(param_shape) >= 2\n        use_first_moment = param_group[\"beta1\"] is not None\n        return factored, use_first_moment\n\n    def _rms(self, tensor):\n        return tensor.norm(2) / (tensor.numel() ** 0.5)\n\n    def _approx_sq_grad(self, exp_avg_sq_row, exp_avg_sq_col):\n        r_factor = (\n            (exp_avg_sq_row / exp_avg_sq_row.mean(dim=-1, keepdim=True))\n            .rsqrt_()\n            .unsqueeze(-1)\n        )\n        c_factor = exp_avg_sq_col.unsqueeze(-2).rsqrt()\n        return torch.mul(r_factor, c_factor)\n\n    def step(self, closure=None):\n        \"\"\"Performs a single optimization step.\n\n        Args:\n            closure (callable, optional): A closure that reevaluates the model\n                and returns the loss.\n        \"\"\"\n        loss = None\n        if closure is not None:\n            loss = closure()\n\n        for group in self.param_groups:\n            for p in group[\"params\"]:\n                if p.grad is None:\n                    continue\n                grad = p.grad.data\n                if grad.dtype in {torch.float16, torch.bfloat16}:\n                    grad = grad.float()\n                if grad.is_sparse:\n                    raise RuntimeError(\"Adafactor does not support sparse gradients.\")\n\n                state = self.state[p]\n                grad_shape = grad.shape\n\n                factored, use_first_moment = self._get_options(group, grad_shape)\n                # State Initialization\n                if len(state) == 0:\n                    state[\"step\"] = 0\n\n                    if use_first_moment:\n                        # Exponential moving average of gradient values\n                        state[\"exp_avg\"] = torch.zeros_like(grad)\n                    if factored:\n                        state[\"exp_avg_sq_row\"] = torch.zeros(grad_shape[:-1]).to(grad)\n                        state[\"exp_avg_sq_col\"] = torch.zeros(\n                            grad_shape[:-2] + grad_shape[-1:]\n                        ).to(grad)\n                    else:\n                        state[\"exp_avg_sq\"] = torch.zeros_like(grad)\n\n                    state[\"RMS\"] = 0\n                else:\n                    if use_first_moment:\n                        state[\"exp_avg\"] = state[\"exp_avg\"].to(grad)\n                    if factored:\n                        state[\"exp_avg_sq_row\"] = state[\"exp_avg_sq_row\"].to(grad)\n                        state[\"exp_avg_sq_col\"] = state[\"exp_avg_sq_col\"].to(grad)\n                    else:\n                        state[\"exp_avg_sq\"] = state[\"exp_avg_sq\"].to(grad)\n\n                p_data_fp32 = p.data\n                if p.data.dtype in {torch.float16, torch.bfloat16}:\n                    p_data_fp32 = p_data_fp32.float()\n\n                state[\"step\"] += 1\n                state[\"RMS\"] = self._rms(p_data_fp32)\n                group[\"lr\"] = self._get_lr(group, state)\n\n                beta2t = 1.0 - math.pow(state[\"step\"], group[\"decay_rate\"])\n                update = (grad**2) + group[\"eps\"][0]\n                if factored:\n                    exp_avg_sq_row = state[\"exp_avg_sq_row\"]\n                    exp_avg_sq_col = state[\"exp_avg_sq_col\"]\n\n                    exp_avg_sq_row.mul_(beta2t).add_(\n                        update.mean(dim=-1), alpha=1.0 - beta2t\n                    )\n                    exp_avg_sq_col.mul_(beta2t).add_(\n                        update.mean(dim=-2), alpha=1.0 - beta2t\n                    )\n\n                    # Approximation of exponential moving average of square of gradient\n                    update = self._approx_sq_grad(exp_avg_sq_row, exp_avg_sq_col)\n                    update.mul_(grad)\n                else:\n                    exp_avg_sq = state[\"exp_avg_sq\"]\n\n                    exp_avg_sq.mul_(beta2t).add_(update, alpha=1.0 - beta2t)\n                    update = exp_avg_sq.rsqrt().mul_(grad)\n\n                update.div_(\n                    (self._rms(update) / group[\"clip_threshold\"]).clamp_(min=1.0)\n                )\n                update.mul_(group[\"lr\"])\n\n                if use_first_moment:\n                    exp_avg = state[\"exp_avg\"]\n                    exp_avg.mul_(group[\"beta1\"]).add_(update, alpha=1 - group[\"beta1\"])\n                    update = exp_avg\n\n                if group[\"weight_decay\"] != 0:\n                    p_data_fp32.add_(\n                        p_data_fp32, alpha=-group[\"weight_decay\"] * group[\"lr\"]\n                    )\n\n                p_data_fp32.add_(-update)\n\n                if p.data.dtype in {torch.float16, torch.bfloat16}:\n                    p.data.copy_(p_data_fp32)\n\n        return loss\n"
  },
  {
    "path": "fairseq/optim/adagrad.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch.optim\n\nfrom . import LegacyFairseqOptimizer, register_optimizer\n\n\n@register_optimizer(\"adagrad\")\nclass Adagrad(LegacyFairseqOptimizer):\n    def __init__(self, args, params):\n        super().__init__(args)\n        self._optimizer = torch.optim.Adagrad(params, **self.optimizer_config)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add optimizer-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--weight-decay', '--wd', default=0.0, type=float, metavar='WD',\n                            help='weight decay')\n        # fmt: on\n\n    @property\n    def optimizer_config(self):\n        \"\"\"\n        Return a kwarg dictionary that will be used to override optimizer\n        args stored in checkpoints. This allows us to load a checkpoint and\n        resume training using a different set of optimizer args, e.g., with a\n        different learning rate.\n        \"\"\"\n        return {\n            \"lr\": self.args.lr[0],\n            \"weight_decay\": self.args.weight_decay,\n        }\n\n    @property\n    def supports_flat_params(self):\n        return False\n"
  },
  {
    "path": "fairseq/optim/adam.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport math\nfrom collections.abc import Collection\nfrom dataclasses import dataclass, field\nfrom typing import Any, List\n\nimport torch\nimport torch.distributed as dist\nimport torch.optim\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.optim import FairseqOptimizer, register_optimizer\nfrom fairseq.optim.fused_adam import get_fused_adam_class\nfrom omegaconf import II, OmegaConf\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass FairseqAdamConfig(FairseqDataclass):\n    adam_betas: Any = field(\n        default=(0.9, 0.999), metadata={\"help\": \"betas for Adam optimizer\"}\n    )\n    adam_eps: float = field(\n        default=1e-8, metadata={\"help\": \"epsilon for Adam optimizer\"}\n    )\n    weight_decay: float = field(default=0.0, metadata={\"help\": \"weight decay\"})\n    use_old_adam: bool = field(\n        default=False, metadata={\"help\": \"Use fairseq.optim.adam.Adam\"}\n    )\n    fp16_adam_stats: bool = field(\n        default=False, metadata={\"help\": \"use FP16 stats (with automatic scaling)\"}\n    )\n    # TODO common vars below in parent\n    tpu: bool = II(\"common.tpu\")\n    lr: List[float] = II(\"optimization.lr\")\n\n\n@register_optimizer(\"adam\", dataclass=FairseqAdamConfig)\nclass FairseqAdam(FairseqOptimizer):\n    \"\"\"Adam optimizer for fairseq.\n\n    Important note: this optimizer corresponds to the \"AdamW\" variant of\n    Adam in its weight decay behavior. As such, it is most closely\n    analogous to torch.optim.AdamW from PyTorch.\n    \"\"\"\n\n    def __init__(self, cfg: FairseqAdamConfig, params):\n        super().__init__(cfg)\n        fused_adam_cls = get_fused_adam_class()\n        use_fused_adam = (\n            not getattr(cfg, \"use_old_adam\", False)\n            and fused_adam_cls is not None\n            and torch.cuda.is_available()\n        )\n        if getattr(cfg, \"tpu\", False):\n            if self.cfg.fp16_adam_stats:\n                raise NotImplementedError(\"--fp16-adam-stats is only supported on GPU\")\n            # on TPUs we use the Adam defined here, since it\n            # automatically casts gradients to FP32\n            self._optimizer = Adam(params, **self.optimizer_config)\n        elif use_fused_adam:\n            logger.info(\"using FusedAdam\")\n            self._optimizer = fused_adam_cls(\n                params, use_fp16_stats=self.cfg.fp16_adam_stats, **self.optimizer_config\n            )\n        else:\n            if self.cfg.fp16_adam_stats:\n                raise NotImplementedError(\n                    \"--fp16-adam-stats is only supported with FusedAdamV1\"\n                )\n            self._optimizer = Adam(params, **self.optimizer_config)\n\n    @property\n    def optimizer_config(self):\n        \"\"\"\n        Return a kwarg dictionary that will be used to override optimizer\n        args stored in checkpoints. This allows us to load a checkpoint and\n        resume training using a different set of optimizer args, e.g., with a\n        different learning rate.\n        \"\"\"\n        return {\n            \"lr\": self.cfg.lr[0]\n            if isinstance(self.cfg.lr, Collection)\n            else self.cfg.lr,\n            \"betas\": eval(self.cfg.adam_betas)\n            if isinstance(self.cfg.adam_betas, str)\n            else OmegaConf.to_container(self.cfg.adam_betas),\n            \"eps\": self.cfg.adam_eps,\n            \"weight_decay\": self.cfg.weight_decay,\n        }\n\n    def average_params(self):\n        \"\"\"Reduce Params is only used during BMUF distributed training.\"\"\"\n        state_dict = self.optimizer.state_dict()\n        total_gpus = float(dist.get_world_size())\n\n        for _, value in state_dict[\"state\"].items():\n            value[\"exp_avg\"] /= total_gpus\n            value[\"exp_avg_sq\"] /= total_gpus\n            dist.all_reduce(value[\"exp_avg\"], op=dist.ReduceOp.SUM)\n            dist.all_reduce(value[\"exp_avg_sq\"], op=dist.ReduceOp.SUM)\n\n\nclass Adam(torch.optim.Optimizer):\n    r\"\"\"Implements Adam algorithm.\n\n    This implementation is modified from torch.optim.Adam based on:\n    `Fixed Weight Decay Regularization in Adam`\n    (see https://arxiv.org/abs/1711.05101)\n\n    It has been proposed in `Adam: A Method for Stochastic Optimization`_.\n\n    Args:\n        params (iterable): iterable of parameters to optimize or dicts defining\n            parameter groups\n        lr (float, optional): learning rate (default: 1e-3)\n        betas (Tuple[float, float], optional): coefficients used for computing\n            running averages of gradient and its square (default: (0.9, 0.999))\n        eps (float, optional): term added to the denominator to improve\n            numerical stability (default: 1e-8)\n        weight_decay (float, optional): weight decay (L2 penalty) (default: 0)\n        amsgrad (boolean, optional): whether to use the AMSGrad variant of this\n            algorithm from the paper `On the Convergence of Adam and Beyond`_\n\n    .. _Adam\\: A Method for Stochastic Optimization:\n        https://arxiv.org/abs/1412.6980\n    .. _On the Convergence of Adam and Beyond:\n        https://openreview.net/forum?id=ryQu7f-RZ\n    \"\"\"\n\n    def __init__(\n        self,\n        params,\n        lr=1e-3,\n        betas=(0.9, 0.999),\n        eps=1e-8,\n        weight_decay=0,\n        amsgrad=False,\n    ):\n        defaults = dict(\n            lr=lr, betas=betas, eps=eps, weight_decay=weight_decay, amsgrad=amsgrad\n        )\n        super(Adam, self).__init__(params, defaults)\n\n    @property\n    def supports_memory_efficient_fp16(self):\n        return True\n\n    @property\n    def supports_flat_params(self):\n        return True\n\n    def step(self, closure=None):\n        \"\"\"Performs a single optimization step.\n\n        Args:\n            closure (callable, optional): A closure that reevaluates the model\n                and returns the loss.\n        \"\"\"\n        loss = None\n        if closure is not None:\n            loss = closure()\n\n        for group in self.param_groups:\n            for p in group[\"params\"]:\n                if p.grad is None:\n                    continue\n                grad = p.grad.data\n                if grad.dtype in {torch.float16, torch.bfloat16}:\n                    grad = grad.float()\n                if grad.is_sparse:\n                    raise RuntimeError(\n                        \"Adam does not support sparse gradients, please consider SparseAdam instead\"\n                    )\n                amsgrad = group.get(\"amsgrad\", False)\n\n                p_data_fp32 = p.data\n                if p.data.dtype in {torch.float16, torch.bfloat16}:\n                    p_data_fp32 = p_data_fp32.float()\n\n                state = self.state[p]\n\n                # State initialization\n                if len(state) == 0:\n                    state[\"step\"] = 0\n                    # Exponential moving average of gradient values\n                    state[\"exp_avg\"] = torch.zeros_like(p_data_fp32)\n                    # Exponential moving average of squared gradient values\n                    state[\"exp_avg_sq\"] = torch.zeros_like(p_data_fp32)\n                    if amsgrad:\n                        # Maintains max of all exp. moving avg. of sq. grad. values\n                        state[\"max_exp_avg_sq\"] = torch.zeros_like(p_data_fp32)\n                else:\n                    state[\"exp_avg\"] = state[\"exp_avg\"].to(p_data_fp32)\n                    state[\"exp_avg_sq\"] = state[\"exp_avg_sq\"].to(p_data_fp32)\n                    if amsgrad:\n                        state[\"max_exp_avg_sq\"] = state[\"max_exp_avg_sq\"].to(\n                            p_data_fp32\n                        )\n\n                exp_avg, exp_avg_sq = state[\"exp_avg\"], state[\"exp_avg_sq\"]\n                if amsgrad:\n                    max_exp_avg_sq = state[\"max_exp_avg_sq\"]\n                beta1, beta2 = group[\"betas\"]\n\n                state[\"step\"] += 1\n\n                # Decay the first and second moment running average coefficient\n                exp_avg.mul_(beta1).add_(grad, alpha=1 - beta1)\n                exp_avg_sq.mul_(beta2).addcmul_(grad, grad, value=1 - beta2)\n                if amsgrad:\n                    # Maintains the maximum of all 2nd moment running avg. till now\n                    torch.max(max_exp_avg_sq, exp_avg_sq, out=max_exp_avg_sq)\n                    # Use the max. for normalizing running avg. of gradient\n                    denom = max_exp_avg_sq.sqrt().add_(group[\"eps\"])\n                else:\n                    denom = exp_avg_sq.sqrt().add_(group[\"eps\"])\n\n                bias_correction1 = 1 - beta1 ** state[\"step\"]\n                bias_correction2 = 1 - beta2 ** state[\"step\"]\n                step_size = group[\"lr\"] * math.sqrt(bias_correction2) / bias_correction1\n\n                if group[\"weight_decay\"] != 0:\n                    p_data_fp32.add_(\n                        p_data_fp32, alpha=-group[\"weight_decay\"] * group[\"lr\"]\n                    )\n\n                p_data_fp32.addcdiv_(exp_avg, denom, value=-step_size)\n\n                if p.data.dtype in {torch.float16, torch.bfloat16}:\n                    p.data.copy_(p_data_fp32)\n\n        return loss\n"
  },
  {
    "path": "fairseq/optim/adamax.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nimport torch.optim\n\nfrom . import LegacyFairseqOptimizer, register_optimizer\n\n\n@register_optimizer(\"adamax\")\nclass FairseqAdamax(LegacyFairseqOptimizer):\n    def __init__(self, args, params):\n        super().__init__(args)\n        self._optimizer = Adamax(params, **self.optimizer_config)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add optimizer-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--adamax-betas', default='(0.9, 0.999)', metavar='B',\n                            help='betas for Adam optimizer')\n        parser.add_argument('--adamax-eps', type=float, default=1e-8, metavar='D',\n                            help='epsilon for Adam optimizer')\n        parser.add_argument('--weight-decay', '--wd', default=0.0, type=float, metavar='WD',\n                            help='weight decay')\n        parser.add_argument('--no-bias-correction', default=False, action='store_true',\n                            help='disable bias correction')\n        # fmt: on\n\n    @property\n    def optimizer_config(self):\n        \"\"\"\n        Return a kwarg dictionary that will be used to override optimizer\n        args stored in checkpoints. This allows us to load a checkpoint and\n        resume training using a different set of optimizer args, e.g., with a\n        different learning rate.\n        \"\"\"\n        return {\n            \"lr\": self.args.lr[0],\n            \"betas\": eval(self.args.adamax_betas),\n            \"eps\": self.args.adamax_eps,\n            \"weight_decay\": self.args.weight_decay,\n            \"bias_correction\": not self.args.no_bias_correction,\n        }\n\n\nclass Adamax(torch.optim.Optimizer):\n    \"\"\"Implements Adamax algorithm (a variant of Adam based on infinity norm).\n\n    It has been proposed in `Adam: A Method for Stochastic Optimization`__.\n\n    Compared to the version in PyTorch, this version implements a fix for weight decay.\n\n    Args:\n        params (iterable): iterable of parameters to optimize or dicts defining\n            parameter groups\n        lr (float, optional): learning rate (default: 2e-3)\n        betas (Tuple[float, float], optional): coefficients used for computing\n            running averages of gradient and its square\n        eps (float, optional): term added to the denominator to improve\n            numerical stability (default: 1e-8)\n        weight_decay (float, optional): weight decay (L2 penalty) (default: 0)\n        bias_correction (bool, optional): enable bias correction (default: True)\n\n    __ https://arxiv.org/abs/1412.6980\n    \"\"\"\n\n    def __init__(\n        self,\n        params,\n        lr=2e-3,\n        betas=(0.9, 0.999),\n        eps=1e-8,\n        weight_decay=0,\n        bias_correction=True,\n    ):\n        if not 0.0 <= lr:\n            raise ValueError(\"Invalid learning rate: {}\".format(lr))\n        if not 0.0 <= eps:\n            raise ValueError(\"Invalid epsilon value: {}\".format(eps))\n        if not 0.0 <= betas[0] < 1.0:\n            raise ValueError(\"Invalid beta parameter at index 0: {}\".format(betas[0]))\n        if not 0.0 <= betas[1] < 1.0:\n            raise ValueError(\"Invalid beta parameter at index 1: {}\".format(betas[1]))\n        if not 0.0 <= weight_decay:\n            raise ValueError(\"Invalid weight_decay value: {}\".format(weight_decay))\n\n        defaults = dict(\n            lr=lr,\n            betas=betas,\n            eps=eps,\n            weight_decay=weight_decay,\n            bias_correction=bias_correction,\n        )\n        super(Adamax, self).__init__(params, defaults)\n\n    @property\n    def supports_memory_efficient_fp16(self):\n        return True\n\n    @property\n    def supports_flat_params(self):\n        return True\n\n    def step(self, closure=None):\n        \"\"\"Performs a single optimization step.\n\n        Args:\n            closure (callable, optional): A closure that reevaluates the model\n                and returns the loss.\n        \"\"\"\n        loss = None\n        if closure is not None:\n            loss = closure()\n\n        for group in self.param_groups:\n            for p in group[\"params\"]:\n                if p.grad is None:\n                    continue\n                grad = p.grad.data.float()\n                if grad.is_sparse:\n                    raise RuntimeError(\"Adamax does not support sparse gradients\")\n\n                p_data_fp32 = p.data\n                if p.data.dtype in {torch.float16, torch.bfloat16}:\n                    p_data_fp32 = p_data_fp32.float()\n\n                state = self.state[p]\n\n                # State initialization\n                if len(state) == 0:\n                    state[\"step\"] = 0\n                    state[\"exp_avg\"] = torch.zeros_like(p_data_fp32)\n                    state[\"exp_inf\"] = torch.zeros_like(p_data_fp32)\n                else:\n                    state[\"exp_avg\"] = state[\"exp_avg\"].to(p_data_fp32)\n                    state[\"exp_inf\"] = state[\"exp_inf\"].to(p_data_fp32)\n\n                exp_avg, exp_inf = state[\"exp_avg\"], state[\"exp_inf\"]\n                beta1, beta2 = group[\"betas\"]\n                eps = group[\"eps\"]\n\n                state[\"step\"] += 1\n\n                # Update biased first moment estimate.\n                exp_avg.mul_(beta1).add_(grad, alpha=1 - beta1)\n\n                # Update the exponentially weighted infinity norm.\n                torch.max(\n                    exp_inf.mul_(beta2),\n                    grad.abs_(),\n                    out=exp_inf,\n                )\n\n                step_size = group[\"lr\"]\n                if group[\"bias_correction\"]:\n                    bias_correction = 1 - beta1 ** state[\"step\"]\n                    step_size /= bias_correction\n\n                if group[\"weight_decay\"] != 0:\n                    p_data_fp32.add_(\n                        p_data_fp32, alpha=-group[\"weight_decay\"] * group[\"lr\"]\n                    )\n\n                p_data_fp32.addcdiv_(exp_avg, exp_inf.add(eps), value=-step_size)\n\n                if p.data.dtype in {torch.float16, torch.bfloat16}:\n                    p.data.copy_(p_data_fp32)\n\n        return loss\n"
  },
  {
    "path": "fairseq/optim/amp_optimizer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nimport torch\nfrom fairseq import optim\nfrom omegaconf import DictConfig\n\nlogger = logging.getLogger(__name__)\n\n\nclass AMPOptimizer(optim.FairseqOptimizer):\n    \"\"\"\n    Wrap an *optimizer* to support AMP (automatic mixed precision) training.\n    \"\"\"\n\n    def __init__(self, cfg: DictConfig, params, fp32_optimizer, **kwargs):\n        super().__init__(cfg.optimizer)\n        self.fp32_optimizer = fp32_optimizer\n        amp_kwargs = {\"init_scale\": cfg.common.fp16_init_scale}\n        if getattr(cfg.common, \"amp_scale_window\", None) is not None:\n            amp_kwargs[\"growth_interval\"] = cfg.common.amp_init_scale\n        self._grad_scaler = torch.cuda.amp.GradScaler(**amp_kwargs)\n        self.min_loss_scale = cfg.common.min_loss_scale\n\n    @classmethod\n    def build_optimizer(cls, cfg: DictConfig, params, **kwargs):\n        \"\"\"\n        Args:\n            cfg (omegaconf.DictConfig): fairseq args\n            params (iterable): iterable of parameters to optimize\n        \"\"\"\n        fp32_optimizer = optim.build_optimizer(cfg.optimizer, params)\n        return cls(cfg, params, fp32_optimizer, **kwargs)\n\n    def backward(self, loss):\n        \"\"\"Computes the sum of gradients of the given tensor w.r.t. graph leaves.\n\n        Compared to :func:`fairseq.optim.FairseqOptimizer.backward`, this\n        function additionally dynamically scales the loss to avoid gradient\n        underflow.\n        \"\"\"\n        self._grad_scaler.scale(loss).backward()\n\n    def step(self):\n        self.scaler.step(self.fp32_optimizer)\n        self.scaler.update()\n\n    def clip_grad_norm(self, max_norm, aggregate_norm_fn=None):\n        \"\"\"Clips gradient norm.\"\"\"\n        self.scaler.unscale_(self.optimizer)\n        grad_norm = self.fp32_optimizer.clip_grad_norm(max_norm, aggregate_norm_fn)\n        if not torch.isfinite(grad_norm).all():\n            new_loss_scale = self.next_loss_scale\n            if new_loss_scale <= self.min_loss_scale:\n                raise FloatingPointError(\n                    (\n                        \"AMP: Minimum loss scale reached ({}). Your loss is probably exploding. \"\n                        \"Try restarting training or use fp32. {}\"\n                    ).format(self.min_loss_scale, new_loss_scale)\n                )\n            else:\n                logger.info(\n                    \"AMP: overflow detected, setting scale to \" f\"to {new_loss_scale}\"\n                )\n        return grad_norm\n\n    @property\n    def scaler(self):\n        return self._grad_scaler\n\n    @property\n    def next_loss_scale(self):\n        return self.scaler.get_scale() * self.scaler.get_backoff_factor()\n\n    @property\n    def optimizer(self):\n        return self.fp32_optimizer.optimizer\n\n    @optimizer.setter\n    def optimizer(self, optimizer):\n        self.fp32_optimizer.optimizer = optimizer\n\n    @property\n    def lr_scheduler(self):\n        return getattr(self.fp32_optimizer, \"lr_scheduler\", None)\n\n    @property\n    def optimizer_config(self):\n        return self.fp32_optimizer.optimizer_config\n\n    def get_lr(self):\n        return self.fp32_optimizer.get_lr()\n\n    def set_lr(self, lr):\n        self.fp32_optimizer.set_lr(lr)\n\n    def all_reduce_grads(self, module):\n        self.fp32_optimizer.all_reduce_grads(module)\n\n    @property\n    def supports_flat_params(self):\n        return self.fp32_optimizer.supports_flat_params\n"
  },
  {
    "path": "fairseq/optim/bmuf.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\n\nimport torch\nimport torch.distributed as dist\nfrom fairseq.dataclass.configs import FairseqBMUFConfig\nfrom fairseq.dataclass.utils import gen_parser_from_dataclass\nfrom fairseq.optim.fairseq_optimizer import FairseqOptimizer\n\n\nclass FairseqBMUF(FairseqOptimizer):\n    \"\"\"\n    Implements incremental block distributed data parallelism similar to\n    https://ieeexplore.ieee.org/document/7472805\n\n    Paper title: Scalable training of deep learning machines by incremental\n    block training with intra-block parallel optimization and blockwise\n    model-update filtering\n    \"\"\"\n\n    def __init__(self, cfg: FairseqBMUFConfig, optimizer):\n        super().__init__(cfg)\n        self._optimizer = optimizer\n        self._num_updates = 0\n        self.sync_iter = cfg.global_sync_iter\n        self.block_momentum = cfg.block_momentum\n        self.block_lr = cfg.block_lr\n        self._reset_local_data()\n        self.warmup_iteration = cfg.warmup_iterations\n        self.use_nbm = cfg.use_nbm\n        self.initial_state = self._optimizer.state_dict()\n        self.average_sync = self.cfg.average_sync\n        self.world_size = self.cfg.distributed_world_size\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add optimizer-specific arguments to the parser.\"\"\"\n        gen_parser_from_dataclass(parser, FairseqBMUFConfig())\n\n    @property\n    def optimizer(self):\n        return self._optimizer.optimizer\n\n    @property\n    def optimizer_config(self):\n        return self._optimizer.optimizer_config\n\n    def get_lr(self):\n        return self._optimizer.get_lr()\n\n    def set_lr(self, lr):\n        self._optimizer.set_lr(lr)\n\n    def state_dict(self):\n        return self._optimizer.state_dict()\n\n    def load_state_dict(self, state_dict, optimizer_overrides=None):\n        self._optimizer.load_state_dict(state_dict, optimizer_overrides)\n        self.initial_state = self._optimizer.state_dict()\n\n    def multiply_grads(self, c):\n        \"\"\"Multiplies grads by a constant *c*.\"\"\"\n        self._optimizer.multiply_grads(c)\n\n    def clip_grad_norm(self, max_norm, aggregate_norm_fn=None):\n        \"\"\"Clips gradient norm.\"\"\"\n        return self._optimizer.clip_grad_norm(max_norm, aggregate_norm_fn)\n\n    def average_params(self):\n        self._optimizer.average_params()\n\n    def _block_sync(self):\n        if self.world_size <= 1:\n            return\n        # Update the global model using local models from all GPUs\n        # (Step-1) Calculate grad between previously synced model and\n        # currrent local model\n        if self.block_momentum != 0:\n            self._calc_grad()\n\n        # (Step-2) Average gradient from all GPUs\n        self._avg_grad_from_all_gpus()\n\n        # (Step-3) Calculate global momentum and update the global model\n        if self.block_momentum != 0:\n            self._update_global_model()\n\n        # (Step-4) Average local optimizer params\n        if self.average_sync:\n            self.average_params()\n\n    def _is_warmup_end(self):\n        # Check whether train iterations is equal to warmup iter\n        if self.get_num_updates() == self.warmup_iteration:\n            return True\n        return False\n\n    def _is_bmuf_iter(self):\n        # Check whether train iterations is equal to bmuf sync iter\n        if (self.get_num_updates() > self.warmup_iteration) and (\n            self.get_num_updates() % self.sync_iter == 0\n        ):\n            return True\n        return False\n\n    def _warmup_sync(self, root_rank=0):\n        if self.world_size <= 1:\n            return\n        # Broadcast the local model to all gpus\n        for param in self.params:\n            dist.broadcast(param.data, src=root_rank)\n\n        # Update local optimizer state\n        if self.average_sync:\n            self._optimizer.average_params()\n        else:\n            self._optimizer.load_state_dict(self.initial_state)\n\n        self._reset_local_data()\n\n    def step(self, closure=None):\n        \"\"\"Performs a single optimization step.\"\"\"\n        self._optimizer.step(closure)\n        self.set_num_updates(self.get_num_updates() + 1)\n        if self._is_warmup_end():\n            self._warmup_sync()\n        elif self._is_bmuf_iter():\n            self._block_sync()\n\n    def zero_grad(self):\n        \"\"\"Clears the gradients of all optimized parameters.\"\"\"\n        self._optimizer.zero_grad()\n\n    def get_num_updates(self):\n        \"\"\"Get the number of parameters updates.\"\"\"\n        return self._num_updates\n\n    def set_num_updates(self, num_updates):\n        \"\"\"Set the number of parameters updates.\"\"\"\n        self._num_updates = num_updates\n\n    @torch.no_grad()\n    def _reset_local_data(self):\n        # (Step-0) Initialize global momentum parameters and store global copy on each gpu\n        self.global_params = [torch.zeros_like(p.data) for p in self.params]\n        self.smoothed_grads = [p.data.new_zeros(p.data.size()) for p in self.params]\n        self.grads = [p.data.new_zeros(p.data.size()) for p in self.params]\n\n        # saving the global model locally for calculating gradient during bmuf sync\n        for param, global_param in zip(self.params, self.global_params):\n            global_param.copy_(param.data)\n\n    @torch.no_grad()\n    def _calc_grad(self):\n        # global_params is basically the global copy from the previously finished\n        # synchronisation. param.data is local parameter after block_sync_freq\n        # for the local gpu. so grad is difference between previously synced\n        # model and currrent local model.\n        for index, (param, global_param) in enumerate(\n            zip(self.params, self.global_params)\n        ):\n            self.grads[index] = global_param - param.data\n\n    def _avg_grad_from_all_gpus(self):\n        for index, param in enumerate(self.params):\n            sync_para = param.data if self.block_momentum == 0 else self.grads[index]\n            sync_para /= float(dist.get_world_size())\n            dist.all_reduce(sync_para, op=dist.ReduceOp.SUM)\n\n    @torch.no_grad()\n    def _update_global_model(self):\n        for index, (param, global_param, smoothed_grad, grad) in enumerate(\n            zip(\n                self.params,\n                self.global_params,\n                self.smoothed_grads,\n                # all gpus would share the same value of smoothed_grad, since it is\n                # always computed on synchronized gradients.\n                self.grads,\n            )\n        ):\n            # global_param is basically last syncrhornized parameter. though\n            # smoothed_grad is local, all processes will have same value of\n            # smoothed_grad and hence param is globally synchronized copy.\n            # smoothed_grad(t) = BM * smoothed_grad(t-1) + BM_lr * grad(t)\n            smoothed_grad = self.block_momentum * smoothed_grad + self.block_lr * grad\n            param.data.copy_(global_param - smoothed_grad)\n\n            # A Nesterov momentum here is to do a partial weight update before\n            # calculating the gradient\n            if self.use_nbm:\n                param.data.copy_(param.data - self.block_momentum * smoothed_grad)\n\n            # backup for the next synchronization.\n            self.smoothed_grads[index] = smoothed_grad\n            global_param.copy_(param.data)\n"
  },
  {
    "path": "fairseq/optim/composite.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom collections import defaultdict\nfrom dataclasses import dataclass, field\nfrom typing import Dict, Any, List, Optional\n\nimport torch.optim\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.optim import FairseqOptimizer, register_optimizer, _build_optimizer\nfrom fairseq.optim.lr_scheduler import FairseqLRScheduler, build_lr_scheduler\nfrom omegaconf import II, open_dict\nimport copy\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass OptimizerAndSchedulerConfig(FairseqDataclass):\n    optimizer: Any = None\n    lr_scheduler: Optional[Any] = None\n    lr: List = II(\"optimization.lr\")\n    lr_float: Optional[\n        float\n    ] = None  # this makes it easier to sweep on learning rate with auto sweepers\n\n\n@dataclass\nclass CompositeOptimizerConfig(FairseqDataclass):\n    groups: Dict[str, Any] = field(\n        default_factory=lambda: {},\n        metadata={\n            \"help\": \"optimizer name -> optimizer OptimizerAndSchedulerConfig. \"\n            \"Configures a different optimizer and (optionally) lr scheduler for each parameter group\"\n        },\n    )\n    dynamic_groups: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"create groups dynamically based on parameters, if set to False, all parameters needs to have group_names\"\n        },\n    )\n\n\n@register_optimizer(\"composite\", dataclass=CompositeOptimizerConfig)\nclass FairseqCompositeOptimizer(FairseqOptimizer):\n\n    optimizers: Dict[str, FairseqOptimizer] = {}\n    lr_schedulers: Dict[str, FairseqLRScheduler] = {}\n    lr_scheduler: FairseqLRScheduler = None\n    _optimizer: torch.optim.Optimizer\n\n    def __init__(self, cfg: CompositeOptimizerConfig, params):\n        super().__init__(cfg)\n\n        assert (\n            len(params) > 1\n        ), \"Composite optimizer only works when there are multiple parameter groups (try fp16_no_flatten_grads: true)\"\n\n        def dict_hash(dictionary: Dict[str, Any]) -> str:\n            import hashlib\n            import json\n\n            dhash = hashlib.md5()\n            encoded = json.dumps(dictionary, sort_keys=True).encode()\n            dhash.update(encoded)\n            return dhash.hexdigest()\n\n        groupped_params = defaultdict(list)\n        overrides = defaultdict(dict)\n        if not cfg.dynamic_groups:\n            for p in params:\n                group = getattr(p, \"param_group\", \"default\")\n                override_config = getattr(p, \"optim_overrides\", None)\n                if override_config is not None and bool(override_config):\n                    overrides[group] = override_config\n                else:\n                    assert (\n                        override_config == None or override_config == overrides[group]\n                    ), f\"For group {group}, different overrides found {override_config} v/s {overrides[group]}\"\n                groupped_params[group].append(p)\n\n            for p, params in groupped_params.items():\n                override_config = getattr(params[0], \"optim_overrides\", None)\n                if override_config is not None:\n                    for pp in params[1:]:\n                        assert override_config == getattr(\n                            pp, \"optim_overrides\", None\n                        ), f\" {str(override_config)} != {str(getattr(pp, 'optim_overrides', None))}\"\n        else:\n            for p in params:\n                group = getattr(p, \"param_group\", \"default\")\n                override_config = getattr(p, \"optim_overrides\", None)\n                if override_config is not None:\n                    override_config[\"group_name\"] = group\n                    group_name = dict_hash(override_config)\n                    overrides[group_name] = override_config\n                else:\n                    group_name = group\n                groupped_params[group_name].append(p)\n\n        self.optimizers_config = {}\n        for group, group_params in groupped_params.items():\n            p_group = group\n            if group in overrides and \"group_name\" in overrides[group]:\n                p_group = overrides[group][\"group_name\"]\n            if group in cfg.groups:\n                group_cfg = cfg.groups[group]\n                optimizer_config = copy.deepcopy(group_cfg.optimizer)\n                scheduler_config = copy.deepcopy(group_cfg.lr_scheduler)\n                explicit_group_present = True\n            else:\n                group_cfg = cfg.groups[p_group]\n                optimizer_config = copy.deepcopy(group_cfg.optimizer)\n                scheduler_config = copy.deepcopy(group_cfg.lr_scheduler)\n                explicit_group_present = False\n\n            if getattr(group_cfg, \"lr_float\", None) is not None:\n                with open_dict(optimizer_config):\n                    optimizer_config.lr = [group_cfg.lr_float]\n\n            if group in overrides and \"optimizer\" in overrides[group]:\n                with open_dict(optimizer_config):\n                    if \"lr_scale\" in overrides[group][\"optimizer\"]:\n                        lr_scale = overrides[group][\"optimizer\"][\"lr_scale\"]\n                        optimizer_config.lr = [\n                            lr * lr_scale for lr in optimizer_config.lr\n                        ]\n\n                        if explicit_group_present:\n                            logger.info(\n                                f\"For group:{group}, config as well as override present for lr\"\n                            )\n\n                    if (\n                        \"weight_decay_scale\" in overrides[group][\"optimizer\"]\n                        and \"optimizer_config\" in optimizer_config\n                    ):\n                        weight_decay_scale = overrides[group][\"optimizer\"][\n                            \"weight_decay_scale\"\n                        ]\n                        optimizer_config.weight_decay = (\n                            optimizer_config.weight_decay * weight_decay_scale\n                        )\n                        if explicit_group_present:\n                            logger.info(\n                                f\"For group:{group}, config as well as override present for weight_decay\"\n                            )\n\n            with open_dict(scheduler_config):\n                scheduler_config.lr = optimizer_config.lr\n            self.optimizers[group] = _build_optimizer(optimizer_config, group_params)\n            self.optimizers_config[group] = optimizer_config\n            if scheduler_config is not None:\n                self.lr_schedulers[group] = build_lr_scheduler(\n                    scheduler_config, self.optimizers[group]\n                )\n        logger.info(\"Optimizers for different groups are as below\")\n        for group in self.optimizers_config.keys():\n            logger.info(f\"Group : {group}:{self.optimizers_config[group]}\")\n        if len(self.lr_schedulers) > 0:\n            assert len(self.lr_schedulers) == len(self.optimizers), (\n                f\"Please provide an lr scheduler for each optimizer to use pass_through scheduler. \"\n                f\"Optimizers: {self.optimizers}; Lr scheds: {self.lr_schedulers}\"\n            )\n            self.lr_scheduler = CompositeLRScheduler(self.lr_schedulers)\n\n        self._optimizer = CompositeOptimizer(self.optimizers)\n\n    @property\n    def supports_groups(self):\n        return True\n\n    @property\n    def param_groups(self):\n        for opt in self.optimizers.values():\n            for group in opt.param_groups:\n                yield group\n\n    def get_lr(self):\n        \"\"\"Return the current learning rate.\"\"\"\n        k = (\n            \"default\"\n            if \"default\" in self.optimizers\n            else next(iter(self.optimizers.keys()))\n        )\n        return self.optimizers[k].param_groups[0][\"lr\"]\n\n    def state_dict(self):\n        \"\"\"Return the LR scheduler state dict.\"\"\"\n        return {k: s.state_dict() for k, s in self.optimizers.items()}\n\n    def load_state_dict(self, state_dict, optimizer_overrides=None):\n        \"\"\"Load an LR scheduler state dict.\"\"\"\n        for k, state in state_dict.items():\n            if k not in self.optimizers:\n                # skip extra keys like \"loss_scale\" added by fp16 optimizer\n                continue\n\n            overrides = (\n                optimizer_overrides[k]\n                if isinstance(optimizer_overrides, dict) and k in optimizer_overrides\n                else None\n            )\n            self.optimizers[k].load_state_dict(state, optimizer_overrides=overrides)\n\n\nclass CompositeOptimizer(torch.optim.Optimizer):\n    def __init__(self, optimizers: Dict[str, FairseqOptimizer]):\n        self.optimizers = optimizers\n\n    @property\n    def supports_memory_efficient_fp16(self):\n        return all(o.supports_memory_efficient_fp16 for o in self.optimizers.values())\n\n    @property\n    def supports_flat_params(self):\n        return all(o.supports_flat_params for o in self.optimizers.values())\n\n    def step(self, closure=None, groups=None):\n        \"\"\"Performs a single optimization step.\n\n        Args:\n            closure (callable, optional): A closure that reevaluates the model\n                and returns the loss.\n        \"\"\"\n        loss = None\n        if closure is not None:\n            loss = closure()\n\n        for k, opt in self.optimizers.items():\n            if groups is None or k in groups:\n                opt.step()\n\n        return loss\n\n    def zero_grad(self):\n        for opt in self.optimizers.values():\n            opt.zero_grad()\n\n\nclass CompositeLRScheduler(FairseqLRScheduler):\n    def __init__(self, lr_schedulers):\n        super().__init__(None, None)\n\n        self.lr_schedulers = lr_schedulers\n\n    def state_dict(self):\n        \"\"\"Return the LR scheduler state dict.\"\"\"\n        return {k: s.state_dict() for k, s in self.lr_schedulers.items()}\n\n    def load_state_dict(self, state_dict):\n        \"\"\"Load an LR scheduler state dict.\"\"\"\n        for k, state in state_dict.items():\n            self.lr_schedulers[k].load_state_dict(state)\n\n    def step_begin_epoch(self, epoch):\n        \"\"\"Update the learning rate at the beginning of the given epoch.\"\"\"\n        for s in self.lr_schedulers.values():\n            s.step_begin_epoch(epoch)\n\n    def step(self, epoch, val_loss=None):\n        \"\"\"Update the learning rate at the end of the given epoch.\"\"\"\n        for s in self.lr_schedulers.values():\n            s.step(epoch)\n\n    def step_update(self, num_updates):\n        \"\"\"Update the learning rate after each update.\"\"\"\n        return {k: s.step_update(num_updates) for k, s in self.lr_schedulers.items()}\n"
  },
  {
    "path": "fairseq/optim/cpu_adam.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport importlib\nfrom collections.abc import Collection\nfrom dataclasses import dataclass, field\nfrom typing import List\n\nimport torch\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.optim import FairseqOptimizer, register_optimizer\nfrom omegaconf import II, DictConfig\n\n\ntry:\n    import deepspeed\n\n    has_deepspeed = True\nexcept ImportError as e:\n    has_deepspeed = False\n\n\ndef _get_cpu_adam():\n    try:\n        from deepspeed.ops.op_builder import CPUAdamBuilder\n\n        return CPUAdamBuilder().load()\n    except ImportError:\n        # fbcode\n        from deepspeed.ops.adam import DeepSpeedCPUAdam as ds_opt_adam\n\n        return ds_opt_adam\n\n\n@dataclass\nclass FairseqCPUAdamConfig(FairseqDataclass):\n    adam_betas: str = field(\n        default=\"(0.9, 0.999)\", metadata={\"help\": \"betas for Adam optimizer\"}\n    )\n    adam_eps: float = field(\n        default=1e-8, metadata={\"help\": \"epsilon for Adam optimizer\"}\n    )\n    weight_decay: float = field(default=0.0, metadata={\"help\": \"weight decay\"})\n    fp16_adam_stats: bool = field(\n        default=False, metadata={\"help\": \"use FP16 stats (with automatic scaling)\"}\n    )\n    # TODO common vars below in parent\n    lr: List[float] = II(\"optimization.lr\")\n\n\n@register_optimizer(\"cpu_adam\", dataclass=FairseqCPUAdamConfig)\nclass FairseqCPUAdam(FairseqOptimizer):\n    \"\"\"Adam optimizer for fairseq, optimized for CPU tensors.\n\n    Important note: this optimizer corresponds to the \"AdamW\" variant of\n    Adam in its weight decay behavior. As such, it is most closely\n    analogous to torch.optim.AdamW from PyTorch.\n    \"\"\"\n\n    def __init__(self, cfg: DictConfig, params):\n        super().__init__(cfg)\n        self._optimizer = CPUAdam(params, **self.optimizer_config)\n\n    @property\n    def optimizer_config(self):\n        \"\"\"\n        Return a kwarg dictionary that will be used to override optimizer\n        args stored in checkpoints. This allows us to load a checkpoint and\n        resume training using a different set of optimizer args, e.g., with a\n        different learning rate.\n        \"\"\"\n        return {\n            \"lr\": self.cfg.lr[0]\n            if isinstance(self.cfg.lr, Collection)\n            else self.cfg.lr,\n            \"betas\": eval(self.cfg.adam_betas),\n            \"eps\": self.cfg.adam_eps,\n            \"weight_decay\": self.cfg.weight_decay,\n            \"use_fp16_stats\": self.cfg.fp16_adam_stats,\n        }\n\n\nclass CPUAdam(torch.optim.Optimizer):\n\n    optimizer_id = 0\n\n    def __init__(\n        self,\n        params,\n        lr=1e-3,\n        bias_correction=True,\n        betas=(0.9, 0.999),\n        eps=1e-8,\n        weight_decay=0,\n        use_fp16_stats=False,\n    ):\n        defaults = {\n            \"lr\": lr,\n            \"bias_correction\": bias_correction,\n            \"betas\": betas,\n            \"eps\": eps,\n            \"weight_decay\": weight_decay,\n        }\n        super().__init__(params, defaults)\n\n        self.use_fp16_stats = use_fp16_stats\n        self.FLOAT16_MAX = 65504.0\n\n        if not has_deepspeed:\n            raise ImportError(\"Please install DeepSpeed: pip install deepspeed\")\n\n        self.opt_id = CPUAdam.optimizer_id\n        CPUAdam.optimizer_id = CPUAdam.optimizer_id + 1\n\n        self.ds_opt_adam = _get_cpu_adam()\n        adamw_mode = True\n        self.ds_opt_adam.create_adam(\n            self.opt_id, lr, betas[0], betas[1], eps, weight_decay, adamw_mode\n        )\n\n    @property\n    def supports_memory_efficient_fp16(self):\n        return True\n\n    @property\n    def supports_flat_params(self):\n        return True\n\n    @torch.no_grad()\n    def step(self, closure=None):\n        loss = None\n        if closure is not None:\n            with torch.enable_grad():\n                loss = closure()\n\n        torch.cuda.synchronize()\n\n        for group_id, group in enumerate(self.param_groups):\n            for param_id, p in enumerate(group[\"params\"]):\n                if p.grad is None:\n                    continue\n\n                state = self.state[p]\n                if len(state) == 0:\n                    state[\"step\"] = 0\n                    dtype = torch.float16 if self.use_fp16_stats else p.data.dtype\n                    # gradient momentums\n                    state[\"exp_avg\"] = torch.zeros_like(\n                        p.data, dtype=dtype, device=\"cpu\"\n                    )\n                    # gradient variances\n                    state[\"exp_avg_sq\"] = torch.zeros_like(\n                        p.data, dtype=dtype, device=\"cpu\"\n                    )\n                    if self.use_fp16_stats:\n                        assert torch.is_floating_point(p.data)\n                        state[\"exp_avg_scale\"] = 1.0\n                        state[\"exp_avg_sq_scale\"] = 1.0\n\n                exp_avg, exp_avg_sq = state[\"exp_avg\"], state[\"exp_avg_sq\"]\n\n                p_data_bak = p.data  # backup of the original data pointer\n\n                p.data = p.data.to(dtype=torch.float32, device=\"cpu\")\n                p.grad.data = p.grad.data.to(dtype=torch.float32, device=\"cpu\")\n\n                if self.use_fp16_stats:\n                    exp_avg = exp_avg.float() * state[\"exp_avg_scale\"]\n                    exp_avg_sq = exp_avg_sq.float() * state[\"exp_avg_sq_scale\"]\n\n                state[\"step\"] += 1\n                beta1, beta2 = group[\"betas\"]\n\n                self.ds_opt_adam.adam_update(\n                    self.opt_id,\n                    state[\"step\"],\n                    group[\"lr\"],\n                    beta1,\n                    beta2,\n                    group[\"eps\"],\n                    group[\"weight_decay\"],\n                    group[\"bias_correction\"],\n                    p.data,\n                    p.grad.data,\n                    exp_avg,\n                    exp_avg_sq,\n                )\n\n                if p_data_bak.data_ptr() != p.data.data_ptr():\n                    p_data_bak.copy_(p.data)\n                    p.data = p_data_bak\n\n                if self.use_fp16_stats:\n\n                    def inf_norm(t):\n                        return torch.norm(t, float(\"inf\"))\n\n                    # from github.com/openai/jukebox/blob/master/jukebox/utils/fp16.py\n                    state[\"exp_avg_scale\"], state[\"exp_avg_sq_scale\"] = (\n                        1e-8 + inf_norm(exp_avg) / self.FLOAT16_MAX,\n                        1e-8 + inf_norm(exp_avg_sq) / self.FLOAT16_MAX,\n                    )\n                    state[\"exp_avg\"], state[\"exp_avg_sq\"] = (\n                        (exp_avg / state[\"exp_avg_scale\"]).half(),\n                        (exp_avg_sq / state[\"exp_avg_sq_scale\"]).half(),\n                    )\n\n        return loss\n"
  },
  {
    "path": "fairseq/optim/dynamic_loss_scaler.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nclass DynamicLossScaler(object):\n    def __init__(\n        self,\n        init_scale=2.0**15,\n        scale_factor=2.0,\n        scale_window=2000,\n        tolerance=0.0,\n        threshold=None,\n        min_loss_scale=1e-4,\n    ):\n        self.loss_scale = init_scale\n        self.scale_factor = scale_factor\n        self.scale_window = scale_window\n        self.tolerance = tolerance\n        self.threshold = threshold\n        self._iter = 0\n        self._last_overflow_iter = -1\n        self._last_rescale_iter = -1\n        self._overflows_since_rescale = 0\n        self.min_loss_scale = min_loss_scale\n\n    def scale(self, outputs):\n        return self.loss_scale * outputs\n\n    def update(self):\n        if (self._iter - self._last_overflow_iter) % self.scale_window == 0:\n            self.loss_scale *= self.scale_factor\n            self._last_rescale_iter = self._iter\n        self._iter += 1\n\n    def _decrease_loss_scale(self):\n        self.loss_scale /= self.scale_factor\n        if self.threshold is not None:\n            self.loss_scale = max(self.loss_scale, self.threshold)\n\n    def check_overflow(self, grad_norm):\n        # detect inf and nan\n        if grad_norm == float(\"inf\") or grad_norm != grad_norm:\n            # overflow has occured\n            prev_scale = self.loss_scale\n            iter_since_rescale = self._iter - self._last_rescale_iter\n\n            self._last_overflow_iter = self._iter\n            self._overflows_since_rescale += 1\n            pct_overflow = self._overflows_since_rescale / float(iter_since_rescale)\n            if pct_overflow >= self.tolerance:\n                self._decrease_loss_scale()\n                self._last_rescale_iter = self._iter\n                self._overflows_since_rescale = 0\n\n            if self.loss_scale <= self.min_loss_scale:\n                # Use FloatingPointError as an uncommon error that parent\n                # functions can safely catch to stop training.\n                self.loss_scale = prev_scale\n                raise FloatingPointError(\n                    (\n                        \"Minimum loss scale reached ({}). Your loss is probably exploding. \"\n                        \"Try lowering the learning rate, using gradient clipping or \"\n                        \"increasing the batch size.\"\n                    ).format(self.min_loss_scale)\n                )\n\n            self._iter += 1\n            raise OverflowError(\"setting loss scale to: \" + str(self.loss_scale))\n"
  },
  {
    "path": "fairseq/optim/fairseq_optimizer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nfrom fairseq import utils\nfrom fairseq.dataclass.utils import gen_parser_from_dataclass\nfrom collections import defaultdict\n\n\nclass FairseqOptimizer(object):\n    def __init__(self, cfg):\n        super().__init__()\n        self.cfg = cfg\n\n    @classmethod\n    def add_args(cls, parser):\n        \"\"\"Add optimizer-specific arguments to the parser.\"\"\"\n        dc = getattr(cls, \"__dataclass\", None)\n        if dc is not None:\n            gen_parser_from_dataclass(parser, dc())\n\n    @property\n    def optimizer(self):\n        \"\"\"Return a torch.optim.optimizer.Optimizer instance.\"\"\"\n        if not hasattr(self, \"_optimizer\"):\n            raise NotImplementedError\n        if not isinstance(self._optimizer, torch.optim.Optimizer):\n            raise ValueError(\"_optimizer must be an instance of torch.optim.Optimizer\")\n        return self._optimizer\n\n    @optimizer.setter\n    def optimizer(self, optimizer):\n        \"\"\"Reset optimizer instance.\"\"\"\n        if not hasattr(self, \"_optimizer\"):\n            raise NotImplementedError\n        if not isinstance(self._optimizer, torch.optim.Optimizer):\n            raise ValueError(\"_optimizer must be an instance of torch.optim.Optimizer\")\n        self._optimizer = optimizer\n\n    @property\n    def optimizer_config(self):\n        \"\"\"\n        Return a kwarg dictionary that will be used to override optimizer\n        args stored in checkpoints. This allows us to load a checkpoint and\n        resume training using a different set of optimizer args, e.g., with a\n        different learning rate.\n        \"\"\"\n        raise NotImplementedError\n\n    @property\n    def params(self):\n        \"\"\"Return an iterable of the parameters held by the optimizer.\"\"\"\n        for param_group in self.param_groups:\n            for p in param_group[\"params\"]:\n                yield p\n\n    @property\n    def param_groups(self):\n        return self.optimizer.param_groups\n\n    def __getstate__(self):\n        return self._optimizer.__getstate__()\n\n    def get_lr(self):\n        \"\"\"Return the current learning rate.\"\"\"\n        return self.param_groups[0][\"lr\"]\n\n    def set_lr(self, lr):\n        \"\"\"Set the learning rate.\"\"\"\n        for param_group in self.param_groups:\n            param_group[\"lr\"] = lr\n\n    def state_dict(self):\n        \"\"\"Return the optimizer's state dict.\"\"\"\n        return self.optimizer.state_dict()\n\n    def load_state_dict(self, state_dict, optimizer_overrides=None):\n        \"\"\"Load an optimizer state dict.\n\n        In general we should prefer the configuration of the existing optimizer\n        instance (e.g., learning rate) over that found in the state_dict. This\n        allows us to resume training from a checkpoint using a new set of\n        optimizer args.\n        \"\"\"\n        self.optimizer.load_state_dict(state_dict)\n\n        if optimizer_overrides is not None and len(optimizer_overrides) > 0:\n            # override learning rate, momentum, etc. with latest values\n            for group in self.param_groups:\n                group.update(optimizer_overrides)\n\n    def backward(self, loss):\n        \"\"\"Computes the sum of gradients of the given tensor w.r.t. graph leaves.\"\"\"\n        loss.backward()\n\n    def all_reduce_grads(self, module):\n        \"\"\"Manually all-reduce gradients (if required).\"\"\"\n        if hasattr(module, \"all_reduce_grads\"):\n            module.all_reduce_grads()\n\n    def multiply_grads(self, c):\n        \"\"\"Multiplies grads by a constant *c*.\"\"\"\n        per_device_and_dtype_grads = defaultdict(lambda: defaultdict(list))\n        for p in self.params:\n            if p.grad is not None:\n                if p.grad.is_sparse:\n                    p.grad.data.mul_(c.to(p.grad.device) if torch.is_tensor(c) else c)\n                else:\n                    per_device_and_dtype_grads[p.grad.device][p.grad.dtype].append(\n                        p.grad.data\n                    )\n        for device, per_dtype_grads in per_device_and_dtype_grads.items():\n            for grads in per_dtype_grads.values():\n                torch._foreach_mul_(grads, c.to(device) if torch.is_tensor(c) else c)\n\n    def clip_grad_norm(self, max_norm, aggregate_norm_fn=None):\n        \"\"\"Clips gradient norm.\"\"\"\n        return utils.clip_grad_norm_(self.params, max_norm, aggregate_norm_fn)\n\n    def step(self, closure=None, scale=1.0, groups=None):\n        \"\"\"Performs a single optimization step.\"\"\"\n        if self.supports_step_with_scale:\n            if self.supports_groups:\n                self.optimizer.step(closure, scale=scale, groups=groups)\n            else:\n                self.optimizer.step(closure, scale=scale)\n        else:\n            if scale != 1.0:\n                self.multiply_grads(1.0 / scale)\n            if self.supports_groups:\n                self.optimizer.step(closure, groups=groups)\n            else:\n                self.optimizer.step(closure)\n\n    def zero_grad(self):\n        \"\"\"Clears the gradients of all optimized parameters.\"\"\"\n        for p in self.params:\n            p.grad = None\n        self.optimizer.zero_grad()\n\n    @property\n    def supports_memory_efficient_fp16(self):\n        if hasattr(self.optimizer, \"supports_memory_efficient_fp16\"):\n            return self.optimizer.supports_memory_efficient_fp16\n        return False\n\n    @property\n    def supports_step_with_scale(self):\n        if hasattr(self.optimizer, \"supports_step_with_scale\"):\n            return self.optimizer.supports_step_with_scale\n        return False\n\n    @property\n    def supports_groups(self):\n        if hasattr(self.optimizer, \"supports_groups\"):\n            return self.optimizer.supports_groups\n        return False\n\n    @property\n    def supports_flat_params(self):\n        \"\"\"\n        Whether the optimizer supports collapsing of the model\n        parameters/gradients into a single contiguous Tensor.\n        \"\"\"\n        if hasattr(self.optimizer, \"supports_flat_params\"):\n            return self.optimizer.supports_flat_params\n        return False\n\n    def average_params(self):\n        pass\n\n    def broadcast_global_state_dict(self, state_dict):\n        \"\"\"\n        Broadcasts a global state dict to all ranks.\n        Useful for optimizers that shard state between ranks.\n        \"\"\"\n        if hasattr(self.optimizer, \"broadcast_global_state_dict\"):\n            return self.optimizer.broadcast_global_state_dict(state_dict)\n        else:\n            return state_dict\n\n\nclass LegacyFairseqOptimizer(FairseqOptimizer):\n    def __init__(self, args):\n        self.args = args\n"
  },
  {
    "path": "fairseq/optim/fp16_optimizer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom collections import defaultdict\nfrom itertools import chain\n\nimport torch\nfrom omegaconf import DictConfig\n\nfrom fairseq import optim\n\nfrom .dynamic_loss_scaler import DynamicLossScaler\n\n\nclass _FP16OptimizerMixin(object):\n    def __init__(self, *args, **kwargs):\n        # forward __init__ call to the next class in mro(method resolution order)\n        super().__init__(*args, **kwargs)\n        self._multiply_factor = 1.0\n\n    @property\n    def has_flat_params(self):\n        return torch.is_tensor(self.fp32_params) or (\n            isinstance(self.fp32_params, dict)\n            and all(torch.is_tensor(t) for t in self.fp32_params.values())\n        )\n\n    @classmethod\n    def build_fp32_params(cls, args, params, flatten=True):\n        # create FP32 copy of parameters and grads\n        if flatten:\n            is_pipeline_parallel = getattr(\n                args, \"pipeline_model_parallel\", False\n            ) and getattr(args, \"distributed_no_spawn\", False)\n            total_param_size = sum(p.data.numel() for p in params)\n            devices = [torch.cuda.current_device()]\n            if is_pipeline_parallel:\n                devices = list(set(args.pipeline_devices))\n            fp32_params = {}\n            for device in devices:\n                if is_pipeline_parallel:\n                    device_param_size = sum(\n                        p.data.numel() for p in params if p.device.index == device\n                    )\n                    device_params = [p for p in params if p.device.index == device]\n                else:\n                    device_param_size = total_param_size\n                    device_params = params\n                fp32_params[device] = (\n                    device_params[0].new(0).float().new(device_param_size)\n                )\n                offset = 0\n                for p in device_params:\n                    numel = p.data.numel()\n                    fp32_params[device][offset : offset + numel].copy_(p.data.view(-1))\n                    offset += numel\n                fp32_params[device] = torch.nn.Parameter(fp32_params[device])\n                fp32_params[device].grad = fp32_params[device].data.new(\n                    device_param_size\n                )\n            return fp32_params\n        else:\n            fp32_params = []\n            for p in params:\n                p32 = torch.nn.Parameter(p.data.float())\n                if hasattr(p, \"expert\"):\n                    p32.expert = True\n                elif hasattr(p, \"base_expert\"):\n                    p32.base_expert = True\n                p32.grad = torch.zeros_like(p32.data)\n                if hasattr(p, \"param_group\"):\n                    p32.param_group = p.param_group\n                if hasattr(p, \"optim_overrides\"):\n                    p32.optim_overrides = p.optim_overrides\n                fp32_params.append(p32)\n            return fp32_params\n\n    def state_dict(self):\n        \"\"\"Return the optimizer's state dict.\"\"\"\n        state_dict = self.fp32_optimizer.state_dict()\n        if self.scaler is not None:\n            state_dict[\"loss_scale\"] = self.scaler.loss_scale\n        return state_dict\n\n    def load_state_dict(self, state_dict, optimizer_overrides=None):\n        \"\"\"Load an optimizer state dict.\n\n        In general we should prefer the configuration of the existing optimizer\n        instance (e.g., learning rate) over that found in the state_dict. This\n        allows us to resume training from a checkpoint using a new set of\n        optimizer args.\n        \"\"\"\n        if \"loss_scale\" in state_dict and self.scaler is not None:\n            self.scaler.loss_scale = state_dict[\"loss_scale\"]\n        self.fp32_optimizer.load_state_dict(state_dict, optimizer_overrides)\n\n    def backward(self, loss):\n        \"\"\"Computes the sum of gradients of the given tensor w.r.t. graph leaves.\n\n        Compared to :func:`fairseq.optim.FairseqOptimizer.backward`, this\n        function additionally dynamically scales the loss to avoid gradient\n        underflow.\n        \"\"\"\n        if self.scaler is not None:\n            loss = self.scaler.scale(loss)\n        loss.backward()\n        self._needs_sync = True\n\n    def _sync_fp16_grads_to_fp32(self):\n        if self._needs_sync:\n            # copy FP16 grads to FP32\n            if self.has_flat_params:\n                devices = list(self.fp32_params.keys())\n                device_params_dict = defaultdict(list)\n                for p in self.fp16_params:\n                    if p.requires_grad:\n                        device_params_dict[p.device.index].append(p)\n                for device in devices:\n                    device_params = device_params_dict[device]\n                    offset = 0\n                    for p in device_params:\n                        grad_data = (\n                            p.grad.data\n                            if p.grad is not None\n                            else p.data.new_zeros(p.data.shape)\n                        )\n                        numel = grad_data.numel()\n                        self.fp32_params[device].grad.data[\n                            offset : offset + numel\n                        ].copy_(grad_data.view(-1))\n                        offset += numel\n            else:\n                for p, p32 in zip(self.fp16_params, self.fp32_params):\n                    if not p.requires_grad:\n                        continue\n                    if p.grad is not None:\n                        if p32.grad is None:\n                            p32.grad = p.grad.data.float()\n                        else:\n                            p32.grad.data.copy_(p.grad.data)\n                    else:\n                        p32.grad = torch.zeros_like(p.data, dtype=torch.float)\n\n            self._needs_sync = False\n\n    def _sync_fp32_params_to_fp16(self):\n        # copy FP32 params back into FP16 model\n        if self.has_flat_params:\n            devices = list(self.fp32_params.keys())\n            device_params_dict = defaultdict(list)\n            for p in self.fp16_params:\n                device_params_dict[p.device.index].append(p)\n            for device in devices:\n                device_params = device_params_dict[device]\n                offset = 0\n                for p in device_params:\n                    numel = p.data.numel()\n                    p.data.copy_(\n                        self.fp32_params[device]\n                        .data[offset : offset + numel]\n                        .view_as(p.data)\n                    )\n                    offset += numel\n        else:\n            for p, p32 in zip(self.fp16_params, self.fp32_params):\n                if not p.requires_grad:\n                    continue\n                p.data.copy_(p32.data)\n\n    def _unscale_grads(self):\n        self._sync_fp16_grads_to_fp32()\n        if (\n            # Skip the multiplication if it's a no-op (i.e., if _multiply_factor\n            # is 1.0). At the same time, we want to avoid the device-to-host\n            # transfer by comparing it to 1.0. Since _multiply_factor starts as\n            # a Python float, we roughly assume that if it's a tensor then it's\n            # probably not =1.0 anymore and we do the multiplication. Otherwise\n            # we can safely check the value without a D2H transfer.\n            torch.is_tensor(self._multiply_factor)\n            or self._multiply_factor != 1.0\n        ):\n            self.fp32_optimizer.multiply_grads(self._multiply_factor)\n            self._multiply_factor = 1.0\n\n    def multiply_grads(self, c):\n        \"\"\"Multiplies grads by a constant ``c``.\"\"\"\n        self._multiply_factor *= c\n\n    def clip_grad_norm(self, max_norm, aggregate_norm_fn=None):\n        \"\"\"Clips gradient norm and updates dynamic loss scaler.\"\"\"\n        self._sync_fp16_grads_to_fp32()\n\n        grad_norm = self._multiply_factor * self.fp32_optimizer.clip_grad_norm(\n            0, aggregate_norm_fn\n        )\n\n        if torch.is_tensor(self._multiply_factor):\n            self._multiply_factor = self._multiply_factor.to(grad_norm.device)\n\n        if self.scaler is not None:\n            if grad_norm > max_norm > 0.0:\n                self._multiply_factor *= max_norm / grad_norm\n\n            self.scaler.check_overflow(grad_norm)\n        elif max_norm > 0.0:\n            clip_coef = (max_norm / (grad_norm + 1e-6)).clamp_(max=1)\n            self._multiply_factor *= clip_coef\n\n        return grad_norm\n\n    def step(self, closure=None, groups=None):\n        \"\"\"Performs a single optimization step.\"\"\"\n        self._sync_fp16_grads_to_fp32()\n\n        if getattr(self, \"supports_step_with_scale\", False):\n            self.fp32_optimizer.step(\n                closure, scale=(1.0 / self._multiply_factor), groups=groups\n            )\n        else:\n            self._unscale_grads()\n            self.fp32_optimizer.step(closure, groups=groups)\n\n        if self.scaler is not None:\n            self.scaler.update()\n\n        self._sync_fp32_params_to_fp16()\n\n    def zero_grad(self):\n        \"\"\"Clears the gradients of all optimized parameters.\"\"\"\n        for p in self.fp16_params:\n            p.grad = None\n        if self.has_flat_params:\n            if torch.is_tensor(self.fp32_params):\n                self.fp32_params.grad.zero_()\n            elif isinstance(self.fp32_params, dict):\n                for fp32_params in self.fp32_params.values():\n                    fp32_params.grad.zero_()\n            else:\n                raise RuntimeError(\"self.fp32_params must be a tensor or dict\")\n        else:\n            for p32 in self.fp32_params:\n                if p32.grad is not None:\n                    p32.grad.zero_()\n        self._needs_sync = False\n\n        if self.scaler is not None:\n            self._multiply_factor = 1.0 / float(self.scaler.loss_scale)\n\n\nclass FP16Optimizer(_FP16OptimizerMixin, optim.FairseqOptimizer):\n    \"\"\"\n    Wrap an *optimizer* to support FP16 (mixed precision) training.\n    \"\"\"\n\n    def __init__(self, cfg: DictConfig, params, fp32_optimizer, fp32_params, **kwargs):\n        super().__init__(cfg.optimizer)\n        self.fp16_params = params\n        self.fp32_optimizer = fp32_optimizer\n        self.fp32_params = fp32_params\n\n        if getattr(cfg.common, \"fp16_scale_window\", None) is None:\n            if len(cfg.optimization.update_freq) > 1:\n                raise ValueError(\n                    \"--fp16-scale-window must be given explicitly when using a \"\n                    \"custom --update-freq schedule\"\n                )\n            data_parallel_size = int(\n                cfg.distributed_training.distributed_world_size\n                / cfg.common.model_parallel_size\n            )\n            scale_window = int(\n                2**14 / data_parallel_size / cfg.optimization.update_freq[0]\n            )\n        else:\n            scale_window = cfg.common.fp16_scale_window\n\n        if not getattr(cfg.common, \"bf16\", False):\n            self.scaler = DynamicLossScaler(\n                init_scale=cfg.common.fp16_init_scale,\n                scale_window=scale_window,\n                tolerance=cfg.common.fp16_scale_tolerance,\n                threshold=cfg.common.threshold_loss_scale,\n                min_loss_scale=cfg.common.min_loss_scale,\n            )\n        else:\n            # disable loss scaling for bfloat16\n            self.scaler = None\n\n    @classmethod\n    def build_optimizer(cls, cfg: DictConfig, params, **kwargs):\n        \"\"\"\n        Args:\n            cfg (omegaconf.DictConfig): fairseq args\n            params (iterable): iterable of parameters to optimize\n        \"\"\"\n        flatten = not getattr(cfg.common, \"fp16_no_flatten_grads\", False)\n        if getattr(cfg.common, \"bf16\", False):\n            flatten = False  # mixed precision is faster on TPUs without flat grads\n        fp32_params = cls.build_fp32_params(cfg.optimizer, params, flatten=flatten)\n        if flatten:\n            fp32_optimizer = optim.build_optimizer(cfg.optimizer, [fp32_params])\n        else:\n            fp32_optimizer = optim.build_optimizer(cfg.optimizer, fp32_params)\n        if flatten and not fp32_optimizer.supports_flat_params:\n            raise RuntimeError(\n                f\"chosen optimizer {fp32_optimizer.__class__.__name__} does not support flat params, please set --fp16-no-flatten-grads\"\n            )\n        return cls(cfg, params, fp32_optimizer, fp32_params, **kwargs)\n\n    @property\n    def optimizer(self):\n        return self.fp32_optimizer.optimizer\n\n    @optimizer.setter\n    def optimizer(self, optimizer):\n        self.fp32_optimizer.optimizer = optimizer\n\n    @property\n    def lr_scheduler(self):\n        return getattr(self.fp32_optimizer, \"lr_scheduler\", None)\n\n    @property\n    def optimizer_config(self):\n        return self.fp32_optimizer.optimizer_config\n\n    def get_lr(self):\n        return self.fp32_optimizer.get_lr()\n\n    def set_lr(self, lr):\n        self.fp32_optimizer.set_lr(lr)\n\n    def all_reduce_grads(self, module):\n        self.fp32_optimizer.all_reduce_grads(module)\n\n    @property\n    def supports_flat_params(self):\n        return self.fp32_optimizer.supports_flat_params\n\n\nclass _MemoryEfficientFP16OptimizerMixin(object):\n    def __init__(self, *args, **kwargs):\n        # forward __init__ call to the next class in MRO (method resolution order)\n        super().__init__(*args, **kwargs)\n        self._multiply_factor = 1.0\n\n    @property\n    def has_flat_params(self):\n        return False\n\n    def state_dict(self):\n        \"\"\"Return the optimizer's state dict.\"\"\"\n        state_dict = self.wrapped_optimizer.state_dict()\n        if self.scaler is not None:\n            state_dict[\"loss_scale\"] = self.scaler.loss_scale\n        return state_dict\n\n    def load_state_dict(self, state_dict, optimizer_overrides=None):\n        \"\"\"Load an optimizer state dict.\n\n        In general we should prefer the configuration of the existing optimizer\n        instance (e.g., learning rate) over that found in the state_dict. This\n        allows us to resume training from a checkpoint using a new set of\n        optimizer args.\n        \"\"\"\n        if \"loss_scale\" in state_dict and self.scaler is not None:\n            self.scaler.loss_scale = state_dict[\"loss_scale\"]\n\n        self.wrapped_optimizer.load_state_dict(state_dict, optimizer_overrides)\n\n        # Hack: PyTorch automatically casts the optimizer state to match the\n        # type of the current parameters. But with --memory-efficient-fp16 the\n        # params are FP16 while the optimizer state is FP32 and we don't want\n        # to cast. A workaround is to manually copy back the original state\n        # after the optimizer has been loaded.\n        if not getattr(self.optimizer, \"disable_mem_eff_fp16_loading_hack\", False):\n            groups = self.optimizer.param_groups\n            saved_groups = state_dict[\"param_groups\"]\n            id_map = {\n                old_id: p\n                for old_id, p in zip(\n                    chain(*(g[\"params\"] for g in saved_groups)),\n                    chain(*(g[\"params\"] for g in groups)),\n                )\n            }\n            for k, v in state_dict[\"state\"].items():\n                if k in id_map:\n                    param = id_map[k]\n                    self.optimizer.state[param] = v\n\n    def backward(self, loss):\n        \"\"\"Computes the sum of gradients of the given tensor w.r.t. graph leaves.\n\n        Compared to :func:`fairseq.optim.FairseqOptimizer.backward`, this\n        function additionally dynamically scales the loss to avoid gradient\n        underflow.\n        \"\"\"\n        if self.scaler is not None:\n            loss = self.scaler.scale(loss)\n        loss.backward()\n\n    def _unscale_grads(self):\n        if (\n            # Skip the multiplication if it's a no-op (i.e., if _multiply_factor\n            # is 1.0). At the same time, we want to avoid the device-to-host\n            # transfer by comparing it to 1.0. Since _multiply_factor starts as\n            # a Python float, we roughly assume that if it's a tensor then it's\n            # probably not =1.0 anymore and we do the multiplication. Otherwise\n            # we can safely check the value without a D2H transfer.\n            torch.is_tensor(self._multiply_factor)\n            or self._multiply_factor != 1.0\n        ):\n            self.wrapped_optimizer.multiply_grads(self._multiply_factor)\n            self._multiply_factor = 1.0\n\n    def multiply_grads(self, c):\n        \"\"\"Multiplies grads by a constant *c*.\"\"\"\n        self._multiply_factor *= c\n\n    def clip_grad_norm(self, max_norm, aggregate_norm_fn=None):\n        \"\"\"Clips gradient norm and updates dynamic loss scaler.\"\"\"\n        max_norm = float(max_norm)\n        grad_norm = self._multiply_factor * self.wrapped_optimizer.clip_grad_norm(\n            0, aggregate_norm_fn\n        )\n\n        if self.scaler is not None:\n            grad_norm_cpu = float(grad_norm)\n            if grad_norm_cpu > max_norm > 0.0:\n                self._multiply_factor *= max_norm / grad_norm_cpu\n\n            # detect overflow and adjust loss scale\n            self.scaler.check_overflow(grad_norm_cpu)\n        elif max_norm > 0.0:\n            clip_coef = (max_norm / (grad_norm + 1e-6)).clamp_(max=1)\n            self._multiply_factor *= clip_coef\n\n        return grad_norm\n\n    def step(self, closure=None, groups=None):\n        \"\"\"Performs a single optimization step.\"\"\"\n        if getattr(self, \"supports_step_with_scale\", False):\n            # NOTE(msb) optimizer divides by scale factor\n            self.wrapped_optimizer.step(\n                closure, scale=(1.0 / self._multiply_factor), groups=groups\n            )\n        else:\n            self._unscale_grads()\n            self.wrapped_optimizer.step(closure, groups=groups)\n\n        if self.scaler is not None:\n            self.scaler.update()\n\n    def zero_grad(self):\n        \"\"\"Clears the gradients of all optimized parameters.\"\"\"\n        self.wrapped_optimizer.zero_grad()\n        if self.scaler is not None:\n            self._multiply_factor = 1.0 / float(self.scaler.loss_scale)\n        else:\n            self._multiply_factor = 1.0\n\n    @property\n    def supports_flat_params(self):\n        return self.wrapped_optimizer.supports_flat_params\n\n\nclass MemoryEfficientFP16Optimizer(\n    _MemoryEfficientFP16OptimizerMixin, optim.FairseqOptimizer\n):\n    \"\"\"\n    Wrap an *optimizer* to support FP16 (mixed precision) training.\n\n    Compared to :class:`fairseq.optim.FP16Optimizer`, this version does not\n    maintain an FP32 copy of the model. We instead expect the optimizer to\n    convert the gradients to FP32 internally and sync the results back to the\n    FP16 model params. This significantly reduces memory usage but slightly\n    increases the time spent in the optimizer.\n\n    Since this wrapper depends on specific functionality in the wrapped\n    optimizer (i.e., on-the-fly conversion of grads to FP32), only certain\n    optimizers can be wrapped. This is determined by the\n    *supports_memory_efficient_fp16* property.\n    \"\"\"\n\n    def __init__(\n        self, cfg: DictConfig, params, optimizer, allow_unsupported=False, **kwargs\n    ):\n        if not allow_unsupported and not optimizer.supports_memory_efficient_fp16:\n            raise ValueError(\n                \"Unsupported optimizer: {}\".format(optimizer.__class__.__name__)\n            )\n\n        super().__init__(getattr(cfg, \"optimizer\", None))\n        self.wrapped_optimizer = optimizer\n\n        if getattr(cfg.common, \"fp16_scale_window\", None) is None:\n            if len(cfg.optimization.update_freq) > 1:\n                raise ValueError(\n                    \"--fp16-scale-window must be given explicitly when using a \"\n                    \"custom --update-freq schedule\"\n                )\n            data_parallel_size = int(\n                cfg.distributed_training.distributed_world_size\n                / cfg.common.model_parallel_size\n            )\n            scale_window = int(\n                2**14 / data_parallel_size / cfg.optimization.update_freq[0]\n            )\n        else:\n            scale_window = cfg.common.fp16_scale_window\n\n        if not getattr(cfg.common, \"bf16\", False):\n            self.scaler = DynamicLossScaler(\n                init_scale=cfg.common.fp16_init_scale,\n                scale_window=scale_window,\n                tolerance=cfg.common.fp16_scale_tolerance,\n                threshold=cfg.common.threshold_loss_scale,\n                min_loss_scale=cfg.common.min_loss_scale,\n            )\n        else:\n            # disable loss scaling for bfloat16\n            self.scaler = None\n\n    @classmethod\n    def build_optimizer(cls, cfg: DictConfig, params, **kwargs):\n        \"\"\"\n        Args:\n            args (argparse.Namespace): fairseq args\n            params (iterable): iterable of parameters to optimize\n        \"\"\"\n        fp16_optimizer = optim.build_optimizer(cfg.optimizer, params)\n        return cls(cfg, params, fp16_optimizer, **kwargs)\n\n    @property\n    def optimizer(self):\n        return self.wrapped_optimizer.optimizer\n\n    @optimizer.setter\n    def optimizer(self, optimizer):\n        self.wrapped_optimizer.optimizer = optimizer\n\n    @property\n    def optimizer_config(self):\n        return self.wrapped_optimizer.optimizer_config\n\n    @property\n    def lr_scheduler(self):\n        return getattr(self.wrapped_optimizer, \"lr_scheduler\", None)\n\n    def get_lr(self):\n        return self.wrapped_optimizer.get_lr()\n\n    def set_lr(self, lr):\n        self.wrapped_optimizer.set_lr(lr)\n\n    def all_reduce_grads(self, module):\n        self.wrapped_optimizer.all_reduce_grads(module)\n"
  },
  {
    "path": "fairseq/optim/fused_adam.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport types\n\nimport torch\n\n\ndef get_fused_adam_class():\n    \"\"\"\n    Look for the FusedAdam optimizer from apex. We first try to load the\n    \"contrib\" interface, which is a bit faster than the main interface,\n    but is technically deprecated.\n    \"\"\"\n    try:\n        # The \"deprecated\" interface in recent versions of apex is a bit\n        # faster than the main interface, since we don't use the apex\n        # optimizer. This can be installed by passing the\n        # `--deprecated_fused_adam` option when building apex.\n        global fused_adam_cuda\n        import importlib\n\n        fused_adam_cuda = importlib.import_module(\"fused_adam_cuda\")\n        return FusedAdamV1\n    except ImportError:\n        try:\n            # fallback to the newer interface\n            from apex.multi_tensor_apply import multi_tensor_applier\n            from apex.optimizers import FusedAdam as _FusedAdam  # noqa\n\n            if multi_tensor_applier.available:\n                return FusedAdamV2\n        except ImportError:\n            pass\n    return None\n\n\nclass FusedAdamV1(torch.optim.Optimizer):\n    \"\"\"\n    Implements Adam algorithm. Currently GPU-only. Requires Apex to be installed via\n    ``python setup.py install --cuda_ext --cpp_ext``.\n\n    It has been proposed in `Adam: A Method for Stochastic Optimization`_.\n\n    Compared to the original version in Apex, the fairseq version casts grads\n    and params to FP32 internally to support ``--memory-efficient-fp16``.\n\n    Args:\n        params (iterable): iterable of parameters to optimize or dicts defining\n            parameter groups.\n        lr (float, optional): learning rate. (default: 1e-3)\n        betas (Tuple[float, float], optional): coefficients used for computing\n            running averages of gradient and its square. (default: (0.9, 0.999))\n        eps (float, optional): term added to the denominator to improve\n            numerical stability. (default: 1e-8)\n        weight_decay (float, optional): weight decay (L2 penalty) (default: 0)\n        amsgrad (boolean, optional): whether to use the AMSGrad variant of this\n            algorithm from the paper `On the Convergence of Adam and Beyond`_\n            (default: False) NOT SUPPORTED in FusedAdam!\n        eps_inside_sqrt (boolean, optional): in the 'update parameters' step,\n            adds eps to the bias-corrected second moment estimate before\n            evaluating square root instead of adding it to the square root of\n            second moment estimate as in the original paper. (default: False)\n    .. _Adam: A Method for Stochastic Optimization:\n        https://arxiv.org/abs/1412.6980\n    .. _On the Convergence of Adam and Beyond:\n        https://openreview.net/forum?id=ryQu7f-RZ\n    \"\"\"\n\n    def __init__(\n        self,\n        params,\n        lr=1e-3,\n        bias_correction=True,\n        betas=(0.9, 0.999),\n        eps=1e-8,\n        eps_inside_sqrt=False,\n        weight_decay=0.0,\n        max_grad_norm=0.0,\n        amsgrad=False,\n        use_fp16_stats=False,\n    ):\n        global fused_adam_cuda\n        import importlib\n\n        fused_adam_cuda = importlib.import_module(\"fused_adam_cuda\")\n\n        if amsgrad:\n            raise RuntimeError(\"FusedAdam does not support the AMSGrad variant.\")\n        defaults = {\n            \"lr\": lr,\n            \"bias_correction\": bias_correction,\n            \"betas\": betas,\n            \"eps\": eps,\n            \"weight_decay\": weight_decay,\n            \"max_grad_norm\": max_grad_norm,\n        }\n        super().__init__(params, defaults)\n        self.eps_mode = 0 if eps_inside_sqrt else 1\n\n        self.use_fp16_stats = use_fp16_stats\n        self.FLOAT16_MAX = 65504.0\n\n    @property\n    def supports_memory_efficient_fp16(self):\n        return True\n\n    @property\n    def supports_flat_params(self):\n        return True\n\n    @property\n    def supports_step_with_scale(self):\n        return True\n\n    def step(self, closure=None, grads=None, scale=1.0, grad_norms=None):\n        \"\"\"Performs a single optimization step.\n        Args:\n            closure (callable, optional): A closure that reevaluates the model\n                and returns the loss.\n            grads (list of tensors, optional): weight gradient to use for the\n                optimizer update. If gradients have type torch.half, parameters\n                are expected to be in type torch.float. (default: None)\n            output params (list of tensors, optional): A reduced precision copy\n                of the updated weights written out in addition to the regular\n                updated weights. Have to be of same type as gradients. (default: None)\n            scale (float, optional): factor to divide gradient tensor values\n                by before applying to weights. (default: 1)\n        \"\"\"\n        loss = None\n        if closure is not None:\n            loss = closure()\n\n        if grads is None:\n            grads_group = [None] * len(self.param_groups)\n        # backward compatibility\n        # assuming a list/generator of parameter means single group\n        elif isinstance(grads, types.GeneratorType):\n            grads_group = [grads]\n        elif type(grads[0]) != list:\n            grads_group = [grads]\n        else:\n            grads_group = grads\n\n        if grad_norms is None:\n            grad_norms = [None] * len(self.param_groups)\n\n        for group, grads_this_group, grad_norm in zip(\n            self.param_groups, grads_group, grad_norms\n        ):\n            if grads_this_group is None:\n                grads_this_group = [None] * len(group[\"params\"])\n\n            # compute combined scale factor for this group\n            combined_scale = scale\n            if group.get(\"max_grad_norm\", 0) > 0:\n                # norm is in fact norm*scale\n                clip = ((grad_norm / scale) + 1e-6) / group[\"max_grad_norm\"]\n                if clip > 1:\n                    combined_scale = clip * scale\n\n            bias_correction = 1 if group.get(\"bias_correction\", 1) else 0\n\n            for p, grad in zip(group[\"params\"], grads_this_group):\n                # note: p.grad should not ever be set for correct\n                # operation of mixed precision optimizer that sometimes\n                # sends None gradients\n                if p.grad is None and grad is None:\n                    continue\n                if grad is None:\n                    grad = p.grad.data\n                if grad.is_sparse:\n                    raise RuntimeError(\n                        \"FusedAdam does not support sparse gradients, \"\n                        \"please consider SparseAdam instead\"\n                    )\n\n                if p.device.type == \"cpu\":\n                    p_data_fp32 = p.data.cuda(non_blocking=True).float()\n                    out_p = torch.tensor([], dtype=torch.float)\n                else:\n                    p_data_fp32 = p.data.float()\n                    out_p = p.data\n\n                state = self.state[p]\n\n                # State initialization\n                dtype = torch.float16 if self.use_fp16_stats else p_data_fp32.dtype\n                if len(state) == 0:\n                    state[\"step\"] = 0\n                    # Exponential moving average of gradient values\n                    state[\"exp_avg\"] = torch.zeros_like(p_data_fp32, dtype=dtype)\n                    # Exponential moving average of squared gradient values\n                    state[\"exp_avg_sq\"] = torch.zeros_like(p_data_fp32, dtype=dtype)\n                    if self.use_fp16_stats:\n                        state[\"exp_avg_scale\"] = 1.0\n                        state[\"exp_avg_sq_scale\"] = 1.0\n                else:\n                    device = p_data_fp32.device\n                    state[\"exp_avg\"] = state[\"exp_avg\"].to(device, dtype)\n                    state[\"exp_avg_sq\"] = state[\"exp_avg_sq\"].to(device, dtype)\n\n                exp_avg = state[\"exp_avg\"]\n                exp_avg_sq = state[\"exp_avg_sq\"]\n                if self.use_fp16_stats:\n                    assert exp_avg.dtype == torch.float16\n                    exp_avg = exp_avg.float() * state[\"exp_avg_scale\"]\n                    exp_avg_sq = exp_avg_sq.float() * state[\"exp_avg_sq_scale\"]\n                beta1, beta2 = group[\"betas\"]\n\n                if \"step\" not in state:\n                    state[\"step\"] = group[\"step\"]\n\n                state[\"step\"] += 1\n\n                with torch.cuda.device(p_data_fp32.device):\n                    fused_adam_cuda.adam(\n                        p_data_fp32,\n                        out_p,\n                        exp_avg,\n                        exp_avg_sq,\n                        grad,\n                        group[\"lr\"],\n                        beta1,\n                        beta2,\n                        group[\"eps\"],\n                        combined_scale,\n                        state[\"step\"],\n                        self.eps_mode,\n                        bias_correction,\n                        group[\"weight_decay\"],\n                    )\n\n                if p.device.type == \"cpu\":\n                    p.data.copy_(p_data_fp32, non_blocking=True)\n\n                if self.use_fp16_stats:\n\n                    def inf_norm(t):\n                        return torch.norm(t, float(\"inf\"))\n\n                    # from github.com/openai/jukebox/blob/master/jukebox/utils/fp16.py\n                    state[\"exp_avg_scale\"], state[\"exp_avg_sq_scale\"] = (\n                        1e-8 + inf_norm(exp_avg) / self.FLOAT16_MAX,\n                        1e-8 + inf_norm(exp_avg_sq) / self.FLOAT16_MAX,\n                    )\n                    state[\"exp_avg\"], state[\"exp_avg_sq\"] = (\n                        (exp_avg / state[\"exp_avg_scale\"]).half(),\n                        (exp_avg_sq / state[\"exp_avg_sq_scale\"]).half(),\n                    )\n\n        return loss\n\n\ntry:\n    from apex.multi_tensor_apply import multi_tensor_applier\n    from apex.optimizers import FusedAdam\n\n    class FusedAdamV2(FusedAdam):\n        \"\"\"\n        Compared to the original version in Apex, the fairseq version casts grads\n        and params to FP32 internally to support ``--memory-efficient-fp16``.\n        \"\"\"\n\n        def __init__(self, *args, use_fp16_stats=False, **kwargs):\n            if use_fp16_stats:\n                raise NotImplementedError(\n                    \"--fp16-adam-stats is only supported with FusedAdamV1\"\n                )\n            super().__init__(*args, **kwargs)\n            if not hasattr(self, \"multi_tensor_adam\"):\n                raise Exception(\n                    \"Apex installation is outdated. Please install an updated version of apex.\"\n                )\n\n        @property\n        def supports_memory_efficient_fp16(self):\n            return True\n\n        @property\n        def supports_flat_params(self):\n            return True\n\n        def step(\n            self,\n            closure=None,\n            grads=None,\n            output_params=None,\n            scale=None,\n            grad_norms=None,\n        ):\n            \"\"\"Performs a single optimization step.\"\"\"\n            loss = None\n            if closure is not None:\n                loss = closure()\n\n            for group in self.param_groups:\n                bias_correction = 1 if group[\"bias_correction\"] else 0\n                beta1, beta2 = group[\"betas\"]\n\n                # assume same step across group now to simplify things\n                # per parameter step can be easily support by making it tensor, or pass list into kernel\n                if \"step\" in group:\n                    group[\"step\"] += 1\n                else:\n                    group[\"step\"] = 1\n\n                # create lists for multi-tensor apply\n                g_16, p_16, orig_p_16, m_16, v_16 = [], [], [], [], []\n                g_32, p_32, m_32, v_32 = [], [], [], []\n\n                for p in group[\"params\"]:\n                    if p.grad is None:\n                        continue\n                    if p.grad.data.is_sparse:\n                        raise RuntimeError(\n                            \"FusedAdam does not support sparse gradients, \"\n                            \"please consider SparseAdam instead\"\n                        )\n\n                    state = self.state[p]\n                    # State initialization\n                    if len(state) == 0:\n                        # Exponential moving average of gradient values\n                        state[\"exp_avg\"] = torch.zeros_like(p.data, dtype=torch.float)\n                        # Exponential moving average of squared gradient values\n                        state[\"exp_avg_sq\"] = torch.zeros_like(\n                            p.data, dtype=torch.float\n                        )\n                    else:\n                        state[\"exp_avg\"] = state[\"exp_avg\"].to(\n                            device=p.data.device, dtype=torch.float\n                        )\n                        state[\"exp_avg_sq\"] = state[\"exp_avg_sq\"].to(\n                            device=p.data.device, dtype=torch.float\n                        )\n\n                    if p.dtype == torch.float16:\n                        g_16.append(p.grad.data.float())\n                        p_16.append(p.data.float())\n                        orig_p_16.append(p.data)\n                        m_16.append(state[\"exp_avg\"])\n                        v_16.append(state[\"exp_avg_sq\"])\n                    elif p.dtype == torch.float32:\n                        g_32.append(p.grad.data)\n                        p_32.append(p.data)\n                        m_32.append(state[\"exp_avg\"])\n                        v_32.append(state[\"exp_avg_sq\"])\n                    else:\n                        raise RuntimeError(\"FusedAdam only support fp16 and fp32.\")\n\n                with torch.cuda.device(p.device):\n                    if len(g_16) > 0:\n                        multi_tensor_applier(\n                            self.multi_tensor_adam,\n                            self._dummy_overflow_buf,\n                            [g_16, p_16, m_16, v_16],\n                            group[\"lr\"],\n                            beta1,\n                            beta2,\n                            group[\"eps\"],\n                            group[\"step\"],\n                            self.adam_w_mode,\n                            bias_correction,\n                            group[\"weight_decay\"],\n                        )\n                        for orig_p, p in zip(orig_p_16, p_16):\n                            orig_p.copy_(p.data)\n                    if len(g_32) > 0:\n                        multi_tensor_applier(\n                            self.multi_tensor_adam,\n                            self._dummy_overflow_buf,\n                            [g_32, p_32, m_32, v_32],\n                            group[\"lr\"],\n                            beta1,\n                            beta2,\n                            group[\"eps\"],\n                            group[\"step\"],\n                            self.adam_w_mode,\n                            bias_correction,\n                            group[\"weight_decay\"],\n                        )\n\n            return loss\n\nexcept ImportError:\n    pass\n"
  },
  {
    "path": "fairseq/optim/fused_lamb.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom fairseq.optim import LegacyFairseqOptimizer, register_optimizer\n\n\n@register_optimizer(\"lamb\")\nclass FairseqLAMB(LegacyFairseqOptimizer):\n    \"\"\"LAMB optimizer.\"\"\"\n\n    def __init__(self, args, params):\n        super().__init__(args)\n        try:\n            from apex.optimizers import FusedLAMB\n\n            self._optimizer = FusedLAMB(params, **self.optimizer_config)\n        except ImportError:\n            raise ImportError(\"Please install apex to use LAMB optimizer\")\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add optimizer-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--lamb-betas', default='(0.9, 0.999)', metavar='B',\n                            help='betas for LAMB optimizer')\n        parser.add_argument('--lamb-eps', type=float, default=1e-8, metavar='D',\n                            help='epsilon for LAMB optimizer')\n        parser.add_argument('--weight-decay', '--wd', default=0.0, type=float, metavar='WD',\n                            help='weight decay')\n        # fmt: on\n\n    @property\n    def optimizer_config(self):\n        \"\"\"\n        Return a kwarg dictionary that will be used to override optimizer\n        args stored in checkpoints. This allows us to load a checkpoint and\n        resume training using a different set of optimizer args, e.g., with a\n        different learning rate.\n        \"\"\"\n        return {\n            \"lr\": self.args.lr[0],\n            \"betas\": eval(self.args.lamb_betas),\n            \"eps\": self.args.lamb_eps,\n            \"weight_decay\": self.args.weight_decay,\n        }\n\n    @property\n    def supports_flat_params(self):\n        return False\n"
  },
  {
    "path": "fairseq/optim/lr_scheduler/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"isort:skip_file\"\"\"\n\nimport importlib\nimport os\n\nfrom fairseq import registry\nfrom fairseq.optim.lr_scheduler.fairseq_lr_scheduler import (  # noqa\n    FairseqLRScheduler,\n    LegacyFairseqLRScheduler,\n)\nfrom omegaconf import DictConfig\n\n\n(\n    build_lr_scheduler_,\n    register_lr_scheduler,\n    LR_SCHEDULER_REGISTRY,\n    LR_SCHEDULER_DATACLASS_REGISTRY,\n) = registry.setup_registry(\n    \"--lr-scheduler\", base_class=FairseqLRScheduler, default=\"fixed\"\n)\n\n\ndef build_lr_scheduler(cfg: DictConfig, optimizer):\n    return build_lr_scheduler_(cfg, optimizer)\n\n\n# automatically import any Python files in the optim/lr_scheduler/ directory\nfor file in sorted(os.listdir(os.path.dirname(__file__))):\n    if file.endswith(\".py\") and not file.startswith(\"_\"):\n        file_name = file[: file.find(\".py\")]\n        importlib.import_module(\"fairseq.optim.lr_scheduler.\" + file_name)\n"
  },
  {
    "path": "fairseq/optim/lr_scheduler/cosine_lr_scheduler.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom collections.abc import Collection\nfrom dataclasses import dataclass, field\nfrom typing import List\n\nfrom omegaconf import II\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.optim.lr_scheduler import FairseqLRScheduler, register_lr_scheduler\n\n\n@dataclass\nclass CosineLRScheduleConfig(FairseqDataclass):\n    warmup_updates: int = field(\n        default=0,\n        metadata={\"help\": \"warmup the learning rate linearly for the first N updates\"},\n    )\n    warmup_init_lr: float = field(\n        default=-1,\n        metadata={\n            \"help\": \"initial learning rate during warmup phase; default is cfg.lr\"\n        },\n    )\n    lr: List[float] = field(\n        default=II(\"optimization.lr\"),\n        metadata={\"help\": \"max learning rate, must be more than cfg.min_lr\"},\n    )\n    min_lr: float = field(default=0.0, metadata={\"help\": \"min learning rate\"})\n    t_mult: float = field(\n        default=1.0, metadata={\"help\": \"factor to grow the length of each period\"}\n    )\n    lr_period_updates: float = field(\n        default=-1, metadata={\"help\": \"initial number of updates per period\"}\n    )\n    lr_shrink: float = field(\n        default=0.1, metadata={\"help\": \"shrink factor for annealing\"}\n    )\n    # This is not required, but is for convenience in inferring lr_period_updates\n    max_update: int = II(\"optimization.max_update\")\n\n\n@register_lr_scheduler(\"cosine\", dataclass=CosineLRScheduleConfig)\nclass CosineLRSchedule(FairseqLRScheduler):\n    \"\"\"Assign LR based on a cyclical schedule that follows the cosine function.\n\n    See https://arxiv.org/pdf/1608.03983.pdf for details.\n\n    We also support a warmup phase where we linearly increase the learning rate\n    from some initial learning rate (``--warmup-init-lr``) until the configured\n    max learning rate (``--lr``).\n\n    During warmup::\n\n      lrs = torch.linspace(cfg.warmup_init_lr, cfg.lr, cfg.warmup_updates)\n      lr = lrs[update_num]\n\n    After warmup::\n\n      lr = cfg.min_lr + 0.5*(cfg.lr - cfg.min_lr)*(1 + cos(t_curr / t_i))\n\n    where ``t_curr`` is current percentage of updates within the current period\n    range and ``t_i`` is the current period range, which is scaled by ``t_mul``\n    after every iteration.\n    \"\"\"\n\n    def __init__(self, cfg: CosineLRScheduleConfig, fairseq_optimizer):\n        super().__init__(cfg, fairseq_optimizer)\n        if isinstance(cfg.lr, Collection) and len(cfg.lr) > 1:\n            raise ValueError(\n                \"Cannot use a fixed learning rate schedule with cosine.\"\n                f\" Consider --lr-scheduler=fixed instead. ({cfg.lr})\"\n            )\n\n        self.max_lr = cfg.lr[0] if isinstance(cfg.lr, Collection) else cfg.lr\n        if self.max_lr < cfg.min_lr:\n            cfg.min_lr = self.max_lr\n\n        warmup_end_lr = self.max_lr\n        if cfg.warmup_init_lr < 0:\n            cfg.warmup_init_lr = cfg.min_lr\n\n        self.t_mult = cfg.t_mult\n        self.period = cfg.lr_period_updates\n\n        if self.period <= 0:\n            assert (\n                cfg.max_update > 0\n            ), \"Either --max_update or --lr-period-updates must be set\"\n            self.period = cfg.max_update - cfg.warmup_updates\n\n        if cfg.warmup_updates > 0:\n            # linearly warmup for the first cfg.warmup_updates\n            self.lr_step = (warmup_end_lr - cfg.warmup_init_lr) / cfg.warmup_updates\n        else:\n            self.lr_step = 1\n\n        self.warmup_updates = cfg.warmup_updates\n        self.lr_shrink = cfg.lr_shrink\n\n        # initial learning rate\n        self.lr = cfg.warmup_init_lr\n        self.optimizer.set_lr(self.lr)\n\n    def step(self, epoch, val_loss=None):\n        \"\"\"Update the learning rate at the end of the given epoch.\"\"\"\n        super().step(epoch, val_loss)\n        # we don't change the learning rate at epoch boundaries\n        return self.optimizer.get_lr()\n\n    def step_update(self, num_updates):\n        \"\"\"Update the learning rate after each update.\"\"\"\n        if num_updates < self.cfg.warmup_updates:\n            self.lr = self.cfg.warmup_init_lr + num_updates * self.lr_step\n        else:\n            curr_updates = num_updates - self.cfg.warmup_updates\n            if self.t_mult != 1:\n                i = math.floor(\n                    math.log(\n                        1 - curr_updates / self.period * (1 - self.t_mult), self.t_mult\n                    )\n                )\n                t_i = self.t_mult**i * self.period\n                t_curr = (\n                    curr_updates\n                    - (1 - self.t_mult**i) / (1 - self.t_mult) * self.period\n                )\n            else:\n                i = math.floor(curr_updates / self.period)\n                t_i = self.period\n                t_curr = curr_updates - (self.period * i)\n\n            lr_shrink = self.lr_shrink**i\n            min_lr = self.cfg.min_lr * lr_shrink\n            max_lr = self.max_lr * lr_shrink\n\n            self.lr = min_lr + 0.5 * (max_lr - min_lr) * (\n                1 + math.cos(math.pi * t_curr / t_i)\n            )\n\n        self.optimizer.set_lr(self.lr)\n        return self.lr\n"
  },
  {
    "path": "fairseq/optim/lr_scheduler/fairseq_lr_scheduler.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom argparse import Namespace\n\nfrom fairseq.dataclass.utils import gen_parser_from_dataclass\nfrom fairseq.optim import FairseqOptimizer\n\n\nclass FairseqLRScheduler(object):\n    def __init__(self, cfg, optimizer):\n        super().__init__()\n        if optimizer is not None and not isinstance(optimizer, FairseqOptimizer):\n            raise ValueError(\"optimizer must be an instance of FairseqOptimizer\")\n        self.cfg = cfg\n        self.optimizer = optimizer\n        self.best = None\n\n    @classmethod\n    def add_args(cls, parser):\n        \"\"\"Add arguments to the parser for this LR scheduler.\"\"\"\n        dc = getattr(cls, \"__dataclass\", None)\n        if dc is not None:\n            gen_parser_from_dataclass(parser, dc())\n\n    def state_dict(self):\n        \"\"\"Return the LR scheduler state dict.\"\"\"\n        return {\"best\": self.best}\n\n    def load_state_dict(self, state_dict):\n        \"\"\"Load an LR scheduler state dict.\"\"\"\n        self.best = state_dict[\"best\"]\n\n    def step_begin_epoch(self, epoch):\n        \"\"\"Update the learning rate at the beginning of the given epoch.\"\"\"\n        pass\n\n    def step(self, epoch, val_loss=None):\n        \"\"\"Update the learning rate at the end of the given epoch.\"\"\"\n        if val_loss is not None:\n            if self.best is None:\n                self.best = val_loss\n            else:\n                self.best = min(self.best, val_loss)\n\n    def step_update(self, num_updates):\n        \"\"\"Update the learning rate after each update.\"\"\"\n        return self.optimizer.get_lr()\n\n\nclass LegacyFairseqLRScheduler(FairseqLRScheduler):\n    def __init__(self, args: Namespace, optimizer):\n        if not isinstance(optimizer, FairseqOptimizer):\n            raise ValueError(\"optimizer must be an instance of FairseqOptimizer\")\n        self.args = args\n        self.optimizer = optimizer\n        self.best = None\n"
  },
  {
    "path": "fairseq/optim/lr_scheduler/fixed_schedule.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\nfrom typing import Optional, List\nfrom omegaconf import II\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.optim.lr_scheduler import FairseqLRScheduler, register_lr_scheduler\n\n\n@dataclass\nclass FixedLRScheduleConfig(FairseqDataclass):\n    force_anneal: Optional[int] = field(\n        default=None,\n        metadata={\"help\": \"force annealing at specified epoch\"},\n    )\n    lr_shrink: float = field(\n        default=0.1,\n        metadata={\"help\": \"shrink factor for annealing, lr_new = (lr * lr_shrink)\"},\n    )\n    warmup_updates: int = field(\n        default=0,\n        metadata={\"help\": \"warmup the learning rate linearly for the first N updates\"},\n    )\n    lr: List[float] = II(\"optimization.lr\")\n\n\n@register_lr_scheduler(\"fixed\", dataclass=FixedLRScheduleConfig)\nclass FixedLRSchedule(FairseqLRScheduler):\n    \"\"\"Decay the LR on a fixed schedule.\"\"\"\n\n    def __init__(self, cfg: FixedLRScheduleConfig, optimizer):\n        super().__init__(cfg, optimizer)\n\n        self.lr = cfg.lr[0]\n        if cfg.warmup_updates > 0:\n            self.warmup_factor = 1.0 / cfg.warmup_updates\n        else:\n            self.warmup_factor = 1\n\n    def state_dict(self):\n        return {\"lr\": self.lr}\n\n    def load_state_dict(self, state_dict):\n        if \"lr\" in state_dict:\n            self.lr = state_dict[\"lr\"]\n\n    def get_next_lr(self, epoch):\n        lrs = self.cfg.lr\n        if self.cfg.force_anneal is None or epoch < self.cfg.force_anneal:\n            # use fixed LR schedule\n            next_lr = lrs[min(epoch - 1, len(lrs) - 1)]\n        else:\n            # annneal based on lr_shrink\n            next_lr = lrs[-1] * self.cfg.lr_shrink ** (\n                epoch + 1 - self.cfg.force_anneal\n            )\n        return next_lr\n\n    def step_begin_epoch(self, epoch):\n        \"\"\"Update the learning rate at the beginning of the given epoch.\"\"\"\n        self.lr = self.get_next_lr(epoch)\n        self.optimizer.set_lr(self.warmup_factor * self.lr)\n        return self.optimizer.get_lr()\n\n    def step_update(self, num_updates):\n        \"\"\"Update the learning rate after each update.\"\"\"\n        if self.cfg.warmup_updates > 0 and num_updates < self.cfg.warmup_updates:\n            self.warmup_factor = (num_updates + 1) / float(self.cfg.warmup_updates)\n            self.optimizer.set_lr(self.warmup_factor * self.lr)\n        else:\n            self.optimizer.set_lr(self.lr)\n        return self.optimizer.get_lr()\n"
  },
  {
    "path": "fairseq/optim/lr_scheduler/inverse_square_root_schedule.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom collections.abc import Collection\nfrom dataclasses import dataclass, field\nfrom typing import List\n\nfrom omegaconf import II\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.optim.lr_scheduler import FairseqLRScheduler, register_lr_scheduler\n\n\n@dataclass\nclass InverseSquareRootLRScheduleConfig(FairseqDataclass):\n    warmup_updates: int = field(\n        default=4000,\n        metadata={\"help\": \"warmup the learning rate linearly for the first N updates\"},\n    )\n    warmup_init_lr: float = field(\n        default=-1,\n        metadata={\n            \"help\": \"initial learning rate during warmup phase; default is cfg.lr\"\n        },\n    )\n    lr: List[float] = II(\"optimization.lr\")\n\n\n@register_lr_scheduler(\"inverse_sqrt\", dataclass=InverseSquareRootLRScheduleConfig)\nclass InverseSquareRootSchedule(FairseqLRScheduler):\n    \"\"\"Decay the LR based on the inverse square root of the update number.\n\n    We also support a warmup phase where we linearly increase the learning rate\n    from some initial learning rate (``--warmup-init-lr``) until the configured\n    learning rate (``--lr``). Thereafter we decay proportional to the number of\n    updates, with a decay factor set to align with the configured learning rate.\n\n    During warmup::\n\n      lrs = torch.linspace(cfg.warmup_init_lr, cfg.lr, cfg.warmup_updates)\n      lr = lrs[update_num]\n\n    After warmup::\n\n      decay_factor = cfg.lr * sqrt(cfg.warmup_updates)\n      lr = decay_factor / sqrt(update_num)\n    \"\"\"\n\n    def __init__(self, cfg: InverseSquareRootLRScheduleConfig, optimizer):\n        super().__init__(cfg, optimizer)\n        if isinstance(cfg.lr, Collection) and len(cfg.lr) > 1:\n            raise ValueError(\n                \"Cannot use a fixed learning rate schedule with inverse_sqrt.\"\n                \" Consider --lr-scheduler=fixed instead.\"\n            )\n        warmup_end_lr = cfg.lr[0] if isinstance(cfg.lr, Collection) else cfg.lr\n        if cfg.warmup_init_lr < 0:\n            cfg.warmup_init_lr = 0 if cfg.warmup_updates > 0 else warmup_end_lr\n\n        # linearly warmup for the first cfg.warmup_updates\n        self.lr_step = (warmup_end_lr - cfg.warmup_init_lr) / cfg.warmup_updates\n\n        # then, decay prop. to the inverse square root of the update number\n        self.decay_factor = warmup_end_lr * cfg.warmup_updates**0.5\n\n        # initial learning rate\n        self.lr = cfg.warmup_init_lr\n        self.optimizer.set_lr(self.lr)\n\n    def step(self, epoch, val_loss=None):\n        \"\"\"Update the learning rate at the end of the given epoch.\"\"\"\n        super().step(epoch, val_loss)\n        # we don't change the learning rate at epoch boundaries\n        return self.optimizer.get_lr()\n\n    def step_update(self, num_updates):\n        \"\"\"Update the learning rate after each update.\"\"\"\n        if num_updates < self.cfg.warmup_updates:\n            self.lr = self.cfg.warmup_init_lr + num_updates * self.lr_step\n        else:\n            self.lr = self.decay_factor * num_updates**-0.5\n        self.optimizer.set_lr(self.lr)\n        return self.lr\n"
  },
  {
    "path": "fairseq/optim/lr_scheduler/manual_lr_scheduler.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom . import LegacyFairseqLRScheduler, register_lr_scheduler\nimport logging\nimport ast\n\nlogger = logging.getLogger(__name__)\nlogger.setLevel(logging.WARNING)\n\n\n@register_lr_scheduler(\"manual\")\nclass ManualSchedule(LegacyFairseqLRScheduler):\n    \"\"\"Decay the LR on a manual schedule.\"\"\"\n\n    def __init__(self, args, optimizer):\n        super().__init__(args, optimizer)\n\n        self.epoch2lr = self.parse_manuallr_args(args.epoch2lr)\n        self.update2lr = self.parse_manuallr_args(args.update2lr)\n        logger.info(\"@@@ ManualSchedule epoch2lr={}\".format(self.epoch2lr))\n        logger.info(\"@@@ ManualSchedule update2lr={}\".format(self.update2lr))\n\n        if 1 in self.epoch2lr:\n            self.lr = self.epoch2lr[1]\n        elif 1 in self.update2lr:\n            self.lr = self.update2lr[1]\n        else:\n            self.lr = args.lr[0]\n        self.optimizer.set_lr(self.lr)  # Set the beginning of the epoch.\n\n    def parse_manuallr_args(self, lr_args_str):\n        lr_dict = ast.literal_eval(lr_args_str.replace(\" \", \"\"))\n        if not isinstance(lr_dict, dict):\n            raise ValueError(\"epoch2lr/update2lr must be abel to evaluated to a dict\")\n\n        lr_args = {}\n        logger.info(\"@@@ after parsing input dictionary lr_dict = {}\".format(lr_dict))\n        for key, val in lr_dict.items():\n            if \",\" in key:\n                for k in key.split(\",\"):\n                    lr_args[int(k)] = float(val)\n            elif \"-\" in key:\n                s = int(key.split(\"-\")[0])\n                e = int(key.split(\"-\")[1])\n                for k in range(s, e + 1, 1):\n                    lr_args[k] = float(val)\n            else:\n                lr_args[int(key)] = float(val)\n\n        return lr_args\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add arguments to the parser for this LR scheduler.\"\"\"\n        # fmt: off\n        parser.add_argument(\n            \"--epoch2lr\",\n            type=str,\n            metavar=\"DICT\",\n            default=\"{}\",\n            help=\"a dictionary used to set lr for each epoch manually\",\n        )\n        parser.add_argument(\n            \"--update2lr\",\n            type=str,\n            metavar=\"DICT\",\n            default=\"{}\",\n            help=\"a dictionary used to set lr for each update manually\",\n        )\n        # fmt: on\n\n    def state_dict(self):\n        return {\"lr\": self.lr}\n\n    def load_state_dict(self, state_dict):\n        if \"lr\" in state_dict:\n            self.lr = state_dict[\"lr\"]\n\n    def get_next_lr(self, epoch):\n        manual_keys = [k for k in self.epoch2lr if k <= epoch]\n        if manual_keys:\n            manual_lr = self.epoch2lr[max(manual_keys)]\n        else:\n            logger.warning(\n                \"@@@ epoch={} does not exist in manual lr input. epoch2lr={}...\".format(\n                    epoch,\n                    list(self.epoch2lr.items())[\n                        : min(10, len(self.epoch2lr.keys()) - 1)\n                    ],\n                )\n            )\n            manual_lr = self.optimizer.get_lr()\n        return manual_lr\n\n    def step_begin_epoch(self, epoch):\n        \"\"\"Update the learning rate at the beginning of the given epoch.\"\"\"\n        self.lr = self.get_next_lr(epoch)\n        self.optimizer.set_lr(self.lr)\n        return self.optimizer.get_lr()\n\n    def step_update(self, num_updates):\n        \"\"\"Update the learning rate after each update.\"\"\"\n        manual_keys = [k for k in self.update2lr if k <= num_updates]\n        if manual_keys:\n            manual_lr = self.update2lr[max(manual_keys)]\n        else:\n            logger.warning(\n                \"epoch={} does not exist in manual lr input update2lr={}...\".format(\n                    num_updates,\n                    list(self.update2lr.items())[\n                        : min(10, len(self.update2lr.keys()) - 1)\n                    ],\n                )\n            )\n            manual_lr = self.optimizer.get_lr()\n\n        self.optimizer.set_lr(manual_lr)\n        return self.optimizer.get_lr()\n"
  },
  {
    "path": "fairseq/optim/lr_scheduler/pass_through.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.optim.lr_scheduler import FairseqLRScheduler, register_lr_scheduler\n\n\n@dataclass\nclass PassThroughScheduleConfig(FairseqDataclass):\n    pass\n\n\n@register_lr_scheduler(\"pass_through\", dataclass=PassThroughScheduleConfig)\nclass PassThroughScheduleSchedule(FairseqLRScheduler):\n    \"\"\"Delegate lr scheduling to the optimizer.\"\"\"\n\n    def __init__(self, cfg: PassThroughScheduleConfig, optimizer):\n        super().__init__(cfg, optimizer)\n        assert (\n            hasattr(optimizer, \"lr_scheduler\") and optimizer.lr_scheduler is not None\n        ), \"Pass-through schedule can only be used with optimizers with their own schedulers\"\n\n    def state_dict(self):\n        return self.optimizer.lr_scheduler.state_dict()\n\n    def load_state_dict(self, state_dict):\n        self.optimizer.lr_scheduler.load_state_dict(state_dict)\n\n    def step_begin_epoch(self, epoch):\n        \"\"\"Update the learning rate at the beginning of the given epoch.\"\"\"\n        return self.optimizer.lr_scheduler.step_begin_epoch(epoch)\n\n    def step_update(self, num_updates):\n        \"\"\"Update the learning rate after each update.\"\"\"\n        return self.optimizer.lr_scheduler.step_update(num_updates)\n"
  },
  {
    "path": "fairseq/optim/lr_scheduler/polynomial_decay_schedule.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\nfrom typing import Optional, List\nfrom omegaconf import II\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.optim.lr_scheduler import FairseqLRScheduler, register_lr_scheduler\n\n\n@dataclass\nclass PolynomialDecayLRScheduleConfig(FairseqDataclass):\n    warmup_updates: int = field(\n        default=0,\n        metadata={\"help\": \"warmup the learning rate linearly for the first N updates\"},\n    )\n    force_anneal: Optional[int] = field(\n        default=None,\n        metadata={\"help\": \"force annealing at specified epoch\"},\n    )\n    end_learning_rate: float = field(\n        default=0.0,\n        metadata={\"help\": \"learning rate to decay to\"},\n    )\n    power: float = field(\n        default=1.0,\n        metadata={\"help\": \"decay exponent\"},\n    )\n    total_num_update: float = field(\n        default=II(\"optimization.max_update\"),\n        metadata={\"help\": \"total number of updates over which to decay learning rate\"},\n    )\n    lr: List[float] = II(\"optimization.lr\")\n\n\n@register_lr_scheduler(\"polynomial_decay\", dataclass=PolynomialDecayLRScheduleConfig)\nclass PolynomialDecayLRSchedule(FairseqLRScheduler):\n    \"\"\"Decay the LR on a fixed schedule.\"\"\"\n\n    def __init__(self, cfg: PolynomialDecayLRScheduleConfig, optimizer):\n        super().__init__(cfg, optimizer)\n\n        assert cfg.total_num_update > 0\n\n        self.lr = cfg.lr[0]\n        if cfg.warmup_updates > 0:\n            self.warmup_factor = 1.0 / cfg.warmup_updates\n        else:\n            self.warmup_factor = 1\n        self.end_learning_rate = cfg.end_learning_rate\n        self.total_num_update = cfg.total_num_update\n        self.power = cfg.power\n        self.optimizer.set_lr(self.warmup_factor * self.lr)\n\n    def get_next_lr(self, epoch):\n        lrs = self.cfg.lr\n        if self.cfg.force_anneal is None or epoch < self.cfg.force_anneal:\n            # use fixed LR schedule\n            next_lr = lrs[min(epoch, len(lrs) - 1)]\n        else:\n            # annneal based on lr_shrink\n            next_lr = self.optimizer.get_lr()\n        return next_lr\n\n    def step_begin_epoch(self, epoch):\n        \"\"\"Update the learning rate at the beginning of the given epoch.\"\"\"\n        self.lr = self.get_next_lr(epoch)\n        self.optimizer.set_lr(self.warmup_factor * self.lr)\n        return self.optimizer.get_lr()\n\n    def step_update(self, num_updates):\n        \"\"\"Update the learning rate after each update.\"\"\"\n        if self.cfg.warmup_updates > 0 and num_updates <= self.cfg.warmup_updates:\n            self.warmup_factor = num_updates / float(self.cfg.warmup_updates)\n            lr = self.warmup_factor * self.lr\n        elif num_updates >= self.total_num_update:\n            lr = self.end_learning_rate\n        else:\n            warmup = self.cfg.warmup_updates\n            lr_range = self.lr - self.end_learning_rate\n            pct_remaining = 1 - (num_updates - warmup) / (\n                self.total_num_update - warmup\n            )\n            lr = lr_range * pct_remaining ** (self.power) + self.end_learning_rate\n        self.optimizer.set_lr(lr)\n        return self.optimizer.get_lr()\n"
  },
  {
    "path": "fairseq/optim/lr_scheduler/reduce_lr_on_plateau.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\nfrom typing import List\n\nimport torch.optim.lr_scheduler\nfrom omegaconf import II\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.optim.lr_scheduler import FairseqLRScheduler, register_lr_scheduler\n\n\n@dataclass\nclass ReduceLROnPlateauLRScheduleConfig(FairseqDataclass):\n    lr_shrink: float = field(\n        default=0.1, metadata={\"help\": \"shrink factor for annealing\"}\n    )\n    lr_threshold: float = field(\n        default=1e-4,\n        metadata={\n            \"help\": (\n                \"threshold for measuring the new optimum, to only focus on \"\n                \"significant changes\"\n            )\n        },\n    )\n    lr_patience: int = field(\n        default=0,\n        metadata={\n            \"help\": (\n                \"number of epochs with no improvement after which learning rate will \"\n                \"be reduced\"\n            )\n        },\n    )\n    warmup_updates: int = field(\n        default=0,\n        metadata={\"help\": \"warmup the learning rate linearly for the first N updates\"},\n    )\n    warmup_init_lr: float = field(\n        default=-1,\n        metadata={\n            \"help\": \"initial learning rate during warmup phase; default is cfg.lr\"\n        },\n    )\n    lr: List[float] = II(\"optimization.lr\")\n    maximize_best_checkpoint_metric: bool = II(\n        \"checkpoint.maximize_best_checkpoint_metric\"\n    )\n\n\n@register_lr_scheduler(\n    \"reduce_lr_on_plateau\", dataclass=ReduceLROnPlateauLRScheduleConfig\n)\nclass ReduceLROnPlateauLRSchedule(FairseqLRScheduler):\n    \"\"\"\n    Decay the LR by a factor every time the validation loss plateaus.\n    Also comes with optional warmup phase, where we linearly increase\n    the learning rate from some initial learning rate\n    (``--warmup-init-lr``) until the configured learning rate\n    (``--lr``). Thereafter the lr is adjusted according to original\n    reduce_on_plateau scheme.\n\n    During warmup::\n\n      lrs = torch.linspace(\n          cfg.warmup_init_lr, cfg.lr, cfg.warmup_updates\n      )\n      lr = lrs[update_num]\n    \"\"\"\n\n    def __init__(self, cfg: ReduceLROnPlateauLRScheduleConfig, optimizer):\n        super().__init__(cfg, optimizer)\n        if len(cfg.lr) > 1:\n            raise ValueError(\n                \"Cannot use a fixed learning rate schedule with reduce_lr_on_plateau.\"\n                \" Consider --lr-scheduler=fixed instead.\"\n            )\n        self.lr_scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(\n            self.optimizer.optimizer,\n            patience=cfg.lr_patience,\n            factor=cfg.lr_shrink,\n            mode=\"max\" if cfg.maximize_best_checkpoint_metric else \"min\",\n            threshold=cfg.lr_threshold,\n        )\n        warmup_end_lr = cfg.lr[0]\n        # if no warm up, sets initial lr to be cfg.lr[0]\n        if cfg.warmup_init_lr < 0:\n            cfg.warmup_init_lr = 0 if cfg.warmup_updates > 0 else warmup_end_lr\n\n        # linearly warmup for the first cfg.warmup_updates\n        if cfg.warmup_updates > 0:\n            self.lr_step = (warmup_end_lr - cfg.warmup_init_lr) / cfg.warmup_updates\n\n        # this flag is either set from arg when no warm up, or set by\n        # step_update() when warmup finishes\n        self.warmup_end = True if cfg.warmup_updates <= 0 else False\n\n        # initial learning rate\n        # this self.lr is used only during init and/or warm up period\n        self.lr = warmup_end_lr if self.warmup_end else cfg.warmup_init_lr\n        self.optimizer.set_lr(self.lr)\n\n    def state_dict(self):\n        \"\"\"Return the LR scheduler state dict.\"\"\"\n        return {\n            \"best\": self.lr_scheduler.best,\n            \"last_epoch\": self.lr_scheduler.last_epoch,\n        }\n\n    def load_state_dict(self, state_dict):\n        \"\"\"Load an LR scheduler state dict.\"\"\"\n        self.lr_scheduler.best = state_dict[\"best\"]\n        if \"last_epoch\" in state_dict:\n            self.lr_scheduler.last_epoch = state_dict[\"last_epoch\"]\n\n    def step(self, epoch, val_loss=None):\n        \"\"\"\n        Update the learning rate at the end of the given epoch if warmup\n        finishes otherwise no update of lr on epoch boundaries\n        \"\"\"\n        if val_loss is not None and self.warmup_end is True:\n            self.lr_scheduler.step(val_loss)\n        else:\n            self.lr_scheduler.last_epoch = epoch\n        return self.optimizer.get_lr()\n\n    def step_update(self, num_updates):\n        \"\"\"\n        Update the learning rate after each update.\"\"\"\n        # if there is warmup\n        if self.cfg.warmup_updates > 0:\n            if num_updates <= self.cfg.warmup_updates:\n                self.lr = self.cfg.warmup_init_lr + num_updates * self.lr_step\n                self.optimizer.set_lr(self.lr)\n            else:\n                if self.warmup_end is False:\n                    self.warmup_end = True\n        # else do nothing\n        return self.optimizer.get_lr()\n"
  },
  {
    "path": "fairseq/optim/lr_scheduler/step_lr_scheduler.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom collections.abc import Collection\nfrom dataclasses import dataclass, field\nfrom typing import List\n\nfrom omegaconf import II\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.optim.lr_scheduler import FairseqLRScheduler, register_lr_scheduler\n\n\n@dataclass\nclass StepLRScheduleConfig(FairseqDataclass):\n    warmup_updates: int = field(\n        default=0,\n        metadata={\"help\": \"warmup the learning rate linearly for the first N updates\"},\n    )\n    warmup_init_lr: float = field(\n        default=-1,\n        metadata={\n            \"help\": \"initial learning rate during warmup phase; default is cfg.lr\"\n        },\n    )\n    lr: List[float] = field(\n        default=II(\"optimization.lr\"),\n        metadata={\"help\": \"max learning rate, must be more than cfg.min_lr\"},\n    )\n    min_lr: float = field(default=0.0, metadata={\"help\": \"min learning rate\"})\n    lr_deacy_period: int = field(default=25000, metadata={\"help\": \"decay period\"})\n    lr_decay: float = field(default=0.5, metadata={\"help\": \"decay factor\"})\n\n\n@register_lr_scheduler(\"step\", dataclass=StepLRScheduleConfig)\nclass StepLRSchedule(FairseqLRScheduler):\n    \"\"\"Decay learning rate every k updates by a fixed factor\"\"\"\n\n    def __init__(self, cfg: StepLRScheduleConfig, fairseq_optimizer):\n        super().__init__(cfg, fairseq_optimizer)\n        self.max_lr = cfg.lr[0] if isinstance(cfg.lr, Collection) else cfg.lr\n        self.min_lr = cfg.min_lr\n        self.lr_deacy_period = cfg.lr_deacy_period\n        self.lr_decay = cfg.lr_decay\n        self.warmup_updates = cfg.warmup_updates\n        self.warmup_init_lr = (\n            cfg.warmup_init_lr if cfg.warmup_init_lr >= 0 else self.min_lr\n        )\n\n        assert self.lr_deacy_period > 0\n        assert self.lr_decay <= 1\n        assert self.min_lr >= 0\n        assert self.max_lr > self.min_lr\n\n        if cfg.warmup_updates > 0:\n            # linearly warmup for the first cfg.warmup_updates\n            self.warmup_lr_step = (\n                self.max_lr - self.warmup_init_lr\n            ) / self.warmup_updates\n        else:\n            self.warmup_lr_step = 1\n\n        # initial learning rate\n        self.lr = self.warmup_init_lr\n        self.optimizer.set_lr(self.lr)\n\n    def step(self, epoch, val_loss=None):\n        \"\"\"Update the learning rate at the end of the given epoch.\"\"\"\n        super().step(epoch, val_loss)\n        # we don't change the learning rate at epoch boundaries\n        return self.optimizer.get_lr()\n\n    def step_update(self, num_updates):\n        \"\"\"Update the learning rate after each update.\"\"\"\n        if num_updates < self.cfg.warmup_updates:\n            self.lr = self.warmup_init_lr + num_updates * self.warmup_lr_step\n        else:\n            curr_updates = num_updates - self.cfg.warmup_updates\n            lr_mult = self.lr_decay ** (curr_updates // self.lr_deacy_period)\n            self.lr = max(self.max_lr * lr_mult, self.min_lr)\n\n        self.optimizer.set_lr(self.lr)\n        return self.lr\n"
  },
  {
    "path": "fairseq/optim/lr_scheduler/tri_stage_lr_scheduler.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom dataclasses import dataclass, field\nfrom typing import Optional, List, Tuple\nfrom omegaconf import II\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.optim.lr_scheduler import FairseqLRScheduler, register_lr_scheduler\n\n\n@dataclass\nclass TriStageLRScheduleConfig(FairseqDataclass):\n    warmup_steps: int = field(\n        default=0,\n        metadata={\"help\": \"warmup the learning rate linearly for the first N updates\"},\n    )\n    hold_steps: int = field(\n        default=0,\n        metadata={\"help\": \"steps in hold stage\"},\n    )\n    decay_steps: int = field(\n        default=0,\n        metadata={\"help\": \"steps in decay stages\"},\n    )\n    phase_ratio: Optional[Tuple[float, float, float]] = field(\n        default=None,\n        metadata={\n            \"help\": (\n                \"if set, automatically sets warmup/hold/decay steps to the ratio \"\n                \"specified here from max_updates. the ratios must add up to 1.0\"\n            )\n        },\n    )\n    init_lr_scale: float = field(\n        default=0.01,\n        metadata={\"help\": \"initial learning rate scale during warmup phase\"},\n    )\n    final_lr_scale: float = field(\n        default=0.01,\n        metadata={\"help\": \"final learning rate scale\"},\n    )\n    max_update: float = II(\"optimization.max_update\")\n    lr: List[float] = II(\"optimization.lr\")\n\n\n@register_lr_scheduler(\"tri_stage\", dataclass=TriStageLRScheduleConfig)\nclass TriStageLRSchedule(FairseqLRScheduler):\n    \"\"\"Tristage learning rate schedulr\n\n    Implement the learning rate scheduler in https://arxiv.org/pdf/1904.08779.pdf\n\n    Similar to inverse_squre_root scheduler, but tri_stage learning rate employs\n    three stages LR scheduling:\n\n        - warmup stage, starting from `lr` * `init_lr_scale`, linearly\n          increased to `lr` in `warmup_steps` iterations\n\n        - hold stage, after `warmup_steps`, keep the LR as `lr` for `hold_steps`\n          iterations\n\n        - decay stage, after hold stage, decay LR exponetially to\n          `lr` * `final_lr_scale` in `decay_steps`;\n          after that LR is keep as `final_lr_scale` * `lr`\n\n    During warmup::\n\n      init_lr = cfg.init_lr_scale * cfg.lr\n      lrs = torch.linspace(init_lr, cfg.lr, cfg.warmup_steps)\n      lr = lrs[update_num]\n\n    During hold::\n\n      lr = cfg.lr\n\n    During decay::\n\n      decay_factor = - math.log(cfg.final_lr_scale) / cfg.decay_steps\n      lr = cfg.lr * exp(- (update_num - warmup_steps - decay_steps) * decay_factor)\n\n    After that::\n\n      lr = cfg.lr * cfg.final_lr_scale\n    \"\"\"\n\n    def __init__(self, cfg: TriStageLRScheduleConfig, optimizer):\n        super().__init__(cfg, optimizer)\n        if len(cfg.lr) > 1:\n            raise ValueError(\n                \"Cannot use a fixed learning rate schedule with tri-stage lr.\"\n                \" Consider --lr-scheduler=fixed instead.\"\n            )\n\n        # calculate LR at each point\n        self.peak_lr = cfg.lr[0]\n        self.init_lr = cfg.init_lr_scale * cfg.lr[0]\n        self.final_lr = cfg.final_lr_scale * cfg.lr[0]\n\n        if cfg.phase_ratio is not None:\n            assert cfg.max_update > 0\n            assert sum(cfg.phase_ratio) == 1, \"phase ratios must add up to 1\"\n            self.warmup_steps = int(cfg.max_update * cfg.phase_ratio[0])\n            self.hold_steps = int(cfg.max_update * cfg.phase_ratio[1])\n            self.decay_steps = int(cfg.max_update * cfg.phase_ratio[2])\n        else:\n            self.warmup_steps = cfg.warmup_steps\n            self.hold_steps = cfg.hold_steps\n            self.decay_steps = cfg.decay_steps\n\n        assert (\n            self.warmup_steps + self.hold_steps + self.decay_steps > 0\n        ), \"please specify steps or phase_ratio\"\n\n        self.warmup_rate = (\n            (self.peak_lr - self.init_lr) / self.warmup_steps\n            if self.warmup_steps != 0\n            else 0\n        )\n        self.decay_factor = -math.log(cfg.final_lr_scale) / self.decay_steps\n\n        # initial learning rate\n        self.lr = self.init_lr\n        self.optimizer.set_lr(self.lr)\n\n    def _decide_stage(self, update_step):\n        \"\"\"\n        return stage, and the corresponding steps within the current stage\n        \"\"\"\n        if update_step < self.warmup_steps:\n            # warmup state\n            return 0, update_step\n\n        offset = self.warmup_steps\n\n        if update_step < offset + self.hold_steps:\n            # hold stage\n            return 1, update_step - offset\n\n        offset += self.hold_steps\n\n        if update_step <= offset + self.decay_steps:\n            # decay stage\n            return 2, update_step - offset\n\n        offset += self.decay_steps\n\n        # still here ? constant lr stage\n        return 3, update_step - offset\n\n    def step(self, epoch, val_loss=None):\n        \"\"\"Update the learning rate at the end of the given epoch.\"\"\"\n        super().step(epoch, val_loss)\n        # we don't change the learning rate at epoch boundaries\n        return self.optimizer.get_lr()\n\n    def step_update(self, num_updates):\n        \"\"\"Update the learning rate after each update.\"\"\"\n        stage, steps_in_stage = self._decide_stage(num_updates)\n        if stage == 0:\n            self.lr = self.init_lr + self.warmup_rate * steps_in_stage\n        elif stage == 1:\n            self.lr = self.peak_lr\n        elif stage == 2:\n            self.lr = self.peak_lr * math.exp(-self.decay_factor * steps_in_stage)\n        elif stage == 3:\n            self.lr = self.final_lr\n        else:\n            raise ValueError(\"Undefined stage\")\n\n        self.optimizer.set_lr(self.lr)\n\n        return self.lr\n"
  },
  {
    "path": "fairseq/optim/lr_scheduler/triangular_lr_scheduler.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nfrom dataclasses import dataclass, field\nfrom typing import List\n\nfrom omegaconf import II\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.optim.lr_scheduler import FairseqLRScheduler, register_lr_scheduler\n\n\n@dataclass\nclass TriangularLRScheduleConfig(FairseqDataclass):\n    max_lr: float = field(\n        default=\"???\", metadata={\"help\": \"max learning rate, must be more than cfg.lr\"}\n    )\n    lr_period_updates: float = field(\n        default=5000,\n        metadata={\"help\": \"initial number of updates per period (cycle length)\"},\n    )\n    lr_shrink: float = field(\n        default=0.1, metadata={\"help\": \"shrink factor for annealing\"}\n    )\n    shrink_min: bool = field(\n        default=False, metadata={\"help\": \"if set, also shrinks min lr\"}\n    )\n    lr: List[float] = II(\"optimization.lr\")\n\n\n@register_lr_scheduler(\"triangular\", dataclass=TriangularLRScheduleConfig)\nclass TriangularLRSchedule(FairseqLRScheduler):\n    \"\"\"Assign LR based on a triangular cyclical schedule.\n\n    See https://arxiv.org/pdf/1506.01186.pdf for details.\n    \"\"\"\n\n    def __init__(self, cfg: TriangularLRScheduleConfig, optimizer):\n        super().__init__(cfg, optimizer)\n        if len(cfg.lr) > 1:\n            raise ValueError(\n                \"Cannot use a fixed learning rate schedule with triangular.\"\n                \" Consider --lr-scheduler=fixed instead.\"\n            )\n\n        lr = cfg.lr[0]\n\n        assert cfg.max_lr > lr, \"max_lr must be more than lr\"\n        self.min_lr = lr\n        self.max_lr = cfg.max_lr\n        self.stepsize = cfg.lr_period_updates // 2\n        self.lr_shrink = cfg.lr_shrink\n        self.shrink_min = cfg.shrink_min\n\n        # initial learning rate\n        self.lr = self.min_lr\n        self.optimizer.set_lr(self.lr)\n\n    def step(self, epoch, val_loss=None):\n        \"\"\"Update the learning rate at the end of the given epoch.\"\"\"\n        super().step(epoch, val_loss)\n        # we don't change the learning rate at epoch boundaries\n        return self.optimizer.get_lr()\n\n    def step_update(self, num_updates):\n        \"\"\"Update the learning rate after each update.\"\"\"\n        cycle = math.floor(num_updates / (2 * self.stepsize))\n\n        lr_shrink = self.lr_shrink**cycle\n        max_lr = self.max_lr * lr_shrink\n        if self.shrink_min:\n            min_lr = self.min_lr * lr_shrink\n        else:\n            min_lr = self.min_lr\n\n        x = abs(num_updates / self.stepsize - 2 * (cycle + 1) + 1)\n        self.lr = min_lr + (max_lr - min_lr) * max(0, (1 - x))\n\n        self.optimizer.set_lr(self.lr)\n        return self.lr\n"
  },
  {
    "path": "fairseq/optim/nag.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom collections.abc import Collection\nfrom dataclasses import dataclass, field\nfrom typing import List\n\nimport torch\nfrom fairseq.dataclass import FairseqDataclass\nfrom omegaconf import II, DictConfig\nfrom torch.optim.optimizer import Optimizer, required\n\nfrom . import FairseqOptimizer, register_optimizer\n\n\n@dataclass\nclass FairseqNAGConfig(FairseqDataclass):\n    momentum: float = field(default=0.99, metadata={\"help\": \"momentum factor\"})\n    weight_decay: float = field(default=0.0, metadata={\"help\": \"weight decay\"})\n    # TODO common vars in parent class\n    lr: List[float] = II(\"optimization.lr\")\n\n\n@register_optimizer(\"nag\", dataclass=FairseqNAGConfig)\nclass FairseqNAG(FairseqOptimizer):\n    def __init__(self, cfg: DictConfig, params):\n        super().__init__(cfg)\n        self._optimizer = NAG(params, **self.optimizer_config)\n\n    @property\n    def optimizer_config(self):\n        \"\"\"\n        Return a kwarg dictionary that will be used to override optimizer\n        args stored in checkpoints. This allows us to load a checkpoint and\n        resume training using a different set of optimizer args, e.g., with a\n        different learning rate.\n        \"\"\"\n        return {\n            \"lr\": self.cfg.lr[0]\n            if isinstance(self.cfg.lr, Collection)\n            else self.cfg.lr,\n            \"momentum\": self.cfg.momentum,\n            \"weight_decay\": self.cfg.weight_decay,\n        }\n\n\nclass NAG(Optimizer):\n    def __init__(self, params, lr=required, momentum=0, weight_decay=0):\n        defaults = dict(lr=lr, lr_old=lr, momentum=momentum, weight_decay=weight_decay)\n        super(NAG, self).__init__(params, defaults)\n\n    @property\n    def supports_memory_efficient_fp16(self):\n        return True\n\n    @property\n    def supports_flat_params(self):\n        return True\n\n    def step(self, closure=None):\n        \"\"\"Performs a single optimization step.\n\n        Args:\n            closure (callable, optional): A closure that reevaluates the model\n                and returns the loss.\n        \"\"\"\n        loss = None\n        if closure is not None:\n            loss = closure()\n\n        for group in self.param_groups:\n            weight_decay = group[\"weight_decay\"]\n            momentum = group[\"momentum\"]\n            lr = group[\"lr\"]\n            lr_old = group.get(\"lr_old\", lr)\n            lr_correct = lr / lr_old if lr_old > 0 else lr\n\n            for p in group[\"params\"]:\n                if p.grad is None:\n                    continue\n\n                p_data_fp32 = p.data\n                if p_data_fp32.dtype in {torch.float16, torch.bfloat16}:\n                    p_data_fp32 = p_data_fp32.float()\n\n                d_p = p.grad.data.float()\n                param_state = self.state[p]\n                if \"momentum_buffer\" not in param_state:\n                    param_state[\"momentum_buffer\"] = torch.zeros_like(d_p)\n                else:\n                    param_state[\"momentum_buffer\"] = param_state[\"momentum_buffer\"].to(\n                        d_p\n                    )\n\n                buf = param_state[\"momentum_buffer\"]\n\n                if weight_decay != 0:\n                    p_data_fp32.mul_(1 - lr * weight_decay)\n                p_data_fp32.add_(buf, alpha=momentum * momentum * lr_correct)\n                p_data_fp32.add_(d_p, alpha=-(1 + momentum) * lr)\n\n                buf.mul_(momentum * lr_correct).add_(d_p, alpha=-lr)\n\n                if p.data.dtype in {torch.float16, torch.bfloat16}:\n                    p.data.copy_(p_data_fp32)\n\n            group[\"lr_old\"] = lr\n\n        return loss\n"
  },
  {
    "path": "fairseq/optim/sgd.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch.optim\n\nfrom . import LegacyFairseqOptimizer, register_optimizer\n\n\n@register_optimizer(\"sgd\")\nclass SGD(LegacyFairseqOptimizer):\n    def __init__(self, args, params):\n        super().__init__(args)\n        self._optimizer = torch.optim.SGD(params, **self.optimizer_config)\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add optimizer-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('--momentum', default=0.0, type=float, metavar='M',\n                            help='momentum factor')\n        parser.add_argument('--weight-decay', '--wd', default=0.0, type=float, metavar='WD',\n                            help='weight decay')\n        # fmt: on\n\n    @property\n    def optimizer_config(self):\n        \"\"\"\n        Return a kwarg dictionary that will be used to override optimizer\n        args stored in checkpoints. This allows us to load a checkpoint and\n        resume training using a different set of optimizer args, e.g., with a\n        different learning rate.\n        \"\"\"\n        return {\n            \"lr\": self.args.lr[0],\n            \"momentum\": self.args.momentum,\n            \"weight_decay\": self.args.weight_decay,\n        }\n\n    @property\n    def supports_flat_params(self):\n        return True\n"
  },
  {
    "path": "fairseq/optim/shard.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom typing import Any, Dict\n\nfrom fairseq.distributed import utils\n\n\ntry:\n    from fairscale.optim import OSS\n\n    _has_fairscale = True\nexcept ImportError:\n    _has_fairscale = False\n\n\ndef shard_(optimizer, group):\n    if not _has_fairscale:\n        raise ImportError(\n            \"\\n\\nPlease install the fairscale package:\" \"\\n\\n  pip install fairscale\"\n        )\n\n    class FairseqOSS(OSS):\n        @property\n        def disable_mem_eff_fp16_loading_hack(self):\n            return True\n\n        def __getattr__(self, name):\n            if name.startswith(\"supports\") and hasattr(self.optim, name):\n                return getattr(self.optim, name)\n            raise AttributeError(\n                \"'FairseqOSS' object has no attribute {0!r}\".format(name)\n            )\n\n        def broadcast_global_state_dict(\n            self, state_dict: Dict[str, Any]\n        ) -> Dict[str, Any]:\n            \"\"\"\n            Broadcasts the entire state_dict to all other ranks\n            each rank is responsible to load their own partition of data\n            \"\"\"\n            return utils.broadcast_object(\n                state_dict,\n                src_rank=0,\n                group=self.group,\n            )\n\n    torch_optimizer = optimizer.optimizer\n    optim_cls = type(torch_optimizer)\n\n    optimizer.optimizer = FairseqOSS(\n        torch_optimizer.param_groups,\n        optim_cls,\n        group=group,\n        **optimizer.optimizer_config\n    )\n"
  },
  {
    "path": "fairseq/options.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nfrom pathlib import Path\nfrom typing import Callable, List, Optional, Union\n\nimport torch\nfrom fairseq import utils\nfrom fairseq.data.indexed_dataset import get_available_dataset_impl\nfrom fairseq.dataclass.configs import (\n    CheckpointConfig,\n    CommonConfig,\n    CommonEvalConfig,\n    DatasetConfig,\n    DistributedTrainingConfig,\n    EvalLMConfig,\n    GenerationConfig,\n    InteractiveConfig,\n    OptimizationConfig,\n    EMAConfig,\n)\nfrom fairseq.dataclass.utils import gen_parser_from_dataclass\n\n# this import is for backward compatibility\nfrom fairseq.utils import csv_str_list, eval_bool, eval_str_dict, eval_str_list  # noqa\n\n\ndef get_preprocessing_parser(default_task=\"translation\"):\n    parser = get_parser(\"Preprocessing\", default_task)\n    add_preprocess_args(parser)\n    return parser\n\n\ndef get_training_parser(default_task=\"translation\"):\n    parser = get_parser(\"Trainer\", default_task)\n    add_dataset_args(parser, train=True)\n    add_distributed_training_args(parser)\n    add_model_args(parser)\n    add_optimization_args(parser)\n    add_checkpoint_args(parser)\n    add_ema_args(parser)\n    return parser\n\n\ndef get_generation_parser(interactive=False, default_task=\"translation\"):\n    parser = get_parser(\"Generation\", default_task)\n    add_dataset_args(parser, gen=True)\n    add_distributed_training_args(parser, default_world_size=1)\n    add_generation_args(parser)\n    add_checkpoint_args(parser)\n    if interactive:\n        add_interactive_args(parser)\n    return parser\n\n\ndef get_speech_generation_parser(default_task=\"text_to_speech\"):\n    parser = get_parser(\"Speech Generation\", default_task)\n    add_dataset_args(parser, gen=True)\n    add_distributed_training_args(parser, default_world_size=1)\n    add_speech_generation_args(parser)\n    return parser\n\n\ndef get_interactive_generation_parser(default_task=\"translation\"):\n    return get_generation_parser(interactive=True, default_task=default_task)\n\n\ndef get_eval_lm_parser(default_task=\"language_modeling\"):\n    parser = get_parser(\"Evaluate Language Model\", default_task)\n    add_dataset_args(parser, gen=True)\n    add_distributed_training_args(parser, default_world_size=1)\n    add_eval_lm_args(parser)\n    return parser\n\n\ndef get_validation_parser(default_task=None):\n    parser = get_parser(\"Validation\", default_task)\n    add_dataset_args(parser, train=True)\n    add_distributed_training_args(parser, default_world_size=1)\n    group = parser.add_argument_group(\"Evaluation\")\n    gen_parser_from_dataclass(group, CommonEvalConfig())\n    return parser\n\n\ndef parse_args_and_arch(\n    parser: argparse.ArgumentParser,\n    input_args: List[str] = None,\n    parse_known: bool = False,\n    suppress_defaults: bool = False,\n    modify_parser: Optional[Callable[[argparse.ArgumentParser], None]] = None,\n):\n    \"\"\"\n    Args:\n        parser (ArgumentParser): the parser\n        input_args (List[str]): strings to parse, defaults to sys.argv\n        parse_known (bool): only parse known arguments, similar to\n            `ArgumentParser.parse_known_args`\n        suppress_defaults (bool): parse while ignoring all default values\n        modify_parser (Optional[Callable[[ArgumentParser], None]]):\n            function to modify the parser, e.g., to set default values\n    \"\"\"\n    if suppress_defaults:\n        # Parse args without any default values. This requires us to parse\n        # twice, once to identify all the necessary task/model args, and a second\n        # time with all defaults set to None.\n        args = parse_args_and_arch(\n            parser,\n            input_args=input_args,\n            parse_known=parse_known,\n            suppress_defaults=False,\n        )\n        suppressed_parser = argparse.ArgumentParser(add_help=False, parents=[parser])\n        suppressed_parser.set_defaults(**{k: None for k, v in vars(args).items()})\n        args = suppressed_parser.parse_args(input_args)\n        return argparse.Namespace(\n            **{k: v for k, v in vars(args).items() if v is not None}\n        )\n\n    from fairseq.models import ARCH_MODEL_REGISTRY, ARCH_CONFIG_REGISTRY, MODEL_REGISTRY\n\n    # Before creating the true parser, we need to import optional user module\n    # in order to eagerly import custom tasks, optimizers, architectures, etc.\n    usr_parser = argparse.ArgumentParser(add_help=False, allow_abbrev=False)\n    usr_parser.add_argument(\"--user-dir\", default=None)\n    usr_args, _ = usr_parser.parse_known_args(input_args)\n    utils.import_user_module(usr_args)\n\n    if modify_parser is not None:\n        modify_parser(parser)\n\n    # The parser doesn't know about model/criterion/optimizer-specific args, so\n    # we parse twice. First we parse the model/criterion/optimizer, then we\n    # parse a second time after adding the *-specific arguments.\n    # If input_args is given, we will parse those args instead of sys.argv.\n    args, _ = parser.parse_known_args(input_args)\n\n    # Add model-specific args to parser.\n    if hasattr(args, \"arch\"):\n        model_specific_group = parser.add_argument_group(\n            \"Model-specific configuration\",\n            # Only include attributes which are explicitly given as command-line\n            # arguments or which have default values.\n            argument_default=argparse.SUPPRESS,\n        )\n        if args.arch in ARCH_MODEL_REGISTRY:\n            ARCH_MODEL_REGISTRY[args.arch].add_args(model_specific_group)\n        elif args.arch in MODEL_REGISTRY:\n            MODEL_REGISTRY[args.arch].add_args(model_specific_group)\n        else:\n            raise RuntimeError()\n\n    if hasattr(args, \"task\"):\n        from fairseq.tasks import TASK_REGISTRY\n\n        TASK_REGISTRY[args.task].add_args(parser)\n    if getattr(args, \"use_bmuf\", False):\n        # hack to support extra args for block distributed data parallelism\n        from fairseq.optim.bmuf import FairseqBMUF\n\n        FairseqBMUF.add_args(parser)\n\n    # Add *-specific args to parser.\n    from fairseq.registry import REGISTRIES\n\n    for registry_name, REGISTRY in REGISTRIES.items():\n        choice = getattr(args, registry_name, None)\n        if choice is not None:\n            cls = REGISTRY[\"registry\"][choice]\n            if hasattr(cls, \"add_args\"):\n                cls.add_args(parser)\n            elif hasattr(cls, \"__dataclass\"):\n                gen_parser_from_dataclass(parser, cls.__dataclass())\n\n    # Modify the parser a second time, since defaults may have been reset\n    if modify_parser is not None:\n        modify_parser(parser)\n\n    # Parse a second time.\n    if parse_known:\n        args, extra = parser.parse_known_args(input_args)\n    else:\n        args = parser.parse_args(input_args)\n        extra = None\n    # Post-process args.\n    if (\n        hasattr(args, \"batch_size_valid\") and args.batch_size_valid is None\n    ) or not hasattr(args, \"batch_size_valid\"):\n        args.batch_size_valid = args.batch_size\n    if hasattr(args, \"max_tokens_valid\") and args.max_tokens_valid is None:\n        args.max_tokens_valid = args.max_tokens\n    if getattr(args, \"memory_efficient_fp16\", False):\n        args.fp16 = True\n    if getattr(args, \"memory_efficient_bf16\", False):\n        args.bf16 = True\n    args.tpu = getattr(args, \"tpu\", False)\n    args.bf16 = getattr(args, \"bf16\", False)\n    if args.bf16:\n        args.tpu = True\n    if args.tpu and args.fp16:\n        raise ValueError(\"Cannot combine --fp16 and --tpu, use --bf16 on TPUs\")\n\n    if getattr(args, \"seed\", None) is None:\n        args.seed = 1  # default seed for training\n        args.no_seed_provided = True\n    else:\n        args.no_seed_provided = False\n\n    if getattr(args, \"update_epoch_batch_itr\", None) is None:\n        if hasattr(args, \"grouped_shuffling\"):\n            args.update_epoch_batch_itr = args.grouped_shuffling\n        else:\n            args.grouped_shuffling = False\n            args.update_epoch_batch_itr = False\n\n    # Apply architecture configuration.\n    if hasattr(args, \"arch\") and args.arch in ARCH_CONFIG_REGISTRY:\n        ARCH_CONFIG_REGISTRY[args.arch](args)\n\n    if parse_known:\n        return args, extra\n    else:\n        return args\n\n\ndef get_parser(desc, default_task=\"translation\"):\n    # Before creating the true parser, we need to import optional user module\n    # in order to eagerly import custom tasks, optimizers, architectures, etc.\n    usr_parser = argparse.ArgumentParser(add_help=False, allow_abbrev=False)\n    usr_parser.add_argument(\"--user-dir\", default=None)\n    usr_args, _ = usr_parser.parse_known_args()\n    utils.import_user_module(usr_args)\n\n    parser = argparse.ArgumentParser(allow_abbrev=False)\n    gen_parser_from_dataclass(parser, CommonConfig())\n\n    from fairseq.registry import REGISTRIES\n\n    for registry_name, REGISTRY in REGISTRIES.items():\n        parser.add_argument(\n            \"--\" + registry_name.replace(\"_\", \"-\"),\n            default=REGISTRY[\"default\"],\n            choices=REGISTRY[\"registry\"].keys(),\n        )\n\n    # Task definitions can be found under fairseq/tasks/\n    from fairseq.tasks import TASK_REGISTRY\n\n    parser.add_argument(\n        \"--task\",\n        metavar=\"TASK\",\n        default=default_task,\n        choices=TASK_REGISTRY.keys(),\n        help=\"task\",\n    )\n    # fmt: on\n    return parser\n\n\ndef add_preprocess_args(parser):\n    group = parser.add_argument_group(\"Preprocessing\")\n    # fmt: off\n    group.add_argument(\"-s\", \"--source-lang\", default=None, metavar=\"SRC\",\n                       help=\"source language\")\n    group.add_argument(\"-t\", \"--target-lang\", default=None, metavar=\"TARGET\",\n                       help=\"target language\")\n    group.add_argument(\"--trainpref\", metavar=\"FP\", default=None,\n                       help=\"train file prefix (also used to build dictionaries)\")\n    group.add_argument(\"--validpref\", metavar=\"FP\", default=None,\n                       help=\"comma separated, valid file prefixes \"\n                            \"(words missing from train set are replaced with <unk>)\")\n    group.add_argument(\"--testpref\", metavar=\"FP\", default=None,\n                       help=\"comma separated, test file prefixes \"\n                            \"(words missing from train set are replaced with <unk>)\")\n    group.add_argument(\"--align-suffix\", metavar=\"FP\", default=None,\n                       help=\"alignment file suffix\")\n    group.add_argument(\"--destdir\", metavar=\"DIR\", default=\"data-bin\",\n                       help=\"destination dir\")\n    group.add_argument(\"--thresholdtgt\", metavar=\"N\", default=0, type=int,\n                       help=\"map words appearing less than threshold times to unknown\")\n    group.add_argument(\"--thresholdsrc\", metavar=\"N\", default=0, type=int,\n                       help=\"map words appearing less than threshold times to unknown\")\n    group.add_argument(\"--tgtdict\", metavar=\"FP\",\n                       help=\"reuse given target dictionary\")\n    group.add_argument(\"--srcdict\", metavar=\"FP\",\n                       help=\"reuse given source dictionary\")\n    group.add_argument(\"--nwordstgt\", metavar=\"N\", default=-1, type=int,\n                       help=\"number of target words to retain\")\n    group.add_argument(\"--nwordssrc\", metavar=\"N\", default=-1, type=int,\n                       help=\"number of source words to retain\")\n    group.add_argument(\"--alignfile\", metavar=\"ALIGN\", default=None,\n                       help=\"an alignment file (optional)\")\n    parser.add_argument('--dataset-impl', metavar='FORMAT', default='mmap',\n                        choices=get_available_dataset_impl(),\n                        help='output dataset implementation')\n    group.add_argument(\"--joined-dictionary\", action=\"store_true\",\n                       help=\"Generate joined dictionary\")\n    group.add_argument(\"--only-source\", action=\"store_true\",\n                       help=\"Only process the source language\")\n    group.add_argument(\"--padding-factor\", metavar=\"N\", default=8, type=int,\n                       help=\"Pad dictionary size to be multiple of N\")\n    group.add_argument(\"--workers\", metavar=\"N\", default=1, type=int,\n                       help=\"number of parallel workers\")\n    group.add_argument(\"--dict-only\", action='store_true',\n                       help=\"if true, only builds a dictionary and then exits\")\n    # fmt: on\n    return parser\n\n\ndef add_dataset_args(parser, train=False, gen=False):\n    group = parser.add_argument_group(\"dataset_data_loading\")\n    gen_parser_from_dataclass(group, DatasetConfig())\n    # fmt: on\n    return group\n\n\ndef add_distributed_training_args(parser, default_world_size=None):\n    group = parser.add_argument_group(\"distributed_training\")\n    if default_world_size is None:\n        default_world_size = max(1, torch.cuda.device_count())\n    gen_parser_from_dataclass(\n        group, DistributedTrainingConfig(distributed_world_size=default_world_size)\n    )\n    return group\n\n\ndef add_optimization_args(parser):\n    group = parser.add_argument_group(\"optimization\")\n    # fmt: off\n    gen_parser_from_dataclass(group, OptimizationConfig())\n    # fmt: on\n    return group\n\n\ndef add_checkpoint_args(parser):\n    group = parser.add_argument_group(\"checkpoint\")\n    # fmt: off\n    gen_parser_from_dataclass(group, CheckpointConfig())\n    # fmt: on\n    return group\n\n\ndef add_common_eval_args(group):\n    gen_parser_from_dataclass(group, CommonEvalConfig())\n\n\ndef add_eval_lm_args(parser):\n    group = parser.add_argument_group(\"LM Evaluation\")\n    add_common_eval_args(group)\n    gen_parser_from_dataclass(group, EvalLMConfig())\n\n\ndef add_generation_args(parser):\n    group = parser.add_argument_group(\"Generation\")\n    add_common_eval_args(group)\n    gen_parser_from_dataclass(group, GenerationConfig())\n    return group\n\n\ndef add_speech_generation_args(parser):\n    group = parser.add_argument_group(\"Speech Generation\")\n    add_common_eval_args(group)  # NOTE: remove_bpe is not needed\n    # fmt: off\n    group.add_argument('--eos_prob_threshold', default=0.5, type=float,\n                       help='terminate when eos probability exceeds this')\n    # fmt: on\n    return group\n\n\ndef add_interactive_args(parser):\n    group = parser.add_argument_group(\"Interactive\")\n    gen_parser_from_dataclass(group, InteractiveConfig())\n\n\ndef add_model_args(parser):\n    group = parser.add_argument_group(\"Model configuration\")\n    # fmt: off\n\n    # Model definitions can be found under fairseq/models/\n    #\n    # The model architecture can be specified in several ways.\n    # In increasing order of priority:\n    # 1) model defaults (lowest priority)\n    # 2) --arch argument\n    # 3) --encoder/decoder-* arguments (highest priority)\n    from fairseq.models import ARCH_MODEL_REGISTRY\n    group.add_argument('--arch', '-a', metavar='ARCH',\n                       choices=ARCH_MODEL_REGISTRY.keys(),\n                       help='model architecture')\n    # fmt: on\n    return group\n\n\ndef get_args(\n    data: Union[str, Path],\n    task: str = \"translation\",\n    arch: str = \"transformer\",\n    **overrides\n):\n    parser = get_training_parser(task)\n    args = parse_args_and_arch(parser, [str(data), \"--task\", task, \"--arch\", arch])\n\n    for k, v in overrides.items():\n        setattr(args, k, v)\n\n    return args\n\n\ndef add_ema_args(parser):\n    group = parser.add_argument_group(\"EMA configuration\")\n    gen_parser_from_dataclass(group, EMAConfig())\n"
  },
  {
    "path": "fairseq/pdb.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport multiprocessing\nimport os\nimport pdb\nimport sys\n\n\n__all__ = [\"set_trace\"]\n\n\n_stdin = [None]\n_stdin_lock = multiprocessing.Lock()\ntry:\n    _stdin_fd = sys.stdin.fileno()\nexcept Exception:\n    _stdin_fd = None\n\n\nclass MultiprocessingPdb(pdb.Pdb):\n    \"\"\"A Pdb wrapper that works in a multiprocessing environment.\n\n    Usage: `from fairseq import pdb; pdb.set_trace()`\n    \"\"\"\n\n    def __init__(self):\n        pdb.Pdb.__init__(self, nosigint=True)\n\n    def _cmdloop(self):\n        stdin_bak = sys.stdin\n        with _stdin_lock:\n            try:\n                if _stdin_fd is not None:\n                    if not _stdin[0]:\n                        _stdin[0] = os.fdopen(_stdin_fd)\n                    sys.stdin = _stdin[0]\n                self.cmdloop()\n            finally:\n                sys.stdin = stdin_bak\n\n\ndef set_trace():\n    pdb = MultiprocessingPdb()\n    pdb.set_trace(sys._getframe().f_back)\n"
  },
  {
    "path": "fairseq/quantization_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nfrom fairseq.modules.quantization import pq, quantization_options, scalar\nfrom omegaconf import DictConfig\n\n\nlogger = logging.getLogger(__name__)\n\n\ndef quantize_model_scalar(model, model_cfg: DictConfig):\n    quant_noise_scalar = getattr(model_cfg, \"quant_noise_scalar\", 0) or 0\n    if quant_noise_scalar > 0:\n        # quantize_model edits the model in place\n        scalar.quantize_model_(model, p=quant_noise_scalar, bits=8, update_step=1000)\n    return model\n\n\nclass Quantizer(object):\n    def __init__(self, config_path, max_epoch, max_update):\n        try:\n            import yaml\n        except ImportError:\n            raise ImportError(\"Please install yaml with: pip install yaml\")\n\n        # parse config\n        if config_path:\n            with open(config_path) as config_file:\n                config = quantization_options.parse_config_yaml(\n                    yaml.safe_load(config_file)\n                )\n        else:\n            config = quantization_options.parse_config_yaml({})\n\n        self.n_centroids_config = config[\"n_centroids\"]\n        self.block_sizes_config = config[\"block_sizes\"]\n        self.layers_to_quantize = config[\"layers_to_quantize\"]\n\n        # We assume that training will run for a fixed number of epochs\n        # (or updates) and that we should train for equal durations\n        # between iterations of PQ.\n        num_iterations = len(self.layers_to_quantize)\n        if max_epoch > 0:\n            assert max_epoch % num_iterations == 0, (\n                \"for iterative PQ, --max-epoch (={}) must be evenly divisible by \"\n                \"len(layers_to_quantize) (={})\".format(max_epoch, num_iterations)\n            )\n            self.epoch_schedule = max_epoch // num_iterations\n        else:\n            self.epoch_schedule = None\n        if max_update > 0:\n            assert max_update % num_iterations == 0, (\n                \"for iterative PQ, --max-update (={}) must be evenly divisible by \"\n                \"len(layers_to_quantize) (={})\".format(max_update, num_iterations)\n            )\n            self.update_schedule = max_update // num_iterations\n        else:\n            self.update_schedule = None\n        assert (self.epoch_schedule is not None) ^ (\n            self.update_schedule is not None\n        ), \"for iterative PQ, cannot specify both --max-update and --max-epoch\"\n\n        # 0 is a special value for quantization step, which will force\n        # the first call to begin_epoch() to call step()\n        self.quantization_step = 0\n\n    def set_trainer(self, trainer):\n        self.trainer = trainer\n        self.size_tracker = pq.SizeTracker(self.trainer.get_model())\n\n    def step(self):\n        \"\"\"Move to the next stage of quantization.\"\"\"\n        if self.quantization_step >= len(self.layers_to_quantize):\n            # Maybe we just finished the last training step or we loaded\n            # a checkpoint for an iterative PQ model which previously\n            # finished training. Either way, don't quantize again.\n            return\n\n        logger.info(\n            \"quantizing model (step={}; layers_to_quantize[step]={})\".format(\n                self.quantization_step, self.layers_to_quantize[self.quantization_step]\n            )\n        )\n        quantized_layers = pq.quantize_model_(\n            self.trainer.get_model(),\n            self.size_tracker,\n            self.layers_to_quantize,\n            self.block_sizes_config,\n            self.n_centroids_config,\n            step=self.quantization_step,\n        )\n        logger.info(\"quantized layers: {}\".format(quantized_layers))\n        logger.info(self.size_tracker)\n\n        self.quantization_step += 1\n\n        # reintialize the Trainer since model parameters have changed\n        self.trainer.reinitialize()\n\n    def begin_epoch(self, epoch):\n        \"\"\"Called at the beginning of each epoch (epochs start at 1).\"\"\"\n        if (\n            (\n                self.epoch_schedule is not None\n                and epoch > 0\n                and (epoch - 1) % self.epoch_schedule == 0\n            )\n            # we always step once in the beginning, even if using\n            # update-based quantization\n            or self.quantization_step == 0\n        ):\n            self.step()\n\n    def step_update(self, num_updates):\n        \"\"\"Called at the end of each step.\"\"\"\n        if (\n            self.update_schedule is not None\n            and num_updates > 0\n            and num_updates % self.update_schedule == 0\n        ):\n            self.step()\n\n    def state_dict(self):\n        return {\n            \"n_centroids_config\": self.n_centroids_config,\n            \"block_sizes_config\": self.block_sizes_config,\n            \"layers_to_quantize\": self.layers_to_quantize,\n            \"epoch_schedule\": self.epoch_schedule,\n            \"update_schedule\": self.update_schedule,\n            \"quantization_step\": self.quantization_step,\n        }\n\n    def load_state_dict(self, state_dict):\n        self.n_centroids_config = state_dict[\"n_centroids_config\"]\n        self.block_sizes_config = state_dict[\"block_sizes_config\"]\n        self.layers_to_quantize = state_dict[\"layers_to_quantize\"]\n        self.epoch_schedule = state_dict[\"epoch_schedule\"]\n        self.update_schedule = state_dict[\"update_schedule\"]\n        self.quantization_step = state_dict[\"quantization_step\"]\n"
  },
  {
    "path": "fairseq/registry.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom argparse import Namespace\n\nfrom typing import Union\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.dataclass.utils import merge_with_parent\nfrom hydra.core.config_store import ConfigStore\nfrom omegaconf import DictConfig\n\nREGISTRIES = {}\n\n\ndef setup_registry(registry_name: str, base_class=None, default=None, required=False):\n    assert registry_name.startswith(\"--\")\n    registry_name = registry_name[2:].replace(\"-\", \"_\")\n\n    REGISTRY = {}\n    REGISTRY_CLASS_NAMES = set()\n    DATACLASS_REGISTRY = {}\n\n    # maintain a registry of all registries\n    if registry_name in REGISTRIES:\n        return  # registry already exists\n    REGISTRIES[registry_name] = {\n        \"registry\": REGISTRY,\n        \"default\": default,\n        \"dataclass_registry\": DATACLASS_REGISTRY,\n    }\n\n    def build_x(cfg: Union[DictConfig, str, Namespace], *extra_args, **extra_kwargs):\n        if isinstance(cfg, DictConfig):\n            choice = cfg._name\n\n            if choice and choice in DATACLASS_REGISTRY:\n                from_checkpoint = extra_kwargs.get(\"from_checkpoint\", False)\n                dc = DATACLASS_REGISTRY[choice]\n                cfg = merge_with_parent(dc(), cfg, remove_missing=from_checkpoint)\n        elif isinstance(cfg, str):\n            choice = cfg\n            if choice in DATACLASS_REGISTRY:\n                cfg = DATACLASS_REGISTRY[choice]()\n        else:\n            choice = getattr(cfg, registry_name, None)\n            if choice in DATACLASS_REGISTRY:\n                cfg = DATACLASS_REGISTRY[choice].from_namespace(cfg)\n\n        if choice is None:\n            if required:\n                raise ValueError(\"{} is required!\".format(registry_name))\n            return None\n\n        cls = REGISTRY[choice]\n        if hasattr(cls, \"build_\" + registry_name):\n            builder = getattr(cls, \"build_\" + registry_name)\n        else:\n            builder = cls\n\n        if \"from_checkpoint\" in extra_kwargs:\n            del extra_kwargs[\"from_checkpoint\"]\n\n        return builder(cfg, *extra_args, **extra_kwargs)\n\n    def register_x(name, dataclass=None):\n        def register_x_cls(cls):\n            if name in REGISTRY:\n                raise ValueError(\n                    \"Cannot register duplicate {} ({})\".format(registry_name, name)\n                )\n            if cls.__name__ in REGISTRY_CLASS_NAMES:\n                raise ValueError(\n                    \"Cannot register {} with duplicate class name ({})\".format(\n                        registry_name, cls.__name__\n                    )\n                )\n            if base_class is not None and not issubclass(cls, base_class):\n                raise ValueError(\n                    \"{} must extend {}\".format(cls.__name__, base_class.__name__)\n                )\n\n            if dataclass is not None and not issubclass(dataclass, FairseqDataclass):\n                raise ValueError(\n                    \"Dataclass {} must extend FairseqDataclass\".format(dataclass)\n                )\n\n            cls.__dataclass = dataclass\n            if cls.__dataclass is not None:\n                DATACLASS_REGISTRY[name] = cls.__dataclass\n\n                cs = ConfigStore.instance()\n                node = dataclass()\n                node._name = name\n                cs.store(name=name, group=registry_name, node=node, provider=\"fairseq\")\n\n            REGISTRY[name] = cls\n\n            return cls\n\n        return register_x_cls\n\n    return build_x, register_x, REGISTRY, DATACLASS_REGISTRY\n"
  },
  {
    "path": "fairseq/scoring/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport importlib\nimport os\nfrom abc import ABC, abstractmethod\n\nfrom fairseq import registry\nfrom omegaconf import DictConfig\n\n\nclass BaseScorer(ABC):\n    def __init__(self, cfg):\n        self.cfg = cfg\n        self.ref = []\n        self.pred = []\n\n    def add_string(self, ref, pred):\n        self.ref.append(ref)\n        self.pred.append(pred)\n\n    @abstractmethod\n    def score(self) -> float:\n        pass\n\n    @abstractmethod\n    def result_string(self) -> str:\n        pass\n\n\n_build_scorer, register_scorer, SCORER_REGISTRY, _ = registry.setup_registry(\n    \"--scoring\", default=\"bleu\"\n)\n\n\ndef build_scorer(choice, tgt_dict):\n    _choice = choice._name if isinstance(choice, DictConfig) else choice\n\n    if _choice == \"bleu\":\n        from fairseq.scoring import bleu\n\n        return bleu.Scorer(\n            bleu.BleuConfig(pad=tgt_dict.pad(), eos=tgt_dict.eos(), unk=tgt_dict.unk())\n        )\n    return _build_scorer(choice)\n\n\n# automatically import any Python files in the current directory\nfor file in sorted(os.listdir(os.path.dirname(__file__))):\n    if file.endswith(\".py\") and not file.startswith(\"_\"):\n        module = file[: file.find(\".py\")]\n        importlib.import_module(\"fairseq.scoring.\" + module)\n"
  },
  {
    "path": "fairseq/scoring/bertscore.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\n\nimport numpy as np\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.scoring import BaseScorer, register_scorer\n\n\n@dataclass\nclass BertScoreScorerConfig(FairseqDataclass):\n    bert_score_lang: str = field(default=\"en\", metadata={\"help\": \"BERTScore language\"})\n\n\n@register_scorer(\"bert_score\", dataclass=BertScoreScorerConfig)\nclass BertScoreScorer(BaseScorer):\n    def __init__(self, cfg):\n        super(BertScoreScorer, self).__init__(cfg)\n        try:\n            import bert_score as _bert_score\n        except ImportError:\n            raise ImportError(\"Please install BERTScore: pip install bert-score\")\n\n        self.cfg = cfg\n        self._bert_score = _bert_score\n        self.scores = None\n\n    def add_string(self, ref, pred):\n        self.ref.append(ref)\n        self.pred.append(pred)\n\n    def score(self, order=4):\n        _, _, self.scores = self._bert_score.score(\n            self.pred, self.ref, lang=self.cfg.bert_score_lang\n        )\n        self.scores = self.scores.numpy()\n        return np.mean(self.scores)\n\n    def result_string(self, order=4):\n        return f\"BERTScore: {self.score():.4f}\"\n"
  },
  {
    "path": "fairseq/scoring/bleu.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport ctypes\nimport math\nimport sys\nfrom dataclasses import dataclass, field\n\nimport torch\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.scoring import BaseScorer, register_scorer\nfrom fairseq.scoring.tokenizer import EvaluationTokenizer\n\n\nclass BleuStat(ctypes.Structure):\n    _fields_ = [\n        (\"reflen\", ctypes.c_size_t),\n        (\"predlen\", ctypes.c_size_t),\n        (\"match1\", ctypes.c_size_t),\n        (\"count1\", ctypes.c_size_t),\n        (\"match2\", ctypes.c_size_t),\n        (\"count2\", ctypes.c_size_t),\n        (\"match3\", ctypes.c_size_t),\n        (\"count3\", ctypes.c_size_t),\n        (\"match4\", ctypes.c_size_t),\n        (\"count4\", ctypes.c_size_t),\n    ]\n\n\n@dataclass\nclass SacrebleuConfig(FairseqDataclass):\n    sacrebleu_tokenizer: EvaluationTokenizer.ALL_TOKENIZER_TYPES = field(\n        default=\"13a\", metadata={\"help\": \"tokenizer\"}\n    )\n    sacrebleu_lowercase: bool = field(\n        default=False, metadata={\"help\": \"apply lowercasing\"}\n    )\n    sacrebleu_char_level: bool = field(\n        default=False, metadata={\"help\": \"evaluate at character level\"}\n    )\n\n\n@register_scorer(\"sacrebleu\", dataclass=SacrebleuConfig)\nclass SacrebleuScorer(BaseScorer):\n    def __init__(self, cfg):\n        super(SacrebleuScorer, self).__init__(cfg)\n        import sacrebleu\n\n        self.sacrebleu = sacrebleu\n        self.tokenizer = EvaluationTokenizer(\n            tokenizer_type=cfg.sacrebleu_tokenizer,\n            lowercase=cfg.sacrebleu_lowercase,\n            character_tokenization=cfg.sacrebleu_char_level,\n        )\n\n    def add_string(self, ref, pred):\n        self.ref.append(self.tokenizer.tokenize(ref))\n        self.pred.append(self.tokenizer.tokenize(pred))\n\n    def _score(self, order=4):\n        if order != 4:\n            raise NotImplementedError\n        # tokenization and lowercasing are performed by self.tokenizer instead.\n        return self.sacrebleu.corpus_bleu(self.pred, [self.ref], tokenize=\"none\")\n\n    def score(self, order=4):\n        return self._score(order).score\n\n    def result_string(self, order=4):\n        return self._score(order).format()\n\n\n@dataclass\nclass BleuConfig(FairseqDataclass):\n    pad: int = field(default=1, metadata={\"help\": \"padding index\"})\n    eos: int = field(default=2, metadata={\"help\": \"eos index\"})\n    unk: int = field(default=3, metadata={\"help\": \"unk index\"})\n\n\n@register_scorer(\"bleu\", dataclass=BleuConfig)\nclass Scorer(object):\n    def __init__(self, cfg):\n        self.stat = BleuStat()\n        self.pad = cfg.pad\n        self.eos = cfg.eos\n        self.unk = cfg.unk\n\n        try:\n            from fairseq import libbleu\n        except ImportError as e:\n            sys.stderr.write(\n                \"ERROR: missing libbleu.so. run `pip install --editable .`\\n\"\n            )\n            raise e\n\n        self.C = ctypes.cdll.LoadLibrary(libbleu.__file__)\n\n        self.reset()\n\n    def reset(self, one_init=False):\n        if one_init:\n            self.C.bleu_one_init(ctypes.byref(self.stat))\n        else:\n            self.C.bleu_zero_init(ctypes.byref(self.stat))\n\n    def add(self, ref, pred):\n        if not isinstance(ref, torch.IntTensor):\n            raise TypeError(\"ref must be a torch.IntTensor (got {})\".format(type(ref)))\n        if not isinstance(pred, torch.IntTensor):\n            raise TypeError(\"pred must be a torch.IntTensor(got {})\".format(type(pred)))\n\n        # don't match unknown words\n        rref = ref.clone()\n        assert not rref.lt(0).any()\n        rref[rref.eq(self.unk)] = -999\n\n        rref = rref.contiguous().view(-1)\n        pred = pred.contiguous().view(-1)\n\n        self.C.bleu_add(\n            ctypes.byref(self.stat),\n            ctypes.c_size_t(rref.size(0)),\n            ctypes.c_void_p(rref.data_ptr()),\n            ctypes.c_size_t(pred.size(0)),\n            ctypes.c_void_p(pred.data_ptr()),\n            ctypes.c_int(self.pad),\n            ctypes.c_int(self.eos),\n        )\n\n    def score(self, order=4):\n        psum = sum(\n            math.log(p) if p > 0 else float(\"-Inf\") for p in self.precision()[:order]\n        )\n        return self.brevity() * math.exp(psum / order) * 100\n\n    def precision(self):\n        def ratio(a, b):\n            return a / b if b > 0 else 0\n\n        return [\n            ratio(self.stat.match1, self.stat.count1),\n            ratio(self.stat.match2, self.stat.count2),\n            ratio(self.stat.match3, self.stat.count3),\n            ratio(self.stat.match4, self.stat.count4),\n        ]\n\n    def brevity(self):\n        r = self.stat.reflen / self.stat.predlen\n        return min(1, math.exp(1 - r))\n\n    def result_string(self, order=4):\n        assert order <= 4, \"BLEU scores for order > 4 aren't supported\"\n        fmt = \"BLEU{} = {:2.2f}, {:2.1f}\"\n        for _ in range(1, order):\n            fmt += \"/{:2.1f}\"\n        fmt += \" (BP={:.3f}, ratio={:.3f}, syslen={}, reflen={})\"\n        bleup = [p * 100 for p in self.precision()[:order]]\n        return fmt.format(\n            order,\n            self.score(order=order),\n            *bleup,\n            self.brevity(),\n            self.stat.predlen / self.stat.reflen,\n            self.stat.predlen,\n            self.stat.reflen\n        )\n"
  },
  {
    "path": "fairseq/scoring/chrf.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nfrom dataclasses import dataclass\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.scoring import BaseScorer, register_scorer\n\n\n@dataclass\nclass ChrFScorerConfig(FairseqDataclass):\n    pass\n\n\n@register_scorer(\"chrf\", dataclass=ChrFScorerConfig)\nclass ChrFScorer(BaseScorer):\n    def __init__(self, args):\n        super(ChrFScorer, self).__init__(args)\n        import sacrebleu\n\n        self.sacrebleu = sacrebleu\n\n    def add_string(self, ref, pred):\n        self.ref.append(ref)\n        self.pred.append(pred)\n\n    def score(self, order=4):\n        return self.result_string(order).score\n\n    def result_string(self, order=4):\n        if order != 4:\n            raise NotImplementedError\n        return self.sacrebleu.corpus_chrf(self.pred, [self.ref]).format()\n"
  },
  {
    "path": "fairseq/scoring/meteor.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nfrom dataclasses import dataclass\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.scoring import BaseScorer, register_scorer\n\n\n@dataclass\nclass MeteorScorerConfig(FairseqDataclass):\n    pass\n\n\n@register_scorer(\"meteor\", dataclass=MeteorScorerConfig)\nclass MeteorScorer(BaseScorer):\n    def __init__(self, args):\n        super(MeteorScorer, self).__init__(args)\n        try:\n            import nltk\n        except ImportError:\n            raise ImportError(\"Please install nltk to use METEOR scorer\")\n\n        self.nltk = nltk\n        self.scores = []\n\n    def add_string(self, ref, pred):\n        self.ref.append(ref)\n        self.pred.append(pred)\n\n    def score(self, order=4):\n        self.scores = [\n            self.nltk.translate.meteor_score.single_meteor_score(r, p)\n            for r, p in zip(self.ref, self.pred)\n        ]\n        return np.mean(self.scores)\n\n    def result_string(self, order=4):\n        return f\"METEOR: {self.score():.4f}\"\n"
  },
  {
    "path": "fairseq/scoring/tokenizer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unicodedata\n\nimport sacrebleu as sb\n\nfrom fairseq.dataclass import ChoiceEnum\n\nSACREBLEU_V2_ABOVE = int(sb.__version__[0]) >= 2\n\n\nclass EvaluationTokenizer(object):\n    \"\"\"A generic evaluation-time tokenizer, which leverages built-in tokenizers\n    in sacreBLEU (https://github.com/mjpost/sacrebleu). It additionally provides\n    lowercasing, punctuation removal and character tokenization, which are\n    applied after sacreBLEU tokenization.\n\n    Args:\n        tokenizer_type (str): the type of sacreBLEU tokenizer to apply.\n        lowercase (bool): lowercase the text.\n        punctuation_removal (bool): remove punctuation (based on unicode\n        category) from text.\n        character_tokenization (bool): tokenize the text to characters.\n    \"\"\"\n\n    SPACE = chr(32)\n    SPACE_ESCAPE = chr(9601)\n    _ALL_TOKENIZER_TYPES = (\n        sb.BLEU.TOKENIZERS\n        if SACREBLEU_V2_ABOVE\n        else [\"none\", \"13a\", \"intl\", \"zh\", \"ja-mecab\"]\n    )\n    ALL_TOKENIZER_TYPES = ChoiceEnum(_ALL_TOKENIZER_TYPES)\n\n    def __init__(\n        self,\n        tokenizer_type: str = \"13a\",\n        lowercase: bool = False,\n        punctuation_removal: bool = False,\n        character_tokenization: bool = False,\n    ):\n\n        assert (\n            tokenizer_type in self._ALL_TOKENIZER_TYPES\n        ), f\"{tokenizer_type}, {self._ALL_TOKENIZER_TYPES}\"\n        self.lowercase = lowercase\n        self.punctuation_removal = punctuation_removal\n        self.character_tokenization = character_tokenization\n        if SACREBLEU_V2_ABOVE:\n            self.tokenizer = sb.BLEU(tokenize=str(tokenizer_type)).tokenizer\n        else:\n            self.tokenizer = sb.tokenizers.TOKENIZERS[tokenizer_type]()\n\n    @classmethod\n    def remove_punctuation(cls, sent: str):\n        \"\"\"Remove punctuation based on Unicode category.\"\"\"\n        return cls.SPACE.join(\n            t\n            for t in sent.split(cls.SPACE)\n            if not all(unicodedata.category(c)[0] == \"P\" for c in t)\n        )\n\n    def tokenize(self, sent: str):\n        tokenized = self.tokenizer(sent)\n\n        if self.punctuation_removal:\n            tokenized = self.remove_punctuation(tokenized)\n\n        if self.character_tokenization:\n            tokenized = self.SPACE.join(\n                list(tokenized.replace(self.SPACE, self.SPACE_ESCAPE))\n            )\n\n        if self.lowercase:\n            tokenized = tokenized.lower()\n\n        return tokenized\n"
  },
  {
    "path": "fairseq/scoring/wer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.scoring import BaseScorer, register_scorer\nfrom fairseq.scoring.tokenizer import EvaluationTokenizer\n\n\n@dataclass\nclass WerScorerConfig(FairseqDataclass):\n    wer_tokenizer: EvaluationTokenizer.ALL_TOKENIZER_TYPES = field(\n        default=\"none\", metadata={\"help\": \"sacreBLEU tokenizer to use for evaluation\"}\n    )\n    wer_remove_punct: bool = field(\n        default=False, metadata={\"help\": \"remove punctuation\"}\n    )\n    wer_char_level: bool = field(\n        default=False, metadata={\"help\": \"evaluate at character level\"}\n    )\n    wer_lowercase: bool = field(default=False, metadata={\"help\": \"lowercasing\"})\n\n\n@register_scorer(\"wer\", dataclass=WerScorerConfig)\nclass WerScorer(BaseScorer):\n    def __init__(self, cfg):\n        super().__init__(cfg)\n        self.reset()\n        try:\n            import editdistance as ed\n        except ImportError:\n            raise ImportError(\"Please install editdistance to use WER scorer\")\n        self.ed = ed\n        self.tokenizer = EvaluationTokenizer(\n            tokenizer_type=self.cfg.wer_tokenizer,\n            lowercase=self.cfg.wer_lowercase,\n            punctuation_removal=self.cfg.wer_remove_punct,\n            character_tokenization=self.cfg.wer_char_level,\n        )\n\n    def reset(self):\n        self.distance = 0\n        self.ref_length = 0\n\n    def add_string(self, ref, pred):\n        ref_items = self.tokenizer.tokenize(ref).split()\n        pred_items = self.tokenizer.tokenize(pred).split()\n        self.distance += self.ed.eval(ref_items, pred_items)\n        self.ref_length += len(ref_items)\n\n    def result_string(self):\n        return f\"WER: {self.score():.2f}\"\n\n    def score(self):\n        return 100.0 * self.distance / self.ref_length if self.ref_length > 0 else 0\n"
  },
  {
    "path": "fairseq/search.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\n\nfrom typing import List, Optional\n\nimport torch\nimport torch.nn as nn\nfrom fairseq.token_generation_constraints import (\n    ConstraintState,\n    OrderedConstraintState,\n    UnorderedConstraintState,\n)\nfrom torch import Tensor\n\n\nclass Search(nn.Module):\n    def __init__(self, tgt_dict):\n        super().__init__()\n        self.pad = tgt_dict.pad()\n        self.unk = tgt_dict.unk()\n        self.eos = tgt_dict.eos()\n        self.vocab_size = len(tgt_dict)\n        self.src_lengths = torch.tensor(-1)\n        self.supports_constraints = False\n        self.stop_on_max_len = False\n\n    def step(\n        self, step, lprobs, scores, prev_output_tokens=None, original_batch_idxs=None\n    ):\n        \"\"\"Take a single search step.\n\n        Args:\n            step: the current search step, starting at 0\n            lprobs: (bsz x input_beam_size x vocab_size)\n                the model's log-probabilities over the vocabulary at the current step\n            scores: (bsz x input_beam_size x step)\n                the historical model scores of each hypothesis up to this point\n            prev_output_tokens: (bsz x step)\n                the previously generated oputput tokens\n            original_batch_idxs: (bsz)\n                the tensor with the batch indices, in the range [0, bsz)\n                this is useful in case there has been applied a re-ordering\n                and we need to know the orignal indices\n\n        Return: A tuple of (scores, indices, beams) where:\n            scores: (bsz x output_beam_size)\n                the scores of the chosen elements; output_beam_size can be\n                larger than input_beam_size, e.g., we may return\n                2*input_beam_size to account for EOS\n            indices: (bsz x output_beam_size)\n                the indices of the chosen elements\n            beams: (bsz x output_beam_size)\n                the hypothesis ids of the chosen elements, in the range [0, input_beam_size)\n        \"\"\"\n        raise NotImplementedError\n\n    @torch.jit.export\n    def set_src_lengths(self, src_lengths):\n        self.src_lengths = src_lengths\n\n    @torch.jit.export\n    def init_constraints(self, batch_constraints: Optional[Tensor], beam_size: int):\n        \"\"\"Initialize constraint states for constrained decoding (if supported).\n\n        Args:\n            batch_constraints: (torch.Tensor, optional)\n                the list of constraints, in packed form\n            beam_size: (int)\n                the beam size\n        Returns:\n            *encoder_out* rearranged according to *new_order*\n        \"\"\"\n        pass\n\n    def prune_sentences(self, batch_idxs: Tensor):\n        \"\"\"\n        Removes constraint states for completed sentences (if supported).\n        This is called from sequence_generator._generate() when sentences are\n        deleted from the batch.\n\n        Args:\n            batch_idxs: Indices of *sentences* whose constraint state should be *kept*.\n        \"\"\"\n        pass\n\n    def update_constraints(self, active_hypos: Tensor):\n        \"\"\"\n        Updates the constraint states by selecting the beam items that are retained.\n        This is called at each time step of sequence_generator._generate() when\n        the set of 2 * {beam_size} candidate hypotheses are reduced to the beam size.\n\n        Args:\n            active_hypos: (batch size, beam size)\n              list of integers denoting, for each sentence, which beam candidate items\n              should be kept.\n        \"\"\"\n        pass\n\n\nclass BeamSearch(Search):\n    def __init__(self, tgt_dict):\n        super().__init__(tgt_dict)\n        self.constraint_states = None\n\n    @torch.jit.export\n    def step(\n        self,\n        step: int,\n        lprobs,\n        scores: Optional[Tensor],\n        prev_output_tokens: Optional[Tensor] = None,\n        original_batch_idxs: Optional[Tensor] = None,\n        candidate_multiple: int = 2,\n    ):\n        bsz, beam_size, vocab_size = lprobs.size()\n\n        if step == 0:\n            # at the first step all hypotheses are equally likely, so use\n            # only the first beam\n            lprobs = lprobs[:, ::beam_size, :].contiguous()\n        else:\n            # make probs contain cumulative scores for each hypothesis\n            assert scores is not None\n            lprobs = lprobs + scores[:, :, step - 1].unsqueeze(-1)\n\n        top_prediction = torch.topk(\n            lprobs.view(bsz, -1),\n            k=min(\n                # Take the best `candidate_muliple`(default 2) x beam_size predictions. We'll choose the first\n                # beam_size of these which don't predict eos to continue with.\n                candidate_multiple * beam_size,\n                lprobs.view(bsz, -1).size(1) - 1,  # -1 so we never select pad\n            ),\n        )\n        scores_buf = top_prediction[0]\n        indices_buf = top_prediction[1]\n        # Project back into relative indices and beams\n        beams_buf = torch.div(indices_buf, vocab_size, rounding_mode=\"trunc\")\n        indices_buf = indices_buf.fmod(vocab_size)\n\n        # At this point, beams_buf and indices_buf are single-dim and contain relative indices\n        return scores_buf, indices_buf, beams_buf\n\n\nclass PrefixConstrainedBeamSearch(Search):\n    def __init__(self, tgt_dict, prefix_allowed_tokens_fn):\n        super().__init__(tgt_dict)\n        self.prefix_allowed_tokens_fn = prefix_allowed_tokens_fn\n        self.stop_on_max_len = True\n\n    @torch.jit.export\n    def apply_mask(self, x, prev_output_tokens, original_batch_idxs):\n        beam_size = x.shape[0] // original_batch_idxs.shape[0]\n        original_batch_idxs = (\n            original_batch_idxs.unsqueeze(-1).repeat((1, beam_size)).flatten().tolist()\n        )\n\n        mask = torch.full_like(x, -math.inf)\n        for sent_i, (sent, batch_i) in enumerate(\n            zip(prev_output_tokens, original_batch_idxs)\n        ):\n            mask[sent_i, :, self.prefix_allowed_tokens_fn(batch_i, sent)] = 0\n\n        return mask\n\n    @torch.jit.export\n    def step(\n        self,\n        step: int,\n        lprobs: Tensor,\n        scores: Tensor,\n        prev_output_tokens: Tensor,\n        original_batch_idxs: Tensor,\n    ):\n        bsz, beam_size, vocab_size = lprobs.size()\n\n        lprobs += self.apply_mask(\n            lprobs.view(bsz * beam_size, 1, vocab_size),\n            prev_output_tokens,\n            original_batch_idxs,\n        ).view(bsz, beam_size, vocab_size)\n\n        if step == 0:\n            # at the first step all hypotheses are equally likely, so use\n            # only the first beam\n            lprobs = lprobs[:, ::beam_size, :].contiguous()\n        else:\n            # make probs contain cumulative scores for each hypothesis\n            assert scores is not None\n            lprobs = lprobs + scores[:, :, step - 1].unsqueeze(-1)\n\n        top_prediction = torch.topk(\n            lprobs.view(bsz, -1),\n            k=min(\n                # Take the best beam_size predictions. We'll choose the first\n                # beam_size of these which don't predict eos to continue with.\n                beam_size,\n                lprobs.view(bsz, -1).size(1) - 1,  # -1 so we never select pad\n            ),\n        )\n        scores_buf = top_prediction[0]\n        indices_buf = top_prediction[1]\n        beams_buf = indices_buf // vocab_size\n        indices_buf = indices_buf.fmod(vocab_size)\n        return scores_buf, indices_buf, beams_buf\n\n\nclass LexicallyConstrainedBeamSearch(Search):\n    \"\"\"Implements lexically constrained beam search as described in\n\n        Fast Lexically Constrained Decoding with Dynamic Beam\n        Allocation for Neural Machine Translation.  Post & Vilar,\n        NAACL 2018.  https://www.aclweb.org/anthology/N18-1119/\n\n    and\n\n        Improved Lexically Constrained Decoding for Translation and\n        Monolingual Rewriting. Hu et al, NAACL\n        2019. https://www.aclweb.org/anthology/N19-1090/\n\n    This is accomplished by maintaining, for each beam hypothesis, a\n    ConstraintState object (see constraints.py) that tracks which\n    constraints have been generated and using this information to\n    shape the beam for each input sentence.\n    \"\"\"\n\n    def __init__(self, tgt_dict, representation):\n        super().__init__(tgt_dict)\n        self.representation = representation\n        self.vocab_size = len(tgt_dict)\n        self.num_cands = 0\n        self.supports_constraints = True\n\n    @torch.jit.export\n    def init_constraints(self, batch_constraints: Optional[Tensor], beam_size: int):\n        self.constraint_states = []\n        for constraint_tensor in batch_constraints:\n            if self.representation == \"ordered\":\n                constraint_state = OrderedConstraintState.create(constraint_tensor)\n            elif self.representation == \"unordered\":\n                constraint_state = UnorderedConstraintState.create(constraint_tensor)\n\n            self.constraint_states.append([constraint_state for i in range(beam_size)])\n\n    @torch.jit.export\n    def prune_sentences(self, batch_idxs: Tensor):\n        self.constraint_states = [\n            self.constraint_states[i] for i in batch_idxs.tolist()\n        ]\n\n    @torch.jit.export\n    def update_constraints(self, active_hypos: Tensor):\n        if self.constraint_states:\n            batch_size = active_hypos.size(0)\n            for sentid in range(batch_size):\n                self.constraint_states[sentid] = [\n                    self.constraint_states[sentid][i] for i in active_hypos[sentid]\n                ]\n\n    @torch.jit.export\n    def step(\n        self,\n        step: int,\n        lprobs: Tensor,\n        scores: Optional[Tensor],\n        prev_output_tokens: Optional[Tensor] = None,\n        original_batch_idxs: Optional[Tensor] = None,\n    ):\n        \"\"\"\n        A constrained step builds a large candidates list from the following:\n        - the top 2 * {beam_size} items over the whole beam\n        - for each item in the beam\n          - the top {each_k} (default 1)\n          - all next constraints\n        We then compute the constrained state of each beam item, and assign\n        stripe codes: 0 to the best in each bank, 1 to the 2nd-best, and so\n        on. We then sort by (stripe, score), and truncate the list at\n        2 * beam size.\n\n        Args:\n            step: the decoder step\n            lprobs: (batch size, beam size, target vocab)\n                the target-vocab distributions for each item in the beam.\n        Retrun: A tuple of (scores, indices, beams, constraints) where:\n            scores: (batch, output beam size)\n                the scores of the chosen elements\n            indices: (batch, output beam size)\n                the target vocab indices of the chosen elements\n            beams: (batch, output beam size)\n                the 0-indexed hypothesis ids of the chosen elements\n            constraints: (batch, output beam size)\n                the new constraint states\n        \"\"\"\n        each_k = 1\n        device = lprobs.device\n\n        batch_size, beam_size, vocab_size = lprobs.size()\n\n        self.num_cands = min(\n            # Just take the k-best. We'll get another k from the 1-best from each\n            # row, plus more from the constraints\n            beam_size * 2,\n            lprobs.view(batch_size, -1).size(1) - 1,  # -1 so we never select pad\n        )\n\n        # STEP 0: Preliminary. Prevent EOS for unfinished hyps across all batch items\n        constraint_states = self.constraint_states\n        if constraint_states and step > 0:\n            not_finished_indices = []\n            for sentno, sent_constraints in enumerate(constraint_states):\n                for beamno, state in enumerate(sent_constraints):\n                    index = sentno * beam_size + beamno\n                    if not state.finished:\n                        not_finished_indices.append(index)\n            not_finished_indices = torch.tensor(not_finished_indices)\n            if not_finished_indices.numel() > 0:\n                lprobs.view(batch_size * beam_size, -1)[\n                    not_finished_indices, self.eos\n                ] = -math.inf\n\n        if step == 0:\n            # at the first step all hypotheses are equally likely, so use\n            # only the first beam entry for each batch item\n            lprobs = lprobs[:, ::beam_size, :].contiguous()\n        else:\n            # make probs contain cumulative scores for each hypothesis\n            assert scores is not None\n            lprobs = lprobs + scores[:, :, step - 1].unsqueeze(-1)\n\n        top_prediction = torch.topk(\n            lprobs.view(batch_size, -1),\n            self.num_cands,\n        )\n        scores_buf, indices_buf = top_prediction\n        # Project back into relative indices and beams\n        beams_buf = indices_buf // vocab_size\n        indices_buf = indices_buf.fmod(vocab_size)\n\n        # Short circuit if there are no constraints in this batch\n        if not constraint_states:\n            return scores_buf, indices_buf, beams_buf\n\n        # STEP 1: get top-1 from each hypothesis across all sentences in the batch\n        if step > 0:\n            top_scores, top_indices = torch.topk(\n                lprobs.view(batch_size * beam_size, -1),\n                k=each_k,\n                dim=1,\n            )\n            top_scores = top_scores.view(batch_size, -1)\n            top_indices = top_indices.view(batch_size, -1)\n            scores_buf = torch.cat((scores_buf, top_scores), dim=1)\n            indices_buf = torch.cat((indices_buf, top_indices), dim=1)\n            new_beams = torch.arange(0, beam_size, device=device).repeat(batch_size, 1)\n            beams_buf = torch.cat((beams_buf, new_beams), dim=1)\n\n        # Now, process sentences in the batch one by one.\n        new_scores_buf = torch.zeros((batch_size, 2 * beam_size), device=device)\n        new_indices_buf = torch.zeros((batch_size, 2 * beam_size), device=device).long()\n        new_beams_buf = torch.zeros((batch_size, 2 * beam_size), device=device).long()\n        for sentno, states in enumerate(constraint_states):\n            scores, indices, beams, new_states = self.step_sentence(\n                step,\n                sentno,\n                lprobs[sentno],\n                constraint_states[sentno],\n                beams_buf[sentno].clone(),\n                indices_buf[sentno].clone(),\n                scores_buf[sentno].clone(),\n            )\n            new_scores_buf[sentno] = scores\n            new_indices_buf[sentno] = indices\n            new_beams_buf[sentno] = beams\n            self.constraint_states[sentno] = new_states\n\n        return new_scores_buf, new_indices_buf, new_beams_buf\n\n    @torch.jit.export\n    def step_sentence(\n        self,\n        step: int,\n        sentno: int,\n        lprobs: Tensor,\n        constraint_states: List[List[ConstraintState]],\n        beams_buf: Tensor,\n        indices_buf: Tensor,\n        scores_buf: Tensor,\n    ):\n        \"\"\"Does per-sentence processing. Adds all constraints for each\n        hypothesis to the list of candidates; then removes duplicates,\n        sorts, and dynamically stripes across the banks. All tensor inputs\n        are collapsed to those pertaining to a single input sentence.\n        \"\"\"\n        device = lprobs.device\n\n        # STEP 2: Add all constraints for each beam item\n        for beamno, state in enumerate(constraint_states):\n            next_tokens = torch.tensor(list(state.next_tokens()), device=device).long()\n            if next_tokens.numel() != 0:\n                indices_buf = torch.cat((indices_buf, next_tokens))\n                next_beams = (\n                    torch.tensor(beamno, device=device)\n                    .repeat(next_tokens.size(0))\n                    .long()\n                )\n                beams_buf = torch.cat((beams_buf, next_beams))\n                next_values = lprobs[beamno].take(next_tokens.view(-1))\n                scores_buf = torch.cat((scores_buf, next_values))\n\n            # At the 0th time step, there is just one beam item\n            if step == 0:\n                break\n\n        # STEP 3: Compute the \"bank\" for each candidate. This is the\n        # number of constraints it's generated. We need this so that\n        # we can do round-robin allocation of the beam across these\n        # banks. If C is the number of constraints, we select the best\n        # item in bank C, then the best in bank C-1, etc, followed by\n        # the 2nd-best in bank C, the 2nd-best in bank C-1, etc, and so\n        # on, until the maximum beam size. We accomplish this by\n        # creating a sort key and striping across the banks.\n\n        # Compute the new states for all candidates\n        cands_size = indices_buf.size(0)\n        constraint_states = [\n            constraint_states[beams_buf[i]].advance(indices_buf[i])\n            for i in range(cands_size)\n        ]\n\n        banks = torch.tensor([state.bank for state in constraint_states], device=device)\n\n        # STEP 4: Sort\n        num_constraint_tokens = len(state.tokens)\n\n        # Sort by keys (bank, score) (i.e., sort banks together, and scores\n        # within banks). AFAIK pytorch doesn't support either stable sort or\n        # multi-key sorting, so we have to hack this.\n        MAX_SCORE = -100\n        sort_key = (num_constraint_tokens - banks) * MAX_SCORE + scores_buf\n        sort_values, sort_indices = sort_key.sort(dim=0, descending=True)\n        scores_buf = scores_buf[sort_indices]\n        indices_buf = indices_buf[sort_indices]\n        beams_buf = beams_buf[sort_indices]\n        banks = banks[sort_indices]\n\n        # Sort the constraints to follow suit\n        constraint_states = [constraint_states[i] for i in sort_indices]\n\n        # STEP 5: Remove duplicates. The topk calls (overall and\n        # per-row) plus the per-row generation of constraints will\n        # produce duplicates. Here we remove them.\n\n        def roll(t):\n            \"\"\"Rolls a 1d tensor left by 1.\n\n            [0, 1, 2, 3, 4] becomes [4, 0, 1, 2, 3]\n            \"\"\"\n            return torch.cat((t[-1].unsqueeze(0), t[0:-1]), dim=0)\n\n        # We map candidates (beam, token_id) to a single dimension.\n        # This is then shifted by 1. We can then easily identify\n        # duplicates and create a mask that identifies unique\n        # extensions.\n        uniques_mask = beams_buf * (self.vocab_size + 1) + indices_buf\n        uniques_mask = roll(uniques_mask) != uniques_mask\n\n        # Use the mask to pare down the data structures\n        scores_buf = torch.masked_select(scores_buf, uniques_mask)\n        indices_buf = torch.masked_select(indices_buf, uniques_mask)\n        beams_buf = torch.masked_select(beams_buf, uniques_mask)\n        banks = torch.masked_select(banks, uniques_mask)\n        i = 1\n        for mask in uniques_mask[1:]:\n            if not mask:\n                constraint_states.pop(i)\n            i += mask\n\n        # STEP 6: Assign IDs round-robin across banks, sort, and\n        # truncate. Now that the candidates are sorted by (bank,\n        # score) and uniqed, we dynamically allocate the {beam_size}\n        # beam by striping across the candidates. These stripes will\n        # be used as sort keys to do round-robin selection. This is\n        # accomplished in a single pass with offsets. Sorting by\n        # highest-banks (furthest-along hypotheses) first ensures\n        # progress through the constraints.\n        #\n        # e.g., BANKS: 3 3 3 2 2 2 2 1 1 1 0 0\n        # OLD STRIPES: 0 1 2 0 1 2 3 0 1 2 0 1\n        # NEW STRIPES: 0 1+4 2+8 0+1 1+5 2+9 3+11 0+2 1+6 2+10 0+3 1+7\n        #            = 0 5 10 1 6 11 13 2 7 12 3 8\n        #\n        # Sorting by this then gives the following banks:\n        #\n        #             3 2 1 0 3 2 1 0 3 2 1 2\n        #\n        # We'll take the top {beam_size} of these.\n        stripe_offsets = [offset * (len(banks) + 1) for offset in range(len(banks) + 1)]\n        stripes = torch.zeros_like(banks)\n        cur_bank_count = -1\n        cur_bank = banks[0]\n        for i, bank in enumerate(banks):\n            if bank != cur_bank:\n                cur_bank_count = 0\n                cur_bank = bank\n            else:\n                cur_bank_count += 1\n            stripes[i] = num_constraint_tokens - bank + stripe_offsets[cur_bank_count]\n\n        # STEP 7: Sort by the stripes values\n        sort_values, sort_indices = stripes.sort(dim=0)\n        scores_buf = scores_buf[sort_indices]\n        indices_buf = indices_buf[sort_indices]\n        beams_buf = beams_buf[sort_indices]\n        constraint_states = [constraint_states[i] for i in sort_indices]\n\n        # STEP 8: Truncate to the candidates size!\n        scores_buf = scores_buf[: self.num_cands]\n        indices_buf = indices_buf[: self.num_cands]\n        beams_buf = beams_buf[: self.num_cands]\n\n        return scores_buf, indices_buf, beams_buf, constraint_states\n\n\nclass LengthConstrainedBeamSearch(Search):\n    def __init__(self, tgt_dict, min_len_a, min_len_b, max_len_a, max_len_b):\n        super().__init__(tgt_dict)\n        self.min_len_a = min_len_a\n        self.min_len_b = min_len_b\n        self.max_len_a = max_len_a\n        self.max_len_b = max_len_b\n        self.beam = BeamSearch(tgt_dict)\n        self.needs_src_lengths = True\n\n    def step(\n        self,\n        step: int,\n        lprobs,\n        scores,\n        prev_output_tokens: Optional[Tensor] = None,\n        original_batch_idxs: Optional[Tensor] = None,\n    ):\n        min_lens = self.min_len_a * self.src_lengths + self.min_len_b\n        max_lens = self.max_len_a * self.src_lengths + self.max_len_b\n        lprobs[step < min_lens, :, self.eos] = -math.inf\n        lprobs[step >= max_lens, :, self.eos] = 0\n        return self.beam.step(step, lprobs, scores)\n\n\nclass DiverseBeamSearch(Search):\n    \"\"\"Diverse Beam Search.\n\n    See \"Diverse Beam Search: Decoding Diverse Solutions from Neural Sequence\n    Models\" for details.\n\n    We implement cumulative diversity penalty here as default, optionally provide Hamming diversity described\n    in the original paper, and a way to interpolate between the two through diversity_discount.\n\n    Take the example below for illustration of cumulative diversity implemented.\n    A) I like dogs.\n    B) I like ____.\n    C) There are ___.\n    And we are at step=2, trying to fill in the blank:\n\n    Hamming diversity:\n    Penalty for B from A is 1 for \"dogs\" and 0 for any other words like \"cats\".\n    Penalty for C from A is 1 for \"dogs\" and 0 for any other words like \"cats\".\n\n    Cumulative diversity (default):\n    Penalty for B from A is 3 for \"dogs\" and 0 for any other words like \"cats\".\n    Penalty for C from A is 1 for \"dogs\" and 0 for any other words like \"cats\".\n    B and C differ because B matches with A for \"I\" and \"like\" at respective steps incurring 2 cumulative penalty.\n\n    Using divesrity_discount to interpolate between the two:\n    if diverstiy_discount = 0.5, then\n    Penalty for B from A is 1.75 (1 + 0.5 + 0.25) for \"dogs\" and 0 for any other words like \"cats\".\n    Penalty for C from A is 1 for \"dogs\" and 0 for any other words like \"cats\".\n    \"I\" and \"like\" matched for B and A at step 0 and 1 respectively. Since \"I\" is two steps away and \"like\" is one step away, they are discounted by (0.5)^2 and 0.5 respectively.\n    When diversity_discount = 0, we recover Hammning diversity and when diversity_discount = 1, we recover cumulative diversity.\n\n    NB: During beam search for each diversity group, `candidate_mutiple` is set to 1 rather than BeamSearch default(2).\n    This is to ensure we have final `beam_size` candidates so that no diversity groups would be dropped during final token selection in sequence generation.\n    For full backwards compatibility, use diversity_discount=0 and candidate_multiple=2.\n\n    \"\"\"\n\n    def __init__(\n        self,\n        tgt_dict,\n        num_groups,\n        diversity_strength,\n        diversity_discount=1.0,\n        candidate_multiple=1,\n    ):\n        super().__init__(tgt_dict)\n        self.num_groups = num_groups\n        self.diversity_strength = -diversity_strength\n        self.beam = BeamSearch(tgt_dict)\n        self.diversity_discount = diversity_discount\n        self.candidate_multiple = candidate_multiple\n\n        # Float tensor to keep track of overlap between groups.\n        # Each token shared at the same step between two groups is counted as one.\n        # Then token counts are discounted by `diversity_discount` for every next timestep.\n        # Once initialized, dimension is batch_size * num_groups * num_groups.\n        self.group_overlap = torch.empty(0)\n\n    @torch.jit.export\n    def step(\n        self,\n        step: int,\n        lprobs,\n        scores,\n        prev_output_tokens: Optional[Tensor] = None,\n        original_batch_idxs: Optional[Tensor] = None,\n    ):\n        bsz, beam_size, vocab_size = lprobs.size()\n        if beam_size % self.num_groups != 0:\n            raise ValueError(\n                \"DiverseBeamSearch requires --beam to be divisible by the number of groups\"\n            )\n\n        # initialize diversity penalty\n        diversity_buf = torch.zeros(lprobs[:, 0, :].size()).to(lprobs)\n\n        scores_G, beams_G = [], []\n\n        # pre-allocating tensor for indices for all groups\n        indices_G_stacked = torch.empty(\n            bsz,\n            int(beam_size / self.num_groups) * self.candidate_multiple,\n            self.num_groups,\n            dtype=torch.long,\n            device=lprobs.device,\n        )\n\n        for g in range(self.num_groups):\n            lprobs_g = lprobs[:, g :: self.num_groups, :]\n            scores_g = scores[:, g :: self.num_groups, :] if step > 0 else None\n\n            diversity_buf.zero_()\n            # apply diversity penalty\n            if g > 0:\n                indices_ = indices_G_stacked[:, :, :g]\n                if step > 0:\n                    penalty_val = 1 + self.group_overlap[original_batch_idxs, g, :g]\n                    penalty_val = penalty_val.unsqueeze(1)\n                else:\n                    penalty_val = torch.ones(bsz, 1, 1)\n                diversity_buf.scatter_add_(\n                    1,\n                    indices_.reshape(bsz, -1),\n                    penalty_val.expand(indices_.size())\n                    .reshape(bsz, -1)\n                    .to(diversity_buf),\n                )\n\n                lprobs_g = torch.add(\n                    lprobs_g,\n                    other=diversity_buf.unsqueeze(1),\n                    alpha=self.diversity_strength,\n                )\n            else:\n                lprobs_g = lprobs_g.contiguous()\n\n            scores_buf, indices_buf, beams_buf = self.beam.step(\n                step, lprobs_g, scores_g, candidate_multiple=self.candidate_multiple\n            )\n            beams_buf.mul_(self.num_groups).add_(g)\n\n            scores_G.append(scores_buf.clone())\n            beams_G.append(beams_buf.clone())\n\n            indices_G_stacked[:, :, g] = indices_buf\n\n        # interleave results from different groups\n        scores_buf = torch.stack(scores_G, dim=2).view(bsz, -1)\n        indices_buf = indices_G_stacked.view(bsz, -1)\n        beams_buf = torch.stack(beams_G, dim=2).view(bsz, -1)\n        # find num of overlapped tokens for each group pair\n        # then discount it for next timestamp\n        overlap = self.diversity_discount * torch.sum(\n            indices_G_stacked.unsqueeze(2).eq(indices_G_stacked.unsqueeze(3)), dim=1\n        )\n        if step == 0:\n            self.group_overlap = overlap\n        else:\n            self.group_overlap[original_batch_idxs] = (\n                self.group_overlap[original_batch_idxs] * self.diversity_discount\n                + overlap\n            )\n\n        return scores_buf, indices_buf, beams_buf\n\n\nclass Sampling(Search):\n    sampling_topk: int\n    sampling_topp: float\n\n    def __init__(self, tgt_dict, sampling_topk=-1, sampling_topp=-1.0):\n        super().__init__(tgt_dict)\n        self.sampling_topk = sampling_topk\n        self.sampling_topp = sampling_topp\n\n    def _sample_topp(self, lprobs):\n        \"\"\"Sample among the smallest set of elements whose cumulative probability mass exceeds p.\n\n        See `\"The Curious Case of Neural Text Degeneration\"\n        (Holtzman et al., 2019) <https://arxiv.org/abs/1904.09751>`_.\n\n        Args:\n            lprobs: (bsz x input_beam_size x vocab_size)\n                the model's log-probabilities over the vocabulary at the current step\n\n        Return: A tuple of (trimed_probs, truncated_indices) where:\n            trimed_probs: (bsz x input_beam_size x ?)\n                the model's probabilities over the elements selected to sample from. The\n                width of the third dimension is determined by top-P.\n            truncated_indices: (bsz x input_beam_size x ?)\n                the indices of the chosen elements.\n        \"\"\"\n        probs = lprobs.exp_()\n\n        # sort the last dimension (vocab dimension) in descending order\n        sorted_probs, sorted_indices = probs.sort(descending=True)\n\n        # compute a mask to indicate the words to be included in the top-P set.\n        cumsum_probs = sorted_probs.cumsum(dim=2)\n        mask = cumsum_probs.lt(self.sampling_topp)\n\n        # note that mask was computed by 'lt'. One more word needs to be included\n        # so that the cumulative probability mass can exceed p.\n        cumsum_mask = mask.cumsum(dim=2)\n        last_included = cumsum_mask[:, :, -1:]\n        last_included.clamp_(0, mask.size()[2] - 1)\n        mask = mask.scatter_(2, last_included, 1)\n\n        # truncate unnecessary dims.\n        max_dim = last_included.max()\n        truncated_mask = mask[:, :, : max_dim + 1]\n        truncated_probs = sorted_probs[:, :, : max_dim + 1]\n        truncated_indices = sorted_indices[:, :, : max_dim + 1]\n\n        # trim the words that are not in top-P by setting their probabilities\n        # to 0, so that they would not be sampled later.\n        trim_mask = ~truncated_mask\n        trimed_probs = truncated_probs.masked_fill_(trim_mask, 0)\n        return trimed_probs, truncated_indices\n\n    @torch.jit.export\n    def step(\n        self,\n        step: int,\n        lprobs,\n        scores,\n        prev_output_tokens: Optional[Tensor] = None,\n        original_batch_idxs: Optional[Tensor] = None,\n    ):\n        bsz, beam_size, vocab_size = lprobs.size()\n\n        if step == 0:\n            # at the first step all hypotheses are equally likely, so use\n            # only the first beam\n            lprobs = lprobs[:, ::beam_size, :].contiguous()\n\n        if self.sampling_topp > 0:\n            # only sample from the smallest set of words whose cumulative probability mass exceeds p\n            probs, top_indices = self._sample_topp(lprobs)\n        elif self.sampling_topk > 0:\n            # only sample from top-k candidates\n            lprobs, top_indices = lprobs.topk(self.sampling_topk)\n            probs = lprobs.exp_()\n        else:\n            probs = lprobs.exp_()\n\n            # dummy data to be consistent with true branch for type check\n            top_indices = torch.empty(0).to(probs)\n        # sample\n        if step == 0:\n            indices_buf = torch.multinomial(\n                probs.view(bsz, -1),\n                beam_size,\n                replacement=True,\n            ).view(bsz, beam_size)\n        else:\n            indices_buf = torch.multinomial(\n                probs.view(bsz * beam_size, -1),\n                1,\n                replacement=True,\n            ).view(bsz, beam_size)\n\n        if step == 0:\n            # expand to beam size\n            probs = probs.expand(bsz, beam_size, -1)\n\n        # gather scores\n        scores_buf = torch.gather(probs, dim=2, index=indices_buf.unsqueeze(-1))\n        scores_buf = scores_buf.log_().view(bsz, -1)\n\n        # remap indices if using top-k or top-P sampling\n        if self.sampling_topk > 0 or self.sampling_topp > 0:\n            indices_buf = torch.gather(\n                top_indices.expand(bsz, beam_size, -1),\n                dim=2,\n                index=indices_buf.unsqueeze(-1),\n            ).squeeze(2)\n\n        if step == 0:\n            beams_buf = indices_buf.new_zeros(bsz, beam_size)\n        else:\n            beams_buf = torch.arange(0, beam_size).to(indices_buf).repeat(bsz, 1)\n            # make scores cumulative\n            scores_buf.add_(\n                torch.gather(scores[:, :, step - 1], dim=1, index=beams_buf)\n            )\n\n        return scores_buf, indices_buf, beams_buf\n\n\nclass DiverseSiblingsSearch(Search):\n    \"\"\"\n    Beam search with diverse siblings.\n\n    See \"A Simple, Fast Diverse Decoding Algorithm for Neural Generation\" for details.\n    https://arxiv.org/abs/1611.08562\n\n    1/ Calculate hypotheses for each beam\n    2/ Intra-sibling ordering\n    3/ Rewrite scores\n    4/ Choose top K hypotheses\n\n    if diversity_rate == 0 is equivalent to BeamSearch\n    \"\"\"\n\n    def __init__(self, tgt_dict, diversity_rate):\n        super().__init__(tgt_dict)\n        self.diversity_rate = diversity_rate\n        self.beam = BeamSearch(tgt_dict)\n\n    def step(\n        self,\n        step: int,\n        lprobs,\n        scores,\n        prev_output_tokens: Optional[Tensor] = None,\n        original_batch_idxs: Optional[Tensor] = None,\n    ):\n        bsz, beam_size, vocab_size = lprobs.size()\n        k = min(\n            # Take the best 2 x beam_size predictions. We'll choose the first\n            # beam_size of these which don't predict eos to continue with.\n            beam_size * 2,\n            lprobs.view(bsz, -1).size(1) - 1,  # -1 so we never select pad\n        )\n        s_list: List[Tensor]\n        i_list: List[Tensor]\n        s_list = [torch.empty(0).to(lprobs) for i in range(beam_size)]\n        i_list = [torch.LongTensor().to(device=lprobs.device) for i in range(beam_size)]\n        sibling_score = torch.arange(1, k + 1).to(lprobs) * self.diversity_rate\n\n        if step == 0:\n            return self.beam.step(step, lprobs, scores)\n        lprobs.add_(scores[:, :, step - 1].unsqueeze(-1))\n\n        # 1/ Calculate hypotheses for each beam\n        for i in range(beam_size):\n            torch.topk(lprobs[:, i, :].view(bsz, -1), k, out=(s_list[i], i_list[i]))\n            i_list[i].fmod_(vocab_size)\n\n            # 2/ Intra-sibling ordering by default from topk + 3/ Rewrite scores\n            s_list[i].sub_(sibling_score)\n\n        # 4/ Choose top K hypotheses\n        indices = torch.stack(i_list, dim=1).view(bsz, -1)\n\n        final_scores = torch.empty(0).to(lprobs)\n        final_indices = torch.LongTensor().to(device=lprobs.device)\n        final_beams = torch.LongTensor().to(device=lprobs.device)\n        (final_scores, final_indices) = torch.topk(\n            torch.stack(s_list, dim=1).view(bsz, -1),\n            k,\n        )\n\n        final_beams = final_indices // k\n\n        for i in range(bsz):\n            final_indices[i] = indices[i][final_indices[i]]\n\n        return final_scores, final_indices, final_beams\n"
  },
  {
    "path": "fairseq/sequence_generator.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport math\nimport sys\nfrom typing import Dict, List, Optional\n\nimport torch\nimport torch.nn as nn\nfrom torch import Tensor\n\nfrom fairseq import search, utils\nfrom fairseq.data import data_utils\nfrom fairseq.models import FairseqIncrementalDecoder\nfrom fairseq.ngram_repeat_block import NGramRepeatBlock\n\n\nclass SequenceGenerator(nn.Module):\n    def __init__(\n        self,\n        models,\n        tgt_dict,\n        beam_size=1,\n        max_len_a=0,\n        max_len_b=200,\n        max_len=0,\n        min_len=1,\n        normalize_scores=True,\n        len_penalty=1.0,\n        unk_penalty=0.0,\n        temperature=1.0,\n        match_source_len=False,\n        no_repeat_ngram_size=0,\n        search_strategy=None,\n        eos=None,\n        symbols_to_strip_from_output=None,\n        lm_model=None,\n        lm_weight=1.0,\n        tokens_to_suppress=(),\n    ):\n        \"\"\"Generates translations of a given source sentence.\n\n        Args:\n            models (List[~fairseq.models.FairseqModel]): ensemble of models,\n                currently support fairseq.models.TransformerModel for scripting\n            beam_size (int, optional): beam width (default: 1)\n            max_len_a/b (int, optional): generate sequences of maximum length\n                ax + b, where x is the source length\n            max_len (int, optional): the maximum length of the generated output\n                (not including end-of-sentence)\n            min_len (int, optional): the minimum length of the generated output\n                (not including end-of-sentence)\n            normalize_scores (bool, optional): normalize scores by the length\n                of the output (default: True)\n            len_penalty (float, optional): length penalty, where <1.0 favors\n                shorter, >1.0 favors longer sentences (default: 1.0)\n            unk_penalty (float, optional): unknown word penalty, where <0\n                produces more unks, >0 produces fewer (default: 0.0)\n            temperature (float, optional): temperature, where values\n                >1.0 produce more uniform samples and values <1.0 produce\n                sharper samples (default: 1.0)\n            match_source_len (bool, optional): outputs should match the source\n                length (default: False)\n        \"\"\"\n        super().__init__()\n        if isinstance(models, EnsembleModel):\n            self.model = models\n        else:\n            self.model = EnsembleModel(models)\n        self.tgt_dict = tgt_dict\n        self.pad = tgt_dict.pad()\n        self.unk = tgt_dict.unk()\n        self.eos = tgt_dict.eos() if eos is None else eos\n        self.symbols_to_strip_from_output = (\n            symbols_to_strip_from_output.union({self.eos})\n            if symbols_to_strip_from_output is not None\n            else {self.eos}\n        )\n\n        self.token_indices_to_suppress: Optional[Tensor] = None\n        token_indices_to_suppress = []\n        for token_string in tokens_to_suppress:\n            token_index = tgt_dict.index(token_string)\n            assert token_index != self.unk\n            token_indices_to_suppress.append(token_index)\n        if len(token_indices_to_suppress) > 0:\n            self.token_indices_to_suppress = torch.Tensor(\n                token_indices_to_suppress\n            ).long()\n\n        self.vocab_size = len(tgt_dict)\n        self.beam_size = beam_size\n        # the max beam size is the dictionary size - 1, since we never select pad\n        self.beam_size = min(beam_size, self.vocab_size - 1)\n        self.model.set_decoder_beam_size(self.beam_size)\n        self.max_len_a = max_len_a\n        self.max_len_b = max_len_b\n        self.min_len = min_len\n        self.max_len = max_len or self.model.max_decoder_positions()\n\n        self.normalize_scores = normalize_scores\n        self.len_penalty = len_penalty\n        self.unk_penalty = unk_penalty\n        self.temperature = temperature\n        self.match_source_len = match_source_len\n\n        if no_repeat_ngram_size > 0:\n            self.repeat_ngram_blocker = NGramRepeatBlock(no_repeat_ngram_size)\n        else:\n            self.repeat_ngram_blocker = None\n\n        assert temperature > 0, \"--temperature must be greater than 0\"\n\n        self.search = (\n            search.BeamSearch(tgt_dict) if search_strategy is None else search_strategy\n        )\n        # We only need to set src_lengths in LengthConstrainedBeamSearch.\n        # As a module attribute, setting it would break in multithread\n        # settings when the model is shared.\n        self.should_set_src_lengths = (\n            hasattr(self.search, \"needs_src_lengths\") and self.search.needs_src_lengths\n        )\n\n        self.model.eval()\n\n        self.lm_model = lm_model\n        self.lm_weight = lm_weight\n        if self.lm_model is not None:\n            self.lm_model.eval()\n\n    def cuda(self):\n        self.model.cuda()\n        return self\n\n    @torch.no_grad()\n    def forward(\n        self,\n        sample: Dict[str, Dict[str, Tensor]],\n        prefix_tokens: Optional[Tensor] = None,\n        bos_token: Optional[int] = None,\n    ):\n        \"\"\"Generate a batch of translations.\n\n        Args:\n            sample (dict): batch\n            prefix_tokens (torch.LongTensor, optional): force decoder to begin\n                with these tokens\n            bos_token (int, optional): beginning of sentence token\n                (default: self.eos)\n        \"\"\"\n        return self._generate(sample, prefix_tokens, bos_token=bos_token)\n\n    # TODO(myleott): unused, deprecate after pytorch-translate migration\n    def generate_batched_itr(self, data_itr, beam_size=None, cuda=False, timer=None):\n        \"\"\"Iterate over a batched dataset and yield individual translations.\n        Args:\n            cuda (bool, optional): use GPU for generation\n            timer (StopwatchMeter, optional): time generations\n        \"\"\"\n        for sample in data_itr:\n            s = utils.move_to_cuda(sample) if cuda else sample\n            if \"net_input\" not in s:\n                continue\n            input = s[\"net_input\"]\n            # model.forward normally channels prev_output_tokens into the decoder\n            # separately, but SequenceGenerator directly calls model.encoder\n            encoder_input = {\n                k: v for k, v in input.items() if k != \"prev_output_tokens\"\n            }\n            if timer is not None:\n                timer.start()\n            with torch.no_grad():\n                hypos = self.generate(encoder_input)\n            if timer is not None:\n                timer.stop(sum(len(h[0][\"tokens\"]) for h in hypos))\n            for i, id in enumerate(s[\"id\"].data):\n                # remove padding\n                src = utils.strip_pad(input[\"src_tokens\"].data[i, :], self.pad)\n                ref = (\n                    utils.strip_pad(s[\"target\"].data[i, :], self.pad)\n                    if s[\"target\"] is not None\n                    else None\n                )\n                yield id, src, ref, hypos[i]\n\n    @torch.no_grad()\n    def generate(\n        self, models, sample: Dict[str, Dict[str, Tensor]], **kwargs\n    ) -> List[List[Dict[str, Tensor]]]:\n        \"\"\"Generate translations. Match the api of other fairseq generators.\n\n        Args:\n            models (List[~fairseq.models.FairseqModel]): ensemble of models\n            sample (dict): batch\n            prefix_tokens (torch.LongTensor, optional): force decoder to begin\n                with these tokens\n            constraints (torch.LongTensor, optional): force decoder to include\n                the list of constraints\n            bos_token (int, optional): beginning of sentence token\n                (default: self.eos)\n        \"\"\"\n        return self._generate(sample, **kwargs)\n\n    def _generate(\n        self,\n        sample: Dict[str, Dict[str, Tensor]],\n        prefix_tokens: Optional[Tensor] = None,\n        constraints: Optional[Tensor] = None,\n        bos_token: Optional[int] = None,\n    ):\n        incremental_states = torch.jit.annotate(\n            List[Dict[str, Dict[str, Optional[Tensor]]]],\n            [\n                torch.jit.annotate(Dict[str, Dict[str, Optional[Tensor]]], {})\n                for i in range(self.model.models_size)\n            ],\n        )\n        net_input = sample[\"net_input\"]\n\n        if \"src_tokens\" in net_input:\n            src_tokens = net_input[\"src_tokens\"]\n            # length of the source text being the character length except EndOfSentence and pad\n            # if src_lengths exists in net_input (speech_to_text dataset case), then use it\n            if \"src_lengths\" in net_input:\n                src_lengths = net_input[\"src_lengths\"]\n            else:\n                src_lengths = (\n                    (src_tokens.ne(self.eos) & src_tokens.ne(self.pad))\n                    .long()\n                    .sum(dim=1)\n                )\n        elif \"source\" in net_input:\n            src_tokens = net_input[\"source\"]\n            src_lengths = (\n                net_input[\"padding_mask\"].size(-1) - net_input[\"padding_mask\"].sum(-1)\n                if net_input[\"padding_mask\"] is not None\n                else torch.tensor(src_tokens.size(-1)).to(src_tokens)\n            )\n        elif \"features\" in net_input:\n            src_tokens = net_input[\"features\"]\n            src_lengths = (\n                net_input[\"padding_mask\"].size(-1) - net_input[\"padding_mask\"].sum(-1)\n                if net_input[\"padding_mask\"] is not None\n                else torch.tensor(src_tokens.size(-1)).to(src_tokens)\n            )\n        else:\n            raise Exception(\n                \"expected src_tokens or source in net input. input keys: \"\n                + str(net_input.keys())\n            )\n\n        # bsz: total number of sentences in beam\n        # Note that src_tokens may have more than 2 dimensions (i.e. audio features)\n        bsz, src_len = src_tokens.size()[:2]\n        beam_size = self.beam_size\n\n        if constraints is not None and not self.search.supports_constraints:\n            raise NotImplementedError(\n                \"Target-side constraints were provided, but search method doesn't support them\"\n            )\n\n        # Initialize constraints, when active\n        self.search.init_constraints(constraints, beam_size)\n\n        max_len: int = -1\n        if self.match_source_len:\n            max_len = src_lengths.max().item()\n        else:\n            max_len = min(\n                int(self.max_len_a * src_len + self.max_len_b),\n                self.max_len - 1,\n            )\n        assert (\n            self.min_len <= max_len\n        ), \"min_len cannot be larger than max_len, please adjust these!\"\n        # compute the encoder output for each beam\n        with torch.autograd.profiler.record_function(\"EnsembleModel: forward_encoder\"):\n            encoder_outs = self.model.forward_encoder(net_input)\n\n        # placeholder of indices for bsz * beam_size to hold tokens and accumulative scores\n        new_order = torch.arange(bsz).view(-1, 1).repeat(1, beam_size).view(-1)\n        new_order = new_order.to(src_tokens.device).long()\n        encoder_outs = self.model.reorder_encoder_out(encoder_outs, new_order)\n        # ensure encoder_outs is a List.\n        assert encoder_outs is not None\n\n        # initialize buffers\n        scores = (\n            torch.zeros(bsz * beam_size, max_len + 1).to(src_tokens).float()\n        )  # +1 for eos; pad is never chosen for scoring\n        tokens = (\n            torch.zeros(bsz * beam_size, max_len + 2)\n            .to(src_tokens)\n            .long()\n            .fill_(self.pad)\n        )  # +2 for eos and pad\n        tokens[:, 0] = self.eos if bos_token is None else bos_token\n        attn: Optional[Tensor] = None\n\n        # A list that indicates candidates that should be ignored.\n        # For example, suppose we're sampling and have already finalized 2/5\n        # samples. Then cands_to_ignore would mark 2 positions as being ignored,\n        # so that we only finalize the remaining 3 samples.\n        cands_to_ignore = (\n            torch.zeros(bsz, beam_size).to(src_tokens).eq(-1)\n        )  # forward and backward-compatible False mask\n\n        # list of completed sentences\n        finalized = torch.jit.annotate(\n            List[List[Dict[str, Tensor]]],\n            [torch.jit.annotate(List[Dict[str, Tensor]], []) for i in range(bsz)],\n        )  # contains lists of dictionaries of infomation about the hypothesis being finalized at each step\n\n        # a boolean array indicating if the sentence at the index is finished or not\n        finished = [False for i in range(bsz)]\n        num_remaining_sent = bsz  # number of sentences remaining\n\n        # number of candidate hypos per step\n        cand_size = 2 * beam_size  # 2 x beam size in case half are EOS\n\n        # offset arrays for converting between different indexing schemes\n        bbsz_offsets = (\n            (torch.arange(0, bsz) * beam_size)\n            .unsqueeze(1)\n            .type_as(tokens)\n            .to(src_tokens.device)\n        )\n        cand_offsets = torch.arange(0, cand_size).type_as(tokens).to(src_tokens.device)\n\n        reorder_state: Optional[Tensor] = None\n        batch_idxs: Optional[Tensor] = None\n\n        original_batch_idxs: Optional[Tensor] = None\n        if \"id\" in sample and isinstance(sample[\"id\"], Tensor):\n            original_batch_idxs = sample[\"id\"]\n        else:\n            original_batch_idxs = torch.arange(0, bsz).type_as(tokens)\n\n        for step in range(max_len + 1):  # one extra step for EOS marker\n            # reorder decoder internal states based on the prev choice of beams\n            if reorder_state is not None:\n                if batch_idxs is not None:\n                    # update beam indices to take into account removed sentences\n                    corr = batch_idxs - torch.arange(batch_idxs.numel()).type_as(\n                        batch_idxs\n                    )\n                    reorder_state.view(-1, beam_size).add_(\n                        corr.unsqueeze(-1) * beam_size\n                    )\n                    original_batch_idxs = original_batch_idxs[batch_idxs]\n                self.model.reorder_incremental_state(incremental_states, reorder_state)\n                encoder_outs = self.model.reorder_encoder_out(\n                    encoder_outs, reorder_state\n                )\n            with torch.autograd.profiler.record_function(\n                \"EnsembleModel: forward_decoder\"\n            ):\n                lprobs, avg_attn_scores = self.model.forward_decoder(\n                    tokens[:, : step + 1],\n                    encoder_outs,\n                    incremental_states,\n                    self.temperature,\n                )\n\n            if self.lm_model is not None:\n                lm_out = self.lm_model(tokens[:, : step + 1])\n                probs = self.lm_model.get_normalized_probs(\n                    lm_out, log_probs=True, sample=None\n                )\n                probs = probs[:, -1, :] * self.lm_weight\n                lprobs += probs\n\n            lprobs[lprobs != lprobs] = torch.tensor(-math.inf).to(lprobs)\n\n            lprobs[:, self.pad] = -math.inf  # never select pad\n            lprobs[:, self.unk] -= self.unk_penalty  # apply unk penalty\n\n            # handle max length constraint\n            if step >= max_len:\n                lprobs[:, : self.eos] = -math.inf\n                lprobs[:, self.eos + 1 :] = -math.inf\n\n            # handle prefix tokens (possibly with different lengths)\n            if (\n                prefix_tokens is not None\n                and step < prefix_tokens.size(1)\n                and step < max_len\n            ):\n                lprobs, tokens, scores = self._prefix_tokens(\n                    step, lprobs, scores, tokens, prefix_tokens, beam_size\n                )\n            else:\n                if step < self.min_len:\n                    # minimum length constraint (does not apply if using prefix_tokens)\n                    lprobs[:, self.eos] = -math.inf\n\n                if self.token_indices_to_suppress is not None:\n                    lprobs[:, self.token_indices_to_suppress] = -math.inf\n\n            # Record attention scores, only support avg_attn_scores is a Tensor\n            if avg_attn_scores is not None:\n                if attn is None:\n                    attn = torch.empty(\n                        bsz * beam_size, avg_attn_scores.size(1), max_len + 2\n                    ).to(scores)\n                attn[:, :, step + 1].copy_(avg_attn_scores)\n\n            scores = scores.type_as(lprobs)\n            eos_bbsz_idx = torch.empty(0).to(\n                tokens\n            )  # indices of hypothesis ending with eos (finished sentences)\n            eos_scores = torch.empty(0).to(\n                scores\n            )  # scores of hypothesis ending with eos (finished sentences)\n\n            if self.should_set_src_lengths:\n                self.search.set_src_lengths(src_lengths)\n\n            if self.repeat_ngram_blocker is not None:\n                lprobs = self.repeat_ngram_blocker(tokens, lprobs, bsz, beam_size, step)\n\n            # Shape: (batch, cand_size)\n            cand_scores, cand_indices, cand_beams = self.search.step(\n                step,\n                lprobs.view(bsz, -1, self.vocab_size),\n                scores.view(bsz, beam_size, -1)[:, :, :step],\n                tokens[:, : step + 1],\n                original_batch_idxs,\n            )\n\n            # cand_bbsz_idx contains beam indices for the top candidate\n            # hypotheses, with a range of values: [0, bsz*beam_size),\n            # and dimensions: [bsz, cand_size]\n            cand_bbsz_idx = cand_beams.add(bbsz_offsets)\n\n            # finalize hypotheses that end in eos\n            # Shape of eos_mask: (batch size, beam size)\n            eos_mask = cand_indices.eq(self.eos) & cand_scores.ne(-math.inf)\n            eos_mask[:, :beam_size][cands_to_ignore] = torch.tensor(0).to(eos_mask)\n\n            # only consider eos when it's among the top beam_size indices\n            # Now we know what beam item(s) to finish\n            # Shape: 1d list of absolute-numbered\n            eos_bbsz_idx = torch.masked_select(\n                cand_bbsz_idx[:, :beam_size], mask=eos_mask[:, :beam_size]\n            )\n\n            finalized_sents: List[int] = []\n            if eos_bbsz_idx.numel() > 0:\n                eos_scores = torch.masked_select(\n                    cand_scores[:, :beam_size], mask=eos_mask[:, :beam_size]\n                )\n\n                finalized_sents = self.finalize_hypos(\n                    step,\n                    eos_bbsz_idx,\n                    eos_scores,\n                    tokens,\n                    scores,\n                    finalized,\n                    finished,\n                    beam_size,\n                    attn,\n                    src_lengths,\n                    max_len,\n                )\n                num_remaining_sent -= len(finalized_sents)\n\n            assert num_remaining_sent >= 0\n            if num_remaining_sent == 0:\n                break\n            if self.search.stop_on_max_len and step >= max_len:\n                break\n            assert step < max_len, f\"{step} < {max_len}\"\n\n            # Remove finalized sentences (ones for which {beam_size}\n            # finished hypotheses have been generated) from the batch.\n            if len(finalized_sents) > 0:\n                new_bsz = bsz - len(finalized_sents)\n\n                # construct batch_idxs which holds indices of batches to keep for the next pass\n                batch_mask = torch.ones(\n                    bsz, dtype=torch.bool, device=cand_indices.device\n                )\n                batch_mask[finalized_sents] = False\n                # TODO replace `nonzero(as_tuple=False)` after TorchScript supports it\n                batch_idxs = torch.arange(\n                    bsz, device=cand_indices.device\n                ).masked_select(batch_mask)\n\n                # Choose the subset of the hypothesized constraints that will continue\n                self.search.prune_sentences(batch_idxs)\n\n                eos_mask = eos_mask[batch_idxs]\n                cand_beams = cand_beams[batch_idxs]\n                bbsz_offsets.resize_(new_bsz, 1)\n                cand_bbsz_idx = cand_beams.add(bbsz_offsets)\n                cand_scores = cand_scores[batch_idxs]\n                cand_indices = cand_indices[batch_idxs]\n\n                if prefix_tokens is not None:\n                    prefix_tokens = prefix_tokens[batch_idxs]\n                src_lengths = src_lengths[batch_idxs]\n                cands_to_ignore = cands_to_ignore[batch_idxs]\n\n                scores = scores.view(bsz, -1)[batch_idxs].view(new_bsz * beam_size, -1)\n                tokens = tokens.view(bsz, -1)[batch_idxs].view(new_bsz * beam_size, -1)\n                if attn is not None:\n                    attn = attn.view(bsz, -1)[batch_idxs].view(\n                        new_bsz * beam_size, attn.size(1), -1\n                    )\n                bsz = new_bsz\n            else:\n                batch_idxs = None\n\n            # Set active_mask so that values > cand_size indicate eos hypos\n            # and values < cand_size indicate candidate active hypos.\n            # After, the min values per row are the top candidate active hypos\n\n            # Rewrite the operator since the element wise or is not supported in torchscript.\n\n            eos_mask[:, :beam_size] = ~((~cands_to_ignore) & (~eos_mask[:, :beam_size]))\n            active_mask = torch.add(\n                eos_mask.type_as(cand_offsets) * cand_size,\n                cand_offsets[: eos_mask.size(1)],\n            )\n\n            # get the top beam_size active hypotheses, which are just\n            # the hypos with the smallest values in active_mask.\n            # {active_hypos} indicates which {beam_size} hypotheses\n            # from the list of {2 * beam_size} candidates were\n            # selected. Shapes: (batch size, beam size)\n            new_cands_to_ignore, active_hypos = torch.topk(\n                active_mask, k=beam_size, dim=1, largest=False\n            )\n\n            # update cands_to_ignore to ignore any finalized hypos.\n            cands_to_ignore = new_cands_to_ignore.ge(cand_size)[:, :beam_size]\n            # Make sure there is at least one active item for each sentence in the batch.\n            assert (~cands_to_ignore).any(dim=1).all()\n\n            # update cands_to_ignore to ignore any finalized hypos\n\n            # {active_bbsz_idx} denotes which beam number is continued for each new hypothesis (a beam\n            # can be selected more than once).\n            active_bbsz_idx = torch.gather(cand_bbsz_idx, dim=1, index=active_hypos)\n            active_scores = torch.gather(cand_scores, dim=1, index=active_hypos)\n\n            active_bbsz_idx = active_bbsz_idx.view(-1)\n            active_scores = active_scores.view(-1)\n\n            # copy tokens and scores for active hypotheses\n\n            # Set the tokens for each beam (can select the same row more than once)\n            tokens[:, : step + 1] = torch.index_select(\n                tokens[:, : step + 1], dim=0, index=active_bbsz_idx\n            )\n            # Select the next token for each of them\n            tokens.view(bsz, beam_size, -1)[:, :, step + 1] = torch.gather(\n                cand_indices, dim=1, index=active_hypos\n            )\n            if step > 0:\n                scores[:, :step] = torch.index_select(\n                    scores[:, :step], dim=0, index=active_bbsz_idx\n                )\n            scores.view(bsz, beam_size, -1)[:, :, step] = torch.gather(\n                cand_scores, dim=1, index=active_hypos\n            )\n\n            # Update constraints based on which candidates were selected for the next beam\n            self.search.update_constraints(active_hypos)\n\n            # copy attention for active hypotheses\n            if attn is not None:\n                attn[:, :, : step + 2] = torch.index_select(\n                    attn[:, :, : step + 2], dim=0, index=active_bbsz_idx\n                )\n\n            # reorder incremental state in decoder\n            reorder_state = active_bbsz_idx\n\n        # sort by score descending\n        for sent in range(len(finalized)):\n            scores = torch.tensor(\n                [float(elem[\"score\"].item()) for elem in finalized[sent]]\n            )\n            _, sorted_scores_indices = torch.sort(scores, descending=True)\n            finalized[sent] = [finalized[sent][ssi] for ssi in sorted_scores_indices]\n            finalized[sent] = torch.jit.annotate(\n                List[Dict[str, Tensor]], finalized[sent]\n            )\n        return finalized\n\n    def _prefix_tokens(\n        self, step: int, lprobs, scores, tokens, prefix_tokens, beam_size: int\n    ):\n        \"\"\"Handle prefix tokens\"\"\"\n        prefix_toks = prefix_tokens[:, step].unsqueeze(-1).repeat(1, beam_size).view(-1)\n        prefix_lprobs = lprobs.gather(-1, prefix_toks.unsqueeze(-1))\n        prefix_mask = prefix_toks.ne(self.pad)\n        lprobs[prefix_mask] = torch.tensor(-math.inf).to(lprobs)\n        lprobs[prefix_mask] = lprobs[prefix_mask].scatter(\n            -1, prefix_toks[prefix_mask].unsqueeze(-1), prefix_lprobs[prefix_mask]\n        )\n        # if prefix includes eos, then we should make sure tokens and\n        # scores are the same across all beams\n        eos_mask = prefix_toks.eq(self.eos)\n        if eos_mask.any():\n            # validate that the first beam matches the prefix\n            first_beam = tokens[eos_mask].view(-1, beam_size, tokens.size(-1))[\n                :, 0, 1 : step + 1\n            ]\n            eos_mask_batch_dim = eos_mask.view(-1, beam_size)[:, 0]\n            target_prefix = prefix_tokens[eos_mask_batch_dim][:, :step]\n            assert (first_beam == target_prefix).all()\n\n            # copy tokens, scores and lprobs from the first beam to all beams\n            tokens = self.replicate_first_beam(tokens, eos_mask_batch_dim, beam_size)\n            scores = self.replicate_first_beam(scores, eos_mask_batch_dim, beam_size)\n            lprobs = self.replicate_first_beam(lprobs, eos_mask_batch_dim, beam_size)\n        return lprobs, tokens, scores\n\n    def replicate_first_beam(self, tensor, mask, beam_size: int):\n        tensor = tensor.view(-1, beam_size, tensor.size(-1))\n        tensor[mask] = tensor[mask][:, :1, :]\n        return tensor.view(-1, tensor.size(-1))\n\n    def finalize_hypos(\n        self,\n        step: int,\n        bbsz_idx,\n        eos_scores,\n        tokens,\n        scores,\n        finalized: List[List[Dict[str, Tensor]]],\n        finished: List[bool],\n        beam_size: int,\n        attn: Optional[Tensor],\n        src_lengths,\n        max_len: int,\n    ):\n        \"\"\"Finalize hypothesis, store finalized information in `finalized`, and change `finished` accordingly.\n        A sentence is finalized when {beam_size} finished items have been collected for it.\n\n        Returns number of sentences (not beam items) being finalized.\n        These will be removed from the batch and not processed further.\n        Args:\n            bbsz_idx (Tensor):\n        \"\"\"\n        assert bbsz_idx.numel() == eos_scores.numel()\n\n        # clone relevant token and attention tensors.\n        # tokens is (batch * beam, max_len). So the index_select\n        # gets the newly EOS rows, then selects cols 1..{step + 2}\n        tokens_clone = tokens.index_select(0, bbsz_idx)[\n            :, 1 : step + 2\n        ]  # skip the first index, which is EOS\n\n        tokens_clone[:, step] = self.eos\n        attn_clone = (\n            attn.index_select(0, bbsz_idx)[:, :, 1 : step + 2]\n            if attn is not None\n            else None\n        )\n\n        # compute scores per token position\n        pos_scores = scores.index_select(0, bbsz_idx)[:, : step + 1]\n        pos_scores[:, step] = eos_scores\n        # convert from cumulative to per-position scores\n        pos_scores[:, 1:] = pos_scores[:, 1:] - pos_scores[:, :-1]\n\n        # normalize sentence-level scores\n        if self.normalize_scores:\n            eos_scores /= (step + 1) ** self.len_penalty\n\n        # cum_unfin records which sentences in the batch are finished.\n        # It helps match indexing between (a) the original sentences\n        # in the batch and (b) the current, possibly-reduced set of\n        # sentences.\n        cum_unfin: List[int] = []\n        prev = 0\n        for f in finished:\n            if f:\n                prev += 1\n            else:\n                cum_unfin.append(prev)\n        cum_fin_tensor = torch.tensor(cum_unfin, dtype=torch.int).to(bbsz_idx)\n\n        unfin_idx = torch.div(bbsz_idx, beam_size, rounding_mode=\"trunc\")\n        sent = unfin_idx + torch.index_select(cum_fin_tensor, 0, unfin_idx)\n\n        # Create a set of \"{sent}{unfin_idx}\", where\n        # \"unfin_idx\" is the index in the current (possibly reduced)\n        # list of sentences, and \"sent\" is the index in the original,\n        # unreduced batch\n        # For every finished beam item\n        # sentence index in the current (possibly reduced) batch\n        seen = (sent << 32) + unfin_idx\n        unique_seen: List[int] = torch.unique(seen).tolist()\n\n        if self.match_source_len:\n            condition = step > torch.index_select(src_lengths, 0, unfin_idx)\n            eos_scores = torch.where(condition, torch.tensor(-math.inf), eos_scores)\n        sent_list: List[int] = sent.tolist()\n        for i in range(bbsz_idx.size()[0]):\n            # An input sentence (among those in a batch) is finished when\n            # beam_size hypotheses have been collected for it\n            if len(finalized[sent_list[i]]) < beam_size:\n                if attn_clone is not None:\n                    # remove padding tokens from attn scores\n                    hypo_attn = attn_clone[i]\n                else:\n                    hypo_attn = torch.empty(0)\n\n                finalized[sent_list[i]].append(\n                    {\n                        \"tokens\": tokens_clone[i],\n                        \"score\": eos_scores[i],\n                        \"attention\": hypo_attn,  # src_len x tgt_len\n                        \"alignment\": torch.empty(0),\n                        \"positional_scores\": pos_scores[i],\n                    }\n                )\n\n        newly_finished: List[int] = []\n        for unique_s in unique_seen:\n            # check termination conditions for this sentence\n            unique_sent: int = unique_s >> 32\n            unique_unfin_idx: int = unique_s - (unique_sent << 32)\n\n            if not finished[unique_sent] and self.is_finished(\n                step, unique_unfin_idx, max_len, len(finalized[unique_sent]), beam_size\n            ):\n                finished[unique_sent] = True\n                newly_finished.append(unique_unfin_idx)\n\n        return newly_finished\n\n    def is_finished(\n        self,\n        step: int,\n        unfin_idx: int,\n        max_len: int,\n        finalized_sent_len: int,\n        beam_size: int,\n    ):\n        \"\"\"\n        Check whether decoding for a sentence is finished, which\n        occurs when the list of finalized sentences has reached the\n        beam size, or when we reach the maximum length.\n        \"\"\"\n        assert finalized_sent_len <= beam_size\n        if finalized_sent_len == beam_size or step == max_len:\n            return True\n        return False\n\n\nclass EnsembleModel(nn.Module):\n    \"\"\"A wrapper around an ensemble of models.\"\"\"\n\n    def __init__(self, models):\n        super().__init__()\n        self.models_size = len(models)\n        # method '__len__' is not supported in ModuleList for torch script\n        self.single_model = models[0]\n        self.models = nn.ModuleList(models)\n\n        self.has_incremental: bool = False\n        if all(\n            hasattr(m, \"decoder\") and isinstance(m.decoder, FairseqIncrementalDecoder)\n            for m in models\n        ):\n            self.has_incremental = True\n\n    def forward(self):\n        pass\n\n    def has_encoder(self):\n        return hasattr(self.single_model, \"encoder\")\n\n    def has_incremental_states(self):\n        return self.has_incremental\n\n    def max_decoder_positions(self):\n        return min(\n            [\n                m.max_decoder_positions()\n                for m in self.models\n                if hasattr(m, \"max_decoder_positions\")\n            ]\n            + [sys.maxsize]\n        )\n\n    def set_decoder_beam_size(self, beam_size):\n        \"\"\"Set beam size for efficient beamable enc-dec attention.\"\"\"\n        if beam_size > 1:\n            for model in self.models:\n                if hasattr(model, \"set_beam_size\"):\n                    model.set_beam_size(beam_size)\n\n    @torch.jit.export\n    def forward_encoder(self, net_input: Dict[str, Tensor]):\n        if not self.has_encoder():\n            return None\n        return [model.encoder.forward_torchscript(net_input) for model in self.models]\n\n    @torch.jit.export\n    def forward_decoder(\n        self,\n        tokens,\n        encoder_outs: List[Dict[str, List[Tensor]]],\n        incremental_states: List[Dict[str, Dict[str, Optional[Tensor]]]],\n        temperature: float = 1.0,\n    ):\n        log_probs = []\n        avg_attn: Optional[Tensor] = None\n        encoder_out: Optional[Dict[str, List[Tensor]]] = None\n        for i, model in enumerate(self.models):\n            if self.has_encoder():\n                encoder_out = encoder_outs[i]\n            # decode each model\n            if self.has_incremental_states():\n                decoder_out = model.decoder.forward(\n                    tokens,\n                    encoder_out=encoder_out,\n                    incremental_state=incremental_states[i],\n                )\n            else:\n                if hasattr(model, \"decoder\"):\n                    decoder_out = model.decoder.forward(tokens, encoder_out=encoder_out)\n                else:\n                    decoder_out = model.forward(tokens)\n\n            attn: Optional[Tensor] = None\n            decoder_len = len(decoder_out)\n            if decoder_len > 1 and decoder_out[1] is not None:\n                if isinstance(decoder_out[1], Tensor):\n                    attn = decoder_out[1]\n                else:\n                    attn_holder = decoder_out[1][\"attn\"]\n                    if isinstance(attn_holder, Tensor):\n                        attn = attn_holder\n                    elif attn_holder is not None:\n                        attn = attn_holder[0]\n                if attn is not None:\n                    attn = attn[:, -1, :]\n\n            decoder_out_tuple = (\n                decoder_out[0][:, -1:, :].div_(temperature),\n                None if decoder_len <= 1 else decoder_out[1],\n            )\n            probs = model.get_normalized_probs(\n                decoder_out_tuple, log_probs=True, sample=None\n            )\n            probs = probs[:, -1, :]\n            if self.models_size == 1:\n                return probs, attn\n\n            log_probs.append(probs)\n            if attn is not None:\n                if avg_attn is None:\n                    avg_attn = attn\n                else:\n                    avg_attn.add_(attn)\n\n        avg_probs = torch.logsumexp(torch.stack(log_probs, dim=0), dim=0) - math.log(\n            self.models_size\n        )\n\n        if avg_attn is not None:\n            avg_attn.div_(self.models_size)\n        return avg_probs, avg_attn\n\n    @torch.jit.export\n    def reorder_encoder_out(\n        self, encoder_outs: Optional[List[Dict[str, List[Tensor]]]], new_order\n    ):\n        \"\"\"\n        Reorder encoder output according to *new_order*.\n\n        Args:\n            encoder_out: output from the ``forward()`` method\n            new_order (LongTensor): desired order\n\n        Returns:\n            *encoder_out* rearranged according to *new_order*\n        \"\"\"\n        new_outs: List[Dict[str, List[Tensor]]] = []\n        if not self.has_encoder():\n            return new_outs\n        for i, model in enumerate(self.models):\n            assert encoder_outs is not None\n            new_outs.append(\n                model.encoder.reorder_encoder_out(encoder_outs[i], new_order)\n            )\n        return new_outs\n\n    @torch.jit.export\n    def reorder_incremental_state(\n        self,\n        incremental_states: List[Dict[str, Dict[str, Optional[Tensor]]]],\n        new_order,\n    ):\n        if not self.has_incremental_states():\n            return\n        for i, model in enumerate(self.models):\n            model.decoder.reorder_incremental_state_scripting(\n                incremental_states[i], new_order\n            )\n\n\nclass SequenceGeneratorWithAlignment(SequenceGenerator):\n    def __init__(\n        self, models, tgt_dict, left_pad_target=False, print_alignment=\"hard\", **kwargs\n    ):\n        \"\"\"Generates translations of a given source sentence.\n\n        Produces alignments following \"Jointly Learning to Align and\n        Translate with Transformer Models\" (Garg et al., EMNLP 2019).\n\n        Args:\n            left_pad_target (bool, optional): Whether or not the\n                hypothesis should be left padded or not when they are\n                teacher forced for generating alignments.\n        \"\"\"\n        super().__init__(EnsembleModelWithAlignment(models), tgt_dict, **kwargs)\n        self.left_pad_target = left_pad_target\n\n        if print_alignment == \"hard\":\n            self.extract_alignment = utils.extract_hard_alignment\n        elif print_alignment == \"soft\":\n            self.extract_alignment = utils.extract_soft_alignment\n\n    @torch.no_grad()\n    def generate(self, models, sample, **kwargs):\n        finalized = super()._generate(sample, **kwargs)\n\n        src_tokens = sample[\"net_input\"][\"src_tokens\"]\n        bsz = src_tokens.shape[0]\n        beam_size = self.beam_size\n        (\n            src_tokens,\n            src_lengths,\n            prev_output_tokens,\n            tgt_tokens,\n        ) = self._prepare_batch_for_alignment(sample, finalized)\n        if any(getattr(m, \"full_context_alignment\", False) for m in self.model.models):\n            attn = self.model.forward_align(src_tokens, src_lengths, prev_output_tokens)\n        else:\n            attn = [\n                finalized[i // beam_size][i % beam_size][\"attention\"].transpose(1, 0)\n                for i in range(bsz * beam_size)\n            ]\n\n        if src_tokens.device != \"cpu\":\n            src_tokens = src_tokens.to(\"cpu\")\n            tgt_tokens = tgt_tokens.to(\"cpu\")\n            attn = [i.to(\"cpu\") for i in attn]\n\n        # Process the attn matrix to extract hard alignments.\n        for i in range(bsz * beam_size):\n            alignment = self.extract_alignment(\n                attn[i], src_tokens[i], tgt_tokens[i], self.pad, self.eos\n            )\n            finalized[i // beam_size][i % beam_size][\"alignment\"] = alignment\n        return finalized\n\n    def _prepare_batch_for_alignment(self, sample, hypothesis):\n        src_tokens = sample[\"net_input\"][\"src_tokens\"]\n        bsz = src_tokens.shape[0]\n        src_tokens = (\n            src_tokens[:, None, :]\n            .expand(-1, self.beam_size, -1)\n            .contiguous()\n            .view(bsz * self.beam_size, -1)\n        )\n        src_lengths = sample[\"net_input\"][\"src_lengths\"]\n        src_lengths = (\n            src_lengths[:, None]\n            .expand(-1, self.beam_size)\n            .contiguous()\n            .view(bsz * self.beam_size)\n        )\n        prev_output_tokens = data_utils.collate_tokens(\n            [beam[\"tokens\"] for example in hypothesis for beam in example],\n            self.pad,\n            self.eos,\n            self.left_pad_target,\n            move_eos_to_beginning=True,\n        )\n        tgt_tokens = data_utils.collate_tokens(\n            [beam[\"tokens\"] for example in hypothesis for beam in example],\n            self.pad,\n            self.eos,\n            self.left_pad_target,\n            move_eos_to_beginning=False,\n        )\n        return src_tokens, src_lengths, prev_output_tokens, tgt_tokens\n\n\nclass EnsembleModelWithAlignment(EnsembleModel):\n    \"\"\"A wrapper around an ensemble of models.\"\"\"\n\n    def __init__(self, models):\n        super().__init__(models)\n\n    def forward_align(self, src_tokens, src_lengths, prev_output_tokens):\n        avg_attn = None\n        for model in self.models:\n            decoder_out = model(src_tokens, src_lengths, prev_output_tokens)\n            attn = decoder_out[1][\"attn\"][0]\n            if avg_attn is None:\n                avg_attn = attn\n            else:\n                avg_attn.add_(attn)\n        if len(self.models) > 1:\n            avg_attn.div_(len(self.models))\n        return avg_attn\n"
  },
  {
    "path": "fairseq/sequence_scorer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport sys\n\nimport torch\nfrom fairseq import utils\n\n\nclass SequenceScorer(object):\n    \"\"\"Scores the target for a given source sentence.\"\"\"\n\n    def __init__(\n        self,\n        tgt_dict,\n        softmax_batch=None,\n        compute_alignment=False,\n        eos=None,\n        symbols_to_strip_from_output=None,\n    ):\n        self.pad = tgt_dict.pad()\n        self.eos = tgt_dict.eos() if eos is None else eos\n        self.softmax_batch = softmax_batch or sys.maxsize\n        assert self.softmax_batch > 0\n        self.compute_alignment = compute_alignment\n        self.symbols_to_strip_from_output = (\n            symbols_to_strip_from_output.union({self.eos})\n            if symbols_to_strip_from_output is not None\n            else {self.eos}\n        )\n\n    @torch.no_grad()\n    def generate(self, models, sample, **kwargs):\n        \"\"\"Score a batch of translations.\"\"\"\n        net_input = sample[\"net_input\"]\n\n        def batch_for_softmax(dec_out, target):\n            # assumes decoder_out[0] is the only thing needed (may not be correct for future models!)\n            first, rest = dec_out[0], dec_out[1:]\n            bsz, tsz, dim = first.shape\n            if bsz * tsz < self.softmax_batch:\n                yield dec_out, target, True\n            else:\n                flat = first.contiguous().view(1, -1, dim)\n                flat_tgt = target.contiguous().view(flat.shape[:-1])\n                s = 0\n                while s < flat.size(1):\n                    e = s + self.softmax_batch\n                    yield (flat[:, s:e],) + rest, flat_tgt[:, s:e], False\n                    s = e\n\n        def gather_target_probs(probs, target):\n            probs = probs.gather(\n                dim=2,\n                index=target.unsqueeze(-1),\n            )\n            return probs\n\n        orig_target = sample[\"target\"]\n\n        # compute scores for each model in the ensemble\n        avg_probs = None\n        avg_attn = None\n        for model in models:\n            model.eval()\n            decoder_out = model(**net_input)\n            attn = decoder_out[1] if len(decoder_out) > 1 else None\n            if type(attn) is dict:\n                attn = attn.get(\"attn\", None)\n\n            batched = batch_for_softmax(decoder_out, orig_target)\n            probs, idx = None, 0\n            for bd, tgt, is_single in batched:\n                sample[\"target\"] = tgt\n                curr_prob = model.get_normalized_probs(\n                    bd, log_probs=len(models) == 1, sample=sample\n                ).data\n                if is_single:\n                    probs = gather_target_probs(curr_prob, orig_target)\n                else:\n                    if probs is None:\n                        probs = curr_prob.new(orig_target.numel())\n                    step = curr_prob.size(0) * curr_prob.size(1)\n                    end = step + idx\n                    tgt_probs = gather_target_probs(\n                        curr_prob.view(tgt.shape + (curr_prob.size(-1),)), tgt\n                    )\n                    probs[idx:end] = tgt_probs.view(-1)\n                    idx = end\n                sample[\"target\"] = orig_target\n\n            probs = probs.view(sample[\"target\"].shape)\n\n            if avg_probs is None:\n                avg_probs = probs\n            else:\n                avg_probs.add_(probs)\n            if attn is not None:\n                if torch.is_tensor(attn):\n                    attn = attn.data\n                else:\n                    attn = attn[0]\n                if avg_attn is None:\n                    avg_attn = attn\n                else:\n                    avg_attn.add_(attn)\n        if len(models) > 1:\n            avg_probs.div_(len(models))\n            avg_probs.log_()\n            if avg_attn is not None:\n                avg_attn.div_(len(models))\n\n        bsz = avg_probs.size(0)\n        hypos = []\n        start_idxs = sample[\"start_indices\"] if \"start_indices\" in sample else [0] * bsz\n        for i in range(bsz):\n            # remove padding from ref\n            ref = (\n                utils.strip_pad(sample[\"target\"][i, start_idxs[i] :], self.pad)\n                if sample[\"target\"] is not None\n                else None\n            )\n            tgt_len = ref.numel()\n            avg_probs_i = avg_probs[i][start_idxs[i] : start_idxs[i] + tgt_len]\n            score_i = avg_probs_i.sum() / tgt_len\n            if avg_attn is not None:\n                avg_attn_i = avg_attn[i]\n                if self.compute_alignment:\n                    alignment = utils.extract_hard_alignment(\n                        avg_attn_i,\n                        sample[\"net_input\"][\"src_tokens\"][i],\n                        sample[\"target\"][i],\n                        self.pad,\n                        self.eos,\n                    )\n                else:\n                    alignment = None\n            else:\n                avg_attn_i = alignment = None\n            hypos.append(\n                [\n                    {\n                        \"tokens\": ref,\n                        \"score\": score_i,\n                        \"attention\": avg_attn_i,\n                        \"alignment\": alignment,\n                        \"positional_scores\": avg_probs_i,\n                    }\n                ]\n            )\n        return hypos\n"
  },
  {
    "path": "fairseq/speech_generator.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport numpy as np\nimport torch\n\nfrom fairseq.data.audio.speech_to_text_dataset import S2TDataConfig\n\n\nclass SpeechGenerator(object):\n    def __init__(self, model, vocoder, data_cfg: S2TDataConfig):\n        self.model = model\n        self.vocoder = vocoder\n        stats_npz_path = data_cfg.global_cmvn_stats_npz\n        self.gcmvn_stats = None\n        if stats_npz_path is not None:\n            self.gcmvn_stats = np.load(stats_npz_path)\n\n    def gcmvn_denormalize(self, x):\n        # x: B x T x C\n        if self.gcmvn_stats is None:\n            return x\n        mean = torch.from_numpy(self.gcmvn_stats[\"mean\"]).to(x)\n        std = torch.from_numpy(self.gcmvn_stats[\"std\"]).to(x)\n        assert len(x.shape) == 3 and mean.shape[0] == std.shape[0] == x.shape[2]\n        x = x * std.view(1, 1, -1).expand_as(x)\n        return x + mean.view(1, 1, -1).expand_as(x)\n\n    def get_waveform(self, feat):\n        # T x C -> T\n        return None if self.vocoder is None else self.vocoder(feat).squeeze(0)\n\n\nclass AutoRegressiveSpeechGenerator(SpeechGenerator):\n    def __init__(\n        self,\n        model,\n        vocoder,\n        data_cfg,\n        max_iter: int = 6000,\n        eos_prob_threshold: float = 0.5,\n    ):\n        super().__init__(model, vocoder, data_cfg)\n        self.max_iter = max_iter\n        self.eos_prob_threshold = eos_prob_threshold\n\n    @torch.no_grad()\n    def generate(self, model, sample, has_targ=False, **kwargs):\n        model.eval()\n\n        src_tokens = sample[\"net_input\"][\"src_tokens\"]\n        src_lengths = sample[\"net_input\"][\"src_lengths\"]\n        bsz, src_len = src_tokens.size()[:2]\n        n_frames_per_step = model.decoder.n_frames_per_step\n        out_dim = model.decoder.out_dim\n        raw_dim = out_dim // n_frames_per_step\n\n        # initialize\n        encoder_out = model.forward_encoder(\n            src_tokens, src_lengths, speaker=sample[\"speaker\"]\n        )\n        incremental_state = {}\n        feat, attn, eos_prob = [], [], []\n        finished = src_tokens.new_zeros((bsz,)).bool()\n        out_lens = src_lengths.new_zeros((bsz,)).long().fill_(self.max_iter)\n\n        prev_feat_out = encoder_out[\"encoder_out\"][0].new_zeros(bsz, 1, out_dim)\n        for step in range(self.max_iter):\n            cur_out_lens = out_lens.clone()\n            cur_out_lens.masked_fill_(cur_out_lens.eq(self.max_iter), step + 1)\n            _, cur_eos_out, cur_extra = model.forward_decoder(\n                prev_feat_out,\n                encoder_out=encoder_out,\n                incremental_state=incremental_state,\n                target_lengths=cur_out_lens,\n                speaker=sample[\"speaker\"],\n                **kwargs,\n            )\n            cur_eos_prob = torch.sigmoid(cur_eos_out).squeeze(2)\n            feat.append(cur_extra[\"feature_out\"])\n            attn.append(cur_extra[\"attn\"])\n            eos_prob.append(cur_eos_prob)\n\n            cur_finished = cur_eos_prob.squeeze(1) > self.eos_prob_threshold\n            out_lens.masked_fill_((~finished) & cur_finished, step + 1)\n            finished = finished | cur_finished\n            if finished.sum().item() == bsz:\n                break\n            prev_feat_out = cur_extra[\"feature_out\"]\n\n        feat = torch.cat(feat, dim=1)\n        feat = model.decoder.postnet(feat) + feat\n        eos_prob = torch.cat(eos_prob, dim=1)\n        attn = torch.cat(attn, dim=2)\n        alignment = attn.max(dim=1)[1]\n\n        feat = feat.reshape(bsz, -1, raw_dim)\n        feat = self.gcmvn_denormalize(feat)\n\n        eos_prob = eos_prob.repeat_interleave(n_frames_per_step, dim=1)\n        attn = attn.repeat_interleave(n_frames_per_step, dim=2)\n        alignment = alignment.repeat_interleave(n_frames_per_step, dim=1)\n        out_lens = out_lens * n_frames_per_step\n\n        finalized = [\n            {\n                \"feature\": feat[b, :out_len],\n                \"eos_prob\": eos_prob[b, :out_len],\n                \"attn\": attn[b, :, :out_len],\n                \"alignment\": alignment[b, :out_len],\n                \"waveform\": self.get_waveform(feat[b, :out_len]),\n            }\n            for b, out_len in zip(range(bsz), out_lens)\n        ]\n\n        if has_targ:\n            assert sample[\"target\"].size(-1) == out_dim\n            tgt_feats = sample[\"target\"].view(bsz, -1, raw_dim)\n            tgt_feats = self.gcmvn_denormalize(tgt_feats)\n            tgt_lens = sample[\"target_lengths\"] * n_frames_per_step\n            for b, (f, l) in enumerate(zip(tgt_feats, tgt_lens)):\n                finalized[b][\"targ_feature\"] = f[:l]\n                finalized[b][\"targ_waveform\"] = self.get_waveform(f[:l])\n        return finalized\n\n\nclass MultiDecoderSpeechGenerator(SpeechGenerator):\n    def __init__(\n        self,\n        models,\n        args,\n        vocoder,\n        data_cfg,\n        tgt_dict_mt,\n        max_iter: int = 6000,\n        eos_prob_threshold: float = 0.5,\n        eos_mt=None,\n        symbols_to_strip_from_output=None,\n    ):\n        super().__init__(models[0], vocoder, data_cfg)\n        self.max_iter = max_iter\n        self.eos_prob_threshold = eos_prob_threshold\n\n        self.tgt_dict_mt = tgt_dict_mt\n        self.eos_mt = eos_mt\n\n        from examples.speech_to_speech.unity.sequence_generator import SequenceGenerator\n        from fairseq import search\n\n        self.text_generator = SequenceGenerator(\n            models,\n            tgt_dict_mt,\n            beam_size=max(1, getattr(args, \"beam\", 5)),\n            max_len_a=getattr(args, \"max_len_a\", 0),\n            max_len_b=getattr(args, \"max_len_b\", 200),\n            min_len=getattr(args, \"min_len\", 1),\n            normalize_scores=(not getattr(args, \"unnormalized\", False)),\n            len_penalty=getattr(args, \"lenpen\", 1),\n            unk_penalty=getattr(args, \"unkpen\", 0),\n            temperature=getattr(args, \"temperature\", 1.0),\n            match_source_len=getattr(args, \"match_source_len\", False),\n            no_repeat_ngram_size=getattr(args, \"no_repeat_ngram_size\", 0),\n            search_strategy=search.BeamSearch(tgt_dict_mt),\n            eos=eos_mt,\n            symbols_to_strip_from_output=symbols_to_strip_from_output,\n        )\n\n    @torch.no_grad()\n    def generate(self, model, sample, has_targ=False, **kwargs):\n        model.eval()\n\n        src_tokens = sample[\"net_input\"][\"src_tokens\"]\n        src_lengths = sample[\"net_input\"][\"src_lengths\"]\n        bsz, src_len = src_tokens.size()[:2]\n        n_frames_per_step = model.decoder.n_frames_per_step\n        out_dim = model.decoder.out_dim\n        raw_dim = out_dim // n_frames_per_step\n\n        # initialize\n        encoder_out = model.forward_encoder(\n            src_tokens, src_lengths, speaker=sample[\"speaker\"]\n        )\n\n        prefix_tokens = None\n        constraints = None\n        bos_token = None\n\n        mt_decoder = getattr(model, f\"{model.mt_task_name}_decoder\")\n\n        # 1. MT decoder\n        finalized_mt = self.text_generator.generate_decoder(\n            [encoder_out],\n            src_tokens,\n            src_lengths,\n            sample,\n            prefix_tokens,\n            constraints,\n            bos_token,\n            aux_task_name=model.mt_task_name,\n        )\n\n        # extract decoder output corresponding to the best hypothesis\n        max_tgt_len = max([len(hypo[0][\"tokens\"]) for hypo in finalized_mt])\n        prev_output_tokens_mt = (\n            src_tokens.new_zeros(src_tokens.shape[0], max_tgt_len)\n            .fill_(mt_decoder.padding_idx)\n            .int()\n        )  # B x T\n        for i, hypo in enumerate(finalized_mt):\n            i_beam = 0\n            tmp = hypo[i_beam][\"tokens\"].int()  # hyp + eos\n            prev_output_tokens_mt[i, 0] = self.text_generator.eos\n            if tmp[-1] == self.text_generator.eos:\n                tmp = tmp[:-1]\n            prev_output_tokens_mt[i, 1 : len(tmp) + 1] = tmp\n\n            text = \"\".join([self.tgt_dict_mt[c] for c in tmp])\n            text = text.replace(\"_\", \" \")\n            text = text.replace(\"▁\", \" \")\n            text = text.replace(\"<unk>\", \" \")\n            text = text.replace(\"<s>\", \"\")\n            text = text.replace(\"</s>\", \"\")\n            if len(text) > 0 and text[0] == \" \":\n                text = text[1:]\n            sample_id = sample[\"id\"].tolist()[i]\n            print(\"{} (None-{})\".format(text, sample_id))\n\n        mt_decoder_out = mt_decoder(\n            prev_output_tokens_mt,\n            encoder_out=encoder_out,\n            features_only=True,\n        )\n        x = mt_decoder_out[0].transpose(0, 1)\n\n        mt_decoder_padding_mask = None\n        if prev_output_tokens_mt.eq(mt_decoder.padding_idx).any():\n            mt_decoder_padding_mask = prev_output_tokens_mt.eq(mt_decoder.padding_idx)\n\n        # 2. TTS encoder\n        if getattr(model, \"synthesizer_encoder\", None) is not None:\n            synthesizer_encoder_out = model.synthesizer_encoder(\n                x,\n                mt_decoder_padding_mask,\n            )\n        else:\n            synthesizer_encoder_out = {\n                \"encoder_out\": [x],  # T x B x C\n                \"encoder_padding_mask\": [mt_decoder_padding_mask]\n                if mt_decoder_padding_mask is not None\n                else [],  # B x T\n                \"encoder_embedding\": [],\n                \"encoder_states\": [],\n                \"src_tokens\": [],\n                \"src_lengths\": [],\n            }\n\n        # 3. TTS decoder\n        incremental_state = {}\n        feat, attn, eos_prob = [], [], []\n        finished = src_tokens.new_zeros((bsz,)).bool()\n        out_lens = src_lengths.new_zeros((bsz,)).long().fill_(self.max_iter)\n\n        prev_feat_out = encoder_out[\"encoder_out\"][0].new_zeros(bsz, 1, out_dim)\n        for step in range(self.max_iter):\n            cur_out_lens = out_lens.clone()\n            cur_out_lens.masked_fill_(cur_out_lens.eq(self.max_iter), step + 1)\n            _, cur_eos_out, cur_extra = model.forward_decoder(\n                prev_feat_out,\n                encoder_out=synthesizer_encoder_out,\n                incremental_state=incremental_state,\n                target_lengths=cur_out_lens,\n                speaker=sample[\"speaker\"],\n                **kwargs,\n            )\n            cur_eos_prob = torch.sigmoid(cur_eos_out).squeeze(2)\n            feat.append(cur_extra[\"feature_out\"])\n            attn.append(cur_extra[\"attn\"])\n            eos_prob.append(cur_eos_prob)\n\n            cur_finished = cur_eos_prob.squeeze(1) > self.eos_prob_threshold\n            out_lens.masked_fill_((~finished) & cur_finished, step + 1)\n            finished = finished | cur_finished\n            if finished.sum().item() == bsz:\n                break\n            prev_feat_out = cur_extra[\"feature_out\"]\n\n        feat = torch.cat(feat, dim=1)\n        feat = model.decoder.postnet(feat) + feat\n        eos_prob = torch.cat(eos_prob, dim=1)\n        attn = torch.cat(attn, dim=2)\n        alignment = attn.max(dim=1)[1]\n\n        feat = feat.reshape(bsz, -1, raw_dim)\n        feat = self.gcmvn_denormalize(feat)\n\n        eos_prob = eos_prob.repeat_interleave(n_frames_per_step, dim=1)\n        attn = attn.repeat_interleave(n_frames_per_step, dim=2)\n        alignment = alignment.repeat_interleave(n_frames_per_step, dim=1)\n        out_lens = out_lens * n_frames_per_step\n\n        finalized = [\n            {\n                \"feature\": feat[b, :out_len],\n                \"eos_prob\": eos_prob[b, :out_len],\n                \"attn\": attn[b, :, :out_len],\n                \"alignment\": alignment[b, :out_len],\n                \"waveform\": self.get_waveform(feat[b, :out_len]),\n            }\n            for b, out_len in zip(range(bsz), out_lens)\n        ]\n\n        if has_targ:\n            assert sample[\"target\"].size(-1) == out_dim\n            tgt_feats = sample[\"target\"].view(bsz, -1, raw_dim)\n            tgt_feats = self.gcmvn_denormalize(tgt_feats)\n            tgt_lens = sample[\"target_lengths\"] * n_frames_per_step\n            for b, (f, l) in enumerate(zip(tgt_feats, tgt_lens)):\n                finalized[b][\"targ_feature\"] = f[:l]\n                finalized[b][\"targ_waveform\"] = self.get_waveform(f[:l])\n        return finalized\n\n\nclass NonAutoregressiveSpeechGenerator(SpeechGenerator):\n    @torch.no_grad()\n    def generate(self, model, sample, has_targ=False, **kwargs):\n        model.eval()\n\n        bsz, max_src_len = sample[\"net_input\"][\"src_tokens\"].size()\n        n_frames_per_step = model.encoder.n_frames_per_step\n        out_dim = model.encoder.out_dim\n        raw_dim = out_dim // n_frames_per_step\n\n        feat, feat_post, out_lens, log_dur_out, _, _ = model(\n            src_tokens=sample[\"net_input\"][\"src_tokens\"],\n            src_lengths=sample[\"net_input\"][\"src_lengths\"],\n            prev_output_tokens=sample[\"net_input\"][\"prev_output_tokens\"],\n            incremental_state=None,\n            target_lengths=sample[\"target_lengths\"],\n            speaker=sample[\"speaker\"],\n        )\n        if feat_post is not None:\n            feat = feat_post\n\n        feat = feat.view(bsz, -1, raw_dim)\n        feat = self.gcmvn_denormalize(feat)\n\n        dur_out = torch.clamp(torch.round(torch.exp(log_dur_out) - 1).long(), min=0)\n\n        def get_dur_plot_data(d):\n            r = []\n            for i, dd in enumerate(d):\n                r += [i + 1] * dd.item()\n            return r\n\n        out_lens = out_lens * n_frames_per_step\n        finalized = [\n            {\n                \"feature\": feat[b, :l] if l > 0 else feat.new_zeros([1, raw_dim]),\n                \"waveform\": self.get_waveform(\n                    feat[b, :l] if l > 0 else feat.new_zeros([1, raw_dim])\n                ),\n                \"attn\": feat.new_tensor(get_dur_plot_data(dur_out[b])),\n            }\n            for b, l in zip(range(bsz), out_lens)\n        ]\n\n        if has_targ:\n            tgt_feats = sample[\"target\"].view(bsz, -1, raw_dim)\n            tgt_feats = self.gcmvn_denormalize(tgt_feats)\n            tgt_lens = sample[\"target_lengths\"] * n_frames_per_step\n            for b, (f, l) in enumerate(zip(tgt_feats, tgt_lens)):\n                finalized[b][\"targ_feature\"] = f[:l]\n                finalized[b][\"targ_waveform\"] = self.get_waveform(f[:l])\n        return finalized\n\n\nclass TeacherForcingAutoRegressiveSpeechGenerator(AutoRegressiveSpeechGenerator):\n    @torch.no_grad()\n    def generate(self, model, sample, has_targ=False, **kwargs):\n        model.eval()\n\n        src_tokens = sample[\"net_input\"][\"src_tokens\"]\n        src_lens = sample[\"net_input\"][\"src_lengths\"]\n        prev_out_tokens = sample[\"net_input\"][\"prev_output_tokens\"]\n        tgt_lens = sample[\"target_lengths\"]\n        n_frames_per_step = model.decoder.n_frames_per_step\n        raw_dim = model.decoder.out_dim // n_frames_per_step\n        bsz = src_tokens.shape[0]\n\n        feat, eos_prob, extra = model(\n            src_tokens,\n            src_lens,\n            prev_out_tokens,\n            incremental_state=None,\n            target_lengths=tgt_lens,\n            speaker=sample[\"speaker\"],\n        )\n\n        attn = extra[\"attn\"]  # B x T_s x T_t\n        alignment = attn.max(dim=1)[1]\n        feat = feat.reshape(bsz, -1, raw_dim)\n        feat = self.gcmvn_denormalize(feat)\n        eos_prob = eos_prob.repeat_interleave(n_frames_per_step, dim=1)\n        attn = attn.repeat_interleave(n_frames_per_step, dim=2)\n        alignment = alignment.repeat_interleave(n_frames_per_step, dim=1)\n        tgt_lens = sample[\"target_lengths\"] * n_frames_per_step\n\n        finalized = [\n            {\n                \"feature\": feat[b, :tgt_len],\n                \"eos_prob\": eos_prob[b, :tgt_len],\n                \"attn\": attn[b, :, :tgt_len],\n                \"alignment\": alignment[b, :tgt_len],\n                \"waveform\": self.get_waveform(feat[b, :tgt_len]),\n            }\n            for b, tgt_len in zip(range(bsz), tgt_lens)\n        ]\n\n        if has_targ:\n            tgt_feats = sample[\"target\"].view(bsz, -1, raw_dim)\n            tgt_feats = self.gcmvn_denormalize(tgt_feats)\n            for b, (f, l) in enumerate(zip(tgt_feats, tgt_lens)):\n                finalized[b][\"targ_feature\"] = f[:l]\n                finalized[b][\"targ_waveform\"] = self.get_waveform(f[:l])\n        return finalized\n"
  },
  {
    "path": "fairseq/tasks/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"isort:skip_file\"\"\"\n\nimport argparse\nimport importlib\nimport os\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.dataclass.utils import merge_with_parent\nfrom hydra.core.config_store import ConfigStore\n\nfrom .fairseq_task import FairseqTask, LegacyFairseqTask  # noqa\n\n\n# register dataclass\nTASK_DATACLASS_REGISTRY = {}\nTASK_REGISTRY = {}\nTASK_CLASS_NAMES = set()\n\n\ndef setup_task(cfg: FairseqDataclass, **kwargs):\n    task = None\n    task_name = getattr(cfg, \"task\", None)\n\n    if isinstance(task_name, str):\n        # legacy tasks\n        task = TASK_REGISTRY[task_name]\n        if task_name in TASK_DATACLASS_REGISTRY:\n            dc = TASK_DATACLASS_REGISTRY[task_name]\n            cfg = dc.from_namespace(cfg)\n    else:\n        task_name = getattr(cfg, \"_name\", None)\n\n        if task_name and task_name in TASK_DATACLASS_REGISTRY:\n            remove_missing = \"from_checkpoint\" in kwargs and kwargs[\"from_checkpoint\"]\n            dc = TASK_DATACLASS_REGISTRY[task_name]\n            cfg = merge_with_parent(dc(), cfg, remove_missing=remove_missing)\n            task = TASK_REGISTRY[task_name]\n\n    assert (\n        task is not None\n    ), f\"Could not infer task type from {cfg}. Available argparse tasks: {TASK_REGISTRY.keys()}. Available hydra tasks: {TASK_DATACLASS_REGISTRY.keys()}\"\n\n    return task.setup_task(cfg, **kwargs)\n\n\ndef register_task(name, dataclass=None):\n    \"\"\"\n    New tasks can be added to fairseq with the\n    :func:`~fairseq.tasks.register_task` function decorator.\n\n    For example::\n\n        @register_task('classification')\n        class ClassificationTask(FairseqTask):\n            (...)\n\n    .. note::\n\n        All Tasks must implement the :class:`~fairseq.tasks.FairseqTask`\n        interface.\n\n    Args:\n        name (str): the name of the task\n    \"\"\"\n\n    def register_task_cls(cls):\n        if name in TASK_REGISTRY:\n            return TASK_REGISTRY[name]\n\n        if not issubclass(cls, FairseqTask):\n            raise ValueError(\n                \"Task ({}: {}) must extend FairseqTask\".format(name, cls.__name__)\n            )\n        if cls.__name__ in TASK_CLASS_NAMES:\n            raise ValueError(\n                \"Cannot register task with duplicate class name ({})\".format(\n                    cls.__name__\n                )\n            )\n        TASK_REGISTRY[name] = cls\n        TASK_CLASS_NAMES.add(cls.__name__)\n\n        if dataclass is not None and not issubclass(dataclass, FairseqDataclass):\n            raise ValueError(\n                \"Dataclass {} must extend FairseqDataclass\".format(dataclass)\n            )\n\n        cls.__dataclass = dataclass\n        if dataclass is not None:\n            TASK_DATACLASS_REGISTRY[name] = dataclass\n\n            cs = ConfigStore.instance()\n            node = dataclass()\n            node._name = name\n            cs.store(name=name, group=\"task\", node=node, provider=\"fairseq\")\n\n        return cls\n\n    return register_task_cls\n\n\ndef get_task(name):\n    return TASK_REGISTRY[name]\n\n\ndef import_tasks(tasks_dir, namespace):\n    for file in os.listdir(tasks_dir):\n        path = os.path.join(tasks_dir, file)\n        if (\n            not file.startswith(\"_\")\n            and not file.startswith(\".\")\n            and (file.endswith(\".py\") or os.path.isdir(path))\n        ):\n            task_name = file[: file.find(\".py\")] if file.endswith(\".py\") else file\n            importlib.import_module(namespace + \".\" + task_name)\n\n            # expose `task_parser` for sphinx\n            if task_name in TASK_REGISTRY:\n                parser = argparse.ArgumentParser(add_help=False)\n                group_task = parser.add_argument_group(\"Task name\")\n                # fmt: off\n                group_task.add_argument('--task', metavar=task_name,\n                                        help='Enable this task with: ``--task=' + task_name + '``')\n                # fmt: on\n                group_args = parser.add_argument_group(\n                    \"Additional command-line arguments\"\n                )\n                TASK_REGISTRY[task_name].add_args(group_args)\n                globals()[task_name + \"_parser\"] = parser\n\n\n# automatically import any Python files in the tasks/ directory\ntasks_dir = os.path.dirname(__file__)\nimport_tasks(tasks_dir, \"fairseq.tasks\")\n"
  },
  {
    "path": "fairseq/tasks/audio_classification.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nfrom collections import OrderedDict\nimport itertools\nimport logging\nimport os\nimport sys\nfrom dataclasses import dataclass, field\nfrom typing import Optional\n\nimport numpy as np\nimport torch\nfrom omegaconf import II, MISSING\nfrom sklearn import metrics as sklearn_metrics\n\nfrom fairseq.data import AddTargetDataset, Dictionary, FileAudioDataset\nfrom fairseq.data.multi_corpus_dataset import MultiCorpusDataset\nfrom fairseq.data.text_compressor import TextCompressionLevel, TextCompressor\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.tasks.audio_pretraining import AudioPretrainingConfig, AudioPretrainingTask\nfrom fairseq.tasks.audio_finetuning import label_len_fn, LabelEncoder\n\nfrom .. import utils\nfrom ..logging import metrics\nfrom . import FairseqTask, register_task\n\nlogger = logging.getLogger(__name__)\n\n@dataclass\nclass AudioClassificationConfig(AudioPretrainingConfig):\n    target_dictionary: Optional[str] = field(\n        default=None, metadata={\"help\": \"override default dictionary location\"}\n    )\n\n\n@register_task(\"audio_classification\", dataclass=AudioClassificationConfig)\nclass AudioClassificationTask(AudioPretrainingTask):\n    \"\"\"Task for audio classification tasks.\"\"\"\n\n    cfg: AudioClassificationConfig\n\n    def __init__(\n        self,\n        cfg: AudioClassificationConfig,\n    ):\n        super().__init__(cfg)\n        self.state.add_factory(\"target_dictionary\", self.load_target_dictionary)\n        logging.info(f\"=== Number of labels = {len(self.target_dictionary)}\")\n\n    def load_target_dictionary(self):\n        if self.cfg.labels:\n            target_dictionary = self.cfg.data\n            if self.cfg.target_dictionary:  # override dict\n                target_dictionary = self.cfg.target_dictionary\n            dict_path = os.path.join(target_dictionary, f\"dict.{self.cfg.labels}.txt\")\n            logger.info(\"Using dict_path : {}\".format(dict_path))\n            return Dictionary.load(dict_path, add_special_symbols=False)\n        return None\n\n    def load_dataset(\n        self, split: str, task_cfg: AudioClassificationConfig = None, **kwargs\n    ):\n        super().load_dataset(split, task_cfg, **kwargs)\n        task_cfg = task_cfg or self.cfg\n        assert task_cfg.labels is not None\n        text_compression_level = getattr(\n            TextCompressionLevel, str(self.cfg.text_compression_level)\n        )\n        data_path = self.cfg.data\n        if task_cfg.multi_corpus_keys is None:\n            label_path = os.path.join(data_path, f\"{split}.{task_cfg.labels}\")\n            skipped_indices = getattr(self.datasets[split], \"skipped_indices\", set())\n            text_compressor = TextCompressor(level=text_compression_level)\n            with open(label_path, \"r\") as f:\n                labels = [\n                    text_compressor.compress(l)\n                    for i, l in enumerate(f)\n                    if i not in skipped_indices\n                ]\n\n            assert len(labels) == len(self.datasets[split]), (\n                f\"labels length ({len(labels)}) and dataset length \"\n                f\"({len(self.datasets[split])}) do not match\"\n            )\n\n            process_label = LabelEncoder(self.target_dictionary)\n\n            self.datasets[split] = AddTargetDataset(\n                self.datasets[split],\n                labels,\n                pad=self.target_dictionary.pad(),\n                eos=self.target_dictionary.eos(),\n                batch_targets=True,\n                process_label=process_label,\n                label_len_fn=label_len_fn,\n                add_to_input=False,\n                # text_compression_level=text_compression_level,\n            )\n        else:\n            target_dataset_map = OrderedDict()\n\n            multi_corpus_keys = [\n                k.strip() for k in task_cfg.multi_corpus_keys.split(\",\")\n            ]\n            corpus_idx_map = {k: idx for idx, k in enumerate(multi_corpus_keys)}\n\n            data_keys = [k.split(\":\") for k in split.split(\",\")]\n\n            multi_corpus_sampling_weights = [\n                float(val.strip())\n                for val in task_cfg.multi_corpus_sampling_weights.split(\",\")\n            ]\n            data_weights = []\n            for key, file_name in data_keys:\n                k = key.strip()\n                label_path = os.path.join(\n                    data_path, f\"{file_name.strip()}.{task_cfg.labels}\"\n                )\n                skipped_indices = getattr(\n                    self.dataset_map[split][k], \"skipped_indices\", set()\n                )\n                text_compressor = TextCompressor(level=text_compression_level)\n                with open(label_path, \"r\") as f:\n                    labels = [\n                        text_compressor.compress(l)\n                        for i, l in enumerate(f)\n                        if i not in skipped_indices\n                    ]\n\n                assert len(labels) == len(self.dataset_map[split][k]), (\n                    f\"labels length ({len(labels)}) and dataset length \"\n                    f\"({len(self.dataset_map[split][k])}) do not match\"\n                )\n\n                process_label = LabelEncoder(self.target_dictionary)\n\n                # TODO: Remove duplication of code from the if block above\n                target_dataset_map[k] = AddTargetDataset(\n                    self.dataset_map[split][k],\n                    labels,\n                    pad=self.target_dictionary.pad(),\n                    eos=self.target_dictionary.eos(),\n                    batch_targets=True,\n                    process_label=process_label,\n                    label_len_fn=label_len_fn,\n                    add_to_input=False,\n                    # text_compression_level=text_compression_level,\n                )\n\n                data_weights.append(multi_corpus_sampling_weights[corpus_idx_map[k]])\n\n            if len(target_dataset_map) == 1:\n                self.datasets[split] = list(target_dataset_map.values())[0]\n            else:\n                self.datasets[split] = MultiCorpusDataset(\n                    target_dataset_map,\n                    distribution=data_weights,\n                    seed=0,\n                    sort_indices=True,\n                )\n\n    @property\n    def source_dictionary(self):\n        return None\n\n    @property\n    def target_dictionary(self):\n        \"\"\"Return the :class:`~fairseq.data.Dictionary` for the language\n        model.\"\"\"\n        return self.state.target_dictionary\n\n    def train_step(self, sample, model, *args, **kwargs):\n        sample[\"target\"] = sample[\"target\"].to(dtype=torch.long)\n        loss, sample_size, logging_output = super().train_step(\n            sample, model, *args, **kwargs\n        )\n        self._log_metrics(sample, model, logging_output)\n        return loss, sample_size, logging_output\n\n    def valid_step(self, sample, model, criterion):\n        sample[\"target\"] = sample[\"target\"].to(dtype=torch.long)\n        loss, sample_size, logging_output = super().valid_step(sample, model, criterion)\n        self._log_metrics(sample, model, logging_output)\n        return loss, sample_size, logging_output\n\n    def _log_metrics(self, sample, model, logging_output):\n        metrics = self._inference_with_metrics(\n            sample,\n            model,\n        )\n        \"\"\"\n        logging_output[\"_precision\"] = metrics[\"precision\"]\n        logging_output[\"_recall\"] = metrics[\"recall\"]\n        logging_output[\"_f1\"] = metrics[\"f1\"]\n        logging_output[\"_eer\"] = metrics[\"eer\"]\n        logging_output[\"_accuracy\"] = metrics[\"accuracy\"]\n        \"\"\"\n        logging_output[\"_correct\"] = metrics[\"correct\"]\n        logging_output[\"_total\"] = metrics[\"total\"]\n\n    def _inference_with_metrics(self, sample, model):\n        def _compute_eer(target_list, lprobs):\n            # from scipy.optimize import brentq\n            # from scipy.interpolate import interp1d\n\n            y_one_hot = np.eye(len(self.state.target_dictionary))[target_list]\n            fpr, tpr, thresholds = sklearn_metrics.roc_curve(\n                y_one_hot.ravel(), lprobs.ravel()\n            )\n            # Revisit the interpolation approach.\n            # eer = brentq(lambda x: 1.0 - x - interp1d(fpr, tpr)(x), 0.0, 1.0)\n\n            fnr = 1 - tpr\n            eer = fpr[np.nanargmin(np.absolute((fnr - fpr)))]\n\n            return eer\n\n        with torch.no_grad():\n            net_output = model(**sample[\"net_input\"])\n            lprobs = (\n                model.get_normalized_probs(net_output, log_probs=True).cpu().detach()\n            )\n            target_list = sample[\"target\"][:, 0].detach().cpu()\n            predicted_list = torch.argmax(lprobs, 1).detach().cpu()  # B,C->B\n\n            metrics = {\n                \"correct\": torch.sum(target_list == predicted_list).item(),\n                \"total\": len(target_list),\n            }\n            return metrics\n\n    def reduce_metrics(self, logging_outputs, criterion):\n        super().reduce_metrics(logging_outputs, criterion)\n\n        zero = torch.scalar_tensor(0.0)\n        correct, total = 0, 0\n        for log in logging_outputs:\n            correct += log.get(\"_correct\", zero)\n            total += log.get(\"_total\", zero)\n        metrics.log_scalar(\"_correct\", correct)\n        metrics.log_scalar(\"_total\", total)\n\n        if total > 0:\n            def _fn_accuracy(meters):\n                if meters[\"_total\"].sum > 0:\n                    return utils.item(meters[\"_correct\"].sum / meters[\"_total\"].sum)\n                return float(\"nan\")\n\n            metrics.log_derived(\"accuracy\", _fn_accuracy)\n        \"\"\"\n        prec_sum, recall_sum, f1_sum, acc_sum, eer_sum = 0.0, 0.0, 0.0, 0.0, 0.0\n        for log in logging_outputs:\n            prec_sum += log.get(\"_precision\", zero).item()\n            recall_sum += log.get(\"_recall\", zero).item()\n            f1_sum += log.get(\"_f1\", zero).item()\n            acc_sum += log.get(\"_accuracy\", zero).item()\n            eer_sum += log.get(\"_eer\", zero).item()\n\n        metrics.log_scalar(\"avg_precision\", prec_sum / len(logging_outputs))\n        metrics.log_scalar(\"avg_recall\", recall_sum / len(logging_outputs))\n        metrics.log_scalar(\"avg_f1\", f1_sum / len(logging_outputs))\n        metrics.log_scalar(\"avg_accuracy\", acc_sum / len(logging_outputs))\n        metrics.log_scalar(\"avg_eer\", eer_sum / len(logging_outputs))\n        \"\"\""
  },
  {
    "path": "fairseq/tasks/audio_finetuning.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nimport logging\nimport os\nfrom fairseq.data.multi_corpus_dataset import MultiCorpusDataset\nimport torch\nimport json\n\nfrom argparse import Namespace\nfrom dataclasses import dataclass, field\nfrom typing import Optional, Any, OrderedDict\n\nfrom fairseq.data import AddTargetDataset, Dictionary, encoders\nfrom fairseq.tasks.audio_pretraining import AudioPretrainingTask, AudioPretrainingConfig\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.dataclass.configs import GenerationConfig\nfrom fairseq.data.text_compressor import TextCompressor, TextCompressionLevel\n\nfrom . import register_task\nfrom .. import utils\nfrom ..logging import metrics\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass LabelEncoder(object):\n    def __init__(self, dictionary):\n        self.dictionary = dictionary\n\n    def __call__(self, label):\n        return self.dictionary.encode_line(\n            label, append_eos=False, add_if_not_exist=False\n        )\n\n\ndef label_len_fn(label):\n    return len(label.split(\" \"))\n\n\n@dataclass\nclass AudioFinetuningConfig(AudioPretrainingConfig):\n    # Options for reporting WER metrics during validation. Only applicable to\n    # Seq2Seq models during fine-tuning\n    eval_wer: bool = field(\n        default=False, metadata={\"help\": \"compute WER for Seq2Seq models\"}\n    )\n    eval_wer_config: GenerationConfig = field(\n        default_factory=lambda: GenerationConfig(),\n        metadata={\"help\": \"beam search config for evaluating wer during training\"},\n    )\n    eval_wer_tokenizer: Any = field(\n        default=None,\n        metadata={\"help\": \"tokenizer config for evaluating wer during training\"},\n    )\n    eval_wer_post_process: str = field(\n        default=\"letter\",\n        metadata={\n            \"help\": \"remove BPE tokens before scoring (can be sentencepiece, letter, and more)\"\n        },\n    )\n    eval_bleu: bool = field(\n        default=False, metadata={\"help\": \"evaluation with BLEU scores\"}\n    )\n    eval_bleu_detok: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"detokenize before computing BLEU (e.g., 'moses'); \"\n            \"required if using --eval-bleu; use 'space' to disable \"\n            \"detokenization; see fairseq.data.encoders for other options\"\n        },\n    )\n    eval_bleu_detok_args: str = field(\n        default=\"{}\", metadata={\"help\": \"args for building the tokenizer, if needed\"}\n    )\n    eval_tokenized_bleu: bool = field(\n        default=False, metadata={\"help\": \"compute tokenized BLEU instead of sacrebleu\"}\n    )\n    eval_bleu_remove_bpe: Optional[str] = field(\n        default=None, metadata={\"help\": \"remove BPE before computing BLEU\"}\n    )\n    eval_bleu_args: str = field(\n        default=\"{}\",\n        metadata={\n            \"help\": \"generation args for BLUE scoring, e.g., \"\n            '\\'{\"beam\": 4, \"lenpen\": 0.6}\\''\n        },\n    )\n    eval_bleu_print_samples: bool = field(\n        default=False, metadata={\"help\": \"print sample generations during validation\"}\n    )\n    autoregressive: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"required for autoregressive decoders (like seq2seq models); \"\n            \"adds 'prev_output_tokens' to input and appends eos to target\"\n        },\n    )\n    rebuild_batches: bool = True\n    target_dictionary: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"override default dictionary location\"\n        }\n    )\n\n@register_task(\"audio_finetuning\", dataclass=AudioFinetuningConfig)\nclass AudioFinetuningTask(AudioPretrainingTask):\n    \"\"\" \"\"\"\n\n    cfg: AudioFinetuningConfig\n\n    def __init__(\n        self,\n        cfg: AudioFinetuningConfig,\n    ):\n        super().__init__(cfg)\n        self.blank_symbol = \"<s>\"\n\n        self.state.add_factory(\"target_dictionary\", self.load_target_dictionary)\n\n    def load_target_dictionary(self):\n        if self.cfg.labels:\n            target_dictionary = self.cfg.data\n            if self.cfg.target_dictionary:  # override dict\n                target_dictionary = self.cfg.target_dictionary\n            dict_path = os.path.join(target_dictionary, f\"dict.{self.cfg.labels}.txt\")\n            logger.info('Using dict_path : {}'.format(dict_path))\n            return Dictionary.load(dict_path)\n        return None\n\n    def load_dataset(\n        self, split: str, task_cfg: AudioFinetuningConfig = None, **kwargs\n    ):\n        super().load_dataset(split, task_cfg, **kwargs)\n\n        task_cfg = task_cfg or self.cfg\n        assert task_cfg.labels is not None\n        text_compression_level = getattr(\n            TextCompressionLevel, str(self.cfg.text_compression_level)\n        )\n        data_path = self.cfg.data\n        if task_cfg.multi_corpus_keys is None:\n            label_path = os.path.join(data_path, f\"{split}.{task_cfg.labels}\")\n            skipped_indices = getattr(self.datasets[split], \"skipped_indices\", set())\n            text_compressor = TextCompressor(level=text_compression_level)\n            with open(label_path, \"r\") as f:\n                labels = [\n                    text_compressor.compress(l)\n                    for i, l in enumerate(f)\n                    if i not in skipped_indices\n                ]\n\n            assert len(labels) == len(self.datasets[split]), (\n                f\"labels length ({len(labels)}) and dataset length \"\n                f\"({len(self.datasets[split])}) do not match\"\n            )\n\n            process_label = LabelEncoder(self.target_dictionary)\n\n            self.datasets[split] = AddTargetDataset(\n                self.datasets[split],\n                labels,\n                pad=self.target_dictionary.pad(),\n                eos=self.target_dictionary.eos(),\n                batch_targets=True,\n                process_label=process_label,\n                label_len_fn=label_len_fn,\n                add_to_input=task_cfg.get(\"autoregressive\", False),\n                text_compression_level=text_compression_level,\n            )\n        else:\n\n            target_dataset_map = OrderedDict()\n\n            multi_corpus_keys = [k.strip() for k in task_cfg.multi_corpus_keys.split(\",\")]\n            corpus_idx_map = {k: idx for idx, k in enumerate(multi_corpus_keys)}\n\n            data_keys = [k.split(\":\") for k in split.split(\",\")]\n\n            multi_corpus_sampling_weights = [float(val.strip()) for val in task_cfg.multi_corpus_sampling_weights.split(\",\")]\n            data_weights = []\n            for key, file_name in data_keys:\n                k = key.strip()\n                label_path = os.path.join(data_path, f\"{file_name.strip()}.{task_cfg.labels}\")\n                skipped_indices = getattr(self.dataset_map[split][k], \"skipped_indices\", set())\n                text_compressor = TextCompressor(level=text_compression_level)\n                with open(label_path, \"r\") as f:\n                    labels = [\n                        text_compressor.compress(l)\n                        for i, l in enumerate(f)\n                        if i not in skipped_indices\n                    ]\n\n                assert len(labels) == len(self.dataset_map[split][k]), (\n                    f\"labels length ({len(labels)}) and dataset length \"\n                    f\"({len(self.dataset_map[split][k])}) do not match\"\n                )\n\n                process_label = LabelEncoder(self.target_dictionary)\n\n                # TODO: Remove duplication of code from the if block above\n                target_dataset_map[k] = AddTargetDataset(\n                    self.dataset_map[split][k],\n                    labels,\n                    pad=self.target_dictionary.pad(),\n                    eos=self.target_dictionary.eos(),\n                    batch_targets=True,\n                    process_label=process_label,\n                    label_len_fn=label_len_fn,\n                    add_to_input=task_cfg.get(\"autoregressive\", False),\n                    text_compression_level=text_compression_level,\n                )\n\n                data_weights.append(multi_corpus_sampling_weights[corpus_idx_map[k]])\n\n            if len(target_dataset_map) == 1:\n                self.datasets[split] = list(target_dataset_map.values())[0]\n            else:\n                self.datasets[split] = MultiCorpusDataset(target_dataset_map, distribution=data_weights, seed=0, sort_indices=True)\n\n    @property\n    def target_dictionary(self):\n        \"\"\"Return the :class:`~fairseq.data.Dictionary` for the language\n        model.\"\"\"\n        return self.state.target_dictionary\n\n    def valid_step(self, sample, model, criterion):\n        loss, sample_size, logging_output = super().valid_step(sample, model, criterion)\n        if self.cfg.eval_wer and self.cfg.autoregressive:\n            metrics = self._inference_with_wer(self.sequence_generator, sample, model)\n            logging_output[\"_num_char_errors\"] = metrics[\"num_char_errors\"]\n            logging_output[\"_num_chars\"] = metrics[\"num_chars\"]\n            logging_output[\"_num_word_errors\"] = metrics[\"num_word_errors\"]\n            logging_output[\"_num_words\"] = metrics[\"num_words\"]\n        if self.cfg.eval_bleu and self.cfg.autoregressive:\n            metrics = self._inference_with_bleu(self.sequence_generator, sample, model)\n            logging_output[\"_bleu_sys_len\"] = metrics.sys_len\n            logging_output[\"_bleu_ref_len\"] = metrics.ref_len\n            # we split counts into separate entries so that they can be\n            # summed efficiently across workers using fast-stat-sync\n            assert len(metrics.counts) == 4\n            for i in range(4):\n                logging_output[f\"_bleu_counts_{i}\"] = metrics.counts[i]\n                logging_output[f\"_bleu_totals_{i}\"] = metrics.totals[i]\n        return loss, sample_size, logging_output\n\n    def build_model(self, model_cfg: FairseqDataclass, from_checkpoint=False):\n        model = super().build_model(model_cfg, from_checkpoint)\n\n        if self.cfg.eval_wer and self.cfg.autoregressive:\n            self.sequence_generator = self.build_generator(\n                [model],\n                self.cfg.eval_wer_config,\n            )\n            if self.cfg.eval_wer_tokenizer:\n                self.tokenizer = encoders.build_tokenizer(self.cfg.eval_wer_tokenizer)\n            else:\n                self.tokenizer = None\n        if self.cfg.eval_bleu and self.cfg.autoregressive:\n            assert self.cfg.eval_bleu_detok is not None, (\n                \"--eval-bleu-detok is required if using --eval-bleu; \"\n                \"try --eval-bleu-detok=moses (or --eval-bleu-detok=space \"\n                \"to disable detokenization, e.g., when using sentencepiece)\"\n            )\n            detok_args = json.loads(self.cfg.eval_bleu_detok_args)\n            self.tokenizer = encoders.build_tokenizer(\n                Namespace(tokenizer=self.cfg.eval_bleu_detok, **detok_args)\n            )\n            gen_args = json.loads(self.cfg.eval_bleu_args)\n            gen_args = Namespace(**gen_args)\n            self.sequence_generator = self.build_generator([model], gen_args)\n\n        return model\n\n    def _inference_with_wer(self, generator, sample, model):\n        import editdistance\n\n        def decode(toks):\n            s = self.target_dictionary.string(\n                toks.int().cpu(),\n                self.cfg.eval_wer_post_process,\n                escape_unk=True,\n            )\n            if self.tokenizer:\n                s = self.tokenizer.decode(s)\n            return s\n\n        num_word_errors, num_char_errors = 0, 0\n        num_chars, num_words = 0, 0\n        gen_out = self.inference_step(generator, [model], sample, None)\n        for i in range(len(gen_out)):\n            hyp = decode(gen_out[i][0][\"tokens\"])\n            ref = decode(\n                utils.strip_pad(sample[\"target\"][i], self.target_dictionary.pad()),\n            )\n            num_char_errors += editdistance.eval(hyp, ref)\n            num_chars += len(ref)\n            hyp_words = hyp.split()\n            ref_words = ref.split()\n            num_word_errors += editdistance.eval(hyp_words, ref_words)\n            num_words += len(ref_words)\n\n        return {\n            \"num_char_errors\": num_char_errors,\n            \"num_chars\": num_chars,\n            \"num_word_errors\": num_word_errors,\n            \"num_words\": num_words,\n        }\n\n    def _inference_with_bleu(self, generator, sample, model):\n        import sacrebleu\n\n        def decode(toks, is_ref):\n            s = self.target_dictionary.string(\n                toks.int().cpu(),\n                self.cfg.eval_bleu_remove_bpe,\n                # The default unknown string in fairseq is `<unk>`, but\n                # this is tokenized by sacrebleu as `< unk >`, inflating\n                # BLEU scores. Instead, we use a somewhat more verbose\n                # alternative that is unlikely to appear in the real\n                # reference, but doesn't get split into multiple tokens.\n                unk_string=(\"UNKNOWNTOKENINREF\" if is_ref else \"UNKNOWNTOKENINHYP\"),\n            )\n            if self.tokenizer:\n                s = self.tokenizer.decode(s)\n            return s\n\n        gen_out = self.inference_step(generator, [model], sample)\n        hyps, refs = [], []\n        for i in range(len(gen_out)):\n            hyps.append(decode(gen_out[i][0][\"tokens\"], is_ref=False))\n            refs.append(\n                decode(\n                    utils.strip_pad(sample[\"target\"][i], self.target_dictionary.pad()),\n                    is_ref=True,  # don't count <unk> as matches to the hypo\n                )\n            )\n        if self.cfg.eval_bleu_print_samples:\n            logger.info(\"H-{} {}\".format(sample[\"id\"][0], hyps[0]))\n            logger.info(\"T-{} {}\".format(sample[\"id\"][0], refs[0]))\n\n        eval_tokenization = \"none\" if self.cfg.eval_tokenized_bleu else \"13a\"\n        return sacrebleu.corpus_bleu(hyps, [refs], tokenize=eval_tokenization)\n\n    def reduce_metrics(self, logging_outputs, criterion):\n        super().reduce_metrics(logging_outputs, criterion)\n\n        if self.cfg.eval_wer:\n            zero = torch.scalar_tensor(0.0)\n            num_char_errors = sum(\n                log.get(\"_num_char_errors\", zero) for log in logging_outputs\n            )\n            num_chars = sum(log.get(\"_num_chars\", zero) for log in logging_outputs)\n            num_word_errors = sum(\n                log.get(\"_num_word_errors\", zero) for log in logging_outputs\n            )\n            num_words = sum(log.get(\"_num_words\", zero) for log in logging_outputs)\n            metrics.log_scalar(\"_num_char_errors\", num_char_errors)\n            metrics.log_scalar(\"_num_chars\", num_chars)\n            metrics.log_scalar(\"_num_word_errors\", num_word_errors)\n            metrics.log_scalar(\"_num_words\", num_words)\n            if num_chars > 0:\n                metrics.log_derived(\n                    \"uer\",\n                    lambda meters: meters[\"_num_char_errors\"].sum\n                    * 100.0\n                    / meters[\"_num_chars\"].sum\n                    if meters[\"_num_chars\"].sum > 0\n                    else float(\"nan\"),\n                )\n            if num_words > 0:\n                metrics.log_derived(\n                    \"wer\",\n                    lambda meters: meters[\"_num_word_errors\"].sum\n                    * 100.0\n                    / meters[\"_num_words\"].sum\n                    if meters[\"_num_words\"].sum > 0\n                    else float(\"nan\"),\n                )\n        if self.cfg.eval_bleu:\n            len_keys = [\"_bleu_sys_len\", \"_bleu_ref_len\"]\n            count_keys = [f\"_bleu_counts_{i}\" for i in range(4)]\n            total_keys = [f\"_bleu_totals_{i}\" for i in range(4)]\n            for k in len_keys + count_keys + total_keys:\n                metrics.log_scalar(k, sum(log.get(k, 0) for log in logging_outputs))\n\n            import sacrebleu\n\n            metrics.log_derived(\n                \"bleu\",\n                lambda meters: sacrebleu.compute_bleu(\n                    correct=[meters[k].sum for k in count_keys],\n                    total=[meters[k].sum for k in total_keys],\n                    sys_len=meters[\"_bleu_sys_len\"].sum,\n                    ref_len=meters[\"_bleu_ref_len\"].sum,\n                    smooth_method=\"exp\",\n                ).score,\n            )\n"
  },
  {
    "path": "fairseq/tasks/audio_pretraining.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nimport logging\nimport os\nimport sys\n\nfrom argparse import Namespace\nfrom dataclasses import dataclass, field\nfrom typing import Optional, OrderedDict\nfrom fairseq.data.multi_corpus_dataset import MultiCorpusDataset\nfrom omegaconf import MISSING, II, OmegaConf\n\nfrom fairseq.data import BinarizedAudioDataset, FileAudioDataset, SubsampleDataset\nfrom fairseq.dataclass import FairseqDataclass, ChoiceEnum\nfrom fairseq.data.text_compressor import TextCompressionLevel\n\nfrom . import FairseqTask, register_task\n\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass AudioMaskingConfig:\n    feature_encoder_spec: str = II(\"model.modalities.audio.feature_encoder_spec\")\n    mask_prob: float = II(\"model.modalities.audio.mask_prob\")\n    mask_prob_adjust: float = II(\"model.modalities.audio.mask_prob_adjust\")\n    mask_length: int = II(\"model.modalities.audio.mask_length\")\n    inverse_mask: bool = II(\"model.modalities.audio.inverse_mask\")\n    mask_dropout: float = II(\"model.modalities.audio.mask_dropout\")\n    clone_batch: int = II(\"model.clone_batch\")\n    expand_adjacent: bool = False\n    non_overlapping: bool = False\n\n\n@dataclass\nclass AudioPretrainingConfig(FairseqDataclass):\n    data: str = field(default=MISSING, metadata={\"help\": \"path to data directory\"})\n    labels: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"extension of the label file to load, used for fine-tuning\"},\n    )\n    multi_corpus_keys: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"Comma separated names for loading multi corpus datasets\"})\n    multi_corpus_sampling_weights: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"Comma separated string of sampling weights corresponding to the multi_corpus_keys\"})\n    binarized_dataset: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"if true, loads binarized dataset (useful for very large datasets). \"\n            \"See examples/wav2vec/scripts/binarize_manifest.sh\"\n        },\n    )\n    sample_rate: int = field(\n        default=16_000,\n        metadata={\n            \"help\": \"target sample rate. audio files will be up/down sampled to this rate\"\n        },\n    )\n    normalize: bool = field(\n        default=False,\n        metadata={\"help\": \"if set, normalizes input to have 0 mean and unit variance\"},\n    )\n    enable_padding: bool = field(\n        default=False, metadata={\"help\": \"pad shorter samples instead of cropping\"}\n    )\n    max_sample_size: Optional[int] = field(\n        default=None, metadata={\"help\": \"max sample size to crop to for batching\"}\n    )\n    min_sample_size: Optional[int] = field(\n        default=None, metadata={\"help\": \"min sample size to skip small examples\"}\n    )\n    num_batch_buckets: int = field(\n        default=0,\n        metadata={\"help\": \"number of buckets\"},\n    )\n    tpu: bool = II(\"common.tpu\")\n    text_compression_level: ChoiceEnum([x.name for x in TextCompressionLevel]) = field(\n        default=\"none\",\n        metadata={\n            \"help\": \"compression level for texts (e.g. audio filenames, \"\n            \"target texts): none/low/high (default: none). \"\n        },\n    )\n\n    rebuild_batches: bool = True\n    precompute_mask_config: Optional[AudioMaskingConfig] = None\n\n    post_save_script: Optional[str] = None\n\n    subsample: float = 1\n    seed: int = II(\"common.seed\")\n\n\n@register_task(\"audio_pretraining\", dataclass=AudioPretrainingConfig)\nclass AudioPretrainingTask(FairseqTask):\n    \"\"\" \"\"\"\n\n    cfg: AudioPretrainingConfig\n\n    @classmethod\n    def setup_task(cls, cfg: AudioPretrainingConfig, **kwargs):\n        \"\"\"Setup the task (e.g., load dictionaries).\n\n        Args:\n            cfg (AudioPretrainingConfig): configuration of this task\n        \"\"\"\n\n        return cls(cfg)\n\n    def load_dataset(self, split: str, task_cfg: FairseqDataclass = None, **kwargs):\n        data_path = self.cfg.data\n        task_cfg = task_cfg or self.cfg\n\n        # upgrade old task\n        if isinstance(task_cfg, Namespace):\n            if not hasattr(task_cfg, \"autoregressive\"):\n                task_cfg.autoregressive = not task_cfg.criterion == \"ctc\"\n\n        text_compression_level = getattr(\n            TextCompressionLevel, str(self.cfg.text_compression_level)\n        )\n\n        compute_mask = getattr(task_cfg, \"precompute_mask_config\", None) is not None\n        mask_args = {}\n        if compute_mask:\n            mask_args = task_cfg.precompute_mask_config\n\n        if getattr(task_cfg, \"binarized_dataset\", False):\n            self.datasets[split] = BinarizedAudioDataset(\n                data_path,\n                split=split,\n                sample_rate=task_cfg.get(\"sample_rate\", self.cfg.sample_rate),\n                max_sample_size=self.cfg.max_sample_size,\n                min_sample_size=self.cfg.min_sample_size,\n                pad=task_cfg.labels is not None or task_cfg.enable_padding,\n                normalize=task_cfg.normalize,\n                num_buckets=self.cfg.num_batch_buckets or int(self.cfg.tpu),\n                compute_mask=compute_mask,\n                **mask_args,\n            )\n        else:\n            if task_cfg.multi_corpus_keys is None:\n                manifest_path = os.path.join(data_path, \"{}.tsv\".format(split))                \n\n                self.datasets[split] = FileAudioDataset(\n                    manifest_path=manifest_path,\n                    sample_rate=task_cfg.get(\"sample_rate\", self.cfg.sample_rate),\n                    max_sample_size=self.cfg.max_sample_size,\n                    min_sample_size=self.cfg.min_sample_size,\n                    pad=task_cfg.labels is not None or task_cfg.enable_padding,\n                    normalize=task_cfg.normalize,\n                    num_buckets=self.cfg.num_batch_buckets or int(self.cfg.tpu),\n                    text_compression_level=text_compression_level,\n                    compute_mask=compute_mask,\n                    **mask_args,\n                )\n            else:\n                dataset_map = OrderedDict()\n                self.dataset_map = {}\n                multi_corpus_keys = [k.strip() for k in task_cfg.multi_corpus_keys.split(\",\")]\n                corpus_idx_map = {k: idx for idx, k in enumerate(multi_corpus_keys)}\n                data_keys = [k.split(\":\") for k in split.split(\",\")]\n\n                multi_corpus_sampling_weights = [float(val.strip()) for val in task_cfg.multi_corpus_sampling_weights.split(\",\")]\n                data_weights = []\n\n                for key, file_name in data_keys:\n                    \n                    k = key.strip()\n                    manifest_path = os.path.join(data_path, \"{}.tsv\".format(file_name.strip()))                \n\n                    # TODO: Remove duplication of code from the if block above\n                    dataset_map[k] = FileAudioDataset(\n                        manifest_path=manifest_path,\n                        sample_rate=task_cfg.get(\"sample_rate\", self.cfg.sample_rate),\n                        max_sample_size=self.cfg.max_sample_size,\n                        min_sample_size=self.cfg.min_sample_size,\n                        pad=task_cfg.labels is not None or task_cfg.enable_padding,\n                        normalize=task_cfg.normalize,\n                        num_buckets=self.cfg.num_batch_buckets or int(self.cfg.tpu),\n                        text_compression_level=text_compression_level,\n                        compute_mask=compute_mask,\n                        corpus_key=corpus_idx_map[k],\n                        **mask_args,\n                    )\n\n                    data_weights.append(multi_corpus_sampling_weights[corpus_idx_map[k]])\n\n                self.dataset_map[split] = dataset_map\n                \n                if len(dataset_map) == 1:\n                    self.datasets[split] = list(dataset_map.values())[0]\n                else:\n                    self.datasets[split] = MultiCorpusDataset(dataset_map, distribution=data_weights, seed=0, sort_indices=True)\n\n        if getattr(task_cfg, \"subsample\", 1) < 1:\n            self.datasets[split] = SubsampleDataset(\n                self.datasets[split],\n                task_cfg.subsample,\n                shuffle=True,\n                seed=task_cfg.seed,\n            )\n\n        if self.cfg.tpu and task_cfg.inferred_w2v_config.mask_channel_prob == 0.0:\n            logger.info(\n                \"Pretraining on TPUs may suffer convergence \"\n                \"issues when training with `mask_channel_prob` value of \"\n                \"0. You may want to set this to a low value close to 0.\"\n            )\n\n    def max_positions(self):\n        \"\"\"Maximum input length supported by the encoder.\"\"\"\n        return sys.maxsize, sys.maxsize\n\n    def build_model(self, model_cfg: FairseqDataclass, from_checkpoint=False):\n        model = super().build_model(model_cfg, from_checkpoint)\n\n        actualized_cfg = getattr(model, \"cfg\", None)\n        if actualized_cfg is not None:\n            # if \"w2v_args\" in actualized_cfg:\n            if hasattr(actualized_cfg, \"w2v_args\"):\n                model_cfg.w2v_args = actualized_cfg.w2v_args\n\n        return model\n\n    def post_save(self, cp_path, num_updates):\n        if self.cfg.post_save_script is not None:\n            logger.info(f\"launching {self.cfg.post_save_script}\")\n            import os.path as osp\n            from fairseq.file_io import PathManager\n\n            eval_cp_path = osp.join(\n                osp.dirname(cp_path), f\"checkpoint_eval_{num_updates}.pt\"\n            )\n\n            print(cp_path, eval_cp_path, osp.dirname(cp_path))\n\n            assert PathManager.copy(\n                cp_path, eval_cp_path, overwrite=True\n            ), f\"Failed to copy {cp_path} to {eval_cp_path}\"\n\n            import subprocess\n            import shlex\n\n            subprocess.call(shlex.split(f\"{self.cfg.post_save_script} {eval_cp_path}\"))\n"
  },
  {
    "path": "fairseq/tasks/cross_lingual_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport itertools\nimport logging\nimport os\nfrom collections import OrderedDict\n\nimport numpy as np\nfrom fairseq import tokenizer, utils\nfrom fairseq.data import ConcatDataset, Dictionary, TokenBlockDataset, data_utils\nfrom fairseq.data.legacy.masked_lm_dataset import MaskedLMDataset\nfrom fairseq.data.legacy.masked_lm_dictionary import MaskedLMDictionary\nfrom fairseq.data.multi_corpus_sampled_dataset import MultiCorpusSampledDataset\nfrom fairseq.tasks import LegacyFairseqTask, register_task\n\n\nlogger = logging.getLogger(__name__)\n\n\n@register_task(\"cross_lingual_lm\")\nclass CrossLingualLMTask(LegacyFairseqTask):\n    \"\"\"\n    Task for training cross-lingual language models.\n\n    For more details look at: https://arxiv.org/pdf/1901.07291.pdf\n\n    Args:\n        dictionary (Dictionary): the dictionary for the input of the task\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        parser.add_argument(\n            \"data\",\n            help=\"colon separated path to data directories list, \\\n                            will be iterated upon during epochs in round-robin manner\",\n        )\n        parser.add_argument(\n            \"--tokens-per-sample\",\n            default=512,\n            type=int,\n            help=\"max number of total tokens over all segments\" \" per sample\",\n        )\n        parser.add_argument(\n            \"--monolingual-langs\",\n            default=\"en\",\n            type=str,\n            help=\"comma separated list of languages for which we\"\n            \" want to train XLM on\",\n        )\n        parser.add_argument(\n            \"--shuffle\",\n            action=\"store_true\",\n            help=\"shuffle each monolingual dataset while\" \" training\",\n        )\n\n    def __init__(self, args, dictionary):\n        super().__init__(args)\n        self.dictionary = dictionary\n        self.seed = args.seed\n        self.distributed_world_size = args.distributed_world_size\n        self.langs2id = self._lang_to_id(args.monolingual_langs)\n\n    def _lang_to_id(self, languages: str):\n        \"\"\"\n        Build a map from languages to ids. These ids are used as segment labels\n        for cross-lingual LM training.\n        \"\"\"\n        lang2id = {}\n        langs = [l.strip() for l in languages.split(\",\")]\n        for id, lang in enumerate(langs):\n            lang2id[lang] = id\n        return lang2id\n\n    @classmethod\n    def load_dictionary(cls, filename):\n        return MaskedLMDictionary.load(filename)\n\n    @classmethod\n    def build_dictionary(\n        cls, filenames, workers=1, threshold=-1, nwords=-1, padding_factor=8\n    ):\n        d = MaskedLMDictionary()\n        for filename in filenames:\n            Dictionary.add_file_to_dictionary(\n                filename, d, tokenizer.tokenize_line, workers\n            )\n        d.finalize(threshold=threshold, nwords=nwords, padding_factor=padding_factor)\n        return d\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        \"\"\"Setup the task.\"\"\"\n        dictionary = MaskedLMDictionary.load(os.path.join(args.data, \"dict.txt\"))\n        logger.info(\"dictionary: {} types\".format(len(dictionary)))\n        return cls(args, dictionary)\n\n    def _load_single_lang_dataset(self, split, epoch):\n        loaded_datasets = []\n\n        paths = utils.split_paths(self.args.data)\n        assert len(paths) > 0\n        data_path = paths[(epoch - 1) % len(paths)]\n\n        for k in itertools.count():\n            split_k = split + (str(k) if k > 0 else \"\")\n            path = os.path.join(data_path, split_k)\n\n            ds = data_utils.load_indexed_dataset(\n                path, self.dictionary, self.args.dataset_impl\n            )\n            if ds is None:\n                if k > 0:\n                    break\n                else:\n                    raise FileNotFoundError(\n                        \"Dataset not found: {} ({})\".format(split, data_path)\n                    )\n\n            # Since we append each block with the classification_token,\n            # we need to effectively create blocks of length\n            # tokens_per_sample-1\n            loaded_datasets.append(\n                TokenBlockDataset(\n                    ds,\n                    ds.sizes,\n                    self.args.tokens_per_sample - 1,\n                    pad=self.dictionary.pad(),\n                    eos=self.dictionary.eos(),\n                )\n            )\n\n            logger.info(\n                \"{} {} {} examples\".format(data_path, split_k, len(loaded_datasets[-1]))\n            )\n\n        if len(loaded_datasets) == 1:\n            dataset = loaded_datasets[0]\n            sizes = dataset.sizes\n        else:\n            dataset = ConcatDataset(loaded_datasets)\n            sizes = np.concatenate([ds.sizes for ds in loaded_datasets])\n\n        return dataset, sizes\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        dataset_map = OrderedDict()\n\n        for lang in self.langs2id.keys():\n            # Datasets are expected to be in \"split.lang\" format (Eg: train.en)\n            language_split = \"{}.{}\".format(split, lang)\n\n            block_dataset, sizes = self._load_single_lang_dataset(\n                split=language_split, epoch=epoch\n            )\n\n            dataset_map[lang] = MaskedLMDataset(\n                dataset=block_dataset,\n                sizes=sizes,\n                vocab=self.dictionary,\n                pad_idx=self.dictionary.pad(),\n                mask_idx=self.dictionary.mask(),\n                classif_token_idx=self.dictionary.eos(),\n                sep_token_idx=self.dictionary.eos(),\n                shuffle=getattr(self.args, \"shuffle\", False),\n                has_pairs=False,\n                segment_id=self.langs2id[lang],\n                seed=self.seed,\n            )\n\n        self.datasets[split] = MultiCorpusSampledDataset(dataset_map)\n        logger.info(\n            \"{} {} {} examples\".format(\n                utils.split_paths(self.args.data)[epoch - 1],\n                split,\n                len(self.datasets[split]),\n            )\n        )\n"
  },
  {
    "path": "fairseq/tasks/denoising.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nfrom dataclasses import dataclass, field\nfrom typing import Any, Optional\n\nimport numpy as np\nfrom omegaconf import II, MISSING\n\nfrom fairseq import utils\nfrom fairseq.data import (\n    AppendTokenDataset,\n    DenoisingDataset,\n    Dictionary,\n    IdDataset,\n    NestedDictionaryDataset,\n    NumelDataset,\n    PadDataset,\n    PrependTokenDataset,\n    StripTokenDataset,\n    TokenBlockDataset,\n    data_utils,\n)\nfrom fairseq.data.encoders.utils import get_whole_word_mask\nfrom fairseq.data.shorten_dataset import maybe_shorten_dataset\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.tasks import FairseqTask, register_task\n\nfrom ..data.indexed_dataset import get_available_dataset_impl\n\nlogger = logging.getLogger(__name__)\n\nSAMPLE_BREAK_MODE_CHOICES = ChoiceEnum([\"none\", \"complete\", \"complete_doc\", \"eos\"])\nSHORTEN_METHOD_CHOICES = ChoiceEnum([\"none\", \"truncate\", \"random_crop\"])\nMASK_LENGTH_CHOICES = ChoiceEnum([\"subword\", \"word\", \"span-poisson\"])\n\n\n@dataclass\nclass DenoisingConfig(FairseqDataclass):\n    data: str = field(\n        default=MISSING,\n        metadata={\"help\": \"path to data directory\"},\n    )\n    bpe: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"TODO\"},\n    )\n    tokens_per_sample: int = field(\n        default=512,\n        metadata={\n            \"help\": \"max number of total tokens over all segments \"\n            \"per sample for dataset\"\n        },\n    )\n    sample_break_mode: SAMPLE_BREAK_MODE_CHOICES = field(\n        default=\"complete_doc\",\n        metadata={\n            \"help\": 'If omitted or \"none\", fills each sample with tokens-per-sample '\n            'tokens. If set to \"complete\", splits samples only at the end '\n            \"of sentence, but may include multiple sentences per sample. \"\n            '\"complete_doc\" is similar but respects doc boundaries. '\n            'If set to \"eos\", includes only one sentence per sample.'\n        },\n    )\n    replace_length: int = field(\n        default=0,\n        metadata={\"help\": \"TODO, should only allow -1, 0 and 1\"},\n    )\n    mask: float = field(\n        default=0.0,\n        metadata={\"help\": \"fraction of words/subwords that will be masked\"},\n    )\n    mask_random: float = field(\n        default=0.0,\n        metadata={\"help\": \"instead of using [MASK], use random token this often\"},\n    )\n    insert: float = field(\n        default=0.0,\n        metadata={\"help\": \"insert this percentage of additional random tokens\"},\n    )\n    permute: float = field(\n        default=0.0,\n        metadata={\"help\": \"take this proportion of subwords and permute them\"},\n    )\n    rotate: float = field(\n        default=0.5,\n        metadata={\"help\": \"rotate this proportion of inputs\"},\n    )\n    poisson_lambda: float = field(\n        default=3.0,\n        metadata={\"help\": \"randomly shuffle sentences for this proportion of inputs\"},\n    )\n    shuffle_instance: float = field(\n        default=0.0,\n        metadata={\"help\": \"shuffle this proportion of sentences in all inputs\"},\n    )\n    mask_length: MASK_LENGTH_CHOICES = field(\n        default=\"subword\",\n        metadata={\"help\": \"mask length to choose\"},\n    )\n    permute_sentences: int = field(\n        default=-1,\n        metadata={\n            \"help\": \"when masking N tokens, replace with 0, 1, or N tokens (use -1 for N)\"\n        },\n    )\n    seed: int = II(\"common.seed\")\n    shorten_method: SHORTEN_METHOD_CHOICES = field(\n        default=\"none\",\n        metadata={\n            \"help\": \"if not none, shorten sequences that exceed --tokens-per-sample\"\n        },\n    )\n    shorten_data_split_list: str = field(\n        default=\"\",\n        metadata={\n            \"help\": \"comma-separated list of dataset splits to apply shortening to, \"\n            'e.g., \"train,valid\" (default: all dataset splits)'\n        },\n    )\n    max_source_positions: int = field(\n        default=1024,\n        metadata={\"help\": \"max number of tokens in the source sequence\"},\n    )\n    max_target_positions: int = field(\n        default=1024,\n        metadata={\"help\": \"max number of tokens in the target sequence\"},\n    )\n    dataset_impl: Optional[ChoiceEnum(get_available_dataset_impl())] = II(\n        \"dataset.dataset_impl\"\n    )\n\n\n@register_task(\"denoising\", dataclass=DenoisingConfig)\nclass DenoisingTask(FairseqTask):\n    \"\"\"\n    Denoising task for applying sequence to sequence denoising. (ie. BART)\n    \"\"\"\n\n    cfg: DenoisingConfig\n\n    def __init__(self, cfg, dictionary):\n        super().__init__(cfg)\n        self.dictionary = dictionary\n\n        # add mask token\n        self.mask_idx = self.dictionary.add_symbol(\"<mask>\")\n\n    @classmethod\n    def setup_task(cls, cfg: DenoisingConfig, **kwargs):\n        \"\"\"Setup the task.\"\"\"\n        paths = utils.split_paths(cfg.data)\n        assert len(paths) > 0\n        dictionary = Dictionary.load(os.path.join(paths[0], \"dict.txt\"))\n        logger.info(\"dictionary: {} types\".format(len(dictionary)))\n        if not hasattr(cfg, \"shuffle_instance\"):\n            cfg.shuffle_instance = False\n        return cls(cfg, dictionary)\n\n    def _load_dataset_split(self, split, epoch, combine):\n        paths = utils.split_paths(self.cfg.data)\n        assert len(paths) > 0\n        data_path = paths[(epoch - 1) % len(paths)]\n        split_path = os.path.join(data_path, split)\n\n        dataset = data_utils.load_indexed_dataset(\n            split_path,\n            self.dictionary,\n            self.cfg.dataset_impl,\n            combine=combine,\n        )\n        if dataset is None:\n            raise FileNotFoundError(\n                \"Dataset not found: {} ({})\".format(split, split_path)\n            )\n\n        dataset = StripTokenDataset(dataset, self.dictionary.eos())\n\n        dataset = maybe_shorten_dataset(\n            dataset,\n            split,\n            self.cfg.shorten_data_split_list,\n            self.cfg.shorten_method,\n            self.cfg.tokens_per_sample,\n            self.cfg.seed,\n        )\n\n        # create continuous blocks of tokens\n        dataset = TokenBlockDataset(\n            dataset,\n            dataset.sizes,\n            self.cfg.tokens_per_sample - 2,\n            # one less for <s> and one for </s>\n            pad=self.dictionary.pad(),\n            eos=self.dictionary.eos(),\n            break_mode=self.cfg.sample_break_mode,\n            document_sep_len=0,\n        )\n        logger.info(\"loaded {} blocks from: {}\".format(len(dataset), split_path))\n\n        # prepend beginning-of-sentence token (<s>, equiv. to [CLS] in BERT)\n        dataset = PrependTokenDataset(dataset, self.source_dictionary.bos())\n        dataset = AppendTokenDataset(dataset, self.source_dictionary.eos())\n        return dataset\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        dataset = self._load_dataset_split(split, epoch, combine)\n\n        mask_whole_words = (\n            get_whole_word_mask(self.cfg.bpe, self.source_dictionary)\n            if self.cfg.mask_length != \"subword\"\n            else None\n        )\n\n        self.datasets[split] = DenoisingDataset(\n            dataset,\n            dataset.sizes,\n            self.dictionary,\n            self.mask_idx,\n            mask_whole_words,\n            shuffle=self.cfg.shuffle_instance,\n            seed=self.cfg.seed,\n            mask=self.cfg.mask,\n            mask_random=self.cfg.mask_random,\n            insert=self.cfg.insert,\n            rotate=self.cfg.rotate,\n            permute_sentences=self.cfg.permute_sentences,\n            bpe=self.cfg.bpe,\n            replace_length=self.cfg.replace_length,\n            mask_length=self.cfg.mask_length,\n            poisson_lambda=self.cfg.poisson_lambda,\n        )\n        logger.info(\n            \"Split: {0}, Loaded {1} samples of denoising_dataset\".format(\n                split,\n                len(self.datasets[split]),\n            )\n        )\n\n    def build_dataset_for_inference(self, src_tokens, src_lengths, **kwargs):\n        \"\"\"\n        Generate batches for inference. We assume that the input begins with a\n        bos symbol (`<s>`) and ends with an eos symbol (`</s>`).\n        \"\"\"\n        pad = self.source_dictionary.pad()\n        eos = self.source_dictionary.eos()\n        src_dataset = TokenBlockDataset(\n            src_tokens,\n            src_lengths,\n            block_size=self.cfg.tokens_per_sample - 2,  # for <s> and </s>\n            pad=pad,\n            eos=eos,\n            break_mode=self.cfg.sample_break_mode,\n            document_sep_len=0,\n        )\n        prev_output_tokens = PrependTokenDataset(\n            StripTokenDataset(src_dataset, eos), eos\n        )\n        src_dataset = PadDataset(src_dataset, pad_idx=pad, left_pad=False)\n        return NestedDictionaryDataset(\n            {\n                \"id\": IdDataset(),\n                \"net_input\": {\n                    \"src_tokens\": src_dataset,\n                    \"src_lengths\": NumelDataset(src_dataset, reduce=False),\n                    \"prev_output_tokens\": PadDataset(\n                        prev_output_tokens, pad_idx=pad, left_pad=False\n                    ),\n                },\n                \"target\": src_dataset,\n            },\n            sizes=[np.array(src_lengths)],\n        )\n\n    def max_positions(self):\n        \"\"\"Return the max sentence length allowed by the task.\"\"\"\n        return (self.cfg.max_source_positions, self.cfg.max_target_positions)\n\n    @property\n    def source_dictionary(self):\n        \"\"\"Return the source :class:`~fairseq.data.Dictionary`.\"\"\"\n        return self.dictionary\n\n    @property\n    def target_dictionary(self):\n        \"\"\"Return the target :class:`~fairseq.data.Dictionary`.\"\"\"\n        return self.dictionary\n"
  },
  {
    "path": "fairseq/tasks/fairseq_task.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport warnings\nfrom argparse import Namespace\nfrom typing import Any, Callable, Dict, List\n\nimport torch\nfrom fairseq import search, tokenizer, utils\nfrom fairseq.logging import metrics\nfrom fairseq.data import Dictionary, FairseqDataset, data_utils, encoders, iterators\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.dataclass.utils import gen_parser_from_dataclass\nfrom fairseq.optim.amp_optimizer import AMPOptimizer\nfrom omegaconf import DictConfig\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass StatefulContainer(object):\n    def __init__(self):\n        self._state = dict()\n        self._factories = dict()\n\n    def add_factory(self, name, factory: Callable[[], Any]):\n        self._factories[name] = factory\n\n    def merge_state_dict(self, state_dict: Dict[str, Any]):\n        self._state.update(state_dict)\n\n    @property\n    def state_dict(self) -> Dict[str, Any]:\n        return self._state\n\n    def __getattr__(self, name):\n        if name not in self._state and name in self._factories:\n            self._state[name] = self._factories[name]()\n\n        if name in self._state:\n            return self._state[name]\n\n        raise AttributeError(f\"Task state has no factory for attribute {name}\")\n\n\nclass FairseqTask(object):\n    \"\"\"\n    Tasks store dictionaries and provide helpers for loading/iterating over\n    Datasets, initializing the Model/Criterion and calculating the loss.\n\n    Tasks have limited statefulness. In particular, state that needs to be\n    saved to/loaded from checkpoints needs to be stored in the `self.state`\n    :class:`StatefulContainer` object. For example::\n\n        self.state.add_factory(\"dictionary\", self.load_dictionary)\n        print(self.state.dictionary)  # calls self.load_dictionary()\n\n    This is necessary so that when loading checkpoints, we can properly\n    recreate the task state after initializing the task instance.\n    \"\"\"\n\n    @classmethod\n    def add_args(cls, parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        dc = getattr(cls, \"__dataclass\", None)\n        if dc is not None:\n            gen_parser_from_dataclass(parser, dc())\n\n    @staticmethod\n    def logging_outputs_can_be_summed(criterion) -> bool:\n        \"\"\"\n        Whether the logging outputs returned by `train_step` and `valid_step` can\n        be summed across workers prior to calling `aggregate_logging_outputs`.\n        Setting this to True will improves distributed training speed.\n        \"\"\"\n        return criterion.logging_outputs_can_be_summed()\n\n    def __init__(self, cfg: FairseqDataclass, **kwargs):\n        self.cfg = cfg\n        self.datasets = dict()\n        self.dataset_to_epoch_iter = dict()\n        self.state = StatefulContainer()\n\n    @classmethod\n    def load_dictionary(cls, filename):\n        \"\"\"Load the dictionary from the filename\n\n        Args:\n            filename (str): the filename\n        \"\"\"\n        return Dictionary.load(filename)\n\n    @classmethod\n    def build_dictionary(\n        cls, filenames, workers=1, threshold=-1, nwords=-1, padding_factor=8\n    ):\n        \"\"\"Build the dictionary\n\n        Args:\n            filenames (list): list of filenames\n            workers (int): number of concurrent workers\n            threshold (int): defines the minimum word count\n            nwords (int): defines the total number of words in the final dictionary,\n                including special symbols\n            padding_factor (int): can be used to pad the dictionary size to be a\n                multiple of 8, which is important on some hardware (e.g., Nvidia\n                Tensor Cores).\n        \"\"\"\n        d = Dictionary()\n        for filename in filenames:\n            Dictionary.add_file_to_dictionary(\n                filename, d, tokenizer.tokenize_line, workers\n            )\n        d.finalize(threshold=threshold, nwords=nwords, padding_factor=padding_factor)\n        return d\n\n    @classmethod\n    def setup_task(cls, cfg: DictConfig, **kwargs):\n        \"\"\"Setup the task (e.g., load dictionaries).\n\n        Args:\n            cfg (omegaconf.DictConfig): parsed command-line arguments\n        \"\"\"\n        return cls(cfg, **kwargs)\n\n    def has_sharded_data(self, split):\n        return os.pathsep in getattr(self.cfg, \"data\", \"\")\n\n    def load_dataset(\n        self,\n        split: str,\n        combine: bool = False,\n        task_cfg: FairseqDataclass = None,\n        **kwargs,\n    ):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n            combine (bool): combines a split segmented into pieces into one dataset\n            task_cfg (FairseqDataclass): optional task configuration stored in the checkpoint that can be used\n                                         to load datasets\n        \"\"\"\n        raise NotImplementedError\n\n    def dataset(self, split):\n        \"\"\"\n        Return a loaded dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n\n        Returns:\n            a :class:`~fairseq.data.FairseqDataset` corresponding to *split*\n        \"\"\"\n        from fairseq.data import FairseqDataset\n\n        if split not in self.datasets:\n            raise KeyError(\"Dataset not loaded: \" + split)\n        if not isinstance(self.datasets[split], FairseqDataset):\n            raise TypeError(\"Datasets are expected to be of type FairseqDataset\")\n        return self.datasets[split]\n\n    def filter_indices_by_size(\n        self, indices, dataset, max_positions=None, ignore_invalid_inputs=False\n    ):\n        \"\"\"\n        Filter examples that are too large\n\n        Args:\n            indices (np.array): original array of sample indices\n            dataset (~fairseq.data.FairseqDataset): dataset to batch\n            max_positions (optional): max sentence length supported by the\n                model (default: None).\n            ignore_invalid_inputs (bool, optional): don't raise Exception for\n                sentences that are too long (default: False).\n        Returns:\n            np.array: array of filtered sample indices\n        \"\"\"\n        indices, ignored = dataset.filter_indices_by_size(indices, max_positions)\n        if len(ignored) > 0:\n            if not ignore_invalid_inputs:\n                raise Exception(\n                    (\n                        \"Size of sample #{} is invalid (={}) since max_positions={}, \"\n                        \"skip this example with --skip-invalid-size-inputs-valid-test\"\n                    ).format(ignored[0], dataset.size(ignored[0]), max_positions)\n                )\n            logger.warning(\n                (\n                    \"{:,} samples have invalid sizes and will be skipped, \"\n                    \"max_positions={}, first few sample ids={}\"\n                ).format(len(ignored), max_positions, ignored[:10])\n            )\n        return indices\n\n    def can_reuse_epoch_itr(self, dataset):\n        # We can reuse the epoch iterator across epochs as long as the dataset\n        # hasn't disabled it. We default to ``False`` here, although in practice\n        # this will be ``True`` for most datasets that inherit from\n        # ``FairseqDataset`` due to the base implementation there.\n        return getattr(dataset, \"can_reuse_epoch_itr_across_epochs\", False)\n\n    def get_batch_iterator(\n        self,\n        dataset,\n        max_tokens=None,\n        max_sentences=None,\n        max_positions=None,\n        ignore_invalid_inputs=False,\n        required_batch_size_multiple=1,\n        seed=1,\n        num_shards=1,\n        shard_id=0,\n        num_workers=0,\n        epoch=1,\n        data_buffer_size=0,\n        disable_iterator_cache=False,\n        skip_remainder_batch=False,\n        grouped_shuffling=False,\n        update_epoch_batch_itr=False,\n    ):\n        \"\"\"\n        Get an iterator that yields batches of data from the given dataset.\n\n        Args:\n            dataset (~fairseq.data.FairseqDataset): dataset to batch\n            max_tokens (int, optional): max number of tokens in each batch\n                (default: None).\n            max_sentences (int, optional): max number of sentences in each\n                batch (default: None).\n            max_positions (optional): max sentence length supported by the\n                model (default: None).\n            ignore_invalid_inputs (bool, optional): don't raise Exception for\n                sentences that are too long (default: False).\n            required_batch_size_multiple (int, optional): require batch size to\n                be a multiple of N (default: 1).\n            seed (int, optional): seed for random number generator for\n                reproducibility (default: 1).\n            num_shards (int, optional): shard the data iterator into N\n                shards (default: 1).\n            shard_id (int, optional): which shard of the data iterator to\n                return (default: 0).\n            num_workers (int, optional): how many subprocesses to use for data\n                loading. 0 means the data will be loaded in the main process\n                (default: 0).\n            epoch (int, optional): the epoch to start the iterator from\n                (default: 1).\n            data_buffer_size (int, optional): number of batches to\n                preload (default: 0).\n            disable_iterator_cache (bool, optional): don't cache the\n                EpochBatchIterator (ignores `FairseqTask::can_reuse_epoch_itr`)\n                (default: False).\n            skip_remainder_batch (bool, optional): if set, discard the last\n                batch in each training epoch, as the last batch is often smaller than\n                    local_batch_size * distributed_word_size (default: ``True``).\n            grouped_shuffling (bool, optional): group batches with each groups\n                containing num_shards batches and shuffle groups. Reduces difference\n                between sequence lengths among workers for batches sorted by length.\n            update_epoch_batch_itr (bool optional): if true then donot use the cached\n                batch iterator for the epoch\n\n        Returns:\n            ~fairseq.iterators.EpochBatchIterator: a batched iterator over the\n                given dataset split\n        \"\"\"\n        can_reuse_epoch_itr = (\n            not disable_iterator_cache\n            and not update_epoch_batch_itr\n            and self.can_reuse_epoch_itr(dataset)\n        )\n        logger.info(f\"can_reuse_epoch_itr = {can_reuse_epoch_itr}\")\n        if can_reuse_epoch_itr and dataset in self.dataset_to_epoch_iter:\n            logger.debug(\"reusing EpochBatchIterator for epoch {}\".format(epoch))\n            return self.dataset_to_epoch_iter[dataset]\n\n        assert isinstance(dataset, FairseqDataset)\n\n        # initialize the dataset with the correct starting epoch\n        dataset.set_epoch(epoch)\n\n        def make_batches(dataset, epoch):\n            logger.info(f\"creating new batches for epoch {epoch}\")\n\n            # get indices ordered by example size\n            with data_utils.numpy_seed(seed + epoch):\n                indices = dataset.ordered_indices()\n\n            # filter examples that are too large\n            if max_positions is not None:\n                indices = self.filter_indices_by_size(\n                    indices, dataset, max_positions, ignore_invalid_inputs\n                )\n\n            # create mini-batches with given size constraints\n            batches = dataset.batch_by_size(\n                indices,\n                max_tokens=max_tokens,\n                max_sentences=max_sentences,\n                required_batch_size_multiple=required_batch_size_multiple,\n            )\n            return batches\n\n        reuse_dataloader = getattr(self.cfg, \"reuse_dataloader\", True)\n        persistent_workers = getattr(self.cfg, \"persistent_workers\", True)\n        rebuild_batches = getattr(self.cfg, \"rebuild_batches\", False)\n        logger.info(f\"reuse_dataloader = {reuse_dataloader}\")\n        logger.info(f\"rebuild_batches = {rebuild_batches}\")\n\n        if rebuild_batches:\n            logger.info(\"batches will be rebuilt for each epoch\")\n            batch_sampler = make_batches\n        else:\n            batch_sampler = make_batches(dataset, epoch)\n\n        # return a reusable, sharded iterator\n        epoch_iter = iterators.EpochBatchIterator(\n            dataset=dataset,\n            collate_fn=dataset.collater,\n            batch_sampler=batch_sampler,\n            seed=seed,\n            num_shards=num_shards,\n            shard_id=shard_id,\n            num_workers=num_workers,\n            epoch=epoch,\n            buffer_size=data_buffer_size,\n            skip_remainder_batch=skip_remainder_batch,\n            grouped_shuffling=grouped_shuffling,\n            reuse_dataloader=reuse_dataloader,\n            persistent_workers=persistent_workers,\n        )\n\n        if can_reuse_epoch_itr:\n            self.dataset_to_epoch_iter[dataset] = epoch_iter\n\n        return epoch_iter\n\n    def build_model(self, cfg: FairseqDataclass, from_checkpoint=False):\n        \"\"\"\n        Build the :class:`~fairseq.models.BaseFairseqModel` instance for this\n        task.\n\n        Args:\n            cfg (FairseqDataclass): configuration object\n\n        Returns:\n            a :class:`~fairseq.models.BaseFairseqModel` instance\n        \"\"\"\n        from fairseq import models, quantization_utils\n\n        model = models.build_model(cfg, self, from_checkpoint)\n        model = quantization_utils.quantize_model_scalar(model, cfg)\n        return model\n\n    def build_criterion(self, cfg: DictConfig, from_checkpoint=False):\n        \"\"\"\n        Build the :class:`~fairseq.criterions.FairseqCriterion` instance for\n        this task.\n\n        Args:\n            cfg (omegaconf.DictConfig): configration object\n\n        Returns:\n            a :class:`~fairseq.criterions.FairseqCriterion` instance\n        \"\"\"\n        from fairseq import criterions\n\n        return criterions.build_criterion(cfg, self, from_checkpoint=from_checkpoint)\n\n    def build_generator(\n        self,\n        models,\n        args,\n        seq_gen_cls=None,\n        extra_gen_cls_kwargs=None,\n        prefix_allowed_tokens_fn=None,\n    ):\n        \"\"\"\n        Build a :class:`~fairseq.SequenceGenerator` instance for this\n        task.\n\n        Args:\n            models (List[~fairseq.models.FairseqModel]): ensemble of models\n            args (fairseq.dataclass.configs.GenerationConfig):\n                configuration object (dataclass) for generation\n            extra_gen_cls_kwargs (Dict[str, Any]): extra options to pass\n                through to SequenceGenerator\n            prefix_allowed_tokens_fn (Callable[[int, torch.Tensor], List[int]]):\n                If provided, this function constrains the beam search to\n                allowed tokens only at each step. The provided function\n                should take 2 arguments: the batch ID (`batch_id: int`)\n                and a unidimensional tensor of token ids (`inputs_ids:\n                torch.Tensor`). It has to return a `List[int]` with the\n                allowed tokens for the next generation step conditioned\n                on the previously generated tokens (`inputs_ids`) and\n                the batch ID (`batch_id`). This argument is useful for\n                constrained generation conditioned on the prefix, as\n                described in \"Autoregressive Entity Retrieval\"\n                (https://arxiv.org/abs/2010.00904) and\n                https://github.com/facebookresearch/GENRE.\n        \"\"\"\n        if getattr(args, \"score_reference\", False):\n            from fairseq.sequence_scorer import SequenceScorer\n\n            return SequenceScorer(\n                self.target_dictionary,\n                compute_alignment=getattr(args, \"print_alignment\", False),\n            )\n\n        from fairseq.sequence_generator import (\n            SequenceGenerator,\n            SequenceGeneratorWithAlignment,\n        )\n\n        # Choose search strategy. Defaults to Beam Search.\n        sampling = getattr(args, \"sampling\", False)\n        sampling_topk = getattr(args, \"sampling_topk\", -1)\n        sampling_topp = getattr(args, \"sampling_topp\", -1.0)\n        diverse_beam_groups = getattr(args, \"diverse_beam_groups\", -1)\n        diverse_beam_strength = getattr(args, \"diverse_beam_strength\", 0.5)\n        match_source_len = getattr(args, \"match_source_len\", False)\n        diversity_rate = getattr(args, \"diversity_rate\", -1)\n        constrained = getattr(args, \"constraints\", False)\n        if prefix_allowed_tokens_fn is None:\n            prefix_allowed_tokens_fn = getattr(args, \"prefix_allowed_tokens_fn\", None)\n        if (\n            sum(\n                int(cond)\n                for cond in [\n                    sampling,\n                    diverse_beam_groups > 0,\n                    match_source_len,\n                    diversity_rate > 0,\n                ]\n            )\n            > 1\n        ):\n            raise ValueError(\"Provided Search parameters are mutually exclusive.\")\n        assert sampling_topk < 0 or sampling, \"--sampling-topk requires --sampling\"\n        assert sampling_topp < 0 or sampling, \"--sampling-topp requires --sampling\"\n\n        if sampling:\n            search_strategy = search.Sampling(\n                self.target_dictionary, sampling_topk, sampling_topp\n            )\n        elif diverse_beam_groups > 0:\n            search_strategy = search.DiverseBeamSearch(\n                self.target_dictionary, diverse_beam_groups, diverse_beam_strength\n            )\n        elif match_source_len:\n            # this is useful for tagging applications where the output\n            # length should match the input length, so we hardcode the\n            # length constraints for simplicity\n            search_strategy = search.LengthConstrainedBeamSearch(\n                self.target_dictionary,\n                min_len_a=1,\n                min_len_b=0,\n                max_len_a=1,\n                max_len_b=0,\n            )\n        elif diversity_rate > -1:\n            search_strategy = search.DiverseSiblingsSearch(\n                self.target_dictionary, diversity_rate\n            )\n        elif constrained:\n            search_strategy = search.LexicallyConstrainedBeamSearch(\n                self.target_dictionary, args.constraints\n            )\n        elif prefix_allowed_tokens_fn:\n            search_strategy = search.PrefixConstrainedBeamSearch(\n                self.target_dictionary, prefix_allowed_tokens_fn\n            )\n        else:\n            search_strategy = search.BeamSearch(self.target_dictionary)\n\n        extra_gen_cls_kwargs = extra_gen_cls_kwargs or {}\n        if seq_gen_cls is None:\n            if getattr(args, \"print_alignment\", False):\n                seq_gen_cls = SequenceGeneratorWithAlignment\n                extra_gen_cls_kwargs[\"print_alignment\"] = args.print_alignment\n            else:\n                seq_gen_cls = SequenceGenerator\n\n        return seq_gen_cls(\n            models,\n            self.target_dictionary,\n            beam_size=getattr(args, \"beam\", 5),\n            max_len_a=getattr(args, \"max_len_a\", 0),\n            max_len_b=getattr(args, \"max_len_b\", 200),\n            min_len=getattr(args, \"min_len\", 1),\n            normalize_scores=(not getattr(args, \"unnormalized\", False)),\n            len_penalty=getattr(args, \"lenpen\", 1),\n            unk_penalty=getattr(args, \"unkpen\", 0),\n            temperature=getattr(args, \"temperature\", 1.0),\n            match_source_len=getattr(args, \"match_source_len\", False),\n            no_repeat_ngram_size=getattr(args, \"no_repeat_ngram_size\", 0),\n            search_strategy=search_strategy,\n            **extra_gen_cls_kwargs,\n        )\n\n    def train_step(\n        self, sample, model, criterion, optimizer, update_num, ignore_grad=False\n    ):\n        \"\"\"\n        Do forward and backward, and return the loss as computed by *criterion*\n        for the given *model* and *sample*.\n\n        Args:\n            sample (dict): the mini-batch. The format is defined by the\n                :class:`~fairseq.data.FairseqDataset`.\n            model (~fairseq.models.BaseFairseqModel): the model\n            criterion (~fairseq.criterions.FairseqCriterion): the criterion\n            optimizer (~fairseq.optim.FairseqOptimizer): the optimizer\n            update_num (int): the current update\n            ignore_grad (bool): multiply loss by 0 if this is set to True\n\n        Returns:\n            tuple:\n                - the loss\n                - the sample size, which is used as the denominator for the\n                  gradient\n                - logging outputs to display while training\n        \"\"\"\n        model.train()\n        model.set_num_updates(update_num)\n        with torch.autograd.profiler.record_function(\"forward\"):\n            with torch.cuda.amp.autocast(enabled=(isinstance(optimizer, AMPOptimizer))):\n                loss, sample_size, logging_output = criterion(model, sample)\n        if ignore_grad:\n            loss *= 0\n        with torch.autograd.profiler.record_function(\"backward\"):\n            optimizer.backward(loss)\n        return loss, sample_size, logging_output\n\n    def valid_step(self, sample, model, criterion):\n        model.eval()\n        with torch.no_grad():\n            loss, sample_size, logging_output = criterion(model, sample)\n        return loss, sample_size, logging_output\n\n    def optimizer_step(self, optimizer, model, update_num):\n        optimizer.step()\n\n    def build_dataset_for_inference(\n        self, src_tokens: List[torch.Tensor], src_lengths: List[int], **kwargs\n    ) -> torch.utils.data.Dataset:\n        raise NotImplementedError\n\n    def inference_step(\n        self, generator, models, sample, prefix_tokens=None, constraints=None\n    ):\n        with torch.no_grad():\n            return generator.generate(\n                models, sample, prefix_tokens=prefix_tokens, constraints=constraints\n            )\n\n    def begin_epoch(self, epoch, model):\n        \"\"\"Hook function called before the start of each epoch.\"\"\"\n        pass\n\n    def begin_valid_epoch(self, epoch, model):\n        \"\"\"Hook function called before the start of each validation epoch.\"\"\"\n        pass\n\n    def aggregate_logging_outputs(self, logging_outputs, criterion):\n        \"\"\"[deprecated] Aggregate logging outputs from data parallel training.\"\"\"\n        utils.deprecation_warning(\n            \"The aggregate_logging_outputs API is deprecated. \"\n            \"Please use the reduce_metrics API instead.\"\n        )\n        with metrics.aggregate() as agg:\n            self.reduce_metrics(logging_outputs, criterion)\n            return agg.get_smoothed_values()\n\n    def reduce_metrics(self, logging_outputs, criterion):\n        \"\"\"Aggregate logging outputs from data parallel training.\"\"\"\n        # backward compatibility for tasks that override aggregate_logging_outputs\n        base_func = FairseqTask.aggregate_logging_outputs\n        self_func = getattr(self, \"aggregate_logging_outputs\").__func__\n        if self_func is not base_func:\n            utils.deprecation_warning(\n                \"Tasks should implement the reduce_metrics API. \"\n                \"Falling back to deprecated aggregate_logging_outputs API.\"\n            )\n            agg_logging_outputs = self.aggregate_logging_outputs(\n                logging_outputs, criterion\n            )\n            for k, v in agg_logging_outputs.items():\n                metrics.log_scalar(k, v)\n            return\n\n        if not any(\"ntokens\" in log for log in logging_outputs):\n            warnings.warn(\n                \"ntokens not found in Criterion logging outputs, cannot log wpb or wps\"\n            )\n        else:\n            ntokens = sum(log.get(\"ntokens\", 0) for log in logging_outputs)\n            metrics.log_scalar(\"wpb\", ntokens, priority=180, round=1)\n            metrics.log_speed(\"wps\", ntokens, priority=90, round=1)\n\n        if not any(\"nsentences\" in log for log in logging_outputs):\n            warnings.warn(\n                \"nsentences not found in Criterion logging outputs, cannot log bsz\"\n            )\n        else:\n            nsentences = sum(log.get(\"nsentences\", 0) for log in logging_outputs)\n            metrics.log_scalar(\"bsz\", nsentences, priority=190, round=1)\n\n        criterion.__class__.reduce_metrics(logging_outputs)\n\n    def state_dict(self):\n        if self.state is not None:\n            return self.state.state_dict\n        return {}\n\n    def load_state_dict(self, state_dict: Dict[str, Any]):\n        if self.state is not None:\n            self.state.merge_state_dict(state_dict)\n\n    def max_positions(self):\n        \"\"\"Return the max input length allowed by the task.\"\"\"\n        return None\n\n    @property\n    def source_dictionary(self):\n        \"\"\"Return the source :class:`~fairseq.data.Dictionary` (if applicable\n        for this task).\"\"\"\n        return None\n\n    @property\n    def target_dictionary(self):\n        \"\"\"Return the target :class:`~fairseq.data.Dictionary` (if applicable\n        for this task).\"\"\"\n        return None\n\n    def build_tokenizer(self, args):\n        \"\"\"Build the pre-tokenizer for this task.\"\"\"\n        return encoders.build_tokenizer(args)\n\n    def build_bpe(self, args):\n        \"\"\"Build the tokenizer for this task.\"\"\"\n        return encoders.build_bpe(args)\n\n    def get_interactive_tokens_and_lengths(self, lines, encode_fn):\n        tokens = [\n            self.source_dictionary.encode_line(\n                encode_fn(src_str), add_if_not_exist=False\n            ).long()\n            for src_str in lines\n        ]\n        lengths = [t.numel() for t in tokens]\n        return tokens, lengths\n\n\nclass LegacyFairseqTask(FairseqTask):\n    def __init__(self, args: Namespace):\n        super().__init__(None)\n        self.args = args\n        self.datasets = {}\n        self.dataset_to_epoch_iter = {}\n\n    @classmethod\n    def setup_task(cls, args: Namespace, **kwargs):\n        \"\"\"Setup the task (e.g., load dictionaries).\n\n        Args:\n            args (argparse.Namespace): parsed command-line arguments\n        \"\"\"\n        return cls(args, **kwargs)\n\n    def has_sharded_data(self, split):\n        return os.pathsep in getattr(self.args, \"data\", \"\")\n\n    def build_model(self, args: Namespace, from_checkpoint=False):\n        \"\"\"\n        Build the :class:`~fairseq.models.BaseFairseqModel` instance for this\n        task.\n\n        Args:\n            args (argparse.Namespace): parsed command-line arguments\n\n        Returns:\n            a :class:`~fairseq.models.BaseFairseqModel` instance\n        \"\"\"\n        from fairseq import models, quantization_utils\n\n        model = models.build_model(args, self, from_checkpoint)\n        model = quantization_utils.quantize_model_scalar(model, args)\n        return model\n\n    def build_criterion(self, args: Namespace):\n        \"\"\"\n        Build the :class:`~fairseq.criterions.FairseqCriterion` instance for\n        this task.\n\n        Args:\n            args (argparse.Namespace): parsed command-line arguments\n\n        Returns:\n            a :class:`~fairseq.criterions.FairseqCriterion` instance\n        \"\"\"\n        from fairseq import criterions\n\n        return criterions.build_criterion(args, self)\n"
  },
  {
    "path": "fairseq/tasks/frm_text_to_speech.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nfrom fairseq.data.audio.frm_text_to_speech_dataset import FrmTextToSpeechDatasetCreator\nfrom fairseq.tasks import register_task\nfrom fairseq.tasks.text_to_speech import TextToSpeechTask\n\n\nlogging.basicConfig(\n    format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n    datefmt=\"%Y-%m-%d %H:%M:%S\",\n    level=logging.INFO,\n)\nlogger = logging.getLogger(__name__)\n\n\n@register_task(\"frm_text_to_speech\")\nclass FrmTextToSpeechTask(TextToSpeechTask):\n    @staticmethod\n    def add_args(parser):\n        TextToSpeechTask.add_args(parser)\n        parser.add_argument(\"--do_chunk\", action=\"store_true\", help=\"train on chunks\")\n        parser.add_argument(\"--chunk_bound\", default=-1, type=int)\n        parser.add_argument(\"--chunk_init\", default=50, type=int)\n        parser.add_argument(\"--chunk_incr\", default=5, type=int)\n        parser.add_argument(\"--add_eos\", action=\"store_true\")\n        parser.add_argument(\"--dedup\", action=\"store_true\")\n        parser.add_argument(\"--ref_fpu\", default=-1, type=float)\n\n    def load_dataset(self, split, **unused_kwargs):\n        is_train_split = split.startswith(\"train\")\n        pre_tokenizer = self.build_tokenizer(self.args)\n        bpe_tokenizer = self.build_bpe(self.args)\n        self.datasets[split] = FrmTextToSpeechDatasetCreator.from_tsv(\n            self.args.data,\n            self.data_cfg,\n            split,\n            self.src_dict,\n            pre_tokenizer,\n            bpe_tokenizer,\n            is_train_split=is_train_split,\n            n_frames_per_step=self.args.n_frames_per_step,\n            speaker_to_id=self.speaker_to_id,\n            do_chunk=self.args.do_chunk,\n            chunk_bound=self.args.chunk_bound,\n            chunk_init=self.args.chunk_init,\n            chunk_incr=self.args.chunk_incr,\n            add_eos=self.args.add_eos,\n            dedup=self.args.dedup,\n            ref_fpu=self.args.ref_fpu,\n        )\n"
  },
  {
    "path": "fairseq/tasks/hubert_pretraining.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nimport logging\nimport os\nimport sys\nfrom typing import Dict, List, Optional, Tuple\n\nimport numpy as np\n\nfrom dataclasses import dataclass, field\nfrom fairseq.data import Dictionary, HubertDataset\nfrom fairseq.dataclass.configs import FairseqDataclass\nfrom fairseq.tasks import register_task\nfrom fairseq.tasks.fairseq_task import FairseqTask\nfrom omegaconf import MISSING\n\nlogger = logging.getLogger(__name__)\n\n\nclass LabelEncoder(object):\n    def __init__(self, dictionary: Dictionary) -> None:\n        self.dictionary = dictionary\n\n    def __call__(self, label: str) -> List[str]:\n        return self.dictionary.encode_line(\n            label,\n            append_eos=False,\n            add_if_not_exist=False,\n        )\n\n\n@dataclass\nclass HubertPretrainingConfig(FairseqDataclass):\n    data: str = field(default=MISSING, metadata={\"help\": \"path to data directory\"})\n    fine_tuning: bool = field(\n        default=False, metadata={\"help\": \"set to true if fine-tuning Hubert\"}\n    )\n    labels: List[str] = field(\n        default_factory=lambda: [\"ltr\"],\n        metadata={\n            \"help\": (\n                \"extension of the label files to load, frame-level labels for\"\n                \" pre-training, and sequence-level label for fine-tuning\"\n            )\n        },\n    )\n    label_dir: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"if set, looks for labels in this directory instead\",\n        },\n    )\n    label_rate: float = field(\n        default=-1.0,\n        metadata={\"help\": \"label frame rate. -1.0 for sequence label\"},\n    )\n    sample_rate: int = field(\n        default=16_000,\n        metadata={\n            \"help\": \"target sample rate. audio files will be up/down \"\n            \"sampled to this rate\"\n        },\n    )\n    normalize: bool = field(\n        default=False,\n        metadata={\"help\": \"if set, normalizes input to have 0 mean and unit variance\"},\n    )\n    enable_padding: bool = field(\n        default=False,\n        metadata={\"help\": \"pad shorter samples instead of cropping\"},\n    )\n    max_keep_size: Optional[int] = field(\n        default=None,\n        metadata={\"help\": \"exclude sample longer than this\"},\n    )\n    max_sample_size: Optional[int] = field(\n        default=None,\n        metadata={\"help\": \"max sample size to crop to for batching\"},\n    )\n    min_sample_size: Optional[int] = field(\n        default=None,\n        metadata={\"help\": \"min sample size to crop to for batching\"},\n    )\n    single_target: Optional[bool] = field(\n        default=False,\n        metadata={\n            \"help\": \"if set, AddTargetDatasets outputs same keys \" \"as AddTargetDataset\"\n        },\n    )\n    random_crop: Optional[bool] = field(\n        default=True,\n        metadata={\"help\": \"always crop from the beginning if false\"},\n    )\n    pad_audio: Optional[bool] = field(\n        default=False,\n        metadata={\"help\": \"pad audio to the longest one in the batch if true\"},\n    )\n\n\n@register_task(\"hubert_pretraining\", dataclass=HubertPretrainingConfig)\nclass HubertPretrainingTask(FairseqTask):\n\n    cfg: HubertPretrainingConfig\n\n    def __init__(\n        self,\n        cfg: HubertPretrainingConfig,\n    ) -> None:\n        super().__init__(cfg)\n\n        logger.info(f\"current directory is {os.getcwd()}\")\n        logger.info(f\"HubertPretrainingTask Config {cfg}\")\n\n        self.cfg = cfg\n        self.fine_tuning = cfg.fine_tuning\n\n        if cfg.fine_tuning:\n            self.state.add_factory(\"target_dictionary\", self.load_dictionaries)\n        else:\n            self.state.add_factory(\"dictionaries\", self.load_dictionaries)\n\n        self.blank_symbol = \"<s>\"\n\n    @property\n    def source_dictionary(self) -> Optional[Dictionary]:\n        return None\n\n    @property\n    def target_dictionary(self) -> Optional[Dictionary]:\n        return self.state.target_dictionary\n\n    @property\n    def dictionaries(self) -> List[Dictionary]:\n        return self.state.dictionaries\n\n    @classmethod\n    def setup_task(\n        cls, cfg: HubertPretrainingConfig, **kwargs\n    ) -> \"HubertPretrainingTask\":\n        return cls(cfg)\n\n    def load_dictionaries(self):\n        label_dir = self.cfg.data if self.cfg.label_dir is None else self.cfg.label_dir\n        dictionaries = [\n            Dictionary.load(f\"{label_dir}/dict.{label}.txt\")\n            for label in self.cfg.labels\n        ]\n        return dictionaries[0] if self.cfg.fine_tuning else dictionaries\n\n    def get_label_dir(self) -> str:\n        if self.cfg.label_dir is None:\n            return self.cfg.data\n        return self.cfg.label_dir\n\n    def load_dataset(self, split: str, **kwargs) -> None:\n        manifest = f\"{self.cfg.data}/{split}.tsv\"\n        dicts = [self.target_dictionary] if self.cfg.fine_tuning else self.dictionaries\n        pad_list = [dict.pad() for dict in dicts]\n        eos_list = [dict.eos() for dict in dicts]\n        procs = [LabelEncoder(dict) for dict in dicts]\n        paths = [f\"{self.get_label_dir()}/{split}.{l}\" for l in self.cfg.labels]\n\n        # hubert v1: pad_audio=True, random_crop=False;\n        self.datasets[split] = HubertDataset(\n            manifest,\n            sample_rate=self.cfg.sample_rate,\n            label_paths=paths,\n            label_rates=self.cfg.label_rate,\n            pad_list=pad_list,\n            eos_list=eos_list,\n            label_processors=procs,\n            max_keep_sample_size=self.cfg.max_keep_size,\n            min_keep_sample_size=self.cfg.min_sample_size,\n            max_sample_size=self.cfg.max_sample_size,\n            pad_audio=self.cfg.pad_audio,\n            normalize=self.cfg.normalize,\n            store_labels=False,\n            random_crop=self.cfg.random_crop,\n            single_target=self.cfg.single_target,\n        )\n\n    def max_positions(self) -> Tuple[int, int]:\n        return (sys.maxsize, sys.maxsize)\n\n    def filter_indices_by_size(self, indices: np.array, *args, **kwargs) -> np.array:\n        return indices\n"
  },
  {
    "path": "fairseq/tasks/language_modeling.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nfrom dataclasses import dataclass, field\nfrom typing import Optional\n\nimport numpy as np\nimport torch\nfrom fairseq import utils\nfrom fairseq.data import (\n    AppendTokenDataset,\n    Dictionary,\n    IdDataset,\n    LMContextWindowDataset,\n    MonolingualDataset,\n    NestedDictionaryDataset,\n    NumelDataset,\n    PadDataset,\n    PrependTokenDataset,\n    StripTokenDataset,\n    TokenBlockDataset,\n    TruncatedDictionary,\n    data_utils,\n)\nfrom fairseq.data.indexed_dataset import get_available_dataset_impl\nfrom fairseq.data.shorten_dataset import maybe_shorten_dataset\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.tasks import LegacyFairseqTask, register_task\nfrom omegaconf import II\n\n\nSAMPLE_BREAK_MODE_CHOICES = ChoiceEnum([\"none\", \"complete\", \"complete_doc\", \"eos\"])\nSHORTEN_METHOD_CHOICES = ChoiceEnum([\"none\", \"truncate\", \"random_crop\"])\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass LanguageModelingConfig(FairseqDataclass):\n    data: Optional[str] = field(\n        default=None, metadata={\"help\": \"path to data directory\"}\n    )\n    sample_break_mode: SAMPLE_BREAK_MODE_CHOICES = field(\n        default=\"none\",\n        metadata={\n            \"help\": 'If omitted or \"none\", fills each sample with tokens-per-sample '\n            'tokens. If set to \"complete\", splits samples only at the end '\n            \"of sentence, but may include multiple sentences per sample. \"\n            '\"complete_doc\" is similar but respects doc boundaries. '\n            'If set to \"eos\", includes only one sentence per sample.'\n        },\n    )\n    tokens_per_sample: int = field(\n        default=1024,\n        metadata={\"help\": \"max number of tokens per sample for LM dataset\"},\n    )\n    output_dictionary_size: int = field(\n        default=-1, metadata={\"help\": \"limit the size of output dictionary\"}\n    )\n    self_target: bool = field(default=False, metadata={\"help\": \"include self target\"})\n    future_target: bool = field(\n        default=False, metadata={\"help\": \"include future target\"}\n    )\n    past_target: bool = field(default=False, metadata={\"help\": \"include past target\"})\n    add_bos_token: bool = field(\n        default=False, metadata={\"help\": \"prepend beginning of sentence token (<s>)\"}\n    )\n    max_target_positions: Optional[int] = field(\n        default=None, metadata={\"help\": \"max number of tokens in the target sequence\"}\n    )\n    shorten_method: SHORTEN_METHOD_CHOICES = field(\n        default=\"none\",\n        metadata={\n            \"help\": \"if not none, shorten sequences that exceed --tokens-per-sample\"\n        },\n    )\n    shorten_data_split_list: str = field(\n        default=\"\",\n        metadata={\n            \"help\": \"comma-separated list of dataset splits to apply shortening to, \"\n            'e.g., \"train,valid\" (default: all dataset splits)'\n        },\n    )\n    pad_to_fixed_length: Optional[bool] = field(\n        default=False,\n        metadata={\"help\": \"pad to fixed length\"},\n    )\n    pad_to_fixed_bsz: Optional[bool] = field(\n        default=False,\n        metadata={\"help\": \"boolean to pad to fixed batch size\"},\n    )\n\n    # TODO common vars below add to parent\n    seed: int = II(\"common.seed\")\n    batch_size: Optional[int] = II(\"dataset.batch_size\")\n    batch_size_valid: Optional[int] = II(\"dataset.batch_size_valid\")\n    dataset_impl: Optional[ChoiceEnum(get_available_dataset_impl())] = II(\n        \"dataset.dataset_impl\"\n    )\n    data_buffer_size: int = II(\"dataset.data_buffer_size\")\n    tpu: bool = II(\"common.tpu\")\n    use_plasma_view: bool = II(\"common.use_plasma_view\")\n    plasma_path: str = II(\"common.plasma_path\")\n\n\n@register_task(\"language_modeling\", dataclass=LanguageModelingConfig)\nclass LanguageModelingTask(LegacyFairseqTask):\n    \"\"\"\n    Train a language model.\n\n    Args:\n        dictionary (~fairseq.data.Dictionary): the dictionary for the input of\n            the language model\n        output_dictionary (~fairseq.data.Dictionary): the dictionary for the\n            output of the language model. In most cases it will be the same as\n            *dictionary*, but could possibly be a more limited version of the\n            dictionary (if ``--output-dictionary-size`` is used).\n        targets (List[str]): list of the target types that the language model\n            should predict.  Can be one of \"self\", \"future\", and \"past\".\n            Defaults to \"future\".\n\n    .. note::\n\n        The language modeling task is compatible with :mod:`fairseq-train`,\n        :mod:`fairseq-generate`, :mod:`fairseq-interactive` and\n        :mod:`fairseq-eval-lm`.\n\n    The language modeling task provides the following additional command-line\n    arguments:\n\n    .. argparse::\n        :ref: fairseq.tasks.language_modeling_parser\n        :prog:\n    \"\"\"\n\n    def __init__(self, args, dictionary, output_dictionary=None, targets=None):\n        super().__init__(args)\n        self.dictionary = dictionary\n        self.output_dictionary = output_dictionary or dictionary\n\n        if targets is None:\n            targets = [\"future\"]\n        self.targets = targets\n\n    @classmethod\n    def setup_dictionary(cls, args, **kwargs):\n        dictionary = None\n        output_dictionary = None\n        if args.data:\n            paths = utils.split_paths(args.data)\n            assert len(paths) > 0\n            dictionary = Dictionary.load(os.path.join(paths[0], \"dict.txt\"))\n            logger.info(\"dictionary: {} types\".format(len(dictionary)))\n            output_dictionary = dictionary\n            if args.output_dictionary_size >= 0:\n                output_dictionary = TruncatedDictionary(\n                    dictionary, args.output_dictionary_size\n                )\n        return (dictionary, output_dictionary)\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        \"\"\"Setup the task (e.g., load dictionaries).\n\n        Args:\n            args (argparse.Namespace): parsed command-line arguments\n        \"\"\"\n        dictionary, output_dictionary = cls.setup_dictionary(args, **kwargs)\n\n        # upgrade old checkpoints\n        if getattr(args, \"exclude_self_target\", False):\n            args.self_target = False\n\n        targets = []\n        if getattr(args, \"self_target\", False):\n            targets.append(\"self\")\n        if getattr(args, \"future_target\", False):\n            targets.append(\"future\")\n        if getattr(args, \"past_target\", False):\n            targets.append(\"past\")\n        if len(targets) == 0:\n            # standard language modeling\n            targets = [\"future\"]\n\n        return cls(args, dictionary, output_dictionary, targets=targets)\n\n    def build_model(self, args, from_checkpoint=False):\n        model = super().build_model(args, from_checkpoint)\n        for target in self.targets:\n            if target not in model.supported_targets:\n                raise ValueError(\n                    \"Unsupported language modeling target: {}\".format(target)\n                )\n\n        return model\n\n    def load_dataset(\n        self, split: str, epoch=1, combine=False, **kwargs\n    ) -> MonolingualDataset:\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, valid1, test)\n        \"\"\"\n        paths = utils.split_paths(self.args.data)\n        assert len(paths) > 0\n\n        data_path = paths[(epoch - 1) % len(paths)]\n        split_path = os.path.join(data_path, split)\n\n        # each process has its own copy of the raw data (likely to be an np.memmap)\n        dataset = data_utils.load_indexed_dataset(\n            split_path, self.dictionary, self.args.dataset_impl, combine=combine\n        )\n        if dataset is None:\n            raise FileNotFoundError(f\"Dataset not found: {split} ({split_path})\")\n\n        dataset = maybe_shorten_dataset(\n            dataset,\n            split,\n            self.args.shorten_data_split_list,\n            self.args.shorten_method,\n            self.args.tokens_per_sample,\n            self.args.seed,\n        )\n        dataset = TokenBlockDataset(\n            dataset,\n            dataset.sizes,\n            self.args.tokens_per_sample,\n            pad=self.dictionary.pad(),\n            eos=self.dictionary.eos(),\n            break_mode=self.args.sample_break_mode,\n            include_targets=True,\n            use_plasma_view=self.args.use_plasma_view,\n            split_path=split_path,\n            plasma_path=self.args.plasma_path,\n        )\n\n        add_eos_for_other_targets = (\n            self.args.sample_break_mode is not None\n            and self.args.sample_break_mode != \"none\"\n        )\n        fixed_pad_length = None\n        if self.args.pad_to_fixed_length:\n            fixed_pad_length = self.args.tokens_per_sample\n\n        pad_to_bsz = None\n        if self.args.pad_to_fixed_bsz:\n            pad_to_bsz = (\n                self.args.batch_size_valid if \"valid\" in split else self.args.batch_size\n            )\n\n        self.datasets[split] = MonolingualDataset(\n            dataset=dataset,\n            sizes=dataset.sizes,\n            src_vocab=self.dictionary,\n            tgt_vocab=self.output_dictionary,\n            add_eos_for_other_targets=add_eos_for_other_targets,\n            shuffle=True,\n            targets=self.targets,\n            add_bos_token=self.args.add_bos_token,\n            fixed_pad_length=fixed_pad_length,\n            pad_to_bsz=pad_to_bsz,\n        )\n\n    def build_dataset_for_inference(self, src_tokens, src_lengths, **kwargs):\n        \"\"\"\n        Generate batches for inference. We prepend an eos token to src_tokens\n        (or bos if `--add-bos-token` is set) and we append a <pad> to target.\n        This is convenient both for generation with a prefix and LM scoring.\n        \"\"\"\n        dataset = StripTokenDataset(\n            TokenBlockDataset(\n                src_tokens,\n                src_lengths,\n                block_size=None,  # ignored for \"eos\" break mode\n                pad=self.source_dictionary.pad(),\n                eos=self.source_dictionary.eos(),\n                break_mode=\"eos\",\n            ),\n            # remove eos from (end of) target sequence\n            self.source_dictionary.eos(),\n        )\n        src_dataset = PrependTokenDataset(\n            dataset,\n            token=(\n                self.source_dictionary.bos()\n                if getattr(self.args, \"add_bos_token\", False)\n                else self.source_dictionary.eos()\n            ),\n        )\n        tgt_dataset = AppendTokenDataset(dataset, token=self.source_dictionary.pad())\n        return NestedDictionaryDataset(\n            {\n                \"id\": IdDataset(),\n                \"net_input\": {\n                    \"src_tokens\": PadDataset(\n                        src_dataset,\n                        pad_idx=self.source_dictionary.pad(),\n                        left_pad=False,\n                    ),\n                    \"src_lengths\": NumelDataset(src_dataset, reduce=False),\n                },\n                \"target\": PadDataset(\n                    tgt_dataset, pad_idx=self.source_dictionary.pad(), left_pad=False\n                ),\n            },\n            sizes=[np.array(src_lengths)],\n        )\n\n    def inference_step(\n        self, generator, models, sample, prefix_tokens=None, constraints=None\n    ):\n        with torch.no_grad():\n            # Generation will always be conditioned on bos_token\n            if getattr(self.args, \"add_bos_token\", False):\n                bos_token = self.source_dictionary.bos()\n            else:\n                bos_token = self.source_dictionary.eos()\n\n            if constraints is not None:\n                raise NotImplementedError(\n                    \"Constrained decoding with the language_modeling task is not supported\"\n                )\n\n            # SequenceGenerator doesn't use src_tokens directly, we need to\n            # pass the `prefix_tokens` argument instead\n            if prefix_tokens is None and sample[\"net_input\"][\"src_tokens\"].nelement():\n                prefix_tokens = sample[\"net_input\"][\"src_tokens\"]\n                if prefix_tokens[:, 0].eq(bos_token).all():\n                    prefix_tokens = prefix_tokens[:, 1:]\n\n            return generator.generate(\n                models, sample, prefix_tokens=prefix_tokens, bos_token=bos_token\n            )\n\n    def eval_lm_dataloader(\n        self,\n        dataset,\n        max_tokens: Optional[int] = 36000,\n        batch_size: Optional[int] = None,\n        max_positions: Optional[int] = None,\n        num_shards: int = 1,\n        shard_id: int = 0,\n        num_workers: int = 1,\n        data_buffer_size: int = 10,\n        # ensures that every evaluated token has access to a context of at least\n        # this size, if possible\n        context_window: int = 0,\n    ):\n        if context_window > 0:\n            dataset = LMContextWindowDataset(\n                dataset=dataset,\n                tokens_per_sample=self.args.tokens_per_sample,\n                context_window=context_window,\n                pad_idx=self.source_dictionary.pad(),\n            )\n        return self.get_batch_iterator(\n            dataset=dataset,\n            max_tokens=max_tokens,\n            max_sentences=batch_size,\n            max_positions=max_positions,\n            ignore_invalid_inputs=True,\n            num_shards=num_shards,\n            shard_id=shard_id,\n            num_workers=num_workers,\n            data_buffer_size=data_buffer_size,\n        ).next_epoch_itr(shuffle=False)\n\n    @property\n    def source_dictionary(self):\n        \"\"\"Return the :class:`~fairseq.data.Dictionary` for the language\n        model.\"\"\"\n        return self.dictionary\n\n    @property\n    def target_dictionary(self):\n        \"\"\"Return the :class:`~fairseq.data.Dictionary` for the language\n        model.\"\"\"\n        return self.output_dictionary\n"
  },
  {
    "path": "fairseq/tasks/legacy_masked_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport itertools\nimport logging\nimport os\n\nimport numpy as np\nfrom fairseq import tokenizer, utils\nfrom fairseq.data import ConcatDataset, Dictionary, data_utils, indexed_dataset\nfrom fairseq.data.legacy.block_pair_dataset import BlockPairDataset\nfrom fairseq.data.legacy.masked_lm_dataset import MaskedLMDataset\nfrom fairseq.data.legacy.masked_lm_dictionary import BertDictionary\nfrom fairseq.tasks import LegacyFairseqTask, register_task\n\n\nlogger = logging.getLogger(__name__)\n\n\n@register_task(\"legacy_masked_lm\")\nclass LegacyMaskedLMTask(LegacyFairseqTask):\n    \"\"\"\n    Task for training Masked LM (BERT) model.\n    Args:\n        dictionary (Dictionary): the dictionary for the input of the task\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        parser.add_argument(\n            \"data\",\n            help=\"colon separated path to data directories list, \\\n                            will be iterated upon during epochs in round-robin manner\",\n        )\n        parser.add_argument(\n            \"--tokens-per-sample\",\n            default=512,\n            type=int,\n            help=\"max number of total tokens over all segments\"\n            \" per sample for BERT dataset\",\n        )\n        parser.add_argument(\n            \"--break-mode\", default=\"doc\", type=str, help=\"mode for breaking sentence\"\n        )\n        parser.add_argument(\"--shuffle-dataset\", action=\"store_true\", default=False)\n\n    def __init__(self, args, dictionary):\n        super().__init__(args)\n        self.dictionary = dictionary\n        self.seed = args.seed\n\n    @classmethod\n    def load_dictionary(cls, filename):\n        return BertDictionary.load(filename)\n\n    @classmethod\n    def build_dictionary(\n        cls, filenames, workers=1, threshold=-1, nwords=-1, padding_factor=8\n    ):\n        d = BertDictionary()\n        for filename in filenames:\n            Dictionary.add_file_to_dictionary(\n                filename, d, tokenizer.tokenize_line, workers\n            )\n        d.finalize(threshold=threshold, nwords=nwords, padding_factor=padding_factor)\n        return d\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        \"\"\"Setup the task.\"\"\"\n        paths = utils.split_paths(args.data)\n        assert len(paths) > 0\n        dictionary = BertDictionary.load(os.path.join(paths[0], \"dict.txt\"))\n        logger.info(\"dictionary: {} types\".format(len(dictionary)))\n\n        return cls(args, dictionary)\n\n    def load_dataset(self, split, epoch=1, combine=False):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        loaded_datasets = []\n\n        paths = utils.split_paths(self.args.data)\n        assert len(paths) > 0\n        data_path = paths[(epoch - 1) % len(paths)]\n        logger.info(\"data_path\", data_path)\n\n        for k in itertools.count():\n            split_k = split + (str(k) if k > 0 else \"\")\n            path = os.path.join(data_path, split_k)\n            ds = indexed_dataset.make_dataset(\n                path,\n                impl=self.args.dataset_impl,\n                fix_lua_indexing=True,\n                dictionary=self.dictionary,\n            )\n\n            if ds is None:\n                if k > 0:\n                    break\n                else:\n                    raise FileNotFoundError(\n                        \"Dataset not found: {} ({})\".format(split, data_path)\n                    )\n\n            with data_utils.numpy_seed(self.seed + k):\n                loaded_datasets.append(\n                    BlockPairDataset(\n                        ds,\n                        self.dictionary,\n                        ds.sizes,\n                        self.args.tokens_per_sample,\n                        break_mode=self.args.break_mode,\n                        doc_break_size=1,\n                    )\n                )\n\n            logger.info(\n                \"{} {} {} examples\".format(data_path, split_k, len(loaded_datasets[-1]))\n            )\n\n            if not combine:\n                break\n\n        if len(loaded_datasets) == 1:\n            dataset = loaded_datasets[0]\n            sizes = dataset.sizes\n        else:\n            dataset = ConcatDataset(loaded_datasets)\n            sizes = np.concatenate([ds.sizes for ds in loaded_datasets])\n\n        self.datasets[split] = MaskedLMDataset(\n            dataset=dataset,\n            sizes=sizes,\n            vocab=self.dictionary,\n            pad_idx=self.dictionary.pad(),\n            mask_idx=self.dictionary.mask(),\n            classif_token_idx=self.dictionary.cls(),\n            sep_token_idx=self.dictionary.sep(),\n            shuffle=self.args.shuffle_dataset,\n            seed=self.seed,\n        )\n"
  },
  {
    "path": "fairseq/tasks/masked_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nfrom dataclasses import dataclass, field\n\nimport numpy as np\nfrom omegaconf import II, MISSING, OmegaConf\n\nfrom fairseq import utils\nfrom fairseq.data import (\n    Dictionary,\n    IdDataset,\n    MaskTokensDataset,\n    NestedDictionaryDataset,\n    NumelDataset,\n    NumSamplesDataset,\n    PrependTokenDataset,\n    RightPadDataset,\n    RightPaddingMaskDataset,\n    SortDataset,\n    TokenBlockDataset,\n    data_utils,\n)\nfrom fairseq.data.encoders.utils import get_whole_word_mask\nfrom fairseq.data.shorten_dataset import maybe_shorten_dataset\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.tasks import FairseqTask, register_task\n\nfrom .language_modeling import SAMPLE_BREAK_MODE_CHOICES, SHORTEN_METHOD_CHOICES\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass MaskedLMConfig(FairseqDataclass):\n    data: str = field(\n        default=MISSING,\n        metadata={\n            \"help\": \"colon separated path to data directories list, \\\n                            will be iterated upon during epochs in round-robin manner\"\n        },\n    )\n    sample_break_mode: SAMPLE_BREAK_MODE_CHOICES = field(\n        default=\"none\",\n        metadata={\n            \"help\": 'If omitted or \"none\", fills each sample with tokens-per-sample '\n            'tokens. If set to \"complete\", splits samples only at the end '\n            \"of sentence, but may include multiple sentences per sample. \"\n            '\"complete_doc\" is similar but respects doc boundaries. '\n            'If set to \"eos\", includes only one sentence per sample.'\n        },\n    )\n    tokens_per_sample: int = field(\n        default=1024,\n        metadata={\"help\": \"max number of tokens per sample for LM dataset\"},\n    )\n    mask_prob: float = field(\n        default=0.15,\n        metadata={\"help\": \"probability of replacing a token with mask\"},\n    )\n    leave_unmasked_prob: float = field(\n        default=0.1,\n        metadata={\"help\": \"probability that a masked token is unmasked\"},\n    )\n    random_token_prob: float = field(\n        default=0.1,\n        metadata={\"help\": \"probability of replacing a token with a random token\"},\n    )\n    freq_weighted_replacement: bool = field(\n        default=False,\n        metadata={\"help\": \"sample random replacement words based on word frequencies\"},\n    )\n    mask_whole_words: bool = field(\n        default=False,\n        metadata={\"help\": \"mask whole words; you may also want to set --bpe\"},\n    )\n    mask_multiple_length: int = field(\n        default=1,\n        metadata={\"help\": \"repeat the mask indices multiple times\"},\n    )\n    mask_stdev: float = field(\n        default=0.0,\n        metadata={\"help\": \"stdev of the mask length\"},\n    )\n    shorten_method: SHORTEN_METHOD_CHOICES = field(\n        default=\"none\",\n        metadata={\n            \"help\": \"if not none, shorten sequences that exceed --tokens-per-sample\"\n        },\n    )\n    shorten_data_split_list: str = field(\n        default=\"\",\n        metadata={\n            \"help\": \"comma-separated list of dataset splits to apply shortening to, \"\n            'e.g., \"train,valid\" (default: all dataset splits)'\n        },\n    )\n    seed: int = II(\"common.seed\")\n\n    include_target_tokens: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"include target tokens in model input. this is used for data2vec\"\n        },\n    )\n    include_index: bool = field(\n        default=True,\n        metadata={\"help\": \"include index in model input. this is used for data2vec\"},\n    )\n    skip_masking: bool = field(\n        default=False,\n        metadata={\"help\": \"skip masking at dataset\"},\n    )\n    # subsample_train: float = field(\n    #     default=1,\n    #     metadata={\"help\": \"shorten training set for debugging\"},\n    # )\n    d2v2_multi: bool = field(\n        default=False,\n        metadata={\"help\": \"prepare dataset for data2vec_multi\"},\n    )\n\n\n@register_task(\"masked_lm\", dataclass=MaskedLMConfig)\nclass MaskedLMTask(FairseqTask):\n\n    cfg: MaskedLMConfig\n\n    \"\"\"Task for training masked language models (e.g., BERT, RoBERTa).\"\"\"\n\n    def __init__(self, cfg: MaskedLMConfig, dictionary=None):\n        super().__init__(cfg)\n        self.dictionary = dictionary or self.load_dict(cfg)\n\n        # add mask token\n        self.mask_idx = self.dictionary.add_symbol(\"<mask>\")\n\n    @classmethod\n    def setup_task(cls, cfg: MaskedLMConfig, **kwargs):\n        dictionary = cls.load_dict(cfg)\n        return cls(cfg, dictionary)\n\n    @classmethod\n    def load_dict(cls, cfg):\n        paths = utils.split_paths(cfg.data)\n        assert len(paths) > 0\n        dictionary = Dictionary.load(os.path.join(paths[0], \"dict.txt\"))\n        logger.info(\"dictionary: {} types\".format(len(dictionary)))\n        return dictionary\n\n    def _load_dataset_split(self, split, epoch, combine):\n        paths = utils.split_paths(self.cfg.data)\n        assert len(paths) > 0\n        data_path = paths[(epoch - 1) % len(paths)]\n        split_path = os.path.join(data_path, split)\n\n        dataset = data_utils.load_indexed_dataset(\n            split_path,\n            self.source_dictionary,\n            combine=combine,\n        )\n        if dataset is None:\n            raise FileNotFoundError(\n                \"Dataset not found: {} ({})\".format(split, split_path)\n            )\n\n        dataset = maybe_shorten_dataset(\n            dataset,\n            split,\n            self.cfg.shorten_data_split_list,\n            self.cfg.shorten_method,\n            self.cfg.tokens_per_sample,\n            self.cfg.seed,\n        )\n\n        # create continuous blocks of tokens\n        dataset = TokenBlockDataset(\n            dataset,\n            dataset.sizes,\n            self.cfg.tokens_per_sample - 1,  # one less for <s>\n            pad=self.source_dictionary.pad(),\n            eos=self.source_dictionary.eos(),\n            break_mode=self.cfg.sample_break_mode,\n        )\n        logger.info(\"loaded {} blocks from: {}\".format(len(dataset), split_path))\n\n        # prepend beginning-of-sentence token (<s>, equiv. to [CLS] in BERT)\n        return PrependTokenDataset(dataset, self.source_dictionary.bos())\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        dataset = self._load_dataset_split(split, epoch, combine)\n\n        # create masked input and targets\n        mask_whole_words = (\n            get_whole_word_mask(self.args, self.source_dictionary)\n            if self.cfg.mask_whole_words\n            else None\n        )\n\n        src_dataset, tgt_dataset = MaskTokensDataset.apply_mask(\n            dataset,\n            self.source_dictionary,\n            pad_idx=self.source_dictionary.pad(),\n            mask_idx=self.mask_idx,\n            seed=self.cfg.seed,\n            mask_prob=self.cfg.mask_prob,\n            leave_unmasked_prob=self.cfg.leave_unmasked_prob,\n            random_token_prob=self.cfg.random_token_prob,\n            freq_weighted_replacement=self.cfg.freq_weighted_replacement,\n            mask_whole_words=mask_whole_words,\n            mask_multiple_length=self.cfg.mask_multiple_length,\n            mask_stdev=self.cfg.mask_stdev,\n            skip_masking=self.cfg.skip_masking,\n        )\n\n        with data_utils.numpy_seed(self.cfg.seed):\n            shuffle = np.random.permutation(len(src_dataset))\n\n        target_dataset = RightPadDataset(\n            tgt_dataset,\n            pad_idx=self.source_dictionary.pad(),\n        )\n\n        if self.cfg.d2v2_multi:\n            dataset = self._d2v2_multi_dataset(src_dataset)\n        else:\n            dataset = self._regular_dataset(src_dataset, target_dataset)\n\n        self.datasets[split] = SortDataset(\n            dataset, sort_order=[shuffle, src_dataset.sizes]\n        )\n\n    def _regular_dataset(self, src_dataset, target_dataset):\n        input_dict = {\n            \"src_tokens\": RightPadDataset(\n                src_dataset,\n                pad_idx=self.source_dictionary.pad(),\n            ),\n            \"src_lengths\": NumelDataset(src_dataset, reduce=False),\n        }\n        if self.cfg.include_target_tokens:\n            input_dict[\"target_tokens\"] = target_dataset\n        if self.cfg.include_index:\n            input_dict[\"src_id\"] = IdDataset()\n\n        dataset = NestedDictionaryDataset(\n            {\n                \"id\": IdDataset(),\n                \"net_input\": input_dict,\n                \"target\": target_dataset,\n                \"nsentences\": NumSamplesDataset(),\n                \"ntokens\": NumelDataset(src_dataset, reduce=True),\n            },\n            sizes=[src_dataset.sizes],\n        )\n        return dataset\n\n    def _d2v2_multi_dataset(self, src_dataset):\n        input_dict = {\n            \"source\": RightPadDataset(\n                src_dataset,\n                pad_idx=self.source_dictionary.pad(),\n            ),\n            \"id\": IdDataset(),\n            \"padding_mask\": RightPaddingMaskDataset(src_dataset),\n        }\n\n        dataset = NestedDictionaryDataset(\n            {\n                \"id\": IdDataset(),\n                \"net_input\": input_dict,\n                \"nsentences\": NumSamplesDataset(),\n                \"ntokens\": NumelDataset(src_dataset, reduce=True),\n            },\n            sizes=[src_dataset.sizes],\n        )\n        return dataset\n\n    def build_dataset_for_inference(self, src_tokens, src_lengths, sort=True):\n        src_dataset = RightPadDataset(\n            TokenBlockDataset(\n                src_tokens,\n                src_lengths,\n                self.cfg.tokens_per_sample - 1,  # one less for <s>\n                pad=self.source_dictionary.pad(),\n                eos=self.source_dictionary.eos(),\n                break_mode=\"eos\",\n            ),\n            pad_idx=self.source_dictionary.pad(),\n        )\n        src_dataset = PrependTokenDataset(src_dataset, self.source_dictionary.bos())\n        src_dataset = NestedDictionaryDataset(\n            {\n                \"id\": IdDataset(),\n                \"net_input\": {\n                    \"src_tokens\": src_dataset,\n                    \"src_lengths\": NumelDataset(src_dataset, reduce=False),\n                },\n            },\n            sizes=src_lengths,\n        )\n        if sort:\n            src_dataset = SortDataset(src_dataset, sort_order=[src_lengths])\n        return src_dataset\n\n    @property\n    def source_dictionary(self):\n        return self.dictionary\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n\n    def begin_epoch(self, epoch, model):\n        model.set_epoch(epoch)\n\n    def max_positions(self):\n        return self.cfg.tokens_per_sample\n"
  },
  {
    "path": "fairseq/tasks/multilingual_denoising.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport logging\nimport os\nfrom dataclasses import dataclass, field\nfrom typing import Optional\n\nimport numpy as np\nfrom omegaconf import II\n\nfrom fairseq.data import (\n    AppendTokenDataset,\n    ConcatDataset,\n    DenoisingDataset,\n    Dictionary,\n    PrependTokenDataset,\n    ResamplingDataset,\n    SortDataset,\n    TokenBlockDataset,\n    data_utils,\n)\nfrom fairseq.data.encoders.utils import get_whole_word_mask\nfrom fairseq.tasks import register_task\n\nfrom .denoising import DenoisingConfig, DenoisingTask\n\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass MultilingualDenoisingConfig(DenoisingConfig):\n    multilang_sampling_alpha: float = field(\n        default=1.0,\n        metadata={\"help\": \"smoothing alpha for sample ratios across multiple datasets\"},\n    )\n    add_lang_token: bool = field(\n        default=False,\n        metadata={\"help\": \"\"},\n    )\n    langs: Optional[str] = field(\n        default=None,\n        metadata={\"help\": \"language ids we are considering\"},\n    )\n    no_whole_word_mask_langs: str = field(\n        default=\"\",\n        metadata={\n            \"help\": \"languages without spacing between words don't support whole word masking\"\n        },\n    )\n    train_subset: str = II(\"common.train_subset\")\n    valid_subset: str = II(\"common.valid_subset\")\n\n\n@register_task(\"multilingual_denoising\", dataclass=MultilingualDenoisingConfig)\nclass MultilingualDenoisingTask(DenoisingTask):\n\n    cfg: MultilingualDenoisingConfig\n\n    @classmethod\n    def setup_task(cls, cfg: MultilingualDenoisingConfig, **kwargs):\n        \"\"\"Setup the task.\"\"\"\n        paths = cfg.data.split(\":\")\n        assert len(paths) > 0\n        dictionary = Dictionary.load(os.path.join(paths[0], \"dict.txt\"))\n\n        data_path = paths[0]\n        if cfg.langs is None:\n            languages = sorted(\n                [\n                    name\n                    for name in os.listdir(data_path)\n                    if os.path.isdir(os.path.join(data_path, name))\n                ]\n            )\n        else:\n            languages = cfg.langs.split(\",\")\n\n        if cfg.add_lang_token:\n            for lang in languages:\n                dictionary.add_symbol(\"[{}]\".format(lang))\n\n        logger.info(\"dictionary: {} types\".format(len(dictionary)))\n        if not hasattr(cfg, \"shuffle_instance\"):\n            cfg.shuffle_instance = False\n        return cls(cfg, dictionary)\n\n    def __init__(self, cfg: MultilingualDenoisingConfig, dictionary):\n        super().__init__(cfg, dictionary)\n        self.dictionary = dictionary\n\n        # add mask token\n        self.mask_idx = self.dictionary.add_symbol(\"<mask>\")\n        self.cfg = cfg\n\n    def _get_sample_prob(self, dataset_lens):\n        \"\"\"\n        Get smoothed sampling probability by languages. This helps low resource\n        languages by upsampling them.\n        \"\"\"\n        prob = dataset_lens / dataset_lens.sum()\n        smoothed_prob = prob**self.cfg.multilang_sampling_alpha\n        smoothed_prob = smoothed_prob / smoothed_prob.sum()\n        return smoothed_prob\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        paths = self.cfg.data.split(\":\")\n        assert len(paths) > 0\n        data_path = paths[(epoch - 1) % len(paths)]\n        split_path = os.path.join(data_path, split)\n\n        if self.cfg.langs is None:\n            languages = sorted(\n                [\n                    name\n                    for name in os.listdir(data_path)\n                    if os.path.isdir(os.path.join(data_path, name))\n                ]\n            )\n        else:\n            languages = self.cfg.langs.split(\",\")\n            for name in languages:\n                p = os.path.join(data_path, name)\n                assert os.path.exists(p), \"data not found: {}\".format(p)\n\n        logger.info(\"Training on {0} languages: {1}\".format(len(languages), languages))\n        logger.info(\n            \"Language to id mapping: \", {lang: id for id, lang in enumerate(languages)}\n        )\n\n        mask_whole_words = get_whole_word_mask(self.cfg.bpe, self.dictionary)\n        language_without_segmentations = self.cfg.no_whole_word_mask_langs.split(\",\")\n        lang_datasets = []\n        for language in languages:\n            split_path = os.path.join(data_path, language, split)\n\n            dataset = data_utils.load_indexed_dataset(\n                split_path,\n                self.source_dictionary,\n                self.cfg.dataset_impl,\n                combine=combine,\n            )\n            if dataset is None:\n                raise FileNotFoundError(\n                    \"Dataset not found: {} ({})\".format(split, split_path)\n                )\n\n            end_token = (\n                self.source_dictionary.index(\"[{}]\".format(language))\n                if self.cfg.add_lang_token\n                else self.source_dictionary.eos()\n            )\n\n            # create continuous blocks of tokens\n            dataset = TokenBlockDataset(\n                dataset,\n                dataset.sizes,\n                self.cfg.tokens_per_sample - 2,  # one less for <s>\n                pad=self.source_dictionary.pad(),\n                eos=end_token,\n                break_mode=self.cfg.sample_break_mode,\n            )\n            logger.info(\"loaded {} blocks from: {}\".format(len(dataset), split_path))\n\n            # prepend beginning-of-sentence token (<s>, equiv. to [CLS] in BERT)\n            dataset = PrependTokenDataset(dataset, self.source_dictionary.bos())\n            dataset = AppendTokenDataset(dataset, end_token)\n\n            lang_mask_whole_words = (\n                mask_whole_words\n                if language not in language_without_segmentations\n                else None\n            )\n            lang_dataset = DenoisingDataset(\n                dataset,\n                dataset.sizes,\n                self.dictionary,\n                self.mask_idx,\n                lang_mask_whole_words,\n                shuffle=self.cfg.shuffle_instance,\n                seed=self.cfg.seed,\n                mask=self.cfg.mask,\n                mask_random=self.cfg.mask_random,\n                insert=self.cfg.insert,\n                rotate=self.cfg.rotate,\n                permute_sentences=self.cfg.permute_sentences,\n                bpe=self.cfg.bpe,\n                replace_length=self.cfg.replace_length,\n                mask_length=self.cfg.mask_length,\n                poisson_lambda=self.cfg.poisson_lambda,\n                eos=None\n                if not self.cfg.add_lang_token\n                else self.source_dictionary.index(\"[{}]\".format(language)),\n            )\n            lang_datasets.append(lang_dataset)\n\n        dataset_lengths = np.array(\n            [len(d) for d in lang_datasets],\n            dtype=float,\n        )\n        logger.info(\n            \"loaded total {} blocks for all languages\".format(\n                int(dataset_lengths.sum()),\n            )\n        )\n        if split == self.cfg.train_subset:\n            # For train subset, additionally up or down sample languages.\n            sample_probs = self._get_sample_prob(dataset_lengths)\n            logger.info(\n                \"Sample probability by language: {}\".format(\n                    {\n                        lang: \"{0:.4f}\".format(sample_probs[id])\n                        for id, lang in enumerate(languages)\n                    }\n                )\n            )\n            size_ratio = (sample_probs * dataset_lengths.sum()) / dataset_lengths\n            logger.info(\n                \"Up/Down Sampling ratio by language: {}\".format(\n                    {\n                        lang: \"{0:.2f}\".format(size_ratio[id])\n                        for id, lang in enumerate(languages)\n                    }\n                )\n            )\n\n            resampled_lang_datasets = [\n                ResamplingDataset(\n                    lang_datasets[i],\n                    size_ratio=size_ratio[i],\n                    seed=self.cfg.seed,\n                    epoch=epoch,\n                    replace=size_ratio[i] >= 1.0,\n                )\n                for i, d in enumerate(lang_datasets)\n            ]\n            dataset = ConcatDataset(\n                resampled_lang_datasets,\n            )\n        else:\n            dataset = ConcatDataset(lang_datasets)\n            lang_splits = [split]\n            for lang_id, lang_dataset in enumerate(lang_datasets):\n                split_name = split + \"_\" + languages[lang_id]\n                lang_splits.append(split_name)\n                self.datasets[split_name] = lang_dataset\n\n            if split in self.cfg.valid_subset:\n                self.cfg.valid_subset = self.cfg.valid_subset.replace(\n                    split, \",\".join(lang_splits)\n                )\n\n        with data_utils.numpy_seed(self.cfg.seed + epoch):\n            shuffle = np.random.permutation(len(dataset))\n\n        self.datasets[split] = SortDataset(\n            dataset,\n            sort_order=[\n                shuffle,\n                dataset.sizes,\n            ],\n        )\n"
  },
  {
    "path": "fairseq/tasks/multilingual_language_modeling.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nfrom dataclasses import dataclass, field\nfrom typing import Optional\n\nimport numpy as np\nimport torch\nfrom omegaconf import II\n\nfrom fairseq import utils\nfrom fairseq.data import (\n    AppendTokenDataset,\n    ConcatDataset,\n    Dictionary,\n    IdDataset,\n    LMContextWindowDataset,\n    MonolingualDataset,\n    NestedDictionaryDataset,\n    NumelDataset,\n    PadDataset,\n    PrependTokenDataset,\n    ResamplingDataset,\n    SortDataset,\n    StripTokenDataset,\n    TokenBlockDataset,\n    TruncatedDictionary,\n    data_utils,\n)\nfrom fairseq.data.indexed_dataset import get_available_dataset_impl\nfrom fairseq.data.shorten_dataset import maybe_shorten_dataset\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.tasks import LegacyFairseqTask, register_task\n\nSAMPLE_BREAK_MODE_CHOICES = ChoiceEnum([\"none\", \"complete\", \"complete_doc\", \"eos\"])\nSHORTEN_METHOD_CHOICES = ChoiceEnum([\"none\", \"truncate\", \"random_crop\"])\nlogger = logging.getLogger(__name__)\n\n\ndef lang_token(lang):\n    return f\"<{lang}>\"\n\n\n@dataclass\nclass MultilingualLanguageModelingConfig(FairseqDataclass):\n    # TODO common var add to parent\n    data: Optional[str] = field(\n        default=None, metadata={\"help\": \"path to data directory\"}\n    )\n    sample_break_mode: SAMPLE_BREAK_MODE_CHOICES = field(\n        default=\"none\",\n        metadata={\n            \"help\": 'If omitted or \"none\", fills each sample with tokens-per-sample '\n            'tokens. If set to \"complete\", splits samples only at the end '\n            \"of sentence, but may include multiple sentences per sample. \"\n            '\"complete_doc\" is similar but respects doc boundaries. '\n            'If set to \"eos\", includes only one sentence per sample.'\n        },\n    )\n    tokens_per_sample: int = field(\n        default=1024,\n        metadata={\"help\": \"max number of tokens per sample for LM dataset\"},\n    )\n    output_dictionary_size: int = field(\n        default=-1, metadata={\"help\": \"limit the size of output dictionary\"}\n    )\n    self_target: bool = field(default=False, metadata={\"help\": \"include self target\"})\n    future_target: bool = field(\n        default=False, metadata={\"help\": \"include future target\"}\n    )\n    past_target: bool = field(default=False, metadata={\"help\": \"include past target\"})\n    add_bos_token: bool = field(\n        default=False, metadata={\"help\": \"prepend lang id token <dialect>\"}\n    )\n    max_source_positions: Optional[int] = field(\n        default=None, metadata={\"help\": \"max number of tokens in the source sequence\"}\n    )\n    max_target_positions: Optional[int] = field(\n        default=None, metadata={\"help\": \"max number of tokens in the target sequence\"}\n    )\n    pad_to_fixed_length: Optional[bool] = field(\n        default=False, metadata={\"help\": \"pad to fixed length\"}\n    )\n    pad_to_fixed_bsz: Optional[bool] = field(\n        default=False, metadata={\"help\": \"boolean to pad to fixed batch size\"}\n    )\n\n    multilang_sampling_alpha: Optional[float] = field(\n        default=1.0,\n        metadata={\n            \"help\": \"smoothing alpha for sample rations across multiple datasets\"\n        },\n    )\n\n    shorten_method: SHORTEN_METHOD_CHOICES = field(\n        default=\"none\",\n        metadata={\n            \"help\": \"if not none, shorten sequences that exceed --tokens-per-sample\"\n        },\n    )\n    shorten_data_split_list: str = field(\n        default=\"\",\n        metadata={\n            \"help\": \"comma-separated list of dataset splits to apply shortening to, \"\n            'e.g., \"train,valid\" (default: all dataset splits)'\n        },\n    )\n\n    langs: str = field(\n        default=\"\",\n        metadata={\n            \"help\": \"comma-separated list of languages (default: all directories in data path)\"\n        },\n    )\n    baseline_model_langs: str = field(\n        default=\"\",\n        metadata={\n            \"help\": \"comma-separated list of languages in the baseline model (default: none)\"\n        },\n    )\n    # TODO: legacy parameter kept for compatibility\n    baseline_model: str = field(\n        default=\"\",\n        metadata={\"help\": \"path to the baseline model (default: none)\"},\n    )\n\n    lang_to_offline_shard_ratio: str = field(\n        default=\"\",\n        metadata={\n            \"help\": \"absolute path of tsv file location to indicate lang to offline shard ratio.\",\n        },\n    )\n    # TODO common vars below add to parent\n    seed: int = II(\"common.seed\")\n    dataset_impl: Optional[ChoiceEnum(get_available_dataset_impl())] = II(\n        \"dataset.dataset_impl\"\n    )\n    data_buffer_size: int = II(\"dataset.data_buffer_size\")\n    tpu: bool = II(\"common.tpu\")\n    batch_size: Optional[int] = II(\"dataset.batch_size\")\n    batch_size_valid: Optional[int] = II(\"dataset.batch_size_valid\")\n    train_subset: str = II(\"common.train_subset\")\n    valid_subset: str = II(\"common.valid_subset\")\n\n\n@register_task(\n    \"multilingual_language_modeling\", dataclass=MultilingualLanguageModelingConfig\n)\nclass MultilingualLanguageModelingTask(LegacyFairseqTask):\n    \"\"\"\n    Train a language model.\n\n    Args:\n        dictionary (~fairseq.data.Dictionary): the dictionary for the input of\n            the language model\n        output_dictionary (~fairseq.data.Dictionary): the dictionary for the\n            output of the language model. In most cases it will be the same as\n            *dictionary*, but could possibly be a more limited version of the\n            dictionary (if ``--output-dictionary-size`` is used).\n        targets (List[str]): list of the target types that the language model\n            should predict.  Can be one of \"self\", \"future\", and \"past\".\n            Defaults to \"future\".\n\n    .. note::\n\n        The language modeling task is compatible with :mod:`fairseq-train`,\n        :mod:`fairseq-generate`, :mod:`fairseq-interactive` and\n        :mod:`fairseq-eval-lm`.\n\n    The language modeling task provides the following additional command-line\n    arguments:\n\n    .. argparse::\n        :ref: fairseq.tasks.language_modeling_parser\n        :prog:\n    \"\"\"\n\n    def __init__(self, args, dictionary, output_dictionary=None, targets=None):\n        super().__init__(args)\n        self.dictionary = dictionary\n        self.output_dictionary = output_dictionary or dictionary\n\n        if targets is None:\n            targets = [\"future\"]\n        self.targets = targets\n\n    @staticmethod\n    def _get_langs(args, epoch=1):\n        paths = utils.split_paths(args.data)\n        assert len(paths) > 0\n        data_path = paths[(epoch - 1) % len(paths)]\n\n        languages = sorted(\n            name\n            for name in os.listdir(data_path)\n            if os.path.isdir(os.path.join(data_path, name))\n        )\n        if args.langs:\n            keep_langs = set(args.langs.split(\",\"))\n            languages = [lang for lang in languages if lang in keep_langs]\n            assert len(languages) == len(keep_langs)\n\n        return languages, data_path\n\n    @classmethod\n    def setup_dictionary(cls, args, **kwargs):\n        dictionary = None\n        output_dictionary = None\n        if args.data:\n            paths = utils.split_paths(args.data)\n            assert len(paths) > 0\n            dictionary = Dictionary.load(os.path.join(paths[0], \"dict.txt\"))\n            if args.add_bos_token:\n                languages, _ = cls._get_langs(args)\n                logger.info(\"----------------\")\n                for lang in languages:\n                    dictionary.add_symbol(lang_token(lang))\n                    logger.info(f\"add language token: {lang_token(lang)}\")\n                logger.info(\"----------------\")\n\n            logger.info(\"dictionary: {} types\".format(len(dictionary)))\n            output_dictionary = dictionary\n            if args.output_dictionary_size >= 0:\n                output_dictionary = TruncatedDictionary(\n                    dictionary, args.output_dictionary_size\n                )\n        return (dictionary, output_dictionary)\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        \"\"\"Setup the task (e.g., load dictionaries).\n\n        Args:\n            args (argparse.Namespace): parsed command-line arguments\n        \"\"\"\n        dictionary, output_dictionary = cls.setup_dictionary(args, **kwargs)\n\n        # upgrade old checkpoints\n        if hasattr(args, \"exclude_self_target\"):\n            args.self_target = not args.exclude_self_target\n\n        targets = []\n        if getattr(args, \"self_target\", False):\n            targets.append(\"self\")\n        if getattr(args, \"future_target\", False):\n            targets.append(\"future\")\n        if getattr(args, \"past_target\", False):\n            targets.append(\"past\")\n        if len(targets) == 0:\n            # standard language modeling\n            targets = [\"future\"]\n\n        return cls(args, dictionary, output_dictionary, targets=targets)\n\n    def build_model(self, args, from_checkpoint=False):\n        model = super().build_model(args, from_checkpoint)\n        for target in self.targets:\n            if target not in model.supported_targets:\n                raise ValueError(\n                    f\"Unsupported language modeling target: {target} not in {model.supported_targets}\"\n                )\n\n        return model\n\n    def _get_sample_prob(self, dataset_lens):\n        \"\"\"\n        Get smoothed sampling porbability by languages. This helps low resource\n        languages by upsampling them.\n        \"\"\"\n        prob = dataset_lens / dataset_lens.sum()\n        smoothed_prob = prob**self.args.multilang_sampling_alpha\n        smoothed_prob = smoothed_prob / smoothed_prob.sum()\n        return smoothed_prob\n\n    def load_dataset(self, split: str, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        languages, data_path = MultilingualLanguageModelingTask._get_langs(\n            self.args, epoch\n        )\n        lang_to_offline_shard_ratio = None\n        if self.args.lang_to_offline_shard_ratio != \"\":\n            lang_to_offline_shard_ratio = {}\n            assert os.path.exists(\n                self.args.lang_to_offline_shard_ratio\n            ), \"provided offline shard ratio file doesn't exist: {0}\".format(\n                self.args.lang_to_offline_shard_ratio\n            )\n            with open(self.args.lang_to_offline_shard_ratio) as fin:\n                for line in fin:\n                    lang, ratio = line.strip().split(\"\\t\")\n                    ratio = float(ratio)\n                    lang_to_offline_shard_ratio[lang] = ratio\n\n            logger.info(\n                \"Found offline sharded ratio: %s\",\n                lang_to_offline_shard_ratio,\n            )\n\n        if split == self.args.train_subset:\n            logger.info(\n                \"Training on {0} languages: {1}\".format(len(languages), languages)\n            )\n        else:\n            logger.info(\n                \"Evaluating on {0} languages: {1}\".format(len(languages), languages)\n            )\n\n        tokens_per_sample = self.args.tokens_per_sample - int(self.args.add_bos_token)\n\n        fixed_pad_length = None\n        if self.args.pad_to_fixed_length:\n            fixed_pad_length = self.args.tokens_per_sample\n\n        pad_to_bsz = None\n        if self.args.pad_to_fixed_bsz:\n            pad_to_bsz = (\n                self.args.batch_size_valid if \"valid\" in split else self.args.batch_size\n            )\n\n        lang_datasets = []\n        for lang_id, language in enumerate(languages):\n            split_path = os.path.join(data_path, language, split)\n            dataset = data_utils.load_indexed_dataset(\n                split_path, self.dictionary, self.args.dataset_impl, combine=combine\n            )\n            # print('len(dataset) =', len(dataset))\n            if dataset is None:\n                raise FileNotFoundError(\n                    \"Dataset not found: {} ({})\".format(split, split_path)\n                )\n\n            dataset = maybe_shorten_dataset(\n                dataset,\n                split,\n                self.args.shorten_data_split_list,\n                self.args.shorten_method,\n                tokens_per_sample,\n                self.args.seed,\n            )\n\n            dataset = TokenBlockDataset(\n                dataset,\n                dataset.sizes,\n                tokens_per_sample,\n                pad=self.dictionary.pad(),\n                eos=self.dictionary.eos(),\n                break_mode=self.args.sample_break_mode,\n                include_targets=True,\n            )\n\n            add_eos_for_other_targets = (\n                self.args.sample_break_mode is not None\n                and self.args.sample_break_mode != \"none\"\n            )\n            src_lang_idx, tgt_lang_idx = None, None\n            if self.args.add_bos_token:\n                src_lang_idx = self.dictionary.index(lang_token(language))\n                tgt_lang_idx = self.output_dictionary.index(lang_token(language))\n\n            lang_datasets.append(\n                MonolingualDataset(\n                    dataset=dataset,\n                    sizes=dataset.sizes,\n                    src_vocab=self.dictionary,\n                    tgt_vocab=self.output_dictionary,\n                    add_eos_for_other_targets=add_eos_for_other_targets,\n                    shuffle=True,\n                    targets=self.targets,\n                    fixed_pad_length=fixed_pad_length,\n                    pad_to_bsz=pad_to_bsz,\n                    add_bos_token=self.args.add_bos_token,\n                    src_lang_idx=src_lang_idx,\n                    tgt_lang_idx=tgt_lang_idx,\n                )\n            )\n\n        dataset_lengths = np.array(\n            [len(d) for d in lang_datasets],\n            dtype=float,\n        )\n        logger.info(\n            \"loaded total {} blocks for all languages\".format(\n                dataset_lengths.sum(),\n            )\n        )\n        if split == self.args.train_subset:\n            dataset_lengths_ratio_multiplier = np.ones(len(dataset_lengths))\n            if lang_to_offline_shard_ratio is not None:\n                dataset_lengths_ratio_multiplier = []\n                for lang in languages:\n                    assert (\n                        lang in lang_to_offline_shard_ratio\n                    ), \"Lang: {0} missing in offline shard ratio file: {1}\".format(\n                        lang,\n                        self.args.lang_to_offline_shard_ratio,\n                    )\n                    dataset_lengths_ratio_multiplier.append(\n                        lang_to_offline_shard_ratio[lang]\n                    )\n                dataset_lengths_ratio_multiplier = np.array(\n                    dataset_lengths_ratio_multiplier\n                )\n                true_dataset_lengths = (\n                    dataset_lengths * dataset_lengths_ratio_multiplier\n                )\n            else:\n                true_dataset_lengths = dataset_lengths\n            # For train subset, additionally up or down sample languages.\n            sample_probs = self._get_sample_prob(true_dataset_lengths)\n\n            logger.info(\n                \"Sample probability by language: %s\",\n                {\n                    lang: \"{0:.4f}\".format(sample_probs[id])\n                    for id, lang in enumerate(languages)\n                },\n            )\n            size_ratio = (sample_probs * true_dataset_lengths.sum()) / dataset_lengths\n            # TODO: add an option for shrinking all size ratios to below 1\n            # if self.args.multilang_sampling_alpha != 1:\n            #   size_ratio /= size_ratio.max()\n\n            # Fix numeric errors in size ratio computation\n            #   0.999999999999999999 -> 1\n            #   1.000000000000000002 -> 1\n            for i in range(len(size_ratio)):\n                size_ratio[i] = round(size_ratio[i], 8)\n\n            logger.info(\n                \"Up/Down Sampling ratio by language: %s\",\n                {\n                    lang: \"{0:.2f}\".format(size_ratio[id])\n                    for id, lang in enumerate(languages)\n                },\n            )\n            logger.info(\n                \"Actual dataset size by language: %s\",\n                {\n                    lang: \"{0:.2f}\".format(len(lang_datasets[id]))\n                    for id, lang in enumerate(languages)\n                },\n            )\n            resampled_lang_datasets = [\n                ResamplingDataset(\n                    lang_datasets[i],\n                    size_ratio=size_ratio[i],\n                    seed=self.args.seed,\n                    epoch=epoch,\n                    replace=size_ratio[i] > 1.0,\n                )\n                for i, d in enumerate(lang_datasets)\n            ]\n            logger.info(\n                \"Resampled dataset size by language: %s\",\n                {\n                    lang: \"{0:.2f}\".format(len(resampled_lang_datasets[id]))\n                    for id, lang in enumerate(languages)\n                },\n            )\n            dataset = ConcatDataset(resampled_lang_datasets)\n        else:\n            dataset = ConcatDataset(lang_datasets)\n            lang_splits = [split]\n            for lang_id, lang_dataset in enumerate(lang_datasets):\n                split_name = split + \"_\" + languages[lang_id]\n                lang_splits.append(split_name)\n                self.datasets[split_name] = lang_dataset\n\n            # [TODO]: This is hacky for now to print validation ppl for each\n            # language individually. Maybe need task API changes to allow it\n            # in more generic ways.\n            if split in self.args.valid_subset:\n                self.args.valid_subset = self.args.valid_subset.replace(\n                    split, \",\".join(lang_splits)\n                )\n\n        with data_utils.numpy_seed(self.args.seed + epoch):\n            shuffle = np.random.permutation(len(dataset))\n\n        self.datasets[split] = SortDataset(\n            dataset,\n            sort_order=[\n                shuffle,\n                dataset.sizes,\n            ],\n        )\n\n    def build_dataset_for_inference(\n        self, src_tokens, src_lengths, language=\"en_XX\", **kwargs\n    ):\n        \"\"\"\n        Generate batches for inference. We prepend an eos token to src_tokens\n        (or bos if `--add-bos-token` is set) and we append a <pad> to target.\n        This is convenient both for generation with a prefix and LM scoring.\n        \"\"\"\n        dataset = StripTokenDataset(\n            TokenBlockDataset(\n                src_tokens,\n                src_lengths,\n                block_size=None,  # ignored for \"eos\" break mode\n                pad=self.source_dictionary.pad(),\n                eos=self.source_dictionary.eos(),\n                break_mode=\"eos\",\n            ),\n            # remove eos from (end of) target sequence\n            self.source_dictionary.eos(),\n        )\n\n        src_lang_idx = self.dictionary.index(lang_token(language))\n        src_dataset = PrependTokenDataset(\n            dataset,\n            token=(\n                (src_lang_idx or self.source_dictionary.bos())\n                if getattr(self.args, \"add_bos_token\", False)\n                else self.source_dictionary.eos()\n            ),\n        )\n\n        max_seq_len = max(src_lengths) + 1\n        tgt_dataset = AppendTokenDataset(dataset, token=self.source_dictionary.pad())\n        return NestedDictionaryDataset(\n            {\n                \"id\": IdDataset(),\n                \"net_input\": {\n                    \"src_tokens\": PadDataset(\n                        src_dataset,\n                        pad_idx=self.source_dictionary.pad(),\n                        left_pad=False,\n                        pad_length=max_seq_len,\n                    ),\n                    \"src_lengths\": NumelDataset(src_dataset, reduce=False),\n                },\n                \"target\": PadDataset(\n                    tgt_dataset,\n                    pad_idx=self.source_dictionary.pad(),\n                    left_pad=False,\n                    pad_length=max_seq_len,\n                ),\n            },\n            sizes=[np.array(src_lengths)],\n        )\n\n    @torch.no_grad()\n    def inference_step(\n        self,\n        generator,\n        models,\n        sample,\n        language=\"en_XX\",\n        prefix_tokens=None,\n        constraints=None,\n    ):\n        # Generation will always be conditioned on bos_token\n        if getattr(self.args, \"add_bos_token\", False):\n            src_lang_idx = self.dictionary.index(lang_token(language))\n            bos_token = src_lang_idx or self.source_dictionary.bos()\n        else:\n            bos_token = self.source_dictionary.eos()\n\n        if constraints is not None:\n            raise NotImplementedError(\n                \"Constrained decoding with the language_modeling task is not supported\"\n            )\n\n        # SequenceGenerator doesn't use src_tokens directly, we need to\n        # pass the `prefix_tokens` argument instead\n        if prefix_tokens is None and sample[\"net_input\"][\"src_tokens\"].nelement():\n            prefix_tokens = sample[\"net_input\"][\"src_tokens\"]\n            if prefix_tokens[:, 0].eq(bos_token).all():\n                prefix_tokens = prefix_tokens[:, 1:]\n\n        return generator.generate(\n            models, sample, prefix_tokens=prefix_tokens, bos_token=bos_token\n        )\n\n    def eval_lm_dataloader(\n        self,\n        dataset,\n        max_tokens: Optional[int] = 36000,\n        batch_size: Optional[int] = None,\n        max_positions: Optional[int] = None,\n        num_shards: int = 1,\n        shard_id: int = 0,\n        num_workers: int = 1,\n        data_buffer_size: int = 10,\n        # ensures that every evaluated token has access to a context of at least\n        # this size, if possible\n        context_window: int = 0,\n    ):\n        if context_window > 0:\n            dataset = LMContextWindowDataset(\n                dataset=dataset,\n                tokens_per_sample=self.args.tokens_per_sample,\n                context_window=context_window,\n                pad_idx=self.source_dictionary.pad(),\n            )\n        return self.get_batch_iterator(\n            dataset=dataset,\n            max_tokens=max_tokens,\n            max_sentences=batch_size,\n            max_positions=max_positions,\n            ignore_invalid_inputs=True,\n            num_shards=num_shards,\n            shard_id=shard_id,\n            num_workers=num_workers,\n            data_buffer_size=data_buffer_size,\n        )\n\n    @property\n    def source_dictionary(self):\n        \"\"\"Return the :class:`~fairseq.data.Dictionary` for the language\n        model.\"\"\"\n        return self.dictionary\n\n    @property\n    def target_dictionary(self):\n        \"\"\"Return the :class:`~fairseq.data.Dictionary` for the language\n        model.\"\"\"\n        return self.output_dictionary\n"
  },
  {
    "path": "fairseq/tasks/multilingual_masked_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\n\nimport numpy as np\nimport torch\n\nfrom fairseq import utils\nfrom fairseq.data import (\n    ConcatDataset,\n    Dictionary,\n    IdDataset,\n    MaskTokensDataset,\n    NestedDictionaryDataset,\n    NumelDataset,\n    NumSamplesDataset,\n    PadDataset,\n    PrependTokenDataset,\n    RawLabelDataset,\n    ResamplingDataset,\n    SortDataset,\n    TokenBlockDataset,\n    data_utils,\n    encoders,\n)\nfrom fairseq.tasks import LegacyFairseqTask, register_task\n\nlogger = logging.getLogger(__name__)\n\n\n@register_task(\"multilingual_masked_lm\")\nclass MultiLingualMaskedLMTask(LegacyFairseqTask):\n    \"\"\"Task for training masked language models (e.g., BERT, RoBERTa).\"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        parser.add_argument(\n            \"data\",\n            help=\"colon separated path to data directories list, \\\n                            will be iterated upon during epochs in round-robin manner\",\n        )\n        parser.add_argument(\n            \"--sample-break-mode\",\n            default=\"complete\",\n            choices=[\"none\", \"complete\", \"complete_doc\", \"eos\"],\n            help='If omitted or \"none\", fills each sample with tokens-per-sample '\n            'tokens. If set to \"complete\", splits samples only at the end '\n            \"of sentence, but may include multiple sentences per sample. \"\n            '\"complete_doc\" is similar but respects doc boundaries. '\n            'If set to \"eos\", includes only one sentence per sample.',\n        )\n        parser.add_argument(\n            \"--tokens-per-sample\",\n            default=512,\n            type=int,\n            help=\"max number of total tokens over all segments \"\n            \"per sample for BERT dataset\",\n        )\n        parser.add_argument(\n            \"--mask-prob\",\n            default=0.15,\n            type=float,\n            help=\"probability of replacing a token with mask\",\n        )\n        parser.add_argument(\n            \"--leave-unmasked-prob\",\n            default=0.1,\n            type=float,\n            help=\"probability that a masked token is unmasked\",\n        )\n        parser.add_argument(\n            \"--random-token-prob\",\n            default=0.1,\n            type=float,\n            help=\"probability of replacing a token with a random token\",\n        )\n        parser.add_argument(\n            \"--freq-weighted-replacement\",\n            action=\"store_true\",\n            help=\"sample random replacement words based on word frequencies\",\n        )\n        parser.add_argument(\n            \"--mask-whole-words\",\n            default=False,\n            action=\"store_true\",\n            help=\"mask whole words; you may also want to set --bpe\",\n        )\n        parser.add_argument(\n            \"--multilang-sampling-alpha\",\n            type=float,\n            default=1.0,\n            help=\"smoothing alpha for sample rations across multiple datasets\",\n        )\n\n    def __init__(self, args, dictionary):\n        super().__init__(args)\n        self.dictionary = dictionary\n        self.seed = args.seed\n\n        # add mask token\n        self.mask_idx = dictionary.add_symbol(\"<mask>\")\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        paths = utils.split_paths(args.data)\n        assert len(paths) > 0\n        dictionary = Dictionary.load(os.path.join(paths[0], \"dict.txt\"))\n        logger.info(\"dictionary: {} types\".format(len(dictionary)))\n        return cls(args, dictionary)\n\n    def _get_whole_word_mask(self):\n        # create masked input and targets\n        if self.args.mask_whole_words:\n            bpe = encoders.build_bpe(self.args)\n            if bpe is not None:\n\n                def is_beginning_of_word(i):\n                    if i < self.source_dictionary.nspecial:\n                        # special elements are always considered beginnings\n                        return True\n                    tok = self.source_dictionary[i]\n                    if tok.startswith(\"madeupword\"):\n                        return True\n                    try:\n                        return bpe.is_beginning_of_word(tok)\n                    except ValueError:\n                        return True\n\n                mask_whole_words = torch.ByteTensor(\n                    list(map(is_beginning_of_word, range(len(self.source_dictionary))))\n                )\n        else:\n            mask_whole_words = None\n        return mask_whole_words\n\n    def _get_sample_prob(self, dataset_lens):\n        \"\"\"\n        Get smoothed sampling porbability by languages. This helps low resource\n        languages by upsampling them.\n        \"\"\"\n        prob = dataset_lens / dataset_lens.sum()\n        smoothed_prob = prob**self.args.multilang_sampling_alpha\n        smoothed_prob = smoothed_prob / smoothed_prob.sum()\n        return smoothed_prob\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        paths = utils.split_paths(self.args.data)\n        assert len(paths) > 0\n        data_path = paths[(epoch - 1) % len(paths)]\n\n        languages = sorted(\n            name\n            for name in os.listdir(data_path)\n            if os.path.isdir(os.path.join(data_path, name))\n        )\n\n        logger.info(\"Training on {0} languages: {1}\".format(len(languages), languages))\n        logger.info(\n            \"Language to id mapping: \", {lang: id for id, lang in enumerate(languages)}\n        )\n\n        mask_whole_words = self._get_whole_word_mask()\n        lang_datasets = []\n        for lang_id, language in enumerate(languages):\n            split_path = os.path.join(data_path, language, split)\n\n            dataset = data_utils.load_indexed_dataset(\n                split_path,\n                self.source_dictionary,\n                self.args.dataset_impl,\n                combine=combine,\n            )\n            if dataset is None:\n                raise FileNotFoundError(\n                    \"Dataset not found: {} ({})\".format(split, split_path)\n                )\n\n            # create continuous blocks of tokens\n            dataset = TokenBlockDataset(\n                dataset,\n                dataset.sizes,\n                self.args.tokens_per_sample - 1,  # one less for <s>\n                pad=self.source_dictionary.pad(),\n                eos=self.source_dictionary.eos(),\n                break_mode=self.args.sample_break_mode,\n            )\n            logger.info(\"loaded {} blocks from: {}\".format(len(dataset), split_path))\n\n            # prepend beginning-of-sentence token (<s>, equiv. to [CLS] in BERT)\n            dataset = PrependTokenDataset(dataset, self.source_dictionary.bos())\n\n            src_dataset, tgt_dataset = MaskTokensDataset.apply_mask(\n                dataset,\n                self.source_dictionary,\n                pad_idx=self.source_dictionary.pad(),\n                mask_idx=self.mask_idx,\n                seed=self.args.seed,\n                mask_prob=self.args.mask_prob,\n                leave_unmasked_prob=self.args.leave_unmasked_prob,\n                random_token_prob=self.args.random_token_prob,\n                freq_weighted_replacement=self.args.freq_weighted_replacement,\n                mask_whole_words=mask_whole_words,\n            )\n\n            lang_dataset = NestedDictionaryDataset(\n                {\n                    \"net_input\": {\n                        \"src_tokens\": PadDataset(\n                            src_dataset,\n                            pad_idx=self.source_dictionary.pad(),\n                            left_pad=False,\n                        ),\n                        \"src_lengths\": NumelDataset(src_dataset, reduce=False),\n                    },\n                    \"target\": PadDataset(\n                        tgt_dataset,\n                        pad_idx=self.source_dictionary.pad(),\n                        left_pad=False,\n                    ),\n                    \"nsentences\": NumSamplesDataset(),\n                    \"ntokens\": NumelDataset(src_dataset, reduce=True),\n                    \"lang_id\": RawLabelDataset([lang_id] * src_dataset.sizes.shape[0]),\n                },\n                sizes=[src_dataset.sizes],\n            )\n            lang_datasets.append(lang_dataset)\n\n        dataset_lengths = np.array(\n            [len(d) for d in lang_datasets],\n            dtype=float,\n        )\n        logger.info(\n            \"loaded total {} blocks for all languages\".format(\n                dataset_lengths.sum(),\n            )\n        )\n        if split == self.args.train_subset:\n            # For train subset, additionally up or down sample languages.\n            sample_probs = self._get_sample_prob(dataset_lengths)\n            logger.info(\n                \"Sample probability by language: \",\n                {\n                    lang: \"{0:.4f}\".format(sample_probs[id])\n                    for id, lang in enumerate(languages)\n                },\n            )\n            size_ratio = (sample_probs * dataset_lengths.sum()) / dataset_lengths\n            logger.info(\n                \"Up/Down Sampling ratio by language: \",\n                {\n                    lang: \"{0:.2f}\".format(size_ratio[id])\n                    for id, lang in enumerate(languages)\n                },\n            )\n\n            resampled_lang_datasets = [\n                ResamplingDataset(\n                    lang_datasets[i],\n                    size_ratio=size_ratio[i],\n                    seed=self.args.seed,\n                    epoch=epoch,\n                    replace=size_ratio[i] >= 1.0,\n                )\n                for i, d in enumerate(lang_datasets)\n            ]\n            dataset = ConcatDataset(resampled_lang_datasets)\n        else:\n            dataset = ConcatDataset(lang_datasets)\n            lang_splits = [split]\n            for lang_id, lang_dataset in enumerate(lang_datasets):\n                split_name = split + \"_\" + languages[lang_id]\n                lang_splits.append(split_name)\n                self.datasets[split_name] = lang_dataset\n\n            # [TODO]: This is hacky for now to print validation ppl for each\n            # language individually. Maybe need task API changes to allow it\n            # in more generic ways.\n            if split in self.args.valid_subset:\n                self.args.valid_subset = self.args.valid_subset.replace(\n                    split, \",\".join(lang_splits)\n                )\n\n        with data_utils.numpy_seed(self.args.seed + epoch):\n            shuffle = np.random.permutation(len(dataset))\n\n        self.datasets[split] = SortDataset(\n            dataset,\n            sort_order=[\n                shuffle,\n                dataset.sizes,\n            ],\n        )\n\n    def build_dataset_for_inference(self, src_tokens, src_lengths, sort=True):\n        src_dataset = PadDataset(\n            TokenBlockDataset(\n                src_tokens,\n                src_lengths,\n                self.args.tokens_per_sample - 1,  # one less for <s>\n                pad=self.source_dictionary.pad(),\n                eos=self.source_dictionary.eos(),\n                break_mode=\"eos\",\n            ),\n            pad_idx=self.source_dictionary.pad(),\n            left_pad=False,\n        )\n        src_dataset = PrependTokenDataset(src_dataset, self.source_dictionary.bos())\n        src_dataset = NestedDictionaryDataset(\n            {\n                \"id\": IdDataset(),\n                \"net_input\": {\n                    \"src_tokens\": src_dataset,\n                    \"src_lengths\": NumelDataset(src_dataset, reduce=False),\n                },\n            },\n            sizes=src_lengths,\n        )\n        if sort:\n            src_dataset = SortDataset(src_dataset, sort_order=[src_lengths])\n        return src_dataset\n\n    @property\n    def source_dictionary(self):\n        return self.dictionary\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n"
  },
  {
    "path": "fairseq/tasks/multilingual_translation.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport contextlib\nimport logging\nimport os\nfrom collections import OrderedDict\nfrom argparse import ArgumentError\n\nimport torch\nfrom fairseq import options, utils\nfrom fairseq.logging import metrics\nfrom fairseq.data import (\n    Dictionary,\n    LanguagePairDataset,\n    RoundRobinZipDatasets,\n    TransformEosLangPairDataset,\n)\nfrom fairseq.models import FairseqMultiModel\nfrom fairseq.tasks.translation import load_langpair_dataset\n\nfrom . import LegacyFairseqTask, register_task\n\n\nlogger = logging.getLogger(__name__)\n\n\ndef _lang_token(lang: str):\n    return \"__{}__\".format(lang)\n\n\ndef _lang_token_index(dic: Dictionary, lang: str):\n    \"\"\"Return language token index.\"\"\"\n    idx = dic.index(_lang_token(lang))\n    assert idx != dic.unk_index, \"cannot find language token for lang {}\".format(lang)\n    return idx\n\n\n@register_task(\"multilingual_translation\")\nclass MultilingualTranslationTask(LegacyFairseqTask):\n    \"\"\"A task for training multiple translation models simultaneously.\n\n    We iterate round-robin over batches from multiple language pairs, ordered\n    according to the `--lang-pairs` argument.\n\n    The training loop is roughly:\n\n        for i in range(len(epoch)):\n            for lang_pair in args.lang_pairs:\n                batch = next_batch_for_lang_pair(lang_pair)\n                loss = criterion(model_for_lang_pair(lang_pair), batch)\n                loss.backward()\n            optimizer.step()\n\n    In practice, `next_batch_for_lang_pair` is abstracted in a FairseqDataset\n    (e.g., `RoundRobinZipDatasets`) and `model_for_lang_pair` is a model that\n    implements the `FairseqMultiModel` interface.\n\n    During inference it is required to specify a single `--source-lang` and\n    `--target-lang`, which indicates the inference langauge direction.\n    `--lang-pairs`, `--encoder-langtok`, `--decoder-langtok` have to be set to\n    the same value as training.\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('data', metavar='DIR', help='path to data directory')\n        parser.add_argument('--lang-pairs', default=None, metavar='PAIRS',\n                            help='comma-separated list of language pairs (in training order): en-de,en-fr,de-fr')\n        parser.add_argument('-s', '--source-lang', default=None, metavar='SRC',\n                            help='source language (only needed for inference)')\n        parser.add_argument('-t', '--target-lang', default=None, metavar='TARGET',\n                            help='target language (only needed for inference)')\n        parser.add_argument('--left-pad-source', default='True', type=str, metavar='BOOL',\n                            help='pad the source on the left (default: True)')\n        parser.add_argument('--left-pad-target', default='False', type=str, metavar='BOOL',\n                            help='pad the target on the left (default: False)')\n        try:\n            parser.add_argument('--max-source-positions', default=1024, type=int, metavar='N',\n                                help='max number of tokens in the source sequence')\n            parser.add_argument('--max-target-positions', default=1024, type=int, metavar='N',\n                                help='max number of tokens in the target sequence')\n        except ArgumentError:\n            # this might have already been defined. Once we transition this to hydra it should be fine to add it here.\n            pass\n        parser.add_argument('--upsample-primary', default=1, type=int,\n                            help='amount to upsample primary dataset')\n        parser.add_argument('--encoder-langtok', default=None, type=str, choices=['src', 'tgt'],\n                            metavar='SRCTGT',\n                            help='replace beginning-of-sentence in source sentence with source or target '\n                                 'language token. (src/tgt)')\n        parser.add_argument('--decoder-langtok', action='store_true',\n                            help='replace beginning-of-sentence in target sentence with target language token')\n        # fmt: on\n\n    def __init__(self, args, dicts, training):\n        super().__init__(args)\n        self.dicts = dicts\n        self.training = training\n        if training:\n            self.lang_pairs = args.lang_pairs\n        else:\n            self.lang_pairs = [\"{}-{}\".format(args.source_lang, args.target_lang)]\n        # eval_lang_pairs for multilingual translation is usually all of the\n        # lang_pairs. However for other multitask settings or when we want to\n        # optimize for certain languages we want to use a different subset. Thus\n        # the eval_lang_pairs class variable is provided for classes that extend\n        # this class.\n        self.eval_lang_pairs = self.lang_pairs\n        # model_lang_pairs will be used to build encoder-decoder model pairs in\n        # models.build_model(). This allows multitask type of sub-class can\n        # build models other than the input lang_pairs\n        self.model_lang_pairs = self.lang_pairs\n        self.langs = list(dicts.keys())\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        dicts, training = cls.prepare(args, **kwargs)\n        return cls(args, dicts, training)\n\n    @classmethod\n    def update_args(cls, args):\n        args.left_pad_source = utils.eval_bool(args.left_pad_source)\n        args.left_pad_target = utils.eval_bool(args.left_pad_target)\n\n        if args.lang_pairs is None:\n            raise ValueError(\n                \"--lang-pairs is required. List all the language pairs in the training objective.\"\n            )\n        if isinstance(args.lang_pairs, str):\n            args.lang_pairs = args.lang_pairs.split(\",\")\n\n    @classmethod\n    def prepare(cls, args, **kargs):\n        cls.update_args(args)\n        sorted_langs = sorted(\n            list({x for lang_pair in args.lang_pairs for x in lang_pair.split(\"-\")})\n        )\n        if args.source_lang is not None or args.target_lang is not None:\n            training = False\n        else:\n            training = True\n\n        # load dictionaries\n        dicts = OrderedDict()\n        for lang in sorted_langs:\n            paths = utils.split_paths(args.data)\n            assert len(paths) > 0\n            dicts[lang] = cls.load_dictionary(\n                os.path.join(paths[0], \"dict.{}.txt\".format(lang))\n            )\n            if len(dicts) > 0:\n                assert dicts[lang].pad() == dicts[sorted_langs[0]].pad()\n                assert dicts[lang].eos() == dicts[sorted_langs[0]].eos()\n                assert dicts[lang].unk() == dicts[sorted_langs[0]].unk()\n            if args.encoder_langtok is not None or args.decoder_langtok:\n                for lang_to_add in sorted_langs:\n                    dicts[lang].add_symbol(_lang_token(lang_to_add))\n            logger.info(\"[{}] dictionary: {} types\".format(lang, len(dicts[lang])))\n        return dicts, training\n\n    def get_encoder_langtok(self, src_lang, tgt_lang):\n        if self.args.encoder_langtok is None:\n            return self.dicts[src_lang].eos()\n        if self.args.encoder_langtok == \"src\":\n            return _lang_token_index(self.dicts[src_lang], src_lang)\n        else:\n            return _lang_token_index(self.dicts[src_lang], tgt_lang)\n\n    def get_decoder_langtok(self, tgt_lang):\n        if not self.args.decoder_langtok:\n            return self.dicts[tgt_lang].eos()\n        return _lang_token_index(self.dicts[tgt_lang], tgt_lang)\n\n    def alter_dataset_langtok(\n        self,\n        lang_pair_dataset,\n        src_eos=None,\n        src_lang=None,\n        tgt_eos=None,\n        tgt_lang=None,\n    ):\n        if self.args.encoder_langtok is None and not self.args.decoder_langtok:\n            return lang_pair_dataset\n\n        new_src_eos = None\n        if (\n            self.args.encoder_langtok is not None\n            and src_eos is not None\n            and src_lang is not None\n            and tgt_lang is not None\n        ):\n            new_src_eos = self.get_encoder_langtok(src_lang, tgt_lang)\n        else:\n            src_eos = None\n\n        new_tgt_bos = None\n        if self.args.decoder_langtok and tgt_eos is not None and tgt_lang is not None:\n            new_tgt_bos = self.get_decoder_langtok(tgt_lang)\n        else:\n            tgt_eos = None\n\n        return TransformEosLangPairDataset(\n            lang_pair_dataset,\n            src_eos=src_eos,\n            new_src_eos=new_src_eos,\n            tgt_bos=tgt_eos,\n            new_tgt_bos=new_tgt_bos,\n        )\n\n    def load_dataset(self, split, epoch=1, **kwargs):\n        \"\"\"Load a dataset split.\"\"\"\n        paths = utils.split_paths(self.args.data)\n        assert len(paths) > 0\n        data_path = paths[(epoch - 1) % len(paths)]\n\n        def language_pair_dataset(lang_pair):\n            src, tgt = lang_pair.split(\"-\")\n            langpair_dataset = load_langpair_dataset(\n                data_path,\n                split,\n                src,\n                self.dicts[src],\n                tgt,\n                self.dicts[tgt],\n                combine=True,\n                dataset_impl=self.args.dataset_impl,\n                upsample_primary=self.args.upsample_primary,\n                left_pad_source=self.args.left_pad_source,\n                left_pad_target=self.args.left_pad_target,\n                max_source_positions=self.args.max_source_positions,\n                max_target_positions=self.args.max_target_positions,\n            )\n            return self.alter_dataset_langtok(\n                langpair_dataset,\n                src_eos=self.dicts[src].eos(),\n                src_lang=src,\n                tgt_eos=self.dicts[tgt].eos(),\n                tgt_lang=tgt,\n            )\n\n        self.datasets[split] = RoundRobinZipDatasets(\n            OrderedDict(\n                [\n                    (lang_pair, language_pair_dataset(lang_pair))\n                    for lang_pair in self.lang_pairs\n                ]\n            ),\n            eval_key=None\n            if self.training\n            else \"%s-%s\" % (self.args.source_lang, self.args.target_lang),\n        )\n\n    def build_dataset_for_inference(self, src_tokens, src_lengths, constraints=None):\n        if constraints is not None:\n            raise NotImplementedError(\n                \"Constrained decoding with the multilingual_translation task is not supported\"\n            )\n\n        lang_pair = \"%s-%s\" % (self.args.source_lang, self.args.target_lang)\n        return RoundRobinZipDatasets(\n            OrderedDict(\n                [\n                    (\n                        lang_pair,\n                        self.alter_dataset_langtok(\n                            LanguagePairDataset(\n                                src_tokens, src_lengths, self.source_dictionary\n                            ),\n                            src_eos=self.source_dictionary.eos(),\n                            src_lang=self.args.source_lang,\n                            tgt_eos=self.target_dictionary.eos(),\n                            tgt_lang=self.args.target_lang,\n                        ),\n                    )\n                ]\n            ),\n            eval_key=lang_pair,\n        )\n\n    def build_model(self, args, from_checkpoint=False):\n        def check_args():\n            messages = []\n            if (\n                len(set(self.args.lang_pairs).symmetric_difference(args.lang_pairs))\n                != 0\n            ):\n                messages.append(\n                    \"--lang-pairs should include all the language pairs {}.\".format(\n                        args.lang_pairs\n                    )\n                )\n            if self.args.encoder_langtok != args.encoder_langtok:\n                messages.append(\n                    \"--encoder-langtok should be {}.\".format(args.encoder_langtok)\n                )\n            if self.args.decoder_langtok != args.decoder_langtok:\n                messages.append(\n                    \"--decoder-langtok should {} be set.\".format(\n                        \"\" if args.decoder_langtok else \"not\"\n                    )\n                )\n\n            if len(messages) > 0:\n                raise ValueError(\" \".join(messages))\n\n        # Update args -> the fact that the constructor here\n        # changes the args object doesn't mean you get the same one here\n        self.update_args(args)\n\n        # Check if task args are consistant with model args\n        check_args()\n\n        from fairseq import models\n\n        model = models.build_model(args, self, from_checkpoint)\n        if not isinstance(model, FairseqMultiModel):\n            raise ValueError(\n                \"MultilingualTranslationTask requires a FairseqMultiModel architecture\"\n            )\n        return model\n\n    def _per_lang_pair_train_loss(\n        self, lang_pair, model, update_num, criterion, sample, optimizer, ignore_grad\n    ):\n        loss, sample_size, logging_output = criterion(\n            model.models[lang_pair], sample[lang_pair]\n        )\n        if ignore_grad:\n            loss *= 0\n        optimizer.backward(loss)\n        return loss, sample_size, logging_output\n\n    def train_step(\n        self, sample, model, criterion, optimizer, update_num, ignore_grad=False\n    ):\n        model.train()\n        from collections import defaultdict\n\n        agg_loss, agg_sample_size, agg_logging_output = 0.0, 0.0, defaultdict(float)\n        curr_lang_pairs = [\n            lang_pair\n            for lang_pair in self.model_lang_pairs\n            if sample[lang_pair] is not None and len(sample[lang_pair]) != 0\n        ]\n\n        for idx, lang_pair in enumerate(curr_lang_pairs):\n\n            def maybe_no_sync():\n                if (\n                    self.args.distributed_world_size > 1\n                    and hasattr(model, \"no_sync\")\n                    and idx < len(curr_lang_pairs) - 1\n                ):\n                    return model.no_sync()\n                else:\n                    return contextlib.ExitStack()  # dummy contextmanager\n\n            with maybe_no_sync():\n                loss, sample_size, logging_output = self._per_lang_pair_train_loss(\n                    lang_pair,\n                    model,\n                    update_num,\n                    criterion,\n                    sample,\n                    optimizer,\n                    ignore_grad,\n                )\n            agg_loss += loss.detach().item()\n            # TODO make summing of the sample sizes configurable\n            agg_sample_size += sample_size\n            for k in logging_output:\n                agg_logging_output[k] += logging_output[k]\n                agg_logging_output[f\"{lang_pair}:{k}\"] += logging_output[k]\n        return agg_loss, agg_sample_size, agg_logging_output\n\n    def _per_lang_pair_valid_loss(self, lang_pair, model, criterion, sample):\n        return criterion(model.models[lang_pair], sample[lang_pair])\n\n    def valid_step(self, sample, model, criterion):\n        model.eval()\n        with torch.no_grad():\n            from collections import defaultdict\n\n            agg_loss, agg_sample_size, agg_logging_output = 0.0, 0.0, defaultdict(float)\n            for lang_pair in self.eval_lang_pairs:\n                if (\n                    lang_pair not in sample\n                    or sample[lang_pair] is None\n                    or len(sample[lang_pair]) == 0\n                ):\n                    continue\n                loss, sample_size, logging_output = self._per_lang_pair_valid_loss(\n                    lang_pair, model, criterion, sample\n                )\n                agg_loss += loss.data.item()\n                # TODO make summing of the sample sizes configurable\n                agg_sample_size += sample_size\n                for k in logging_output:\n                    agg_logging_output[k] += logging_output[k]\n                    agg_logging_output[f\"{lang_pair}:{k}\"] += logging_output[k]\n        return agg_loss, agg_sample_size, agg_logging_output\n\n    def inference_step(\n        self, generator, models, sample, prefix_tokens=None, constraints=None\n    ):\n        with torch.no_grad():\n            if self.args.decoder_langtok:\n                bos_token = _lang_token_index(\n                    self.target_dictionary, self.args.target_lang\n                )\n            else:\n                bos_token = self.target_dictionary.eos()\n            return generator.generate(\n                models,\n                sample,\n                prefix_tokens=prefix_tokens,\n                constraints=constraints,\n                bos_token=bos_token,\n            )\n\n    def reduce_metrics(self, logging_outputs, criterion):\n        with metrics.aggregate():\n            # pass 'sample_size', 'nsentences', 'ntokens' stats to fairseq_task\n            super().reduce_metrics(logging_outputs, criterion)\n            for k in [\"sample_size\", \"nsentences\", \"ntokens\"]:\n                metrics.log_scalar(k, sum(l[k] for l in logging_outputs))\n\n    @property\n    def source_dictionary(self):\n        if self.training:\n            return next(iter(self.dicts.values()))\n        else:\n            return self.dicts[self.args.source_lang]\n\n    @property\n    def target_dictionary(self):\n        if self.training:\n            return next(iter(self.dicts.values()))\n        else:\n            return self.dicts[self.args.target_lang]\n\n    def max_positions(self):\n        \"\"\"Return the max sentence length allowed by the task.\"\"\"\n        if len(self.datasets.values()) == 0:\n            return {\n                \"%s-%s\"\n                % (self.args.source_lang, self.args.target_lang): (\n                    self.args.max_source_positions,\n                    self.args.max_target_positions,\n                )\n            }\n        return OrderedDict(\n            [\n                (key, (self.args.max_source_positions, self.args.max_target_positions))\n                for split in self.datasets.keys()\n                for key in self.datasets[split].datasets.keys()\n            ]\n        )\n"
  },
  {
    "path": "fairseq/tasks/multires_hubert_pretraining.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nimport logging\nimport os\nimport sys\nfrom typing import Dict, List, Optional, Tuple\n\nimport numpy as np\n\nfrom dataclasses import dataclass, field\nfrom fairseq.data import Dictionary, HubertDataset\nfrom fairseq.dataclass.configs import FairseqDataclass\nfrom fairseq.tasks import register_task\nfrom fairseq.tasks.fairseq_task import FairseqTask\nfrom omegaconf import MISSING\n\nlogger = logging.getLogger(__name__)\n\n\nclass LabelEncoder(object):\n    def __init__(self, dictionary: Dictionary) -> None:\n        self.dictionary = dictionary\n\n    def __call__(self, label: str) -> List[str]:\n        return self.dictionary.encode_line(\n            label,\n            append_eos=False,\n            add_if_not_exist=False,\n        )\n\n\n@dataclass\nclass MultiresHubertPretrainingConfig(FairseqDataclass):\n    data: str = field(default=MISSING, metadata={\"help\": \"path to data directory\"})\n    fine_tuning: bool = field(\n        default=False, metadata={\"help\": \"set to true if fine-tuning Hubert\"}\n    )\n    labels: List[str] = field(\n        default_factory=lambda: [\"ltr50\", \"ltr25\"],\n        metadata={\n            \"help\": (\n                \"extension of the label files to load, frame-level labels for\"\n                \" pre-training, and sequence-level label for fine-tuning\"\n            )\n        },\n    )\n    label_dir: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"if set, looks for labels in this directory instead\",\n        },\n    )\n    label_rate: float = field(\n        default=-1.0,\n        metadata={\"help\": \"label frame rate. -1.0 for sequence label\"},\n    )\n    #     label_rate: 1,2,2,5\n    #                 (imply (1,2), (2,5))\n    #     if base label_rate = 50\n    #     (1,2), (2,5) --> label rates 50, 25, 10\n    label_rate_ratios: List[int] = field(default=MISSING, metadata={\"help\": \"tuple for label rates e.g., [(1,2), (2,5)]\"})\n    sample_rate: int = field(\n        default=16_000,\n        metadata={\n            \"help\": \"target sample rate. audio files will be up/down \"\n            \"sampled to this rate\"\n        },\n    )\n    normalize: bool = field(\n        default=False,\n        metadata={\"help\": \"if set, normalizes input to have 0 mean and unit variance\"},\n    )\n    enable_padding: bool = field(\n        default=False,\n        metadata={\"help\": \"pad shorter samples instead of cropping\"},\n    )\n    max_keep_size: Optional[int] = field(\n        default=None,\n        metadata={\"help\": \"exclude sample longer than this\"},\n    )\n    max_sample_size: Optional[int] = field(\n        default=None,\n        metadata={\"help\": \"max sample size to crop to for batching\"},\n    )\n    min_sample_size: Optional[int] = field(\n        default=None,\n        metadata={\"help\": \"min sample size to crop to for batching\"},\n    )\n    random_crop: Optional[bool] = field(\n        default=True,\n        metadata={\"help\": \"always crop from the beginning if false\"},\n    )\n    pad_audio: Optional[bool] = field(\n        default=False,\n        metadata={\"help\": \"pad audio to the longest one in the batch if true\"},\n    )\n\n\n@register_task(\"multires_hubert_pretraining\", dataclass=MultiresHubertPretrainingConfig)\nclass MultiresHubertPretrainingTask(FairseqTask):\n    \"\"\"\n    Multiresolution HuBERT Pretraining Task.\n    The task is based on `HubertPretrainingTask` but extended to multiresolution.\n    \"\"\"\n\n    cfg: MultiresHubertPretrainingConfig\n\n    def __init__(\n        self,\n        cfg: MultiresHubertPretrainingConfig,\n    ) -> None:\n        super().__init__(cfg)\n\n        logger.info(f\"current directory is {os.getcwd()}\")\n        logger.info(f\"MultiresHubertPretrainingTask Config {cfg}\")\n\n        self.cfg = cfg\n        self.fine_tuning = cfg.fine_tuning\n\n        if cfg.fine_tuning:\n            self.state.add_factory(\"target_dictionary\", self.load_dictionaries)\n            self.res_number = 1\n        else:\n            self.state.add_factory(\"dictionaries\", self.load_dictionaries)\n\n        self.blank_symbol = \"<s>\"\n\n    @property\n    def source_dictionary(self) -> Optional[Dictionary]:\n        return None\n\n    @property\n    def target_dictionary(self) -> Optional[Dictionary]:\n        return self.state.target_dictionary\n\n    @property\n    def dictionaries(self) -> List[Dictionary]:\n        return self.state.dictionaries\n\n    @classmethod\n    def setup_task(\n        cls, cfg: MultiresHubertPretrainingConfig, **kwargs\n    ) -> \"MultiresHubertPretrainingTask\":\n        return cls(cfg)\n\n    def load_dictionaries(self):\n        label_dir = self.cfg.data if self.cfg.label_dir is None else self.cfg.label_dir\n        self.res_number = len(label_dir)\n        dictionaries = [ (Dictionary.load(f\"{label_dir}/dict.{label}.txt\") if label is not \"\" else None ) for label in self.cfg.labels]\n        return dictionaries[0] if self.cfg.fine_tuning else dictionaries\n\n    def get_label_dir(self) -> str:\n        if self.cfg.label_dir is None:\n            return self.cfg.data\n        return self.cfg.label_dir\n\n    def load_dataset(self, split: str, **kwargs) -> None:\n        manifest = f\"{self.cfg.data}/{split}.tsv\"\n        dicts = [self.target_dictionary] if self.cfg.fine_tuning else self.dictionaries\n        pad_list = [(dict.pad() if dict is not None else None) for dict in dicts]\n        eos_list = [(dict.eos() if dict is not None else None) for dict in dicts]\n        procs = [LabelEncoder(dict) for dict in dicts]\n        paths = [(f\"{self.get_label_dir()}/{split}.{l}\" if l != \"\" else None) for l in self.cfg.labels]\n\n        base_rate = self.cfg.label_rate\n        self.label_rates = [base_rate]\n        label_rate_ratios = self.cfg.label_rate_ratios\n        self.label_rate_ratios = []\n        for i in range(len(label_rate_ratios) // 2):\n\n            upsample_rate, downsample_rate = label_rate_ratios[i * 2], label_rate_ratios[i * 2 + 1]\n            # parse label rate ratios\n            self.label_rate_ratios.append((upsample_rate, downsample_rate))\n            base_rate = base_rate * upsample_rate // downsample_rate\n            self.label_rates.append(base_rate)\n\n        # hubert v1: pad_audio=True, random_crop=False;\n        self.datasets[split] = HubertDataset(\n            manifest,\n            sample_rate=self.cfg.sample_rate,\n            label_paths=paths,\n            label_rates=self.label_rates,\n            pad_list=pad_list,\n            eos_list=eos_list,\n            label_processors=procs,\n            max_keep_sample_size=self.cfg.max_keep_size,\n            min_keep_sample_size=self.cfg.min_sample_size,\n            max_sample_size=self.cfg.max_sample_size,\n            pad_audio=self.cfg.pad_audio,\n            normalize=self.cfg.normalize,\n            store_labels=False,\n            random_crop=self.cfg.random_crop,\n        )\n\n    def max_positions(self) -> Tuple[int, int]:\n        return (sys.maxsize, sys.maxsize)\n\n    def filter_indices_by_size(self, indices: np.array, *args, **kwargs) -> np.array:\n        return indices\n"
  },
  {
    "path": "fairseq/tasks/nlu_finetuning.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nimport logging\nimport os\nimport torch\nimport json\n\nfrom argparse import Namespace\nfrom dataclasses import dataclass, field\nfrom typing import Optional, Any\n\nfrom fairseq.data import AddTargetDataset, Dictionary, encoders\nfrom fairseq.tasks.audio_pretraining import AudioPretrainingTask, AudioPretrainingConfig\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.dataclass.configs import GenerationConfig\nfrom fairseq.data.text_compressor import TextCompressor, TextCompressionLevel\n\nfrom . import register_task\nfrom .. import utils\nfrom ..logging import metrics\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass LabelEncoder(object):\n    def __init__(self, dictionary):\n        self.dictionary = dictionary\n\n    def __call__(self, label):\n        return self.dictionary.encode_line(\n            label, append_eos=False, add_if_not_exist=False\n        )\n\n\ndef label_len_fn(label):\n    return len(label.split(\" \"))\n\n\n@dataclass\nclass NLUFinetuningConfig(AudioPretrainingConfig):\n    # Options for reporting WER metrics during validation. Only applicable to\n    # Seq2Seq models during fine-tuning\n    eval_wer: bool = field(\n        default=False, metadata={\"help\": \"compute WER for Seq2Seq models\"}\n    )\n    eval_wer_parse: bool = field(\n        default=False, metadata={\"help\": \"compute WER for Seq2Seq models\"}\n    )\n    eval_wer_config: GenerationConfig = field(\n        default_factory=lambda: GenerationConfig(),\n        metadata={\"help\": \"beam search config for evaluating wer during training\"},\n    )\n    eval_wer_tokenizer: Any = field(\n        default=None,\n        metadata={\"help\": \"tokenizer config for evaluating wer during training\"},\n    )\n    eval_wer_post_process: str = field(\n        default=\"letter\",\n        metadata={\n            \"help\": \"remove BPE tokens before scoring (can be sentencepiece, letter, and more)\"\n        },\n    )\n    eval_bleu: bool = field(\n        default=False, metadata={\"help\": \"evaluation with BLEU scores\"}\n    )\n    eval_bleu_detok: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"detokenize before computing BLEU (e.g., 'moses'); \"\n            \"required if using --eval-bleu; use 'space' to disable \"\n            \"detokenization; see fairseq.data.encoders for other options\"\n        },\n    )\n    eval_bleu_detok_args: str = field(\n        default=\"{}\", metadata={\"help\": \"args for building the tokenizer, if needed\"}\n    )\n    eval_tokenized_bleu: bool = field(\n        default=False, metadata={\"help\": \"compute tokenized BLEU instead of sacrebleu\"}\n    )\n    eval_bleu_remove_bpe: Optional[str] = field(\n        default=None, metadata={\"help\": \"remove BPE before computing BLEU\"}\n    )\n    eval_bleu_args: str = field(\n        default=\"{}\",\n        metadata={\n            \"help\": \"generation args for BLUE scoring, e.g., \"\n            '\\'{\"beam\": 4, \"lenpen\": 0.6}\\''\n        },\n    )\n    eval_bleu_print_samples: bool = field(\n        default=False, metadata={\"help\": \"print sample generations during validation\"}\n    )\n    autoregressive: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"required for autoregressive decoders (like seq2seq models); \"\n            \"adds 'prev_output_tokens' to input and appends eos to target\"\n        },\n    )\n\n\n@register_task(\"nlu_finetuning\", dataclass=NLUFinetuningConfig)\nclass NLUFinetuningTask(AudioPretrainingTask):\n    \"\"\" \"\"\"\n\n    cfg: NLUFinetuningConfig\n\n    def __init__(\n        self,\n        cfg: NLUFinetuningConfig,\n    ):\n        super().__init__(cfg)\n        self.blank_symbol = \"<s>\"\n\n        self.state.add_factory(\"target_dictionary\", self.load_target_dictionary)\n\n    def load_target_dictionary(self):\n        if self.cfg.labels:\n            dict_path = os.path.join(self.cfg.data, f\"dict.{self.cfg.labels}.txt\")\n            return Dictionary.load(dict_path)\n        return None\n\n    def load_dataset(self, split: str, task_cfg: NLUFinetuningConfig = None, **kwargs):\n        super().load_dataset(split, task_cfg, **kwargs)\n\n        task_cfg = task_cfg or self.cfg\n        assert task_cfg.labels is not None\n        text_compression_level = getattr(\n            TextCompressionLevel, str(self.cfg.text_compression_level)\n        )\n        data_path = self.cfg.data\n        label_path = os.path.join(data_path, f\"{split}.{task_cfg.labels}\")\n        skipped_indices = getattr(self.datasets[split], \"skipped_indices\", set())\n        text_compressor = TextCompressor(level=text_compression_level)\n        with open(label_path, \"r\") as f:\n            labels = [\n                text_compressor.compress(l)\n                for i, l in enumerate(f)\n                if i not in skipped_indices\n            ]\n\n        assert len(labels) == len(self.datasets[split]), (\n            f\"labels length ({len(labels)}) and dataset length \"\n            f\"({len(self.datasets[split])}) do not match\"\n        )\n\n        process_label = LabelEncoder(self.target_dictionary)\n\n        self.datasets[split] = AddTargetDataset(\n            self.datasets[split],\n            labels,\n            pad=self.target_dictionary.pad(),\n            eos=self.target_dictionary.eos(),\n            batch_targets=True,\n            process_label=process_label,\n            label_len_fn=label_len_fn,\n            add_to_input=task_cfg.get(\"autoregressive\", False),\n            text_compression_level=text_compression_level,\n        )\n\n    @property\n    def target_dictionary(self):\n        \"\"\"Return the :class:`~fairseq.data.Dictionary` for the language\n        model.\"\"\"\n        return self.state.target_dictionary\n\n    def valid_step(self, sample, model, criterion):\n        loss, sample_size, logging_output = super().valid_step(sample, model, criterion)\n        if self.cfg.eval_wer_parse and self.cfg.autoregressive:\n            metrics = self._inference_with_wer_parse(\n                self.sequence_generator, sample, model\n            )\n            logging_output[\"_num_char_errors\"] = metrics[\"num_char_errors\"]\n            logging_output[\"_num_chars\"] = metrics[\"num_chars\"]\n            logging_output[\"_num_word_errors\"] = metrics[\"num_word_errors\"]\n            logging_output[\"_num_words\"] = metrics[\"num_words\"]\n            logging_output[\"_num_em_errors\"] = metrics[\"num_em_errors\"]\n            logging_output[\"_num_ems\"] = metrics[\"num_ems\"]\n            logging_output[\"_num_tree_errors\"] = metrics[\"num_tree_errors\"]\n            logging_output[\"_num_trees\"] = metrics[\"num_trees\"]\n        if self.cfg.eval_wer and self.cfg.autoregressive:\n            metrics = self._inference_with_wer(self.sequence_generator, sample, model)\n            logging_output[\"_num_char_errors\"] = metrics[\"num_char_errors\"]\n            logging_output[\"_num_chars\"] = metrics[\"num_chars\"]\n            logging_output[\"_num_word_errors\"] = metrics[\"num_word_errors\"]\n            logging_output[\"_num_words\"] = metrics[\"num_words\"]\n        if self.cfg.eval_bleu and self.cfg.autoregressive:\n            metrics = self._inference_with_bleu(self.sequence_generator, sample, model)\n            logging_output[\"_bleu_sys_len\"] = metrics.sys_len\n            logging_output[\"_bleu_ref_len\"] = metrics.ref_len\n            # we split counts into separate entries so that they can be\n            # summed efficiently across workers using fast-stat-sync\n            assert len(metrics.counts) == 4\n            for i in range(4):\n                logging_output[f\"_bleu_counts_{i}\"] = metrics.counts[i]\n                logging_output[f\"_bleu_totals_{i}\"] = metrics.totals[i]\n        return loss, sample_size, logging_output\n\n    def build_model(self, model_cfg: FairseqDataclass):\n        model = super().build_model(model_cfg)\n\n        if (self.cfg.eval_wer or self.cfg.eval_wer_parse) and self.cfg.autoregressive:\n            self.sequence_generator = self.build_generator(\n                [model],\n                self.cfg.eval_wer_config,\n            )\n            if self.cfg.eval_wer_tokenizer:\n                self.tokenizer = encoders.build_tokenizer(self.cfg.eval_wer_tokenizer)\n            else:\n                self.tokenizer = None\n        if self.cfg.eval_bleu and self.cfg.autoregressive:\n            assert self.cfg.eval_bleu_detok is not None, (\n                \"--eval-bleu-detok is required if using --eval-bleu; \"\n                \"try --eval-bleu-detok=moses (or --eval-bleu-detok=space \"\n                \"to disable detokenization, e.g., when using sentencepiece)\"\n            )\n            detok_args = json.loads(self.cfg.eval_bleu_detok_args)\n            self.tokenizer = encoders.build_tokenizer(\n                Namespace(tokenizer=self.cfg.eval_bleu_detok, **detok_args)\n            )\n            gen_args = json.loads(self.cfg.eval_bleu_args)\n            gen_args = Namespace(**gen_args)\n            self.sequence_generator = self.build_generator([model], gen_args)\n\n        return model\n\n    def _inference_with_wer_parse(self, generator, sample, model):\n        import editdistance\n\n        def decode(toks):\n            s = self.target_dictionary.string(\n                toks.int().cpu(),\n                self.cfg.eval_wer_post_process,\n                escape_unk=True,\n            )\n            if self.tokenizer:\n                s = self.tokenizer.decode(s)\n            return s\n\n        def decode_to_list(toks):\n            def token_string(i):\n                if i == self.target_dictionary.unk():\n                    return self.target_dictionary.unk_string(False)\n                else:\n                    return self.target_dictionary[i]\n\n            return [token_string(i) for i in toks]\n\n        def is_ont_token(token):\n            return \"[\" in token or \"]\" in token\n\n        def post_process(l):\n            o = []\n            for w in l:\n                if w == self.target_dictionary.eos_word or w == \"|\":\n                    continue\n                if w == \"_\":\n                    o.append(\" \")\n                else:\n                    o.append(w)\n                    if is_ont_token(w):\n                        o.append(\" \")\n            return o\n\n        num_word_errors, num_char_errors = 0, 0\n        num_chars, num_words = 0, 0\n        num_em_errors, num_ems = 0, 0\n        num_tree_errors, num_trees = 0, 0\n        gen_out = self.inference_step(generator, [model], sample, None)\n        for i in range(len(gen_out)):\n            hyp_tokens = gen_out[i][0][\"tokens\"]\n            # hyp = decode(hyp_tokens)\n            ref_tokens = utils.strip_pad(\n                sample[\"target\"][i], self.target_dictionary.pad()\n            )\n            # ref = decode(ref_tokens)\n            hyp_list = decode_to_list(hyp_tokens)\n            ref_list = decode_to_list(ref_tokens)\n\n            hyp_list = post_process(hyp_list)\n            ref_list = post_process(ref_list)\n\n            hyp = \"\".join(hyp_list).strip()\n            ref = \"\".join(ref_list).strip()\n            num_chars += len(ref)\n            num_char_errors += editdistance.eval(hyp, ref)\n            hyp_words = hyp.split()\n            ref_words = ref.split()\n            hyp_tree = [word for word in hyp_list if (\"[\" in word or \"]\" in word)]\n            ref_tree = [word for word in ref_list if (\"[\" in word or \"]\" in word)]\n            # num_word_errors += editdistance.eval(hyp_words, ref_words)\n            hyp_before = decode(hyp_tokens).split()\n            ref_before = decode(ref_tokens).split()\n\n            num_word_errors += editdistance.eval(hyp_before, ref_before)\n            num_words += len(ref_before)\n            if hyp != ref:\n                num_em_errors += 1\n            if hyp_tree != ref_tree:\n                num_tree_errors += 1\n            num_ems += 1\n            num_trees += 1\n\n        return {\n            \"num_char_errors\": num_char_errors,\n            \"num_chars\": num_chars,\n            \"num_word_errors\": num_word_errors,\n            \"num_words\": num_words,\n            \"num_ems\": num_ems,\n            \"num_em_errors\": num_em_errors,\n            \"num_trees\": num_trees,\n            \"num_tree_errors\": num_tree_errors,\n        }\n\n    def _inference_with_wer(self, generator, sample, model):\n        import editdistance\n\n        def decode(toks):\n            s = self.target_dictionary.string(\n                toks.int().cpu(),\n                self.cfg.eval_wer_post_process,\n                escape_unk=True,\n            )\n            if self.tokenizer:\n                s = self.tokenizer.decode(s)\n            return s\n\n        num_word_errors, num_char_errors = 0, 0\n        num_chars, num_words = 0, 0\n        gen_out = self.inference_step(generator, [model], sample, None)\n        for i in range(len(gen_out)):\n            hyp = decode(gen_out[i][0][\"tokens\"])\n            ref = decode(\n                utils.strip_pad(sample[\"target\"][i], self.target_dictionary.pad()),\n            )\n            num_char_errors += editdistance.eval(hyp, ref)\n            num_chars += len(ref)\n            hyp_words = hyp.split()\n            ref_words = ref.split()\n            num_word_errors += editdistance.eval(hyp_words, ref_words)\n            num_words += len(ref_words)\n\n        return {\n            \"num_char_errors\": num_char_errors,\n            \"num_chars\": num_chars,\n            \"num_word_errors\": num_word_errors,\n            \"num_words\": num_words,\n        }\n\n    def _inference_with_bleu(self, generator, sample, model):\n        import sacrebleu\n\n        def decode(toks, is_ref):\n            s = self.target_dictionary.string(\n                toks.int().cpu(),\n                self.cfg.eval_bleu_remove_bpe,\n                # The default unknown string in fairseq is `<unk>`, but\n                # this is tokenized by sacrebleu as `< unk >`, inflating\n                # BLEU scores. Instead, we use a somewhat more verbose\n                # alternative that is unlikely to appear in the real\n                # reference, but doesn't get split into multiple tokens.\n                unk_string=(\"UNKNOWNTOKENINREF\" if is_ref else \"UNKNOWNTOKENINHYP\"),\n            )\n            if self.tokenizer:\n                s = self.tokenizer.decode(s)\n            return s\n\n        gen_out = self.inference_step(generator, [model], sample)\n        hyps, refs = [], []\n        for i in range(len(gen_out)):\n            hyps.append(decode(gen_out[i][0][\"tokens\"], is_ref=False))\n            refs.append(\n                decode(\n                    utils.strip_pad(sample[\"target\"][i], self.target_dictionary.pad()),\n                    is_ref=True,  # don't count <unk> as matches to the hypo\n                )\n            )\n        if self.cfg.eval_bleu_print_samples:\n            logger.info(\"H-{} {}\".format(sample[\"id\"][0], hyps[0]))\n            logger.info(\"T-{} {}\".format(sample[\"id\"][0], refs[0]))\n\n        eval_tokenization = \"none\" if self.cfg.eval_tokenized_bleu else \"13a\"\n        return sacrebleu.corpus_bleu(hyps, [refs], tokenize=eval_tokenization)\n\n    def reduce_metrics(self, logging_outputs, criterion):\n        super().reduce_metrics(logging_outputs, criterion)\n\n        if self.cfg.eval_wer or self.cfg.eval_wer_parse:\n            zero = torch.scalar_tensor(0.0)\n            num_char_errors = sum(\n                log.get(\"_num_char_errors\", zero) for log in logging_outputs\n            )\n            num_chars = sum(log.get(\"_num_chars\", zero) for log in logging_outputs)\n            num_word_errors = sum(\n                log.get(\"_num_word_errors\", zero) for log in logging_outputs\n            )\n            num_words = sum(log.get(\"_num_words\", zero) for log in logging_outputs)\n            metrics.log_scalar(\"_num_char_errors\", num_char_errors)\n            metrics.log_scalar(\"_num_chars\", num_chars)\n            metrics.log_scalar(\"_num_word_errors\", num_word_errors)\n            metrics.log_scalar(\"_num_words\", num_words)\n            if num_chars > 0:\n                metrics.log_derived(\n                    \"uer\",\n                    lambda meters: meters[\"_num_char_errors\"].sum\n                    * 100.0\n                    / meters[\"_num_chars\"].sum\n                    if meters[\"_num_chars\"].sum > 0\n                    else float(\"nan\"),\n                )\n            if num_words > 0:\n                metrics.log_derived(\n                    \"wer\",\n                    lambda meters: meters[\"_num_word_errors\"].sum\n                    * 100.0\n                    / meters[\"_num_words\"].sum\n                    if meters[\"_num_words\"].sum > 0\n                    else float(\"nan\"),\n                )\n            if self.cfg.eval_wer_parse:\n                num_em_errors = sum(\n                    log.get(\"_num_em_errors\", zero) for log in logging_outputs\n                )\n                num_ems = sum(log.get(\"_num_ems\", zero) for log in logging_outputs)\n                metrics.log_scalar(\"_num_em_errors\", num_em_errors)\n                metrics.log_scalar(\"_num_ems\", num_ems)\n                num_tree_errors = sum(\n                    log.get(\"_num_tree_errors\", zero) for log in logging_outputs\n                )\n                num_trees = sum(log.get(\"_num_trees\", zero) for log in logging_outputs)\n                metrics.log_scalar(\"_num_tree_errors\", num_tree_errors)\n                metrics.log_scalar(\"_num_trees\", num_trees)\n\n                if num_ems > 0:\n                    metrics.log_derived(\n                        \"em_error\",\n                        lambda meters: meters[\"_num_em_errors\"].sum\n                        * 100.0\n                        / meters[\"_num_ems\"].sum\n                        if meters[\"_num_ems\"].sum > 0\n                        else float(\"nan\"),\n                    )\n                if num_trees > 0:\n                    metrics.log_derived(\n                        \"tree_error\",\n                        lambda meters: meters[\"_num_tree_errors\"].sum\n                        * 100.0\n                        / meters[\"_num_trees\"].sum\n                        if meters[\"_num_trees\"].sum > 0\n                        else float(\"nan\"),\n                    )\n\n        if self.cfg.eval_bleu:\n            len_keys = [\"_bleu_sys_len\", \"_bleu_ref_len\"]\n            count_keys = [f\"_bleu_counts_{i}\" for i in range(4)]\n            total_keys = [f\"_bleu_totals_{i}\" for i in range(4)]\n            for k in len_keys + count_keys + total_keys:\n                metrics.log_scalar(k, sum(log.get(k, 0) for log in logging_outputs))\n\n            import sacrebleu\n\n            metrics.log_derived(\n                \"bleu\",\n                lambda meters: sacrebleu.compute_bleu(\n                    correct=[meters[k].sum for k in count_keys],\n                    total=[meters[k].sum for k in total_keys],\n                    sys_len=meters[\"_bleu_sys_len\"].sum,\n                    ref_len=meters[\"_bleu_ref_len\"].sum,\n                    smooth_method=\"exp\",\n                ).score,\n            )\n"
  },
  {
    "path": "fairseq/tasks/online_backtranslation.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport contextlib\nimport json\nimport logging\nimport math\nimport os\nfrom argparse import Namespace\nfrom collections import OrderedDict, defaultdict\nfrom pathlib import Path\nfrom typing import Dict, Sequence, Tuple\nfrom argparse import ArgumentError\n\nimport numpy as np\nimport torch\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nimport fairseq\nfrom fairseq import options, utils\nfrom fairseq.logging import metrics\nfrom fairseq.data import (\n    FairseqDataset,\n    LanguagePairDataset,\n    NoisingDataset,\n    PrependTokenDataset,\n    RoundRobinZipDatasets,\n    TransformEosLangPairDataset,\n    data_utils,\n    encoders,\n)\nfrom fairseq.sequence_generator import SequenceGenerator\nfrom fairseq.tasks import register_task\nfrom fairseq.tasks.translation import TranslationTask, load_langpair_dataset\n\nlogger = logging.getLogger(__name__)\n\n\nclass PiecewiseLinearFn:\n    \"\"\"Piecewise linear function. Can be configured with a string.\"\"\"\n\n    def __init__(self, pieces: Sequence[Tuple[int, float]]):\n        assert pieces == sorted(\n            pieces\n        ), f\"PiecewiseLinearFn configuration should be sorted, received: {pieces}\"\n\n        self.pieces = pieces\n\n    def __call__(self, x: int) -> float:\n        for i, (x_a, y_a) in enumerate(self.pieces[:-1]):\n            x_b, y_b = self.pieces[i + 1]\n            if x_a <= x <= x_b:\n                return y_a + (x - x_a) * (y_b - y_a) / (x_b - x_a)\n\n        return self.pieces[-1][1]\n\n    @staticmethod\n    def from_string(configuration: str) -> \"PiecewiseLinearFn\":\n        \"\"\"\n        Parse the configuration of lambda coefficient (for scheduling).\n        x = \"3\"                  # lambda will be a constant equal to x\n        x = \"0:1,1000:0\"         # lambda will start from 1 and linearly decrease\n                                 # to 0 during the first 1000 iterations\n        x = \"0:0,1000:0,2000:1\"  # lambda will be equal to 0 for the first 1000\n                                 # iterations, then will linearly increase to 1 until iteration 2000\n        \"\"\"\n        if isinstance(configuration, float):\n            return PiecewiseLinearFn([(0, configuration)])\n\n        try:\n            parts = configuration.split(\",\")\n            if len(parts) == 1:\n                v = float(configuration)\n                return PiecewiseLinearFn([(0, v)])\n\n            split = [s.split(\":\") for s in parts]\n            pieces = [(int(t), float(v)) for t, v in split]\n            return PiecewiseLinearFn(pieces)\n        except Exception:\n            raise ValueError(\n                f\"Invalid PiecewiseLinearFn configuration: {configuration!r}\"\n            )\n\n    @staticmethod\n    def one() -> \"PiecewiseLinearFn\":\n        return PiecewiseLinearFn([(0, 1.0)])\n\n\n@register_task(\"online_backtranslation\")\nclass OnlineBackTranslationTask(TranslationTask):\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        # fmt: off\n        # Generic translation args\n        parser.add_argument('data', help='colon separated path to data directories list, \\\n                            will be iterated upon during epochs in round-robin manner; \\\n                            however, valid and test data are always in the first directory to \\\n                            avoid the need for repeating them in all directories')\n        parser.add_argument('--mono-langs', metavar='MONO_LANGS',\n                            help='monolingual languages for training')\n        parser.add_argument('--valid-lang-pairs', default=None, metavar='VALID_LANG_PAIRS',\n                            help='language pairs for validation')\n        parser.add_argument('--load-alignments', action='store_true',\n                            help='load the binarized alignments')\n        parser.add_argument('--left-pad-source', default='False', type=str, metavar='BOOL',\n                            help='pad the source on the left')\n        parser.add_argument('--left-pad-target', default='False', type=str, metavar='BOOL',\n                            help='pad the target on the left')\n        parser.add_argument('--upsample-primary', default=1, type=int,\n                            help='amount to upsample primary dataset')\n        try:\n            parser.add_argument('--max-source-positions', default=1024, type=int, metavar='N',\n                                help='max number of tokens in the source sequence')\n            parser.add_argument('--max-target-positions', default=1024, type=int, metavar='N',\n                                help='max number of tokens in the target sequence')\n        except ArgumentError:\n            # this might have already been defined. Once we transition this to hydra it should be fine to add it here.\n            pass\n        parser.add_argument('--truncate-source', action='store_true', default=False,\n                            help='truncate source to max-source-positions')\n        parser.add_argument('--num-batch-buckets', default=0, type=int, metavar='N',\n                            help='if >0, then bucket source and target lengths into N '\n                                 'buckets and pad accordingly; this is useful on TPUs '\n                                 'to minimize the number of compilations')\n\n        # Denoising args\n        parser.add_argument('--max-word-shuffle-distance', default=3.0, type=float, metavar='N',\n                            help='maximum word shuffle distance for denoising autoencoding data generation')\n        parser.add_argument('--word-dropout-prob', default=0.1, type=float, metavar='N',\n                            help='word dropout probability for denoising autoencoding data generation')\n        parser.add_argument('--word-blanking-prob', default=0.2, type=float, metavar='N',\n                            help='word blanking probability for denoising autoencoding data generation')\n\n        # Backtranslation args\n        parser.add_argument('--lambda-bt', default=\"1.0\", type=str, metavar='N',\n                            help='back-translation weight')\n        parser.add_argument('--lambda-dae', default=\"1.0\", type=str, metavar='N',\n                            help='denoising auto-encoder weight')\n\n        # Evaluation args\n        parser.add_argument('--generate-one-by-one', action='store_true',\n                            help='generate one sentence at a time for backtranslation')\n\n        parser.add_argument('--eval-bleu', action='store_true',\n                            help='evaluation with BLEU scores')\n        parser.add_argument('--eval-bleu-detok', type=str, default=\"space\",\n                            help='detokenize before computing BLEU (e.g., \"moses\"); '\n                                 'required if using --eval-bleu; use \"space\" to '\n                                 'disable detokenization; see fairseq.data.encoders '\n                                 'for other options')\n        parser.add_argument('--eval-bleu-detok-args', type=str, metavar='JSON',\n                            help='args for building the tokenizer, if needed')\n        parser.add_argument('--eval-tokenized-bleu', action='store_true', default=False,\n                            help='compute tokenized BLEU instead of sacrebleu')\n        parser.add_argument('--eval-bleu-remove-bpe', nargs='?', const='@@ ', default=None,\n                            help='remove BPE before computing BLEU')\n        parser.add_argument('--eval-bleu-args', type=str, metavar='JSON',\n                            help='generation args for BLUE scoring, '\n                                 'e.g., \\'{\"beam\": 4, \"lenpen\": 0.6}\\'')\n        parser.add_argument('--eval-bleu-print-samples', action='store_true',\n                            help='print sample generations during validation')\n        # fmt: on\n\n    def __init__(self, args, common_dict, mono_langs, valid_lang_pairs):\n        super().__init__(args, common_dict, common_dict)\n        self.common_dict = common_dict\n        self.mono_langs = mono_langs\n        self.valid_lang_pairs = valid_lang_pairs\n\n        self.SHOW_SAMPLES_INTERVAL = 1000\n        # Start by showing samples\n        self._show_samples_ctr = self.SHOW_SAMPLES_INTERVAL\n        self.SHOW_SAMPLES_NUMBER = 5\n        self.lambda_bt = PiecewiseLinearFn.from_string(args.lambda_bt)\n        self.lambda_dae = PiecewiseLinearFn.from_string(args.lambda_dae)\n\n        self.args = args\n        self.data = utils.split_paths(self.args.data)\n        if len(self.data) == 1:\n            shards = list(Path(self.data[0]).glob(\"shard*\"))\n            if len(shards) > 0:\n                # keep this as strings, since it can also be a manifold path\n                old_data = self.data\n                self.data = [str(shard) for shard in shards]\n                logging.warning(f\"Expanded data directory {old_data} to {self.data}\")\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        \"\"\"Setup the task (e.g., load dictionaries).\n\n        Args:\n            args (argparse.Namespace): parsed command-line arguments\n        \"\"\"\n        args.left_pad_source = options.eval_bool(args.left_pad_source)\n        args.left_pad_target = options.eval_bool(args.left_pad_target)\n\n        paths = utils.split_paths(args.data)\n        assert len(paths) > 0\n        assert args.mono_langs is not None\n\n        mono_langs = args.mono_langs.split(\",\")\n        valid_lang_pairs = args.valid_lang_pairs.split(\",\")\n\n        # load dictionary\n        dict_path = os.path.join(paths[0], \"dict.txt\")\n        common_dict = cls.load_dictionary(dict_path)\n\n        return cls(args, common_dict, mono_langs, valid_lang_pairs)\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs) -> FairseqDataset:\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        if split == \"train\":\n            data_path = self.data[(epoch - 1) % len(self.data)]\n            dataset = self.load_train_dataset(data_path)\n        else:\n            # valid/test should always be the same.\n            dataset = self.load_translation_dataset(split, self.data[0])\n\n        self.datasets[split] = dataset\n        return dataset\n\n    def load_train_dataset(self, data_path: str) -> FairseqDataset:\n        \"\"\"The training dataset is made of backtranslation dataset and denoising dataset.\"\"\"\n        data = []\n        for lang in self.mono_langs:\n            train_path = os.path.join(data_path, lang, \"train\")\n            # TODO: could we do the BT using denoise sample ?\n            # this would half the data loading work\n            data.append((f\"{lang}-BT\", self.load_bt_dataset(train_path, lang)))\n            data.append(\n                (f\"{lang}-DENOISE\", self.load_denoise_dataset(train_path, lang))\n            )\n\n        return RoundRobinZipDatasets(OrderedDict(data))\n\n    def _langpair_dataset(\n        self, src: FairseqDataset, tgt: FairseqDataset\n    ) -> LanguagePairDataset:\n        return LanguagePairDataset(\n            src,\n            src.sizes,\n            self.dictionary,\n            tgt=tgt,\n            tgt_sizes=tgt.sizes,\n            tgt_dict=self.dictionary,\n            left_pad_source=self.args.left_pad_source,\n            left_pad_target=self.args.left_pad_target,\n            # TODO: should we shuffle ? we are already sorting batch by sizes so ?\n            # shuffle=True,\n        )\n\n    def _prepend_lang_bos_to_target(\n        self, dataset: LanguagePairDataset, lang: str\n    ) -> LanguagePairDataset:\n        bos = _lang_token_index(self.dictionary, lang)\n        return TransformEosLangPairDataset(\n            dataset,\n            src_eos=self.dictionary.eos(),\n            new_src_eos=self.dictionary.eos(),\n            tgt_bos=self.dictionary.eos(),\n            new_tgt_bos=bos,\n        )\n\n    def load_bt_dataset(self, data_path: str, lang: str) -> FairseqDataset:\n        \"\"\"The BT dataset is generated with (tgt, tgt) pairs.\n        The actual translation to a (generated_src, tgt) pair\n        is done on the fly during training.\n        \"\"\"\n        mono_dataset = data_utils.load_indexed_dataset(\n            data_path, self.common_dict, self.args.dataset_impl\n        )\n        assert mono_dataset is not None, f\"No dataset found for {lang}\"\n\n        mono_dataset_src = PrependTokenDataset(\n            mono_dataset, _lang_token_index(self.dictionary, lang)\n        )\n\n        mono_dataset_bt = self._langpair_dataset(mono_dataset_src, mono_dataset)\n        logger.info(\n            f\"mono_lang = {lang} \"\n            f\"lang token index = {_lang_token_index(self.dictionary, lang)} \"\n            f\"lang token = {_lang_token(lang)}\"\n        )\n\n        mono_dataset_bt = self._prepend_lang_bos_to_target(mono_dataset_bt, lang)\n        return mono_dataset_bt\n\n    def load_denoise_dataset(self, data_path: str, lang: str) -> FairseqDataset:\n        \"\"\"Classic denoising dataset\"\"\"\n        dataset = data_utils.load_indexed_dataset(\n            data_path, self.common_dict, self.args.dataset_impl\n        )\n        noisy_dataset = NoisingDataset(\n            dataset,\n            self.dictionary,\n            seed=1,\n            max_word_shuffle_distance=self.args.max_word_shuffle_distance,\n            word_dropout_prob=self.args.word_dropout_prob,\n            word_blanking_prob=self.args.word_blanking_prob,\n        )\n        noisy_dataset = PrependTokenDataset(\n            noisy_dataset, _lang_token_index(self.dictionary, lang)\n        )\n\n        clean_dataset = data_utils.load_indexed_dataset(\n            data_path, self.common_dict, self.args.dataset_impl\n        )\n        denoising_dataset = self._langpair_dataset(noisy_dataset, clean_dataset)\n        denoising_dataset = self._prepend_lang_bos_to_target(denoising_dataset, lang)\n        return denoising_dataset\n\n    def load_translation_dataset(\n        self, split: str, data_path: str, combine: bool = False\n    ):\n        # only judging with one language pair for the moment,\n        # since ConcatDataset doesn't work as expected\n        assert len(self.valid_lang_pairs) == 1, \"For now...\"\n        valid_lang_pair = self.valid_lang_pairs[0]\n        src, tgt = valid_lang_pair.split(\"-\")\n\n        # use the same function than TranslationTask\n        src_tgt_dt = load_langpair_dataset(\n            data_path,\n            split,\n            src,\n            self.common_dict,\n            tgt,\n            self.common_dict,\n            combine=combine,\n            dataset_impl=self.args.dataset_impl,\n            upsample_primary=self.args.upsample_primary,\n            left_pad_source=self.args.left_pad_source,\n            left_pad_target=self.args.left_pad_target,\n            max_source_positions=self.args.max_source_positions,\n            max_target_positions=self.args.max_target_positions,\n            load_alignments=self.args.load_alignments,\n            truncate_source=self.args.truncate_source,\n            num_buckets=self.args.num_batch_buckets,\n            shuffle=(split != \"test\"),\n            prepend_bos_src=_lang_token_index(self.dictionary, src),\n        )\n\n        src_tgt_eos_dt = self._prepend_lang_bos_to_target(src_tgt_dt, tgt)\n        src_tgt_eos_dt.args = self.args\n        return src_tgt_eos_dt\n\n    def build_dataset_for_inference(self, src_tokens, src_lengths, constraints=None):\n        raise NotImplementedError\n\n    def build_model(self, args, from_checkpoint=False):\n        # torch.autograd.set_detect_anomaly(True)\n        model = super().build_model(args, from_checkpoint)\n\n        add_secial_tokens_to_dict_and_model(self.common_dict, model, self.mono_langs)\n\n        self.sequence_generators = {}\n        for mono_lang in self.mono_langs:\n            self.sequence_generators[mono_lang] = SequenceGenerator(\n                [model],\n                tgt_dict=self.dictionary,\n                beam_size=1,\n                max_len_a=1.3,\n                max_len_b=5,\n                min_len=5,\n                # keep 1 to be able to prepend bos\n                max_len=model.max_decoder_positions() - 1,\n            )\n\n        if getattr(args, \"eval_bleu\", False):\n            assert getattr(args, \"eval_bleu_detok\", None) is not None, (\n                \"--eval-bleu-detok is required if using --eval-bleu; \"\n                \"try --eval-bleu-detok=moses (or --eval-bleu-detok=space \"\n                \"to disable detokenization, e.g., when using sentencepiece)\"\n            )\n            detok_args = json.loads(getattr(args, \"eval_bleu_detok_args\", \"{}\") or \"{}\")\n            self.tokenizer = encoders.build_tokenizer(\n                Namespace(\n                    tokenizer=getattr(args, \"eval_bleu_detok\", None), **detok_args\n                )\n            )\n\n            gen_args = json.loads(getattr(args, \"eval_bleu_args\", \"{}\") or \"{}\")\n            self.bleu_sequence_generator = self.build_generator(\n                [model], Namespace(**gen_args)\n            )\n\n        return model\n\n    def max_positions(self):\n        \"\"\"Return the max sentence length allowed by the task.\"\"\"\n        return (self.args.max_source_positions, self.args.max_target_positions)\n\n    @property\n    def dictionary(self):\n        \"\"\"Return the source :class:`~fairseq.data.Dictionary`.\"\"\"\n        return self.common_dict\n\n    def display_samples_once_in_a_while(self, smp, mono_lang, other_lang):\n        self._show_samples_ctr += 1\n        if self._show_samples_ctr < self.SHOW_SAMPLES_INTERVAL:\n            return\n        self._show_samples_ctr = 0\n\n        ln = smp[\"net_input\"][\"src_tokens\"].shape[0]\n\n        logger.info(\n            f\"(r:{self.args.distributed_rank}) : \"\n            f\"{other_lang} ---> {mono_lang} \"\n            f\"({other_lang} was generated by back-translation.) {ln} samples\"\n        )\n\n        for i in range(min(ln, self.SHOW_SAMPLES_NUMBER)):\n            src_tokens = smp[\"net_input\"][\"src_tokens\"][i]\n            tgt_tokens = smp[\"target\"][i]\n\n            src_str = self.dictionary.string(src_tokens, \"sentencepiece\")\n            tgt_str = self.dictionary.string(tgt_tokens, \"sentencepiece\")\n            logger.info(\n                f\"\\n{i}\\t\\t[{other_lang} generated]  {src_str}\\n\"\n                f\"\\t\\t[{mono_lang} original ]  {tgt_str}\\n\"\n                f\"\\t\\t[ src tokens]  {src_tokens}\\n\"\n            )\n\n    def backtranslate_sample(self, smp, orig_lang, other_lang) -> None:\n        \"\"\"\n        * WARNING: smp is modified in place.\n        * At the start of this function, `smp` has the same input and target:\n          |--------------------------------------------------------|\n          | smp['net_input']['src_tokens'] |  smp['target']        |\n          | (from data) __en__ hello world |  __en__ hello world   |\n          |--------------------------------------------------------|\n\n        * We call generator.generate(smp, bos_token = token(\"ro\")),\n        and copy the result as input\n        * At the end, `smp` has the translation to other language.\n          |--------------------------------------------------------|\n          | smp['net_input']['src_tokens'] |  smp['target']        |\n          | (generated) __ro__ salut lume  |  __en__ hello world   |\n          |--------------------------------------------------------|\n\n        \"\"\"\n        bos_token = _lang_token_index(self.dictionary, other_lang)\n        generated = self.sequence_generators[orig_lang].generate(\n            models=[], sample=smp, bos_token=bos_token\n        )\n\n        max_lngth = max([gn[0][\"tokens\"].size(0) for gn in generated])\n        net_input = smp[\"net_input\"]\n        n_src_tokens = torch.empty(\n            size=(len(generated), max_lngth + 1), dtype=net_input[\"src_tokens\"].dtype\n        )\n        n_src_lengths = torch.empty(\n            len(generated), dtype=net_input[\"src_lengths\"].dtype\n        )\n\n        for i, gn in enumerate(generated):\n            tokens = gn[0][\"tokens\"]\n            tokens_size = tokens.size(0)\n            padding_needed = max_lngth - tokens_size\n            tokens = torch.cat([tokens.new([bos_token]), tokens])\n            tokens = F.pad(tokens, (0, padding_needed), value=self.dictionary.pad())\n            n_src_tokens[i] = tokens\n            n_src_lengths[i] = tokens_size + 1\n\n        device = net_input[\"src_tokens\"].device\n        # This seems to be important\n        del net_input[\"src_tokens\"]\n        del net_input[\"src_lengths\"]\n        net_input[\"src_tokens\"] = n_src_tokens.to(device)\n        net_input[\"src_lengths\"] = n_src_lengths.to(device)\n\n    def generate(self, smp, model):\n        model.eval()\n        orig_lang = (\n            self.dictionary[smp[\"net_input\"][\"src_tokens\"][0][0]]\n            .replace(\" \", \"\")\n            .replace(\"_\", \"\")\n        )\n        bos_token = smp[\"net_input\"][\"prev_output_tokens\"][0][0]\n        with torch.no_grad():\n            generated = self.sequence_generators[orig_lang].generate(\n                models=[model], sample=smp, bos_token=bos_token\n            )\n        return generated\n\n    def get_other_lang(self, lang):\n        # TODO: allow more complex mapping\n        if lang != self.mono_langs[0]:\n            return self.mono_langs[0]\n        if len(self.mono_langs) == 2:\n            return self.mono_langs[1]\n        return self.mono_langs[np.random.randint(1, len(self.mono_langs))]\n\n    def train_step(\n        self, sample, model, criterion, optimizer, update_num, ignore_grad=False\n    ):\n\n        model.train()\n        model.set_num_updates(update_num)\n\n        agg_loss, agg_sample_size = 0.0, 0.0\n        agg_logging_output: Dict[str, float] = defaultdict(float)\n\n        dataset_keys = self.datasets[\"train\"].datasets.keys()\n\n        weights = {\n            \"BT\": self.lambda_bt(update_num),\n            \"DENOISE\": self.lambda_dae(update_num),\n        }\n        log_keys = {\"BT\": \"bt_\", \"DENOISE\": \"dae_\"}\n\n        for dataset_key in dataset_keys:\n            smp = sample[dataset_key]\n            mono_lang, task_subtype = dataset_key.split(\"-\")\n            if weights[task_subtype] == 0:\n                continue\n\n            if task_subtype == \"BT\":\n                with torch.autograd.profiler.record_function(\"backtranslation\"):\n                    model.eval()\n                    # TODO: Could we translate to several language at once ?\n                    # this would allow to share encoder_out and maximize GPU usage.\n                    other_lang = self.get_other_lang(mono_lang)\n                    self.backtranslate_sample(smp, mono_lang, other_lang)\n                    self.display_samples_once_in_a_while(smp, mono_lang, other_lang)\n                    model.train()\n\n            # Like in FairseqTask.train_step\n            with torch.autograd.profiler.record_function(\"forward\"):\n                loss, sample_size, logging_output = criterion(model, smp)\n            loss *= weights[task_subtype]\n            if ignore_grad:\n                loss *= 0\n            with torch.autograd.profiler.record_function(\"backward\"):\n                optimizer.backward(loss)\n\n            agg_loss += loss.item()\n            agg_sample_size += sample_size\n            for k in logging_output:\n                agg_logging_output[log_keys[task_subtype] + k] += logging_output[k]\n                agg_logging_output[k] += logging_output[k]\n\n        return agg_loss, agg_sample_size, agg_logging_output\n\n    def get_bos_token_from_sample(self, sample):\n        net_input = sample[\"net_input\"]\n        source_lang_token_id = torch.unique(net_input[\"src_tokens\"][:, 0]).item()\n        source_lang_token = self.dictionary[source_lang_token_id].replace(\"_\", \"\")\n        target_lang_token_id = _lang_token_index(\n            self.dictionary, self.get_other_lang(source_lang_token)\n        )\n\n        return target_lang_token_id\n\n    def reduce_metrics(self, logging_outputs, criterion):\n        super().reduce_metrics(logging_outputs, criterion)\n        bt_sample_size = sum(x.get(\"bt_sample_size\", 0) for x in logging_outputs)\n        if bt_sample_size:\n            bt_loss_sum = sum(x.get(\"bt_loss\", 0) for x in logging_outputs)\n            bt_loss_sum *= 1 / bt_sample_size / math.log(2)\n            metrics.log_scalar(\"bt_loss\", bt_loss_sum, bt_sample_size, round=3)\n\n            bt_nll_loss_sum = sum(x.get(\"bt_nll_loss\", 0) for x in logging_outputs)\n            bt_ntokens = sum(x.get(\"bt_ntokens\", 0) for x in logging_outputs)\n            bt_nll_loss_sum *= 1 / bt_ntokens / math.log(2)\n            metrics.log_scalar(\"bt_nll_loss\", bt_nll_loss_sum, bt_ntokens, round=3)\n            metrics.log_derived(\n                \"bt_ppl\", lambda meters: utils.get_perplexity(meters[\"bt_nll_loss\"].avg)\n            )\n\n        dae_sample_size = sum(x.get(\"dae_sample_size\", 0) for x in logging_outputs)\n        if dae_sample_size:\n            dae_loss_sum = sum(x.get(\"dae_loss\", 0) for x in logging_outputs)\n            dae_loss_sum *= 1 / dae_sample_size / math.log(2)\n            metrics.log_scalar(\"dae_loss\", dae_loss_sum, dae_sample_size, round=3)\n\n            dae_nll_loss_sum = sum(x.get(\"dae_nll_loss\", 0) for x in logging_outputs)\n            dae_ntokens = sum(x.get(\"dae_ntokens\", 0) for x in logging_outputs)\n            dae_nll_loss_sum *= 1 / dae_ntokens / math.log(2)\n            metrics.log_scalar(\"dae_nll_loss\", dae_nll_loss_sum, dae_ntokens, round=3)\n            metrics.log_derived(\n                \"dae_ppl\",\n                lambda meters: utils.get_perplexity(meters[\"dae_nll_loss\"].avg),\n            )\n\n\n@torch.no_grad()\ndef extend_embedding(\n    emb: nn.Module, new_vocab_size: int, copy_from_token_id: int\n) -> None:\n    old_emb_data = emb.weight.data\n    (old_vocab_size, dim) = old_emb_data.shape\n    assert new_vocab_size >= old_vocab_size\n\n    if new_vocab_size > old_vocab_size:\n        emb.weight.data = torch.zeros((new_vocab_size, dim))\n        emb.weight.data[:old_vocab_size, :] = old_emb_data\n        # initialize new embeddings\n        emb.weight.data[old_vocab_size:, :] = old_emb_data[copy_from_token_id]\n        if hasattr(emb, \"num_embeddings\"):\n            emb.num_embeddings = new_vocab_size\n        if hasattr(emb, \"out_features\"):\n            emb.out_features = new_vocab_size\n\n    if getattr(emb, \"bias\", None) is None:\n        return\n\n    # Fix the bias.\n    # Bias shape can be different from the previous vocab size\n    # if the weight matrix was shared and alread extended but not the bias.\n    (old_vocab_size,) = emb.bias.shape\n    assert new_vocab_size >= old_vocab_size\n    if new_vocab_size > old_vocab_size:\n        old_bias = emb.bias.data\n        new_bias = torch.zeros(\n            (new_vocab_size,), dtype=old_bias.dtype, device=old_bias.device\n        )\n        new_bias[:old_vocab_size] = old_bias\n        emb.bias.data = new_bias\n\n\ndef add_secial_tokens_to_dict_and_model(\n    dictionary: \"fairseq.data.Dictionary\",\n    model: nn.Module,\n    mono_langs: Sequence[str],\n) -> None:\n    embs = model.encoder.embed_tokens\n    vocab_size, embedding_dim = embs.weight.shape\n\n    # The model may or may not have a '<mask>' embedding yet\n    assert (\n        len(dictionary) <= vocab_size <= len(dictionary) + 1\n    ), f\"Dictionary len ({len(dictionary)}) doesn't match embs shape ({embs.weight.shape})\"\n    # TODO: we should reuse the pretrained model dict which already has <mask>\n    dictionary.add_symbol(\"<mask>\")\n\n    for lang in mono_langs:\n        lang_token = _lang_token(lang)\n        dictionary.add_symbol(lang_token)\n    logger.info(\n        f\"dictionary: {len(dictionary)} -> {vocab_size} tokens \"\n        f\"after adding {len(mono_langs)} lang tokens.\"\n    )\n\n    if len(dictionary) <= vocab_size:\n        return\n\n    extend_embedding(embs, len(dictionary), dictionary.bos())\n    dec_embs = model.decoder.embed_tokens\n    extend_embedding(dec_embs, len(dictionary), dictionary.bos())\n    lm_head = model.decoder.output_projection\n    extend_embedding(lm_head, len(dictionary), dictionary.bos())\n    assert lm_head.weight.shape == (len(dictionary), embedding_dim)\n\n\ndef _lang_token(lang: str) -> str:\n    return f\"__{lang}__\"\n\n\ndef _lang_token_index(dictionary, lang: str) -> int:\n    return dictionary.index(_lang_token(lang))\n\n\n@contextlib.contextmanager\ndef assert_weights_have_changed(model: nn.Module):\n    def checksum(model: nn.Module) -> float:\n        return sum(p.sum().item() for p in model.parameters())\n\n    initial_checksum = checksum(model)\n    yield model\n    final_checksum = checksum(model)\n    logger.info(\n        f\"initial_checksum={initial_checksum} -> final_checksum={final_checksum}\"\n    )\n    assert initial_checksum != final_checksum, \"Model hasn't changed !\"\n"
  },
  {
    "path": "fairseq/tasks/semisupervised_translation.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nfrom collections import OrderedDict\n\nfrom fairseq import utils\nfrom fairseq.data import (\n    BacktranslationDataset,\n    IndexedCachedDataset,\n    IndexedDataset,\n    IndexedRawTextDataset,\n    LanguagePairDataset,\n    NoisingDataset,\n    RoundRobinZipDatasets,\n    data_utils,\n    indexed_dataset,\n)\nfrom fairseq.models import FairseqMultiModel\nfrom fairseq.sequence_generator import SequenceGenerator\n\nfrom . import register_task\nfrom .multilingual_translation import MultilingualTranslationTask\n\n\nlogger = logging.getLogger(__name__)\n\n\ndef _get_bt_dataset_key(lang_pair):\n    return \"bt:\" + lang_pair\n\n\ndef _get_denoising_dataset_key(lang_pair):\n    return \"denoising:\" + lang_pair\n\n\n# ported from UnsupervisedMT\ndef parse_lambda_config(x):\n    \"\"\"\n    Parse the configuration of lambda coefficient (for scheduling).\n    x = \"3\"                  # lambda will be a constant equal to x\n    x = \"0:1,1000:0\"         # lambda will start from 1 and linearly decrease\n                             # to 0 during the first 1000 iterations\n    x = \"0:0,1000:0,2000:1\"  # lambda will be equal to 0 for the first 1000\n                             # iterations, then will linearly increase to 1 until iteration 2000\n    \"\"\"\n    split = x.split(\",\")\n    if len(split) == 1:\n        return float(x), None\n    else:\n        split = [s.split(os.pathsep) for s in split]\n        assert all(len(s) == 2 for s in split)\n        assert all(k.isdigit() for k, _ in split)\n        assert all(\n            int(split[i][0]) < int(split[i + 1][0]) for i in range(len(split) - 1)\n        )\n        return float(split[0][1]), [(int(k), float(v)) for k, v in split]\n\n\n@register_task(\"semisupervised_translation\")\nclass SemisupervisedTranslationTask(MultilingualTranslationTask):\n    \"\"\"A task for training multiple translation models simultaneously.\n\n    We iterate round-robin over batches from multiple language pairs, ordered\n    according to the `--lang-pairs` argument.\n\n    The training loop is roughly:\n\n        for i in range(len(epoch)):\n            for lang_pair in args.lang_pairs:\n                batch = next_batch_for_lang_pair(lang_pair)\n                loss = criterion(model_for_lang_pair(lang_pair), batch)\n                loss.backward()\n            optimizer.step()\n\n    In practice, `next_batch_for_lang_pair` is abstracted in a FairseqDataset\n    (e.g., `RoundRobinZipDatasets`) and `model_for_lang_pair` is a model that\n    implements the `FairseqMultiModel` interface.\n\n    During inference it is required to specify a single `--source-lang` and\n    `--target-lang`, instead of `--lang-pairs`.\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        # fmt: off\n        MultilingualTranslationTask.add_args(parser)\n        parser.add_argument('--lambda-parallel-config', default=\"1.0\", type=str, metavar='CONFIG',\n                            help='cross-entropy reconstruction coefficient (parallel data). '\n                                 'use fixed weight during training if set to floating point number. '\n                                 'use piecewise linear function over number of updates to schedule the '\n                                 'weight with the format: w0:step0,w1:step1,...')\n        parser.add_argument('--lambda-denoising-config', default=\"0.0\", type=str, metavar='CONFIG',\n                            help='Cross-entropy reconstruction coefficient (denoising autoencoding)'\n                                 'use fixed weight during training if set to floating point number. '\n                                 'use piecewise linear function over number of updates to schedule the '\n                                 'weight with the format: w0:step0,w1:step1,...')\n        parser.add_argument('--lambda-otf-bt-config', default=\"0.0\", type=str, metavar='CONFIG',\n                            help='cross-entropy reconstruction coefficient (on-the-fly back-translation parallel data)'\n                                 'use fixed weight during training if set to floating point number. '\n                                 'use piecewise linear function over number of updates to schedule the '\n                                 'weight with the format: w0:step0,w1:step1,...')\n        parser.add_argument('--bt-max-len-a', default=1.1, type=float, metavar='N',\n                            help='generate back-translated sequences of maximum length ax + b, where x is the '\n                                 'source length')\n        parser.add_argument('--bt-max-len-b', default=10.0, type=float, metavar='N',\n                            help='generate back-translated sequences of maximum length ax + b, where x is the '\n                                 'source length')\n        parser.add_argument('--bt-beam-size', default=1, type=int, metavar='N',\n                            help='beam size used in beam search of online back-translation')\n        parser.add_argument('--max-word-shuffle-distance', default=3.0, type=float, metavar='N',\n                            help='maximum word shuffle distance for denoising autoencoding data generation')\n        parser.add_argument('--word-dropout-prob', default=0.1, type=float, metavar='N',\n                            help='word dropout probability for denoising autoencoding data generation')\n        parser.add_argument('--word-blanking-prob', default=0.2, type=float, metavar='N',\n                            help='word blanking probability for denoising autoencoding data generation')\n        # fmt: on\n\n    def __init__(self, args, dicts, training):\n        super().__init__(args, dicts, training)\n        self.lambda_parallel, self.lambda_parallel_steps = parse_lambda_config(\n            args.lambda_parallel_config\n        )\n        self.lambda_otf_bt, self.lambda_otf_bt_steps = parse_lambda_config(\n            args.lambda_otf_bt_config\n        )\n        self.lambda_denoising, self.lambda_denoising_steps = parse_lambda_config(\n            args.lambda_denoising_config\n        )\n        if self.lambda_denoising > 0.0 or self.lambda_denoising_steps is not None:\n            denoising_lang_pairs = [\n                \"%s-%s\" % (tgt, tgt)\n                for tgt in {lang_pair.split(\"-\")[1] for lang_pair in args.lang_pairs}\n            ]\n            self.model_lang_pairs = self.model_lang_pairs + denoising_lang_pairs\n        self.backtranslate_datasets = {}\n        self.backtranslators = {}\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        dicts, training = MultilingualTranslationTask.prepare(args, **kwargs)\n        return cls(args, dicts, training)\n\n    def load_dataset(self, split, epoch=1, **kwargs):\n        \"\"\"Load a dataset split.\"\"\"\n        paths = utils.split_paths(self.args.data)\n        assert len(paths) > 0\n        data_path = paths[(epoch - 1) % len(paths)]\n\n        def split_exists(split, src, tgt, lang):\n            if src is not None:\n                filename = os.path.join(\n                    data_path, \"{}.{}-{}.{}\".format(split, src, tgt, lang)\n                )\n            else:\n                filename = os.path.join(\n                    data_path, \"{}.{}-None.{}\".format(split, src, tgt)\n                )\n            return indexed_dataset.dataset_exists(filename, impl=self.args.dataset_impl)\n\n        def load_indexed_dataset(path, dictionary):\n            return data_utils.load_indexed_dataset(\n                path, dictionary, self.args.dataset_impl\n            )\n\n        # load parallel datasets\n        src_datasets, tgt_datasets = {}, {}\n        if (\n            self.lambda_parallel > 0.0\n            or self.lambda_parallel_steps is not None\n            or not split.startswith(\"train\")\n        ):\n            for lang_pair in self.lang_pairs:\n                src, tgt = lang_pair.split(\"-\")\n                if split_exists(split, src, tgt, src):\n                    prefix = os.path.join(\n                        data_path, \"{}.{}-{}.\".format(split, src, tgt)\n                    )\n                elif split_exists(split, tgt, src, src):\n                    prefix = os.path.join(\n                        data_path, \"{}.{}-{}.\".format(split, tgt, src)\n                    )\n                else:\n                    continue\n                src_datasets[lang_pair] = load_indexed_dataset(\n                    prefix + src, self.dicts[src]\n                )\n                tgt_datasets[lang_pair] = load_indexed_dataset(\n                    prefix + tgt, self.dicts[tgt]\n                )\n                logger.info(\n                    \"parallel-{} {} {} examples\".format(\n                        data_path, split, len(src_datasets[lang_pair])\n                    )\n                )\n            if len(src_datasets) == 0:\n                raise FileNotFoundError(\n                    \"Dataset not found: {} ({})\".format(split, data_path)\n                )\n\n        # back translation datasets\n        backtranslate_datasets = {}\n        if (\n            self.lambda_otf_bt > 0.0 or self.lambda_otf_bt_steps is not None\n        ) and split.startswith(\"train\"):\n            for lang_pair in self.lang_pairs:\n                src, tgt = lang_pair.split(\"-\")\n                if not split_exists(split, tgt, None, tgt):\n                    raise FileNotFoundError(\n                        \"Dataset not found: backtranslation {} ({})\".format(\n                            split, data_path\n                        )\n                    )\n                filename = os.path.join(\n                    data_path, \"{}.{}-None.{}\".format(split, tgt, tgt)\n                )\n                dataset = load_indexed_dataset(filename, self.dicts[tgt])\n                lang_pair_dataset_tgt = LanguagePairDataset(\n                    dataset,\n                    dataset.sizes,\n                    self.dicts[tgt],\n                    left_pad_source=self.args.left_pad_source,\n                    left_pad_target=self.args.left_pad_target,\n                )\n                lang_pair_dataset = LanguagePairDataset(\n                    dataset,\n                    dataset.sizes,\n                    src_dict=self.dicts[src],\n                    tgt=dataset,\n                    tgt_sizes=dataset.sizes,\n                    tgt_dict=self.dicts[tgt],\n                    left_pad_source=self.args.left_pad_source,\n                    left_pad_target=self.args.left_pad_target,\n                )\n                backtranslate_datasets[lang_pair] = BacktranslationDataset(\n                    tgt_dataset=self.alter_dataset_langtok(\n                        lang_pair_dataset_tgt,\n                        src_eos=self.dicts[tgt].eos(),\n                        src_lang=tgt,\n                        tgt_lang=src,\n                    ),\n                    backtranslation_fn=self.backtranslators[lang_pair],\n                    src_dict=self.dicts[src],\n                    tgt_dict=self.dicts[tgt],\n                    output_collater=self.alter_dataset_langtok(\n                        lang_pair_dataset=lang_pair_dataset,\n                        src_eos=self.dicts[src].eos(),\n                        src_lang=src,\n                        tgt_eos=self.dicts[tgt].eos(),\n                        tgt_lang=tgt,\n                    ).collater,\n                )\n                logger.info(\n                    \"backtranslate-{}: {} {} {} examples\".format(\n                        tgt,\n                        data_path,\n                        split,\n                        len(backtranslate_datasets[lang_pair]),\n                    )\n                )\n                self.backtranslate_datasets[lang_pair] = backtranslate_datasets[\n                    lang_pair\n                ]\n\n        # denoising autoencoder\n        noising_datasets = {}\n        if (\n            self.lambda_denoising > 0.0 or self.lambda_denoising_steps is not None\n        ) and split.startswith(\"train\"):\n            for lang_pair in self.lang_pairs:\n                _, tgt = lang_pair.split(\"-\")\n                if not split_exists(split, tgt, None, tgt):\n                    continue\n                filename = os.path.join(\n                    data_path, \"{}.{}-None.{}\".format(split, tgt, tgt)\n                )\n                tgt_dataset1 = load_indexed_dataset(filename, self.dicts[tgt])\n                tgt_dataset2 = load_indexed_dataset(filename, self.dicts[tgt])\n                noising_dataset = NoisingDataset(\n                    tgt_dataset1,\n                    self.dicts[tgt],\n                    seed=1,\n                    max_word_shuffle_distance=self.args.max_word_shuffle_distance,\n                    word_dropout_prob=self.args.word_dropout_prob,\n                    word_blanking_prob=self.args.word_blanking_prob,\n                )\n                noising_datasets[lang_pair] = self.alter_dataset_langtok(\n                    LanguagePairDataset(\n                        noising_dataset,\n                        tgt_dataset1.sizes,\n                        self.dicts[tgt],\n                        tgt_dataset2,\n                        tgt_dataset2.sizes,\n                        self.dicts[tgt],\n                        left_pad_source=self.args.left_pad_source,\n                        left_pad_target=self.args.left_pad_target,\n                    ),\n                    src_eos=self.dicts[tgt].eos(),\n                    src_lang=tgt,\n                    tgt_eos=self.dicts[tgt].eos(),\n                    tgt_lang=tgt,\n                )\n                logger.info(\n                    \"denoising-{}: {} {} {} examples\".format(\n                        tgt,\n                        data_path,\n                        split,\n                        len(noising_datasets[lang_pair]),\n                    )\n                )\n\n        def language_pair_dataset(lang_pair):\n            src, tgt = lang_pair.split(\"-\")\n            src_dataset, tgt_dataset = src_datasets[lang_pair], tgt_datasets[lang_pair]\n            return self.alter_dataset_langtok(\n                LanguagePairDataset(\n                    src_dataset,\n                    src_dataset.sizes,\n                    self.dicts[src],\n                    tgt_dataset,\n                    tgt_dataset.sizes,\n                    self.dicts[tgt],\n                    left_pad_source=self.args.left_pad_source,\n                    left_pad_target=self.args.left_pad_target,\n                ),\n                self.dicts[src].eos(),\n                src,\n                self.dicts[tgt].eos(),\n                tgt,\n            )\n\n        self.datasets[split] = RoundRobinZipDatasets(\n            OrderedDict(\n                [\n                    (lang_pair, language_pair_dataset(lang_pair))\n                    for lang_pair in src_datasets.keys()\n                ]\n                + [\n                    (_get_bt_dataset_key(lang_pair), dataset)\n                    for lang_pair, dataset in backtranslate_datasets.items()\n                ]\n                + [\n                    (_get_denoising_dataset_key(lang_pair), dataset)\n                    for lang_pair, dataset in noising_datasets.items()\n                ]\n            ),\n            eval_key=None\n            if self.training\n            else \"%s-%s\" % (self.args.source_lang, self.args.target_lang),\n        )\n\n    def build_model(self, args, from_checkpoint=False):\n        from fairseq import models\n\n        model = models.build_model(args, self, from_checkpoint)\n        if not isinstance(model, FairseqMultiModel):\n            raise ValueError(\n                \"SemisupervisedTranslationTask requires a FairseqMultiModel architecture\"\n            )\n\n        # create SequenceGenerator for each model that has backtranslation dependency on it\n        self.sequence_generators = {}\n        if (\n            self.lambda_otf_bt > 0.0 or self.lambda_otf_bt_steps is not None\n        ) and self.training:\n            for lang_pair in self.lang_pairs:\n                src, tgt = lang_pair.split(\"-\")\n                key = \"{}-{}\".format(tgt, src)\n                self.sequence_generators[key] = SequenceGenerator(\n                    [model.models[key]],\n                    tgt_dict=self.dicts[src],\n                    beam_size=args.bt_beam_size,\n                    max_len_a=args.bt_max_len_a,\n                    max_len_b=args.bt_max_len_b,\n                )\n                decoder_lang_tok_idx = self.get_decoder_langtok(src)\n\n                def backtranslate_fn(\n                    sample,\n                    model=model.models[key],\n                    bos_token=decoder_lang_tok_idx,\n                    sequence_generator=self.sequence_generators[key],\n                ):\n                    return sequence_generator.generate(\n                        [model],\n                        sample,\n                        bos_token=bos_token,\n                    )\n\n                self.backtranslators[lang_pair] = backtranslate_fn\n\n        return model\n\n    def train_step(\n        self, sample, model, criterion, optimizer, update_num, ignore_grad=False\n    ):\n        model.train()\n\n        if update_num > 0:\n            self.update_step(update_num)\n\n        agg_loss, agg_sample_size, agg_logging_output = 0.0, 0.0, {}\n\n        def forward_backward(model, samples, logging_output_key, weight):\n            nonlocal agg_loss, agg_sample_size, agg_logging_output\n            if samples is None or len(samples) == 0:\n                return\n            loss, sample_size, logging_output = criterion(model, samples)\n            if ignore_grad:\n                loss *= 0\n            else:\n                loss *= weight\n            optimizer.backward(loss)\n            agg_loss += loss.detach().item()\n            # TODO make summing of the sample sizes configurable\n            agg_sample_size += sample_size\n            for k in logging_output:\n                agg_logging_output[k] += logging_output[k]\n                agg_logging_output[logging_output_key] += logging_output[k]\n\n        if self.lambda_parallel > 0.0:\n            for lang_pair in self.lang_pairs:\n                forward_backward(\n                    model.models[lang_pair],\n                    sample[lang_pair],\n                    lang_pair,\n                    self.lambda_parallel,\n                )\n\n        if self.lambda_otf_bt > 0.0:\n            for lang_pair in self.lang_pairs:\n                sample_key = _get_bt_dataset_key(lang_pair)\n                forward_backward(\n                    model.models[lang_pair],\n                    sample[sample_key],\n                    sample_key,\n                    self.lambda_otf_bt,\n                )\n\n        if self.lambda_denoising > 0.0:\n            for lang_pair in self.lang_pairs:\n                _, tgt = lang_pair.split(\"-\")\n                sample_key = _get_denoising_dataset_key(lang_pair)\n                forward_backward(\n                    model.models[\"{0}-{0}\".format(tgt)],\n                    sample[sample_key],\n                    sample_key,\n                    self.lambda_denoising,\n                )\n\n        return agg_loss, agg_sample_size, agg_logging_output\n\n    def update_step(self, num_updates):\n        def lambda_step_func(config, n_iter):\n            \"\"\"\n            Update a lambda value according to its schedule configuration.\n            \"\"\"\n            ranges = [\n                i\n                for i in range(len(config) - 1)\n                if config[i][0] <= n_iter < config[i + 1][0]\n            ]\n            if len(ranges) == 0:\n                assert n_iter >= config[-1][0]\n                return config[-1][1]\n            assert len(ranges) == 1\n            i = ranges[0]\n            x_a, y_a = config[i]\n            x_b, y_b = config[i + 1]\n            return y_a + (n_iter - x_a) * float(y_b - y_a) / float(x_b - x_a)\n\n        if self.lambda_parallel_steps is not None:\n            self.lambda_parallel = lambda_step_func(\n                self.lambda_parallel_steps, num_updates\n            )\n        if self.lambda_denoising_steps is not None:\n            self.lambda_denoising = lambda_step_func(\n                self.lambda_denoising_steps, num_updates\n            )\n        if self.lambda_otf_bt_steps is not None:\n            self.lambda_otf_bt = lambda_step_func(self.lambda_otf_bt_steps, num_updates)\n"
  },
  {
    "path": "fairseq/tasks/sentence_prediction.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\n\nimport contextlib\nfrom dataclasses import dataclass, field\nfrom typing import Optional\nfrom omegaconf import MISSING, II, open_dict, OmegaConf\n\nimport numpy as np\nfrom fairseq.data import (\n    ConcatSentencesDataset,\n    Dictionary,\n    IdDataset,\n    NestedDictionaryDataset,\n    NumelDataset,\n    NumSamplesDataset,\n    OffsetTokensDataset,\n    PrependTokenDataset,\n    RawLabelDataset,\n    RightPadDataset,\n    RightPaddingMaskDataset,\n    RollDataset,\n    SortDataset,\n    StripTokenDataset,\n    data_utils,\n)\nfrom fairseq.data.shorten_dataset import maybe_shorten_dataset\nfrom fairseq.tasks import FairseqDataclass, FairseqTask, register_task\nfrom fairseq.dataclass import ChoiceEnum\n\n\nlogger = logging.getLogger(__name__)\nSHORTEN_METHOD_CHOICES = ChoiceEnum([\"none\", \"truncate\", \"random_crop\"])\n\n\n@dataclass\nclass SentencePredictionConfig(FairseqDataclass):\n    data: str = field(default=MISSING, metadata={\"help\": \"path to data directory\"})\n    num_classes: int = field(\n        default=-1,\n        metadata={\"help\": \"number of classes or regression targets\"},\n    )\n    init_token: Optional[int] = field(\n        default=None,\n        metadata={\"help\": \"add token at the beginning of each batch item\"},\n    )\n    separator_token: Optional[int] = field(\n        default=None,\n        metadata={\"help\": \"add separator token between inputs\"},\n    )\n    no_shuffle: bool = field(\n        default=False,\n    )\n    shorten_method: SHORTEN_METHOD_CHOICES = field(\n        default=\"none\",\n        metadata={\n            \"help\": \"if not none, shorten sequences that exceed tokens_per_sample\"\n        },\n    )\n    shorten_data_split_list: str = field(\n        default=\"\",\n        metadata={\n            \"help\": \"comma-separated list of dataset splits to apply shortening to, \"\n            'e.g., \"train,valid\" (default: all dataset splits)'\n        },\n    )\n    add_prev_output_tokens: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"add prev_output_tokens to sample, used for encoder-decoder arch\"\n        },\n    )\n    max_positions: int = field(\n        default=512,\n        metadata={\"help\": \"max tokens per example\"},\n    )\n\n    regression_target: bool = II(\"criterion.regression_target\")\n    classification_head_name: str = II(\"criterion.classification_head_name\")\n    seed: int = II(\"common.seed\")\n\n    d2v2_multi: bool = field(\n        default=False,\n        metadata={\"help\": \"prepare dataset for data2vec_multi\"},\n    )\n\n\n@register_task(\"sentence_prediction\", dataclass=SentencePredictionConfig)\nclass SentencePredictionTask(FairseqTask):\n    \"\"\"\n    Sentence (or sentence pair) prediction (classification or regression) task.\n\n    Args:\n        dictionary (Dictionary): the dictionary for the input of the task\n    \"\"\"\n\n    def __init__(self, cfg, data_dictionary, label_dictionary):\n        super().__init__(cfg)\n        self.dictionary = data_dictionary\n        self._label_dictionary = label_dictionary\n\n    @classmethod\n    def load_dictionary(cls, filename):\n        \"\"\"Load the dictionary from the filename\n\n        Args:\n            filename (str): the filename\n        \"\"\"\n        dictionary = Dictionary.load(filename)\n        dictionary.add_symbol(\"<mask>\")\n        return dictionary\n\n    @classmethod\n    def setup_task(cls, cfg, **kwargs):\n        assert cfg.num_classes > 0, \"Must set task.num_classes\"\n\n        # load data dictionary\n        data_dict = cls.load_dictionary(\n            os.path.join(cfg.data, \"input0\", \"dict.txt\"),\n        )\n        logger.info(\"[input] dictionary: {} types\".format(len(data_dict)))\n\n        # load label dictionary\n        if not cfg.regression_target:\n            label_dict = cls.load_dictionary(\n                os.path.join(cfg.data, \"label\", \"dict.txt\"),\n            )\n            logger.info(\"[label] dictionary: {} types\".format(len(label_dict)))\n        else:\n            label_dict = data_dict\n        return cls(cfg, data_dict, label_dict)\n\n    def load_dataset(self, split, combine=False, **kwargs):\n        \"\"\"Load a given dataset split (e.g., train, valid, test).\"\"\"\n\n        def get_path(key, split):\n            return os.path.join(self.cfg.data, key, split)\n\n        def make_dataset(key, dictionary):\n            split_path = get_path(key, split)\n\n            try:\n                dataset = data_utils.load_indexed_dataset(\n                    split_path,\n                    dictionary,\n                    combine=combine,\n                )\n            except Exception as e:\n                if \"StorageException: [404] Path not found\" in str(e):\n                    logger.warning(f\"dataset {e} not found\")\n                    dataset = None\n                else:\n                    raise e\n            return dataset\n\n        input0 = make_dataset(\"input0\", self.source_dictionary)\n        assert input0 is not None, \"could not find dataset: {}\".format(\n            get_path(\"input0\", split)\n        )\n        input1 = make_dataset(\"input1\", self.source_dictionary)\n\n        if self.cfg.init_token is not None:\n            input0 = PrependTokenDataset(input0, self.cfg.init_token)\n\n        if input1 is None:\n            src_tokens = input0\n        else:\n            if self.cfg.separator_token is not None:\n                input1 = PrependTokenDataset(input1, self.cfg.separator_token)\n\n            src_tokens = ConcatSentencesDataset(input0, input1)\n\n        with data_utils.numpy_seed(self.cfg.seed):\n            shuffle = np.random.permutation(len(src_tokens))\n\n        src_tokens = maybe_shorten_dataset(\n            src_tokens,\n            split,\n            self.cfg.shorten_data_split_list,\n            self.cfg.shorten_method,\n            self.max_positions(),\n            self.cfg.seed,\n        )\n\n        if self.cfg.d2v2_multi:\n            net_input = {\n                \"source\": RightPadDataset(\n                    src_tokens,\n                    pad_idx=self.source_dictionary.pad(),\n                ),\n                \"id\": IdDataset(),\n                \"padding_mask\": RightPaddingMaskDataset(src_tokens),\n            }\n        else:\n            net_input = {\n                \"src_tokens\": RightPadDataset(\n                    src_tokens,\n                    pad_idx=self.source_dictionary.pad(),\n                ),\n                \"src_lengths\": NumelDataset(src_tokens, reduce=False),\n            }\n            if self.cfg.add_prev_output_tokens:\n                prev_tokens_dataset = RightPadDataset(\n                    RollDataset(src_tokens, 1),\n                    pad_idx=self.dictionary.pad(),\n                )\n                net_input.update(\n                    prev_output_tokens=prev_tokens_dataset,\n                )\n\n        dataset = {\n            \"id\": IdDataset(),\n            \"net_input\": net_input,\n            \"nsentences\": NumSamplesDataset(),\n            \"ntokens\": NumelDataset(src_tokens, reduce=True),\n        }\n\n        if not self.cfg.regression_target:\n            label_dataset = make_dataset(\"label\", self.label_dictionary)\n            if label_dataset is not None:\n                dataset.update(\n                    target=OffsetTokensDataset(\n                        StripTokenDataset(\n                            label_dataset,\n                            id_to_strip=self.label_dictionary.eos(),\n                        ),\n                        offset=-self.label_dictionary.nspecial,\n                    )\n                )\n        else:\n            label_path = \"{0}.label\".format(get_path(\"label\", split))\n            if os.path.exists(label_path):\n\n                def parse_regression_target(i, line):\n                    values = line.split()\n                    assert (\n                        len(values) == self.cfg.num_classes\n                    ), f'expected num_classes={self.cfg.num_classes} regression target values on line {i}, found: \"{line}\"'\n                    return [float(x) for x in values]\n\n                with open(label_path) as h:\n                    dataset.update(\n                        target=RawLabelDataset(\n                            [\n                                parse_regression_target(i, line.strip())\n                                for i, line in enumerate(h.readlines())\n                            ]\n                        )\n                    )\n\n        nested_dataset = NestedDictionaryDataset(\n            dataset,\n            sizes=[src_tokens.sizes],\n        )\n\n        if self.cfg.no_shuffle:\n            dataset = nested_dataset\n        else:\n            dataset = SortDataset(\n                nested_dataset,\n                # shuffle\n                sort_order=[shuffle],\n            )\n\n        logger.info(\"Loaded {0} with #samples: {1}\".format(split, len(dataset)))\n\n        self.datasets[split] = dataset\n        return self.datasets[split]\n\n    def build_model(self, cfg, from_checkpoint=False):\n        from fairseq import models\n\n        with open_dict(cfg) if OmegaConf.is_config(cfg) else contextlib.ExitStack():\n            cfg.max_positions = self.cfg.max_positions\n\n        model = models.build_model(cfg, self, from_checkpoint)\n\n        model.register_classification_head(\n            self.cfg.classification_head_name,\n            num_classes=self.cfg.num_classes,\n        )\n\n        return model\n\n    def max_positions(self):\n        return self.cfg.max_positions\n\n    @property\n    def source_dictionary(self):\n        return self.dictionary\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n\n    @property\n    def label_dictionary(self):\n        return self._label_dictionary\n"
  },
  {
    "path": "fairseq/tasks/sentence_prediction_adapters.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\n\nimport contextlib\nfrom omegaconf import open_dict, OmegaConf\n\nfrom fairseq.tasks import register_task\nfrom fairseq.tasks.sentence_prediction import (\n    SentencePredictionTask,\n    SentencePredictionConfig,\n)\n\n\nlogger = logging.getLogger(__name__)\n\n\n@register_task(\"sentence_prediction_adapters\", dataclass=SentencePredictionConfig)\nclass SentencePredictionAdapterTask(SentencePredictionTask):\n    def build_model(self, cfg):\n        from fairseq import models\n\n        with open_dict(cfg) if OmegaConf.is_config(cfg) else contextlib.ExitStack():\n            cfg.max_positions = self.cfg.max_positions\n\n        model = models.build_model(cfg, self)\n\n        model.register_classification_head(\n            self.cfg.classification_head_name,\n            num_classes=self.cfg.num_classes,\n        )\n\n        logger.info(\"Freezing Embedding Parameters\")\n        for parameter in model.encoder.sentence_encoder.embed_positions.parameters():\n            parameter.requires_grad = False\n        for (\n            parameter\n        ) in model.encoder.sentence_encoder.layernorm_embedding.parameters():\n            parameter.requires_grad = False\n        for parameter in model.encoder.sentence_encoder.embed_tokens.parameters():\n            parameter.requires_grad = False\n\n        logger.info(\"Freezing Adapters\")\n        for k, v in model.encoder.sentence_encoder.layers._modules.items():\n            logger.info(\"Freezing Adapters in Layer \" + str(k))\n            if hasattr(v, \"adapter_layer_norm\"):\n                logger.info(\"Freezing Adapter LN\")\n                for parameter in v.adapter_layer_norm.parameters():\n                    parameter.requires_grad = False\n            for parameter in v.adapter_modules.parameters():\n                parameter.requires_grad = False\n\n        return model\n"
  },
  {
    "path": "fairseq/tasks/sentence_ranking.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\n\nimport numpy as np\nfrom fairseq import utils\nfrom fairseq.data import (\n    ConcatSentencesDataset,\n    Dictionary,\n    IdDataset,\n    NestedDictionaryDataset,\n    NumelDataset,\n    NumSamplesDataset,\n    PrependTokenDataset,\n    RawLabelDataset,\n    RightPadDataset,\n    SortDataset,\n    TruncateDataset,\n    data_utils,\n)\nfrom fairseq.data.shorten_dataset import maybe_shorten_dataset\nfrom fairseq.tasks import LegacyFairseqTask, register_task\n\n\nlogger = logging.getLogger(__name__)\n\n\n@register_task(\"sentence_ranking\")\nclass SentenceRankingTask(LegacyFairseqTask):\n    \"\"\"\n    Ranking task on multiple sentences.\n\n    Args:\n        dictionary (Dictionary): the dictionary for the input of the task\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        parser.add_argument(\"data\", metavar=\"FILE\", help=\"file prefix for data\")\n        parser.add_argument(\n            \"--num-classes\", type=int, help=\"number of sentences to be ranked\"\n        )\n        parser.add_argument(\n            \"--init-token\",\n            type=int,\n            help=\"add token at the beginning of each batch item\",\n        )\n        parser.add_argument(\n            \"--separator-token\", type=int, help=\"add separator token between inputs\"\n        )\n        parser.add_argument(\"--no-shuffle\", action=\"store_true\")\n        parser.add_argument(\n            \"--shorten-method\",\n            default=\"none\",\n            choices=[\"none\", \"truncate\", \"random_crop\"],\n            help=\"if not none, shorten sequences that exceed --tokens-per-sample\",\n        )\n        parser.add_argument(\n            \"--shorten-data-split-list\",\n            default=\"\",\n            help=\"comma-separated list of dataset splits to apply shortening to, \"\n            'e.g., \"train,valid\" (default: all dataset splits)',\n        )\n        parser.add_argument(\n            \"--max-option-length\", type=int, help=\"max length for each option\"\n        )\n\n    def __init__(self, args, dictionary):\n        super().__init__(args)\n        self.dictionary = dictionary\n\n    @classmethod\n    def load_dictionary(cls, args, filename, source=True):\n        \"\"\"Load the dictionary from the filename\n\n        Args:\n            filename (str): the filename\n        \"\"\"\n        dictionary = Dictionary.load(filename)\n        dictionary.add_symbol(\"<mask>\")\n        return dictionary\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        assert (\n            args.criterion == \"sentence_ranking\"\n        ), \"Must set --criterion=sentence_ranking\"\n\n        # load data dictionary\n        data_dict = cls.load_dictionary(\n            args,\n            os.path.join(args.data, \"input0\", \"dict.txt\"),\n            source=True,\n        )\n        logger.info(\"[input] dictionary: {} types\".format(len(data_dict)))\n        return SentenceRankingTask(args, data_dict)\n\n    def load_dataset(self, split, combine=False, **kwargs):\n        \"\"\"Load a given dataset split (e.g., train, valid, test).\"\"\"\n\n        def get_path(type, split):\n            return os.path.join(self.args.data, type, split)\n\n        def make_dataset(type, dictionary):\n            split_path = get_path(type, split)\n\n            dataset = data_utils.load_indexed_dataset(\n                split_path,\n                self.source_dictionary,\n                self.args.dataset_impl,\n                combine=combine,\n            )\n            return dataset\n\n        input0 = make_dataset(\"input0\", self.source_dictionary)\n        input_options = [\n            make_dataset(\"input{idx}\".format(idx=idx + 1), self.source_dictionary)\n            for idx in range(self.args.num_classes)\n        ]\n\n        if self.args.separator_token is not None:\n            input0 = PrependTokenDataset(input0, self.args.separator_token)\n\n        src_tokens = []\n        for input_option in input_options:\n            if self.args.init_token is not None:\n                input_option = PrependTokenDataset(input_option, self.args.init_token)\n            if self.args.max_option_length is not None:\n                input_option = TruncateDataset(\n                    input_option, self.args.max_option_length\n                )\n            src_token = ConcatSentencesDataset(input_option, input0)\n            src_token = maybe_shorten_dataset(\n                src_token,\n                split,\n                self.args.shorten_data_split_list,\n                self.args.shorten_method,\n                self.args.max_positions,\n                self.args.seed,\n            )\n            src_tokens.append(src_token)\n\n        with data_utils.numpy_seed(self.args.seed):\n            shuffle = np.random.permutation(len(src_tokens[0]))\n\n        dataset = {\n            \"id\": IdDataset(),\n            \"nsentences\": NumSamplesDataset(),\n            \"ntokens\": NumelDataset(src_tokens[0], reduce=True),\n        }\n\n        for src_token_idx in range(len(src_tokens)):\n            dataset.update(\n                {\n                    \"net_input{idx}\".format(idx=src_token_idx + 1): {\n                        \"src_tokens\": RightPadDataset(\n                            src_tokens[src_token_idx],\n                            pad_idx=self.source_dictionary.pad(),\n                        ),\n                        \"src_lengths\": NumelDataset(\n                            src_tokens[src_token_idx], reduce=False\n                        ),\n                    }\n                }\n            )\n\n        label_path = \"{}.label\".format(get_path(\"label\", split))\n        if os.path.exists(label_path):\n            with open(label_path) as h:\n                dataset.update(\n                    target=RawLabelDataset([int(x.strip()) for x in h.readlines()])\n                )\n\n        nested_dataset = NestedDictionaryDataset(\n            dataset,\n            sizes=[np.maximum.reduce([src_token.sizes for src_token in src_tokens])],\n        )\n\n        if self.args.no_shuffle:\n            dataset = nested_dataset\n        else:\n            dataset = SortDataset(\n                nested_dataset,\n                # shuffle\n                sort_order=[shuffle],\n            )\n\n        logger.info(\"Loaded {0} with #samples: {1}\".format(split, len(dataset)))\n\n        self.datasets[split] = dataset\n        return self.datasets[split]\n\n    def build_model(self, args, from_checkpoint=False):\n        from fairseq import models\n\n        model = models.build_model(args, self, from_checkpoint)\n\n        model.register_classification_head(\n            getattr(args, \"ranking_head_name\", \"sentence_classification_head\"),\n            num_classes=1,\n        )\n\n        return model\n\n    def max_positions(self):\n        return self.args.max_positions\n\n    @property\n    def source_dictionary(self):\n        return self.dictionary\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n"
  },
  {
    "path": "fairseq/tasks/simultaneous_translation.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom fairseq.tasks import register_task\nfrom fairseq.tasks.speech_to_text import SpeechToTextTask\nfrom fairseq.tasks.translation import TranslationTask, TranslationConfig\n\ntry:\n    import examples.simultaneous_translation  # noqa\n\n    import_successful = True\nexcept BaseException:\n    import_successful = False\n\n\nlogger = logging.getLogger(__name__)\n\n\ndef check_import(flag):\n    if not flag:\n        raise ImportError(\n            \"'examples.simultaneous_translation' is not correctly imported. \"\n            \"Please considering `pip install -e $FAIRSEQ_DIR`.\"\n        )\n\n\n@register_task(\"simul_speech_to_text\")\nclass SimulSpeechToTextTask(SpeechToTextTask):\n    def __init__(self, args, tgt_dict):\n        check_import(import_successful)\n        super().__init__(args, tgt_dict)\n\n\n@register_task(\"simul_text_to_text\", dataclass=TranslationConfig)\nclass SimulTextToTextTask(TranslationTask):\n    def __init__(self, cfg, src_dict, tgt_dict):\n        check_import(import_successful)\n        super().__init__(cfg, src_dict, tgt_dict)\n"
  },
  {
    "path": "fairseq/tasks/span_masked_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nfrom dataclasses import dataclass, field\nfrom typing import Optional\n\nimport numpy as np\nfrom omegaconf import II, MISSING\n\nfrom fairseq import utils\nfrom fairseq.data import (\n    AppendTokenDataset,\n    Dictionary,\n    IdDataset,\n    NestedDictionaryDataset,\n    NumelDataset,\n    PadDataset,\n    PrependTokenDataset,\n    StripTokenDataset,\n    TokenBlockDataset,\n    data_utils,\n)\nfrom fairseq.data.shorten_dataset import maybe_shorten_dataset\nfrom fairseq.data.span_mask_tokens_dataset import SpanMaskedTokensDataset\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.tasks import FairseqTask, register_task\n\nfrom ..data.indexed_dataset import get_available_dataset_impl\n\nlogger = logging.getLogger(__name__)\n\nSAMPLE_BREAK_MODE_CHOICES = ChoiceEnum([\"none\", \"complete\", \"complete_doc\", \"eos\"])\nSHORTEN_METHOD_CHOICES = ChoiceEnum([\"none\", \"truncate\", \"random_crop\"])\n\n\n@dataclass\nclass SpanMaskedLMConfig(FairseqDataclass):\n    shuffle: bool = field(\n        default=False,\n    )\n    noise_density: float = field(\n        default=0.15,\n        metadata={\"help\": \"What fraction of the tokens to select as noise\"},\n    )\n    mean_noise_span_length: float = field(\n        default=3,\n        metadata={\"help\": \"Mean noise span length, must be >= 1\"},\n    )\n    data: str = field(\n        default=MISSING,\n        metadata={\n            \"help\": \"colon separated path to data directories list, \"\n            \"will be iterated upon during epochs in round-robin manner\"\n        },\n    )\n    sample_break_mode: SAMPLE_BREAK_MODE_CHOICES = field(\n        default=\"none\",\n        metadata={\n            \"help\": 'If omitted or \"none\", fills each sample with tokens-per-sample '\n            'tokens. If set to \"complete\", splits samples only at the end '\n            \"of sentence, but may include multiple sentences per sample. \"\n            '\"complete_doc\" is similar but respects doc boundaries. '\n            'If set to \"eos\", includes only one sentence per sample.'\n        },\n    )\n    tokens_per_sample: int = field(\n        default=1024,\n        metadata={\"help\": \"max number of tokens per sample for LM dataset\"},\n    )\n    shorten_method: SHORTEN_METHOD_CHOICES = field(\n        default=\"none\",\n        metadata={\n            \"help\": \"if not none, shorten sequences that exceed --tokens-per-sample\"\n        },\n    )\n    shorten_data_split_list: str = field(\n        default=\"\",\n        metadata={\n            \"help\": \"comma-separated list of dataset splits to apply shortening to, \"\n            'e.g., \"train,valid\" (default: all dataset splits)'\n        },\n    )\n    seed: int = II(\"common.seed\")\n    dataset_impl: Optional[ChoiceEnum(get_available_dataset_impl())] = II(\n        \"dataset.dataset_impl\"\n    )\n    max_source_positions: int = field(\n        default=1024, metadata={\"help\": \"max number of tokens in the source sequence\"}\n    )\n    max_target_positions: int = field(\n        default=1024, metadata={\"help\": \"max number of tokens in the target sequence\"}\n    )\n    include_target_tokens: bool = field(\n        default=False,\n        metadata={\n            \"help\": \"include target tokens in model input. this is used for data2vec\"\n        },\n    )\n\n\n@register_task(\"span_masked_lm\", dataclass=SpanMaskedLMConfig)\nclass SpanMaskedLMTask(FairseqTask):\n    \"\"\"\n    Span masked language modeling task. (ie. T5)\n    \"\"\"\n\n    cfg: SpanMaskedLMConfig\n\n    def __init__(self, cfg, dictionary):\n        super().__init__(cfg)\n        self.dictionary = dictionary\n\n    @classmethod\n    def setup_task(cls, cfg: SpanMaskedLMConfig, **kwargs):\n        \"\"\"Setup the task.\"\"\"\n        paths = utils.split_paths(cfg.data)\n        assert len(paths) > 0\n        dictionary = Dictionary.load(os.path.join(paths[0], \"dict.txt\"))\n        logger.info(\"dictionary: {} types\".format(len(dictionary)))\n        if not hasattr(cfg, \"shuffle\"):\n            cfg.shuffle = False\n        return cls(cfg, dictionary)\n\n    def _load_dataset_split(self, split, epoch, combine):\n        paths = utils.split_paths(self.cfg.data)\n        assert len(paths) > 0\n        data_path = paths[(epoch - 1) % len(paths)]\n        split_path = os.path.join(data_path, split)\n\n        dataset = data_utils.load_indexed_dataset(\n            split_path,\n            self.dictionary,\n            self.cfg.dataset_impl,\n            combine=combine,\n        )\n        if dataset is None:\n            raise FileNotFoundError(\n                \"Dataset not found: {} ({})\".format(split, split_path)\n            )\n\n        dataset = StripTokenDataset(dataset, self.dictionary.eos())\n\n        dataset = maybe_shorten_dataset(\n            dataset,\n            split,\n            self.cfg.shorten_data_split_list,\n            self.cfg.shorten_method,\n            self.cfg.tokens_per_sample,\n            self.cfg.seed,\n        )\n\n        # create continuous blocks of tokens\n        dataset = TokenBlockDataset(\n            dataset,\n            dataset.sizes,\n            self.cfg.tokens_per_sample - 2,  # one less for <s> and one for </s>\n            pad=self.dictionary.pad(),\n            eos=self.dictionary.eos(),\n            break_mode=self.cfg.sample_break_mode,\n            document_sep_len=0,\n        )\n        logger.info(\"loaded {} blocks from: {}\".format(len(dataset), split_path))\n\n        # prepend beginning-of-sentence token (<s>, equiv. to [CLS] in BERT)\n        dataset = PrependTokenDataset(dataset, self.source_dictionary.bos())\n        dataset = AppendTokenDataset(dataset, self.source_dictionary.eos())\n        return dataset\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        dataset = self._load_dataset_split(split, epoch, combine)\n\n        self.datasets[split] = SpanMaskedTokensDataset(\n            dataset,\n            self.dictionary,\n            noise_density=self.cfg.noise_density,\n            mean_noise_span_length=self.cfg.mean_noise_span_length,\n            shuffle=self.cfg.shuffle,\n            seed=self.cfg.seed,\n        )\n        logger.info(\n            \"Split: {0}, Loaded {1} samples of span_masked_tokens_dataset\".format(\n                split,\n                len(self.datasets[split]),\n            )\n        )\n\n    def build_dataset_for_inference(self, src_tokens, src_lengths, **kwargs):\n        \"\"\"\n        Generate batches for inference. We assume that the input begins with a\n        bos symbol (`<s>`) and ends with an eos symbol (`</s>`).\n        \"\"\"\n        pad = self.source_dictionary.pad()\n        eos = self.source_dictionary.eos()\n        src_dataset = TokenBlockDataset(\n            src_tokens,\n            src_lengths,\n            block_size=self.cfg.tokens_per_sample - 2,  # for <s> and </s>\n            pad=pad,\n            eos=eos,\n            break_mode=self.cfg.sample_break_mode,\n            document_sep_len=0,\n        )\n        prev_output_tokens = PrependTokenDataset(\n            StripTokenDataset(src_dataset, eos), eos\n        )\n        src_dataset = PadDataset(src_dataset, pad_idx=pad, left_pad=False)\n        return NestedDictionaryDataset(\n            {\n                \"id\": IdDataset(),\n                \"net_input\": {\n                    \"src_tokens\": src_dataset,\n                    \"src_lengths\": NumelDataset(src_dataset, reduce=False),\n                    \"prev_output_tokens\": PadDataset(\n                        prev_output_tokens, pad_idx=pad, left_pad=False\n                    ),\n                },\n                \"target\": src_dataset,\n            },\n            sizes=[np.array(src_lengths)],\n        )\n\n    def max_positions(self):\n        \"\"\"Return the max sentence length allowed by the task.\"\"\"\n        return (self.cfg.max_source_positions, self.cfg.max_target_positions)\n\n    @property\n    def source_dictionary(self):\n        \"\"\"Return the source :class:`~fairseq.data.Dictionary`.\"\"\"\n        return self.dictionary\n\n    @property\n    def target_dictionary(self):\n        \"\"\"Return the target :class:`~fairseq.data.Dictionary`.\"\"\"\n        return self.dictionary\n"
  },
  {
    "path": "fairseq/tasks/speech_dlm_task.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nfrom dataclasses import dataclass, field\nfrom typing import Optional\nfrom collections import OrderedDict\n\nimport numpy as np\nimport torch\nfrom fairseq import utils\nfrom fairseq.data import (\n    AppendTokenDataset,\n    Dictionary,\n    IdDataset,\n    LMContextWindowDataset,\n    MonolingualDataset,\n    NestedDictionaryDataset,\n    NumelDataset,\n    PadDataset,\n    PrependTokenDataset,\n    SpeechDLMDataset,\n    StripTokenDataset,\n    TokenBlockDataset,\n    TruncatedDictionary,\n    data_utils,\n)\nfrom fairseq.data.indexed_dataset import get_available_dataset_impl\nfrom fairseq.data.shorten_dataset import maybe_shorten_dataset\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.tasks import LegacyFairseqTask, register_task\nfrom omegaconf import II\n\n\nSAMPLE_BREAK_MODE_CHOICES = ChoiceEnum([\"none\", \"complete\", \"complete_doc\", \"eos\"])\nSHORTEN_METHOD_CHOICES = ChoiceEnum([\"none\", \"truncate\", \"random_crop\"])\nlogger = logging.getLogger(__name__)\n\n\n@dataclass\nclass SpeechDLMConfig(FairseqDataclass):\n    data: Optional[str] = field(\n        default=None, metadata={\"help\": \"path to data directory\"}\n    )\n    channels: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": 'comma-separated list of channels to load e.g., \"unitA,unitB\"'\n            \"(default: load all possible channels in the data path)\"\n        },\n    )\n    channel_weights: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"comma-separated list of weights for different losses\"\n            \"(default: None, which means all losses are treated equally)\"\n        },\n    )\n    sample_break_mode: SAMPLE_BREAK_MODE_CHOICES = field(\n        default=\"none\",\n        metadata={\n            \"help\": 'If omitted or \"none\", fills each sample with tokens-per-sample '\n            'tokens. If set to \"complete\", splits samples only at the end '\n            \"of sentence, but may include multiple sentences per sample. \"\n            '\"complete_doc\" is similar but respects doc boundaries. '\n            'If set to \"eos\", includes only one sentence per sample.'\n        },\n    )\n    tokens_per_sample: int = field(\n        default=1024,\n        metadata={\"help\": \"max number of tokens per sample for LM dataset\"},\n    )\n    output_dictionary_size: int = field(\n        default=-1, metadata={\"help\": \"limit the size of output dictionary\"}\n    )\n    # str type is a workaround to put **default=True** here\n    next_unit_prediction: str = field(\n        default=\"False\",\n        metadata={\n            \"help\": \"Perform Next Unit Prediction, expected str input ('True' or 'False')\"\n        },\n    )\n    edge_unit_prediction: str = field(\n        default=\"True\",\n        metadata={\n            \"help\": \"Perform Edge Unit Prediction, expected str input ('True' or 'False')\"\n        },\n    )\n    duration_prediction: str = field(\n        default=\"True\",\n        metadata={\n            \"help\": \"Perform Duration Prediction, expected str input ('True' or 'False')\"\n        },\n    )\n    delayed_duration_target: str = field(\n        default=\"True\",\n        metadata={\n            \"help\": \"Perform Delayed Duration Prediction, expected str input ('True' or 'False')\"\n            \"(default: 'True')\"\n        },\n    )\n    max_target_durations: Optional[int] = field(\n        default=256,\n        metadata={\"help\": \"max duration considered (cut off to this value)\"},\n    )\n    add_bos_token: bool = field(\n        default=False, metadata={\"help\": \"prepend beginning of sentence token (<s>)\"}\n    )\n    max_target_positions: Optional[int] = field(\n        default=None, metadata={\"help\": \"max number of tokens in the target sequence\"}\n    )\n    shorten_method: SHORTEN_METHOD_CHOICES = field(\n        default=\"none\",\n        metadata={\n            \"help\": \"if not none, shorten sequences that exceed --tokens-per-sample\"\n        },\n    )\n    shorten_data_split_list: str = field(\n        default=\"\",\n        metadata={\n            \"help\": \"comma-separated list of dataset splits to apply shortening to, \"\n            'e.g., \"train,valid\" (default: all dataset splits)'\n        },\n    )\n    # TODO common vars below add to parent\n    seed: int = II(\"common.seed\")\n    dataset_impl: Optional[ChoiceEnum(get_available_dataset_impl())] = II(\n        \"dataset.dataset_impl\"\n    )\n    data_buffer_size: int = II(\"dataset.data_buffer_size\")\n    tpu: bool = II(\"common.tpu\")\n\n\n@register_task(\"speech_dlm_task\", dataclass=SpeechDLMConfig)\nclass SpeechDLMTask(LegacyFairseqTask):\n    \"\"\"Task for the SpeechDLM model as described in the paper:\n    https://arxiv.org/pdf/2203.16502.pdf\n\n    It create a multi-channel dataset (SpeechDLMDataset) from multiple\n    dictionaries.\n\n    Args:\n        dictionaries (Dict[str, ~fairseq.data.Dictionary]): the dictionaries for\n            each input channel of the SpeechDLM model\n        output_dictionaries (Dict[str, ~fairseq.data.Dictionary]): the dictionaries\n            for the output of each channel of the SpeechDLM model. In most cases it\n            will be the same as *dictionaries*.\n        targets (List[str]): list of the target types that the SpeechDLM model\n            should predict.  Can be one of \"next\", \"edge\", \"duration\".\n            Defaults to \"next\".\n\n    .. note::\n\n        The SpeechDLM task is only compatible with\n        :mod:`fairseq-train` and :mod:`fairseq-validate`.\n        To generate new samples, please refer to example codes\n        at examples/textless_nlp/dgslm .\n    \"\"\"\n\n    def __init__(self, args, dicts, output_dicts=None, targets=None):\n        super().__init__(args)\n        self.dicts = dicts\n        self.output_dicts = output_dicts or dicts\n\n        if targets is None:\n            targets = [\"next\"]\n        self.targets = targets\n\n        self.channels = list(dicts.keys())\n\n        if args.channel_weights is not None:\n            self.channel_weights = [float(w) for w in args.channel_weights.split(\",\")]\n        else:\n            self.channel_weights = [1.0 for _ in self.channels]\n        assert len(self.channel_weights) == len(\n            self.channels\n        ), \"number of channel_weights must be the same as number of channels\"\n\n        assert str(args.next_unit_prediction).lower() in [\n            \"true\",\n            \"false\",\n        ], f\"Expected to be a string of boolean, found {args.next_unit_prediction}\"\n        assert str(args.edge_unit_prediction).lower() in [\n            \"true\",\n            \"false\",\n        ], f\"Expected to be a string of boolean, found {args.edge_unit_prediction}\"\n        assert str(args.duration_prediction).lower() in [\n            \"true\",\n            \"false\",\n        ], f\"Expected to be a string of boolean, found {args.duration_prediction}\"\n        assert str(args.delayed_duration_target).lower() in [\n            \"true\",\n            \"false\",\n        ], f\"Expected to be a string of boolean, found {args.delayed_duration_target}\"\n        self.next_unit_prediction = bool(\n            str(args.next_unit_prediction).lower() == \"true\"\n        )\n        self.edge_unit_prediction = bool(\n            str(args.edge_unit_prediction).lower() == \"true\"\n        )\n        self.duration_prediction = bool(str(args.duration_prediction).lower() == \"true\")\n        self.delayed_duration_target = bool(\n            str(args.delayed_duration_target).lower() == \"true\"\n        )\n\n        self.max_target_durations = args.max_target_durations\n\n    @classmethod\n    def setup_dictionary(cls, args, **kwargs):\n        \"\"\"The dictionaries will be a dict over channel keys and values of type\n        ~fairseq.data.Dictionary.\n        \"\"\"\n        paths = utils.split_paths(args.data)\n        assert len(paths) > 0\n        data_path = paths[0]\n\n        dicts = None\n        output_dicts = None\n        if args.channels is None:\n            sorted_channels = sorted(\n                name[5:-4]\n                for name in os.listdir(data_path)\n                if name[:5] == \"dict.\" and name[-4:] == \".txt\"\n            )\n        else:\n            sorted_channels = sorted(args.channels.split(\",\"))\n        logger.info(\"channels: {}\".format(sorted_channels))\n        # load dictionaries\n        dicts = OrderedDict()\n        output_dicts = OrderedDict()\n        for channel in sorted_channels:\n            dictionary = Dictionary.load(\n                os.path.join(data_path, \"dict.{}.txt\".format(channel))\n            )\n            logger.info(\"[{}] dictionary: {} types\".format(channel, len(dictionary)))\n            output_dictionary = dictionary\n            if args.output_dictionary_size >= 0:\n                output_dictionary = TruncatedDictionary(\n                    dictionary, args.output_dictionary_size\n                )\n            dicts[channel] = dictionary\n            output_dicts[channel] = output_dictionary\n            if len(dicts) > 0:\n                assert dicts[channel].pad() == dicts[sorted_channels[0]].pad()\n                assert dicts[channel].bos() == dicts[sorted_channels[0]].bos()\n                assert dicts[channel].eos() == dicts[sorted_channels[0]].eos()\n                assert dicts[channel].unk() == dicts[sorted_channels[0]].unk()\n        return (dicts, output_dicts)\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        \"\"\"Setup the task (e.g., load dictionaries).\n\n        Args:\n            args (argparse.Namespace): parsed command-line arguments\n        \"\"\"\n        dicts, output_dicts = cls.setup_dictionary(args, **kwargs)\n\n        targets = []\n        if str(getattr(args, \"next_unit_prediction\", \"false\")).lower() == \"true\":\n            targets.append(\"next\")\n        if str(getattr(args, \"edge_unit_prediction\", \"false\")).lower() == \"true\":\n            targets.append(\"edge\")\n        if str(getattr(args, \"duration_prediction\", \"false\")).lower() == \"true\":\n            targets.append(\"duration\")\n        if len(targets) == 0:\n            # standard language modeling\n            targets = [\"next\"]\n\n        return cls(args, dicts, output_dicts, targets=targets)\n\n    def build_model(self, args):\n        model = super().build_model(args)\n        for target in self.targets:\n            if target not in model.supported_targets:\n                raise ValueError(\"Unsupported SpeechDLM target: {}\".format(target))\n        return model\n\n    def load_dataset(\n        self, split: str, epoch=1, combine=False, **kwargs\n    ) -> SpeechDLMDataset:\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        paths = utils.split_paths(self.args.data)\n        assert len(paths) > 0\n\n        data_path = paths[(epoch - 1) % len(paths)]\n\n        channel_datasets = {}\n        for channel in self.channels:\n            split_path = os.path.join(data_path, split + \".\" + channel)\n            dictionary = self.dicts[channel]\n            output_dictionary = self.output_dicts[channel]\n\n            dataset = data_utils.load_indexed_dataset(\n                split_path, dictionary, self.args.dataset_impl, combine=combine\n            )\n\n            if dataset is None:\n                raise FileNotFoundError(\n                    \"[{}] Dataset not found: {} ({})\".format(channel, split, split_path)\n                )\n\n            dataset = maybe_shorten_dataset(\n                dataset,\n                split,\n                self.args.shorten_data_split_list,\n                self.args.shorten_method,\n                self.args.tokens_per_sample,\n                self.args.seed,\n            )\n\n            dataset = TokenBlockDataset(\n                dataset,\n                dataset.sizes,\n                self.args.tokens_per_sample,\n                pad=dictionary.pad(),\n                eos=dictionary.eos(),\n                break_mode=self.args.sample_break_mode,\n                include_targets=True,\n            )\n\n            add_eos_for_other_targets = (\n                self.args.sample_break_mode is not None\n                and self.args.sample_break_mode != \"none\"\n            )\n\n            channel_datasets[channel] = MonolingualDataset(\n                dataset=dataset,\n                sizes=dataset.sizes,\n                src_vocab=dictionary,\n                tgt_vocab=output_dictionary,\n                add_eos_for_other_targets=add_eos_for_other_targets,\n                shuffle=False,\n                targets=[\"future\"],\n                add_bos_token=self.args.add_bos_token,\n            )\n\n        self.datasets[split] = SpeechDLMDataset(\n            datasets=channel_datasets,\n            targets=self.targets,\n            max_target_durations=self.max_target_durations,\n            shuffle=True,\n        )\n\n    def build_dataset_for_inference(self, src_tokens, src_lengths, **kwargs):\n        \"\"\"\n        Generate batches for inference. We prepend an eos token to src_tokens\n        (or bos if `--add-bos-token` is set) and we append a <pad> to target.\n        This is convenient both for generation with a prefix and LM scoring.\n        \"\"\"\n        src_datasets = {}\n        tgt_datasets = {}\n        for channel in src_tokens[0]:\n            dataset = StripTokenDataset(\n                TokenBlockDataset(\n                    [src_tokens[i][channel] for i in range(len(src_tokens))],\n                    src_lengths,\n                    block_size=None,  # ignored for \"eos\" break mode\n                    pad=self.source_dictionaries[channel].pad(),\n                    eos=self.source_dictionaries[channel].eos(),\n                    break_mode=\"eos\",\n                ),\n                # remove eos from (end of) target sequence\n                self.source_dictionaries[channel].eos(),\n            )\n            src_dataset = PrependTokenDataset(\n                dataset,\n                token=(\n                    self.source_dictionaries[channel].bos()\n                    if getattr(self.args, \"add_bos_token\", False)\n                    else self.source_dictionaries[channel].eos()\n                ),\n            )\n            tgt_dataset = AppendTokenDataset(\n                dataset, token=self.source_dictionaries[channel].pad()\n            )\n\n            src_datasets[channel] = src_dataset\n            tgt_datasets[channel] = tgt_dataset\n\n        return NestedDictionaryDataset(\n            {\n                \"id\": IdDataset(),\n                \"net_input\": {\n                    \"src_tokens\": OrderedDict(\n                        [\n                            (\n                                channel,\n                                PadDataset(\n                                    src_datasets[channel],\n                                    pad_idx=self.source_dictionaries[channel].pad(),\n                                    left_pad=False,\n                                ),\n                            )\n                            for channel in src_datasets\n                        ]\n                    ),\n                    \"src_lengths\": NumelDataset(\n                        next(iter(src_datasets.values())), reduce=False\n                    ),\n                },\n                \"target\": OrderedDict(\n                    [\n                        (\n                            channel,\n                            PadDataset(\n                                tgt_datasets[channel],\n                                pad_idx=self.source_dictionaries[channel].pad(),\n                                left_pad=False,\n                            ),\n                        )\n                        for channel in tgt_datasets\n                    ]\n                ),\n            },\n            sizes=[np.array(src_lengths)],\n        )\n\n    def inference_step(\n        self, generator, models, sample, prefix_tokens=None, constraints=None\n    ):\n        with torch.no_grad():\n            # Generation will always be conditioned on bos_token\n            if getattr(self.args, \"add_bos_token\", False):\n                bos_token = self.source_dictionary.bos()\n            else:\n                bos_token = self.source_dictionary.eos()\n\n            if constraints is not None:\n                raise NotImplementedError(\n                    \"Constrained decoding with the SpeechDLM task is not supported\"\n                )\n            # SequenceGenerator doesn't use src_tokens directly, we need to\n            # pass the `prefix_tokens` argument instead\n            if prefix_tokens is None:\n                prefix_tokens = {}\n                for channel in sample[\"net_input\"][\"src_tokens\"]:\n                    if sample[\"net_input\"][\"src_tokens\"][channel].nelement():\n                        prefix_tokens_channel = sample[\"net_input\"][\"src_tokens\"][\n                            channel\n                        ]\n                        if prefix_tokens_channel[:, 0].eq(bos_token).all():\n                            prefix_tokens_channel = prefix_tokens_channel[:, 1:]\n                        prefix_tokens[channel] = prefix_tokens_channel\n                    else:\n                        prefix_tokens = None\n                        break\n            return generator.generate(\n                models, sample, prefix_tokens=prefix_tokens, bos_token=bos_token\n            )\n\n    def eval_lm_dataloader(\n        self,\n        dataset,\n        max_tokens: Optional[int] = 36000,\n        batch_size: Optional[int] = None,\n        max_positions: Optional[int] = None,\n        num_shards: int = 1,\n        shard_id: int = 0,\n        num_workers: int = 1,\n        data_buffer_size: int = 10,\n        # ensures that every evaluated token has access to a context of at least\n        # this size, if possible\n        context_window: int = 0,\n    ):\n        if context_window > 0:\n            dataset = LMContextWindowDataset(\n                dataset=dataset,\n                tokens_per_sample=self.args.tokens_per_sample,\n                context_window=context_window,\n                pad_idx=self.source_dictionary.pad(),\n            )\n        return self.get_batch_iterator(\n            dataset=dataset,\n            max_tokens=max_tokens,\n            max_sentences=batch_size,\n            max_positions=max_positions,\n            ignore_invalid_inputs=True,\n            num_shards=num_shards,\n            shard_id=shard_id,\n            num_workers=num_workers,\n            data_buffer_size=data_buffer_size,\n        ).next_epoch_itr(shuffle=False)\n\n    @property\n    def source_dictionary(self):\n        \"\"\"Return the :class:`~fairseq.data.Dictionary` for the language\n        model.\"\"\"\n        return self.dicts[self.channels[0]]\n\n    @property\n    def target_dictionary(self):\n        \"\"\"Return the :class:`~fairseq.data.Dictionary` for the language\n        model.\"\"\"\n        return self.output_dicts[self.channels[0]]\n\n    @property\n    def source_dictionaries(self):\n        \"\"\"Return the dict of :class:`~fairseq.data.Dictionary` for the\n        multichannel language model.\"\"\"\n        return self.dicts\n\n    @property\n    def target_dictionaries(self):\n        \"\"\"Return the dict of :class:`~fairseq.data.Dictionary` for the\n        multichannel language model.\"\"\"\n        return self.output_dicts\n\n    def build_generator(self, models, args, extra_gen_cls_kwargs=None):\n\n        from fairseq.models.speech_dlm.sequence_generator import (\n            multichannel_search,\n            MultichannelSequenceGenerator,\n        )\n\n        # Choose search strategy. Defaults to Beam Search.\n        sampling = getattr(args, \"sampling\", False)\n        sampling_topk = getattr(args, \"sampling_topk\", -1)\n        sampling_topp = getattr(args, \"sampling_topp\", -1.0)\n        assert (\n            sampling_topk < 0 or sampling\n        ), \"--sampling-topk requires sampling (not beam search)\"\n        assert (\n            sampling_topp < 0 or sampling\n        ), \"--sampling-topp requires sampling (not beam search)\"\n\n        if sampling:\n            search_strategy = multichannel_search.ContiguousMultichannelSampling(\n                self.target_dictionaries, sampling_topk, sampling_topp\n            )\n        else:\n            search_strategy = multichannel_search.ContiguousMultichannelBeamSearch(\n                self.target_dictionaries\n            )\n\n        extra_gen_cls_kwargs = extra_gen_cls_kwargs or {}\n\n        return MultichannelSequenceGenerator(\n            models,\n            self.target_dictionaries,\n            beam_size=getattr(args, \"beam\", 5),\n            max_len_a=getattr(args, \"max_len_a\", 0),\n            max_len_b=getattr(args, \"max_len_b\", 500),\n            min_len=getattr(args, \"min_len\", 1),\n            normalize_scores=(not getattr(args, \"unnormalized\", False)),\n            len_penalty=getattr(args, \"lenpen\", 1),\n            unk_penalty=getattr(args, \"unkpen\", 0),\n            temperature=getattr(args, \"temperature\", 1.0),\n            match_source_len=getattr(args, \"match_source_len\", False),\n            no_repeat_ngram_size=getattr(args, \"no_repeat_ngram_size\", 0),\n            search_strategy=search_strategy,\n            duration_temperature=getattr(args, \"duration_temperature\", 1.0),\n            **extra_gen_cls_kwargs,\n        )\n"
  },
  {
    "path": "fairseq/tasks/speech_to_speech.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport json\nimport logging\nimport math\nfrom argparse import Namespace\nfrom pathlib import Path\nfrom typing import List\n\nimport torch\nimport torch.nn as nn\n\nfrom fairseq import utils\nfrom fairseq.data import Dictionary\nfrom fairseq.data.audio.data_cfg import MultitaskConfig, S2SDataConfig\nfrom fairseq.data.audio.speech_to_speech_dataset import SpeechToSpeechDatasetCreator\nfrom fairseq.data.audio.speech_to_text_dataset import (\n    SpeechToTextDataset,\n    TextTargetMultitaskData,\n)\nfrom fairseq.tasks import LegacyFairseqTask, register_task\nfrom fairseq.tasks.speech_to_text import DummyMultiTask\nfrom fairseq.tasks.text_to_speech import batch_mel_cepstral_distortion\n\nlogger = logging.getLogger(__name__)\n\n\nclass StackUnitSequenceGenerator(nn.Module):\n    def __init__(self, tgt_dict, vocab_size):\n        super().__init__()\n        self.pad = tgt_dict.pad()\n        self.eos = tgt_dict.eos()\n        self.unk = tgt_dict.unk()\n        self.offset = len(tgt_dict) - vocab_size\n        self.vocab_size = vocab_size\n\n    def pack_units(self, input: torch.Tensor, n_frames_per_step) -> torch.Tensor:\n        if n_frames_per_step <= 1:\n            return input\n\n        bsz, _, n = input.shape\n        assert n == n_frames_per_step\n\n        scale = [\n            pow(self.vocab_size, n_frames_per_step - 1 - i)\n            for i in range(n_frames_per_step)\n        ]\n        scale = torch.LongTensor(scale).squeeze(0).to(input.device)\n        mask = input >= self.offset\n        res = ((input - self.offset) * scale * mask).sum(dim=2) + self.offset\n        return res\n\n    @torch.no_grad()\n    def generate(self, models, sample, **kwargs):\n        # currently only support viterbi search for stacked units\n        model = models[0]\n        model.eval()\n\n        max_len = model.max_decoder_positions()\n        # TODO: incorporate max_len_a and max_len_b\n\n        src_tokens = sample[\"net_input\"][\"src_tokens\"]\n        src_lengths = sample[\"net_input\"][\"src_lengths\"]\n        bsz, src_len, _ = src_tokens.size()\n        n_frames_per_step = model.decoder.n_frames_per_step\n\n        # initialize\n        encoder_out = model.forward_encoder(\n            src_tokens, src_lengths, speaker=sample[\"speaker\"]\n        )\n        incremental_state = {}\n        pred_out, attn, scores = [], [], []\n        finished = src_tokens.new_zeros((bsz,)).bool()\n\n        prev_output_tokens = src_lengths.new_zeros((bsz, 1)).long().fill_(self.eos)\n        for _ in range(max_len):\n            cur_out, cur_extra = model.forward_decoder(\n                prev_output_tokens,\n                encoder_out=encoder_out,\n                incremental_state=incremental_state,\n            )\n\n            lprobs = model.get_normalized_probs([cur_out], log_probs=True)\n            # never select pad, unk\n            lprobs[:, :, self.pad] = -math.inf\n            lprobs[:, :, self.unk] = -math.inf\n\n            cur_pred_lprob, cur_pred_out = torch.max(lprobs, dim=2)\n            scores.append(cur_pred_lprob)\n            pred_out.append(cur_pred_out)\n\n            prev_output_tokens = torch.cat(\n                (\n                    prev_output_tokens,\n                    self.pack_units(\n                        cur_pred_out.view(bsz, 1, n_frames_per_step), n_frames_per_step\n                    ),\n                ),\n                dim=1,\n            )\n\n            attn.append(cur_extra[\"attn\"][0])\n\n            cur_finished = torch.any(cur_pred_out.squeeze(1) == self.eos, dim=1)\n            finished = finished | cur_finished\n            if finished.sum().item() == bsz:\n                break\n\n        pred_out = torch.cat(pred_out, dim=1).view(bsz, -1)\n        attn = torch.cat(attn, dim=2)\n        alignment = attn.max(dim=1)[1]\n        attn = attn.repeat_interleave(n_frames_per_step, dim=2)\n        alignment = alignment.repeat_interleave(n_frames_per_step, dim=1)\n        scores = torch.cat(scores, dim=1)\n        eos_idx = (pred_out == self.eos).nonzero(as_tuple=True)\n        out_lens = src_lengths.new_zeros((bsz,)).long().fill_(max_len)\n        for b, l in zip(eos_idx[0], eos_idx[1]):\n            out_lens[b] = min(l, out_lens[b])\n\n        hypos = [\n            [\n                {\n                    \"tokens\": pred_out[b, :out_len],\n                    \"attn\": attn[b, :, :out_len],\n                    \"alignment\": alignment[b, :out_len],\n                    \"positional_scores\": scores[b, :out_len],\n                    \"score\": utils.item(scores[b, :out_len].sum().data),\n                }\n            ]\n            for b, out_len in zip(range(bsz), out_lens)\n        ]\n\n        return hypos\n\n\n@register_task(\"speech_to_speech\")\nclass SpeechToSpeechTask(LegacyFairseqTask):\n    @classmethod\n    def add_args(cls, parser):\n        parser.add_argument(\"data\", help=\"manifest root path\")\n        parser.add_argument(\n            \"--config-yaml\",\n            type=str,\n            default=\"config.yaml\",\n            help=\"Configuration YAML filename (under manifest root)\",\n        )\n        parser.add_argument(\n            \"--multitask-config-yaml\",\n            type=str,\n            default=None,\n            help=\"Configuration YAML filename for the multitasks (under manifest root)\",\n        )\n        parser.add_argument(\n            \"--max-source-positions\",\n            default=6000,\n            type=int,\n            metavar=\"N\",\n            help=\"max number of tokens in the source sequence\",\n        )\n        parser.add_argument(\n            \"--max-target-positions\",\n            default=1024,\n            type=int,\n            metavar=\"N\",\n            help=\"max number of tokens in the target sequence\",\n        )\n        parser.add_argument(\n            \"--target-is-code\",\n            action=\"store_true\",\n            help=\"set if target is discrete unit instead of spectrogram\",\n        )\n        parser.add_argument(\n            \"--target-code-size\", type=int, default=None, help=\"# discrete units\"\n        )\n        parser.add_argument(\n            \"--n-frames-per-step\",\n            type=int,\n            default=1,\n            help=\"# stacked frames, use 0 for reduced discrete unit sequence\",\n        )\n        parser.add_argument(\"--eval-inference\", action=\"store_true\")\n        parser.add_argument(\n            \"--eval-args\",\n            type=str,\n            default=\"{}\",\n            help='generation args for speech-to-unit model , e.g., \\'{\"beam\": 5, \"max_len_a\": 1}\\', as JSON string',\n        )\n        parser.add_argument(\"--eos-prob-threshold\", type=float, default=0.5)\n        parser.add_argument(\n            \"--mcd-normalize-type\",\n            type=str,\n            default=\"targ\",\n            choices=[\"targ\", \"pred\", \"path\"],\n        )\n        parser.add_argument(\n            \"--vocoder\",\n            type=str,\n            default=\"griffin_lim\",\n            choices=[\"griffin_lim\", \"hifigan\", \"code_hifigan\"],\n        )\n        parser.add_argument(\"--spec-bwd-max-iter\", type=int, default=8)\n        parser.add_argument(\n            \"--infer-target-lang\",\n            type=str,\n            default=\"\",\n            help=\"target language for inference\",\n        )\n\n    def __init__(self, args, tgt_dict, infer_tgt_lang_id=None):\n        super().__init__(args)\n        self.tgt_dict = tgt_dict\n        self.data_cfg = S2SDataConfig(Path(args.data) / args.config_yaml)\n\n        self.multitask_tasks = {}\n        self.tgt_dict_mt = None\n        self.eos_token_mt = None\n        if getattr(args, \"multitask_config_yaml\", None) is not None:\n            multitask_cfg = MultitaskConfig(\n                Path(args.data) / args.multitask_config_yaml\n            )\n            first_pass_task_idx = multitask_cfg.first_pass_decoder_task_index\n            for i, (task_name, task_config) in enumerate(\n                multitask_cfg.get_all_tasks().items()\n            ):\n                task_obj = DummyMultiTask(\n                    task_config,\n                    task_config.tgt_dict,\n                    first_pass=i == first_pass_task_idx,\n                )\n                self.multitask_tasks[task_name] = task_obj\n                if task_obj.is_first_pass_decoder:\n                    self.tgt_dict_mt = task_obj.target_dictionary\n                    if task_config.prepend_bos_and_append_tgt_lang_tag:\n                        self.eos_token_mt = task_config.eos_token\n                        assert not isinstance(self.eos_token_mt, List)\n\n                        if not self.eos_token_mt:\n                            raise Warning(\n                                \"Please provide eos_token in --multitask-config-yaml to replace eos in sequence generator\"\n                            )\n\n        self._infer_tgt_lang_id = infer_tgt_lang_id\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        data_cfg = data_cfg = S2SDataConfig(Path(args.data) / args.config_yaml)\n        tgt_dict = None\n        infer_tgt_lang_id = None\n        if args.target_is_code:\n            if data_cfg.prepend_tgt_lang_tag_as_bos:\n                # dictionary with language tags\n                dict_path = Path(args.data) / data_cfg.vocab_filename\n                if not dict_path.is_file():\n                    raise FileNotFoundError(\n                        f\"Dict has to be provided when setting prepend_tgt_lang_tag_as_bos: true, but dict not found: {dict_path}\"\n                    )\n                tgt_dict = Dictionary.load(dict_path.as_posix())\n\n                # target langauge for inference\n                if args.infer_target_lang != \"\":\n                    tgt_lang_tag = SpeechToTextDataset.LANG_TAG_TEMPLATE.format(\n                        args.infer_target_lang\n                    )\n                    infer_tgt_lang_id = tgt_dict.index(tgt_lang_tag)\n                    assert infer_tgt_lang_id != tgt_dict.unk()\n            else:\n                assert args.target_code_size is not None\n\n                tgt_dict = Dictionary()\n                for i in range(args.target_code_size):\n                    tgt_dict.add_symbol(str(i))\n            logger.info(f\"dictionary size: \" f\"{len(tgt_dict):,}\")\n\n        if getattr(args, \"train_subset\", None) is not None:\n            if not all(s.startswith(\"train\") for s in args.train_subset.split(\",\")):\n                raise ValueError('Train splits should be named like \"train*\".')\n\n        assert args.n_frames_per_step >= 1\n        assert (\n            not args.eval_inference\n            or (args.target_is_code and args.vocoder == \"code_hifigan\")\n            or (not args.target_is_code and args.vocoder != \"code_hifigan\")\n        )\n\n        return cls(args, tgt_dict, infer_tgt_lang_id=infer_tgt_lang_id)\n\n    def build_criterion(self, args):\n        from fairseq import criterions\n\n        if len(self.multitask_tasks) > 0:\n            if self.args.target_is_code and not args._name.startswith(\"speech_to_unit\"):\n                raise ValueError(\n                    \"set --criterion speech_to_unit for speech-to-unit loss with multitask\"\n                )\n            elif not self.args.target_is_code and not args._name.startswith(\n                \"speech_to_spectrogram\"\n            ):\n                raise ValueError(\n                    \"set --criterion speech_to_spectrogram for speech-to-spectrogram loss with multitask\"\n                )\n\n        return criterions.build_criterion(args, self)\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        self.datasets[split] = SpeechToSpeechDatasetCreator.from_tsv(\n            root=self.args.data,\n            data_cfg=self.data_cfg,\n            splits=split,\n            is_train_split=split.startswith(\"train\"),\n            epoch=epoch,\n            seed=self.args.seed,\n            target_is_code=self.args.target_is_code,\n            tgt_dict=self.target_dictionary,\n            n_frames_per_step=self.args.n_frames_per_step,\n            multitask=self.multitask_tasks,\n        )\n\n    @property\n    def target_dictionary(self):\n        return self.tgt_dict\n\n    @property\n    def target_dictionary_mt(self):\n        return self.tgt_dict_mt\n\n    @property\n    def source_dictionary(self):\n        return None\n\n    def max_positions(self):\n        return self.args.max_source_positions, self.args.max_target_positions\n\n    def build_model(self, args, from_checkpoint=False):\n        args.input_feat_per_channel = self.data_cfg.input_feat_per_channel\n        args.input_channels = self.data_cfg.input_transformed_channels\n        args.target_speaker_embed = self.data_cfg.target_speaker_embed is not None\n        args.n_frames_per_step = self.args.n_frames_per_step\n\n        model = super().build_model(args, from_checkpoint)\n\n        if len(self.multitask_tasks) > 0:\n            from fairseq.models.speech_to_speech.s2s_transformer import (\n                S2STransformerMultitaskModelBase,\n            )\n\n            assert isinstance(model, S2STransformerMultitaskModelBase)\n\n        if self.args.eval_inference:\n            self.eval_gen_args = json.loads(self.args.eval_args)\n            self.generator = self.build_generator(\n                [model], Namespace(**self.eval_gen_args)\n            )\n\n        return model\n\n    def build_generator_dual_decoder(\n        self,\n        models,\n        args,\n        extra_gen_cls_kwargs=None,\n    ):\n        from examples.speech_to_speech.unity.sequence_generator_multi_decoder import (\n            MultiDecoderSequenceGenerator,\n        )\n\n        return MultiDecoderSequenceGenerator(\n            models,\n            self.target_dictionary,\n            self.target_dictionary_mt,\n            beam_size=max(1, getattr(args, \"beam\", 1)),\n            beam_size_mt=max(1, getattr(args, \"beam_mt\", 1)),\n            max_len_a=getattr(args, \"max_len_a\", 0),\n            max_len_b=getattr(args, \"max_len_b\", 200),\n            max_len_a_mt=getattr(args, \"max_len_a_mt\", 0),\n            max_len_b_mt=getattr(args, \"max_len_b_mt\", 200),\n            min_len=getattr(args, \"min_len\", 1),\n            normalize_scores=(not getattr(args, \"unnormalized\", False)),\n            len_penalty=getattr(args, \"lenpen\", 1),\n            unk_penalty=getattr(args, \"unkpen\", 0),\n            temperature=getattr(args, \"temperature\", 1.0),\n            match_source_len=getattr(args, \"match_source_len\", False),\n            no_repeat_ngram_size=getattr(args, \"no_repeat_ngram_size\", 0),\n            **extra_gen_cls_kwargs,\n        )\n\n    def build_generator(\n        self,\n        models,\n        args,\n        seq_gen_cls=None,\n        extra_gen_cls_kwargs=None,\n    ):\n\n        if not self.args.target_is_code or self.args.eval_inference:\n            from fairseq.models.text_to_speech.vocoder import get_vocoder\n\n            self.vocoder = get_vocoder(self.args, self.data_cfg)\n            self.vocoder = (\n                self.vocoder.cuda()\n                if torch.cuda.is_available() and not self.args.cpu\n                else self.vocoder.cpu()\n            )\n\n        has_dual_decoder = getattr(models[0], \"mt_task_name\", None) is not None\n\n        if self.args.target_is_code:\n            if self.args.n_frames_per_step == 1:\n                if has_dual_decoder:\n                    seq_generator = self.build_generator_dual_decoder(\n                        models,\n                        args,\n                        extra_gen_cls_kwargs=extra_gen_cls_kwargs,\n                    )\n                else:\n                    seq_generator = super().build_generator(\n                        models,\n                        args,\n                        seq_gen_cls=None,\n                        extra_gen_cls_kwargs=extra_gen_cls_kwargs,\n                    )\n            else:\n                assert (\n                    getattr(args, \"beam\", 1) == 1 and getattr(args, \"nbest\", 1) == 1\n                ), \"only support viterbi search for stacked units\"\n                seq_generator = StackUnitSequenceGenerator(\n                    self.tgt_dict,\n                    self.args.target_code_size,\n                )\n        else:\n            if has_dual_decoder:\n                if getattr(args, \"teacher_forcing\", False):\n                    raise NotImplementedError\n                else:\n                    from fairseq.speech_generator import MultiDecoderSpeechGenerator\n\n                    generator = MultiDecoderSpeechGenerator\n\n                lang_token_ids_aux = {\n                    i\n                    for s, i in self.tgt_dict_mt.indices.items()\n                    if TextTargetMultitaskData.is_lang_tag(s)\n                }\n\n                if extra_gen_cls_kwargs is None:\n                    extra_gen_cls_kwargs = {}\n                extra_gen_cls_kwargs[\n                    \"symbols_to_strip_from_output\"\n                ] = lang_token_ids_aux\n\n                eos_id_mt = (\n                    self.tgt_dict_mt.index(self.eos_token_mt)\n                    if self.eos_token_mt\n                    else None\n                )\n                assert eos_id_mt != self.tgt_dict_mt.unk()\n                extra_gen_cls_kwargs[\"eos_mt\"] = eos_id_mt\n\n                seq_generator = generator(\n                    models,\n                    args,\n                    self.vocoder,\n                    self.data_cfg,\n                    self.target_dictionary_mt,\n                    max_iter=self.args.max_target_positions,\n                    eos_prob_threshold=self.args.eos_prob_threshold,\n                    **extra_gen_cls_kwargs,\n                )\n            else:\n                if getattr(args, \"teacher_forcing\", False):\n                    from fairseq.speech_generator import (\n                        TeacherForcingAutoRegressiveSpeechGenerator,\n                    )\n\n                    generator = TeacherForcingAutoRegressiveSpeechGenerator\n                    logger.info(\"Teacher forcing mode for generation\")\n                else:\n                    from fairseq.speech_generator import AutoRegressiveSpeechGenerator\n\n                    generator = AutoRegressiveSpeechGenerator\n\n                seq_generator = generator(\n                    models[0],\n                    self.vocoder,\n                    self.data_cfg,\n                    max_iter=self.args.max_target_positions,\n                    eos_prob_threshold=self.args.eos_prob_threshold,\n                )\n\n        return seq_generator\n\n    def train_step(\n        self, sample, model, criterion, optimizer, update_num, ignore_grad=False\n    ):\n        for task_name, task_obj in self.multitask_tasks.items():\n            criterion.set_multitask_loss_weight(\n                task_name, task_obj.args.get_loss_weight(update_num)\n            )\n            if task_name in model.multitask_decoders:\n                model.multitask_decoders[task_name].train()\n\n        loss, sample_size, logging_output = super().train_step(\n            sample, model, criterion, optimizer, update_num, ignore_grad\n        )\n        return loss, sample_size, logging_output\n\n    def valid_step(self, sample, model, criterion):\n        for task_name in self.multitask_tasks.keys():\n            if task_name in model.multitask_decoders:\n                model.multitask_decoders[task_name].eval()\n        loss, sample_size, logging_output = super().valid_step(sample, model, criterion)\n\n        if self.args.eval_inference:\n            hypos, inference_losses = self.valid_step_with_inference(\n                sample, model, self.generator\n            )\n            for k, v in inference_losses.items():\n                assert k not in logging_output\n                logging_output[k] = v\n\n        return loss, sample_size, logging_output\n\n    def valid_step_with_inference(self, sample, model, generator):\n        if self.args.target_is_code:\n            hypos = generator.generate([model], sample)\n            tgt_lens = (\n                sample[\"target_lengths\"] - 1\n            ) * self.args.n_frames_per_step  # strip <eos>\n            for b, (f, l) in enumerate(zip(sample[\"target\"], tgt_lens)):\n                hypos[b][0][\"targ_waveform\"] = self.vocoder(\n                    {\"code\": f[:l] - 4},  # remove <bos>, <pad>, <eos>, <unk>\n                    dur_prediction=self.eval_gen_args.get(\"dur_prediction\", False),\n                )\n                if len(hypos[b][0][\"tokens\"]) > 0:\n                    hypos[b][0][\"waveform\"] = self.vocoder(\n                        {\"code\": hypos[b][0][\"tokens\"] - 4},\n                        dur_prediction=self.eval_gen_args.get(\"dur_prediction\", False),\n                    )\n                else:\n                    hypos[b][0][\"waveform\"] = torch.flip(\n                        hypos[b][0][\"targ_waveform\"], dims=[0]\n                    )\n        else:\n            hypos = [\n                [hypo] for hypo in generator.generate(model, sample, has_targ=True)\n            ]\n\n        losses = {\n            \"mcd_loss\": 0.0,\n            \"targ_frames\": 0.0,\n            \"pred_frames\": 0.0,\n            \"path_frames\": 0.0,\n            \"nins\": 0.0,\n            \"ndel\": 0.0,\n        }\n        rets = batch_mel_cepstral_distortion(\n            [hypo[0][\"targ_waveform\"] for hypo in hypos],\n            [hypo[0][\"waveform\"] for hypo in hypos],\n            self.data_cfg.output_sample_rate,\n            normalize_type=None,\n        )\n        for d, extra in rets:\n            pathmap = extra[-1]\n            losses[\"mcd_loss\"] += d.item()\n            losses[\"targ_frames\"] += pathmap.size(0)\n            losses[\"pred_frames\"] += pathmap.size(1)\n            losses[\"path_frames\"] += pathmap.sum().item()\n            losses[\"nins\"] += (pathmap.sum(dim=1) - 1).sum().item()\n            losses[\"ndel\"] += (pathmap.sum(dim=0) - 1).sum().item()\n        losses[\"norm_frames\"] = losses[\n            f\"{getattr(self.args, 'mcd_normalize_type', 'targ')}_frames\"\n        ]\n\n        return hypos, losses\n\n    def inference_step(\n        self, generator, models, sample, prefix_tokens=None, constraints=None\n    ):\n        with torch.no_grad():\n            if self._infer_tgt_lang_id is not None:\n                return generator.generate(\n                    models,\n                    sample,\n                    prefix_tokens=prefix_tokens,\n                    constraints=constraints,\n                    bos_token=self._infer_tgt_lang_id,\n                )\n            else:\n                return super().inference_step(\n                    generator,\n                    models,\n                    sample,\n                    prefix_tokens=prefix_tokens,\n                    constraints=constraints,\n                )\n"
  },
  {
    "path": "fairseq/tasks/speech_to_text.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nfrom argparse import Namespace\nfrom pathlib import Path\nfrom typing import List\n\nfrom fairseq.data import Dictionary, encoders\nfrom fairseq.data.audio.audio_utils import get_features_or_waveform\nfrom fairseq.data.audio.data_cfg import MultitaskConfig\nfrom fairseq.data.audio.speech_to_text_dataset import (\n    S2TDataConfig,\n    SpeechToTextDataset,\n    SpeechToTextDatasetCreator,\n    TextTargetMultitaskData,\n)\nfrom fairseq.tasks import LegacyFairseqTask, register_task\n\nlogger = logging.getLogger(__name__)\n\n\n@register_task(\"speech_to_text\")\nclass SpeechToTextTask(LegacyFairseqTask):\n    @classmethod\n    def add_args(cls, parser):\n        parser.add_argument(\"data\", help=\"manifest root path\")\n        parser.add_argument(\n            \"--config-yaml\",\n            type=str,\n            default=\"config.yaml\",\n            help=\"Configuration YAML filename (under manifest root)\",\n        )\n        parser.add_argument(\n            \"--multitask-config-yaml\",\n            type=str,\n            default=None,\n            help=\"Configuration YAML filename for the multitasks (under manifest root)\",\n        )\n        parser.add_argument(\n            \"--max-source-positions\",\n            default=6000,\n            type=int,\n            metavar=\"N\",\n            help=\"max number of tokens in the source sequence\",\n        )\n        parser.add_argument(\n            \"--max-target-positions\",\n            default=1024,\n            type=int,\n            metavar=\"N\",\n            help=\"max number of tokens in the target sequence\",\n        )\n\n    def __init__(self, args, tgt_dict):\n        super().__init__(args)\n        self.tgt_dict = tgt_dict\n        self.data_cfg = S2TDataConfig(Path(args.data) / args.config_yaml)\n        self.speaker_to_id = self._get_speaker_to_id()\n        if (\n            self.data_cfg.prepend_tgt_lang_tag\n            and self.data_cfg.prepend_bos_and_append_tgt_lang_tag\n        ):\n            raise ValueError(\n                \"Please set only one of the two options to avoid adding target token multiple times\"\n            )\n\n        self.multitask_tasks = {}\n        self.tgt_dict_mt = None\n        self.eos_token_mt = None\n        if getattr(args, \"multitask_config_yaml\", None) is not None:\n            multitask_cfg = MultitaskConfig(\n                Path(args.data) / args.multitask_config_yaml\n            )\n            first_pass_task_idx = multitask_cfg.first_pass_decoder_task_index\n            for i, (task_name, task_config) in enumerate(\n                multitask_cfg.get_all_tasks().items()\n            ):\n                task_obj = DummyMultiTask(\n                    task_config,\n                    task_config.tgt_dict,\n                    first_pass=i == first_pass_task_idx,\n                )\n                self.multitask_tasks[task_name] = task_obj\n                if task_obj.is_first_pass_decoder:\n                    self.tgt_dict_mt = task_obj.target_dictionary\n                    if task_config.prepend_bos_and_append_tgt_lang_tag:\n                        self.eos_token_mt = task_config.eos_token\n                        assert not isinstance(self.eos_token_mt, List)\n\n                        if not self.eos_token_mt:\n                            raise Warning(\n                                \"Please provide eos_token in --multitask-config-yaml to replace eos in sequence generator\"\n                            )\n\n    def _get_speaker_to_id(self):\n        speaker_to_id = None\n        speaker_set_filename = self.data_cfg.config.get(\"speaker_set_filename\")\n        if speaker_set_filename is not None:\n            speaker_set_path = Path(self.args.data) / speaker_set_filename\n            with open(speaker_set_path) as f:\n                speaker_to_id = {r.strip(): i for i, r in enumerate(f)}\n        return speaker_to_id\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        data_cfg = S2TDataConfig(Path(args.data) / args.config_yaml)\n        dict_path = Path(args.data) / data_cfg.vocab_filename\n        if not dict_path.is_file():\n            raise FileNotFoundError(f\"Dict not found: {dict_path.as_posix()}\")\n        tgt_dict = Dictionary.load(dict_path.as_posix())\n        logger.info(\n            f\"dictionary size ({data_cfg.vocab_filename}): \" f\"{len(tgt_dict):,}\"\n        )\n\n        if getattr(args, \"train_subset\", None) is not None:\n            if not all(s.startswith(\"train\") for s in args.train_subset.split(\",\")):\n                raise ValueError('Train splits should be named like \"train*\".')\n        return cls(args, tgt_dict)\n\n    def build_criterion(self, args):\n        from fairseq import criterions\n\n        if self.data_cfg.prepend_tgt_lang_tag and args.ignore_prefix_size != 1:\n            raise ValueError(\n                'Please set \"--ignore-prefix-size 1\" since '\n                \"target language ID token is prepended as BOS.\"\n            )\n        return criterions.build_criterion(args, self)\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        is_train_split = split.startswith(\"train\")\n        pre_tokenizer = self.build_tokenizer(self.args)\n        bpe_tokenizer = self.build_bpe(self.args)\n        self.datasets[split] = SpeechToTextDatasetCreator.from_tsv(\n            root=self.args.data,\n            cfg=self.data_cfg,\n            splits=split,\n            tgt_dict=self.tgt_dict,\n            pre_tokenizer=pre_tokenizer,\n            bpe_tokenizer=bpe_tokenizer,\n            is_train_split=is_train_split,\n            epoch=epoch,\n            seed=self.args.seed,\n            speaker_to_id=self.speaker_to_id,\n            multitask=self.multitask_tasks,\n        )\n\n    @property\n    def target_dictionary(self):\n        return self.tgt_dict\n\n    @property\n    def target_dictionary_mt(self):\n        return self.tgt_dict_mt\n\n    @property\n    def source_dictionary(self):\n        return None\n\n    def max_positions(self):\n        return self.args.max_source_positions, self.args.max_target_positions\n\n    def build_model(self, args, from_checkpoint=False):\n        args.input_feat_per_channel = self.data_cfg.input_feat_per_channel\n        args.input_channels = self.data_cfg.input_channels\n        args.speaker_to_id = self.speaker_to_id\n        return super(SpeechToTextTask, self).build_model(args, from_checkpoint)\n\n    def build_generator_dual_decoder(\n        self,\n        models,\n        args,\n        extra_gen_cls_kwargs,\n    ):\n        from examples.speech_to_speech.unity.sequence_generator_multi_decoder import (\n            MultiDecoderSequenceGenerator,\n        )\n\n        lang_token_ids_aux = {\n            i\n            for s, i in self.tgt_dict_mt.indices.items()\n            if TextTargetMultitaskData.is_lang_tag(s)\n        }\n\n        extra_gen_cls_kwargs[\"symbols_to_strip_from_output\"].update(lang_token_ids_aux)\n\n        eos_id_mt = (\n            self.tgt_dict_mt.index(self.eos_token_mt) if self.eos_token_mt else None\n        )\n        assert eos_id_mt != self.tgt_dict_mt.unk()\n        extra_gen_cls_kwargs[\"eos_mt\"] = eos_id_mt\n\n        return MultiDecoderSequenceGenerator(\n            models,\n            self.target_dictionary,\n            self.target_dictionary_mt,\n            beam_size=max(1, getattr(args, \"beam\", 1)),\n            beam_size_mt=max(1, getattr(args, \"beam_mt\", 1)),\n            max_len_a=getattr(args, \"max_len_a\", 0),\n            max_len_b=getattr(args, \"max_len_b\", 200),\n            max_len_a_mt=getattr(args, \"max_len_a_mt\", 0),\n            max_len_b_mt=getattr(args, \"max_len_b_mt\", 0),\n            min_len=getattr(args, \"min_len\", 1),\n            normalize_scores=(not getattr(args, \"unnormalized\", False)),\n            len_penalty=getattr(args, \"lenpen\", 1),\n            len_penalty_mt=getattr(args, \"lenpen_mt\", 1),\n            unk_penalty=getattr(args, \"unkpen\", 0),\n            temperature=getattr(args, \"temperature\", 1.0),\n            match_source_len=getattr(args, \"match_source_len\", False),\n            no_repeat_ngram_size=getattr(args, \"no_repeat_ngram_size\", 0),\n            **extra_gen_cls_kwargs,\n        )\n\n    def build_generator(\n        self,\n        models,\n        args,\n        seq_gen_cls=None,\n        extra_gen_cls_kwargs=None,\n    ):\n        if self.data_cfg.prepend_tgt_lang_tag and args.prefix_size != 1:\n            raise ValueError(\n                'Please set \"--prefix-size 1\" since '\n                \"target language ID token is prepended as BOS.\"\n            )\n        lang_token_ids = {\n            i\n            for s, i in self.tgt_dict.indices.items()\n            if SpeechToTextDataset.is_lang_tag(s)\n        }\n\n        if extra_gen_cls_kwargs is None:\n            extra_gen_cls_kwargs = {}\n        extra_gen_cls_kwargs[\"symbols_to_strip_from_output\"] = lang_token_ids\n\n        eos_token = (\n            args.eos_token\n            if \"eos_token\" in args and args.eos_token is not None\n            else self.data_cfg.config.get(\"eos_token\", None)\n        )\n\n        if self.data_cfg.prepend_bos_and_append_tgt_lang_tag and not eos_token:\n            raise Warning(\n                \"Please provide --eos_token to replace eos in sequence generator\"\n            )\n\n        eos_id = self.tgt_dict.index(eos_token) if eos_token else None\n        extra_gen_cls_kwargs[\"eos\"] = eos_id\n\n        has_dual_decoder = getattr(models[0], \"mt_task_name\", None) is not None\n\n        if has_dual_decoder:\n            return self.build_generator_dual_decoder(\n                models,\n                args,\n                extra_gen_cls_kwargs=extra_gen_cls_kwargs,\n            )\n        else:\n            return super().build_generator(\n                models,\n                args,\n                seq_gen_cls=None,\n                extra_gen_cls_kwargs=extra_gen_cls_kwargs,\n            )\n\n    def train_step(\n        self, sample, model, criterion, optimizer, update_num, ignore_grad=False\n    ):\n        for task_name, task_obj in self.multitask_tasks.items():\n            criterion.set_multitask_loss_weight(\n                task_name, task_obj.args.get_loss_weight(update_num)\n            )\n            if task_name in model.multitask_decoders:\n                model.multitask_decoders[task_name].train()\n\n        loss, sample_size, logging_output = super().train_step(\n            sample, model, criterion, optimizer, update_num, ignore_grad\n        )\n        return loss, sample_size, logging_output\n\n    def valid_step(self, sample, model, criterion):\n        for task_name, task_obj in self.multitask_tasks.items():\n            if task_name in model.multitask_decoders:\n                model.multitask_decoders[task_name].eval()\n        loss, sample_size, logging_output = super().valid_step(sample, model, criterion)\n\n        return loss, sample_size, logging_output\n\n    def build_tokenizer(self, args):\n        logger.info(f\"pre-tokenizer: {self.data_cfg.pre_tokenizer}\")\n        return encoders.build_tokenizer(Namespace(**self.data_cfg.pre_tokenizer))\n\n    def build_bpe(self, args):\n        logger.info(f\"tokenizer: {self.data_cfg.bpe_tokenizer}\")\n        return encoders.build_bpe(Namespace(**self.data_cfg.bpe_tokenizer))\n\n    def get_interactive_tokens_and_lengths(self, lines, encode_fn):\n        n_frames = [get_features_or_waveform(p).shape[0] for p in lines]\n        return lines, n_frames\n\n    def build_dataset_for_inference(self, src_tokens, src_lengths, **kwargs):\n        return SpeechToTextDataset(\n            \"interactive\", False, self.data_cfg, src_tokens, src_lengths\n        )\n\n\nclass DummyMultiTask(LegacyFairseqTask):\n    def __init__(self, args, tgt_dict, first_pass=False):\n        super().__init__(args)\n        self.tgt_dict = tgt_dict\n        self.first_pass = first_pass\n\n    @property\n    def target_dictionary(self):\n        return self.tgt_dict\n\n    @property\n    def is_first_pass_decoder(self):\n        return self.first_pass\n\n    def inference_step(\n        self, generator, models, sample, prefix_tokens=None, constraints=None\n    ):\n        if self.args.decoder_type == \"ctc\":\n            model = models[0]  # only support single model\n            encoder_out = model(**sample)\n            if hasattr(model, \"get_logits\"):\n                emissions = model.get_logits(\n                    encoder_out\n                )  # no need to normalize emissions\n            else:\n                emissions = model.get_normalized_probs(encoder_out, log_probs=True)\n            return generator.decode(\n                emissions.transpose(0, 1).float().cpu().contiguous()\n            )\n        else:\n            raise NotImplementedError(\"only ctc decoder is supported at the moment\")\n\n    def build_generator(\n        self, models, args, seq_gen_cls=None, extra_gen_cls_kwargs=None\n    ):\n        if self.args.decoder_type == \"ctc\":\n            from examples.speech_recognition.w2l_decoder import W2lViterbiDecoder\n\n            return W2lViterbiDecoder(args, self.tgt_dict)\n        else:\n            raise NotImplementedError(\"only ctc decoder is supported at the moment\")\n"
  },
  {
    "path": "fairseq/tasks/speech_ulm_task.py",
    "content": "# Copyright (c) 2017-present, Facebook, Inc.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the LICENSE file in\n# the root directory of this source tree. An additional grant of patent rights\n# can be found in the PATENTS file in the same directory.\n\nimport logging\nimport sys\nimport torch\nfrom dataclasses import dataclass, field\nfrom typing import List, Optional, Tuple\n\nfrom fairseq.data import Dictionary\nfrom fairseq.data.codedataset import ExpressiveCodeDataConfig, CodeDataset\nfrom fairseq.dataclass.configs import FairseqDataclass\nfrom fairseq.tasks import register_task\nfrom fairseq.tasks.fairseq_task import FairseqTask\nfrom omegaconf import MISSING, DictConfig\n\n\nlogger = logging.getLogger(__name__)\n\n\nclass UnitDictionary(Dictionary):\n    \"\"\"\n    A fixed-sized Dictionary that operates on integer-valued tokens\n    wth a trivial (identity) token <-> id mapping.\n    Special symbols (bos, eos, ...) have ids above n_units.\n    \"\"\"\n\n    def __init__(\n        self,\n        *,  # begin keyword-only arguments\n        n_units,\n        bos=\"<s>\",\n        pad=\"<pad>\",\n        eos=\"</s>\",\n        unk=\"<unk>\",\n        extra_special_symbols=None,\n        clip=False,\n    ):\n        self.n_units = n_units\n        self.bos_word, self.unk_word, self.pad_word, self.eos_word = bos, unk, pad, eos\n        self.clip = clip\n\n        self.symbols = []\n        self.count = []\n        self.indices = {}\n        for i in range(n_units):\n            self.add_symbol(str(i))\n\n        self.bos_index = self.add_symbol(bos)\n        self.pad_index = self.add_symbol(pad)\n        self.eos_index = self.add_symbol(eos)\n        self.unk_index = self.add_symbol(unk)\n\n        if extra_special_symbols:\n            for s in extra_special_symbols:\n                self.add_symbol(s)\n        self.nspecial = len(self.symbols)\n\n    def encode_line(self, line, append_eos=True, prepend_bos=False) -> torch.IntTensor:\n        words = [int(x) for x in line.split()]\n        if self.clip:\n            words = [min(self.n_units - 1, word) for word in words]\n        if prepend_bos:\n            words = [self.bos_index] + words\n        if append_eos:\n            words.append(self.eos_index)\n        ids = torch.IntTensor(words)\n        return ids\n\n\n@dataclass\nclass SpeechUnitModelingConfig(FairseqDataclass):\n    data: str = field(default=MISSING, metadata={\"help\": \"Path to data config.json\"})\n    max_token_duration: int = field(\n        default=20, metadata={\"help\": \"all token durations are capped to this value\"}\n    )\n    tokens_per_sample: int = field(\n        default=1024, metadata={\"help\": \"tokens in a sample\"}\n    )\n    max_target_positions: int = field(\n        default=1024, metadata={\"help\": \"max target positions\"}\n    )\n\n    # duration modeling\n    ignore_duration_input: bool = field(\n        default=False, metadata={\"help\": \"whether token durations should be zeroed out\"}\n    )\n    discrete_duration: bool = field(\n        default=False, metadata={\"help\": \"treat duration as discrete variable\"}\n    )\n    # F0 modeling\n    ignore_f0_input: bool = field(\n        default=False, metadata={\"help\": \"whether F0 should be zeroed out\"}\n    )\n    discrete_f0: bool = field(\n        default=False, metadata={\"help\": \"load quantized f0. get bin from config\"}\n    )\n    log_f0: bool = field(\n        default=False, metadata={\"help\": \"whether f0 should be modeled in log space\"}\n    )\n    normalize_f0_mean: bool = field(\n        default=False, metadata={\"help\": \"whether normalize f0 by speaker mean\"}\n    )\n    normalize_f0_std: bool = field(\n        default=False, metadata={\"help\": \"whether normalize f0 by speaker stddev\"}\n    )\n    interpolate_f0: bool = field(\n        default=False,\n        metadata={\"help\": \"whether interpolate f0 for non-voiced segments\"},\n    )\n\n    # input/output streams\n    stream_shifts: str = field(\n        default=\"0,0\",\n        metadata={\n            \"help\": (\n                \"comma-separated integer list denoting right-shift for \"\n                \"duration and pitch streams\"\n            )\n        },\n    )\n\n\n@register_task(\"speech_unit_modeling\", dataclass=SpeechUnitModelingConfig)\nclass SpeechUnitLanguageModelingTask(FairseqTask):\n    def __init__(self, cfg: SpeechUnitModelingConfig) -> None:\n        super().__init__(cfg)\n        assert not self.cfg.normalize_f0_std or self.cfg.normalize_f0_mean\n\n        self.data_config = ExpressiveCodeDataConfig(cfg.data)\n        self._source_dictionary = self._target_dictionary = UnitDictionary(\n            n_units=self.data_config.n_units\n        )\n        self._source_duration_dictionary = self._target_duration_dictionary = (\n            UnitDictionary(n_units=self.cfg.max_token_duration + 1, clip=True)\n            if self.cfg.discrete_duration\n            else None\n        )\n        self._source_f0_dictionary = self._target_f0_dictionary = (\n            UnitDictionary(n_units=self.data_config.f0_vq_n_units)\n            if self.cfg.discrete_f0\n            else None\n        )\n\n        self._channel_names = [\"token\", \"duration\", \"f0\"]\n        self._channel_sizes = [\n            len(self.target_dictionary),\n            len(self.target_duration_dictionary) if self.cfg.discrete_duration else 1,\n            len(self.target_f0_dictionary) if self.cfg.discrete_f0 else 1,\n        ]\n\n    @property\n    def source_dictionary(self) -> Optional[Dictionary]:\n        return self._source_dictionary\n\n    @property\n    def source_duration_dictionary(self) -> Optional[Dictionary]:\n        return self._source_duration_dictionary\n\n    @property\n    def source_f0_dictionary(self) -> Optional[Dictionary]:\n        return self._source_f0_dictionary\n\n    @property\n    def channel_names(self) -> List[str]:\n        return self._channel_names\n\n    @property\n    def channel_sizes(self) -> List[int]:\n        return self._channel_sizes\n\n    @property\n    def dictionary(self) -> Optional[Dictionary]:\n        return self._source_dictionary\n\n    @property\n    def target_dictionary(self) -> Optional[Dictionary]:\n        return self._target_dictionary\n\n    @property\n    def target_duration_dictionary(self) -> Optional[Dictionary]:\n        return self._target_duration_dictionary\n\n    @property\n    def target_f0_dictionary(self) -> Optional[Dictionary]:\n        return self._target_f0_dictionary\n\n    @property\n    def dictionaries(self) -> List[Dictionary]:\n        return [self._dictionaries[l] for l in self.cfg.labels]\n\n    @classmethod\n    def setup_task(\n        cls, cfg: SpeechUnitModelingConfig, **kwargs\n    ) -> \"SpeechUnitLanguageModelingTask\":\n        return cls(cfg)\n\n    def load_dataset(self, split: str, **kwargs) -> None:\n        self.datasets[split] = CodeDataset(\n            manifest=self.data_config.manifests[split],\n            dictionary=self.source_dictionary,\n            dur_dictionary=self.source_duration_dictionary,\n            f0_dictionary=self.source_f0_dictionary,\n            config=self.data_config,\n            discrete_dur=self.cfg.discrete_duration,\n            discrete_f0=self.cfg.discrete_f0,\n            log_f0=self.cfg.log_f0,\n            normalize_f0_mean=self.cfg.normalize_f0_mean,\n            normalize_f0_std=self.cfg.normalize_f0_std,\n            interpolate_f0=self.cfg.interpolate_f0,\n            shifts=self.cfg.stream_shifts,\n        )\n\n    def max_positions(self) -> Tuple[int, int]:\n        return (sys.maxsize, sys.maxsize)\n\n    def build_criterion(self, cfg: DictConfig):\n        import fairseq.criterions\n\n        return fairseq.criterions.build_criterion(cfg, self)\n"
  },
  {
    "path": "fairseq/tasks/text_to_speech.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport os.path as op\n\nimport torch\nimport torch.nn.functional as F\nimport numpy as np\n\nfrom fairseq.data.audio.text_to_speech_dataset import TextToSpeechDatasetCreator\nfrom fairseq.tasks import register_task\nfrom fairseq.tasks.speech_to_text import SpeechToTextTask\nfrom fairseq.speech_generator import (\n    AutoRegressiveSpeechGenerator,\n    NonAutoregressiveSpeechGenerator,\n    TeacherForcingAutoRegressiveSpeechGenerator,\n)\n\nlogging.basicConfig(\n    format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n    datefmt=\"%Y-%m-%d %H:%M:%S\",\n    level=logging.INFO,\n)\nlogger = logging.getLogger(__name__)\n\n\ntry:\n    from tensorboardX import SummaryWriter\nexcept ImportError:\n    logger.info(\"Please install tensorboardX: pip install tensorboardX\")\n    SummaryWriter = None\n\n\n@register_task(\"text_to_speech\")\nclass TextToSpeechTask(SpeechToTextTask):\n    @staticmethod\n    def add_args(parser):\n        parser.add_argument(\"data\", help=\"manifest root path\")\n        parser.add_argument(\n            \"--config-yaml\",\n            type=str,\n            default=\"config.yaml\",\n            help=\"Configuration YAML filename (under manifest root)\",\n        )\n        parser.add_argument(\n            \"--max-source-positions\",\n            default=1024,\n            type=int,\n            metavar=\"N\",\n            help=\"max number of tokens in the source sequence\",\n        )\n        parser.add_argument(\n            \"--max-target-positions\",\n            default=1200,\n            type=int,\n            metavar=\"N\",\n            help=\"max number of tokens in the target sequence\",\n        )\n        parser.add_argument(\"--n-frames-per-step\", type=int, default=1)\n        parser.add_argument(\"--eos-prob-threshold\", type=float, default=0.5)\n        parser.add_argument(\"--eval-inference\", action=\"store_true\")\n        parser.add_argument(\"--eval-tb-nsample\", type=int, default=8)\n        parser.add_argument(\"--vocoder\", type=str, default=\"griffin_lim\")\n        parser.add_argument(\"--spec-bwd-max-iter\", type=int, default=8)\n\n    def __init__(self, args, src_dict):\n        super().__init__(args, src_dict)\n        self.src_dict = src_dict\n        self.sr = self.data_cfg.config.get(\"features\").get(\"sample_rate\")\n\n        self.tensorboard_writer = None\n        self.tensorboard_dir = \"\"\n        if args.tensorboard_logdir and SummaryWriter is not None:\n            self.tensorboard_dir = os.path.join(args.tensorboard_logdir, \"valid_extra\")\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        is_train_split = split.startswith(\"train\")\n        pre_tokenizer = self.build_tokenizer(self.args)\n        bpe_tokenizer = self.build_bpe(self.args)\n        self.datasets[split] = TextToSpeechDatasetCreator.from_tsv(\n            self.args.data,\n            self.data_cfg,\n            split,\n            self.src_dict,\n            pre_tokenizer,\n            bpe_tokenizer,\n            is_train_split=is_train_split,\n            epoch=epoch,\n            seed=self.args.seed,\n            n_frames_per_step=self.args.n_frames_per_step,\n            speaker_to_id=self.speaker_to_id,\n        )\n\n    @property\n    def target_dictionary(self):\n        return None\n\n    @property\n    def source_dictionary(self):\n        return self.src_dict\n\n    def get_speaker_embeddings_path(self):\n        speaker_emb_path = None\n        if self.data_cfg.config.get(\"speaker_emb_filename\") is not None:\n            speaker_emb_path = op.join(\n                self.args.data, self.data_cfg.config.get(\"speaker_emb_filename\")\n            )\n        return speaker_emb_path\n\n    @classmethod\n    def get_speaker_embeddings(cls, args):\n        embed_speaker = None\n        if args.speaker_to_id is not None:\n            if args.speaker_emb_path is None:\n                embed_speaker = torch.nn.Embedding(\n                    len(args.speaker_to_id), args.speaker_embed_dim\n                )\n            else:\n                speaker_emb_mat = np.load(args.speaker_emb_path)\n                assert speaker_emb_mat.shape[1] == args.speaker_embed_dim\n                embed_speaker = torch.nn.Embedding.from_pretrained(\n                    torch.from_numpy(speaker_emb_mat),\n                    freeze=True,\n                )\n                logger.info(\n                    f\"load speaker embeddings from {args.speaker_emb_path}. \"\n                    f\"train embedding? {embed_speaker.weight.requires_grad}\\n\"\n                    f\"embeddings:\\n{speaker_emb_mat}\"\n                )\n        return embed_speaker\n\n    def build_model(self, cfg, from_checkpoint=False):\n        cfg.pitch_min = self.data_cfg.config[\"features\"].get(\"pitch_min\", None)\n        cfg.pitch_max = self.data_cfg.config[\"features\"].get(\"pitch_max\", None)\n        cfg.energy_min = self.data_cfg.config[\"features\"].get(\"energy_min\", None)\n        cfg.energy_max = self.data_cfg.config[\"features\"].get(\"energy_max\", None)\n        cfg.speaker_emb_path = self.get_speaker_embeddings_path()\n        model = super().build_model(cfg, from_checkpoint)\n        self.generator = None\n        if getattr(cfg, \"eval_inference\", False):\n            self.generator = self.build_generator([model], cfg)\n        return model\n\n    def build_generator(self, models, cfg, vocoder=None, **unused):\n        if vocoder is None:\n            vocoder = self.build_default_vocoder()\n        model = models[0]\n        if getattr(model, \"NON_AUTOREGRESSIVE\", False):\n            return NonAutoregressiveSpeechGenerator(model, vocoder, self.data_cfg)\n        else:\n            generator = AutoRegressiveSpeechGenerator\n            if getattr(cfg, \"teacher_forcing\", False):\n                generator = TeacherForcingAutoRegressiveSpeechGenerator\n                logger.info(\"Teacher forcing mode for generation\")\n            return generator(\n                model,\n                vocoder,\n                self.data_cfg,\n                max_iter=self.args.max_target_positions,\n                eos_prob_threshold=self.args.eos_prob_threshold,\n            )\n\n    def build_default_vocoder(self):\n        from fairseq.models.text_to_speech.vocoder import get_vocoder\n\n        vocoder = get_vocoder(self.args, self.data_cfg)\n        if torch.cuda.is_available() and not self.args.cpu:\n            vocoder = vocoder.cuda()\n        else:\n            vocoder = vocoder.cpu()\n        return vocoder\n\n    def valid_step(self, sample, model, criterion):\n        loss, sample_size, logging_output = super().valid_step(sample, model, criterion)\n\n        if getattr(self.args, \"eval_inference\", False):\n            hypos, inference_losses = self.valid_step_with_inference(\n                sample, model, self.generator\n            )\n            for k, v in inference_losses.items():\n                assert k not in logging_output\n                logging_output[k] = v\n\n            picked_id = 0\n            if self.tensorboard_dir and (sample[\"id\"] == picked_id).any():\n                self.log_tensorboard(\n                    sample,\n                    hypos[: self.args.eval_tb_nsample],\n                    model._num_updates,\n                    is_na_model=getattr(model, \"NON_AUTOREGRESSIVE\", False),\n                )\n        return loss, sample_size, logging_output\n\n    def valid_step_with_inference(self, sample, model, generator):\n        hypos = generator.generate(model, sample, has_targ=True)\n\n        losses = {\n            \"mcd_loss\": 0.0,\n            \"targ_frames\": 0.0,\n            \"pred_frames\": 0.0,\n            \"nins\": 0.0,\n            \"ndel\": 0.0,\n        }\n        rets = batch_mel_cepstral_distortion(\n            [hypo[\"targ_waveform\"] for hypo in hypos],\n            [hypo[\"waveform\"] for hypo in hypos],\n            self.sr,\n            normalize_type=None,\n        )\n        for d, extra in rets:\n            pathmap = extra[-1]\n            losses[\"mcd_loss\"] += d.item()\n            losses[\"targ_frames\"] += pathmap.size(0)\n            losses[\"pred_frames\"] += pathmap.size(1)\n            losses[\"nins\"] += (pathmap.sum(dim=1) - 1).sum().item()\n            losses[\"ndel\"] += (pathmap.sum(dim=0) - 1).sum().item()\n\n        return hypos, losses\n\n    def log_tensorboard(self, sample, hypos, num_updates, is_na_model=False):\n        if self.tensorboard_writer is None:\n            self.tensorboard_writer = SummaryWriter(self.tensorboard_dir)\n        tb_writer = self.tensorboard_writer\n        for b in range(len(hypos)):\n            idx = sample[\"id\"][b]\n            text = sample[\"src_texts\"][b]\n            targ = hypos[b][\"targ_feature\"]\n            pred = hypos[b][\"feature\"]\n            attn = hypos[b][\"attn\"]\n\n            if is_na_model:\n                data = plot_tts_output(\n                    [targ.transpose(0, 1), pred.transpose(0, 1)],\n                    [f\"target (idx={idx})\", \"output\"],\n                    attn,\n                    \"alignment\",\n                    ret_np=True,\n                    suptitle=text,\n                )\n            else:\n                eos_prob = hypos[b][\"eos_prob\"]\n                data = plot_tts_output(\n                    [targ.transpose(0, 1), pred.transpose(0, 1), attn],\n                    [f\"target (idx={idx})\", \"output\", \"alignment\"],\n                    eos_prob,\n                    \"eos prob\",\n                    ret_np=True,\n                    suptitle=text,\n                )\n\n            tb_writer.add_image(\n                f\"inference_sample_{b}\", data, num_updates, dataformats=\"HWC\"\n            )\n\n            if hypos[b][\"waveform\"] is not None:\n                targ_wave = hypos[b][\"targ_waveform\"].detach().cpu().float()\n                pred_wave = hypos[b][\"waveform\"].detach().cpu().float()\n                tb_writer.add_audio(\n                    f\"inference_targ_{b}\", targ_wave, num_updates, sample_rate=self.sr\n                )\n                tb_writer.add_audio(\n                    f\"inference_pred_{b}\", pred_wave, num_updates, sample_rate=self.sr\n                )\n\n\ndef save_figure_to_numpy(fig):\n    data = np.fromstring(fig.canvas.tostring_rgb(), dtype=np.uint8, sep=\"\")\n    data = data.reshape(fig.canvas.get_width_height()[::-1] + (3,))\n    return data\n\n\nDEFAULT_V_MIN = np.log(1e-5)\n\n\ndef plot_tts_output(\n    data_2d,\n    title_2d,\n    data_1d,\n    title_1d,\n    figsize=(24, 4),\n    v_min=DEFAULT_V_MIN,\n    v_max=3,\n    ret_np=False,\n    suptitle=\"\",\n):\n    try:\n        import matplotlib.pyplot as plt\n        from mpl_toolkits.axes_grid1 import make_axes_locatable\n    except ImportError:\n        raise ImportError(\"Please install Matplotlib: pip install matplotlib\")\n\n    data_2d = [\n        x.detach().cpu().float().numpy() if isinstance(x, torch.Tensor) else x\n        for x in data_2d\n    ]\n    fig, axes = plt.subplots(1, len(data_2d) + 1, figsize=figsize)\n    if suptitle:\n        fig.suptitle(suptitle[:400])  # capped at 400 chars\n    axes = [axes] if len(data_2d) == 0 else axes\n    for ax, x, name in zip(axes, data_2d, title_2d):\n        ax.set_title(name)\n        divider = make_axes_locatable(ax)\n        cax = divider.append_axes(\"right\", size=\"5%\", pad=0.05)\n        im = ax.imshow(\n            x,\n            origin=\"lower\",\n            aspect=\"auto\",\n            vmin=max(x.min(), v_min),\n            vmax=min(x.max(), v_max),\n        )\n        fig.colorbar(im, cax=cax, orientation=\"vertical\")\n\n    if isinstance(data_1d, torch.Tensor):\n        data_1d = data_1d.detach().cpu().numpy()\n    axes[-1].plot(data_1d)\n    axes[-1].set_title(title_1d)\n    plt.tight_layout()\n\n    if ret_np:\n        fig.canvas.draw()\n        data = save_figure_to_numpy(fig)\n        plt.close(fig)\n        return data\n\n\ndef antidiag_indices(offset, min_i=0, max_i=None, min_j=0, max_j=None):\n    \"\"\"\n    for a (3, 4) matrix with min_i=1, max_i=3, min_j=1, max_j=4, outputs\n\n    offset=2 (1, 1),\n    offset=3 (2, 1), (1, 2)\n    offset=4 (2, 2), (1, 3)\n    offset=5 (2, 3)\n\n    constraints:\n        i + j = offset\n        min_j <= j < max_j\n        min_i <= offset - j < max_i\n    \"\"\"\n    if max_i is None:\n        max_i = offset + 1\n    if max_j is None:\n        max_j = offset + 1\n    min_j = max(min_j, offset - max_i + 1, 0)\n    max_j = min(max_j, offset - min_i + 1, offset + 1)\n    j = torch.arange(min_j, max_j)\n    i = offset - j\n    return torch.stack([i, j])\n\n\ndef batch_dynamic_time_warping(distance, shapes=None):\n    \"\"\"full batched DTW without any constraints\n\n    distance:  (batchsize, max_M, max_N) matrix\n    shapes: (batchsize,) vector specifying (M, N) for each entry\n    \"\"\"\n    # ptr: 0=left, 1=up-left, 2=up\n    ptr2dij = {0: (0, -1), 1: (-1, -1), 2: (-1, 0)}\n\n    bsz, m, n = distance.size()\n    cumdist = torch.zeros_like(distance)\n    backptr = torch.zeros_like(distance).type(torch.int32) - 1\n\n    # initialize\n    cumdist[:, 0, :] = distance[:, 0, :].cumsum(dim=-1)\n    cumdist[:, :, 0] = distance[:, :, 0].cumsum(dim=-1)\n    backptr[:, 0, :] = 0\n    backptr[:, :, 0] = 2\n\n    # DP with optimized anti-diagonal parallelization, O(M+N) steps\n    for offset in range(2, m + n - 1):\n        ind = antidiag_indices(offset, 1, m, 1, n)\n        c = torch.stack(\n            [\n                cumdist[:, ind[0], ind[1] - 1],\n                cumdist[:, ind[0] - 1, ind[1] - 1],\n                cumdist[:, ind[0] - 1, ind[1]],\n            ],\n            dim=2,\n        )\n        v, b = c.min(axis=-1)\n        backptr[:, ind[0], ind[1]] = b.int()\n        cumdist[:, ind[0], ind[1]] = v + distance[:, ind[0], ind[1]]\n\n    # backtrace\n    pathmap = torch.zeros_like(backptr)\n    for b in range(bsz):\n        i = m - 1 if shapes is None else (shapes[b][0] - 1).item()\n        j = n - 1 if shapes is None else (shapes[b][1] - 1).item()\n        dtwpath = [(i, j)]\n        while (i != 0 or j != 0) and len(dtwpath) < 10000:\n            assert i >= 0 and j >= 0\n            di, dj = ptr2dij[backptr[b, i, j].item()]\n            i, j = i + di, j + dj\n            dtwpath.append((i, j))\n        dtwpath = dtwpath[::-1]\n        indices = torch.from_numpy(np.array(dtwpath))\n        pathmap[b, indices[:, 0], indices[:, 1]] = 1\n\n    return cumdist, backptr, pathmap\n\n\ndef compute_l2_dist(x1, x2):\n    \"\"\"compute an (m, n) L2 distance matrix from (m, d) and (n, d) matrices\"\"\"\n    return torch.cdist(x1.unsqueeze(0), x2.unsqueeze(0), p=2).squeeze(0).pow(2)\n\n\ndef compute_rms_dist(x1, x2):\n    l2_dist = compute_l2_dist(x1, x2)\n    return (l2_dist / x1.size(1)).pow(0.5)\n\n\ndef get_divisor(pathmap, normalize_type):\n    if normalize_type is None:\n        return 1\n    elif normalize_type == \"len1\":\n        return pathmap.size(0)\n    elif normalize_type == \"len2\":\n        return pathmap.size(1)\n    elif normalize_type == \"path\":\n        return pathmap.sum().item()\n    else:\n        raise ValueError(f\"normalize_type {normalize_type} not supported\")\n\n\ndef batch_compute_distortion(y1, y2, sr, feat_fn, dist_fn, normalize_type):\n    d, s, x1, x2 = [], [], [], []\n    for cur_y1, cur_y2 in zip(y1, y2):\n        assert cur_y1.ndim == 1 and cur_y2.ndim == 1\n        cur_x1 = feat_fn(cur_y1)\n        cur_x2 = feat_fn(cur_y2)\n        x1.append(cur_x1)\n        x2.append(cur_x2)\n\n        cur_d = dist_fn(cur_x1, cur_x2)\n        d.append(cur_d)\n        s.append(d[-1].size())\n    max_m = max(ss[0] for ss in s)\n    max_n = max(ss[1] for ss in s)\n    d = torch.stack(\n        [F.pad(dd, (0, max_n - dd.size(1), 0, max_m - dd.size(0))) for dd in d]\n    )\n    s = torch.LongTensor(s).to(d.device)\n    cumdists, backptrs, pathmaps = batch_dynamic_time_warping(d, s)\n\n    rets = []\n    itr = zip(s, x1, x2, d, cumdists, backptrs, pathmaps)\n    for (m, n), cur_x1, cur_x2, dist, cumdist, backptr, pathmap in itr:\n        cumdist = cumdist[:m, :n]\n        backptr = backptr[:m, :n]\n        pathmap = pathmap[:m, :n]\n        divisor = get_divisor(pathmap, normalize_type)\n\n        distortion = cumdist[-1, -1] / divisor\n        ret = distortion, (cur_x1, cur_x2, dist, cumdist, backptr, pathmap)\n        rets.append(ret)\n    return rets\n\n\ndef batch_mel_cepstral_distortion(y1, y2, sr, normalize_type=\"path\", mfcc_fn=None):\n    \"\"\"\n    https://arxiv.org/pdf/2011.03568.pdf\n\n    The root mean squared error computed on 13-dimensional MFCC using DTW for\n    alignment. MFCC features are computed from an 80-channel log-mel\n    spectrogram using a 50ms Hann window and hop of 12.5ms.\n\n    y1: list of waveforms\n    y2: list of waveforms\n    sr: sampling rate\n    \"\"\"\n\n    try:\n        import torchaudio\n    except ImportError:\n        raise ImportError(\"Please install torchaudio: pip install torchaudio\")\n\n    if mfcc_fn is None or mfcc_fn.sample_rate != sr:\n        melkwargs = {\n            \"n_fft\": int(0.05 * sr),\n            \"win_length\": int(0.05 * sr),\n            \"hop_length\": int(0.0125 * sr),\n            \"f_min\": 20,\n            \"n_mels\": 80,\n            \"window_fn\": torch.hann_window,\n        }\n        mfcc_fn = torchaudio.transforms.MFCC(\n            sr, n_mfcc=13, log_mels=True, melkwargs=melkwargs\n        ).to(y1[0].device)\n    return batch_compute_distortion(\n        y1,\n        y2,\n        sr,\n        lambda y: mfcc_fn(y).transpose(-1, -2),\n        compute_rms_dist,\n        normalize_type,\n    )\n"
  },
  {
    "path": "fairseq/tasks/translation.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\nimport itertools\nimport json\nimport logging\nimport os\nfrom typing import Optional\nfrom argparse import Namespace\nfrom omegaconf import II\n\nimport numpy as np\nfrom fairseq import utils\nfrom fairseq.logging import metrics\nfrom fairseq.data import (\n    AppendTokenDataset,\n    ConcatDataset,\n    LanguagePairDataset,\n    PrependTokenDataset,\n    StripTokenDataset,\n    TruncateDataset,\n    data_utils,\n    encoders,\n    indexed_dataset,\n)\nfrom fairseq.data.indexed_dataset import get_available_dataset_impl\nfrom fairseq.dataclass import ChoiceEnum, FairseqDataclass\nfrom fairseq.tasks import FairseqTask, register_task\n\n\nEVAL_BLEU_ORDER = 4\n\n\nlogger = logging.getLogger(__name__)\n\n\ndef load_langpair_dataset(\n    data_path,\n    split,\n    src,\n    src_dict,\n    tgt,\n    tgt_dict,\n    combine,\n    dataset_impl,\n    upsample_primary,\n    left_pad_source,\n    left_pad_target,\n    max_source_positions,\n    max_target_positions,\n    prepend_bos=False,\n    load_alignments=False,\n    truncate_source=False,\n    append_source_id=False,\n    num_buckets=0,\n    shuffle=True,\n    pad_to_multiple=1,\n    prepend_bos_src=None,\n):\n    def split_exists(split, src, tgt, lang, data_path):\n        filename = os.path.join(data_path, \"{}.{}-{}.{}\".format(split, src, tgt, lang))\n        return indexed_dataset.dataset_exists(filename, impl=dataset_impl)\n\n    src_datasets = []\n    tgt_datasets = []\n\n    for k in itertools.count():\n        split_k = split + (str(k) if k > 0 else \"\")\n\n        # infer langcode\n        if split_exists(split_k, src, tgt, src, data_path):\n            prefix = os.path.join(data_path, \"{}.{}-{}.\".format(split_k, src, tgt))\n        elif split_exists(split_k, tgt, src, src, data_path):\n            prefix = os.path.join(data_path, \"{}.{}-{}.\".format(split_k, tgt, src))\n        else:\n            if k > 0:\n                break\n            else:\n                raise FileNotFoundError(\n                    \"Dataset not found: {} ({})\".format(split, data_path)\n                )\n\n        src_dataset = data_utils.load_indexed_dataset(\n            prefix + src, src_dict, dataset_impl\n        )\n        if truncate_source:\n            src_dataset = AppendTokenDataset(\n                TruncateDataset(\n                    StripTokenDataset(src_dataset, src_dict.eos()),\n                    max_source_positions - 1,\n                ),\n                src_dict.eos(),\n            )\n        src_datasets.append(src_dataset)\n\n        tgt_dataset = data_utils.load_indexed_dataset(\n            prefix + tgt, tgt_dict, dataset_impl\n        )\n        if tgt_dataset is not None:\n            tgt_datasets.append(tgt_dataset)\n\n        logger.info(\n            \"{} {} {}-{} {} examples\".format(\n                data_path, split_k, src, tgt, len(src_datasets[-1])\n            )\n        )\n\n        if not combine:\n            break\n\n    assert len(src_datasets) == len(tgt_datasets) or len(tgt_datasets) == 0\n\n    if len(src_datasets) == 1:\n        src_dataset = src_datasets[0]\n        tgt_dataset = tgt_datasets[0] if len(tgt_datasets) > 0 else None\n    else:\n        sample_ratios = [1] * len(src_datasets)\n        sample_ratios[0] = upsample_primary\n        src_dataset = ConcatDataset(src_datasets, sample_ratios)\n        if len(tgt_datasets) > 0:\n            tgt_dataset = ConcatDataset(tgt_datasets, sample_ratios)\n        else:\n            tgt_dataset = None\n\n    if prepend_bos:\n        assert hasattr(src_dict, \"bos_index\") and hasattr(tgt_dict, \"bos_index\")\n        src_dataset = PrependTokenDataset(src_dataset, src_dict.bos())\n        if tgt_dataset is not None:\n            tgt_dataset = PrependTokenDataset(tgt_dataset, tgt_dict.bos())\n    elif prepend_bos_src is not None:\n        logger.info(f\"prepending src bos: {prepend_bos_src}\")\n        src_dataset = PrependTokenDataset(src_dataset, prepend_bos_src)\n\n    eos = None\n    if append_source_id:\n        src_dataset = AppendTokenDataset(\n            src_dataset, src_dict.index(\"[{}]\".format(src))\n        )\n        if tgt_dataset is not None:\n            tgt_dataset = AppendTokenDataset(\n                tgt_dataset, tgt_dict.index(\"[{}]\".format(tgt))\n            )\n        eos = tgt_dict.index(\"[{}]\".format(tgt))\n\n    align_dataset = None\n    if load_alignments:\n        align_path = os.path.join(data_path, \"{}.align.{}-{}\".format(split, src, tgt))\n        if indexed_dataset.dataset_exists(align_path, impl=dataset_impl):\n            align_dataset = data_utils.load_indexed_dataset(\n                align_path, None, dataset_impl\n            )\n\n    tgt_dataset_sizes = tgt_dataset.sizes if tgt_dataset is not None else None\n    return LanguagePairDataset(\n        src_dataset,\n        src_dataset.sizes,\n        src_dict,\n        tgt_dataset,\n        tgt_dataset_sizes,\n        tgt_dict,\n        left_pad_source=left_pad_source,\n        left_pad_target=left_pad_target,\n        align_dataset=align_dataset,\n        eos=eos,\n        num_buckets=num_buckets,\n        shuffle=shuffle,\n        pad_to_multiple=pad_to_multiple,\n    )\n\n\n@dataclass\nclass TranslationConfig(FairseqDataclass):\n    data: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"colon separated path to data directories list, will be iterated upon during epochs \"\n            \"in round-robin manner; however, valid and test data are always in the first directory \"\n            \"to avoid the need for repeating them in all directories\"\n        },\n    )\n    source_lang: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"source language\",\n            \"argparse_alias\": \"-s\",\n        },\n    )\n    target_lang: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"target language\",\n            \"argparse_alias\": \"-t\",\n        },\n    )\n    load_alignments: bool = field(\n        default=False, metadata={\"help\": \"load the binarized alignments\"}\n    )\n    left_pad_source: bool = field(\n        default=True, metadata={\"help\": \"pad the source on the left\"}\n    )\n    left_pad_target: bool = field(\n        default=False, metadata={\"help\": \"pad the target on the left\"}\n    )\n    max_source_positions: int = field(\n        default=1024, metadata={\"help\": \"max number of tokens in the source sequence\"}\n    )\n    max_target_positions: int = field(\n        default=1024, metadata={\"help\": \"max number of tokens in the target sequence\"}\n    )\n    upsample_primary: int = field(\n        default=-1, metadata={\"help\": \"the amount of upsample primary dataset\"}\n    )\n    truncate_source: bool = field(\n        default=False, metadata={\"help\": \"truncate source to max-source-positions\"}\n    )\n    num_batch_buckets: int = field(\n        default=0,\n        metadata={\n            \"help\": \"if >0, then bucket source and target lengths into \"\n            \"N buckets and pad accordingly; this is useful on TPUs to minimize the number of compilations\"\n        },\n    )\n    train_subset: str = II(\"dataset.train_subset\")\n    dataset_impl: Optional[ChoiceEnum(get_available_dataset_impl())] = II(\n        \"dataset.dataset_impl\"\n    )\n    required_seq_len_multiple: int = II(\"dataset.required_seq_len_multiple\")\n\n    # options for reporting BLEU during validation\n    eval_bleu: bool = field(\n        default=False, metadata={\"help\": \"evaluation with BLEU scores\"}\n    )\n    eval_bleu_args: Optional[str] = field(\n        default=\"{}\",\n        metadata={\n            \"help\": 'generation args for BLUE scoring, e.g., \\'{\"beam\": 4, \"lenpen\": 0.6}\\', as JSON string'\n        },\n    )\n    eval_bleu_detok: str = field(\n        default=\"space\",\n        metadata={\n            \"help\": \"detokenize before computing BLEU (e.g., 'moses'); required if using --eval-bleu; \"\n            \"use 'space' to disable detokenization; see fairseq.data.encoders for other options\"\n        },\n    )\n    eval_bleu_detok_args: Optional[str] = field(\n        default=\"{}\",\n        metadata={\"help\": \"args for building the tokenizer, if needed, as JSON string\"},\n    )\n    eval_tokenized_bleu: bool = field(\n        default=False, metadata={\"help\": \"compute tokenized BLEU instead of sacrebleu\"}\n    )\n    eval_bleu_remove_bpe: Optional[str] = field(\n        default=None,\n        metadata={\n            \"help\": \"remove BPE before computing BLEU\",\n            \"argparse_const\": \"@@ \",\n        },\n    )\n    eval_bleu_print_samples: bool = field(\n        default=False, metadata={\"help\": \"print sample generations during validation\"}\n    )\n\n\n@register_task(\"translation\", dataclass=TranslationConfig)\nclass TranslationTask(FairseqTask):\n    \"\"\"\n    Translate from one (source) language to another (target) language.\n\n    Args:\n        src_dict (~fairseq.data.Dictionary): dictionary for the source language\n        tgt_dict (~fairseq.data.Dictionary): dictionary for the target language\n\n    .. note::\n\n        The translation task is compatible with :mod:`fairseq-train`,\n        :mod:`fairseq-generate` and :mod:`fairseq-interactive`.\n    \"\"\"\n\n    cfg: TranslationConfig\n\n    def __init__(self, cfg: TranslationConfig, src_dict, tgt_dict):\n        super().__init__(cfg)\n        self.src_dict = src_dict\n        self.tgt_dict = tgt_dict\n\n    @classmethod\n    def setup_task(cls, cfg: TranslationConfig, **kwargs):\n        \"\"\"Setup the task (e.g., load dictionaries).\n\n        Args:\n            args (argparse.Namespace): parsed command-line arguments\n        \"\"\"\n\n        paths = utils.split_paths(cfg.data)\n        assert len(paths) > 0\n        # find language pair automatically\n        if cfg.source_lang is None or cfg.target_lang is None:\n            cfg.source_lang, cfg.target_lang = data_utils.infer_language_pair(paths[0])\n        if cfg.source_lang is None or cfg.target_lang is None:\n            raise Exception(\n                \"Could not infer language pair, please provide it explicitly\"\n            )\n\n        # load dictionaries\n        src_dict = cls.load_dictionary(\n            os.path.join(paths[0], \"dict.{}.txt\".format(cfg.source_lang))\n        )\n        tgt_dict = cls.load_dictionary(\n            os.path.join(paths[0], \"dict.{}.txt\".format(cfg.target_lang))\n        )\n        assert src_dict.pad() == tgt_dict.pad()\n        assert src_dict.eos() == tgt_dict.eos()\n        assert src_dict.unk() == tgt_dict.unk()\n        logger.info(\"[{}] dictionary: {} types\".format(cfg.source_lang, len(src_dict)))\n        logger.info(\"[{}] dictionary: {} types\".format(cfg.target_lang, len(tgt_dict)))\n\n        return cls(cfg, src_dict, tgt_dict)\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        paths = utils.split_paths(self.cfg.data)\n        assert len(paths) > 0\n        if split != self.cfg.train_subset:\n            # if not training data set, use the first shard for valid and test\n            paths = paths[:1]\n        data_path = paths[(epoch - 1) % len(paths)]\n\n        # infer langcode\n        src, tgt = self.cfg.source_lang, self.cfg.target_lang\n\n        self.datasets[split] = load_langpair_dataset(\n            data_path,\n            split,\n            src,\n            self.src_dict,\n            tgt,\n            self.tgt_dict,\n            combine=combine,\n            dataset_impl=self.cfg.dataset_impl,\n            upsample_primary=self.cfg.upsample_primary,\n            left_pad_source=self.cfg.left_pad_source,\n            left_pad_target=self.cfg.left_pad_target,\n            max_source_positions=self.cfg.max_source_positions,\n            max_target_positions=self.cfg.max_target_positions,\n            load_alignments=self.cfg.load_alignments,\n            truncate_source=self.cfg.truncate_source,\n            num_buckets=self.cfg.num_batch_buckets,\n            shuffle=(split != \"test\"),\n            pad_to_multiple=self.cfg.required_seq_len_multiple,\n        )\n\n    def build_dataset_for_inference(self, src_tokens, src_lengths, constraints=None):\n        return LanguagePairDataset(\n            src_tokens,\n            src_lengths,\n            self.source_dictionary,\n            tgt_dict=self.target_dictionary,\n            constraints=constraints,\n        )\n\n    def build_model(self, cfg, from_checkpoint=False):\n        model = super().build_model(cfg, from_checkpoint)\n        if self.cfg.eval_bleu:\n            detok_args = json.loads(self.cfg.eval_bleu_detok_args)\n            self.tokenizer = encoders.build_tokenizer(\n                Namespace(tokenizer=self.cfg.eval_bleu_detok, **detok_args)\n            )\n\n            gen_args = json.loads(self.cfg.eval_bleu_args)\n            self.sequence_generator = self.build_generator(\n                [model], Namespace(**gen_args)\n            )\n        return model\n\n    def valid_step(self, sample, model, criterion):\n        loss, sample_size, logging_output = super().valid_step(sample, model, criterion)\n        if self.cfg.eval_bleu:\n            bleu = self._inference_with_bleu(self.sequence_generator, sample, model)\n            logging_output[\"_bleu_sys_len\"] = bleu.sys_len\n            logging_output[\"_bleu_ref_len\"] = bleu.ref_len\n            # we split counts into separate entries so that they can be\n            # summed efficiently across workers using fast-stat-sync\n            assert len(bleu.counts) == EVAL_BLEU_ORDER\n            for i in range(EVAL_BLEU_ORDER):\n                logging_output[\"_bleu_counts_\" + str(i)] = bleu.counts[i]\n                logging_output[\"_bleu_totals_\" + str(i)] = bleu.totals[i]\n        return loss, sample_size, logging_output\n\n    def reduce_metrics(self, logging_outputs, criterion):\n        super().reduce_metrics(logging_outputs, criterion)\n        if self.cfg.eval_bleu:\n\n            def sum_logs(key):\n                import torch\n\n                result = sum(log.get(key, 0) for log in logging_outputs)\n                if torch.is_tensor(result):\n                    result = result.cpu()\n                return result\n\n            counts, totals = [], []\n            for i in range(EVAL_BLEU_ORDER):\n                counts.append(sum_logs(\"_bleu_counts_\" + str(i)))\n                totals.append(sum_logs(\"_bleu_totals_\" + str(i)))\n\n            if max(totals) > 0:\n                # log counts as numpy arrays -- log_scalar will sum them correctly\n                metrics.log_scalar(\"_bleu_counts\", np.array(counts))\n                metrics.log_scalar(\"_bleu_totals\", np.array(totals))\n                metrics.log_scalar(\"_bleu_sys_len\", sum_logs(\"_bleu_sys_len\"))\n                metrics.log_scalar(\"_bleu_ref_len\", sum_logs(\"_bleu_ref_len\"))\n\n                def compute_bleu(meters):\n                    import inspect\n\n                    try:\n                        from sacrebleu.metrics import BLEU\n\n                        comp_bleu = BLEU.compute_bleu\n                    except ImportError:\n                        # compatibility API for sacrebleu 1.x\n                        import sacrebleu\n\n                        comp_bleu = sacrebleu.compute_bleu\n\n                    fn_sig = inspect.getfullargspec(comp_bleu)[0]\n                    if \"smooth_method\" in fn_sig:\n                        smooth = {\"smooth_method\": \"exp\"}\n                    else:\n                        smooth = {\"smooth\": \"exp\"}\n                    bleu = comp_bleu(\n                        correct=meters[\"_bleu_counts\"].sum,\n                        total=meters[\"_bleu_totals\"].sum,\n                        sys_len=int(meters[\"_bleu_sys_len\"].sum),\n                        ref_len=int(meters[\"_bleu_ref_len\"].sum),\n                        **smooth,\n                    )\n                    return round(bleu.score, 2)\n\n                metrics.log_derived(\"bleu\", compute_bleu)\n\n    def max_positions(self):\n        \"\"\"Return the max sentence length allowed by the task.\"\"\"\n        return (self.cfg.max_source_positions, self.cfg.max_target_positions)\n\n    @property\n    def source_dictionary(self):\n        \"\"\"Return the source :class:`~fairseq.data.Dictionary`.\"\"\"\n        return self.src_dict\n\n    @property\n    def target_dictionary(self):\n        \"\"\"Return the target :class:`~fairseq.data.Dictionary`.\"\"\"\n        return self.tgt_dict\n\n    def _inference_with_bleu(self, generator, sample, model):\n        import sacrebleu\n\n        def decode(toks, escape_unk=False):\n            s = self.tgt_dict.string(\n                toks.int().cpu(),\n                self.cfg.eval_bleu_remove_bpe,\n                # The default unknown string in fairseq is `<unk>`, but\n                # this is tokenized by sacrebleu as `< unk >`, inflating\n                # BLEU scores. Instead, we use a somewhat more verbose\n                # alternative that is unlikely to appear in the real\n                # reference, but doesn't get split into multiple tokens.\n                unk_string=(\"UNKNOWNTOKENINREF\" if escape_unk else \"UNKNOWNTOKENINHYP\"),\n            )\n            if self.tokenizer:\n                s = self.tokenizer.decode(s)\n            return s\n\n        gen_out = self.inference_step(generator, [model], sample, prefix_tokens=None)\n        hyps, refs = [], []\n        for i in range(len(gen_out)):\n            hyps.append(decode(gen_out[i][0][\"tokens\"]))\n            refs.append(\n                decode(\n                    utils.strip_pad(sample[\"target\"][i], self.tgt_dict.pad()),\n                    escape_unk=True,  # don't count <unk> as matches to the hypo\n                )\n            )\n        if self.cfg.eval_bleu_print_samples:\n            logger.info(\"example hypothesis: \" + hyps[0])\n            logger.info(\"example reference: \" + refs[0])\n        if self.cfg.eval_tokenized_bleu:\n            return sacrebleu.corpus_bleu(hyps, [refs], tokenize=\"none\")\n        else:\n            return sacrebleu.corpus_bleu(hyps, [refs])\n"
  },
  {
    "path": "fairseq/tasks/translation_from_pretrained_bart.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport torch\nfrom fairseq import utils\nfrom fairseq.data import LanguagePairDataset\n\nfrom . import register_task\nfrom .translation import TranslationTask, load_langpair_dataset\n\n\n@register_task(\"translation_from_pretrained_bart\")\nclass TranslationFromPretrainedBARTTask(TranslationTask):\n    \"\"\"\n    Translate from source language to target language with a model initialized with a multilingual pretrain.\n\n    Args:\n        src_dict (~fairseq.data.Dictionary): dictionary for the source language\n        tgt_dict (~fairseq.data.Dictionary): dictionary for the target language\n\n    .. note::\n\n        The translation task is compatible with :mod:`fairseq-train`,\n        :mod:`fairseq-generate` and :mod:`fairseq-interactive`.\n\n    The translation task provides the following additional command-line\n    arguments:\n\n    .. argparse::\n        :ref: fairseq.tasks.translation_parser\n        :prog:\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        # fmt: off\n        TranslationTask.add_args(parser)\n        parser.add_argument('--langs',  type=str, metavar='LANG',\n                            help='comma-separated list of monolingual language, '\n                                 'for example, \"en,de,fr\". These should match the '\n                                 'langs from pretraining (and be in the same order). '\n                                 'You should always add all pretraining language idx '\n                                 'during finetuning.')\n        parser.add_argument('--prepend-bos', action='store_true',\n                            help='prepend bos token to each sentence, which matches '\n                                 'mBART pretraining')\n        # fmt: on\n\n    def __init__(self, args, src_dict, tgt_dict):\n        super().__init__(args, src_dict, tgt_dict)\n        self.langs = args.langs.split(\",\")\n        for d in [src_dict, tgt_dict]:\n            for l in self.langs:\n                d.add_symbol(\"[{}]\".format(l))\n            d.add_symbol(\"<mask>\")\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        paths = utils.split_paths(self.args.data)\n        assert len(paths) > 0\n        data_path = paths[(epoch - 1) % len(paths)]\n\n        # infer langcode\n        src, tgt = self.args.source_lang, self.args.target_lang\n\n        self.datasets[split] = load_langpair_dataset(\n            data_path,\n            split,\n            src,\n            self.src_dict,\n            tgt,\n            self.tgt_dict,\n            combine=combine,\n            dataset_impl=self.args.dataset_impl,\n            upsample_primary=self.args.upsample_primary,\n            left_pad_source=self.args.left_pad_source,\n            left_pad_target=self.args.left_pad_target,\n            max_source_positions=getattr(self.args, \"max_source_positions\", 1024),\n            max_target_positions=getattr(self.args, \"max_target_positions\", 1024),\n            load_alignments=self.args.load_alignments,\n            prepend_bos=getattr(self.args, \"prepend_bos\", False),\n            append_source_id=True,\n        )\n\n    def build_generator(self, models, args, **unused):\n        if getattr(args, \"score_reference\", False):\n            from fairseq.sequence_scorer import SequenceScorer\n\n            return SequenceScorer(\n                self.target_dictionary,\n                eos=self.tgt_dict.index(\"[{}]\".format(self.args.target_lang)),\n            )\n        else:\n            from fairseq.sequence_generator import SequenceGenerator\n\n            return SequenceGenerator(\n                models,\n                self.target_dictionary,\n                beam_size=getattr(args, \"beam\", 5),\n                max_len_a=getattr(args, \"max_len_a\", 0),\n                max_len_b=getattr(args, \"max_len_b\", 200),\n                min_len=getattr(args, \"min_len\", 1),\n                normalize_scores=(not getattr(args, \"unnormalized\", False)),\n                len_penalty=getattr(args, \"lenpen\", 1),\n                unk_penalty=getattr(args, \"unkpen\", 0),\n                temperature=getattr(args, \"temperature\", 1.0),\n                match_source_len=getattr(args, \"match_source_len\", False),\n                no_repeat_ngram_size=getattr(args, \"no_repeat_ngram_size\", 0),\n                eos=self.tgt_dict.index(\"[{}]\".format(self.args.target_lang)),\n            )\n\n    def build_dataset_for_inference(self, src_tokens, src_lengths, constraints=None):\n        src_lang_id = self.source_dictionary.index(\"[{}]\".format(self.args.source_lang))\n        source_tokens = []\n        for s_t in src_tokens:\n            s_t = torch.cat([s_t, s_t.new(1).fill_(src_lang_id)])\n            source_tokens.append(s_t)\n        dataset = LanguagePairDataset(\n            source_tokens,\n            src_lengths,\n            self.source_dictionary,\n            tgt_dict=self.target_dictionary,\n            constraints=constraints,\n        )\n        return dataset\n"
  },
  {
    "path": "fairseq/tasks/translation_from_pretrained_xlm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass\nfrom fairseq.data.legacy.masked_lm_dictionary import MaskedLMDictionary\nfrom fairseq.tasks.translation import TranslationConfig, TranslationTask\n\nfrom . import register_task\n\n\n@dataclass\nclass TranslationFromPretrainedXLMConfig(TranslationConfig):\n    pass\n\n\n@register_task(\n    \"translation_from_pretrained_xlm\", dataclass=TranslationFromPretrainedXLMConfig\n)\nclass TranslationFromPretrainedXLMTask(TranslationTask):\n    \"\"\"\n    Same as TranslationTask except use the MaskedLMDictionary class so that\n    we can load data that was binarized with the MaskedLMDictionary class.\n\n    This task should be used for the entire training pipeline when we want to\n    train an NMT model from a pretrained XLM checkpoint: binarizing NMT data,\n    training NMT with the pretrained XLM checkpoint, and subsequent evaluation\n    of that trained model.\n    \"\"\"\n\n    @classmethod\n    def load_dictionary(cls, filename):\n        \"\"\"Load the masked LM dictionary from the filename\n\n        Args:\n            filename (str): the filename\n        \"\"\"\n        return MaskedLMDictionary.load(filename)\n"
  },
  {
    "path": "fairseq/tasks/translation_lev.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom dataclasses import dataclass, field\nimport torch\nfrom fairseq import utils\nfrom fairseq.data import LanguagePairDataset\nfrom fairseq.dataclass import ChoiceEnum\nfrom fairseq.tasks import register_task\nfrom fairseq.tasks.translation import (\n    TranslationConfig,\n    TranslationTask,\n    load_langpair_dataset,\n)\nfrom fairseq.utils import new_arange\n\n\nNOISE_CHOICES = ChoiceEnum([\"random_delete\", \"random_mask\", \"no_noise\", \"full_mask\"])\n\n\n@dataclass\nclass TranslationLevenshteinConfig(TranslationConfig):\n    noise: NOISE_CHOICES = field(\n        default=\"random_delete\",\n        metadata={\"help\": \"type of noise\"},\n    )\n\n\n@register_task(\"translation_lev\", dataclass=TranslationLevenshteinConfig)\nclass TranslationLevenshteinTask(TranslationTask):\n    \"\"\"\n    Translation (Sequence Generation) task for Levenshtein Transformer\n    See `\"Levenshtein Transformer\" <https://arxiv.org/abs/1905.11006>`_.\n    \"\"\"\n\n    cfg: TranslationLevenshteinConfig\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        paths = utils.split_paths(self.cfg.data)\n        assert len(paths) > 0\n        data_path = paths[(epoch - 1) % len(paths)]\n\n        # infer langcode\n        src, tgt = self.cfg.source_lang, self.cfg.target_lang\n\n        self.datasets[split] = load_langpair_dataset(\n            data_path,\n            split,\n            src,\n            self.src_dict,\n            tgt,\n            self.tgt_dict,\n            combine=combine,\n            dataset_impl=self.cfg.dataset_impl,\n            upsample_primary=self.cfg.upsample_primary,\n            left_pad_source=self.cfg.left_pad_source,\n            left_pad_target=self.cfg.left_pad_target,\n            max_source_positions=self.cfg.max_source_positions,\n            max_target_positions=self.cfg.max_target_positions,\n            prepend_bos=True,\n        )\n\n    def inject_noise(self, target_tokens):\n        def _random_delete(target_tokens):\n            pad = self.tgt_dict.pad()\n            bos = self.tgt_dict.bos()\n            eos = self.tgt_dict.eos()\n\n            max_len = target_tokens.size(1)\n            target_mask = target_tokens.eq(pad)\n            target_score = target_tokens.clone().float().uniform_()\n            target_score.masked_fill_(\n                target_tokens.eq(bos) | target_tokens.eq(eos), 0.0\n            )\n            target_score.masked_fill_(target_mask, 1)\n            target_score, target_rank = target_score.sort(1)\n            target_length = target_mask.size(1) - target_mask.float().sum(\n                1, keepdim=True\n            )\n\n            # do not delete <bos> and <eos> (we assign 0 score for them)\n            target_cutoff = (\n                2\n                + (\n                    (target_length - 2)\n                    * target_score.new_zeros(target_score.size(0), 1).uniform_()\n                ).long()\n            )\n            target_cutoff = target_score.sort(1)[1] >= target_cutoff\n\n            prev_target_tokens = (\n                target_tokens.gather(1, target_rank)\n                .masked_fill_(target_cutoff, pad)\n                .gather(1, target_rank.masked_fill_(target_cutoff, max_len).sort(1)[1])\n            )\n            prev_target_tokens = prev_target_tokens[\n                :, : prev_target_tokens.ne(pad).sum(1).max()\n            ]\n\n            return prev_target_tokens\n\n        def _random_mask(target_tokens):\n            pad = self.tgt_dict.pad()\n            bos = self.tgt_dict.bos()\n            eos = self.tgt_dict.eos()\n            unk = self.tgt_dict.unk()\n\n            target_masks = (\n                target_tokens.ne(pad) & target_tokens.ne(bos) & target_tokens.ne(eos)\n            )\n            target_score = target_tokens.clone().float().uniform_()\n            target_score.masked_fill_(~target_masks, 2.0)\n            target_length = target_masks.sum(1).float()\n            target_length = target_length * target_length.clone().uniform_()\n            target_length = target_length + 1  # make sure to mask at least one token.\n\n            _, target_rank = target_score.sort(1)\n            target_cutoff = new_arange(target_rank) < target_length[:, None].long()\n            prev_target_tokens = target_tokens.masked_fill(\n                target_cutoff.scatter(1, target_rank, target_cutoff), unk\n            )\n            return prev_target_tokens\n\n        def _full_mask(target_tokens):\n            pad = self.tgt_dict.pad()\n            bos = self.tgt_dict.bos()\n            eos = self.tgt_dict.eos()\n            unk = self.tgt_dict.unk()\n\n            target_mask = (\n                target_tokens.eq(bos) | target_tokens.eq(eos) | target_tokens.eq(pad)\n            )\n            return target_tokens.masked_fill(~target_mask, unk)\n\n        if self.cfg.noise == \"random_delete\":\n            return _random_delete(target_tokens)\n        elif self.cfg.noise == \"random_mask\":\n            return _random_mask(target_tokens)\n        elif self.cfg.noise == \"full_mask\":\n            return _full_mask(target_tokens)\n        elif self.cfg.noise == \"no_noise\":\n            return target_tokens\n        else:\n            raise NotImplementedError\n\n    def build_generator(self, models, args, **unused):\n        # add models input to match the API for SequenceGenerator\n        from fairseq.iterative_refinement_generator import IterativeRefinementGenerator\n\n        return IterativeRefinementGenerator(\n            self.target_dictionary,\n            eos_penalty=getattr(args, \"iter_decode_eos_penalty\", 0.0),\n            max_iter=getattr(args, \"iter_decode_max_iter\", 10),\n            beam_size=getattr(args, \"iter_decode_with_beam\", 1),\n            reranking=getattr(args, \"iter_decode_with_external_reranker\", False),\n            decoding_format=getattr(args, \"decoding_format\", None),\n            adaptive=not getattr(args, \"iter_decode_force_max_iter\", False),\n            retain_history=getattr(args, \"retain_iter_history\", False),\n        )\n\n    def build_dataset_for_inference(self, src_tokens, src_lengths, constraints=None):\n        if constraints is not None:\n            # Though see Susanto et al. (ACL 2020): https://www.aclweb.org/anthology/2020.acl-main.325/\n            raise NotImplementedError(\n                \"Constrained decoding with the translation_lev task is not supported\"\n            )\n\n        return LanguagePairDataset(\n            src_tokens, src_lengths, self.source_dictionary, append_bos=True\n        )\n\n    def train_step(\n        self, sample, model, criterion, optimizer, update_num, ignore_grad=False\n    ):\n        model.train()\n        sample[\"prev_target\"] = self.inject_noise(sample[\"target\"])\n        loss, sample_size, logging_output = criterion(model, sample)\n        if ignore_grad:\n            loss *= 0\n        optimizer.backward(loss)\n        return loss, sample_size, logging_output\n\n    def valid_step(self, sample, model, criterion):\n        model.eval()\n        with torch.no_grad():\n            sample[\"prev_target\"] = self.inject_noise(sample[\"target\"])\n            loss, sample_size, logging_output = criterion(model, sample)\n        return loss, sample_size, logging_output\n"
  },
  {
    "path": "fairseq/tasks/translation_multi_simple_epoch.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport datetime\nimport logging\nimport time\n\nimport torch\nfrom fairseq.data import (\n    FairseqDataset,\n    LanguagePairDataset,\n    ListDataset,\n    data_utils,\n    iterators,\n)\nfrom fairseq.data.multilingual.multilingual_data_manager import (\n    MultilingualDatasetManager,\n)\nfrom fairseq.data.multilingual.sampling_method import SamplingMethod\nfrom fairseq.tasks import LegacyFairseqTask, register_task\nfrom fairseq.utils import FileContentsAction\n\n\n###\ndef get_time_gap(s, e):\n    return (\n        datetime.datetime.fromtimestamp(e) - datetime.datetime.fromtimestamp(s)\n    ).__str__()\n\n\n###\n\n\nlogger = logging.getLogger(__name__)\n\n\n@register_task(\"translation_multi_simple_epoch\")\nclass TranslationMultiSimpleEpochTask(LegacyFairseqTask):\n    \"\"\"\n    Translate from one (source) language to another (target) language.\n\n    Args:\n        langs (List[str]): a list of languages that are being supported\n        dicts (Dict[str, fairseq.data.Dictionary]): mapping from supported languages to their dictionaries\n        training (bool): whether the task should be configured for training or not\n\n    .. note::\n\n        The translation task is compatible with :mod:`fairseq-train`,\n        :mod:`fairseq-generate` and :mod:`fairseq-interactive`.\n\n    The translation task provides the following additional command-line\n    arguments:\n\n    .. argparse::\n        :ref: fairseq.tasks.translation_parser\n        :prog:\n    \"\"\"\n\n    @staticmethod\n    def add_args(parser):\n        \"\"\"Add task-specific arguments to the parser.\"\"\"\n        # fmt: off\n        parser.add_argument('-s', '--source-lang', default=None, metavar='SRC',\n                            help='inference source language')\n        parser.add_argument('-t', '--target-lang', default=None, metavar='TARGET',\n                            help='inference target language')\n        parser.add_argument('--lang-pairs', default=None, metavar='PAIRS',\n                            help='comma-separated list of language pairs (in training order): en-de,en-fr,de-fr',\n                            action=FileContentsAction)\n        parser.add_argument('--keep-inference-langtok', action='store_true',\n                            help='keep language tokens in inference output (e.g. for analysis or debugging)')\n\n        SamplingMethod.add_arguments(parser)\n        MultilingualDatasetManager.add_args(parser)\n        # fmt: on\n\n    def __init__(self, args, langs, dicts, training):\n        super().__init__(args)\n        self.langs = langs\n        self.dicts = dicts\n        self.training = training\n        if training:\n            self.lang_pairs = args.lang_pairs\n        else:\n            self.lang_pairs = [\"{}-{}\".format(args.source_lang, args.target_lang)]\n        # eval_lang_pairs for multilingual translation is usually all of the\n        # lang_pairs. However for other multitask settings or when we want to\n        # optimize for certain languages we want to use a different subset. Thus\n        # the eval_lang_pairs class variable is provided for classes that extend\n        # this class.\n        self.eval_lang_pairs = self.lang_pairs\n        # model_lang_pairs will be used to build encoder-decoder model pairs in\n        # models.build_model(). This allows multitask type of sub-class can\n        # build models other than the input lang_pairs\n        self.model_lang_pairs = self.lang_pairs\n        self.source_langs = [d.split(\"-\")[0] for d in self.lang_pairs]\n        self.target_langs = [d.split(\"-\")[1] for d in self.lang_pairs]\n        self.check_dicts(self.dicts, self.source_langs, self.target_langs)\n\n        self.sampling_method = SamplingMethod.build_sampler(args, self)\n        self.data_manager = MultilingualDatasetManager.setup_data_manager(\n            args, self.lang_pairs, langs, dicts, self.sampling_method\n        )\n\n    def check_dicts(self, dicts, source_langs, target_langs):\n        if self.args.source_dict is not None or self.args.target_dict is not None:\n            # no need to check whether the source side and target side are sharing dictionaries\n            return\n        src_dict = dicts[source_langs[0]]\n        tgt_dict = dicts[target_langs[0]]\n        for src_lang in source_langs:\n            assert (\n                src_dict == dicts[src_lang]\n            ), \"Diffrent dictionary are specified for different source languages; \"\n            \"TranslationMultiSimpleEpochTask only supports one shared dictionary across all source languages\"\n        for tgt_lang in target_langs:\n            assert (\n                tgt_dict == dicts[tgt_lang]\n            ), \"Diffrent dictionary are specified for different target languages; \"\n            \"TranslationMultiSimpleEpochTask only supports one shared dictionary across all target languages\"\n\n    @classmethod\n    def setup_task(cls, args, **kwargs):\n        langs, dicts, training = MultilingualDatasetManager.prepare(\n            cls.load_dictionary, args, **kwargs\n        )\n        return cls(args, langs, dicts, training)\n\n    def has_sharded_data(self, split):\n        return self.data_manager.has_sharded_data(split)\n\n    def load_dataset(self, split, epoch=1, combine=False, **kwargs):\n        \"\"\"Load a given dataset split.\n\n        Args:\n            split (str): name of the split (e.g., train, valid, test)\n        \"\"\"\n        if split in self.datasets:\n            dataset = self.datasets[split]\n            if self.has_sharded_data(split):\n                if self.args.virtual_epoch_size is not None:\n                    if dataset.load_next_shard:\n                        shard_epoch = dataset.shard_epoch\n                    else:\n                        # no need to load next shard so skip loading\n                        # also this avoid always loading from beginning of the data\n                        return\n                else:\n                    shard_epoch = epoch\n        else:\n            # estimate the shard epoch from virtual data size and virtual epoch size\n            shard_epoch = self.data_manager.estimate_global_pass_epoch(epoch)\n        logger.info(f\"loading data for {split} epoch={epoch}/{shard_epoch}\")\n        logger.info(f\"mem usage: {data_utils.get_mem_usage()}\")\n        if split in self.datasets:\n            del self.datasets[split]\n            logger.info(\"old dataset deleted manually\")\n            logger.info(f\"mem usage: {data_utils.get_mem_usage()}\")\n        self.datasets[split] = self.data_manager.load_dataset(\n            split,\n            self.training,\n            epoch=epoch,\n            combine=combine,\n            shard_epoch=shard_epoch,\n            **kwargs,\n        )\n\n    def build_dataset_for_inference(self, src_tokens, src_lengths, constraints=None):\n        if constraints is not None:\n            raise NotImplementedError(\n                \"Constrained decoding with the multilingual_translation task is not supported\"\n            )\n\n        src_data = ListDataset(src_tokens, src_lengths)\n        dataset = LanguagePairDataset(src_data, src_lengths, self.source_dictionary)\n        src_langtok_spec, tgt_langtok_spec = self.args.langtoks[\"main\"]\n        if self.args.lang_tok_replacing_bos_eos:\n            dataset = self.data_manager.alter_dataset_langtok(\n                dataset,\n                src_eos=self.source_dictionary.eos(),\n                src_lang=self.args.source_lang,\n                tgt_eos=self.target_dictionary.eos(),\n                tgt_lang=self.args.target_lang,\n                src_langtok_spec=src_langtok_spec,\n                tgt_langtok_spec=tgt_langtok_spec,\n            )\n        else:\n            dataset.src = self.data_manager.src_dataset_tranform_func(\n                self.args.source_lang,\n                self.args.target_lang,\n                dataset=dataset.src,\n                spec=src_langtok_spec,\n            )\n        return dataset\n\n    def build_generator(\n        self,\n        models,\n        args,\n        seq_gen_cls=None,\n        extra_gen_cls_kwargs=None,\n    ):\n        if not getattr(args, \"keep_inference_langtok\", False):\n            _, tgt_langtok_spec = self.args.langtoks[\"main\"]\n            if tgt_langtok_spec:\n                tgt_lang_tok = self.data_manager.get_decoder_langtok(\n                    self.args.target_lang, tgt_langtok_spec\n                )\n                extra_gen_cls_kwargs = extra_gen_cls_kwargs or {}\n                extra_gen_cls_kwargs[\"symbols_to_strip_from_output\"] = {tgt_lang_tok}\n\n        return super().build_generator(\n            models, args, seq_gen_cls=None, extra_gen_cls_kwargs=extra_gen_cls_kwargs\n        )\n\n    def build_model(self, args, from_checkpoint=False):\n        return super().build_model(args, from_checkpoint)\n\n    def valid_step(self, sample, model, criterion):\n        loss, sample_size, logging_output = super().valid_step(sample, model, criterion)\n        return loss, sample_size, logging_output\n\n    def inference_step(\n        self, generator, models, sample, prefix_tokens=None, constraints=None\n    ):\n        with torch.no_grad():\n            _, tgt_langtok_spec = self.args.langtoks[\"main\"]\n            if not self.args.lang_tok_replacing_bos_eos:\n                if prefix_tokens is None and tgt_langtok_spec:\n                    tgt_lang_tok = self.data_manager.get_decoder_langtok(\n                        self.args.target_lang, tgt_langtok_spec\n                    )\n                    src_tokens = sample[\"net_input\"][\"src_tokens\"]\n                    bsz = src_tokens.size(0)\n                    prefix_tokens = (\n                        torch.LongTensor([[tgt_lang_tok]]).expand(bsz, 1).to(src_tokens)\n                    )\n                return generator.generate(\n                    models,\n                    sample,\n                    prefix_tokens=prefix_tokens,\n                    constraints=constraints,\n                )\n            else:\n                return generator.generate(\n                    models,\n                    sample,\n                    prefix_tokens=prefix_tokens,\n                    bos_token=self.data_manager.get_decoder_langtok(\n                        self.args.target_lang, tgt_langtok_spec\n                    )\n                    if tgt_langtok_spec\n                    else self.target_dictionary.eos(),\n                )\n\n    def reduce_metrics(self, logging_outputs, criterion):\n        super().reduce_metrics(logging_outputs, criterion)\n\n    def max_positions(self):\n        \"\"\"Return the max sentence length allowed by the task.\"\"\"\n        return (self.args.max_source_positions, self.args.max_target_positions)\n\n    @property\n    def source_dictionary(self):\n        return self.data_manager.get_source_dictionary(self.source_langs[0])\n\n    @property\n    def target_dictionary(self):\n        return self.data_manager.get_target_dictionary(self.target_langs[0])\n\n    def create_batch_sampler_func(\n        self,\n        max_positions,\n        ignore_invalid_inputs,\n        max_tokens,\n        max_sentences,\n        required_batch_size_multiple=1,\n        seed=1,\n    ):\n        def construct_batch_sampler(dataset, epoch):\n            splits = [\n                s for s, _ in self.datasets.items() if self.datasets[s] == dataset\n            ]\n            split = splits[0] if len(splits) > 0 else None\n            # NEW implementation\n            if epoch is not None:\n                # initialize the dataset with the correct starting epoch\n                dataset.set_epoch(epoch)\n\n            # get indices ordered by example size\n            start_time = time.time()\n            logger.info(f\"start batch sampler: mem usage: {data_utils.get_mem_usage()}\")\n\n            with data_utils.numpy_seed(seed):\n                indices = dataset.ordered_indices()\n            logger.info(\n                f\"[{split}] @batch_sampler order indices time: {get_time_gap(start_time, time.time())}\"\n            )\n            logger.info(f\"mem usage: {data_utils.get_mem_usage()}\")\n\n            # filter examples that are too large\n            if max_positions is not None:\n                my_time = time.time()\n                indices = self.filter_indices_by_size(\n                    indices, dataset, max_positions, ignore_invalid_inputs\n                )\n                logger.info(\n                    f\"[{split}] @batch_sampler filter_by_size time: {get_time_gap(my_time, time.time())}\"\n                )\n                logger.info(f\"mem usage: {data_utils.get_mem_usage()}\")\n\n            # create mini-batches with given size constraints\n            my_time = time.time()\n            batch_sampler = dataset.batch_by_size(\n                indices,\n                max_tokens=max_tokens,\n                max_sentences=max_sentences,\n                required_batch_size_multiple=required_batch_size_multiple,\n            )\n\n            logger.info(\n                f\"[{split}] @batch_sampler batch_by_size time: {get_time_gap(my_time, time.time())}\"\n            )\n            logger.info(\n                f\"[{split}] per epoch batch_sampler set-up time: {get_time_gap(start_time, time.time())}\"\n            )\n            logger.info(f\"mem usage: {data_utils.get_mem_usage()}\")\n\n            return batch_sampler\n\n        return construct_batch_sampler\n\n    # we need to override get_batch_iterator because we want to reset the epoch iterator each time\n    def get_batch_iterator(\n        self,\n        dataset,\n        max_tokens=None,\n        max_sentences=None,\n        max_positions=None,\n        ignore_invalid_inputs=False,\n        required_batch_size_multiple=1,\n        seed=1,\n        num_shards=1,\n        shard_id=0,\n        num_workers=0,\n        epoch=1,\n        data_buffer_size=0,\n        disable_iterator_cache=False,\n        skip_remainder_batch=False,\n        grouped_shuffling=False,\n        update_epoch_batch_itr=False,\n    ):\n        \"\"\"\n        Get an iterator that yields batches of data from the given dataset.\n\n        Args:\n            dataset (~fairseq.data.FairseqDataset): dataset to batch\n            max_tokens (int, optional): max number of tokens in each batch\n                (default: None).\n            max_sentences (int, optional): max number of sentences in each\n                batch (default: None).\n            max_positions (optional): max sentence length supported by the\n                model (default: None).\n            ignore_invalid_inputs (bool, optional): don't raise Exception for\n                sentences that are too long (default: False).\n            required_batch_size_multiple (int, optional): require batch size to\n                be a multiple of N (default: 1).\n            seed (int, optional): seed for random number generator for\n                reproducibility (default: 1).\n            num_shards (int, optional): shard the data iterator into N\n                shards (default: 1).\n            shard_id (int, optional): which shard of the data iterator to\n                return (default: 0).\n            num_workers (int, optional): how many subprocesses to use for data\n                loading. 0 means the data will be loaded in the main process\n                (default: 0).\n            epoch (int, optional): the epoch to start the iterator from\n                (default: 0).\n            data_buffer_size (int, optional): number of batches to\n                preload (default: 0).\n            disable_iterator_cache (bool, optional): don't cache the\n                EpochBatchIterator (ignores `FairseqTask::can_reuse_epoch_itr`)\n                (default: False).\n            grouped_shuffling (bool, optional): group batches with each groups\n                containing num_shards batches and shuffle groups. Reduces difference\n                between sequence lengths among workers for batches sorted by length.\n            update_epoch_batch_itr (bool optional): if true then donot use the cached\n                batch iterator for the epoch\n\n        Returns:\n            ~fairseq.iterators.EpochBatchIterator: a batched iterator over the\n                given dataset split\n        \"\"\"\n        # initialize the dataset with the correct starting epoch\n        assert isinstance(dataset, FairseqDataset)\n        if dataset in self.dataset_to_epoch_iter:\n            return self.dataset_to_epoch_iter[dataset]\n        if self.args.sampling_method == \"RoundRobin\":\n            batch_iter = super().get_batch_iterator(\n                dataset,\n                max_tokens=max_tokens,\n                max_sentences=max_sentences,\n                max_positions=max_positions,\n                ignore_invalid_inputs=ignore_invalid_inputs,\n                required_batch_size_multiple=required_batch_size_multiple,\n                seed=seed,\n                num_shards=num_shards,\n                shard_id=shard_id,\n                num_workers=num_workers,\n                epoch=epoch,\n                data_buffer_size=data_buffer_size,\n                disable_iterator_cache=disable_iterator_cache,\n                skip_remainder_batch=skip_remainder_batch,\n                update_epoch_batch_itr=update_epoch_batch_itr,\n            )\n            self.dataset_to_epoch_iter[dataset] = batch_iter\n            return batch_iter\n\n        construct_batch_sampler = self.create_batch_sampler_func(\n            max_positions,\n            ignore_invalid_inputs,\n            max_tokens,\n            max_sentences,\n            required_batch_size_multiple=required_batch_size_multiple,\n            seed=seed,\n        )\n\n        epoch_iter = iterators.EpochBatchIterator(\n            dataset=dataset,\n            collate_fn=dataset.collater,\n            batch_sampler=construct_batch_sampler,\n            seed=seed,\n            num_shards=num_shards,\n            shard_id=shard_id,\n            num_workers=num_workers,\n            epoch=epoch,\n        )\n        return epoch_iter\n"
  },
  {
    "path": "fairseq/token_generation_constraints.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"Implements tracking of constraints for a beam item.\n\nA list of constraints is given as a list of one or more token\nsequences, each of length at least one token. For example, for an input sentence\n\n> Die maschinelle Übersetzung ist schwer zu kontrollieren.\n\nWe could have the constraints:\n* to influence\n* hard\n\nThere are two implementations:\n* OrderedConstraintState: Tracks progress through an ordered list of multitoken constraints.\n* UnorderedConstraintState: Tracks progress through an unordered list of multitoken constraints.\n\nThe difference is that in the first, the constraints are assumed to be\nin order; the algorithm will permit zero or more tokens between them.\nIn the second, the constraints are not ordered, so many orderings will\nbe explored.\n\nThe same sequence can be present any number of times, and will appear\nthat many times in the output.\n\"\"\"\n\nfrom collections import Counter\nfrom typing import List, Optional, Set, Tuple\n\nimport torch\n\n\nclass ConstraintState:\n    def __init__(self):\n        pass\n\n\ndef pack_constraints(batch_constraints: List[List[torch.Tensor]]) -> torch.Tensor:\n    \"\"\"Takes a list of list of constraints in tensor form (a list of\n    tensor constraints for each sentence) and transforms it into a\n    packed Tensor. For example, here is a batch of size 3 with 3, 0,\n    and 1 constraints:\n\n        [ [ [3 1 2], [3], [4 5 6 7], ]\n          [],\n          [ [1 8 9 10 1 4 11 12], ]\n        ]\n\n    Its corresponding packed structure is:\n\n        [ [ 3  3  1  2  0  3  0  4  5  6  7  0],\n          [ 0  0  0  0  0  0  0  0  0  0  0  0],\n          [ 1  1  8  9 10  1  4 11 12  0  0  0] ]\n\n    The packed tensor has shape (batch size, maxlen), where\n    maxlen is defined below. Each row contains concatenated\n    constraint tokens for that sentence, with 0 appended after\n    each constraint. The first item in each row is the number\n    of constraints for that sentence. So maxlen is the maximum\n    of\n\n    (number of constraints) + (sum length of constraints) + 1.\n\n    across all sentences in the batch.\n    \"\"\"\n    # The maximum word length of concatenated constraints for any sentence\n    max_constraints_len = 1\n    for sentence_constraints in batch_constraints:\n        if len(sentence_constraints):\n            # number of constraints, plus sum of constrain lens, plus a zero after each\n            constraints_len = (\n                1\n                + sum([c.size(0) for c in sentence_constraints])\n                + len(sentence_constraints)\n            )\n            max_constraints_len = max(max_constraints_len, constraints_len)\n\n    batch_size = len(batch_constraints)\n    constraints_tensor = torch.zeros((batch_size, max_constraints_len)).long()\n    for i, sentence_constraints in enumerate(batch_constraints):\n        constraints_tensor[i, 0] = len(sentence_constraints)\n        offset = 1\n        for j, constraint in enumerate(sentence_constraints):\n            this_len = constraint.size(0)\n            constraints_tensor[i, offset : offset + this_len] = constraint\n            offset += this_len + 1\n\n    return constraints_tensor.long()\n\n\ndef unpack_constraints(constraint_tensor: torch.Tensor) -> List[torch.Tensor]:\n    \"\"\"\n    Transforms *one row* of a packed constraint tensor (e.g., for one\n    sentence in the batch) into a list of constraint tensors.\n    \"\"\"\n    constraint_list = []\n    num_constraints = constraint_tensor[0]\n    constraints = constraint_tensor.tolist()\n    offset = 1\n    for i in range(num_constraints):\n        where = constraints.index(0, offset)\n        constraint_list.append(constraint_tensor[offset:where])\n        offset = where + 1\n\n    return constraint_list\n\n\nclass ConstraintNode:\n    \"\"\"\n    Represents a node in a trie managing unordered constraints.\n    \"\"\"\n\n    def __init__(self, token: int = None, parent=None):\n        # The token associate with this node (None for the root)\n        self.token = int(token) if token is not None else None\n        # The parent (None at the root)\n        self.parent = parent\n        # Whether this node is a completed constraint\n        self.terminal = 0\n        # List of child nodes\n        self.children = {}\n\n        # The cumulative number of constraints from this point in the\n        # trie forward\n        self.num_constraints = 0\n\n    @property\n    def id(self):\n        return self.token\n\n    def __str__(self):\n        term = self.terminal != 0\n        return f\"[{self.token}].{term}#{self.num_constraints}\"\n\n    def __getitem__(self, key: int):\n        return self.children.get(key, None)\n\n    def next_tokens(self) -> Set[int]:\n        \"\"\"The set of child labels.\"\"\"\n        return set(self.children.keys())\n\n    @staticmethod\n    def create(constraints: List[List[int]]):\n        root = ConstraintNode()\n        for sequence in constraints:\n            root.add_sequence(sequence)\n\n        return root\n\n    @staticmethod\n    def print_graph(node: \"ConstraintNode\"):\n        if len(node.children) == 0:\n            return str(node)\n        else:\n            s = f\"({node}\"\n            for child in node.children.values():\n                s += \" \" + ConstraintNode.print_graph(child)\n            s += \")\"\n            return s\n\n    def token_counts(self) -> Counter:\n        \"\"\"Returns a counter of the number of times each token is used\n        in a constraint.\n        \"\"\"\n        token_counts = Counter()\n        kids = list(self.children.values())\n        while len(kids) > 0:\n            kid = kids.pop()\n            token_counts[kid.id] += kid.num_constraints\n            kids += list(kid.children.values())\n\n        return token_counts\n\n    def tokens(self) -> Set[int]:\n        \"\"\"Returns the set of tokens in constraints.\"\"\"\n        return set(self.token_counts().keys())\n\n    def add_sequence(self, sequence: List[int]):\n        \"\"\"Adds a constraint, represented as a list of integers, to\n        the trie.\"\"\"\n        assert len(sequence) > 0\n\n        token = int(sequence[0])\n        if token not in self.children:\n            self.children[token] = ConstraintNode(token, parent=self)\n\n        node = self.children[token]\n        if len(sequence) == 1:\n            node.terminal += 1\n            node.num_constraints += 1\n            parent = node.parent\n            while parent is not None:\n                parent.num_constraints += 1\n                parent = parent.parent\n        else:\n            node.add_sequence(sequence[1:])\n\n\nclass UnorderedConstraintState(ConstraintState):\n    \"\"\"\n    Records progress through the set of constraints for each item in the beam\n    using a trie.\n    \"\"\"\n\n    def __init__(self, node: ConstraintNode, copy_from: \"ConstraintState\" = None):\n        self.node = node\n\n        if copy_from is None:\n            # The root node\n            self.root = node\n            # The set of states in the graph that have been completed\n            self.completed = Counter()\n            # The...\n            self.generated = Counter()\n            # The list of tokens we need to generate\n            self.needed_tokens = self.root.tokens()\n        else:\n            self.completed = Counter(copy_from.completed)\n            self.generated = Counter(copy_from.generated)\n            self.root = copy_from.root\n\n        # Mark the node as generated\n        if self.node != self.root:\n            self.generated[node] += 1\n\n    @staticmethod\n    def create(constraint_tensor: torch.Tensor):\n        constraint_list = unpack_constraints(constraint_tensor)\n        constraint_trie_root = ConstraintNode.create(constraint_list)\n        return UnorderedConstraintState(constraint_trie_root)\n\n    def __str__(self):\n        gen_str = \",\".join([str(node) for node in self.generated])\n        return f\"{self.name}/{self.bank}({gen_str})x{self.num_completed}\"\n\n    def __copy__(self):\n        copied_state = UnorderedConstraintState(self.node, copy_from=self)\n        return copied_state\n\n    def copy(self):\n        return self.__copy__()\n\n    @property\n    def name(self):\n        if self.node.id is None:\n            return \"ROOT\"\n        else:\n            return str(self.node.id)\n\n    @property\n    def is_root(self):\n        return self.node == self.root\n\n    @property\n    def bank(self):\n        return sum(self.generated.values())\n\n    @property\n    def num_completed(self):\n        \"\"\"The number of constraints (not constraint tokens) that are completed.\n        In addition to the already-completed states, we need to account for the\n        current state, which might get marked as completed when another token\n        is generated.\n        \"\"\"\n        in_final = self.node.terminal and self.completed[self.node] < self.node.terminal\n        return sum(self.completed.values()) + in_final\n\n    @property\n    def finished(self):\n        return self.root.num_constraints - self.num_completed == 0\n\n    @property\n    def token_counts(self):\n        return self.root.token_counts()\n\n    @property\n    def tokens(self):\n        return self.root.tokens()\n\n    @property\n    def num_constraint_tokens(self):\n        return sum(self.token_counts.values())\n\n    def next_tokens(self) -> Set[int]:\n        \"\"\"Returns the list of tokens that could come next.\n        These are (a) all tokens extending the root state and, for\n        non-root states, additionally all tokens extending the current\n        state.\"\"\"\n\n        if self.node != self.root:\n            return self.root.next_tokens().union(self.node.next_tokens())\n        else:\n            return self.root.next_tokens()\n\n    def advance(self, token: int):\n        \"\"\"Reads in a token and advances the state. Here's how it works.\n\n        We can advance to the next state if:\n        - there is a matching child\n        - its path isn't blocked\n\n        A path is blocked when all constraints that are descendants of\n        that node have already been generated, in the current state.\n\n        If we are not able to advance from the current state, we \"fall\n        off the graph\" and return to the root state. There, we again\n        try to advance, checking the same criteria.\n\n        In any case, when falling off the graph, we need to do some\n        bookkeeping. We:\n        - check whether any constraints were met (all prefixes of\n          current state)\n        - if one is found, mark it as completed\n        - adjust visited nodes accordingly\n        \"\"\"\n        token = int(token)\n\n        next_state = None\n        child = self.node[token]\n        if child is not None and self.generated[child] < child.num_constraints:\n            next_state = UnorderedConstraintState(child, copy_from=self)\n\n        def rewind():\n            \"\"\"If we're mid-trie and an \"illegal\" token is chosen next, we need\n            to reset our state to the root state. However, along the way, we need\n            to check whether a prefix of the current trie state represents a state\n            we could mark as completed.\n            \"\"\"\n            node = self.node\n            while node != self.root:\n                if node.terminal and self.completed[node] < node.terminal:\n                    next_state.completed[node] += 1\n                    return\n\n                next_state.generated[node] -= 1\n                node = node.parent\n\n        # Fall off the graph, check the root\n        if next_state is None and token in self.root.next_tokens():\n            child = self.root[token]\n            # We can only traverse this edge if it's not saturated\n            if self.generated[child] < child.num_constraints:\n                next_state = UnorderedConstraintState(child, copy_from=self)\n            else:\n                next_state = UnorderedConstraintState(self.root, copy_from=self)\n\n            # Rewind\n            rewind()\n\n        elif next_state is None:\n            next_state = UnorderedConstraintState(self.root, copy_from=self)\n            # Rewind\n            rewind()\n\n        return next_state\n\n\nclass ConstraintSequence:\n    def __init__(self, sequences: List[List[int]]):\n        \"\"\"Represents a set of possibly multitoken constraints by\n        concatenating them and internally recording the end points.\n        \"\"\"\n        self.sequences = []\n        self.endpoints = []\n        self.num_tokens = 0\n        self.tokens = set()\n        for sequence in sequences:\n            for token in sequence:\n                self.tokens.add(token)\n            self.num_tokens += len(sequence)\n            self.endpoints += [False for x in range(len(sequence) - 1)] + [True]\n            self.sequences += sequence\n\n    def __getitem__(self, key: int):\n        return self.sequences[key]\n\n    def __len__(self):\n        return len(self.sequences)\n\n    def __str__(self):\n        return str(self.sequences)\n\n\nclass OrderedConstraintState(ConstraintState):\n    \"\"\"\n    Records progress through the set of linear nonbranching constraints with gaps.\n    \"\"\"\n\n    def __init__(self, sequence: ConstraintSequence, state: int = -1):\n        self.sequence = sequence\n        self.state = state\n\n    @staticmethod\n    def create(constraint_tensor: torch.Tensor):\n        constraint_list = unpack_constraints(constraint_tensor)\n        return OrderedConstraintState(ConstraintSequence(constraint_list), -1)\n\n    def __str__(self):\n        return f\"{self.state}/{self.bank}x{self.num_completed}\"\n\n    def __copy__(self):\n        return OrderedConstraintState(self.sequence, self.state)\n\n    def copy(self):\n        return self.__copy__()\n\n    @property\n    def num_completed(self):\n        if self.state == -1:\n            return 0\n        count = len(\n            list(filter(lambda x: x, self.sequence.endpoints[0 : self.state + 1]))\n        )\n        return count\n\n    @property\n    def is_root(self):\n        return self.state == -1\n\n    @property\n    def name(self):\n        if self.state == -1:\n            return \"ROOT\"\n        else:\n            return str(self.sequence[self.state])\n\n    @property\n    def bank(self) -> int:\n        return self.state + 1\n\n    @property\n    def finished(self):\n        return self.state + 1 == len(self.sequence)\n\n    @property\n    def token_counts(self):\n        return self.sequence.token_counts()\n\n    @property\n    def tokens(self):\n        return self.sequence.tokens\n\n    @property\n    def num_constraint_tokens(self):\n        return sum(self.token_counts.values())\n\n    def next_tokens(self) -> Set[int]:\n        \"\"\"Returns the list of tokens that could come next.\n        These are (a) all tokens extending the root state and, for\n        non-root states, additionally all tokens extending the current\n        state.\"\"\"\n\n        tokens = set()\n        if self.state > 0:\n            tokens.add(self.sequence[0])\n        if not self.finished:\n            tokens.add(self.sequence[self.state + 1])\n        return tokens\n\n    def advance(self, token: int):\n        \"\"\"Reads in a token and advances the state. Here's how it works.\n\n        We can advance to the next state if:\n        - there is a matching child\n        - its path isn't blocked\n\n        A path is blocked when all constraints that are descendants of\n        that node have already been generated, in the current state.\n\n        If we are not able to advance from the current state, we \"fall\n        off the graph\" and return to the root state. There, we again\n        try to advance, checking the same criteria.\n\n        In any case, when falling off the graph, we need to do some\n        bookkeeping. We:\n        - check whether any constraints were met (all prefixes of\n          current state)\n        - if one is found, mark it as completed\n        - adjust visited nodes accordingly\n        \"\"\"\n        token = int(token)\n        # print(f\"{self} ADVANCE({token}) {self.sequence} -> \", end=\"\")\n\n        if self.finished:\n            # Accept anything\n            next_state = self.copy()\n\n        elif self.sequence[self.state + 1] == token:\n            # Advance to the next token\n            next_state = OrderedConstraintState(self.sequence, self.state + 1)\n\n        elif self.sequence.endpoints[self.state]:\n            # Accept anything between constraints (*)\n            next_state = self.copy()\n\n        elif token == self.sequence[0]:\n            # Start over having generated the first token\n            next_state = OrderedConstraintState(self.sequence, 0)\n        else:\n            # Start over from the root\n            next_state = OrderedConstraintState(self.sequence, -1)\n\n        return next_state\n"
  },
  {
    "path": "fairseq/tokenizer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport re\n\n\nSPACE_NORMALIZER = re.compile(r\"\\s+\")\n\n\ndef tokenize_line(line):\n    line = SPACE_NORMALIZER.sub(\" \", line)\n    line = line.strip()\n    return line.split()\n"
  },
  {
    "path": "fairseq/trainer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nTrain a network across multiple GPUs.\n\"\"\"\n\nimport contextlib\nimport logging\nimport os\nimport sys\nimport time\nfrom argparse import Namespace\nfrom itertools import chain\nfrom typing import Any, Dict, List\n\nimport torch\nfrom omegaconf import OmegaConf\n\nfrom fairseq import checkpoint_utils, models, optim, utils\nfrom fairseq.dataclass.configs import FairseqConfig\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.distributed import utils as distributed_utils\nfrom fairseq.file_io import PathManager\nfrom fairseq.logging import meters, metrics\nfrom fairseq.models.ema import build_ema\nfrom fairseq.nan_detector import NanDetector\nfrom fairseq.optim import lr_scheduler\nfrom fairseq.utils import safe_hasattr\n\nlogger = logging.getLogger(__name__)\n\n\nclass Trainer(object):\n    \"\"\"Main class for data parallel training.\n\n    This class supports synchronous distributed data parallel training,\n    where multiple workers each have a full model replica and gradients\n    are accumulated across workers before each update. We use\n    :class:`~torch.nn.parallel.DistributedDataParallel` to handle\n    communication of the gradients across workers.\n    \"\"\"\n\n    def __init__(self, cfg: FairseqConfig, task, model, criterion, quantizer=None):\n\n        if isinstance(cfg, Namespace):\n            logger.warning(\n                \"argparse.Namespace configuration is deprecated! Automatically converting to OmegaConf\"\n            )\n            cfg = convert_namespace_to_omegaconf(cfg)\n\n        self.cfg = cfg\n        self.task = task\n\n        # catalog shared parameters\n        shared_params = _catalog_shared_params(model)\n        self.tpu = cfg.common.tpu\n        self.cuda = torch.cuda.is_available() and not cfg.common.cpu and not self.tpu\n        if self.cuda:\n            self.device = torch.device(\"cuda\")\n        elif self.tpu:\n            self.device = utils.get_tpu_device()\n        else:\n            self.device = torch.device(\"cpu\")\n\n        if self.is_fsdp:\n            import fairscale\n\n            if self.cfg.common.bf16:\n                raise ValueError(\n                    \"FullyShardedDataParallel is not compatible with --bf16 or \"\n                    \"--memory-efficient-bf16\"\n                )\n            if self.cfg.distributed_training.zero_sharding != \"none\":\n                raise ValueError(\n                    \"FullyShardedDataParallel is not compatible with --zero-sharding \"\n                    \"option (it's already built in)\"\n                )\n            if (\n                max(self.cfg.optimization.update_freq) > 1\n                and fairscale.__version__ < \"0.4.0\"\n            ):\n                raise RuntimeError(\n                    \"Please update to fairscale 0.4.0 or newer when combining \"\n                    \"--update-freq with FullyShardedDataParallel\"\n                )\n        else:\n            if (\n                hasattr(self.cfg.distributed_training, \"cpu_offload\")\n                and self.cfg.distributed_training.cpu_offload\n            ):\n                raise ValueError(\"--cpu-offload requires --ddp-backend=fully_sharded\")\n\n        # copy model and criterion to current device/dtype\n        self._criterion = criterion\n        self._model = model\n        if not self.is_fsdp:\n            if cfg.common.fp16:\n                assert not cfg.common.amp, \"Cannot use fp16 and AMP together\"\n                self._criterion = self._criterion.half()\n                self._model = self._model.half()\n            elif cfg.common.bf16:\n                self._criterion = self._criterion.to(dtype=torch.bfloat16)\n                self._model = self._model.to(dtype=torch.bfloat16)\n            elif cfg.common.amp:\n                self._amp_retries = 0\n        if (\n            not cfg.distributed_training.pipeline_model_parallel\n            # the DistributedFairseqModel wrapper will handle moving to device,\n            # so only handle cases which don't use the wrapper\n            and not self.use_distributed_wrapper\n        ):\n            self._criterion = self._criterion.to(device=self.device)\n            self._model = self._model.to(device=self.device)\n        self.pipeline_model_parallel = cfg.distributed_training.pipeline_model_parallel\n        self.last_device = None\n        if self.cuda and self.pipeline_model_parallel:\n            self.last_device = torch.device(\n                cfg.distributed_training.pipeline_devices[-1]\n            )\n\n        # check that shared parameters are preserved after device transfer\n        for shared_param in shared_params:\n            ref = _get_module_by_path(self._model, shared_param[0])\n            for path in shared_param[1:]:\n                logger.info(\n                    \"detected shared parameter: {} <- {}\".format(shared_param[0], path)\n                )\n                _set_module_by_path(self._model, path, ref)\n\n        self._dummy_batch = None  # indicates we don't have a dummy batch at first\n        self._lr_scheduler = None\n        self._num_updates = 0\n        self._num_xla_compiles = 0  # for TPUs\n        self._optim_history = None\n        self._optimizer = None\n        self._warn_once = set()\n        self._wrapped_criterion = None\n        self._wrapped_model = None\n        self._ema = None\n\n        # TODO(myleott): support tpu\n        if self.cuda and self.data_parallel_world_size > 1:\n            self._grad_norm_buf = torch.cuda.DoubleTensor(self.data_parallel_world_size)\n        else:\n            self._grad_norm_buf = None\n\n        self.quantizer = quantizer\n        if self.quantizer is not None:\n            self.quantizer.set_trainer(self)\n\n        # get detailed cuda environment\n        if self.cuda:\n            self.cuda_env = utils.CudaEnvironment()\n            if self.data_parallel_world_size > 1:\n                self.cuda_env_arr = distributed_utils.all_gather_list(\n                    self.cuda_env, group=distributed_utils.get_global_group()\n                )\n            else:\n                self.cuda_env_arr = [self.cuda_env]\n            if self.data_parallel_rank == 0:\n                utils.CudaEnvironment.pretty_print_cuda_env_list(self.cuda_env_arr)\n        else:\n            self.cuda_env = None\n            self.cuda_env_arr = None\n\n        metrics.log_start_time(\"wall\", priority=790, round=0)\n\n        self._start_time = time.time()\n        self._previous_training_time = 0\n        self._cumulative_training_time = None\n\n    def reinitialize(self):\n        \"\"\"Reinitialize the Trainer, typically after model params change.\"\"\"\n        self._lr_scheduler = None\n        self._optimizer = None\n        self._wrapped_criterion = None\n        self._wrapped_model = None\n\n    @property\n    def data_parallel_world_size(self):\n        if self.cfg.distributed_training.distributed_world_size == 1:\n            return 1\n        return distributed_utils.get_data_parallel_world_size()\n\n    @property\n    def data_parallel_process_group(self):\n        return distributed_utils.get_data_parallel_group()\n\n    @property\n    def data_parallel_rank(self):\n        if self.cfg.distributed_training.distributed_world_size == 1:\n            return 0\n        return distributed_utils.get_data_parallel_rank()\n\n    @property\n    def is_data_parallel_master(self):\n        # NOTE: this returns true for all model parallel replicas with data\n        # parallel rank 0\n        return self.data_parallel_rank == 0\n\n    @property\n    def use_distributed_wrapper(self) -> bool:\n        return (\n            self.data_parallel_world_size > 1 and not self.cfg.optimization.use_bmuf\n        ) or (self.is_fsdp and self.cfg.distributed_training.cpu_offload)\n\n    @property\n    def should_save_checkpoint_on_current_rank(self) -> bool:\n        \"\"\"Indicates whether to save checkpoints on the current DDP rank.\"\"\"\n        if (\n            self.is_fsdp and self.cfg.distributed_training.use_sharded_state\n        ) or getattr(self.cfg.model, \"base_layers\", 0) > 0:\n            return True\n        else:\n            return self.is_data_parallel_master\n\n    @property\n    def always_call_state_dict_during_save_checkpoint(self) -> bool:\n        if self.is_fsdp and not self.cfg.distributed_training.use_sharded_state:\n            # FSDP calls communication collective when consolidating checkpoints\n            return True\n        else:\n            return False\n\n    @property\n    def checkpoint_suffix(self) -> str:\n        \"\"\"Suffix to add to the checkpoint file name.\"\"\"\n        if self.is_fsdp and self.cfg.distributed_training.use_sharded_state:\n            return self.cfg.checkpoint.checkpoint_suffix + \"-shard{0}\".format(\n                self.data_parallel_rank\n            )\n        else:\n            return self.cfg.checkpoint.checkpoint_suffix or \"\"\n\n    @property\n    def criterion(self):\n        if self._wrapped_criterion is None:\n            if utils.has_parameters(self._criterion) and self.use_distributed_wrapper:\n                self._wrapped_criterion = models.DistributedFairseqModel(\n                    self.cfg.distributed_training,\n                    self._criterion,\n                    process_group=self.data_parallel_process_group,\n                    device=self.device,\n                )\n            else:\n                self._wrapped_criterion = self._criterion\n        return self._wrapped_criterion\n\n    @property\n    def model(self):\n        if self._wrapped_model is None:\n            if self.use_distributed_wrapper:\n                self._wrapped_model = models.DistributedFairseqModel(\n                    self.cfg.distributed_training,\n                    self._model,\n                    process_group=self.data_parallel_process_group,\n                    device=self.device,\n                )\n            else:\n                self._wrapped_model = self._model\n        return self._wrapped_model\n\n    @property\n    def ema(self):\n        if self._ema is None:\n            self._build_ema()\n        return self._ema\n\n    def _build_ema(self):\n        if self.cfg.ema.store_ema:\n            self._ema = build_ema(self._model, self.cfg.ema, self.device)\n            logger.info(\"Exponential Moving Average Shadow Model is initialized.\")\n\n    @property\n    def optimizer(self):\n        if self._optimizer is None:\n            self._build_optimizer()\n        return self._optimizer\n\n    @property\n    def lr_scheduler(self):\n        if self._lr_scheduler is None:\n            self._build_optimizer()  # this will initialize self._lr_scheduler\n        return self._lr_scheduler\n\n    def _build_optimizer(self):\n\n        if (\n            self.cfg.optimization.debug_param_names\n            and self.cfg.common.fp16_no_flatten_grads\n        ):\n            params = []\n            self.param_names = []\n\n            for n, p in chain(\n                self.model.named_parameters(), self.criterion.named_parameters()\n            ):\n                if p.requires_grad:\n                    params.append(p)\n                    self.param_names.append(n)\n        else:\n            params = list(\n                filter(\n                    lambda p: p.requires_grad,\n                    chain(self.model.parameters(), self.criterion.parameters()),\n                )\n            )\n\n        if self.is_fsdp and self.cfg.common.fp16:\n            # FullyShardedDataParallel always uses MemoryEfficientFP16 wrapper,\n            # mostly for the grad scaling. But if we don't have the\n            # --memory-efficient-fp16 flag set, then we're effectively doing\n            # regular --fp16 and can allow the use of optimizers that would\n            # otherwise be unsupported by MemoryEfficientFP16Optimizer.\n            allow_unsupported = not self.cfg.common.memory_efficient_fp16\n            self._optimizer = optim.MemoryEfficientFP16Optimizer.build_optimizer(\n                self.cfg, params, allow_unsupported=allow_unsupported\n            )\n        elif self.cfg.common.fp16 or self.cfg.common.bf16 or self.cfg.common.amp:\n            if self.cuda and torch.cuda.get_device_capability(0)[0] < 7:\n                logger.info(\n                    \"NOTE: your device does NOT support faster training with --fp16 or --amp, \"\n                    \"please switch to FP32 which is likely to be faster\"\n                )\n            if (\n                self.cfg.common.memory_efficient_fp16\n                or self.cfg.common.memory_efficient_bf16\n            ):\n                self._optimizer = optim.MemoryEfficientFP16Optimizer.build_optimizer(\n                    self.cfg, params\n                )\n            elif self.cfg.common.amp:\n                self._optimizer = optim.AMPOptimizer.build_optimizer(self.cfg, params)\n            else:\n                self._optimizer = optim.FP16Optimizer.build_optimizer(self.cfg, params)\n        else:\n            if self.cuda and torch.cuda.get_device_capability(0)[0] >= 7:\n                logger.info(\n                    \"NOTE: your device may support faster training with --fp16 or --amp\"\n                )\n            self._optimizer = optim.build_optimizer(self.cfg.optimizer, params)\n\n        if self.is_fsdp:\n            assert (\n                not self.cfg.optimization.use_bmuf\n            ), \"--ddp-backend=fully_sharded is not compatible with BMUF\"\n            assert self._optimizer.supports_flat_params, (\n                \"--ddp-backend=fully_sharded is only compatible with pointwise \"\n                \"optimizers (e.g., Adam, AdamW, Adadelta, Adamax, SGD, etc.). \"\n                \"However, the sharding will result in slightly different results when \"\n                \"using non-pointwise optimizers (e.g., Adagrad, Adafactor, LAMB)\"\n            )\n\n        if self.cfg.optimization.use_bmuf:\n            self._optimizer = optim.FairseqBMUF(\n                self.cfg.bmuf,\n                self._optimizer,\n            )\n\n        if self.cfg.distributed_training.zero_sharding == \"os\":\n            if (\n                self.cfg.common.fp16\n                and not self.cfg.common.memory_efficient_fp16\n                and not self.cfg.common.memory_efficient_bf16\n            ) and not self.cfg.common.fp16_no_flatten_grads:\n                raise ValueError(\n                    \"ZeRO is incomptabile with fp16 and flattened grads. \"\n                    \"Please use --fp16-no-flatten-grads\"\n                )\n            else:\n                optim.shard_(self._optimizer, self.data_parallel_process_group)\n\n        # We should initialize the learning rate scheduler immediately after\n        # building the optimizer, so that the initial learning rate is set.\n        self._lr_scheduler = lr_scheduler.build_lr_scheduler(\n            self.cfg.lr_scheduler,\n            self.optimizer,\n        )\n        self._lr_scheduler.step_update(0)\n\n    @property\n    def is_fsdp(self):\n        return self.cfg.distributed_training.ddp_backend == \"fully_sharded\"\n\n    def consolidate_optimizer(self):\n        \"\"\"For OSS, we need to consolidate the state dict.\"\"\"\n        if self.cfg.checkpoint.no_save_optimizer_state:\n            return\n        self._gathered_optim_state = None\n        if hasattr(self.optimizer.optimizer, \"consolidate_state_dict\"):\n            self.optimizer.optimizer.consolidate_state_dict()\n        elif self.is_fsdp and not self.model.use_sharded_state:\n            st = self.model.gather_full_optim_state_dict(\n                self.optimizer\n            )  # only returns on rank 0\n            self._gathered_optim_state = st\n\n    def state_dict(self):\n        state_dict = {\n            \"args\": None,  # legacy\n            \"cfg\": (\n                OmegaConf.to_container(self.cfg, resolve=True, enum_to_str=True)\n                if OmegaConf.is_config(self.cfg)\n                else self.cfg\n            ),\n            \"model\": self.model.state_dict(),\n            \"criterion\": (\n                self.criterion.state_dict()\n                if utils.has_parameters(self.criterion)\n                else None\n            ),\n            \"optimizer_history\": (self._optim_history or [])\n            + [\n                {\n                    \"criterion_name\": self.get_criterion().__class__.__name__,\n                    \"optimizer_name\": self.optimizer.__class__.__name__,\n                    \"lr_scheduler_state\": self.lr_scheduler.state_dict(),\n                    \"num_updates\": self.get_num_updates(),\n                }\n            ],\n            \"task_state\": self.task.state_dict() if self.task is not None else {},\n            \"extra_state\": {\n                \"metrics\": metrics.state_dict(),\n                \"previous_training_time\": self.cumulative_training_time(),\n            },\n        }\n        if self.cfg.ema.store_ema:\n            # Save EMA model state as extra state\n            state_dict[\"extra_state\"][\"ema\"] = self.ema.get_model().state_dict()\n            if self.cfg.ema.ema_fp32:\n                # Save EMA params in fp32\n                state_dict[\"extra_state\"][\"ema_fp32_params\"] = self.ema.fp32_params\n        if not self.cfg.checkpoint.no_save_optimizer_state:\n            if self._gathered_optim_state is not None:\n                state_dict[\"last_optimizer_state\"] = self._gathered_optim_state\n                self._gathered_optim_state = None\n            else:\n                state_dict[\"last_optimizer_state\"] = self.optimizer.state_dict()\n        if self.is_fsdp:\n            # save meta data for recombining checkpoint upon loading\n            state_dict[\"fsdp_metadata\"] = self.model.local_metadata_dict()\n        return state_dict\n\n    def save_checkpoint(self, filename, extra_state):\n        \"\"\"Save all training state in a checkpoint file.\"\"\"\n        if self.should_save_checkpoint_on_current_rank:\n\n            logger.info(f\"Saving checkpoint to {os.path.abspath(filename)}\")\n            # call state_dict on all ranks in case it needs internal communication\n            state_dict = utils.move_to_cpu(self.state_dict())\n            state_dict[\"extra_state\"].update(extra_state)\n\n            checkpoint_utils.torch_persistent_save(\n                state_dict,\n                filename,\n                async_write=self.cfg.checkpoint.write_checkpoints_asynchronously,\n            )\n            logger.info(f\"Finished saving checkpoint to {os.path.abspath(filename)}\")\n            return os.path.abspath(filename)\n        return None\n\n    def load_checkpoint(\n        self,\n        filename,\n        reset_optimizer=False,\n        reset_lr_scheduler=False,\n        optimizer_overrides=None,\n        reset_meters=False,\n    ):\n        \"\"\"\n        Load all training state from a checkpoint file.\n        rank = 0 will load the checkpoint, and then broadcast it to all\n        other ranks.\n        \"\"\"\n        extra_state, self._optim_history, last_optim_state = None, [], None\n\n        logger.info(f\"Preparing to load checkpoint {filename}\")\n        is_distributed = self.data_parallel_world_size > 1\n        bexists = PathManager.isfile(filename)\n        if bexists:\n            load_on_all_ranks = (\n                self.cfg.checkpoint.load_checkpoint_on_all_dp_ranks\n                # TPUs don't support broadcast yet, so load checkpoints\n                # on every worker for now\n                or self.tpu\n                # FSDP requires loading checkpoint shards on all ranks\n                or (self.is_fsdp and self.cfg.distributed_training.use_sharded_state)\n                or getattr(self.cfg.model, \"base_layers\", 0) > 0\n            )\n\n            if load_on_all_ranks or self.data_parallel_rank == 0:\n                state = checkpoint_utils.load_checkpoint_to_cpu(\n                    filename, load_on_all_ranks=load_on_all_ranks\n                )\n                last_optim_state = state.get(\"last_optimizer_state\", None)\n\n                # If doing zero_sharding, do not broadcast global optimizer\n                # state. Later we will broadcast sharded states to each rank\n                # to avoid memory from exploding.\n                if (\n                    not load_on_all_ranks\n                    and self.cfg.distributed_training.zero_sharding == \"os\"\n                    and \"last_optimizer_state\" in state\n                    and is_distributed\n                ):\n                    state[\"last_optimizer_state\"] = \"SHARDED\"\n            else:\n                last_optim_state = None\n                state = None\n\n            if is_distributed and not load_on_all_ranks:\n                state = distributed_utils.broadcast_object(\n                    state,\n                    src_rank=0,\n                    group=self.data_parallel_process_group,\n                    dist_device=self.device,\n                )\n                if self.data_parallel_rank > 0:\n                    last_optim_state = state.get(\"last_optimizer_state\", None)\n\n            # load model parameters\n            try:\n                if (\n                    \"optimizer_history\" in state\n                    and len(state[\"optimizer_history\"]) > 0\n                    and \"num_updates\" in state[\"optimizer_history\"][-1]\n                ):\n                    self.model.set_num_updates(\n                        state[\"optimizer_history\"][-1][\"num_updates\"]\n                    )\n\n                # this is the code related to AdaPrune\n                # In short, it removes redundant heads in multi-head attention module based on heads importance provided\n                # For more info, please refer to the paper: https://openreview.net/forum?id=_CMSV7FTzGI\n                # The idea of prune in mha can be summarized as\n                # Fine tune model (e.g. roberta encoder) on a certain datasets with regularization\n                # After the model is trained. User could use get_reserve_head_index and _adaptive_prune_heads functions to get the top X heads with most importance.\n                # Then user uses the rank to prune a new roberta encoder and save the pruned ckpt manually.\n                # User will fine tune the the new roberta encoder via the ckpt saved above\n                # To get rid of registering different pruned version of Roberta, I use the argument --mha-heads-to-keep to prune the Roberta model into a pruned version which matches the pruned ckpt.\n                if (\n                    safe_hasattr(self.model, \"args\")\n                    and safe_hasattr(self.model.args, \"mha_heads_to_keep\")\n                    and self.model.args.mha_heads_to_keep != -1\n                ):\n                    logger.info(\n                        f\"Prune model: keep {self.model.args.mha_heads_to_keep} heads for each multihead attention module\"\n                    )\n                    for layer in self.model.encoder.sentence_encoder.layers:\n                        reserve_head_index = layer.self_attn._get_reserve_head_index(\n                            num_heads_to_keep=self.model.args.mha_heads_to_keep\n                        )\n                        layer.self_attn._adaptive_prune_heads(\n                            reserve_head_index=reserve_head_index\n                        )\n                        layer.self_attn._set_skip_embed_dim_check()\n                    logger.info(self.model)\n                # this is the code related to AdaPrune\n                # In short, it removes redundant units in feedforward layer in each transformer layer based on importance\n                # For more info, please refer to the paper: https://openreview.net/forum?id=_CMSV7FTzGI\n                # The idea of prune in ffn can be summarized as\n                # Fine tune model (e.g. roberta encoder) on a certain datasets with regularization\n                # After the model is trained. User could use _get_fc_rank and _prune_fc_layer functions to get the top X units with most importance.\n                # Then user uses the rank to prune a new roberta encoder and save the pruned ckpt manually.\n                # User will fine tune the the new roberta encoder via the ckpt saved above\n                # To get rid of registering different pruned version of Roberta, I use the argument --ffn-blocks-to-remove to prune the Roberta model into a pruned version which matches the pruned ckpt.\n                if (\n                    safe_hasattr(self.model, \"args\")\n                    and safe_hasattr(self.model.args, \"ffn_blocks_to_remove\")\n                    and self.model.args.ffn_blocks_to_remove != -1\n                ):\n                    logger.info(\n                        f\"Prune model: remove {self.model.args.ffn_blocks_to_remove} ffn blocks for each transformer layer\"\n                    )\n                    for layer in self.model.encoder.sentence_encoder.layers:\n                        remove_index = layer._get_fc_rank(\n                            remove_num=self.model.args.ffn_blocks_to_remove\n                        )\n                        layer._prune_fc_layer(remove_index=remove_index)\n                    logger.info(self.model)\n\n                self.model.load_state_dict(\n                    state[\"model\"], strict=True, model_cfg=self.cfg.model\n                )\n                # save memory for later steps\n                del state[\"model\"]\n                if utils.has_parameters(self.get_criterion()):\n                    self.get_criterion().load_state_dict(\n                        state[\"criterion\"], strict=True\n                    )\n                    del state[\"criterion\"]\n\n            except Exception:\n                raise Exception(\n                    \"Cannot load model parameters from checkpoint {}; \"\n                    \"please ensure that the architectures match.\".format(filename)\n                )\n            extra_state = state[\"extra_state\"]\n            self._optim_history = state[\"optimizer_history\"]\n\n        if last_optim_state is not None and not reset_optimizer:\n            # rebuild optimizer after loading model, since params may have changed\n            self._build_optimizer()\n\n            # only reload optimizer and lr_scheduler if they match\n            last_optim = self._optim_history[-1]\n            assert (\n                last_optim[\"criterion_name\"] == self.get_criterion().__class__.__name__\n            ), f\"Criterion does not match; please reset the optimizer (--reset-optimizer). {last_optim['criterion_name']} vs {self.get_criterion().__class__.__name__}\"\n            assert (\n                last_optim[\"optimizer_name\"] == self.optimizer.__class__.__name__\n            ), f\"Optimizer does not match; please reset the optimizer (--reset-optimizer). {last_optim['optimizer_name']} vs {self.optimizer.__class__.__name__}\"\n\n            if not reset_lr_scheduler:\n                self.lr_scheduler.load_state_dict(last_optim[\"lr_scheduler_state\"])\n\n            if self.is_fsdp and not self.model.use_sharded_state:\n                # if use_sharded_state, the last_optim_state is already sharded, skip this\n                last_optim_state = self.model.get_shard_from_optim_state_dict(\n                    last_optim_state\n                )\n            elif not load_on_all_ranks and is_distributed:\n                last_optim_state = self.optimizer.broadcast_global_state_dict(\n                    last_optim_state\n                )\n\n            self.optimizer.load_state_dict(last_optim_state, optimizer_overrides)\n\n            self.set_num_updates(last_optim[\"num_updates\"])\n\n        if extra_state is not None:\n            itr_state = extra_state[\"train_iterator\"]\n            epoch = itr_state[\"epoch\"]\n\n            if \"previous_training_time\" in extra_state:\n                self._previous_training_time = extra_state[\"previous_training_time\"]\n                self._start_time = time.time()\n\n            self.lr_step(epoch)\n\n            if (\n                itr_state.get(\"version\", 1) >= 2\n                and itr_state[\"iterations_in_epoch\"] == 0\n            ):\n                # reset meters at start of epoch\n                reset_meters = True\n\n            if \"metrics\" in extra_state and not reset_meters:\n                metrics.load_state_dict(extra_state[\"metrics\"])\n\n                # reset TimeMeters, since their start times don't make sense anymore\n                for meter in metrics.get_meters(\"default\"):\n                    if isinstance(meter, meters.TimeMeter):\n                        meter.reset()\n\n            if self.cfg.ema.store_ema:\n                if \"ema\" not in extra_state:\n                    logger.warn(\n                        \"EMA not found in checkpoint. But store_ema is True. \"\n                        \"EMA is re-initialized from checkpoint.\"\n                    )\n                    self.ema.restore(\n                        state[\"model\"], build_fp32_params=self.cfg.ema.ema_fp32\n                    )\n                else:\n                    logger.info(\"Loading EMA from checkpoint\")\n                    self.ema.restore(extra_state[\"ema\"], build_fp32_params=False)\n\n                    if self.cfg.ema.ema_fp32:\n                        if \"ema_fp32_params\" in extra_state:\n                            logger.info(\"Loading EMA fp32 params from checkpoint\")\n                            self.ema.build_fp32_params(extra_state[\"ema_fp32_params\"])\n                        else:\n                            logger.info(\n                                \"Building EMA fp32 params from EMA model in checkpoint\"\n                            )\n                            self.ema.build_fp32_params()\n\n            logger.info(\n                \"Loaded checkpoint {} (epoch {} @ {} updates)\".format(\n                    filename, epoch, self.get_num_updates()\n                )\n            )\n\n        else:\n            logger.info(\"No existing checkpoint found {}\".format(filename))\n\n        return extra_state\n\n    def get_train_iterator(\n        self,\n        epoch,\n        combine=True,\n        load_dataset=True,\n        data_selector=None,\n        shard_batch_itr=True,\n        disable_iterator_cache=False,\n    ):\n        \"\"\"Return an EpochBatchIterator over the training set for a given epoch.\"\"\"\n        if load_dataset:\n            logger.info(\"loading train data for epoch {}\".format(epoch))\n            self.task.load_dataset(\n                self.cfg.dataset.train_subset,\n                epoch=epoch,\n                combine=combine,\n                data_selector=data_selector,\n                tpu=self.tpu,\n            )\n        batch_iterator = self.task.get_batch_iterator(\n            dataset=self.task.dataset(self.cfg.dataset.train_subset),\n            max_tokens=self.cfg.dataset.max_tokens,\n            max_sentences=self.cfg.dataset.batch_size,\n            max_positions=utils.resolve_max_positions(\n                self.task.max_positions(),\n                self.model.max_positions(),\n                self.cfg.dataset.max_tokens,\n            ),\n            ignore_invalid_inputs=True,\n            required_batch_size_multiple=self.cfg.dataset.required_batch_size_multiple,\n            seed=(self.cfg.common.seed + epoch)\n            if self.cfg.dataset.update_ordered_indices_seed\n            else self.cfg.common.seed,\n            num_shards=self.data_parallel_world_size if shard_batch_itr else 1,\n            shard_id=self.data_parallel_rank if shard_batch_itr else 0,\n            num_workers=self.cfg.dataset.num_workers,\n            epoch=epoch,\n            data_buffer_size=self.cfg.dataset.data_buffer_size,\n            disable_iterator_cache=disable_iterator_cache,\n            skip_remainder_batch=self.cfg.optimization.skip_remainder_batch,\n            grouped_shuffling=self.cfg.dataset.grouped_shuffling,\n            update_epoch_batch_itr=self.cfg.dataset.update_epoch_batch_itr,\n        )\n        self.reset_dummy_batch(batch_iterator.first_batch)\n        return batch_iterator\n\n    def get_valid_iterator(\n        self,\n        subset,\n        disable_iterator_cache=False,\n    ):\n        \"\"\"Return an EpochBatchIterator over given validation subset for a given epoch.\"\"\"\n        batch_iterator = self.task.get_batch_iterator(\n            dataset=self.task.dataset(subset),\n            max_tokens=self.cfg.dataset.max_tokens_valid,\n            max_sentences=self.cfg.dataset.batch_size_valid,\n            max_positions=utils.resolve_max_positions(\n                self.task.max_positions(),\n                self.model.max_positions(),\n            ),\n            ignore_invalid_inputs=self.cfg.dataset.skip_invalid_size_inputs_valid_test,\n            required_batch_size_multiple=self.cfg.dataset.required_batch_size_multiple,\n            seed=self.cfg.common.seed,\n            num_shards=self.data_parallel_world_size,\n            shard_id=self.data_parallel_rank,\n            num_workers=self.cfg.dataset.num_workers,\n            # always pass a fixed \"epoch\" to keep validation data consistent\n            # across training epochs\n            epoch=1,\n            data_buffer_size=self.cfg.dataset.data_buffer_size,\n            disable_iterator_cache=disable_iterator_cache,\n            skip_remainder_batch=False,\n        )\n        self.reset_dummy_batch(batch_iterator.first_batch)\n        return batch_iterator\n\n    def begin_epoch(self, epoch):\n        \"\"\"Called at the beginning of each epoch.\"\"\"\n        logger.info(\"begin training epoch {}\".format(epoch))\n\n        self.lr_step_begin_epoch(epoch)\n\n        if self.quantizer is not None:\n            self.quantizer.begin_epoch(epoch)\n\n        # task specific setup per epoch\n        self.task.begin_epoch(epoch, self.get_model())\n\n        if self.tpu:\n            import torch_xla.core.xla_model as xm\n\n            xm.rendezvous(\"begin_epoch\")  # wait for all workers\n            xm.mark_step()\n\n    def begin_valid_epoch(self, epoch):\n        \"\"\"Called at the beginning of each validation epoch.\"\"\"\n\n        # task specific setup per validation epoch\n        self.task.begin_valid_epoch(epoch, self.get_model())\n\n    def reset_dummy_batch(self, batch):\n        self._dummy_batch = batch\n\n    @metrics.aggregate(\"train\")\n    def train_step(self, samples, raise_oom=False):\n        \"\"\"Do forward, backward and parameter update.\"\"\"\n        self._set_seed()\n        self.model.train()\n        self.criterion.train()\n        self.zero_grad()\n\n        metrics.log_start_time(\"train_wall\", priority=800, round=0)\n\n        # If EMA is enabled through store_ema=True\n        # and task.uses_ema is True, pass the EMA model as a keyword\n        # argument to the task.\n        extra_kwargs = {}\n        if self.cfg.ema.store_ema and getattr(self.task, \"uses_ema\", False):\n            extra_kwargs[\"ema_model\"] = self.ema.get_model()\n\n        has_oom = False\n\n        # forward and backward pass\n        logging_outputs, sample_size, ooms = [], 0, 0\n        for i, sample in enumerate(samples):  # delayed update loop\n            sample, is_dummy_batch = self._prepare_sample(sample)\n\n            def maybe_no_sync():\n                \"\"\"\n                Whenever *samples* contains more than one mini-batch, we\n                want to accumulate gradients locally and only call\n                all-reduce in the last backwards pass.\n                \"\"\"\n                if (\n                    self.data_parallel_world_size > 1\n                    and hasattr(self.model, \"no_sync\")\n                    and i < len(samples) - 1\n                    # The no_sync context manager results in increased memory\n                    # usage with FSDP, since full-size gradients will be\n                    # accumulated on each GPU. It's typically a better tradeoff\n                    # to do the extra communication with FSDP.\n                    and not self.is_fsdp\n                ):\n                    return self.model.no_sync()\n                else:\n                    return contextlib.ExitStack()  # dummy contextmanager\n\n            try:\n                with maybe_no_sync():\n                    # forward and backward\n                    loss, sample_size_i, logging_output = self.task.train_step(\n                        sample=sample,\n                        model=self.model,\n                        criterion=self.criterion,\n                        optimizer=self.optimizer,\n                        update_num=self.get_num_updates(),\n                        ignore_grad=is_dummy_batch,\n                        **extra_kwargs,\n                    )\n                    del loss\n\n                logging_outputs.append(logging_output)\n                sample_size += sample_size_i\n\n                # emptying the CUDA cache after the first step can\n                # reduce the chance of OOM\n                if self.cuda and self.get_num_updates() == 0:\n                    torch.cuda.empty_cache()\n            except RuntimeError as e:\n                if \"out of memory\" in str(e):\n                    self._log_oom(e)\n                    has_oom = True\n                    if raise_oom:\n                        raise e\n                else:\n                    raise e\n            except Exception:\n                self.consolidate_optimizer()\n                self.save_checkpoint(\n                    os.path.join(self.cfg.checkpoint.save_dir, \"crash.pt\"), {}\n                )\n                raise\n\n            if has_oom:\n                logger.warning(\n                    \"attempting to recover from OOM in forward/backward pass\"\n                )\n                ooms += 1\n                self.zero_grad()\n                if self.cuda:\n                    torch.cuda.empty_cache()\n\n                if self.cfg.distributed_training.distributed_world_size == 1:\n                    return None\n\n            if self.tpu and i < len(samples) - 1:\n                # tpu-comment: every XLA operation before marking step is\n                # appended to the IR graph, and processing too many batches\n                # before marking step can lead to OOM errors.\n                # To handle gradient accumulation use case, we explicitly\n                # mark step here for every forward pass without a backward pass\n                self._xla_markstep_and_send_to_cpu()\n\n        if is_dummy_batch:\n            if torch.is_tensor(sample_size):\n                sample_size.zero_()\n            else:\n                sample_size *= 0.0\n\n        if torch.is_tensor(sample_size):\n            sample_size = sample_size.float()\n        else:\n            sample_size = float(sample_size)\n\n        # gather logging outputs from all replicas\n        if self._sync_stats():\n            train_time = self._local_cumulative_training_time()\n            (\n                logging_outputs,\n                (\n                    sample_size,\n                    ooms,\n                    total_train_time,\n                ),\n            ) = self._aggregate_logging_outputs(\n                logging_outputs, sample_size, ooms, train_time, ignore=is_dummy_batch\n            )\n            self._cumulative_training_time = (\n                total_train_time / self.data_parallel_world_size\n            )\n\n        overflow = False\n        try:\n            with torch.autograd.profiler.record_function(\"reduce-grads\"):\n                # reduce gradients across workers\n                self.optimizer.all_reduce_grads(self.model)\n                if utils.has_parameters(self.criterion):\n                    self.optimizer.all_reduce_grads(self.criterion)\n\n            with torch.autograd.profiler.record_function(\"multiply-grads\"):\n                # multiply gradients by (data_parallel_size / sample_size) since\n                # DDP normalizes by the number of data parallel workers for\n                # improved fp16 precision.\n                # Thus we get (sum_of_gradients / sample_size) at the end.\n                # In case of fp16, this step also undoes loss scaling.\n                # (Debugging note: Some optimizers perform this scaling on the\n                # fly, so inspecting model.parameters() or optimizer.params may\n                # still show the original, unscaled gradients.)\n                numer = (\n                    self.data_parallel_world_size\n                    if not self.cfg.optimization.use_bmuf or self._sync_stats()\n                    else 1\n                )\n                self.optimizer.multiply_grads(numer / (sample_size or 1.0))\n                # Note: (sample_size or 1.0) handles the case of a zero gradient, in a\n                # way that avoids CPU/device transfers in case sample_size is a GPU or\n                # TPU object. The assumption is that the gradient itself is also 0.\n\n            with torch.autograd.profiler.record_function(\"clip-grads\"):\n                # clip grads\n                grad_norm = self.clip_grad_norm(self.cfg.optimization.clip_norm)\n\n            # check that grad norms are consistent across workers\n            # on tpu check tensor is slow\n            if not self.tpu:\n                if (\n                    not self.cfg.optimization.use_bmuf\n                    and self.cfg.distributed_training.ddp_backend != \"slowmo\"\n                ):\n                    self._check_grad_norms(grad_norm)\n                if not torch.isfinite(grad_norm).all():\n                    # in case of AMP, if gradients are Nan/Inf then\n                    # optimizer step is still required\n                    if self.cfg.common.amp:\n                        overflow = True\n                    else:\n                        # check local gradnorm single GPU case, trigger NanDetector\n                        raise FloatingPointError(\"gradients are Nan/Inf\")\n\n            with torch.autograd.profiler.record_function(\"optimizer\"):\n                # take an optimization step\n                self.task.optimizer_step(\n                    self.optimizer, model=self.model, update_num=self.get_num_updates()\n                )\n                if self.cfg.common.amp and overflow:\n                    if self._amp_retries == self.cfg.common.amp_batch_retries:\n                        logger.info(\"AMP: skipping this batch.\")\n                        self._amp_retries = 0\n                    else:\n                        self._amp_retries += 1\n                        return self.train_step(\n                            samples, raise_oom\n                        )  # recursion to feed in same batch\n\n        except FloatingPointError:\n\n            self.consolidate_optimizer()\n            self.save_checkpoint(\n                os.path.join(self.cfg.checkpoint.save_dir, \"crash.pt\"), {}\n            )\n\n            # re-run the forward and backward pass with hooks attached to print\n            # out where it fails\n            self.zero_grad()\n            with NanDetector(self.get_model()):\n                for _, sample in enumerate(samples):\n                    sample, _ = self._prepare_sample(sample)\n                    self.task.train_step(\n                        sample,\n                        self.model,\n                        self.criterion,\n                        self.optimizer,\n                        self.get_num_updates(),\n                        ignore_grad=False,\n                        **extra_kwargs,\n                    )\n            raise\n        except OverflowError as e:\n            overflow = True\n            logger.info(\n                f\"NOTE: gradient overflow detected, ignoring gradient, {str(e)}\"\n            )\n\n            if hasattr(self, \"param_names\") and hasattr(\n                self.optimizer, \"fp32_optimizer\"\n            ):\n                for p, n in zip(self.optimizer.fp32_optimizer.params, self.param_names):\n                    if torch.isinf(p.grad).any() or torch.isnan(p.grad).any():\n                        logger.info(f\"overflow in param {n}\")\n\n            grad_norm = torch.tensor(0.0).cuda()\n            self.zero_grad()\n        except RuntimeError as e:\n            if \"out of memory\" in str(e):\n                self._log_oom(e)\n                logger.error(\"OOM during optimization, irrecoverable\")\n            raise e\n\n        # Some distributed wrappers (e.g., SlowMo) need access to the optimizer\n        # after the step\n        if hasattr(self.model, \"perform_slowmo\"):\n            self.model.perform_slowmo(\n                self.optimizer.optimizer, getattr(self.optimizer, \"fp32_params\", None)\n            )\n\n        logging_output = None\n        if not overflow or self.cfg.distributed_training.ddp_backend == \"slowmo\":\n            self.set_num_updates(self.get_num_updates() + 1)\n\n            if self.cfg.ema.store_ema:\n                # Step EMA forward with new model.\n                self.ema.step(\n                    self.get_model(),\n                    self.get_num_updates(),\n                )\n                metrics.log_scalar(\n                    \"ema_decay\",\n                    self.ema.get_decay(),\n                    priority=10000,\n                    round=5,\n                    weight=0,\n                )\n\n            if self.tpu:\n                import torch_xla.core.xla_model as xm\n\n                # mark step on TPUs\n                self._xla_markstep_and_send_to_cpu()\n\n                # only log stats every log_interval steps\n                # this causes wps to be misreported when log_interval > 1\n                logging_output = {}\n                if self.get_num_updates() % self.cfg.common.log_interval == 0:\n                    # log memory usage\n                    mem_info = xm.get_memory_info(self.device)\n                    gb_free = mem_info[\"kb_free\"] / 1024 / 1024\n                    gb_total = mem_info[\"kb_total\"] / 1024 / 1024\n                    metrics.log_scalar(\n                        \"gb_free\", gb_free, priority=1500, round=1, weight=0\n                    )\n                    metrics.log_scalar(\n                        \"gb_total\", gb_total, priority=1600, round=1, weight=0\n                    )\n                    logging_outputs = self._xla_markstep_and_send_to_cpu(\n                        logging_outputs\n                    )\n                    logging_output = self._reduce_and_log_stats(\n                        logging_outputs, sample_size, grad_norm\n                    )\n\n                # log whenever there's an XLA compilation, since these\n                # slow down training and may indicate opportunities for\n                # optimization\n                self._check_xla_compilation()\n            else:\n                if self.cuda and self.cuda_env is not None:\n                    # log minimum free memory over the iteration\n                    gb_used = torch.cuda.max_memory_allocated() / 1024 / 1024 / 1024\n                    torch.cuda.reset_peak_memory_stats()\n                    gb_free = self.cuda_env.total_memory_in_GB - gb_used\n                    metrics.log_scalar(\n                        \"gb_free\", gb_free, priority=1500, round=1, weight=0\n                    )\n\n                # log stats\n                logging_output = self._reduce_and_log_stats(\n                    logging_outputs, sample_size, grad_norm\n                )\n\n                # clear CUDA cache to reduce memory fragmentation\n                if (\n                    self.cuda\n                    and self.cfg.common.empty_cache_freq > 0\n                    and (\n                        (self.get_num_updates() + self.cfg.common.empty_cache_freq - 1)\n                        % self.cfg.common.empty_cache_freq\n                    )\n                    == 0\n                ):\n                    torch.cuda.empty_cache()\n\n        if self.cfg.common.fp16 or self.cfg.common.amp:\n            metrics.log_scalar(\n                \"loss_scale\",\n                (\n                    self.optimizer.scaler.loss_scale\n                    if self.cfg.common.fp16\n                    else self.optimizer.scaler.get_scale()\n                ),\n                priority=700,\n                round=4,\n                weight=0,\n            )\n\n        metrics.log_stop_time(\"train_wall\")\n        return logging_output\n\n    @metrics.aggregate(\"valid\")\n    def valid_step(self, sample, raise_oom=False):\n        \"\"\"Do forward pass in evaluation mode.\"\"\"\n        if self.tpu:\n            import torch_xla.core.xla_model as xm\n\n            xm.rendezvous(\"valid_step\")  # wait for all workers\n\n        # If EMA is enabled through store_ema=True\n        # and task.uses_ema is True, pass the EMA model as a keyword\n        # argument to the task.\n        extra_kwargs = {}\n        if self.cfg.ema.store_ema and getattr(self.task, \"uses_ema\", False):\n            extra_kwargs[\"ema_model\"] = self.ema.get_model()\n\n        with torch.no_grad():\n            self.model.eval()\n            self.criterion.eval()\n\n            sample, is_dummy_batch = self._prepare_sample(sample)\n\n            try:\n                _loss, sample_size, logging_output = self.task.valid_step(\n                    sample, self.model, self.criterion, **extra_kwargs\n                )\n            except RuntimeError as e:\n                if \"out of memory\" in str(e):\n                    self._log_oom(e)\n                    if not raise_oom:\n                        logger.warning(\n                            \"ran out of memory in validation step, retrying batch\"\n                        )\n                        for p in self.model.parameters():\n                            if p.grad is not None:\n                                p.grad = None  # free some memory\n                        if self.cuda:\n                            torch.cuda.empty_cache()\n                        return self.valid_step(sample, raise_oom=True)\n                raise e\n\n            logging_outputs = [logging_output]\n            if is_dummy_batch:\n                if torch.is_tensor(sample_size):\n                    sample_size.zero_()\n                else:\n                    sample_size *= 0.0\n\n        # gather logging outputs from all replicas\n        if self.data_parallel_world_size > 1:\n            logging_outputs, (sample_size,) = self._aggregate_logging_outputs(\n                logging_outputs,\n                sample_size,\n                ignore=is_dummy_batch,\n            )\n\n        # log validation stats\n        if self.tpu:\n            logging_outputs = self._xla_markstep_and_send_to_cpu(logging_outputs)\n        logging_output = self._reduce_and_log_stats(logging_outputs, sample_size)\n\n        return logging_output\n\n    def zero_grad(self):\n        self.optimizer.zero_grad()\n\n    def lr_step_begin_epoch(self, epoch):\n        \"\"\"Adjust the learning rate at the beginning of the epoch.\"\"\"\n        self.lr_scheduler.step_begin_epoch(epoch)\n        # prefer updating the LR based on the number of steps\n        return self.lr_step_update()\n\n    def lr_step(self, epoch, val_loss=None):\n        \"\"\"Adjust the learning rate at the end of the epoch.\"\"\"\n        self.lr_scheduler.step(epoch, val_loss)\n        # prefer updating the LR based on the number of steps\n        return self.lr_step_update()\n\n    def lr_step_update(self):\n        \"\"\"Update the learning rate after each update.\"\"\"\n        new_lr = self.lr_scheduler.step_update(self.get_num_updates())\n        if isinstance(new_lr, dict):\n            for k, v in new_lr.items():\n                metrics.log_scalar(f\"lr_{k}\", v, weight=0, priority=300)\n            new_lr = new_lr.get(\"default\", next(iter(new_lr.values())))\n        else:\n            metrics.log_scalar(\"lr\", new_lr, weight=0, priority=300)\n        return new_lr\n\n    def get_lr(self):\n        \"\"\"Get the current learning rate.\"\"\"\n        return self.optimizer.get_lr()\n\n    def get_model(self):\n        \"\"\"Get the (non-wrapped) model instance.\"\"\"\n        return self._model\n\n    def get_criterion(self):\n        \"\"\"Get the (non-wrapped) criterion instance.\"\"\"\n        return self._criterion\n\n    def get_meter(self, name):\n        \"\"\"[deprecated] Get a specific meter by name.\"\"\"\n        from fairseq import meters\n\n        if \"get_meter\" not in self._warn_once:\n            self._warn_once.add(\"get_meter\")\n            utils.deprecation_warning(\n                \"Trainer.get_meter is deprecated. Please use fairseq.metrics instead.\"\n            )\n\n        train_meters = metrics.get_meters(\"train\")\n        if train_meters is None:\n            train_meters = {}\n\n        if name == \"train_loss\" and \"loss\" in train_meters:\n            return train_meters[\"loss\"]\n        elif name == \"train_nll_loss\":\n            # support for legacy train.py, which assumed this meter is\n            # always initialized\n            m = train_meters.get(\"nll_loss\", None)\n            return m or meters.AverageMeter()\n        elif name == \"wall\":\n            # support for legacy train.py, which assumed this meter is\n            # always initialized\n            m = metrics.get_meter(\"default\", \"wall\")\n            return m or meters.TimeMeter()\n        elif name == \"wps\":\n            m = metrics.get_meter(\"train\", \"wps\")\n            return m or meters.TimeMeter()\n        elif name in {\"valid_loss\", \"valid_nll_loss\"}:\n            # support for legacy train.py, which assumed these meters\n            # are always initialized\n            k = name[len(\"valid_\") :]\n            m = metrics.get_meter(\"valid\", k)\n            return m or meters.AverageMeter()\n        elif name == \"oom\":\n            return meters.AverageMeter()\n        elif name in train_meters:\n            return train_meters[name]\n        return None\n\n    def get_num_updates(self):\n        \"\"\"Get the number of parameters updates.\"\"\"\n        return self._num_updates\n\n    def set_num_updates(self, num_updates):\n        \"\"\"Set the number of parameters updates.\"\"\"\n        self._num_updates = num_updates\n        self.lr_step_update()\n        if self.quantizer:\n            self.quantizer.step_update(self._num_updates)\n        metrics.log_scalar(\"num_updates\", self._num_updates, weight=0, priority=200)\n\n    def clip_grad_norm(self, clip_norm):\n        def agg_norm_fn(total_norm):\n            total_norm = total_norm.cuda().float() ** 2\n            total_norm = distributed_utils.all_reduce(\n                total_norm, group=self.data_parallel_process_group\n            )\n            return total_norm**0.5\n\n        should_agg_norm = self.is_fsdp and (\n            self.data_parallel_process_group is not None\n            or torch.distributed.is_initialized()\n        )\n        return self.optimizer.clip_grad_norm(\n            clip_norm, aggregate_norm_fn=agg_norm_fn if should_agg_norm else None\n        )\n\n    def cumulative_training_time(self):\n        if self._cumulative_training_time is None:\n            # single GPU\n            return self._local_cumulative_training_time()\n        else:\n            return self._cumulative_training_time\n\n    def _local_cumulative_training_time(self):\n        \"\"\"Aggregate training time in seconds.\"\"\"\n        return time.time() - self._start_time + self._previous_training_time\n\n    def _fp_convert_sample(self, sample):\n        def apply_half(t):\n            if t.dtype is torch.float32:\n                return t.to(dtype=torch.half)\n            return t\n\n        def apply_bfloat16(t):\n            if t.dtype is torch.float32:\n                return t.to(dtype=torch.bfloat16)\n            return t\n\n        if self.cfg.common.fp16:\n            sample = utils.apply_to_sample(apply_half, sample)\n\n        if self.cfg.common.bf16:\n            sample = utils.apply_to_sample(apply_bfloat16, sample)\n\n        return sample\n\n    def _prepare_sample(self, sample, is_dummy=False):\n        if sample == \"DUMMY\":\n            raise Exception(\n                \"Trying to use an uninitialized 'dummy' batch. This usually indicates \"\n                \"that the total number of batches is smaller than the number of \"\n                \"participating GPUs. Try reducing the batch size or using fewer GPUs.\"\n            )\n\n        if sample is None or len(sample) == 0:\n            assert (\n                self._dummy_batch is not None and len(self._dummy_batch) > 0\n            ), \"Invalid dummy batch: {}\".format(self._dummy_batch)\n            sample, _ = self._prepare_sample(self._dummy_batch, is_dummy=True)\n            return sample, True\n\n        # Given that PCIe/NVLink bandwidth is significantly smaller than DRAM bandwidth\n        # it makes sense to do the format conversion on the CPU and then transfer\n        # a smaller buffer to the device. This also saves GPU memory capacity.\n\n        if self.cfg.common.on_cpu_convert_precision:\n            sample = self._fp_convert_sample(sample)\n\n        if self.cuda:\n            if self.pipeline_model_parallel:\n                if \"target\" in sample:\n                    sample[\"target\"] = utils.move_to_cuda(\n                        sample[\"target\"], device=self.last_device\n                    )\n            else:\n                sample = utils.move_to_cuda(sample)\n        elif self.tpu and is_dummy:\n            # the dummy batch may not be on the appropriate device\n            sample = utils.move_to_cuda(sample, device=self.device)\n\n        if not self.cfg.common.on_cpu_convert_precision:\n            sample = self._fp_convert_sample(sample)\n\n        if self._dummy_batch == \"DUMMY\":\n            self._dummy_batch = sample\n\n        return sample, False\n\n    def _set_seed(self):\n        # Set seed based on args.seed and the update number so that we get\n        # reproducible results when resuming from checkpoints\n        seed = self.cfg.common.seed + self.get_num_updates()\n        utils.set_torch_seed(seed)\n\n    def _sync_stats(self):\n        # Return True if it's using multiple GPUs and DDP or multiple GPUs with\n        # BMUF and it's a bmuf sync with warmup iterations completed before.\n        if self.data_parallel_world_size == 1:\n            return False\n        elif self.cfg.optimization.use_bmuf:\n            return (\n                self.get_num_updates() + 1\n            ) % self.cfg.bmuf.global_sync_iter == 0 and (\n                self.get_num_updates() + 1\n            ) > self.cfg.bmuf.warmup_iterations\n        else:\n            return True\n\n    def _log_oom(self, exc):\n        msg = \"OOM: Ran out of memory with exception: {}\".format(exc)\n        logger.warning(msg)\n        if torch.cuda.is_available() and hasattr(torch.cuda, \"memory_summary\"):\n            for device_idx in range(torch.cuda.device_count()):\n                logger.warning(torch.cuda.memory_summary(device=device_idx))\n        sys.stderr.flush()\n\n    def _aggregate_logging_outputs(\n        self,\n        logging_outputs: List[Dict[str, Any]],\n        *extra_stats_to_sum,\n        ignore=False,\n    ):\n        if self.task.__class__.logging_outputs_can_be_summed(self.get_criterion()):\n            return self._fast_stat_sync_sum(\n                logging_outputs, *extra_stats_to_sum, ignore=ignore\n            )\n        else:\n            return self._all_gather_list_sync(\n                logging_outputs, *extra_stats_to_sum, ignore=ignore\n            )\n\n    def _all_gather_list_sync(\n        self,\n        logging_outputs: List[Dict[str, Any]],\n        *extra_stats_to_sum,\n        ignore=False,\n    ):\n        \"\"\"\n        Sync logging outputs across workers. all_gather_list_sync is\n        suitable when logging outputs are complex types.\n        \"\"\"\n        if self.tpu:\n            raise NotImplementedError\n        if ignore:\n            logging_outputs = []\n        results = list(\n            zip(\n                *distributed_utils.all_gather_list(\n                    [logging_outputs] + list(extra_stats_to_sum),\n                    max_size=getattr(self.cfg.common, \"all_gather_list_size\", 16384),\n                    group=self.data_parallel_process_group,\n                )\n            )\n        )\n        logging_outputs, extra_stats_to_sum = results[0], results[1:]\n        logging_outputs = list(chain.from_iterable(logging_outputs))\n        extra_stats_to_sum = [sum(s) for s in extra_stats_to_sum]\n        return logging_outputs, extra_stats_to_sum\n\n    def _fast_stat_sync_sum(\n        self,\n        logging_outputs: List[Dict[str, Any]],\n        *extra_stats_to_sum,\n        ignore=False,\n    ):\n        \"\"\"\n        Sync logging outputs across workers. fast_stat_sync_sum is\n        faster than all_gather_list_sync, but is only suitable when\n        logging outputs are scalars and can be summed. Note that\n        *logging_outputs* cannot contain any nested dicts/lists.\n        \"\"\"\n        data = {}\n        for i, stat in enumerate(extra_stats_to_sum):\n            data[\"extra_stats_\" + str(i)] = stat\n        if len(logging_outputs) > 0:\n            log_keys = list(logging_outputs[0].keys())\n            for k in log_keys:\n                if not ignore:\n                    v = sum(log[k] for log in logging_outputs if k in log)\n                else:\n                    v = logging_outputs[0][k]\n                    v = torch.zeros_like(v) if torch.is_tensor(v) else 0\n                data[\"logging_outputs_\" + k] = v\n        else:\n            log_keys = None\n\n        data = distributed_utils.all_reduce_dict(\n            data, device=self.device, group=self.data_parallel_process_group\n        )\n\n        extra_stats_to_sum = [\n            data[\"extra_stats_\" + str(i)] for i in range(len(extra_stats_to_sum))\n        ]\n        if log_keys is not None:\n            logging_outputs = [{k: data[\"logging_outputs_\" + k] for k in log_keys}]\n        else:\n            logging_outputs = []\n        return logging_outputs, extra_stats_to_sum\n\n    def _check_grad_norms(self, grad_norm):\n        \"\"\"Check that grad norms are consistent across workers.\"\"\"\n        if self._grad_norm_buf is not None:\n            self._grad_norm_buf.zero_()\n            self._grad_norm_buf[self.data_parallel_rank] = grad_norm\n            distributed_utils.all_reduce(\n                self._grad_norm_buf, group=self.data_parallel_process_group\n            )\n\n            def is_consistent(tensor):\n                max_abs_diff = torch.max(torch.abs(tensor - tensor[0]))\n                return (\n                    (\n                        torch.isfinite(tensor).all()\n                        and (max_abs_diff / (tensor[0] + 1e-6) < 1e-6).all()\n                    )\n                    or (self.cfg.common.amp and not torch.isfinite(tensor).all())\n                    # in case of amp non-finite grads are fine\n                )\n\n            if not is_consistent(self._grad_norm_buf):\n                pretty_detail = \"\\n\".join(\n                    \"rank {:3d} = {:.8f}\".format(r, n)\n                    for r, n in enumerate(self._grad_norm_buf.tolist())\n                )\n                error_detail = \"grad_norm across the workers:\\n{}\\n\".format(\n                    pretty_detail\n                )\n                # use FloatingPointError to trigger NanDetector\n                raise FloatingPointError(\n                    \"Fatal error: gradients are inconsistent between workers. \"\n                    \"Try --ddp-backend=legacy_ddp. \"\n                    \"Or are you mixing up different generation of GPUs in training?\"\n                    + \"\\n\"\n                    + \"-\" * 80\n                    + \"\\n{}\\n\".format(error_detail)\n                    + \"-\" * 80\n                )\n\n    def _reduce_and_log_stats(self, logging_outputs, sample_size, grad_norm=None):\n        if grad_norm is not None and (\n            not torch.is_tensor(grad_norm) or torch.isfinite(grad_norm)\n        ):\n            metrics.log_speed(\"ups\", 1.0, priority=100, round=2)\n            metrics.log_scalar(\"gnorm\", grad_norm, priority=400, round=3)\n            if self.cfg.optimization.clip_norm > 0:\n                metrics.log_scalar(\n                    \"clip\",\n                    torch.where(\n                        grad_norm > self.cfg.optimization.clip_norm,\n                        grad_norm.new_tensor(100),\n                        grad_norm.new_tensor(0),\n                    ),\n                    priority=500,\n                    round=1,\n                )\n\n        with metrics.aggregate() as agg:\n            if logging_outputs is not None:\n                self.task.reduce_metrics(logging_outputs, self.get_criterion())\n                del logging_outputs\n\n            # extra warning for criterions that don't properly log a loss value\n            if \"loss\" not in agg:\n                if \"loss\" not in self._warn_once:\n                    self._warn_once.add(\"loss\")\n                    logger.warning(\n                        \"Criterion.reduce_metrics did not log a 'loss' value, \"\n                        \"which may break some functionality\"\n                    )\n                metrics.log_scalar(\"loss\", -1)\n\n            # support legacy interface\n            if self.tpu:\n                logging_output = {}\n            else:\n                logging_output = agg.get_smoothed_values()\n                logging_output[\"sample_size\"] = sample_size\n                for key_to_delete in [\"ppl\", \"wps\", \"wpb\", \"bsz\"]:\n                    if key_to_delete in logging_output:\n                        del logging_output[key_to_delete]\n            return logging_output\n\n    def _check_xla_compilation(self):\n        import torch_xla.debug.metrics as met\n\n        compile_stats = met.metric_data(\"CompileTime\")\n        if compile_stats is None:\n            return\n        num_xla_compiles = compile_stats[0]\n        if num_xla_compiles > self._num_xla_compiles:\n            logger.warning(\n                \"XLA compilation detected on device #{}; too many of these can lead \"\n                \"to slow training, but we expect a few in the beginning\".format(\n                    self.cfg.distributed_training.distributed_rank\n                )\n            )\n        self._num_xla_compiles = num_xla_compiles\n\n    def _xla_markstep_and_send_to_cpu(self, data=None):\n        import torch_xla.core.xla_model as xm\n\n        xm.mark_step()\n        if data is not None:\n            from fairseq.utils import xla_device_to_cpu\n\n            return xla_device_to_cpu(data)\n\n\ndef _catalog_shared_params(module, memo=None, prefix=\"\"):\n    if memo is None:\n        first_call = True\n        memo = {}\n    else:\n        first_call = False\n    for name, param in module._parameters.items():\n        param_prefix = prefix + (\".\" if prefix else \"\") + name\n        if param not in memo:\n            memo[param] = []\n        memo[param].append(param_prefix)\n    for name, m in module._modules.items():\n        if m is None:\n            continue\n        submodule_prefix = prefix + (\".\" if prefix else \"\") + name\n        _catalog_shared_params(m, memo, submodule_prefix)\n    if first_call:\n        return [x for x in memo.values() if len(x) > 1]\n\n\ndef _get_module_by_path(module, path):\n    path = path.split(\".\")\n    for name in path:\n        module = getattr(module, name)\n    return module\n\n\ndef _set_module_by_path(module, path, value):\n    path = path.split(\".\")\n    for name in path[:-1]:\n        module = getattr(module, name)\n    setattr(module, path[-1], value)\n"
  },
  {
    "path": "fairseq/utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport collections\nimport contextlib\nimport copy\nimport importlib\nimport logging\nimport os\nimport sys\nimport warnings\nfrom itertools import accumulate\nfrom typing import TYPE_CHECKING, Callable, Dict, List, Optional\n\nimport torch\nimport torch.nn.functional as F\nfrom torch import Tensor\n\nif TYPE_CHECKING:\n    from fairseq.modules.multihead_attention import MultiheadAttention\n\ntry:\n    from amp_C import multi_tensor_l2norm\n\n    multi_tensor_l2norm_available = True\nexcept ImportError:\n    multi_tensor_l2norm_available = False\n\ntry:\n    import torch_xla.core.xla_model as xm\nexcept ImportError:\n    xm = None\n\n\nlogger = logging.getLogger(__name__)\n\n\nMANIFOLD_PATH_SEP = \"|\"\n\n\nclass FileContentsAction(argparse.Action):\n    def __init__(self, option_strings, dest, nargs=None, **kwargs):\n        if nargs is not None:\n            raise ValueError(\"nargs not allowed\")\n        super(FileContentsAction, self).__init__(option_strings, dest, **kwargs)\n\n    def __call__(self, parser, namespace, values, option_string=None):\n        from fairseq.file_io import PathManager\n\n        if PathManager.isfile(values):\n            with PathManager.open(values) as f:\n                argument = f.read().strip()\n        else:\n            argument = values\n        setattr(namespace, self.dest, argument)\n\n\ndef split_paths(paths: str, separator=os.pathsep) -> List[str]:\n    return (\n        paths.split(separator) if \"://\" not in paths else paths.split(MANIFOLD_PATH_SEP)\n    )\n\n\ndef load_ensemble_for_inference(filenames, task, model_arg_overrides=None):\n    from fairseq import checkpoint_utils\n\n    deprecation_warning(\n        \"utils.load_ensemble_for_inference is deprecated. \"\n        \"Please use checkpoint_utils.load_model_ensemble instead.\"\n    )\n    return checkpoint_utils.load_model_ensemble(\n        filenames, arg_overrides=model_arg_overrides, task=task\n    )\n\n\ndef apply_to_sample(f, sample):\n    if hasattr(sample, \"__len__\") and len(sample) == 0:\n        return {}\n\n    def _apply(x):\n        if torch.is_tensor(x):\n            return f(x)\n        elif isinstance(x, collections.OrderedDict):\n            # OrderedDict has attributes that needs to be preserved\n            od = collections.OrderedDict(\n                (key, _apply(value)) for key, value in x.items()\n            )\n            od.__dict__ = x.__dict__\n            return od\n        elif isinstance(x, dict):\n            return {key: _apply(value) for key, value in x.items()}\n        elif isinstance(x, list):\n            return [_apply(x) for x in x]\n        elif isinstance(x, tuple):\n            return tuple(_apply(x) for x in x)\n        elif isinstance(x, set):\n            return {_apply(x) for x in x}\n        else:\n            return x\n\n    return _apply(sample)\n\n\ndef move_to_cuda(sample, device=None):\n    device = device or torch.cuda.current_device()\n\n    def _move_to_cuda(tensor):\n        # non_blocking is ignored if tensor is not pinned, so we can always set\n        # to True (see github.com/PyTorchLightning/pytorch-lightning/issues/620)\n        return tensor.to(device=device, non_blocking=True)\n\n    return apply_to_sample(_move_to_cuda, sample)\n\n\ndef move_to_cpu(sample):\n    def _move_to_cpu(tensor):\n        # PyTorch has poor support for half tensors (float16) on CPU.\n        # Move any such tensors to float32.\n        if tensor.dtype in {torch.bfloat16, torch.float16}:\n            tensor = tensor.to(dtype=torch.float32)\n        return tensor.cpu()\n\n    return apply_to_sample(_move_to_cpu, sample)\n\n\ndef move_to_tpu(sample):\n\n    import torch_xla.core.xla_model as xm\n\n    device = xm.xla_device()\n\n    def _move_to_tpu(tensor):\n        return tensor.to(device)\n\n    return apply_to_sample(_move_to_tpu, sample)\n\n\ndef get_incremental_state(\n    module: \"MultiheadAttention\",\n    incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]],\n    key: str,\n) -> Optional[Dict[str, Optional[Tensor]]]:\n    \"\"\"Helper for getting incremental state for an nn.Module.\"\"\"\n    return module.get_incremental_state(incremental_state, key)\n\n\ndef set_incremental_state(\n    module: \"MultiheadAttention\",\n    incremental_state: Optional[Dict[str, Dict[str, Optional[Tensor]]]],\n    key: str,\n    value: Dict[str, Optional[Tensor]],\n) -> Optional[Dict[str, Dict[str, Optional[Tensor]]]]:\n    \"\"\"Helper for setting incremental state for an nn.Module.\"\"\"\n    if incremental_state is not None:\n        result = module.set_incremental_state(incremental_state, key, value)\n        if result is not None:\n            incremental_state = result\n    return incremental_state\n\n\ndef load_align_dict(replace_unk):\n    if replace_unk is None:\n        align_dict = None\n    elif isinstance(replace_unk, str) and len(replace_unk) > 0:\n        # Load alignment dictionary for unknown word replacement if it was passed as an argument.\n        align_dict = {}\n        with open(replace_unk, \"r\") as f:\n            for line in f:\n                cols = line.split()\n                align_dict[cols[0]] = cols[1]\n    else:\n        # No alignment dictionary provided but we still want to perform unknown word replacement by copying the\n        # original source word.\n        align_dict = {}\n    return align_dict\n\n\ndef print_embed_overlap(embed_dict, vocab_dict):\n    embed_keys = set(embed_dict.keys())\n    vocab_keys = set(vocab_dict.symbols)\n    overlap = len(embed_keys & vocab_keys)\n    logger.info(\"found {}/{} types in embedding file\".format(overlap, len(vocab_dict)))\n\n\ndef parse_embedding(embed_path):\n    \"\"\"Parse embedding text file into a dictionary of word and embedding tensors.\n\n    The first line can have vocabulary size and dimension. The following lines\n    should contain word and embedding separated by spaces.\n\n    Example:\n        2 5\n        the -0.0230 -0.0264  0.0287  0.0171  0.1403\n        at -0.0395 -0.1286  0.0275  0.0254 -0.0932\n    \"\"\"\n    embed_dict = {}\n    with open(embed_path) as f_embed:\n        next(f_embed)  # skip header\n        for line in f_embed:\n            pieces = line.rstrip().split(\" \")\n            embed_dict[pieces[0]] = torch.Tensor(\n                [float(weight) for weight in pieces[1:]]\n            )\n    return embed_dict\n\n\ndef load_embedding(embed_dict, vocab, embedding):\n    for idx in range(len(vocab)):\n        token = vocab[idx]\n        if token in embed_dict:\n            embedding.weight.data[idx] = embed_dict[token]\n    return embedding\n\n\ndef replace_unk(hypo_str, src_str, alignment, align_dict, unk):\n    from fairseq import tokenizer\n\n    # Tokens are strings here\n    hypo_tokens = tokenizer.tokenize_line(hypo_str)\n    # TODO: Very rare cases where the replacement is '<eos>' should be handled gracefully\n    src_tokens = tokenizer.tokenize_line(src_str) + [\"<eos>\"]\n    for i, ht in enumerate(hypo_tokens):\n        if ht == unk:\n            src_token = src_tokens[alignment[i]]\n            # Either take the corresponding value in the aligned dictionary or just copy the original value.\n            hypo_tokens[i] = align_dict.get(src_token, src_token)\n    return \" \".join(hypo_tokens)\n\n\ndef post_process_prediction(\n    hypo_tokens,\n    src_str,\n    alignment,\n    align_dict,\n    tgt_dict,\n    remove_bpe=None,\n    extra_symbols_to_ignore=None,\n):\n    hypo_str = tgt_dict.string(\n        hypo_tokens, remove_bpe, extra_symbols_to_ignore=extra_symbols_to_ignore\n    )\n    if align_dict is not None:\n        hypo_str = replace_unk(\n            hypo_str, src_str, alignment, align_dict, tgt_dict.unk_string()\n        )\n    if align_dict is not None or remove_bpe is not None:\n        # Convert back to tokens for evaluating with unk replacement or without BPE\n        # Note that the dictionary can be modified inside the method.\n        hypo_tokens = tgt_dict.encode_line(hypo_str, add_if_not_exist=True)\n    return hypo_tokens, hypo_str, alignment\n\n\ndef make_positions(tensor, padding_idx: int, onnx_trace: bool = False):\n    \"\"\"Replace non-padding symbols with their position numbers.\n\n    Position numbers begin at padding_idx+1. Padding symbols are ignored.\n    \"\"\"\n    # The series of casts and type-conversions here are carefully\n    # balanced to both work with ONNX export and XLA. In particular XLA\n    # prefers ints, cumsum defaults to output longs, and ONNX doesn't know\n    # how to handle the dtype kwarg in cumsum.\n    mask = tensor.ne(padding_idx).int()\n    return (torch.cumsum(mask, dim=1).type_as(mask) * mask).long() + padding_idx\n\n\ndef strip_pad(tensor, pad):\n    return tensor[tensor.ne(pad)]\n\n\ndef buffered_arange(max, device=\"cpu\"):\n    if not hasattr(buffered_arange, \"buf\"):\n        buffered_arange.buf = torch.LongTensor().to(device)\n    if max > buffered_arange.buf.numel():\n        buffered_arange.buf.resize_(max)\n        torch.arange(max, out=buffered_arange.buf)\n    return buffered_arange.buf[:max]\n\n\ndef convert_padding_direction(\n    src_tokens, padding_idx, right_to_left: bool = False, left_to_right: bool = False\n):\n    assert right_to_left ^ left_to_right\n    pad_mask = src_tokens.eq(padding_idx)\n    if not pad_mask.any():\n        # no padding, return early\n        return src_tokens\n    if left_to_right and not pad_mask[:, 0].any():\n        # already right padded\n        return src_tokens\n    if right_to_left and not pad_mask[:, -1].any():\n        # already left padded\n        return src_tokens\n    max_len = src_tokens.size(1)\n    buffered = torch.empty(0).long()\n    if max_len > 0:\n        torch.arange(max_len, out=buffered)\n    range = buffered.type_as(src_tokens).expand_as(src_tokens)\n    num_pads = pad_mask.long().sum(dim=1, keepdim=True)\n    if right_to_left:\n        index = torch.remainder(range - num_pads, max_len)\n    else:\n        index = torch.remainder(range + num_pads, max_len)\n    return src_tokens.gather(1, index)\n\n\ndef item(tensor):\n    # tpu-comment: making this a no-op for xla devices.\n    if torch.is_tensor(tensor) and tensor.device.type == \"xla\":\n        return tensor.detach()\n    if hasattr(tensor, \"item\"):\n        return tensor.item()\n    if hasattr(tensor, \"__getitem__\"):\n        return tensor[0]\n    return tensor\n\n\ndef multi_tensor_total_norm(grads, chunk_size=2048 * 32) -> torch.Tensor:\n    per_device_grads = {}\n    norms = []\n    for grad in grads:\n        device = grad.device\n        cur_device_grads = per_device_grads.get(device)\n        if cur_device_grads is None:\n            cur_device_grads = []\n            per_device_grads[device] = cur_device_grads\n        cur_device_grads.append(grad)\n    for device in per_device_grads.keys():\n        cur_device_grads = per_device_grads[device]\n        if device.type == \"cuda\":\n            # TODO(msb) return has_inf\n            has_inf = torch.zeros((1, 1), dtype=torch.int, device=device)\n            with torch.cuda.device(device):\n                norm = multi_tensor_l2norm(\n                    chunk_size, has_inf, [cur_device_grads], False\n                )\n            norms.append(norm[0].to(torch.cuda.current_device()))\n        else:\n            norms += [torch.norm(g, p=2, dtype=torch.float32) for g in cur_device_grads]\n    total_norm = torch.norm(torch.stack(norms))\n    return total_norm\n\n\n@torch.no_grad()\ndef clip_grad_norm_(params, max_norm, aggregate_norm_fn=None) -> torch.Tensor:\n    def grad_exists(p):\n        return p is not None and getattr(p, \"grad\", None) is not None\n\n    if isinstance(params, torch.Tensor):\n        params = [params]\n    params = list(params)\n    grads = [\n        p.grad.detach() for p in params if grad_exists(p) and not hasattr(p, \"expert\")\n    ]\n    expert_grads = [\n        p.grad.detach() for p in params if grad_exists(p) and hasattr(p, \"expert\")\n    ]\n\n    if len(grads) == 0:\n        if len(params) > 0:\n            return params[0].new_tensor(0.0)\n        else:\n            return torch.tensor(0.0)\n\n    if len(grads) == 1:\n        total_norm = torch.norm(grads[0], p=2, dtype=torch.float32)\n    else:\n        if multi_tensor_l2norm_available:\n            total_norm = multi_tensor_total_norm(grads)\n        else:\n            if torch.cuda.is_available():\n                warnings.warn(\n                    \"amp_C fused kernels unavailable, disabling multi_tensor_l2norm; \"\n                    \"you may get better performance by installing NVIDIA's apex library\"\n                )\n                device = torch.cuda.current_device()\n            elif grads[0].device.type == \"xla\":\n                device = grads[0].device\n            else:\n                device = torch.device(\"cpu\")\n            total_norm = torch.norm(\n                torch.stack(\n                    [torch.norm(g, p=2, dtype=torch.float32).to(device) for g in grads]\n                )\n            )\n\n    if aggregate_norm_fn is not None:\n        total_norm = aggregate_norm_fn(total_norm)\n\n    if max_norm > 0:\n        max_norm = float(max_norm)\n        clip_coef = (max_norm / (total_norm + 1e-6)).clamp_(max=1)\n        torch._foreach_mul_(grads + expert_grads, clip_coef)\n\n    return total_norm\n\n\ndef fill_with_neg_inf(t):\n    \"\"\"FP16-compatible function that fills a tensor with -inf.\"\"\"\n    return t.float().fill_(float(\"-inf\")).type_as(t)\n\n\ndef _match_types(arg1, arg2):\n    \"\"\"Convert the numerical argument to the same type as the other argument\"\"\"\n\n    def upgrade(arg_number, arg_structure):\n        if isinstance(arg_structure, tuple):\n            return tuple([arg_number] * len(arg_structure))\n        elif isinstance(arg_structure, dict):\n            arg = copy.deepcopy(arg_structure)\n            for k in arg:\n                arg[k] = upgrade(arg_number, arg_structure[k])\n            return arg\n        else:\n            return arg_number\n\n    if isinstance(arg1, float) or isinstance(arg1, int):\n        return upgrade(arg1, arg2), arg2\n    elif isinstance(arg2, float) or isinstance(arg2, int):\n        return arg1, upgrade(arg2, arg1)\n\n    return arg1, arg2\n\n\ndef resolve_max_positions(*args):\n    \"\"\"Resolve max position constraints from multiple sources.\"\"\"\n\n    def map_value_update(d1, d2):\n        updated_value = copy.deepcopy(d1)\n        for key in d2:\n            if key not in updated_value:\n                updated_value[key] = d2[key]\n            else:\n                updated_value[key] = min(d1[key], d2[key])\n        return updated_value\n\n    def nullsafe_min(l):\n        minim = None\n        for item in l:\n            if minim is None:\n                minim = item\n            elif item is not None and item < minim:\n                minim = item\n        return minim\n\n    max_positions = None\n    for arg in args:\n        if max_positions is None:\n            max_positions = arg\n        elif arg is not None:\n            max_positions, arg = _match_types(max_positions, arg)\n            if isinstance(arg, float) or isinstance(arg, int):\n                max_positions = min(max_positions, arg)\n            elif isinstance(arg, dict):\n                max_positions = map_value_update(max_positions, arg)\n            else:\n                max_positions = tuple(map(nullsafe_min, zip(max_positions, arg)))\n\n    return max_positions\n\n\ndef import_user_module(args):\n    module_path = getattr(args, \"user_dir\", None)\n    if module_path is not None:\n        module_path = os.path.abspath(args.user_dir)\n        if not os.path.exists(module_path) and not os.path.isfile(\n            os.path.dirname(module_path)\n        ):\n            fairseq_rel_path = os.path.join(os.path.dirname(__file__), args.user_dir)\n            if os.path.exists(fairseq_rel_path):\n                module_path = fairseq_rel_path\n            else:\n                fairseq_rel_path = os.path.join(\n                    os.path.dirname(__file__), \"..\", args.user_dir\n                )\n                if os.path.exists(fairseq_rel_path):\n                    module_path = fairseq_rel_path\n                else:\n                    raise FileNotFoundError(module_path)\n\n        # ensure that user modules are only imported once\n        import_user_module.memo = getattr(import_user_module, \"memo\", set())\n        if module_path not in import_user_module.memo:\n            import_user_module.memo.add(module_path)\n\n            module_parent, module_name = os.path.split(module_path)\n            if module_name not in sys.modules:\n                sys.path.insert(0, module_parent)\n                importlib.import_module(module_name)\n\n                tasks_path = os.path.join(module_path, \"tasks\")\n                if os.path.exists(tasks_path):\n                    from fairseq.tasks import import_tasks\n\n                    import_tasks(tasks_path, f\"{module_name}.tasks\")\n\n                models_path = os.path.join(module_path, \"models\")\n                if os.path.exists(models_path):\n                    from fairseq.models import import_models\n\n                    import_models(models_path, f\"{module_name}.models\")\n            elif module_path in sys.modules[module_name].__path__:\n                logger.info(f\"--user-dir={module_path} has already been imported.\")\n            else:\n                raise ImportError(\n                    \"Failed to import --user-dir={} because the corresponding module name \"\n                    \"({}) is not globally unique. Please rename the directory to \"\n                    \"something unique and try again.\".format(module_path, module_name)\n                )\n\n\ndef softmax(x, dim: int, onnx_trace: bool = False):\n    if onnx_trace:\n        return F.softmax(x.float(), dim=dim)\n    else:\n        return F.softmax(x, dim=dim, dtype=torch.float32)\n\n\ndef log_softmax(x, dim: int, onnx_trace: bool = False):\n    if onnx_trace:\n        return F.log_softmax(x.float(), dim=dim)\n    else:\n        return F.log_softmax(x, dim=dim, dtype=torch.float32)\n\n\ndef get_perplexity(loss, round=2, base=2):\n    from fairseq.logging.meters import safe_round\n\n    if loss is None:\n        return 0.0\n    try:\n        return safe_round(base**loss, round)\n    except OverflowError:\n        return float(\"inf\")\n\n\ndef deprecation_warning(message, stacklevel=3):\n    # don't use DeprecationWarning, since it's ignored by default\n    warnings.warn(message, stacklevel=stacklevel)\n\n\ndef relu_squared(x: torch.Tensor):\n    return F.relu(x).pow(2)\n\n\ndef get_activation_fn(activation: str) -> Callable:\n    \"\"\"Returns the activation function corresponding to `activation`\"\"\"\n    from fairseq.modules import gelu, gelu_accurate\n\n    if activation == \"relu\":\n        return F.relu\n    elif activation == \"relu_squared\":\n        return relu_squared\n    elif activation == \"gelu\":\n        return gelu\n    elif activation == \"gelu_fast\":\n        deprecation_warning(\n            \"--activation-fn=gelu_fast has been renamed to gelu_accurate\"\n        )\n        return gelu_accurate\n    elif activation == \"gelu_accurate\":\n        return gelu_accurate\n    elif activation == \"tanh\":\n        return torch.tanh\n    elif activation == \"linear\":\n        return lambda x: x\n    elif activation == \"swish\":\n        return torch.nn.SiLU\n    else:\n        raise RuntimeError(\"--activation-fn {} not supported\".format(activation))\n\n\ndef get_available_activation_fns() -> List:\n    return [\n        \"relu\",\n        \"gelu\",\n        \"gelu_fast\",  # deprecated\n        \"gelu_accurate\",\n        \"tanh\",\n        \"linear\",\n    ]\n\n\n@contextlib.contextmanager\ndef model_eval(model):\n    is_training = model.training\n    model.eval()\n    yield\n    model.train(is_training)\n\n\ndef has_parameters(module):\n    try:\n        next(module.parameters())\n        return True\n    except StopIteration:\n        return False\n\n\ndef get_rng_state():\n    state = {\"torch_rng_state\": torch.get_rng_state()}\n    if xm is not None:\n        state[\"xla_rng_state\"] = xm.get_rng_state()\n    if torch.cuda.is_available():\n        state[\"cuda_rng_state\"] = torch.cuda.get_rng_state()\n    return state\n\n\ndef set_rng_state(state):\n    torch.set_rng_state(state[\"torch_rng_state\"])\n    if xm is not None:\n        xm.set_rng_state(state[\"xla_rng_state\"])\n    if torch.cuda.is_available():\n        torch.cuda.set_rng_state(state[\"cuda_rng_state\"])\n\n\nclass set_torch_seed(object):\n    def __init__(self, seed):\n        assert isinstance(seed, int)\n        self.rng_state = get_rng_state()\n\n        torch.manual_seed(seed)\n        if xm is not None:\n            xm.set_rng_state(seed)\n        if torch.cuda.is_available():\n            torch.cuda.manual_seed(seed)\n\n    def __enter__(self):\n        return self\n\n    def __exit__(self, *exc):\n        set_rng_state(self.rng_state)\n\n\ndef parse_alignment(line):\n    \"\"\"\n    Parses a single line from the alingment file.\n\n    Args:\n        line (str): String containing the alignment of the format:\n            <src_idx_1>-<tgt_idx_1> <src_idx_2>-<tgt_idx_2> ..\n            <src_idx_m>-<tgt_idx_m>. All indices are 0 indexed.\n\n    Returns:\n        torch.IntTensor: packed alignments of shape (2 * m).\n    \"\"\"\n    alignments = line.strip().split()\n    parsed_alignment = torch.IntTensor(2 * len(alignments))\n    for idx, alignment in enumerate(alignments):\n        src_idx, tgt_idx = alignment.split(\"-\")\n        parsed_alignment[2 * idx] = int(src_idx)\n        parsed_alignment[2 * idx + 1] = int(tgt_idx)\n    return parsed_alignment\n\n\ndef get_token_to_word_mapping(tokens, exclude_list):\n    n = len(tokens)\n    word_start = [int(token not in exclude_list) for token in tokens]\n    word_idx = list(accumulate(word_start))\n    token_to_word = {i: word_idx[i] for i in range(n)}\n    return token_to_word\n\n\ndef extract_hard_alignment(attn, src_sent, tgt_sent, pad, eos):\n    tgt_valid = (\n        ((tgt_sent != pad) & (tgt_sent != eos)).nonzero(as_tuple=False).squeeze(dim=-1)\n    )\n    src_invalid = (\n        ((src_sent == pad) | (src_sent == eos)).nonzero(as_tuple=False).squeeze(dim=-1)\n    )\n    src_token_to_word = get_token_to_word_mapping(src_sent, [eos, pad])\n    tgt_token_to_word = get_token_to_word_mapping(tgt_sent, [eos, pad])\n    alignment = []\n    if len(tgt_valid) != 0 and len(src_invalid) < len(src_sent):\n        attn_valid = attn[tgt_valid]\n        attn_valid[:, src_invalid] = float(\"-inf\")\n        _, src_indices = attn_valid.max(dim=1)\n        for tgt_idx, src_idx in zip(tgt_valid, src_indices):\n            alignment.append(\n                (\n                    src_token_to_word[src_idx.item()] - 1,\n                    tgt_token_to_word[tgt_idx.item()] - 1,\n                )\n            )\n    return alignment\n\n\ndef extract_soft_alignment(attn, src_sent, tgt_sent, pad, eos):\n    tgt_valid = ((tgt_sent != pad)).nonzero(as_tuple=False)\n    src_valid = ((src_sent != pad)).nonzero(as_tuple=False).squeeze(dim=-1)\n    alignment = []\n    if len(tgt_valid) != 0 and len(src_valid) != 0:\n        attn_valid = attn[tgt_valid, src_valid]\n        alignment = [\n            [\"{:.6f}\".format(p) for p in src_probs.tolist()] for src_probs in attn_valid\n        ]\n    return alignment\n\n\ndef new_arange(x, *size):\n    \"\"\"\n    Return a Tensor of `size` filled with a range function on the device of x.\n    If size is empty, using the size of the variable x.\n    \"\"\"\n    if len(size) == 0:\n        size = x.size()\n    return torch.arange(size[-1], device=x.device).expand(*size).contiguous()\n\n\ndef get_tpu_device():\n    return xm.xla_device()\n\n\ndef tpu_data_loader(itr):\n    import torch_xla.core.xla_model as xm\n    import torch_xla.distributed.parallel_loader as pl\n\n    from fairseq.data import iterators\n\n    xm.rendezvous(\"tpu_data_loader\")  # wait for all workers\n    xm.mark_step()\n    device = xm.xla_device()\n    return iterators.CountingIterator(\n        pl.ParallelLoader(itr, [device]).per_device_loader(device),\n        start=getattr(itr, \"n\", 0),\n        total=len(itr),\n    )\n\n\ndef is_xla_tensor(tensor):\n    return torch.is_tensor(tensor) and tensor.device.type == \"xla\"\n\n\ndef index_put(tensor, indices, value):\n    if is_xla_tensor(tensor):\n        for _ in range(indices.dim(), tensor.dim()):\n            indices = indices.unsqueeze(-1)\n        if indices.size(-1) < tensor.size(-1):\n            indices = indices.expand_as(tensor)\n        tensor = torch.mul(tensor, ~indices) + torch.mul(value, indices)\n    else:\n        tensor[indices] = value\n    return tensor\n\n\ndef xla_device_to_cpu(dat):\n    import torch_xla.core.xla_model as xm\n\n    return xm._maybe_convert_to_cpu(dat)\n\n\nclass CudaEnvironment(object):\n    def __init__(self):\n        cur_device = torch.cuda.current_device()\n        prop = torch.cuda.get_device_properties(\"cuda:{}\".format(cur_device))\n        self.name = prop.name\n        self.major = prop.major\n        self.minor = prop.minor\n        self.total_memory_in_GB = prop.total_memory / 1024 / 1024 / 1024\n\n    @staticmethod\n    def pretty_print_cuda_env_list(cuda_env_list):\n        \"\"\"\n        Given a list of CudaEnviorments, pretty print them\n        \"\"\"\n        num_workers = len(cuda_env_list)\n        center = \"CUDA enviroments for all {} workers\".format(num_workers)\n        banner_len = 40 - len(center) // 2\n        first_line = \"*\" * banner_len + center + \"*\" * banner_len\n        logger.info(first_line)\n        for r, env in enumerate(cuda_env_list):\n            logger.info(\n                \"rank {:3d}: \".format(r)\n                + \"capabilities = {:2d}.{:<2d} ; \".format(env.major, env.minor)\n                + \"total memory = {:.3f} GB ; \".format(env.total_memory_in_GB)\n                + \"name = {:40s}\".format(env.name)\n            )\n        logger.info(first_line)\n\n\ndef csv_str_list(x):\n    return x.split(\",\")\n\n\ndef eval_str_list(x, type=float):\n    if x is None:\n        return None\n    if isinstance(x, str):\n        x = eval(x)\n    try:\n        return list(map(type, x))\n    except TypeError:\n        return [type(x)]\n\n\ndef eval_str_dict(x, type=dict):\n    if x is None:\n        return None\n    if isinstance(x, str):\n        x = eval(x)\n    return x\n\n\ndef eval_bool(x, default=False):\n    if x is None:\n        return default\n    try:\n        return bool(eval(x))\n    except TypeError:\n        return default\n\n\ndef reset_logging():\n    root = logging.getLogger()\n    for handler in root.handlers:\n        root.removeHandler(handler)\n    root.setLevel(os.environ.get(\"LOGLEVEL\", \"INFO\").upper())\n    handler = logging.StreamHandler(sys.stdout)\n    handler.setFormatter(\n        logging.Formatter(\n            fmt=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n            datefmt=\"%Y-%m-%d %H:%M:%S\",\n        )\n    )\n    root.addHandler(handler)\n\n\ndef safe_getattr(obj, k, default=None):\n    \"\"\"Returns obj[k] if it exists and is not None, otherwise returns default.\"\"\"\n    from omegaconf import OmegaConf\n\n    if OmegaConf.is_config(obj):\n        return obj[k] if k in obj and obj[k] is not None else default\n\n    return getattr(obj, k, default)\n\n\ndef safe_hasattr(obj, k):\n    \"\"\"Returns True if the given key exists and is not None.\"\"\"\n    return getattr(obj, k, None) is not None\n\n\ndef hotreload_function(name=None):\n    \"\"\"\n    Decorator to function to enable hot-reload for debugging.\n    It allows you to debug a function without having reloading all heavy models, dataset loading and\n        preprocessing, allow faster debugging.\n    If you want to change model or dataset loading, consider relaunching your code\n    -----------------------------------\n    This will run the decorated function func:\n        if func run successful:\n            It will pause, allow user to edit code, and prompt user to:\n                Press enter to re-run the function with updated code\n                Type \"done\" to finish the function, return output\n                Type \"disable\" to stop pausing this function and let code continue without pause\n                Ctril + C to terminal\n        if func raise error:\n            it will prompt user to\n                1. Edit code, and press enter to retry\n                2. Ctrl + C to terminate\n                3. Type \"raise\" to raise that exception\n    * Requirements:\n        0. Fairseq was installed with `pip install --editable .`\n        1. pip install jurigged[develoop]\n        2. set environment HOTRELOAD_PAUSE=1 CUDA_LAUNCH_BLOCKING=1\n        3. Run on only 1 GPU (no distributed)\n    * How to use:\n        1. in python, import and decorate the top-level function to be re-run after code edits:\n            ```python\n            from fairseq.utils import hotreload_function\n            ....\n            @hotreload_function(\"train_step\")\n            def train_step(self, sample ....):\n                ....\n            ....\n            ```\n        2. in bash run scripts:\n            ```bash\n            watch_dir=<home>/fairseq-py/fairseq/tasks # directory to watch for file changes\n            export CUDA_VISIBLE_DEVICES=0 # single-gpu\n            HOTRELOAD_PAUSE=1 CUDA_LAUNCH_BLOCKING=1 python -m jurigged -w ${watch_dir} --poll 2 -v train.py ......\n            ```\n    * NOTE:\n        1. -w ${watch_dir} specify all the files to be watched for changes\n            once functions, class, ... code are changed, all instances in the process will get updated (hot-reload)\n    * Limitation:\n        * Currently distributed debugging not working\n        * Need to launch train.py locally (cannot submit jobs)\n    \"\"\"\n    try:\n        import jurigged\n    except ImportError as e:\n        logger.warning(\"Please install jurigged: pip install jurigged[develoop]\")\n        raise e\n    from fairseq.distributed import utils as distributed_utils\n    import traceback\n\n    def hotreload_decorator(func):\n        assert callable(func), f\"not callable: {func}\"\n        jname = name or func.__name__\n        logger.info(f\"jurigged-hotreload:Apply jurigged on {jname}:{func.__name__}\")\n        HOTRELOAD_PAUSE = bool(os.environ.get(\"HOTRELOAD_PAUSE\", 0))\n        cublk = bool(os.environ.get(\"CUDA_LAUNCH_BLOCKING\", 0))\n        prefix = f\"HOTRELOAD:{jname}:[cublk={cublk}]\"\n        hot_reload_state = {\"disable\": False}\n\n        def func_wrapper(*args, **kwargs):\n            if not HOTRELOAD_PAUSE or hot_reload_state[\"disable\"]:\n                return func(*args, **kwargs)\n            world_size = distributed_utils.get_global_world_size()\n            assert (\n                world_size <= 1\n            ), f\"HOTRELOAD_PAUSE:{jname} currently cannot do distributed training\"\n            success = False\n            while not success:\n                try:\n                    output = func(*args, **kwargs)\n                    # success = True\n                    end_action = input(\n                        f\"{prefix}: PAUSE, you may edit code now. Enter to re-run, ctrl+C to terminate, \"\n                        f'type \"done\" to continue (function still being watched), or type \"disable\" to stop pausing this function :'\n                    )\n                    if end_action.strip().lower() in [\"disable\", \"done\"]:\n                        success = True\n                    else:\n                        logger.warning(\n                            f\"{prefix}: action={end_action} function will re-run now.\"\n                        )\n                except Exception as e:\n                    action = input(\n                        f\"{prefix}:ERROR: \\n{traceback.format_exc()}\\n\"\n                        f'Edit code to try again: enter to continue, ctrl+C to terminate, or type \"raise\" to raise the exception: '\n                    )\n                    if action.strip().lower() == \"raise\":\n                        raise e\n\n            if end_action.strip().lower() == \"disable\":\n                logger.warning(\n                    f\"{prefix}: Stop pausing {jname}. The function is still being watched and newly editted code will take effect \"\n                    f\"if the {jname} is called again later.\"\n                    f' \"unset HOTRELOAD_PAUSE\" before relaunch to disable hotreload and'\n                    f\" remove @hotreload_function decorator in the code.\"\n                )\n                hot_reload_state[\"disable\"] = True\n            return output\n\n        return func_wrapper\n\n    return hotreload_decorator\n"
  },
  {
    "path": "fairseq/version.txt",
    "content": "0.12.2\n"
  },
  {
    "path": "fairseq_cli/__init__.py",
    "content": ""
  },
  {
    "path": "fairseq_cli/eval_lm.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"\nEvaluate the perplexity of a trained language model.\n\"\"\"\n\nimport logging\nimport math\nimport os\nimport sys\nfrom argparse import Namespace\nfrom typing import Iterable, List, Optional\n\nimport torch\nfrom omegaconf import DictConfig\n\nimport fairseq\nfrom fairseq import checkpoint_utils, distributed_utils, options, tasks, utils\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.logging import progress_bar\nfrom fairseq.logging.meters import StopwatchMeter\nfrom fairseq.sequence_scorer import SequenceScorer\n\nlogging.basicConfig(\n    format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n    datefmt=\"%Y-%m-%d %H:%M:%S\",\n    level=os.environ.get(\"LOGLEVEL\", \"INFO\").upper(),\n    stream=sys.stdout,\n)\nlogger = logging.getLogger(\"fairseq_cli.eval_lm\")\n\n\ndef eval_lm(\n    models: List[fairseq.models.FairseqModel],\n    source_dictionary: fairseq.data.Dictionary,\n    batch_iterator: Iterable,\n    post_process: Optional[str] = None,\n    output_word_probs: bool = False,\n    output_word_stats: bool = False,\n    target_dictionary: Optional[fairseq.data.Dictionary] = None,\n    softmax_batch: int = 0,\n    remove_bos_token: bool = False,\n    device: Optional[torch.device] = None,\n):\n    \"\"\"\n    Args:\n        models (List[~fairseq.models.FairseqModel]): list of models to\n            evaluate. Models are essentially `nn.Module` instances, but\n            must be compatible with fairseq's `SequenceScorer`.\n        source_dictionary (~fairseq.data.Dictionary): dictionary for\n            applying any relevant post processing or outputing word\n            probs/stats.\n        batch_iterator (Iterable): yield batches of data\n        post_process (Optional[str]): post-process text by removing BPE,\n            letter segmentation, etc. Valid options can be found in\n            fairseq.data.utils.post_process, although not all options\n            are implemented here.\n        output_word_probs (Optional[bool]): output words and their\n            predicted log probabilities\n        output_word_stats (Optional[bool]): output word statistics such\n            as word count and average probability\n        target_dictionary (Optional[~fairseq.data.Dictionary]): output\n            dictionary (defaults to *source_dictionary*)\n        softmax_batch (Optional[bool]): if BxT is more than this, will\n            batch the softmax over vocab to this amount of tokens, in\n            order to fit into GPU memory\n        remove_bos_token (Optional[bool]): if True, confirm that the\n            first token is the beginning-of-sentence symbol (according\n            to the relevant dictionary) and remove it from the output\n        device (Optional[torch.device]): device to use for evaluation\n            (defaults to device of first model parameter)\n    \"\"\"\n    if target_dictionary is None:\n        target_dictionary = source_dictionary\n    if device is None:\n        device = next(models[0].parameters()).device\n\n    gen_timer = StopwatchMeter()\n    scorer = SequenceScorer(target_dictionary, softmax_batch)\n\n    score_sum = 0.0\n    count = 0\n\n    if post_process is not None:\n        if post_process in {\"subword_nmt\", \"@@ \"}:\n            bpe_cont = post_process.rstrip()\n            bpe_toks = {\n                i\n                for i in range(len(source_dictionary))\n                if source_dictionary[i].endswith(bpe_cont)\n            }\n        else:\n            raise NotImplementedError(\n                f\"--post-process={post_process} is not implemented\"\n            )\n        bpe_len = len(bpe_cont)\n    else:\n        bpe_toks = None\n        bpe_len = 0\n\n    word_stats = dict()\n\n    for sample in batch_iterator:\n        if \"net_input\" not in sample:\n            continue\n\n        sample = utils.move_to_cuda(sample, device=device)\n\n        gen_timer.start()\n        hypos = scorer.generate(models, sample)\n        gen_timer.stop(sample[\"ntokens\"])\n\n        for i, hypos_i in enumerate(hypos):\n            hypo = hypos_i[0]\n            sample_id = sample[\"id\"][i]\n\n            tokens = hypo[\"tokens\"]\n            tgt_len = tokens.numel()\n            pos_scores = hypo[\"positional_scores\"].float()\n\n            if remove_bos_token:\n                assert hypo[\"tokens\"][0].item() == target_dictionary.bos()\n                tokens = tokens[1:]\n                pos_scores = pos_scores[1:]\n\n            skipped_toks = 0\n            if bpe_toks is not None:\n                for i in range(tgt_len - 1):\n                    if tokens[i].item() in bpe_toks:\n                        skipped_toks += 1\n                        pos_scores[i + 1] += pos_scores[i]\n                        pos_scores[i] = 0\n\n            inf_scores = pos_scores.eq(float(\"inf\")) | pos_scores.eq(float(\"-inf\"))\n            if inf_scores.any():\n                logger.info(\n                    \"skipping tokens with inf scores:\",\n                    target_dictionary.string(tokens[inf_scores.nonzero()]),\n                )\n                pos_scores = pos_scores[(~inf_scores).nonzero()]\n            score_sum += pos_scores.sum().cpu()\n            count += pos_scores.numel() - skipped_toks\n\n            if output_word_probs or output_word_stats:\n                w = \"\"\n                word_prob = []\n                is_bpe = False\n                for i in range(len(tokens)):\n                    w_ind = tokens[i].item()\n                    w += source_dictionary[w_ind]\n                    if bpe_toks is not None and w_ind in bpe_toks:\n                        w = w[:-bpe_len]\n                        is_bpe = True\n                    else:\n                        word_prob.append((w, pos_scores[i].item()))\n\n                        next_prob = None\n                        ind = i + 1\n                        while ind < len(tokens):\n                            if pos_scores[ind].item() != 0:\n                                next_prob = pos_scores[ind]\n                                break\n                            ind += 1\n\n                        word_stats.setdefault(w, WordStat(w, is_bpe)).add(\n                            pos_scores[i].item(), next_prob\n                        )\n                        is_bpe = False\n                        w = \"\"\n                if output_word_probs:\n                    logger.info(\n                        str(int(sample_id))\n                        + \" \"\n                        + (\n                            \"\\t\".join(\n                                \"{} [{:2f}]\".format(x[0], x[1]) for x in word_prob\n                            )\n                        )\n                    )\n\n    avg_nll_loss = (\n        -score_sum / count / math.log(2) if count > 0 else 0\n    )  # convert to base 2\n    logger.info(\n        \"Evaluated {:,} tokens in {:.1f}s ({:.2f} tokens/s)\".format(\n            gen_timer.n, gen_timer.sum, 1.0 / gen_timer.avg if gen_timer.avg > 0 else 0\n        )\n    )\n\n    if output_word_stats:\n        for ws in sorted(word_stats.values(), key=lambda x: x.count, reverse=True):\n            logger.info(ws)\n\n    return {\n        \"loss\": avg_nll_loss,\n        \"perplexity\": 2**avg_nll_loss,\n    }\n\n\nclass WordStat(object):\n    def __init__(self, word, is_bpe):\n        self.word = word\n        self.is_bpe = is_bpe\n        self.log_prob = 0\n        self.next_word_prob = 0\n        self.count = 0\n        self.missing_next_words = 0\n\n    def add(self, log_prob, next_word_prob):\n        \"\"\"increments counters for the sum of log probs of current word and next\n        word (given context ending at current word). Since the next word might be at the end of the example,\n        or it might be not counted because it is not an ending subword unit,\n        also keeps track of how many of those we have seen\"\"\"\n        if next_word_prob is not None:\n            self.next_word_prob += next_word_prob\n        else:\n            self.missing_next_words += 1\n        self.log_prob += log_prob\n        self.count += 1\n\n    def __str__(self):\n        return \"{}\\t{}\\t{}\\t{}\\t{}\\t{}\".format(\n            self.word,\n            self.count,\n            self.log_prob,\n            self.is_bpe,\n            self.next_word_prob,\n            self.count - self.missing_next_words,\n        )\n\n\ndef main(cfg: DictConfig, **unused_kwargs):\n    if isinstance(cfg, Namespace):\n        cfg = convert_namespace_to_omegaconf(cfg)\n\n    utils.import_user_module(cfg.common)\n\n    logger.info(cfg)\n\n    if cfg.eval_lm.context_window > 0:\n        # reduce tokens per sample by the required context window size\n        cfg.task.tokens_per_sample -= cfg.eval_lm.context_window\n\n    # Initialize the task using the current *cfg*\n    task = tasks.setup_task(cfg.task)\n\n    # Load ensemble\n    logger.info(\"loading model(s) from {}\".format(cfg.common_eval.path))\n    models, model_args, task = checkpoint_utils.load_model_ensemble_and_task(\n        [cfg.common_eval.path],\n        arg_overrides=eval(cfg.common_eval.model_overrides),\n        suffix=cfg.checkpoint.checkpoint_suffix,\n        strict=(cfg.checkpoint.checkpoint_shard_count == 1),\n        num_shards=cfg.checkpoint.checkpoint_shard_count,\n        task=task,\n    )\n\n    use_fp16 = cfg.common.fp16\n    use_cuda = torch.cuda.is_available() and not cfg.common.cpu\n    if use_cuda:\n        torch.cuda.set_device(cfg.distributed_training.device_id)\n\n    # Optimize ensemble for generation and set the source and dest dicts on the model\n    # (required by scorer)\n    for model in models:\n        if use_fp16:\n            model.half()\n        if use_cuda and not cfg.distributed_training.pipeline_model_parallel:\n            model.cuda()\n        model.prepare_for_inference_(cfg)\n\n    assert len(models) > 0\n\n    logger.info(\n        \"num. model params: {:,}\".format(sum(p.numel() for p in models[0].parameters()))\n    )\n\n    # Load dataset splits\n    task.load_dataset(cfg.dataset.gen_subset)\n    dataset = task.dataset(cfg.dataset.gen_subset)\n    logger.info(\n        \"{} {} {:,} examples\".format(\n            cfg.task.data, cfg.dataset.gen_subset, len(dataset)\n        )\n    )\n\n    itr = task.eval_lm_dataloader(\n        dataset=dataset,\n        max_tokens=cfg.dataset.max_tokens or 36000,\n        batch_size=cfg.dataset.batch_size,\n        max_positions=utils.resolve_max_positions(\n            *[model.max_positions() for model in models]\n        ),\n        num_shards=max(\n            cfg.dataset.num_shards,\n            cfg.distributed_training.distributed_world_size,\n        ),\n        shard_id=max(\n            cfg.dataset.shard_id,\n            cfg.distributed_training.distributed_rank,\n        ),\n        num_workers=cfg.dataset.num_workers,\n        data_buffer_size=cfg.dataset.data_buffer_size,\n        context_window=cfg.eval_lm.context_window,\n    )\n\n    itr = progress_bar.progress_bar(\n        itr,\n        log_format=cfg.common.log_format,\n        log_interval=cfg.common.log_interval,\n        default_log_format=(\"tqdm\" if not cfg.common.no_progress_bar else \"simple\"),\n    )\n\n    results = eval_lm(\n        models=models,\n        source_dictionary=task.source_dictionary,\n        batch_iterator=itr,\n        post_process=cfg.common_eval.post_process,\n        output_word_probs=cfg.eval_lm.output_word_probs,\n        output_word_stats=cfg.eval_lm.output_word_stats,\n        target_dictionary=task.target_dictionary,\n        softmax_batch=cfg.eval_lm.softmax_batch,\n        remove_bos_token=getattr(cfg.task, \"add_bos_token\", False),\n    )\n\n    logger.info(\n        \"Loss (base 2): {:.4f}, Perplexity: {:.2f}\".format(\n            results[\"loss\"], results[\"perplexity\"]\n        )\n    )\n\n    return results\n\n\ndef cli_main():\n    parser = options.get_eval_lm_parser()\n    args = options.parse_args_and_arch(parser)\n\n    distributed_utils.call_main(convert_namespace_to_omegaconf(args), main)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "fairseq_cli/generate.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nTranslate pre-processed data with a trained model.\n\"\"\"\n\nimport ast\nimport logging\nimport math\nimport os\nimport sys\nfrom argparse import Namespace\nfrom itertools import chain\n\nimport numpy as np\nimport torch\nfrom omegaconf import DictConfig\n\nfrom fairseq import checkpoint_utils, options, scoring, tasks, utils\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.logging import progress_bar\nfrom fairseq.logging.meters import StopwatchMeter, TimeMeter\n\n\ndef main(cfg: DictConfig):\n\n    if isinstance(cfg, Namespace):\n        cfg = convert_namespace_to_omegaconf(cfg)\n\n    assert cfg.common_eval.path is not None, \"--path required for generation!\"\n    assert (\n        not cfg.generation.sampling or cfg.generation.nbest == cfg.generation.beam\n    ), \"--sampling requires --nbest to be equal to --beam\"\n    assert (\n        cfg.generation.replace_unk is None or cfg.dataset.dataset_impl == \"raw\"\n    ), \"--replace-unk requires a raw text dataset (--dataset-impl=raw)\"\n\n    if cfg.common_eval.results_path is not None:\n        os.makedirs(cfg.common_eval.results_path, exist_ok=True)\n        output_path = os.path.join(\n            cfg.common_eval.results_path,\n            \"generate-{}.txt\".format(cfg.dataset.gen_subset),\n        )\n        with open(output_path, \"w\", buffering=1, encoding=\"utf-8\") as h:\n            return _main(cfg, h)\n    else:\n        return _main(cfg, sys.stdout)\n\n\ndef get_symbols_to_strip_from_output(generator):\n    if hasattr(generator, \"symbols_to_strip_from_output\"):\n        return generator.symbols_to_strip_from_output\n    else:\n        return {generator.eos}\n\n\ndef _main(cfg: DictConfig, output_file):\n    logging.basicConfig(\n        format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n        datefmt=\"%Y-%m-%d %H:%M:%S\",\n        level=os.environ.get(\"LOGLEVEL\", \"INFO\").upper(),\n        stream=output_file,\n    )\n    logger = logging.getLogger(\"fairseq_cli.generate\")\n\n    utils.import_user_module(cfg.common)\n\n    if cfg.dataset.max_tokens is None and cfg.dataset.batch_size is None:\n        cfg.dataset.max_tokens = 12000\n    logger.info(cfg)\n\n    # Fix seed for stochastic decoding\n    if cfg.common.seed is not None and not cfg.generation.no_seed_provided:\n        np.random.seed(cfg.common.seed)\n        utils.set_torch_seed(cfg.common.seed)\n\n    use_cuda = torch.cuda.is_available() and not cfg.common.cpu\n\n    # Load dataset splits\n    task = tasks.setup_task(cfg.task)\n\n    # Set dictionaries\n    try:\n        src_dict = getattr(task, \"source_dictionary\", None)\n    except NotImplementedError:\n        src_dict = None\n    tgt_dict = task.target_dictionary\n\n    overrides = ast.literal_eval(cfg.common_eval.model_overrides)\n\n    # Load ensemble\n    logger.info(\"loading model(s) from {}\".format(cfg.common_eval.path))\n    models, saved_cfg = checkpoint_utils.load_model_ensemble(\n        utils.split_paths(cfg.common_eval.path),\n        arg_overrides=overrides,\n        task=task,\n        suffix=cfg.checkpoint.checkpoint_suffix,\n        strict=(cfg.checkpoint.checkpoint_shard_count == 1),\n        num_shards=cfg.checkpoint.checkpoint_shard_count,\n    )\n\n    # loading the dataset should happen after the checkpoint has been loaded so we can give it the saved task config\n    task.load_dataset(cfg.dataset.gen_subset, task_cfg=saved_cfg.task)\n\n    if cfg.generation.lm_path is not None:\n        overrides[\"data\"] = cfg.task.data\n\n        try:\n            lms, _ = checkpoint_utils.load_model_ensemble(\n                [cfg.generation.lm_path], arg_overrides=overrides, task=None\n            )\n        except:\n            logger.warning(\n                f\"Failed to load language model! Please make sure that the language model dict is the same \"\n                f\"as target dict and is located in the data dir ({cfg.task.data})\"\n            )\n            raise\n\n        assert len(lms) == 1\n    else:\n        lms = [None]\n\n    # Optimize ensemble for generation\n    for model in chain(models, lms):\n        if model is None:\n            continue\n        if cfg.common.fp16:\n            model.half()\n        if use_cuda and not cfg.distributed_training.pipeline_model_parallel:\n            model.cuda()\n        model.prepare_for_inference_(cfg)\n\n    # Load alignment dictionary for unknown word replacement\n    # (None if no unknown word replacement, empty if no path to align dictionary)\n    align_dict = utils.load_align_dict(cfg.generation.replace_unk)\n\n    # Load dataset (possibly sharded)\n    itr = task.get_batch_iterator(\n        dataset=task.dataset(cfg.dataset.gen_subset),\n        max_tokens=cfg.dataset.max_tokens,\n        max_sentences=cfg.dataset.batch_size,\n        max_positions=utils.resolve_max_positions(\n            task.max_positions(), *[m.max_positions() for m in models]\n        ),\n        ignore_invalid_inputs=cfg.dataset.skip_invalid_size_inputs_valid_test,\n        required_batch_size_multiple=cfg.dataset.required_batch_size_multiple,\n        seed=cfg.common.seed,\n        num_shards=cfg.distributed_training.distributed_world_size,\n        shard_id=cfg.distributed_training.distributed_rank,\n        num_workers=cfg.dataset.num_workers,\n        data_buffer_size=cfg.dataset.data_buffer_size,\n    ).next_epoch_itr(shuffle=False)\n    progress = progress_bar.progress_bar(\n        itr,\n        log_format=cfg.common.log_format,\n        log_interval=cfg.common.log_interval,\n        default_log_format=(\"tqdm\" if not cfg.common.no_progress_bar else \"simple\"),\n    )\n\n    # Initialize generator\n    gen_timer = StopwatchMeter()\n\n    extra_gen_cls_kwargs = {\"lm_model\": lms[0], \"lm_weight\": cfg.generation.lm_weight}\n    generator = task.build_generator(\n        models, cfg.generation, extra_gen_cls_kwargs=extra_gen_cls_kwargs\n    )\n\n    # Handle tokenization and BPE\n    tokenizer = task.build_tokenizer(cfg.tokenizer)\n    bpe = task.build_bpe(cfg.bpe)\n\n    def decode_fn(x):\n        if bpe is not None:\n            x = bpe.decode(x)\n        if tokenizer is not None:\n            x = tokenizer.decode(x)\n        return x\n\n    scorer = scoring.build_scorer(cfg.scoring, tgt_dict)\n\n    num_sentences = 0\n    has_target = True\n    wps_meter = TimeMeter()\n    for sample in progress:\n        sample = utils.move_to_cuda(sample) if use_cuda else sample\n        if \"net_input\" not in sample:\n            continue\n\n        prefix_tokens = None\n        if cfg.generation.prefix_size > 0:\n            prefix_tokens = sample[\"target\"][:, : cfg.generation.prefix_size]\n\n        constraints = None\n        if \"constraints\" in sample:\n            constraints = sample[\"constraints\"]\n\n        gen_timer.start()\n        hypos = task.inference_step(\n            generator,\n            models,\n            sample,\n            prefix_tokens=prefix_tokens,\n            constraints=constraints,\n        )\n        num_generated_tokens = sum(len(h[0][\"tokens\"]) for h in hypos)\n        gen_timer.stop(num_generated_tokens)\n\n        for i, sample_id in enumerate(sample[\"id\"].tolist()):\n            has_target = sample[\"target\"] is not None\n\n            # Remove padding\n            if \"src_tokens\" in sample[\"net_input\"]:\n                src_tokens = utils.strip_pad(\n                    sample[\"net_input\"][\"src_tokens\"][i, :], tgt_dict.pad()\n                )\n            else:\n                src_tokens = None\n\n            target_tokens = None\n            if has_target:\n                target_tokens = (\n                    utils.strip_pad(sample[\"target\"][i, :], tgt_dict.pad()).int().cpu()\n                )\n\n            # Either retrieve the original sentences or regenerate them from tokens.\n            if align_dict is not None:\n                src_str = task.dataset(cfg.dataset.gen_subset).src.get_original_text(\n                    sample_id\n                )\n                target_str = task.dataset(cfg.dataset.gen_subset).tgt.get_original_text(\n                    sample_id\n                )\n            else:\n                if src_dict is not None:\n                    src_str = src_dict.string(src_tokens, cfg.common_eval.post_process)\n                else:\n                    src_str = \"\"\n                if has_target:\n                    target_str = tgt_dict.string(\n                        target_tokens,\n                        cfg.common_eval.post_process,\n                        escape_unk=True,\n                        extra_symbols_to_ignore=get_symbols_to_strip_from_output(\n                            generator\n                        ),\n                    )\n\n            src_str = decode_fn(src_str)\n            if has_target:\n                target_str = decode_fn(target_str)\n\n            if not cfg.common_eval.quiet:\n                if src_dict is not None:\n                    print(\"S-{}\\t{}\".format(sample_id, src_str), file=output_file)\n                if has_target:\n                    print(\"T-{}\\t{}\".format(sample_id, target_str), file=output_file)\n\n            # Process top predictions\n            for j, hypo in enumerate(hypos[i][: cfg.generation.nbest]):\n                hypo_tokens, hypo_str, alignment = utils.post_process_prediction(\n                    hypo_tokens=hypo[\"tokens\"].int().cpu(),\n                    src_str=src_str,\n                    alignment=hypo[\"alignment\"],\n                    align_dict=align_dict,\n                    tgt_dict=tgt_dict,\n                    remove_bpe=cfg.common_eval.post_process,\n                    extra_symbols_to_ignore=get_symbols_to_strip_from_output(generator),\n                )\n                detok_hypo_str = decode_fn(hypo_str)\n                if not cfg.common_eval.quiet:\n                    score = hypo[\"score\"] / math.log(2)  # convert to base 2\n                    # original hypothesis (after tokenization and BPE)\n                    print(\n                        \"H-{}\\t{}\\t{}\".format(sample_id, score, hypo_str),\n                        file=output_file,\n                    )\n                    # detokenized hypothesis\n                    print(\n                        \"D-{}\\t{}\\t{}\".format(sample_id, score, detok_hypo_str),\n                        file=output_file,\n                    )\n                    print(\n                        \"P-{}\\t{}\".format(\n                            sample_id,\n                            \" \".join(\n                                map(\n                                    lambda x: \"{:.4f}\".format(x),\n                                    # convert from base e to base 2\n                                    hypo[\"positional_scores\"]\n                                    .div_(math.log(2))\n                                    .tolist(),\n                                )\n                            ),\n                        ),\n                        file=output_file,\n                    )\n\n                    if cfg.generation.print_alignment == \"hard\":\n                        print(\n                            \"A-{}\\t{}\".format(\n                                sample_id,\n                                \" \".join(\n                                    [\n                                        \"{}-{}\".format(src_idx, tgt_idx)\n                                        for src_idx, tgt_idx in alignment\n                                    ]\n                                ),\n                            ),\n                            file=output_file,\n                        )\n                    if cfg.generation.print_alignment == \"soft\":\n                        print(\n                            \"A-{}\\t{}\".format(\n                                sample_id,\n                                \" \".join(\n                                    [\",\".join(src_probs) for src_probs in alignment]\n                                ),\n                            ),\n                            file=output_file,\n                        )\n\n                    if cfg.generation.print_step:\n                        print(\n                            \"I-{}\\t{}\".format(sample_id, hypo[\"steps\"]),\n                            file=output_file,\n                        )\n\n                    if cfg.generation.retain_iter_history:\n                        for step, h in enumerate(hypo[\"history\"]):\n                            _, h_str, _ = utils.post_process_prediction(\n                                hypo_tokens=h[\"tokens\"].int().cpu(),\n                                src_str=src_str,\n                                alignment=None,\n                                align_dict=None,\n                                tgt_dict=tgt_dict,\n                                remove_bpe=None,\n                            )\n                            print(\n                                \"E-{}_{}\\t{}\".format(sample_id, step, h_str),\n                                file=output_file,\n                            )\n\n                # Score only the top hypothesis\n                if has_target and j == 0:\n                    if (\n                        align_dict is not None\n                        or cfg.common_eval.post_process is not None\n                    ):\n                        # Convert back to tokens for evaluation with unk replacement and/or without BPE\n                        target_tokens = tgt_dict.encode_line(\n                            target_str, add_if_not_exist=True\n                        )\n                        hypo_tokens = tgt_dict.encode_line(\n                            detok_hypo_str, add_if_not_exist=True\n                        )\n                    if hasattr(scorer, \"add_string\"):\n                        scorer.add_string(target_str, detok_hypo_str)\n                    else:\n                        scorer.add(target_tokens, hypo_tokens)\n\n        wps_meter.update(num_generated_tokens)\n        progress.log({\"wps\": round(wps_meter.avg)})\n        num_sentences += (\n            sample[\"nsentences\"] if \"nsentences\" in sample else sample[\"id\"].numel()\n        )\n\n    logger.info(\"NOTE: hypothesis and token scores are output in base 2\")\n    logger.info(\n        \"Translated {:,} sentences ({:,} tokens) in {:.1f}s ({:.2f} sentences/s, {:.2f} tokens/s)\".format(\n            num_sentences,\n            gen_timer.n,\n            gen_timer.sum,\n            num_sentences / gen_timer.sum,\n            1.0 / gen_timer.avg,\n        )\n    )\n    if has_target:\n        if cfg.bpe and not cfg.generation.sacrebleu:\n            if cfg.common_eval.post_process:\n                logger.warning(\n                    \"BLEU score is being computed by splitting detokenized string on spaces, this is probably not what you want. Use --sacrebleu for standard 13a BLEU tokenization\"\n                )\n            else:\n                logger.warning(\n                    \"If you are using BPE on the target side, the BLEU score is computed on BPE tokens, not on proper words.  Use --sacrebleu for standard 13a BLEU tokenization\"\n                )\n        # use print to be consistent with other main outputs: S-, H-, T-, D- and so on\n        print(\n            \"Generate {} with beam={}: {}\".format(\n                cfg.dataset.gen_subset, cfg.generation.beam, scorer.result_string()\n            ),\n            file=output_file,\n        )\n\n    return scorer\n\n\ndef cli_main():\n    parser = options.get_generation_parser()\n    # TODO: replace this workaround with refactoring of `AudioPretraining`\n    parser.add_argument(\n        \"--arch\",\n        \"-a\",\n        metavar=\"ARCH\",\n        default=\"wav2vec2\",\n        help=\"Model architecture. For constructing tasks that rely on \"\n        \"model args (e.g. `AudioPretraining`)\",\n    )\n    args = options.parse_args_and_arch(parser)\n    main(args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "fairseq_cli/hydra_train.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\n\nimport hydra\nimport torch\nfrom hydra.core.hydra_config import HydraConfig\nfrom omegaconf import OmegaConf, open_dict\n\nfrom fairseq import distributed_utils, metrics\nfrom fairseq.dataclass.configs import FairseqConfig\nfrom fairseq.dataclass.initialize import add_defaults, hydra_init\nfrom fairseq.dataclass.utils import omegaconf_no_object_check\nfrom fairseq.utils import reset_logging\nfrom fairseq_cli.train import main as pre_main\n\nlogger = logging.getLogger(\"fairseq_cli.hydra_train\")\n\n\n@hydra.main(config_path=os.path.join(\"..\", \"fairseq\", \"config\"), config_name=\"config\")\ndef hydra_main(cfg: FairseqConfig) -> float:\n    _hydra_main(cfg)\n\n\ndef _hydra_main(cfg: FairseqConfig, **kwargs) -> float:\n    add_defaults(cfg)\n\n    if cfg.common.reset_logging:\n        reset_logging()  # Hydra hijacks logging, fix that\n    else:\n        # check if directly called or called through hydra_main\n        if HydraConfig.initialized():\n            with open_dict(cfg):\n                # make hydra logging work with ddp (see # see https://github.com/facebookresearch/hydra/issues/1126)\n                cfg.job_logging_cfg = OmegaConf.to_container(\n                    HydraConfig.get().job_logging, resolve=True\n                )\n\n    with omegaconf_no_object_check():\n        cfg = OmegaConf.create(\n            OmegaConf.to_container(cfg, resolve=True, enum_to_str=True)\n        )\n    OmegaConf.set_struct(cfg, True)\n\n    try:\n        if cfg.common.profile:\n            with torch.cuda.profiler.profile():\n                with torch.autograd.profiler.emit_nvtx():\n                    distributed_utils.call_main(cfg, pre_main, **kwargs)\n        else:\n            distributed_utils.call_main(cfg, pre_main, **kwargs)\n    except BaseException as e:\n        if not cfg.common.suppress_crashes:\n            raise\n        else:\n            logger.error(\"Crashed! \" + str(e))\n\n    # get best val and return - useful for sweepers\n    try:\n        best_val = metrics.get_smoothed_value(\n            \"valid\", cfg.checkpoint.best_checkpoint_metric\n        )\n    except:\n        best_val = None\n\n    if best_val is None:\n        best_val = float(\"inf\")\n\n    return best_val\n\n\ndef cli_main():\n    try:\n        from hydra._internal.utils import get_args\n\n        cfg_name = get_args().config_name or \"config\"\n    except:\n        logger.warning(\"Failed to get config name from hydra args\")\n        cfg_name = \"config\"\n\n    hydra_init(cfg_name)\n    hydra_main()\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "fairseq_cli/hydra_validate.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport sys\nfrom itertools import chain\n\nimport torch\nfrom hydra.core.hydra_config import HydraConfig\nfrom omegaconf import OmegaConf, open_dict\nimport hydra\n\nfrom fairseq import checkpoint_utils, distributed_utils, utils\nfrom fairseq.dataclass.configs import FairseqConfig\nfrom fairseq.dataclass.initialize import add_defaults, hydra_init\nfrom fairseq.dataclass.utils import omegaconf_no_object_check\nfrom fairseq.distributed import utils as distributed_utils\nfrom fairseq.logging import metrics, progress_bar\nfrom fairseq.utils import reset_logging\n\nlogging.basicConfig(\n    format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n    datefmt=\"%Y-%m-%d %H:%M:%S\",\n    level=os.environ.get(\"LOGLEVEL\", \"INFO\").upper(),\n    stream=sys.stdout,\n)\nlogger = logging.getLogger(\"fairseq_cli.validate\")\n\n\n@hydra.main(config_path=os.path.join(\"..\", \"fairseq\", \"config\"), config_name=\"config\")\ndef hydra_main(cfg: FairseqConfig) -> float:\n    return _hydra_main(cfg)\n\n\ndef _hydra_main(cfg: FairseqConfig, **kwargs) -> float:\n    add_defaults(cfg)\n\n    if cfg.common.reset_logging:\n        reset_logging()  # Hydra hijacks logging, fix that\n    else:\n        # check if directly called or called through hydra_main\n        if HydraConfig.initialized():\n            with open_dict(cfg):\n                # make hydra logging work with ddp (see # see https://github.com/facebookresearch/hydra/issues/1126)\n                cfg.job_logging_cfg = OmegaConf.to_container(\n                    HydraConfig.get().job_logging, resolve=True\n                )\n\n    with omegaconf_no_object_check():\n        cfg = OmegaConf.create(\n            OmegaConf.to_container(cfg, resolve=True, enum_to_str=True)\n        )\n    OmegaConf.set_struct(cfg, True)\n\n    assert (\n        cfg.dataset.max_tokens is not None or cfg.dataset.batch_size is not None\n    ), \"Must specify batch size either with --max-tokens or --batch-size\"\n\n    distributed_utils.call_main(cfg, validate, **kwargs)\n\n\ndef validate(cfg):\n    utils.import_user_module(cfg.common)\n\n    use_fp16 = cfg.common.fp16\n    use_cuda = torch.cuda.is_available() and not cfg.common.cpu\n\n    if use_cuda:\n        torch.cuda.set_device(cfg.distributed_training.device_id)\n\n    if cfg.distributed_training.distributed_world_size > 1:\n        data_parallel_world_size = distributed_utils.get_data_parallel_world_size()\n        data_parallel_rank = distributed_utils.get_data_parallel_rank()\n    else:\n        data_parallel_world_size = 1\n        data_parallel_rank = 0\n\n    overrides = {\"task\": {\"data\": cfg.task.data}}\n\n    # Load ensemble\n    logger.info(\"loading model(s) from {}\".format(cfg.common_eval.path))\n    models, saved_cfg, task = checkpoint_utils.load_model_ensemble_and_task(\n        [cfg.common_eval.path],\n        arg_overrides=overrides,\n        suffix=cfg.checkpoint.checkpoint_suffix,\n    )\n    model = models[0]\n\n    # Move models to GPU\n    for model in models:\n        model.eval()\n        if use_fp16:\n            model.half()\n        if use_cuda:\n            model.cuda()\n\n    # Print args\n    logger.info(saved_cfg)\n\n    # Build criterion\n    criterion = task.build_criterion(saved_cfg.criterion, from_checkpoint=True)\n    criterion.eval()\n\n    for subset in cfg.dataset.valid_subset.split(\",\"):\n        try:\n            task.load_dataset(subset, combine=False, epoch=1, task_cfg=saved_cfg.task)\n            dataset = task.dataset(subset)\n        except KeyError:\n            raise Exception(\"Cannot find dataset: \" + subset)\n\n        # Initialize data iterator\n        itr = task.get_batch_iterator(\n            dataset=dataset,\n            max_tokens=cfg.dataset.max_tokens,\n            max_sentences=cfg.dataset.batch_size,\n            max_positions=utils.resolve_max_positions(\n                task.max_positions(),\n                *[m.max_positions() for m in models],\n            ),\n            ignore_invalid_inputs=cfg.dataset.skip_invalid_size_inputs_valid_test,\n            required_batch_size_multiple=cfg.dataset.required_batch_size_multiple,\n            seed=cfg.common.seed,\n            num_shards=data_parallel_world_size,\n            shard_id=data_parallel_rank,\n            num_workers=cfg.dataset.num_workers,\n            data_buffer_size=cfg.dataset.data_buffer_size,\n        ).next_epoch_itr(shuffle=False)\n        progress = progress_bar.progress_bar(\n            itr,\n            log_format=cfg.common.log_format,\n            log_interval=cfg.common.log_interval,\n            prefix=f\"valid on '{subset}' subset\",\n            default_log_format=(\"tqdm\" if not cfg.common.no_progress_bar else \"simple\"),\n        )\n\n        def apply_half(t):\n            if t.dtype is torch.float32:\n                return t.to(dtype=torch.half)\n            return t\n\n        log_outputs = []\n        for i, sample in enumerate(progress):\n            sample = utils.move_to_cuda(sample) if use_cuda else sample\n\n            if use_fp16:\n                sample = utils.apply_to_sample(apply_half, sample)\n\n            _loss, _sample_size, log_output = task.valid_step(sample, model, criterion)\n            with metrics.aggregate() as agg:\n                task.reduce_metrics([log_output], criterion)\n                progress.log(agg.get_smoothed_values(), step=i)\n            # progress.log(log_output, step=i) from vision\n            log_outputs.append(log_output)\n\n        if data_parallel_world_size > 1:\n            log_outputs = distributed_utils.all_gather_list(\n                log_outputs,\n                max_size=cfg.common.all_gather_list_size,\n                group=distributed_utils.get_data_parallel_group(),\n            )\n            log_outputs = list(chain.from_iterable(log_outputs))\n\n        with metrics.aggregate() as agg:\n            task.reduce_metrics(log_outputs, criterion)\n            log_output = agg.get_smoothed_values()\n\n        progress.print(log_output, tag=subset, step=i)\n\n\ndef cli_main():\n    try:\n        from hydra._internal.utils import get_args\n\n        cfg_name = get_args().config_name or \"config\"\n    except:\n        logger.warning(\"Failed to get config name from hydra args\")\n        cfg_name = \"config\"\n\n    hydra_init(cfg_name)\n    hydra_main()\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "fairseq_cli/interactive.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nTranslate raw text with a trained model. Batches data on-the-fly.\n\"\"\"\n\nimport ast\nimport fileinput\nimport logging\nimport math\nimport os\nimport sys\nimport time\nfrom argparse import Namespace\nfrom collections import namedtuple\n\nimport numpy as np\nimport torch\n\nfrom fairseq import checkpoint_utils, distributed_utils, options, tasks, utils\nfrom fairseq.dataclass.configs import FairseqConfig\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.token_generation_constraints import pack_constraints, unpack_constraints\nfrom fairseq_cli.generate import get_symbols_to_strip_from_output\n\nlogging.basicConfig(\n    format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n    datefmt=\"%Y-%m-%d %H:%M:%S\",\n    level=os.environ.get(\"LOGLEVEL\", \"INFO\").upper(),\n    stream=sys.stdout,\n)\nlogger = logging.getLogger(\"fairseq_cli.interactive\")\n\n\nBatch = namedtuple(\"Batch\", \"ids src_tokens src_lengths constraints\")\nTranslation = namedtuple(\"Translation\", \"src_str hypos pos_scores alignments\")\n\n\ndef buffered_read(input, buffer_size):\n    buffer = []\n    with fileinput.input(files=[input], openhook=fileinput.hook_encoded(\"utf-8\")) as h:\n        for src_str in h:\n            buffer.append(src_str.strip())\n            if len(buffer) >= buffer_size:\n                yield buffer\n                buffer = []\n\n    if len(buffer) > 0:\n        yield buffer\n\n\ndef make_batches(lines, cfg, task, max_positions, encode_fn):\n    def encode_fn_target(x):\n        return encode_fn(x)\n\n    if cfg.generation.constraints:\n        # Strip (tab-delimited) contraints, if present, from input lines,\n        # store them in batch_constraints\n        batch_constraints = [list() for _ in lines]\n        for i, line in enumerate(lines):\n            if \"\\t\" in line:\n                lines[i], *batch_constraints[i] = line.split(\"\\t\")\n\n        # Convert each List[str] to List[Tensor]\n        for i, constraint_list in enumerate(batch_constraints):\n            batch_constraints[i] = [\n                task.target_dictionary.encode_line(\n                    encode_fn_target(constraint),\n                    append_eos=False,\n                    add_if_not_exist=False,\n                )\n                for constraint in constraint_list\n            ]\n\n    if cfg.generation.constraints:\n        constraints_tensor = pack_constraints(batch_constraints)\n    else:\n        constraints_tensor = None\n\n    tokens, lengths = task.get_interactive_tokens_and_lengths(lines, encode_fn)\n\n    itr = task.get_batch_iterator(\n        dataset=task.build_dataset_for_inference(\n            tokens, lengths, constraints=constraints_tensor\n        ),\n        max_tokens=cfg.dataset.max_tokens,\n        max_sentences=cfg.dataset.batch_size,\n        max_positions=max_positions,\n        ignore_invalid_inputs=cfg.dataset.skip_invalid_size_inputs_valid_test,\n    ).next_epoch_itr(shuffle=False)\n    for batch in itr:\n        ids = batch[\"id\"]\n        src_tokens = batch[\"net_input\"][\"src_tokens\"]\n        src_lengths = batch[\"net_input\"][\"src_lengths\"]\n        constraints = batch.get(\"constraints\", None)\n\n        yield Batch(\n            ids=ids,\n            src_tokens=src_tokens,\n            src_lengths=src_lengths,\n            constraints=constraints,\n        )\n\n\ndef main(cfg: FairseqConfig):\n    if isinstance(cfg, Namespace):\n        cfg = convert_namespace_to_omegaconf(cfg)\n\n    start_time = time.time()\n    total_translate_time = 0\n\n    utils.import_user_module(cfg.common)\n\n    if cfg.interactive.buffer_size < 1:\n        cfg.interactive.buffer_size = 1\n    if cfg.dataset.max_tokens is None and cfg.dataset.batch_size is None:\n        cfg.dataset.batch_size = 1\n\n    assert (\n        not cfg.generation.sampling or cfg.generation.nbest == cfg.generation.beam\n    ), \"--sampling requires --nbest to be equal to --beam\"\n    assert (\n        not cfg.dataset.batch_size\n        or cfg.dataset.batch_size <= cfg.interactive.buffer_size\n    ), \"--batch-size cannot be larger than --buffer-size\"\n\n    logger.info(cfg)\n\n    # Fix seed for stochastic decoding\n    if cfg.common.seed is not None and not cfg.generation.no_seed_provided:\n        np.random.seed(cfg.common.seed)\n        utils.set_torch_seed(cfg.common.seed)\n\n    use_cuda = torch.cuda.is_available() and not cfg.common.cpu\n\n    # Setup task, e.g., translation\n    task = tasks.setup_task(cfg.task)\n\n    # Load ensemble\n    overrides = ast.literal_eval(cfg.common_eval.model_overrides)\n    logger.info(\"loading model(s) from {}\".format(cfg.common_eval.path))\n    models, _model_args = checkpoint_utils.load_model_ensemble(\n        utils.split_paths(cfg.common_eval.path),\n        arg_overrides=overrides,\n        task=task,\n        suffix=cfg.checkpoint.checkpoint_suffix,\n        strict=(cfg.checkpoint.checkpoint_shard_count == 1),\n        num_shards=cfg.checkpoint.checkpoint_shard_count,\n    )\n\n    # Set dictionaries\n    src_dict = task.source_dictionary\n    tgt_dict = task.target_dictionary\n\n    # Optimize ensemble for generation\n    for model in models:\n        if model is None:\n            continue\n        if cfg.common.fp16:\n            model.half()\n        if use_cuda and not cfg.distributed_training.pipeline_model_parallel:\n            model.cuda()\n        model.prepare_for_inference_(cfg)\n\n    # Initialize generator\n    generator = task.build_generator(models, cfg.generation)\n\n    # Handle tokenization and BPE\n    tokenizer = task.build_tokenizer(cfg.tokenizer)\n    bpe = task.build_bpe(cfg.bpe)\n\n    def encode_fn(x):\n        if tokenizer is not None:\n            x = tokenizer.encode(x)\n        if bpe is not None:\n            x = bpe.encode(x)\n        return x\n\n    def decode_fn(x):\n        if bpe is not None:\n            x = bpe.decode(x)\n        if tokenizer is not None:\n            x = tokenizer.decode(x)\n        return x\n\n    # Load alignment dictionary for unknown word replacement\n    # (None if no unknown word replacement, empty if no path to align dictionary)\n    align_dict = utils.load_align_dict(cfg.generation.replace_unk)\n\n    max_positions = utils.resolve_max_positions(\n        task.max_positions(), *[model.max_positions() for model in models]\n    )\n\n    if cfg.generation.constraints:\n        logger.warning(\n            \"NOTE: Constrained decoding currently assumes a shared subword vocabulary.\"\n        )\n\n    if cfg.interactive.buffer_size > 1:\n        logger.info(\"Sentence buffer size: %s\", cfg.interactive.buffer_size)\n    logger.info(\"NOTE: hypothesis and token scores are output in base 2\")\n    logger.info(\"Type the input sentence and press return:\")\n    start_id = 0\n    for inputs in buffered_read(cfg.interactive.input, cfg.interactive.buffer_size):\n        results = []\n        for batch in make_batches(inputs, cfg, task, max_positions, encode_fn):\n            bsz = batch.src_tokens.size(0)\n            src_tokens = batch.src_tokens\n            src_lengths = batch.src_lengths\n            constraints = batch.constraints\n            if use_cuda:\n                src_tokens = src_tokens.cuda()\n                src_lengths = src_lengths.cuda()\n                if constraints is not None:\n                    constraints = constraints.cuda()\n\n            sample = {\n                \"net_input\": {\n                    \"src_tokens\": src_tokens,\n                    \"src_lengths\": src_lengths,\n                },\n            }\n            translate_start_time = time.time()\n            translations = task.inference_step(\n                generator, models, sample, constraints=constraints\n            )\n            translate_time = time.time() - translate_start_time\n            total_translate_time += translate_time\n            list_constraints = [[] for _ in range(bsz)]\n            if cfg.generation.constraints:\n                list_constraints = [unpack_constraints(c) for c in constraints]\n            for i, (id, hypos) in enumerate(zip(batch.ids.tolist(), translations)):\n                src_tokens_i = utils.strip_pad(src_tokens[i], tgt_dict.pad())\n                constraints = list_constraints[i]\n                results.append(\n                    (\n                        start_id + id,\n                        src_tokens_i,\n                        hypos,\n                        {\n                            \"constraints\": constraints,\n                            \"time\": translate_time / len(translations),\n                        },\n                    )\n                )\n\n        # sort output to match input order\n        for id_, src_tokens, hypos, info in sorted(results, key=lambda x: x[0]):\n            src_str = \"\"\n            if src_dict is not None:\n                src_str = src_dict.string(src_tokens, cfg.common_eval.post_process)\n                print(\"S-{}\\t{}\".format(id_, src_str))\n                print(\"W-{}\\t{:.3f}\\tseconds\".format(id_, info[\"time\"]))\n                for constraint in info[\"constraints\"]:\n                    print(\n                        \"C-{}\\t{}\".format(\n                            id_,\n                            tgt_dict.string(constraint, cfg.common_eval.post_process),\n                        )\n                    )\n\n            # Process top predictions\n            for hypo in hypos[: min(len(hypos), cfg.generation.nbest)]:\n                hypo_tokens, hypo_str, alignment = utils.post_process_prediction(\n                    hypo_tokens=hypo[\"tokens\"].int().cpu(),\n                    src_str=src_str,\n                    alignment=hypo[\"alignment\"],\n                    align_dict=align_dict,\n                    tgt_dict=tgt_dict,\n                    remove_bpe=cfg.common_eval.post_process,\n                    extra_symbols_to_ignore=get_symbols_to_strip_from_output(generator),\n                )\n                detok_hypo_str = decode_fn(hypo_str)\n                score = hypo[\"score\"] / math.log(2)  # convert to base 2\n                # original hypothesis (after tokenization and BPE)\n                print(\"H-{}\\t{}\\t{}\".format(id_, score, hypo_str))\n                # detokenized hypothesis\n                print(\"D-{}\\t{}\\t{}\".format(id_, score, detok_hypo_str))\n                print(\n                    \"P-{}\\t{}\".format(\n                        id_,\n                        \" \".join(\n                            map(\n                                lambda x: \"{:.4f}\".format(x),\n                                # convert from base e to base 2\n                                hypo[\"positional_scores\"].div_(math.log(2)).tolist(),\n                            )\n                        ),\n                    )\n                )\n                if cfg.generation.print_alignment:\n                    alignment_str = \" \".join(\n                        [\"{}-{}\".format(src, tgt) for src, tgt in alignment]\n                    )\n                    print(\"A-{}\\t{}\".format(id_, alignment_str))\n\n        # update running id_ counter\n        start_id += len(inputs)\n\n    logger.info(\n        \"Total time: {:.3f} seconds; translation time: {:.3f}\".format(\n            time.time() - start_time, total_translate_time\n        )\n    )\n\n\ndef cli_main():\n    parser = options.get_interactive_generation_parser()\n    args = options.parse_args_and_arch(parser)\n    distributed_utils.call_main(convert_namespace_to_omegaconf(args), main)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "fairseq_cli/preprocess.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nData pre-processing: build vocabularies and binarize training data.\n\"\"\"\n\nimport logging\nimport os\nimport shutil\nimport sys\nimport typing as tp\nfrom argparse import Namespace\nfrom itertools import zip_longest\n\nfrom fairseq import options, tasks, utils\nfrom fairseq.binarizer import (\n    AlignmentDatasetBinarizer,\n    FileBinarizer,\n    VocabularyDatasetBinarizer,\n)\nfrom fairseq.data import Dictionary\n\nlogging.basicConfig(\n    format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n    datefmt=\"%Y-%m-%d %H:%M:%S\",\n    level=os.environ.get(\"LOGLEVEL\", \"INFO\").upper(),\n    stream=sys.stdout,\n)\nlogger = logging.getLogger(\"fairseq_cli.preprocess\")\n\n#####################################################################\n# file name tools\n#####################################################################\n\n\ndef _train_path(lang, trainpref):\n    return \"{}{}\".format(trainpref, (\".\" + lang) if lang else \"\")\n\n\ndef _file_name(prefix, lang):\n    fname = prefix\n    if lang is not None:\n        fname += \".{lang}\".format(lang=lang)\n    return fname\n\n\ndef _dest_path(prefix, lang, destdir):\n    return os.path.join(destdir, _file_name(prefix, lang))\n\n\ndef _dict_path(lang, destdir):\n    return _dest_path(\"dict\", lang, destdir) + \".txt\"\n\n\ndef dataset_dest_prefix(args, output_prefix, lang):\n    base = os.path.join(args.destdir, output_prefix)\n    if lang is not None:\n        lang_part = f\".{args.source_lang}-{args.target_lang}.{lang}\"\n    elif args.only_source:\n        lang_part = \"\"\n    else:\n        lang_part = f\".{args.source_lang}-{args.target_lang}\"\n\n    return \"{}{}\".format(base, lang_part)\n\n\ndef dataset_dest_file(args, output_prefix, lang, extension):\n    return \"{}.{}\".format(dataset_dest_prefix(args, output_prefix, lang), extension)\n\n\n#####################################################################\n# dictionary tools\n#####################################################################\n\n\ndef _build_dictionary(\n    filenames,\n    task,\n    args,\n    src=False,\n    tgt=False,\n):\n    assert src ^ tgt\n    return task.build_dictionary(\n        filenames,\n        workers=args.workers,\n        threshold=args.thresholdsrc if src else args.thresholdtgt,\n        nwords=args.nwordssrc if src else args.nwordstgt,\n        padding_factor=args.padding_factor,\n    )\n\n\n#####################################################################\n# bin file creation logic\n#####################################################################\n\n\ndef _make_binary_dataset(\n    vocab: Dictionary,\n    input_prefix: str,\n    output_prefix: str,\n    lang: tp.Optional[str],\n    num_workers: int,\n    args: Namespace,\n):\n    logger.info(\"[{}] Dictionary: {} types\".format(lang, len(vocab)))\n\n    binarizer = VocabularyDatasetBinarizer(\n        vocab,\n        append_eos=True,\n    )\n\n    input_file = \"{}{}\".format(input_prefix, (\".\" + lang) if lang is not None else \"\")\n    full_output_prefix = dataset_dest_prefix(args, output_prefix, lang)\n\n    final_summary = FileBinarizer.multiprocess_dataset(\n        input_file,\n        args.dataset_impl,\n        binarizer,\n        full_output_prefix,\n        vocab_size=len(vocab),\n        num_workers=num_workers,\n    )\n\n    logger.info(f\"[{lang}] {input_file}: {final_summary} (by {vocab.unk_word})\")\n\n\ndef _make_binary_alignment_dataset(\n    input_prefix: str, output_prefix: str, num_workers: int, args: Namespace\n):\n\n    binarizer = AlignmentDatasetBinarizer(utils.parse_alignment)\n\n    input_file = input_prefix\n    full_output_prefix = dataset_dest_prefix(args, output_prefix, lang=None)\n\n    final_summary = FileBinarizer.multiprocess_dataset(\n        input_file,\n        args.dataset_impl,\n        binarizer,\n        full_output_prefix,\n        vocab_size=None,\n        num_workers=num_workers,\n    )\n\n    logger.info(\n        \"[alignments] {}: parsed {} alignments\".format(\n            input_file, final_summary.num_seq\n        )\n    )\n\n\n#####################################################################\n# routing logic\n#####################################################################\n\n\ndef _make_dataset(\n    vocab: Dictionary,\n    input_prefix: str,\n    output_prefix: str,\n    lang: tp.Optional[str],\n    args: Namespace,\n    num_workers: int,\n):\n    if args.dataset_impl == \"raw\":\n        # Copy original text file to destination folder\n        output_text_file = _dest_path(\n            output_prefix + \".{}-{}\".format(args.source_lang, args.target_lang),\n            lang,\n            args.destdir,\n        )\n        shutil.copyfile(_file_name(input_prefix, lang), output_text_file)\n    else:\n        _make_binary_dataset(\n            vocab, input_prefix, output_prefix, lang, num_workers, args\n        )\n\n\ndef _make_all(lang, vocab, args):\n    if args.trainpref:\n        _make_dataset(\n            vocab, args.trainpref, \"train\", lang, args=args, num_workers=args.workers\n        )\n    if args.validpref:\n        for k, validpref in enumerate(args.validpref.split(\",\")):\n            outprefix = \"valid{}\".format(k) if k > 0 else \"valid\"\n            _make_dataset(\n                vocab, validpref, outprefix, lang, args=args, num_workers=args.workers\n            )\n    if args.testpref:\n        for k, testpref in enumerate(args.testpref.split(\",\")):\n            outprefix = \"test{}\".format(k) if k > 0 else \"test\"\n            _make_dataset(\n                vocab, testpref, outprefix, lang, args=args, num_workers=args.workers\n            )\n\n\ndef _make_all_alignments(args):\n    if args.trainpref and os.path.exists(args.trainpref + \".\" + args.align_suffix):\n        _make_binary_alignment_dataset(\n            args.trainpref + \".\" + args.align_suffix,\n            \"train.align\",\n            num_workers=args.workers,\n            args=args,\n        )\n    if args.validpref and os.path.exists(args.validpref + \".\" + args.align_suffix):\n        _make_binary_alignment_dataset(\n            args.validpref + \".\" + args.align_suffix,\n            \"valid.align\",\n            num_workers=args.workers,\n            args=args,\n        )\n    if args.testpref and os.path.exists(args.testpref + \".\" + args.align_suffix):\n        _make_binary_alignment_dataset(\n            args.testpref + \".\" + args.align_suffix,\n            \"test.align\",\n            num_workers=args.workers,\n            args=args,\n        )\n\n\n#####################################################################\n# align\n#####################################################################\n\n\ndef _align_files(args, src_dict, tgt_dict):\n    assert args.trainpref, \"--trainpref must be set if --alignfile is specified\"\n    src_file_name = _train_path(args.source_lang, args.trainpref)\n    tgt_file_name = _train_path(args.target_lang, args.trainpref)\n    freq_map = {}\n    with open(args.alignfile, \"r\", encoding=\"utf-8\") as align_file:\n        with open(src_file_name, \"r\", encoding=\"utf-8\") as src_file:\n            with open(tgt_file_name, \"r\", encoding=\"utf-8\") as tgt_file:\n                for a, s, t in zip_longest(align_file, src_file, tgt_file):\n                    si = src_dict.encode_line(s, add_if_not_exist=False)\n                    ti = tgt_dict.encode_line(t, add_if_not_exist=False)\n                    ai = list(map(lambda x: tuple(x.split(\"-\")), a.split()))\n                    for sai, tai in ai:\n                        srcidx = si[int(sai)]\n                        tgtidx = ti[int(tai)]\n                        if srcidx != src_dict.unk() and tgtidx != tgt_dict.unk():\n                            assert srcidx != src_dict.pad()\n                            assert srcidx != src_dict.eos()\n                            assert tgtidx != tgt_dict.pad()\n                            assert tgtidx != tgt_dict.eos()\n                            if srcidx not in freq_map:\n                                freq_map[srcidx] = {}\n                            if tgtidx not in freq_map[srcidx]:\n                                freq_map[srcidx][tgtidx] = 1\n                            else:\n                                freq_map[srcidx][tgtidx] += 1\n    align_dict = {}\n    for srcidx in freq_map.keys():\n        align_dict[srcidx] = max(freq_map[srcidx], key=freq_map[srcidx].get)\n    with open(\n        os.path.join(\n            args.destdir,\n            \"alignment.{}-{}.txt\".format(args.source_lang, args.target_lang),\n        ),\n        \"w\",\n        encoding=\"utf-8\",\n    ) as f:\n        for k, v in align_dict.items():\n            print(\"{} {}\".format(src_dict[k], tgt_dict[v]), file=f)\n\n\n#####################################################################\n# MAIN\n#####################################################################\n\n\ndef main(args):\n    # setup some basic things\n    utils.import_user_module(args)\n\n    os.makedirs(args.destdir, exist_ok=True)\n\n    logger.addHandler(\n        logging.FileHandler(\n            filename=os.path.join(args.destdir, \"preprocess.log\"),\n        )\n    )\n    logger.info(args)\n\n    assert (\n        args.dataset_impl != \"huffman\"\n    ), \"preprocessing.py doesn't support Huffman yet, use HuffmanCodeBuilder directly.\"\n\n    # build dictionaries\n\n    target = not args.only_source\n\n    if not args.srcdict and os.path.exists(_dict_path(args.source_lang, args.destdir)):\n        raise FileExistsError(_dict_path(args.source_lang, args.destdir))\n\n    if (\n        target\n        and not args.tgtdict\n        and os.path.exists(_dict_path(args.target_lang, args.destdir))\n    ):\n        raise FileExistsError(_dict_path(args.target_lang, args.destdir))\n\n    task = tasks.get_task(args.task)\n\n    if args.joined_dictionary:\n        assert (\n            not args.srcdict or not args.tgtdict\n        ), \"cannot use both --srcdict and --tgtdict with --joined-dictionary\"\n\n        if args.srcdict:\n            src_dict = task.load_dictionary(args.srcdict)\n        elif args.tgtdict:\n            src_dict = task.load_dictionary(args.tgtdict)\n        else:\n            assert (\n                args.trainpref\n            ), \"--trainpref must be set if --srcdict is not specified\"\n            src_dict = _build_dictionary(\n                {\n                    _train_path(lang, args.trainpref)\n                    for lang in [args.source_lang, args.target_lang]\n                },\n                task=task,\n                args=args,\n                src=True,\n            )\n        tgt_dict = src_dict\n    else:\n        if args.srcdict:\n            src_dict = task.load_dictionary(args.srcdict)\n        else:\n            assert (\n                args.trainpref\n            ), \"--trainpref must be set if --srcdict is not specified\"\n            src_dict = _build_dictionary(\n                [_train_path(args.source_lang, args.trainpref)],\n                task=task,\n                args=args,\n                src=True,\n            )\n\n        if target:\n            if args.tgtdict:\n                tgt_dict = task.load_dictionary(args.tgtdict)\n            else:\n                assert (\n                    args.trainpref\n                ), \"--trainpref must be set if --tgtdict is not specified\"\n                tgt_dict = _build_dictionary(\n                    [_train_path(args.target_lang, args.trainpref)],\n                    task=task,\n                    args=args,\n                    tgt=True,\n                )\n        else:\n            tgt_dict = None\n\n    # save dictionaries\n\n    src_dict.save(_dict_path(args.source_lang, args.destdir))\n    if target and tgt_dict is not None:\n        tgt_dict.save(_dict_path(args.target_lang, args.destdir))\n\n    if args.dict_only:\n        return\n\n    _make_all(args.source_lang, src_dict, args)\n    if target:\n        _make_all(args.target_lang, tgt_dict, args)\n\n    # align the datasets if needed\n    if args.align_suffix:\n        _make_all_alignments(args)\n\n    logger.info(\"Wrote preprocessed data to {}\".format(args.destdir))\n\n    if args.alignfile:\n        _align_files(args, src_dict=src_dict, tgt_dict=tgt_dict)\n\n\ndef cli_main():\n    parser = options.get_preprocessing_parser()\n    args = parser.parse_args()\n    main(args)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "fairseq_cli/score.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nBLEU scoring of generated translations against reference translations.\n\"\"\"\n\nimport argparse\nimport os\nimport sys\n\nfrom fairseq.data import dictionary\nfrom fairseq.scoring import bleu\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"Command-line script for BLEU scoring.\"\n    )\n    # fmt: off\n    parser.add_argument('-s', '--sys', default='-', help='system output')\n    parser.add_argument('-r', '--ref', required=True, help='references')\n    parser.add_argument('-o', '--order', default=4, metavar='N',\n                        type=int, help='consider ngrams up to this order')\n    parser.add_argument('--ignore-case', action='store_true',\n                        help='case-insensitive scoring')\n    parser.add_argument('--sacrebleu', action='store_true',\n                        help='score with sacrebleu')\n    parser.add_argument('--sentence-bleu', action='store_true',\n                        help='report sentence-level BLEUs (i.e., with +1 smoothing)')\n    # fmt: on\n    return parser\n\n\ndef cli_main():\n    parser = get_parser()\n    args = parser.parse_args()\n    print(args)\n\n    assert args.sys == \"-\" or os.path.exists(\n        args.sys\n    ), \"System output file {} does not exist\".format(args.sys)\n    assert os.path.exists(args.ref), \"Reference file {} does not exist\".format(args.ref)\n\n    dict = dictionary.Dictionary()\n\n    def readlines(fd):\n        for line in fd.readlines():\n            if args.ignore_case:\n                yield line.lower()\n            else:\n                yield line\n\n    if args.sacrebleu:\n        import sacrebleu\n\n        def score(fdsys):\n            with open(args.ref) as fdref:\n                print(sacrebleu.corpus_bleu(fdsys, [fdref]).format())\n\n    elif args.sentence_bleu:\n\n        def score(fdsys):\n            with open(args.ref) as fdref:\n                scorer = bleu.Scorer(dict.pad(), dict.eos(), dict.unk())\n                for i, (sys_tok, ref_tok) in enumerate(\n                    zip(readlines(fdsys), readlines(fdref))\n                ):\n                    scorer.reset(one_init=True)\n                    sys_tok = dict.encode_line(sys_tok)\n                    ref_tok = dict.encode_line(ref_tok)\n                    scorer.add(ref_tok, sys_tok)\n                    print(i, scorer.result_string(args.order))\n\n    else:\n\n        def score(fdsys):\n            with open(args.ref) as fdref:\n                scorer = bleu.Scorer(\n                    bleu.BleuConfig(\n                        pad=dict.pad(),\n                        eos=dict.eos(),\n                        unk=dict.unk(),\n                    )\n                )\n                for sys_tok, ref_tok in zip(readlines(fdsys), readlines(fdref)):\n                    sys_tok = dict.encode_line(sys_tok)\n                    ref_tok = dict.encode_line(ref_tok)\n                    scorer.add(ref_tok, sys_tok)\n                print(scorer.result_string(args.order))\n\n    if args.sys == \"-\":\n        score(sys.stdin)\n    else:\n        with open(args.sys, \"r\") as f:\n            score(f)\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "fairseq_cli/train.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nTrain a new model on one or across multiple GPUs.\n\"\"\"\n\nimport argparse\nimport logging\nimport math\nimport os\nimport sys\nfrom typing import Any, Callable, Dict, List, Optional, Tuple\n\n# We need to setup root logger before importing any fairseq libraries.\nlogging.basicConfig(\n    format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n    datefmt=\"%Y-%m-%d %H:%M:%S\",\n    level=os.environ.get(\"LOGLEVEL\", \"INFO\").upper(),\n    stream=sys.stdout,\n)\nlogger = logging.getLogger(\"fairseq_cli.train\")\n\nimport numpy as np\nimport torch\nfrom omegaconf import DictConfig, OmegaConf\n\nfrom fairseq import checkpoint_utils, options, quantization_utils, tasks, utils\nfrom fairseq.data import data_utils, iterators\nfrom fairseq.data.plasma_utils import PlasmaStore\nfrom fairseq.dataclass.configs import FairseqConfig\nfrom fairseq.dataclass.initialize import add_defaults\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.distributed import fsdp_enable_wrap, fsdp_wrap\nfrom fairseq.distributed import utils as distributed_utils\nfrom fairseq.file_io import PathManager\nfrom fairseq.logging import meters, metrics, progress_bar\nfrom fairseq.model_parallel.megatron_trainer import MegatronTrainer\nfrom fairseq.trainer import Trainer\n\n\ndef main(cfg: FairseqConfig) -> None:\n    if isinstance(cfg, argparse.Namespace):\n        cfg = convert_namespace_to_omegaconf(cfg)\n\n    utils.import_user_module(cfg.common)\n    add_defaults(cfg)\n\n    if (\n        distributed_utils.is_master(cfg.distributed_training)\n        and \"job_logging_cfg\" in cfg\n    ):\n        # make hydra logging work with ddp (see # see https://github.com/facebookresearch/hydra/issues/1126)\n        logging.config.dictConfig(OmegaConf.to_container(cfg.job_logging_cfg))\n\n    assert (\n        cfg.dataset.max_tokens is not None or cfg.dataset.batch_size is not None\n    ), \"Must specify batch size either with --max-tokens or --batch-size\"\n    metrics.reset()\n\n    if cfg.common.log_file is not None:\n        handler = logging.FileHandler(filename=cfg.common.log_file)\n        logger.addHandler(handler)\n\n    np.random.seed(cfg.common.seed)\n    utils.set_torch_seed(cfg.common.seed)\n\n    if distributed_utils.is_master(cfg.distributed_training):\n        checkpoint_utils.verify_checkpoint_directory(cfg.checkpoint.save_dir)\n\n    # Print args\n    logger.info(cfg)\n\n    if cfg.checkpoint.write_checkpoints_asynchronously:\n        try:\n            import iopath  # noqa: F401\n        except ImportError:\n            logging.exception(\n                \"Asynchronous checkpoint writing is specified but iopath is \"\n                \"not installed: `pip install iopath`\"\n            )\n            return\n\n    # Setup task, e.g., translation, language modeling, etc.\n    task = tasks.setup_task(cfg.task)\n\n    assert cfg.criterion, \"Please specify criterion to train a model\"\n\n    # Build model and criterion\n    if cfg.distributed_training.ddp_backend == \"fully_sharded\":\n        with fsdp_enable_wrap(cfg.distributed_training):\n            model = fsdp_wrap(task.build_model(cfg.model))\n    else:\n        model = task.build_model(cfg.model)\n    criterion = task.build_criterion(cfg.criterion)\n    logger.info(model)\n    logger.info(\"task: {}\".format(task.__class__.__name__))\n    logger.info(\"model: {}\".format(model.__class__.__name__))\n    logger.info(\"criterion: {}\".format(criterion.__class__.__name__))\n    logger.info(\n        \"num. shared model params: {:,} (num. trained: {:,})\".format(\n            sum(\n                p.numel() for p in model.parameters() if not getattr(p, \"expert\", False)\n            ),\n            sum(\n                p.numel()\n                for p in model.parameters()\n                if not getattr(p, \"expert\", False) and p.requires_grad\n            ),\n        )\n    )\n\n    logger.info(\n        \"num. expert model params: {} (num. trained: {})\".format(\n            sum(p.numel() for p in model.parameters() if getattr(p, \"expert\", False)),\n            sum(\n                p.numel()\n                for p in model.parameters()\n                if getattr(p, \"expert\", False) and p.requires_grad\n            ),\n        )\n    )\n\n    # Load valid dataset (we load training data below, based on the latest checkpoint)\n    # We load the valid dataset AFTER building the model\n    if not cfg.dataset.disable_validation:\n        data_utils.raise_if_valid_subsets_unintentionally_ignored(cfg)\n        if cfg.dataset.combine_valid_subsets:\n            task.load_dataset(\"valid\", combine=True, epoch=1)\n        else:\n            for valid_sub_split in cfg.dataset.valid_subset.split(\",\"):\n                task.load_dataset(valid_sub_split, combine=False, epoch=1)\n\n    # (optionally) Configure quantization\n    if cfg.common.quantization_config_path is not None:\n        quantizer = quantization_utils.Quantizer(\n            config_path=cfg.common.quantization_config_path,\n            max_epoch=cfg.optimization.max_epoch,\n            max_update=cfg.optimization.max_update,\n        )\n    else:\n        quantizer = None\n\n    # Build trainer\n    if cfg.common.model_parallel_size == 1:\n        trainer = Trainer(cfg, task, model, criterion, quantizer)\n    else:\n        trainer = MegatronTrainer(cfg, task, model, criterion)\n    logger.info(\n        \"training on {} devices (GPUs/TPUs)\".format(\n            cfg.distributed_training.distributed_world_size\n        )\n    )\n    logger.info(\n        \"max tokens per device = {} and max sentences per device = {}\".format(\n            cfg.dataset.max_tokens,\n            cfg.dataset.batch_size,\n        )\n    )\n\n    # Load the latest checkpoint if one is available and restore the\n    # corresponding train iterator\n    extra_state, epoch_itr = checkpoint_utils.load_checkpoint(\n        cfg.checkpoint,\n        trainer,\n        # don't cache epoch iterators for sharded datasets\n        disable_iterator_cache=task.has_sharded_data(\"train\"),\n    )\n    if cfg.common.tpu:\n        import torch_xla.core.xla_model as xm\n\n        xm.rendezvous(\"load_checkpoint\")  # wait for all workers\n\n    max_epoch = cfg.optimization.max_epoch or math.inf\n    lr = trainer.get_lr()\n\n    # TODO: a dry run on validation set to pin the memory\n    valid_subsets = cfg.dataset.valid_subset.split(\",\")\n    if not cfg.dataset.disable_validation:\n        for subset in valid_subsets:\n            logger.info('begin dry-run validation on \"{}\" subset'.format(subset))\n            itr = trainer.get_valid_iterator(subset).next_epoch_itr(\n                shuffle=False, set_dataset_epoch=False  # use a fixed valid set\n            )\n            if cfg.common.tpu:\n                itr = utils.tpu_data_loader(itr)\n            for _ in itr:\n                pass\n    # TODO: end of dry run section\n\n    train_meter = meters.StopwatchMeter()\n    train_meter.start()\n    while epoch_itr.next_epoch_idx <= max_epoch:\n        if lr <= cfg.optimization.stop_min_lr:\n            logger.info(\n                f\"stopping training because current learning rate ({lr}) is smaller \"\n                \"than or equal to minimum learning rate \"\n                f\"(--stop-min-lr={cfg.optimization.stop_min_lr})\"\n            )\n            break\n\n        # train for one epoch\n        valid_losses, should_stop = train(cfg, trainer, task, epoch_itr)\n        if should_stop:\n            break\n\n        # only use first validation loss to update the learning rate\n        lr = trainer.lr_step(epoch_itr.epoch, valid_losses[0])\n\n        epoch_itr = trainer.get_train_iterator(\n            epoch_itr.next_epoch_idx,\n            # sharded data: get train iterator for next epoch\n            load_dataset=task.has_sharded_data(\"train\"),\n            # don't cache epoch iterators for sharded datasets\n            disable_iterator_cache=task.has_sharded_data(\"train\"),\n        )\n    train_meter.stop()\n    logger.info(\"done training in {:.1f} seconds\".format(train_meter.sum))\n\n    # ioPath implementation to wait for all asynchronous file writes to complete.\n    if cfg.checkpoint.write_checkpoints_asynchronously:\n        logger.info(\n            \"ioPath PathManager waiting for all asynchronous checkpoint \"\n            \"writes to finish.\"\n        )\n        PathManager.async_close()\n        logger.info(\"ioPath PathManager finished waiting.\")\n\n\ndef should_stop_early(cfg: DictConfig, valid_loss: float) -> bool:\n    # skip check if no validation was done in the current epoch\n    if valid_loss is None:\n        return False\n    if cfg.checkpoint.patience <= 0:\n        return False\n\n    def is_better(a, b):\n        return a > b if cfg.checkpoint.maximize_best_checkpoint_metric else a < b\n\n    prev_best = getattr(should_stop_early, \"best\", None)\n    if prev_best is None or is_better(valid_loss, prev_best):\n        should_stop_early.best = valid_loss\n        should_stop_early.num_runs = 0\n        return False\n    else:\n        should_stop_early.num_runs += 1\n        if should_stop_early.num_runs >= cfg.checkpoint.patience:\n            logger.info(\n                \"early stop since valid performance hasn't improved for last {} runs\".format(\n                    cfg.checkpoint.patience\n                )\n            )\n            return True\n        else:\n            return False\n\n\n@metrics.aggregate(\"train\")\ndef train(\n    cfg: DictConfig, trainer: Trainer, task: tasks.FairseqTask, epoch_itr\n) -> Tuple[List[Optional[float]], bool]:\n    \"\"\"Train the model for one epoch and return validation losses.\"\"\"\n    # Initialize data iterator\n    itr = epoch_itr.next_epoch_itr(\n        fix_batches_to_gpus=cfg.distributed_training.fix_batches_to_gpus,\n        shuffle=(epoch_itr.next_epoch_idx > cfg.dataset.curriculum),\n    )\n    update_freq = (\n        cfg.optimization.update_freq[epoch_itr.epoch - 1]\n        if epoch_itr.epoch <= len(cfg.optimization.update_freq)\n        else cfg.optimization.update_freq[-1]\n    )\n    itr = iterators.GroupedIterator(\n        itr,\n        update_freq,\n        skip_remainder_batch=cfg.optimization.skip_remainder_batch,\n    )\n    if cfg.common.tpu:\n        itr = utils.tpu_data_loader(itr)\n    progress = progress_bar.progress_bar(\n        itr,\n        log_format=cfg.common.log_format,\n        log_file=cfg.common.log_file,\n        log_interval=cfg.common.log_interval,\n        epoch=epoch_itr.epoch,\n        aim_repo=(\n            cfg.common.aim_repo\n            if distributed_utils.is_master(cfg.distributed_training)\n            else None\n        ),\n        aim_run_hash=(\n            cfg.common.aim_run_hash\n            if distributed_utils.is_master(cfg.distributed_training)\n            else None\n        ),\n        aim_param_checkpoint_dir=cfg.checkpoint.save_dir,\n        tensorboard_logdir=(\n            cfg.common.tensorboard_logdir\n            if distributed_utils.is_master(cfg.distributed_training)\n            else None\n        ),\n        default_log_format=(\"tqdm\" if not cfg.common.no_progress_bar else \"simple\"),\n        wandb_project=(\n            cfg.common.wandb_project\n            if distributed_utils.is_master(cfg.distributed_training)\n            else None\n        ),\n        wandb_run_name=os.environ.get(\n            \"WANDB_NAME\", os.path.basename(cfg.checkpoint.save_dir)\n        ),\n        azureml_logging=(\n            cfg.common.azureml_logging\n            if distributed_utils.is_master(cfg.distributed_training)\n            else False\n        ),\n    )\n    progress.update_config(_flatten_config(cfg))\n\n    trainer.begin_epoch(epoch_itr.epoch)\n\n    valid_subsets = cfg.dataset.valid_subset.split(\",\")\n    should_stop = False\n    num_updates = trainer.get_num_updates()\n    logger.info(\"Start iterating over samples\")\n    for i, samples in enumerate(progress):\n        with metrics.aggregate(\"train_inner\"), torch.autograd.profiler.record_function(\n            \"train_step-%d\" % i\n        ):\n            log_output = trainer.train_step(samples)\n\n        if log_output is not None:  # not OOM, overflow, ...\n            # log mid-epoch stats\n            num_updates = trainer.get_num_updates()\n            if num_updates % cfg.common.log_interval == 0:\n                stats = get_training_stats(metrics.get_smoothed_values(\"train_inner\"))\n                progress.log(stats, tag=\"train_inner\", step=num_updates)\n\n                # reset mid-epoch stats after each log interval\n                # the end-of-epoch stats will still be preserved\n                metrics.reset_meters(\"train_inner\")\n\n        end_of_epoch = not itr.has_next()\n        valid_losses, should_stop = validate_and_save(\n            cfg, trainer, task, epoch_itr, valid_subsets, end_of_epoch\n        )\n\n        if should_stop:\n            break\n\n    # log end-of-epoch stats\n    logger.info(\"end of epoch {} (average epoch stats below)\".format(epoch_itr.epoch))\n    stats = get_training_stats(metrics.get_smoothed_values(\"train\"))\n    progress.print(stats, tag=\"train\", step=num_updates)\n\n    # reset epoch-level meters\n    metrics.reset_meters(\"train\")\n    return valid_losses, should_stop\n\n\ndef _flatten_config(cfg: DictConfig):\n    config = OmegaConf.to_container(cfg)\n    # remove any legacy Namespaces and replace with a single \"args\"\n    namespace = None\n    for k, v in list(config.items()):\n        if isinstance(v, argparse.Namespace):\n            namespace = v\n            del config[k]\n    if namespace is not None:\n        config[\"args\"] = vars(namespace)\n    return config\n\n\ndef validate_and_save(\n    cfg: DictConfig,\n    trainer: Trainer,\n    task: tasks.FairseqTask,\n    epoch_itr,\n    valid_subsets: List[str],\n    end_of_epoch: bool,\n) -> Tuple[List[Optional[float]], bool]:\n    num_updates = trainer.get_num_updates()\n    max_update = cfg.optimization.max_update or math.inf\n\n    # Stopping conditions (and an additional one based on validation loss later\n    # on)\n    should_stop = False\n    if num_updates >= max_update:\n        should_stop = True\n        logger.info(\n            f\"Stopping training due to \"\n            f\"num_updates: {num_updates} >= max_update: {max_update}\"\n        )\n\n    training_time_hours = trainer.cumulative_training_time() / (60 * 60)\n    if (\n        cfg.optimization.stop_time_hours > 0\n        and training_time_hours > cfg.optimization.stop_time_hours\n    ):\n        should_stop = True\n        logger.info(\n            f\"Stopping training due to \"\n            f\"cumulative_training_time: {training_time_hours} > \"\n            f\"stop_time_hours: {cfg.optimization.stop_time_hours} hour(s)\"\n        )\n\n    do_save = (\n        (end_of_epoch and epoch_itr.epoch % cfg.checkpoint.save_interval == 0)\n        or should_stop\n        or (\n            cfg.checkpoint.save_interval_updates > 0\n            and num_updates > 0\n            and num_updates % cfg.checkpoint.save_interval_updates == 0\n            and num_updates >= cfg.dataset.validate_after_updates\n        )\n    )\n    do_validate = (\n        (\n            (not end_of_epoch and do_save)  # validate during mid-epoch saves\n            or (end_of_epoch and epoch_itr.epoch % cfg.dataset.validate_interval == 0)\n            or should_stop\n            or (\n                cfg.dataset.validate_interval_updates > 0\n                and num_updates > 0\n                and num_updates % cfg.dataset.validate_interval_updates == 0\n            )\n        )\n        and not cfg.dataset.disable_validation\n        and num_updates >= cfg.dataset.validate_after_updates\n    )\n\n    # Validate\n    valid_losses = [None]\n    if do_validate:\n        valid_losses = validate(cfg, trainer, task, epoch_itr, valid_subsets)\n\n    should_stop |= should_stop_early(cfg, valid_losses[0])\n\n    # Save checkpoint\n    if do_save or should_stop:\n        cp_path = checkpoint_utils.save_checkpoint(\n            cfg.checkpoint, trainer, epoch_itr, valid_losses[0]\n        )\n        if cp_path is not None and hasattr(task, \"post_save\"):\n            task.post_save(cp_path, num_updates)\n\n    return valid_losses, should_stop\n\n\ndef get_training_stats(stats: Dict[str, Any]) -> Dict[str, Any]:\n    stats[\"wall\"] = round(metrics.get_meter(\"default\", \"wall\").elapsed_time, 0)\n    return stats\n\n\ndef validate(\n    cfg: DictConfig,\n    trainer: Trainer,\n    task: tasks.FairseqTask,\n    epoch_itr,\n    subsets: List[str],\n) -> List[Optional[float]]:\n    \"\"\"Evaluate the model on the validation set(s) and return the losses.\"\"\"\n\n    if cfg.dataset.fixed_validation_seed is not None:\n        # set fixed seed for every validation\n        utils.set_torch_seed(cfg.dataset.fixed_validation_seed)\n\n    trainer.begin_valid_epoch(epoch_itr.epoch)\n    valid_losses = []\n    for subset_idx, subset in enumerate(subsets):\n        logger.info('begin validation on \"{}\" subset'.format(subset))\n\n        # Initialize data iterator\n        itr = trainer.get_valid_iterator(subset).next_epoch_itr(\n            shuffle=False, set_dataset_epoch=False  # use a fixed valid set\n        )\n        if cfg.common.tpu:\n            itr = utils.tpu_data_loader(itr)\n        progress = progress_bar.progress_bar(\n            itr,\n            log_format=cfg.common.log_format,\n            log_interval=cfg.common.log_interval,\n            epoch=epoch_itr.epoch,\n            prefix=f\"valid on '{subset}' subset\",\n            aim_repo=(\n                cfg.common.aim_repo\n                if distributed_utils.is_master(cfg.distributed_training)\n                else None\n            ),\n            aim_run_hash=(\n                cfg.common.aim_run_hash\n                if distributed_utils.is_master(cfg.distributed_training)\n                else None\n            ),\n            aim_param_checkpoint_dir=cfg.checkpoint.save_dir,\n            tensorboard_logdir=(\n                cfg.common.tensorboard_logdir\n                if distributed_utils.is_master(cfg.distributed_training)\n                else None\n            ),\n            default_log_format=(\"tqdm\" if not cfg.common.no_progress_bar else \"simple\"),\n            wandb_project=(\n                cfg.common.wandb_project\n                if distributed_utils.is_master(cfg.distributed_training)\n                else None\n            ),\n            wandb_run_name=os.environ.get(\n                \"WANDB_NAME\", os.path.basename(cfg.checkpoint.save_dir)\n            ),\n        )\n\n        # create a new root metrics aggregator so validation metrics\n        # don't pollute other aggregators (e.g., train meters)\n        with metrics.aggregate(new_root=True) as agg:\n            for i, sample in enumerate(progress):\n                if (\n                    cfg.dataset.max_valid_steps is not None\n                    and i > cfg.dataset.max_valid_steps\n                ):\n                    break\n                trainer.valid_step(sample)\n\n        # log validation stats\n        # only tracking the best metric on the 1st validation subset\n        tracking_best = subset_idx == 0\n        stats = get_valid_stats(cfg, trainer, agg.get_smoothed_values(), tracking_best)\n\n        if hasattr(task, \"post_validate\"):\n            task.post_validate(trainer.get_model(), stats, agg)\n\n        progress.print(stats, tag=subset, step=trainer.get_num_updates())\n\n        valid_losses.append(stats[cfg.checkpoint.best_checkpoint_metric])\n    return valid_losses\n\n\ndef get_valid_stats(\n    cfg: DictConfig,\n    trainer: Trainer,\n    stats: Dict[str, Any],\n    tracking_best: bool,\n) -> Dict[str, Any]:\n    stats[\"num_updates\"] = trainer.get_num_updates()\n    if tracking_best and hasattr(checkpoint_utils.save_checkpoint, \"best\"):\n        key = \"best_{0}\".format(cfg.checkpoint.best_checkpoint_metric)\n        best_function = max if cfg.checkpoint.maximize_best_checkpoint_metric else min\n        stats[key] = best_function(\n            checkpoint_utils.save_checkpoint.best,\n            stats[cfg.checkpoint.best_checkpoint_metric],\n        )\n    return stats\n\n\ndef cli_main(\n    modify_parser: Optional[Callable[[argparse.ArgumentParser], None]] = None\n) -> None:\n    parser = options.get_training_parser()\n    args = options.parse_args_and_arch(parser, modify_parser=modify_parser)\n\n    cfg = convert_namespace_to_omegaconf(args)\n\n    if cfg.common.use_plasma_view:\n        server = PlasmaStore(path=cfg.common.plasma_path)\n        logger.info(\n            f\"Started plasma server pid {server.server.pid} {cfg.common.plasma_path}\"\n        )\n\n    if args.profile:\n        with torch.cuda.profiler.profile():\n            with torch.autograd.profiler.emit_nvtx():\n                distributed_utils.call_main(cfg, main)\n    else:\n        distributed_utils.call_main(cfg, main)\n\n    # if cfg.common.use_plasma_view:\n    #     server.server.kill()\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "fairseq_cli/validate.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport os\nimport sys\nfrom argparse import Namespace\nfrom itertools import chain\n\nimport torch\nfrom omegaconf import DictConfig\n\nfrom fairseq import checkpoint_utils, distributed_utils, options, utils\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.logging import metrics, progress_bar\nfrom fairseq.utils import reset_logging\n\nlogging.basicConfig(\n    format=\"%(asctime)s | %(levelname)s | %(name)s | %(message)s\",\n    datefmt=\"%Y-%m-%d %H:%M:%S\",\n    level=os.environ.get(\"LOGLEVEL\", \"INFO\").upper(),\n    stream=sys.stdout,\n)\nlogger = logging.getLogger(\"fairseq_cli.validate\")\n\n\ndef main(cfg: DictConfig, override_args=None):\n    if isinstance(cfg, Namespace):\n        cfg = convert_namespace_to_omegaconf(cfg)\n\n    utils.import_user_module(cfg.common)\n\n    reset_logging()\n\n    assert (\n        cfg.dataset.max_tokens is not None or cfg.dataset.batch_size is not None\n    ), \"Must specify batch size either with --max-tokens or --batch-size\"\n\n    use_fp16 = cfg.common.fp16\n    use_cuda = torch.cuda.is_available() and not cfg.common.cpu\n\n    if use_cuda:\n        torch.cuda.set_device(cfg.distributed_training.device_id)\n\n    if cfg.distributed_training.distributed_world_size > 1:\n        data_parallel_world_size = distributed_utils.get_data_parallel_world_size()\n        data_parallel_rank = distributed_utils.get_data_parallel_rank()\n    else:\n        data_parallel_world_size = 1\n        data_parallel_rank = 0\n\n    if override_args is not None:\n        overrides = vars(override_args)\n        overrides.update(eval(getattr(override_args, \"model_overrides\", \"{}\")))\n    else:\n        overrides = None\n\n    # Load ensemble\n    logger.info(\"loading model(s) from {}\".format(cfg.common_eval.path))\n    models, saved_cfg, task = checkpoint_utils.load_model_ensemble_and_task(\n        [cfg.common_eval.path],\n        arg_overrides=overrides,\n        suffix=cfg.checkpoint.checkpoint_suffix,\n    )\n    model = models[0]\n\n    # Move models to GPU\n    for model in models:\n        model.eval()\n        if use_fp16:\n            model.half()\n        if use_cuda:\n            model.cuda()\n\n    # Print args\n    logger.info(saved_cfg)\n\n    # Build criterion\n    criterion = task.build_criterion(saved_cfg.criterion)\n    criterion.eval()\n\n    for subset in cfg.dataset.valid_subset.split(\",\"):\n        try:\n            task.load_dataset(subset, combine=False, epoch=1, task_cfg=saved_cfg.task)\n            dataset = task.dataset(subset)\n        except KeyError:\n            raise Exception(\"Cannot find dataset: \" + subset)\n\n        # Initialize data iterator\n        itr = task.get_batch_iterator(\n            dataset=dataset,\n            max_tokens=cfg.dataset.max_tokens,\n            max_sentences=cfg.dataset.batch_size,\n            max_positions=utils.resolve_max_positions(\n                task.max_positions(),\n                *[m.max_positions() for m in models],\n            ),\n            ignore_invalid_inputs=cfg.dataset.skip_invalid_size_inputs_valid_test,\n            required_batch_size_multiple=cfg.dataset.required_batch_size_multiple,\n            seed=cfg.common.seed,\n            num_shards=data_parallel_world_size,\n            shard_id=data_parallel_rank,\n            num_workers=cfg.dataset.num_workers,\n            data_buffer_size=cfg.dataset.data_buffer_size,\n        ).next_epoch_itr(shuffle=False)\n        progress = progress_bar.progress_bar(\n            itr,\n            log_format=cfg.common.log_format,\n            log_interval=cfg.common.log_interval,\n            prefix=f\"valid on '{subset}' subset\",\n            default_log_format=(\"tqdm\" if not cfg.common.no_progress_bar else \"simple\"),\n        )\n\n        log_outputs = []\n        for i, sample in enumerate(progress):\n            sample = utils.move_to_cuda(sample) if use_cuda else sample\n            _loss, _sample_size, log_output = task.valid_step(sample, model, criterion)\n            progress.log(log_output, step=i)\n            log_outputs.append(log_output)\n\n        if data_parallel_world_size > 1:\n            log_outputs = distributed_utils.all_gather_list(\n                log_outputs,\n                max_size=cfg.common.all_gather_list_size,\n                group=distributed_utils.get_data_parallel_group(),\n            )\n            log_outputs = list(chain.from_iterable(log_outputs))\n\n        with metrics.aggregate() as agg:\n            task.reduce_metrics(log_outputs, criterion)\n            log_output = agg.get_smoothed_values()\n\n        progress.print(log_output, tag=subset, step=i)\n\n\ndef cli_main():\n    parser = options.get_validation_parser()\n    args = options.parse_args_and_arch(parser)\n\n    # only override args that are explicitly given on the command line\n    override_parser = options.get_validation_parser()\n    override_args = options.parse_args_and_arch(override_parser, suppress_defaults=True)\n\n    distributed_utils.call_main(\n        convert_namespace_to_omegaconf(args), main, override_args=override_args\n    )\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  },
  {
    "path": "hubconf.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"isort:skip_file\"\"\"\n\nimport functools\nimport importlib\n\n\ndependencies = [\n    \"dataclasses\",\n    \"hydra\",\n    \"numpy\",\n    \"omegaconf\",\n    \"regex\",\n    \"requests\",\n    \"torch\",\n]\n\n\n# Check for required dependencies and raise a RuntimeError if any are missing.\nmissing_deps = []\nfor dep in dependencies:\n    try:\n        importlib.import_module(dep)\n    except ImportError:\n        # Hack: the hydra package is provided under the \"hydra-core\" name in\n        # pypi. We don't want the user mistakenly calling `pip install hydra`\n        # since that will install an unrelated package.\n        if dep == \"hydra\":\n            dep = \"hydra-core\"\n        missing_deps.append(dep)\nif len(missing_deps) > 0:\n    raise RuntimeError(\"Missing dependencies: {}\".format(\", \".join(missing_deps)))\n\n\n# only do fairseq imports after checking for dependencies\nfrom fairseq.hub_utils import (  # noqa; noqa\n    BPEHubInterface as bpe,\n    TokenizerHubInterface as tokenizer,\n)\nfrom fairseq.models import MODEL_REGISTRY  # noqa\n\n\n# torch.hub doesn't build Cython components, so if they are not found then try\n# to build them here\ntry:\n    import fairseq.data.token_block_utils_fast  # noqa\nexcept ImportError:\n    try:\n        import cython  # noqa\n        import os\n        from setuptools import sandbox\n\n        sandbox.run_setup(\n            os.path.join(os.path.dirname(__file__), \"setup.py\"),\n            [\"build_ext\", \"--inplace\"],\n        )\n    except ImportError:\n        print(\n            \"Unable to build Cython components. Please make sure Cython is \"\n            \"installed if the torch.hub model you are loading depends on it.\"\n        )\n\n\n# automatically expose models defined in FairseqModel::hub_models\nfor _model_type, _cls in MODEL_REGISTRY.items():\n    for model_name in _cls.hub_models().keys():\n        globals()[model_name] = functools.partial(\n            _cls.from_pretrained,\n            model_name,\n        )\n"
  },
  {
    "path": "hydra_plugins/dependency_submitit_launcher/hydra_plugins/dependency_submitit_launcher/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates. All Rights Reserved\n\n__version__ = \"0.1\"\n"
  },
  {
    "path": "hydra_plugins/dependency_submitit_launcher/hydra_plugins/dependency_submitit_launcher/config.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates. All Rights Reserved\nfrom dataclasses import dataclass, field\n\nfrom hydra.core.config_store import ConfigStore\n\nfrom hydra_plugins.hydra_submitit_launcher.config import SlurmQueueConf\n\n\n@dataclass\nclass DependencySubmititConf(SlurmQueueConf):\n    \"\"\"Slurm configuration overrides and specific parameters\"\"\"\n\n    _target_: str = (\n        \"hydra_plugins.dependency_submitit_launcher.launcher.DependencySubmititLauncher\"\n    )\n\n\nConfigStore.instance().store(\n    group=\"hydra/launcher\",\n    name=\"dependency_submitit_slurm\",\n    node=DependencySubmititConf(),\n    provider=\"dependency_submitit_slurm\",\n)\n"
  },
  {
    "path": "hydra_plugins/dependency_submitit_launcher/hydra_plugins/dependency_submitit_launcher/launcher.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates. All Rights Reserved\nimport logging\nimport os\nimport subprocess\nfrom pathlib import Path\nfrom typing import Any, List, Sequence\n\nfrom hydra.core.singleton import Singleton\nfrom hydra.core.utils import JobReturn, filter_overrides\nfrom omegaconf import OmegaConf\n\nlog = logging.getLogger(__name__)\n\nfrom .config import DependencySubmititConf\nfrom hydra_plugins.hydra_submitit_launcher.submitit_launcher import BaseSubmititLauncher\n\n\nclass DependencySubmititLauncher(BaseSubmititLauncher):\n    _EXECUTOR = \"slurm\"\n\n    def launch(\n        self, job_overrides: Sequence[Sequence[str]], initial_job_idx: int\n    ) -> Sequence[JobReturn]:\n\n        # lazy import to ensure plugin discovery remains fast\n        import submitit\n\n        assert self.config is not None\n\n        num_jobs = len(job_overrides)\n        assert num_jobs > 0\n\n        next_script = None\n\n        for jo in job_overrides:\n            if next_script is None:\n                for item in jo:\n                    if \"next_script=\" in item:\n                        next_script = item\n                        break\n            assert (\n                next_script is not None\n            ), \"job overrides must contain +next_script=path/to/next/script\"\n            jo.remove(next_script)\n\n        idx = next_script.find(\"=\")\n        next_script = next_script[idx + 1 :]\n\n        params = self.params\n        # build executor\n        init_params = {\"folder\": self.params[\"submitit_folder\"]}\n        specific_init_keys = {\"max_num_timeout\"}\n\n        init_params.update(\n            **{\n                f\"{self._EXECUTOR}_{x}\": y\n                for x, y in params.items()\n                if x in specific_init_keys\n            }\n        )\n        init_keys = specific_init_keys | {\"submitit_folder\"}\n        executor = submitit.AutoExecutor(cluster=self._EXECUTOR, **init_params)\n\n        # specify resources/parameters\n        baseparams = set(OmegaConf.structured(DependencySubmititConf).keys())\n        params = {\n            x if x in baseparams else f\"{self._EXECUTOR}_{x}\": y\n            for x, y in params.items()\n            if x not in init_keys\n        }\n        executor.update_parameters(**params)\n\n        log.info(\n            f\"Submitit '{self._EXECUTOR}' sweep output dir : \"\n            f\"{self.config.hydra.sweep.dir}\"\n        )\n        sweep_dir = Path(str(self.config.hydra.sweep.dir))\n        sweep_dir.mkdir(parents=True, exist_ok=True)\n        if \"mode\" in self.config.hydra.sweep:\n            mode = int(str(self.config.hydra.sweep.mode), 8)\n            os.chmod(sweep_dir, mode=mode)\n\n        job_params: List[Any] = []\n        for idx, overrides in enumerate(job_overrides):\n            idx = initial_job_idx + idx\n            lst = \" \".join(filter_overrides(overrides))\n            log.info(f\"\\t#{idx} : {lst}\")\n            job_params.append(\n                (\n                    list(overrides),\n                    \"hydra.sweep.dir\",\n                    idx,\n                    f\"job_id_for_{idx}\",\n                    Singleton.get_state(),\n                )\n            )\n\n        jobs = executor.map_array(self, *zip(*job_params))\n\n        for j, jp in zip(jobs, job_params):\n            job_id = str(j.job_id)\n            task_id = \"0\" if \"_\" not in job_id else job_id.split(\"_\")[1]\n            sweep_config = self.config_loader.load_sweep_config(self.config, jp[0])\n            dir = sweep_config.hydra.sweep.dir\n\n            dir = (\n                dir.replace(\"[\", \"\")\n                .replace(\"]\", \"\")\n                .replace(\"{\", \"\")\n                .replace(\"}\", \"\")\n                .replace(\",\", \"_\")\n                .replace(\"'\", \"\")\n                .replace('\"', \"\")\n            )\n\n            subprocess.call(\n                [next_script, job_id, task_id, dir],\n                shell=False,\n            )\n\n        return [j.results()[0] for j in jobs]\n"
  },
  {
    "path": "hydra_plugins/dependency_submitit_launcher/setup.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates. All Rights Reserved\n# type: ignore\nfrom pathlib import Path\n\nfrom read_version import read_version\nfrom setuptools import find_namespace_packages, setup\n\nsetup(\n    name=\"dependency-submitit-launcher\",\n    version=read_version(\"hydra_plugins/dependency_submitit_launcher\", \"__init__.py\"),\n    author=\"Alexei Baevski\",\n    author_email=\"abaevski@fb.com\",\n    description=\"Dependency-supporting Submitit Launcher for Hydra apps\",\n    packages=find_namespace_packages(include=[\"hydra_plugins.*\"]),\n    classifiers=[\n        \"License :: OSI Approved :: MIT License\",\n        \"Programming Language :: Python :: 3.7\",\n        \"Programming Language :: Python :: 3.8\",\n        \"Programming Language :: Python :: 3.9\",\n        \"Operating System :: MacOS\",\n        \"Operating System :: POSIX :: Linux\",\n        \"Development Status :: 4 - Beta\",\n    ],\n    install_requires=[\n        \"hydra-core>=1.0.4\",\n        \"submitit>=1.0.0\",\n    ],\n    include_package_data=True,\n)\n"
  },
  {
    "path": "pyproject.toml",
    "content": "[build-system]\nrequires = [\n  \"setuptools>=18.0\",\n  \"wheel\",\n  \"cython\",\n  \"numpy>=1.21.3\",\n  \"torch>=1.10\",\n]\nbuild-backend = \"setuptools.build_meta\"\n\n[tool.black]\nextend-exclude = '''\n(\n^/examples/|\n^/fairseq/model_parallel/megatron|\n^/build/\n)\n'''\n\n[tool.isort]\nprofile = \"black\"\nknown_third_party = \"_cffi_backend,agg_results,aml,bitarray,boto3,botocore,dump_hubert_feature,dynamicconv_cuda,editdistance,faiss,fasttext,feature_utils,ffmpeg,g2p_en,h5py,hydra,hypothesis,indicnlp,inflect,iopath,joblib,kaldi_io,kenlm,libfb,librosa,lightconv_cuda,matplotlib,misc,mmpt,mmpt_cli,model,nltk,npy_append_array,numpy,omegaconf,pandas,pathbuilder,preprocessing,progressbar,pythainlp,random_sequence_shuffler,regex,sacrebleu,sacremoses,scipy,sentencepiece,setuptools,six,sklearn,soundfile,sweep,sweep_wmt_en2de_transformer_big_common,tabulate,torch,torchaudio,tqdm,unidecode,utils,videoreader,wav2vec_cluster_faiss,wget,yaml\"\nskip_gitignore = true\n"
  },
  {
    "path": "release_utils.py",
    "content": "import argparse\nfrom typing import Tuple\n\n\ndef get_next_version(release_type) -> Tuple[Tuple[int, int, int], str, str]:\n    current_ver = find_version(\"fairseq/version.txt\")\n    version_list = [int(x) for x in current_ver.strip(\"'\").split(\".\")]\n    major, minor, patch = version_list[0], version_list[1], version_list[2]\n    if release_type == \"patch\":\n        patch += 1\n    elif release_type == \"minor\":\n        minor += 1\n        patch = 0\n    elif release_type == \"major\":\n        major += 1\n        minor = patch = 0\n    else:\n        raise ValueError(\n            \"Incorrect release type specified. Acceptable types are major, minor and patch.\"\n        )\n\n    new_version_tuple = (major, minor, patch)\n    new_version_str = \".\".join([str(x) for x in new_version_tuple])\n    new_tag_str = \"v\" + new_version_str\n    return new_version_tuple, new_version_str, new_tag_str\n\n\ndef find_version(version_file_path) -> str:\n    with open(version_file_path) as f:\n        version = f.read().strip()\n        return version\n\n\ndef update_version(new_version_str) -> None:\n    \"\"\"\n    given the current version, update the version to the\n    next version depending on the type of release.\n    \"\"\"\n\n    with open(\"fairseq/version.txt\", \"w\") as writer:\n        writer.write(new_version_str)\n\n\ndef main(args):\n    if args.release_type in [\"major\", \"minor\", \"patch\"]:\n        new_version_tuple, new_version, new_tag = get_next_version(args.release_type)\n    else:\n        raise ValueError(\"Incorrect release type specified\")\n\n    if args.update_version:\n        update_version(new_version)\n\n    print(new_version, new_tag)\n\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser(description=\"Versioning utils\")\n    parser.add_argument(\n        \"--release-type\",\n        type=str,\n        required=True,\n        help=\"type of release = major/minor/patch\",\n    )\n    parser.add_argument(\n        \"--update-version\",\n        action=\"store_true\",\n        required=False,\n        help=\"updates the version in fairseq/version.txt\",\n    )\n\n    args = parser.parse_args()\n    main(args)\n"
  },
  {
    "path": "scripts/__init__.py",
    "content": ""
  },
  {
    "path": "scripts/average_checkpoints.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport collections\nimport os\nimport re\n\nimport torch\n\nfrom fairseq.file_io import PathManager\n\n\ndef average_checkpoints(inputs):\n    \"\"\"Loads checkpoints from inputs and returns a model with averaged weights.\n\n    Args:\n      inputs: An iterable of string paths of checkpoints to load from.\n\n    Returns:\n      A dict of string keys mapping to various values. The 'model' key\n      from the returned dict should correspond to an OrderedDict mapping\n      string parameter names to torch Tensors.\n    \"\"\"\n    params_dict = collections.OrderedDict()\n    params_keys = None\n    new_state = None\n    num_models = len(inputs)\n\n    for fpath in inputs:\n        with PathManager.open(fpath, \"rb\") as f:\n            state = torch.load(\n                f,\n                map_location=(\n                    lambda s, _: torch.serialization.default_restore_location(s, \"cpu\")\n                ),\n            )\n        # Copies over the settings from the first checkpoint\n        if new_state is None:\n            new_state = state\n\n        model_params = state[\"model\"]\n\n        model_params_keys = list(model_params.keys())\n        if params_keys is None:\n            params_keys = model_params_keys\n        elif params_keys != model_params_keys:\n            raise KeyError(\n                \"For checkpoint {}, expected list of params: {}, \"\n                \"but found: {}\".format(f, params_keys, model_params_keys)\n            )\n\n        for k in params_keys:\n            p = model_params[k]\n            if isinstance(p, torch.HalfTensor):\n                p = p.float()\n            if k not in params_dict:\n                params_dict[k] = p.clone()\n                # NOTE: clone() is needed in case of p is a shared parameter\n            else:\n                params_dict[k] += p\n\n    averaged_params = collections.OrderedDict()\n    for k, v in params_dict.items():\n        averaged_params[k] = v\n        if averaged_params[k].is_floating_point():\n            averaged_params[k].div_(num_models)\n        else:\n            averaged_params[k] //= num_models\n    new_state[\"model\"] = averaged_params\n    return new_state\n\n\ndef last_n_checkpoints(paths, n, update_based, upper_bound=None):\n    assert len(paths) == 1\n    path = paths[0]\n    if update_based:\n        pt_regexp = re.compile(r\"checkpoint_\\d+_(\\d+)\\.pt\")\n    else:\n        pt_regexp = re.compile(r\"checkpoint(\\d+)\\.pt\")\n    files = PathManager.ls(path)\n\n    entries = []\n    for f in files:\n        m = pt_regexp.fullmatch(f)\n        if m is not None:\n            sort_key = int(m.group(1))\n            if upper_bound is None or sort_key <= upper_bound:\n                entries.append((sort_key, m.group(0)))\n    if len(entries) < n:\n        raise Exception(\n            \"Found {} checkpoint files but need at least {}\", len(entries), n\n        )\n    return [os.path.join(path, x[1]) for x in sorted(entries, reverse=True)[:n]]\n\n\ndef main():\n    parser = argparse.ArgumentParser(\n        description=\"Tool to average the params of input checkpoints to \"\n        \"produce a new checkpoint\",\n    )\n    # fmt: off\n    parser.add_argument('--inputs', required=True, nargs='+',\n                        help='Input checkpoint file paths.')\n    parser.add_argument('--output', required=True, metavar='FILE',\n                        help='Write the new checkpoint containing the averaged weights to this path.')\n    num_group = parser.add_mutually_exclusive_group()\n    num_group.add_argument('--num-epoch-checkpoints', type=int,\n                           help='if set, will try to find checkpoints with names checkpoint_xx.pt in the '\n                           'path specified by input, and average last this many of them.')\n    num_group.add_argument('--num-update-checkpoints', type=int,\n                           help='if set, will try to find checkpoints with names checkpoint_ee_xx.pt in the path specified by'\n                           ' input, and average last this many of them.')\n    num_group.add_argument('--num-best-checkpoints', type=int, default=0,\n                           help='if set, will try to find checkpoints with names checkpoint_best_ee_xx.pt in the path specified by'\n                           ' input, and average last this many of them.')\n    parser.add_argument('--checkpoint-upper-bound', type=int,\n                        help='when using --num-epoch-checkpoints, this will set an upper bound on which epoch to use, '\n                        'when using --num-update-checkpoints, this will set an upper bound on which update to use'\n                        'e.g., with --num-epoch-checkpoints=10 --checkpoint-upper-bound=50, checkpoints 41-50 would be'\n                        ' averaged.'\n                        'e.g., with --num-update-checkpoints=10 --checkpoint-upper-bound=50000, checkpoints 40500-50000 would'\n                        ' be averaged assuming --save-interval-updates 500'\n                        )\n    # fmt: on\n    args = parser.parse_args()\n    print(args)\n\n    num = None\n    is_update_based = False\n    if args.num_update_checkpoints is not None:\n        num = args.num_update_checkpoints\n        is_update_based = True\n    elif args.num_epoch_checkpoints is not None:\n        num = args.num_epoch_checkpoints\n\n    assert args.checkpoint_upper_bound is None or (\n        args.num_epoch_checkpoints is not None\n        or args.num_update_checkpoints is not None\n    ), \"--checkpoint-upper-bound requires --num-epoch-checkpoints or --num-update-checkpoints\"\n    assert (\n        args.num_epoch_checkpoints is None or args.num_update_checkpoints is None\n    ), \"Cannot combine --num-epoch-checkpoints and --num-update-checkpoints\"\n\n    if num is not None:\n        args.inputs = last_n_checkpoints(\n            args.inputs,\n            num,\n            is_update_based,\n            upper_bound=args.checkpoint_upper_bound,\n        )\n        print(\"averaging checkpoints: \", args.inputs)\n\n    if args.num_best_checkpoints > 0:\n        args.inputs = list(\n            sorted(\n                args.inputs,\n                key=lambda x: float(\n                    os.path.basename(x).split(\"_\")[-1].replace(\".pt\", \"\")\n                ),\n            )\n        )\n        args.inputs = args.inputs[: args.num_best_checkpoints]\n        for path in args.inputs:\n            print(os.path.basename(path))\n    new_state = average_checkpoints(args.inputs)\n    with PathManager.open(args.output, \"wb\") as f:\n        torch.save(new_state, f)\n    print(\"Finished writing averaged checkpoint to {}\".format(args.output))\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "scripts/build_sym_alignment.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nUse this script in order to build symmetric alignments for your translation\ndataset.\nThis script depends on fast_align and mosesdecoder tools. You will need to\nbuild those before running the script.\nfast_align:\n    github: http://github.com/clab/fast_align\n    instructions: follow the instructions in README.md\nmosesdecoder:\n    github: http://github.com/moses-smt/mosesdecoder\n    instructions: http://www.statmt.org/moses/?n=Development.GetStarted\nThe script produces the following files under --output_dir:\n    text.joined - concatenation of lines from the source_file and the\n    target_file.\n    align.forward - forward pass of fast_align.\n    align.backward - backward pass of fast_align.\n    aligned.sym_heuristic - symmetrized alignment.\n\"\"\"\n\nimport argparse\nimport os\nfrom itertools import zip_longest\n\n\ndef main():\n    parser = argparse.ArgumentParser(description=\"symmetric alignment builer\")\n    # fmt: off\n    parser.add_argument('--fast_align_dir',\n                        help='path to fast_align build directory')\n    parser.add_argument('--mosesdecoder_dir',\n                        help='path to mosesdecoder root directory')\n    parser.add_argument('--sym_heuristic',\n                        help='heuristic to use for symmetrization',\n                        default='grow-diag-final-and')\n    parser.add_argument('--source_file',\n                        help='path to a file with sentences '\n                             'in the source language')\n    parser.add_argument('--target_file',\n                        help='path to a file with sentences '\n                             'in the target language')\n    parser.add_argument('--output_dir',\n                        help='output directory')\n    # fmt: on\n    args = parser.parse_args()\n\n    fast_align_bin = os.path.join(args.fast_align_dir, \"fast_align\")\n    symal_bin = os.path.join(args.mosesdecoder_dir, \"bin\", \"symal\")\n    sym_fast_align_bin = os.path.join(\n        args.mosesdecoder_dir, \"scripts\", \"ems\", \"support\", \"symmetrize-fast-align.perl\"\n    )\n\n    # create joined file\n    joined_file = os.path.join(args.output_dir, \"text.joined\")\n    with open(args.source_file, \"r\", encoding=\"utf-8\") as src, open(\n        args.target_file, \"r\", encoding=\"utf-8\"\n    ) as tgt:\n        with open(joined_file, \"w\", encoding=\"utf-8\") as joined:\n            for s, t in zip_longest(src, tgt):\n                print(\"{} ||| {}\".format(s.strip(), t.strip()), file=joined)\n\n    bwd_align_file = os.path.join(args.output_dir, \"align.backward\")\n\n    # run forward alignment\n    fwd_align_file = os.path.join(args.output_dir, \"align.forward\")\n    fwd_fast_align_cmd = \"{FASTALIGN} -i {JOINED} -d -o -v > {FWD}\".format(\n        FASTALIGN=fast_align_bin, JOINED=joined_file, FWD=fwd_align_file\n    )\n    assert os.system(fwd_fast_align_cmd) == 0\n\n    # run backward alignment\n    bwd_align_file = os.path.join(args.output_dir, \"align.backward\")\n    bwd_fast_align_cmd = \"{FASTALIGN} -i {JOINED} -d -o -v -r > {BWD}\".format(\n        FASTALIGN=fast_align_bin, JOINED=joined_file, BWD=bwd_align_file\n    )\n    assert os.system(bwd_fast_align_cmd) == 0\n\n    # run symmetrization\n    sym_out_file = os.path.join(args.output_dir, \"aligned\")\n    sym_cmd = \"{SYMFASTALIGN} {FWD} {BWD} {SRC} {TGT} {OUT} {HEURISTIC} {SYMAL}\".format(\n        SYMFASTALIGN=sym_fast_align_bin,\n        FWD=fwd_align_file,\n        BWD=bwd_align_file,\n        SRC=args.source_file,\n        TGT=args.target_file,\n        OUT=sym_out_file,\n        HEURISTIC=args.sym_heuristic,\n        SYMAL=symal_bin,\n    )\n    assert os.system(sym_cmd) == 0\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "scripts/check_installation.py",
    "content": "from pathlib import Path\nimport os\n\ncwd = Path(\".\").resolve()\nprint(\"running 'check_installation.py' from:\", cwd)\n\n# Old versions of numpy/torch can prevent loading the .so files\nimport torch\n\nprint(\"torch:\", torch.__version__)\nimport numpy\n\nprint(\"numpy:\", numpy.__version__)\n\nimport fairseq\n\nprint(\"Fairseq installed at:\", fairseq.__file__)\nimport fairseq.criterions\nimport fairseq.dataclass.configs\n\nimport _imp\n\nprint(\"Should load following .so suffixes:\", _imp.extension_suffixes())\n\nso_files = list(Path(fairseq.__file__).parent.glob(\"*.so\"))\nso_files.extend(Path(fairseq.__file__).parent.glob(\"data/*.so\"))\nprint(\"Found following .so files:\")\nfor so_file in so_files:\n    print(f\"- {so_file}\")\n\nfrom fairseq import libbleu\n\nprint(\"Found libbleu at\", libbleu.__file__)\nfrom fairseq.data import data_utils_fast\n\nprint(\"Found data_utils_fast at\", data_utils_fast.__file__)\n"
  },
  {
    "path": "scripts/compare_namespaces.py",
    "content": "#!/usr/bin/env python\n\"\"\"Helper script to compare two argparse.Namespace objects.\"\"\"\n\nfrom argparse import Namespace  # noqa\n\n\ndef main():\n\n    ns1 = eval(input(\"Namespace 1: \"))\n    ns2 = eval(input(\"Namespace 2: \"))\n\n    def keys(ns):\n        ks = set()\n        for k in dir(ns):\n            if not k.startswith(\"_\"):\n                ks.add(k)\n        return ks\n\n    k1 = keys(ns1)\n    k2 = keys(ns2)\n\n    def print_keys(ks, ns1, ns2=None):\n        for k in ks:\n            if ns2 is None:\n                print(\"{}\\t{}\".format(k, getattr(ns1, k, None)))\n            else:\n                print(\n                    \"{}\\t{}\\t{}\".format(k, getattr(ns1, k, None), getattr(ns2, k, None))\n                )\n\n    print(\"Keys unique to namespace 1:\")\n    print_keys(k1 - k2, ns1)\n    print()\n\n    print(\"Keys unique to namespace 2:\")\n    print_keys(k2 - k1, ns2)\n    print()\n\n    print(\"Overlapping keys with different values:\")\n    ks = [k for k in k1 & k2 if getattr(ns1, k, \"None\") != getattr(ns2, k, \"None\")]\n    print_keys(ks, ns1, ns2)\n    print()\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "scripts/compound_split_bleu.sh",
    "content": "#!/bin/bash\n\nif [ $# -ne 1 ]; then\n    echo \"usage: $0 GENERATE_PY_OUTPUT\"\n    exit 1\nfi\n\nGEN=$1\n\nSYS=$GEN.sys\nREF=$GEN.ref\n\nif [ $(tail -n 1 $GEN | grep BLEU | wc -l) -ne 1 ]; then\n    echo \"not done generating\"\n    exit\nfi\n\ngrep ^H $GEN | awk -F '\\t' '{print $NF}' | perl -ple 's{(\\S)-(\\S)}{$1 ##AT##-##AT## $2}g' > $SYS\ngrep ^T $GEN | cut -f2- | perl -ple 's{(\\S)-(\\S)}{$1 ##AT##-##AT## $2}g' > $REF\nfairseq-score --sys $SYS --ref $REF\n"
  },
  {
    "path": "scripts/constraints/extract.py",
    "content": "#!/usr/bin/env python3\n#\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\"\"\"Extracts random constraints from reference files.\"\"\"\n\nimport argparse\nimport random\nimport sys\n\n\ndef get_phrase(words, index, length):\n    assert index < len(words) - length + 1\n    phr = \" \".join(words[index : index + length])\n    for i in range(index, index + length):\n        words.pop(index)\n    return phr\n\n\ndef main(args):\n\n    if args.seed:\n        random.seed(args.seed)\n\n    for line in sys.stdin:\n        constraints = []\n\n        def add_constraint(constraint):\n            constraints.append(constraint)\n\n        source = line.rstrip()\n        if \"\\t\" in line:\n            source, target = line.split(\"\\t\")\n            if args.add_sos:\n                target = f\"<s> {target}\"\n            if args.add_eos:\n                target = f\"{target} </s>\"\n\n            if len(target.split()) >= args.len:\n                words = [target]\n\n                num = args.number\n\n                choices = {}\n                for i in range(num):\n                    if len(words) == 0:\n                        break\n                    segmentno = random.choice(range(len(words)))\n                    segment = words.pop(segmentno)\n                    tokens = segment.split()\n                    phrase_index = random.choice(range(len(tokens)))\n                    choice = \" \".join(\n                        tokens[phrase_index : min(len(tokens), phrase_index + args.len)]\n                    )\n                    for j in range(\n                        phrase_index, min(len(tokens), phrase_index + args.len)\n                    ):\n                        tokens.pop(phrase_index)\n                    if phrase_index > 0:\n                        words.append(\" \".join(tokens[0:phrase_index]))\n                    if phrase_index + 1 < len(tokens):\n                        words.append(\" \".join(tokens[phrase_index:]))\n                    choices[target.find(choice)] = choice\n\n                    # mask out with spaces\n                    target = target.replace(choice, \" \" * len(choice), 1)\n\n                for key in sorted(choices.keys()):\n                    add_constraint(choices[key])\n\n        print(source, *constraints, sep=\"\\t\")\n\n\nif __name__ == \"__main__\":\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"--number\", \"-n\", type=int, default=1, help=\"number of phrases\")\n    parser.add_argument(\"--len\", \"-l\", type=int, default=1, help=\"phrase length\")\n    parser.add_argument(\n        \"--add-sos\", default=False, action=\"store_true\", help=\"add <s> token\"\n    )\n    parser.add_argument(\n        \"--add-eos\", default=False, action=\"store_true\", help=\"add </s> token\"\n    )\n    parser.add_argument(\"--seed\", \"-s\", default=0, type=int)\n    args = parser.parse_args()\n\n    main(args)\n"
  },
  {
    "path": "scripts/constraints/validate.py",
    "content": "#!/usr/bin/env python3\n#\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport sys\n\n\n\"\"\"Reads in a fairseq output file, and verifies that the constraints\n(C- lines) are present in the output (the first H- line). Assumes that\nconstraints are listed prior to the first hypothesis.\n\"\"\"\n\nconstraints = []\nfound = 0\ntotal = 0\nfor line in sys.stdin:\n    if line.startswith(\"C-\"):\n        constraints.append(line.rstrip().split(\"\\t\")[1])\n    elif line.startswith(\"H-\"):\n        text = line.split(\"\\t\")[2]\n\n        for constraint in constraints:\n            total += 1\n            if constraint in text:\n                found += 1\n            else:\n                print(f\"No {constraint} in {text}\", file=sys.stderr)\n\n        constraints = []\n\nprint(f\"Found {found} / {total} = {100 * found / total:.1f}%\")\n"
  },
  {
    "path": "scripts/convert_dictionary.lua",
    "content": "-- Copyright (c) Facebook, Inc. and its affiliates.\n--\n-- This source code is licensed under the MIT license found in the\n-- LICENSE file in the root directory of this source tree.\n--\n-- Usage: convert_dictionary.lua <dict.th7>\nrequire 'fairseq'\nrequire 'torch'\nrequire 'paths'\n\nif #arg < 1 then\n   print('usage: convert_dictionary.lua <dict.th7>')\n   os.exit(1)\nend\nif not paths.filep(arg[1]) then\n   print('error: file does not exit: ' .. arg[1])\n   os.exit(1)\nend\n\ndict = torch.load(arg[1])\ndst = paths.basename(arg[1]):gsub('.th7', '.txt')\nassert(dst:match('.txt$'))\n\nf = io.open(dst, 'w')\nfor idx, symbol in ipairs(dict.index_to_symbol) do\n  if idx > dict.cutoff then\n    break\n  end\n  f:write(symbol)\n  f:write(' ')\n  f:write(dict.index_to_freq[idx])\n  f:write('\\n')\nend\nf:close()\n"
  },
  {
    "path": "scripts/convert_model.lua",
    "content": "-- Copyright (c) Facebook, Inc. and its affiliates.\n--\n-- This source code is licensed under the MIT license found in the\n-- LICENSE file in the root directory of this source tree.\n--\n-- Usage: convert_model.lua <model_epoch1.th7>\nrequire 'torch'\nlocal fairseq = require 'fairseq'\n\nmodel = torch.load(arg[1])\n\nfunction find_weight_norm(container, module)\n  for _, wn in ipairs(container:listModules()) do\n    if torch.type(wn) == 'nn.WeightNorm' and wn.modules[1] == module then\n      return wn\n    end\n  end\nend\n\nfunction push_state(dict, key, module)\n  if torch.type(module) == 'nn.Linear' then\n    local wn = find_weight_norm(model.module, module)\n    assert(wn)\n    dict[key .. '.weight_v'] = wn.v:float()\n    dict[key .. '.weight_g'] = wn.g:float()\n  elseif torch.type(module) == 'nn.TemporalConvolutionTBC' then\n    local wn = find_weight_norm(model.module, module)\n    assert(wn)\n    local v = wn.v:float():view(wn.viewOut):transpose(2, 3)\n    dict[key .. '.weight_v'] = v\n    dict[key .. '.weight_g'] = wn.g:float():view(module.weight:size(3), 1, 1)\n  else\n    dict[key .. '.weight'] = module.weight:float()\n  end\n  if module.bias then\n    dict[key .. '.bias'] = module.bias:float()\n  end\nend\n\nencoder_dict = {}\ndecoder_dict = {}\ncombined_dict = {}\n\nfunction encoder_state(encoder)\n  luts = encoder:findModules('nn.LookupTable')\n  push_state(encoder_dict, 'embed_tokens', luts[1])\n  push_state(encoder_dict, 'embed_positions', luts[2])\n\n  fcs = encoder:findModules('nn.Linear')\n  assert(#fcs >= 2)\n  local nInputPlane = fcs[1].weight:size(1)\n  push_state(encoder_dict, 'fc1', table.remove(fcs, 1))\n  push_state(encoder_dict, 'fc2', table.remove(fcs, #fcs))\n\n  for i, module in ipairs(encoder:findModules('nn.TemporalConvolutionTBC')) do\n    push_state(encoder_dict, 'convolutions.' .. tostring(i - 1), module)\n    if nInputPlane ~= module.weight:size(3) / 2 then\n      push_state(encoder_dict, 'projections.' .. tostring(i - 1), table.remove(fcs, 1))\n    end\n    nInputPlane = module.weight:size(3) / 2\n  end\n  assert(#fcs == 0)\nend\n\nfunction decoder_state(decoder)\n  luts = decoder:findModules('nn.LookupTable')\n  push_state(decoder_dict, 'embed_tokens', luts[1])\n  push_state(decoder_dict, 'embed_positions', luts[2])\n\n  fcs = decoder:findModules('nn.Linear')\n  local nInputPlane = fcs[1].weight:size(1)\n  push_state(decoder_dict, 'fc1', table.remove(fcs, 1))\n  push_state(decoder_dict, 'fc2', fcs[#fcs - 1])\n  push_state(decoder_dict, 'fc3', fcs[#fcs])\n\n  table.remove(fcs, #fcs)\n  table.remove(fcs, #fcs)\n\n  for i, module in ipairs(decoder:findModules('nn.TemporalConvolutionTBC')) do\n    if nInputPlane ~= module.weight:size(3) / 2 then\n      push_state(decoder_dict, 'projections.' .. tostring(i - 1), table.remove(fcs, 1))\n    end\n    nInputPlane = module.weight:size(3) / 2\n\n    local prefix = 'attention.' .. tostring(i - 1)\n    push_state(decoder_dict, prefix .. '.in_projection', table.remove(fcs, 1))\n    push_state(decoder_dict, prefix .. '.out_projection', table.remove(fcs, 1))\n    push_state(decoder_dict, 'convolutions.' .. tostring(i - 1), module)\n  end\n  assert(#fcs == 0)\nend\n\n\n_encoder = model.module.modules[2]\n_decoder = model.module.modules[3]\n\nencoder_state(_encoder)\ndecoder_state(_decoder)\n\nfor k, v in pairs(encoder_dict) do\n  combined_dict['encoder.' .. k] = v\nend\nfor k, v in pairs(decoder_dict) do\n  combined_dict['decoder.' .. k] = v\nend\n\n\ntorch.save('state_dict.t7', combined_dict)\n"
  },
  {
    "path": "scripts/count_docs.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nCount the number of documents and average number of lines and tokens per\ndocument in a large file. Documents should be separated by a single empty line.\n\"\"\"\n\nimport argparse\nimport gzip\nimport sys\n\nimport numpy as np\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"input\")\n    parser.add_argument(\"--gzip\", action=\"store_true\")\n    args = parser.parse_args()\n\n    def gopen():\n        if args.gzip:\n            return gzip.open(args.input, \"r\")\n        else:\n            return open(args.input, \"r\", encoding=\"utf-8\")\n\n    num_lines = []\n    num_toks = []\n    with gopen() as h:\n        num_docs = 1\n        num_lines_in_doc = 0\n        num_toks_in_doc = 0\n        for i, line in enumerate(h):\n            if len(line.strip()) == 0:  # empty line indicates new document\n                num_docs += 1\n                num_lines.append(num_lines_in_doc)\n                num_toks.append(num_toks_in_doc)\n                num_lines_in_doc = 0\n                num_toks_in_doc = 0\n            else:\n                num_lines_in_doc += 1\n                num_toks_in_doc += len(line.rstrip().split())\n            if i % 1000000 == 0:\n                print(i, file=sys.stderr, end=\"\", flush=True)\n            elif i % 100000 == 0:\n                print(\".\", file=sys.stderr, end=\"\", flush=True)\n        print(file=sys.stderr, flush=True)\n\n    print(\"found {} docs\".format(num_docs))\n    print(\"average num lines per doc: {}\".format(np.mean(num_lines)))\n    print(\"average num toks per doc: {}\".format(np.mean(num_toks)))\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "scripts/read_binarized.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\n\nfrom fairseq.data import Dictionary, data_utils, indexed_dataset\n\n\ndef get_parser():\n    parser = argparse.ArgumentParser(\n        description=\"writes text from binarized file to stdout\"\n    )\n    # fmt: off\n    parser.add_argument('--dataset-impl', help='dataset implementation',\n                        choices=indexed_dataset.get_available_dataset_impl())\n    parser.add_argument('--dict', metavar='FP', help='dictionary containing known words', default=None)\n    parser.add_argument('--input', metavar='FP', required=True, help='binarized file to read')\n    # fmt: on\n\n    return parser\n\n\ndef main():\n    parser = get_parser()\n    args = parser.parse_args()\n\n    dictionary = Dictionary.load(args.dict) if args.dict is not None else None\n    dataset = data_utils.load_indexed_dataset(\n        args.input,\n        dictionary,\n        dataset_impl=args.dataset_impl,\n        default=\"lazy\",\n    )\n\n    for tensor_line in dataset:\n        if dictionary is None:\n            line = \" \".join([str(int(x)) for x in tensor_line])\n        else:\n            line = dictionary.string(tensor_line)\n\n        print(line)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "scripts/rm_pt.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport os\nimport re\nimport shutil\nimport sys\n\n\npt_regexp = re.compile(r\"checkpoint(\\d+|_\\d+_\\d+|_[a-z]+)\\.pt\")\npt_regexp_epoch_based = re.compile(r\"checkpoint(\\d+)\\.pt\")\npt_regexp_update_based = re.compile(r\"checkpoint_\\d+_(\\d+)\\.pt\")\n\n\ndef parse_checkpoints(files):\n    entries = []\n    for f in files:\n        m = pt_regexp_epoch_based.fullmatch(f)\n        if m is not None:\n            entries.append((int(m.group(1)), m.group(0)))\n        else:\n            m = pt_regexp_update_based.fullmatch(f)\n            if m is not None:\n                entries.append((int(m.group(1)), m.group(0)))\n    return entries\n\n\ndef last_n_checkpoints(files, n):\n    entries = parse_checkpoints(files)\n    return [x[1] for x in sorted(entries, reverse=True)[:n]]\n\n\ndef every_n_checkpoints(files, n):\n    entries = parse_checkpoints(files)\n    return [x[1] for x in sorted(sorted(entries)[::-n])]\n\n\ndef main():\n    parser = argparse.ArgumentParser(\n        description=(\n            \"Recursively delete checkpoint files from `root_dir`, \"\n            \"but preserve checkpoint_best.pt and checkpoint_last.pt\"\n        )\n    )\n    parser.add_argument(\"root_dirs\", nargs=\"*\")\n    parser.add_argument(\n        \"--save-last\", type=int, default=0, help=\"number of last checkpoints to save\"\n    )\n    parser.add_argument(\n        \"--save-every\", type=int, default=0, help=\"interval of checkpoints to save\"\n    )\n    parser.add_argument(\n        \"--preserve-test\",\n        action=\"store_true\",\n        help=\"preserve checkpoints in dirs that start with test_ prefix (default: delete them)\",\n    )\n    parser.add_argument(\n        \"--delete-best\", action=\"store_true\", help=\"delete checkpoint_best.pt\"\n    )\n    parser.add_argument(\n        \"--delete-last\", action=\"store_true\", help=\"delete checkpoint_last.pt\"\n    )\n    parser.add_argument(\n        \"--no-dereference\", action=\"store_true\", help=\"don't dereference symlinks\"\n    )\n    args = parser.parse_args()\n\n    files_to_desymlink = []\n    files_to_preserve = []\n    files_to_delete = []\n    for root_dir in args.root_dirs:\n        for root, _subdirs, files in os.walk(root_dir):\n            if args.save_last > 0:\n                to_save = last_n_checkpoints(files, args.save_last)\n            else:\n                to_save = []\n            if args.save_every > 0:\n                to_save += every_n_checkpoints(files, args.save_every)\n            for file in files:\n                if not pt_regexp.fullmatch(file):\n                    continue\n                full_path = os.path.join(root, file)\n                if (\n                    not os.path.basename(root).startswith(\"test_\") or args.preserve_test\n                ) and (\n                    (file == \"checkpoint_last.pt\" and not args.delete_last)\n                    or (file == \"checkpoint_best.pt\" and not args.delete_best)\n                    or file in to_save\n                ):\n                    if os.path.islink(full_path) and not args.no_dereference:\n                        files_to_desymlink.append(full_path)\n                    else:\n                        files_to_preserve.append(full_path)\n                else:\n                    files_to_delete.append(full_path)\n\n    if len(files_to_desymlink) == 0 and len(files_to_delete) == 0:\n        print(\"Nothing to do.\")\n        sys.exit(0)\n\n    files_to_desymlink = sorted(files_to_desymlink)\n    files_to_preserve = sorted(files_to_preserve)\n    files_to_delete = sorted(files_to_delete)\n\n    print(\"Operations to perform (in order):\")\n    if len(files_to_desymlink) > 0:\n        for file in files_to_desymlink:\n            print(\" - preserve (and dereference symlink): \" + file)\n    if len(files_to_preserve) > 0:\n        for file in files_to_preserve:\n            print(\" - preserve: \" + file)\n    if len(files_to_delete) > 0:\n        for file in files_to_delete:\n            print(\" - delete: \" + file)\n    while True:\n        resp = input(\"Continue? (Y/N): \")\n        if resp.strip().lower() == \"y\":\n            break\n        elif resp.strip().lower() == \"n\":\n            sys.exit(0)\n\n    print(\"Executing...\")\n    if len(files_to_desymlink) > 0:\n        for file in files_to_desymlink:\n            realpath = os.path.realpath(file)\n            print(\"rm \" + file)\n            os.remove(file)\n            print(\"cp {} {}\".format(realpath, file))\n            shutil.copyfile(realpath, file)\n    if len(files_to_delete) > 0:\n        for file in files_to_delete:\n            print(\"rm \" + file)\n            os.remove(file)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "scripts/sacrebleu.sh",
    "content": "#!/bin/bash\n\nif [ $# -ne 4 ]; then\n    echo \"usage: $0 TESTSET SRCLANG TGTLANG GEN\"\n    exit 1\nfi\n\nTESTSET=$1\nSRCLANG=$2\nTGTLANG=$3\n\nGEN=$4\n\nif ! command -v sacremoses &> /dev/null\nthen\n    echo \"sacremoses could not be found, please install with: pip install sacremoses\"\n    exit\nfi\n\ngrep ^H $GEN \\\n| sed 's/^H\\-//' \\\n| sort -n -k 1 \\\n| cut -f 3 \\\n| sacremoses detokenize \\\n> $GEN.sorted.detok\n\nsacrebleu --test-set $TESTSET --language-pair \"${SRCLANG}-${TGTLANG}\" < $GEN.sorted.detok\n"
  },
  {
    "path": "scripts/shard_docs.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nSplit a large file into shards while respecting document boundaries. Documents\nshould be separated by a single empty line.\n\"\"\"\n\nimport argparse\nimport contextlib\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"input\")\n    parser.add_argument(\"--num-shards\", type=int)\n    args = parser.parse_args()\n\n    assert args.num_shards is not None and args.num_shards > 1\n\n    with open(args.input, \"r\", encoding=\"utf-8\") as h:\n        with contextlib.ExitStack() as stack:\n            outputs = [\n                stack.enter_context(\n                    open(args.input + \".shard\" + str(i), \"w\", encoding=\"utf-8\")\n                )\n                for i in range(args.num_shards)\n            ]\n\n            doc = []\n            first_doc = [True] * args.num_shards\n\n            def output_doc(i):\n                if not first_doc[i]:\n                    outputs[i].write(\"\\n\")\n                first_doc[i] = False\n                for line in doc:\n                    outputs[i].write(line)\n                doc.clear()\n\n            num_docs = 0\n            for line in h:\n                if line.strip() == \"\":  # empty line indicates new document\n                    output_doc(num_docs % args.num_shards)\n                    num_docs += 1\n                else:\n                    doc.append(line)\n            output_doc(num_docs % args.num_shards)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "scripts/split_train_valid_docs.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nSplit a large file into a train and valid set while respecting document\nboundaries. Documents should be separated by a single empty line.\n\"\"\"\n\nimport argparse\nimport random\nimport sys\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\"input\")\n    parser.add_argument(\"sample_output\", help=\"train output file\")\n    parser.add_argument(\"remainder_output\", help=\"valid output file\")\n    parser.add_argument(\"-k\", type=int, help=\"remainder size\")\n    parser.add_argument(\n        \"--lines\", action=\"store_true\", help=\"split lines instead of docs\"\n    )\n    args = parser.parse_args()\n\n    assert args.k is not None\n\n    sample = []\n    remainder = []\n    num_docs = [0]\n\n    def update_sample(doc):\n        if len(sample) < args.k:\n            sample.append(doc.copy())\n        else:\n            i = num_docs[0]\n            j = random.randrange(i + 1)\n            if j < args.k:\n                remainder.append(sample[j])\n                sample[j] = doc.copy()\n            else:\n                remainder.append(doc.copy())\n        num_docs[0] += 1\n        doc.clear()\n\n    with open(args.input, \"r\", encoding=\"utf-8\") as h:\n        doc = []\n        for i, line in enumerate(h):\n            if line.strip() == \"\":  # empty line indicates new document\n                update_sample(doc)\n            else:\n                doc.append(line)\n            if args.lines:\n                update_sample(doc)\n            if i % 1000000 == 0:\n                print(i, file=sys.stderr, end=\"\", flush=True)\n            elif i % 100000 == 0:\n                print(\".\", file=sys.stderr, end=\"\", flush=True)\n        if len(doc) > 0:\n            update_sample(doc)\n    print(file=sys.stderr, flush=True)\n\n    assert len(sample) == args.k\n\n    with open(args.sample_output, \"w\", encoding=\"utf-8\") as out:\n        first = True\n        for doc in sample:\n            if not first and not args.lines:\n                out.write(\"\\n\")\n            first = False\n            for line in doc:\n                out.write(line)\n\n    with open(args.remainder_output, \"w\", encoding=\"utf-8\") as out:\n        first = True\n        for doc in remainder:\n            if not first and not args.lines:\n                out.write(\"\\n\")\n            first = False\n            for line in doc:\n                out.write(line)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "scripts/spm_decode.py",
    "content": "#!/usr/bin/env python\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom __future__ import absolute_import, division, print_function, unicode_literals\n\nimport argparse\n\nimport sentencepiece as spm\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--model\", required=True, help=\"sentencepiece model to use for decoding\"\n    )\n    parser.add_argument(\"--input\", required=True, help=\"input file to decode\")\n    parser.add_argument(\"--input_format\", choices=[\"piece\", \"id\"], default=\"piece\")\n    args = parser.parse_args()\n\n    sp = spm.SentencePieceProcessor()\n    sp.Load(args.model)\n\n    if args.input_format == \"piece\":\n\n        def decode(input):\n            return \"\".join(sp.DecodePieces(input))\n\n    elif args.input_format == \"id\":\n\n        def decode(input):\n            return \"\".join(sp.DecodeIds(input))\n\n    else:\n        raise NotImplementedError\n\n    def tok2int(tok):\n        # remap reference-side <unk> (represented as <<unk>>) to 0\n        return int(tok) if tok != \"<<unk>>\" else 0\n\n    with open(args.input, \"r\", encoding=\"utf-8\") as h:\n        for line in h:\n            if args.input_format == \"id\":\n                print(decode(list(map(tok2int, line.rstrip().split()))))\n            elif args.input_format == \"piece\":\n                print(decode(line.rstrip().split()))\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "scripts/spm_encode.py",
    "content": "#!/usr/bin/env python\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom __future__ import absolute_import, division, print_function, unicode_literals\n\nimport argparse\nimport contextlib\nimport sys\n\nimport sentencepiece as spm\n\n\ndef main():\n    parser = argparse.ArgumentParser()\n    parser.add_argument(\n        \"--model\", required=True, help=\"sentencepiece model to use for encoding\"\n    )\n    parser.add_argument(\n        \"--inputs\", nargs=\"+\", default=[\"-\"], help=\"input files to filter/encode\"\n    )\n    parser.add_argument(\n        \"--outputs\", nargs=\"+\", default=[\"-\"], help=\"path to save encoded outputs\"\n    )\n    parser.add_argument(\"--output_format\", choices=[\"piece\", \"id\"], default=\"piece\")\n    parser.add_argument(\n        \"--min-len\",\n        type=int,\n        metavar=\"N\",\n        help=\"filter sentence pairs with fewer than N tokens\",\n    )\n    parser.add_argument(\n        \"--max-len\",\n        type=int,\n        metavar=\"N\",\n        help=\"filter sentence pairs with more than N tokens\",\n    )\n    args = parser.parse_args()\n\n    assert len(args.inputs) == len(\n        args.outputs\n    ), \"number of input and output paths should match\"\n\n    sp = spm.SentencePieceProcessor()\n    sp.Load(args.model)\n\n    if args.output_format == \"piece\":\n\n        def encode(input):\n            return sp.EncodeAsPieces(input)\n\n    elif args.output_format == \"id\":\n\n        def encode(input):\n            return list(map(str, sp.EncodeAsIds(input)))\n\n    else:\n        raise NotImplementedError\n\n    if args.min_len is not None or args.max_len is not None:\n\n        def valid(line):\n            return (args.min_len is None or len(line) >= args.min_len) and (\n                args.max_len is None or len(line) <= args.max_len\n            )\n\n    else:\n\n        def valid(lines):\n            return True\n\n    with contextlib.ExitStack() as stack:\n        inputs = [\n            stack.enter_context(open(input, \"r\", encoding=\"utf-8\"))\n            if input != \"-\"\n            else sys.stdin\n            for input in args.inputs\n        ]\n        outputs = [\n            stack.enter_context(open(output, \"w\", encoding=\"utf-8\"))\n            if output != \"-\"\n            else sys.stdout\n            for output in args.outputs\n        ]\n\n        stats = {\n            \"num_empty\": 0,\n            \"num_filtered\": 0,\n        }\n\n        def encode_line(line):\n            line = line.strip()\n            if len(line) > 0:\n                line = encode(line)\n                if valid(line):\n                    return line\n                else:\n                    stats[\"num_filtered\"] += 1\n            else:\n                stats[\"num_empty\"] += 1\n            return None\n\n        for i, lines in enumerate(zip(*inputs), start=1):\n            enc_lines = list(map(encode_line, lines))\n            if not any(enc_line is None for enc_line in enc_lines):\n                for enc_line, output_h in zip(enc_lines, outputs):\n                    print(\" \".join(enc_line), file=output_h)\n            if i % 10000 == 0:\n                print(\"processed {} lines\".format(i), file=sys.stderr)\n\n        print(\"skipped {} empty lines\".format(stats[\"num_empty\"]), file=sys.stderr)\n        print(\"filtered {} lines\".format(stats[\"num_filtered\"]), file=sys.stderr)\n\n\nif __name__ == \"__main__\":\n    main()\n"
  },
  {
    "path": "scripts/spm_train.py",
    "content": "#!/usr/bin/env python\n# Copyright (c) Facebook, Inc. and its affiliates.\n# All rights reserved.\n#\n# This source code is licensed under the license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom __future__ import absolute_import, division, print_function, unicode_literals\n\nimport sys\n\nimport sentencepiece as spm\n\n\nif __name__ == \"__main__\":\n    spm.SentencePieceTrainer.Train(\" \".join(sys.argv[1:]))\n"
  },
  {
    "path": "scripts/test_fsdp.sh",
    "content": "#!/usr/bin/env bash\nrm -rf fsdp_dummy\nmkdir -p fsdp_dummy\nCUDA_VISIBLE_DEVICES=0,1,2,3 fairseq-train /private/home/sshleifer/data-bin/stories_mmap \\\n    --ddp-backend fully_sharded --fp16 --fp16-init-scale 4 \\\n    --cpu-offload --checkpoint-activations \\\n    --task language_modeling --tokens-per-sample 256 --batch-size 8 \\\n    --arch transformer_lm_gpt2_tiny \\\n    --optimizer cpu_adam --adam-betas \"(0.9,0.98)\" \\\n    --lr 0.0001 --lr-scheduler polynomial_decay --warmup-updates 5 --total-num-update 10 \\\n    --max-update 5 --log-format json --log-interval 1 \\\n    --save-interval-updates 5 --save-dir fsdp_dummy --disable-validation \\\n    --restore-file x.pt \"$@\"\n\n# Now we try to load the checkpoint\nCUDA_VISIBLE_DEVICES=0,1 fairseq-train /private/home/sshleifer/data-bin/stories_mmap \\\n    --ddp-backend fully_sharded --fp16 --fp16-init-scale 4 \\\n    --cpu-offload --checkpoint-activations \\\n    --task language_modeling --tokens-per-sample 256 --batch-size 8 \\\n    --arch transformer_lm_gpt2_tiny \\\n    --optimizer cpu_adam --adam-betas \"(0.9,0.98)\" \\\n    --lr 0.0001 --lr-scheduler polynomial_decay --warmup-updates 5 --total-num-update 10 \\\n    --max-update 2 --log-format json --log-interval 1 \\\n    --save-interval-updates 2 --save-dir fsdp_dummy\n"
  },
  {
    "path": "setup.cfg",
    "content": "[flake8]\nmax-line-length = 127\nextend-ignore = E203, W503\nextend-exclude = fairseq/model_parallel/megatron\n"
  },
  {
    "path": "setup.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport subprocess\nimport sys\n\nfrom setuptools import Extension, find_packages, setup\nfrom torch.utils import cpp_extension\n\nif sys.version_info < (3, 6):\n    sys.exit(\"Sorry, Python >= 3.6 is required for fairseq.\")\n\n\ndef write_version_py():\n    with open(os.path.join(\"fairseq\", \"version.txt\")) as f:\n        version = f.read().strip()\n\n    # write version info to fairseq/version.py\n    with open(os.path.join(\"fairseq\", \"version.py\"), \"w\") as f:\n        f.write('__version__ = \"{}\"\\n'.format(version))\n    return version\n\n\nversion = write_version_py()\n\n\nwith open(\"README.md\") as f:\n    readme = f.read()\n\n\nif sys.platform == \"darwin\":\n    extra_compile_args = [\"-stdlib=libc++\", \"-O3\"]\nelse:\n    extra_compile_args = [\"-std=c++11\", \"-O3\"]\n\n\nclass NumpyExtension(Extension):\n    \"\"\"Source: https://stackoverflow.com/a/54128391\"\"\"\n\n    def __init__(self, *args, **kwargs):\n        self.__include_dirs = []\n        super().__init__(*args, **kwargs)\n\n    @property\n    def include_dirs(self):\n        import numpy\n\n        return self.__include_dirs + [numpy.get_include()]\n\n    @include_dirs.setter\n    def include_dirs(self, dirs):\n        self.__include_dirs = dirs\n\n\nextensions = [\n    Extension(\n        \"fairseq.libbleu\",\n        sources=[\n            \"fairseq/clib/libbleu/libbleu.cpp\",\n            \"fairseq/clib/libbleu/module.cpp\",\n        ],\n        extra_compile_args=extra_compile_args,\n    ),\n    NumpyExtension(\n        \"fairseq.data.data_utils_fast\",\n        sources=[\"fairseq/data/data_utils_fast.pyx\"],\n        language=\"c++\",\n        extra_compile_args=extra_compile_args,\n    ),\n    NumpyExtension(\n        \"fairseq.data.token_block_utils_fast\",\n        sources=[\"fairseq/data/token_block_utils_fast.pyx\"],\n        language=\"c++\",\n        extra_compile_args=extra_compile_args,\n    ),\n]\n\n\nextensions.extend(\n    [\n        cpp_extension.CppExtension(\n            \"fairseq.libbase\",\n            sources=[\n                \"fairseq/clib/libbase/balanced_assignment.cpp\",\n            ],\n        ),\n        cpp_extension.CppExtension(\n            \"fairseq.libnat\",\n            sources=[\n                \"fairseq/clib/libnat/edit_dist.cpp\",\n            ],\n        ),\n        cpp_extension.CppExtension(\n            \"alignment_train_cpu_binding\",\n            sources=[\n                \"examples/operators/alignment_train_cpu.cpp\",\n            ],\n        ),\n    ]\n)\nif \"CUDA_HOME\" in os.environ:\n    extensions.extend(\n        [\n            cpp_extension.CppExtension(\n                \"fairseq.libnat_cuda\",\n                sources=[\n                    \"fairseq/clib/libnat_cuda/edit_dist.cu\",\n                    \"fairseq/clib/libnat_cuda/binding.cpp\",\n                ],\n            ),\n            cpp_extension.CppExtension(\n                \"fairseq.ngram_repeat_block_cuda\",\n                sources=[\n                    \"fairseq/clib/cuda/ngram_repeat_block_cuda.cpp\",\n                    \"fairseq/clib/cuda/ngram_repeat_block_cuda_kernel.cu\",\n                ],\n            ),\n            cpp_extension.CppExtension(\n                \"alignment_train_cuda_binding\",\n                sources=[\n                    \"examples/operators/alignment_train_kernel.cu\",\n                    \"examples/operators/alignment_train_cuda.cpp\",\n                ],\n            ),\n        ]\n    )\n\ncmdclass = {\"build_ext\": cpp_extension.BuildExtension}\n\nif \"READTHEDOCS\" in os.environ:\n    # don't build extensions when generating docs\n    extensions = []\n    if \"build_ext\" in cmdclass:\n        del cmdclass[\"build_ext\"]\n\n    # use CPU build of PyTorch\n    dependency_links = [\n        \"https://download.pytorch.org/whl/cpu/torch-1.7.0%2Bcpu-cp36-cp36m-linux_x86_64.whl\"\n    ]\nelse:\n    dependency_links = []\n\n\nif \"clean\" in sys.argv[1:]:\n    # Source: https://bit.ly/2NLVsgE\n    print(\"deleting Cython files...\")\n\n    subprocess.run(\n        [\"rm -f fairseq/*.so fairseq/**/*.so fairseq/*.pyd fairseq/**/*.pyd\"],\n        shell=True,\n    )\n\n\nextra_packages = []\nif os.path.exists(os.path.join(\"fairseq\", \"model_parallel\", \"megatron\", \"mpu\")):\n    extra_packages.append(\"fairseq.model_parallel.megatron.mpu\")\n\n\ndef do_setup(package_data):\n    setup(\n        name=\"fairseq\",\n        version=version,\n        description=\"Facebook AI Research Sequence-to-Sequence Toolkit\",\n        url=\"https://github.com/pytorch/fairseq\",\n        classifiers=[\n            \"Intended Audience :: Science/Research\",\n            \"License :: OSI Approved :: MIT License\",\n            \"Programming Language :: Python :: 3.6\",\n            \"Programming Language :: Python :: 3.7\",\n            \"Programming Language :: Python :: 3.8\",\n            \"Topic :: Scientific/Engineering :: Artificial Intelligence\",\n        ],\n        long_description=readme,\n        long_description_content_type=\"text/markdown\",\n        install_requires=[\n            \"cffi\",\n            \"cython\",\n            \"hydra-core>=1.0.7,<1.1\",\n            \"omegaconf<2.1\",\n            \"numpy>=1.21.3\",\n            \"regex\",\n            \"sacrebleu>=1.4.12\",\n            \"torch>=1.13\",\n            \"tqdm\",\n            \"bitarray\",\n            \"torchaudio>=0.8.0\",\n            \"scikit-learn\",\n            \"packaging\",\n        ],\n        extras_require={\n            \"dev\": [\"flake8\", \"pytest\", \"black==22.3.0\"],\n            \"docs\": [\"sphinx\", \"sphinx-argparse\"],\n        },\n        dependency_links=dependency_links,\n        packages=find_packages(\n            exclude=[\n                \"examples\",\n                \"examples.*\",\n                \"scripts\",\n                \"scripts.*\",\n                \"tests\",\n                \"tests.*\",\n            ]\n        )\n        + extra_packages,\n        package_data=package_data,\n        ext_modules=extensions,\n        test_suite=\"tests\",\n        entry_points={\n            \"console_scripts\": [\n                \"fairseq-eval-lm = fairseq_cli.eval_lm:cli_main\",\n                \"fairseq-generate = fairseq_cli.generate:cli_main\",\n                \"fairseq-hydra-train = fairseq_cli.hydra_train:cli_main\",\n                \"fairseq-interactive = fairseq_cli.interactive:cli_main\",\n                \"fairseq-preprocess = fairseq_cli.preprocess:cli_main\",\n                \"fairseq-score = fairseq_cli.score:cli_main\",\n                \"fairseq-train = fairseq_cli.train:cli_main\",\n                \"fairseq-validate = fairseq_cli.validate:cli_main\",\n            ],\n        },\n        cmdclass=cmdclass,\n        zip_safe=False,\n    )\n\n\ndef get_files(path, relative_to=\"fairseq\"):\n    all_files = []\n    for root, _dirs, files in os.walk(path, followlinks=True):\n        root = os.path.relpath(root, relative_to)\n        for file in files:\n            if file.endswith(\".pyc\"):\n                continue\n            all_files.append(os.path.join(root, file))\n    return all_files\n\n\nif __name__ == \"__main__\":\n    try:\n        # symlink examples into fairseq package so package_data accepts them\n        fairseq_examples = os.path.join(\"fairseq\", \"examples\")\n        if \"build_ext\" not in sys.argv[1:] and not os.path.exists(fairseq_examples):\n            os.symlink(os.path.join(\"..\", \"examples\"), fairseq_examples)\n\n        package_data = {\n            \"fairseq\": (\n                get_files(fairseq_examples)\n                + get_files(os.path.join(\"fairseq\", \"config\"))\n            )\n        }\n        do_setup(package_data)\n    finally:\n        if \"build_ext\" not in sys.argv[1:] and os.path.islink(fairseq_examples):\n            os.unlink(fairseq_examples)\n"
  },
  {
    "path": "tests/__init__.py",
    "content": ""
  },
  {
    "path": "tests/distributed/__init__.py",
    "content": ""
  },
  {
    "path": "tests/distributed/test_bmuf.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport functools\nimport random\nimport unittest\nfrom multiprocessing import Manager\n\nimport torch\nimport torch.nn as nn\nfrom omegaconf import OmegaConf\n\nfrom fairseq import optim\nfrom fairseq.distributed import utils as distributed_utils\n\n\nclass Model(nn.Module):\n    def __init__(self, input_size, output_size):\n        super(Model, self).__init__()\n        self.fc = nn.Linear(input_size, output_size)\n\n    def forward(self, input):\n        output = self.fc(input)\n        return output\n\n\ndef setup_model_loss_criterion(cfg, args, rank, is_cuda):\n    \"\"\"\n    setup model, criterion and optimizer based on input args\n    \"\"\"\n    args.distributed_rank = rank\n    cfg.distributed_training.distributed_rank = args.distributed_rank\n    if cfg.distributed_training.distributed_world_size > 1:\n        distributed_utils.distributed_init(cfg)\n    torch.manual_seed(1)\n    model = Model(args.input_size, args.nb_classes)\n    loss_fn = nn.CrossEntropyLoss()\n    if is_cuda:\n        model = model.cuda()\n        loss_fn = loss_fn.cuda()\n\n    optimizer = optim.sgd.SGD(args, model.parameters())\n    optimizer = optim.FairseqBMUF(cfg=cfg.bmuf, optimizer=optimizer)\n\n    return model, loss_fn, optimizer\n\n\ndef train_step(input, target, model, loss_fn, optimizer, **unused):\n    \"\"\"Do forward, backward and parameter update.\"\"\"\n    model.train()\n    output = model(input)\n    loss = loss_fn(output, target)\n    optimizer.backward(loss)\n    optimizer.step()\n\n\ndef single_gpu_training(cfg, args, rank, iterations, shared_results):\n\n    is_cuda = torch.cuda.is_available()\n    if is_cuda:\n        torch.cuda.set_device(rank)\n\n    model, loss_fn, optimizer = setup_model_loss_criterion(cfg, args, rank, is_cuda)\n\n    for _ in range(iterations):\n        input = torch.randn(1, args.input_size)\n        target = torch.empty(args.batch_size, dtype=torch.long).random_(args.nb_classes)\n\n        if is_cuda:\n            input = input.cuda()\n            target = target.cuda()\n        train_step(input, target, model, loss_fn, optimizer)\n\n    results = []\n    for param in model.parameters():\n        if len(results) == 0:\n            results = param.flatten().cpu().data\n        else:\n            results = torch.cat((results, param.flatten().cpu().data), 0)\n\n    shared_results[rank] = results\n\n\ndef setup_args():\n    args = argparse.Namespace()\n    args.global_sync_iter = 20\n    args.block_momentum = 0.875\n    args.block_lr = 0.5\n    args.input_size = 5\n    args.nb_classes = 2\n    args.batch_size = 1\n    args.lr = [1e-3]\n    args.momentum = 0\n    args.weight_decay = 0\n    args.warmup_iterations = 0\n    args.use_nbm = True\n    args.average_sync = True\n    args.global_sync_iter = 1\n    args.model_parallel_size = 1\n    args.distributed_backend = \"gloo\"\n\n    args.distributed_world_size = 2\n    port = random.randint(10000, 20000)\n    args.distributed_init_method = \"tcp://localhost:{port}\".format(port=port)\n    args.distributed_init_host = \"localhost\"\n    args.distributed_port = port + 1\n    args.local_world_size = args.distributed_world_size\n\n    cfg = OmegaConf.create()\n    cfg.optimization = OmegaConf.create()\n    cfg.common = OmegaConf.create()\n    cfg.distributed_training = OmegaConf.create()\n    cfg.dataset = OmegaConf.create()\n    cfg.bmuf = OmegaConf.create()\n    cfg.optimizer = OmegaConf.create()\n\n    cfg.bmuf.global_sync_iter = args.global_sync_iter\n    cfg.bmuf.block_momentum = args.block_momentum\n    cfg.bmuf.block_lr = args.block_lr\n    cfg.dataset.batch_size = args.batch_size\n    cfg.optimization.lr = args.lr\n    cfg.optimizer.momentum = args.momentum\n    cfg.optimizer.weight_decay = args.weight_decay\n    cfg.bmuf.warmup_iterations = args.warmup_iterations\n    cfg.bmuf.use_nbm = args.use_nbm\n    cfg.bmuf.average_sync = args.average_sync\n    cfg.common.model_parallel_size = args.model_parallel_size\n    cfg.distributed_training.distributed_backend = args.distributed_backend\n    cfg.distributed_training.distributed_world_size = args.distributed_world_size\n    cfg.bmuf.distributed_world_size = args.distributed_world_size\n    cfg.distributed_training.distributed_init_method = args.distributed_init_method\n    cfg.distributed_training.distributed_port = args.distributed_port\n\n    return cfg, args\n\n\n@unittest.skipIf(torch.cuda.device_count() < 2, \"test requires 2 GPUs\")\nclass TestBMUF(unittest.TestCase):\n    def bmuf_process(self, cfg, args, iterations):\n        results = Manager().dict()\n        torch.multiprocessing.spawn(\n            fn=functools.partial(single_gpu_training, cfg, args),\n            args=(iterations, results),\n            nprocs=args.distributed_world_size,\n            join=True,\n        )\n        return results\n\n    def test_bmuf_sync(self):\n        # Train model for 1 iteration and do bmuf sync without doing warmup\n        cfg, args = setup_args()\n        iterations = 1\n        results = self.bmuf_process(cfg, args, iterations)\n        # Make sure params in both machines are same\n        assert len(results) == 2\n        self.assertAlmostEqual(results[0], results[1])\n\n    def test_warmup_sync(self):\n        # Train model for 20 iteration and do warmup sync without doing bmuf sync\n        cfg, args = setup_args()\n        args.warmup_iterations = 20\n        cfg.bmuf.warmup_iterations = args.warmup_iterations\n        iterations = 20\n        results = self.bmuf_process(cfg, args, iterations)\n        # Make sure params in both machines are same\n        assert len(results) == 2\n        self.assertAlmostEqual(results[0], results[1])\n\n    def test_warmup_sync_bmuf_sync(self):\n        # Train model for 25 iteration and do warmup sync after 20 iteration\n        # and bmuf sync after 25 iteration\n        cfg, args = setup_args()\n        args.warmup_iterations = 20\n        args.global_sync_iter = 5\n        cfg.bmuf.warmup_iterations = args.warmup_iterations\n        cfg.bmuf.global_sync_iter = args.global_sync_iter\n        iterations = 25\n        results = self.bmuf_process(cfg, args, iterations)\n        # Make sure params in both machines are same\n        assert len(results) == 2\n        self.assertAlmostEqual(results[0], results[1])\n\n    def test_single_gpu_bmuf(self):\n        # Train model for 5 iterations and use GPU 1\n        cfg, args = setup_args()\n        args.distributed_world_size = 1\n        args.warmup_iterations = 5\n        cfg.distributed_training.distributed_world_size = args.distributed_world_size\n        cfg.bmuf.distributed_world_size = args.distributed_world_size\n        cfg.bmuf.warmup_iterations = args.warmup_iterations\n        iterations = 20\n        results = self.bmuf_process(cfg, args, iterations)\n        assert len(results) == 1\n\n    def assertAlmostEqual(self, t1, t2):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        self.assertLess((t1 - t2).abs().max(), 1e-4)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/distributed/test_distributed_timeout_wrapper.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport signal\nimport time\nimport unittest\n\nimport torch\nfrom torch import nn\n\nfrom fairseq.distributed import DistributedTimeoutWrapper\n\n\nclass ModuleWithDelay(nn.Module):\n    def __init__(self, delay):\n        super().__init__()\n        self.delay = delay\n\n    def forward(self, x):\n        time.sleep(self.delay)\n        return x\n\n\nclass TestDistributedTimeoutWrapper(unittest.TestCase):\n    def setUp(self):\n        logging.disable(logging.CRITICAL)\n\n    def tearDown(self):\n        logging.disable(logging.NOTSET)\n\n    def test_no_timeout(self):\n        module = DistributedTimeoutWrapper(ModuleWithDelay(1), 0, signal.SIGINT)\n        module(torch.rand(5))\n        module.stop_timeout()\n\n    def test_timeout_safe(self):\n        module = DistributedTimeoutWrapper(ModuleWithDelay(1), 10, signal.SIGINT)\n        module(torch.rand(5))\n        module.stop_timeout()\n\n    def test_timeout_killed(self):\n        with self.assertRaises(KeyboardInterrupt):\n            module = DistributedTimeoutWrapper(ModuleWithDelay(5), 1, signal.SIGINT)\n            module(torch.rand(5))\n            module.stop_timeout()\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/distributed/test_module_proxy_wrapper.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nimport torch\nfrom torch import nn\n\nfrom fairseq.distributed import ModuleProxyWrapper\n\nfrom .utils import objects_are_equal\n\n\nclass MockDDPWrapper(nn.Module):\n    \"\"\"A simple wrapper with an interface similar to DistributedDataParallel.\"\"\"\n\n    def __init__(self, module):\n        super().__init__()\n        self.module = module\n\n    def forward(self, x):\n        return self.module(x)\n\n\nclass Model(nn.Module):\n    def __init__(self):\n        super().__init__()\n        self.linear = nn.Linear(5, 10)\n        self.xyz = \"hello\"\n\n    def forward(self, x):\n        return self.linear(x)\n\n    def get_xyz(self):\n        return self.xyz\n\n\nclass TestModuleProxyWrapper(unittest.TestCase):\n    def _get_module(self):\n        module = Model()\n        wrapped_module = MockDDPWrapper(module)\n        wrapped_module = ModuleProxyWrapper(wrapped_module)\n        return wrapped_module, module\n\n    def test_getattr_forwarding(self):\n        wrapped_module, module = self._get_module()\n        assert module.xyz == \"hello\"\n        assert module.get_xyz() == \"hello\"\n        assert wrapped_module.xyz == \"hello\"\n\n        wrapped_module.xyz = \"world\"\n        assert wrapped_module.xyz == \"world\"\n        assert module.get_xyz() == \"hello\"\n\n    def test_state_dict(self):\n        wrapped_module, module = self._get_module()\n        assert objects_are_equal(wrapped_module.state_dict(), module.state_dict())\n\n    def test_load_state_dict(self):\n        wrapped_module, module = self._get_module()\n        wrapped_module.load_state_dict(module.state_dict())\n        input = torch.rand(4, 5)\n        torch.testing.assert_allclose(wrapped_module(input), module(input))\n\n    def test_forward(self):\n        wrapped_module, module = self._get_module()\n        input = torch.rand(4, 5)\n        torch.testing.assert_allclose(wrapped_module(input), module(input))\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/distributed/test_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport functools\nimport sys\nimport unittest\n\nimport torch\n\nfrom fairseq.distributed import utils as dist_utils\n\nfrom .utils import objects_are_equal, spawn_and_init\n\n\nclass DistributedTest(unittest.TestCase):\n    def setUp(self):\n        if not torch.cuda.is_available():\n            raise unittest.SkipTest(\"CUDA not available, skipping test\")\n        if sys.platform == \"win32\":\n            raise unittest.SkipTest(\"NCCL doesn't support Windows, skipping test\")\n        if torch.cuda.device_count() < 2:\n            raise unittest.SkipTest(\"distributed tests require 2+ GPUs, skipping\")\n\n\nclass TestBroadcastObject(DistributedTest):\n    def test_str(self):\n        spawn_and_init(\n            functools.partial(\n                TestBroadcastObject._test_broadcast_object, \"hello world\"\n            ),\n            world_size=2,\n        )\n\n    def test_tensor(self):\n        spawn_and_init(\n            functools.partial(\n                TestBroadcastObject._test_broadcast_object,\n                torch.rand(5),\n            ),\n            world_size=2,\n        )\n\n    def test_complex(self):\n        spawn_and_init(\n            functools.partial(\n                TestBroadcastObject._test_broadcast_object,\n                {\n                    \"a\": \"1\",\n                    \"b\": [2, torch.rand(2, 3), 3],\n                    \"c\": (torch.rand(2, 3), 4),\n                    \"d\": {5, torch.rand(5)},\n                    \"e\": torch.rand(5),\n                    \"f\": torch.rand(5).int().cuda(),\n                },\n            ),\n            world_size=2,\n        )\n\n    @staticmethod\n    def _test_broadcast_object(ref_obj, rank, group):\n        obj = dist_utils.broadcast_object(\n            ref_obj if rank == 0 else None, src_rank=0, group=group\n        )\n        assert objects_are_equal(ref_obj, obj)\n\n\nclass TestAllGatherList(DistributedTest):\n    def test_str_equality(self):\n        spawn_and_init(\n            functools.partial(\n                TestAllGatherList._test_all_gather_list_equality,\n                \"hello world\",\n            ),\n            world_size=2,\n        )\n\n    def test_tensor_equality(self):\n        spawn_and_init(\n            functools.partial(\n                TestAllGatherList._test_all_gather_list_equality,\n                torch.rand(5),\n            ),\n            world_size=2,\n        )\n\n    def test_complex_equality(self):\n        spawn_and_init(\n            functools.partial(\n                TestAllGatherList._test_all_gather_list_equality,\n                {\n                    \"a\": \"1\",\n                    \"b\": [2, torch.rand(2, 3), 3],\n                    \"c\": (torch.rand(2, 3), 4),\n                    \"d\": {5, torch.rand(5)},\n                    \"e\": torch.rand(5),\n                    \"f\": torch.rand(5).int(),\n                },\n            ),\n            world_size=2,\n        )\n\n    @staticmethod\n    def _test_all_gather_list_equality(ref_obj, rank, group):\n        objs = dist_utils.all_gather_list(ref_obj, group)\n        for obj in objs:\n            assert objects_are_equal(ref_obj, obj)\n\n    def test_rank_tensor(self):\n        spawn_and_init(\n            TestAllGatherList._test_all_gather_list_rank_tensor, world_size=2\n        )\n\n    @staticmethod\n    def _test_all_gather_list_rank_tensor(rank, group):\n        obj = torch.tensor([rank])\n        objs = dist_utils.all_gather_list(obj, group)\n        for i, obj in enumerate(objs):\n            assert obj.item() == i\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/distributed/utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport functools\nimport tempfile\n\nimport torch\n\n\ndef spawn_and_init(fn, world_size, args=None):\n    if args is None:\n        args = ()\n    with tempfile.NamedTemporaryFile(delete=False) as tmp_file:\n        torch.multiprocessing.spawn(\n            fn=functools.partial(init_and_run, fn, args),\n            args=(\n                world_size,\n                tmp_file.name,\n            ),\n            nprocs=world_size,\n            join=True,\n        )\n\n\ndef distributed_init(rank, world_size, tmp_file):\n    torch.distributed.init_process_group(\n        backend=\"nccl\",\n        init_method=\"file://{}\".format(tmp_file),\n        world_size=world_size,\n        rank=rank,\n    )\n    torch.cuda.set_device(rank)\n\n\ndef init_and_run(fn, args, rank, world_size, tmp_file):\n    distributed_init(rank, world_size, tmp_file)\n    group = torch.distributed.new_group()\n    fn(rank, group, *args)\n\n\ndef objects_are_equal(a, b) -> bool:\n    if type(a) is not type(b):\n        return False\n    if isinstance(a, dict):\n        if set(a.keys()) != set(b.keys()):\n            return False\n        for k in a.keys():\n            if not objects_are_equal(a[k], b[k]):\n                return False\n        return True\n    elif isinstance(a, (list, tuple, set)):\n        if len(a) != len(b):\n            return False\n        return all(objects_are_equal(x, y) for x, y in zip(a, b))\n    elif torch.is_tensor(a):\n        return (\n            a.size() == b.size()\n            and a.dtype == b.dtype\n            and a.device == b.device\n            and torch.all(a == b)\n        )\n    else:\n        return a == b\n"
  },
  {
    "path": "tests/gpu/__init__.py",
    "content": ""
  },
  {
    "path": "tests/gpu/test_binaries_gpu.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport contextlib\nimport json\nimport logging\nimport os\nimport tempfile\nimport unittest\nfrom io import StringIO\n\nimport torch\n\nfrom fairseq import options\nfrom fairseq_cli import train\nfrom tests.utils import (\n    create_dummy_data,\n    generate_main,\n    preprocess_lm_data,\n    preprocess_translation_data,\n    train_language_model,\n    train_translation_model,\n)\n\n\n@unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\nclass TestMultiGPU(unittest.TestCase):\n    @staticmethod\n    def parse_logs(logfile):\n        logs = []\n        for ln in open(logfile, \"r\").readlines():\n            try:\n                logs.append(json.loads(ln))\n            except json.JSONDecodeError:\n                continue\n        return logs\n\n    @property\n    def world_size(self):\n        return torch.cuda.device_count()\n\n    def train_flags(self, mu):\n        return [\n            \"--memory-efficient-fp16\",\n            \"--update-freq\",\n            \"1\",\n            \"--seed\",\n            \"1\",\n            \"--log-format\",\n            \"json\",\n            \"--max-update\",\n            str(mu),\n            \"--tokens-per-sample\",\n            \"20\",\n            \"--batch-size\",\n            \"2\",\n            \"--share-decoder-input-output-embed\",\n            \"--optimizer\",\n            \"adam\",\n            \"--max-valid-steps\",\n            \"1\",\n            \"--pad-to-fixed-length\",\n            \"--sample-break-mode\",\n            \"none\",\n        ]\n\n    def _test_resume_multilingual_training(\n        self, extra_clargs, arch=\"transformer_lm_gpt2_tiny\"\n    ):\n        languages = [\"en_XX\", \"fr_XX\", \"zh_CN\"]\n        save_interval = 5\n        mu = 10\n        flags = (\n            self.train_flags(mu)\n            + [\"--save-interval-updates\", str(save_interval), \"--log-interval\", \"1\"]\n            + extra_clargs\n        )\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_fp16\") as data_dir:\n                log = os.path.join(data_dir, \"train.log\")\n                create_dummy_data(\n                    data_dir,\n                    num_examples=int(\n                        mu * 20 * self.world_size * 1.5\n                    ),  # make sure enough data for max updates\n                    languages=languages,\n                )\n                preprocess_lm_data(data_dir, languages)\n                train_language_model(\n                    data_dir,\n                    arch,\n                    flags + [\"--log-file\", log],\n                    task=\"multilingual_language_modeling\",\n                    world_size=self.world_size,\n                )\n                log2 = os.path.join(data_dir, \"resume.log\")\n                ckpt_name = f\"checkpoint_1_{save_interval}.pt\"\n                restore_file = os.path.join(data_dir, ckpt_name)\n                train_language_model(\n                    data_dir,\n                    arch,\n                    flags\n                    + [\"--log-file\", log2, \"--restore-file\", restore_file, \"--no-save\"],\n                    task=\"multilingual_language_modeling\",\n                    world_size=self.world_size,\n                )\n\n                l1 = self.parse_logs(log)\n                assert (\n                    int(l1[-1][\"train_num_updates\"]) == mu\n                ), f\"The first run did not complete {mu} updates. Add more data\"\n                l2 = self.parse_logs(log2)\n\n                if int(l2[0][\"num_updates\"]) != save_interval + 1:\n                    all_ckpt_files = [\n                        x for x in os.listdir(data_dir) if x.endswith(\".pt\")\n                    ]\n                    import shutil\n\n                    shutil.move(data_dir, \"last_failed_resume\")\n                    raise AssertionError(\n                        f\"Likely failed to load {ckpt_name}. {all_ckpt_files} \\n LOGS: {l1} \\n\\n {l2}. \"\n                    )\n                for k in [\n                    \"train_loss\",\n                    \"train_num_updates\",\n                    \"train_ppl\",\n                    \"train_gnorm\",\n                ]:\n                    from_scratch, resumed = float(l1[-1][k]), float(l2[-1][k])\n                    # This fails without rounding!\n                    assert (\n                        from_scratch == resumed\n                    ), f\"difference at {k} {from_scratch} != {resumed}\"\n\n\n@unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\nclass TestTranslationGPU(unittest.TestCase):\n    def setUp(self):\n        logging.disable(logging.CRITICAL)\n\n    def tearDown(self):\n        logging.disable(logging.NOTSET)\n\n    def test_fp16_multigpu(self):\n        self._test_multigpu(\"test_fp16\", [\"--fp16\"])\n\n    def test_slowmo_multigpu(self):\n        self._test_multigpu(\n            \"test_slowmo\", [\"--ddp-backend\", \"slowmo\", \"--nprocs-per-node\", \"1\"]\n        )\n\n    def test_slowmo_single_node_multigpu(self):\n        self._test_multigpu(\n            \"test_slowmo_single_node\",\n            [\"--ddp-backend\", \"slowmo\", \"--nprocs-per-node\", \"2\"],\n        )\n\n    def _test_multigpu(self, test_name, test_args):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(test_name) as data_dir:\n                log = os.path.join(data_dir, \"train.log\")\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(\n                    data_dir,\n                    \"fconv_iwslt_de_en\",\n                    test_args + [\"--log-file\", log],\n                    world_size=min(torch.cuda.device_count(), 2),\n                )\n                generate_main(data_dir)\n                assert os.path.exists(log)\n\n    @staticmethod\n    def parse_logs(logfile):\n        logs = []\n        for ln in open(logfile, \"r\").readlines():\n            try:\n                logs.append(json.loads(ln))\n            except json.JSONDecodeError:\n                continue\n        return logs\n\n    def test_resume_training_fsdp(self):\n        self._test_resume_training([\"--ddp-backend\", \"fully_sharded\"])\n\n    def test_resume_training_fsdp_sharded_state(self):\n        self._test_resume_training(\n            [\"--ddp-backend\", \"fully_sharded\", \"--use-sharded-state\"]\n        )\n\n    def test_resume_training_noc10d(self):\n        self._test_resume_training([])\n\n    def _test_resume_training(self, extra_clargs, arch=\"fconv_iwslt_de_en\"):\n        flags = [\n            \"--fp16\",\n            \"--log-format\",\n            \"json\",\n            \"--max-update\",\n            \"10\",\n            \"--save-interval-updates\",\n            \"2\",\n            \"--log-interval\",\n            \"1\",\n        ] + extra_clargs\n        world_size = min(torch.cuda.device_count(), 2)\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_fp16\") as data_dir:\n                log = os.path.join(data_dir, \"train.log\")\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(\n                    data_dir,\n                    arch,\n                    flags + [\"--log-file\", log],\n                    world_size=world_size,\n                )\n                log2 = os.path.join(data_dir, \"resume.log\")\n                restore_file = os.path.join(data_dir, \"checkpoint_1_2.pt\")\n                train_translation_model(\n                    data_dir,\n                    arch,\n                    flags + [\"--log-file\", log2, \"--restore-file\", restore_file],\n                    world_size=world_size,\n                )\n\n                l1 = self.parse_logs(log)\n                l2 = self.parse_logs(log2)\n                assert int(l2[0][\"num_updates\"]) == 3, f\"{l1}\\n\\n {l2}\"\n                for k in [\n                    \"train_loss\",\n                    \"train_num_updates\",\n                    \"train_ppl\",\n                    \"train_gnorm\",\n                ]:\n                    from_scratch, resumed = l1[-1][k], l2[-1][k]\n                    assert (\n                        from_scratch == resumed\n                    ), f\"difference at {k} {from_scratch} != {resumed}\"\n\n    def test_memory_efficient_fp16(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_memory_efficient_fp16\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(\n                    data_dir, \"fconv_iwslt_de_en\", [\"--memory-efficient-fp16\"]\n                )\n                generate_main(data_dir)\n\n    def test_transformer_fp16(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_transformer\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(\n                    data_dir,\n                    \"transformer_iwslt_de_en\",\n                    [\n                        \"--encoder-layers\",\n                        \"2\",\n                        \"--decoder-layers\",\n                        \"2\",\n                        \"--encoder-embed-dim\",\n                        \"64\",\n                        \"--decoder-embed-dim\",\n                        \"64\",\n                        \"--fp16\",\n                    ],\n                    run_validation=True,\n                )\n                generate_main(data_dir)\n\n    @unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\n    def test_amp(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_amp\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(data_dir, \"fconv_iwslt_de_en\", [\"--amp\"])\n                generate_main(data_dir)\n\n    @unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\n    def test_transformer_amp(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_transformer\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(\n                    data_dir,\n                    \"transformer_iwslt_de_en\",\n                    [\n                        \"--encoder-layers\",\n                        \"2\",\n                        \"--decoder-layers\",\n                        \"2\",\n                        \"--encoder-embed-dim\",\n                        \"64\",\n                        \"--decoder-embed-dim\",\n                        \"64\",\n                        \"--amp\",\n                    ],\n                    run_validation=True,\n                )\n                generate_main(data_dir)\n\n    @unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\n    def test_levenshtein_transformer(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\n                \"test_levenshtein_transformer\"\n            ) as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir, [\"--joined-dictionary\"])\n                train_translation_model(\n                    data_dir,\n                    \"levenshtein_transformer\",\n                    [\n                        \"--apply-bert-init\",\n                        \"--early-exit\",\n                        \"6,6,6\",\n                        \"--criterion\",\n                        \"nat_loss\",\n                    ],\n                    task=\"translation_lev\",\n                )\n                gen_config = [\n                    \"--task\",\n                    \"translation_lev\",\n                    \"--iter-decode-max-iter\",\n                    \"9\",\n                    \"--iter-decode-eos-penalty\",\n                    \"0\",\n                    \"--print-step\",\n                ]\n                # non-ensemble generation\n                generate_main(data_dir, gen_config)\n                # ensemble generation\n                generate_main(\n                    data_dir,\n                    gen_config,\n                    path=os.pathsep.join(\n                        [\n                            os.path.join(data_dir, \"checkpoint_last.pt\"),\n                            os.path.join(data_dir, \"checkpoint_last.pt\"),\n                        ]\n                    ),\n                )\n\n    def test_fsdp_checkpoint_generate(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_fsdp_sharded\") as data_dir:\n                log = os.path.join(data_dir, \"train.log\")\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                world_size = min(torch.cuda.device_count(), 2)\n                train_translation_model(\n                    data_dir,\n                    \"fconv_iwslt_de_en\",\n                    [\"--log-file\", log, \"--ddp-backend\", \"fully_sharded\"],\n                    world_size=world_size,\n                )\n                generate_main(data_dir)\n                assert os.path.exists(log)\n\n    def test_fsdp_sharded_checkpoint_generate(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_fsdp_sharded\") as data_dir:\n                log = os.path.join(data_dir, \"train.log\")\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                world_size = min(torch.cuda.device_count(), 2)\n                train_translation_model(\n                    data_dir,\n                    \"fconv_iwslt_de_en\",\n                    [\n                        \"--log-file\",\n                        log,\n                        \"--ddp-backend\",\n                        \"fully_sharded\",\n                        \"--use-sharded-state\",\n                    ],\n                    world_size=world_size,\n                )\n                generate_main(data_dir, [\"--checkpoint-shard-count\", str(world_size)])\n                assert os.path.exists(log)\n\n\ndef _quantize_language_model(data_dir, arch, extra_flags=None, run_validation=False):\n    train_parser = options.get_training_parser()\n    train_args = options.parse_args_and_arch(\n        train_parser,\n        [\n            \"--task\",\n            \"language_modeling\",\n            data_dir,\n            \"--arch\",\n            arch,\n            \"--optimizer\",\n            \"adam\",\n            \"--lr\",\n            \"0.0001\",\n            \"--criterion\",\n            \"adaptive_loss\",\n            \"--adaptive-softmax-cutoff\",\n            \"5,10,15\",\n            \"--max-tokens\",\n            \"500\",\n            \"--tokens-per-sample\",\n            \"500\",\n            \"--save-dir\",\n            data_dir,\n            \"--max-epoch\",\n            \"1\",\n            \"--no-progress-bar\",\n            \"--distributed-world-size\",\n            \"1\",\n            \"--ddp-backend\",\n            \"no_c10d\",\n            \"--num-workers\",\n            \"0\",\n        ]\n        + (extra_flags or []),\n    )\n    train.main(train_args)\n\n    # try scalar quantization\n    scalar_quant_train_parser = options.get_training_parser()\n    scalar_quant_train_args = options.parse_args_and_arch(\n        scalar_quant_train_parser,\n        [\n            \"--task\",\n            \"language_modeling\",\n            data_dir,\n            \"--arch\",\n            arch,\n            \"--optimizer\",\n            \"adam\",\n            \"--lr\",\n            \"0.0001\",\n            \"--criterion\",\n            \"adaptive_loss\",\n            \"--adaptive-softmax-cutoff\",\n            \"5,10,15\",\n            \"--max-tokens\",\n            \"500\",\n            \"--tokens-per-sample\",\n            \"500\",\n            \"--save-dir\",\n            data_dir,\n            \"--max-update\",\n            \"3\",\n            \"--no-progress-bar\",\n            \"--distributed-world-size\",\n            \"1\",\n            \"--ddp-backend\",\n            \"no_c10d\",\n            \"--num-workers\",\n            \"0\",\n            \"--quant-noise-scalar\",\n            \"0.5\",\n        ]\n        + (extra_flags or []),\n    )\n    train.main(scalar_quant_train_args)\n\n    # try iterative PQ quantization\n    quantize_parser = options.get_training_parser()\n    quantize_args = options.parse_args_and_arch(\n        quantize_parser,\n        [\n            \"--task\",\n            \"language_modeling\",\n            data_dir,\n            \"--arch\",\n            arch,\n            \"--optimizer\",\n            \"adam\",\n            \"--lr\",\n            \"0.0001\",\n            \"--criterion\",\n            \"adaptive_loss\",\n            \"--adaptive-softmax-cutoff\",\n            \"5,10,15\",\n            \"--max-tokens\",\n            \"50\",\n            \"--tokens-per-sample\",\n            \"50\",\n            \"--max-update\",\n            \"6\",\n            \"--no-progress-bar\",\n            \"--distributed-world-size\",\n            \"1\",\n            \"--ddp-backend\",\n            \"no_c10d\",\n            \"--num-workers\",\n            \"0\",\n            \"--restore-file\",\n            os.path.join(data_dir, \"checkpoint_last.pt\"),\n            \"--reset-optimizer\",\n            \"--quantization-config-path\",\n            os.path.join(\n                os.path.dirname(__file__), \"transformer_quantization_config.yaml\"\n            ),\n        ]\n        + (extra_flags or []),\n    )\n    train.main(quantize_args)\n\n\n@unittest.skipIf(\n    int(torch.__version__[2]) < 10, reason=\"quantized kernels are only supported on CPU\"\n)\n@unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\nclass TestQuantization(unittest.TestCase):\n    def setUp(self):\n        logging.disable(logging.CRITICAL)\n\n    def tearDown(self):\n        logging.disable(logging.NOTSET)\n\n    def test_quantization(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_quantization\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_lm_data(data_dir)\n                # tests both scalar and iterative PQ quantization\n                _quantize_language_model(data_dir, \"transformer_lm\")\n\n\n@unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\nclass TestOptimizersGPU(unittest.TestCase):\n    def setUp(self):\n        logging.disable(logging.CRITICAL)\n\n    def tearDown(self):\n        logging.disable(logging.NOTSET)\n\n    def test_flat_grads(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_flat_grads\") as data_dir:\n                # Use just a bit of data and tiny model to keep this test runtime reasonable\n                create_dummy_data(data_dir, num_examples=10, maxlen=5)\n                preprocess_translation_data(data_dir)\n                with self.assertRaises(RuntimeError):\n                    # adafactor isn't compatible with flat grads, which\n                    # are used by default with --fp16\n                    train_translation_model(\n                        data_dir,\n                        \"lstm\",\n                        [\n                            \"--required-batch-size-multiple\",\n                            \"1\",\n                            \"--encoder-layers\",\n                            \"1\",\n                            \"--encoder-hidden-size\",\n                            \"32\",\n                            \"--decoder-layers\",\n                            \"1\",\n                            \"--optimizer\",\n                            \"adafactor\",\n                            \"--fp16\",\n                        ],\n                    )\n                # but it should pass once we set --fp16-no-flatten-grads\n                train_translation_model(\n                    data_dir,\n                    \"lstm\",\n                    [\n                        \"--required-batch-size-multiple\",\n                        \"1\",\n                        \"--encoder-layers\",\n                        \"1\",\n                        \"--encoder-hidden-size\",\n                        \"32\",\n                        \"--decoder-layers\",\n                        \"1\",\n                        \"--optimizer\",\n                        \"adafactor\",\n                        \"--fp16\",\n                        \"--fp16-no-flatten-grads\",\n                    ],\n                )\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/gpu/test_ema_gpu.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nfrom copy import deepcopy\nfrom dataclasses import dataclass\nfrom typing import Optional\n\nimport torch\n\nfrom fairseq.models.ema import EMA\n\n\nclass DummyModule(torch.nn.Module):\n    def __init__(self) -> None:\n        \"\"\"LightningModule for testing purposes\n\n        Args:\n            epoch_min_loss_override (int, optional): Pass in an epoch that will be set to the minimum\n                validation loss for testing purposes (zero based). If None this is ignored. Defaults to None.\n        \"\"\"\n        super().__init__()\n        self.layer = torch.nn.Linear(in_features=32, out_features=2)\n        self.another_layer = torch.nn.Linear(in_features=2, out_features=2)\n\n    def forward(self, x: torch.Tensor) -> torch.Tensor:\n        x = self.layer(x)\n        return self.another_layer(x)\n\n\n@dataclass\nclass EMAConfig(object):\n    ema_decay: float = 0.99\n    ema_start_update: int = 0\n    ema_fp32: bool = False\n    ema_seed_model: Optional[str] = None\n    ema_update_freq: int = 1\n\n\n@unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\nclass TestEMAGPU(unittest.TestCase):\n    def assertTorchAllClose(self, x, y, atol=1e-8, rtol=1e-5, msg=None):\n        diff = x.float() - y.float()\n        diff_norm = torch.norm(diff)\n        other_norm = torch.norm(y.float())\n\n        if msg is None:\n            msg = \"|input - other| > {} + {} * |other|\".format(atol, rtol)\n\n        self.assertLessEqual(\n            diff_norm,\n            atol + rtol * other_norm,\n            msg=msg,\n        )\n\n    def test_ema(self):\n        model = DummyModule().cuda()\n        optimizer = torch.optim.SGD(model.parameters(), lr=0.01)\n        state = deepcopy(model.state_dict())\n        config = EMAConfig()\n        ema = EMA(model, config)\n\n        # set decay\n        ema._set_decay(config.ema_decay)\n        self.assertEqual(ema.get_decay(), config.ema_decay)\n\n        # get model\n        self.assertEqual(ema.get_model(), ema.model)\n\n        # Since fp32 params is not used, it should be of size 0\n        self.assertEqual(len(ema.fp32_params), 0)\n\n        # EMA step\n        x = torch.randn(32).cuda()\n        y = model(x)\n        loss = y.sum()\n        loss.backward()\n        optimizer.step()\n\n        ema.step(model)\n\n        ema_state_dict = ema.get_model().state_dict()\n\n        for key, param in model.state_dict().items():\n            prev_param = state[key]\n            ema_param = ema_state_dict[key]\n\n            if \"version\" in key:\n                # Do not decay a model.version pytorch param\n                continue\n            self.assertTorchAllClose(\n                ema_param,\n                config.ema_decay * prev_param + (1 - config.ema_decay) * param,\n            )\n\n        # Since fp32 params is not used, it should be of size 0\n        self.assertEqual(len(ema.fp32_params), 0)\n\n        # Load EMA into model\n        model2 = DummyModule().cuda()\n        ema.reverse(model2)\n\n        for key, param in model2.state_dict().items():\n            ema_param = ema_state_dict[key]\n            self.assertTrue(torch.allclose(ema_param, param))\n\n    def test_ema_fp32(self):\n        model = DummyModule().cuda().half()\n        optimizer = torch.optim.SGD(model.parameters(), lr=0.01)\n        state = deepcopy(model.state_dict())\n        config = EMAConfig(ema_fp32=True)\n        ema = EMA(model, config)\n\n        x = torch.randn(32).cuda()\n        y = model(x.half())\n        loss = y.sum()\n        loss.backward()\n        optimizer.step()\n\n        ema.step(model)\n\n        for key, param in model.state_dict().items():\n            prev_param = state[key]\n            ema_param = ema.get_model().state_dict()[key]\n\n            if \"version\" in key:\n                # Do not decay a model.version pytorch param\n                continue\n            self.assertIn(key, ema.fp32_params)\n\n            # EMA update is done in fp32, and hence the EMA param must be\n            # closer to the EMA update done in fp32 than in fp16.\n            self.assertLessEqual(\n                torch.norm(\n                    ema_param.float()\n                    - (\n                        config.ema_decay * prev_param.float()\n                        + (1 - config.ema_decay) * param.float()\n                    )\n                    .half()\n                    .float()\n                ),\n                torch.norm(\n                    ema_param.float()\n                    - (\n                        config.ema_decay * prev_param + (1 - config.ema_decay) * param\n                    ).float()\n                ),\n            )\n            self.assertTorchAllClose(\n                ema_param,\n                (\n                    config.ema_decay * prev_param.float()\n                    + (1 - config.ema_decay) * param.float()\n                ).half(),\n            )\n\n    def test_ema_fp16(self):\n        model = DummyModule().cuda().half()\n        optimizer = torch.optim.SGD(model.parameters(), lr=0.01)\n        state = deepcopy(model.state_dict())\n        config = EMAConfig(ema_fp32=False)\n        ema = EMA(model, config)\n\n        # Since fp32 params is not used, it should be of size 0\n        self.assertEqual(len(ema.fp32_params), 0)\n\n        x = torch.randn(32).cuda()\n        y = model(x.half())\n        loss = y.sum()\n        loss.backward()\n        optimizer.step()\n\n        ema.step(model)\n\n        for key, param in model.state_dict().items():\n            prev_param = state[key]\n            ema_param = ema.get_model().state_dict()[key]\n\n            if \"version\" in key:\n                # Do not decay a model.version pytorch param\n                continue\n\n            # EMA update is done in fp16, and hence the EMA param must be\n            # closer to the EMA update done in fp16 than in fp32.\n            self.assertLessEqual(\n                torch.norm(\n                    ema_param.float()\n                    - (\n                        config.ema_decay * prev_param + (1 - config.ema_decay) * param\n                    ).float()\n                ),\n                torch.norm(\n                    ema_param.float()\n                    - (\n                        config.ema_decay * prev_param.float()\n                        + (1 - config.ema_decay) * param.float()\n                    )\n                    .half()\n                    .float()\n                ),\n            )\n            self.assertTorchAllClose(\n                ema_param,\n                config.ema_decay * prev_param + (1 - config.ema_decay) * param,\n            )\n\n        # Since fp32 params is not used, it should be of size 0\n        self.assertEqual(len(ema.fp32_params), 0)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/gpu/transformer_quantization_config.yaml",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n# This file defines example configuration arguments for quantizing\n# a transformer model with product quantization\n\nn_centroids:\n    Linear:\n        key: in_features\n        value: {\"*\": 8}\n    Embedding:\n        key: embedding_dim\n        value: {\"*\": 8}\n\nblock_sizes:\n  Linear:\n      key: fuzzy_name\n      value: {fc: 8, attn: 4, emb: 4}\n  Embedding:\n      key: fuzzy_name\n      value: {emb: 8}\n\nlayers_to_quantize:\n    - decoder\\\\.layers\\\\.\\d+\\\\.fc[12]\n    - decoder\\\\.embed_tokens\\\\.embeddings\\\\.[012]\\\\.[01]\n    - decoder\\\\.layers\\\\.\\d+\\\\.self_attn\\\\.(k_proj|v_proj|q_proj|out_proj)\n"
  },
  {
    "path": "tests/speech/__init__.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom argparse import Namespace\nimport os\nimport re\nimport unittest\nfrom pathlib import Path\nfrom tqdm import tqdm\nfrom typing import List, Dict, Optional\nimport torch\nfrom fairseq.checkpoint_utils import load_model_ensemble_and_task\nfrom fairseq.scoring.wer import WerScorer\nfrom fairseq.scoring.bleu import SacrebleuScorer\nfrom fairseq import utils\nimport zipfile\n\nS3_BASE_URL = \"https://dl.fbaipublicfiles.com/fairseq\"\n\n\nclass TestFairseqSpeech(unittest.TestCase):\n    @classmethod\n    def download(cls, base_url: str, out_root: Path, filename: str):\n        url = f\"{base_url}/{filename}\"\n        path = out_root / filename\n        if not path.exists():\n            torch.hub.download_url_to_file(url, path.as_posix(), progress=True)\n        return path\n\n    def _set_up(self, dataset_id: str, s3_dir: str, data_filenames: List[str]):\n        self.use_cuda = torch.cuda.is_available()\n        self.root = Path.home() / \".cache\" / \"fairseq\" / dataset_id\n        self.root.mkdir(exist_ok=True, parents=True)\n        os.chdir(self.root)\n        self.base_url = (\n            s3_dir if re.search(\"^https:\", s3_dir) else f\"{S3_BASE_URL}/{s3_dir}\"\n        )\n        for filename in data_filenames:\n            self.download(self.base_url, self.root, filename)\n\n    def set_up_librispeech(self):\n        self._set_up(\n            \"librispeech\",\n            \"s2t/librispeech\",\n            [\n                \"cfg_librispeech.yaml\",\n                \"spm_librispeech_unigram10000.model\",\n                \"spm_librispeech_unigram10000.txt\",\n                \"librispeech_test-other.tsv\",\n                \"librispeech_test-other.zip\",\n            ],\n        )\n\n    def set_up_ljspeech(self):\n        self._set_up(\n            \"ljspeech\",\n            \"s2/ljspeech\",\n            [\n                \"cfg_ljspeech_g2p.yaml\",\n                \"ljspeech_g2p_gcmvn_stats.npz\",\n                \"ljspeech_g2p.txt\",\n                \"ljspeech_test.tsv\",\n                \"ljspeech_test.zip\",\n            ],\n        )\n\n    def set_up_sotasty_es_en(self):\n        self._set_up(\n            \"sotasty_es_en\",\n            \"s2t/big/es-en\",\n            [\n                \"cfg_es_en.yaml\",\n                \"spm_bpe32768_es_en.model\",\n                \"spm_bpe32768_es_en.txt\",\n                \"sotasty_es_en_test_ted.tsv\",\n                \"sotasty_es_en_test_ted.zip\",\n            ],\n        )\n\n    def set_up_mustc_de_fbank(self):\n        self._set_up(\n            \"mustc_de_fbank\",\n            \"https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/must_c/en_de\",\n            [\n                \"config.yaml\",\n                \"spm.model\",\n                \"dict.txt\",\n                \"src_dict.txt\",\n                \"tgt_dict.txt\",\n                \"tst-COMMON.tsv\",\n                \"tst-COMMON.zip\",\n            ],\n        )\n\n    def download_and_load_checkpoint(\n        self,\n        checkpoint_filename: str,\n        arg_overrides: Optional[Dict[str, str]] = None,\n        strict: bool = True,\n    ):\n        path = self.download(self.base_url, self.root, checkpoint_filename)\n        _arg_overrides = arg_overrides or {}\n        _arg_overrides[\"data\"] = self.root.as_posix()\n        models, cfg, task = load_model_ensemble_and_task(\n            [path.as_posix()], arg_overrides=_arg_overrides, strict=strict\n        )\n        if self.use_cuda:\n            for model in models:\n                model.cuda()\n\n        return models, cfg, task, self.build_generator(task, models, cfg)\n\n    def build_generator(\n        self,\n        task,\n        models,\n        cfg,\n    ):\n        return task.build_generator(models, cfg)\n\n    @classmethod\n    def get_batch_iterator(cls, task, test_split, max_tokens, max_positions):\n        task.load_dataset(test_split)\n        return task.get_batch_iterator(\n            dataset=task.dataset(test_split),\n            max_tokens=max_tokens,\n            max_positions=max_positions,\n            num_workers=1,\n        ).next_epoch_itr(shuffle=False)\n\n    @classmethod\n    def get_wer_scorer(\n        cls, tokenizer=\"none\", lowercase=False, remove_punct=False, char_level=False\n    ):\n        scorer_args = {\n            \"wer_tokenizer\": tokenizer,\n            \"wer_lowercase\": lowercase,\n            \"wer_remove_punct\": remove_punct,\n            \"wer_char_level\": char_level,\n        }\n        return WerScorer(Namespace(**scorer_args))\n\n    @classmethod\n    def get_bleu_scorer(cls, tokenizer=\"13a\", lowercase=False, char_level=False):\n        scorer_args = {\n            \"sacrebleu_tokenizer\": tokenizer,\n            \"sacrebleu_lowercase\": lowercase,\n            \"sacrebleu_char_level\": char_level,\n        }\n        return SacrebleuScorer(Namespace(**scorer_args))\n\n    @torch.no_grad()\n    def base_test(\n        self,\n        ckpt_name,\n        reference_score,\n        score_delta=0.3,\n        dataset=\"librispeech_test-other\",\n        max_tokens=65_536,\n        max_positions=(4_096, 1_024),\n        arg_overrides=None,\n        strict=True,\n        score_type=\"wer\",\n    ):\n        models, _, task, generator = self.download_and_load_checkpoint(\n            ckpt_name, arg_overrides=arg_overrides, strict=strict\n        )\n        if not self.use_cuda:\n            return\n\n        batch_iterator = self.get_batch_iterator(\n            task, dataset, max_tokens, max_positions\n        )\n        if score_type == \"bleu\":\n            scorer = self.get_bleu_scorer()\n        elif score_type == \"wer\":\n            scorer = self.get_wer_scorer()\n        else:\n            raise Exception(f\"Unsupported score type {score_type}\")\n\n        progress = tqdm(enumerate(batch_iterator), total=len(batch_iterator))\n        for batch_idx, sample in progress:\n            sample = utils.move_to_cuda(sample) if self.use_cuda else sample\n            hypo = task.inference_step(generator, models, sample)\n            for i, sample_id in enumerate(sample[\"id\"].tolist()):\n                tgt_str, hypo_str = self.postprocess_tokens(\n                    task,\n                    sample[\"target\"][i, :],\n                    hypo[i][0][\"tokens\"].int().cpu(),\n                )\n                if batch_idx == 0 and i < 3:\n                    print(f\"T-{sample_id} {tgt_str}\")\n                    print(f\"H-{sample_id} {hypo_str}\")\n                scorer.add_string(tgt_str, hypo_str)\n\n        print(scorer.result_string() + f\" (reference: {reference_score})\")\n        self.assertAlmostEqual(scorer.score(), reference_score, delta=score_delta)\n\n    def postprocess_tokens(self, task, target, hypo_tokens):\n        tgt_tokens = utils.strip_pad(target, task.tgt_dict.pad()).int().cpu()\n        tgt_str = task.tgt_dict.string(tgt_tokens, \"sentencepiece\")\n        hypo_str = task.tgt_dict.string(hypo_tokens, \"sentencepiece\")\n        return tgt_str, hypo_str\n\n    def unzip_files(self, zip_file_name):\n        zip_file_path = self.root / zip_file_name\n        with zipfile.ZipFile(zip_file_path, \"r\") as zip_ref:\n            zip_ref.extractall(self.root / zip_file_name.strip(\".zip\"))\n"
  },
  {
    "path": "tests/speech/test_convtransformer_simul_trans.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nfrom tests.speech import TestFairseqSpeech\n\nS3_BASE_URL = \"https://dl.fbaipublicfiles.com/fairseq/\"\n\n\nclass TestConvtransformerSimulTrans(TestFairseqSpeech):\n    def setUp(self):\n        self._set_up(\n            \"simul\",\n            \"speech_tests/simul\",\n            [\"config_gcmvn_specaug.yaml\", \"dict.txt\", \"dev.tsv\"],\n        )\n\n    def test_waitk_checkpoint(self):\n        \"\"\"Only test model loading since fairseq currently doesn't support inference of simultaneous models\"\"\"\n        _, _, _, _ = self.download_and_load_checkpoint(\n            \"checkpoint_best.pt\",\n            arg_overrides={\n                \"config_yaml\": \"config_gcmvn_specaug.yaml\",\n                \"load_pretrained_encoder_from\": None,\n            },\n        )\n        return\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/speech/test_dual_input_wav_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nfrom collections import namedtuple\nfrom pathlib import Path\n\nimport torch\nfrom tqdm import tqdm\n\nimport fairseq\nfrom fairseq import utils\nfrom fairseq.checkpoint_utils import load_model_ensemble_and_task\nfrom fairseq.scoring.bleu import SacrebleuScorer\nfrom fairseq.tasks import import_tasks\nfrom tests.speech import S3_BASE_URL, TestFairseqSpeech\n\n\n@unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\nclass TestLibrispeechDualInputWavTransformer(TestFairseqSpeech):\n    def setUp(self):\n        dataset_id = \"librispeech_wvtrasnformer\"\n        base_url = \"https://dl.fbaipublicfiles.com/joint_speech_text_4_s2t/acl2022/librispeech/finetuned\"\n        data_filenames = [\n            \"checkpoint_ave_10.pt\",\n            \"spm.model\",\n            \"src_dict.txt\",\n            \"tgt_dict.txt\",\n            \"config.yaml\",\n        ]\n        self._set_up(\n            dataset_id,\n            \"s2t\",\n            [\n                \"librispeech_flac_test-other.tsv\",\n                \"librispeech_flac_test-other.zip\",\n            ],\n        )\n        for filename in data_filenames:\n            self.download(base_url, self.root, filename)\n\n    def import_user_module(self):\n        user_dir = (\n            Path(fairseq.__file__).parent.parent / \"examples/speech_text_joint_to_text\"\n        )\n        Arg = namedtuple(\"Arg\", [\"user_dir\"])\n        arg = Arg(user_dir.__str__())\n        utils.import_user_module(arg)\n\n    @torch.no_grad()\n    def test_librispeech_dualinput_wav_transformer_checkpoint(self):\n        self.import_user_module()\n        checkpoint_filename = \"checkpoint_ave_10.pt\"\n        arg_overrides = {\n            \"config_yaml\": \"config.yaml\",\n            \"load_pretrained_speech_text_encoder\": \"\",\n            \"load_pretrained_speech_text_decoder\": \"\",\n            \"beam\": 10,\n            \"nbest\": 1,\n            \"lenpen\": 1.0,\n            \"load_speech_only\": True,\n        }\n        self.base_test(\n            checkpoint_filename,\n            4.6,\n            dataset=\"librispeech_flac_test-other\",\n            max_tokens=800000,\n            max_positions=(800000, 1024),\n            arg_overrides=arg_overrides,\n        )\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/speech/test_dualinput_s2t_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nfrom argparse import Namespace\nfrom collections import namedtuple\nfrom pathlib import Path\n\nimport torch\nfrom tqdm import tqdm\n\nimport fairseq\nfrom fairseq import utils\nfrom fairseq.checkpoint_utils import load_model_ensemble_and_task\nfrom fairseq.scoring.bleu import SacrebleuScorer\nfrom fairseq.tasks import import_tasks\nfrom tests.speech import TestFairseqSpeech\n\n\n@unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\nclass TestDualInputS2TTransformer(TestFairseqSpeech):\n    def setUp(self):\n        self.set_up_mustc_de_fbank()\n\n    def import_user_module(self):\n        user_dir = (\n            Path(fairseq.__file__).parent.parent / \"examples/speech_text_joint_to_text\"\n        )\n        Arg = namedtuple(\"Arg\", [\"user_dir\"])\n        arg = Arg(user_dir.__str__())\n        utils.import_user_module(arg)\n\n    @torch.no_grad()\n    def test_mustc_de_fbank_dualinput_s2t_transformer_checkpoint(self):\n        self.import_user_module()\n        checkpoint_filename = \"checkpoint_ave_10.pt\"\n        path = self.download(self.base_url, self.root, checkpoint_filename)\n        models, cfg, task = load_model_ensemble_and_task(\n            [path.as_posix()],\n            arg_overrides={\n                \"data\": self.root.as_posix(),\n                \"config_yaml\": \"config.yaml\",\n                \"load_pretrain_speech_encoder\": \"\",\n                \"load_pretrain_text_encoder_last\": \"\",\n                \"load_pretrain_decoder\": \"\",\n                \"beam\": 10,\n                \"nbest\": 1,\n                \"lenpen\": 1.0,\n                \"load_speech_only\": True,\n            },\n        )\n        if self.use_cuda:\n            for model in models:\n                model.cuda()\n        generator = task.build_generator(models, cfg)\n        test_split = \"tst-COMMON\"\n        task.load_dataset(test_split)\n        batch_iterator = task.get_batch_iterator(\n            dataset=task.dataset(test_split),\n            max_tokens=250_000,\n            max_positions=(10_000, 1_024),\n            num_workers=1,\n        ).next_epoch_itr(shuffle=False)\n\n        tokenizer = task.build_tokenizer(cfg.tokenizer)\n        bpe = task.build_bpe(cfg.bpe)\n\n        def decode_fn(x):\n            if bpe is not None:\n                x = bpe.decode(x)\n            if tokenizer is not None:\n                x = tokenizer.decode(x)\n            return x\n\n        scorer_args = {\n            \"sacrebleu_tokenizer\": \"13a\",\n            \"sacrebleu_lowercase\": False,\n            \"sacrebleu_char_level\": False,\n        }\n        scorer = SacrebleuScorer(Namespace(**scorer_args))\n        progress = tqdm(enumerate(batch_iterator), total=len(batch_iterator))\n        for batch_idx, sample in progress:\n            sample = utils.move_to_cuda(sample) if self.use_cuda else sample\n            hypo = task.inference_step(generator, models, sample)\n            for i, sample_id in enumerate(sample[\"id\"].tolist()):\n                tgt_tokens = (\n                    utils.strip_pad(sample[\"target\"][i, :], task.tgt_dict.pad())\n                    .int()\n                    .cpu()\n                )\n\n                tgt_str = task.tgt_dict.string(tgt_tokens, \"sentencepiece\")\n                hypo_str = task.tgt_dict.string(\n                    hypo[i][0][\"tokens\"].int().cpu(), \"sentencepiece\"\n                )\n                if batch_idx == 0 and i < 3:\n                    print(f\"T-{sample_id} {tgt_str}\")\n                    print(f\"D-{sample_id} {hypo_str}\")\n                scorer.add_string(tgt_str, hypo_str)\n        reference_bleu = 27.3\n        result = scorer.result_string()\n        print(result + f\" (reference: {reference_bleu})\")\n        res_bleu = float(result.split()[2])\n        self.assertAlmostEqual(res_bleu, reference_bleu, delta=0.3)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/speech/test_fastspeech2.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nimport torch\nfrom tqdm import tqdm\n\nfrom fairseq import utils\nfrom fairseq.tasks.text_to_speech import batch_mel_cepstral_distortion\nfrom tests.speech import TestFairseqSpeech\n\n\n@unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\nclass TestFastSpeech2(TestFairseqSpeech):\n    def setUp(self):\n        self.set_up_ljspeech()\n\n    @torch.no_grad()\n    def test_ljspeech_fastspeech2_checkpoint(self):\n        models, cfg, task, generator = self.download_and_load_checkpoint(\n            \"ljspeech_fastspeech2_g2p.pt\",\n            arg_overrides={\n                \"config_yaml\": \"cfg_ljspeech_g2p.yaml\",\n                \"vocoder\": \"griffin_lim\",\n                \"fp16\": False,\n            },\n        )\n\n        batch_iterator = self.get_batch_iterator(task, \"ljspeech_test\", 65_536, 4_096)\n        progress = tqdm(batch_iterator, total=len(batch_iterator))\n        mcd, n_samples = 0.0, 0\n        for sample in progress:\n            sample = utils.move_to_cuda(sample) if self.use_cuda else sample\n            hypos = generator.generate(models[0], sample, has_targ=True)\n            rets = batch_mel_cepstral_distortion(\n                [hypo[\"targ_waveform\"] for hypo in hypos],\n                [hypo[\"waveform\"] for hypo in hypos],\n                sr=task.sr,\n            )\n            mcd += sum(d.item() for d, _ in rets)\n            n_samples += len(sample[\"id\"].tolist())\n\n        mcd = round(mcd / n_samples, 1)\n        reference_mcd = 3.2\n        print(f\"MCD: {mcd} (reference: {reference_mcd})\")\n        self.assertAlmostEqual(mcd, reference_mcd, delta=0.1)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/speech/test_s2s_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nfrom tests.speech import TestFairseqSpeech\nfrom fairseq import utils\n\nS3_BASE_URL = \"https://dl.fbaipublicfiles.com/fairseq/\"\n\n\nclass TestS2STransformer(TestFairseqSpeech):\n    def setUp(self):\n        self._set_up(\n            \"s2s\",\n            \"speech_tests/s2s\",\n            [\n                \"dev_shuf200.tsv\",\n                \"src_feat.zip\",\n                \"config_specaug_lb.yaml\",\n                \"vocoder\",\n                \"vocoder_config.json\",\n            ],\n        )\n\n    def test_s2s_transformer_checkpoint(self):\n        self.base_test(\n            ckpt_name=\"s2u_transformer_reduced_fisher.pt\",\n            reference_score=38.3,\n            dataset=\"dev_shuf200\",\n            arg_overrides={\n                \"config_yaml\": \"config_specaug_lb.yaml\",\n                \"multitask_config_yaml\": None,\n                \"target_is_code\": True,\n                \"target_code_size\": 100,\n                \"eval_inference\": False,\n            },\n            score_type=\"bleu\",\n            strict=False,\n        )\n\n    def postprocess_tokens(self, task, target, hypo_tokens):\n        tgt_tokens = utils.strip_pad(target, task.tgt_dict.pad()).int().cpu()\n        tgt_str = task.tgt_dict.string(tgt_tokens)\n        hypo_str = task.tgt_dict.string(hypo_tokens)\n        return tgt_str, hypo_str\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/speech/test_s2t_conformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nfrom tests.speech import TestFairseqSpeech\n\n\nclass TestS2TConformer(TestFairseqSpeech):\n    def setUp(self):\n        self.set_up_librispeech()\n\n    def test_librispeech_s2t_conformer_s_checkpoint(self):\n        self.base_test(\n            ckpt_name=\"librispeech_conformer_rel_pos_s.pt\",\n            reference_score=12,\n            arg_overrides={\"config_yaml\": \"cfg_librispeech.yaml\"},\n        )\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/speech/test_s2t_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nfrom tests.speech import TestFairseqSpeech\n\n\nclass TestS2TTransformer(TestFairseqSpeech):\n    def setUp(self):\n        self.set_up_librispeech()\n\n    def test_librispeech_s2t_transformer_s_checkpoint(self):\n        self.base_test(\n            ckpt_name=\"librispeech_transformer_s.pt\",\n            reference_score=9,\n            arg_overrides={\"config_yaml\": \"cfg_librispeech.yaml\"},\n        )\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/speech/test_tts_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nimport torch\nfrom tqdm import tqdm\n\nfrom fairseq import utils\nfrom fairseq.tasks.text_to_speech import batch_mel_cepstral_distortion\nfrom tests.speech import TestFairseqSpeech\n\n\n@unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\nclass TestTTSTransformer(TestFairseqSpeech):\n    def setUp(self):\n        self.set_up_ljspeech()\n\n    @torch.no_grad()\n    def test_ljspeech_tts_transformer_checkpoint(self):\n        models, cfg, task, generator = self.download_and_load_checkpoint(\n            \"ljspeech_transformer_g2p.pt\",\n            arg_overrides={\n                \"config_yaml\": \"cfg_ljspeech_g2p.yaml\",\n                \"vocoder\": \"griffin_lim\",\n                \"fp16\": False,\n            },\n        )\n\n        batch_iterator = self.get_batch_iterator(task, \"ljspeech_test\", 65_536, 1024)\n        progress = tqdm(batch_iterator, total=len(batch_iterator))\n        mcd, n_samples = 0.0, 0\n        for sample in progress:\n            sample = utils.move_to_cuda(sample) if self.use_cuda else sample\n            hypos = generator.generate(models[0], sample, has_targ=True)\n            rets = batch_mel_cepstral_distortion(\n                [hypo[\"targ_waveform\"] for hypo in hypos],\n                [hypo[\"waveform\"] for hypo in hypos],\n                sr=task.sr,\n            )\n            mcd += sum(d.item() for d, _ in rets)\n            n_samples += len(sample[\"id\"].tolist())\n\n        mcd = round(mcd / n_samples, 1)\n        reference_mcd = 3.3\n        print(f\"MCD: {mcd} (reference: {reference_mcd})\")\n        self.assertAlmostEqual(mcd, reference_mcd, delta=0.1)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/speech/test_wav2vec2.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nimport torch\nfrom tests.speech import TestFairseqSpeech\nfrom fairseq.data.data_utils import post_process\nfrom fairseq import utils\nfrom omegaconf import open_dict\n\nS3_BASE_URL = \"https://dl.fbaipublicfiles.com/fairseq\"\n\n\n@unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\nclass TestWav2Vec2(TestFairseqSpeech):\n    def setUp(self):\n        self._set_up(\n            \"librispeech_w2v2\",\n            \"conformer/wav2vec2/librispeech\",\n            [\n                \"test_librispeech-other.ltr\",\n                \"test_librispeech-other.tsv\",\n                \"test_librispeech-other_small.ltr_100\",\n                \"test_librispeech-other_small.tsv\",\n                \"test-other.zip\",\n                \"dict.ltr.txt\",\n                \"dict.ltr_100.txt\",\n            ],\n        )\n        self.unzip_files(\n            \"test-other.zip\",\n        )\n\n    def test_transformer_w2v2(self):\n        self.base_test(\n            ckpt_name=\"transformer_oss_small_100h.pt\",\n            reference_score=38,\n            score_delta=1,\n            dataset=\"test_librispeech-other\",\n            max_tokens=1000000,\n            max_positions=(700000, 1000),\n            arg_overrides={\n                \"task\": \"audio_finetuning\",\n                \"labels\": \"ltr\",\n                \"nbest\": 1,\n                \"tpu\": False,\n            },\n            strict=False,\n        )\n\n    def test_conformer_w2v2(self):\n        self.base_test(\n            ckpt_name=\"conformer_LS_PT_LS_FT_rope.pt\",\n            reference_score=4.5,\n            score_delta=1,\n            dataset=\"test_librispeech-other_small\",\n            max_tokens=1000000,\n            max_positions=(700000, 1000),\n            arg_overrides={\n                \"task\": \"audio_finetuning\",\n                \"labels\": \"ltr_100\",\n                \"nbest\": 1,\n                \"tpu\": False,\n            },\n            strict=True,\n        )\n\n    def build_generator(self, task, models, cfg):\n        try:\n            from examples.speech_recognition.w2l_decoder import W2lViterbiDecoder\n        except Exception:\n            raise Exception(\"Cannot run this test without flashlight dependency\")\n        with open_dict(cfg):\n            cfg.nbest = 1\n        return W2lViterbiDecoder(cfg, task.target_dictionary)\n\n    def postprocess_tokens(self, task, target, hypo_tokens):\n        tgt_tokens = utils.strip_pad(target, task.target_dictionary.pad()).int().cpu()\n        tgt_str = task.target_dictionary.string(tgt_tokens)\n        tgt_str = post_process(tgt_str, \"letter\")\n\n        hypo_pieces = task.target_dictionary.string(hypo_tokens)\n        hypo_str = post_process(hypo_pieces, \"letter\")\n        return tgt_str, hypo_str\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/speech/test_xm_transformer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nfrom tests.speech import TestFairseqSpeech\n\n\nclass TestXMTransformer(TestFairseqSpeech):\n    def setUp(self):\n        self.set_up_sotasty_es_en()\n\n    # TODO: investigate increases BLEU score (30.42 -> 31.74)\n    def test_sotasty_es_en_600m_checkpoint(self):\n        self.base_test(\n            ckpt_name=\"xm_transformer_600m_es_en_md.pt\",\n            reference_score=31.74,\n            score_delta=0.2,\n            max_tokens=3_000_000,\n            max_positions=(1_000_000, 1_024),\n            dataset=\"sotasty_es_en_test_ted\",\n            arg_overrides={\"config_yaml\": \"cfg_es_en.yaml\"},\n            score_type=\"bleu\",\n        )\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/speech_recognition/__init__.py",
    "content": ""
  },
  {
    "path": "tests/speech_recognition/asr_test_base.py",
    "content": "#!/usr/bin/env python3\n\nimport argparse\nimport os\nimport unittest\nfrom inspect import currentframe, getframeinfo\n\nimport numpy as np\nimport torch\nfrom examples.speech_recognition.data.data_utils import lengths_to_encoder_padding_mask\nfrom fairseq.data import data_utils as fairseq_data_utils\nfrom fairseq.data.dictionary import Dictionary\nfrom fairseq.models import (\n    BaseFairseqModel,\n    FairseqDecoder,\n    FairseqEncoder,\n    FairseqEncoderDecoderModel,\n    FairseqEncoderModel,\n    FairseqModel,\n)\nfrom fairseq.tasks.fairseq_task import LegacyFairseqTask\n\n\nDEFAULT_TEST_VOCAB_SIZE = 100\n\n\n# ///////////////////////////////////////////////////////////////////////////\n# utility function to setup dummy dict/task/input\n# ///////////////////////////////////////////////////////////////////////////\n\n\ndef get_dummy_dictionary(vocab_size=DEFAULT_TEST_VOCAB_SIZE):\n    dummy_dict = Dictionary()\n    # add dummy symbol to satisfy vocab size\n    for id, _ in enumerate(range(vocab_size)):\n        dummy_dict.add_symbol(\"{}\".format(id), 1000)\n    return dummy_dict\n\n\nclass DummyTask(LegacyFairseqTask):\n    def __init__(self, args):\n        super().__init__(args)\n        self.dictionary = get_dummy_dictionary()\n        if getattr(self.args, \"ctc\", False):\n            self.dictionary.add_symbol(\"<ctc_blank>\")\n        self.tgt_dict = self.dictionary\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n\n\ndef get_dummy_task_and_parser():\n    \"\"\"\n    to build a fariseq model, we need some dummy parse and task. This function\n    is used to create dummy task and parser to faciliate model/criterion test\n\n    Note: we use FbSpeechRecognitionTask as the dummy task. You may want\n    to use other task by providing another function\n    \"\"\"\n    parser = argparse.ArgumentParser(\n        description=\"test_dummy_s2s_task\", argument_default=argparse.SUPPRESS\n    )\n    DummyTask.add_args(parser)\n    args = parser.parse_args([])\n    task = DummyTask.setup_task(args)\n    return task, parser\n\n\ndef get_dummy_input(T=100, D=80, B=5, K=100):\n    forward_input = {}\n    # T max sequence length\n    # D feature vector dimension\n    # B batch size\n    # K target dimension size\n    feature = torch.randn(B, T, D)\n    # this (B, T, D) layout is just a convention, you can override it by\n    # write your own _prepare_forward_input function\n    src_lengths = torch.from_numpy(\n        np.random.randint(low=1, high=T, size=B, dtype=np.int64)\n    )\n    src_lengths[0] = T  # make sure the maximum length matches\n    prev_output_tokens = []\n    for b in range(B):\n        token_length = np.random.randint(low=1, high=src_lengths[b].item() + 1)\n        tokens = np.random.randint(low=0, high=K, size=token_length, dtype=np.int64)\n        prev_output_tokens.append(torch.from_numpy(tokens))\n\n    prev_output_tokens = fairseq_data_utils.collate_tokens(\n        prev_output_tokens,\n        pad_idx=1,\n        eos_idx=2,\n        left_pad=False,\n        move_eos_to_beginning=False,\n    )\n    src_lengths, sorted_order = src_lengths.sort(descending=True)\n    forward_input[\"src_tokens\"] = feature.index_select(0, sorted_order)\n    forward_input[\"src_lengths\"] = src_lengths\n    forward_input[\"prev_output_tokens\"] = prev_output_tokens\n\n    return forward_input\n\n\ndef get_dummy_encoder_output(encoder_out_shape=(100, 80, 5)):\n    \"\"\"\n    This only provides an example to generate dummy encoder output\n    \"\"\"\n    (T, B, D) = encoder_out_shape\n    encoder_out = {}\n\n    encoder_out[\"encoder_out\"] = torch.from_numpy(\n        np.random.randn(*encoder_out_shape).astype(np.float32)\n    )\n    seq_lengths = torch.from_numpy(np.random.randint(low=1, high=T, size=B))\n    # some dummy mask\n    encoder_out[\"encoder_padding_mask\"] = torch.arange(T).view(1, T).expand(\n        B, -1\n    ) >= seq_lengths.view(B, 1).expand(-1, T)\n    encoder_out[\"encoder_padding_mask\"].t_()\n\n    # encoer_padding_mask is (T, B) tensor, with (t, b)-th element indicate\n    # whether encoder_out[t, b] is valid (=0) or not (=1)\n    return encoder_out\n\n\ndef _current_postion_info():\n    cf = currentframe()\n    frameinfo = \" (at {}:{})\".format(\n        os.path.basename(getframeinfo(cf).filename), cf.f_back.f_lineno\n    )\n    return frameinfo\n\n\ndef check_encoder_output(encoder_output, batch_size=None):\n    \"\"\"we expect encoder_output to be a dict with the following\n    key/value pairs:\n    - encoder_out: a Torch.Tensor\n    - encoder_padding_mask: a binary Torch.Tensor\n    \"\"\"\n    if not isinstance(encoder_output, dict):\n        msg = (\n            \"FairseqEncoderModel.forward(...) must be a dict\" + _current_postion_info()\n        )\n        return False, msg\n\n    if \"encoder_out\" not in encoder_output:\n        msg = (\n            \"FairseqEncoderModel.forward(...) must contain encoder_out\"\n            + _current_postion_info()\n        )\n        return False, msg\n\n    if \"encoder_padding_mask\" not in encoder_output:\n        msg = (\n            \"FairseqEncoderModel.forward(...) must contain encoder_padding_mask\"\n            + _current_postion_info()\n        )\n        return False, msg\n\n    if not isinstance(encoder_output[\"encoder_out\"], torch.Tensor):\n        msg = \"encoder_out must be a torch.Tensor\" + _current_postion_info()\n        return False, msg\n\n    if encoder_output[\"encoder_out\"].dtype != torch.float32:\n        msg = \"encoder_out must have float32 dtype\" + _current_postion_info()\n        return False, msg\n\n    mask = encoder_output[\"encoder_padding_mask\"]\n    if mask is not None:\n        if not isinstance(mask, torch.Tensor):\n            msg = (\n                \"encoder_padding_mask must be a torch.Tensor\" + _current_postion_info()\n            )\n            return False, msg\n        if mask.dtype != torch.uint8 and (\n            not hasattr(torch, \"bool\") or mask.dtype != torch.bool\n        ):\n            msg = (\n                \"encoder_padding_mask must have dtype of uint8\"\n                + _current_postion_info()\n            )\n            return False, msg\n\n        if mask.dim() != 2:\n            msg = (\n                \"we expect encoder_padding_mask to be a 2-d tensor, in shape (T, B)\"\n                + _current_postion_info()\n            )\n            return False, msg\n\n        if batch_size is not None and mask.size(1) != batch_size:\n            msg = (\n                \"we expect encoder_padding_mask to be a 2-d tensor, with size(1)\"\n                + \" being the batch size\"\n                + _current_postion_info()\n            )\n            return False, msg\n    return True, None\n\n\ndef check_decoder_output(decoder_output):\n    \"\"\"we expect output from a decoder is a tuple with the following constraint:\n    - the first element is a torch.Tensor\n    - the second element can be anything (reserved for future use)\n    \"\"\"\n    if not isinstance(decoder_output, tuple):\n        msg = \"FariseqDecoder output must be a tuple\" + _current_postion_info()\n        return False, msg\n\n    if len(decoder_output) != 2:\n        msg = \"FairseqDecoder output must be 2-elem tuple\" + _current_postion_info()\n        return False, msg\n\n    if not isinstance(decoder_output[0], torch.Tensor):\n        msg = (\n            \"FariseqDecoder output[0] must be a torch.Tensor\" + _current_postion_info()\n        )\n        return False, msg\n\n    return True, None\n\n\n# ///////////////////////////////////////////////////////////////////////////\n# Base Test class\n# ///////////////////////////////////////////////////////////////////////////\n\n\nclass TestBaseFairseqModelBase(unittest.TestCase):\n    \"\"\"\n    This class is used to facilitate writing unittest for any class derived from\n    `BaseFairseqModel`.\n    \"\"\"\n\n    @classmethod\n    def setUpClass(cls):\n        if cls is TestBaseFairseqModelBase:\n            raise unittest.SkipTest(\"Skipping test case in base\")\n        super().setUpClass()\n\n    def setUpModel(self, model):\n        self.assertTrue(isinstance(model, BaseFairseqModel))\n        self.model = model\n\n    def setupInput(self):\n        pass\n\n    def setUp(self):\n        self.model = None\n        self.forward_input = None\n        pass\n\n\nclass TestFairseqEncoderDecoderModelBase(TestBaseFairseqModelBase):\n    \"\"\"\n    base code to test FairseqEncoderDecoderModel (formally known as\n    `FairseqModel`) must be derived from this base class\n    \"\"\"\n\n    @classmethod\n    def setUpClass(cls):\n        if cls is TestFairseqEncoderDecoderModelBase:\n            raise unittest.SkipTest(\"Skipping test case in base\")\n        super().setUpClass()\n\n    def setUpModel(self, model_cls, extra_args_setters=None):\n        self.assertTrue(\n            issubclass(model_cls, (FairseqEncoderDecoderModel, FairseqModel)),\n            msg=\"This class only tests for FairseqModel subclasses\",\n        )\n\n        task, parser = get_dummy_task_and_parser()\n        model_cls.add_args(parser)\n\n        args = parser.parse_args([])\n\n        if extra_args_setters is not None:\n            for args_setter in extra_args_setters:\n                args_setter(args)\n        model = model_cls.build_model(args, task)\n        self.model = model\n\n    def setUpInput(self, input=None):\n        self.forward_input = get_dummy_input() if input is None else input\n\n    def setUp(self):\n        super().setUp()\n\n    def test_forward(self):\n        if self.model and self.forward_input:\n            forward_output = self.model.forward(**self.forward_input)\n            # for FairseqEncoderDecoderModel, forward returns a tuple of two\n            # elements, the first one is a Torch.Tensor\n            succ, msg = check_decoder_output(forward_output)\n            if not succ:\n                self.assertTrue(succ, msg=msg)\n            self.forward_output = forward_output\n\n    def test_get_normalized_probs(self):\n        if self.model and self.forward_input:\n            forward_output = self.model.forward(**self.forward_input)\n            logprob = self.model.get_normalized_probs(forward_output, log_probs=True)\n            prob = self.model.get_normalized_probs(forward_output, log_probs=False)\n\n            # in order for different models/criterion to play with each other\n            # we need to know whether the logprob or prob output is batch_first\n            # or not. We assume an additional attribute will be attached to logprob\n            # or prob. If you find your code failed here, simply override\n            # FairseqModel.get_normalized_probs, see example at\n            # https://fburl.com/batch_first_example\n            self.assertTrue(hasattr(logprob, \"batch_first\"))\n            self.assertTrue(hasattr(prob, \"batch_first\"))\n\n            self.assertTrue(torch.is_tensor(logprob))\n            self.assertTrue(torch.is_tensor(prob))\n\n\nclass TestFairseqEncoderModelBase(TestBaseFairseqModelBase):\n    \"\"\"\n    base class to test FairseqEncoderModel\n    \"\"\"\n\n    @classmethod\n    def setUpClass(cls):\n        if cls is TestFairseqEncoderModelBase:\n            raise unittest.SkipTest(\"Skipping test case in base\")\n        super().setUpClass()\n\n    def setUpModel(self, model_cls, extra_args_setters=None):\n        self.assertTrue(\n            issubclass(model_cls, FairseqEncoderModel),\n            msg=\"This class is only used for testing FairseqEncoderModel\",\n        )\n        task, parser = get_dummy_task_and_parser()\n        model_cls.add_args(parser)\n        args = parser.parse_args([])\n        if extra_args_setters is not None:\n            for args_setter in extra_args_setters:\n                args_setter(args)\n\n        model = model_cls.build_model(args, task)\n        self.model = model\n\n    def setUpInput(self, input=None):\n        self.forward_input = get_dummy_input() if input is None else input\n        # get_dummy_input() is originally for s2s, here we delete extra dict\n        # items, so it can be used for EncoderModel / Encoder as well\n        self.forward_input.pop(\"prev_output_tokens\", None)\n\n    def setUp(self):\n        super().setUp()\n\n    def test_forward(self):\n        if self.forward_input and self.model:\n            bsz = self.forward_input[\"src_tokens\"].size(0)\n            forward_output = self.model.forward(**self.forward_input)\n\n            # we expect forward_output to be a dict with the following\n            # key/value pairs:\n            # - encoder_out: a Torch.Tensor\n            # - encoder_padding_mask: a binary Torch.Tensor\n            succ, msg = check_encoder_output(forward_output, batch_size=bsz)\n            if not succ:\n                self.assertTrue(succ, msg=msg)\n            self.forward_output = forward_output\n\n    def test_get_normalized_probs(self):\n        if self.model and self.forward_input:\n            forward_output = self.model.forward(**self.forward_input)\n            logprob = self.model.get_normalized_probs(forward_output, log_probs=True)\n            prob = self.model.get_normalized_probs(forward_output, log_probs=False)\n\n            # in order for different models/criterion to play with each other\n            # we need to know whether the logprob or prob output is batch_first\n            # or not. We assume an additional attribute will be attached to logprob\n            # or prob. If you find your code failed here, simply override\n            # FairseqModel.get_normalized_probs, see example at\n            # https://fburl.com/batch_first_example\n            self.assertTrue(hasattr(logprob, \"batch_first\"))\n            self.assertTrue(hasattr(prob, \"batch_first\"))\n\n            self.assertTrue(torch.is_tensor(logprob))\n            self.assertTrue(torch.is_tensor(prob))\n\n\nclass TestFairseqEncoderBase(unittest.TestCase):\n    \"\"\"\n    base class to test FairseqEncoder\n    \"\"\"\n\n    @classmethod\n    def setUpClass(cls):\n        if cls is TestFairseqEncoderBase:\n            raise unittest.SkipTest(\"Skipping test case in base\")\n        super().setUpClass()\n\n    def setUpEncoder(self, encoder):\n        self.assertTrue(\n            isinstance(encoder, FairseqEncoder),\n            msg=\"This class is only used for test FairseqEncoder\",\n        )\n        self.encoder = encoder\n\n    def setUpInput(self, input=None):\n        self.forward_input = get_dummy_input() if input is None else input\n        # get_dummy_input() is originally for s2s, here we delete extra dict\n        # items, so it can be used for EncoderModel / Encoder as well\n        self.forward_input.pop(\"prev_output_tokens\", None)\n\n    def setUp(self):\n        self.encoder = None\n        self.forward_input = None\n\n    def test_forward(self):\n        if self.encoder and self.forward_input:\n            bsz = self.forward_input[\"src_tokens\"].size(0)\n\n            forward_output = self.encoder.forward(**self.forward_input)\n            succ, msg = check_encoder_output(forward_output, batch_size=bsz)\n            if not succ:\n                self.assertTrue(succ, msg=msg)\n            self.forward_output = forward_output\n\n\nclass TestFairseqDecoderBase(unittest.TestCase):\n    \"\"\"\n    base class to test FairseqDecoder\n    \"\"\"\n\n    @classmethod\n    def setUpClass(cls):\n        if cls is TestFairseqDecoderBase:\n            raise unittest.SkipTest(\"Skipping test case in base\")\n        super().setUpClass()\n\n    def setUpDecoder(self, decoder):\n        self.assertTrue(\n            isinstance(decoder, FairseqDecoder),\n            msg=\"This class is only used for test FairseqDecoder\",\n        )\n        self.decoder = decoder\n\n    def setUpInput(self, input=None):\n        self.forward_input = get_dummy_encoder_output() if input is None else input\n\n    def setUpPrevOutputTokens(self, tokens=None):\n        if tokens is None:\n            self.encoder_input = get_dummy_input()\n            self.prev_output_tokens = self.encoder_input[\"prev_output_tokens\"]\n        else:\n            self.prev_output_tokens = tokens\n\n    def setUp(self):\n        self.decoder = None\n        self.forward_input = None\n        self.prev_output_tokens = None\n\n    def test_forward(self):\n        if (\n            self.decoder is not None\n            and self.forward_input is not None\n            and self.prev_output_tokens is not None\n        ):\n            forward_output = self.decoder.forward(\n                prev_output_tokens=self.prev_output_tokens,\n                encoder_out=self.forward_input,\n            )\n            succ, msg = check_decoder_output(forward_output)\n            if not succ:\n                self.assertTrue(succ, msg=msg)\n            self.forward_input = forward_output\n\n\nclass DummyEncoderModel(FairseqEncoderModel):\n    def __init__(self, encoder):\n        super().__init__(encoder)\n\n    @classmethod\n    def build_model(cls, args, task):\n        return cls(DummyEncoder())\n\n    def get_logits(self, net_output):\n        # Inverse of sigmoid to use with BinaryCrossEntropyWithLogitsCriterion as\n        # F.binary_cross_entropy_with_logits combines sigmoid and CE\n        return torch.log(\n            torch.div(net_output[\"encoder_out\"], 1 - net_output[\"encoder_out\"])\n        )\n\n    def get_normalized_probs(self, net_output, log_probs, sample=None):\n        lprobs = super().get_normalized_probs(net_output, log_probs, sample=sample)\n        lprobs.batch_first = True\n        return lprobs\n\n\nclass DummyEncoder(FairseqEncoder):\n    def __init__(self):\n        super().__init__(None)\n\n    def forward(self, src_tokens, src_lengths):\n        mask, max_len = lengths_to_encoder_padding_mask(src_lengths)\n        return {\"encoder_out\": src_tokens, \"encoder_padding_mask\": mask}\n\n\nclass CrossEntropyCriterionTestBase(unittest.TestCase):\n    @classmethod\n    def setUpClass(cls):\n        if cls is CrossEntropyCriterionTestBase:\n            raise unittest.SkipTest(\"Skipping base class test case\")\n        super().setUpClass()\n\n    def setUpArgs(self):\n        args = argparse.Namespace()\n        args.sentence_avg = False\n        args.threshold = 0.1  # to use with BinaryCrossEntropyWithLogitsCriterion\n        return args\n\n    def setUp(self):\n        args = self.setUpArgs()\n        self.model = DummyEncoderModel(encoder=DummyEncoder())\n        self.criterion = self.criterion_cls.build_criterion(args, task=DummyTask(args))\n\n    def get_src_tokens(self, correct_prediction, aggregate):\n        \"\"\"\n        correct_prediction: True if the net_output (src_tokens) should\n        predict the correct target\n        aggregate: True if the criterion expects net_output (src_tokens)\n        aggregated across time axis\n        \"\"\"\n        predicted_idx = 0 if correct_prediction else 1\n        if aggregate:\n            src_tokens = torch.zeros((2, 2), dtype=torch.float)\n            for b in range(2):\n                src_tokens[b][predicted_idx] = 1.0\n        else:\n            src_tokens = torch.zeros((2, 10, 2), dtype=torch.float)\n            for b in range(2):\n                for t in range(10):\n                    src_tokens[b][t][predicted_idx] = 1.0\n        return src_tokens\n\n    def get_target(self, soft_target):\n        if soft_target:\n            target = torch.zeros((2, 2), dtype=torch.float)\n            for b in range(2):\n                target[b][0] = 1.0\n        else:\n            target = torch.zeros((2, 10), dtype=torch.long)\n        return target\n\n    def get_test_sample(self, correct, soft_target, aggregate):\n        src_tokens = self.get_src_tokens(correct, aggregate)\n        target = self.get_target(soft_target)\n        L = src_tokens.size(1)\n        return {\n            \"net_input\": {\"src_tokens\": src_tokens, \"src_lengths\": torch.tensor([L])},\n            \"target\": target,\n            \"ntokens\": src_tokens.size(0) * src_tokens.size(1),\n        }\n"
  },
  {
    "path": "tests/speech_recognition/test_collaters.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nimport numpy as np\nimport torch\nfrom examples.speech_recognition.data.collaters import Seq2SeqCollater\n\n\nclass TestSeq2SeqCollator(unittest.TestCase):\n    def test_collate(self):\n\n        eos_idx = 1\n        pad_idx = 0\n        collater = Seq2SeqCollater(\n            feature_index=0, label_index=1, pad_index=pad_idx, eos_index=eos_idx\n        )\n\n        # 2 frames in the first sample and 3 frames in the second one\n        frames1 = np.array([[7, 8], [9, 10]])\n        frames2 = np.array([[1, 2], [3, 4], [5, 6]])\n        target1 = np.array([4, 2, 3, eos_idx])\n        target2 = np.array([3, 2, eos_idx])\n        sample1 = {\"id\": 0, \"data\": [frames1, target1]}\n        sample2 = {\"id\": 1, \"data\": [frames2, target2]}\n        batch = collater.collate([sample1, sample2])\n\n        # collate sort inputs by frame's length before creating the batch\n        self.assertTensorEqual(batch[\"id\"], torch.tensor([1, 0]))\n        self.assertEqual(batch[\"ntokens\"], 7)\n        self.assertTensorEqual(\n            batch[\"net_input\"][\"src_tokens\"],\n            torch.tensor(\n                [[[1, 2], [3, 4], [5, 6]], [[7, 8], [9, 10], [pad_idx, pad_idx]]]\n            ),\n        )\n        self.assertTensorEqual(\n            batch[\"net_input\"][\"prev_output_tokens\"],\n            torch.tensor([[eos_idx, 3, 2, pad_idx], [eos_idx, 4, 2, 3]]),\n        )\n        self.assertTensorEqual(batch[\"net_input\"][\"src_lengths\"], torch.tensor([3, 2]))\n        self.assertTensorEqual(\n            batch[\"target\"],\n            torch.tensor([[3, 2, eos_idx, pad_idx], [4, 2, 3, eos_idx]]),\n        )\n        self.assertEqual(batch[\"nsentences\"], 2)\n\n    def assertTensorEqual(self, t1, t2):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        self.assertEqual(t1.ne(t2).long().sum(), 0)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/speech_recognition/test_cross_entropy.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nfrom examples.speech_recognition.criterions.cross_entropy_acc import (\n    CrossEntropyWithAccCriterion,\n)\n\nfrom .asr_test_base import CrossEntropyCriterionTestBase\n\n\nclass CrossEntropyWithAccCriterionTest(CrossEntropyCriterionTestBase):\n    def setUp(self):\n        self.criterion_cls = CrossEntropyWithAccCriterion\n        super().setUp()\n\n    def test_cross_entropy_all_correct(self):\n        sample = self.get_test_sample(correct=True, soft_target=False, aggregate=False)\n        loss, sample_size, logging_output = self.criterion(\n            self.model, sample, \"sum\", log_probs=True\n        )\n        assert logging_output[\"correct\"] == 20\n        assert logging_output[\"total\"] == 20\n        assert logging_output[\"sample_size\"] == 20\n        assert logging_output[\"ntokens\"] == 20\n\n    def test_cross_entropy_all_wrong(self):\n        sample = self.get_test_sample(correct=False, soft_target=False, aggregate=False)\n        loss, sample_size, logging_output = self.criterion(\n            self.model, sample, \"sum\", log_probs=True\n        )\n        assert logging_output[\"correct\"] == 0\n        assert logging_output[\"total\"] == 20\n        assert logging_output[\"sample_size\"] == 20\n        assert logging_output[\"ntokens\"] == 20\n"
  },
  {
    "path": "tests/speech_recognition/test_data_utils.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\nimport unittest\n\nimport torch\nfrom examples.speech_recognition.data import data_utils\n\n\nclass DataUtilsTest(unittest.TestCase):\n    def test_normalization(self):\n        sample_len1 = torch.tensor(\n            [\n                [\n                    -0.7661,\n                    -1.3889,\n                    -2.0972,\n                    -0.9134,\n                    -0.7071,\n                    -0.9765,\n                    -0.8700,\n                    -0.8283,\n                    0.7512,\n                    1.3211,\n                    2.1532,\n                    2.1174,\n                    1.2800,\n                    1.2633,\n                    1.6147,\n                    1.6322,\n                    2.0723,\n                    3.1522,\n                    3.2852,\n                    2.2309,\n                    2.5569,\n                    2.2183,\n                    2.2862,\n                    1.5886,\n                    0.8773,\n                    0.8725,\n                    1.2662,\n                    0.9899,\n                    1.1069,\n                    1.3926,\n                    1.2795,\n                    1.1199,\n                    1.1477,\n                    1.2687,\n                    1.3843,\n                    1.1903,\n                    0.8355,\n                    1.1367,\n                    1.2639,\n                    1.4707,\n                ]\n            ]\n        )\n        out = data_utils.apply_mv_norm(sample_len1)\n        assert not torch.isnan(out).any()\n        assert (out == sample_len1).all()\n"
  },
  {
    "path": "tests/speech_recognition/test_vggtransformer.py",
    "content": "#!/usr/bin/env python3\n\n# import models/encoder/decoder to be tested\nfrom examples.speech_recognition.models.vggtransformer import (\n    TransformerDecoder,\n    VGGTransformerEncoder,\n    VGGTransformerModel,\n    vggtransformer_1,\n    vggtransformer_2,\n    vggtransformer_base,\n)\n\n# import base test class\nfrom .asr_test_base import (\n    DEFAULT_TEST_VOCAB_SIZE,\n    TestFairseqDecoderBase,\n    TestFairseqEncoderBase,\n    TestFairseqEncoderDecoderModelBase,\n    get_dummy_dictionary,\n    get_dummy_encoder_output,\n    get_dummy_input,\n)\n\n\nclass VGGTransformerModelTest_mid(TestFairseqEncoderDecoderModelBase):\n    def setUp(self):\n        def override_config(args):\n            \"\"\"\n            vggtrasformer_1 use 14 layers of transformer,\n            for testing purpose, it is too expensive. For fast turn-around\n            test, reduce the number of layers to 3.\n            \"\"\"\n            args.transformer_enc_config = (\n                \"((1024, 16, 4096, True, 0.15, 0.15, 0.15),) * 3\"\n            )\n\n        super().setUp()\n        extra_args_setter = [vggtransformer_1, override_config]\n\n        self.setUpModel(VGGTransformerModel, extra_args_setter)\n        self.setUpInput(get_dummy_input(T=50, D=80, B=5, K=DEFAULT_TEST_VOCAB_SIZE))\n\n\nclass VGGTransformerModelTest_big(TestFairseqEncoderDecoderModelBase):\n    def setUp(self):\n        def override_config(args):\n            \"\"\"\n            vggtrasformer_2 use 16 layers of transformer,\n            for testing purpose, it is too expensive. For fast turn-around\n            test, reduce the number of layers to 3.\n            \"\"\"\n            args.transformer_enc_config = (\n                \"((1024, 16, 4096, True, 0.15, 0.15, 0.15),) * 3\"\n            )\n\n        super().setUp()\n        extra_args_setter = [vggtransformer_2, override_config]\n\n        self.setUpModel(VGGTransformerModel, extra_args_setter)\n        self.setUpInput(get_dummy_input(T=50, D=80, B=5, K=DEFAULT_TEST_VOCAB_SIZE))\n\n\nclass VGGTransformerModelTest_base(TestFairseqEncoderDecoderModelBase):\n    def setUp(self):\n        def override_config(args):\n            \"\"\"\n            vggtrasformer_base use 12 layers of transformer,\n            for testing purpose, it is too expensive. For fast turn-around\n            test, reduce the number of layers to 3.\n            \"\"\"\n            args.transformer_enc_config = (\n                \"((512, 8, 2048, True, 0.15, 0.15, 0.15),) * 3\"\n            )\n\n        super().setUp()\n        extra_args_setter = [vggtransformer_base, override_config]\n\n        self.setUpModel(VGGTransformerModel, extra_args_setter)\n        self.setUpInput(get_dummy_input(T=50, D=80, B=5, K=DEFAULT_TEST_VOCAB_SIZE))\n\n\nclass VGGTransformerEncoderTest(TestFairseqEncoderBase):\n    def setUp(self):\n        super().setUp()\n\n        self.setUpInput(get_dummy_input(T=50, D=80, B=5))\n\n    def test_forward(self):\n        print(\"1. test standard vggtransformer\")\n        self.setUpEncoder(VGGTransformerEncoder(input_feat_per_channel=80))\n        super().test_forward()\n        print(\"2. test vggtransformer with limited right context\")\n        self.setUpEncoder(\n            VGGTransformerEncoder(\n                input_feat_per_channel=80, transformer_context=(-1, 5)\n            )\n        )\n        super().test_forward()\n        print(\"3. test vggtransformer with limited left context\")\n        self.setUpEncoder(\n            VGGTransformerEncoder(\n                input_feat_per_channel=80, transformer_context=(5, -1)\n            )\n        )\n        super().test_forward()\n        print(\"4. test vggtransformer with limited right context and sampling\")\n        self.setUpEncoder(\n            VGGTransformerEncoder(\n                input_feat_per_channel=80,\n                transformer_context=(-1, 12),\n                transformer_sampling=(2, 2),\n            )\n        )\n        super().test_forward()\n        print(\"5. test vggtransformer with windowed context and sampling\")\n        self.setUpEncoder(\n            VGGTransformerEncoder(\n                input_feat_per_channel=80,\n                transformer_context=(12, 12),\n                transformer_sampling=(2, 2),\n            )\n        )\n\n\nclass TransformerDecoderTest(TestFairseqDecoderBase):\n    def setUp(self):\n        super().setUp()\n\n        dict = get_dummy_dictionary(vocab_size=DEFAULT_TEST_VOCAB_SIZE)\n        decoder = TransformerDecoder(dict)\n        dummy_encoder_output = get_dummy_encoder_output(encoder_out_shape=(50, 5, 256))\n\n        self.setUpDecoder(decoder)\n        self.setUpInput(dummy_encoder_output)\n        self.setUpPrevOutputTokens()\n"
  },
  {
    "path": "tests/tasks/test_denoising.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport unittest\nfrom tempfile import TemporaryDirectory\n\nfrom fairseq import options\nfrom fairseq.binarizer import FileBinarizer, VocabularyDatasetBinarizer\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.tasks.denoising import DenoisingTask\nfrom tests.utils import build_vocab, make_data\n\n\nclass TestDenoising(unittest.TestCase):\n    def test_denoising(self):\n        with TemporaryDirectory() as dirname:\n\n            # prep input file\n            raw_file = os.path.join(dirname, \"raw\")\n            data = make_data(out_file=raw_file)\n            vocab = build_vocab(data)\n\n            # binarize\n            binarizer = VocabularyDatasetBinarizer(vocab, append_eos=False)\n            split = \"train\"\n            bin_file = os.path.join(dirname, split)\n            dataset_impl = \"mmap\"\n            FileBinarizer.multiprocess_dataset(\n                input_file=raw_file,\n                binarizer=binarizer,\n                dataset_impl=dataset_impl,\n                vocab_size=len(vocab),\n                output_prefix=bin_file,\n            )\n\n            # setup task\n            train_args = options.parse_args_and_arch(\n                options.get_training_parser(),\n                [\n                    \"--task\",\n                    \"denoising\",\n                    \"--arch\",\n                    \"bart_base\",\n                    \"--seed\",\n                    \"42\",\n                    \"--mask-length\",\n                    \"word\",\n                    \"--permute-sentences\",\n                    \"1\",\n                    \"--rotate\",\n                    \"0\",\n                    \"--replace-length\",\n                    \"-1\",\n                    \"--mask\",\n                    \"0.2\",\n                    dirname,\n                ],\n            )\n            cfg = convert_namespace_to_omegaconf(train_args)\n            task = DenoisingTask(cfg.task, binarizer.dict)\n\n            # load datasets\n            original_dataset = task._load_dataset_split(bin_file, 1, False)\n            task.load_dataset(split)\n            masked_dataset = task.dataset(split)\n\n            iterator = task.get_batch_iterator(\n                dataset=masked_dataset,\n                max_tokens=65_536,\n                max_positions=4_096,\n            ).next_epoch_itr(shuffle=False)\n            mask_index = task.source_dictionary.index(\"<mask>\")\n            for batch in iterator:\n                for sample in range(len(batch)):\n                    net_input = batch[\"net_input\"]\n                    masked_src_tokens = net_input[\"src_tokens\"][sample]\n                    masked_src_length = net_input[\"src_lengths\"][sample]\n                    masked_tgt_tokens = batch[\"target\"][sample]\n\n                    sample_id = batch[\"id\"][sample]\n                    original_tokens = original_dataset[sample_id]\n                    original_tokens = original_tokens.masked_select(\n                        masked_src_tokens[:masked_src_length] == mask_index\n                    )\n                    masked_tokens = masked_tgt_tokens.masked_select(\n                        masked_src_tokens == mask_index\n                    )\n\n                    assert masked_tokens.equal(original_tokens)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/tasks/test_masked_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport unittest\nfrom tempfile import TemporaryDirectory\n\nfrom fairseq.binarizer import FileBinarizer, VocabularyDatasetBinarizer\nfrom fairseq.tasks.masked_lm import MaskedLMConfig, MaskedLMTask\nfrom tests.utils import build_vocab, make_data\n\n\nclass TestMaskedLM(unittest.TestCase):\n    def test_masks_tokens(self):\n        with TemporaryDirectory() as dirname:\n\n            # prep input file\n            raw_file = os.path.join(dirname, \"raw\")\n            data = make_data(out_file=raw_file)\n            vocab = build_vocab(data)\n\n            # binarize\n            binarizer = VocabularyDatasetBinarizer(vocab, append_eos=False)\n            split = \"train\"\n            bin_file = os.path.join(dirname, split)\n            FileBinarizer.multiprocess_dataset(\n                input_file=raw_file,\n                binarizer=binarizer,\n                dataset_impl=\"mmap\",\n                vocab_size=len(vocab),\n                output_prefix=bin_file,\n            )\n\n            # setup task\n            cfg = MaskedLMConfig(\n                data=dirname,\n                seed=42,\n                mask_prob=0.5,  # increasing the odds of masking\n                random_token_prob=0,  # avoiding random tokens for exact match\n                leave_unmasked_prob=0,  # always masking for exact match\n            )\n            task = MaskedLMTask(cfg, binarizer.dict)\n\n            original_dataset = task._load_dataset_split(bin_file, 1, False)\n\n            # load datasets\n            task.load_dataset(split)\n            masked_dataset = task.dataset(split)\n\n            mask_index = task.source_dictionary.index(\"<mask>\")\n            iterator = task.get_batch_iterator(\n                dataset=masked_dataset,\n                max_tokens=65_536,\n                max_positions=4_096,\n            ).next_epoch_itr(shuffle=False)\n            for batch in iterator:\n                for sample in range(len(batch)):\n                    net_input = batch[\"net_input\"]\n                    masked_src_tokens = net_input[\"src_tokens\"][sample]\n                    masked_src_length = net_input[\"src_lengths\"][sample]\n                    masked_tgt_tokens = batch[\"target\"][sample]\n\n                    sample_id = batch[\"id\"][sample]\n                    original_tokens = original_dataset[sample_id]\n                    original_tokens = original_tokens.masked_select(\n                        masked_src_tokens[:masked_src_length] == mask_index\n                    )\n                    masked_tokens = masked_tgt_tokens.masked_select(\n                        masked_tgt_tokens != task.source_dictionary.pad()\n                    )\n\n                    assert masked_tokens.equal(original_tokens)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/tasks/test_multilingual_denoising.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport unittest\nfrom tempfile import TemporaryDirectory\n\nfrom fairseq import options\nfrom fairseq.binarizer import FileBinarizer, VocabularyDatasetBinarizer\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.tasks.multilingual_denoising import MultilingualDenoisingTask\nfrom tests.utils import build_vocab, make_data\n\n\nclass TestMultilingualDenoising(unittest.TestCase):\n    def test_multilingual_denoising(self):\n        with TemporaryDirectory() as dirname:\n\n            # prep input file\n            lang_dir = os.path.join(dirname, \"en\")\n            os.mkdir(lang_dir)\n            raw_file = os.path.join(lang_dir, \"raw\")\n            data = make_data(out_file=raw_file)\n            vocab = build_vocab(data)\n\n            # binarize\n            binarizer = VocabularyDatasetBinarizer(vocab, append_eos=False)\n            split = \"train\"\n            bin_file = os.path.join(lang_dir, split)\n            dataset_impl = \"mmap\"\n            FileBinarizer.multiprocess_dataset(\n                input_file=raw_file,\n                binarizer=binarizer,\n                dataset_impl=dataset_impl,\n                vocab_size=len(vocab),\n                output_prefix=bin_file,\n            )\n\n            # setup task\n            train_args = options.parse_args_and_arch(\n                options.get_training_parser(),\n                [\n                    \"--task\",\n                    \"multilingual_denoising\",\n                    \"--arch\",\n                    \"bart_base\",\n                    \"--seed\",\n                    \"42\",\n                    \"--mask-length\",\n                    \"word\",\n                    \"--permute-sentences\",\n                    \"1\",\n                    \"--rotate\",\n                    \"0\",\n                    \"--replace-length\",\n                    \"-1\",\n                    \"--mask\",\n                    \"0.2\",\n                    dirname,\n                ],\n            )\n            cfg = convert_namespace_to_omegaconf(train_args)\n            task = MultilingualDenoisingTask(cfg.task, binarizer.dict)\n\n            # load datasets\n            original_dataset = task._load_dataset_split(bin_file, 1, False)\n            task.load_dataset(split)\n            masked_dataset = task.dataset(split)\n\n            iterator = task.get_batch_iterator(\n                dataset=masked_dataset,\n                max_tokens=65_536,\n                max_positions=4_096,\n            ).next_epoch_itr(shuffle=False)\n            mask_index = task.source_dictionary.index(\"<mask>\")\n            for batch in iterator:\n                for sample in range(len(batch)):\n                    net_input = batch[\"net_input\"]\n                    masked_src_tokens = net_input[\"src_tokens\"][sample]\n                    masked_src_length = net_input[\"src_lengths\"][sample]\n                    masked_tgt_tokens = batch[\"target\"][sample]\n\n                    sample_id = batch[\"id\"][sample]\n                    original_tokens = original_dataset[sample_id]\n                    original_tokens = original_tokens.masked_select(\n                        masked_src_tokens[:masked_src_length] == mask_index\n                    )\n                    masked_tokens = masked_tgt_tokens.masked_select(\n                        masked_src_tokens == mask_index\n                    )\n\n                    assert masked_tokens.equal(original_tokens)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/tasks/test_span_masked_lm.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport unittest\nfrom tempfile import TemporaryDirectory\n\nfrom fairseq import options\nfrom fairseq.binarizer import FileBinarizer, VocabularyDatasetBinarizer\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.tasks.span_masked_lm import SpanMaskedLMTask\nfrom tests.utils import build_vocab, make_data\n\n\nclass TestSpanMaskedLM(unittest.TestCase):\n    def test_masks_token_spans(self):\n        with TemporaryDirectory() as dirname:\n\n            # prep input file\n            raw_file = os.path.join(dirname, \"raw\")\n            data = make_data(out_file=raw_file)\n            vocab = build_vocab(data)\n\n            # binarize\n            binarizer = VocabularyDatasetBinarizer(vocab, append_eos=False)\n            split = \"train\"\n            bin_file = os.path.join(dirname, split)\n            dataset_impl = \"mmap\"\n\n            FileBinarizer.multiprocess_dataset(\n                input_file=raw_file,\n                binarizer=binarizer,\n                dataset_impl=dataset_impl,\n                vocab_size=len(vocab),\n                output_prefix=bin_file,\n            )\n\n            # adding sentinel tokens\n            for i in range(100):\n                vocab.add_symbol(f\"<extra_id_{i}>\")\n\n            # setup task\n            train_args = options.parse_args_and_arch(\n                options.get_training_parser(),\n                [\n                    \"--task\",\n                    \"span_masked_lm\",\n                    \"--arch\",\n                    \"bart_base\",\n                    \"--seed\",\n                    \"42\",\n                    dirname,\n                ],\n            )\n            cfg = convert_namespace_to_omegaconf(train_args)\n            task = SpanMaskedLMTask(cfg.task, binarizer.dict)\n\n            # load datasets\n            original_dataset = task._load_dataset_split(bin_file, 1, False)\n            task.load_dataset(split)\n            masked_dataset = task.dataset(split)\n\n            iterator = task.get_batch_iterator(\n                dataset=masked_dataset,\n                max_tokens=65_536,\n                max_positions=4_096,\n            ).next_epoch_itr(shuffle=False)\n            num_tokens = len(vocab)\n            for batch in iterator:\n                for sample in range(len(batch)):\n                    sample_id = batch[\"id\"][sample]\n                    original_tokens = original_dataset[sample_id]\n                    masked_src_tokens = batch[\"net_input\"][\"src_tokens\"][sample]\n                    masked_src_length = batch[\"net_input\"][\"src_lengths\"][sample]\n                    masked_tgt_tokens = batch[\"target\"][sample]\n\n                    original_offset = 0\n                    masked_tgt_offset = 0\n                    extra_id_token = len(vocab) - 1\n                    for masked_src_token in masked_src_tokens[:masked_src_length]:\n                        if masked_src_token == extra_id_token:\n                            assert (\n                                masked_src_token == masked_tgt_tokens[masked_tgt_offset]\n                            )\n                            extra_id_token -= 1\n                            masked_tgt_offset += 1\n                            while (\n                                original_offset < len(original_tokens)\n                                and masked_tgt_tokens[masked_tgt_offset]\n                                != extra_id_token\n                            ):\n                                assert (\n                                    original_tokens[original_offset]\n                                    == masked_tgt_tokens[masked_tgt_offset]\n                                )\n                                original_offset += 1\n                                masked_tgt_offset += 1\n                        else:\n                            assert original_tokens[original_offset] == masked_src_token\n                            original_offset += 1\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_activation_checkpointing.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nimport torch\nimport torch.nn as nn\nfrom fairseq.modules.checkpoint_activations import checkpoint_wrapper\nfrom torch.utils.checkpoint import checkpoint\n\n\nclass Model(nn.Module):\n    def __init__(\n        self, use_pytorch_checkpoint=False, use_fairseq_checkpoint=False, **kwargs\n    ):\n        super().__init__()\n        torch.manual_seed(0)\n        self.use_pytorch_checkpoint = use_pytorch_checkpoint\n        self.ffn = nn.Sequential(\n            nn.Linear(32, 128),\n            # add a Dropout layer to test RNG save/restore\n            nn.Dropout(p=0.5),\n            nn.Linear(128, 32),\n        )\n        if use_fairseq_checkpoint:\n            self.ffn = checkpoint_wrapper(self.ffn, **kwargs)\n        self.out = nn.Linear(32, 1)\n\n    def forward(self, x):\n        if self.use_pytorch_checkpoint:\n            x = checkpoint(self.ffn, x)\n        else:\n            x = self.ffn(x)\n        return self.out(x)\n\n\nclass TestActivationCheckpointing(unittest.TestCase):\n    def _test_checkpoint_wrapper(self, device, log_memory_usage=False):\n        def get_loss_and_gnorm(model):\n            torch.manual_seed(1)\n            input = torch.rand(2, 16, 32).requires_grad_(True).to(device)\n            model.zero_grad()\n            loss = model(input).sum()\n            loss.backward()\n            gnorm = torch.norm(\n                torch.stack([torch.norm(p.grad.detach()) for p in model.parameters()])\n            )\n            return {\"loss\": loss, \"gnorm\": gnorm}\n\n        model = Model().to(device)\n        no_cpt = get_loss_and_gnorm(model)\n\n        model = Model(use_pytorch_checkpoint=True).to(device)\n        pyt_cpt = get_loss_and_gnorm(model)\n        torch.testing.assert_allclose(no_cpt[\"loss\"], pyt_cpt[\"loss\"])\n        torch.testing.assert_allclose(no_cpt[\"gnorm\"], pyt_cpt[\"gnorm\"])\n\n        model = Model(use_fairseq_checkpoint=True).to(device)\n        fairseq_cpt = get_loss_and_gnorm(model)\n        torch.testing.assert_allclose(no_cpt[\"loss\"], fairseq_cpt[\"loss\"])\n        torch.testing.assert_allclose(no_cpt[\"gnorm\"], fairseq_cpt[\"gnorm\"])\n\n        model = Model(use_fairseq_checkpoint=True, offload_to_cpu=True).to(device)\n        fairseq_cpt_offload = get_loss_and_gnorm(model)\n        torch.testing.assert_allclose(no_cpt[\"loss\"], fairseq_cpt_offload[\"loss\"])\n        torch.testing.assert_allclose(no_cpt[\"gnorm\"], fairseq_cpt_offload[\"gnorm\"])\n\n    def test_checkpoint_wrapper_cpu(self):\n        self._test_checkpoint_wrapper(device=torch.device(\"cpu\"))\n\n    @unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\n    def test_checkpoint_wrapper_cuda(self):\n        self._test_checkpoint_wrapper(device=torch.device(\"cuda\"))\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_amp_optimizer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport copy\nimport unittest\n\nimport torch\nfrom torch.cuda.amp import GradScaler, autocast\n\nfrom fairseq.optim import build_optimizer\n\n\n@unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\nclass TestGradientScalingAMP(unittest.TestCase):\n    def setUp(self):\n        self.x = torch.tensor([2.0]).cuda().half()\n        weight = 3.0\n        bias = 5.0\n        self.error = 1.0\n        self.target = torch.tensor([self.x * weight + bias + self.error]).cuda()\n        self.loss_fn = torch.nn.L1Loss()\n\n        self.model = torch.nn.Linear(1, 1)\n        self.model.weight.data = torch.tensor([[weight]])\n        self.model.bias.data = torch.tensor([bias])\n        self.model.cuda()\n        self.params = list(self.model.parameters())\n\n        self.namespace_dls = argparse.Namespace(\n            optimizer=\"adam\",\n            lr=[0.1],\n            adam_betas=\"(0.9, 0.999)\",\n            adam_eps=1e-8,\n            weight_decay=0.0,\n            threshold_loss_scale=1,\n            min_loss_scale=1e-4,\n        )\n        self.scaler = GradScaler(\n            init_scale=1,\n            growth_interval=1,\n        )\n\n    def run_iter(self, model, params, optimizer):\n        optimizer.zero_grad()\n        with autocast():\n            y = model(self.x)\n            loss = self.loss_fn(y, self.target)\n        self.scaler.scale(loss).backward()\n        self.assertEqual(loss, torch.tensor(1.0, device=\"cuda:0\", dtype=torch.float16))\n\n        self.scaler.unscale_(optimizer)\n        grad_norm = optimizer.clip_grad_norm(0)\n        self.assertAlmostEqual(grad_norm.item(), 2.2361, 4)\n\n        self.scaler.step(optimizer)\n        self.scaler.update()\n        self.assertEqual(\n            model.weight,\n            torch.tensor([[3.1]], device=\"cuda:0\", requires_grad=True),\n        )\n        self.assertEqual(\n            model.bias,\n            torch.tensor([5.1], device=\"cuda:0\", requires_grad=True),\n        )\n        self.assertEqual(self.scaler.get_scale(), 2.0)\n\n    def test_automatic_mixed_precision(self):\n        model = copy.deepcopy(self.model)\n        params = list(model.parameters())\n        optimizer = build_optimizer(self.namespace_dls, params)\n\n        self.run_iter(model, params, optimizer)\n"
  },
  {
    "path": "tests/test_average_checkpoints.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport collections\nimport os\nimport shutil\nimport tempfile\nimport unittest\n\nimport numpy as np\nimport torch\nfrom scripts.average_checkpoints import average_checkpoints\nfrom torch import nn\n\n\nclass ModelWithSharedParameter(nn.Module):\n    def __init__(self):\n        super(ModelWithSharedParameter, self).__init__()\n        self.embedding = nn.Embedding(1000, 200)\n        self.FC1 = nn.Linear(200, 200)\n        self.FC2 = nn.Linear(200, 200)\n        # tie weight in FC2 to FC1\n        self.FC2.weight = nn.Parameter(self.FC1.weight)\n        self.FC2.bias = nn.Parameter(self.FC1.bias)\n\n        self.relu = nn.ReLU()\n\n    def forward(self, input):\n        return self.FC2(self.ReLU(self.FC1(input))) + self.FC1(input)\n\n\nclass TestAverageCheckpoints(unittest.TestCase):\n    def test_average_checkpoints(self):\n        params_0 = collections.OrderedDict(\n            [\n                (\"a\", torch.DoubleTensor([100.0])),\n                (\"b\", torch.FloatTensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]])),\n                (\"c\", torch.IntTensor([7, 8, 9])),\n            ]\n        )\n        params_1 = collections.OrderedDict(\n            [\n                (\"a\", torch.DoubleTensor([1.0])),\n                (\"b\", torch.FloatTensor([[1.0, 1.0, 1.0], [1.0, 1.0, 1.0]])),\n                (\"c\", torch.IntTensor([2, 2, 2])),\n            ]\n        )\n        params_avg = collections.OrderedDict(\n            [\n                (\"a\", torch.DoubleTensor([50.5])),\n                (\"b\", torch.FloatTensor([[1.0, 1.5, 2.0], [2.5, 3.0, 3.5]])),\n                # We expect truncation for integer division\n                (\"c\", torch.IntTensor([4, 5, 5])),\n            ]\n        )\n\n        fd_0, path_0 = tempfile.mkstemp()\n        fd_1, path_1 = tempfile.mkstemp()\n        torch.save(collections.OrderedDict([(\"model\", params_0)]), path_0)\n        torch.save(collections.OrderedDict([(\"model\", params_1)]), path_1)\n\n        output = average_checkpoints([path_0, path_1])[\"model\"]\n\n        os.close(fd_0)\n        os.remove(path_0)\n        os.close(fd_1)\n        os.remove(path_1)\n\n        for (k_expected, v_expected), (k_out, v_out) in zip(\n            params_avg.items(), output.items()\n        ):\n            self.assertEqual(\n                k_expected,\n                k_out,\n                \"Key mismatch - expected {} but found {}. \"\n                \"(Expected list of keys: {} vs actual list of keys: {})\".format(\n                    k_expected, k_out, params_avg.keys(), output.keys()\n                ),\n            )\n            np.testing.assert_allclose(\n                v_expected.numpy(),\n                v_out.numpy(),\n                err_msg=\"Tensor value mismatch for key {}\".format(k_expected),\n            )\n\n    def test_average_checkpoints_with_shared_parameters(self):\n        def _construct_model_with_shared_parameters(path, value):\n            m = ModelWithSharedParameter()\n            nn.init.constant_(m.FC1.weight, value)\n            torch.save({\"model\": m.state_dict()}, path)\n            return m\n\n        tmpdir = tempfile.mkdtemp()\n        paths = []\n        path = os.path.join(tmpdir, \"m1.pt\")\n        m1 = _construct_model_with_shared_parameters(path, 1.0)\n        paths.append(path)\n\n        path = os.path.join(tmpdir, \"m2.pt\")\n        m2 = _construct_model_with_shared_parameters(path, 2.0)\n        paths.append(path)\n\n        path = os.path.join(tmpdir, \"m3.pt\")\n        m3 = _construct_model_with_shared_parameters(path, 3.0)\n        paths.append(path)\n\n        new_model = average_checkpoints(paths)\n        self.assertTrue(\n            torch.equal(\n                new_model[\"model\"][\"embedding.weight\"],\n                (m1.embedding.weight + m2.embedding.weight + m3.embedding.weight) / 3.0,\n            )\n        )\n\n        self.assertTrue(\n            torch.equal(\n                new_model[\"model\"][\"FC1.weight\"],\n                (m1.FC1.weight + m2.FC1.weight + m3.FC1.weight) / 3.0,\n            )\n        )\n\n        self.assertTrue(\n            torch.equal(\n                new_model[\"model\"][\"FC2.weight\"],\n                (m1.FC2.weight + m2.FC2.weight + m3.FC2.weight) / 3.0,\n            )\n        )\n        shutil.rmtree(tmpdir)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_backtranslation_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nimport tests.utils as test_utils\nimport torch\nfrom fairseq.data import (\n    BacktranslationDataset,\n    LanguagePairDataset,\n    TransformEosDataset,\n)\nfrom fairseq.sequence_generator import SequenceGenerator\n\n\nclass TestBacktranslationDataset(unittest.TestCase):\n    def setUp(self):\n        (\n            self.tgt_dict,\n            self.w1,\n            self.w2,\n            self.src_tokens,\n            self.src_lengths,\n            self.model,\n        ) = test_utils.sequence_generator_setup()\n\n        dummy_src_samples = self.src_tokens\n\n        self.tgt_dataset = test_utils.TestDataset(data=dummy_src_samples)\n        self.cuda = torch.cuda.is_available()\n\n    def _backtranslation_dataset_helper(\n        self,\n        remove_eos_from_input_src,\n        remove_eos_from_output_src,\n    ):\n        tgt_dataset = LanguagePairDataset(\n            src=self.tgt_dataset,\n            src_sizes=self.tgt_dataset.sizes,\n            src_dict=self.tgt_dict,\n            tgt=None,\n            tgt_sizes=None,\n            tgt_dict=None,\n        )\n\n        generator = SequenceGenerator(\n            [self.model],\n            tgt_dict=self.tgt_dict,\n            max_len_a=0,\n            max_len_b=200,\n            beam_size=2,\n            unk_penalty=0,\n        )\n\n        backtranslation_dataset = BacktranslationDataset(\n            tgt_dataset=TransformEosDataset(\n                dataset=tgt_dataset,\n                eos=self.tgt_dict.eos(),\n                # remove eos from the input src\n                remove_eos_from_src=remove_eos_from_input_src,\n            ),\n            src_dict=self.tgt_dict,\n            backtranslation_fn=(\n                lambda sample: generator.generate([self.model], sample)\n            ),\n            output_collater=TransformEosDataset(\n                dataset=tgt_dataset,\n                eos=self.tgt_dict.eos(),\n                # if we remove eos from the input src, then we need to add it\n                # back to the output tgt\n                append_eos_to_tgt=remove_eos_from_input_src,\n                remove_eos_from_src=remove_eos_from_output_src,\n            ).collater,\n            cuda=self.cuda,\n        )\n        dataloader = torch.utils.data.DataLoader(\n            backtranslation_dataset,\n            batch_size=2,\n            collate_fn=backtranslation_dataset.collater,\n        )\n        backtranslation_batch_result = next(iter(dataloader))\n\n        eos, pad, w1, w2 = self.tgt_dict.eos(), self.tgt_dict.pad(), self.w1, self.w2\n\n        # Note that we sort by src_lengths and add left padding, so actually\n        # ids will look like: [1, 0]\n        expected_src = torch.LongTensor([[w1, w2, w1, eos], [pad, pad, w1, eos]])\n        if remove_eos_from_output_src:\n            expected_src = expected_src[:, :-1]\n        expected_tgt = torch.LongTensor([[w1, w2, eos], [w1, w2, eos]])\n        generated_src = backtranslation_batch_result[\"net_input\"][\"src_tokens\"]\n        tgt_tokens = backtranslation_batch_result[\"target\"]\n\n        self.assertTensorEqual(expected_src, generated_src)\n        self.assertTensorEqual(expected_tgt, tgt_tokens)\n\n    def test_backtranslation_dataset_no_eos_in_output_src(self):\n        self._backtranslation_dataset_helper(\n            remove_eos_from_input_src=False,\n            remove_eos_from_output_src=True,\n        )\n\n    def test_backtranslation_dataset_with_eos_in_output_src(self):\n        self._backtranslation_dataset_helper(\n            remove_eos_from_input_src=False,\n            remove_eos_from_output_src=False,\n        )\n\n    def test_backtranslation_dataset_no_eos_in_input_src(self):\n        self._backtranslation_dataset_helper(\n            remove_eos_from_input_src=True,\n            remove_eos_from_output_src=False,\n        )\n\n    def assertTensorEqual(self, t1, t2):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        self.assertEqual(t1.ne(t2).long().sum(), 0)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_binaries.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport contextlib\nimport json\nimport logging\nimport os\nimport random\nimport sys\nimport tempfile\nimport unittest\nfrom packaging import version\nfrom io import StringIO\nfrom typing import Dict, List\n\nimport torch\n\nfrom fairseq import options\nfrom fairseq_cli import eval_lm, train\nfrom tests.utils import (\n    create_dummy_data,\n    create_laser_data_and_config_json,\n    generate_main,\n    preprocess_lm_data,\n    preprocess_summarization_data,\n    preprocess_translation_data,\n    train_language_model,\n    train_translation_model,\n)\n\ntry:\n    import transformers  # noqa\n\n    has_hf_transformers = True\nexcept ImportError:\n    has_hf_transformers = False\n\n\nclass TestTranslation(unittest.TestCase):\n    def setUp(self):\n        logging.disable(logging.CRITICAL)\n\n    def tearDown(self):\n        logging.disable(logging.NOTSET)\n\n    def test_fconv(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_fconv\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(data_dir, \"fconv_iwslt_de_en\")\n                generate_main(data_dir)\n\n    def test_raw(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_fconv_raw\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir, [\"--dataset-impl\", \"raw\"])\n                train_translation_model(\n                    data_dir, \"fconv_iwslt_de_en\", [\"--dataset-impl\", \"raw\"]\n                )\n                generate_main(data_dir, [\"--dataset-impl\", \"raw\"])\n\n    def test_update_freq(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_update_freq\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(\n                    data_dir, \"fconv_iwslt_de_en\", [\"--update-freq\", \"3\"]\n                )\n                generate_main(data_dir)\n\n    def test_max_positions(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_max_positions\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                with self.assertRaises(Exception) as context:\n                    train_translation_model(\n                        data_dir,\n                        \"fconv_iwslt_de_en\",\n                        [\"--max-target-positions\", \"5\"],\n                    )\n                self.assertTrue(\n                    \"skip this example with --skip-invalid-size-inputs-valid-test\"\n                    in str(context.exception)\n                )\n                train_translation_model(\n                    data_dir,\n                    \"fconv_iwslt_de_en\",\n                    [\n                        \"--max-target-positions\",\n                        \"5\",\n                        \"--skip-invalid-size-inputs-valid-test\",\n                    ],\n                )\n                with self.assertRaises(Exception) as context:\n                    generate_main(data_dir)\n                generate_main(data_dir, [\"--skip-invalid-size-inputs-valid-test\"])\n\n    def test_generation(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_sampling\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(data_dir, \"fconv_iwslt_de_en\")\n                generate_main(\n                    data_dir,\n                    [\n                        \"--sampling\",\n                        \"--temperature\",\n                        \"2\",\n                        \"--beam\",\n                        \"2\",\n                        \"--nbest\",\n                        \"2\",\n                    ],\n                )\n                generate_main(\n                    data_dir,\n                    [\n                        \"--sampling\",\n                        \"--sampling-topk\",\n                        \"3\",\n                        \"--beam\",\n                        \"2\",\n                        \"--nbest\",\n                        \"2\",\n                    ],\n                )\n                generate_main(\n                    data_dir,\n                    [\n                        \"--sampling\",\n                        \"--sampling-topp\",\n                        \"0.2\",\n                        \"--beam\",\n                        \"2\",\n                        \"--nbest\",\n                        \"2\",\n                    ],\n                )\n                generate_main(\n                    data_dir,\n                    [\n                        \"--diversity-rate\",\n                        \"0.5\",\n                        \"--beam\",\n                        \"6\",\n                    ],\n                )\n                with self.assertRaises(ValueError):\n                    generate_main(\n                        data_dir,\n                        [\n                            \"--diverse-beam-groups\",\n                            \"4\",\n                            \"--match-source-len\",\n                        ],\n                    )\n                generate_main(data_dir, [\"--prefix-size\", \"2\"])\n                generate_main(data_dir, [\"--retain-dropout\"])\n\n    def test_eval_bleu(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_eval_bleu\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(\n                    data_dir,\n                    \"fconv_iwslt_de_en\",\n                    [\n                        \"--eval-bleu\",\n                        \"--eval-bleu-print-samples\",\n                        \"--eval-bleu-remove-bpe\",\n                        \"--eval-bleu-detok\",\n                        \"space\",\n                        \"--eval-bleu-args\",\n                        '{\"beam\": 4, \"min_len\": 10}',\n                    ],\n                )\n\n    def test_lstm(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_lstm\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(\n                    data_dir,\n                    \"lstm_wiseman_iwslt_de_en\",\n                    [\n                        \"--encoder-layers\",\n                        \"2\",\n                        \"--decoder-layers\",\n                        \"2\",\n                        \"--encoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-out-embed-dim\",\n                        \"8\",\n                    ],\n                )\n                generate_main(data_dir)\n\n    def test_lstm_bidirectional(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_lstm_bidirectional\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(\n                    data_dir,\n                    \"lstm\",\n                    [\n                        \"--encoder-layers\",\n                        \"2\",\n                        \"--encoder-bidirectional\",\n                        \"--encoder-hidden-size\",\n                        \"16\",\n                        \"--encoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-out-embed-dim\",\n                        \"8\",\n                        \"--decoder-layers\",\n                        \"2\",\n                    ],\n                )\n                generate_main(data_dir)\n\n    def test_transformer(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_transformer\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(\n                    data_dir,\n                    \"transformer_iwslt_de_en\",\n                    [\n                        \"--encoder-layers\",\n                        \"2\",\n                        \"--decoder-layers\",\n                        \"2\",\n                        \"--encoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-embed-dim\",\n                        \"8\",\n                    ],\n                    run_validation=True,\n                )\n                generate_main(data_dir)\n\n    def test_multilingual_transformer(self):\n        # test with all combinations of encoder/decoder lang tokens\n        encoder_langtok_flags = [\n            [],\n            [\"--encoder-langtok\", \"src\"],\n            [\"--encoder-langtok\", \"tgt\"],\n        ]\n        decoder_langtok_flags = [[], [\"--decoder-langtok\"]]\n        with contextlib.redirect_stdout(StringIO()):\n            for i in range(len(encoder_langtok_flags)):\n                for j in range(len(decoder_langtok_flags)):\n                    enc_ltok_flag = encoder_langtok_flags[i]\n                    dec_ltok_flag = decoder_langtok_flags[j]\n                    with tempfile.TemporaryDirectory(\n                        f\"test_multilingual_transformer_{i}_{j}\"\n                    ) as data_dir:\n                        create_dummy_data(data_dir)\n                        preprocess_translation_data(data_dir)\n                        train_translation_model(\n                            data_dir,\n                            arch=\"multilingual_transformer\",\n                            task=\"multilingual_translation\",\n                            extra_flags=[\n                                \"--encoder-layers\",\n                                \"2\",\n                                \"--decoder-layers\",\n                                \"2\",\n                                \"--encoder-embed-dim\",\n                                \"8\",\n                                \"--decoder-embed-dim\",\n                                \"8\",\n                            ]\n                            + enc_ltok_flag\n                            + dec_ltok_flag,\n                            lang_flags=[\"--lang-pairs\", \"in-out,out-in\"],\n                            run_validation=True,\n                            extra_valid_flags=enc_ltok_flag + dec_ltok_flag,\n                        )\n                        generate_main(\n                            data_dir,\n                            extra_flags=[\n                                \"--task\",\n                                \"multilingual_translation\",\n                                \"--lang-pairs\",\n                                \"in-out,out-in\",\n                                \"--source-lang\",\n                                \"in\",\n                                \"--target-lang\",\n                                \"out\",\n                            ]\n                            + enc_ltok_flag\n                            + dec_ltok_flag,\n                        )\n\n    @unittest.skipIf(\n        sys.platform.lower() == \"darwin\", \"skip latent depth test on MacOS\"\n    )\n    def test_multilingual_translation_latent_depth(self):\n        # test with latent depth in encoder, decoder, or both\n        encoder_latent_layer = [[], [\"--encoder-latent-layer\"]]\n        decoder_latent_layer = [[], [\"--decoder-latent-layer\"]]\n        with contextlib.redirect_stdout(StringIO()):\n            for i in range(len(encoder_latent_layer)):\n                for j in range(len(decoder_latent_layer)):\n                    if i == 0 and j == 0:\n                        continue\n                    enc_ll_flag = encoder_latent_layer[i]\n                    dec_ll_flag = decoder_latent_layer[j]\n                    with tempfile.TemporaryDirectory(\n                        f\"test_multilingual_translation_latent_depth_{i}_{j}\"\n                    ) as data_dir:\n                        create_dummy_data(data_dir)\n                        preprocess_translation_data(\n                            data_dir, extra_flags=[\"--joined-dictionary\"]\n                        )\n                        train_translation_model(\n                            data_dir,\n                            arch=\"latent_multilingual_transformer\",\n                            task=\"multilingual_translation_latent_depth\",\n                            extra_flags=[\n                                \"--user-dir\",\n                                \"examples/latent_depth/latent_depth_src\",\n                                \"--encoder-layers\",\n                                \"2\",\n                                \"--decoder-layers\",\n                                \"2\",\n                                \"--encoder-embed-dim\",\n                                \"8\",\n                                \"--decoder-embed-dim\",\n                                \"8\",\n                                \"--share-encoders\",\n                                \"--share-decoders\",\n                                \"--sparsity-weight\",\n                                \"0.1\",\n                            ]\n                            + enc_ll_flag\n                            + dec_ll_flag,\n                            lang_flags=[\"--lang-pairs\", \"in-out,out-in\"],\n                            run_validation=True,\n                            extra_valid_flags=[\n                                \"--user-dir\",\n                                \"examples/latent_depth/latent_depth_src\",\n                            ]\n                            + enc_ll_flag\n                            + dec_ll_flag,\n                        )\n                        generate_main(\n                            data_dir,\n                            extra_flags=[\n                                \"--user-dir\",\n                                \"examples/latent_depth/latent_depth_src\",\n                                \"--task\",\n                                \"multilingual_translation_latent_depth\",\n                                \"--lang-pairs\",\n                                \"in-out,out-in\",\n                                \"--source-lang\",\n                                \"in\",\n                                \"--target-lang\",\n                                \"out\",\n                            ]\n                            + enc_ll_flag\n                            + dec_ll_flag,\n                        )\n\n    def test_translation_multi_simple_epoch(self):\n        # test with all combinations of encoder/decoder lang tokens\n        encoder_langtok_flags = [\n            [],\n            [\"--encoder-langtok\", \"src\"],\n            [\"--encoder-langtok\", \"tgt\"],\n        ]\n        decoder_langtok_flags = [[], [\"--decoder-langtok\"]]\n        with contextlib.redirect_stdout(StringIO()):\n            for i in range(len(encoder_langtok_flags)):\n                for j in range(len(decoder_langtok_flags)):\n                    enc_ltok_flag = encoder_langtok_flags[i]\n                    dec_ltok_flag = decoder_langtok_flags[j]\n                    with tempfile.TemporaryDirectory(\n                        f\"test_translation_multi_simple_epoch_{i}_{j}\"\n                    ) as data_dir:\n                        create_dummy_data(data_dir)\n                        preprocess_translation_data(\n                            data_dir, extra_flags=[\"--joined-dictionary\"]\n                        )\n                        train_translation_model(\n                            data_dir,\n                            arch=\"transformer\",\n                            task=\"translation_multi_simple_epoch\",\n                            extra_flags=[\n                                \"--encoder-layers\",\n                                \"2\",\n                                \"--decoder-layers\",\n                                \"2\",\n                                \"--encoder-embed-dim\",\n                                \"8\",\n                                \"--decoder-embed-dim\",\n                                \"8\",\n                                \"--sampling-method\",\n                                \"temperature\",\n                                \"--sampling-temperature\",\n                                \"1.5\",\n                                \"--virtual-epoch-size\",\n                                \"1000\",\n                            ]\n                            + enc_ltok_flag\n                            + dec_ltok_flag,\n                            lang_flags=[\"--lang-pairs\", \"in-out,out-in\"],\n                            run_validation=True,\n                            extra_valid_flags=enc_ltok_flag + dec_ltok_flag,\n                        )\n                        generate_main(\n                            data_dir,\n                            extra_flags=[\n                                \"--task\",\n                                \"translation_multi_simple_epoch\",\n                                \"--lang-pairs\",\n                                \"in-out,out-in\",\n                                \"--source-lang\",\n                                \"in\",\n                                \"--target-lang\",\n                                \"out\",\n                            ]\n                            + enc_ltok_flag\n                            + dec_ltok_flag,\n                        )\n\n    def test_translation_multi_simple_epoch_no_vepoch(self):\n        # test with all combinations of encoder/decoder lang tokens\n        with contextlib.redirect_stdout(StringIO()):\n            enc_ltok_flag = [\"--encoder-langtok\", \"src\"]\n            dec_ltok_flag = [\"--decoder-langtok\"]\n            with tempfile.TemporaryDirectory(\n                \"test_translation_multi_simple_epoch_dict\"\n            ) as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir, extra_flags=[])\n                train_translation_model(\n                    data_dir,\n                    arch=\"transformer\",\n                    task=\"translation_multi_simple_epoch\",\n                    extra_flags=[\n                        \"--encoder-layers\",\n                        \"2\",\n                        \"--decoder-layers\",\n                        \"2\",\n                        \"--encoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-embed-dim\",\n                        \"8\",\n                        \"--sampling-method\",\n                        \"temperature\",\n                        \"--sampling-temperature\",\n                        \"1.5\",\n                    ]\n                    + enc_ltok_flag\n                    + dec_ltok_flag,\n                    lang_flags=[\"--lang-pairs\", \"in-out\"],\n                    run_validation=True,\n                    extra_valid_flags=enc_ltok_flag + dec_ltok_flag,\n                )\n                generate_main(\n                    data_dir,\n                    extra_flags=[\n                        \"--task\",\n                        \"translation_multi_simple_epoch\",\n                        \"--lang-pairs\",\n                        \"in-out\",\n                        \"--source-lang\",\n                        \"in\",\n                        \"--target-lang\",\n                        \"out\",\n                    ]\n                    + enc_ltok_flag\n                    + dec_ltok_flag,\n                )\n\n    def test_translation_multi_simple_epoch_dicts(self):\n        # test with all combinations of encoder/decoder lang tokens\n        with contextlib.redirect_stdout(StringIO()):\n            enc_ltok_flag = [\"--encoder-langtok\", \"src\"]\n            dec_ltok_flag = [\"--decoder-langtok\"]\n            with tempfile.TemporaryDirectory(\n                \"test_translation_multi_simple_epoch_dict\"\n            ) as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir, extra_flags=[])\n                train_translation_model(\n                    data_dir,\n                    arch=\"transformer\",\n                    task=\"translation_multi_simple_epoch\",\n                    extra_flags=[\n                        \"--encoder-layers\",\n                        \"2\",\n                        \"--decoder-layers\",\n                        \"2\",\n                        \"--encoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-embed-dim\",\n                        \"8\",\n                        \"--sampling-method\",\n                        \"temperature\",\n                        \"--sampling-temperature\",\n                        \"1.5\",\n                        \"--virtual-epoch-size\",\n                        \"1000\",\n                    ]\n                    + enc_ltok_flag\n                    + dec_ltok_flag,\n                    lang_flags=[\"--lang-pairs\", \"in-out\"],\n                    run_validation=True,\n                    extra_valid_flags=enc_ltok_flag + dec_ltok_flag,\n                )\n                generate_main(\n                    data_dir,\n                    extra_flags=[\n                        \"--task\",\n                        \"translation_multi_simple_epoch\",\n                        \"--lang-pairs\",\n                        \"in-out\",\n                        \"--source-lang\",\n                        \"in\",\n                        \"--target-lang\",\n                        \"out\",\n                    ]\n                    + enc_ltok_flag\n                    + dec_ltok_flag,\n                )\n\n    def test_translation_multi_simple_epoch_src_tgt_dict_spec(self):\n        # test the specification of explicit --src-dict and --tgt-dict\n        with contextlib.redirect_stdout(StringIO()):\n            enc_ltok_flag = [\"--encoder-langtok\", \"src\"]\n            dec_ltok_flag = [\"--decoder-langtok\"]\n            with tempfile.TemporaryDirectory(\n                \"test_translation_multi_simple_epoch_dict\"\n            ) as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir, extra_flags=[])\n                train_translation_model(\n                    data_dir,\n                    arch=\"transformer\",\n                    task=\"translation_multi_simple_epoch\",\n                    extra_flags=[\n                        \"--source-dict\",\n                        f\"{data_dir}/dict.in.txt\",\n                        \"--target-dict\",\n                        f\"{data_dir}/dict.out.txt\",\n                        \"--encoder-layers\",\n                        \"2\",\n                        \"--decoder-layers\",\n                        \"2\",\n                        \"--encoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-embed-dim\",\n                        \"8\",\n                        \"--sampling-method\",\n                        \"temperature\",\n                        \"--sampling-temperature\",\n                        \"1.5\",\n                        \"--virtual-epoch-size\",\n                        \"1000\",\n                    ]\n                    + enc_ltok_flag\n                    + dec_ltok_flag,\n                    lang_flags=[\"--lang-pairs\", \"in-out\"],\n                    run_validation=True,\n                    extra_valid_flags=enc_ltok_flag + dec_ltok_flag,\n                )\n                generate_main(\n                    data_dir,\n                    extra_flags=[\n                        \"--task\",\n                        \"translation_multi_simple_epoch\",\n                        \"--lang-pairs\",\n                        \"in-out\",\n                        \"--source-lang\",\n                        \"in\",\n                        \"--target-lang\",\n                        \"out\",\n                    ]\n                    + enc_ltok_flag\n                    + dec_ltok_flag,\n                )\n\n    def test_transformer_cross_self_attention(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\n                \"test_transformer_cross_self_attention\"\n            ) as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(\n                    data_dir,\n                    \"transformer_iwslt_de_en\",\n                    [\n                        \"--encoder-layers\",\n                        \"2\",\n                        \"--decoder-layers\",\n                        \"2\",\n                        \"--encoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-embed-dim\",\n                        \"8\",\n                        \"--no-cross-attention\",\n                        \"--cross-self-attention\",\n                    ],\n                    run_validation=True,\n                )\n                generate_main(data_dir, extra_flags=[])\n\n    @unittest.skipIf(\n        version.parse(torch.__version__) > version.parse(\"1.8\"),\n        \"skip for latest torch versions\",\n    )\n    def test_transformer_pointer_generator(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\n                \"test_transformer_pointer_generator\"\n            ) as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_summarization_data(data_dir)\n                train_translation_model(\n                    data_dir,\n                    \"transformer_pointer_generator\",\n                    extra_flags=[\n                        \"--user-dir\",\n                        \"examples/pointer_generator/pointer_generator_src\",\n                        \"--encoder-layers\",\n                        \"2\",\n                        \"--decoder-layers\",\n                        \"2\",\n                        \"--encoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-embed-dim\",\n                        \"8\",\n                        \"--alignment-layer\",\n                        \"-1\",\n                        \"--alignment-heads\",\n                        \"1\",\n                        \"--source-position-markers\",\n                        \"0\",\n                    ],\n                    run_validation=True,\n                    extra_valid_flags=[\n                        \"--user-dir\",\n                        \"examples/pointer_generator/pointer_generator_src\",\n                    ],\n                )\n                generate_main(\n                    data_dir,\n                    extra_flags=[\n                        \"--user-dir\",\n                        \"examples/pointer_generator/pointer_generator_src\",\n                    ],\n                )\n\n    def test_lightconv(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_lightconv\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(\n                    data_dir,\n                    \"lightconv_iwslt_de_en\",\n                    [\n                        \"--encoder-conv-type\",\n                        \"lightweight\",\n                        \"--decoder-conv-type\",\n                        \"lightweight\",\n                        \"--encoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-embed-dim\",\n                        \"8\",\n                    ],\n                )\n                generate_main(data_dir)\n\n    def test_dynamicconv(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_dynamicconv\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(\n                    data_dir,\n                    \"lightconv_iwslt_de_en\",\n                    [\n                        \"--encoder-conv-type\",\n                        \"dynamic\",\n                        \"--decoder-conv-type\",\n                        \"dynamic\",\n                        \"--encoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-embed-dim\",\n                        \"8\",\n                    ],\n                )\n                generate_main(data_dir)\n\n    def test_cmlm_transformer(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_cmlm_transformer\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir, [\"--joined-dictionary\"])\n                train_translation_model(\n                    data_dir,\n                    \"cmlm_transformer\",\n                    [\n                        \"--apply-bert-init\",\n                        \"--criterion\",\n                        \"nat_loss\",\n                        \"--noise\",\n                        \"full_mask\",\n                        \"--pred-length-offset\",\n                        \"--length-loss-factor\",\n                        \"0.1\",\n                    ],\n                    task=\"translation_lev\",\n                )\n                generate_main(\n                    data_dir,\n                    [\n                        \"--task\",\n                        \"translation_lev\",\n                        \"--iter-decode-max-iter\",\n                        \"9\",\n                        \"--iter-decode-eos-penalty\",\n                        \"0\",\n                        \"--print-step\",\n                    ],\n                )\n\n    def test_nonautoregressive_transformer(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\n                \"test_nonautoregressive_transformer\"\n            ) as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir, [\"--joined-dictionary\"])\n                train_translation_model(\n                    data_dir,\n                    \"nonautoregressive_transformer\",\n                    [\n                        \"--apply-bert-init\",\n                        \"--src-embedding-copy\",\n                        \"--criterion\",\n                        \"nat_loss\",\n                        \"--noise\",\n                        \"full_mask\",\n                        \"--pred-length-offset\",\n                        \"--length-loss-factor\",\n                        \"0.1\",\n                    ],\n                    task=\"translation_lev\",\n                )\n                generate_main(\n                    data_dir,\n                    [\n                        \"--task\",\n                        \"translation_lev\",\n                        \"--iter-decode-max-iter\",\n                        \"0\",\n                        \"--iter-decode-eos-penalty\",\n                        \"0\",\n                        \"--print-step\",\n                    ],\n                )\n\n    # def test_nat_crf_transformer(self):\n    #     with contextlib.redirect_stdout(StringIO()):\n    #         with tempfile.TemporaryDirectory('test_nat_crf_transformer') as data_dir:\n    #             create_dummy_data(data_dir)\n    #             preprocess_translation_data(data_dir, ['--joined-dictionary'])\n    #             train_translation_model(data_dir, 'nacrf_transformer', [\n    #                 '--apply-bert-init', '--criterion',\n    #                 'nat_loss', '--noise', 'full_mask', '--pred-length-offset',\n    #                 '--length-loss-factor', '0.1',\n    #                 '--word-ins-loss-factor', '0.5',\n    #                 '--crf-lowrank-approx', '1',\n    #                 '--crf-beam-approx', '1'\n    #             ], task='translation_lev')\n    #             generate_main(data_dir, [\n    #                 '--task', 'translation_lev',\n    #                 '--iter-decode-max-iter', '0',\n    #                 '--iter-decode-eos-penalty', '0',\n    #                 '--print-step',\n    #             ])\n\n    def test_iterative_nonautoregressive_transformer(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\n                \"test_iterative_nonautoregressive_transformer\"\n            ) as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir, [\"--joined-dictionary\"])\n                train_translation_model(\n                    data_dir,\n                    \"iterative_nonautoregressive_transformer\",\n                    [\n                        \"--apply-bert-init\",\n                        \"--src-embedding-copy\",\n                        \"--criterion\",\n                        \"nat_loss\",\n                        \"--noise\",\n                        \"full_mask\",\n                        \"--stochastic-approx\",\n                        \"--dae-ratio\",\n                        \"0.5\",\n                        \"--train-step\",\n                        \"3\",\n                    ],\n                    task=\"translation_lev\",\n                )\n                generate_main(\n                    data_dir,\n                    [\n                        \"--task\",\n                        \"translation_lev\",\n                        \"--iter-decode-max-iter\",\n                        \"9\",\n                        \"--iter-decode-eos-penalty\",\n                        \"0\",\n                        \"--print-step\",\n                    ],\n                )\n\n    def test_insertion_transformer(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_insertion_transformer\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir, [\"--joined-dictionary\"])\n                train_translation_model(\n                    data_dir,\n                    \"insertion_transformer\",\n                    [\n                        \"--apply-bert-init\",\n                        \"--criterion\",\n                        \"nat_loss\",\n                        \"--noise\",\n                        \"random_mask\",\n                    ],\n                    task=\"translation_lev\",\n                )\n                generate_main(\n                    data_dir,\n                    [\n                        \"--task\",\n                        \"translation_lev\",\n                        \"--iter-decode-max-iter\",\n                        \"9\",\n                        \"--iter-decode-eos-penalty\",\n                        \"0\",\n                        \"--print-step\",\n                    ],\n                )\n\n    def test_mixture_of_experts(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_moe\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(\n                    data_dir,\n                    \"transformer_iwslt_de_en\",\n                    [\n                        \"--task\",\n                        \"translation_moe\",\n                        \"--user-dir\",\n                        \"examples/translation_moe/translation_moe_src\",\n                        \"--method\",\n                        \"hMoElp\",\n                        \"--mean-pool-gating-network\",\n                        \"--num-experts\",\n                        \"3\",\n                        \"--encoder-layers\",\n                        \"2\",\n                        \"--decoder-layers\",\n                        \"2\",\n                        \"--encoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-embed-dim\",\n                        \"8\",\n                    ],\n                )\n                generate_main(\n                    data_dir,\n                    [\n                        \"--task\",\n                        \"translation_moe\",\n                        \"--user-dir\",\n                        \"examples/translation_moe/translation_moe_src\",\n                        \"--method\",\n                        \"hMoElp\",\n                        \"--mean-pool-gating-network\",\n                        \"--num-experts\",\n                        \"3\",\n                        \"--gen-expert\",\n                        \"0\",\n                    ],\n                )\n\n    def test_alignment(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_alignment\") as data_dir:\n                create_dummy_data(data_dir, alignment=True)\n                preprocess_translation_data(data_dir, [\"--align-suffix\", \"align\"])\n                train_translation_model(\n                    data_dir,\n                    \"transformer_align\",\n                    [\n                        \"--encoder-layers\",\n                        \"2\",\n                        \"--decoder-layers\",\n                        \"2\",\n                        \"--encoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-embed-dim\",\n                        \"8\",\n                        \"--load-alignments\",\n                        \"--alignment-layer\",\n                        \"1\",\n                        \"--criterion\",\n                        \"label_smoothed_cross_entropy_with_alignment\",\n                    ],\n                    run_validation=True,\n                )\n                generate_main(data_dir)\n\n    def test_laser_lstm(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_laser_lstm\") as data_dir:\n                laser_config_file = create_laser_data_and_config_json(data_dir)\n                train_translation_model(\n                    laser_config_file.name,\n                    \"laser_lstm\",\n                    [\n                        \"--user-dir\",\n                        \"examples/laser/laser_src\",\n                        \"--weighting-alpha\",\n                        \"0.3\",\n                        \"--encoder-bidirectional\",\n                        \"--encoder-hidden-size\",\n                        \"512\",\n                        \"--encoder-layers\",\n                        \"5\",\n                        \"--decoder-layers\",\n                        \"1\",\n                        \"--encoder-embed-dim\",\n                        \"320\",\n                        \"--decoder-embed-dim\",\n                        \"320\",\n                        \"--decoder-lang-embed-dim\",\n                        \"32\",\n                        \"--save-dir\",\n                        data_dir,\n                        \"--disable-validation\",\n                    ],\n                    task=\"laser\",\n                    lang_flags=[],\n                )\n\n    def test_laser_transformer(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_laser_transformer\") as data_dir:\n                laser_config_file = create_laser_data_and_config_json(data_dir)\n                train_translation_model(\n                    laser_config_file.name,\n                    \"laser_transformer\",\n                    [\n                        \"--user-dir\",\n                        \"examples/laser/laser_src\",\n                        \"--weighting-alpha\",\n                        \"0.3\",\n                        \"--encoder-embed-dim\",\n                        \"320\",\n                        \"--decoder-embed-dim\",\n                        \"320\",\n                        \"--decoder-lang-embed-dim\",\n                        \"32\",\n                        \"--save-dir\",\n                        data_dir,\n                        \"--disable-validation\",\n                    ],\n                    task=\"laser\",\n                    lang_flags=[],\n                )\n\n    def test_alignment_full_context(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_alignment\") as data_dir:\n                create_dummy_data(data_dir, alignment=True)\n                preprocess_translation_data(data_dir, [\"--align-suffix\", \"align\"])\n                train_translation_model(\n                    data_dir,\n                    \"transformer_align\",\n                    [\n                        \"--encoder-layers\",\n                        \"2\",\n                        \"--decoder-layers\",\n                        \"2\",\n                        \"--encoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-embed-dim\",\n                        \"8\",\n                        \"--load-alignments\",\n                        \"--alignment-layer\",\n                        \"1\",\n                        \"--criterion\",\n                        \"label_smoothed_cross_entropy_with_alignment\",\n                        \"--full-context-alignment\",\n                    ],\n                    run_validation=True,\n                )\n                generate_main(data_dir)\n\n    def test_transformer_layerdrop(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_transformer_layerdrop\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                train_translation_model(\n                    data_dir,\n                    \"transformer_iwslt_de_en\",\n                    [\n                        \"--encoder-layers\",\n                        \"3\",\n                        \"--decoder-layers\",\n                        \"3\",\n                        \"--encoder-embed-dim\",\n                        \"8\",\n                        \"--decoder-embed-dim\",\n                        \"8\",\n                        \"--encoder-layerdrop\",\n                        \"0.01\",\n                        \"--decoder-layerdrop\",\n                        \"0.01\",\n                    ],\n                )\n                generate_main(data_dir)\n                generate_main(\n                    data_dir,\n                    [\n                        \"--model-overrides\",\n                        \"{'encoder_layers_to_keep':'0,2','decoder_layers_to_keep':'1'}\",\n                    ],\n                )\n\n\nclass TestStories(unittest.TestCase):\n    def setUp(self):\n        logging.disable(logging.CRITICAL)\n\n    def tearDown(self):\n        logging.disable(logging.NOTSET)\n\n    def test_fconv_self_att_wp(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_fconv_self_att_wp\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_translation_data(data_dir)\n                config = [\n                    \"--encoder-layers\",\n                    \"[(128, 3)] * 2\",\n                    \"--decoder-layers\",\n                    \"[(128, 3)] * 2\",\n                    \"--decoder-attention\",\n                    \"True\",\n                    \"--encoder-attention\",\n                    \"False\",\n                    \"--gated-attention\",\n                    \"True\",\n                    \"--self-attention\",\n                    \"True\",\n                    \"--project-input\",\n                    \"True\",\n                    \"--encoder-embed-dim\",\n                    \"8\",\n                    \"--decoder-embed-dim\",\n                    \"8\",\n                    \"--decoder-out-embed-dim\",\n                    \"8\",\n                    \"--multihead-self-attention-nheads\",\n                    \"2\",\n                ]\n                train_translation_model(data_dir, \"fconv_self_att_wp\", config)\n                generate_main(data_dir)\n\n                # fusion model\n                os.rename(\n                    os.path.join(data_dir, \"checkpoint_last.pt\"),\n                    os.path.join(data_dir, \"pretrained.pt\"),\n                )\n                config.extend(\n                    [\n                        \"--pretrained\",\n                        \"True\",\n                        \"--pretrained-checkpoint\",\n                        os.path.join(data_dir, \"pretrained.pt\"),\n                        \"--save-dir\",\n                        os.path.join(data_dir, \"fusion_model\"),\n                    ]\n                )\n                train_translation_model(data_dir, \"fconv_self_att_wp\", config)\n\n\nclass TestLanguageModeling(unittest.TestCase):\n    def setUp(self):\n        logging.disable(logging.CRITICAL)\n\n    def tearDown(self):\n        logging.disable(logging.NOTSET)\n\n    def test_fconv_lm(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_fconv_lm\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_lm_data(data_dir)\n                train_language_model(\n                    data_dir,\n                    \"fconv_lm\",\n                    [\n                        \"--decoder-layers\",\n                        \"[(850, 3)] * 2 + [(1024,4)]\",\n                        \"--decoder-embed-dim\",\n                        \"280\",\n                        \"--optimizer\",\n                        \"nag\",\n                        \"--lr\",\n                        \"0.1\",\n                    ],\n                )\n                eval_lm_main(data_dir)\n                generate_main(\n                    data_dir,\n                    [\n                        \"--task\",\n                        \"language_modeling\",\n                        \"--sample-break-mode\",\n                        \"eos\",\n                        \"--tokens-per-sample\",\n                        \"500\",\n                    ],\n                )\n\n    def test_transformer_lm(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_transformer_lm\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_lm_data(data_dir)\n                train_language_model(\n                    data_dir,\n                    \"transformer_lm\",\n                    [\"--add-bos-token\", \"--nval\", \"1\"],\n                    run_validation=True,\n                )\n                eval_lm_main(data_dir)\n                eval_lm_main(data_dir, extra_flags=[\"--context-window\", \"25\"])\n                generate_main(\n                    data_dir,\n                    [\n                        \"--task\",\n                        \"language_modeling\",\n                        \"--sample-break-mode\",\n                        \"eos\",\n                        \"--tokens-per-sample\",\n                        \"500\",\n                    ],\n                )\n\n    def test_normformer_lm(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_transformer_lm\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_lm_data(data_dir)\n                train_language_model(\n                    data_dir,\n                    \"transformer_lm\",\n                    [\n                        \"--add-bos-token\",\n                        \"--nval\",\n                        \"1\",\n                        \"--scale-fc\",\n                        \"--scale-heads\",\n                        \"--scale-attn\",\n                        \"--scale-fc\",\n                    ],\n                    run_validation=True,\n                )\n                eval_lm_main(data_dir)\n                eval_lm_main(data_dir, extra_flags=[\"--context-window\", \"25\"])\n                generate_main(\n                    data_dir,\n                    [\n                        \"--task\",\n                        \"language_modeling\",\n                        \"--sample-break-mode\",\n                        \"eos\",\n                        \"--tokens-per-sample\",\n                        \"500\",\n                    ],\n                )\n\n    def test_transformer_lm_with_adaptive_softmax(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\n                \"test_transformer_lm_with_adaptive_softmax\"\n            ) as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_lm_data(data_dir)\n                train_language_model(\n                    data_dir,\n                    \"transformer_lm\",\n                    [\n                        \"--add-bos-token\",\n                        \"--criterion\",\n                        \"adaptive_loss\",\n                        \"--adaptive-softmax-cutoff\",\n                        \"5,10,15\",\n                    ],\n                    run_validation=True,\n                )\n                eval_lm_main(data_dir)\n                generate_main(\n                    data_dir,\n                    [\n                        \"--task\",\n                        \"language_modeling\",\n                        \"--sample-break-mode\",\n                        \"eos\",\n                        \"--tokens-per-sample\",\n                        \"500\",\n                    ],\n                )\n\n    def test_lightconv_lm(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_lightconv_lm\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_lm_data(data_dir)\n                train_language_model(\n                    data_dir,\n                    \"lightconv_lm\",\n                    [\"--add-bos-token\"],\n                    run_validation=True,\n                )\n                eval_lm_main(data_dir)\n                generate_main(\n                    data_dir,\n                    [\n                        \"--task\",\n                        \"language_modeling\",\n                        \"--sample-break-mode\",\n                        \"eos\",\n                        \"--tokens-per-sample\",\n                        \"500\",\n                    ],\n                )\n\n    def test_lstm_lm(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_lstm_lm\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_lm_data(data_dir)\n                train_language_model(\n                    data_dir,\n                    \"lstm_lm\",\n                    [\"--add-bos-token\"],\n                    run_validation=True,\n                )\n                eval_lm_main(data_dir)\n                generate_main(\n                    data_dir,\n                    [\n                        \"--task\",\n                        \"language_modeling\",\n                        \"--sample-break-mode\",\n                        \"eos\",\n                        \"--tokens-per-sample\",\n                        \"500\",\n                    ],\n                )\n\n    def test_lstm_lm_residuals(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_lstm_lm_residuals\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_lm_data(data_dir)\n                train_language_model(\n                    data_dir,\n                    \"lstm_lm\",\n                    [\"--add-bos-token\", \"--residuals\"],\n                    run_validation=True,\n                )\n                eval_lm_main(data_dir)\n                generate_main(\n                    data_dir,\n                    [\n                        \"--task\",\n                        \"language_modeling\",\n                        \"--sample-break-mode\",\n                        \"eos\",\n                        \"--tokens-per-sample\",\n                        \"500\",\n                    ],\n                )\n\n    @unittest.skipIf(not has_hf_transformers, \"skip test if transformers is missing\")\n    def test_transformer_xl_bptt_lm(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_transformer_xl_bptt_lm\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_lm_data(data_dir)\n                task_flags = [\n                    \"--user-dir\",\n                    \"examples/truncated_bptt\",\n                    \"--task\",\n                    \"truncated_bptt_lm\",\n                    \"--batch-size\",\n                    \"2\",\n                    \"--tokens-per-sample\",\n                    \"50\",\n                ]\n                train_language_model(\n                    data_dir=data_dir,\n                    arch=\"transformer_xl\",\n                    extra_flags=task_flags\n                    + [\n                        \"--n-layer\",\n                        \"2\",\n                    ],\n                    task=\"truncated_bptt_lm\",\n                    run_validation=True,\n                    extra_valid_flags=task_flags,\n                )\n                eval_lm_main(data_dir, extra_flags=task_flags)\n                # Train with activation offloading\n                train_language_model(\n                    data_dir=data_dir,\n                    arch=\"transformer_xl\",\n                    extra_flags=task_flags\n                    + [\n                        \"--n-layer\",\n                        \"2\",\n                        \"--offload-activations\",\n                    ],\n                    task=\"truncated_bptt_lm\",\n                    run_validation=True,\n                    extra_valid_flags=task_flags,\n                )\n\n\nclass TestMaskedLanguageModel(unittest.TestCase):\n    def setUp(self):\n        logging.disable(logging.CRITICAL)\n\n    def tearDown(self):\n        logging.disable(logging.NOTSET)\n\n    def test_legacy_masked_lm(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_legacy_mlm\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_lm_data(data_dir)\n                train_legacy_masked_language_model(data_dir, \"masked_lm\")\n\n    def test_roberta_masked_lm(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_roberta_mlm\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_lm_data(data_dir)\n                train_masked_lm(\n                    data_dir, \"roberta_base\", extra_flags=[\"--encoder-layers\", \"2\"]\n                )\n\n    def test_roberta_sentence_prediction(self):\n        num_classes = 3\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_roberta_head\") as data_dir:\n                create_dummy_roberta_head_data(data_dir, num_classes=num_classes)\n                preprocess_lm_data(os.path.join(data_dir, \"input0\"))\n                preprocess_lm_data(os.path.join(data_dir, \"label\"))\n                train_roberta_head(data_dir, \"roberta_base\", num_classes=num_classes)\n\n    def test_roberta_regression_single(self):\n        num_classes = 1\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\n                \"test_roberta_regression_single\"\n            ) as data_dir:\n                create_dummy_roberta_head_data(\n                    data_dir, num_classes=num_classes, regression=True\n                )\n                preprocess_lm_data(os.path.join(data_dir, \"input0\"))\n                train_roberta_head(\n                    data_dir,\n                    \"roberta_base\",\n                    num_classes=num_classes,\n                    extra_flags=[\"--regression-target\"],\n                )\n\n    def test_roberta_regression_multiple(self):\n        num_classes = 3\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\n                \"test_roberta_regression_multiple\"\n            ) as data_dir:\n                create_dummy_roberta_head_data(\n                    data_dir, num_classes=num_classes, regression=True\n                )\n                preprocess_lm_data(os.path.join(data_dir, \"input0\"))\n                train_roberta_head(\n                    data_dir,\n                    \"roberta_base\",\n                    num_classes=num_classes,\n                    extra_flags=[\"--regression-target\"],\n                )\n\n    def test_linformer_roberta_masked_lm(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_linformer_roberta_mlm\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_lm_data(data_dir)\n                train_masked_lm(\n                    data_dir,\n                    \"linformer_roberta_base\",\n                    extra_flags=[\n                        \"--user-dir\",\n                        \"examples/linformer/linformer_src\",\n                        \"--encoder-layers\",\n                        \"2\",\n                    ],\n                )\n\n    def test_linformer_roberta_sentence_prediction(self):\n        num_classes = 3\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_linformer_roberta_head\") as data_dir:\n                create_dummy_roberta_head_data(data_dir, num_classes=num_classes)\n                preprocess_lm_data(os.path.join(data_dir, \"input0\"))\n                preprocess_lm_data(os.path.join(data_dir, \"label\"))\n                train_roberta_head(\n                    data_dir,\n                    \"linformer_roberta_base\",\n                    num_classes=num_classes,\n                    extra_flags=[\"--user-dir\", \"examples/linformer/linformer_src\"],\n                )\n\n    def test_linformer_roberta_regression_single(self):\n        num_classes = 1\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\n                \"test_linformer_roberta_regression_single\"\n            ) as data_dir:\n                create_dummy_roberta_head_data(\n                    data_dir, num_classes=num_classes, regression=True\n                )\n                preprocess_lm_data(os.path.join(data_dir, \"input0\"))\n                train_roberta_head(\n                    data_dir,\n                    \"linformer_roberta_base\",\n                    num_classes=num_classes,\n                    extra_flags=[\n                        \"--regression-target\",\n                        \"--user-dir\",\n                        \"examples/linformer/linformer_src\",\n                    ],\n                )\n\n    def test_linformer_roberta_regression_multiple(self):\n        num_classes = 3\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\n                \"test_linformer_roberta_regression_multiple\"\n            ) as data_dir:\n                create_dummy_roberta_head_data(\n                    data_dir, num_classes=num_classes, regression=True\n                )\n                preprocess_lm_data(os.path.join(data_dir, \"input0\"))\n                train_roberta_head(\n                    data_dir,\n                    \"linformer_roberta_base\",\n                    num_classes=num_classes,\n                    extra_flags=[\n                        \"--regression-target\",\n                        \"--user-dir\",\n                        \"examples/linformer/linformer_src\",\n                    ],\n                )\n\n    def _test_pretrained_masked_lm_for_translation(self, learned_pos_emb, encoder_only):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_mlm\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_lm_data(data_dir)\n                train_legacy_masked_language_model(\n                    data_dir,\n                    arch=\"masked_lm\",\n                    extra_args=(\"--encoder-learned-pos\",) if learned_pos_emb else (),\n                )\n                with tempfile.TemporaryDirectory(\n                    \"test_mlm_translation\"\n                ) as translation_dir:\n                    create_dummy_data(translation_dir)\n                    preprocess_translation_data(\n                        translation_dir, extra_flags=[\"--joined-dictionary\"]\n                    )\n                    # Train transformer with data_dir/checkpoint_last.pt\n                    train_translation_model(\n                        translation_dir,\n                        arch=\"transformer_from_pretrained_xlm\",\n                        extra_flags=[\n                            \"--decoder-layers\",\n                            \"1\",\n                            \"--decoder-embed-dim\",\n                            \"32\",\n                            \"--decoder-attention-heads\",\n                            \"1\",\n                            \"--decoder-ffn-embed-dim\",\n                            \"32\",\n                            \"--encoder-layers\",\n                            \"1\",\n                            \"--encoder-embed-dim\",\n                            \"32\",\n                            \"--encoder-attention-heads\",\n                            \"1\",\n                            \"--encoder-ffn-embed-dim\",\n                            \"32\",\n                            \"--pretrained-xlm-checkpoint\",\n                            \"{}/checkpoint_last.pt\".format(data_dir),\n                            \"--activation-fn\",\n                            \"gelu\",\n                            \"--max-source-positions\",\n                            \"500\",\n                            \"--max-target-positions\",\n                            \"500\",\n                        ]\n                        + (\n                            [\"--encoder-learned-pos\", \"--decoder-learned-pos\"]\n                            if learned_pos_emb\n                            else []\n                        )\n                        + ([\"--init-encoder-only\"] if encoder_only else []),\n                        task=\"translation_from_pretrained_xlm\",\n                    )\n\n    def test_pretrained_masked_lm_for_translation_learned_pos_emb(self):\n        self._test_pretrained_masked_lm_for_translation(True, False)\n\n    def test_pretrained_masked_lm_for_translation_sinusoidal_pos_emb(self):\n        self._test_pretrained_masked_lm_for_translation(False, False)\n\n    def test_pretrained_masked_lm_for_translation_encoder_only(self):\n        self._test_pretrained_masked_lm_for_translation(True, True)\n\n    def test_r4f_roberta(self):\n        num_classes = 3\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_r4f_roberta_head\") as data_dir:\n                create_dummy_roberta_head_data(data_dir, num_classes=num_classes)\n                preprocess_lm_data(os.path.join(data_dir, \"input0\"))\n                preprocess_lm_data(os.path.join(data_dir, \"label\"))\n                train_roberta_head(\n                    data_dir,\n                    \"roberta_base\",\n                    num_classes=num_classes,\n                    extra_flags=[\n                        \"--user-dir\",\n                        \"examples/rxf/rxf_src\",\n                        \"--criterion\",\n                        \"sentence_prediction_r3f\",\n                        \"--spectral-norm-classification-head\",\n                    ],\n                )\n\n\ndef train_legacy_masked_language_model(data_dir, arch, extra_args=()):\n    train_parser = options.get_training_parser()\n    # TODO: langs should be in and out right?\n    train_args = options.parse_args_and_arch(\n        train_parser,\n        [\n            \"--task\",\n            \"cross_lingual_lm\",\n            data_dir,\n            \"--arch\",\n            arch,\n            # Optimizer args\n            \"--optimizer\",\n            \"adam\",\n            \"--lr-scheduler\",\n            \"reduce_lr_on_plateau\",\n            \"--lr-shrink\",\n            \"0.5\",\n            \"--lr\",\n            \"0.0001\",\n            \"--stop-min-lr\",\n            \"1e-09\",\n            # dropout, attention args\n            \"--dropout\",\n            \"0.1\",\n            \"--attention-dropout\",\n            \"0.1\",\n            # MLM args\n            \"--criterion\",\n            \"legacy_masked_lm_loss\",\n            \"--masked-lm-only\",\n            \"--monolingual-langs\",\n            \"in,out\",\n            \"--num-segment\",\n            \"5\",\n            # Transformer args: use a small transformer model for fast training\n            \"--encoder-layers\",\n            \"1\",\n            \"--encoder-embed-dim\",\n            \"32\",\n            \"--encoder-attention-heads\",\n            \"1\",\n            \"--encoder-ffn-embed-dim\",\n            \"32\",\n            # Other training args\n            \"--max-tokens\",\n            \"500\",\n            \"--tokens-per-sample\",\n            \"500\",\n            \"--save-dir\",\n            data_dir,\n            \"--max-epoch\",\n            \"1\",\n            \"--no-progress-bar\",\n            \"--distributed-world-size\",\n            \"1\",\n            \"--dataset-impl\",\n            \"raw\",\n            \"--num-workers\",\n            \"0\",\n        ]\n        + list(extra_args),\n    )\n    train.main(train_args)\n\n\nclass TestOptimizers(unittest.TestCase):\n    def setUp(self):\n        logging.disable(logging.CRITICAL)\n\n    def tearDown(self):\n        logging.disable(logging.NOTSET)\n\n    def test_optimizers(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_optimizers\") as data_dir:\n                # Use just a bit of data and tiny model to keep this test runtime reasonable\n                create_dummy_data(data_dir, num_examples=10, maxlen=5)\n                preprocess_translation_data(data_dir)\n                optimizers = [\"adafactor\", \"adam\", \"nag\", \"adagrad\", \"sgd\", \"adadelta\"]\n                last_checkpoint = os.path.join(data_dir, \"checkpoint_last.pt\")\n                for optimizer in optimizers:\n                    if os.path.exists(last_checkpoint):\n                        os.remove(last_checkpoint)\n                    train_translation_model(\n                        data_dir,\n                        \"lstm\",\n                        [\n                            \"--required-batch-size-multiple\",\n                            \"1\",\n                            \"--encoder-layers\",\n                            \"1\",\n                            \"--encoder-hidden-size\",\n                            \"32\",\n                            \"--decoder-layers\",\n                            \"1\",\n                            \"--optimizer\",\n                            optimizer,\n                        ],\n                    )\n                    generate_main(data_dir)\n\n\ndef read_last_log_entry(\n    logs: List[logging.LogRecord], logger_name: str\n) -> Dict[str, float]:\n    for x in reversed(logs):\n        if x.name == logger_name:\n            return json.loads(x.message)\n    raise ValueError(f\"No entries from {logger_name} found in captured logs\")\n\n\nclass TestActivationCheckpointing(unittest.TestCase):\n    base_flags = [\n        \"--encoder-layers\",\n        \"2\",\n        \"--decoder-layers\",\n        \"2\",\n        \"--encoder-embed-dim\",\n        \"8\",\n        \"--decoder-embed-dim\",\n        \"8\",\n        \"--restore-file\",\n        \"x.pt\",\n        \"--log-format\",\n        \"json\",\n        \"--log-interval\",\n        \"1\",\n        \"--max-update\",\n        \"2\",\n    ]\n\n    def _train(self, data_dir, extra_flags):\n        with self.assertLogs() as logs:\n            train_translation_model(\n                data_dir,\n                \"transformer_iwslt_de_en\",\n                self.base_flags + extra_flags,\n                run_validation=True,\n                extra_valid_flags=[\"--log-format\", \"json\"],\n            )\n        return logs.records\n\n    def test_activation_offloading_does_not_change_metrics(self):\n        \"\"\"Neither ----checkpoint-activations nor --offload-activations should change loss\"\"\"\n        with tempfile.TemporaryDirectory(\"test_transformer_with_act_cpt\") as data_dir:\n\n            with self.assertLogs():\n                create_dummy_data(data_dir, num_examples=20)\n                preprocess_translation_data(data_dir)\n            offload_logs = self._train(data_dir, [\"--offload-activations\"])\n            baseline_logs = self._train(data_dir, [])\n\n            assert len(baseline_logs) == len(offload_logs)\n\n            baseline_valid_stats = read_last_log_entry(baseline_logs, \"valid\")\n            offload_valid_stats = read_last_log_entry(offload_logs, \"valid\")\n            baseline_train_stats = read_last_log_entry(baseline_logs, \"train\")\n            offload_train_stats = read_last_log_entry(offload_logs, \"train\")\n\n            assert (\n                baseline_train_stats[\"train_loss\"] == offload_train_stats[\"train_loss\"]\n            )\n            assert (\n                baseline_valid_stats[\"valid_loss\"] == offload_valid_stats[\"valid_loss\"]\n            )\n\n    def test_activation_checkpointing_does_not_change_metrics(self):\n        \"\"\"--checkpoint-activations should not change loss\"\"\"\n\n        with tempfile.TemporaryDirectory(\"test_transformer_with_act_cpt\") as data_dir:\n            with self.assertLogs():\n                create_dummy_data(data_dir, num_examples=20)\n                preprocess_translation_data(data_dir)\n            ckpt_logs = self._train(data_dir, [\"--checkpoint-activations\"])\n            baseline_logs = self._train(data_dir, [])\n            assert len(baseline_logs) == len(ckpt_logs)\n\n            baseline_train_stats = read_last_log_entry(baseline_logs, \"train\")\n            ckpt_train_stats = read_last_log_entry(ckpt_logs, \"train\")\n            assert baseline_train_stats[\"train_loss\"] == ckpt_train_stats[\"train_loss\"]\n\n            baseline_valid_stats = read_last_log_entry(baseline_logs, \"valid\")\n            ckpt_valid_stats = read_last_log_entry(ckpt_logs, \"valid\")\n            assert baseline_valid_stats[\"valid_loss\"] == ckpt_valid_stats[\"valid_loss\"]\n\n\ndef create_dummy_roberta_head_data(\n    data_dir, num_examples=100, maxlen=10, num_classes=2, regression=False\n):\n    input_dir = \"input0\"\n\n    def _create_dummy_data(filename):\n        random_data = torch.rand(num_examples * maxlen)\n        input_data = 97 + torch.floor(26 * random_data).int()\n        if regression:\n            output_data = torch.rand((num_examples, num_classes))\n        else:\n            output_data = 1 + torch.floor(num_classes * torch.rand(num_examples)).int()\n        with open(os.path.join(data_dir, input_dir, filename + \".out\"), \"w\") as f_in:\n            label_filename = filename + \".label\" if regression else filename + \".out\"\n            with open(os.path.join(data_dir, \"label\", label_filename), \"w\") as f_out:\n                offset = 0\n                for i in range(num_examples):\n                    # write example input\n                    ex_len = random.randint(1, maxlen)\n                    ex_str = \" \".join(map(chr, input_data[offset : offset + ex_len]))\n                    print(ex_str, file=f_in)\n                    # write example label\n                    if regression:\n                        class_str = \" \".join(map(str, output_data[i].numpy()))\n                        print(class_str, file=f_out)\n                    else:\n                        class_str = \"class{}\".format(output_data[i])\n                        print(class_str, file=f_out)\n                    offset += ex_len\n\n    os.mkdir(os.path.join(data_dir, input_dir))\n    os.mkdir(os.path.join(data_dir, \"label\"))\n    _create_dummy_data(\"train\")\n    _create_dummy_data(\"valid\")\n    _create_dummy_data(\"test\")\n\n\ndef train_masked_lm(data_dir, arch, extra_flags=None):\n    train_parser = options.get_training_parser()\n    train_args = options.parse_args_and_arch(\n        train_parser,\n        [\n            \"--task\",\n            \"masked_lm\",\n            data_dir,\n            \"--arch\",\n            arch,\n            \"--optimizer\",\n            \"adam\",\n            \"--lr\",\n            \"0.0001\",\n            \"--criterion\",\n            \"masked_lm\",\n            \"--batch-size\",\n            \"500\",\n            \"--required-batch-size-multiple\",\n            \"1\",\n            \"--save-dir\",\n            data_dir,\n            \"--max-epoch\",\n            \"1\",\n            \"--no-progress-bar\",\n            \"--distributed-world-size\",\n            \"1\",\n            \"--ddp-backend\",\n            \"no_c10d\",\n            \"--num-workers\",\n            \"0\",\n        ]\n        + (extra_flags or []),\n    )\n    train.main(train_args)\n\n\ndef train_roberta_head(data_dir, arch, num_classes=2, extra_flags=None):\n    train_parser = options.get_training_parser()\n    train_args = options.parse_args_and_arch(\n        train_parser,\n        [\n            \"--task\",\n            \"sentence_prediction\",\n            data_dir,\n            \"--arch\",\n            arch,\n            \"--encoder-layers\",\n            \"2\",\n            \"--num-classes\",\n            str(num_classes),\n            \"--optimizer\",\n            \"adam\",\n            \"--lr\",\n            \"0.0001\",\n            \"--criterion\",\n            \"sentence_prediction\",\n            \"--max-tokens\",\n            \"500\",\n            \"--max-positions\",\n            \"500\",\n            \"--batch-size\",\n            \"500\",\n            \"--save-dir\",\n            data_dir,\n            \"--max-epoch\",\n            \"1\",\n            \"--no-progress-bar\",\n            \"--distributed-world-size\",\n            \"1\",\n            \"--ddp-backend\",\n            \"no_c10d\",\n            \"--num-workers\",\n            \"0\",\n        ]\n        + (extra_flags or []),\n    )\n    train.main(train_args)\n\n\ndef eval_lm_main(data_dir, extra_flags=None):\n    eval_lm_parser = options.get_eval_lm_parser()\n    eval_lm_args = options.parse_args_and_arch(\n        eval_lm_parser,\n        [\n            data_dir,\n            \"--path\",\n            os.path.join(data_dir, \"checkpoint_last.pt\"),\n            \"--no-progress-bar\",\n            \"--num-workers\",\n            \"0\",\n        ]\n        + (extra_flags or []),\n    )\n    eval_lm.main(eval_lm_args)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_binarizer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\n\nimport os\nimport typing as tp\nimport unittest\nfrom tempfile import TemporaryDirectory\n\nfrom fairseq.binarizer import BinarizeSummary, FileBinarizer, VocabularyDatasetBinarizer\nfrom fairseq.data import Dictionary, indexed_dataset\nfrom tests.utils import make_data, sizes\n\n\ndef build_vocab(data: tp.List[tp.List[str]]) -> Dictionary:\n    d = Dictionary()\n    for s in data:\n        for token in s:\n            d.add_symbol(token)\n    d.finalize()\n    return d\n\n\nclass TestBinarizer(unittest.TestCase):\n    def compare_ds_data(self, summary, data, prefix, impl, vocab):\n        self.assertEqual(summary.num_seq, len(data))\n        self.assertEqual(summary.num_tok, sum([len(s) for s in data]))\n\n        dataset = indexed_dataset.make_dataset(prefix, impl)\n\n        self.assertEqual(len(dataset), len(data))\n        decoded = [vocab.string(dataset[i]).split() for i in range(0, len(dataset))]\n\n        self.assertEqual(decoded, data)\n        data_sizes = [i.item() for i in dataset.sizes]\n        self.assertEqual(data_sizes, sizes(data))\n\n    def test_can_binarize_line(self):\n        data = make_data(length=1)\n        vocab = build_vocab(data)\n\n        binarizer = VocabularyDatasetBinarizer(\n            vocab,\n        )\n\n        sentence = data[0]\n        summary = BinarizeSummary()\n\n        tensor = binarizer.binarize_line(\n            \" \".join(sentence),\n            summary,\n        )\n\n        self.assertEqual(len(tensor), len(sentence) + 1)\n\n        self.assertEqual(summary.num_tok, len(sentence) + 1)\n        self.assertEqual(summary.num_seq, 1)\n\n    def test_can_binarize_file_chunk(self):\n        # test without multiprocess logic\n        with TemporaryDirectory() as dirname:\n            raw_file = os.path.join(dirname, \"raw1\")\n            prefix = os.path.join(dirname, \"test1\")\n            impl = \"mmap\"\n\n            data = make_data(out_file=raw_file)\n            vocab = build_vocab(data)\n\n            binarizer = VocabularyDatasetBinarizer(\n                vocab,\n                append_eos=False,\n            )\n\n            summary = FileBinarizer._binarize_chunk_and_finalize(\n                binarizer,\n                raw_file,\n                offset_start=0,\n                offset_end=-1,\n                output_prefix=prefix,\n                dataset_impl=impl,\n                vocab_size=len(vocab),\n            )\n\n            self.compare_ds_data(summary, data, prefix, impl, vocab)\n\n    def test_can_multiprocess(self):\n        with TemporaryDirectory() as dirname:\n            raw_file = os.path.join(dirname, \"raw1\")\n            prefix = os.path.join(dirname, \"test1\")\n            impl = \"mmap\"\n            data = make_data(out_file=raw_file)\n            vocab = build_vocab(data)\n            binarizer = VocabularyDatasetBinarizer(\n                vocab,\n                append_eos=False,\n            )\n            # with one worker\n            summary = FileBinarizer.multiprocess_dataset(\n                raw_file,\n                impl,\n                binarizer,\n                output_prefix=prefix,\n                vocab_size=len(vocab),\n                num_workers=1,\n            )\n\n            self.compare_ds_data(summary, data, prefix, impl, vocab)\n\n            # with multiple worker\n            prefix_multi = os.path.join(dirname, \"test2\")\n            summary = FileBinarizer.multiprocess_dataset(\n                raw_file,\n                impl,\n                binarizer,\n                output_prefix=prefix_multi,\n                vocab_size=len(vocab),\n                num_workers=3,\n            )\n\n            self.compare_ds_data(summary, data, prefix_multi, impl, vocab)\n"
  },
  {
    "path": "tests/test_character_token_embedder.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nimport torch\nfrom fairseq.data import Dictionary\nfrom fairseq.modules import CharacterTokenEmbedder\n\n\nclass TestCharacterTokenEmbedder(unittest.TestCase):\n    def test_character_token_embedder(self):\n        vocab = Dictionary()\n        vocab.add_symbol(\"hello\")\n        vocab.add_symbol(\"there\")\n\n        embedder = CharacterTokenEmbedder(\n            vocab, [(2, 16), (4, 32), (8, 64), (16, 2)], 64, 5, 2\n        )\n\n        test_sents = [[\"hello\", \"unk\", \"there\"], [\"there\"], [\"hello\", \"there\"]]\n        max_len = max(len(s) for s in test_sents)\n        input = torch.LongTensor(len(test_sents), max_len + 2).fill_(vocab.pad())\n        for i in range(len(test_sents)):\n            input[i][0] = vocab.eos()\n            for j in range(len(test_sents[i])):\n                input[i][j + 1] = vocab.index(test_sents[i][j])\n            input[i][j + 2] = vocab.eos()\n        embs = embedder(input)\n\n        assert embs.size() == (len(test_sents), max_len + 2, 5)\n        self.assertAlmostEqual(embs[0][0], embs[1][0])\n        self.assertAlmostEqual(embs[0][0], embs[0][-1])\n        self.assertAlmostEqual(embs[0][1], embs[2][1])\n        self.assertAlmostEqual(embs[0][3], embs[1][1])\n\n        embs.sum().backward()\n        assert embedder.char_embeddings.weight.grad is not None\n\n    def assertAlmostEqual(self, t1, t2):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        self.assertLess((t1 - t2).abs().max(), 1e-6)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_checkpoint_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport contextlib\nimport logging\nimport os\nimport tempfile\nimport unittest\nfrom io import StringIO\nfrom unittest.mock import patch\n\nfrom fairseq import checkpoint_utils\nfrom tests.utils import (\n    create_dummy_data,\n    preprocess_translation_data,\n    train_translation_model,\n)\nimport torch\n\n\nclass TestCheckpointUtils(unittest.TestCase):\n    def setUp(self):\n        logging.disable(logging.CRITICAL)\n\n    def tearDown(self):\n        logging.disable(logging.NOTSET)\n\n    @contextlib.contextmanager\n    def _train_transformer(self, seed, extra_args=None):\n        if extra_args is None:\n            extra_args = []\n        with tempfile.TemporaryDirectory(f\"_train_transformer_seed{seed}\") as data_dir:\n            create_dummy_data(data_dir)\n            preprocess_translation_data(data_dir)\n            train_translation_model(\n                data_dir,\n                \"transformer_iwslt_de_en\",\n                [\n                    \"--encoder-layers\",\n                    \"3\",\n                    \"--decoder-layers\",\n                    \"3\",\n                    \"--encoder-embed-dim\",\n                    \"8\",\n                    \"--decoder-embed-dim\",\n                    \"8\",\n                    \"--seed\",\n                    str(seed),\n                ]\n                + extra_args,\n            )\n            yield os.path.join(data_dir, \"checkpoint_last.pt\")\n\n    def test_load_model_ensemble_and_task(self):\n        # with contextlib.redirect_stdout(StringIO()):\n        with self._train_transformer(seed=123) as model1:\n            with self._train_transformer(seed=456) as model2:\n                ensemble, cfg, task = checkpoint_utils.load_model_ensemble_and_task(\n                    filenames=[model1, model2]\n                )\n                self.assertEqual(len(ensemble), 2)\n\n                # after Transformer has been migrated to Hydra, this will probably\n                # become cfg.common.seed\n                self.assertEqual(ensemble[0].args.seed, 123)\n                self.assertEqual(ensemble[1].args.seed, 456)\n\n                # the task from the first model should be returned\n                self.assertTrue(\"seed123\" in task.cfg.data)\n\n                # last cfg is saved\n                self.assertEqual(cfg.common.seed, 456)\n\n    def test_prune_state_dict(self):\n        with contextlib.redirect_stdout(StringIO()):\n            extra_args = [\"--encoder-layerdrop\", \"0.01\", \"--decoder-layerdrop\", \"0.01\"]\n            with self._train_transformer(seed=1, extra_args=extra_args) as model:\n                ensemble, cfg, task = checkpoint_utils.load_model_ensemble_and_task(\n                    filenames=[model],\n                    arg_overrides={\n                        \"encoder_layers_to_keep\": \"0,2\",\n                        \"decoder_layers_to_keep\": \"1\",\n                    },\n                )\n                self.assertEqual(len(ensemble), 1)\n                self.assertEqual(len(ensemble[0].encoder.layers), 2)\n                self.assertEqual(len(ensemble[0].decoder.layers), 1)\n\n    def test_torch_persistent_save_async(self):\n        state_dict = {}\n        filename = \"async_checkpoint.pt\"\n\n        with patch(f\"{checkpoint_utils.__name__}.PathManager.opena\") as mock_opena:\n            with patch(\n                f\"{checkpoint_utils.__name__}._torch_persistent_save\"\n            ) as mock_save:\n                checkpoint_utils.torch_persistent_save(\n                    state_dict, filename, async_write=True\n                )\n                mock_opena.assert_called_with(filename, \"wb\")\n                mock_save.assert_called()\n\n    def test_load_ema_from_checkpoint(self):\n        dummy_state = {\"a\": torch.tensor([1]), \"b\": torch.tensor([0.1])}\n        with patch(f\"{checkpoint_utils.__name__}.PathManager.open\") as mock_open, patch(\n            f\"{checkpoint_utils.__name__}.torch.load\"\n        ) as mock_load:\n\n            mock_load.return_value = {\"extra_state\": {\"ema\": dummy_state}}\n            filename = \"ema_checkpoint.pt\"\n            state = checkpoint_utils.load_ema_from_checkpoint(filename)\n\n            mock_open.assert_called_with(filename, \"rb\")\n            mock_load.assert_called()\n\n            self.assertIn(\"a\", state[\"model\"])\n            self.assertIn(\"b\", state[\"model\"])\n            self.assertTrue(torch.allclose(dummy_state[\"a\"], state[\"model\"][\"a\"]))\n            self.assertTrue(torch.allclose(dummy_state[\"b\"], state[\"model\"][\"b\"]))\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_checkpoint_utils_for_task_level_attributes.py",
    "content": "#!/usr/bin/env fbpython\n# (c) Meta Platforms, Inc. and affiliates. Confidential and proprietary.\n\nimport contextlib\nimport logging\nimport unittest\nfrom io import StringIO\nfrom unittest.mock import MagicMock, patch\n\nimport torch\nfrom fairseq import checkpoint_utils, data\nfrom omegaconf import OmegaConf\n\n\ndef mock_trainer(epoch, num_updates, iterations_in_epoch):\n    trainer = MagicMock()\n    trainer.load_checkpoint.return_value = {\n        \"train_iterator\": {\n            \"epoch\": epoch,\n            \"iterations_in_epoch\": iterations_in_epoch,\n            \"shuffle\": False,\n        },\n        \"FakeTask\": checkpoint_dict()[\"FakeTask\"],\n    }\n    trainer.get_num_updates.return_value = num_updates\n    trainer.task.__class__.__name__ = \"FakeTask\"\n    trainer.task.get_checkpoint_dict.return_value = checkpoint_dict()\n    trainer.task.set_checkpoint_dict = MagicMock()\n\n    return trainer\n\n\ndef checkpoint_dict():\n    return {\n        \"FakeTask\": {\n            \"observer_stats\": {\n                (\n                    4,\n                    16,\n                    \"MovingAveragePerChannelMinMax\",\n                    \"MovingAveragePerChannelMinMax\",\n                ): {\"mod1\": 1, \"mod2\": 2, \"mod3\": 3}\n            }\n        }\n    }\n\n\ndef mock_dict():\n    d = MagicMock()\n    d.pad.return_value = 1\n    d.eos.return_value = 2\n    d.unk.return_value = 3\n    return d\n\n\ndef get_trainer_and_epoch_itr(epoch, epoch_size, num_updates, iterations_in_epoch):\n    tokens = torch.LongTensor(list(range(epoch_size))).view(1, -1)\n    tokens_ds = data.TokenBlockDataset(\n        tokens,\n        sizes=[tokens.size(-1)],\n        block_size=1,\n        pad=0,\n        eos=1,\n        include_targets=False,\n    )\n    trainer = mock_trainer(epoch, num_updates, iterations_in_epoch)\n    dataset = data.LanguagePairDataset(\n        tokens_ds, tokens_ds.sizes, mock_dict(), shuffle=False\n    )\n    epoch_itr = data.EpochBatchIterator(\n        dataset=dataset,\n        collate_fn=dataset.collater,\n        batch_sampler=[[i] for i in range(epoch_size)],\n    )\n    return trainer, epoch_itr\n\n\ndef get_mock_cfg(finetune_from_model):\n    cfg_mock = OmegaConf.create(\n        {\n            \"checkpoint\": {\n                \"save_dir\": None,\n                \"optimizer_overrides\": \"{}\",\n                \"reset_dataloader\": False,\n                \"reset_meters\": False,\n                \"reset_optimizer\": False,\n                \"reset_lr_scheduler\": False,\n                \"finetune_from_model\": finetune_from_model,\n                \"model_parallel_size\": 1,\n                \"restore_file\": \"checkpoint_last.pt\",\n                \"no_save\": False,\n                \"save_interval_updates\": 0,\n                \"no_last_checkpoints\": False,\n                \"keep_interval_updates\": 0,\n                \"keep_last_epochs\": 0,\n                \"keep_best_checkpoints\": 0,\n            },\n            \"common\": {\n                \"model_parallel_size\": 1,\n            },\n        }\n    )\n    return cfg_mock\n\n\nclass TestCheckpointsForTaskLevelAttributes(unittest.TestCase):\n    def setUp(self) -> None:\n        self.cfg_mock = get_mock_cfg(None)\n        self.patches = {\n            \"os.makedirs\": MagicMock(),\n            \"os.path.join\": MagicMock(),\n            \"os.path.isfile\": MagicMock(return_value=True),\n            \"os.path.isabs\": MagicMock(return_value=False),\n            \"fairseq.file_io.PathManager.exists\": MagicMock(return_value=False),\n        }\n        self.applied_patches = [patch(p, d) for p, d in self.patches.items()]\n        [p.start() for p in self.applied_patches]\n        logging.disable(logging.CRITICAL)\n\n        self.trainer, self.epoch_itr = get_trainer_and_epoch_itr(2, 150, 200, 50)\n        self.trainer.get_train_iterator = MagicMock(return_value=self.epoch_itr)\n        self.epoch_itr.next_epoch_itr(shuffle=False)\n\n        checkpoint_utils.save_checkpoint(\n            self.cfg_mock.checkpoint, self.trainer, self.epoch_itr, None\n        )\n\n    def tearDown(self):\n        patch.stopall()\n        logging.disable(logging.NOTSET)\n\n    def test_verify_checkpoint(self) -> None:\n        cp_dict = self.trainer.task.get_checkpoint_dict()\n        self.assertTrue(len(cp_dict) == 1)\n        self.assertTrue(\"FakeTask\" in cp_dict)\n        self.assertTrue(\"observer_stats\" in cp_dict[\"FakeTask\"])\n        self.assertTrue(len(cp_dict[\"FakeTask\"][\"observer_stats\"]) == 1)\n        self.assertTrue(\n            (\n                4,\n                16,\n                \"MovingAveragePerChannelMinMax\",\n                \"MovingAveragePerChannelMinMax\",\n            )\n            in cp_dict[\"FakeTask\"][\"observer_stats\"]\n        )\n        self.assertTrue(\n            cp_dict[\"FakeTask\"][\"observer_stats\"][\n                (\n                    4,\n                    16,\n                    \"MovingAveragePerChannelMinMax\",\n                    \"MovingAveragePerChannelMinMax\",\n                )\n            ]\n            == {\"mod1\": 1, \"mod2\": 2, \"mod3\": 3}\n        )\n\n    def test_load_checkpoint(self) -> None:\n        with contextlib.redirect_stdout(StringIO()):\n            # Now, load checkpoint to ensure the respective logic works as expected\n            _, epoch_itr = checkpoint_utils.load_checkpoint(\n                self.cfg_mock.checkpoint, self.trainer\n            )\n\n            self.trainer.task.set_checkpoint_dict.assert_called_once_with(\n                checkpoint_dict()[\"FakeTask\"]\n            )\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_concat_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nimport torch\nfrom fairseq.data import LanguagePairDataset, TokenBlockDataset\nfrom fairseq.data.concat_dataset import ConcatDataset\nfrom tests.test_train import mock_dict\n\n\nclass TestConcatDataset(unittest.TestCase):\n    def setUp(self):\n        d = mock_dict()\n        tokens_1 = torch.LongTensor([1]).view(1, -1)\n        tokens_ds1 = TokenBlockDataset(\n            tokens_1,\n            sizes=[tokens_1.size(-1)],\n            block_size=1,\n            pad=0,\n            eos=1,\n            include_targets=False,\n        )\n        self.dataset_1 = LanguagePairDataset(\n            tokens_ds1, tokens_ds1.sizes, d, shuffle=False\n        )\n        tokens_2 = torch.LongTensor([2]).view(1, -1)\n        tokens_ds2 = TokenBlockDataset(\n            tokens_2,\n            sizes=[tokens_2.size(-1)],\n            block_size=1,\n            pad=0,\n            eos=1,\n            include_targets=False,\n        )\n        self.dataset_2 = LanguagePairDataset(\n            tokens_ds2, tokens_ds2.sizes, d, shuffle=False\n        )\n\n    def test_concat_dataset_basics(self):\n        d = ConcatDataset([self.dataset_1, self.dataset_2])\n        assert len(d) == 2\n        assert d[0][\"source\"][0] == 1\n        assert d[1][\"source\"][0] == 2\n\n        d = ConcatDataset([self.dataset_1, self.dataset_2], sample_ratios=[1, 2])\n        assert len(d) == 3\n        assert d[0][\"source\"][0] == 1\n        assert d[1][\"source\"][0] == 2\n        assert d[2][\"source\"][0] == 2\n\n        d = ConcatDataset([self.dataset_1, self.dataset_2], sample_ratios=[2, 1])\n        assert len(d) == 3\n        assert d[0][\"source\"][0] == 1\n        assert d[1][\"source\"][0] == 1\n        assert d[2][\"source\"][0] == 2\n"
  },
  {
    "path": "tests/test_constraints.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nfrom typing import List\n\nimport torch\n\nfrom fairseq.token_generation_constraints import (\n    ConstraintNode,\n    OrderedConstraintState,\n    UnorderedConstraintState,\n    pack_constraints,\n)\n\n\ndef tensorize(constraints: List[List[int]]) -> torch.Tensor:\n    return [torch.tensor(x) for x in constraints]\n\n\nclass TestHelperRoutines(unittest.TestCase):\n    def setUp(self):\n        self.examples = [\n            ([[]], torch.tensor([[0]])),\n            ([[], []], torch.tensor([[0], [0]])),\n            ([[torch.tensor([1, 2])], []], torch.tensor([[1, 1, 2, 0], [0, 0, 0, 0]])),\n            (\n                [\n                    [\n                        torch.tensor([3, 1, 2]),\n                        torch.tensor([3]),\n                        torch.tensor([4, 5, 6, 7]),\n                    ],\n                    [],\n                    [torch.tensor([1, 8, 9, 10, 1, 4, 11, 12])],\n                ],\n                torch.tensor(\n                    [\n                        [3, 3, 1, 2, 0, 3, 0, 4, 5, 6, 7, 0],\n                        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],\n                        [1, 1, 8, 9, 10, 1, 4, 11, 12, 0, 0, 0],\n                    ]\n                ),\n            ),\n        ]\n\n    def test_packing(self):\n        \"\"\"Ensures the list of lists of tensors gets packed correctly.\"\"\"\n        for batch_constraints, expected_tensor in self.examples:\n            packed = pack_constraints(batch_constraints)\n            assert torch.equal(packed, expected_tensor)\n\n\nclass TestUnorderedConstraintState(unittest.TestCase):\n    def setUp(self):\n        # Tuples of (contraint set, expected printed graph, token counts per node)\n        self.examples = [\n            (\n                tensorize([[1, 2, 3], [1, 3], [1, 4], [4, 5, 6, 7], [1], [4, 5]]),\n                \"([None].False#6 ([1].True#4 ([2].False#1 [3].True#1) [3].True#1 [4].True#1) ([4].False#2 ([5].True#2 ([6].False#1 [7].True#1))))\",  # noqa\n                {1: 4, 2: 1, 3: 2, 4: 3, 5: 2, 6: 1, 7: 1},\n            ),\n            ([], \"[None].False#0\", {}),\n            (tensorize([[0]]), \"([None].False#1 [0].True#1)\", {0: 1}),\n            (\n                tensorize([[100000, 1, 2, 3, 4, 5]]),\n                \"([None].False#1 ([100000].False#1 ([1].False#1 ([2].False#1 ([3].False#1 ([4].False#1 [5].True#1))))))\",\n                {100000: 1, 1: 1, 2: 1, 3: 1, 4: 1, 5: 1},\n            ),\n            (\n                tensorize([[1, 2], [1, 2]]),\n                \"([None].False#2 ([1].False#2 [2].True#2))\",\n                {1: 2, 2: 2},\n            ),\n            (\n                tensorize([[1, 2], [3, 4]]),\n                \"([None].False#2 ([1].False#1 [2].True#1) ([3].False#1 [4].True#1))\",\n                {1: 1, 2: 1, 3: 1, 4: 1},\n            ),\n        ]\n\n        self.sequences = [\n            (\n                self.examples[0][0],\n                [],\n                {\"bank\": 0, \"num_completed\": 0, \"finished\": False, \"is_root\": True},\n            ),\n            (\n                self.examples[0][0],\n                [1, 2],\n                {\"bank\": 2, \"num_completed\": 0, \"finished\": False, \"is_root\": False},\n            ),\n            (\n                self.examples[0][0],\n                [1, 2, 94],\n                {\"bank\": 1, \"num_completed\": 1, \"finished\": False, \"is_root\": True},\n            ),\n            (\n                self.examples[0][0],\n                [1, 3, 999, 1, 4],\n                {\"bank\": 4, \"num_completed\": 2, \"finished\": False, \"is_root\": False},\n            ),\n            (\n                self.examples[0][0],\n                [1, 3, 999, 1, 4, 999],\n                {\"bank\": 4, \"num_completed\": 2, \"finished\": False, \"is_root\": True},\n            ),\n            (\n                self.examples[0][0],\n                [4, 5, 6, 8],\n                {\"bank\": 2, \"num_completed\": 1, \"finished\": False, \"is_root\": True},\n            ),\n            (\n                self.examples[0][0],\n                # Tricky, because in last three, goes down [1->4] branch, could miss [1] and [4->5]\n                # [[1, 2, 3], [1, 3], [1, 4], [4, 5, 6, 7], [1], [4, 5]],\n                [1, 2, 3, 1, 3, 1, 4, 4, 5, 6, 7, 1, 4, 5],\n                {\"bank\": 14, \"num_completed\": 6, \"finished\": True, \"is_root\": False},\n            ),\n            (\n                self.examples[0][0],\n                [1, 2, 3, 999, 1, 3, 1, 4, 4, 5, 6, 7, 1, 4, 5, 117],\n                {\"bank\": 14, \"num_completed\": 6, \"finished\": True, \"is_root\": True},\n            ),\n            (\n                tensorize([[1], [2, 3]]),\n                # Should not be able to get credit for entering 1 a second time\n                [1, 1],\n                {\"bank\": 1, \"num_completed\": 1, \"finished\": False, \"is_root\": True},\n            ),\n            (\n                self.examples[4][0],\n                [1, 2, 1, 2],\n                {\"bank\": 4, \"num_completed\": 2, \"finished\": True, \"is_root\": False},\n            ),\n            (\n                self.examples[4][0],\n                [1, 2, 1, 2, 1],\n                {\"bank\": 4, \"num_completed\": 2, \"finished\": True, \"is_root\": True},\n            ),\n            (\n                self.examples[5][0],\n                [1, 2, 3, 4, 5],\n                {\"bank\": 4, \"num_completed\": 2, \"finished\": True, \"is_root\": True},\n            ),\n        ]\n\n    def test_graphs(self):\n        \"\"\"\n        Test whether unordered graph systems are created correctly.\n        \"\"\"\n        for example in self.examples:\n            constraints, expected, gold_counts = example\n            c = ConstraintNode.create(constraints)\n            assert (\n                ConstraintNode.print_graph(c) == expected\n            ), f\"got {ConstraintNode.print_graph(c)}, expected {expected}\"\n            assert (\n                c.token_counts() == gold_counts\n            ), f\"{c} got {c.token_counts()} wanted {gold_counts}\"\n\n    def test_next_tokens(self):\n        \"\"\"\n        Tests that the set of next tokens is correct.\n        \"\"\"\n        for example in self.examples:\n            constraints, expected, gold_counts = example\n            root = ConstraintNode.create(constraints)\n\n            root_tokens = set(root.children.keys())\n            for sequence in constraints:\n                state = UnorderedConstraintState(root)\n                for token in sequence:\n                    all_tokens = root_tokens.union(state.node.children.keys())\n                    assert (\n                        all_tokens == state.next_tokens()\n                    ), f\"ALL {all_tokens} NEXT {state.next_tokens()}\"\n                    state = state.advance(token)\n\n    def test_sequences(self):\n        for constraints, tokens, expected in self.sequences:\n            state = UnorderedConstraintState.create(pack_constraints([constraints])[0])\n            for token in tokens:\n                state = state.advance(token)\n            result = {}\n            for attr in expected.keys():\n                result[attr] = getattr(state, attr)\n\n            assert (\n                result == expected\n            ), f\"TEST({tokens}) GOT: {result} WANTED: {expected}\"\n\n\nclass TestOrderedConstraintState(unittest.TestCase):\n    def setUp(self):\n        self.sequences = [\n            (\n                tensorize([[1, 2, 3], [1, 3], [1, 4], [4, 5, 6, 7], [1], [4, 5]]),\n                [],\n                {\"bank\": 0, \"num_completed\": 0, \"finished\": False, \"is_root\": True},\n            ),\n            (\n                tensorize([[1, 2, 3], [1, 3], [1, 4], [4, 5, 6, 7], [1], [4, 5]]),\n                [1, 2],\n                {\"bank\": 2, \"num_completed\": 0, \"finished\": False, \"is_root\": False},\n            ),\n            (\n                tensorize([[1, 2, 3], [1, 3], [1, 4], [4, 5, 6, 7], [1], [4, 5]]),\n                [1, 2, 94],\n                {\"bank\": 0, \"num_completed\": 0, \"finished\": False, \"is_root\": True},\n            ),\n            (\n                tensorize([[1, 2, 3], [1, 3], [1, 4], [4, 5, 6, 7], [1], [4, 5]]),\n                [1, 3, 999, 1, 4],\n                {\"bank\": 0, \"num_completed\": 0, \"finished\": False, \"is_root\": True},\n            ),\n            (\n                tensorize([[1, 2, 3], [1, 3], [1, 4], [4, 5, 6, 7], [1], [4, 5]]),\n                [1, 2, 3, 999, 999],\n                {\"bank\": 3, \"num_completed\": 1, \"finished\": False, \"is_root\": False},\n            ),\n            (\n                tensorize([[1, 2, 3], [1, 3], [1, 4], [4, 5, 6, 7], [1], [4, 5]]),\n                [1, 2, 3, 77, 1, 3, 1],\n                {\"bank\": 6, \"num_completed\": 2, \"finished\": False, \"is_root\": False},\n            ),\n            (\n                tensorize([[1, 2, 3], [1, 3], [1, 4], [4, 5, 6, 7], [1], [4, 5]]),\n                [1, 2, 3, 1, 3, 1, 4, 4, 5, 6, 7, 1, 4, 5],\n                {\"bank\": 14, \"num_completed\": 6, \"finished\": True, \"is_root\": False},\n            ),\n            (\n                tensorize([[1, 2, 3], [1, 3], [1, 4], [4, 5, 6, 7], [1], [4, 5]]),\n                [1, 2, 999, 1, 2, 3, 999, 1, 3, 1, 4, 4, 5, 6, 7, 1, 4, 5, 117],\n                {\"bank\": 14, \"num_completed\": 6, \"finished\": True, \"is_root\": False},\n            ),\n            (\n                tensorize([[1], [2, 3]]),\n                [1, 1],\n                {\"bank\": 1, \"num_completed\": 1, \"finished\": False, \"is_root\": False},\n            ),\n            (\n                tensorize([[1, 2], [1, 2]]),\n                [1, 2, 1, 2],\n                {\"bank\": 4, \"num_completed\": 2, \"finished\": True, \"is_root\": False},\n            ),\n            (\n                tensorize([[1, 2], [1, 2]]),\n                [1, 2, 1, 2, 1],\n                {\"bank\": 4, \"num_completed\": 2, \"finished\": True, \"is_root\": False},\n            ),\n            (\n                tensorize([[1, 2], [3, 4]]),\n                [1, 2, 3, 4, 5],\n                {\"bank\": 4, \"num_completed\": 2, \"finished\": True, \"is_root\": False},\n            ),\n        ]\n\n    def test_sequences(self):\n        for i, (constraints, tokens, expected) in enumerate(self.sequences):\n            state = OrderedConstraintState.create(pack_constraints([constraints])[0])\n            for token in tokens:\n                state = state.advance(token)\n            result = {}\n            for attr in expected.keys():\n                result[attr] = getattr(state, attr)\n            assert (\n                result == expected\n            ), f\"TEST({tokens}) GOT: {result} WANTED: {expected}\"\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_convtbc.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nimport torch\nimport torch.nn as nn\nfrom fairseq.modules import ConvTBC\n\n\nclass TestConvTBC(unittest.TestCase):\n    def test_convtbc(self):\n        # ksz, in_channels, out_channels\n        conv_tbc = ConvTBC(4, 5, kernel_size=3, padding=1)\n        # out_channels, in_channels, ksz\n        conv1d = nn.Conv1d(4, 5, kernel_size=3, padding=1)\n\n        conv_tbc.weight.data.copy_(conv1d.weight.data.transpose(0, 2))\n        conv_tbc.bias.data.copy_(conv1d.bias.data)\n\n        input_tbc = torch.randn(7, 2, 4, requires_grad=True)\n        input1d = input_tbc.data.transpose(0, 1).transpose(1, 2)\n        input1d.requires_grad = True\n\n        output_tbc = conv_tbc(input_tbc)\n        output1d = conv1d(input1d)\n\n        self.assertAlmostEqual(\n            output_tbc.data.transpose(0, 1).transpose(1, 2), output1d.data\n        )\n\n        grad_tbc = torch.randn(output_tbc.size())\n        grad1d = grad_tbc.transpose(0, 1).transpose(1, 2).contiguous()\n\n        output_tbc.backward(grad_tbc)\n        output1d.backward(grad1d)\n\n        self.assertAlmostEqual(\n            conv_tbc.weight.grad.data.transpose(0, 2), conv1d.weight.grad.data\n        )\n        self.assertAlmostEqual(conv_tbc.bias.grad.data, conv1d.bias.grad.data)\n        self.assertAlmostEqual(\n            input_tbc.grad.data.transpose(0, 1).transpose(1, 2), input1d.grad.data\n        )\n\n    def assertAlmostEqual(self, t1, t2):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        self.assertLess((t1 - t2).abs().max(), 1e-4)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_data_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nimport numpy as np\n\nfrom fairseq.data.data_utils_fast import batch_by_size_fn, batch_by_size_vec\n\n\nclass TestBatchBySize(unittest.TestCase):\n    @classmethod\n    def batch_by_size_baseline(\n        cls,\n        indices,\n        num_tokens_vec,\n        max_tokens,\n        max_sentences,\n        bsz_mult,\n    ):\n        \"\"\"Simple, reliable and slow implementation of batch by size\"\"\"\n        batches = []\n        start = 0\n        while start < len(indices):\n            for end in range(start + 1, len(indices) + 1):\n                max_val = max(num_tokens_vec[pos] for pos in range(start, end))\n                sent_count = end - start\n                num_tokens = max_val * sent_count\n                overflow = num_tokens > max_tokens > 0 or sent_count > max_sentences > 0\n                terminate = overflow or end == len(indices)\n                if overflow:\n                    sent_count -= 1\n                if terminate:\n                    if sent_count > bsz_mult:\n                        sent_count = sent_count - sent_count % bsz_mult\n                    batches.append(indices[start : start + sent_count])\n                    start = start + sent_count\n                    break\n        return batches\n\n    @classmethod\n    def _get_error_message(\n        cls, max_sentences, max_tokens, bsz_mult, num_tokens_vec, validation, results\n    ):\n        return f\"\"\"Reference batch_by_size implementation should produce\n                    same output as the baseline method.\n                Params:\n                max_sentences={max_sentences},\n                max_tokens={max_tokens},\n                bsz_mult={bsz_mult},\n                num_tokens_vec={num_tokens_vec},\n                expected_batches={validation},\n                returned_batches={results}\"\"\"\n\n    def _compare_results(\n        self,\n        indices_len,\n        batch_by_size_impl,\n        max_sentences,\n        max_tokens,\n        bsz_mult,\n        num_tokens_vec,\n    ):\n        indices = np.array(list(range(indices_len)))\n        validation = self.batch_by_size_baseline(\n            indices,\n            num_tokens_vec,\n            max_tokens=max_tokens,\n            max_sentences=max_sentences,\n            bsz_mult=bsz_mult,\n        )\n        results = batch_by_size_impl(\n            indices,\n            num_tokens_vec,\n            max_tokens=max_tokens,\n            max_sentences=max_sentences,\n            bsz_mult=bsz_mult,\n        )\n        error_msg = self._get_error_message(\n            max_sentences, max_tokens, bsz_mult, num_tokens_vec, validation, results\n        )\n        self.assertEqual(len(validation), len(results), error_msg)\n        for first, second in zip(validation, results):\n            self.assertTrue(np.array_equal(first, second), error_msg)\n\n    def _run_compare_with_baseline_sweep(self, batch_by_size_impl):\n        \"\"\"Compare reference batch_by_size implementation with batch_by_size_baseline\n        across a dense grid of hyperparam values\"\"\"\n        MAX_MAX_TOKENS = 10\n        NUM_TOKENS_VECS_COUNT = 5\n        for indices_len in [10, 11]:  # try odd and even len of indices\n            for max_sentences in range(0, indices_len + 2):\n                for max_tokens in range(0, MAX_MAX_TOKENS):\n                    for bsz_mult in range(1, max(MAX_MAX_TOKENS, indices_len) + 2):\n                        for _ in range(NUM_TOKENS_VECS_COUNT):\n                            num_tokens_vec = np.random.randint(\n                                0, max_tokens + 1, size=indices_len\n                            )\n                            self._compare_results(\n                                indices_len,\n                                batch_by_size_impl,\n                                max_sentences,\n                                max_tokens,\n                                bsz_mult,\n                                num_tokens_vec,\n                            )\n\n\nclass TestBatchBySizeVec(TestBatchBySize):\n    def test_compare_with_baseline(self):\n        self._run_compare_with_baseline_sweep(batch_by_size_vec)\n\n\nclass TestBatchBySizeFn(TestBatchBySize):\n    def test_compare_with_baseline(self):\n        def batch_by_size_fn_wrapper(\n            indices,\n            num_tokens_vec,\n            max_tokens,\n            max_sentences,\n            bsz_mult,\n        ):\n            def num_tokens_fn(idx):\n                return num_tokens_vec[idx]\n\n            return batch_by_size_fn(\n                indices, num_tokens_fn, max_tokens, max_sentences, bsz_mult\n            )\n\n        self._run_compare_with_baseline_sweep(batch_by_size_fn_wrapper)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_dataclass_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nfrom argparse import ArgumentParser\nfrom dataclasses import dataclass, field\n\nfrom fairseq.dataclass import FairseqDataclass\nfrom fairseq.dataclass.utils import gen_parser_from_dataclass\n\n\n@dataclass\nclass A(FairseqDataclass):\n    data: str = field(default=\"test\", metadata={\"help\": \"the data input\"})\n    num_layers: int = field(default=200, metadata={\"help\": \"more layers is better?\"})\n\n\n@dataclass\nclass B(FairseqDataclass):\n    bar: A = field(default=A())\n    foo: int = field(default=0, metadata={\"help\": \"not a bar\"})\n\n\n@dataclass\nclass D(FairseqDataclass):\n    arch: A = field(default=A())\n    foo: int = field(default=0, metadata={\"help\": \"not a bar\"})\n\n\n@dataclass\nclass C(FairseqDataclass):\n    data: str = field(default=\"test\", metadata={\"help\": \"root level data input\"})\n    encoder: D = field(default=D())\n    decoder: A = field(default=A())\n    lr: int = field(default=0, metadata={\"help\": \"learning rate\"})\n\n\nclass TestDataclassUtils(unittest.TestCase):\n    def test_argparse_convert_basic(self):\n        parser = ArgumentParser()\n        gen_parser_from_dataclass(parser, A(), True)\n        args = parser.parse_args([\"--num-layers\", \"10\", \"the/data/path\"])\n        self.assertEqual(args.num_layers, 10)\n        self.assertEqual(args.data, \"the/data/path\")\n\n    def test_argparse_recursive(self):\n        parser = ArgumentParser()\n        gen_parser_from_dataclass(parser, B(), True)\n        args = parser.parse_args([\"--num-layers\", \"10\", \"--foo\", \"10\", \"the/data/path\"])\n        self.assertEqual(args.num_layers, 10)\n        self.assertEqual(args.foo, 10)\n        self.assertEqual(args.data, \"the/data/path\")\n\n    def test_argparse_recursive_prefixing(self):\n        self.maxDiff = None\n        parser = ArgumentParser()\n        gen_parser_from_dataclass(parser, C(), True, \"\")\n        args = parser.parse_args(\n            [\n                \"--encoder-arch-data\",\n                \"ENCODER_ARCH_DATA\",\n                \"--encoder-arch-num-layers\",\n                \"10\",\n                \"--encoder-foo\",\n                \"10\",\n                \"--decoder-data\",\n                \"DECODER_DATA\",\n                \"--decoder-num-layers\",\n                \"10\",\n                \"--lr\",\n                \"10\",\n                \"the/data/path\",\n            ]\n        )\n        self.assertEqual(args.encoder_arch_data, \"ENCODER_ARCH_DATA\")\n        self.assertEqual(args.encoder_arch_num_layers, 10)\n        self.assertEqual(args.encoder_foo, 10)\n        self.assertEqual(args.decoder_data, \"DECODER_DATA\")\n        self.assertEqual(args.decoder_num_layers, 10)\n        self.assertEqual(args.lr, 10)\n        self.assertEqual(args.data, \"the/data/path\")\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport unittest\nfrom typing import Sequence\n\nfrom fairseq.data import LanguagePairDataset, ListDataset, RoundRobinZipDatasets\nfrom tests.test_train import mock_dict\n\n\ndef lang_pair_dataset(lengths: Sequence[int]) -> LanguagePairDataset:\n    tokens = [[i] * l for i, l in enumerate(lengths)]\n    return LanguagePairDataset(ListDataset(tokens), lengths, mock_dict())\n\n\ndef sample(id: int, length: int):\n    return {\"id\": id, \"source\": [id] * length, \"target\": None}\n\n\nclass TestDataset(unittest.TestCase):\n    def setUp(self):\n        logging.disable(logging.CRITICAL)\n\n    def tearDown(self):\n        logging.disable(logging.NOTSET)\n\n    def test_round_robin_zip_datasets(self):\n        long_dataset = lang_pair_dataset([10, 9, 8, 11])\n        short_dataset = lang_pair_dataset([11, 9])\n\n        dataset = RoundRobinZipDatasets({\"a\": long_dataset, \"b\": short_dataset})\n        # Dataset is now sorted by sentence length\n        dataset.ordered_indices()\n        assert dataset.longest_dataset is long_dataset\n        self.assertEqual(dict(dataset[0]), {\"a\": sample(2, 8), \"b\": sample(1, 9)})\n        # The item 2 of dataset 'a' is with item (2 % 2 = 0) of dataset 'b'\n        self.assertEqual(dict(dataset[2]), {\"a\": sample(0, 10), \"b\": sample(1, 9)})\n\n    def test_round_robin_zip_datasets_filtered(self):\n        long_dataset = lang_pair_dataset([10, 20, 8, 11, 1000, 7, 12])\n        short_dataset = lang_pair_dataset([11, 20, 9, 1000])\n\n        dataset = RoundRobinZipDatasets({\"a\": long_dataset, \"b\": short_dataset})\n        # Dataset is now sorted by sentence length\n        idx = dataset.ordered_indices()\n        idx, _ = dataset.filter_indices_by_size(idx, {\"a\": 19, \"b\": 900})\n        self.assertEqual(list(idx), [0, 1, 2, 3, 4])\n        self.assertEqual(dict(dataset[0]), {\"a\": sample(5, 7), \"b\": sample(2, 9)})\n        self.assertEqual(dict(dataset[2]), {\"a\": sample(0, 10), \"b\": sample(1, 20)})\n        self.assertEqual(dict(dataset[4]), {\"a\": sample(6, 12), \"b\": sample(0, 11)})\n\n    def test_round_robin_zip_datasets_filtered_with_tuple(self):\n        long_dataset = lang_pair_dataset([10, 20, 8, 11, 1000, 7, 12])\n        short_dataset = lang_pair_dataset([11, 20, 9, 1000])\n\n        dataset = RoundRobinZipDatasets({\"a\": long_dataset, \"b\": short_dataset})\n        # Dataset is now sorted by sentence length\n        idx = dataset.ordered_indices()\n        idx, _ = dataset.filter_indices_by_size(idx, 19)\n        self.assertEqual(list(idx), [0, 1, 2, 3, 4])\n        self.assertEqual(dict(dataset[0]), {\"a\": sample(5, 7), \"b\": sample(2, 9)})\n        self.assertEqual(dict(dataset[2]), {\"a\": sample(0, 10), \"b\": sample(2, 9)})\n        self.assertEqual(dict(dataset[4]), {\"a\": sample(6, 12), \"b\": sample(2, 9)})\n"
  },
  {
    "path": "tests/test_dictionary.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport io\nimport os\nimport string\nimport tempfile\nimport unittest\n\nimport torch\nfrom fairseq import tokenizer\nfrom fairseq.data import Dictionary\n\n\nclass TestDictionary(unittest.TestCase):\n    def test_finalize(self):\n        txt = [\n            \"A B C D\",\n            \"B C D\",\n            \"C D\",\n            \"D\",\n        ]\n        ref_ids1 = list(\n            map(\n                torch.IntTensor,\n                [\n                    [4, 5, 6, 7, 2],\n                    [5, 6, 7, 2],\n                    [6, 7, 2],\n                    [7, 2],\n                ],\n            )\n        )\n        ref_ids2 = list(\n            map(\n                torch.IntTensor,\n                [\n                    [7, 6, 5, 4, 2],\n                    [6, 5, 4, 2],\n                    [5, 4, 2],\n                    [4, 2],\n                ],\n            )\n        )\n\n        # build dictionary\n        d = Dictionary()\n        for line in txt:\n            d.encode_line(line, add_if_not_exist=True)\n\n        def get_ids(dictionary):\n            ids = []\n            for line in txt:\n                ids.append(dictionary.encode_line(line, add_if_not_exist=False))\n            return ids\n\n        def assertMatch(ids, ref_ids):\n            for toks, ref_toks in zip(ids, ref_ids):\n                self.assertEqual(toks.size(), ref_toks.size())\n                self.assertEqual(0, (toks != ref_toks).sum().item())\n\n        ids = get_ids(d)\n        assertMatch(ids, ref_ids1)\n\n        # check finalized dictionary\n        d.finalize()\n        finalized_ids = get_ids(d)\n        assertMatch(finalized_ids, ref_ids2)\n\n        # write to disk and reload\n        with tempfile.NamedTemporaryFile(mode=\"w\") as tmp_dict:\n            d.save(tmp_dict.name)\n            d = Dictionary.load(tmp_dict.name)\n            reload_ids = get_ids(d)\n            assertMatch(reload_ids, ref_ids2)\n            assertMatch(finalized_ids, reload_ids)\n\n    def test_overwrite(self):\n        # for example, Camembert overwrites <unk>, <s> and </s>\n        dict_file = io.StringIO(\n            \"<unk> 999 #fairseq:overwrite\\n\"\n            \"<s> 999 #fairseq:overwrite\\n\"\n            \"</s> 999 #fairseq:overwrite\\n\"\n            \", 999\\n\"\n            \"▁de 999\\n\"\n        )\n        d = Dictionary()\n        d.add_from_file(dict_file)\n        self.assertEqual(d.index(\"<pad>\"), 1)\n        self.assertEqual(d.index(\"foo\"), 3)\n        self.assertEqual(d.index(\"<unk>\"), 4)\n        self.assertEqual(d.index(\"<s>\"), 5)\n        self.assertEqual(d.index(\"</s>\"), 6)\n        self.assertEqual(d.index(\",\"), 7)\n        self.assertEqual(d.index(\"▁de\"), 8)\n\n    def test_no_overwrite(self):\n        # for example, Camembert overwrites <unk>, <s> and </s>\n        dict_file = io.StringIO(\n            \"<unk> 999\\n\" \"<s> 999\\n\" \"</s> 999\\n\" \", 999\\n\" \"▁de 999\\n\"\n        )\n        d = Dictionary()\n        with self.assertRaisesRegex(RuntimeError, \"Duplicate\"):\n            d.add_from_file(dict_file)\n\n    def test_space(self):\n        # for example, character models treat space as a symbol\n        dict_file = io.StringIO(\"  999\\n\" \"a 999\\n\" \"b 999\\n\")\n        d = Dictionary()\n        d.add_from_file(dict_file)\n        self.assertEqual(d.index(\" \"), 4)\n        self.assertEqual(d.index(\"a\"), 5)\n        self.assertEqual(d.index(\"b\"), 6)\n\n    def test_add_file_to_dict(self):\n        counts = {}\n        num_lines = 100\n        per_line = 10\n        with tempfile.TemporaryDirectory(\"test_sampling\") as data_dir:\n            filename = os.path.join(data_dir, \"dummy.txt\")\n            with open(filename, \"w\", encoding=\"utf-8\") as data:\n                for c in string.ascii_letters:\n                    line = f\"{c} \" * per_line\n                    for _ in range(num_lines):\n                        data.write(f\"{line}\\n\")\n                    counts[c] = per_line * num_lines\n                    per_line += 5\n\n            dict = Dictionary()\n            Dictionary.add_file_to_dictionary(\n                filename, dict, tokenizer.tokenize_line, 10\n            )\n            dict.finalize(threshold=0, nwords=-1, padding_factor=8)\n\n            for c in string.ascii_letters:\n                count = dict.get_count(dict.index(c))\n                self.assertEqual(\n                    counts[c], count, f\"{c} count is {count} but should be {counts[c]}\"\n                )\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_ema.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nfrom copy import deepcopy\nfrom dataclasses import dataclass\nimport pytest\nfrom typing import Optional\nfrom unittest.mock import patch\n\nimport torch\n\nfrom fairseq.models.ema import EMA\n\n\nclass DummyModule(torch.nn.Module):\n    def __init__(self) -> None:\n        \"\"\"LightningModule for testing purposes\n\n        Args:\n            epoch_min_loss_override (int, optional): Pass in an epoch that will be set to the minimum\n                validation loss for testing purposes (zero based). If None this is ignored. Defaults to None.\n        \"\"\"\n        super().__init__()\n        self.layer = torch.nn.Linear(in_features=32, out_features=2)\n        self.another_layer = torch.nn.Linear(in_features=2, out_features=2)\n\n    def forward(self, x: torch.Tensor) -> torch.Tensor:\n        x = self.layer(x)\n        return self.another_layer(x)\n\n\n@dataclass\nclass EMAConfig(object):\n    ema_decay: float = 0.99\n    ema_start_update: int = 0\n    ema_fp32: bool = False\n    ema_seed_model: Optional[str] = None\n    ema_update_freq: int = 1\n\n\nclass TestEMA(unittest.TestCase):\n    def assertTorchAllClose(self, x, y, atol=1e-8, rtol=1e-5, msg=None):\n        diff = x.float() - y.float()\n        diff_norm = torch.norm(diff)\n        other_norm = torch.norm(y.float())\n\n        if msg is None:\n            msg = \"|input - other| > {} + {} * |other|\".format(atol, rtol)\n\n        self.assertLessEqual(\n            diff_norm,\n            atol + rtol * other_norm,\n            msg=msg,\n        )\n\n    def test_ema(self):\n        model = DummyModule()\n        optimizer = torch.optim.SGD(model.parameters(), lr=0.01)\n        state = deepcopy(model.state_dict())\n        config = EMAConfig()\n        ema = EMA(model, config)\n\n        # set decay\n        ema._set_decay(config.ema_decay)\n        self.assertEqual(ema.get_decay(), config.ema_decay)\n\n        # get model\n        self.assertEqual(ema.get_model(), ema.model)\n\n        # Since fp32 params is not used, it should be of size 0\n        self.assertEqual(len(ema.fp32_params), 0)\n\n        # EMA step\n        x = torch.randn(32)\n        y = model(x)\n        loss = y.sum()\n        loss.backward()\n        optimizer.step()\n\n        ema.step(model)\n\n        ema_state_dict = ema.get_model().state_dict()\n\n        for key, param in model.state_dict().items():\n            prev_param = state[key]\n            ema_param = ema_state_dict[key]\n\n            if \"version\" in key:\n                # Do not decay a model.version pytorch param\n                continue\n            self.assertTorchAllClose(\n                ema_param,\n                config.ema_decay * prev_param + (1 - config.ema_decay) * param,\n            )\n\n        # Since fp32 params is not used, it should be of size 0\n        self.assertEqual(len(ema.fp32_params), 0)\n\n        # Load EMA into model\n        model2 = DummyModule()\n        ema.reverse(model2)\n\n        for key, param in model2.state_dict().items():\n            ema_param = ema_state_dict[key]\n            self.assertTrue(torch.allclose(ema_param, param))\n\n        # Check that step_internal is called once\n        with patch.object(ema, \"_step_internal\", return_value=None) as mock_method:\n            ema.step(model)\n            mock_method.assert_called_once_with(model, None)\n\n    def _test_ema_start_update(self, updates):\n        model = DummyModule()\n        optimizer = torch.optim.SGD(model.parameters(), lr=0.01)\n        state = deepcopy(model.state_dict())\n        config = EMAConfig(ema_start_update=1)\n        ema = EMA(model, config)\n\n        # EMA step\n        x = torch.randn(32)\n        y = model(x)\n        loss = y.sum()\n        loss.backward()\n        optimizer.step()\n\n        ema.step(model, updates=updates)\n        ema_state_dict = ema.get_model().state_dict()\n\n        self.assertEqual(ema.get_decay(), 0 if updates == 0 else config.ema_decay)\n\n        for key, param in model.state_dict().items():\n            ema_param = ema_state_dict[key]\n            prev_param = state[key]\n\n            if \"version\" in key:\n                # Do not decay a model.version pytorch param\n                continue\n            if updates == 0:\n                self.assertTorchAllClose(\n                    ema_param,\n                    param,\n                )\n            else:\n                self.assertTorchAllClose(\n                    ema_param,\n                    config.ema_decay * prev_param + (1 - config.ema_decay) * param,\n                )\n\n        # Check that step_internal is called once\n        with patch.object(ema, \"_step_internal\", return_value=None) as mock_method:\n            ema.step(model, updates=updates)\n            mock_method.assert_called_once_with(model, updates)\n\n    def test_ema_before_start_update(self):\n        self._test_ema_start_update(updates=0)\n\n    def test_ema_after_start_update(self):\n        self._test_ema_start_update(updates=1)\n\n    def test_ema_fp32(self):\n        dtype = torch.float\n\n        model = DummyModule().to(dtype)\n        optimizer = torch.optim.SGD(model.parameters(), lr=0.01)\n        state = deepcopy(model.state_dict())\n        config = EMAConfig(ema_fp32=True)\n        ema = EMA(model, config)\n\n        x = torch.randn(32)\n        y = model(x.to(dtype))\n        loss = y.sum()\n        loss.backward()\n        optimizer.step()\n\n        ema.step(model)\n\n        for key, param in model.state_dict().items():\n            prev_param = state[key]\n            ema_param = ema.get_model().state_dict()[key]\n\n            if \"version\" in key:\n                # Do not decay a model.version pytorch param\n                continue\n            self.assertIn(key, ema.fp32_params)\n\n            # EMA update is done in fp32, and hence the EMA param must be\n            # closer to the EMA update done in fp32 than in fp16.\n            self.assertLessEqual(\n                torch.norm(\n                    ema_param.float()\n                    - (\n                        config.ema_decay * prev_param.float()\n                        + (1 - config.ema_decay) * param.float()\n                    )\n                    .to(dtype)\n                    .float()\n                ),\n                torch.norm(\n                    ema_param.float()\n                    - (\n                        config.ema_decay * prev_param + (1 - config.ema_decay) * param\n                    ).float()\n                ),\n            )\n            self.assertTorchAllClose(\n                ema_param,\n                (\n                    config.ema_decay * prev_param.float()\n                    + (1 - config.ema_decay) * param.float()\n                ).to(dtype),\n            )\n\n    @pytest.mark.skipif(\n        not torch.cuda.is_available(),\n        reason=\"CPU no longer supports Linear in half precision\",\n    )\n    def test_ema_fp16(self):\n        model = DummyModule().cuda().half()\n        optimizer = torch.optim.SGD(model.parameters(), lr=0.01)\n        state = deepcopy(model.state_dict())\n        config = EMAConfig(ema_fp32=False)\n        ema = EMA(model, config)\n\n        # Since fp32 params is not used, it should be of size 0\n        self.assertEqual(len(ema.fp32_params), 0)\n\n        x = torch.randn(32).cuda()\n        y = model(x.half())\n        loss = y.sum()\n        loss.backward()\n        optimizer.step()\n\n        ema.step(model)\n\n        for key, param in model.state_dict().items():\n            prev_param = state[key]\n            ema_param = ema.get_model().state_dict()[key]\n\n            if \"version\" in key:\n                # Do not decay a model.version pytorch param\n                continue\n\n            # EMA update is done in fp16, and hence the EMA param must be\n            # closer to the EMA update done in fp16 than in fp32.\n            self.assertLessEqual(\n                torch.norm(\n                    ema_param.float()\n                    - (\n                        config.ema_decay * prev_param + (1 - config.ema_decay) * param\n                    ).float()\n                ),\n                torch.norm(\n                    ema_param.float()\n                    - (\n                        config.ema_decay * prev_param.float()\n                        + (1 - config.ema_decay) * param.float()\n                    )\n                    .half()\n                    .float()\n                ),\n            )\n            self.assertTorchAllClose(\n                ema_param,\n                config.ema_decay * prev_param + (1 - config.ema_decay) * param,\n            )\n\n        # Since fp32 params is not used, it should be of size 0\n        self.assertEqual(len(ema.fp32_params), 0)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_espnet_multihead_attention.py",
    "content": "import torch\nimport numpy as np\nimport unittest\nfrom fairseq.modules import (\n    ESPNETMultiHeadedAttention,\n    RelPositionMultiHeadedAttention,\n    RotaryPositionMultiHeadedAttention,\n)\n\ntorch.use_deterministic_algorithms(True)\n\n\nclass TestESPNETMultiHeadedAttention(unittest.TestCase):\n    def setUp(self) -> None:\n        self.T = 3\n        self.B = 1\n        self.C = 2\n        torch.manual_seed(0)\n        self.sample = torch.randn(self.T, self.B, self.C)  # TBC\n        self.sample_scores = torch.randn(self.B, 1, self.T, self.T)\n        self.MHA = ESPNETMultiHeadedAttention(self.C, 1, dropout=0)\n\n    def test_forward(self):\n        expected_scores = torch.tensor(\n            [[[0.1713, -0.3776]], [[0.2263, -0.4486]], [[0.2243, -0.4538]]]\n        )\n        scores, _ = self.MHA(self.sample, self.sample, self.sample)\n        self.assertTrue(\n            np.allclose(\n                expected_scores.cpu().detach().numpy(),\n                scores.cpu().detach().numpy(),\n                atol=1e-4,\n            )\n        )\n\n    def test_forward_qkv(self):\n        expected_query = torch.tensor(\n            [[[[-1.0235, 0.0409], [0.4008, 1.3077], [0.5396, 2.0698]]]]\n        )\n        expected_key = torch.tensor(\n            [[[[0.5053, -0.4965], [-0.3730, -0.9473], [-0.7019, -0.1935]]]]\n        )\n        expected_val = torch.tensor(\n            [[[[-0.9940, 0.5403], [0.5924, -0.7619], [0.7504, -1.0892]]]]\n        )\n        sample_t = self.sample.transpose(0, 1)\n        query, key, val = self.MHA.forward_qkv(sample_t, sample_t, sample_t)\n        self.assertTrue(\n            np.allclose(\n                expected_query.cpu().detach().numpy(),\n                query.cpu().detach().numpy(),\n                atol=1e-4,\n            )\n        )\n        self.assertTrue(\n            np.allclose(\n                expected_key.cpu().detach().numpy(),\n                key.cpu().detach().numpy(),\n                atol=1e-4,\n            )\n        )\n        self.assertTrue(\n            np.allclose(\n                expected_val.cpu().detach().numpy(),\n                val.cpu().detach().numpy(),\n                atol=1e-4,\n            )\n        )\n\n    def test_forward_attention(self):\n        expected_scores = torch.tensor(\n            [[[0.1627, -0.6249], [-0.2547, -0.6487], [-0.0711, -0.8545]]]\n        )\n        scores = self.MHA.forward_attention(\n            self.sample.transpose(0, 1).view(self.B, 1, self.T, self.C),\n            self.sample_scores,\n            mask=None,\n        )\n        self.assertTrue(\n            np.allclose(\n                expected_scores.cpu().detach().numpy(),\n                scores.cpu().detach().numpy(),\n                atol=1e-4,\n            )\n        )\n\n\nclass TestRelPositionMultiHeadedAttention(unittest.TestCase):\n    def setUp(self) -> None:\n        self.T = 3\n        self.B = 1\n        self.C = 2\n        torch.manual_seed(0)\n        self.sample = torch.randn(self.T, self.B, self.C)  # TBC\n        self.sample_x = torch.randn(self.B, 1, self.T, self.T * 2 - 1)\n        self.sample_pos = torch.randn(self.B, self.T * 2 - 1, self.C)\n        self.MHA = RelPositionMultiHeadedAttention(self.C, 1, dropout=0)\n\n    def test_rel_shift(self):\n        expected_x = torch.tensor(\n            [\n                [\n                    [\n                        [-0.7193, -0.4033, -0.5966],\n                        [-0.8567, 1.1006, -1.0712],\n                        [-0.5663, 0.3731, -0.8920],\n                    ]\n                ]\n            ]\n        )\n        x = self.MHA.rel_shift(self.sample_x)\n        self.assertTrue(\n            np.allclose(\n                expected_x.cpu().detach().numpy(),\n                x.cpu().detach().numpy(),\n                atol=1e-4,\n            )\n        )\n\n    def test_forward(self):\n        expected_scores = torch.tensor(\n            [\n                [[-0.9609, -0.5020]],\n                [[-0.9308, -0.4890]],\n                [[-0.9473, -0.4948]],\n                [[-0.9609, -0.5020]],\n                [[-0.9308, -0.4890]],\n                [[-0.9473, -0.4948]],\n                [[-0.9609, -0.5020]],\n                [[-0.9308, -0.4890]],\n                [[-0.9473, -0.4948]],\n                [[-0.9609, -0.5020]],\n                [[-0.9308, -0.4890]],\n                [[-0.9473, -0.4948]],\n                [[-0.9609, -0.5020]],\n                [[-0.9308, -0.4890]],\n                [[-0.9473, -0.4948]],\n            ]\n        )\n        scores, _ = self.MHA(self.sample, self.sample, self.sample, self.sample_pos)\n        self.assertTrue(\n            np.allclose(\n                expected_scores.cpu().detach().numpy(),\n                scores.cpu().detach().numpy(),\n                atol=1e-4,\n            )\n        )\n\n\nclass TestRotaryPositionMultiHeadedAttention(unittest.TestCase):\n    def setUp(self) -> None:\n        self.T = 3\n        self.B = 1\n        self.C = 2\n        torch.manual_seed(0)\n        self.sample = torch.randn(self.T, self.B, self.C)  # TBC\n        self.MHA = RotaryPositionMultiHeadedAttention(\n            self.C, 1, dropout=0, precision=None\n        )\n\n    def test_forward(self):\n        expected_scores = torch.tensor(\n            [[[-0.3220, -0.4726]], [[-1.2813, -0.0979]], [[-0.3138, -0.4758]]]\n        )\n        scores, _ = self.MHA(self.sample, self.sample, self.sample)\n        self.assertTrue(\n            np.allclose(\n                expected_scores.cpu().detach().numpy(),\n                scores.cpu().detach().numpy(),\n                atol=1e-4,\n            )\n        )\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_export.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport tempfile\nimport unittest\n\nimport torch\n\nfrom fairseq.data.dictionary import Dictionary\nfrom fairseq.models.transformer import TransformerModel\nfrom fairseq.modules import multihead_attention, sinusoidal_positional_embedding\nfrom fairseq.tasks.fairseq_task import LegacyFairseqTask\n\nDEFAULT_TEST_VOCAB_SIZE = 100\n\n\nclass DummyTask(LegacyFairseqTask):\n    def __init__(self, args):\n        super().__init__(args)\n        self.dictionary = get_dummy_dictionary()\n        if getattr(self.args, \"ctc\", False):\n            self.dictionary.add_symbol(\"<ctc_blank>\")\n        self.src_dict = self.dictionary\n        self.tgt_dict = self.dictionary\n\n    @property\n    def source_dictionary(self):\n        return self.src_dict\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n\n\ndef get_dummy_dictionary(vocab_size=DEFAULT_TEST_VOCAB_SIZE):\n    dummy_dict = Dictionary()\n    # add dummy symbol to satisfy vocab size\n    for id, _ in enumerate(range(vocab_size)):\n        dummy_dict.add_symbol(\"{}\".format(id), 1000)\n    return dummy_dict\n\n\ndef get_dummy_task_and_parser():\n    \"\"\"\n    Return a dummy task and argument parser, which can be used to\n    create a model/criterion.\n    \"\"\"\n    parser = argparse.ArgumentParser(\n        description=\"test_dummy_s2s_task\", argument_default=argparse.SUPPRESS\n    )\n    DummyTask.add_args(parser)\n    args = parser.parse_args([])\n    task = DummyTask.setup_task(args)\n    return task, parser\n\n\ndef _test_save_and_load(scripted_module):\n    with tempfile.NamedTemporaryFile() as f:\n        scripted_module.save(f.name)\n        torch.jit.load(f.name)\n\n\nclass TestExportModels(unittest.TestCase):\n    def test_export_multihead_attention(self):\n        module = multihead_attention.MultiheadAttention(embed_dim=8, num_heads=2)\n        scripted = torch.jit.script(module)\n        _test_save_and_load(scripted)\n\n    def test_incremental_state_multihead_attention(self):\n        module1 = multihead_attention.MultiheadAttention(embed_dim=8, num_heads=2)\n        module1 = torch.jit.script(module1)\n        module2 = multihead_attention.MultiheadAttention(embed_dim=8, num_heads=2)\n        module2 = torch.jit.script(module2)\n\n        state = {}\n        state = module1.set_incremental_state(state, \"key\", {\"a\": torch.tensor([1])})\n        state = module2.set_incremental_state(state, \"key\", {\"a\": torch.tensor([2])})\n        v1 = module1.get_incremental_state(state, \"key\")[\"a\"]\n        v2 = module2.get_incremental_state(state, \"key\")[\"a\"]\n\n        self.assertEqual(v1, 1)\n        self.assertEqual(v2, 2)\n\n    def test_positional_embedding(self):\n        module = sinusoidal_positional_embedding.SinusoidalPositionalEmbedding(\n            embedding_dim=8, padding_idx=1\n        )\n        scripted = torch.jit.script(module)\n        _test_save_and_load(scripted)\n\n    @unittest.skipIf(\n        torch.__version__ < \"1.6.0\", \"Targeting OSS scriptability for the 1.6 release\"\n    )\n    def test_export_transformer(self):\n        task, parser = get_dummy_task_and_parser()\n        TransformerModel.add_args(parser)\n        args = parser.parse_args([])\n        model = TransformerModel.build_model(args, task)\n        scripted = torch.jit.script(model)\n        _test_save_and_load(scripted)\n\n    @unittest.skipIf(\n        torch.__version__ < \"1.6.0\", \"Targeting OSS scriptability for the 1.6 release\"\n    )\n    def test_export_transformer_no_token_pos_emb(self):\n        task, parser = get_dummy_task_and_parser()\n        TransformerModel.add_args(parser)\n        args = parser.parse_args([])\n        args.no_token_positional_embeddings = True\n        model = TransformerModel.build_model(args, task)\n        scripted = torch.jit.script(model)\n        _test_save_and_load(scripted)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_file_chunker_utils.py",
    "content": "# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport shutil\nimport tempfile\nimport unittest\nfrom typing import Optional\n\n\nclass TestFileChunker(unittest.TestCase):\n    _tmpdir: Optional[str] = None\n    _tmpfile: Optional[str] = None\n    _line_content = \"Hello, World\\n\"\n    _num_bytes = None\n    _num_lines = 200\n    _num_splits = 20\n\n    @classmethod\n    def setUpClass(cls) -> None:\n        cls._num_bytes = len(cls._line_content.encode(\"utf-8\"))\n        cls._tmpdir = tempfile.mkdtemp()\n        with open(os.path.join(cls._tmpdir, \"test.txt\"), \"w\") as f:\n            cls._tmpfile = f.name\n            for _i in range(cls._num_lines):\n                f.write(cls._line_content)\n            f.flush()\n\n    @classmethod\n    def tearDownClass(cls) -> None:\n        # Cleanup temp working dir.\n        if cls._tmpdir is not None:\n            shutil.rmtree(cls._tmpdir)  # type: ignore\n\n    def test_find_offsets(self):\n        from fairseq.file_chunker_utils import find_offsets\n\n        offsets = find_offsets(self._tmpfile, self._num_splits)\n        self.assertEqual(len(offsets), self._num_splits + 1)\n        (zero, *real_offsets, last) = offsets\n        self.assertEqual(zero, 0)\n        for i, o in enumerate(real_offsets):\n            self.assertEqual(\n                o,\n                self._num_bytes\n                + ((i + 1) * self._num_bytes * self._num_lines / self._num_splits),\n            )\n        self.assertEqual(last, self._num_bytes * self._num_lines)\n\n    def test_readchunks(self):\n        from fairseq.file_chunker_utils import Chunker, find_offsets\n\n        offsets = find_offsets(self._tmpfile, self._num_splits)\n        for start, end in zip(offsets, offsets[1:]):\n            with Chunker(self._tmpfile, start, end) as lines:\n                all_lines = list(lines)\n                num_lines = self._num_lines / self._num_splits\n                self.assertAlmostEqual(\n                    len(all_lines), num_lines, delta=1\n                )  # because we split on the bites, we might end up with one more/less line in a chunk\n                self.assertListEqual(\n                    all_lines, [self._line_content for _ in range(len(all_lines))]\n                )\n"
  },
  {
    "path": "tests/test_file_io.py",
    "content": "# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport shutil\nimport sys\nimport tempfile\nimport unittest\nfrom typing import Optional\nfrom unittest.mock import MagicMock\n\n\nclass TestFileIO(unittest.TestCase):\n\n    _tmpdir: Optional[str] = None\n    _tmpfile: Optional[str] = None\n    _tmpfile_contents = \"Hello, World\"\n\n    @classmethod\n    def setUpClass(cls) -> None:\n        cls._tmpdir = tempfile.mkdtemp()\n        with open(os.path.join(cls._tmpdir, \"test.txt\"), \"w\") as f:\n            cls._tmpfile = f.name\n            f.write(cls._tmpfile_contents)\n            f.flush()\n\n    @classmethod\n    def tearDownClass(cls) -> None:\n        # Cleanup temp working dir.\n        if cls._tmpdir is not None:\n            shutil.rmtree(cls._tmpdir)  # type: ignore\n\n    def test_file_io(self):\n        from fairseq.file_io import PathManager\n\n        with PathManager.open(os.path.join(self._tmpdir, \"test.txt\"), \"r\") as f:\n            s = f.read()\n        self.assertEqual(s, self._tmpfile_contents)\n\n    def test_file_io_oss(self):\n        # Mock iopath to simulate oss environment.\n        sys.modules[\"iopath\"] = MagicMock()\n        from fairseq.file_io import PathManager\n\n        with PathManager.open(os.path.join(self._tmpdir, \"test.txt\"), \"r\") as f:\n            s = f.read()\n        self.assertEqual(s, self._tmpfile_contents)\n\n    def test_file_io_async(self):\n        # ioPath `PathManager` is initialized after the first `opena` call.\n        try:\n            from fairseq.file_io import PathManager\n\n            _asyncfile = os.path.join(self._tmpdir, \"async.txt\")\n            f = PathManager.opena(_asyncfile, \"wb\")\n            f.close()\n\n        finally:\n            self.assertTrue(PathManager.async_close())\n"
  },
  {
    "path": "tests/test_fp16_optimizer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport copy\nimport logging\nimport unittest\n\nimport torch\nfrom fairseq.optim.fp16_optimizer import FP16Optimizer, MemoryEfficientFP16Optimizer\nfrom omegaconf import OmegaConf\n\n\n@unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\nclass TestGradientScaling(unittest.TestCase):\n    def setUp(self):\n        self.x = torch.tensor([2.0]).cuda().half()\n        weight = 3.0\n        bias = 5.0\n        self.error = 1.0\n        self.target = torch.tensor([self.x * weight + bias + self.error]).cuda().half()\n        self.loss_fn = torch.nn.L1Loss()\n\n        self.model = torch.nn.Linear(1, 1)\n        self.model.weight.data = torch.tensor([[weight]])\n        self.model.bias.data = torch.tensor([bias])\n        self.model.cuda().half()\n        self.params = list(self.model.parameters())\n\n        self.cfg_dls = OmegaConf.create(\n            {\n                \"optimization\": {\n                    \"lr\": [0.1],\n                },\n                \"optimizer\": {\n                    \"_name\": \"adam\",\n                    \"lr\": [0.1],\n                    \"adam_betas\": \"(0.9, 0.999)\",\n                    \"adam_eps\": 1e-8,\n                    \"weight_decay\": 0.0,\n                },\n                \"common\": {\n                    \"fp16_init_scale\": 1,\n                    \"fp16_scale_window\": 1,\n                    \"fp16_scale_tolerance\": 1,\n                    \"threshold_loss_scale\": 1,\n                    \"min_loss_scale\": 1e-4,\n                    \"tpu\": False,\n                },\n            }\n        )\n        logging.disable(logging.CRITICAL)\n\n    def tearDown(self):\n        logging.disable(logging.NOTSET)\n\n    def run_iter(self, model, params, optimizer):\n        optimizer.zero_grad()\n        y = model(self.x)\n        loss = self.loss_fn(y, self.target)\n        optimizer.backward(loss)\n        self.assertEqual(loss, torch.tensor(1.0, device=\"cuda:0\", dtype=torch.float16))\n\n        grad_norm = optimizer.clip_grad_norm(0)\n        self.assertAlmostEqual(grad_norm.item(), 2.2361, 4)\n\n        optimizer.step()\n        self.assertEqual(\n            model.weight,\n            torch.tensor(\n                [[3.0996]], device=\"cuda:0\", dtype=torch.float16, requires_grad=True\n            ),\n        )\n        self.assertEqual(\n            model.bias,\n            torch.tensor(\n                [5.1016], device=\"cuda:0\", dtype=torch.float16, requires_grad=True\n            ),\n        )\n        self.assertEqual(optimizer.scaler.loss_scale, 2.0)\n\n    def test_mixed_precision(self):\n        model = copy.deepcopy(self.model)\n        params = list(model.parameters())\n        optimizer = FP16Optimizer.build_optimizer(self.cfg_dls, params)\n\n        self.run_iter(model, params, optimizer)\n        self.assertTrue(\n            all(\n                torch.all(\n                    fp32_params.eq(\n                        torch.tensor(\n                            [3.1000, 5.1000], device=\"cuda:0\", requires_grad=True\n                        )\n                    )\n                )\n                for fp32_params in optimizer.fp32_params.values()\n            )\n        )\n\n    def test_memory_efficient(self):\n        model = copy.deepcopy(self.model)\n        params = list(model.parameters())\n        optimizer = MemoryEfficientFP16Optimizer.build_optimizer(self.cfg_dls, params)\n\n        self.run_iter(model, params, optimizer)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_hf_hub.py",
    "content": "#!/usr/bin/env python3\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nimport torch\n\ntry:\n    import huggingface_hub\nexcept ImportError:\n    huggingface_hub = None\n\nfrom fairseq.checkpoint_utils import load_model_ensemble_and_task_from_hf_hub\n\n\n@unittest.skipIf(not huggingface_hub, \"Requires huggingface_hub install\")\nclass TestHuggingFaceHub(unittest.TestCase):\n    @torch.no_grad()\n    def test_hf_fastspeech2(self):\n        hf_model_id = \"facebook/fastspeech2-en-ljspeech\"\n        models, cfg, task = load_model_ensemble_and_task_from_hf_hub(hf_model_id)\n        self.assertTrue(len(models) > 0)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_huffman.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport os\nimport typing as tp\nimport unittest\nfrom collections import Counter\nfrom tempfile import NamedTemporaryFile, TemporaryDirectory\n\nfrom fairseq.data import Dictionary, indexed_dataset\nfrom fairseq.data.huffman import (\n    HuffmanCodeBuilder,\n    HuffmanCoder,\n    HuffmanMMapIndexedDataset,\n    HuffmanMMapIndexedDatasetBuilder,\n)\nfrom tests.utils import POPULATION, make_data, sizes\n\n\ndef make_counts(data: tp.List[tp.List[str]]) -> Counter:\n    return Counter([symbol for sentence in data for symbol in sentence])\n\n\ndef make_code_builder(data: tp.List[tp.List[str]]) -> HuffmanCodeBuilder:\n    builder = HuffmanCodeBuilder()\n    for sentence in data:\n        builder.add_symbols(*sentence)\n    return builder\n\n\nclass TestCodeBuilder(unittest.TestCase):\n    def test_code_builder_can_count(self):\n        data = make_data()\n        counts = make_counts(data)\n        builder = make_code_builder(data)\n\n        self.assertEqual(builder.symbols, counts)\n\n    def test_code_builder_can_add(self):\n        data = make_data()\n        counts = make_counts(data)\n        builder = make_code_builder(data)\n\n        new_builder = builder + builder\n\n        self.assertEqual(new_builder.symbols, counts + counts)\n\n    def test_code_builder_can_io(self):\n        data = make_data()\n        builder = make_code_builder(data)\n\n        with NamedTemporaryFile() as tmp_fp:\n            builder.to_file(tmp_fp.name)\n            other_builder = HuffmanCodeBuilder.from_file(tmp_fp.name)\n\n            self.assertEqual(builder.symbols, other_builder.symbols)\n\n\nclass TestCoder(unittest.TestCase):\n    def test_coder_can_io(self):\n        data = make_data()\n        builder = make_code_builder(data)\n        coder = builder.build_code()\n\n        with NamedTemporaryFile() as tmp_fp:\n            coder.to_file(tmp_fp.name)\n            other_coder = HuffmanCoder.from_file(tmp_fp.name)\n\n            self.assertEqual(coder, other_coder)\n\n    def test_coder_can_encode_decode(self):\n        data = make_data()\n        builder = make_code_builder(data)\n        coder = builder.build_code()\n\n        encoded = [coder.encode(sentence) for sentence in data]\n        decoded = [[n.symbol for n in coder.decode(enc)] for enc in encoded]\n\n        self.assertEqual(decoded, data)\n\n        unseen_data = make_data()\n        unseen_encoded = [coder.encode(sentence) for sentence in unseen_data]\n        unseen_decoded = [\n            [n.symbol for n in coder.decode(enc)] for enc in unseen_encoded\n        ]\n        self.assertEqual(unseen_decoded, unseen_data)\n\n\ndef build_dataset(prefix, data, coder):\n    with HuffmanMMapIndexedDatasetBuilder(prefix, coder) as builder:\n        for sentence in data:\n            builder.add_item(sentence)\n\n\nclass TestHuffmanDataset(unittest.TestCase):\n    def test_huffman_can_encode_decode(self):\n        data = make_data()\n        builder = make_code_builder(data)\n        coder = builder.build_code()\n\n        with TemporaryDirectory() as dirname:\n            prefix = os.path.join(dirname, \"test1\")\n            build_dataset(prefix, data, coder)\n            dataset = HuffmanMMapIndexedDataset(prefix)\n\n            self.assertEqual(len(dataset), len(data))\n            decoded = [list(dataset.get_symbols(i)) for i in range(0, len(dataset))]\n\n            self.assertEqual(decoded, data)\n            data_sizes = [i.item() for i in dataset.sizes]\n            self.assertEqual(data_sizes, sizes(data))\n\n    def test_huffman_compresses(self):\n        data = make_data()\n        builder = make_code_builder(data)\n        coder = builder.build_code()\n\n        with TemporaryDirectory() as dirname:\n            prefix = os.path.join(dirname, \"huffman\")\n            build_dataset(prefix, data, coder)\n\n            prefix_mmap = os.path.join(dirname, \"mmap\")\n            mmap_builder = indexed_dataset.make_builder(\n                indexed_dataset.data_file_path(prefix_mmap),\n                \"mmap\",\n                vocab_size=len(POPULATION),\n            )\n            dictionary = Dictionary()\n            for c in POPULATION:\n                dictionary.add_symbol(c)\n            dictionary.finalize()\n            for sentence in data:\n                mmap_builder.add_item(dictionary.encode_line(\" \".join(sentence)))\n            mmap_builder.finalize(indexed_dataset.index_file_path(prefix_mmap))\n\n            huff_size = os.stat(indexed_dataset.data_file_path(prefix)).st_size\n            mmap_size = os.stat(indexed_dataset.data_file_path(prefix_mmap)).st_size\n            self.assertLess(huff_size, mmap_size)\n\n    def test_huffman_can_append(self):\n        data1 = make_data()\n        builder = make_code_builder(data1)\n        coder = builder.build_code()\n\n        with TemporaryDirectory() as dirname:\n            prefix1 = os.path.join(dirname, \"test1\")\n            build_dataset(prefix1, data1, coder)\n\n            data2 = make_data()\n            prefix2 = os.path.join(dirname, \"test2\")\n            build_dataset(prefix2, data2, coder)\n\n            prefix3 = os.path.join(dirname, \"test3\")\n\n            with HuffmanMMapIndexedDatasetBuilder(prefix3, coder) as builder:\n                builder.append(prefix1)\n                builder.append(prefix2)\n\n            dataset = HuffmanMMapIndexedDataset(prefix3)\n\n            self.assertEqual(len(dataset), len(data1) + len(data2))\n\n            decoded1 = [list(dataset.get_symbols(i)) for i in range(0, len(data1))]\n            self.assertEqual(decoded1, data1)\n\n            decoded2 = [\n                list(dataset.get_symbols(i)) for i in range(len(data1), len(dataset))\n            ]\n            self.assertEqual(decoded2, data2)\n\n            data_sizes = [i.item() for i in dataset.sizes]\n            self.assertEqual(data_sizes[: len(data1)], sizes(data1))\n            self.assertEqual(data_sizes[len(data1) : len(dataset)], sizes(data2))\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_inference_dropout.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport logging\nimport unittest\n\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.models.transformer import TransformerModel\nfrom tests.test_sequence_generator import get_dummy_task_and_parser\n\n\nclass TestInferenceDropout(unittest.TestCase):\n    def setUp(self):\n        self.task, self.parser = get_dummy_task_and_parser()\n        TransformerModel.add_args(self.parser)\n        self.args = self.parser.parse_args([])\n        self.args.encoder_layers = 2\n        self.args.decoder_layers = 1\n        logging.disable(logging.CRITICAL)\n\n    def tearDown(self):\n        logging.disable(logging.NOTSET)\n\n    def test_sets_inference_dropout_to_true(self):\n        self.args.retain_dropout = True\n        self.transformer_model = TransformerModel.build_model(self.args, self.task)\n        cfg = convert_namespace_to_omegaconf(self.args)\n        self.transformer_model.prepare_for_inference_(cfg)\n        assert self.transformer_model.encoder.dropout_module.apply_during_inference\n        assert self.transformer_model.decoder.dropout_module.apply_during_inference\n        for layer in self.transformer_model.encoder.layers:\n            assert layer.dropout_module.apply_during_inference\n\n    def test_inference_dropout_false_by_default(self):\n        self.transformer_model = TransformerModel.build_model(self.args, self.task)\n        cfg = convert_namespace_to_omegaconf(self.args)\n        self.transformer_model.prepare_for_inference_(cfg)\n        assert not self.transformer_model.encoder.dropout_module.apply_during_inference\n        assert not self.transformer_model.decoder.dropout_module.apply_during_inference\n        for layer in self.transformer_model.encoder.layers:\n            assert not layer.dropout_module.apply_during_inference\n        for layer in self.transformer_model.decoder.layers:\n            assert not layer.dropout_module.apply_during_inference\n\n    def test_applies_training_mode(self):\n        self.transformer_model = TransformerModel.build_model(self.args, self.task)\n        assert self.transformer_model.encoder.dropout_module.training\n        for layer in self.transformer_model.encoder.layers:\n            assert layer.dropout_module.training\n\n        self.transformer_model.eval()\n        assert not self.transformer_model.decoder.dropout_module.training\n        for layer in self.transformer_model.encoder.layers:\n            assert not layer.dropout_module.training\n\n    def test_retain_modules(self):\n        self.args.retain_dropout = True\n        self.args.retain_dropout_modules = [\n            \"TransformerEncoder\",\n            \"TransformerEncoderLayer\",\n        ]\n        self.transformer_model = TransformerModel.build_model(self.args, self.task)\n        cfg = convert_namespace_to_omegaconf(self.args)\n        self.transformer_model.prepare_for_inference_(cfg)\n        assert self.transformer_model.encoder.dropout_module.apply_during_inference\n        assert not self.transformer_model.decoder.dropout_module.apply_during_inference\n        for layer in self.transformer_model.decoder.layers:\n            assert not layer.dropout_module.apply_during_inference\n"
  },
  {
    "path": "tests/test_iopath.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nfrom unittest import mock\n\n\nclass TestIOPath(unittest.TestCase):\n    def test_no_iopath(self):\n        from .test_reproducibility import TestReproducibility\n\n        with mock.patch.dict(\"sys.modules\", {\"iopath\": None}):\n            # reuse reproducibility tests, which are e2e tests that should cover\n            # most checkpoint related functionality\n            TestReproducibility._test_reproducibility(self, \"test_reproducibility\")\n\n    def test_no_supports_rename(self):\n        from .test_reproducibility import TestReproducibility\n\n        with mock.patch(\"fairseq.file_io.PathManager.supports_rename\") as mock_fn:\n            mock_fn.return_value = False\n            TestReproducibility._test_reproducibility(self, \"test_reproducibility\")\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_iterators.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nfrom fairseq.data import iterators, ListDataset\n\n\nclass TestIterators(unittest.TestCase):\n    def test_counting_iterator_index(self, ref=None, itr=None):\n        # Test the indexing functionality of CountingIterator\n        if ref is None:\n            assert itr is None\n            ref = list(range(10))\n            itr = iterators.CountingIterator(ref)\n        else:\n            assert len(ref) == 10\n            assert itr is not None\n\n        self.assertTrue(itr.has_next())\n        self.assertEqual(itr.n, 0)\n        self.assertEqual(next(itr), ref[0])\n        self.assertEqual(itr.n, 1)\n        self.assertEqual(next(itr), ref[1])\n        self.assertEqual(itr.n, 2)\n        itr.skip(3)\n        self.assertEqual(itr.n, 5)\n        self.assertEqual(next(itr), ref[5])\n        itr.skip(2)\n        self.assertEqual(itr.n, 8)\n        self.assertEqual(list(itr), [ref[8], ref[9]])\n        self.assertFalse(itr.has_next())\n\n    def test_counting_iterator_length_mismatch(self):\n        ref = list(range(10))\n        # When the underlying iterable is longer than the CountingIterator,\n        # the remaining items in the iterable should be ignored\n        itr = iterators.CountingIterator(ref, total=8)\n        self.assertEqual(list(itr), ref[:8])\n        # When the underlying iterable is shorter than the CountingIterator,\n        # raise an IndexError when the underlying iterable is exhausted\n        itr = iterators.CountingIterator(ref, total=12)\n        self.assertRaises(IndexError, list, itr)\n\n    def test_counting_iterator_take(self):\n        # Test the \"take\" method of CountingIterator\n        ref = list(range(10))\n        itr = iterators.CountingIterator(ref)\n        itr.take(5)\n        self.assertEqual(len(itr), len(list(iter(itr))))\n        self.assertEqual(len(itr), 5)\n\n        itr = iterators.CountingIterator(ref)\n        itr.take(5)\n        self.assertEqual(next(itr), ref[0])\n        self.assertEqual(next(itr), ref[1])\n        itr.skip(2)\n        self.assertEqual(next(itr), ref[4])\n        self.assertFalse(itr.has_next())\n\n    def test_grouped_iterator(self):\n        # test correctness\n        x = list(range(10))\n        itr = iterators.GroupedIterator(x, 1)\n        self.assertEqual(list(itr), [[0], [1], [2], [3], [4], [5], [6], [7], [8], [9]])\n        itr = iterators.GroupedIterator(x, 4)\n        self.assertEqual(list(itr), [[0, 1, 2, 3], [4, 5, 6, 7], [8, 9]])\n        itr = iterators.GroupedIterator(x, 5)\n        self.assertEqual(list(itr), [[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]])\n\n        # test the GroupIterator also works correctly as a CountingIterator\n        x = list(range(30))\n        ref = list(iterators.GroupedIterator(x, 3))\n        itr = iterators.GroupedIterator(x, 3)\n        self.test_counting_iterator_index(ref, itr)\n\n    def test_sharded_iterator(self):\n        # test correctness\n        x = list(range(10))\n        itr = iterators.ShardedIterator(x, num_shards=1, shard_id=0)\n        self.assertEqual(list(itr), x)\n        itr = iterators.ShardedIterator(x, num_shards=2, shard_id=0)\n        self.assertEqual(list(itr), [0, 2, 4, 6, 8])\n        itr = iterators.ShardedIterator(x, num_shards=2, shard_id=1)\n        self.assertEqual(list(itr), [1, 3, 5, 7, 9])\n        itr = iterators.ShardedIterator(x, num_shards=3, shard_id=0)\n        self.assertEqual(list(itr), [0, 3, 6, 9])\n        itr = iterators.ShardedIterator(x, num_shards=3, shard_id=1)\n        self.assertEqual(list(itr), [1, 4, 7, None])\n        itr = iterators.ShardedIterator(x, num_shards=3, shard_id=2)\n        self.assertEqual(list(itr), [2, 5, 8, None])\n\n        # test CountingIterator functionality\n        x = list(range(30))\n        ref = list(iterators.ShardedIterator(x, num_shards=3, shard_id=0))\n        itr = iterators.ShardedIterator(x, num_shards=3, shard_id=0)\n        self.test_counting_iterator_index(ref, itr)\n\n    def test_counting_iterator_buffered_iterator_take(self):\n        ref = list(range(10))\n        buffered_itr = iterators.BufferedIterator(2, ref)\n        itr = iterators.CountingIterator(buffered_itr)\n        itr.take(5)\n        self.assertEqual(len(itr), len(list(iter(itr))))\n        self.assertEqual(len(itr), 5)\n\n        buffered_itr = iterators.BufferedIterator(2, ref)\n        itr = iterators.CountingIterator(buffered_itr)\n        itr.take(5)\n        self.assertEqual(len(buffered_itr), 5)\n        self.assertEqual(len(list(iter(buffered_itr))), 5)\n\n        buffered_itr = iterators.BufferedIterator(2, ref)\n        itr = iterators.CountingIterator(buffered_itr)\n        itr.take(5)\n        self.assertEqual(next(itr), ref[0])\n        self.assertEqual(next(itr), ref[1])\n        itr.skip(2)\n        self.assertEqual(next(itr), ref[4])\n        self.assertFalse(itr.has_next())\n        self.assertRaises(StopIteration, next, buffered_itr)\n\n        ref = list(range(4, 10))\n        buffered_itr = iterators.BufferedIterator(2, ref)\n        itr = iterators.CountingIterator(buffered_itr, start=4)\n        itr.take(5)\n        self.assertEqual(len(itr), 5)\n        self.assertEqual(len(buffered_itr), 1)\n        self.assertEqual(next(itr), ref[0])\n        self.assertFalse(itr.has_next())\n        self.assertRaises(StopIteration, next, buffered_itr)\n\n    def test_epoch_batch_iterator_skip_remainder_batch(self):\n        reference = [1, 2, 3]\n        itr1 = _get_epoch_batch_itr(reference, 2, True)\n        self.assertEqual(len(itr1), 1)\n        itr2 = _get_epoch_batch_itr(reference, 2, False)\n        self.assertEqual(len(itr2), 2)\n        itr3 = _get_epoch_batch_itr(reference, 1, True)\n        self.assertEqual(len(itr3), 2)\n        itr4 = _get_epoch_batch_itr(reference, 1, False)\n        self.assertEqual(len(itr4), 3)\n        itr5 = _get_epoch_batch_itr(reference, 4, True)\n        self.assertEqual(len(itr5), 0)\n        self.assertFalse(itr5.has_next())\n        itr6 = _get_epoch_batch_itr(reference, 4, False)\n        self.assertEqual(len(itr6), 1)\n\n    def test_grouped_iterator_skip_remainder_batch(self):\n        reference = [1, 2, 3, 4, 5, 6, 7, 8, 9]\n        itr1 = _get_epoch_batch_itr(reference, 3, False)\n        grouped_itr1 = iterators.GroupedIterator(itr1, 2, True)\n        self.assertEqual(len(grouped_itr1), 1)\n\n        itr2 = _get_epoch_batch_itr(reference, 3, False)\n        grouped_itr2 = iterators.GroupedIterator(itr2, 2, False)\n        self.assertEqual(len(grouped_itr2), 2)\n\n        itr3 = _get_epoch_batch_itr(reference, 3, True)\n        grouped_itr3 = iterators.GroupedIterator(itr3, 2, True)\n        self.assertEqual(len(grouped_itr3), 1)\n\n        itr4 = _get_epoch_batch_itr(reference, 3, True)\n        grouped_itr4 = iterators.GroupedIterator(itr4, 2, False)\n        self.assertEqual(len(grouped_itr4), 1)\n\n        itr5 = _get_epoch_batch_itr(reference, 5, True)\n        grouped_itr5 = iterators.GroupedIterator(itr5, 2, True)\n        self.assertEqual(len(grouped_itr5), 0)\n\n        itr6 = _get_epoch_batch_itr(reference, 5, True)\n        grouped_itr6 = iterators.GroupedIterator(itr6, 2, False)\n        self.assertEqual(len(grouped_itr6), 1)\n\n\ndef _get_epoch_batch_itr(ref, bsz, skip_remainder_batch):\n    dsz = len(ref)\n    indices = range(dsz)\n    starts = indices[::bsz]\n    batch_sampler = [indices[s : s + bsz] for s in starts]\n    dataset = ListDataset(ref)\n    itr = iterators.EpochBatchIterator(\n        dataset=dataset,\n        collate_fn=dataset.collater,\n        batch_sampler=batch_sampler,\n        skip_remainder_batch=skip_remainder_batch,\n    )\n    return itr.next_epoch_itr()\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_label_smoothing.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport copy\nimport unittest\n\nimport tests.utils as test_utils\nimport torch\nfrom fairseq.criterions.cross_entropy import CrossEntropyCriterion\nfrom fairseq.criterions.label_smoothed_cross_entropy import (\n    LabelSmoothedCrossEntropyCriterion,\n)\n\n\nclass TestLabelSmoothing(unittest.TestCase):\n    def setUp(self):\n        # build dictionary\n        self.d = test_utils.dummy_dictionary(3)\n        vocab = len(self.d)\n        self.assertEqual(vocab, 4 + 3)  # 4 special + 3 tokens\n        self.assertEqual(self.d.pad(), 1)\n        self.assertEqual(self.d.eos(), 2)\n        self.assertEqual(self.d.unk(), 3)\n        pad, eos, unk, w1, w2, w3 = 1, 2, 3, 4, 5, 6  # noqa: F841\n\n        # build dataset\n        self.data = [\n            # the first batch item has padding\n            {\n                \"source\": torch.LongTensor([w1, eos]),\n                \"target\": torch.LongTensor([w1, eos]),\n            },\n            {\n                \"source\": torch.LongTensor([w1, eos]),\n                \"target\": torch.LongTensor([w1, w1, eos]),\n            },\n        ]\n        self.sample = next(test_utils.dummy_dataloader(self.data))\n\n        # build model\n        self.args = argparse.Namespace()\n        self.args.sentence_avg = False\n        self.args.report_accuracy = False\n        self.args.probs = (\n            torch.FloatTensor(\n                [\n                    #      pad   eos  unk   w1   w2   w3\n                    [0.05, 0.05, 0.1, 0.05, 0.3, 0.4, 0.05],\n                    [0.05, 0.10, 0.2, 0.05, 0.2, 0.3, 0.10],\n                    [0.05, 0.15, 0.3, 0.05, 0.1, 0.2, 0.15],\n                ]\n            )\n            .unsqueeze(0)\n            .expand(2, 3, 7)\n        )  # add batch dimension\n        self.task = test_utils.TestTranslationTask.setup_task(self.args, self.d, self.d)\n        self.model = self.task.build_model(self.args)\n\n    def test_nll_loss(self):\n        self.args.label_smoothing = 0.1\n        nll_crit = CrossEntropyCriterion.build_criterion(self.args, self.task)\n        smooth_crit = LabelSmoothedCrossEntropyCriterion.build_criterion(\n            self.args, self.task\n        )\n        nll_loss, nll_sample_size, nll_logging_output = nll_crit(\n            self.model, self.sample\n        )\n        smooth_loss, smooth_sample_size, smooth_logging_output = smooth_crit(\n            self.model, self.sample\n        )\n        self.assertLess(abs(nll_loss - nll_logging_output[\"loss\"]), 1e-6)\n        self.assertLess(abs(nll_loss - smooth_logging_output[\"nll_loss\"]), 1e-6)\n\n    def test_padding(self):\n        self.args.label_smoothing = 0.1\n        crit = LabelSmoothedCrossEntropyCriterion.build_criterion(self.args, self.task)\n        loss, _, logging_output = crit(self.model, self.sample)\n\n        def get_one_no_padding(idx):\n            # create a new sample with just a single batch item so that there's\n            # no padding\n            sample1 = next(test_utils.dummy_dataloader([self.data[idx]]))\n            args1 = copy.copy(self.args)\n            args1.probs = args1.probs[idx, :, :].unsqueeze(0)\n            model1 = self.task.build_model(args1)\n            loss1, _, _ = crit(model1, sample1)\n            return loss1\n\n        loss1 = get_one_no_padding(0)\n        loss2 = get_one_no_padding(1)\n        self.assertAlmostEqual(loss, loss1 + loss2)\n\n    def test_reduction(self):\n        self.args.label_smoothing = 0.1\n        crit = LabelSmoothedCrossEntropyCriterion.build_criterion(self.args, self.task)\n        loss, _, logging_output = crit(self.model, self.sample, reduce=True)\n        unreduced_loss, _, _ = crit(self.model, self.sample, reduce=False)\n        self.assertAlmostEqual(loss, unreduced_loss.sum())\n\n    def test_zero_eps(self):\n        self.args.label_smoothing = 0.0\n        nll_crit = CrossEntropyCriterion.build_criterion(self.args, self.task)\n        smooth_crit = LabelSmoothedCrossEntropyCriterion.build_criterion(\n            self.args, self.task\n        )\n        nll_loss, nll_sample_size, nll_logging_output = nll_crit(\n            self.model, self.sample\n        )\n        smooth_loss, smooth_sample_size, smooth_logging_output = smooth_crit(\n            self.model, self.sample\n        )\n        self.assertAlmostEqual(nll_loss, smooth_loss)\n\n    def assertAlmostEqual(self, t1, t2):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        self.assertLess((t1 - t2).abs().max(), 1e-6)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_lm_context_window.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nimport torch\n\nfrom fairseq.data import MonolingualDataset\nfrom fairseq.tasks.language_modeling import LanguageModelingConfig, LanguageModelingTask\nfrom tests import utils as test_utils\n\n\nclass TestLMContextWindow(unittest.TestCase):\n    def test_eval_dataloader(self):\n        dictionary = test_utils.dummy_dictionary(10)\n        assert len(dictionary) == 14  # 4 extra special symbols\n        assert dictionary.pad() == 1\n\n        dataset = test_utils.TestDataset(\n            [\n                torch.tensor([4, 5, 6, 7], dtype=torch.long),\n                torch.tensor([8, 9, 10, 11], dtype=torch.long),\n                torch.tensor([12, 13], dtype=torch.long),\n            ]\n        )\n        dataset = MonolingualDataset(dataset, sizes=[4, 4, 2], src_vocab=dictionary)\n\n        config = LanguageModelingConfig(tokens_per_sample=4)\n        task = LanguageModelingTask(config, dictionary)\n\n        eval_dataloader = task.eval_lm_dataloader(\n            dataset=dataset,\n            batch_size=1,\n            context_window=2,\n            num_workers=0,\n        )\n\n        batch = next(eval_dataloader)\n        assert batch[\"net_input\"][\"src_tokens\"][0].tolist() == [4, 5, 6, 7, 1, 1]\n        assert batch[\"target\"][0].tolist() == [4, 5, 6, 7, 1, 1]\n\n        batch = next(eval_dataloader)\n        assert batch[\"net_input\"][\"src_tokens\"][0].tolist() == [6, 7, 8, 9, 10, 11]\n        assert batch[\"target\"][0].tolist() == [1, 1, 8, 9, 10, 11]\n\n        batch = next(eval_dataloader)\n        assert batch[\"net_input\"][\"src_tokens\"][0].tolist() == [10, 11, 12, 13]\n        assert batch[\"target\"][0].tolist() == [1, 1, 12, 13]\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_lstm_jitable.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport tempfile\nimport unittest\n\nimport torch\nfrom fairseq.data.dictionary import Dictionary\nfrom fairseq.models.lstm import LSTMModel\nfrom fairseq.tasks.fairseq_task import LegacyFairseqTask\n\n\nDEFAULT_TEST_VOCAB_SIZE = 100\n\n\nclass DummyTask(LegacyFairseqTask):\n    def __init__(self, args):\n        super().__init__(args)\n        self.dictionary = get_dummy_dictionary()\n        if getattr(self.args, \"ctc\", False):\n            self.dictionary.add_symbol(\"<ctc_blank>\")\n        self.src_dict = self.dictionary\n        self.tgt_dict = self.dictionary\n\n    @property\n    def source_dictionary(self):\n        return self.src_dict\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n\n\ndef get_dummy_dictionary(vocab_size=DEFAULT_TEST_VOCAB_SIZE):\n    dummy_dict = Dictionary()\n    # add dummy symbol to satisfy vocab size\n    for id, _ in enumerate(range(vocab_size)):\n        dummy_dict.add_symbol(\"{}\".format(id), 1000)\n    return dummy_dict\n\n\ndef get_dummy_task_and_parser():\n    \"\"\"\n    to build a fariseq model, we need some dummy parse and task. This function\n    is used to create dummy task and parser to faciliate model/criterion test\n\n    Note: we use FbSpeechRecognitionTask as the dummy task. You may want\n    to use other task by providing another function\n    \"\"\"\n    parser = argparse.ArgumentParser(\n        description=\"test_dummy_s2s_task\", argument_default=argparse.SUPPRESS\n    )\n    DummyTask.add_args(parser)\n    args = parser.parse_args([])\n    task = DummyTask.setup_task(args)\n    return task, parser\n\n\nclass TestJitLSTMModel(unittest.TestCase):\n    def _test_save_and_load(self, scripted_module):\n        with tempfile.NamedTemporaryFile() as f:\n            scripted_module.save(f.name)\n            torch.jit.load(f.name)\n\n    def assertTensorEqual(self, t1, t2):\n        t1 = t1[~torch.isnan(t1)]  # can cause size mismatch errors if there are NaNs\n        t2 = t2[~torch.isnan(t2)]\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        self.assertEqual(t1.ne(t2).long().sum(), 0)\n\n    def test_jit_and_export_lstm(self):\n        task, parser = get_dummy_task_and_parser()\n        LSTMModel.add_args(parser)\n        args = parser.parse_args([])\n        args.criterion = \"\"\n        model = LSTMModel.build_model(args, task)\n        scripted_model = torch.jit.script(model)\n        self._test_save_and_load(scripted_model)\n\n    def test_assert_jit_vs_nonjit_(self):\n        task, parser = get_dummy_task_and_parser()\n        LSTMModel.add_args(parser)\n        args = parser.parse_args([])\n        args.criterion = \"\"\n        model = LSTMModel.build_model(args, task)\n        model.eval()\n        scripted_model = torch.jit.script(model)\n        scripted_model.eval()\n        idx = len(task.source_dictionary)\n        iter = 100\n        # Inject random input and check output\n        seq_len_tensor = torch.randint(1, 10, (iter,))\n        num_samples_tensor = torch.randint(1, 10, (iter,))\n        for i in range(iter):\n            seq_len = seq_len_tensor[i]\n            num_samples = num_samples_tensor[i]\n            src_token = (torch.randint(0, idx, (num_samples, seq_len)),)\n            src_lengths = torch.randint(1, seq_len + 1, (num_samples,))\n            src_lengths, _ = torch.sort(src_lengths, descending=True)\n            # Force the first sample to have seq_len\n            src_lengths[0] = seq_len\n            prev_output_token = (torch.randint(0, idx, (num_samples, 1)),)\n            result = model(src_token[0], src_lengths, prev_output_token[0], None)\n            scripted_result = scripted_model(\n                src_token[0], src_lengths, prev_output_token[0], None\n            )\n            self.assertTensorEqual(result[0], scripted_result[0])\n            self.assertTensorEqual(result[1], scripted_result[1])\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_memory_efficient_fp16.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport logging\nimport unittest\n\nimport torch\nfrom fairseq.optim.adam import FairseqAdam\nfrom fairseq.optim.fp16_optimizer import MemoryEfficientFP16Optimizer\nfrom omegaconf import OmegaConf\n\n\n@unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\nclass TestMemoryEfficientFP16(unittest.TestCase):\n    def setUp(self):\n        logging.disable(logging.CRITICAL)\n\n    def tearDown(self):\n        logging.disable(logging.NOTSET)\n\n    def test_load_state_dict(self):\n        # define simple FP16 model\n        model = torch.nn.Linear(5, 5).cuda().half()\n        params = list(model.parameters())\n\n        # initialize memory efficient FP16 optimizer\n        # with pseudo DictConfigs\n        optimizer = FairseqAdam(\n            cfg=OmegaConf.create(\n                vars(\n                    argparse.Namespace(\n                        adam_betas=\"(0.9, 0.999)\",\n                        adam_eps=1e-8,\n                        weight_decay=0.0,\n                        lr=[0.00001],\n                    )\n                )\n            ),\n            params=params,\n        )\n        me_optimizer = MemoryEfficientFP16Optimizer(\n            cfg=OmegaConf.create(\n                {\n                    \"common\": vars(\n                        argparse.Namespace(\n                            fp16_init_scale=1,\n                            fp16_scale_window=1,\n                            fp16_scale_tolerance=1,\n                            threshold_loss_scale=1,\n                            min_loss_scale=1e-4,\n                        )\n                    )\n                }\n            ),\n            params=params,\n            optimizer=optimizer,\n        )\n\n        # optimizer state is created in the first step\n        loss = model(torch.rand(5).cuda().half()).sum()\n        me_optimizer.backward(loss)\n        me_optimizer.step()\n\n        # reload state\n        state = me_optimizer.state_dict()\n        me_optimizer.load_state_dict(state)\n        for k, v in me_optimizer.optimizer.state.items():\n            self.assertTrue(k.dtype == torch.float16)\n            for v_i in v.values():\n                if torch.is_tensor(v_i):\n                    self.assertTrue(v_i.dtype == torch.float32)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_metrics.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nimport uuid\n\nfrom fairseq.logging import metrics\n\n\nclass TestMetrics(unittest.TestCase):\n    def test_nesting(self):\n        with metrics.aggregate() as a:\n            metrics.log_scalar(\"loss\", 1)\n            with metrics.aggregate() as b:\n                metrics.log_scalar(\"loss\", 2)\n\n        self.assertEqual(a.get_smoothed_values()[\"loss\"], 1.5)\n        self.assertEqual(b.get_smoothed_values()[\"loss\"], 2)\n\n    def test_new_root(self):\n        with metrics.aggregate() as a:\n            metrics.log_scalar(\"loss\", 1)\n            with metrics.aggregate(new_root=True) as b:\n                metrics.log_scalar(\"loss\", 2)\n\n        self.assertEqual(a.get_smoothed_values()[\"loss\"], 1)\n        self.assertEqual(b.get_smoothed_values()[\"loss\"], 2)\n\n    def test_nested_new_root(self):\n        with metrics.aggregate() as layer1:\n            metrics.log_scalar(\"loss\", 1)\n            with metrics.aggregate(new_root=True) as layer2:\n                metrics.log_scalar(\"loss\", 2)\n                with metrics.aggregate() as layer3:\n                    metrics.log_scalar(\"loss\", 3)\n                    with metrics.aggregate(new_root=True) as layer4:\n                        metrics.log_scalar(\"loss\", 4)\n            metrics.log_scalar(\"loss\", 1.5)\n\n        self.assertEqual(layer4.get_smoothed_values()[\"loss\"], 4)\n        self.assertEqual(layer3.get_smoothed_values()[\"loss\"], 3)\n        self.assertEqual(layer2.get_smoothed_values()[\"loss\"], 2.5)\n        self.assertEqual(layer1.get_smoothed_values()[\"loss\"], 1.25)\n\n    def test_named(self):\n        name = str(uuid.uuid4())\n        metrics.reset_meters(name)\n\n        with metrics.aggregate(name):\n            metrics.log_scalar(\"loss\", 1)\n\n        metrics.log_scalar(\"loss\", 3)\n\n        with metrics.aggregate(name):\n            metrics.log_scalar(\"loss\", 2)\n\n        self.assertEqual(metrics.get_smoothed_values(name)[\"loss\"], 1.5)\n\n    def test_nested_duplicate_names(self):\n        name = str(uuid.uuid4())\n        metrics.reset_meters(name)\n\n        with metrics.aggregate(name):\n            metrics.log_scalar(\"loss\", 1)\n            with metrics.aggregate() as other:\n                with metrics.aggregate(name):\n                    metrics.log_scalar(\"loss\", 2)\n            metrics.log_scalar(\"loss\", 6)\n\n        self.assertEqual(metrics.get_smoothed_values(name)[\"loss\"], 3)\n        self.assertEqual(other.get_smoothed_values()[\"loss\"], 2)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_multi_corpus_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nfrom collections import OrderedDict\n\nimport torch\n\nfrom fairseq.data import LanguagePairDataset, TokenBlockDataset\nfrom fairseq.data.multi_corpus_dataset import MultiCorpusDataset\nfrom tests.test_train import mock_dict\n\n\nclass TestMultiCorpusDataset(unittest.TestCase):\n    def setUp(self):\n        d = mock_dict()\n        tokens_1 = torch.LongTensor([i for i in range(1, 5000, 2)]).view(1, -1)\n        tokens_ds1 = TokenBlockDataset(\n            tokens_1,\n            sizes=[tokens_1.size(-1)],\n            block_size=1,\n            pad=0,\n            eos=1,\n            include_targets=False,\n        )\n        self.dataset_1 = LanguagePairDataset(\n            tokens_ds1, tokens_ds1.sizes, d, shuffle=False\n        )\n        tokens_2 = torch.LongTensor([i for i in range(0, 5000, 2)]).view(1, -1)\n        tokens_ds2 = TokenBlockDataset(\n            tokens_2,\n            sizes=[tokens_2.size(-1)],\n            block_size=1,\n            pad=0,\n            eos=1,\n            include_targets=False,\n        )\n        self.dataset_2 = LanguagePairDataset(\n            tokens_ds2, tokens_ds2.sizes, d, shuffle=False\n        )\n\n    def _test_sample_helper(\n        self,\n        distribution,\n    ):\n        m = MultiCorpusDataset(\n            OrderedDict({0: self.dataset_1, 1: self.dataset_2}),\n            distribution=distribution,\n            seed=0,\n            sort_indices=True,\n        )\n        m.set_epoch(1)\n        indices = m.ordered_indices()\n        count_sample_from_first_dataset = 0\n        items = set()\n        for i in indices:\n            item = m[i][\"source\"].item()\n            if item % 2 == 1:\n                count_sample_from_first_dataset += 1\n\n            items.add(item)\n        sample_from_first_ds_percentage = (\n            1.0 * count_sample_from_first_dataset / len(indices)\n        )\n        self.assertLess(\n            abs(sample_from_first_ds_percentage - distribution[0]),\n            0.01,\n        )\n        self.assertEqual(\n            len(items),\n            int(\n                min(len(self.dataset_1), len(indices) * distribution[0])\n                + min(len(self.dataset_1), len(indices) * distribution[1])\n            ),\n        )\n        print(distribution)\n\n    def test_multi_corpus_dataset(self):\n        for distribution in [[0.5, 0.5], [0.1, 0.9], [0.9, 0.1], [0.0, 1.0]]:\n            self._test_sample_helper(distribution=distribution)\n"
  },
  {
    "path": "tests/test_multi_corpus_sampled_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nfrom collections import OrderedDict\n\nimport numpy as np\nimport torch\nfrom fairseq.data import LanguagePairDataset, TokenBlockDataset\nfrom fairseq.data.multi_corpus_sampled_dataset import MultiCorpusSampledDataset\nfrom tests.test_train import mock_dict\n\n\nclass TestMultiCorpusSampledDataset(unittest.TestCase):\n    def setUp(self):\n        d = mock_dict()\n        tokens_1 = torch.LongTensor([1]).view(1, -1)\n        tokens_ds1 = TokenBlockDataset(\n            tokens_1,\n            sizes=[tokens_1.size(-1)],\n            block_size=1,\n            pad=0,\n            eos=1,\n            include_targets=False,\n        )\n        self.dataset_1 = LanguagePairDataset(\n            tokens_ds1, tokens_ds1.sizes, d, shuffle=False\n        )\n        tokens_2 = torch.LongTensor([2]).view(1, -1)\n        tokens_ds2 = TokenBlockDataset(\n            tokens_2,\n            sizes=[tokens_2.size(-1)],\n            block_size=1,\n            pad=0,\n            eos=1,\n            include_targets=False,\n        )\n        self.dataset_2 = LanguagePairDataset(\n            tokens_ds2, tokens_ds2.sizes, d, shuffle=False\n        )\n\n    def _test_sample_helper(\n        self,\n        expected_sample_from_first_ds_percentage,\n        num_samples=1000,\n        sampling_func=None,\n    ):\n        # To make sure test is not flaky\n        np.random.seed(0)\n        if sampling_func is None:\n            m = MultiCorpusSampledDataset(\n                OrderedDict({0: self.dataset_1, 1: self.dataset_2}),\n            )\n        else:\n            m = MultiCorpusSampledDataset(\n                OrderedDict({0: self.dataset_1, 1: self.dataset_2}),\n                sampling_func=sampling_func,\n            )\n        m.ordered_indices()\n        count_sample_from_first_dataset = 0\n        for _ in range(num_samples):\n            if m.collater([m[0], m[1]])[\"net_input\"][\"src_tokens\"][0] == 1:\n                count_sample_from_first_dataset += 1\n        sample_from_first_ds_percentage = (\n            1.0 * count_sample_from_first_dataset / num_samples\n        )\n        self.assertLess(\n            abs(\n                sample_from_first_ds_percentage\n                - expected_sample_from_first_ds_percentage\n            ),\n            0.01,\n        )\n\n    def test_multi_corpus_sampled_dataset_uniform_sample(self):\n        self._test_sample_helper(expected_sample_from_first_ds_percentage=0.5)\n\n    def test_multi_corpus_sampled_dataset_weighted_sample(self):\n        def naive_weighted_sample(weights):\n            def f(input):\n                v = np.random.random()\n                agg = 0\n                for i, weight in enumerate(weights):\n                    agg += weight\n                    if agg > v:\n                        return i\n\n            return f\n\n        self._test_sample_helper(\n            expected_sample_from_first_ds_percentage=0.9,\n            sampling_func=naive_weighted_sample(weights=[0.9, 0.1]),\n        )\n"
  },
  {
    "path": "tests/test_multihead_attention.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport random\nimport unittest\n\nimport pytest\nimport torch\n\nfrom fairseq.modules.multihead_attention import MultiheadAttention, _mask_for_xformers\n\nBATCH = [20, 41, 97]\nSEQ = [64]\nEMB = [48]\nHEADS = [4]\nDROP = 0.1\nDEVICE = [\"cpu\", \"cuda\"] if torch.cuda.is_available() else [\"cpu\"]\nATTN_MASK_DTYPE = [None, torch.uint8, torch.bool, torch.float]\nKEY_PADDING_MASK_DTYPE = [None, torch.uint8, torch.bool]\n\n\n# FIXME: some tests fail when decimal=2, fix this and set decimal to 2\ndef assert_almost_equal(x, y, decimal=1, err_msg=\"\"):\n    import numpy.testing as npt\n\n    if isinstance(x, torch.Tensor):\n        x = x.cpu().detach().numpy()\n    if isinstance(y, torch.Tensor):\n        y = y.cpu().detach().numpy()\n    npt.assert_array_almost_equal(x, y, err_msg=err_msg, decimal=decimal)\n\n\ndef _reset_seeds():\n    torch.manual_seed(0)\n    torch.random.manual_seed(0)\n    random.seed(0)\n    torch.cuda.manual_seed_all(0)\n\n\ndef _get_mask(to_dtype: torch.dtype, dim0: int, dim1: int):\n    if to_dtype == torch.float:\n        mask = torch.randint(0, 2, (dim0, dim1)).to(dtype=torch.bool)\n        return mask.to(dtype=to_dtype).masked_fill(mask, -float(\"inf\"))\n    return torch.randint(0, 2, (dim0, dim1)).to(dtype=to_dtype)\n\n\ndef test_mask_for_xformers():\n    # Additive Mask\n    m_float_add = torch.tensor([float(\"-inf\"), 0]).to(torch.float)\n    m_float_add_flipped = torch.tensor([0, float(\"-inf\")]).to(torch.float)\n    m_float16_add = torch.tensor([float(\"-inf\"), 0]).to(torch.float16)\n    m_float16_add_flipped = torch.tensor([0, float(\"-inf\")]).to(torch.float16)\n    m_uint = torch.tensor([1, 0]).to(torch.uint8)\n    m_uint_flipped = torch.tensor([0, 1]).to(torch.uint8)\n    m_bool = torch.tensor([False, True])\n\n    assert torch.equal(_mask_for_xformers(m_float_add), m_float_add)\n    assert torch.equal(_mask_for_xformers(m_float16_add), m_float16_add)\n    assert torch.equal(_mask_for_xformers(m_uint), m_uint_flipped)\n    assert torch.equal(_mask_for_xformers(m_bool), ~m_bool)\n\n    assert torch.equal(\n        _mask_for_xformers(m_float_add, to_dtype=torch.float16), m_float16_add\n    )\n    assert torch.equal(\n        _mask_for_xformers(m_float_add, to_dtype=torch.float), m_float_add\n    )\n    assert torch.equal(_mask_for_xformers(m_float_add, to_dtype=torch.bool), m_bool)\n    assert torch.equal(\n        _mask_for_xformers(m_float_add, to_dtype=torch.uint8), m_uint_flipped\n    )\n\n    assert torch.equal(\n        _mask_for_xformers(m_float16_add, to_dtype=torch.float16), m_float16_add\n    )\n    assert torch.equal(\n        _mask_for_xformers(m_float16_add, to_dtype=torch.float), m_float_add\n    )\n    assert torch.equal(_mask_for_xformers(m_float16_add, to_dtype=torch.bool), m_bool)\n    assert torch.equal(\n        _mask_for_xformers(m_float16_add, to_dtype=torch.uint8), m_uint_flipped\n    )\n\n    assert torch.equal(\n        _mask_for_xformers(m_bool, to_dtype=torch.float16), m_float16_add_flipped\n    )\n    assert torch.equal(\n        _mask_for_xformers(m_bool, to_dtype=torch.float), m_float_add_flipped\n    )\n    assert torch.equal(_mask_for_xformers(m_bool, to_dtype=torch.bool), ~m_bool)\n    assert torch.equal(_mask_for_xformers(m_bool, to_dtype=torch.uint8), m_uint)\n\n    assert torch.equal(\n        _mask_for_xformers(m_uint, to_dtype=torch.float16), m_float16_add\n    )\n    assert torch.equal(_mask_for_xformers(m_uint, to_dtype=torch.float), m_float_add)\n    assert torch.equal(_mask_for_xformers(m_uint, to_dtype=torch.bool), m_bool)\n    assert torch.equal(_mask_for_xformers(m_uint, to_dtype=torch.uint8), m_uint_flipped)\n\n\n@pytest.mark.skipif(not torch.cuda.is_available(), reason=\"blocksparse requires gpu\")\n@pytest.mark.skip(reason=\"not part of latest xformers\")\n@pytest.mark.parametrize(\"device\", [\"cuda\"])\n@pytest.mark.parametrize(\"add_zero_attn\", [False])\n@pytest.mark.parametrize(\"batch_size\", [20])\n@pytest.mark.parametrize(\"embedding\", [64])\n@pytest.mark.parametrize(\"seq_len\", [64])\n@pytest.mark.parametrize(\"num_heads\", [4])\ndef test_xformers_blocksparse_parity(\n    device,\n    add_zero_attn,\n    batch_size,\n    embedding,\n    seq_len,\n    num_heads,\n):\n\n    xformers_att_config = '{\"name\": \"scaled_dot_product\"}'\n    xformers_blocksparse_blocksize = 16\n    xformers_blocksparse_layout = torch.ones(\n        seq_len // xformers_blocksparse_blocksize,\n        seq_len // xformers_blocksparse_blocksize,\n        dtype=torch.int32,\n    )\n\n    q = torch.rand(seq_len, batch_size, embedding).to(device).half()\n    q.requires_grad = True\n    k = torch.rand(seq_len, batch_size, embedding).to(device).half()\n    k.requires_grad = True\n    v = torch.rand(seq_len, batch_size, embedding).to(device).half()\n    v.requires_grad = True\n\n    q_ = q.detach().clone().half()\n    q_.requires_grad = True\n    k_ = k.detach().clone().half()\n    k_.requires_grad = True\n    v_ = v.detach().clone().half()\n    v_.requires_grad = True\n\n    _reset_seeds()\n    xf_blocksparse_mha = (\n        MultiheadAttention(\n            embedding,\n            num_heads,\n            dropout=0.0,\n            add_zero_attn=add_zero_attn,\n            xformers_att_config=xformers_att_config,\n            xformers_blocksparse_layout=xformers_blocksparse_layout,\n            xformers_blocksparse_blocksize=xformers_blocksparse_blocksize,\n        )\n        .to(device)\n        .half()\n    )\n\n    xf_blocksparse_output, _ = xf_blocksparse_mha(\n        q,\n        k,\n        v,\n    )\n\n    _reset_seeds()\n    xformers_mha = (\n        MultiheadAttention(\n            embedding,\n            num_heads,\n            dropout=0.0,\n            add_zero_attn=add_zero_attn,\n            xformers_att_config=xformers_att_config,\n            xformers_blocksparse_layout=None,\n        )\n        .to(device)\n        .half()\n    )\n\n    xformers_output, _ = xformers_mha(\n        q_,\n        k_,\n        v_,\n    )\n\n    # # account for when nan != nan\n    rand = random.uniform(0, 1)\n    xformers_output = xformers_output.masked_fill(xformers_output.isnan(), rand)\n    xf_blocksparse_output = xf_blocksparse_output.masked_fill(\n        xf_blocksparse_output.isnan(), rand\n    )\n\n    assert_almost_equal(xformers_output, xf_blocksparse_output)\n\n    loss_blocksparse = torch.norm(xformers_output)\n    loss_original = torch.norm(xf_blocksparse_output)\n    loss_blocksparse.backward()\n    loss_original.backward()\n\n    q.masked_fill(q.isnan(), rand)\n    q_.masked_fill(q_.isnan(), rand)\n    k.masked_fill(k.isnan(), rand)\n    k_.masked_fill(k_.isnan(), rand)\n    v.masked_fill(v.isnan(), rand)\n    v_.masked_fill(v_.isnan(), rand)\n\n    assert_almost_equal(q.grad, q_.grad)\n    assert_almost_equal(k.grad, k_.grad)\n    assert_almost_equal(v.grad, v_.grad)\n\n\n@pytest.mark.parametrize(\"device\", DEVICE)\n@pytest.mark.parametrize(\"attn_dtype\", ATTN_MASK_DTYPE)\n@pytest.mark.parametrize(\"key_padding_dtype\", KEY_PADDING_MASK_DTYPE)\n@pytest.mark.parametrize(\"add_bias_kv\", [True, False])\n@pytest.mark.parametrize(\"add_zero_attn\", [True, False])\n# TODO: test with static_kv True\n@pytest.mark.parametrize(\"static_kv\", [False])\n@pytest.mark.parametrize(\"batch_size\", BATCH)\n@pytest.mark.parametrize(\"embedding\", EMB)\n@pytest.mark.parametrize(\"seq_len\", SEQ)\n@pytest.mark.parametrize(\"num_heads\", HEADS)\ndef test_xformers_single_forward_parity(\n    device,\n    attn_dtype,\n    key_padding_dtype,\n    add_bias_kv,\n    add_zero_attn,\n    static_kv,\n    batch_size,\n    embedding,\n    seq_len,\n    num_heads,\n):\n\n    xformers_att_config = '{\"name\": \"scaled_dot_product\"}'\n\n    attn_mask = (\n        None\n        if attn_dtype is None\n        else _get_mask(to_dtype=attn_dtype, dim0=seq_len, dim1=seq_len).to(device)\n    )\n    key_padding_mask = (\n        None\n        if key_padding_dtype is None\n        else _get_mask(to_dtype=key_padding_dtype, dim0=batch_size, dim1=seq_len).to(\n            device\n        )\n    )\n\n    q = torch.rand(seq_len, batch_size, embedding).to(device)\n    q.requires_grad = True\n    k = torch.rand(seq_len, batch_size, embedding).to(device)\n    k.requires_grad = True\n    v = torch.rand(seq_len, batch_size, embedding).to(device)\n    v.requires_grad = True\n\n    q_ = q.detach().clone()\n    q_.requires_grad = True\n    k_ = k.detach().clone()\n    k_.requires_grad = True\n    v_ = v.detach().clone()\n    v_.requires_grad = True\n\n    # TODO: dropouts in the two implementations lead to different entries dropped.\n    _reset_seeds()\n    xformers_mha = MultiheadAttention(\n        embedding,\n        num_heads,\n        dropout=0.0,\n        xformers_att_config=xformers_att_config,\n        add_bias_kv=add_bias_kv,\n        add_zero_attn=add_zero_attn,\n    ).to(device)\n    xformers_output, _ = xformers_mha(\n        q,\n        k,\n        v,\n        key_padding_mask=key_padding_mask,\n        attn_mask=attn_mask,\n        static_kv=static_kv,\n    )\n\n    _reset_seeds()\n    original_mha = MultiheadAttention(\n        embedding,\n        num_heads,\n        dropout=0.0,\n        xformers_att_config=None,\n        add_bias_kv=add_bias_kv,\n        add_zero_attn=add_zero_attn,\n    ).to(device)\n    original_output, _ = original_mha(\n        q_,\n        k_,\n        v_,\n        key_padding_mask=key_padding_mask,\n        attn_mask=attn_mask,\n        static_kv=static_kv,\n    )\n\n    # account for when nan != nan\n    if xformers_output.isnan().any() or original_output.isnan().any():\n        rand = random.uniform(0, 1)\n        xformers_output = xformers_output.masked_fill(xformers_output.isnan(), rand)\n        original_output = original_output.masked_fill(original_output.isnan(), rand)\n\n    # torch.equal works for cpu, on cuda allclose is needed.\n    assert torch.allclose(\n        xformers_output, original_output, atol=1e-06\n    ), f\"max diff is {torch.max(torch.abs(xformers_output - original_output))}\"\n\n    loss_xformers = torch.norm(xformers_output)\n    loss_original = torch.norm(original_output)\n    loss_xformers.backward()\n    loss_original.backward()\n\n    # torch.equal works for cpu, on cuda allclose is needed.\n    assert torch.allclose(\n        q.grad, q_.grad\n    ), f\"max diff is {torch.max(torch.abs(q.grad - q_.grad))}\"\n    assert torch.allclose(\n        k.grad, k_.grad\n    ), f\"max diff is {torch.max(torch.abs(k.grad - k_.grad))}\"\n    assert torch.allclose(\n        v.grad, v_.grad\n    ), f\"max diff is {torch.max(torch.abs(v.grad - v_.grad))}\"\n\n\ndef test_mask_padding_parity():\n    def old_padding_code(key_padding_mask, attn_mask):\n        if attn_mask is not None:\n            attn_mask = torch.cat(\n                [attn_mask, attn_mask.new_zeros(attn_mask.size(0), 1)], dim=1\n            )\n        if key_padding_mask is not None:\n            key_padding_mask = torch.cat(\n                [\n                    key_padding_mask,\n                    torch.zeros(key_padding_mask.size(0), 1).type_as(key_padding_mask),\n                ],\n                dim=1,\n            )\n        return key_padding_mask, attn_mask\n\n    # values don't matter for this test.\n    mha = MultiheadAttention(\n        embed_dim=8,\n        num_heads=2,\n        dropout=0.0,\n        add_bias_kv=True,\n        add_zero_attn=True,\n    )\n\n    key_padding_mask = torch.rand((8, 64))\n    attn_mask = torch.rand((64, 64))\n\n    kp_mask_orig, a_mask_orig = old_padding_code(key_padding_mask, attn_mask)\n    kp_mask_new, a_mask_new = mha._pad_masks(key_padding_mask, attn_mask)\n\n    assert kp_mask_orig.size() == kp_mask_new.size()\n    assert a_mask_orig.size() == a_mask_new.size()\n    assert torch.equal(kp_mask_orig, kp_mask_new)\n    assert torch.equal(a_mask_orig, a_mask_new)\n\n\ndef test_add_bias_parity():\n    # values don't matter for this test.\n    mha = MultiheadAttention(\n        embed_dim=8,\n        num_heads=2,\n        dropout=0.0,\n        add_bias_kv=True,\n        add_zero_attn=True,\n    )\n\n    def old_bias_code(k, v, key_padding_mask, attn_mask, bsz):\n        k = torch.cat([k, mha.bias_k.repeat(1, bsz, 1)])\n        v = torch.cat([v, mha.bias_v.repeat(1, bsz, 1)])\n        if attn_mask is not None:\n            attn_mask = torch.cat(\n                [attn_mask, attn_mask.new_zeros(attn_mask.size(0), 1)], dim=1\n            )\n        if key_padding_mask is not None:\n            key_padding_mask = torch.cat(\n                [\n                    key_padding_mask,\n                    key_padding_mask.new_zeros(key_padding_mask.size(0), 1),\n                ],\n                dim=1,\n            )\n        return k, v, key_padding_mask, attn_mask\n\n    seq_len = 64\n    bsz = 8\n    embedding = 8\n    key_padding_mask = torch.rand((bsz, seq_len))\n    attn_mask = torch.rand((seq_len, seq_len))\n    k = torch.rand((seq_len, bsz, embedding))\n    v = torch.rand((seq_len, bsz, embedding))\n\n    k_orig, v_orig, kp_mask_orig, a_mask_orig = old_bias_code(\n        k, v, key_padding_mask, attn_mask, bsz\n    )\n    k_new, v_new, kp_mask_new, a_mask_new = mha._add_bias(\n        k, v, key_padding_mask, attn_mask, bsz\n    )\n\n    assert torch.equal(k_orig, k_new)\n    assert torch.equal(v_orig, v_new)\n    assert torch.equal(kp_mask_orig, kp_mask_new)\n    assert torch.equal(a_mask_orig, a_mask_new)\n\n\nclass TestMultiheadAttention(unittest.TestCase):\n    def test_append_prev_key_padding_mask(self):\n        bsz = 1\n        src_len = 4\n\n        cases = [\n            # no padding mask\n            (None, None, None),\n            # current padding mask only\n            (\n                torch.tensor([[1]]).bool(),\n                None,\n                torch.tensor([[0, 0, 0, 1]]).bool(),\n            ),\n            # previous padding mask only\n            (\n                None,\n                torch.tensor([[0, 1, 0]]).bool(),\n                torch.tensor([[0, 1, 0, 0]]).bool(),\n            ),\n            # both padding masks\n            (\n                torch.tensor([[1]]).bool(),\n                torch.tensor([[0, 1, 0]]).bool(),\n                torch.tensor([[0, 1, 0, 1]]).bool(),\n            ),\n            # prev_key_padding_mask already full\n            (\n                torch.tensor([[0, 1, 0, 1]]).bool(),\n                None,\n                torch.tensor([[0, 1, 0, 1]]).bool(),\n            ),\n            # key_padding_mask already full\n            (\n                None,\n                torch.tensor([[0, 1, 0, 1]]).bool(),\n                torch.tensor([[0, 1, 0, 1]]).bool(),\n            ),\n        ]\n        for c in cases:\n            key_padding_mask = MultiheadAttention._append_prev_key_padding_mask(\n                c[0],\n                c[1],\n                batch_size=bsz,\n                src_len=src_len,\n                static_kv=False,\n            )\n\n            if key_padding_mask is not None:\n                self.assertTrue(\n                    torch.all(torch.eq(key_padding_mask, c[2])),\n                    f\"Unexpected resultant key padding mask: {key_padding_mask}\"\n                    f\" given current: {c[0]} and previous: {c[1]}\",\n                )\n                self.assertEqual(key_padding_mask.size(0), bsz)\n                self.assertEqual(key_padding_mask.size(1), src_len)\n            else:\n                self.assertIsNone(c[2])\n\n    def test_pruning_heads(self):\n        embed_dim = 768\n        num_heads = 12\n        num_heads_to_keep = 8\n        dummy_input = torch.randn(32, 2, embed_dim)\n        mha = MultiheadAttention(embed_dim=embed_dim, num_heads=num_heads)\n        reserve_head_index = mha._get_reserve_head_index(\n            num_heads_to_keep=num_heads_to_keep\n        )\n        mha._adaptive_prune_heads(reserve_head_index=reserve_head_index)\n        mha._set_skip_embed_dim_check()\n        mha(query=dummy_input, key=dummy_input, value=dummy_input)\n        self.assertEqual(mha.head_dim, embed_dim / num_heads)\n        self.assertEqual(mha.num_heads, num_heads_to_keep)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_noising.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\nfrom typing import Dict, List\n\nimport torch\n\nimport tests.utils as test_utils\nfrom fairseq import utils\nfrom fairseq.data import (\n    Dictionary,\n    LanguagePairDataset,\n    TransformEosDataset,\n    data_utils,\n    noising,\n)\n\n\nclass TestDataNoising(unittest.TestCase):\n    def _get_test_data_with_bpe_cont_marker(self, append_eos=True):\n        \"\"\"\n        Args:\n            append_eos: if True, each input sentence in the source tokens tensor\n                will have an EOS appended to the end.\n\n        Returns:\n            vocabs: BPE vocab with continuation markers as suffixes to denote\n                non-end of word tokens. This is the standard BPE format used in\n                fairseq's preprocessing.\n            x: input tensor containing numberized source tokens, with EOS at the\n                end if append_eos is true\n            src_lengths: and source lengths.\n        \"\"\"\n        vocab = Dictionary()\n        vocab.add_symbol(\"he@@\")\n        vocab.add_symbol(\"llo\")\n        vocab.add_symbol(\"how\")\n        vocab.add_symbol(\"are\")\n        vocab.add_symbol(\"y@@\")\n        vocab.add_symbol(\"ou\")\n        vocab.add_symbol(\"n@@\")\n        vocab.add_symbol(\"ew\")\n        vocab.add_symbol(\"or@@\")\n        vocab.add_symbol(\"k\")\n\n        src_tokens = [\n            [\"he@@\", \"llo\", \"n@@\", \"ew\", \"y@@\", \"or@@\", \"k\"],\n            [\"how\", \"are\", \"y@@\", \"ou\"],\n        ]\n        x, src_lengths = x, src_lengths = self._convert_src_tokens_to_tensor(\n            vocab=vocab, src_tokens=src_tokens, append_eos=append_eos\n        )\n        return vocab, x, src_lengths\n\n    def _get_test_data_with_bpe_end_marker(self, append_eos=True):\n        \"\"\"\n        Args:\n            append_eos: if True, each input sentence in the source tokens tensor\n                will have an EOS appended to the end.\n\n        Returns:\n            vocabs: BPE vocab with end-of-word markers as suffixes to denote\n                tokens at the end of a word. This is an alternative to fairseq's\n                standard preprocessing framework and is not generally supported\n                within fairseq.\n            x: input tensor containing numberized source tokens, with EOS at the\n                end if append_eos is true\n            src_lengths: and source lengths.\n        \"\"\"\n        vocab = Dictionary()\n        vocab.add_symbol(\"he\")\n        vocab.add_symbol(\"llo_EOW\")\n        vocab.add_symbol(\"how_EOW\")\n        vocab.add_symbol(\"are_EOW\")\n        vocab.add_symbol(\"y\")\n        vocab.add_symbol(\"ou_EOW\")\n        vocab.add_symbol(\"n\")\n        vocab.add_symbol(\"ew_EOW\")\n        vocab.add_symbol(\"or\")\n        vocab.add_symbol(\"k_EOW\")\n\n        src_tokens = [\n            [\"he\", \"llo_EOW\", \"n\", \"ew_EOW\", \"y\", \"or\", \"k_EOW\"],\n            [\"how_EOW\", \"are_EOW\", \"y\", \"ou_EOW\"],\n        ]\n        x, src_lengths = x, src_lengths = self._convert_src_tokens_to_tensor(\n            vocab=vocab, src_tokens=src_tokens, append_eos=append_eos\n        )\n        return vocab, x, src_lengths\n\n    def _get_test_data_with_word_vocab(self, append_eos=True):\n        \"\"\"\n        Args:\n            append_eos: if True, each input sentence in the source tokens tensor\n                will have an EOS appended to the end.\n\n        Returns:\n            vocabs: word vocab\n            x: input tensor containing numberized source tokens, with EOS at the\n                end if append_eos is true\n            src_lengths: and source lengths.\n        \"\"\"\n        vocab = Dictionary()\n\n        vocab.add_symbol(\"hello\")\n        vocab.add_symbol(\"how\")\n        vocab.add_symbol(\"are\")\n        vocab.add_symbol(\"you\")\n        vocab.add_symbol(\"new\")\n        vocab.add_symbol(\"york\")\n        src_tokens = [\n            [\"hello\", \"new\", \"york\", \"you\"],\n            [\"how\", \"are\", \"you\", \"new\", \"york\"],\n        ]\n        x, src_lengths = self._convert_src_tokens_to_tensor(\n            vocab=vocab, src_tokens=src_tokens, append_eos=append_eos\n        )\n        return vocab, x, src_lengths\n\n    def _convert_src_tokens_to_tensor(\n        self, vocab: Dictionary, src_tokens: List[List[str]], append_eos: bool\n    ):\n        src_len = [len(x) for x in src_tokens]\n        # If we have to append EOS, we include EOS in counting src length\n        if append_eos:\n            src_len = [length + 1 for length in src_len]\n\n        x = torch.LongTensor(len(src_tokens), max(src_len)).fill_(vocab.pad())\n        for i in range(len(src_tokens)):\n            for j in range(len(src_tokens[i])):\n                x[i][j] = vocab.index(src_tokens[i][j])\n            if append_eos:\n                x[i][j + 1] = vocab.eos()\n\n        x = x.transpose(1, 0)\n        return x, torch.LongTensor(src_len)\n\n    def assert_eos_at_end(self, x, x_len, eos):\n        \"\"\"Asserts last token of every sentence in x is EOS\"\"\"\n        for i in range(len(x_len)):\n            self.assertEqual(\n                x[x_len[i] - 1][i],\n                eos,\n                (\n                    \"Expected eos (token id {eos}) at the end of sentence {i} \"\n                    \"but got {other} instead\"\n                ).format(i=i, eos=eos, other=x[i][-1]),\n            )\n\n    def assert_word_dropout_correct(self, x, x_noised, x_len, l_noised):\n        # Expect only the first word (2 bpe tokens) of the first example\n        # was dropped out\n        self.assertEqual(x_len[0] - 2, l_noised[0])\n        for i in range(l_noised[0]):\n            self.assertEqual(x_noised[i][0], x[i + 2][0])\n\n    def test_word_dropout_with_eos(self):\n        vocab, x, x_len = self._get_test_data_with_bpe_cont_marker(append_eos=True)\n\n        with data_utils.numpy_seed(1234):\n            noising_gen = noising.WordDropout(vocab)\n            x_noised, l_noised = noising_gen.noising(x, x_len, 0.2)\n            self.assert_word_dropout_correct(\n                x=x, x_noised=x_noised, x_len=x_len, l_noised=l_noised\n            )\n            self.assert_eos_at_end(x=x_noised, x_len=l_noised, eos=vocab.eos())\n\n    def assert_word_blanking_correct(self, x, x_noised, x_len, l_noised, unk):\n        # Expect only the first word (2 bpe tokens) of the first example\n        # was blanked out\n        self.assertEqual(x_len[0], l_noised[0])\n        for i in range(l_noised[0]):\n            if i < 2:\n                self.assertEqual(x_noised[i][0], unk)\n            else:\n                self.assertEqual(x_noised[i][0], x[i][0])\n\n    def test_word_blank_with_eos(self):\n        vocab, x, x_len = self._get_test_data_with_bpe_cont_marker(append_eos=True)\n\n        with data_utils.numpy_seed(1234):\n            noising_gen = noising.WordDropout(vocab)\n            x_noised, l_noised = noising_gen.noising(x, x_len, 0.2, vocab.unk())\n            self.assert_word_blanking_correct(\n                x=x, x_noised=x_noised, x_len=x_len, l_noised=l_noised, unk=vocab.unk()\n            )\n            self.assert_eos_at_end(x=x_noised, x_len=l_noised, eos=vocab.eos())\n\n    def generate_unchanged_shuffle_map(self, length):\n        return {i: i for i in range(length)}\n\n    def assert_word_shuffle_matches_expected(\n        self,\n        x,\n        x_len,\n        max_shuffle_distance: int,\n        vocab: Dictionary,\n        expected_shufle_maps: List[Dict[int, int]],\n        expect_eos_at_end: bool,\n        bpe_end_marker=None,\n    ):\n        \"\"\"\n        This verifies that with a given x, x_len, max_shuffle_distance, and\n        vocab, we get the expected shuffle result.\n\n        Args:\n            x: Tensor of shape (T x B) = (sequence_length, batch_size)\n            x_len: Tensor of length B = batch_size\n            max_shuffle_distance: arg to pass to noising\n            expected_shuffle_maps: List[mapping] where mapping is a\n                Dict[old_index, new_index], mapping x's elements from their\n                old positions in x to their new positions in x.\n            expect_eos_at_end: if True, check the output to make sure there is\n                an EOS at the end.\n            bpe_end_marker: str denoting the BPE end token. If this is not None, we\n                set the BPE cont token to None in the noising classes.\n        \"\"\"\n        bpe_cont_marker = None\n        if bpe_end_marker is None:\n            bpe_cont_marker = \"@@\"\n\n        with data_utils.numpy_seed(1234):\n            word_shuffle = noising.WordShuffle(\n                vocab, bpe_cont_marker=bpe_cont_marker, bpe_end_marker=bpe_end_marker\n            )\n            x_noised, l_noised = word_shuffle.noising(\n                x, x_len, max_shuffle_distance=max_shuffle_distance\n            )\n\n        # For every example, we have a different expected shuffle map. We check\n        # that each example is shuffled as expected according to each\n        # corresponding shuffle map.\n        for i in range(len(expected_shufle_maps)):\n            shuffle_map = expected_shufle_maps[i]\n            for k, v in shuffle_map.items():\n                self.assertEqual(x[k][i], x_noised[v][i])\n\n        # Shuffling should not affect the length of each example\n        for pre_shuffle_length, post_shuffle_length in zip(x_len, l_noised):\n            self.assertEqual(pre_shuffle_length, post_shuffle_length)\n        if expect_eos_at_end:\n            self.assert_eos_at_end(x=x_noised, x_len=l_noised, eos=vocab.eos())\n\n    def test_word_shuffle_with_eos(self):\n        vocab, x, x_len = self._get_test_data_with_bpe_cont_marker(append_eos=True)\n\n        # Assert word shuffle with max shuffle distance 0 causes input to be\n        # unchanged\n        self.assert_word_shuffle_matches_expected(\n            x=x,\n            x_len=x_len,\n            max_shuffle_distance=0,\n            vocab=vocab,\n            expected_shufle_maps=[\n                self.generate_unchanged_shuffle_map(example_len)\n                for example_len in x_len\n            ],\n            expect_eos_at_end=True,\n        )\n\n        # Assert word shuffle with max shuffle distance 3 matches our expected\n        # shuffle order\n        self.assert_word_shuffle_matches_expected(\n            x=x,\n            x_len=x_len,\n            vocab=vocab,\n            max_shuffle_distance=3,\n            expected_shufle_maps=[\n                self.generate_unchanged_shuffle_map(x_len[0]),\n                {0: 0, 1: 3, 2: 1, 3: 2},\n            ],\n            expect_eos_at_end=True,\n        )\n\n    def test_word_shuffle_with_eos_nonbpe(self):\n        \"\"\"The purpose of this is to test shuffling logic with word vocabs\"\"\"\n        vocab, x, x_len = self._get_test_data_with_word_vocab(append_eos=True)\n\n        # Assert word shuffle with max shuffle distance 0 causes input to be\n        # unchanged\n        self.assert_word_shuffle_matches_expected(\n            x=x,\n            x_len=x_len,\n            max_shuffle_distance=0,\n            vocab=vocab,\n            expected_shufle_maps=[\n                self.generate_unchanged_shuffle_map(example_len)\n                for example_len in x_len\n            ],\n            expect_eos_at_end=True,\n        )\n\n        # Assert word shuffle with max shuffle distance 3 matches our expected\n        # shuffle order\n        self.assert_word_shuffle_matches_expected(\n            x=x,\n            x_len=x_len,\n            vocab=vocab,\n            max_shuffle_distance=3,\n            expected_shufle_maps=[\n                {0: 0, 1: 1, 2: 3, 3: 2},\n                {0: 0, 1: 2, 2: 1, 3: 3, 4: 4},\n            ],\n            expect_eos_at_end=True,\n        )\n\n    def test_word_shuffle_without_eos(self):\n        \"\"\"Same result as word shuffle with eos except no EOS at end\"\"\"\n        vocab, x, x_len = self._get_test_data_with_bpe_cont_marker(append_eos=False)\n\n        # Assert word shuffle with max shuffle distance 0 causes input to be\n        # unchanged\n        self.assert_word_shuffle_matches_expected(\n            x=x,\n            x_len=x_len,\n            max_shuffle_distance=0,\n            vocab=vocab,\n            expected_shufle_maps=[\n                self.generate_unchanged_shuffle_map(example_len)\n                for example_len in x_len\n            ],\n            expect_eos_at_end=False,\n        )\n\n        # Assert word shuffle with max shuffle distance 3 matches our expected\n        # shuffle order\n        self.assert_word_shuffle_matches_expected(\n            x=x,\n            x_len=x_len,\n            vocab=vocab,\n            max_shuffle_distance=3,\n            expected_shufle_maps=[\n                self.generate_unchanged_shuffle_map(x_len[0]),\n                {0: 0, 1: 3, 2: 1, 3: 2},\n            ],\n            expect_eos_at_end=False,\n        )\n\n    def test_word_shuffle_without_eos_with_bpe_end_marker(self):\n        \"\"\"Same result as word shuffle without eos except using BPE end token\"\"\"\n        vocab, x, x_len = self._get_test_data_with_bpe_end_marker(append_eos=False)\n\n        # Assert word shuffle with max shuffle distance 0 causes input to be\n        # unchanged\n        self.assert_word_shuffle_matches_expected(\n            x=x,\n            x_len=x_len,\n            max_shuffle_distance=0,\n            vocab=vocab,\n            expected_shufle_maps=[\n                self.generate_unchanged_shuffle_map(example_len)\n                for example_len in x_len\n            ],\n            expect_eos_at_end=False,\n            bpe_end_marker=\"_EOW\",\n        )\n\n        # Assert word shuffle with max shuffle distance 3 matches our expected\n        # shuffle order\n        self.assert_word_shuffle_matches_expected(\n            x=x,\n            x_len=x_len,\n            vocab=vocab,\n            max_shuffle_distance=3,\n            expected_shufle_maps=[\n                self.generate_unchanged_shuffle_map(x_len[0]),\n                {0: 0, 1: 3, 2: 1, 3: 2},\n            ],\n            expect_eos_at_end=False,\n            bpe_end_marker=\"_EOW\",\n        )\n\n    def assert_no_eos_at_end(self, x, x_len, eos):\n        \"\"\"Asserts that the last token of each sentence in x is not EOS\"\"\"\n        for i in range(len(x_len)):\n            self.assertNotEqual(\n                x[x_len[i] - 1][i],\n                eos,\n                \"Expected no eos (token id {eos}) at the end of sentence {i}.\".format(\n                    eos=eos, i=i\n                ),\n            )\n\n    def test_word_dropout_without_eos(self):\n        \"\"\"Same result as word dropout with eos except no EOS at end\"\"\"\n        vocab, x, x_len = self._get_test_data_with_bpe_cont_marker(append_eos=False)\n\n        with data_utils.numpy_seed(1234):\n            noising_gen = noising.WordDropout(vocab)\n            x_noised, l_noised = noising_gen.noising(x, x_len, 0.2)\n            self.assert_word_dropout_correct(\n                x=x, x_noised=x_noised, x_len=x_len, l_noised=l_noised\n            )\n            self.assert_no_eos_at_end(x=x_noised, x_len=l_noised, eos=vocab.eos())\n\n    def test_word_blank_without_eos(self):\n        \"\"\"Same result as word blank with eos except no EOS at end\"\"\"\n        vocab, x, x_len = self._get_test_data_with_bpe_cont_marker(append_eos=False)\n\n        with data_utils.numpy_seed(1234):\n            noising_gen = noising.WordDropout(vocab)\n            x_noised, l_noised = noising_gen.noising(x, x_len, 0.2, vocab.unk())\n            self.assert_word_blanking_correct(\n                x=x, x_noised=x_noised, x_len=x_len, l_noised=l_noised, unk=vocab.unk()\n            )\n            self.assert_no_eos_at_end(x=x_noised, x_len=l_noised, eos=vocab.eos())\n\n    def _get_noising_dataset_batch(\n        self,\n        src_tokens_no_pad,\n        src_dict,\n        append_eos_to_tgt=False,\n    ):\n        \"\"\"\n        Constructs a NoisingDataset and the corresponding\n        ``LanguagePairDataset(NoisingDataset(src), src)``. If\n        *append_eos_to_tgt* is True, wrap the source dataset in\n        :class:`TransformEosDataset` to append EOS to the clean source when\n        using it as the target.\n        \"\"\"\n        src_dataset = test_utils.TestDataset(data=src_tokens_no_pad)\n\n        noising_dataset = noising.NoisingDataset(\n            src_dataset=src_dataset,\n            src_dict=src_dict,\n            seed=1234,\n            max_word_shuffle_distance=3,\n            word_dropout_prob=0.2,\n            word_blanking_prob=0.2,\n            noising_class=noising.UnsupervisedMTNoising,\n        )\n        tgt = src_dataset\n        language_pair_dataset = LanguagePairDataset(\n            src=noising_dataset, tgt=tgt, src_sizes=None, src_dict=src_dict\n        )\n        language_pair_dataset = TransformEosDataset(\n            language_pair_dataset,\n            src_dict.eos(),\n            append_eos_to_tgt=append_eos_to_tgt,\n        )\n\n        dataloader = torch.utils.data.DataLoader(\n            dataset=language_pair_dataset,\n            batch_size=2,\n            collate_fn=language_pair_dataset.collater,\n        )\n        denoising_batch_result = next(iter(dataloader))\n        return denoising_batch_result\n\n    def test_noising_dataset_with_eos(self):\n        src_dict, src_tokens, _ = self._get_test_data_with_bpe_cont_marker(\n            append_eos=True\n        )\n\n        # Format data for src_dataset\n        src_tokens = torch.t(src_tokens)\n        src_tokens_no_pad = []\n        for src_sentence in src_tokens:\n            src_tokens_no_pad.append(\n                utils.strip_pad(tensor=src_sentence, pad=src_dict.pad())\n            )\n        denoising_batch_result = self._get_noising_dataset_batch(\n            src_tokens_no_pad=src_tokens_no_pad, src_dict=src_dict\n        )\n\n        eos, pad = src_dict.eos(), src_dict.pad()\n\n        # Generated noisy source as source\n        expected_src = torch.LongTensor(\n            [[4, 5, 10, 11, 8, 12, 13, eos], [pad, pad, pad, 6, 8, 9, 7, eos]]\n        )\n        # Original clean source as target (right-padded)\n        expected_tgt = torch.LongTensor(\n            [[4, 5, 10, 11, 8, 12, 13, eos], [6, 7, 8, 9, eos, pad, pad, pad]]\n        )\n        generated_src = denoising_batch_result[\"net_input\"][\"src_tokens\"]\n        tgt_tokens = denoising_batch_result[\"target\"]\n\n        self.assertTensorEqual(expected_src, generated_src)\n        self.assertTensorEqual(expected_tgt, tgt_tokens)\n\n    def test_noising_dataset_without_eos(self):\n        \"\"\"\n        Similar to test noising dataset with eos except that we have to set\n        *append_eos_to_tgt* to ``True``.\n        \"\"\"\n\n        src_dict, src_tokens, _ = self._get_test_data_with_bpe_cont_marker(\n            append_eos=False\n        )\n\n        # Format data for src_dataset\n        src_tokens = torch.t(src_tokens)\n        src_tokens_no_pad = []\n        for src_sentence in src_tokens:\n            src_tokens_no_pad.append(\n                utils.strip_pad(tensor=src_sentence, pad=src_dict.pad())\n            )\n        denoising_batch_result = self._get_noising_dataset_batch(\n            src_tokens_no_pad=src_tokens_no_pad,\n            src_dict=src_dict,\n            append_eos_to_tgt=True,\n        )\n\n        eos, pad = src_dict.eos(), src_dict.pad()\n\n        # Generated noisy source as source\n        expected_src = torch.LongTensor(\n            [[4, 5, 10, 11, 8, 12, 13], [pad, pad, pad, 6, 8, 9, 7]]\n        )\n        # Original clean source as target (right-padded)\n        expected_tgt = torch.LongTensor(\n            [[4, 5, 10, 11, 8, 12, 13, eos], [6, 7, 8, 9, eos, pad, pad, pad]]\n        )\n\n        generated_src = denoising_batch_result[\"net_input\"][\"src_tokens\"]\n        tgt_tokens = denoising_batch_result[\"target\"]\n\n        self.assertTensorEqual(expected_src, generated_src)\n        self.assertTensorEqual(expected_tgt, tgt_tokens)\n\n    def assertTensorEqual(self, t1, t2):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        self.assertEqual(t1.ne(t2).long().sum(), 0)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_online_backtranslation.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport tempfile\nimport unittest\nfrom pathlib import Path\nfrom typing import Any, Dict, Sequence\n\nimport fairseq.data.indexed_dataset as indexed_dataset\nimport fairseq.options\nimport fairseq.tasks.online_backtranslation as obt\nimport torch\nfrom tests import utils\n\n\ndef mk_sample(tokens: Sequence[int], batch_size: int = 2) -> Dict[str, Any]:\n    batch = torch.stack([torch.tensor(tokens, dtype=torch.long)] * batch_size)\n    sample = {\n        \"net_input\": {\n            \"src_tokens\": batch,\n            \"prev_output_tokens\": batch,\n            \"src_lengths\": torch.tensor([len(tokens)] * batch_size, dtype=torch.long),\n        },\n        \"target\": batch[:, 1:],\n    }\n    return sample\n\n\ndef mk_dataset(num_samples: int, max_len: int, output: Path):\n    output.parent.mkdir(exist_ok=True)\n    idx = indexed_dataset.IndexedDatasetBuilder(str(output))\n    data = torch.randint(5, 100, (num_samples, max_len))\n    lengths = torch.randint(3, max_len, (num_samples,))\n    for d, l in zip(data, lengths):\n        d[0] = 0\n        idx.add_item(d[:l])\n    idx.finalize(output.with_suffix(\".idx\"))\n    assert output.exists()\n    assert output.with_suffix(\".idx\").exists()\n\n\nclass OnlineBacktranslationTest(unittest.TestCase):\n\n    tmp_dir = Path(tempfile.mkdtemp(suffix=\"OnlineBacktranslationTest\"))\n\n    @classmethod\n    def obt_task(\n        cls, languages: Sequence[str], data: Path = None, language_mapping: str = None\n    ):\n        dict_path = cls.tmp_dir / \"dict.txt\"\n        if not dict_path.exists():\n            dictionary = utils.dummy_dictionary(100)\n            dictionary.save(str(dict_path))\n\n        if data is not None:\n            (data / \"dict.txt\").write_text(dict_path.read_text())\n        else:\n            data = cls.tmp_dir\n        assert len(languages) >= 2\n\n        kwargs = {\n            \"arch\": \"transformer\",\n            # --max-sentences=1 for better predictability of batches\n            \"max_sentences\": 1,\n            # Use characteristics dimensions\n            \"encoder_layers\": 3,\n            \"encoder_embed_dim\": 12,\n            \"encoder_ffn_embed_dim\": 14,\n            \"encoder_attention_heads\": 4,\n            \"decoder_layers\": 3,\n            \"decoder_embed_dim\": 12,\n            \"decoder_output_dim\": 12,\n            \"decoder_ffn_embed_dim\": 14,\n            \"decoder_attention_heads\": 4,\n            # Disable dropout so we have comparable tests.\n            \"dropout\": 0,\n            \"attention_dropout\": 0,\n            \"activation_dropout\": 0,\n            \"encoder_layerdrop\": 0,\n        }\n\n        args = fairseq.options.get_args(\n            data,\n            task=\"online_backtranslation\",\n            mono_langs=\",\".join(languages),\n            valid_lang_pairs=f\"{languages[0]}-{languages[1]}\",\n            tokens_per_sample=256,\n            language_mapping=language_mapping,\n            **kwargs,\n        )\n        task = obt.OnlineBackTranslationTask.setup_task(args)\n        # we need to build the model to have the correct dictionary\n        model = task.build_model(task.args)\n        return task, model\n\n    def tmp_path(self, test_case: str) -> Path:\n        return Path(tempfile.mkdtemp(test_case, dir=self.tmp_dir))\n\n    def test_lang_tokens(self):\n        task, model = self.obt_task([\"en\", \"ro\", \"zh\"])\n        assert obt._lang_token(\"en\") in task.dictionary\n        assert obt._lang_token(\"ro\") in task.dictionary\n        assert obt._lang_token(\"zh\") in task.dictionary\n\n        en_bos = obt._lang_token_index(task.common_dict, \"en\")\n        assert \"en\" == task.common_dict[en_bos].strip(\"_\")\n        zh_bos = obt._lang_token_index(task.common_dict, \"zh\")\n        assert \"zh\" == task.common_dict[zh_bos].strip(\"_\")\n        zh_sample = mk_sample([zh_bos, 16, 14, 12, 10])\n\n        # we expect to receive the bos token for translation\n        assert task.get_bos_token_from_sample(zh_sample) == en_bos\n\n    def test_backtranslate_sample(self):\n        task, model = self.obt_task([\"en\", \"ro\", \"zh\"])\n\n        en_bos = obt._lang_token_index(task.common_dict, \"en\")\n        zh_bos = obt._lang_token_index(task.common_dict, \"zh\")\n        sample = mk_sample([zh_bos, 16, 14, 12, 10])\n\n        task.backtranslate_sample(sample, \"zh\", \"en\")\n        target_zh = list(sample[\"target\"][0])\n        assert target_zh == [16, 14, 12, 10]  # original zh sentence\n        generated_en = sample[\"net_input\"][\"src_tokens\"][0]\n        assert generated_en[0] == en_bos\n\n    def test_train_dataset(self):\n        data = self.tmp_path(\"test_train_dataset\")\n        mk_dataset(20, 10, data / \"en\" / \"train.bin\")\n        mk_dataset(10, 10, data / \"zh\" / \"train.bin\")\n        task, model = self.obt_task([\"en\", \"zh\"], data)\n        task.load_dataset(\"train\")\n\n        en_bos = obt._lang_token_index(task.common_dict, \"en\")\n        zh_bos = obt._lang_token_index(task.common_dict, \"zh\")\n\n        train = task.datasets[\"train\"]\n        train.ordered_indices()\n        train.prefetch([0, 19])\n        sample_0 = train[0]\n        sample_19 = train[19]\n        self.assertEqual(\n            set(sample_0.keys()), {\"en-BT\", \"en-DENOISE\", \"zh-BT\", \"zh-DENOISE\"}\n        )\n        for sample in (sample_0, sample_19):\n            self.assertEqual(sample[\"en-BT\"][\"source\"][0], en_bos)\n            # bt target isn't ready to look at.\n            self.assertEqual(sample[\"en-DENOISE\"][\"source\"][0], en_bos)\n            # TODO What could we check on the target side ?\n\n        for i in range(10):\n            # Zh dataset is shorter, and is wrapped around En dataset.\n            train.prefetch([i, i + 10])\n            self.assertEqual(\n                list(train[i][\"zh-DENOISE\"][\"source\"]),\n                list(train[i + 10][\"zh-DENOISE\"][\"source\"]),\n            )\n            self.assertEqual(train[i][\"zh-DENOISE\"][\"source\"][0].item(), zh_bos)\n\n        # Sorted by increasing len\n        self.assertLess(\n            len(sample_0[\"en-BT\"][\"source\"]), len(sample_19[\"en-BT\"][\"source\"])\n        )\n\n    def test_valid_dataset(self):\n        data = self.tmp_path(\"test_valid_dataset\")\n        mk_dataset(10, 21, data / \"valid.en-zh.en.bin\")\n        mk_dataset(10, 21, data / \"valid.en-zh.zh.bin\")\n\n        task, model = self.obt_task([\"en\", \"zh\"], data)\n        valid = task.load_dataset(\"valid\")\n        en_bos = obt._lang_token_index(task.common_dict, \"en\")\n\n        assert valid is not None\n        valid.prefetch(range(10))\n        sample_0 = valid[0]\n        sample_9 = valid[9]\n        self.assertEqual(sample_0[\"id\"], 0)\n        self.assertEqual(sample_9[\"id\"], 9)\n        self.assertEqual(sample_0[\"source\"][0], en_bos)\n        self.assertEqual(sample_9[\"source\"][0], en_bos)\n        # TODO: could we test the target side ?\n\n    def assertFnMatch(self, fn, values):\n        for x, y in values.items():\n            fn_x = fn(x)\n            self.assertEqual(fn_x, y, f\"Fn has wrong value: fn({x}) = {fn_x} != {y}\")\n\n    def test_piecewise_linear_fn(self):\n        self.assertFnMatch(\n            obt.PiecewiseLinearFn.from_string(\"1.0\"), {0: 1, 100: 1, 500: 1, 1000: 1}\n        )\n        self.assertFnMatch(\n            obt.PiecewiseLinearFn.from_string(\"0:1,1000:0\"),\n            {0: 1, 500: 0.5, 1000: 0, 2000: 0},\n        )\n        self.assertFnMatch(\n            obt.PiecewiseLinearFn.from_string(\"0:0,1000:1\"),\n            {0: 0, 500: 0.5, 1000: 1, 2000: 1},\n        )\n        self.assertFnMatch(\n            obt.PiecewiseLinearFn.from_string(\"0:0,1000:1,2000:0\"),\n            {0: 0, 500: 0.5, 1000: 1, 1500: 0.5, 2000: 0, 3000: 0},\n        )\n"
  },
  {
    "path": "tests/test_plasma_utils.py",
    "content": "import contextlib\nimport tempfile\nimport unittest\nfrom io import StringIO\n\nimport numpy as np\n\nfrom tests.utils import create_dummy_data, preprocess_lm_data, train_language_model\n\ntry:\n    from pyarrow import plasma\n\n    from fairseq.data.plasma_utils import PlasmaStore, PlasmaView\n\n    PYARROW_AVAILABLE = True\nexcept ImportError:\n    PYARROW_AVAILABLE = False\n\ndummy_path = \"dummy\"\n\n\n@unittest.skipUnless(PYARROW_AVAILABLE, \"\")\nclass TestPlasmaView(unittest.TestCase):\n    def setUp(self) -> None:\n        self.tmp_file = tempfile.NamedTemporaryFile()  # noqa: P201\n        self.path = self.tmp_file.name\n        self.server = PlasmaStore.start(path=self.path, nbytes=10000)\n        self.client = plasma.connect(self.path, num_retries=10)\n\n    def tearDown(self) -> None:\n        self.client.disconnect()\n        self.tmp_file.close()\n        self.server.kill()\n\n    def test_two_servers_do_not_share_object_id_space(self):\n        data_server_1 = np.array([0, 1])\n        data_server_2 = np.array([2, 3])\n        server_2_path = self.path\n        with tempfile.NamedTemporaryFile() as server_1_path:\n            server = PlasmaStore.start(path=server_1_path.name, nbytes=10000)\n            arr1 = PlasmaView(\n                data_server_1, dummy_path, 1, plasma_path=server_1_path.name\n            )\n            assert len(arr1.client.list()) == 1\n            assert (arr1.array == data_server_1).all()\n            arr2 = PlasmaView(data_server_2, dummy_path, 1, plasma_path=server_2_path)\n            assert (arr2.array == data_server_2).all()\n            assert (arr1.array == data_server_1).all()\n            server.kill()\n\n    def test_hash_collision(self):\n        data_server_1 = np.array([0, 1])\n        data_server_2 = np.array([2, 3])\n        arr1 = PlasmaView(data_server_1, dummy_path, 1, plasma_path=self.path)\n        assert len(arr1.client.list()) == 1\n        arr2 = PlasmaView(data_server_2, dummy_path, 1, plasma_path=self.path)\n        assert len(arr1.client.list()) == 1\n        assert len(arr2.client.list()) == 1\n        assert (arr2.array == data_server_1).all()\n        # New hash key based on tuples\n        arr3 = PlasmaView(\n            data_server_2, dummy_path, (1, 12312312312, None), plasma_path=self.path\n        )\n        assert (\n            len(arr2.client.list()) == 2\n        ), \"No new object was created by using a novel hash key\"\n        assert (\n            arr3.object_id in arr2.client.list()\n        ), \"No new object was created by using a novel hash key\"\n        assert (\n            arr3.object_id in arr3.client.list()\n        ), \"No new object was created by using a novel hash key\"\n        del arr3, arr2, arr1\n\n    @staticmethod\n    def _assert_view_equal(pv1, pv2):\n        np.testing.assert_array_equal(pv1.array, pv2.array)\n\n    def test_putting_same_array_twice(self):\n        data = np.array([4, 4, 4])\n        arr1 = PlasmaView(data, dummy_path, 1, plasma_path=self.path)\n        assert len(self.client.list()) == 1\n        arr1b = PlasmaView(\n            data, dummy_path, 1, plasma_path=self.path\n        )  # should not change contents of store\n        arr1c = PlasmaView(\n            None, dummy_path, 1, plasma_path=self.path\n        )  # should not change contents of store\n\n        assert len(self.client.list()) == 1\n        self._assert_view_equal(arr1, arr1b)\n        self._assert_view_equal(arr1, arr1c)\n        PlasmaView(\n            data, dummy_path, 2, plasma_path=self.path\n        )  # new object id, adds new entry\n        assert len(self.client.list()) == 2\n\n        new_client = plasma.connect(self.path)\n        assert len(new_client.list()) == 2  # new client can access same objects\n        assert isinstance(arr1.object_id, plasma.ObjectID)\n        del arr1b\n        del arr1c\n\n    def test_plasma_store_full_raises(self):\n        with tempfile.NamedTemporaryFile() as new_path:\n            server = PlasmaStore.start(path=new_path.name, nbytes=10000)\n            with self.assertRaises(plasma.PlasmaStoreFull):\n                # 2000 floats is more than 2000 bytes\n                PlasmaView(\n                    np.random.rand(10000, 1), dummy_path, 1, plasma_path=new_path.name\n                )\n            server.kill()\n\n    def test_object_id_overflow(self):\n        PlasmaView.get_object_id(\"\", 2**21)\n\n    def test_training_lm_plasma(self):\n        with contextlib.redirect_stdout(StringIO()):\n            with tempfile.TemporaryDirectory(\"test_transformer_lm\") as data_dir:\n                create_dummy_data(data_dir)\n                preprocess_lm_data(data_dir)\n                train_language_model(\n                    data_dir,\n                    \"transformer_lm\",\n                    [\"--use-plasma-view\", \"--plasma-path\", self.path],\n                    run_validation=True,\n                )\n"
  },
  {
    "path": "tests/test_positional_encoding.py",
    "content": "import unittest\n\nimport torch\nfrom fairseq.modules import RelPositionalEncoding\nimport numpy as np\n\n\nclass TestRelPositionalEncoding(unittest.TestCase):\n    def setUp(self) -> None:\n        self.T = 3\n        self.B = 1\n        self.C = 2\n        torch.manual_seed(0)\n        self.sample = torch.randn(self.T, self.B, self.C)  # TBC\n        self.rel_pos_enc = RelPositionalEncoding(max_len=4, d_model=self.C)\n\n    def test_extend_pe(self):\n        inp = self.sample.transpose(0, 1)\n        self.rel_pos_enc.extend_pe(inp)\n        expected_pe = torch.tensor(\n            [\n                [\n                    [0.1411, -0.9900],\n                    [0.9093, -0.4161],\n                    [0.8415, 0.5403],\n                    [0.0000, 1.0000],\n                    [-0.8415, 0.5403],\n                    [-0.9093, -0.4161],\n                    [-0.1411, -0.9900],\n                ]\n            ]\n        )\n\n        self.assertTrue(\n            np.allclose(\n                expected_pe.cpu().detach().numpy(),\n                self.rel_pos_enc.pe.cpu().detach().numpy(),\n                atol=1e-4,\n            )\n        )\n\n    def test_forward(self):\n        pos_enc = self.rel_pos_enc(self.sample)\n        expected_pos_enc = torch.tensor(\n            [\n                [[0.9093, -0.4161]],\n                [[0.8415, 0.5403]],\n                [[0.0000, 1.0000]],\n                [[-0.8415, 0.5403]],\n                [[-0.9093, -0.4161]],\n            ]\n        )\n        self.assertTrue(\n            np.allclose(\n                pos_enc.cpu().detach().numpy(),\n                expected_pos_enc.cpu().detach().numpy(),\n                atol=1e-4,\n            )\n        )\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_reproducibility.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport json\nimport os\nimport tempfile\nimport unittest\n\nimport torch\n\nfrom . import test_binaries\n\n\nclass TestReproducibility(unittest.TestCase):\n    def _test_reproducibility(\n        self,\n        name,\n        extra_flags=None,\n        delta=0.0001,\n        resume_checkpoint=\"checkpoint1.pt\",\n        max_epoch=3,\n    ):\n        def get_last_log_stats_containing_string(log_records, search_string):\n            for log_record in logs.records[::-1]:\n                if isinstance(log_record.msg, str) and search_string in log_record.msg:\n                    return json.loads(log_record.msg)\n\n        if extra_flags is None:\n            extra_flags = []\n\n        with tempfile.TemporaryDirectory(name) as data_dir:\n            with self.assertLogs() as logs:\n                test_binaries.create_dummy_data(data_dir)\n                test_binaries.preprocess_translation_data(data_dir)\n\n            # train epochs 1 and 2 together\n            with self.assertLogs() as logs:\n                test_binaries.train_translation_model(\n                    data_dir,\n                    \"fconv_iwslt_de_en\",\n                    [\n                        \"--dropout\",\n                        \"0.0\",\n                        \"--log-format\",\n                        \"json\",\n                        \"--log-interval\",\n                        \"1\",\n                        \"--max-epoch\",\n                        str(max_epoch),\n                    ]\n                    + extra_flags,\n                )\n            train_log = get_last_log_stats_containing_string(logs.records, \"train_loss\")\n            valid_log = get_last_log_stats_containing_string(logs.records, \"valid_loss\")\n\n            # train epoch 2, resuming from previous checkpoint 1\n            os.rename(\n                os.path.join(data_dir, resume_checkpoint),\n                os.path.join(data_dir, \"checkpoint_last.pt\"),\n            )\n            with self.assertLogs() as logs:\n                test_binaries.train_translation_model(\n                    data_dir,\n                    \"fconv_iwslt_de_en\",\n                    [\n                        \"--dropout\",\n                        \"0.0\",\n                        \"--log-format\",\n                        \"json\",\n                        \"--log-interval\",\n                        \"1\",\n                        \"--max-epoch\",\n                        str(max_epoch),\n                    ]\n                    + extra_flags,\n                )\n            train_res_log = get_last_log_stats_containing_string(\n                logs.records, \"train_loss\"\n            )\n            valid_res_log = get_last_log_stats_containing_string(\n                logs.records, \"valid_loss\"\n            )\n\n            for k in [\"train_loss\", \"train_ppl\", \"train_num_updates\", \"train_gnorm\"]:\n                self.assertAlmostEqual(\n                    float(train_log[k]), float(train_res_log[k]), delta=delta\n                )\n            for k in [\n                \"valid_loss\",\n                \"valid_ppl\",\n                \"valid_num_updates\",\n                \"valid_best_loss\",\n            ]:\n                self.assertAlmostEqual(\n                    float(valid_log[k]), float(valid_res_log[k]), delta=delta\n                )\n\n    def test_reproducibility(self):\n        self._test_reproducibility(\"test_reproducibility\")\n\n    @unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\n    def test_reproducibility_fp16(self):\n        self._test_reproducibility(\n            \"test_reproducibility_fp16\",\n            [\n                \"--fp16\",\n                \"--fp16-init-scale\",\n                \"4096\",\n            ],\n            delta=0.011,\n        )\n\n    @unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\n    def test_reproducibility_memory_efficient_fp16(self):\n        self._test_reproducibility(\n            \"test_reproducibility_memory_efficient_fp16\",\n            [\n                \"--memory-efficient-fp16\",\n                \"--fp16-init-scale\",\n                \"4096\",\n            ],\n        )\n\n    @unittest.skipIf(not torch.cuda.is_available(), \"test requires a GPU\")\n    def test_reproducibility_amp(self):\n        self._test_reproducibility(\n            \"test_reproducibility_amp\",\n            [\n                \"--amp\",\n                \"--fp16-init-scale\",\n                \"4096\",\n            ],\n            delta=0.011,\n        )\n\n    def test_mid_epoch_reproducibility(self):\n        self._test_reproducibility(\n            \"test_mid_epoch_reproducibility\",\n            [\"--save-interval-updates\", \"3\"],\n            resume_checkpoint=\"checkpoint_1_3.pt\",\n            max_epoch=1,\n        )\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_resampling_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport collections\nimport unittest\n\nimport numpy as np\nfrom fairseq.data import ListDataset, ResamplingDataset\n\n\nclass TestResamplingDataset(unittest.TestCase):\n    def setUp(self):\n        self.strings = [\"ab\", \"c\", \"def\", \"ghij\"]\n        self.weights = [4.0, 2.0, 7.0, 1.5]\n        self.size_ratio = 2\n        self.dataset = ListDataset(\n            self.strings, np.array([len(s) for s in self.strings])\n        )\n\n    def _test_common(self, resampling_dataset, iters):\n        assert len(self.dataset) == len(self.strings) == len(self.weights)\n        assert len(resampling_dataset) == self.size_ratio * len(self.strings)\n\n        results = {\"ordered_by_size\": True, \"max_distribution_diff\": 0.0}\n\n        totalfreqs = 0\n        freqs = collections.defaultdict(int)\n\n        for epoch_num in range(iters):\n            resampling_dataset.set_epoch(epoch_num)\n\n            indices = resampling_dataset.ordered_indices()\n            assert len(indices) == len(resampling_dataset)\n\n            prev_size = -1\n\n            for i in indices:\n                cur_size = resampling_dataset.size(i)\n                # Make sure indices map to same sequences within an epoch\n                assert resampling_dataset[i] == resampling_dataset[i]\n\n                # Make sure length of sequence is correct\n                assert cur_size == len(resampling_dataset[i])\n\n                freqs[resampling_dataset[i]] += 1\n                totalfreqs += 1\n\n                if prev_size > cur_size:\n                    results[\"ordered_by_size\"] = False\n\n                prev_size = cur_size\n\n        assert set(freqs.keys()) == set(self.strings)\n        for s, weight in zip(self.strings, self.weights):\n            freq = freqs[s] / totalfreqs\n            expected_freq = weight / sum(self.weights)\n            results[\"max_distribution_diff\"] = max(\n                results[\"max_distribution_diff\"], abs(expected_freq - freq)\n            )\n\n        return results\n\n    def test_resampling_dataset_batch_by_size_false(self):\n        resampling_dataset = ResamplingDataset(\n            self.dataset,\n            self.weights,\n            size_ratio=self.size_ratio,\n            batch_by_size=False,\n            seed=0,\n        )\n\n        results = self._test_common(resampling_dataset, iters=1000)\n\n        # For batch_by_size = False, the batches should be returned in\n        # arbitrary order of size.\n        assert not results[\"ordered_by_size\"]\n\n        # Allow tolerance in distribution error of 2%.\n        assert results[\"max_distribution_diff\"] < 0.02\n\n    def test_resampling_dataset_batch_by_size_true(self):\n        resampling_dataset = ResamplingDataset(\n            self.dataset,\n            self.weights,\n            size_ratio=self.size_ratio,\n            batch_by_size=True,\n            seed=0,\n        )\n\n        results = self._test_common(resampling_dataset, iters=1000)\n\n        # For batch_by_size = True, the batches should be returned in\n        # increasing order of size.\n        assert results[\"ordered_by_size\"]\n\n        # Allow tolerance in distribution error of 2%.\n        assert results[\"max_distribution_diff\"] < 0.02\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_roberta.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport functools\nimport unittest\nfrom typing import Any, Dict, Sequence\n\nimport fairseq\nimport fairseq.options\nimport fairseq.tasks\nimport torch\nfrom tests.utils import dummy_dictionary\n\nVOCAB_SIZE = 100\n\n\n@fairseq.tasks.register_task(\"fake_task\")\nclass FakeTask(fairseq.tasks.LegacyFairseqTask):\n    def __init__(self, args):\n        super().__init__(args)\n        self.dictionary = dummy_dictionary(VOCAB_SIZE - 4)\n        assert len(self.dictionary) == VOCAB_SIZE\n\n    @property\n    def source_dictionary(self):\n        return self.dictionary\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n\n\n@functools.lru_cache()\ndef get_toy_model(\n    device: str,\n    architecture: str = \"roberta_enc_dec\",\n    **extra_args: Any,\n):\n    assert device in (\"gpu\", \"cpu\")\n    kwargs = {\n        \"arch\": architecture,\n        # Use characteristics dimensions\n        \"encoder_layers\": 3,\n        \"encoder_embed_dim\": 12,\n        \"encoder_ffn_embed_dim\": 14,\n        \"encoder_attention_heads\": 4,\n        \"decoder_layers\": 3,\n        \"decoder_embed_dim\": 12,\n        \"decoder_ffn_embed_dim\": 14,\n        \"decoder_attention_heads\": 4,\n        # Disable dropout so we have comparable tests.\n        \"dropout\": 0,\n        \"attention_dropout\": 0,\n        \"activation_dropout\": 0,\n        \"encoder_layerdrop\": 0,\n        # required args\n        \"tokens_per_sample\": 256,\n        \"data\": \"/tmp/test_roberta\",\n    }\n    kwargs.update(extra_args)\n    fake_task = FakeTask(kwargs)\n    args = fairseq.options.get_args(\n        task=\"online_backtranslation\",\n        mono_langs=\"en,ro\",\n        valid_lang_pairs=\"en-ro\",\n        **kwargs,\n    )\n    torch.manual_seed(0)\n    model = fake_task.build_model(args)\n    if device == \"gpu\":\n        model.cuda()\n    return fake_task, model\n\n\ndef mk_sample(\n    lang: str, device: str, tok: Sequence[int] = None, batch_size: int = 2\n) -> Dict[str, Any]:\n    assert device in (\"gpu\", \"cpu\")\n    if not tok:\n        if lang == \"en\":\n            tok = [10, 11, 12, 13, 14, 15, 2]\n        else:\n            tok = [20, 21, 22, 23, 24, 25, 26, 27, 2]\n\n    batch = torch.stack([torch.tensor(tok, dtype=torch.long)] * batch_size)\n    if device == \"gpu\":\n        batch = batch.cuda()\n    sample = {\n        \"net_input\": {\n            \"src_tokens\": batch,\n            \"prev_output_tokens\": batch,\n            \"src_lengths\": torch.tensor(\n                [len(tok)] * batch_size, dtype=torch.long, device=batch.device\n            ),\n        },\n        \"target\": batch[:, 1:],\n    }\n    return sample\n\n\ndef cpu_gpu(fn):\n    def helper(self):\n        fn(self, \"cpu\")\n        if torch.cuda.is_available():\n            fn(self, \"gpu\")\n\n    return helper\n\n\ndef architectures(fn):\n    def helper(self):\n        for arch in [\"roberta_enc_dec\", \"transformer\"]:\n            fn(self, arch)\n\n    return helper\n\n\nclass RobertaTest(unittest.TestCase):\n    def assertTensorEqual(self, t1, t2, delta: float = 1e-6):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        if delta == 0.0:\n            self.assertEqual(t1.ne(t2).long().sum(), 0)\n        else:\n            self.assertEqual(((t2 - t1).abs() > delta).long().sum(), 0)\n\n    def assertSharing(self, model, link_groups: Sequence[Sequence[str]]):\n        ids = {}\n        for group in link_groups:\n            group_ids = {name: id(params(model, name)) for name in group}\n            shared_id = group_ids[group[0]]\n            self.assertEqual(group_ids, {name: shared_id for name in group})\n            self.assertNotIn(shared_id, ids)\n            ids[shared_id] = group\n\n    def test_roberta_shared_params(self):\n        _, roberta = get_toy_model(\"cpu\", architecture=\"roberta\")\n        self.assertSharing(\n            roberta,\n            [\n                [\n                    \"encoder.sentence_encoder.embed_tokens.weight\",\n                    \"encoder.lm_head.weight\",\n                ]\n            ],\n        )\n\n        _, roberta = get_toy_model(\n            \"cpu\", architecture=\"roberta\", untie_weights_roberta=True\n        )\n        self.assertSharing(\n            roberta,\n            [\n                [\"encoder.sentence_encoder.embed_tokens.weight\"],\n                [\"encoder.lm_head.weight\"],\n            ],\n        )\n\n    def test_roberta_enc_dec_shared_params(self):\n        # 3 distinct embeddings\n        _, enc_dec = get_toy_model(\"cpu\", architecture=\"roberta_enc_dec\")\n        self.assertSharing(\n            enc_dec,\n            [\n                [\"encoder.embed_tokens.weight\"],\n                [\"decoder.embed_tokens.weight\"],\n                [\"decoder.output_projection.weight\"],\n            ],\n        )\n\n        # 2 distinct embeddings, one for encoder, one for decoder\n        _, enc_dec = get_toy_model(\n            \"cpu\", architecture=\"roberta_enc_dec\", share_decoder_input_output_embed=True\n        )\n        self.assertSharing(\n            enc_dec,\n            [\n                [\"encoder.embed_tokens.weight\"],\n                [\n                    \"decoder.embed_tokens.weight\",\n                    \"decoder.output_projection.weight\",\n                ],\n            ],\n        )\n\n        # shared embeddings\n        _, enc_dec = get_toy_model(\n            \"cpu\", architecture=\"roberta_enc_dec\", share_all_embeddings=True\n        )\n        self.assertSharing(\n            enc_dec,\n            [\n                [\n                    \"encoder.embed_tokens.weight\",\n                    \"decoder.embed_tokens.weight\",\n                    \"decoder.output_projection.weight\",\n                ]\n            ],\n        )\n\n    def test_roberta_max_positions_is_correctly_set(self):\n        device = \"cpu\"\n        task, model = get_toy_model(device)\n        max_pos = model.max_decoder_positions()\n        self.assertEqual(max_pos, 256)\n        self.assertEqual(max_pos, model.decoder.max_positions())\n        self.assertEqual(max_pos, model.encoder.max_positions())\n        self.assertEqual(max_pos, model.encoder.embed_positions.max_positions)\n\n        sentence = [31 for _ in range(max_pos)]\n        sample = mk_sample(\"en\", device, sentence, batch_size=1)\n        self.assertEqual(list(sample[\"net_input\"][\"src_lengths\"]), [max_pos])\n        self.assertEqual(len(sample[\"net_input\"][\"src_tokens\"][0]), max_pos)\n        x, _ = model.forward(**sample[\"net_input\"])\n        self.assertEqual(x.shape, (1, max_pos, VOCAB_SIZE))\n\n    @cpu_gpu\n    def test_roberta_forward_backward(self, device: str):\n        _, model = get_toy_model(device)\n        sample = mk_sample(\"en\", device)\n        en_tokens = sample[\"net_input\"][\"src_tokens\"]\n        (bs, l) = en_tokens.shape\n        # Forward\n        logits, _ = model(**sample[\"net_input\"])\n        self.assertEqual(logits.shape, (bs, l, VOCAB_SIZE))\n\n        # Backward\n        loss = logits.sum()\n        loss.backward()\n\n    @cpu_gpu\n    def test_roberta_forward_backward_bs1(self, device: str):\n        _, model = get_toy_model(device)\n        sample = mk_sample(\"en\", device, batch_size=1)\n        o, _ = model.forward(**sample[\"net_input\"])\n        loss = o.sum()\n        sample2 = mk_sample(\"ro\", device, batch_size=1)\n        o, _ = model.forward(**sample2[\"net_input\"])\n        loss += o.sum()\n        loss.backward()\n\n    @cpu_gpu\n    def test_roberta_batching(self, device: str):\n        \"\"\"\n        Checks that the batch of size 2 give twice the same results than the batch of size 1.\n        \"\"\"\n        _, model = get_toy_model(device)\n        sample = mk_sample(\"en\", device, batch_size=1)\n        slen = sample[\"net_input\"][\"src_lengths\"][0]\n        sample2 = mk_sample(\"en\", device, batch_size=2)\n        with torch.no_grad():\n            z = model.encoder.forward(\n                sample[\"net_input\"][\"src_tokens\"], sample[\"net_input\"][\"src_lengths\"]\n            )\n            z = z[\"encoder_out\"][-1]\n            logits, _ = model.forward(**sample[\"net_input\"])\n\n            z2 = model.encoder.forward(\n                sample2[\"net_input\"][\"src_tokens\"], sample[\"net_input\"][\"src_lengths\"]\n            )\n            z2 = z2[\"encoder_out\"][-1]\n            logits2, _ = model.forward(**sample2[\"net_input\"])\n\n        self.assertEqual(z.shape, (slen, 1, 12))\n        self.assertEqual(z2.shape, (slen, 2, 12))\n        self.assertTensorEqual(logits2[0], logits2[1])\n        self.assertTensorEqual(logits[0], logits2[0])\n\n    @cpu_gpu\n    def test_roberta_incremental_decoder(self, device: str):\n        \"\"\"\n        Checks that incremental decoding yields the same result than non incremental one.\n        \"\"\"\n        task, model = get_toy_model(device)\n\n        en_sample = mk_sample(\"en\", device)\n        en_tokens = en_sample[\"net_input\"][\"src_tokens\"]\n        ro_sample = mk_sample(\"ro\", device)\n        ro_tokens = ro_sample[\"net_input\"][\"src_tokens\"]\n\n        en_enc = model.encoder.forward(\n            en_tokens, src_lengths=en_sample[\"net_input\"][\"src_lengths\"]\n        )\n        (bs, tgt_len) = ro_tokens.shape\n\n        # Decode without incremental state\n        ro_dec, _ = model.decoder.forward(ro_tokens, encoder_out=en_enc)\n        self.assertEqual(ro_dec.shape, (bs, tgt_len, VOCAB_SIZE))\n        self.assertTensorEqual(ro_dec[0], ro_dec[1])\n\n        # Decode with incremental state\n        inc_state = {}\n        ro_dec_inc = []\n        for i in range(tgt_len):\n            ro, _ = model.decoder.forward(\n                ro_tokens[:, : i + 1], encoder_out=en_enc, incremental_state=inc_state\n            )\n            self.assertEqual(ro.shape, (bs, 1, VOCAB_SIZE))\n            ro_dec_inc.append(ro)\n\n        for i in range(tgt_len):\n            # Intra-batch\n            self.assertTensorEqual(ro_dec_inc[i][0], ro_dec_inc[i][1])\n            # Incremental vs non-incremental\n            self.assertTensorEqual(ro_dec_inc[i][:, 0], ro_dec[:, i])\n\n    @cpu_gpu\n    def test_regularize_for_adaprune_in_roberta(self, device: str):\n        _, model = get_toy_model(\n            device=device,\n            architecture=\"roberta_base\",\n            mha_reg_scale_factor=0.000375,\n            ffn_reg_scale_factor=0.000375,\n        )\n        sample = mk_sample(\"en\", device, batch_size=1)\n        task_loss, _ = model.forward(**sample[\"net_input\"])\n        head_loss = model._get_adaptive_head_loss()\n        ffn_loss = model._get_adaptive_ffn_loss()\n        loss = task_loss.sum() + head_loss + ffn_loss\n        loss.backward()\n\n    @cpu_gpu\n    def test_ffn_prune_for_adaprune_in_roberta(self, device: str):\n        _, model = get_toy_model(\n            device=device,\n            architecture=\"roberta_base\",\n        )\n        sample = mk_sample(\"en\", device, batch_size=1)\n        for layer in model.encoder.sentence_encoder.layers:\n            fc1_original_size = layer.fc1.out_features\n            remove_index = layer._get_fc_rank(remove_num=2)\n            layer._prune_fc_layer(remove_index=remove_index)\n            self.assertEqual(layer.fc1.out_features, fc1_original_size - 2)\n\n        task_loss, _ = model.forward(**sample[\"net_input\"])\n\n\ndef params(model, name):\n    if \".\" not in name:\n        return getattr(model, name)\n\n    prefix, name = name.split(\".\", 1)\n    return params(getattr(model, prefix), name)\n"
  },
  {
    "path": "tests/test_rotary_positional_embedding.py",
    "content": "import torch\nimport numpy as np\nimport unittest\nfrom fairseq.modules.rotary_positional_embedding import apply_rotary_pos_emb\nfrom fairseq.modules import RotaryPositionalEmbedding\n\n\nclass TestRotaryPositionalEmbedding(unittest.TestCase):\n    def setUp(self) -> None:\n        self.T = 3\n        self.B = 1\n        self.C = 2\n        torch.manual_seed(0)\n        self.sample = torch.randn(self.T, self.B, self.C)  # TBC\n        self.rope_pos_emd = RotaryPositionalEmbedding(dim=self.C)\n\n    def test_forward(self):\n        expected_cos = torch.tensor(\n            [[[[1.0000, 1.0000]]], [[[0.5403, 0.5403]]], [[[-0.4161, -0.4161]]]]\n        )\n        expected_sin = torch.tensor(\n            [[[[0.0000, 0.0000]]], [[[0.8415, 0.8415]]], [[[0.9093, 0.9093]]]]\n        )\n        cos, sin = self.rope_pos_emd(self.sample, self.T)\n        self.assertTrue(\n            np.allclose(\n                expected_cos.cpu().detach().numpy(),\n                cos.cpu().detach().numpy(),\n                atol=1e-4,\n            )\n        )\n        self.assertTrue(\n            np.allclose(\n                expected_sin.cpu().detach().numpy(),\n                sin.cpu().detach().numpy(),\n                atol=1e-4,\n            )\n        )\n\n    def test_apply_rotary_pos_emb(self):\n        cos, sin = self.rope_pos_emd(self.sample, self.T)\n        query = self.sample.view(self.T, self.B, 1, self.C)\n        expected_query = torch.tensor(\n            [[[[1.5410, -0.2934]]], [[[-1.6555, -1.5263]]], [[[1.7231, -0.4041]]]]\n        )\n        new_query, new_key = apply_rotary_pos_emb(query, query, cos, sin)\n        self.assertTrue(\n            np.allclose(\n                expected_query.cpu().detach().numpy(),\n                new_query.cpu().detach().numpy(),\n                atol=1e-4,\n            )\n        )\n        self.assertTrue(\n            np.allclose(\n                expected_query.cpu().detach().numpy(),\n                new_key.cpu().detach().numpy(),\n                atol=1e-4,\n            )\n        )\n\n    def test_jit_compile_rope_module(self):\n        module_scripted = torch.jit.script(self.rope_pos_emd)\n        apply_rotary_scripted = torch.jit.script(apply_rotary_pos_emb)\n        # Test several different lengths\n        for T in [3, 5, 10]:\n            sample = torch.randn(T, self.B, self.C)\n            # Run forward pass with the original module\n            cos_original, sin_original = self.rope_pos_emd(sample, T)\n            query = sample.view(T, self.B, 1, self.C)\n            new_query, new_key = apply_rotary_pos_emb(query, query, cos_original, sin_original)\n\n            # Run forward pass with the scripted module\n            cos_scripted, sin_scripted = module_scripted(sample, T)\n            new_query_scripted, new_key_scripted = apply_rotary_scripted(query, query, cos_scripted, sin_scripted)\n\n            # Ensure the outputs are the same\n            self.assertTrue(torch.allclose(cos_original, cos_scripted))\n            self.assertTrue(torch.allclose(sin_original, sin_scripted))\n            self.assertTrue(torch.allclose(new_query, new_query_scripted))\n            self.assertTrue(torch.allclose(new_key, new_key_scripted))\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_sequence_generator.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport math\nimport tempfile\nimport unittest\n\nimport numpy as np\nimport torch\n\nimport tests.utils as test_utils\nfrom fairseq import search\nfrom fairseq.data.dictionary import Dictionary\nfrom fairseq.models.transformer import TransformerModel\nfrom fairseq.ngram_repeat_block import NGramRepeatBlock\nfrom fairseq.sequence_generator import EnsembleModel, SequenceGenerator\nfrom fairseq.tasks.fairseq_task import LegacyFairseqTask\n\nDEFAULT_TEST_VOCAB_SIZE = 100\n\n\nclass DummyTask(LegacyFairseqTask):\n    def __init__(self, args):\n        super().__init__(args)\n        self.dictionary = get_dummy_dictionary()\n        if getattr(self.args, \"ctc\", False):\n            self.dictionary.add_symbol(\"<ctc_blank>\")\n        self.src_dict = self.dictionary\n        self.tgt_dict = self.dictionary\n\n    @property\n    def source_dictionary(self):\n        return self.src_dict\n\n    @property\n    def target_dictionary(self):\n        return self.dictionary\n\n\ndef get_dummy_dictionary(vocab_size=DEFAULT_TEST_VOCAB_SIZE):\n    dummy_dict = Dictionary()\n    # add dummy symbol to satisfy vocab size\n    for id, _ in enumerate(range(vocab_size)):\n        dummy_dict.add_symbol(\"{}\".format(id), n=1000)\n    return dummy_dict\n\n\ndef get_dummy_task_and_parser():\n    \"\"\"\n    to build a fariseq model, we need some dummy parse and task. This function\n    is used to create dummy task and parser to faciliate model/criterion test\n\n    Note: we use FbSpeechRecognitionTask as the dummy task. You may want\n    to use other task by providing another function\n    \"\"\"\n    parser = argparse.ArgumentParser(\n        description=\"test_dummy_s2s_task\", argument_default=argparse.SUPPRESS\n    )\n    DummyTask.add_args(parser)\n    args = parser.parse_args([])\n    task = DummyTask.setup_task(args)\n    return task, parser\n\n\nclass TestJitSequenceGeneratorBase(unittest.TestCase):\n    def setUp(self):\n        self.task, self.parser = get_dummy_task_and_parser()\n        eos = self.task.tgt_dict.eos()\n        src_tokens = torch.randint(3, 50, (2, 10)).long()\n        src_tokens = torch.cat((src_tokens, torch.LongTensor([[eos], [eos]])), -1)\n        src_lengths = torch.LongTensor([2, 10])\n        self.sample = {\n            \"net_input\": {\"src_tokens\": src_tokens, \"src_lengths\": src_lengths}\n        }\n        TransformerModel.add_args(self.parser)\n        args = self.parser.parse_args([])\n        args.encoder_layers = 2\n        args.decoder_layers = 1\n        self.transformer_model = TransformerModel.build_model(args, self.task)\n\n    def assertOutputEqual(self, hypo, pos_probs):\n        pos_scores = torch.FloatTensor(pos_probs).log()\n        self.assertTensorSizeEqual(hypo[\"positional_scores\"], pos_scores)\n        self.assertTensorSizeEqual(pos_scores.numel(), hypo[\"tokens\"].numel())\n\n    def assertTensorSizeEqual(self, t1, t2):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n\n    def assertAlmostEqual(self, t1, t2):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        self.assertLess((t1 - t2).abs().max(), 1e-4)\n\n    def assertTensorEqual(self, t1, t2):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        self.assertEqual(t1.ne(t2).long().sum(), 0)\n\n    def assertHypoEqual(self, h1, h2):\n        \"Check two hypos are equal\"\n        self.assertTensorEqual(h1[\"tokens\"], h2[\"tokens\"])\n        self.assertAlmostEqual(h1[\"positional_scores\"], h2[\"positional_scores\"])\n        self.assertLess(abs(h1[\"score\"] - h2[\"score\"]), 1e-6)\n        self.assertAlmostEqual(h1[\"attention\"], h2[\"attention\"])\n\n    def _test_save_and_load(self, scripted_module):\n        with tempfile.NamedTemporaryFile() as f:\n            scripted_module.save(f.name)\n            torch.jit.load(f.name)\n\n\nJIT_MSG = \"Targeting OSS scriptability for the 1.6 release\"\n\n\n@unittest.skipIf(torch.__version__ < \"1.6.0\", JIT_MSG)\nclass TestJitSequenceGenerator(TestJitSequenceGeneratorBase):\n    def test_export_transformer(self):\n        model = self.transformer_model\n        torch.jit.script(model)\n\n    def test_ensemble_sequence_generator(self):\n        model = self.transformer_model\n        generator = SequenceGenerator(\n            [model],\n            self.task.tgt_dict,\n            beam_size=2,\n            no_repeat_ngram_size=2,\n            max_len_b=10,\n        )\n        scripted_model = torch.jit.script(generator)\n        self._test_save_and_load(scripted_model)\n\n    def test_export_ensemble_model(self):\n        model = self.transformer_model\n        ensemble_models = EnsembleModel([model])\n        torch.jit.script(ensemble_models)\n\n\nclass TestExportSearch(unittest.TestCase):\n    def setUp(self):\n        task, _ = get_dummy_task_and_parser()\n        self.tgt_dict = task.tgt_dict\n        self.min_top1_prob = 0.4\n\n    def test_export_diverse_bs(self):\n        search_strategy = search.DiverseBeamSearch(\n            self.tgt_dict, num_groups=2, diversity_strength=0.0\n        )\n        torch.jit.script(search_strategy)\n\n    def test_export_sampling(self):\n        low_sampling_topp = self.min_top1_prob / 2.0\n        search_strategy = search.Sampling(\n            self.tgt_dict, sampling_topp=low_sampling_topp\n        )\n        torch.jit.script(search_strategy)\n\n    def test_export_diverse_siblings_search(self):\n        search_strategy = search.DiverseSiblingsSearch(\n            self.tgt_dict, diversity_rate=0.5\n        )\n        torch.jit.script(search_strategy)\n\n\nclass TestSequenceGeneratorBase(unittest.TestCase):\n    def assertHypoTokens(self, hypo, tokens):\n        self.assertTensorEqual(hypo[\"tokens\"], torch.LongTensor(tokens))\n\n    def assertHypoScore(self, hypo, pos_probs, normalized=True, lenpen=1.0):\n        pos_scores = torch.FloatTensor(pos_probs).log()\n        self.assertAlmostEqual(hypo[\"positional_scores\"], pos_scores)\n        self.assertEqual(pos_scores.numel(), hypo[\"tokens\"].numel())\n        score = pos_scores.sum()\n        if normalized:\n            score /= pos_scores.numel() ** lenpen\n        self.assertLess(abs(score - hypo[\"score\"]), 1e-6)\n\n    def assertAlmostEqual(self, t1, t2):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        self.assertLess((t1 - t2).abs().max(), 1e-4)\n\n    def assertTensorEqual(self, t1, t2):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        self.assertEqual(t1.ne(t2).long().sum(), 0)\n\n\nclass TestSequenceGenerator(TestSequenceGeneratorBase):\n    def setUp(self):\n        (\n            self.tgt_dict,\n            self.w1,\n            self.w2,\n            src_tokens,\n            src_lengths,\n            self.model,\n        ) = test_utils.sequence_generator_setup()\n        self.sample = {\n            \"net_input\": {\"src_tokens\": src_tokens, \"src_lengths\": src_lengths}\n        }\n\n    def test_with_normalization(self):\n        generator = SequenceGenerator([self.model], self.tgt_dict, beam_size=2)\n        hypos = generator.forward(self.sample)\n        eos, w1, w2 = self.tgt_dict.eos(), self.w1, self.w2\n        # sentence 1, beam 1\n        self.assertHypoTokens(hypos[0][0], [w1, eos])\n        self.assertHypoScore(hypos[0][0], [0.9, 1.0])\n        # sentence 1, beam 2\n        self.assertHypoTokens(hypos[0][1], [w2, w1, w2, eos])\n        self.assertHypoScore(hypos[0][1], [0.1, 0.9, 0.9, 1.0])\n        # sentence 2, beam 1\n        self.assertHypoTokens(hypos[1][0], [w1, w2, w1, eos])\n        self.assertHypoScore(hypos[1][0], [0.7, 0.4, 0.4, 1.0])\n        # sentence 2, beam 2\n        self.assertHypoTokens(hypos[1][1], [w1, w2, eos])\n        self.assertHypoScore(hypos[1][1], [0.7, 0.4, 0.6])\n\n    def test_without_normalization(self):\n        # Sentence 1: unchanged from the normalized case\n        # Sentence 2: beams swap order\n        generator = SequenceGenerator(\n            [self.model], self.tgt_dict, beam_size=2, normalize_scores=False\n        )\n        hypos = generator.forward(self.sample)\n        eos, w1, w2 = self.tgt_dict.eos(), self.w1, self.w2\n        # sentence 1, beam 1\n        self.assertHypoTokens(hypos[0][0], [w1, eos])\n        self.assertHypoScore(hypos[0][0], [0.9, 1.0], normalized=False)\n        # sentence 1, beam 2\n        self.assertHypoTokens(hypos[0][1], [w2, w1, w2, eos])\n        self.assertHypoScore(hypos[0][1], [0.1, 0.9, 0.9, 1.0], normalized=False)\n        # sentence 2, beam 1\n        self.assertHypoTokens(hypos[1][0], [w1, w2, eos])\n        self.assertHypoScore(hypos[1][0], [0.7, 0.4, 0.6], normalized=False)\n        # sentence 2, beam 2\n        self.assertHypoTokens(hypos[1][1], [w1, w2, w1, eos])\n        self.assertHypoScore(hypos[1][1], [0.7, 0.4, 0.4, 1.0], normalized=False)\n\n    def test_with_lenpen_favoring_short_hypos(self):\n        lenpen = 0.6\n        generator = SequenceGenerator(\n            [self.model], self.tgt_dict, beam_size=2, len_penalty=lenpen\n        )\n        hypos = generator.forward(self.sample)\n        eos, w1, w2 = self.tgt_dict.eos(), self.w1, self.w2\n        # sentence 1, beam 1\n        self.assertHypoTokens(hypos[0][0], [w1, eos])\n        self.assertHypoScore(hypos[0][0], [0.9, 1.0], lenpen=lenpen)\n        # sentence 1, beam 2\n        self.assertHypoTokens(hypos[0][1], [w2, w1, w2, eos])\n        self.assertHypoScore(hypos[0][1], [0.1, 0.9, 0.9, 1.0], lenpen=lenpen)\n        # sentence 2, beam 1\n        self.assertHypoTokens(hypos[1][0], [w1, w2, eos])\n        self.assertHypoScore(hypos[1][0], [0.7, 0.4, 0.6], lenpen=lenpen)\n        # sentence 2, beam 2\n        self.assertHypoTokens(hypos[1][1], [w1, w2, w1, eos])\n        self.assertHypoScore(hypos[1][1], [0.7, 0.4, 0.4, 1.0], lenpen=lenpen)\n\n    def test_with_lenpen_favoring_long_hypos(self):\n        lenpen = 5.0\n        generator = SequenceGenerator(\n            [self.model], self.tgt_dict, beam_size=2, len_penalty=lenpen\n        )\n        hypos = generator.forward(self.sample)\n        eos, w1, w2 = self.tgt_dict.eos(), self.w1, self.w2\n        # sentence 1, beam 1\n        self.assertHypoTokens(hypos[0][0], [w2, w1, w2, eos])\n        self.assertHypoScore(hypos[0][0], [0.1, 0.9, 0.9, 1.0], lenpen=lenpen)\n        # sentence 1, beam 2\n        self.assertHypoTokens(hypos[0][1], [w1, eos])\n        self.assertHypoScore(hypos[0][1], [0.9, 1.0], lenpen=lenpen)\n        # sentence 2, beam 1\n        self.assertHypoTokens(hypos[1][0], [w1, w2, w1, eos])\n        self.assertHypoScore(hypos[1][0], [0.7, 0.4, 0.4, 1.0], lenpen=lenpen)\n        # sentence 2, beam 2\n        self.assertHypoTokens(hypos[1][1], [w1, w2, eos])\n        self.assertHypoScore(hypos[1][1], [0.7, 0.4, 0.6], lenpen=lenpen)\n\n    def test_maxlen(self):\n        generator = SequenceGenerator(\n            [self.model], self.tgt_dict, beam_size=2, max_len_b=2\n        )\n        hypos = generator.forward(self.sample)\n        eos, w1, w2 = self.tgt_dict.eos(), self.w1, self.w2\n        # sentence 1, beam 1\n        self.assertHypoTokens(hypos[0][0], [w1, eos])\n        self.assertHypoScore(hypos[0][0], [0.9, 1.0])\n        # sentence 1, beam 2\n        self.assertHypoTokens(hypos[0][1], [w2, w2, eos])\n        self.assertHypoScore(hypos[0][1], [0.1, 0.1, 0.6])\n        # sentence 2, beam 1\n        self.assertHypoTokens(hypos[1][0], [w1, w2, eos])\n        self.assertHypoScore(hypos[1][0], [0.7, 0.4, 0.6])\n        # sentence 2, beam 2\n        self.assertHypoTokens(hypos[1][1], [w2, w2, eos])\n        self.assertHypoScore(hypos[1][1], [0.3, 0.9, 0.01])\n\n    def test_encoder_with_different_output_len(self):\n        args = self.model.encoder.args\n        task = test_utils.TestTranslationTask.setup_task(\n            args, self.tgt_dict, self.tgt_dict\n        )\n        reshaping_model = test_utils.TestReshapingModel.build_model(args, task)\n        generator = SequenceGenerator(\n            [reshaping_model], self.tgt_dict, beam_size=2, max_len_b=2\n        )\n        hypos = generator.forward(self.sample)\n        for sent in [0, 1]:\n            for beam in [0, 1]:\n                assert hypos[sent][beam][\"attention\"] is not None\n\n    def test_generation_with_additional_input(self):\n        args = self.model.encoder.args\n        task = test_utils.TestTranslationTask.setup_task(\n            args, self.tgt_dict, self.tgt_dict\n        )\n        add_input_model = test_utils.TestAdditionalInputModel.build_model(args, task)\n        generator = SequenceGenerator([add_input_model], self.tgt_dict, beam_size=2)\n        sample = self.sample.copy()\n        sample[\"net_input\"][\"fancy_other_input\"] = sample[\"net_input\"][\"src_tokens\"]\n        hypos = generator.forward(self.sample)\n        eos, w1 = self.tgt_dict.eos(), self.w1\n        # sentence 1, beam 1\n        self.assertHypoTokens(hypos[0][0], [w1, eos])\n        self.assertHypoScore(hypos[0][0], [0.9, 1.0])\n\n\n@unittest.skipUnless(torch.cuda.is_available(), \"\")\nclass TestRepeatNgramBlocking(TestSequenceGeneratorBase):\n    @classmethod\n    def setUpClass(cls):\n        (\n            cls.tgt_dict,\n            cls.w1,\n            cls.w2,\n            src_tokens,\n            src_lengths,\n            cls.model,\n        ) = test_utils.sequence_generator_setup()\n        return cls\n\n    def test_finds_repetitive_tokens(self):\n        bsz, vocab_size, beam_size, step = 2, 4, 1, 3\n        generated_tok = torch.tensor(\n            [[2, 2, 2, 2], [3, 3, 3, 3]], dtype=torch.long, device=\"cuda\"\n        )\n        lprobs = torch.zeros((beam_size * bsz, vocab_size), device=\"cuda\")\n        desired_result = lprobs.new_tensor(\n            [[0.0, 0.0, -math.inf, 0.0], [0.0, 0.0, 0.0, -math.inf]]\n        )\n\n        cuda_ext_result, baseline_result = self._compare_cuda_ext_to_default_implem(\n            bsz, beam_size, generated_tok, lprobs, step, 2\n        )\n        self.assertTensorEqual(cuda_ext_result, desired_result)\n        self.assertTensorEqual(baseline_result, desired_result)\n\n    @unittest.skipIf(torch.__version__ < \"1.6.0\", JIT_MSG)\n    def test_jit_no_extension(self):\n        bsz, vocab_size, beam_size, step = 2, 4, 1, 3\n        generated_tok = torch.tensor(\n            [[2, 2, 2, 2], [3, 3, 3, 3]], dtype=torch.long, device=\"cuda\"\n        )\n        lprobs = torch.zeros((beam_size * bsz, vocab_size), device=\"cuda\")\n        blocker = NGramRepeatBlock(2, use_extension=False)\n        base_result = blocker(generated_tok, lprobs.clone(), bsz, beam_size, step)\n        scripted_blocker = torch.jit.script(blocker)\n        jit_result = scripted_blocker(\n            generated_tok, lprobs.clone(), bsz, beam_size, step\n        )\n        self.assertTensorEqual(base_result, jit_result)\n\n    def test_ngram_blocking_same_as_default_implem(self):\n        \"\"\"Test that cuda extension returns same things as default impl in many settings.\"\"\"\n        vocab_size = 4\n        step = 6\n        for _ in range(2):\n            block_param = np.random.choice([1, 2, 3, 4])\n            batch_size = np.random.randint(1, 8)\n            beam_size = np.random.choice([1, 2, 4, 8])\n            lprobs = torch.zeros((beam_size * batch_size, vocab_size), device=\"cuda\")\n\n            generated_tok = torch.tensor(\n                np.random.randint(\n                    0, vocab_size, size=(batch_size * beam_size, step + 1)\n                ),\n                device=\"cuda\",\n                dtype=torch.long,\n            )\n            self._compare_cuda_ext_to_default_implem(\n                batch_size,\n                beam_size,\n                generated_tok,\n                lprobs,\n                step,\n                block_param,\n            )\n\n    def _compare_cuda_ext_to_default_implem(\n        self, bsz, beam_size, generated_tok, lprobs, step, block_param\n    ):\n        \"\"\"Assert that cuda extension and default implem return the same thing.\"\"\"\n        blocker = NGramRepeatBlock(block_param)\n        assert blocker.use_extension, \"Extension not compiled\"\n        cuda_ext_result = blocker(\n            generated_tok,\n            lprobs.clone(),\n            bsz,\n            beam_size,\n            step,\n        )\n        blocker.use_extension = False\n        baseline_result = blocker(\n            generated_tok,\n            lprobs.clone(),\n            bsz,\n            beam_size,\n            step,\n        )\n        self.assertTensorEqual(cuda_ext_result, baseline_result)\n        blocker.use_extension = True\n        return cuda_ext_result, baseline_result\n\n\nclass TestDiverseBeamSearch(TestSequenceGeneratorBase):\n    def setUp(self):\n        # construct dummy dictionary\n        d = test_utils.dummy_dictionary(vocab_size=2)\n        self.assertEqual(d.pad(), 1)\n        self.assertEqual(d.eos(), 2)\n        self.assertEqual(d.unk(), 3)\n        self.eos = d.eos()\n        self.w1 = 4\n        self.w2 = 5\n\n        # construct source data\n        self.src_tokens = torch.LongTensor(\n            [\n                [self.w1, self.w2, self.eos],\n                [self.w1, self.w2, self.eos],\n            ]\n        )\n        self.src_lengths = torch.LongTensor([2, 2])\n\n        args = argparse.Namespace()\n        unk = 0.0\n        args.beam_probs = [\n            # step 0:\n            torch.FloatTensor(\n                [\n                    # eos      w1   w2\n                    # sentence 1:\n                    [0.0, unk, 0.9, 0.1],  # beam 1\n                    [0.0, unk, 0.9, 0.1],  # beam 2\n                    # sentence 2:\n                    [0.0, unk, 0.7, 0.3],\n                    [0.0, unk, 0.7, 0.3],\n                ]\n            ),\n            # step 1:\n            torch.FloatTensor(\n                [\n                    # eos      w1   w2\n                    # sentence 1:\n                    [0.0, unk, 0.6, 0.4],\n                    [0.0, unk, 0.6, 0.4],\n                    # sentence 2:\n                    [0.25, unk, 0.35, 0.4],\n                    [0.25, unk, 0.35, 0.4],\n                ]\n            ),\n            # step 2:\n            torch.FloatTensor(\n                [\n                    # eos      w1   w2\n                    # sentence 1:\n                    [1.0, unk, 0.0, 0.0],\n                    [1.0, unk, 0.0, 0.0],\n                    # sentence 2:\n                    [0.9, unk, 0.1, 0.0],\n                    [0.9, unk, 0.1, 0.0],\n                ]\n            ),\n        ]\n\n        task = test_utils.TestTranslationTask.setup_task(args, d, d)\n        self.model = task.build_model(args)\n        self.tgt_dict = task.target_dictionary\n\n    def test_diverse_beam_search(self):\n        search_strategy = search.DiverseBeamSearch(\n            self.tgt_dict, num_groups=2, diversity_strength=0.0\n        )\n        generator = SequenceGenerator(\n            [self.model],\n            self.tgt_dict,\n            beam_size=2,\n            search_strategy=search_strategy,\n        )\n        sample = {\n            \"net_input\": {\n                \"src_tokens\": self.src_tokens,\n                \"src_lengths\": self.src_lengths,\n            }\n        }\n        hypos = generator.forward(sample)\n        eos, w1, w2 = self.eos, self.w1, self.w2\n        # sentence 1, beam 1\n        self.assertHypoTokens(hypos[0][0], [w1, w1, eos])\n        self.assertHypoScore(hypos[0][0], [0.9, 0.6, 1.0])\n        # sentence 1, beam 2\n        self.assertHypoTokens(hypos[0][1], [w1, w1, eos])\n        self.assertHypoScore(hypos[0][1], [0.9, 0.6, 1.0])\n        # sentence 2, beam 1\n        self.assertHypoTokens(hypos[1][0], [w1, w2, eos])\n        self.assertHypoScore(hypos[1][0], [0.7, 0.4, 0.9])\n        # sentence 2, beam 2\n        self.assertHypoTokens(hypos[1][1], [w1, w2, eos])\n        self.assertHypoScore(hypos[1][1], [0.7, 0.4, 0.9])\n\n\nclass TestDiverseSiblingsSearch(TestDiverseBeamSearch):\n    def assertHypoScore(\n        self, hypo, pos_probs, sibling_rank, diversity_rate, normalized=True, lenpen=1.0\n    ):\n        pos_scores = torch.FloatTensor(pos_probs).log()\n        pos_scores.sub_(torch.Tensor(sibling_rank) * diversity_rate)\n        self.assertAlmostEqual(hypo[\"positional_scores\"], pos_scores)\n        self.assertEqual(pos_scores.numel(), hypo[\"tokens\"].numel())\n        score = pos_scores.sum()\n        if normalized:\n            score /= pos_scores.numel() ** lenpen\n        self.assertLess(abs(score - hypo[\"score\"]), 1e-6)\n\n    def test_diverse_beam_search(self):\n        search_strategy = search.DiverseSiblingsSearch(\n            self.tgt_dict, diversity_rate=0.5\n        )\n        generator = SequenceGenerator(\n            [self.model], self.tgt_dict, beam_size=2, search_strategy=search_strategy\n        )\n        sample = {\n            \"net_input\": {\n                \"src_tokens\": self.src_tokens,\n                \"src_lengths\": self.src_lengths,\n            }\n        }\n        hypos = generator.forward(sample)\n        eos, w1, w2 = self.eos, self.w1, self.w2\n        # sentence 1, beam 1\n        self.assertHypoTokens(hypos[0][0], [w1, w1, eos])\n        self.assertHypoScore(hypos[0][0], [0.9, 0.6, 1.0], [0, 1, 1], 0.5)\n        # sentence 1, beam 2\n        self.assertHypoTokens(hypos[0][1], [w1, w2, eos])\n        self.assertHypoScore(hypos[0][1], [0.9, 0.4, 1.0], [0, 2, 1], 0.5)\n        # sentence 2, beam 1\n        self.assertHypoTokens(hypos[1][0], [w1, w2, eos])\n        self.assertHypoScore(hypos[1][0], [0.7, 0.4, 0.9], [0, 1, 1], 0.5)\n        # sentence 2, beam 2\n        self.assertHypoTokens(hypos[1][1], [w1, w1, eos])\n        self.assertHypoScore(hypos[1][1], [0.7, 0.35, 0.9], [0, 2, 1], 0.5)\n\n\nclass TestTopPSamplingSearch(TestSequenceGeneratorBase):\n    def setUp(self):\n        # construct dummy dictionary\n        d = test_utils.dummy_dictionary(vocab_size=2)\n        self.assertEqual(d.pad(), 1)\n        self.assertEqual(d.eos(), 2)\n        self.assertEqual(d.unk(), 3)\n        self.eos = d.eos()\n        self.w1 = 4\n        self.w2 = 5\n\n        # construct source data\n        self.src_tokens = torch.LongTensor(\n            [\n                [self.w1, self.w2, self.eos],\n                [self.w1, self.w2, self.eos],\n            ]\n        )\n        self.src_lengths = torch.LongTensor([2, 2])\n\n        args = argparse.Namespace()\n        unk = 0.0\n        # The minimal probability of top 2 tokens.\n        self.min_top2_prob = 0.75\n        # The minimal probability of the top 1 token.\n        self.min_top1_prob = 0.4\n\n        w1_prob = self.min_top1_prob\n        w2_prob = self.min_top2_prob - self.min_top1_prob\n        eos_prob = 1 - self.min_top2_prob\n\n        args.beam_probs = [\n            # step 0:\n            torch.FloatTensor(\n                [\n                    # eos      w1   w2\n                    [0.0, unk, 1.0, 0.0],\n                    [0.0, unk, 1.0, 0.0],\n                    [0.0, unk, 1.0, 0.0],\n                    [0.0, unk, 1.0, 0.0],\n                ]\n            ),\n            # step 1:\n            torch.FloatTensor(\n                [\n                    # eos           w1       w2\n                    [eos_prob, unk, w1_prob, w2_prob],\n                    [eos_prob, unk, w1_prob, w2_prob],\n                    [eos_prob, unk, w1_prob, w2_prob],\n                    [eos_prob, unk, w1_prob, w2_prob],\n                ]\n            ),\n            # step 2:\n            torch.FloatTensor(\n                [\n                    # eos      w1   w2\n                    [1.0, unk, 0.0, 0.0],\n                    [1.0, unk, 0.0, 0.0],\n                    [1.0, unk, 0.0, 0.0],\n                    [1.0, unk, 0.0, 0.0],\n                ]\n            ),\n        ]\n\n        task = test_utils.TestTranslationTask.setup_task(args, d, d)\n        self.model = task.build_model(args)\n        self.tgt_dict = task.target_dictionary\n\n    def test_topp_sampling_search_low_prob(self):\n        # Given a prob low enough to top-P sampling, we expect only the top\n        # 1 token to be sampled, which always results in the same output.\n        low_sampling_topp = self.min_top1_prob / 2.0\n        search_strategy = search.Sampling(\n            self.tgt_dict, sampling_topp=low_sampling_topp\n        )\n        generator = SequenceGenerator(\n            [self.model], self.tgt_dict, beam_size=2, search_strategy=search_strategy\n        )\n        sample = {\n            \"net_input\": {\n                \"src_tokens\": self.src_tokens,\n                \"src_lengths\": self.src_lengths,\n            }\n        }\n        hypos = generator.forward(sample)\n        eos, w1 = self.eos, self.w1\n        # sentence 1, beam 1\n        self.assertHypoTokens(hypos[0][0], [w1, w1, eos])\n        self.assertHypoScore(hypos[0][0], [1.0, 0.4, 1.0])\n        # sentence 1, beam 2\n        self.assertHypoTokens(hypos[0][1], [w1, w1, eos])\n        self.assertHypoScore(hypos[0][1], [1.0, 0.4, 1.0])\n        # sentence 2, beam 1\n        self.assertHypoTokens(hypos[1][0], [w1, w1, eos])\n        self.assertHypoScore(hypos[1][0], [1.0, 0.4, 1.0])\n        # sentence 2, beam 2\n        self.assertHypoTokens(hypos[1][1], [w1, w1, eos])\n        self.assertHypoScore(hypos[1][1], [1.0, 0.4, 1.0])\n\n    def test_topp_sampling_search_high_prob(self):\n        # Given a prob high enough to top-P sampling, any of the top 2\n        # tokens could be sampled. This can cause different outputs.\n        high_sampling_topp = (self.min_top1_prob + self.min_top2_prob) / 2.0\n        search_strategy = search.Sampling(\n            self.tgt_dict, sampling_topp=high_sampling_topp\n        )\n        generator = SequenceGenerator(\n            [self.model], self.tgt_dict, beam_size=2, search_strategy=search_strategy\n        )\n        sample = {\n            \"net_input\": {\n                \"src_tokens\": self.src_tokens,\n                \"src_lengths\": self.src_lengths,\n            }\n        }\n        hypos = generator.forward(sample)\n        eos, w1, w2 = self.eos, self.w1, self.w2\n        # sentence 1, beam 1\n        self.assertTrue(\n            self.hypoTokens(hypos[0][0], [w1, w1, eos])\n            or self.hypoTokens(hypos[0][0], [w1, w2, eos])\n        )\n        self.assertTrue(\n            self.hypoScore(hypos[0][0], [1.0, 0.4, 1.0])\n            or self.hypoScore(hypos[0][0], [1.0, 0.35, 1.0])\n        )\n\n        # sentence 1, beam 2\n        self.assertTrue(\n            self.hypoTokens(hypos[0][1], [w1, w1, eos])\n            or self.hypoTokens(hypos[0][1], [w1, w2, eos])\n        )\n        self.assertTrue(\n            self.hypoScore(hypos[0][1], [1.0, 0.4, 1.0])\n            or self.hypoScore(hypos[0][1], [1.0, 0.35, 1.0])\n        )\n\n        # sentence 2, beam 1\n        self.assertTrue(\n            self.hypoTokens(hypos[1][0], [w1, w1, eos])\n            or self.hypoTokens(hypos[1][0], [w1, w2, eos])\n        )\n        self.assertTrue(\n            self.hypoScore(hypos[1][0], [1.0, 0.4, 1.0])\n            or self.hypoScore(hypos[1][0], [1.0, 0.35, 1.0])\n        )\n\n        # sentence 2, beam 2\n        self.assertTrue(\n            self.hypoTokens(hypos[1][1], [w1, w1, eos])\n            or self.hypoTokens(hypos[1][1], [w1, w2, eos])\n        )\n        self.assertTrue(\n            self.hypoScore(hypos[1][1], [1.0, 0.4, 1.0])\n            or self.hypoScore(hypos[1][1], [1.0, 0.35, 1.0])\n        )\n\n    def hypoTokens(self, hypo, tokens):\n        return self.tensorEqual(hypo[\"tokens\"], torch.LongTensor(tokens))\n\n    def hypoScore(self, hypo, pos_probs, normalized=True, lenpen=1.0):\n        pos_scores = torch.FloatTensor(pos_probs).log()\n        if not self.almostEqual(hypo[\"positional_scores\"], pos_scores):\n            return False\n        if pos_scores.numel() != hypo[\"tokens\"].numel():\n            return False\n        score = pos_scores.sum()\n        if normalized:\n            score /= pos_scores.numel() ** lenpen\n        return abs(score - hypo[\"score\"]) < 1e-6\n\n    def almostEqual(self, t1, t2):\n        return t1.size() == t2.size() and (t1 - t2).abs().max() < 1e-4\n\n    def tensorEqual(self, t1, t2):\n        return t1.size() == t2.size() and t1.ne(t2).long().sum() == 0\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_sequence_scorer.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport unittest\n\nimport tests.utils as test_utils\nimport torch\nfrom fairseq.sequence_scorer import SequenceScorer\n\n\nclass TestSequenceScorer(unittest.TestCase):\n    def test_sequence_scorer(self):\n        # construct dummy dictionary\n        d = test_utils.dummy_dictionary(vocab_size=2)\n        self.assertEqual(d.pad(), 1)\n        self.assertEqual(d.eos(), 2)\n        self.assertEqual(d.unk(), 3)\n        eos = d.eos()\n        w1 = 4\n        w2 = 5\n\n        # construct dataloader\n        data = [\n            {\n                \"source\": torch.LongTensor([w1, w2, eos]),\n                \"target\": torch.LongTensor([w1, w2, w1, eos]),\n            },\n            {\n                \"source\": torch.LongTensor([w2, eos]),\n                \"target\": torch.LongTensor([w2, w1, eos]),\n            },\n            {\n                \"source\": torch.LongTensor([w2, eos]),\n                \"target\": torch.LongTensor([w2, eos]),\n            },\n        ]\n        data_itr = test_utils.dummy_dataloader(data)\n\n        # specify expected output probabilities\n        args = argparse.Namespace()\n        unk = 0.0\n        args.beam_probs = [\n            # step 0:\n            torch.FloatTensor(\n                [\n                    # eos      w1   w2\n                    [0.0, unk, 0.6, 0.4],  # sentence 1\n                    [0.0, unk, 0.4, 0.6],  # sentence 2\n                    [0.0, unk, 0.7, 0.3],  # sentence 3\n                ]\n            ),\n            # step 1:\n            torch.FloatTensor(\n                [\n                    # eos      w1   w2\n                    [0.0, unk, 0.2, 0.7],  # sentence 1\n                    [0.0, unk, 0.8, 0.2],  # sentence 2\n                    [0.7, unk, 0.1, 0.2],  # sentence 3\n                ]\n            ),\n            # step 2:\n            torch.FloatTensor(\n                [\n                    # eos       w1    w2\n                    [0.10, unk, 0.50, 0.4],  # sentence 1\n                    [0.15, unk, 0.15, 0.7],  # sentence 2\n                    [0.00, unk, 0.00, 0.0],  # sentence 3\n                ]\n            ),\n            # step 3:\n            torch.FloatTensor(\n                [\n                    # eos      w1    w2\n                    [0.9, unk, 0.05, 0.05],  # sentence 1\n                    [0.0, unk, 0.00, 0.0],  # sentence 2\n                    [0.0, unk, 0.00, 0.0],  # sentence 3\n                ]\n            ),\n        ]\n        expected_scores = [\n            [0.6, 0.7, 0.5, 0.9],  # sentence 1\n            [0.6, 0.8, 0.15],  # sentence 2\n            [0.3, 0.7],  # sentence 3\n        ]\n\n        task = test_utils.TestTranslationTask.setup_task(args, d, d)\n        model = task.build_model(args)\n        scorer = SequenceScorer(task.target_dictionary)\n        for sample in data_itr:\n            hypos = task.inference_step(scorer, [model], sample)\n            for id, hypos_id in zip(sample[\"id\"].tolist(), hypos):\n                self.assertHypoTokens(hypos_id[0], data[id][\"target\"])\n                self.assertHypoScore(hypos_id[0], expected_scores[id])\n\n    def assertHypoTokens(self, hypo, tokens):\n        self.assertTensorEqual(hypo[\"tokens\"], torch.LongTensor(tokens))\n\n    def assertHypoScore(self, hypo, pos_probs, normalized=True, lenpen=1.0):\n        pos_scores = torch.FloatTensor(pos_probs).log()\n        self.assertAlmostEqual(hypo[\"positional_scores\"], pos_scores)\n        self.assertEqual(pos_scores.numel(), hypo[\"tokens\"].numel())\n        score = pos_scores.sum()\n        if normalized:\n            score /= pos_scores.numel() ** lenpen\n        self.assertLess(abs(score - hypo[\"score\"]), 1e-6)\n\n    def assertAlmostEqual(self, t1, t2):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        self.assertLess((t1 - t2).abs().max(), 1e-4)\n\n    def assertTensorEqual(self, t1, t2):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        self.assertEqual(t1.ne(t2).long().sum(), 0)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_sparse_multihead_attention.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nimport torch\nfrom fairseq.modules.sparse_multihead_attention import SparseMultiheadAttention\n\n\nclass TestSparseMultiheadAttention(unittest.TestCase):\n    def test_sparse_multihead_attention(self):\n        attn_weights = torch.randn(1, 8, 8)\n        bidirectional_sparse_mask = torch.tensor(\n            [\n                [0, 0, 0, 0, 0, float(\"-inf\"), float(\"-inf\"), 0],\n                [0, 0, 0, 0, 0, float(\"-inf\"), float(\"-inf\"), 0],\n                [0, 0, 0, 0, 0, float(\"-inf\"), float(\"-inf\"), 0],\n                [0, 0, 0, 0, 0, float(\"-inf\"), float(\"-inf\"), 0],\n                [float(\"-inf\"), float(\"-inf\"), float(\"-inf\"), 0, 0, 0, 0, 0],\n                [float(\"-inf\"), float(\"-inf\"), float(\"-inf\"), 0, 0, 0, 0, 0],\n                [float(\"-inf\"), float(\"-inf\"), float(\"-inf\"), 0, 0, 0, 0, 0],\n                [float(\"-inf\"), float(\"-inf\"), float(\"-inf\"), 0, 0, 0, 0, 0],\n            ]\n        )\n\n        bidirectional_attention = SparseMultiheadAttention(\n            16, 1, stride=4, expressivity=1, is_bidirectional=True\n        )\n        bidirectional_attention_sparse_mask = (\n            bidirectional_attention.buffered_sparse_mask(attn_weights, 8, 8)\n        )\n        torch.all(\n            torch.eq(bidirectional_attention_sparse_mask, bidirectional_sparse_mask)\n        )\n\n        sparse_mask = torch.tensor(\n            [\n                [\n                    0,\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                ],\n                [\n                    0,\n                    0,\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                ],\n                [\n                    0,\n                    0,\n                    0,\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                ],\n                [\n                    0,\n                    0,\n                    0,\n                    0,\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                ],\n                [0, 0, 0, 0, 0, float(\"-inf\"), float(\"-inf\"), float(\"-inf\")],\n                [\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    0,\n                    0,\n                    0,\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                ],\n                [\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    float(\"-inf\"),\n                    0,\n                    0,\n                    0,\n                    0,\n                    float(\"-inf\"),\n                ],\n                [float(\"-inf\"), float(\"-inf\"), float(\"-inf\"), 0, 0, 0, 0, 0],\n            ]\n        )\n\n        attention = SparseMultiheadAttention(\n            16, 1, stride=4, expressivity=1, is_bidirectional=False\n        )\n        attention_sparse_mask = attention.buffered_sparse_mask(attn_weights, 8, 8)\n\n        torch.all(torch.eq(attention_sparse_mask, sparse_mask))\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_token_block_dataset.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nimport tests.utils as test_utils\nimport torch\nfrom fairseq.data import TokenBlockDataset\n\n\nclass TestTokenBlockDataset(unittest.TestCase):\n    def _build_dataset(self, data, **kwargs):\n        sizes = [len(x) for x in data]\n        underlying_ds = test_utils.TestDataset(data)\n        return TokenBlockDataset(underlying_ds, sizes, **kwargs)\n\n    def test_eos_break_mode(self):\n        data = [\n            torch.tensor([5, 4, 3, 2, 1], dtype=torch.long),\n            torch.tensor([1], dtype=torch.long),\n            torch.tensor([8, 7, 6, 1], dtype=torch.long),\n        ]\n        ds = self._build_dataset(data, block_size=None, pad=0, eos=1, break_mode=\"eos\")\n        self.assertEqual(ds[0].tolist(), [5, 4, 3, 2, 1])\n        self.assertEqual(ds[1].tolist(), [1])\n        self.assertEqual(ds[2].tolist(), [8, 7, 6, 1])\n\n        data = [\n            torch.tensor([5, 4, 3, 2, 1], dtype=torch.long),\n            torch.tensor([8, 7, 6, 1], dtype=torch.long),\n            torch.tensor([1], dtype=torch.long),\n        ]\n        ds = self._build_dataset(data, block_size=None, pad=0, eos=1, break_mode=\"eos\")\n        self.assertEqual(ds[0].tolist(), [5, 4, 3, 2, 1])\n        self.assertEqual(ds[1].tolist(), [8, 7, 6, 1])\n        self.assertEqual(ds[2].tolist(), [1])\n\n    def test_block_break_mode(self):\n        data = [\n            torch.tensor([5, 4, 3, 2, 1], dtype=torch.long),\n            torch.tensor([8, 7, 6, 1], dtype=torch.long),\n            torch.tensor([9, 1], dtype=torch.long),\n        ]\n        ds = self._build_dataset(data, block_size=3, pad=0, eos=1, break_mode=\"none\")\n        self.assertEqual(ds[0].tolist(), [5, 4, 3])\n        self.assertEqual(ds[1].tolist(), [2, 1, 8])\n        self.assertEqual(ds[2].tolist(), [7, 6, 1])\n        self.assertEqual(ds[3].tolist(), [9, 1])\n\n    def test_complete_break_mode(self):\n        data = [\n            torch.tensor([5, 4, 3, 2, 1], dtype=torch.long),\n            torch.tensor([8, 7, 6, 1], dtype=torch.long),\n            torch.tensor([9, 1], dtype=torch.long),\n        ]\n        ds = self._build_dataset(\n            data, block_size=6, pad=0, eos=1, break_mode=\"complete\"\n        )\n        self.assertEqual(ds[0].tolist(), [5, 4, 3, 2, 1])\n        self.assertEqual(ds[1].tolist(), [8, 7, 6, 1, 9, 1])\n\n        data = [\n            torch.tensor([4, 3, 2, 1], dtype=torch.long),\n            torch.tensor([5, 1], dtype=torch.long),\n            torch.tensor([1], dtype=torch.long),\n            torch.tensor([6, 1], dtype=torch.long),\n        ]\n        ds = self._build_dataset(\n            data, block_size=3, pad=0, eos=1, break_mode=\"complete\"\n        )\n        self.assertEqual(ds[0].tolist(), [4, 3, 2, 1])\n        self.assertEqual(ds[1].tolist(), [5, 1, 1])\n        self.assertEqual(ds[2].tolist(), [6, 1])\n\n    def test_4billion_tokens(self):\n        \"\"\"Regression test for numpy type promotion issue https://github.com/numpy/numpy/issues/5745\"\"\"\n        data = [torch.tensor(list(range(10000)), dtype=torch.long)] * 430000\n        ds = self._build_dataset(\n            data, block_size=6, pad=0, eos=1, break_mode=\"complete\"\n        )\n        ds[-1]  # __getitem__ works\n        start, end = ds.slice_indices[-1]\n        assert end > 4294967295  # data must be sufficiently large to overflow uint32\n        assert not isinstance(\n            end + 1, float\n        )  # this would also raise, since np.uint64(1) + 1 => 2.0\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_train.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport contextlib\nimport logging\nimport unittest\nfrom io import StringIO\nfrom unittest.mock import MagicMock, patch\n\nimport torch\nfrom fairseq import checkpoint_utils, data\nfrom omegaconf import OmegaConf\n\n\ndef mock_trainer(epoch, num_updates, iterations_in_epoch):\n    trainer = MagicMock()\n    trainer.load_checkpoint.return_value = {\n        \"train_iterator\": {\n            \"epoch\": epoch,\n            \"iterations_in_epoch\": iterations_in_epoch,\n            \"shuffle\": False,\n        },\n    }\n    trainer.get_num_updates.return_value = num_updates\n    return trainer\n\n\ndef mock_dict():\n    d = MagicMock()\n    d.pad.return_value = 1\n    d.eos.return_value = 2\n    d.unk.return_value = 3\n    return d\n\n\ndef get_trainer_and_epoch_itr(epoch, epoch_size, num_updates, iterations_in_epoch):\n    tokens = torch.LongTensor(list(range(epoch_size))).view(1, -1)\n    tokens_ds = data.TokenBlockDataset(\n        tokens,\n        sizes=[tokens.size(-1)],\n        block_size=1,\n        pad=0,\n        eos=1,\n        include_targets=False,\n    )\n    trainer = mock_trainer(epoch, num_updates, iterations_in_epoch)\n    dataset = data.LanguagePairDataset(\n        tokens_ds, tokens_ds.sizes, mock_dict(), shuffle=False\n    )\n    epoch_itr = data.EpochBatchIterator(\n        dataset=dataset,\n        collate_fn=dataset.collater,\n        batch_sampler=[[i] for i in range(epoch_size)],\n    )\n    return trainer, epoch_itr\n\n\ndef get_mock_cfg(finetune_from_model):\n    cfg_mock = OmegaConf.create(\n        {\n            \"checkpoint\": {\n                \"save_dir\": None,\n                \"optimizer_overrides\": \"{}\",\n                \"reset_dataloader\": False,\n                \"reset_meters\": False,\n                \"reset_optimizer\": False,\n                \"reset_lr_scheduler\": False,\n                \"finetune_from_model\": finetune_from_model,\n                \"model_parallel_size\": 1,\n                \"restore_file\": \"checkpoint_last.pt\",\n            },\n            \"common\": {\n                \"model_parallel_size\": 1,\n            },\n        }\n    )\n    return cfg_mock\n\n\nclass TestLoadCheckpoint(unittest.TestCase):\n    def setUp(self):\n        self.cfg_mock = get_mock_cfg(None)\n        self.patches = {\n            \"os.makedirs\": MagicMock(),\n            \"os.path.join\": MagicMock(),\n            \"os.path.isfile\": MagicMock(return_value=True),\n            \"os.path.isabs\": MagicMock(return_value=False),\n            \"fairseq.file_io.PathManager.exists\": MagicMock(return_value=False),\n        }\n        self.applied_patches = [patch(p, d) for p, d in self.patches.items()]\n        [p.start() for p in self.applied_patches]\n        logging.disable(logging.CRITICAL)\n\n    def tearDown(self):\n        patch.stopall()\n        logging.disable(logging.NOTSET)\n\n    def test_load_partial_checkpoint(self):\n        with contextlib.redirect_stdout(StringIO()):\n            trainer, epoch_itr = get_trainer_and_epoch_itr(2, 150, 200, 50)\n            trainer.get_train_iterator = MagicMock(return_value=epoch_itr)\n\n            _, epoch_itr = checkpoint_utils.load_checkpoint(\n                self.cfg_mock.checkpoint, trainer\n            )\n\n            self.assertEqual(epoch_itr.epoch, 2)\n            self.assertEqual(epoch_itr.iterations_in_epoch, 50)\n\n            itr = epoch_itr.next_epoch_itr(shuffle=False)\n            self.assertEqual(epoch_itr.epoch, 2)\n            self.assertEqual(epoch_itr.iterations_in_epoch, 50)\n\n            self.assertEqual(next(itr)[\"net_input\"][\"src_tokens\"][0].item(), 50)\n            self.assertEqual(epoch_itr.iterations_in_epoch, 51)\n\n            for _ in range(150 - 52):\n                next(itr)\n            self.assertEqual(epoch_itr.iterations_in_epoch, 149)\n            self.assertTrue(itr.has_next())\n            next(itr)\n            self.assertFalse(itr.has_next())\n\n            itr = epoch_itr.next_epoch_itr(shuffle=False)\n            self.assertTrue(itr.has_next())\n            self.assertEqual(epoch_itr.epoch, 3)\n            self.assertEqual(epoch_itr.iterations_in_epoch, 0)\n\n    def test_load_full_checkpoint(self):\n        with contextlib.redirect_stdout(StringIO()):\n            trainer, epoch_itr = get_trainer_and_epoch_itr(2, 150, 300, 150)\n            trainer.get_train_iterator = MagicMock(return_value=epoch_itr)\n\n            _, epoch_itr = checkpoint_utils.load_checkpoint(\n                self.cfg_mock.checkpoint, trainer\n            )\n            itr = epoch_itr.next_epoch_itr(shuffle=False)\n\n            self.assertEqual(epoch_itr.epoch, 3)\n            self.assertEqual(epoch_itr.iterations_in_epoch, 0)\n            self.assertEqual(next(itr)[\"net_input\"][\"src_tokens\"][0].item(), 0)\n\n    def test_load_no_checkpoint(self):\n        with contextlib.redirect_stdout(StringIO()):\n            trainer, epoch_itr = get_trainer_and_epoch_itr(1, 150, 0, 0)\n            trainer.get_train_iterator = MagicMock(return_value=epoch_itr)\n            self.patches[\"os.path.isfile\"].return_value = False\n\n            _, epoch_itr = checkpoint_utils.load_checkpoint(\n                self.cfg_mock.checkpoint, trainer\n            )\n            itr = epoch_itr.next_epoch_itr(shuffle=False)\n\n            self.assertEqual(epoch_itr.epoch, 1)\n            self.assertEqual(epoch_itr.iterations_in_epoch, 0)\n            self.assertEqual(next(itr)[\"net_input\"][\"src_tokens\"][0].item(), 0)\n\n    def test_finetune_from_model_args_conflict(self):\n        with contextlib.redirect_stdout(StringIO()):\n            trainer, epoch_itr = get_trainer_and_epoch_itr(1, 150, 0, 0)\n            trainer.get_train_iterator = MagicMock(return_value=epoch_itr)\n\n            for arg in [\n                \"reset_optimizer\",\n                \"reset_lr_scheduler\",\n                \"reset_meters\",\n                \"reset_dataloader\",\n            ]:\n                with self.subTest(arg=arg):\n                    cfg_mock = get_mock_cfg(\"/temp/checkpoint_pretrained.pt\")\n                    cfg_mock[\"checkpoint\"][arg] = True\n                    with self.assertRaises(Exception) as context:\n                        _, _ = checkpoint_utils.load_checkpoint(\n                            cfg_mock.checkpoint, trainer\n                        )\n\n                    self.assertTrue(\n                        \"--finetune-from-model can not be set together with either --reset-optimizer\"\n                        \" or reset_lr_scheduler or reset_meters or reset_dataloader\"\n                        in str(context.exception)\n                    )\n\n    def test_finetune_from_model(self):\n        with contextlib.redirect_stdout(StringIO()):\n            trainer, epoch_itr = get_trainer_and_epoch_itr(1, 150, 0, 0)\n            trainer.get_train_iterator = MagicMock(return_value=epoch_itr)\n            from_model_path = \"/temp/checkpoint_pretrained.pt\"\n\n            def mock_finetune_exist(path):\n                if path == from_model_path:\n                    return True\n                else:\n                    return False\n\n            self.patches[\n                \"fairseq.file_io.PathManager.exists\"\n            ].side_effect = mock_finetune_exist\n            cfg_mock = get_mock_cfg(from_model_path)\n            cfg_mock.checkpoint.restore_file = \"checkpoint_last.pt\"\n            _, _ = checkpoint_utils.load_checkpoint(cfg_mock.checkpoint, trainer)\n            (\n                checkpoint_path,\n                reset_optimizer,\n                reset_lr_scheduler,\n                optimizer_overrides,\n            ) = trainer.load_checkpoint.call_args[0]\n            reset_meters = trainer.load_checkpoint.call_args[1][\"reset_meters\"]\n            self.assertTrue(reset_optimizer)\n            self.assertTrue(reset_lr_scheduler)\n            self.assertTrue(reset_meters)\n\n    def test_finetune_from_model_resume(self):\n        with contextlib.redirect_stdout(StringIO()):\n            trainer, epoch_itr = get_trainer_and_epoch_itr(1, 150, 0, 0)\n            trainer.get_train_iterator = MagicMock(return_value=epoch_itr)\n            from_model_path = \"/temp/checkpoint_pretrained.pt\"\n\n            # launch second time\n            # both restore_file=checkpoint_last.pt and finetune_from_model are set\n            def mock_finetune_exist(path):\n                if path == from_model_path or path.endsWith(\"checkpoint_last.pt\"):\n                    return True\n                else:\n                    return False\n\n            self.patches[\n                \"fairseq.file_io.PathManager.exists\"\n            ].side_effect = mock_finetune_exist\n            cfg_mock = get_mock_cfg(from_model_path)\n            cfg_mock.checkpoint.restore_file = \"checkpoint_last.pt\"\n            _, _ = checkpoint_utils.load_checkpoint(cfg_mock.checkpoint, trainer)\n            (\n                checkpoint_path,\n                reset_optimizer,\n                reset_lr_scheduler,\n                optimizer_overrides,\n            ) = trainer.load_checkpoint.call_args[0]\n            reset_meters = trainer.load_checkpoint.call_args[1][\"reset_meters\"]\n            self.assertFalse(reset_optimizer)\n            self.assertFalse(reset_lr_scheduler)\n            self.assertFalse(reset_meters)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_transformer.py",
    "content": "import argparse\nimport unittest\nfrom typing import Any, Dict, Sequence\n\nimport torch\nfrom fairseq.models import transformer\n\nfrom tests.test_roberta import FakeTask\n\n\ndef mk_sample(tok: Sequence[int] = None, batch_size: int = 2) -> Dict[str, Any]:\n    if not tok:\n        tok = [10, 11, 12, 13, 14, 15, 2]\n\n    batch = torch.stack([torch.tensor(tok, dtype=torch.long)] * batch_size)\n    sample = {\n        \"net_input\": {\n            \"src_tokens\": batch,\n            \"prev_output_tokens\": batch,\n            \"src_lengths\": torch.tensor(\n                [len(tok)] * batch_size, dtype=torch.long, device=batch.device\n            ),\n        },\n        \"target\": batch[:, 1:],\n    }\n    return sample\n\n\ndef mk_transformer(**extra_args: Any):\n    overrides = {\n        # Use characteristics dimensions\n        \"encoder_embed_dim\": 12,\n        \"encoder_ffn_embed_dim\": 14,\n        \"decoder_embed_dim\": 12,\n        \"decoder_ffn_embed_dim\": 14,\n        # Disable dropout so we have comparable tests.\n        \"dropout\": 0,\n        \"attention_dropout\": 0,\n        \"activation_dropout\": 0,\n        \"encoder_layerdrop\": 0,\n    }\n    overrides.update(extra_args)\n    # Overrides the defaults from the parser\n    args = argparse.Namespace(**overrides)\n    transformer.tiny_architecture(args)\n\n    torch.manual_seed(0)\n    task = FakeTask(args)\n    return transformer.TransformerModel.build_model(args, task)\n\n\nclass TransformerTestCase(unittest.TestCase):\n    def test_forward_backward(self):\n        model = mk_transformer(encoder_embed_dim=12, decoder_embed_dim=12)\n        sample = mk_sample()\n        o, _ = model.forward(**sample[\"net_input\"])\n        loss = o.sum()\n        loss.backward()\n\n    def test_different_encoder_decoder_embed_dim(self):\n        model = mk_transformer(encoder_embed_dim=12, decoder_embed_dim=16)\n        sample = mk_sample()\n        o, _ = model.forward(**sample[\"net_input\"])\n        loss = o.sum()\n        loss.backward()\n"
  },
  {
    "path": "tests/test_utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport unittest\n\nimport torch\nfrom fairseq import utils\n\n\nclass TestUtils(unittest.TestCase):\n    def test_convert_padding_direction(self):\n        pad = 1\n        left_pad = torch.LongTensor(\n            [\n                [2, 3, 4, 5, 6],\n                [1, 7, 8, 9, 10],\n                [1, 1, 1, 11, 12],\n            ]\n        )\n        right_pad = torch.LongTensor(\n            [\n                [2, 3, 4, 5, 6],\n                [7, 8, 9, 10, 1],\n                [11, 12, 1, 1, 1],\n            ]\n        )\n\n        self.assertAlmostEqual(\n            right_pad,\n            utils.convert_padding_direction(\n                left_pad,\n                pad,\n                left_to_right=True,\n            ),\n        )\n        self.assertAlmostEqual(\n            left_pad,\n            utils.convert_padding_direction(\n                right_pad,\n                pad,\n                right_to_left=True,\n            ),\n        )\n\n    def test_make_positions(self):\n        pad = 1\n        left_pad_input = torch.LongTensor(\n            [\n                [9, 9, 9, 9, 9],\n                [1, 9, 9, 9, 9],\n                [1, 1, 1, 9, 9],\n            ]\n        )\n        left_pad_output = torch.LongTensor(\n            [\n                [2, 3, 4, 5, 6],\n                [1, 2, 3, 4, 5],\n                [1, 1, 1, 2, 3],\n            ]\n        )\n        right_pad_input = torch.LongTensor(\n            [\n                [9, 9, 9, 9, 9],\n                [9, 9, 9, 9, 1],\n                [9, 9, 1, 1, 1],\n            ]\n        )\n        right_pad_output = torch.LongTensor(\n            [\n                [2, 3, 4, 5, 6],\n                [2, 3, 4, 5, 1],\n                [2, 3, 1, 1, 1],\n            ]\n        )\n\n        self.assertAlmostEqual(\n            left_pad_output,\n            utils.make_positions(left_pad_input, pad),\n        )\n        self.assertAlmostEqual(\n            right_pad_output,\n            utils.make_positions(right_pad_input, pad),\n        )\n\n    def test_clip_grad_norm_(self):\n        params = torch.nn.Parameter(torch.zeros(5)).requires_grad_(False)\n        grad_norm = utils.clip_grad_norm_(params, 1.0)\n        self.assertTrue(torch.is_tensor(grad_norm))\n        self.assertEqual(grad_norm, 0.0)\n\n        params = [torch.nn.Parameter(torch.zeros(5)) for i in range(3)]\n        for p in params:\n            p.grad = torch.full((5,), fill_value=2.0)\n        grad_norm = utils.clip_grad_norm_(params, 1.0)\n        exp_grad_norm = torch.full((15,), fill_value=2.0).norm()\n        self.assertTrue(torch.is_tensor(grad_norm))\n        self.assertEqual(grad_norm, exp_grad_norm)\n\n        grad_norm = utils.clip_grad_norm_(params, 1.0)\n        self.assertAlmostEqual(grad_norm, torch.tensor(1.0))\n\n    def test_resolve_max_positions_with_tuple(self):\n        resolved = utils.resolve_max_positions(None, (2000, 100, 2000), 12000)\n        self.assertEqual(resolved, (2000, 100, 2000))\n\n    def assertAlmostEqual(self, t1, t2):\n        self.assertEqual(t1.size(), t2.size(), \"size mismatch\")\n        self.assertLess(utils.item((t1 - t2).abs().max()), 1e-4)\n\n\nif __name__ == \"__main__\":\n    unittest.main()\n"
  },
  {
    "path": "tests/test_valid_subset_checks.py",
    "content": "import os\nimport shutil\nimport tempfile\nimport unittest\n\nfrom fairseq import options\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.data.data_utils import raise_if_valid_subsets_unintentionally_ignored\nfrom .utils import create_dummy_data, preprocess_lm_data, train_language_model\n\n\ndef make_lm_config(\n    data_dir=None,\n    extra_flags=None,\n    task=\"language_modeling\",\n    arch=\"transformer_lm_gpt2_tiny\",\n):\n    task_args = [task]\n    if data_dir is not None:\n        task_args += [data_dir]\n    train_parser = options.get_training_parser()\n    train_args = options.parse_args_and_arch(\n        train_parser,\n        [\n            \"--task\",\n            *task_args,\n            \"--arch\",\n            arch,\n            \"--optimizer\",\n            \"adam\",\n            \"--lr\",\n            \"0.0001\",\n            \"--max-tokens\",\n            \"500\",\n            \"--tokens-per-sample\",\n            \"500\",\n            \"--save-dir\",\n            data_dir,\n            \"--max-epoch\",\n            \"1\",\n        ]\n        + (extra_flags or []),\n    )\n    cfg = convert_namespace_to_omegaconf(train_args)\n    return cfg\n\n\ndef write_empty_file(path):\n    with open(path, \"w\"):\n        pass\n    assert os.path.exists(path)\n\n\nclass TestValidSubsetsErrors(unittest.TestCase):\n    \"\"\"Test various filesystem, clarg combinations and ensure that error raising happens as expected\"\"\"\n\n    def _test_case(self, paths, extra_flags):\n        with tempfile.TemporaryDirectory() as data_dir:\n            [\n                write_empty_file(os.path.join(data_dir, f\"{p}.bin\"))\n                for p in paths + [\"train\"]\n            ]\n            cfg = make_lm_config(data_dir, extra_flags=extra_flags)\n            raise_if_valid_subsets_unintentionally_ignored(cfg)\n\n    def test_default_raises(self):\n        with self.assertRaises(ValueError):\n            self._test_case([\"valid\", \"valid1\"], [])\n        with self.assertRaises(ValueError):\n            self._test_case(\n                [\"valid\", \"valid1\", \"valid2\"], [\"--valid-subset\", \"valid,valid1\"]\n            )\n\n    def partially_specified_valid_subsets(self):\n        with self.assertRaises(ValueError):\n            self._test_case(\n                [\"valid\", \"valid1\", \"valid2\"], [\"--valid-subset\", \"valid,valid1\"]\n            )\n        # Fix with ignore unused\n        self._test_case(\n            [\"valid\", \"valid1\", \"valid2\"],\n            [\"--valid-subset\", \"valid,valid1\", \"--ignore-unused-valid-subsets\"],\n        )\n\n    def test_legal_configs(self):\n        self._test_case([\"valid\"], [])\n        self._test_case([\"valid\", \"valid1\"], [\"--ignore-unused-valid-subsets\"])\n        self._test_case([\"valid\", \"valid1\"], [\"--combine-val\"])\n        self._test_case([\"valid\", \"valid1\"], [\"--valid-subset\", \"valid,valid1\"])\n        self._test_case([\"valid\", \"valid1\"], [\"--valid-subset\", \"valid1\"])\n        self._test_case(\n            [\"valid\", \"valid1\"], [\"--combine-val\", \"--ignore-unused-valid-subsets\"]\n        )\n        self._test_case(\n            [\"valid1\"], [\"--valid-subset\", \"valid1\"]\n        )  # valid.bin doesn't need to be ignored.\n\n    def test_disable_validation(self):\n        self._test_case([], [\"--disable-validation\"])\n        self._test_case([\"valid\", \"valid1\"], [\"--disable-validation\"])\n\n    def test_dummy_task(self):\n        cfg = make_lm_config(task=\"dummy_lm\")\n        raise_if_valid_subsets_unintentionally_ignored(cfg)\n\n    def test_masked_dummy_task(self):\n        cfg = make_lm_config(task=\"dummy_masked_lm\")\n        raise_if_valid_subsets_unintentionally_ignored(cfg)\n\n\nclass TestCombineValidSubsets(unittest.TestCase):\n    def _train(self, extra_flags):\n        with self.assertLogs() as logs:\n            with tempfile.TemporaryDirectory(\"test_transformer_lm\") as data_dir:\n                create_dummy_data(data_dir, num_examples=20)\n                preprocess_lm_data(data_dir)\n\n                shutil.copyfile(f\"{data_dir}/valid.bin\", f\"{data_dir}/valid1.bin\")\n                shutil.copyfile(f\"{data_dir}/valid.idx\", f\"{data_dir}/valid1.idx\")\n                train_language_model(\n                    data_dir,\n                    \"transformer_lm\",\n                    [\"--max-update\", \"0\", \"--log-format\", \"json\"] + extra_flags,\n                    run_validation=False,\n                )\n        return [x.message for x in logs.records]\n\n    def test_combined(self):\n        flags = [\"--combine-valid-subsets\", \"--required-batch-size-multiple\", \"1\"]\n        logs = self._train(flags)\n        assert any([\"valid1\" in x for x in logs])  # loaded 100 examples from valid1\n        assert not any([\"valid1_ppl\" in x for x in logs])  # metrics are combined\n\n    def test_subsets(self):\n        flags = [\n            \"--valid-subset\",\n            \"valid,valid1\",\n            \"--required-batch-size-multiple\",\n            \"1\",\n        ]\n        logs = self._train(flags)\n        assert any([\"valid_ppl\" in x for x in logs])  # loaded 100 examples from valid1\n        assert any([\"valid1_ppl\" in x for x in logs])  # metrics are combined\n"
  },
  {
    "path": "tests/utils.py",
    "content": "# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\nimport argparse\nimport json\nimport os\nimport random\nimport shutil\nimport string\nimport sys\nimport typing as tp\nfrom io import StringIO\n\nimport torch\nimport torch.nn.functional as F\n\nimport fairseq.distributed.utils as distributed_utils\nfrom fairseq import options, utils\nfrom fairseq.data import Dictionary\nfrom fairseq.data.language_pair_dataset import collate\nfrom fairseq.dataclass.utils import convert_namespace_to_omegaconf\nfrom fairseq.models import (\n    FairseqEncoder,\n    FairseqEncoderDecoderModel,\n    FairseqIncrementalDecoder,\n)\nfrom fairseq.models.fairseq_encoder import EncoderOut\nfrom fairseq.tasks import LegacyFairseqTask\nfrom fairseq_cli import generate, interactive, preprocess, train, validate\n\n\ndef dummy_dictionary(vocab_size, prefix=\"token_\"):\n    d = Dictionary()\n    for i in range(vocab_size):\n        token = prefix + str(i)\n        d.add_symbol(token)\n    d.finalize(padding_factor=1)  # don't add extra padding symbols\n    return d\n\n\ndef dummy_dataloader(\n    samples,\n    padding_idx=1,\n    eos_idx=2,\n    batch_size=None,\n):\n    if batch_size is None:\n        batch_size = len(samples)\n\n    # add any missing data to samples\n    for i, sample in enumerate(samples):\n        if \"id\" not in sample:\n            sample[\"id\"] = i\n\n    # create dataloader\n    dataset = TestDataset(samples)\n    dataloader = torch.utils.data.DataLoader(\n        dataset,\n        batch_size=batch_size,\n        collate_fn=(lambda samples: collate(samples, padding_idx, eos_idx)),\n    )\n    return iter(dataloader)\n\n\ndef sequence_generator_setup():\n    # construct dummy dictionary\n    d = dummy_dictionary(vocab_size=2)\n\n    eos = d.eos()\n    w1 = 4\n    w2 = 5\n\n    # construct source data\n    src_tokens = torch.LongTensor([[w1, w2, eos], [w1, w2, eos]])\n    src_lengths = torch.LongTensor([2, 2])\n\n    args = argparse.Namespace()\n    unk = 0.0\n    args.beam_probs = [\n        # step 0:\n        torch.FloatTensor(\n            [\n                # eos      w1   w2\n                # sentence 1:\n                [0.0, unk, 0.9, 0.1],  # beam 1\n                [0.0, unk, 0.9, 0.1],  # beam 2\n                # sentence 2:\n                [0.0, unk, 0.7, 0.3],\n                [0.0, unk, 0.7, 0.3],\n            ]\n        ),\n        # step 1:\n        torch.FloatTensor(\n            [\n                # eos      w1   w2       prefix\n                # sentence 1:\n                [1.0, unk, 0.0, 0.0],  # w1: 0.9  (emit: w1 <eos>: 0.9*1.0)\n                [0.0, unk, 0.9, 0.1],  # w2: 0.1\n                # sentence 2:\n                [0.25, unk, 0.35, 0.4],  # w1: 0.7  (don't emit: w1 <eos>: 0.7*0.25)\n                [0.00, unk, 0.10, 0.9],  # w2: 0.3\n            ]\n        ),\n        # step 2:\n        torch.FloatTensor(\n            [\n                # eos      w1   w2       prefix\n                # sentence 1:\n                [0.0, unk, 0.1, 0.9],  # w2 w1: 0.1*0.9\n                [\n                    0.6,\n                    unk,\n                    0.2,\n                    0.2,\n                ],  # w2 w2: 0.1*0.1  (emit: w2 w2 <eos>: 0.1*0.1*0.6)\n                # sentence 2:\n                [\n                    0.60,\n                    unk,\n                    0.4,\n                    0.00,\n                ],  # w1 w2: 0.7*0.4  (emit: w1 w2 <eos>: 0.7*0.4*0.6)\n                [0.01, unk, 0.0, 0.99],  # w2 w2: 0.3*0.9\n            ]\n        ),\n        # step 3:\n        torch.FloatTensor(\n            [\n                # eos      w1   w2       prefix\n                # sentence 1:\n                [\n                    1.0,\n                    unk,\n                    0.0,\n                    0.0,\n                ],  # w2 w1 w2: 0.1*0.9*0.9  (emit: w2 w1 w2 <eos>: 0.1*0.9*0.9*1.0)\n                [\n                    1.0,\n                    unk,\n                    0.0,\n                    0.0,\n                ],  # w2 w1 w1: 0.1*0.9*0.1  (emit: w2 w1 w1 <eos>: 0.1*0.9*0.1*1.0)\n                # sentence 2:\n                [\n                    0.1,\n                    unk,\n                    0.5,\n                    0.4,\n                ],  # w2 w2 w2: 0.3*0.9*0.99  (emit: w2 w2 w2 <eos>: 0.3*0.9*0.99*0.1)\n                [\n                    1.0,\n                    unk,\n                    0.0,\n                    0.0,\n                ],  # w1 w2 w1: 0.7*0.4*0.4  (emit: w1 w2 w1 <eos>: 0.7*0.4*0.4*1.0)\n            ]\n        ),\n    ]\n\n    task = TestTranslationTask.setup_task(args, d, d)\n    model = task.build_model(args)\n    tgt_dict = task.target_dictionary\n\n    return tgt_dict, w1, w2, src_tokens, src_lengths, model\n\n\ndef create_dummy_data(\n    data_dir, num_examples=100, maxlen=20, alignment=False, languages=None\n):\n    def _create_dummy_data(dir, filename):\n        data = torch.rand(num_examples * maxlen)\n        data = 97 + torch.floor(26 * data).int()\n        with open(os.path.join(dir, filename), \"w\") as h:\n            offset = 0\n            for _ in range(num_examples):\n                ex_len = random.randint(1, maxlen)\n                ex_str = \" \".join(map(chr, data[offset : offset + ex_len]))\n                print(ex_str, file=h)\n                offset += ex_len\n\n    def _create_dummy_alignment_data(filename_src, filename_tgt, filename):\n        with open(os.path.join(data_dir, filename_src), \"r\") as src_f, open(\n            os.path.join(data_dir, filename_tgt), \"r\"\n        ) as tgt_f, open(os.path.join(data_dir, filename), \"w\") as h:\n            for src, tgt in zip(src_f, tgt_f):\n                src_len = len(src.split())\n                tgt_len = len(tgt.split())\n                avg_len = (src_len + tgt_len) // 2\n                num_alignments = random.randint(avg_len // 2, 2 * avg_len)\n                src_indices = torch.floor(torch.rand(num_alignments) * src_len).int()\n                tgt_indices = torch.floor(torch.rand(num_alignments) * tgt_len).int()\n                ex_str = \" \".join(\n                    [\n                        \"{}-{}\".format(src, tgt)\n                        for src, tgt in zip(src_indices, tgt_indices)\n                    ]\n                )\n                print(ex_str, file=h)\n\n    files_to_write = [\n        \"train.in\",\n        \"train.out\",\n        \"valid.in\",\n        \"valid.out\",\n        \"test.in\",\n        \"test.out\",\n    ]\n    if languages is None:  # En only dummy dataset\n        for f in files_to_write:\n            _create_dummy_data(data_dir, f)\n    else:\n        for lang in languages:\n            lang_dir = os.path.join(data_dir, lang)\n            os.makedirs(lang_dir, exist_ok=True)\n            for f in files_to_write:\n                _create_dummy_data(lang_dir, f)\n\n    if alignment:\n        _create_dummy_alignment_data(\"train.in\", \"train.out\", \"train.align\")\n        _create_dummy_alignment_data(\"valid.in\", \"valid.out\", \"valid.align\")\n        _create_dummy_alignment_data(\"test.in\", \"test.out\", \"test.align\")\n\n\ndef preprocess_lm_data(data_dir, languages=None):\n    preprocess_parser = options.get_preprocessing_parser()\n    if languages is None:\n        preprocess_args = preprocess_parser.parse_args(\n            [\n                \"--only-source\",\n                \"--trainpref\",\n                os.path.join(data_dir, \"train.out\"),\n                \"--validpref\",\n                os.path.join(data_dir, \"valid.out\"),\n                \"--testpref\",\n                os.path.join(data_dir, \"test.out\"),\n                \"--destdir\",\n                data_dir,\n            ]\n        )\n        preprocess.main(preprocess_args)\n    else:\n        for lang in languages:\n            lang_dir = os.path.join(data_dir, lang)\n            assert os.path.exists(lang_dir)\n            preprocess_args = preprocess_parser.parse_args(\n                [\n                    \"--only-source\",\n                    \"--trainpref\",\n                    os.path.join(lang_dir, \"train.out\"),\n                    \"--validpref\",\n                    os.path.join(lang_dir, \"valid.out\"),\n                    \"--testpref\",\n                    os.path.join(lang_dir, \"test.out\"),\n                    \"--destdir\",\n                    lang_dir,\n                ]\n            )\n            preprocess.main(preprocess_args)\n        shutil.copyfile(\n            os.path.join(data_dir, languages[0], \"dict.txt\"),\n            os.path.join(data_dir, \"dict.txt\"),\n        )\n\n\ndef preprocess_translation_data(data_dir, extra_flags=None):\n    preprocess_parser = options.get_preprocessing_parser()\n    preprocess_args = preprocess_parser.parse_args(\n        [\n            \"--source-lang\",\n            \"in\",\n            \"--target-lang\",\n            \"out\",\n            \"--trainpref\",\n            os.path.join(data_dir, \"train\"),\n            \"--validpref\",\n            os.path.join(data_dir, \"valid\"),\n            \"--testpref\",\n            os.path.join(data_dir, \"test\"),\n            \"--thresholdtgt\",\n            \"0\",\n            \"--thresholdsrc\",\n            \"0\",\n            \"--destdir\",\n            data_dir,\n        ]\n        + (extra_flags or []),\n    )\n    preprocess.main(preprocess_args)\n\n\ndef preprocess_summarization_data(data_dir, extra_flags=None):\n    preprocess_parser = options.get_preprocessing_parser()\n    preprocess_args = preprocess_parser.parse_args(\n        [\n            \"--source-lang\",\n            \"in\",\n            \"--target-lang\",\n            \"out\",\n            \"--trainpref\",\n            os.path.join(data_dir, \"train\"),\n            \"--validpref\",\n            os.path.join(data_dir, \"valid\"),\n            \"--testpref\",\n            os.path.join(data_dir, \"test\"),\n            \"--thresholdtgt\",\n            \"0\",\n            \"--thresholdsrc\",\n            \"0\",\n            \"--joined-dictionary\",\n            \"--destdir\",\n            data_dir,\n        ]\n        + (extra_flags or []),\n    )\n    preprocess.main(preprocess_args)\n\n\ndef create_laser_data_and_config_json(data_dir):\n    src_langs = [\"de\", \"fr\", \"ru\", \"tr\", \"zh\"]\n    tgt_langs = [\"en\", \"es\"]\n    config_json = {}\n    config_train_json = []\n    src_vocab = None\n    tgt_vocab = None\n\n    for src_lang in src_langs:\n        for tgt_lang in tgt_langs:\n            langpair_folder = f\"{src_lang}-{tgt_lang}\"\n\n            langpair_path = os.path.join(data_dir, langpair_folder)\n            os.mkdir(langpair_path)\n            create_dummy_data(langpair_path)\n            preprocess_translation_data(langpair_path, [\"--dataset-impl\", \"cached\"])\n\n            src_vocab = os.path.join(langpair_path, \"dict.in.txt\")\n            tgt_vocab = os.path.join(langpair_path, \"dict.out.txt\")\n            config_train_json.append(\n                {\n                    \"id\": 0 if tgt_lang == \"en\" else 1,\n                    \"src\": os.path.join(langpair_path, \"train.in-out.in\"),\n                    \"tgt\": os.path.join(langpair_path, \"train.in-out.out\"),\n                }\n            )\n\n    config_json[\"src_vocab\"] = src_vocab\n    config_json[\"tgt_vocab\"] = tgt_vocab\n    config_json[\"train\"] = config_train_json\n\n    with open(os.path.join(data_dir, \"laserconfig.json\"), \"w\") as config_file:\n        json.dump(config_json, config_file)\n\n    return config_file\n\n\ndef train_translation_model(\n    data_dir,\n    arch,\n    extra_flags=None,\n    task=\"translation\",\n    run_validation=False,\n    lang_flags=None,\n    extra_valid_flags=None,\n    world_size=1,\n):\n    if lang_flags is None:\n        lang_flags = [\n            \"--source-lang\",\n            \"in\",\n            \"--target-lang\",\n            \"out\",\n        ]\n    train_parser = options.get_training_parser()\n    train_args = options.parse_args_and_arch(\n        train_parser,\n        [\n            \"--task\",\n            task,\n            data_dir,\n            \"--save-dir\",\n            data_dir,\n            \"--arch\",\n            arch,\n            \"--optimizer\",\n            \"nag\",\n            \"--lr\",\n            \"0.05\",\n            \"--max-tokens\",\n            \"500\",\n            \"--max-epoch\",\n            \"1\",\n            \"--no-progress-bar\",\n            \"--distributed-world-size\",\n            str(world_size),\n            \"--num-workers\",\n            \"0\",\n        ]\n        + lang_flags\n        + (extra_flags or []),\n    )\n\n    cfg = convert_namespace_to_omegaconf(train_args)\n    distributed_utils.call_main(cfg, train.main)\n\n    if run_validation:\n        # test validation\n        validate_parser = options.get_validation_parser()\n        validate_args = options.parse_args_and_arch(\n            validate_parser,\n            [\n                \"--task\",\n                task,\n                data_dir,\n                \"--path\",\n                os.path.join(data_dir, \"checkpoint_last.pt\"),\n                \"--valid-subset\",\n                \"valid\",\n                \"--max-tokens\",\n                \"500\",\n                \"--no-progress-bar\",\n                \"--num-workers\",\n                \"0\",\n            ]\n            + lang_flags\n            + (extra_valid_flags or []),\n        )\n        validate.main(validate_args)\n\n\ndef generate_main(data_dir, extra_flags=None, path=None):\n    if extra_flags is None:\n        extra_flags = [\n            \"--print-alignment\",\n        ]\n    if path is None:\n        path = os.path.join(data_dir, \"checkpoint_last.pt\")\n    generate_parser = options.get_generation_parser()\n    generate_args = options.parse_args_and_arch(\n        generate_parser,\n        [\n            data_dir,\n            \"--path\",\n            path,\n            \"--beam\",\n            \"3\",\n            \"--batch-size\",\n            \"64\",\n            \"--max-len-b\",\n            \"5\",\n            \"--gen-subset\",\n            \"valid\",\n            \"--no-progress-bar\",\n            \"--num-workers\",\n            \"0\",\n        ]\n        + (extra_flags or []),\n    )\n\n    # evaluate model in batch mode\n    generate.main(generate_args)\n\n    # evaluate model interactively\n    generate_args.buffer_size = 0\n    generate_args.input = \"-\"\n    generate_args.batch_size = None\n    orig_stdin = sys.stdin\n    sys.stdin = StringIO(\"h e l l o\\n\")\n    interactive.main(generate_args)\n    sys.stdin = orig_stdin\n\n\nclass TestDataset(torch.utils.data.Dataset):\n    def __init__(self, data):\n        super().__init__()\n        self.data = data\n        self.sizes = None\n\n    def __getitem__(self, index):\n        return self.data[index]\n\n    def __len__(self):\n        return len(self.data)\n\n\nclass TestTranslationTask(LegacyFairseqTask):\n    def __init__(self, args, src_dict, tgt_dict, model):\n        super().__init__(args)\n        self.src_dict = src_dict\n        self.tgt_dict = tgt_dict\n        self.model = model\n\n    @classmethod\n    def setup_task(cls, args, src_dict=None, tgt_dict=None, model=None):\n        return cls(args, src_dict, tgt_dict, model)\n\n    def build_model(self, args, from_checkpoint=False):\n        return TestModel.build_model(args, self)\n\n    @property\n    def source_dictionary(self):\n        return self.src_dict\n\n    @property\n    def target_dictionary(self):\n        return self.tgt_dict\n\n\nclass TestModel(FairseqEncoderDecoderModel):\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @classmethod\n    def build_model(cls, args, task):\n        encoder = TestEncoder(args, task.source_dictionary)\n        decoder = TestIncrementalDecoder(args, task.target_dictionary)\n        return cls(encoder, decoder)\n\n\nclass TestEncoder(FairseqEncoder):\n    def __init__(self, args, dictionary):\n        super().__init__(dictionary)\n        self.args = args\n\n    def forward(self, src_tokens, src_lengths=None, **kwargs):\n        return EncoderOut(\n            encoder_out=src_tokens,\n            encoder_padding_mask=None,\n            encoder_embedding=None,\n            encoder_states=None,\n            src_tokens=None,\n            src_lengths=None,\n        )\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        return EncoderOut(\n            encoder_out=encoder_out.encoder_out.index_select(0, new_order),\n            encoder_padding_mask=None,\n            encoder_embedding=None,\n            encoder_states=None,\n            src_tokens=None,\n            src_lengths=None,\n        )\n\n\nclass TestIncrementalDecoder(FairseqIncrementalDecoder):\n    def __init__(self, args, dictionary):\n        super().__init__(dictionary)\n        assert hasattr(args, \"beam_probs\") or hasattr(args, \"probs\")\n        args.max_decoder_positions = getattr(args, \"max_decoder_positions\", 100)\n        self.args = args\n\n    def forward(self, prev_output_tokens, encoder_out=None, incremental_state=None):\n        if incremental_state is not None:\n            prev_output_tokens = prev_output_tokens[:, -1:]\n        bbsz = prev_output_tokens.size(0)\n        vocab = len(self.dictionary)\n        src_len = encoder_out.encoder_out.size(1)\n        tgt_len = prev_output_tokens.size(1)\n\n        # determine number of steps\n        if incremental_state is not None:\n            # cache step number\n            step = utils.get_incremental_state(self, incremental_state, \"step\")\n            if step is None:\n                step = 0\n            utils.set_incremental_state(self, incremental_state, \"step\", step + 1)\n            steps = [step]\n        else:\n            steps = list(range(tgt_len))\n\n        # define output in terms of raw probs\n        if hasattr(self.args, \"probs\"):\n            assert (\n                self.args.probs.dim() == 3\n            ), \"expected probs to have size bsz*steps*vocab\"\n            probs = self.args.probs.index_select(1, torch.LongTensor(steps))\n        else:\n            probs = torch.FloatTensor(bbsz, len(steps), vocab).zero_()\n            for i, step in enumerate(steps):\n                # args.beam_probs gives the probability for every vocab element,\n                # starting with eos, then unknown, and then the rest of the vocab\n                if step < len(self.args.beam_probs):\n                    probs[:, i, self.dictionary.eos() :] = self.args.beam_probs[step]\n                else:\n                    probs[:, i, self.dictionary.eos()] = 1.0\n\n        # random attention\n        attn = torch.rand(bbsz, tgt_len, src_len)\n\n        dev = prev_output_tokens.device\n        return probs.to(dev), {\"attn\": [attn.to(dev)]}\n\n    def get_normalized_probs(self, net_output, log_probs, _):\n        # the decoder returns probabilities directly\n        probs = net_output[0]\n        if log_probs:\n            return probs.log()\n        else:\n            return probs\n\n    def max_positions(self):\n        return self.args.max_decoder_positions\n\n\nclass TestReshapingEncoder(FairseqEncoder):\n    def __init__(self, args, dictionary):\n        super().__init__(dictionary)\n        self.args = args\n\n    def forward(self, src_tokens, src_lengths=None, **kwargs):\n        b_sz, t_sz = src_tokens.shape\n        padding_needed = t_sz % 2\n        x = src_tokens\n        if padding_needed > 0:\n            padding_needed = 2 - padding_needed\n            x = F.pad(x, (0, padding_needed))\n\n        return EncoderOut(\n            encoder_out=x.view(b_sz, -1, 2),\n            encoder_padding_mask=None,\n            encoder_embedding=None,\n            encoder_states=None,\n            src_tokens=None,\n            src_lengths=None,\n        )\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        return EncoderOut(\n            encoder_out=encoder_out.encoder_out.index_select(0, new_order),\n            encoder_padding_mask=None,\n            encoder_embedding=None,\n            encoder_states=None,\n            src_tokens=None,\n            src_lengths=None,\n        )\n\n\nclass TestReshapingModel(FairseqEncoderDecoderModel):\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @classmethod\n    def build_model(cls, args, task):\n        encoder = TestReshapingEncoder(args, task.source_dictionary)\n        decoder = TestIncrementalDecoder(args, task.target_dictionary)\n        return cls(encoder, decoder)\n\n\nclass TestAdditionalInputEncoder(FairseqEncoder):\n    def __init__(self, args, dictionary):\n        super().__init__(dictionary)\n        self.args = args\n\n    def forward(self, src_tokens, src_lengths=None, **kwargs):\n        assert \"fancy_other_input\" in kwargs\n        assert kwargs[\"fancy_other_input\"] is not None\n        return EncoderOut(\n            encoder_out=src_tokens,\n            encoder_padding_mask=None,\n            encoder_embedding=None,\n            encoder_states=None,\n            src_tokens=None,\n            src_lengths=None,\n        )\n\n    def reorder_encoder_out(self, encoder_out, new_order):\n        return EncoderOut(\n            encoder_out=encoder_out.encoder_out.index_select(0, new_order),\n            encoder_padding_mask=None,\n            encoder_embedding=None,\n            encoder_states=None,\n            src_tokens=None,\n            src_lengths=None,\n        )\n\n\nclass TestAdditionalInputModel(FairseqEncoderDecoderModel):\n    def __init__(self, encoder, decoder):\n        super().__init__(encoder, decoder)\n\n    @classmethod\n    def build_model(cls, args, task):\n        encoder = TestAdditionalInputEncoder(args, task.source_dictionary)\n        decoder = TestIncrementalDecoder(args, task.target_dictionary)\n        return cls(encoder, decoder)\n\n    def forward(self, src_tokens, src_lengths, prev_output_tokens, **kwargs):\n        encoder_out = self.encoder(src_tokens, src_lengths=src_lengths, **kwargs)\n        decoder_out = self.decoder(\n            prev_output_tokens, encoder_out=encoder_out, **kwargs\n        )\n        return decoder_out\n\n\ndef train_language_model(\n    data_dir,\n    arch,\n    extra_flags=None,\n    run_validation=False,\n    extra_valid_flags=None,\n    task=\"language_modeling\",\n    world_size=1,\n):\n    train_parser = options.get_training_parser()\n    train_args = options.parse_args_and_arch(\n        train_parser,\n        [\n            \"--task\",\n            task,\n            data_dir,\n            \"--arch\",\n            arch,\n            \"--optimizer\",\n            \"adam\",\n            \"--lr\",\n            \"0.0001\",\n            \"--max-tokens\",\n            \"500\",\n            \"--tokens-per-sample\",\n            \"500\",\n            \"--save-dir\",\n            data_dir,\n            \"--max-epoch\",\n            \"1\",\n            \"--no-progress-bar\",\n            \"--distributed-world-size\",\n            str(world_size),\n            \"--ddp-backend\",\n            \"no_c10d\",\n            \"--num-workers\",\n            \"0\",\n        ]\n        + (extra_flags or []),\n    )\n    cfg = convert_namespace_to_omegaconf(train_args)\n    distributed_utils.call_main(cfg, train.main)\n\n    if run_validation:\n        # test validation\n        validate_parser = options.get_validation_parser()\n        validate_args = options.parse_args_and_arch(\n            validate_parser,\n            [\n                \"--task\",\n                task,\n                data_dir,\n                \"--path\",\n                os.path.join(data_dir, \"checkpoint_last.pt\"),\n                \"--valid-subset\",\n                \"valid\",\n                \"--max-tokens\",\n                \"500\",\n                \"--no-progress-bar\",\n                \"--num-workers\",\n                \"0\",\n            ]\n            + (extra_valid_flags or []),\n        )\n        validate.main(validate_args)\n\n\ndef sizes(data):\n    return [len(sentence) for sentence in data]\n\n\nPOPULATION = string.ascii_letters + string.digits\n\n\ndef make_sentence() -> tp.List[str]:\n    length = random.randint(10, 50)\n    return random.choices(\n        population=POPULATION, k=length, weights=range(1, len(POPULATION) + 1)\n    )\n\n\ndef make_data(length=1000, out_file=None) -> tp.List[tp.List[str]]:\n    data = (\n        [make_sentence() for _ in range(0, length)]\n        # add all the symbols at least once\n        + [list(string.ascii_letters), list(string.digits)]\n    )\n    if out_file is not None:\n        with open(out_file, \"w\", encoding=\"utf-8\") as out:\n            for s in data:\n                print(\" \".join(s), file=out)\n\n    return data\n\n\ndef build_vocab(data: tp.List[tp.List[str]]) -> Dictionary:\n    d = Dictionary()\n    for s in data:\n        for token in s:\n            d.add_symbol(token)\n    d.finalize()\n    return d\n"
  },
  {
    "path": "train.py",
    "content": "#!/usr/bin/env python3 -u\n# Copyright (c) Facebook, Inc. and its affiliates.\n#\n# This source code is licensed under the MIT license found in the\n# LICENSE file in the root directory of this source tree.\n\"\"\"\nLegacy entry point. Use fairseq_cli/train.py or fairseq-train instead.\n\"\"\"\n\nfrom fairseq_cli.train import cli_main\n\n\nif __name__ == \"__main__\":\n    cli_main()\n"
  }
]